Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP6971209B2 - Information processing equipment, information processing methods, and programs - Google Patents
[go: Go Back, main page]

JP6971209B2 - Information processing equipment, information processing methods, and programs - Google Patents

Information processing equipment, information processing methods, and programs Download PDF

Info

Publication number
JP6971209B2
JP6971209B2 JP2018171361A JP2018171361A JP6971209B2 JP 6971209 B2 JP6971209 B2 JP 6971209B2 JP 2018171361 A JP2018171361 A JP 2018171361A JP 2018171361 A JP2018171361 A JP 2018171361A JP 6971209 B2 JP6971209 B2 JP 6971209B2
Authority
JP
Japan
Prior art keywords
entity
text data
web page
probability
target text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018171361A
Other languages
Japanese (ja)
Other versions
JP2020042707A (en
Inventor
葉子 石川
智輝 齋藤
樹生 豊田
真也 夜久
宏希 岩澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2018171361A priority Critical patent/JP6971209B2/en
Publication of JP2020042707A publication Critical patent/JP2020042707A/en
Application granted granted Critical
Publication of JP6971209B2 publication Critical patent/JP6971209B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。 The present invention relates to an information processing apparatus, an information processing method, and a program.

従来、ウェブからデータ(文書や画像など)を収集し、収集したデータを自動的にデータベース化するクローラが知られている(特許文献1参照)。クローラは、ウェブページ中のリンクを辿って、様々なIPアドレスのウェブページからデータを収集する。クローラによって収集されたデータは、ウェブ情報データベースに蓄積される。 Conventionally, a crawler that collects data (documents, images, etc.) from the Web and automatically creates a database of the collected data is known (see Patent Document 1). Crawlers collect data from web pages with various IP addresses by following links in web pages. The data collected by the crawler is stored in the web information database.

一方、検索エンジンは、ユーザによって入力された検索ワード(以下、「クエリ」ともいう)を受信すると、受信した検索ワードに関連するウェブページやアプリページの情報(例えばURL:Uniform Resource Locator)をウェブ情報データベースから取得し、取得した情報の一覧を検索結果として出力する。 On the other hand, when a search engine receives a search word input by a user (hereinafter, also referred to as a "query"), the information on a web page or application page related to the received search word (for example, URL: Uniform Resource Locator) is sent to the web. It is acquired from the information database and the list of acquired information is output as a search result.

特開2012−69171号公報Japanese Unexamined Patent Publication No. 2012-69171

検索エンジンは、ユーザ満足度を向上させるため、ユーザにより入力されたクエリに関連するデータを検索結果とともに出力するように運用されている場合がある。これを実現するために、テキストデータ(以下、「キーワード」ともいう)とエンティティとを互いに関連付けて記憶したデータベースが用いられる場合がある。ここで、データベースにおいて、ある特定のエンティティに関連付けられているテキストデータがクエリとして入力されると、その特定のエンティティに関する情報が検索結果とともに出力されることになる。 The search engine may be operated to output the data related to the query entered by the user together with the search result in order to improve the user satisfaction. In order to realize this, a database in which text data (hereinafter, also referred to as “keyword”) and an entity are associated with each other and stored may be used. Here, when the text data associated with a specific entity is input as a query in the database, the information about the specific entity is output together with the search result.

しかしながら、テキストデータが、エンティティに関する情報として適切ではない場合、不適切な情報が検索結果とともに出力される場合があった。また、テキストデータとエンティティとの関連付けの適切さの評価を行う方法が提案されているが、この評価が適切に行われておらず、テキストデータがエンティティに関する情報として適切であるにもかかわらず、そのエンティティに関する情報がユーザに提供されない場合があった。 However, if the text data is not appropriate as information about the entity, inappropriate information may be output together with the search result. In addition, a method for evaluating the appropriateness of the association between the text data and the entity has been proposed, but this evaluation is not performed properly and the text data is appropriate as information about the entity. In some cases, information about the entity was not provided to the user.

本発明は、このような事情を考慮してなされたものであり、エンティティとキーワードとの関係を適切に評価することができる情報処理装置を提供することを目的の一つとする。 The present invention has been made in consideration of such circumstances, and one of the objects of the present invention is to provide an information processing apparatus capable of appropriately evaluating the relationship between an entity and a keyword.

本発明の一態様は、エンティティとテキストデータとが関連付けられたコンテンツ情報のうち、対象テキストデータを選択する選択部と、前記選択部によって選択された前記対象テキストデータに関連する第1種類の関連ウェブページを収集する収集部と、前記第1種類の関連ウェブページにおいて、前記コンテンツ情報における前記対象テキストデータと関連付けられたエンティティをテキストとして含む第1サービスへのリンク先が選択された第1確率と、前記コンテンツ情報における前記対象テキストデータと関連付けられたエンティティをテキストとして含む第2サービスへのリンク先が選択された第2確率とに基づいて、前記対象テキストデータに関連付けられるエンティティの評価を行う評価部と、を備える情報処理装置である。 One aspect of the present invention is a first type of relationship between a selection unit that selects target text data among content information in which an entity and text data are associated with each other and the target text data selected by the selection unit. The first probability that the link destination to the first service including the entity associated with the target text data in the content information in the content information is selected in the collection unit that collects the web pages and the related web page of the first type. And, based on the second probability that the link destination to the second service including the entity associated with the target text data in the content information is selected as text, the entity associated with the target text data is evaluated. It is an information processing device including an evaluation unit.

本発明の一態様によれば、エンティティとキーワードとの関係を適切に評価することができる。 According to one aspect of the present invention, the relationship between an entity and a keyword can be appropriately evaluated.

本実施形態に係るナレッジデータサーバの使用環境及び構成を示す図である。It is a figure which shows the use environment and the configuration of the knowledge data server which concerns on this embodiment. 本実施形態に係るナレッジグラフの一例を示す図である。It is a figure which shows an example of the knowledge graph which concerns on this embodiment. 本実施形態に係る「東京タワー」のウェブページの一例を示す図である。It is a figure which shows an example of the web page of "Tokyo Tower" which concerns on this embodiment. 本実施形態に係るコンテンツ情報の一例を示す図である。It is a figure which shows an example of the content information which concerns on this embodiment. 本実施形態に係る検索結果ウェブページの一例を示す図である。It is a figure which shows an example of the search result web page which concerns on this embodiment. 本実施形態に係る関連ウェブページの一例を示す図である。It is a figure which shows an example of the related web page which concerns on this embodiment. 本実施形態に係る関連ウェブページの他の一例を示す図である。It is a figure which shows another example of the related web page which concerns on this embodiment. 本実施形態に係るコンテンツ情報及び総合得点の一例を示す図である。It is a figure which shows an example of the content information and the total score which concerns on this embodiment. 本実施形態のナレッジデータサーバの総合得点を算出する動作の一例を示す流れ図である。It is a flow chart which shows an example of the operation which calculates the total score of the knowledge data server of this embodiment. 本実施形態のナレッジデータサーバの総合得点に基づく動作の一例を示す流れ図である。It is a flow chart which shows an example of the operation based on the total score of the knowledge data server of this embodiment.

以下、図面を参照し、本発明の情報処理装置、情報処理方法、及びプログラムの実施形態について説明する。本実施形態においては、情報処理装置が、ナレッジデータサーバの一部を構成するものとして説明する。ナレッジデータサーバは、例えば、収集対象データ(例えば、画像やテキストデータ)を収集し、収集したデータに基づいてナレッジグラフを生成するサーバである。本実施形態において、ナレッジグラフは、エンティティやクラス、プロパティと、エンティティに関連する関連データが記載されているウェブページの所在情報とが関連付けられたデータである。 Hereinafter, embodiments of the information processing apparatus, information processing method, and program of the present invention will be described with reference to the drawings. In the present embodiment, the information processing apparatus will be described as forming a part of the knowledge data server. The knowledge data server is, for example, a server that collects data to be collected (for example, image or text data) and generates a knowledge graph based on the collected data. In the present embodiment, the knowledge graph is data in which an entity, a class, and a property are associated with the location information of a web page in which related data related to the entity is described.

エンティティとは、例えば、ある対象事物の実体(例えば、実世界で存在している物体)を表していてもよいし、ある対象事物の概念(例えば、実世界または仮想世界の中で定義された概念)を表していてもよい。例えば、対象事物が「建物」という概念である場合、エンティティは、「○○塔」や「○○ビルディング」などといった実体を表してよい。また、例えば、対象事物が「経済学」という概念である場合、エンティティは、「ミクロ経済学」や「マクロ経済学」などといった実体のない抽象的な概念を表してよい。以下、実施形態について詳細に説明する。 An entity may represent, for example, an entity of an object (eg, an object that exists in the real world) or a concept of an object (eg, defined in the real world or virtual world). It may represent a concept). For example, when the object is the concept of "building", the entity may represent an entity such as "○○ tower" or "○○ building". Further, for example, when the object is the concept of "economics", the entity may represent an insubstantial abstract concept such as "microeconomics" or "macroeconomics". Hereinafter, embodiments will be described in detail.

<実施形態>
<1−1.ナレッジデータサーバの使用環境>
図1は、本実施形態に係るナレッジデータサーバ100の使用環境及び構成を示す図である。ナレッジデータサーバ100は、端末装置200と、ウェブサーバ300と、クロール対象機器DVと、ネットワークNWを介して通信可能に接続される。ネットワークNWは、ワールドワイドウェブ(World Wide Web)を意味し、インターネットやイントラネットで標準的に用いられるHTML(HyperText Markup Language)文書などを利用したシステムである。ネットワークNWは、無線基地局やプロバイダ装置、専用回線などを更に含んでよい。
<Embodiment>
<1-1. Knowledge data server usage environment>
FIG. 1 is a diagram showing a usage environment and configuration of the knowledge data server 100 according to the present embodiment. The knowledge data server 100 is communicably connected to the terminal device 200, the web server 300, the crawl target device DV, and the network NW. The network NW means the World Wide Web, and is a system that uses HTML (HyperText Markup Language) documents that are standardly used on the Internet and intranets. The network NW may further include a radio base station, a provider device, a dedicated line, and the like.

端末装置200は、ユーザによって使用される装置であり、例えば、スマートフォンなどの携帯電話、タブレット型コンピュータ、ノート型コンピュータ、デスクトップ型コンピュータなどである。ウェブサーバ300は、検索エンジンを用いて検索結果を表示するためのウェブページを生成し、端末装置200に提供する。 The terminal device 200 is a device used by a user, and is, for example, a mobile phone such as a smartphone, a tablet computer, a notebook computer, a desktop computer, or the like. The web server 300 generates a web page for displaying the search result by using the search engine, and provides the terminal device 200 with the web page.

ナレッジデータサーバ100は、例えば、制御部110と、記憶部120とを備える。記憶部120は、例えば、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリ、またはこれらのうち複数が組み合わされたハイブリッド型記憶装置などにより実現される。また、記憶部120の一部または全部は、NAS(Network Attached Storage)や外部のストレージサーバなど、ナレッジデータサーバ100がアクセス可能な外部装置であってもよい。記憶部120には、ナレッジグラフD1と、コンテンツ情報D2とが記憶される。 The knowledge data server 100 includes, for example, a control unit 110 and a storage unit 120. The storage unit 120 is realized by, for example, a RAM (Random Access Memory), an HDD (Hard Disk Drive), a flash memory, or a hybrid storage device in which a plurality of these are combined. Further, a part or all of the storage unit 120 may be an external device such as NAS (Network Attached Storage) or an external storage server that can be accessed by the knowledge data server 100. The knowledge graph D1 and the content information D2 are stored in the storage unit 120.

図2は、本実施形態に係るナレッジグラフD1の一例を示す図である。ナレッジグラフD1において記述された事物は、オントロジーによって定義される。オントロジーとは、事物のクラスおよびプロパティを定義したものであり、クラスとプロパティとの間に成り立つ制約を集めたものである。 FIG. 2 is a diagram showing an example of Knowledge Graph D1 according to the present embodiment. The things described in Knowledge Graph D1 are defined by the ontology. An ontology is a definition of a class and a property of an object, and is a collection of constraints that hold between the class and the property.

クラスとは、オントロジーにおいて、同じ性質を持つ事物同士を一つのグループにしたものである。事物の性質がどういったものであるのか、すなわち事物がどのクラスに属するのかは、後述するプロパティにより決定される。 A class is a group of things that have the same properties in an ontology. What the nature of an object is, that is, which class the object belongs to, is determined by the properties described below.

例えば、くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている、という性質を持つ事物は、「鳥」というクラスに分類される。また、「鳥」というクラスの中で、飛べない、という性質を持つ事物は、例えば、「ペンギン」や「ダチョウ」という、より下位のクラスに分類される。このように、クラスの体系は、上位と下位の関係を有する階層構造となっていてよい。上位のクラスの性質は、下位のクラスに継承される。上述した例では、「鳥」というクラスの、「くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている」という性質は、「ペンギン」や「ダチョウ」という下位のクラスの性質にも含まれることになる。クラスを識別するためのクラス名は、例えば、「鳥」というクラスであれば、そのクラス名は「鳥」という文字列によって表されてよい。なお、クラス名は、必ずしも意味を表している必要はなく、例えば、「鳥」というクラスであっても、「情報1」や「C1」といった単なる識別情報を示す文字列が割り当てられてもよい。上述したエンティティ、すなわち事物は、オントロジーにより定義されたクラス体系の中に含まれる、いずれかのクラスに属するものとする。 For example, things that have a beak, an oviparous vertebrate, and forelimbs that are wings are classified in the "bird" class. Also, in the class of "birds", things that have the property of not being able to fly are classified into lower classes such as "penguins" and "ostriches". In this way, the class system may have a hierarchical structure having a higher-lower relationship. The nature of the upper class is inherited by the lower class. In the example above, the "bird" class's "beak-bearing, oviparous vertebrate with winged forelimbs" property is a lower class property of "penguins" and "ostriches". Will also be included. For example, if the class name for identifying the class is a class "bird", the class name may be represented by the character string "bird". The class name does not necessarily have to represent a meaning, and for example, even in the class "bird", a character string indicating mere identification information such as "information 1" or "C1" may be assigned. .. The above-mentioned entities, or things, shall belong to any of the classes contained within the class system defined by the ontology.

プロパティとは、事物の性質や特徴、クラス間の関係を記述する属性である。例えば、プロパティは、「〜を体の構成要素としてもつ」という性質や、「〜に生息する」という性質を示す属性であってもよいし、「あるクラスが上位クラスであり、あるクラスが下位クラスである」というクラス間の上位下位の関係を示す属性であってもよい。プロパティを識別するためのプロパティ名は、上述したクラス名と同様に、そのプロパティ名自体が意味を表していてもよいし、意味を表していなくてもよい。 Properties are attributes that describe the nature and characteristics of things and the relationships between classes. For example, a property may be an attribute that has the property of "having ~ as a component of the body" or the property of "living in ...", or "a class is a higher class and a certain class is a lower class". It may be an attribute indicating the relationship between the upper and lower levels of "class". As for the property name for identifying the property, the property name itself may or may not represent the meaning, as in the class name described above.

ナレッジグラフD1は、上述したクラスがノードとして表され、上述したプロパティがラベル付き、且つ方向性のあるエッジとして表された有向グラフである。このようなグラフ構造によって、事物についての情報がノードにより、事物間の関係がエッジによって判別可能となる。 The Knowledge Graph D1 is a directed graph in which the above-mentioned classes are represented as nodes and the above-mentioned properties are represented as labeled and directional edges. With such a graph structure, information about things can be discriminated by nodes, and relationships between things can be discriminated by edges.

図2に示されるナレッジグラフD1は、エンティティE1と、エンティティE2とが、「所在地」というプロパティ名のクラスに属する。本実施形態において、各エンティティには、各エンティティを識別することが可能な情報(以下、「エンティティ識別情報EID」という)と、エンティティ名と、エンティティのウェブページの所在情報とが関連付けられる。所在情報とは、ウェブ上の位置を特定するための情報であり、例えば、URLである。所在情報が示すウェブページには、エンティティの関連データが記載されている。 In the knowledge graph D1 shown in FIG. 2, the entity E1 and the entity E2 belong to the class of the property name "location". In the present embodiment, each entity is associated with information that can identify each entity (hereinafter referred to as "entity identification information EID"), the entity name, and the location information of the web page of the entity. The location information is information for specifying a position on the Web, and is, for example, a URL. The web page indicated by the location information contains the relevant data of the entity.

図2に示されるナレッジグラフD1において、エンティティE1には、エンティティ識別情報EIDの「0001」と、エンティティ名の「東京タワー」と、エンティティに関連する関連データが記載されているウェブページの所在情報である「http://百科事典ウェブページ/東京タワー」及び「http://地域情報ウェブページ/東京タワー」というURLとが関連付けられている。また、エンティティE2には、エンティティ識別情報EIDの「0002」と、エンティティ名「東京都」と、このエンティティに関連する関連データが記載されているウェブページの所在情報である「http://百科事典ウェブページ/東京都」というURLとが関連付けられている。以降の説明において、エンティティに関連する関連データをエンティティの関連データと記載する。また、エンティティの関連データが記載されているウェブページを、エンティティのウェブページとも記載する。 In the knowledge graph D1 shown in FIG. 2, the entity E1 has the entity identification information EID "0001", the entity name "Tokyo Tower", and the location information of the web page in which the related data related to the entity is described. Is associated with the URLs "http: // encyclopedia web page / Tokyo Tower" and "http: // regional information web page / Tokyo Tower". Further, in the entity E2, the entity identification information EID "0002", the entity name "Tokyo", and the location information of the web page in which the related data related to this entity are described are described as "http: // encyclopedia". It is associated with the URL "Encyclopedia Web Page / Tokyo". In the following description, the related data related to the entity will be described as the related data of the entity. In addition, the web page in which the data related to the entity is described is also described as the web page of the entity.

図3は、本実施形態に係る「東京タワー」のウェブページの一例を示す図である。「東京タワー」のウェブページには、「東京タワー」の関連データが記載されている。 FIG. 3 is a diagram showing an example of a web page of “Tokyo Tower” according to the present embodiment. The "Tokyo Tower" web page contains data related to "Tokyo Tower".

図4は、本実施形態に係るコンテンツ情報D2の一例を示す図である。コンテンツ情報D2とは、エンティティと、テキストデータとが関連付けられた情報である。コンテンツ情報D2は、ウェブページに含まれる関連データを収集した収集結果又は検索エンジンの検索ログに基づいて生成される。コンテンツ情報D2は、例えば、エンティティのウェブページに含まれるテキストデータが収集され、収集されたテキストデータと、エンティティとが関連付けられた情報である。また、コンテンツ情報D2は、例えば、エンティティがクエリとして入力された際、当該エンティティと共に入力されたテキストデータと、エンティティとが関連付けられた情報である。図4に示される一例のコンテンツ情報D2において、「東京タワー」というエンティティには、「日本電波塔」というテキストデータが関連付けられ、「東京都」というエンティティには、「日本の首都」というテキストデータが関連付けられる。 FIG. 4 is a diagram showing an example of the content information D2 according to the present embodiment. The content information D2 is information in which an entity and text data are associated with each other. The content information D2 is generated based on the collection result of collecting the related data contained in the web page or the search log of the search engine. The content information D2 is, for example, information in which text data included in a web page of an entity is collected and the collected text data is associated with the entity. Further, the content information D2 is, for example, information in which, when an entity is input as a query, the text data input together with the entity is associated with the entity. In the example content information D2 shown in FIG. 4, the entity "Tokyo Tower" is associated with the text data "Japan Radio Tower", and the entity "Tokyo" is associated with the text data "Capital of Japan". Is associated.

<1−2.検索結果ウェブページ>
図5は、本実施形態に係る検索結果ウェブページの一例を示す図である。図5に示されるように、端末装置200の表示部210には、クエリ入力領域211と、ナレッジパネル220と、検索結果230とが含まれる検索結果ウェブページが表示される。ナレッジパネル220には、クエリに対応するエンティティ221と、エンティティ221に関連する画像222と、エンティティ221に関連する関連情報223とが含まれる。ユーザは、端末装置200を用いて、端末装置200の表示部210に表示された検索ページにクエリを入力する。クエリとは、一つの検索ワードまたは複数の検索ワードの組み合わせである。端末装置200は、ユーザによって入力されたクエリをウェブサーバ300に送信する。
<1-2. Search result web page >
FIG. 5 is a diagram showing an example of a search result web page according to the present embodiment. As shown in FIG. 5, the display unit 210 of the terminal device 200 displays a search result web page including a query input area 211, a knowledge panel 220, and a search result 230. The knowledge panel 220 includes the entity 221 corresponding to the query, the image 222 associated with the entity 221 and the relevant information 223 associated with the entity 221. The user uses the terminal device 200 to input a query on the search page displayed on the display unit 210 of the terminal device 200. A query is a search word or a combination of multiple search words. The terminal device 200 sends the query entered by the user to the web server 300.

ウェブサーバ300は、端末装置200から受信したクエリをナレッジデータサーバ100に送信する。ナレッジデータサーバ100は、受信したクエリに対応するエンティティに関連する情報をウェブサーバ300に送信する。ナレッジデータサーバ100は、例えば、コンテンツ情報D2に基づいて、受信したクエリ(テキストデータ)に関連付けられたエンティティを判定する。また、ナレッジデータサーバ100は、ナレッジグラフD1に基づいて、判定したエンティティに関連付けられた所在情報をウェブサーバ300に送信する。ウェブサーバ300は、受信した所在情報に基づいて、当該所在情報が示すウェブページのうち、エンティティの関連データを抽出する。ウェブサーバ300は、抽出したエンティティの関連データ(この一例では、ナレッジパネル220に示す情報)を含めた検索結果ウェブページ(例えば、図5)を生成する。 The web server 300 transmits the query received from the terminal device 200 to the knowledge data server 100. The knowledge data server 100 sends information related to the entity corresponding to the received query to the web server 300. The knowledge data server 100 determines an entity associated with a received query (text data), for example, based on the content information D2. Further, the knowledge data server 100 transmits the location information associated with the determined entity to the web server 300 based on the knowledge graph D1. Based on the received location information, the web server 300 extracts the relevant data of the entity from the web pages indicated by the location information. The web server 300 generates a search result web page (eg, FIG. 5) that includes relevant data of the extracted entity (in this example, the information shown in the knowledge panel 220).

図5に示される例においては、クエリとして「日本電波塔」が入力され、ナレッジパネル220には「日本電波塔」に関連する画像や様々な情報が表示されている。ナレッジパネル220には、例えば、「日本電波塔」を示す「東京タワー」の画像222や、「東京タワー」の高さや所在地等の関連情報223が表示される。このように、検索結果230だけでなく、ナレッジパネル220を表示部210に表示することで、検索結果に対するユーザ満足度を向上させることができる。 In the example shown in FIG. 5, "Japan Radio Tower" is input as a query, and images and various information related to "Japan Radio Tower" are displayed on the knowledge panel 220. On the knowledge panel 220, for example, an image 222 of "Tokyo Tower" indicating "Japan Radio Tower" and related information 223 such as the height and location of "Tokyo Tower" are displayed. In this way, by displaying not only the search result 230 but also the knowledge panel 220 on the display unit 210, the user satisfaction with the search result can be improved.

上記のようなナレッジパネル220を提供するためには、ナレッジグラフD1及びコンテンツ情報D2に含まれる情報量を充実化させておき、多様なクエリに対応可能であり且つ適切なエンティティの情報を提供できるようにしておく必要がある。そこで、本実施形態のナレッジデータサーバ100は、エンティティに関連付けられるテキストデータが適切であるかを示す指標(以下、「得点」)を複数のサービスの利用状況に関する情報等に基づいて導出する。以下、ナレッジデータサーバ100の詳細な構成について説明する。 In order to provide the knowledge panel 220 as described above, the amount of information included in the knowledge graph D1 and the content information D2 can be enriched, and information on an appropriate entity that can respond to various queries can be provided. It is necessary to do so. Therefore, the knowledge data server 100 of the present embodiment derives an index (hereinafter, “score”) indicating whether the text data associated with the entity is appropriate based on information on the usage status of a plurality of services. Hereinafter, the detailed configuration of the knowledge data server 100 will be described.

<1−3.ナレッジデータサーバ100の構成>
図1に戻り、制御部110は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。制御部110は、例えば、選択部111と、収集部112と、得点算出部113と、所在情報取得部114と、通信I/F(Interface)115を備える。また、これらの構成要素のうち一部または全部(内包する記憶部を除く)は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。通信I/F115は、ネットワークNWを介した各機能部と、他の機器(例えば、クロールの対象機器(以下、クロール対象機器DV)、端末装置200、及びウェブサーバ300)との通信を仲介する。
<1-3. Configuration of Knowledge Data Server 100>
Returning to FIG. 1, the control unit 110 is realized by, for example, a hardware processor such as a CPU (Central Processing Unit) executing a program (software). The control unit 110 includes, for example, a selection unit 111, a collection unit 112, a score calculation unit 113, a location information acquisition unit 114, and a communication I / F (Interface) 115. In addition, some or all of these components (excluding the contained storage unit) are LSI (Large Scale Integration), ASIC (Application Specific Integrated Circuit), FPGA (Field-Programmable Gate Array), GPU (Graphics Processing). It may be realized by hardware (circuit unit; including circuitry) such as Unit), or it may be realized by the cooperation of software and hardware. The communication I / F 115 mediates communication between each functional unit via the network NW and other devices (for example, a crawl target device (hereinafter, crawl target device DV), a terminal device 200, and a web server 300). ..

選択部111は、コンテンツ情報D2から得点算出対象の任意のテキストデータ(以下、「対象テキストデータ」)を選択する。収集部112は、選択部111によって選択された対象テキストデータに関連するウェブページ(以下、「関連ウェブページ」)を、ネットワークNWを介して収集する。収集部112は、例えば、利用者によって編集可能な百科事典のウェブページ、対象テキストデータをクエリとした場合の検索結果ウェブページ、この検索結果のウェブページに含まれるリンクのクリックログなどの利用状況に関する情報を収集する。以下、利用者によって編集可能な百科事典のウェブページを、百科事典ウェブページと記載する。 The selection unit 111 selects arbitrary text data (hereinafter, “target text data”) to be scored from the content information D2. The collection unit 112 collects a web page (hereinafter, “related web page”) related to the target text data selected by the selection unit 111 via the network NW. The collection unit 112 uses, for example, an encyclopedia web page that can be edited by a user, a search result web page when the target text data is used as a query, and a click log of a link included in the search result web page. Gather information about. Hereinafter, the encyclopedia web page that can be edited by the user is referred to as an encyclopedia web page.

ここで、百科事典ウェブページは、第1のサービス(以下、百科事典提供サービス)によって提供されるページである。百科事典ウェブページは、第2種類の関連ウェブページの一例である。また、検索結果ウェブページとは、第1種類の関連ウェブページの一例である。検索結果ウェブページに含まれるリンクには、第1のサービスによって提供される百科事典ウェブページへのリンクの他、第1のサービスとは異なる第2のサービスによって提供されるウェブページへのリンク等が含まれる。第2のサービスは、例えば、ランドマーク情報等の地域情報、店舗情報、観光地情報、宿泊施設情報、映画館情報、病院・診療所情報、美容院情報、駐車場情報、レンタカー情報を提供するサービスや、ユーザに書籍などの商品またはサービスを販売するサービスである。以下においては、第2のサービスが、ランドマーク情報等の地域情報を提供する地域情報提供サービスである例を説明する。また、地域情報提供サービスにより提供されるウェブページを、地域情報ウェブページと記載する。 Here, the encyclopedia web page is a page provided by the first service (hereinafter, encyclopedia providing service). The encyclopedia web page is an example of a second type of related web page. The search result web page is an example of the first type of related web page. The links included in the search result web page include links to the encyclopedia web page provided by the first service, as well as links to the web page provided by the second service different from the first service. Is included. The second service provides, for example, regional information such as landmark information, store information, tourist destination information, accommodation facility information, movie theater information, hospital / clinic information, beauty salon information, parking lot information, and rental car information. A service or a service that sells goods or services such as books to users. In the following, an example in which the second service is a regional information providing service that provides regional information such as landmark information will be described. In addition, the web page provided by the regional information provision service is referred to as a regional information web page.

図6は、収集部112により収集された百科事典ウェブページの一例を示す図である。図6に示される例においては、収集部112は、百科事典ウェブページのうち、コンテンツ情報D2が示す「東京タワー」のエンティティに関連付けられる「日本電波塔」という対象テキストデータが記載された関連ウェブページを収集する。収集部112は、例えば、百科事典ウェブページのHTMLデータを含む収集対象データを、ネットワークNWを介してクロール対象機器DVから収集する。収集部112は、いわゆるクローラプログラムにより実現される。ここで、収集対象データは、ネットワークNW上(クロール対象機器DVの記憶領域内)にあり、ブラウザで閲覧可能なデータである。なお、収集対象データは、ブラウザに限らず、アプリケーションプログラムによって再生されるデータであってもよい。収集対象データは、例えば、HTMLのソースを示すテキストデータを含む関連ウェブページである。収集部112は、百科事典ウェブページのうち、対象テキストデータが記載された関連ウェブページが存在する場合、そのすべてを収集する。 FIG. 6 is a diagram showing an example of an encyclopedia web page collected by the collection unit 112. In the example shown in FIG. 6, the collecting unit 112 describes the related web page of the encyclopedia web page in which the target text data "Japan Radio Tower" associated with the entity of "Tokyo Tower" indicated by the content information D2 is described. Collect pages. The collection unit 112 collects the collection target data including the HTML data of the encyclopedia web page from the crawl target device DV via the network NW, for example. The collecting unit 112 is realized by a so-called crawler program. Here, the data to be collected is data that is on the network NW (in the storage area of the device DV to be crawled) and can be viewed by a browser. The data to be collected is not limited to the browser, and may be data reproduced by the application program. The data to be collected is, for example, a related web page containing text data indicating the source of HTML. The collection unit 112 collects all the related web pages in which the target text data is described among the encyclopedia web pages.

また、図7は、収集部112により収集された検索結果ウェブページの一例を示す図である。図7に示される例においては、検索結果ウェブページは、コンテンツ情報D2が示すエンティティ「東京タワー」が検索結果として表示される、「日本電波塔」というクエリ(図示するテキストTX21)が入力された場合の検索結果を示している。クエリは、対象テキストデータの一例である。 Further, FIG. 7 is a diagram showing an example of a search result web page collected by the collection unit 112. In the example shown in FIG. 7, in the search result web page, a query (illustrated text TX21) in which the entity "Tokyo Tower" indicated by the content information D2 is displayed as a search result is input. Shows the search results for the case. The query is an example of target text data.

図1に戻り、得点算出部113は、収集部112により収集された関連ウェブページに基づいて、対象テキストデータとエンティティとの組の得点(評価結果)を算出する。収集部112は、例えば、式(1)が示すP(e|s)の値を得点として算出する。式(1)における各種要素については、後述する式(2)、(3)並びに関連ウェブページの種類ごとに説明する。 Returning to FIG. 1, the score calculation unit 113 calculates the score (evaluation result) of the set of the target text data and the entity based on the related web page collected by the collection unit 112. The collecting unit 112 calculates, for example, the value of P (e | s) represented by the equation (1) as a score. Various elements in the formula (1) will be described for each of the formulas (2) and (3) described later and the types of related web pages.

Figure 0006971209
Figure 0006971209

以下、得点算出部113による得点算出処理の詳細について説明する。 Hereinafter, the details of the score calculation process by the score calculation unit 113 will be described.

<1−4.第1のサービス(百科事典提供サービス)に関する得点算出>
<関連ウェブページが百科事典ウェブページの場合>
得点算出部113は、百科事典ウェブページに含まれるテキストデータのうち、対象テキストデータと関連付けられたエンティティを示すテキストデータが、リンク先を示すテキスト(アンカーテキスト)として含まれる確率を算出する。関連ウェブページには、対象テキストデータ(この一例では、「日本電波塔」(図6に示されるテキストTX11)と関連付けられたエンティティ(この一例では、「東京タワー」)を示すテキストデータ(図6に示されるテキストTX12〜14)が含まれる。また、テキストTX12〜14のうち、テキストTX12は、アンカーテキストである。また、テキストTX12に付与された他のウェブページのリンクは、ナレッジグラフD1において、対象テキストデータに関連付けられたエンティティ(この一例では、「東京タワー」)に関連付けられた所在情報である。
<1-4. Score calculation for the first service (encyclopedia service)>
<If the related web page is an encyclopedia web page>
The score calculation unit 113 calculates the probability that the text data indicating the entity associated with the target text data is included as the text (anchor text) indicating the link destination among the text data included in the encyclopedia web page. The related web page contains text data (Fig. 6) indicating the target text data (in this example, "Japan Radio Tower" (text TX11 shown in FIG. 6) and the entity associated with it (in this example, "Tokyo Tower")). The text TX12-14) shown in the text TX12-14), the text TX12 is an anchor text, and the links of other web pages attached to the text TX12 are in the knowledge graph D1. , The location information associated with the entity associated with the target text data (in this example, "Tokyo Tower").

ここで、得点算出部113は、以下の式(2)によって、対象テキストデータを含むすべての百科事典ウェブページにおける対象テキストデータに関連付けられたエンティティを示すテキストデータの数に対して、アンカーテキストであるエンティティを示すテキストデータの数によって求められる確率(以下、「アンカーテキスト確率」)を算出する。式(2)におけるaは、アンカーテキスト確率を示している。ここで、アンカーテキスト確率とは、第3確率の一例である。 Here, the score calculation unit 113 uses the following equation (2) as an anchor text for the number of text data indicating the entity associated with the target text data in all the encyclopedia web pages including the target text data. The probability obtained by the number of text data indicating a certain entity (hereinafter, "anchor text probability") is calculated. A s in equation (2) shows the anchor text probability. Here, the anchor text probability is an example of the third probability.

Figure 0006971209
Figure 0006971209

また、得点算出部113は、以下の式(3)によって、当該アンカーテキストのリンク先が、ナレッジグラフD1において対象テキストデータと関連付けられた所在情報に対応するエンティティのウェブページ(以下、「特定のウェブページ」)である確率(以下、「第1エンティティ確率」)を算出する。式(3)におけるeとは、第1エンティティ確率を示している。ここで、第1エンティティ確率とは、第4確率の一例である。 Further, the score calculation unit 113 uses the following formula (3) to indicate that the link destination of the anchor text is the web page of the entity corresponding to the location information associated with the target text data in the Knowledge Graph D1 (hereinafter, "specific". Web page ") is calculated (hereinafter," first entity probability "). The e in the equation (3) indicates the first entity probability. Here, the first entity probability is an example of the fourth probability.

Figure 0006971209
Figure 0006971209

収集部112により収集された関連ウェブページが図6に示すウェブページのみである場合、得点算出部113は、すべての関連ウェブページに含まれる対象テキストデータのうち、当該対象テキストデータがアンカーテキストである確率(つまり、アンカーテキスト確率)を「1/3」と算出する。図示する対象テキストデータの中で、リンクが付与されるのは一つだからである。また、得点算出部113は、当該アンカーテキストのリンク先が、対象テキストデータと関連付けられるエンティティの特定のウェブページである確率(第1エンティティ確率)を「1」と算出する。 When the related web page collected by the collecting unit 112 is only the web page shown in FIG. 6, the score calculation unit 113 uses the target text data as an anchor text among the target text data included in all the related web pages. A certain probability (that is, anchor text probability) is calculated as "1/3". This is because only one link is added to the illustrated target text data. Further, the score calculation unit 113 calculates the probability (first entity probability) that the link destination of the anchor text is a specific web page of the entity associated with the target text data as "1".

<関連ウェブページが検索結果ウェブページの場合>
得点算出部113は、検索結果ウェブページに含まれる対象テキストデータと関連付けられたエンティティをテキストとして含むリンク先が選択された確率を算出する。対象テキストデータは、「日本電波塔」(図示するテキストTX21)であり、対象テキストデータと関連付けられたエンティティは、「東京タワー」である。以降の説明において、対象テキストデータと関連付けられたエンティティに係るテキストを、対象エンティティテキストデータと記載する。図7の例では、関連ウェブページには、対象テキストデータの関連ウェブページのリンクが付与されたテキストデータ(図示するテキストTX22〜24)が含まれる。ここで、テキストTX22に付与されたリンク先は、例えば、ナレッジグラフD1において、対象テキストデータに関連付けられたエンティティ(この一例では、「東京タワー」)に関連付けられた所在情報である。つまり、テキストTX22が有する他のウェブページのリンクは、特定のウェブページであり、一例として百科事典ウェブページである。なお、検索結果ウェブページには、リンクを有さないテキストであって、エンティティを示すテキストTX25が含まれてよい。
<If the related web page is a search result web page>
The score calculation unit 113 calculates the probability that the link destination including the entity associated with the target text data included in the search result web page is selected as the text. The target text data is "Japan Radio Tower" (text TX21 in the figure), and the entity associated with the target text data is "Tokyo Tower". In the following description, the text related to the entity associated with the target text data will be referred to as the target entity text data. In the example of FIG. 7, the related web page includes text data (texts TX22 to 24 shown) to which a link of the related web page of the target text data is added. Here, the link destination given to the text TX22 is, for example, the location information associated with the entity (in this example, “Tokyo Tower”) associated with the target text data in the Knowledge Graph D1. That is, the link of another web page of the text TX22 is a specific web page, for example, an encyclopedia web page. It should be noted that the search result web page may include text TX25, which is text without a link and indicates an entity.

得点算出部113は、式(2)によって、すべての検索結果ウェブページに含まれるそれぞれのリンク先がクリックされた回数に対して、対象エンティティテキストデータを含む百科事典ウェブページに関するリンク先がクリックされた回数の比として求められる確率(以下、エンティティテキストクリック確率)を算出する。なお、「クリック」とは、選択することの一例であり、タッチ、タップその他の態様で選択されてもよい。以下の説明では代表してクリックと称する。式(2)におけるaは、エンティティテキストクリック確率を示している。ここで、エンティティテキストクリック確率とは、第1確率の一例である。 The score calculation unit 113 clicks the link destination related to the encyclopedia web page including the target entity text data for the number of times each link destination included in all the search result web pages is clicked by the formula (2). Calculate the probability obtained as the ratio of the number of times (hereinafter, entity text click probability). The "click" is an example of selection, and may be selected by touch, tap, or other modes. In the following description, it is collectively referred to as click. A s in equation (2) shows the entity text click probability. Here, the entity text click probability is an example of the first probability.

また、得点算出部113は、式(3)によって、対象エンティティテキストデータを含むリンク先が、エンティティに関する特定のウェブページである確率(以下、「第2エンティティ確率」)を算出する。式(3)におけるeは、第2エンティティ確率を示している。ここで、第2エンティティ確率とは、第4確率の他の一例である。 Further, the score calculation unit 113 calculates the probability that the link destination including the target entity text data is a specific web page related to the entity (hereinafter, “second entity probability”) by the equation (3). E in the equation (3) indicates the second entity probability. Here, the second entity probability is another example of the fourth probability.

<関連ウェブページ毎の重み付け>
また、得点算出部113は、関連ウェブページが百科事典ウェブページである場合において算出されたアンカーテキスト確率に対して第1エンティティ確率を乗じた値に対して、以下の式(4)を更に乗じてもよい。また、得点算出部113は、関連ウェブページが検索結果ウェブページである場合において算出されたエンティティテキストクリック確率に対して第2エンティティ確率を乗じた値に対して、以下の式(4)を更に乗じてもよい。そして、得点算出部113は、例えば、両者を加算して対数を求めることで、得点(第1スコア)を算出する。
<Weighting for each related web page>
Further, the score calculation unit 113 further multiplies the value obtained by multiplying the anchor text probability calculated when the related web page is the encyclopedia web page by the first entity probability by the following equation (4). You may. Further, the score calculation unit 113 further applies the following equation (4) to the value obtained by multiplying the entity text click probability calculated when the related web page is the search result web page by the second entity probability. You may multiply. Then, the score calculation unit 113 calculates a score (first score) by, for example, adding both to obtain a logarithm.

Figure 0006971209
Figure 0006971209

式(4)は、百科事典ウェブページを用いて式(2)および式(3)を計算したサンプル数と、検索結果ウェブページを用いて式(2)および式(3)を計算したサンプル数との割合を示す。 Equation (4) is the number of samples for which equations (2) and (3) are calculated using the encyclopedia web page, and the number of samples for which equations (2) and (3) are calculated using the search result web page. The ratio with and is shown.

得点算出部113は、百科事典ウェブページを用いて式(2)および式(3)を計算したサンプル数の割合を、アンカーテキスト確率と、第1エンティティ確率とを乗じた値に更に乗じ、検索結果ウェブページを用いて式(2)および式(3)を計算したサンプル数の割合を、エンティティテキストクリック確率と、第2エンティティ確率とを乗じた値に更に乗じ、両者を加算することで、得点に重み付けを行う。 The score calculation unit 113 further multiplies the ratio of the number of samples for which equations (2) and (3) are calculated using the encyclopedia web page by the value obtained by multiplying the anchor text probability and the first entity probability, and searches. By further multiplying the ratio of the number of samples calculated in equations (2) and (3) using the result web page by the value obtained by multiplying the entity text click probability and the second entity probability, and adding both. Weight the score.

<1−5.第2のサービス(地域情報提供サービス)に関する得点算出>
<関連ウェブページが検索結果ウェブページの場合>
得点算出部113は、検索結果ウェブページに含まれる対象テキストデータと関連付けられたエンティティをテキストとして含むリンク先が選択された確率を算出する。対象テキストデータは、「日本電波塔」(図示するテキストTX21)であり、対象テキストデータと関連付けられたエンティティは、「東京タワー」である。図7の例では、関連ウェブページには、対象テキストデータの関連ウェブページのリンクが付与されたテキストデータ(図示するテキストTX22〜24)が含まれる。このうち、地域情報提供サービスに関する対象エンティティテキストデータ(この一例では、「東京タワー」)が含まれるのは、テキストTX24である。テキストTX24に付与されたリンク先は、例えば、ナレッジグラフD1において、対象テキストデータに関連付けられたエンティティ(この一例では、「東京タワー」)に関連付けられた所在情報である。つまり、テキストTX24が有する他のウェブページのリンクは、特定のウェブページであり、一例として地域情報ウェブページである。
<1-5. Score calculation for the second service (regional information provision service)>
<If the related web page is a search result web page>
The score calculation unit 113 calculates the probability that the link destination including the entity associated with the target text data included in the search result web page is selected as the text. The target text data is "Japan Radio Tower" (text TX21 in the figure), and the entity associated with the target text data is "Tokyo Tower". In the example of FIG. 7, the related web page includes text data (texts TX22 to 24 shown) to which a link of the related web page of the target text data is added. Of these, the text TX24 includes the target entity text data related to the regional information providing service (“Tokyo Tower” in this example). The link destination given to the text TX24 is, for example, the location information associated with the entity (“Tokyo Tower” in this example) associated with the target text data in the Knowledge Graph D1. That is, the link of the other web page of the text TX24 is a specific web page, for example, a regional information web page.

得点算出部113は、上記の式(2)によって、すべての検索結果ウェブページに含まれるそれぞれのリンク先がクリックされた回数に対して、対象エンティティテキストデータを含む地域情報提供サービスに関するリンク先がクリックされた回数の比として求められる確率(以下、「エンティティテキストクリック確率」)を算出する。ここで、エンティティテキストクリック確率とは、第2確率の一例である。
According to the above formula (2), the score calculation unit 113 sets the link destination related to the regional information providing service including the target entity text data to the number of times each link destination included in all the search result web pages is clicked. The probability obtained as the ratio of the number of clicks (hereinafter, "entity text click probability") is calculated. Here, the entity text click probability is an example of the second probability.

また、得点算出部113は、関連ウェブページが検索結果ウェブページである場合において算出されたエンティティテキストクリック確率に基づいて得点(第2スコア)を算出する。 Further, the score calculation unit 113 calculates a score (second score) based on the entity text click probability calculated when the related web page is a search result web page.

<1−6.総合得点算出>
得点算出部113は、第1のサービス(百科事典提供サービス)に関して算出した第1スコアと、第2のサービス(地域情報提供サービス)に関して算出した第2スコアと、を加算することで総合得点を算出し、算出した総合得点をコンテンツ情報D2に関連付けて記憶させる。図8は、本実施形態に係るコンテンツ情報D2及び得点の一例を示す図である。
<1-6. Total score calculation>
The score calculation unit 113 totals the total score by adding the first score calculated for the first service (encyclopedia providing service) and the second score calculated for the second service (regional information providing service). It is calculated, and the calculated total score is stored in association with the content information D2. FIG. 8 is a diagram showing an example of the content information D2 and the score according to the present embodiment.

図1に戻り、所在情報取得部114は、記憶部120に記憶されたコンテンツ情報D2を参照して、ウェブサーバ300から受信したクエリに対応するエンティティを取得する。所在情報取得部114は、受信したクエリと合致するテキストデータに所定の閾値以上の得点が関連付けられている場合、当該テキストデータに関連付けられているエンティティを、当該クエリに対応するエンティティとして判定する。所在情報取得部114は、ナレッジグラフD1に基づいて、判定したエンティティに関連付けられている所在情報を取得する。その後、所在情報取得部114は、取得した所在情報をウェブサーバ300に送信する。所在情報取得部114は、判定部の一例である。 Returning to FIG. 1, the location information acquisition unit 114 refers to the content information D2 stored in the storage unit 120, and acquires an entity corresponding to the query received from the web server 300. When the text data matching the received query is associated with a score equal to or higher than a predetermined threshold value, the location information acquisition unit 114 determines the entity associated with the text data as the entity corresponding to the query. The location information acquisition unit 114 acquires the location information associated with the determined entity based on the knowledge graph D1. After that, the location information acquisition unit 114 transmits the acquired location information to the web server 300. The location information acquisition unit 114 is an example of a determination unit.

このように、所在情報取得部114は、ウェブサーバ300からクエリを受信した場合、クエリに対応するテキストデータを特定する。このとき、クエリとテキストデータとが完全一致する場合だけでなく、部分一致または意味的に同一とみなされる程度の相違がある場合も、対応するテキストデータとみなしてよい。 In this way, when the location information acquisition unit 114 receives the query from the web server 300, the location information acquisition unit 114 identifies the text data corresponding to the query. At this time, not only when the query and the text data are exactly the same, but also when there is a partial match or a difference to the extent that they are considered to be semantically the same, it may be regarded as the corresponding text data.

<1−7.ナレッジデータサーバ100の動作>
以下、ナレッジデータサーバ100の動作について説明する。図9は、本実施形態のナレッジデータサーバ100の総合得点を算出する動作の一例を示す流れ図である。選択部111は、コンテンツ情報D2のうち、得点算出対象の対象テキストデータを選択する(S100)。次に、収集部112は、対象テキストデータに基づいて、関連ウェブページ(百科事典ウェブページ及び検索結果ウェブページ)を収集する(S102)。次に、得点算出部113は、第1のサービス(百科事典提供サービス)に関する第1スコアを算出する(S104)。
<1-7. Operation of Knowledge Data Server 100>
Hereinafter, the operation of the knowledge data server 100 will be described. FIG. 9 is a flow chart showing an example of an operation of calculating the total score of the knowledge data server 100 of the present embodiment. The selection unit 111 selects the target text data to be scored from the content information D2 (S100). Next, the collection unit 112 collects related web pages (encyclopedia web page and search result web page) based on the target text data (S102). Next, the score calculation unit 113 calculates the first score for the first service (encyclopedia providing service) (S104).

次に、得点算出部113は、第2のサービス(地域情報提供サービス)に関する第2スコアを算出する(S106)。次に、得点算出部113は、算出した第1スコアと、第2スコアとを加算することで総合得点を算出し(S108)、算出した総合得点をコンテンツ情報D2に関連付けて記憶部120に記憶させる。以上により、本フローチャートの処理が終了する。 Next, the score calculation unit 113 calculates the second score for the second service (regional information providing service) (S106). Next, the score calculation unit 113 calculates the total score by adding the calculated first score and the second score (S108), associates the calculated total score with the content information D2, and stores it in the storage unit 120. Let me. This completes the processing of this flowchart.

図10は、本実施形態のナレッジデータサーバ100の得点に基づく動作の一例を示す流れ図である。所在情報取得部114は、ウェブサーバ300からクエリを受信する(S200)。次に、所在情報取得部114は、コンテンツ情報D2のうち、クエリと合致するテキストデータに関連付けられている総合得点を読み出す(S202)。次に、所在情報取得部114は、総合得点が所定の閾値以上であるかを判定する(S204)。所在情報取得部114は、総合得点が所定の閾値以上である場合、ナレッジグラフD1においてテキストデータに関連付けられているエンティティの所在情報をウェブサーバ300に送信(出力)する(S206)。また、所在情報取得部114は、総合得点が所定の閾値未満である場合、ウェブサーバ300に所在情報を送信(出力)しない(S208)。以上により、本フローチャートの処理が終了する。 FIG. 10 is a flow chart showing an example of an operation based on the score of the knowledge data server 100 of the present embodiment. The location information acquisition unit 114 receives a query from the web server 300 (S200). Next, the location information acquisition unit 114 reads out the total score associated with the text data matching the query in the content information D2 (S202). Next, the location information acquisition unit 114 determines whether the total score is equal to or higher than a predetermined threshold value (S204). When the total score is equal to or higher than a predetermined threshold value, the location information acquisition unit 114 transmits (outputs) the location information of the entity associated with the text data in the knowledge graph D1 to the web server 300 (S206). Further, the location information acquisition unit 114 does not transmit (output) the location information to the web server 300 when the total score is less than a predetermined threshold value (S208). This completes the processing of this flowchart.

以上、説明したように、本実施形態のナレッジデータサーバ100は、エンティティとテキストデータとが関連付けられたコンテンツ情報のうち、対象テキストデータを選択する選択部111と、選択部111によって選択された対象テキストデータに関連する第1種類の関連ウェブページを収集する収集部112と、第1種類の関連ウェブページにおいて、コンテンツ情報における対象テキストデータと関連付けられたエンティティをテキストとして含む第1サービスへのリンク先が選択された第1確率と、コンテンツ情報における対象テキストデータと関連付けられたエンティティをテキストとして含む第2サービスへのリンク先が選択された第2確率とに基づいて、対象テキストデータに関連付けられるエンティティの評価を行う評価部(得点算出部113)と、を備える。これによって、本実施形態のナレッジデータサーバ100は、エンティティとキーワードとの関係を適切に評価することができる。 As described above, the knowledge data server 100 of the present embodiment has a selection unit 111 for selecting target text data and a target selected by the selection unit 111 among the content information in which the entity and the text data are associated with each other. A link to a collection unit 112 that collects the first type of related web pages related to text data and a first service that includes an entity associated with the target text data in the content information as text in the first type of related web pages. It is associated with the target text data based on the first probability that the destination is selected and the second probability that the link destination to the second service that includes the entity associated with the target text data in the content information as text is selected. It includes an evaluation unit (score calculation unit 113) that evaluates an entity. Thereby, the knowledge data server 100 of the present embodiment can appropriately evaluate the relationship between the entity and the keyword.

本実施形態においては、複数のサービスの利用情報に関する情報に基づいて、エンティティとキーワードとの関係を評価する。このため、例えば、エンティティに関する情報が第1のサービス(百科事典情報提供サービス)に掲載されておらず、この第1のサービスの利用情報に関する情報が取得できない場合であっても、第2のサービス(地域情報提供サービス)の利用情報に関する情報が取得できれば、エンティティとキーワードとの関係を適切に評価することができる。 In this embodiment, the relationship between the entity and the keyword is evaluated based on the information regarding the usage information of a plurality of services. Therefore, for example, even if the information about the entity is not posted in the first service (encyclopedia information providing service) and the information about the usage information of the first service cannot be obtained, the second service If information on the usage information of (regional information provision service) can be obtained, the relationship between the entity and the keyword can be appropriately evaluated.

尚、上記の実施形態においては、第1のサービス(百科事典情報提供サービス)と、第2のサービス(地域情報提供サービス)との2つのサービスの利用情報に関する情報に基づいて、エンティティとキーワードとの関係を評価する例について説明した。しかしながら、3つ以上のサービスの利用情報に関する情報に基づいてエンティティとキーワードとの関係を評価してもよい。 In the above embodiment, the entity and the keyword are used based on the information on the usage information of the two services, the first service (encyclopedia information providing service) and the second service (regional information providing service). An example of evaluating the relationship between However, the relationship between the entity and the keyword may be evaluated based on the information regarding the usage information of three or more services.

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。 Although the embodiments for carrying out the present invention have been described above using the embodiments, the present invention is not limited to these embodiments, and various modifications and substitutions are made without departing from the gist of the present invention. Can be added.

100…ナレッジデータサーバ
110…制御部
111…選択部
112…収集部
113…得点算出部
114…所在情報取得部
120…記憶部
200…端末装置
210…表示部
211…クエリ入力領域
220…ナレッジパネル
221…エンティティ
222…画像
223…関連情報
230…検索結果
300…ウェブサーバ
D1…ナレッジグラフ
D2…コンテンツ情報
100 ... Knowledge data server 110 ... Control unit 111 ... Selection unit 112 ... Collection unit 113 ... Score calculation unit 114 ... Location information acquisition unit 120 ... Storage unit 200 ... Terminal device 210 ... Display unit 211 ... Query input area 220 ... Knowledge panel 221 ... Entity 222 ... Image 223 ... Related information 230 ... Search result 300 ... Web server D1 ... Knowledge graph D2 ... Content information

Claims (9)

エンティティと、前記エンティティと関連付けられたテキストデータとを含むコンテンツ情報から、対象テキストデータとする前記テキストデータを選択する選択部と、
前記選択部によって選択された前記対象テキストデータに関連する第1種類の関連ウェブページを収集する収集部と、
前記第1種類の関連ウェブページにおいて、
第1サービスへのリンク先が選択された第1確率であって、前記第1サービスへのリンク先を示すアンカーテキストは、前記コンテンツ情報における前記対象テキストデータと関連付けられたエンティティを示すテキスト含む、前記第1確率と、
第2サービスへのリンク先が選択された第2確率であって、前記第2サービスへのリンク先を示すアンカーテキストは、前記コンテンツ情報における前記対象テキストデータと関連付けられたエンティティを示すテキスト含む、前記第2確率とに基づいて、
前記対象テキストデータに関連付けられるエンティティの評価を行う評価部と、
を備える情報処理装置。
A selection unit that selects the text data to be the target text data from the content information including the entity and the text data associated with the entity.
A collection unit that collects the first type of related web pages related to the target text data selected by the selection unit, and a collection unit.
In the first type of related web page,
A first probability that links to the first service is selected, the anchor text indicating the destination to the first service includes a text indicating the target text data and associated entity in the content information , The first probability and
A second probability that links to the second service is selected, the anchor text indicating the destination to the second service includes text indicating the target text data and associated entity in the content information , Based on the second probability
An evaluation unit that evaluates the entity associated with the target text data,
Information processing device equipped with.
前記収集部は、前記選択部によって選択された前記対象テキストデータに関連する第2種類の関連ウェブページを収集し、
前記評価部は、前記収集部によって収集された前記第2種類の関連ウェブページにおいて、前記対象テキストデータに関連付けられたエンティティを示すテキストデータがアンカーテキストである第3確率に基づいて、前記評価を行う、
請求項1に記載の情報処理装置。
The collection unit collects a second type of related web page related to the target text data selected by the selection unit.
The evaluation unit performs the evaluation based on the third probability that the text data indicating the entity associated with the target text data is the anchor text in the second type of related web page collected by the collection unit. conduct,
The information processing apparatus according to claim 1.
前記評価部は、前記第2種類の関連ウェブページにおける前記アンカーテキストのリンク先にあるウェブページが、前記コンテンツ情報において前記対象テキストデータと関連付けられるエンティティのウェブページである第4確率に基づいて、前記評価を行う、
請求項2に記載の情報処理装置。
The evaluation unit is based on a fourth probability that the web page linked to the anchor text in the second type of related web page is the web page of the entity associated with the target text data in the content information. Perform the above evaluation,
The information processing apparatus according to claim 2.
前記第1種類の関連ウェブページは、前記対象テキストデータをクエリとして用いた場合の検索結果を表示するウェブページである、
請求項1から3のいずれか一項に記載の情報処理装置。
The first type of related web page is a web page that displays search results when the target text data is used as a query.
The information processing apparatus according to any one of claims 1 to 3.
前記第2種類の関連ウェブページは、利用者によって編集可能な百科事典のウェブページである、
請求項2または3に記載の情報処理装置。
The second type of related web page is an encyclopedia web page that can be edited by the user.
The information processing apparatus according to claim 2 or 3.
前記評価部は、前記エンティティの評価結果を、前記エンティティと関連付けて前記コンテンツ情報に追加し、
前記情報処理装置は、
入力されたクエリに対して、前記コンテンツ情報における前記クエリと合致する前記テキストデータと関連付けられたエンティティに対する前記評価結果を参照し、前記エンティティに関する情報を出力すべきか否かを判定する判定部を更に備える、
請求項1から請求項5のいずれか一項に記載の情報処理装置。
The evaluation unit adds the evaluation result of the entity to the content information in association with the entity.
The information processing device is
Further, a determination unit for determining whether or not to output information about the entity by referring to the evaluation result for the entity associated with the text data matching the query in the content information for the input query. Prepare, prepare
The information processing apparatus according to any one of claims 1 to 5.
前記評価部は、前記第1確率に基づいて求めた第1スコアと、前記第2確率に基づいて求めた第2スコアとを加算することで、前記対象テキストデータに対応するエンティティの得点を算出し、
前記判定部は、前記得点が所定の閾値以上である場合、当該得点が関連付けられたエンティティの情報を出力し、前記得点が所定の閾値より少ない場合、当該得点が関連付けられたエンティティの情報を出力しないと決定する、
請求項6に記載の情報処理装置。
The evaluation unit calculates the score of the entity corresponding to the target text data by adding the first score obtained based on the first probability and the second score obtained based on the second probability. death,
When the score is equal to or higher than a predetermined threshold value, the determination unit outputs information on the entity associated with the score, and when the score is less than the predetermined threshold value, outputs information on the entity associated with the score. Decide not to
The information processing apparatus according to claim 6.
コンピュータが、
エンティティと、前記エンティティと関連付けられたテキストデータとを含むコンテンツ情報から、対象テキストデータとする前記テキストデータを選択し、
選択された前記対象テキストデータに関連する第1種類の関連ウェブページを収集し、
前記第1種類の関連ウェブページにおいて、
第1サービスへのリンク先が選択された第1確率であって、前記第1サービスへのリンク先を示すアンカーテキストは、前記コンテンツ情報における前記対象テキストデータと関連付けられたエンティティを示すテキスト含む、前記第1確率と、
第2サービスへのリンク先が選択された第2確率であって、前記第2サービスへのリンク先を示すアンカーテキストは、前記コンテンツ情報における前記対象テキストデータと関連付けられたエンティティを示すテキスト含む、前記第2確率とに基づいて、
前記対象テキストデータに関連付けられるエンティティの評価を行う、
情報処理方法。
The computer
The text data to be the target text data is selected from the content information including the entity and the text data associated with the entity.
Collect the first type of related web pages related to the selected target text data and
In the first type of related web page,
A first probability that links to the first service is selected, the anchor text indicating the destination to the first service includes a text indicating the target text data and associated entity in the content information , The first probability and
A second probability that links to the second service is selected, the anchor text indicating the destination to the second service includes text indicating the target text data and associated entity in the content information , Based on the second probability
Evaluate the entity associated with the target text data,
Information processing method.
コンピュータに、
エンティティと、前記エンティティと関連付けられたテキストデータとを含むコンテンツ情報から、対象テキストデータとする前記テキストデータを選択させ、
選択された前記対象テキストデータに関連する第1種類の関連ウェブページを収集させ、
前記第1種類の関連ウェブページにおいて、
第1サービスへのリンク先が選択された第1確率であって、前記第1サービスへのリンク先を示すアンカーテキストは、前記コンテンツ情報における前記対象テキストデータと関連付けられたエンティティを示すテキスト含む、前記第1確率と、
第2サービスへのリンク先が選択された第2確率であって、前記第2サービスへのリンク先を示すアンカーテキストは、前記コンテンツ情報における前記対象テキストデータと関連付けられたエンティティを示すテキスト含む、前記第2確率とに基づいて、
前記対象テキストデータに関連付けられるエンティティの評価を行わせる、
プログラム。
On the computer
The text data to be the target text data is selected from the content information including the entity and the text data associated with the entity.
Have the selected first type of related web pages related to the target text data collected.
In the first type of related web page,
A first probability that links to the first service is selected, the anchor text indicating the destination to the first service includes a text indicating the target text data and associated entity in the content information , The first probability and
A second probability that links to the second service is selected, the anchor text indicating the destination to the second service includes text indicating the target text data and associated entity in the content information , Based on the second probability
To evaluate the entity associated with the target text data,
program.
JP2018171361A 2018-09-13 2018-09-13 Information processing equipment, information processing methods, and programs Active JP6971209B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018171361A JP6971209B2 (en) 2018-09-13 2018-09-13 Information processing equipment, information processing methods, and programs

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018171361A JP6971209B2 (en) 2018-09-13 2018-09-13 Information processing equipment, information processing methods, and programs

Publications (2)

Publication Number Publication Date
JP2020042707A JP2020042707A (en) 2020-03-19
JP6971209B2 true JP6971209B2 (en) 2021-11-24

Family

ID=69798455

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018171361A Active JP6971209B2 (en) 2018-09-13 2018-09-13 Information processing equipment, information processing methods, and programs

Country Status (1)

Country Link
JP (1) JP6971209B2 (en)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100896614B1 (en) * 2007-01-29 2009-05-08 엔에이치엔(주) Search system and method
JP2010191940A (en) * 2009-01-23 2010-09-02 Kenwood Corp Information processing apparatus, information processing method, and program
JP5408658B2 (en) * 2009-11-16 2014-02-05 日本電信電話株式会社 Information consistency determination device, method and program thereof
JP2011118652A (en) * 2009-12-03 2011-06-16 Fujifilm Corp Apparatus for deciding word-related keywords, and method and program for controlling operation of same
US10289957B2 (en) * 2014-12-30 2019-05-14 Excalibur Ip, Llc Method and system for entity linking
JP6971104B2 (en) * 2017-09-20 2021-11-24 ヤフー株式会社 Information processing equipment, information processing methods, and programs

Also Published As

Publication number Publication date
JP2020042707A (en) 2020-03-19

Similar Documents

Publication Publication Date Title
JP6906419B2 (en) Information providing equipment, information providing method, and program
KR101514588B1 (en) System and method for providing contextual actions on a search results page
Brown et al. Usability of geographic information: current challenges and future directions
KR20040087205A (en) A method of managing web sites registered in search engine and a system thereof
CN106599299A (en) Determining method and device of website key words
JP2017129925A (en) Web page analysis device, web page analysis method and program
JP7003020B2 (en) Information processing equipment, information processing methods, and programs
US20150134632A1 (en) Search method
KR20200117542A (en) Apparatus and method for generating information link
JP2011100350A (en) Device, method and program for generating summary
Bhanu et al. Assessing Completeness of a WEB site from Quality Perspective
JP5154109B2 (en) Document search apparatus, method, and program
JP6971209B2 (en) Information processing equipment, information processing methods, and programs
Faba‐Pérez et al. Comparative analysis of webometric measurements in thematic environments
JP6971104B2 (en) Information processing equipment, information processing methods, and programs
JP6993913B2 (en) Information processing equipment, information processing methods, and programs
JP7078569B2 (en) Information processing equipment, information processing methods, and programs
JP6982520B2 (en) Information processing equipment, information processing methods, and programs
JP6467694B1 (en) Search term evaluation device, evaluation system, evaluation method, and evaluation module production method
JP7088693B2 (en) Information processing equipment, information processing methods, and programs
Al-Abdullatif et al. Using online hotel customer reviews to improve the booking process
JP6971210B2 (en) Information processing equipment, information processing methods, and programs
JP7354019B2 (en) Information processing device, information processing method, and program
CN111222918A (en) Keyword mining method, device, electronic device and storage medium
JP6985189B2 (en) Data collection equipment, data collection methods, and programs

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200313

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211005

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211101

R150 Certificate of patent or registration of utility model

Ref document number: 6971209

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250