Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP6971210B2 - Information processing equipment, information processing methods, and programs - Google Patents
[go: Go Back, main page]

JP6971210B2 - Information processing equipment, information processing methods, and programs - Google Patents

Information processing equipment, information processing methods, and programs Download PDF

Info

Publication number
JP6971210B2
JP6971210B2 JP2018176380A JP2018176380A JP6971210B2 JP 6971210 B2 JP6971210 B2 JP 6971210B2 JP 2018176380 A JP2018176380 A JP 2018176380A JP 2018176380 A JP2018176380 A JP 2018176380A JP 6971210 B2 JP6971210 B2 JP 6971210B2
Authority
JP
Japan
Prior art keywords
entity
context
index value
calculation unit
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018176380A
Other languages
Japanese (ja)
Other versions
JP2020047102A (en
Inventor
樹生 豊田
智輝 齋藤
真也 夜久
葉子 石川
宏希 岩澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2018176380A priority Critical patent/JP6971210B2/en
Publication of JP2020047102A publication Critical patent/JP2020047102A/en
Application granted granted Critical
Publication of JP6971210B2 publication Critical patent/JP6971210B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。 The present invention relates to an information processing apparatus, an information processing method, and a program.

従来、ウェブからデータ(文書や画像など)を収集し、収集したデータを自動的にデータベース化するクローラが知られている(特許文献1参照)。クローラは、ウェブページ中のリンクを辿って、様々なIPアドレスのウェブページからデータを収集する。クローラによって収集されたデータは、ウェブ情報データベースに蓄積される。 Conventionally, a crawler that collects data (documents, images, etc.) from the Web and automatically creates a database of the collected data is known (see Patent Document 1). Crawlers collect data from web pages with various IP addresses by following links in web pages. The data collected by the crawler is stored in the web information database.

一方、検索エンジンは、ユーザによって入力された検索ワードを受信すると、受信した検索ワードに関連するウェブページやアプリページの情報(例えば、URL:Uniform Resource Locator)をウェブ情報データベースから取得し、取得した情報の一覧を検索結果として出力する。 On the other hand, when the search engine receives the search word input by the user, the information of the web page or application page related to the received search word (for example, URL: Uniform Resource Locator) is acquired from the web information database and acquired. Output a list of information as a search result.

特開2012−69171号公報Japanese Unexamined Patent Publication No. 2012-69171

Matthew D. Hoffmanら、“Online Learning for Latent Dirichlet Allocation”,[online],[2018年2月27日検索],インターネット<URL:https://papers.nips.cc/paper/3902-online-learning-for-latent-dirichlet-allocation.pdf>Matthew D. Hoffman et al., “Online Learning for Latent Dirichlet Allocation”, [online], [Searched February 27, 2018], Internet <URL: https://papers.nips.cc/paper/3902-online-learning -for-latent-dirichlet-allocation.pdf >

検索エンジンは、ユーザ満足度を向上させるため、ユーザによって入力された検索ワード(以下、「クエリ」、「検索クエリ」とも言う)に関連するデータを検索結果とともに出力するように運用されている場合がある。これを実現するために、テキストデータとエンティティとを互いに対応付けて記憶したデータベースが用いられる場合がある。 When the search engine is operated to output the data related to the search word (hereinafter, also referred to as "query" or "search query") entered by the user together with the search result in order to improve the user satisfaction. There is. In order to achieve this, a database in which text data and entities are associated with each other and stored may be used.

このデータベースにおいて、ある特定のエンティティにのみ対応付けられているテキストデータがクエリとして入力されると、自ずと、その特定のエンティティが検索結果とともに出力されることになる。一方、1つのテキストデータが複数のエンティティに対応付けられている場合、ユーザが意図しない不適切なエンティティに関する情報が検索結果とともに出力される可能性がある。また、1度の検索要求処理において入力されたクエリに複数のワードが含まれている場合、いずれのワードがエンティティを示しているのかを判定できず、不適切なエンティティに関する情報が検索結果とともに出力される可能性がある。 In this database, when text data associated only with a specific entity is input as a query, that specific entity is naturally output together with the search result. On the other hand, when one text data is associated with a plurality of entities, information about an inappropriate entity not intended by the user may be output together with the search result. Also, if the query entered in one search request processing contains multiple words, it cannot be determined which word indicates the entity, and information about the inappropriate entity is output together with the search results. May be done.

本発明は、このような事情を考慮してなされたものであり、ユーザにより入力されたクエリの検索意図を適切に評価することができる情報処理装置を提供することを目的の一つとする。 The present invention has been made in consideration of such circumstances, and one of the objects of the present invention is to provide an information processing apparatus capable of appropriately evaluating the search intention of a query input by a user.

本発明の一態様は、クエリとして入力された2つ以上のワードのそれぞれと、エンティティとの関連度を示す第1指標値を算出する第1指標値算出部と、前記ワードをコンテキストとして含むエンティティと、前記ワードのそれぞれとの関連度を示す第2指標値を算出する第2指標値算出部と、前記エンティティ毎にコンテキストの候補を定義したリストを生成するリスト生成部と、前記第1指標値算出部により算出された前記第1指標値と、前記第2指標値算出部により算出された前記第2指標値と、前記リスト生成部により生成された前記リストとに基づいて、前記ワードのうちの前記エンティティの名前として仮定されたワードと、前記エンティティと、前記ワードのうちの前記コンテキストとして仮定されたワードとの組み合わせの各々の生起確率を算出する生起確率算出部とを備える情報処理装置である。 One aspect of the present invention includes each of two or more words input as a query, a first index value calculation unit that calculates a first index value indicating the degree of association with an entity, and an entity that includes the word as a context. A second index value calculation unit that calculates a second index value indicating the degree of association with each of the words, a list generation unit that generates a list that defines context candidates for each entity, and the first index. The word of the word is based on the first index value calculated by the value calculation unit, the second index value calculated by the second index value calculation unit, and the list generated by the list generation unit. An information processing device including a occurrence probability calculation unit for calculating the occurrence probability of each combination of a word assumed as the name of the entity, the entity, and the word assumed as the context of the word. Is.

本発明の一態様によれば、ユーザにより入力されたクエリの検索意図を適切に評価することができる。 According to one aspect of the present invention, the search intention of the query input by the user can be appropriately evaluated.

本実施形態に係るナレッジデータサーバの使用環境及び構成を示す図である。It is a figure which shows the use environment and the configuration of the knowledge data server which concerns on this embodiment. 本実施形態に係るナレッジグラフの一例を示す図である。It is a figure which shows an example of the knowledge graph which concerns on this embodiment. 本実施形態に係る「野球選手A」のウェブページの一例を示す図である。It is a figure which shows an example of the web page of "baseball player A" which concerns on this embodiment. 本実施形態に係る「野球チームB」のウェブページの一例を示す図である。It is a figure which shows an example of the web page of "baseball team B" which concerns on this embodiment. 本実施形態に係るコンテンツ情報の一例を示す図である。It is a figure which shows an example of the content information which concerns on this embodiment. 本実施形態に係る検索結果ウェブページの一例を示す図である。It is a figure which shows an example of the search result web page which concerns on this embodiment. 本実施形態に係る収集部により収集された関連ウェブページの一例を示す図である。It is a figure which shows an example of the related web page collected by the collection part which concerns on this embodiment. 本実施形態に係る収集部により収集された関連ウェブページの他の一例を示す図である。It is a figure which shows another example of the related web page collected by the collection part which concerns on this embodiment. 本実施形態に係る収集部により収集された関連ウェブページの他の一例を示す図である。It is a figure which shows another example of the related web page collected by the collection part which concerns on this embodiment. 本実施形態に係る「野球選手A」のウェブページの他の一例を示す図である。It is a figure which shows another example of the web page of "baseball player A" which concerns on this embodiment. 本実施形態に係るコンテンツ情報及び第1確率の一例を示す図である。It is a figure which shows an example of the content information and the 1st probability which concerns on this embodiment. 本実施形態に係るコンテキスト収集部によるコンテキスト収集処理の一例を説明する図である。It is a figure explaining an example of the context collection process by the context collection part which concerns on this embodiment. 本実施形態に係るコンテキスト収集部によるコンテキスト収集処理の他の例を説明する図である。It is a figure explaining another example of the context collection process by the context collection part which concerns on this embodiment. 本実施形態に係るコンテキスト情報の一例を示す図である。It is a figure which shows an example of the context information which concerns on this embodiment. 本実施形態に係る第2確率算出部によるコンテキストの頻度情報の算出処理の一例を説明する図である。It is a figure explaining an example of the calculation processing of the frequency information of a context by the 2nd probability calculation part which concerns on this embodiment. 本実施形態のナレッジデータサーバの第1確率を算出する動作の一例を示す流れ図である。It is a flow chart which shows an example of the operation which calculates the 1st probability of the knowledge data server of this embodiment. 本実施形態のナレッジデータサーバの第2確率を算出する動作の一例を示す流れ図である。It is a flow chart which shows an example of the operation which calculates the 2nd probability of the knowledge data server of this embodiment. 本実施形態のナレッジデータサーバの第2確率を算出する詳細動作の一例を示す流れ図である。It is a flow chart which shows an example of the detailed operation which calculates the 2nd probability of the knowledge data server of this embodiment. 本実施形態のナレッジデータサーバのホワイトリストを生成する動作の一例を示す流れ図である。It is a flow diagram which shows an example of the operation which generates the white list of the knowledge data server of this embodiment. 本実施形態のホワイトリスト情報の一例を示す図である。It is a figure which shows an example of the white list information of this embodiment. 本実施形態のナレッジデータサーバのコンテキスト付与率を算出する動作の一例を示す流れ図である。It is a flow diagram which shows an example of the operation which calculates the context grant rate of the knowledge data server of this embodiment. 本実施形態のコンテキスト付与率情報の一例を示す図である。It is a figure which shows an example of the context grant rate information of this embodiment. 本実施形態のナレッジデータサーバのオンライン動作の一例を示す流れ図である。It is a flow chart which shows an example of the online operation of the knowledge data server of this embodiment. 本実施形態のナレッジデータサーバのオンライン動作の一例を説明する図である。It is a figure explaining an example of the online operation of the knowledge data server of this embodiment.

以下、図面を参照し、本発明の情報処理装置、情報処理方法、及びプログラムの実施形態について説明する。本実施形態においては、情報処理装置が、ナレッジデータサーバの一部を構成するものとして説明する。ナレッジデータサーバは、例えば、収集対象データ(例えば、画像やテキストデータ)を収集し、収集したデータに基づいてナレッジグラフを生成するサーバである。本実施形態において、ナレッジグラフは、エンティティやクラス、プロパティと、エンティティに関連する関連データが記載されているウェブページの所在情報とが関連付けられたデータである。 Hereinafter, embodiments of the information processing apparatus, information processing method, and program of the present invention will be described with reference to the drawings. In the present embodiment, the information processing apparatus will be described as forming a part of the knowledge data server. The knowledge data server is, for example, a server that collects data to be collected (for example, image or text data) and generates a knowledge graph based on the collected data. In the present embodiment, the knowledge graph is data in which an entity, a class, and a property are associated with the location information of a web page in which related data related to the entity is described.

エンティティとは、例えば、ある対象事物の実体(例えば、実世界で存在している物体)を表していてもよいし、ある対象事物の概念(例えば、実世界または仮想世界の中で定義された概念)を表していてもよい。例えば、対象事物が「建物」という概念である場合、エンティティは、「○○塔」や「○○ビルディング」などといった実体を表してよい。また、例えば、対象事物が「経済学」という概念である場合、エンティティは、「ミクロ経済学」や「マクロ経済学」などといった実体のない抽象的な概念を表してよい。以下、実施形態について詳細に説明する。 An entity may represent, for example, an entity of an object (eg, an object that exists in the real world) or a concept of an object (eg, defined in the real world or virtual world). It may represent a concept). For example, when the object is the concept of "building", the entity may represent an entity such as "○○ tower" or "○○ building". Further, for example, when the object is the concept of "economics", the entity may represent an insubstantial abstract concept such as "microeconomics" or "macroeconomics". Hereinafter, embodiments will be described in detail.

<実施形態>
<1−1.ナレッジデータサーバの使用環境>
図1は、本実施形態に係るナレッジデータサーバ100の使用環境及び構成を示す図である。ナレッジデータサーバ100は、端末装置200と、ウェブサーバ300と、クロール対象機器DVと、ネットワークNWを介して通信可能に接続される。ネットワークNWは、ワールドワイドウェブ(World Wide Web)を意味し、インターネットやイントラネットで標準的に用いられるHTML文書などを利用したシステムである。ネットワークNWは、無線基地局やプロバイダ装置、専用回線などを更に含んでよい。
<Embodiment>
<1-1. Knowledge data server usage environment>
FIG. 1 is a diagram showing a usage environment and configuration of the knowledge data server 100 according to the present embodiment. The knowledge data server 100 is communicably connected to the terminal device 200, the web server 300, the crawl target device DV, and the network NW. The network NW means the World Wide Web, and is a system using HTML documents and the like that are standardly used on the Internet and intranets. The network NW may further include a radio base station, a provider device, a dedicated line, and the like.

端末装置200は、ユーザによって使用される装置であり、例えば、スマートフォンなどの携帯電話、タブレット型コンピュータ、ノート型コンピュータ、デスクトップ型コンピュータなどである。ウェブサーバ300は、検索エンジンを用いて検索結果を表示するためのウェブページを生成し、端末装置200に提供するサーバである。 The terminal device 200 is a device used by a user, and is, for example, a mobile phone such as a smartphone, a tablet computer, a notebook computer, a desktop computer, or the like. The web server 300 is a server that uses a search engine to generate a web page for displaying search results and provides it to the terminal device 200.

ナレッジデータサーバ100は、例えば、制御部110と、記憶部120とを備える。記憶部120は、例えば、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリ、またはこれらのうち複数が組み合わされたハイブリッド型記憶装置などにより実現される。また、記憶部120の一部または全部は、NAS(Network Attached Storage)や外部のストレージサーバなど、ナレッジデータサーバ100がアクセス可能な外部装置であってもよい。記憶部120には、例えば、ナレッジグラフ(以下、ナレッジグラフD1)と、コンテンツ情報D2と、コンテキスト情報D3と、ホワイトリスト情報D4と、コンテンツ付与率情報D5とが記憶される。 The knowledge data server 100 includes, for example, a control unit 110 and a storage unit 120. The storage unit 120 is realized by, for example, a RAM (Random Access Memory), an HDD (Hard Disk Drive), a flash memory, or a hybrid storage device in which a plurality of these are combined. Further, a part or all of the storage unit 120 may be an external device such as NAS (Network Attached Storage) or an external storage server that can be accessed by the knowledge data server 100. For example, the knowledge graph (hereinafter referred to as knowledge graph D1), the content information D2, the context information D3, the white list information D4, and the content addition rate information D5 are stored in the storage unit 120.

図2は、本実施形態に係るナレッジグラフD1の一例を示す図である。ナレッジグラフD1において記述された事物は、オントロジーによって定義される。オントロジーとは、事物のクラスおよびプロパティを定義したものであり、クラスとプロパティとの間に成り立つ制約を集めたものである。 FIG. 2 is a diagram showing an example of Knowledge Graph D1 according to the present embodiment. The things described in Knowledge Graph D1 are defined by the ontology. An ontology is a definition of a class and a property of an object, and is a collection of constraints that hold between the class and the property.

クラスとは、オントロジーにおいて、同じ性質を持つ事物同士を一つのグループにしたものである。事物の性質がどういったものであるのか、すなわち事物がどのクラスに属するのかは、後述するプロパティにより決定される。 A class is a group of things that have the same properties in an ontology. What the nature of an object is, that is, which class the object belongs to, is determined by the properties described below.

例えば、くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている、という性質を持つ事物は、「鳥」というクラスに分類される。また、「鳥」というクラスの中で、飛べない、という性質を持つ事物は、例えば、「ペンギン」や「ダチョウ」という、より下位のクラスに分類される。このように、クラスの体系は、上位と下位の関係を有する階層構造となっていてよい。上位のクラスの性質は、下位のクラスに継承される。上述した例では、「鳥」というクラスの、「くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている」という性質は、「ペンギン」や「ダチョウ」という下位のクラスの性質にも含まれることになる。クラスを識別するためのクラス名は、例えば、「鳥」というクラスであれば、そのクラス名は「鳥」という文字列によって表されてよい。なお、クラス名は、必ずしも意味を表している必要はなく、例えば、「鳥」というクラスであっても、「情報1」や「C1」といった単なる識別情報を示す文字列が割り当てられてもよい。上述したエンティティ、すなわち事物は、オントロジーにより定義されたクラス体系の中に含まれる、いずれかのクラスに属するものとする。 For example, things that have a beak, an oviparous vertebrate, and forelimbs that are wings are classified in the "bird" class. Also, in the class of "birds", things that have the property of not being able to fly are classified into lower classes such as "penguins" and "ostriches". In this way, the class system may have a hierarchical structure having a higher-lower relationship. The nature of the upper class is inherited by the lower class. In the example above, the "bird" class's "beak-bearing, oviparous vertebrate with winged forelimbs" property is a lower class property of "penguins" and "ostriches". Will also be included. For example, if the class name for identifying the class is a class "bird", the class name may be represented by the character string "bird". The class name does not necessarily have to represent a meaning, and for example, even in the class "bird", a character string indicating mere identification information such as "information 1" or "C1" may be assigned. .. The above-mentioned entities, or things, shall belong to any of the classes contained within the class system defined by the ontology.

プロパティとは、事物の性質や特徴、クラス間の関係を記述する属性である。例えば、プロパティは、「〜を体の構成要素としてもつ」という性質や、「〜に生息する」という性質を示す属性であってもよいし、「あるクラスが上位クラスであり、あるクラスが下位クラスである」というクラス間の上位下位の関係を示す属性であってもよい。プロパティを識別するためのプロパティ名は、上述したクラス名と同様に、そのプロパティ名自体が意味を表していてもよいし、意味を表していなくてもよい。 Properties are attributes that describe the nature and characteristics of things and the relationships between classes. For example, a property may be an attribute that has the property of "having ~ as a component of the body" or the property of "living in ...", or "a class is a higher class and a certain class is a lower class". It may be an attribute indicating the relationship between the upper and lower levels of "class". As for the property name for identifying the property, the property name itself may or may not represent the meaning, as in the class name described above.

ナレッジグラフD1は、上述したクラスがノードとして表され、上述したプロパティがラベル付き、且つ方向性のあるエッジとして表された有向グラフである。このようなグラフ構造によって、事物についての情報がノードにより、事物間の関係がエッジによって判別可能となる。 The Knowledge Graph D1 is a directed graph in which the above-mentioned classes are represented as nodes and the above-mentioned properties are represented as labeled and directional edges. With such a graph structure, information about things can be discriminated by nodes, and relationships between things can be discriminated by edges.

図2に示される例のナレッジグラフD1は、エンティティE1と、エンティティE2とが、「所属チーム」というプロパティ名のクラスに属する。本実施形態において、各エンティティには、各エンティティを識別することが可能な情報(以下、「エンティティ識別情報EID」)と、エンティティ名と、当該エンティティのウェブページの所在情報とが関連付けられる。所在情報とは、ウェブ上の位置を特定するための情報であり、例えば、URLである。所在情報が示すウェブページには、当該エンティティの関連データが記載されている。 In the example knowledge graph D1 shown in FIG. 2, the entity E1 and the entity E2 belong to a class having a property name of "belonging team". In the present embodiment, each entity is associated with information that can identify each entity (hereinafter, "entity identification information EID"), an entity name, and location information of a web page of the entity. The location information is information for specifying a position on the Web, and is, for example, a URL. The web page indicated by the location information contains the relevant data of the entity.

図2に示されるナレッジグラフD1において、エンティティE1には、エンティティ識別情報EIDの「0001」と、エンティティ名の「野球選手A」と、当該エンティティに関連する関連データが記載されているウェブページの所在情報である「http://百科事典ウェブページ/野球選手A」というURLとが対応付けられている。また、エンティティE2には、エンティティ識別情報EIDの「0002」と、エンティティ名「野球チームB」と、当該エンティティに関連する関連データが記載されているウェブページの所在情報である「http://百科事典ウェブページ/野球チームB」というURLとが対応付けられている。以降の説明において、エンティティに関連する関連データをエンティティの関連データと記載する。また、エンティティの関連データが記載されているウェブページを、エンティティのウェブページとも記載する。 In the knowledge graph D1 shown in FIG. 2, the entity E1 is a web page in which the entity identification information EID "0001", the entity name "baseball player A", and related data related to the entity are described. It is associated with the URL "http: // encyclopedia web page / baseball player A" which is the location information. Further, in the entity E2, the entity identification information EID "0002", the entity name "baseball team B", and the location information of the web page in which the related data related to the entity are described are described as "http: //". It is associated with the URL "Encyclopedia Web Page / Baseball Team B". In the following description, the related data related to the entity will be described as the related data of the entity. In addition, the web page in which the data related to the entity is described is also described as the web page of the entity.

図3は、本実施形態に係る「野球選手A」のウェブページの一例を示す図である。「野球選手A」のウェブページには、「野球選手A」の関連データが記載されている。また、図4は、本実施形態に係る「野球チームB」のウェブページの一例を示す図である。「野球チームB」のウェブページには、「野球チームB」の関連データが記載されている。 FIG. 3 is a diagram showing an example of a web page of “baseball player A” according to the present embodiment. The web page of "baseball player A" contains data related to "baseball player A". Further, FIG. 4 is a diagram showing an example of a web page of “baseball team B” according to the present embodiment. The web page of "Baseball Team B" contains data related to "Baseball Team B".

図5は、本実施形態に係るコンテンツ情報D2の一例を示す図である。コンテンツ情報D2とは、エンティティと、テキストデータとが関連付けられた情報である。コンテンツ情報D2は、ウェブページに含まれる関連データを収集した収集結果又は検索エンジンの検索ログに基づいて生成される。コンテンツ情報D2は、例えば、エンティティのウェブページに含まれるテキストデータが収集され、収集されたテキストデータと、エンティティとが関連付けられた情報である。また、コンテンツ情報D2は、例えば、エンティティがクエリとして入力された際、当該エンティティと共に入力されたテキストデータと、エンティティとが関連付けられた情報である。図5に示される一例のコンテンツ情報D2において、「野球選手A」というエンティティには、「3000本安打」というテキストデータが関連付けられ、「野球チームB」というエンティティには、「2017年優勝」というテキストデータが関連付けられる。 FIG. 5 is a diagram showing an example of the content information D2 according to the present embodiment. The content information D2 is information in which an entity and text data are associated with each other. The content information D2 is generated based on the collection result of collecting the related data contained in the web page or the search log of the search engine. The content information D2 is, for example, information in which text data included in a web page of an entity is collected and the collected text data is associated with the entity. Further, the content information D2 is, for example, information in which, when an entity is input as a query, the text data input together with the entity is associated with the entity. In the example content information D2 shown in FIG. 5, the entity "baseball player A" is associated with the text data "3000 hits", and the entity "baseball team B" is referred to as "2017 championship". Text data is associated.

<1−2.検索結果ウェブページ>
図6は、本実施形態に係る検索結果ウェブページの一例を示す図である。図6に示されるように、端末装置200の表示部210には、クエリ入力領域211と、ナレッジパネル220と、検索結果230とが含まれる検索結果ウェブページが表示される。ナレッジパネル220には、クエリに対応するエンティティ221と、エンティティ221に関連する画像222と、エンティティ221に関連する関連情報223とが含まれる。ユーザは、端末装置200を用いて、端末装置200の表示部210に表示された検索ページにクエリを入力する。クエリとは、一つの検索ワードまたは複数の検索ワードの組み合わせである。端末装置200は、ユーザによって入力されたクエリをウェブサーバ300に送信する。
<1-2. Search result web page >
FIG. 6 is a diagram showing an example of a search result web page according to the present embodiment. As shown in FIG. 6, the display unit 210 of the terminal device 200 displays a search result web page including a query input area 211, a knowledge panel 220, and a search result 230. The knowledge panel 220 includes the entity 221 corresponding to the query, the image 222 associated with the entity 221 and the relevant information 223 associated with the entity 221. The user uses the terminal device 200 to input a query on the search page displayed on the display unit 210 of the terminal device 200. A query is a search word or a combination of multiple search words. The terminal device 200 sends the query entered by the user to the web server 300.

ウェブサーバ300は、端末装置200から受信したクエリをナレッジデータサーバ100に送信する。ナレッジデータサーバ100は、受信したクエリに対応するエンティティに関連する情報をウェブサーバ300に送信する。ナレッジデータサーバ100は、例えば、受信したクエリがコンテンツ情報D2のエンティティに含まれている場合、当該エンティティを受信したクエリに関連付けられたエンティティと判定する。ナレッジデータサーバ100は、例えば、コンテンツ情報D2に基づいて、受信したクエリ(テキストデータ)に関連付けられたエンティティを判定する。また、ナレッジデータサーバ100は、ナレッジグラフD1に基づいて、判定したエンティティに対応付けられた所在情報をウェブサーバ300に送信する。ウェブサーバ300は、受信した所在情報に基づいて、当該所在情報が示すウェブページのうち、エンティティの関連データを抽出する。ウェブサーバ300は、抽出したエンティティの関連データ(この一例では、ナレッジパネル220に示す情報)を含めた検索結果ウェブページ(例えば、図6)を生成する。 The web server 300 transmits the query received from the terminal device 200 to the knowledge data server 100. The knowledge data server 100 sends information related to the entity corresponding to the received query to the web server 300. For example, when the received query is included in the entity of the content information D2, the knowledge data server 100 determines that the entity is the entity associated with the received query. The knowledge data server 100 determines an entity associated with a received query (text data), for example, based on the content information D2. Further, the knowledge data server 100 transmits the location information associated with the determined entity to the web server 300 based on the knowledge graph D1. Based on the received location information, the web server 300 extracts the relevant data of the entity from the web pages indicated by the location information. The web server 300 generates a search result web page (eg, FIG. 6) that includes relevant data of the extracted entity (in this example, the information shown in the knowledge panel 220).

図6に示される例においては、クエリとして「3000本安打」が入力され、ナレッジパネル220には「3000本安打」に関連する画像や様々な情報が表示されている。ナレッジパネル220には、例えば、「3000本安打」を達成した「野球選手A」の画像222や、「野球選手A」の生年月日や出身地等の関連情報223が表示される。このように、検索結果230だけでなく、ナレッジパネル220を表示部210に表示することで、検索結果に対するユーザ満足度を向上させることができる。 In the example shown in FIG. 6, "3000 hits" is input as a query, and an image and various information related to "3000 hits" are displayed on the knowledge panel 220. On the knowledge panel 220, for example, an image 222 of "baseball player A" who achieved "3000 hits" and related information 223 such as the date of birth and birthplace of "baseball player A" are displayed. In this way, by displaying not only the search result 230 but also the knowledge panel 220 on the display unit 210, the user satisfaction with the search result can be improved.

<1−3.ナレッジデータサーバ100の構成>
図1に戻り、制御部110は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。制御部110は、例えば、選択部111と、関連ページ収集部112と、第1確率算出部113(第1指標値算出部)と、コンテキスト収集部114と、第2確率算出部115(第2指標値算出部、頻度情報算出部)と、所在情報取得部116(生起確率算出部)と、通信I/F(Interface)117と、ホワイトリスト生成部118と、コンテキスト付与率算出部119とを備える。また、これらの構成要素のうち一部または全部(内包する記憶部を除く)は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。通信I/F117は、ネットワークNWを介した各機能部と、他の機器(例えば、クロールの対象機器(以下、クロール対象機器DV)、端末装置200、及びウェブサーバ300)との通信を仲介する。
<1-3. Configuration of Knowledge Data Server 100>
Returning to FIG. 1, the control unit 110 is realized by, for example, a hardware processor such as a CPU (Central Processing Unit) executing a program (software). The control unit 110 is, for example, a selection unit 111, a related page collection unit 112, a first probability calculation unit 113 (first index value calculation unit), a context collection unit 114, and a second probability calculation unit 115 (second probability calculation unit). Index value calculation unit, frequency information calculation unit), location information acquisition unit 116 (occurrence probability calculation unit), communication I / F (Interface) 117, white list generation unit 118, and context assignment rate calculation unit 119. Be prepared. In addition, some or all of these components (excluding the contained storage unit) are LSI (Large Scale Integration), ASIC (Application Specific Integrated Circuit), FPGA (Field-Programmable Gate Array), GPU (Graphics Processing). It may be realized by hardware (circuit unit; including circuitry) such as Unit), or it may be realized by the cooperation of software and hardware. The communication I / F 117 mediates communication between each functional unit via the network NW and other devices (for example, a crawl target device (hereinafter, crawl target device DV), a terminal device 200, and a web server 300). ..

選択部111は、コンテンツ情報D2から確率算出対象の任意のテキストデータ(以下、「対象テキストデータ」)を選択する。また、選択部111は、コンテンツ情報D2からホワイトリスト生成対象のエンティティを選択する。関連ページ収集部112は、選択部111によって選択された対象テキストデータに関連するウェブページ(以下、「関連ウェブページ」)を、ネットワークNWを介して収集する。関連ページ収集部112により収集されるウェブページとは、例えば、利用者によって編集可能な百科事典のウェブページ(以下、「百科事典ウェブページ」)や、対象テキストデータをクエリとした場合の検索結果ウェブページである。 The selection unit 111 selects arbitrary text data (hereinafter, “target text data”) for which the probability is to be calculated from the content information D2. Further, the selection unit 111 selects the entity to be whitelisted from the content information D2. The related page collecting unit 112 collects a web page (hereinafter, “related web page”) related to the target text data selected by the selection unit 111 via the network NW. The web page collected by the related page collection unit 112 is, for example, a web page of an encyclopedia that can be edited by a user (hereinafter, "encyclopedia web page") or a search result when the target text data is used as a query. It is a web page.

図7は、関連ページ収集部112により収集された百科事典ウェブページの一例を示す図である。図7に示される例においては、関連ページ収集部112は、百科事典ウェブページのうち、コンテンツ情報D2が示す「野球選手A」のエンティティに関連付けられる「3000本安打」という対象テキストデータが記載された関連ウェブページを収集する。関連ページ収集部112は、例えば、百科事典ウェブページのHTML(HyperText Markup Language)データを含む収集対象データを、ネットワークNWを介してクロール対象機器DVから収集する。関連ページ収集部112は、いわゆるクローラプログラムにより実現される。収集対象データは、ネットワークNW上(クロール対象機器DVの記憶領域内)にあり、ブラウザで閲覧可能なデータである。なお、収集対象データは、ブラウザに限らず、アプリケーションプログラムによって再生されるデータであってもよい。収集対象データは、例えば、HTMLのソースを示すテキストデータを含む関連ウェブページである。関連ページ収集部112は、百科事典ウェブページのうち、対象テキストデータが記載された関連ウェブページが存在する場合、そのすべてを収集する。 FIG. 7 is a diagram showing an example of an encyclopedia web page collected by the related page collection unit 112. In the example shown in FIG. 7, the related page collecting unit 112 describes the target text data of "3000 hits" associated with the entity of "baseball player A" indicated by the content information D2 in the encyclopedia web page. Collect related web pages. The related page collection unit 112 collects collection target data including HTML (HyperText Markup Language) data of an encyclopedia web page from a crawl target device DV via a network NW, for example. The related page collecting unit 112 is realized by a so-called crawler program. The data to be collected is data that is on the network NW (in the storage area of the device DV to be crawled) and can be viewed by a browser. The data to be collected is not limited to the browser, and may be data reproduced by the application program. The data to be collected is, for example, a related web page containing text data indicating the source of HTML. The related page collection unit 112 collects all the related web pages in which the target text data is described among the encyclopedia web pages, if any.

また、図8は、関連ページ収集部112により収集された検索結果ウェブページの一例を示す図である。図8に示される例においては、検索結果ウェブページは、コンテンツ情報D2が示すエンティティ「野球選手A」が検索結果として表示される、「3000本安打」というクエリ(図示するテキストTX21)が入力され、検索ボタン311がクリックされた場合の検索結果を示している。なお、「クリック」とは、選択することの一例であり、タッチ、タップその他の態様であってもよい。以下の説明では代表してクリックと称する。クエリは、対象テキストデータの一例である。 Further, FIG. 8 is a diagram showing an example of a search result web page collected by the related page collection unit 112. In the example shown in FIG. 8, in the search result web page, the query "3000 hits" (text TX21 shown) in which the entity "baseball player A" indicated by the content information D2 is displayed as the search result is input. , The search result when the search button 311 is clicked is shown. The "click" is an example of selection, and may be a touch, tap, or other mode. In the following description, it is collectively referred to as click. The query is an example of target text data.

図1に戻り、第1確率算出部113は、関連ページ収集部112によって収集された関連ウェブページに基づいて、対象テキストデータとエンティティとの組に対して確率算出処理を行う。第1確率算出部113は、対象テキストデータ(エンティティの名前)が与えられたときの各エンティティの関連付けられる関連度を示す確率(P(エンティティ|名前))(以下、「第1確率」)を算出する。第1確率算出部113は、例えば、式(1)が示すP(e|s)の値を第1確率として算出する。式(1)における各種要素については、後述する式(2)、(3)並びに関連ウェブページの種類ごとに説明する。第1確率は、第1指標値の一例である。 Returning to FIG. 1, the first probability calculation unit 113 performs the probability calculation process for the set of the target text data and the entity based on the related web page collected by the related page collection unit 112. The first probability calculation unit 113 calculates a probability (P (entity | name)) (hereinafter, “first probability”) indicating the degree of association of each entity when the target text data (name of the entity) is given. calculate. The first probability calculation unit 113 calculates, for example, the value of P (e | s) represented by the equation (1) as the first probability. Various elements in the formula (1) will be described for each of the formulas (2) and (3) described later and the types of related web pages. The first probability is an example of the first index value.

Figure 0006971210
Figure 0006971210

以下、関連ウェブページが百科事典ウェブページである場合の確率算出処理の詳細について説明し、次に、関連ウェブページが検索結果ウェブページである場合の確率算出処理の詳細について説明する。 Hereinafter, the details of the probability calculation process when the related web page is an encyclopedia web page will be described, and then the details of the probability calculation process when the related web page is a search result web page will be described.

<1−4.関連ウェブページが百科事典ウェブページの場合>
第1確率算出部113は、百科事典ウェブページに含まれるテキストデータのうち、対象テキストデータと関連付けられたエンティティを示すテキストデータが、リンク先を示すテキスト(以下、「アンカーテキスト」)として含まれる確率を算出する。関連ウェブページには、対象テキストデータ(この一例では、「3000本安打」(図示するテキストTX11)と関連付けられたエンティティ(この一例では、「野球選手A」)を示すテキストデータ(図示するテキストTX12〜14)が含まれる。また、テキストTX12〜14のうち、テキストTX12は、アンカーテキストである。また、テキストTX12に付与された他のウェブページのリンクは、ナレッジグラフD1において、対象テキストデータに関連付けられたエンティティ(この一例では、「野球選手A」)に対応付けられた所在情報である。
<1-4. If the related web page is an encyclopedia web page>
Among the text data included in the encyclopedia web page, the first probability calculation unit 113 includes text data indicating an entity associated with the target text data as text indicating a link destination (hereinafter, “anchor text”). Calculate the probability. The related web page contains text data (illustrated text TX12) indicating the target text data (in this example, "3000 hits" (illustrated text TX11) and the entity associated with it (in this example, "baseball player A")). ~ 14) is included. Further, among the text TX12-14, the text TX12 is an anchor text. Further, the link of another web page given to the text TX12 is included in the target text data in the knowledge graph D1. The location information associated with the associated entity (in this example, "baseball player A").

ここで、第1確率算出部113は、以下の式(2)によって、対象テキストデータを含むすべての百科事典ウェブページにおける対象テキストの数に対して、アンカーテキストである対象テキストデータの数によって求められる確率(以下、「アンカーテキスト確率」)を算出する。式(2)におけるasは、アンカーテキスト確率を示している。 Here, the first probability calculation unit 113 obtains the number of target texts in all the encyclopedia web pages including the target text data by the number of target text data which is the anchor text by the following formula (2). Calculate the probability of being generated (hereinafter, "anchor text probability"). As in equation (2) indicates the anchor text probability.

Figure 0006971210
Figure 0006971210

また、第1確率算出部113は、以下の式(3)によって、当該アンカーテキストのリンク先が、ナレッジグラフD1において対象テキストデータと関連付けられた所在情報に対応するエンティティのウェブページ(以下、「特定のウェブページ」)である確率(以下、「第1エンティティ確率」)を算出する。式(3)におけるeとは、第1エンティティ確率を示している。 Further, the first probability calculation unit 113 uses the following formula (3) to indicate that the link destination of the anchor text is the web page of the entity corresponding to the location information associated with the target text data in the Knowledge Graph D1 (hereinafter, "" The probability of being a "specific web page") (hereinafter, "first entity probability") is calculated. The e in the equation (3) indicates the first entity probability.

Figure 0006971210
Figure 0006971210

関連ページ収集部112により収集された関連ウェブページが図7に示されるウェブページのみである場合、第1確率算出部113は、すべての関連ウェブページに含まれる対象テキストデータのうち、当該対象テキストデータがアンカーテキストである確率(つまり、アンカーテキスト確率)を「1/3」と算出する。図示する対象テキストデータの中で、リンクが付与されるのは一つだからである(二つ以上付与されている場合も一つとカウントしてよい)。また、第1確率算出部113は、当該アンカーテキストのリンク先が、対象テキストデータと関連付けられるエンティティの特定のウェブページである確率(第1エンティティ確率)を「1」と算出する。 When the related web page collected by the related page collecting unit 112 is only the web page shown in FIG. 7, the first probability calculation unit 113 uses the target text among the target text data included in all the related web pages. The probability that the data is anchor text (that is, the anchor text probability) is calculated as "1/3". This is because, in the target text data shown in the figure, only one link is given (even if two or more links are given, it may be counted as one). Further, the first probability calculation unit 113 calculates the probability (first entity probability) that the link destination of the anchor text is a specific web page of the entity associated with the target text data as "1".

<1−5.関連ウェブページが検索結果ウェブページの場合>
第1確率算出部113は、検索結果ウェブページに含まれる対象テキストデータと関連付けられたエンティティをテキストとして含むリンク先が選択された確率を算出する。対象テキストデータは、「3000本安打」(図示するテキストTX21)であり、対象テキストデータと対応付けられたエンティティは、「野球選手A」である。以降の説明において、対象テキストデータと関連付けられたエンティティに係るテキストを、対象エンティティテキストデータと記載する。図8に示される例では、関連ウェブページには、対象テキストデータの関連ウェブページのリンクが付与されたテキストデータ(図示するテキストTX22〜24)が含まれる。このうち、対象エンティティテキストデータ(この一例では、「野球選手A」)が含まれるのは、テキストTX22である。テキストTX22に付与されたリンク先は、例えば、ナレッジグラフD1において、対象テキストデータに関連付けられたエンティティ(この一例では、「野球選手A」)に対応付けられた所在情報である。つまり、テキストTX22が有する他のウェブページのリンクは、特定のウェブページであり、一例として百科事典ウェブページである。なお、検索結果ウェブページには、リンクを有さないテキストであって、エンティティを示すテキストTX25が含まれてよい。
<1-5. If the related web page is a search result web page>
The first probability calculation unit 113 calculates the probability that a link destination including an entity associated with the target text data included in the search result web page is selected as text. The target text data is "3000 hits" (text TX21 in the figure), and the entity associated with the target text data is "baseball player A". In the following description, the text related to the entity associated with the target text data will be referred to as the target entity text data. In the example shown in FIG. 8, the related web page includes text data (texts TX22 to 24 shown) to which a link of the related web page of the target text data is added. Of these, the text TX22 contains the target entity text data (in this example, "baseball player A"). The link destination given to the text TX 22 is, for example, the location information associated with the entity (“baseball player A” in this example) associated with the target text data in the Knowledge Graph D1. That is, the link of another web page of the text TX22 is a specific web page, for example, an encyclopedia web page. It should be noted that the search result web page may include text TX25, which is text without a link and indicates an entity.

第1確率算出部113は、式(2)によって、すべての検索結果ウェブページに含まれるそれぞれのリンク先がクリックされた回数に対して、対象エンティティテキストデータを含むリンク先がクリックされた回数の比として求められる確率(以下、「エンティティテキストクリック確率」)を算出する。式(2)におけるasは、エンティティテキストクリック確率を示している。 The first probability calculation unit 113 is the number of times the link destination including the target entity text data is clicked with respect to the number of times each link destination included in all the search result web pages is clicked by the formula (2). Calculate the probability obtained as a ratio (hereinafter, "entity text click probability"). As in the equation (2) indicates the entity text click probability.

また、第1確率算出部113は、式(3)によって、対象エンティティテキストデータを含むリンク先が、エンティティに関する特定のウェブページである確率(以下、「第2エンティティ確率」)を算出する。式(3)におけるeは、第2エンティティ確率を示している。 In addition, the first probability calculation unit 113 calculates the probability that the link destination including the target entity text data is a specific web page related to the entity (hereinafter, “second entity probability”) by the equation (3). E in the equation (3) indicates the second entity probability.

<1−6.異なる事物を指す同一のエンティティが含まれる場合>
ここで、エンティティは、同一の文言であっても異なる事物を指す場合がある。図9は、同一の文言によって異なるエンティティのウェブページにリンクしている例を示す図である。図9に示される例において、テキストTX22は、「野球選手A」のウェブページ(例えば、図3)のリンク先を示す。これに対し、テキストTX26は、「野球選手A」同姓同名の野球選手であって、「野球選手A」とは異なる野球チームCに所属する選手のウェブページのリンク先を示す。第1確率算出部113は、式(2)において、テキストTX26がクリックされた場合もエンティティクリック確率に算入する。
<1-6. When the same entity pointing to different things is included>
Here, an entity may refer to different things even if they have the same wording. FIG. 9 is a diagram showing an example of linking to a web page of a different entity by the same wording. In the example shown in FIG. 9, the text TX22 indicates a link destination of a web page (for example, FIG. 3) of "baseball player A". On the other hand, the text TX26 indicates a link destination of a web page of a player who is a baseball player with the same surname and the same name as "baseball player A" and belongs to a baseball team C different from "baseball player A". The first probability calculation unit 113 also includes the click of the text TX26 in the entity click probability in the equation (2).

図10は、エンティティを示す文言からリンクした、別のエンティティに関するウェブページの一例を示す図である。図10に示される「野球選手A」のウェブページには、「3000本安打」というテキストデータに関連付けられる「野球選手A」(図3に示される「野球選手A」)とは異なる野球選手である「野球選手A」に関連する関連データが記載されている。 FIG. 10 is a diagram showing an example of a web page relating to another entity linked from the wording indicating the entity. The web page of "baseball player A" shown in FIG. 10 is a baseball player different from "baseball player A" ("baseball player A" shown in FIG. 3) associated with the text data "3000 hits". Related data related to a certain "baseball player A" is described.

第1確率算出部113は、第1エンティティ確率を算出する際、当該リンク先が図10に示されるウェブページの場合には、当該ウェブページをエンティティのウェブページとしてカウントしない。また、第1確率算出部113は、第2エンティティ確率を算出する際も、当該リンク先が図10に示されるウェブページの場合には、当該ウェブページをエンティティのウェブページとしてカウントしない。 When calculating the first entity probability, the first probability calculation unit 113 does not count the web page as the web page of the entity when the link destination is the web page shown in FIG. Further, even when the first probability calculation unit 113 calculates the second entity probability, if the link destination is the web page shown in FIG. 10, the web page is not counted as the web page of the entity.

<1−7.関連ウェブページ毎の重み付け>
また、第1確率算出部113は、関連ウェブページが百科事典ウェブページである場合において算出されたアンカーテキスト確率に対して第1エンティティ確率を乗じた値に対して、以下の式(4)を更に乗じてもよい。また、第1確率算出部113は、関連ウェブページが検索結果ウェブページである場合において算出されたエンティティテキストクリック確率に対して第2エンティティ確率を乗じた値に対して、以下の式(4)を更に乗じてもよい。そして、第1確率算出部113は、例えば、両者を加算して対数を求めることで、第1確率(スコア)を算出する。
<1-7. Weighting for each related web page>
Further, the first probability calculation unit 113 applies the following equation (4) to the value obtained by multiplying the anchor text probability calculated when the related web page is the encyclopedia web page by the first entity probability. You may further multiply. Further, the first probability calculation unit 113 has the following equation (4) for a value obtained by multiplying the entity text click probability calculated when the related web page is the search result web page by the second entity probability. May be further multiplied. Then, the first probability calculation unit 113 calculates the first probability (score) by, for example, adding both to obtain a logarithm.

Figure 0006971210
Figure 0006971210

式(4)は、百科事典ウェブページを用いて式(2)および式(3)を計算したサンプル数と、検索結果ウェブページを用いて式(2)および式(3)を計算したサンプル数との割合を示す。 Equation (4) is the number of samples for which equations (2) and (3) are calculated using the encyclopedia web page, and the number of samples for which equations (2) and (3) are calculated using the search result web page. The ratio with and is shown.

第1確率算出部113は、百科事典ウェブページを用いて式(2)および式(3)を計算したサンプル数の割合を、アンカーテキスト確率と、第1エンティティ確率とを乗じた値に更に乗じ、検索結果ウェブページを用いて式(2)および式(3)を計算したサンプル数の割合を、エンティティテキストクリック確率と、第2エンティティ確率とを乗じた値に更に乗じ、両者を加算することで、得点に重み付けを行う。 The first probability calculation unit 113 further multiplies the ratio of the number of samples for which equations (2) and (3) are calculated using the encyclopedia web page by the value obtained by multiplying the anchor text probability and the first entity probability. , Multiply the ratio of the number of samples for which equations (2) and (3) are calculated using the search result web page to the value obtained by multiplying the entity text click probability and the second entity probability, and add both. Then, the score is weighted.

第1確率算出部113は、算出した得点をコンテンツ情報D2に対応付けて記憶させる。図11は、本実施形態に係るコンテンツ情報D2及び得点の一例を示す図である。 The first probability calculation unit 113 stores the calculated score in association with the content information D2. FIG. 11 is a diagram showing an example of the content information D2 and the score according to the present embodiment.

図1に戻り、コンテキスト収集部114は、記憶部120に記憶されたナレッジグラフD1、関連ページ収集部112によって収集された関連ウェブページ等から、コンテキストを収集する。コンテキストとは、エンティティの属性、種類等のエンティティを特徴付ける任意の情報を示す文字列である。コンテキスト収集部114は、収集したコンテキストをコンテキスト情報D3として、記憶部120に記憶させる。 Returning to FIG. 1, the context collecting unit 114 collects the context from the knowledge graph D1 stored in the storage unit 120, the related web page collected by the related page collecting unit 112, and the like. A context is a character string indicating arbitrary information that characterizes an entity such as an entity's attributes and types. The context collecting unit 114 stores the collected context as the context information D3 in the storage unit 120.

図12は、本実施形態に係るコンテキスト収集部114によるコンテキスト収集処理の一例を説明する図である。コンテキスト収集部114は、例えば、ナレッジグラフにおけるプロパティを示す文字列、隣接エンティティの名前等をコンテキストとして収集する。図12に示される例において、コンテキスト収集部114は、エンティティである「学者A」と関連付けされるコンテキストとして、「ドイツ」、「175cm」、「出生地」、「身長」等をコンテキストとして収集する。 FIG. 12 is a diagram illustrating an example of a context collection process by the context collection unit 114 according to the present embodiment. The context collecting unit 114 collects, for example, a character string indicating a property in the Knowledge Graph, a name of an adjacent entity, and the like as a context. In the example shown in FIG. 12, the context collecting unit 114 collects "Germany", "175 cm", "place of birth", "height" and the like as the context associated with the entity "scholar A". ..

図13は、本実施形態に係るコンテキスト収集部114によるコンテキスト収集処理の他の例を説明する図である。コンテキスト収集部114は、例えば、百科事典ウェブページにおける対象物(エンティティ)の文字列の後に表示された対象物の属性等を示す文字列をコンテキストとして収集する。図13に示される例において、コンテキスト収集部114は、対象物である「学者A」の文字列の後に記載された「物理学」をコンテキストとして収集する。図14は、本実施形態に係るコンテキスト情報D3の一例を示す図である。図14に示される例では、エンティティ「学者A」に対して、コンテキストとして「物理学」、「ドイツ」、「175cm」、「出生地」等が関連付けられている。 FIG. 13 is a diagram illustrating another example of the context collection process by the context collection unit 114 according to the present embodiment. The context collecting unit 114 collects, for example, a character string indicating the attribute of the object displayed after the character string of the object (entity) in the encyclopedia web page as a context. In the example shown in FIG. 13, the context collecting unit 114 collects "physics" described after the character string of the object "scholar A" as a context. FIG. 14 is a diagram showing an example of the context information D3 according to the present embodiment. In the example shown in FIG. 14, the entity "scholar A" is associated with "physics", "Germany", "175 cm", "place of birth" and the like as contexts.

第2確率算出部115は、あるエンティティが与えられたときの各コンテキストが関連付けられる関連度を示す確率(P(コンテキスト|エンティティ))(以下、「第2確率」)を算出する。第2確率算出部115は、例えば、関連ページのクリックログ、検索エンジンの検索ログ等に基づいて、エンティティ単位で各コンテキストの頻度情報を含む仮想文書を生成する。さらに、第2確率算出部115は、生成した仮想文書に対して、例えば、Latent Dirichlet Allocation(LDA)等のアルゴリズム(非特許文献1参照)を適用することで、第2確率を算出する。すなわち、第2確率算出部115は、エンティティおよびコンテキストとなりうるワードを仮想的なグループに分けた場合の特徴量を最適化する手法によって生成されるグループの情報と、与えられた頻度情報とに基づいて、第2確率を算出する。第2確率は、第2指標値の一例である。 The second probability calculation unit 115 calculates a probability (P (context | entity)) (hereinafter, "second probability") indicating the degree of relevance to which each context is associated when a certain entity is given. The second probability calculation unit 115 generates a virtual document including frequency information of each context for each entity based on, for example, a click log of a related page, a search log of a search engine, and the like. Further, the second probability calculation unit 115 calculates the second probability by applying an algorithm (see Non-Patent Document 1) such as Latent Dirichlet Allocation (LDA) to the generated virtual document. That is, the second probability calculation unit 115 is based on the group information generated by the method of optimizing the feature amount when the entity and the word that can be the context are divided into virtual groups, and the given frequency information. Then, the second probability is calculated. The second probability is an example of the second index value.

図15は、本実施形態に係る第2確率算出部115によるコンテキストの頻度情報の算出処理の一例を説明する図である。第2確率算出部115は、エンティティである「学者A」の関連ページ(例えば、百科事典ウェブページ)をクリックしたユーザが、遷移元である検索結果ページの表示のために利用したクエリのうち「学者A」以外のワード(コンテキストターム)の出現頻度に基づいて、エンティティ単位で各コンテキストの頻度情報を算出する。図15に示される例では、例えば、出現頻度が高い「物理学」の頻度が「120」と算出されている。一方、出現頻度が低い「身長」の頻度が「10」と算出されている。図14に示されるように、第2確率算出部115は、算出した頻度情報をコンテキスト情報D3に対応付けて記憶部120に記憶させる。次に、第2確率算出部115は、これらの頻度情報を含むコンテキストをエンティティ単位で集約することで、仮想文書を生成する。 FIG. 15 is a diagram illustrating an example of a context frequency information calculation process by the second probability calculation unit 115 according to the present embodiment. The second probability calculation unit 115 is the query used by the user who clicked the related page (for example, the encyclopedia web page) of the entity "Scholar A" to display the search result page which is the transition source. Based on the frequency of appearance of words (context terms) other than "Scholar A", the frequency information of each context is calculated for each entity. In the example shown in FIG. 15, for example, the frequency of "physics" having a high frequency of appearance is calculated as "120". On the other hand, the frequency of "height", which has a low appearance frequency, is calculated as "10". As shown in FIG. 14, the second probability calculation unit 115 stores the calculated frequency information in the storage unit 120 in association with the context information D3. Next, the second probability calculation unit 115 generates a virtual document by aggregating the contexts including these frequency information for each entity.

第2確率算出部115は、生成した仮想文書に対して、例えば、LDAを適用することで、第2確率を算出する。エンティティは仮想文書に対応し、エンティティに対するコンテキストの頻度情報はその文書中のフレーズに相当する。 The second probability calculation unit 115 calculates the second probability by applying, for example, LDA to the generated virtual document. An entity corresponds to a virtual document, and the frequency information of the context for the entity corresponds to the phrase in the document.

図1に戻り、所在情報取得部116は、ウェブサーバ300から受信したクエリに対応するエンティティ名、エンティティ、コンテキストの組を決定する。所在情報取得部116は、ナレッジグラフD1に基づいて、判定したエンティティに対応付けられている所在情報を取得する。その後、所在情報取得部116は、取得した所在情報をウェブサーバ300に送信する。 Returning to FIG. 1, the location information acquisition unit 116 determines a set of entity names, entities, and contexts corresponding to the query received from the web server 300. The location information acquisition unit 116 acquires the location information associated with the determined entity based on the knowledge graph D1. After that, the location information acquisition unit 116 transmits the acquired location information to the web server 300.

ホワイトリスト生成部118は、エンティティに関連付けられうるコンテキストの候補を定義したホワイトリストを生成する。ホワイトリストは、エンティティ毎に定義される。ホワイトリスト生成部118は、生成したホワイトリストを、ホワイトリスト情報D4として記憶部120に記憶させる。 The white list generation unit 118 generates a white list that defines candidate contexts that can be associated with an entity. The white list is defined for each entity. The white list generation unit 118 stores the generated white list in the storage unit 120 as the white list information D4.

コンテキスト付与率算出部119は、エンティティに対する補完的表現であるコンテキストの付きやすさを示すコンテキスト付与率を算出する。すなわち、コンテキスト付与率は、ユーザがエンティティに相当するクエリを入力する際に、さらなるクエリ(すなわち、補完的表現であるコンテキスト)をあわせて使用する度合いを示す。コンテキスト付与率算出部119は、算出したエンティティ毎のコンテキスト付与率を、コンテキスト付与率情報D5として記憶部120に記憶させる。 The context grant rate calculation unit 119 calculates the context grant rate indicating the ease of attaching a context, which is a complementary expression to an entity. That is, the context grant rate indicates the degree to which a user inputs a query corresponding to an entity together with a further query (that is, a context which is a complementary expression). The context grant rate calculation unit 119 stores the calculated context grant rate for each entity in the storage unit 120 as the context grant rate information D5.

<1−8.ナレッジデータサーバ100の第1オフライン動作>
以下、ナレッジデータサーバ100の第1オフライン動作について説明する。第1オフライン動作では、第1確率を算出する。図16は、本実施形態のナレッジデータサーバ100の第1確率を算出する動作の一例を示す流れ図である。選択部111は、コンテンツ情報D2のうち、算出対象の対象テキストデータを選択する(S110)。次に、関連ページ収集部112は、対象テキストデータに基づいて、関連ウェブページ(百科事典ウェブページ及び検索結果ウェブページ)を収集する(S120)。次に、第1確率算出部113は、アンカーテキスト確率及びエンティティテキストクリック確率を算出する(S130)。
<1-8. First offline operation of Knowledge Data Server 100>
Hereinafter, the first offline operation of the knowledge data server 100 will be described. In the first offline operation, the first probability is calculated. FIG. 16 is a flow chart showing an example of an operation of calculating the first probability of the knowledge data server 100 of the present embodiment. The selection unit 111 selects the target text data to be calculated from the content information D2 (S110). Next, the related page collecting unit 112 collects related web pages (encyclopedia web page and search result web page) based on the target text data (S120). Next, the first probability calculation unit 113 calculates the anchor text probability and the entity text click probability (S130).

次に、第1確率算出部113は、第1エンティティ確率及び第2エンティティ確率を算出する(S140)。そして、第1確率算出部113は、百科事典ウェブページに基づくアンカーテキスト確率、第1エンティティ確率、及び第1コンテンツ割合を乗じた値と、検索結果ウェブページに基づくエンティティテキストクリック確率、第2エンティティ確率、及び第2コンテンツ割合を乗じた値との和を第1確率として算出し(S150)、算出した第1確率をコンテンツ情報D2に対応付けて記憶部120に記憶させる(S160)。以上により、本フローチャートの処理を終了する。 Next, the first probability calculation unit 113 calculates the first entity probability and the second entity probability (S140). Then, the first probability calculation unit 113 multiplies the anchor text probability based on the encyclopedia web page, the first entity probability, and the first content ratio, the entity text click probability based on the search result web page, and the second entity. The sum of the probability and the value obtained by multiplying the second content ratio is calculated as the first probability (S150), and the calculated first probability is stored in the storage unit 120 in association with the content information D2 (S160). This completes the processing of this flowchart.

<1−9.ナレッジデータサーバ100の第2オフライン動作>
以下、ナレッジデータサーバ100の第2オフライン動作について説明する。第2オフライン動作では、第2確率を算出する。図17は、本実施形態のナレッジデータサーバ100の第2確率を算出する動作の一例を示す流れ図である。選択部111は、コンテンツ情報D2のうち、算出対象の対象テキストデータを選択する(S210)。関連ページ収集部112は、対象テキストデータに基づいて、関連ウェブページを収集する。次に、コンテキスト収集部114は、関連ページ収集部112により収集された関連ウェブページに基づいて、コンテキストを収集する(S220)。
<1-9. Second offline operation of Knowledge Data Server 100>
Hereinafter, the second offline operation of the knowledge data server 100 will be described. In the second offline operation, the second probability is calculated. FIG. 17 is a flow chart showing an example of an operation of calculating the second probability of the knowledge data server 100 of the present embodiment. The selection unit 111 selects the target text data to be calculated from the content information D2 (S210). The related page collection unit 112 collects related web pages based on the target text data. Next, the context collecting unit 114 collects the context based on the related web page collected by the related page collecting unit 112 (S220).

次に、第2確率算出部115は、エンティティ単位で各コンテキストの頻度情報を算出し(S230)、算出した頻度情報を含む仮想文書を生成する。次に、第2確率算出部115は、生成した仮想文書に対して、例えば、LDA等のアルゴリズムを適用することで、第2確率を算出する(S240)。 Next, the second probability calculation unit 115 calculates the frequency information of each context for each entity (S230), and generates a virtual document including the calculated frequency information. Next, the second probability calculation unit 115 calculates the second probability by applying an algorithm such as LDA to the generated virtual document (S240).

図18は、本実施形態のナレッジデータサーバ100の第2確率を算出する詳細動作の一例を示す流れ図である。LDAにおいては、文書が複数のトピック(例えば、1000個のトピック等)(グループ)で構成されるという仮定を置くことで、文章の特徴を解析する。複数のトピックがパターン化されたもの(以下、「トピックパターン」)が多数定義されている。すなわち、1つのトピックパターンは複数のトピックを含み、この複数のトピックの分け方の異なるトピックパターンが多数定義されている。本実施形態においては、エンティティが文書に対応し、エンティティに対応するコンテキストの頻度がその文書中のフレーズの頻度に対応する。まず、第2確率算出部115は、多数のトピックパターンの中から1つのパターンを選択する(S241)。 FIG. 18 is a flow chart showing an example of a detailed operation for calculating the second probability of the knowledge data server 100 of the present embodiment. In LDA, the characteristics of a sentence are analyzed by assuming that the document is composed of a plurality of topics (for example, 1000 topics) (groups). A large number of patterns of multiple topics (hereinafter referred to as "topic patterns") are defined. That is, one topic pattern includes a plurality of topics, and many topic patterns having different ways of dividing the plurality of topics are defined. In this embodiment, the entity corresponds to the document, and the frequency of the context corresponding to the entity corresponds to the frequency of the phrase in the document. First, the second probability calculation unit 115 selects one pattern from a large number of topic patterns (S241).

次に、第2確率算出部115は、算出対象とするエンティティとコンテキストとの組の候補を選択する(S242)。次に、第2確率算出部115は、第2確率(P(コンテキスト|エンティティ))を算出する(S243)。例えば、第2確率算出部115は、以下の式(5)に基づいて、コンテキストがトピックに属する確率と、トピックがエンティティ(内容別)に属する確率との積を求める。第2確率算出部115は、この確率の積の値が最大化するように分布を学習する。 Next, the second probability calculation unit 115 selects a candidate for a set of the entity and the context to be calculated (S242). Next, the second probability calculation unit 115 calculates the second probability (P (context | entity)) (S243). For example, the second probability calculation unit 115 obtains the product of the probability that the context belongs to the topic and the probability that the topic belongs to the entity (by content) based on the following equation (5). The second probability calculation unit 115 learns the distribution so that the value of the product of the probabilities is maximized.

Figure 0006971210
Figure 0006971210

次に、第2確率算出部115は、全てのエンティティとコンテキストとの組の候補について第2確率の算出が完了したか否かを判定する(S244)。第2確率算出部115は、全てのエンティティとコンテキストとの組の候補について第2確率の算出が完了していないと判定した場合、第2確率の算出処理を行っていないエンティティとコンテキストとの組を1つ選択し、S242以降の処理を繰り返す。一方、第2確率算出部115は、全てのエンティティとコンテキストとの組の候補について第2確率の算出が完了したと判定した場合、算出した第2確率を足し合わせる処理を行って、処理対象のトピックパターンに対するスコアを算出する。 Next, the second probability calculation unit 115 determines whether or not the calculation of the second probability is completed for the candidates of the set of all entities and contexts (S244). When the second probability calculation unit 115 determines that the calculation of the second probability has not been completed for the candidates of the set of all the entities and the context, the set of the entity and the context that has not performed the calculation process of the second probability. Is selected, and the processing after S242 is repeated. On the other hand, when the second probability calculation unit 115 determines that the calculation of the second probability is completed for the candidates of the set of all entities and contexts, the second probability calculation unit 115 performs a process of adding the calculated second probabilities to the processing target. Calculate the score for the topic pattern.

次に、第2確率算出部115は、全てのトピックパターンに対する処理が完了したか否かを判定する(S245)。第2確率算出部115は、全てのトピックパターンに対する処理が完了していないと判定した場合、処理を行っていないトピックパターンを1つ選択し、S242以降の処理を繰り返す。 Next, the second probability calculation unit 115 determines whether or not the processing for all the topic patterns is completed (S245). When the second probability calculation unit 115 determines that the processing for all the topic patterns is not completed, the second probability calculation unit 115 selects one topic pattern that has not been processed, and repeats the processing after S242.

一方、第2確率算出部115は、全てのトピックパターンに対する処理が完了したと判定した場合、算出したスコアが最も高いトピックパターンを、採用するトピックパターンに決定する(S246)。 On the other hand, when it is determined that the processing for all the topic patterns is completed, the second probability calculation unit 115 determines the topic pattern having the highest calculated score as the topic pattern to be adopted (S246).

次に、第2確率算出部115は、上記のように決定したトピックパターンに関して算出された第2確率を採用する第2確率として決定する(S247)。尚、第2確率算出部115は、エンティティとコンテキストとの組の候補の全てに対して第2確率の計算を行わなくてもよい。例えば、エンティティとコンテキストとの組の候補に不適切な表現が含まれている場合には、これを除外するようにしてもよい。また、第2確率算出部115は、追加の条件に応じて、除外処理を行うようにしてもよい。例えば、第2確率算出部115は、エンティティと対応する百科事典ウェブページの概要文に含まれないコンテキストは除外するようにしてもよい。データの除外は、第2確率の算出の前に除外するのではなく、確率算出が終わった後に行ってよい。これは、不適切な表現であっても、LDAでの確率算出には有用であるためである。以上により、本フローチャートの処理を終了する。 Next, the second probability calculation unit 115 determines the second probability calculated for the topic pattern determined as described above as the second probability (S247). The second probability calculation unit 115 does not have to calculate the second probability for all the candidates of the set of the entity and the context. For example, if the candidate pair of entity and context contains an inappropriate expression, it may be excluded. In addition, the second probability calculation unit 115 may perform exclusion processing according to additional conditions. For example, the second probability calculation unit 115 may exclude a context that is not included in the summary text of the encyclopedia web page corresponding to the entity. The data may be excluded after the probability calculation is completed, instead of being excluded before the calculation of the second probability. This is because even an inappropriate expression is useful for calculating the probability in LDA. This completes the processing of this flowchart.

図17に戻り、第2確率算出部115は、決定した第2確率をコンテキスト情報D3に対応付けて記憶部120に記憶させる(S250)。尚、第2確率算出部115は、決定した第2確率を、例えばSolr等の転置インデックスに格納してもよい。このSolrに対してOR検索クエリを投げることで、何回も問い合わせすることなく、一度の問い合わせで全ての候補を取得することができる。以上により、本フローチャートの処理を終了する。 Returning to FIG. 17, the second probability calculation unit 115 stores the determined second probability in the storage unit 120 in association with the context information D3 (S250). The second probability calculation unit 115 may store the determined second probability in an inverted index such as Solr. By throwing an OR search query to this Solr, it is possible to acquire all the candidates with one inquiry without making inquiries many times. This completes the processing of this flowchart.

<1−10.ナレッジデータサーバ100の第3オフライン動作>
以下、ナレッジデータサーバ100の第3オフライン動作について説明する。第3オフライン動作では、ホワイトリストを生成する。図19は、本実施形態のナレッジデータサーバ100のホワイトリストを生成する動作の一例を示す流れ図である。まず、コンテキスト収集部114は、例えば、百科事典ウェブページにおける対象物の文字列の後に表示された対象物の属性等を示す属性文字列を収集する(S310)。例えば、コンテキスト収集部114は、図13に示される例において、対象物である「学者A」の文字列の後に記載された「物理学」の属性文字列を収集する。コンテキスト収集部114は、百科事典ウェブページに含まれる複数のページ(例えば、全てのページ)に対して、上記の文字列の収集処理を行い、複数の属性文字列の集合を得る。
<1-10. Third offline operation of Knowledge Data Server 100>
Hereinafter, the third offline operation of the knowledge data server 100 will be described. In the third offline operation, a white list is generated. FIG. 19 is a flow chart showing an example of an operation of generating a white list of the knowledge data server 100 of the present embodiment. First, the context collecting unit 114 collects, for example, an attribute character string indicating an attribute of the object displayed after the character string of the object in the encyclopedia web page (S310). For example, the context collecting unit 114 collects the attribute character string of "physics" described after the character string of the object "scholar A" in the example shown in FIG. The context collecting unit 114 performs the above-mentioned character string collection processing for a plurality of pages (for example, all pages) included in the encyclopedia web page, and obtains a set of a plurality of attribute character strings.

次に、選択部111は、コンテンツ情報D2のうち、ホワイトリスト生成対象のエンティティ(以下、「対象エンティティ」)を選択する(S320)。次に、ホワイトリスト生成部118は、コンテキスト収集部114により収集された複数の属性文字列の中から1つの属性文字列を抽出し、抽出した属性文字列が、対象エンティティが記載された百科事典ウェブページ(例えば、百科事典ウェブページの概要説明文)に含まれているか否かを判定する(S330)。ホワイトリスト生成部118は、抽出した属性文字列が対象エンティティが記載された百科事典ウェブページに含まれていると判定した場合、この属性文字列を、対象エンティティのコンテキスト候補(以下、「第1コンテキスト候補」)とする(S340)。一方、ホワイトリスト生成部118は、抽出した属性文字列が対象エンティティが記載された百科事典ウェブページに含まれていないと判定した場合、この属性文字列を、対象エンティティの第1コンテキスト候補としない(S350)。ホワイトリスト生成部118は、コンテキスト収集部114により収集された複数の属性文字列の全てに対して、上記のS330からS350の処理を行う。 Next, the selection unit 111 selects an entity (hereinafter, “target entity”) for which the white list is generated from the content information D2 (S320). Next, the white list generation unit 118 extracts one attribute character string from the plurality of attribute character strings collected by the context collection unit 114, and the extracted attribute character string is an encyclopedia in which the target entity is described. It is determined whether or not it is included in the web page (for example, the outline description of the encyclopedia web page) (S330). When the white list generation unit 118 determines that the extracted attribute character string is included in the encyclopedia web page in which the target entity is described, the white list generation unit 118 uses this attribute character string as a context candidate of the target entity (hereinafter, "first". Context candidate ”) (S340). On the other hand, if the white list generation unit 118 determines that the extracted attribute character string is not included in the encyclopedia web page in which the target entity is described, the white list generation unit 118 does not use this attribute character string as the first context candidate of the target entity. (S350). The white list generation unit 118 performs the above-mentioned processes S330 to S350 for all of the plurality of attribute character strings collected by the context collection unit 114.

次に、コンテキスト収集部114は、ナレッジグラフにおける対象エンティティのプロパティを示す文字列、例えば、ナレッジグラフにおける対象エンティティの1ステップ以内に含まれるエッジに付与された文字列を収集する。コンテキスト収集部114は、さらに、対象エンティティの隣接エンティティの名前の文字列や、2ステップ以上に含まれるエッジに付与された文字列を収集してもよい。ホワイトリスト生成部118は、収集された文字列を対象エンティティのコンテキスト候補(以下、「第2コンテキスト候補」)に設定する(S360)。図12に示される例において、ホワイトリスト生成部118は、エンティティである「学者A」と関連付けされる「出生地」、「身長」等の文字列を第2コンテキスト候補として設定する。 Next, the context collecting unit 114 collects a character string indicating the property of the target entity in the Knowledge Graph, for example, a character string given to an edge included within one step of the target entity in the Knowledge Graph. The context collecting unit 114 may further collect the character string of the name of the adjacent entity of the target entity and the character string given to the edge included in two or more steps. The white list generation unit 118 sets the collected character string as a context candidate (hereinafter, “second context candidate”) of the target entity (S360). In the example shown in FIG. 12, the white list generation unit 118 sets character strings such as “place of birth” and “height” associated with the entity “scholar A” as the second context candidate.

次に、ホワイトリスト生成部118は、第1コンテキスト候補と第2コンテキスト候補とに基づいてホワイトリストを生成し、ホワイトリスト情報D4として記憶部120に記憶させる(S370)。例えば、ホワイトリスト生成部118は、第1コンテキスト候補と第2コンテキスト候補との和集合をホワイトリストとして設定する。図20は、本実施形態のホワイトリスト情報D4の一例を示す図である。図20に示される例では、エンティティ「学者A」に対して、「出生地」、「身長」、「物理学」、「ドイツ」等がコンテキスト候補として関連付けされている。以上の処理が、コンテンツ情報D2に含まれるエンティティの全てに対して繰り返し行われる。以上により、本フローチャートの処理を終了する。 Next, the white list generation unit 118 generates a white list based on the first context candidate and the second context candidate, and stores it in the storage unit 120 as the white list information D4 (S370). For example, the white list generation unit 118 sets the union of the first context candidate and the second context candidate as a white list. FIG. 20 is a diagram showing an example of the white list information D4 of the present embodiment. In the example shown in FIG. 20, "place of birth", "height", "physics", "Germany" and the like are associated with the entity "scholar A" as context candidates. The above processing is repeated for all the entities included in the content information D2. This completes the processing of this flowchart.

<1−11.ナレッジデータサーバ100の第4オフライン動作>
以下、ナレッジデータサーバ100の第4オフライン動作について説明する。第4オフライン動作では、エンティティ毎のコンテキスト付与率を算出する。図21は、本実施形態のナレッジデータサーバ100のコンテキスト付与率を算出する動作の一例を示す流れ図である。まず、コンテキスト付与率算出部119は、例えば、検索エンジンの検索ログに含まれる複数の検索ログデータのうち、処理対象とする1つの検索ログデータを抽出する(S410)。この1つの検索ログデータは、ユーザによる1度の検索処理と対応する。検索ログデータには、検索に利用された少なくとも1つのクエリ、検索結果ウェブページにおいてユーザがクリックしたリンクのURL(以下、「遷移先URL」)、検索日時等の情報が含まれる。
<1-11. Fourth offline operation of Knowledge Data Server 100>
Hereinafter, the fourth offline operation of the knowledge data server 100 will be described. In the fourth offline operation, the context grant rate for each entity is calculated. FIG. 21 is a flow chart showing an example of an operation of calculating the context granting rate of the knowledge data server 100 of the present embodiment. First, the context grant rate calculation unit 119 extracts, for example, one search log data to be processed from a plurality of search log data included in the search log of the search engine (S410). This one search log data corresponds to one search process by the user. The search log data includes information such as at least one query used for the search, the URL of the link clicked by the user on the search result web page (hereinafter, "transition destination URL"), and the search date and time.

次に、コンテキスト付与率算出部119は、抽出した検索ログデータから、検索に利用された少なくとも1つのクエリ、及び遷移先URLを抽出する(S420)。次に、コンテキスト付与率算出部119は、抽出した遷移先URLに基づいて、検索に利用された少なくとも1つのクエリのうち、いずれのクエリがエンティティに相当するかを判定する(S430)。例えば、コンテキスト付与率算出部119は、遷移先URLと、ナレッジグラフD1に含まれるエンティティの所在情報とを比較することで、いずれのクエリがエンティティに相当するかを判定する。例えば、コンテキスト付与率算出部119は、ナレッジグラフD1において遷移先URLと合致する所在情報を持つエンティティが存在し、このエンティティの名前がクエリに含まれている場合には、このクエリをエンティティと判定する。 Next, the context grant rate calculation unit 119 extracts at least one query used for the search and the transition destination URL from the extracted search log data (S420). Next, the context grant rate calculation unit 119 determines which of at least one query used for the search corresponds to the entity based on the extracted transition destination URL (S430). For example, the context grant rate calculation unit 119 determines which query corresponds to the entity by comparing the transition destination URL with the location information of the entity included in the knowledge graph D1. For example, if the context grant rate calculation unit 119 has an entity having location information matching the transition destination URL in the Knowledge Graph D1 and the name of this entity is included in the query, the context grant rate calculation unit 119 determines this query as an entity. do.

次に、コンテキスト付与率算出部119は、エンティティと判定されたクエリに対して、補完的表現であるコンテキストが付与されているか否かを判定する(S440)。すなわち、コンテキスト付与率算出部119は、検索に利用されたクエリに、エンティティと判定されたクエリ以外のクエリ(第2ワード)が含まれているか否かを判定する。コンテキスト付与率算出部119は、コンテキストが付与されていると判定した場合、エンティティ毎にコンテキストが付与された検索処理の数をカウントするための第1カウンタを1つ増大させる(S450)。一方、コンテキスト付与率算出部119は、コンテキストが付与されていないと判定した場合(すなわち、検索に利用されたクエリの数が1つであった場合)、エンティティ毎にコンテキストが付与されなかった検索処理の数をカウントするための第2カウンタを1つ増大させる(S460)。第1及び第2カウンタは、エンティティ毎に設けられる。 Next, the context grant rate calculation unit 119 determines whether or not a context, which is a complementary expression, is assigned to the query determined to be an entity (S440). That is, the context grant rate calculation unit 119 determines whether or not the query used for the search includes a query (second word) other than the query determined to be an entity. When it is determined that the context is given, the context grant rate calculation unit 119 increases the first counter for counting the number of search processes to which the context is given for each entity by one (S450). On the other hand, when the context grant rate calculation unit 119 determines that the context is not assigned (that is, when the number of queries used for the search is one), the search in which the context is not assigned for each entity. The second counter for counting the number of processes is incremented by one (S460). The first and second counters are provided for each entity.

次に、コンテキスト付与率算出部119は、検索ログに含まれる全ての検索ログデータに対する処理が完了したか否かを判定する(S470)。コンテキスト付与率算出部119は、検索ログに含まれる全ての検索ログデータに対する処理が完了していないと判定した場合、処理対象とする他の1つの検索ログデータを抽出して(S410)以降の処理を再度行う。 Next, the context grant rate calculation unit 119 determines whether or not the processing for all the search log data included in the search log is completed (S470). When the context grant rate calculation unit 119 determines that the processing for all the search log data included in the search log has not been completed, the context grant rate calculation unit 119 extracts one other search log data to be processed and thereafter (S410). Repeat the process.

一方、コンテキスト付与率算出部119は、検索ログに含まれる全ての検索ログデータに対する処理が完了したと判定した場合、エンティティ毎のコンテキスト付与率を算出し、コンテキスト付与率情報D5として記憶部120に記憶させる(S480)。例えば、コンテキスト付与率算出部119は、以下の式(6)に基づいて、エンティティ毎のコンテキスト付与率を算出する。 On the other hand, when the context grant rate calculation unit 119 determines that the processing for all the search log data included in the search log is completed, the context grant rate for each entity is calculated, and the context grant rate information D5 is stored in the storage unit 120. Remember (S480). For example, the context grant rate calculation unit 119 calculates the context grant rate for each entity based on the following equation (6).

Figure 0006971210
Figure 0006971210

上記の式(6)において、スイッチ変数とは、コンテキストが付与される確率またはコンテキストが付与されない確率のいずれを算出するかを切り替えるものである。スイッチ変数=1とは、コンテキストが付与される確率を算出することを示し、スイッチ変数=0とは、コンテキストが付与されない確率を算出することを示す。図22は、本実施形態のコンテキスト付与率情報D5の一例を示す図である。図22に示される例では、エンティティ「学者A」に対して、コンテキスト付与率「0.40」が関連付けされている。以上により、本フローチャートの処理を終了する。 In the above equation (6), the switch variable switches whether to calculate the probability that the context is given or the probability that the context is not given. The switch variable = 1 indicates that the probability that the context is given is calculated, and the switch variable = 0 indicates that the probability that the context is not given is calculated. FIG. 22 is a diagram showing an example of the context grant rate information D5 of the present embodiment. In the example shown in FIG. 22, the context grant rate “0.40” is associated with the entity “scholar A”. This completes the processing of this flowchart.

<1−12.ナレッジデータサーバ100のオンライン動作>
図23は、本実施形態のナレッジデータサーバ100のオンライン動作の一例を示す流れ図である。まず、所在情報取得部116は、ウェブサーバ300からクエリを受信する(S510)。図24は、本実施形態のナレッジデータサーバ100のオンライン動作を説明する図である。図24は、「学者A」と、「物理学」との2つのワードを含むクエリを受信する例を示している。
<1-12. Online operation of Knowledge Data Server 100>
FIG. 23 is a flow chart showing an example of online operation of the knowledge data server 100 of the present embodiment. First, the location information acquisition unit 116 receives a query from the web server 300 (S510). FIG. 24 is a diagram illustrating the online operation of the knowledge data server 100 of the present embodiment. FIG. 24 shows an example of receiving a query containing two words, "Scholar A" and "Physics".

次に、所在情報取得部116は、コンテンツ情報D2のうち、受信したクエリに含まれるワードの各々と合致するテキストデータに関連付けられているエンティティを読み出す(S520)。このとき、クエリとテキストデータとが完全一致する場合だけでなく、部分一致または意味的に同一とみなされる程度の相違がある場合も、対応するテキストデータとみなしてよい。図24は、「学者A」という名前のエンティティとして、人であるエンティティEN1の他、2人組の芸能人のエンティティEN2と、競走馬のエンティティEN3とが読み出された例を示している。 Next, the location information acquisition unit 116 reads out the entity associated with the text data matching each of the words included in the received query in the content information D2 (S520). At this time, not only when the query and the text data are exactly the same, but also when there is a partial match or a difference to the extent that they are considered to be semantically the same, it may be regarded as the corresponding text data. FIG. 24 shows an example in which, in addition to the human entity EN1, the two-person entertainer entity EN2 and the racehorse entity EN3 are read out as the entity named “Scholar A”.

次に、所在情報取得部116は、受信したクエリ及び読み出されたエンティティを用いて、「エンティティの名前」と、「エンティティ」と、「コンテキスト」との組み合わせの候補(エンティティの名前、エンティティ、コンテキスト)を全通り生成する(S530)。図24に示される例では、以下6つの組み合わせの候補が生成される。
・(学者A,エンティティEN1,物理学)
・(物理学,エンティティEN1,学者A)
・(学者A,エンティティEN2,物理学)
・(物理学,エンティティEN2,学者A)
・(学者A,エンティティEN3,物理学)
・(物理学,エンティティEN3,学者A)
Next, the location information acquisition unit 116 uses the received query and the read entity as a candidate for a combination of the "entity name", the "entity", and the "context" (entity name, entity, Context) is generated in its entirety (S530). In the example shown in FIG. 24, the following six combinations of candidates are generated.
・ (Scholar A, Entity EN1, Physics)
・ (Physics, Entity EN1, Scholar A)
・ (Scholar A, Entity EN2, Physics)
・ (Physics, Entity EN2, Scholar A)
・ (Scholar A, Entity EN3, Physics)
・ (Physics, Entity EN3, Scholar A)

次に、所在情報取得部116は、組み合わせの候補の各々について、以下の評価式(7)の値を算出する(S540)。 Next, the location information acquisition unit 116 calculates the value of the following evaluation formula (7) for each of the combination candidates (S540).

Figure 0006971210
Figure 0006971210

上記の式(7)は、(エンティティの名前、エンティティ、コンテキスト)の組み合わせ毎に、第1確率と、第2確率と、コンテキスト付与率と、コンテキストがホワイトリストに属するか否かを指定することによって定義されるインジケータ関数(I(ホワイトリスト(エンティティ)includes(コンテキスト)))の値との乗算値を求めている。I(ホワイトリスト(エンティティ)includes(コンテキスト))は、コンテキストがホワイトリストに含まれる場合は1であり、コンテキストがホワイトリストに含まれない場合は0となる。 The above equation (7) specifies the first probability, the second probability, the context grant rate, and whether or not the context belongs to the white list for each combination (entity name, entity, context). The value multiplied by the value of the indicator function (I (white list (entity) inclusions (context))) defined by is obtained. I (white list (entity) inclusions (context)) is 1 when the context is included in the white list and 0 when the context is not included in the white list.

例えば、(学者A,エンティティEN1,物理学)の組み合わせの場合、所在情報取得部116は、コンテンツ情報D2から、エンティティの名前(テキストデータ)としての「学者A」と、エンティティ「エンティティEN1」との組と関連付けられている第1確率を読み出す。さらに、所在情報取得部116は、コンテキスト情報D3から、エンティティ「エンティティEN1」と、コンテキストとしての「物理学」と、の組と関連付けられている第2確率を読み出す。さらに、所在情報取得部116は、ホワイトリスト情報D4から、エンティティ「エンティティEN1」のホワイトリストを読み出す。さらに、所在情報取得部116は、コンテキスト付与率情報D5から、エンティティ「エンティティEN1」のコンテテキスト付与率を読み出す。そして、所在情報取得部116は、読み出した第1確率と、第2確率と、コンテキスト付与率と、インジケータ関数(I(ホワイトリスト(エンティティ)includes(コンテキスト)))の値との乗算値を求める。 For example, in the case of a combination of (Scholar A, Entity EN1, Physics), the location information acquisition unit 116 obtains "Scholar A" as the name of the entity (text data) and the entity "Entity EN1" from the content information D2. Read the first probability associated with the set of. Further, the location information acquisition unit 116 reads out the second probability associated with the pair of the entity "entity EN1" and the "physics" as the context from the context information D3. Further, the location information acquisition unit 116 reads out the white list of the entity "entity EN1" from the white list information D4. Further, the location information acquisition unit 116 reads out the content text grant rate of the entity "entity EN1" from the context grant rate information D5. Then, the location information acquisition unit 116 obtains a multiplication value of the read first probability, the second probability, the context addition rate, and the value of the indicator function (I (white list (entity) inclusions (context))). ..

次に、所在情報取得部116は、算出した乗算値のうち、最大の値を有するエンティティ名、エンティティ、コンテキストの組を、ユーザにより入力されたクエリの検索意図として適切な組として決定する(S550)。例えば、図24に示される例では、所在情報取得部116は、エンティティ名が「学者A」であり、エンティティが「人(エンティティEN1))」であり、コンテキストが「物理学」である組をクエリの検索意図として適切な組として決定する。所在情報取得部116は、決定した組に含まれるエンティティの所在情報をナレッジグラフD1から取得して、ウェブサーバ300に送信する。以上により、本フローチャートの処理を終了する。 Next, the location information acquisition unit 116 determines the set of the entity name, the entity, and the context having the largest value among the calculated multiplication values as an appropriate set as the search intention of the query input by the user (S550). ). For example, in the example shown in FIG. 24, the location information acquisition unit 116 has a set in which the entity name is "scholar A", the entity is "person (entity EN1)", and the context is "physics". Determine as an appropriate set as the search intent of the query. The location information acquisition unit 116 acquires the location information of the entity included in the determined set from the knowledge graph D1 and transmits it to the web server 300. This completes the processing of this flowchart.

尚、ユーザにより入力されたクエリが1つのみである場合には、所在情報取得部116は、この1つのクエリをエンティティ名とした場合の第1確率に基づいて、関連付けされるエンティティを判定してよい。例えば、所在情報取得部116は、コンテンツ情報D2から、この1つのクエリと合致するテキストデータに関連付けられている第1確率を読み出し、最も大きな第1確率を持つエンティティを関連付けされるエンティティと判定する。尚、上記のように算出される評価式の値をデータベースに保管しておき、検索ウェブページにおける関連キーワードの表示処理に使用してもよい。例えば、所在情報取得部116は、1つのクエリであるエンティティ名と、上記のように判定されたエンティティと、を用いて算出された評価式の値のうち、最も高い値の算出に用いられた「コンテキスト」を関連キーワードと判定し、ウェブサーバ300に出力するようにしてもよい。 If there is only one query entered by the user, the location information acquisition unit 116 determines the associated entity based on the first probability when this one query is used as the entity name. You can do it. For example, the location information acquisition unit 116 reads the first probability associated with the text data matching this one query from the content information D2, and determines that the entity having the largest first probability is the associated entity. .. The value of the evaluation formula calculated as described above may be stored in the database and used for the display processing of the related keyword on the search web page. For example, the location information acquisition unit 116 was used to calculate the highest value among the values of the evaluation formula calculated using the entity name which is one query and the entity determined as described above. The "context" may be determined as a related keyword and output to the web server 300.

以上、説明したように、本実施形態のナレッジデータサーバ100は、クエリとして入力された2つ以上のワードのそれぞれと、エンティティとの関連度を示す第1指標値を算出する第1確率算出部113(第1指標値算出部)と、前記ワードをコンテキストとして含むエンティティと、前記ワードのそれぞれとの関連度を示す第2指標値を算出する第2確率算出部(第2指標値算出部)と、前記エンティティ毎にコンテキストの候補を定義したリストを生成するリスト生成部と、前記第1指標値算出部により算出された前記第1指標値と、前記第2指標値算出部により算出された前記第2指標値と、前記リスト生成部により生成された前記リストとに基づいて、前記ワードのうちの前記エンティティの名前として仮定されたワードと、前記エンティティと、前記ワードのうちの前記コンテキストとして仮定されたワードとの組み合わせの各々の生起確率を算出する所在情報取得部116(生起確率算出部)とを備える情報処理装置。これによって、本実施形態のナレッジデータサーバ100は、ユーザにより入力されたクエリの検索意図を適切に評価することができる。 As described above, the knowledge data server 100 of the present embodiment is a first probability calculation unit that calculates a first index value indicating the degree of relevance between each of two or more words input as a query and an entity. A second probability calculation unit (second index value calculation unit) that calculates a second index value indicating the degree of association between 113 (first index value calculation unit), an entity that includes the word as a context, and each of the words. A list generation unit that generates a list that defines context candidates for each entity, the first index value calculated by the first index value calculation unit, and the second index value calculation unit. Based on the second index value and the list generated by the list generator, the word assumed as the name of the entity in the word, the entity, and the context of the word. An information processing device including a location information acquisition unit 116 (occurrence probability calculation unit) for calculating the occurrence probability of each combination with a assumed word. Thereby, the knowledge data server 100 of the present embodiment can appropriately evaluate the search intention of the query input by the user.

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。 Although the embodiments for carrying out the present invention have been described above using the embodiments, the present invention is not limited to these embodiments, and various modifications and substitutions are made without departing from the gist of the present invention. Can be added.

100…ナレッジデータサーバ
110…制御部
111…選択部
112…関連ページ収集部
113…第1確率算出部
114…コンテキスト収集部
115…第2確率算出部
116…所在情報取得部
117…通信I/F
118…ホワイトリスト生成部
119…コンテキスト付与率算出部
120…記憶部
200…端末装置
210…表示部
211…クエリ入力領域
220…ナレッジパネル
221…エンティティ
222…画像
223…関連情報
230…検索結果
300…ウェブサーバ
D1…ナレッジグラフ
D2…コンテンツ情報
D3…コンテキスト情報
D4…ホワイトリスト情報
D5…コンテキスト付与率情報
100 ... Knowledge data server 110 ... Control unit 111 ... Selection unit 112 ... Related page collection unit 113 ... First probability calculation unit 114 ... Context collection unit 115 ... Second probability calculation unit 116 ... Location information acquisition unit 117 ... Communication I / F
118 ... White list generation unit 119 ... Context grant rate calculation unit 120 ... Storage unit 200 ... Terminal device 210 ... Display unit 211 ... Query input area 220 ... Knowledge panel 221 ... Entity 222 ... Image 223 ... Related information 230 ... Search result 300 ... Web server D1 ... Knowledge graph D2 ... Content information D3 ... Context information D4 ... White list information D5 ... Context grant rate information

Claims (9)

クエリとして入力された2つ以上のワードのそれぞれと、エンティティとの関連度を示す第1指標値を算出する第1指標値算出部と、
前記ワードをコンテキストとして含むエンティティと、前記ワードのそれぞれとの関連度を示す第2指標値を算出する第2指標値算出部と、
前記エンティティ毎にコンテキストの候補を定義したリストを生成するリスト生成部と、
前記第1指標値算出部により算出された前記第1指標値と、前記第2指標値算出部により算出された前記第2指標値と、前記リスト生成部により生成された前記リストとに基づいて、前記ワードのうちの前記エンティティの名前として仮定されたワードと、前記エンティティと、前記ワードのうちの前記コンテキストとして仮定されたワードとの組み合わせの各々の生起確率を算出する生起確率算出部と
を備える情報処理装置。
Each of the two or more words entered as a query, the first index value calculation unit that calculates the first index value indicating the degree of association with the entity, and
An entity that includes the word as a context, a second index value calculation unit that calculates a second index value indicating the degree of association with each of the words, and a second index value calculation unit.
A list generator that generates a list that defines context candidates for each entity,
Based on the first index value calculated by the first index value calculation unit, the second index value calculated by the second index value calculation unit, and the list generated by the list generation unit. , A occurrence probability calculation unit for calculating the occurrence probability of each combination of the word assumed as the name of the entity in the word and the combination of the entity and the word assumed as the context in the word. Information processing device to be equipped.
前記第1指標値は、前記エンティティの名前として仮定された前記ワードのそれぞれが、複数の前記エンティティのそれぞれと関連付けられる確率であり、
前記第2指標値は、複数の前記エンティティのそれぞれが、前記コンテキストとして仮定された前記ワードのそれぞれと関連付けられる確率である、
請求項1に記載の情報処理装置。
The first index value is the probability that each of the words assumed as the name of the entity is associated with each of the plurality of the entities.
The second index value is the probability that each of the plurality of the entities is associated with each of the words assumed as the context.
The information processing apparatus according to claim 1.
前記エンティティに対するコンテキストの付きやすさを示すコンテキスト付与率を算出するコンテキスト付与率算出部をさらに備え、
前記生起確率算出部は、さらに、前記コンテキスト付与率算出部により算出された前記コンテキスト付与率に基づいて、前記生起確率を算出する、
請求項1または2に記載の情報処理装置。
Further, a context grant rate calculation unit for calculating a context grant rate indicating the ease of attaching a context to the entity is provided.
The occurrence probability calculation unit further calculates the occurrence probability based on the context grant rate calculated by the context grant rate calculation unit.
The information processing apparatus according to claim 1 or 2.
前記生起確率算出部は、前記組み合わせ毎に、前記第1指標値と、前記第2指標値と、前記リストに前記コンテキストとして仮定された前記ワードが含まれるか否かを指定することによって定義された関数の値との乗算値を算出し、算出した前記乗算値が最も大きな組み合わせを、前記エンティティの名前に相当するワードと、前記エンティティと、前記コンテキストに相当するワードとの組み合わせと判定する、
請求項1から3のいずれか一項に記載の情報処理装置。
The occurrence probability calculation unit is defined by designating the first index value, the second index value, and whether or not the list includes the word assumed as the context for each combination. The multiplication value with the value of the function is calculated, and the combination having the largest calculated multiplication value is determined to be the combination of the word corresponding to the name of the entity, the entity, and the word corresponding to the context.
The information processing apparatus according to any one of claims 1 to 3.
前記生起確率算出部は、前記組み合わせ毎に、前記第1指標値と、前記第2指標値と、前記リストに前記コンテキストとして仮定された前記ワードが含まれるか否かを指定することによって定義された関数の値と、前記コンテキスト付与率との乗算値を算出し、算出した前記乗算値が最も大きな組み合わせを、前記エンティティの名前に相当するワードと、前記エンティティと、前記コンテキストに相当するワードとの組み合わせと判定する、
請求項3に記載の情報処理装置。
The occurrence probability calculation unit is defined by designating the first index value, the second index value, and whether or not the list includes the word assumed as the context for each combination. The multiplication value of the value of the function and the context grant rate is calculated, and the combination in which the calculated multiplication value is the largest is the word corresponding to the name of the entity, the entity, and the word corresponding to the context. Judged as a combination of
The information processing apparatus according to claim 3.
前記第2指標値算出部は、エンティティおよびコンテキストとなりうるワードを仮想的なグループに分けた場合の特徴量を最適化する手法によって生成されるグループの情報と、与えられた頻度情報とに基づいて、前記第2指標値を算出する、
請求項1から5のいずれか一項に記載の情報処理装置。
The second index value calculation unit is based on group information generated by a method of optimizing features when entities and words that can be contexts are divided into virtual groups, and given frequency information. , Calculate the second index value,
The information processing apparatus according to any one of claims 1 to 5.
前記エンティティと関連付けられるページのクリックログに基づいて、前記頻度情報を算出する頻度情報算出部をさらに備える、
請求項6に記載の情報処理装置。
Further provided with a frequency information calculation unit that calculates the frequency information based on the click log of the page associated with the entity.
The information processing apparatus according to claim 6.
コンピュータが、
クエリとして入力された2つ以上のワードのそれぞれと、エンティティとの関連度を示す第1指標値を算出し、
前記ワードをコンテキストとして含むエンティティと、前記ワードのそれぞれとの関連度を示す第2指標値を算出し、
前記エンティティ毎にコンテキストの候補を定義したリストを生成し、
算出された前記第1指標値と、算出された前記第2指標値と、生成された前記リストとに基づいて、前記ワードのうちの前記エンティティの名前として仮定されたワードと、前記エンティティと、前記ワードのうちの前記コンテキストとして仮定されたワードとの組み合わせの各々の生起確率を算出する、
情報処理方法。
The computer
Calculate the first index value indicating the degree of association between each of the two or more words entered as a query and the entity.
A second index value indicating the degree of relevance between the entity including the word as a context and each of the words is calculated.
Generate a list that defines context candidates for each entity,
Based on the calculated first index value, the calculated second index value, and the generated list, the word assumed as the name of the entity among the words, the entity, and the word. Calculate the probability of occurrence of each of the words in combination with the word assumed as the context.
Information processing method.
コンピュータに、
クエリとして入力された2つ以上のワードのそれぞれと、エンティティとの関連度を示す第1指標値を算出させ、
前記ワードをコンテキストとして含むエンティティと、前記ワードのそれぞれとの関連度を示す第2指標値を算出させ、
前記エンティティ毎にコンテキストの候補を定義したリストを生成させ、
算出された前記第1指標値と、算出された前記第2指標値と、生成された前記リストとに基づいて、前記ワードのうちの前記エンティティの名前として仮定されたワードと、前記エンティティと、前記ワードのうちの前記コンテキストとして仮定されたワードとの組み合わせの各々の生起確率を算出させる、
プログラム。
On the computer
Have each of the two or more words entered as a query calculate the first index value that indicates the degree of relevance to the entity.
A second index value indicating the degree of relevance between the entity including the word as a context and each of the words is calculated.
Generate a list that defines context candidates for each entity.
Based on the calculated first index value, the calculated second index value, and the generated list, the word assumed as the name of the entity among the words, the entity, and the word. To calculate the probability of occurrence of each of the above words in combination with the word assumed as the context.
program.
JP2018176380A 2018-09-20 2018-09-20 Information processing equipment, information processing methods, and programs Active JP6971210B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018176380A JP6971210B2 (en) 2018-09-20 2018-09-20 Information processing equipment, information processing methods, and programs

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018176380A JP6971210B2 (en) 2018-09-20 2018-09-20 Information processing equipment, information processing methods, and programs

Publications (2)

Publication Number Publication Date
JP2020047102A JP2020047102A (en) 2020-03-26
JP6971210B2 true JP6971210B2 (en) 2021-11-24

Family

ID=69901463

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018176380A Active JP6971210B2 (en) 2018-09-20 2018-09-20 Information processing equipment, information processing methods, and programs

Country Status (1)

Country Link
JP (1) JP6971210B2 (en)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003091552A (en) * 2001-09-17 2003-03-28 Hitachi Ltd Search request information extraction method, its implementation system, and its processing program
JP2006011739A (en) * 2004-06-24 2006-01-12 Internatl Business Mach Corp <Ibm> Device, computer system and data processing method using ontology
JP5049223B2 (en) * 2008-07-29 2012-10-17 ヤフー株式会社 Retrieval device, retrieval method and program for automatically estimating retrieval request attribute for web query
JP5133946B2 (en) * 2009-06-18 2013-01-30 ヤフー株式会社 Information search apparatus and information search method
JP2011118689A (en) * 2009-12-03 2011-06-16 Univ Of Tokyo Retrieval method and system
US9754210B2 (en) * 2014-04-01 2017-09-05 Microsoft Technology Licensing, Llc User interests facilitated by a knowledge base

Also Published As

Publication number Publication date
JP2020047102A (en) 2020-03-26

Similar Documents

Publication Publication Date Title
KR101452082B1 (en) Research mission identification
US20090162824A1 (en) Automated learning from a question and answering network of humans
CN101855632B (en) URL and anchor text analysis for focused crawling
US20160098737A1 (en) Corpus Management Based on Question Affinity
CN110347701B (en) A Target Type Identification Method for Entity Retrieval Query
Chakraborty et al. Ferosa: A faceted recommendation system for scientific articles
CN109977291A (en) Search method, device, equipment and storage medium based on physical knowledge map
JP2009116457A (en) Method and device for analyzing internet site information
RU2733481C2 (en) Method and system for generating feature for ranging document
CN106599299A (en) Determining method and device of website key words
JP7003020B2 (en) Information processing equipment, information processing methods, and programs
JP5490082B2 (en) Internet site information analysis method and apparatus
JP2013168177A (en) Information provision program, information provision apparatus, and provision method of retrieval service
KR20200117542A (en) Apparatus and method for generating information link
KR20160120583A (en) Knowledge Management System and method for data management based on knowledge structure
JP6971210B2 (en) Information processing equipment, information processing methods, and programs
JP6971104B2 (en) Information processing equipment, information processing methods, and programs
JP7088693B2 (en) Information processing equipment, information processing methods, and programs
Hu et al. Large-scale location prediction for web pages
JP2009211429A (en) Information provision method, information provision apparatus, information provision program and recording medium having the program recorded in computer
JP7183077B2 (en) Information processing device, information processing method, and program
JP7078569B2 (en) Information processing equipment, information processing methods, and programs
JP6982520B2 (en) Information processing equipment, information processing methods, and programs
Kulkarni et al. Semantic SDG-mapper: browser extension for mapping sustainable development goals to open webpages
JP6971209B2 (en) Information processing equipment, information processing methods, and programs

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200915

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211005

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211101

R150 Certificate of patent or registration of utility model

Ref document number: 6971210

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250