Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP6699031B2 - Model learning method, description evaluation method, and device - Google Patents
[go: Go Back, main page]

JP6699031B2 - Model learning method, description evaluation method, and device - Google Patents

Model learning method, description evaluation method, and device Download PDF

Info

Publication number
JP6699031B2
JP6699031B2 JP2015103964A JP2015103964A JP6699031B2 JP 6699031 B2 JP6699031 B2 JP 6699031B2 JP 2015103964 A JP2015103964 A JP 2015103964A JP 2015103964 A JP2015103964 A JP 2015103964A JP 6699031 B2 JP6699031 B2 JP 6699031B2
Authority
JP
Japan
Prior art keywords
learning
feature
explanation
sentence
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015103964A
Other languages
Japanese (ja)
Other versions
JP2016218807A (en
Inventor
昭悟 木村
昭悟 木村
仁 西川
仁 西川
裕之 藤代
裕之 藤代
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hosei University
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
Hosei University
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Hosei University, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015103964A priority Critical patent/JP6699031B2/en
Publication of JP2016218807A publication Critical patent/JP2016218807A/en
Application granted granted Critical
Publication of JP6699031B2 publication Critical patent/JP6699031B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、モデル学習方法、説明文評価方法、及び装置に係り、特に、文書に対する説明文を評価するためのモデル学習方法、説明文評価方法、及び装置に関する。   The present invention relates to a model learning method, an explanatory text evaluation method, and an apparatus, and more particularly to a model learning method, an explanatory text evaluation method, and an apparatus for evaluating an explanatory text for a document.

近年、Twitter(登録商標)やFacebook(登録商標)といったソーシャル・ネットワーキング・サービス(以下、SNSと称する)の隆盛により、人々のニュース消費の方法に大きな変化が訪れている。新聞やテレビの報道機関がニュース発信の主体であったマスメディア時代における人々のニュース消費の方法は、報道機関から大衆=マスに向けて発信されるニュースを一方的に受け取るだけであった。そのため、人々がニュースに触れることができるのは、基本的に新聞では一日2回、テレビではニュース番組の時間帯だけであった。   In recent years, the rise of social networking services (hereinafter referred to as SNS) such as Twitter (registered trademark) and Facebook (registered trademark) has brought about a great change in the method of people's news consumption. In the mass media era, when news media such as newspapers and television were the main sources of news, the only way for people to consume news was to unilaterally receive news sent from the media to the mass. As a result, people were able to get in touch with the news basically twice a day in newspapers and only during news programs on TV.

しかし、インターネットの登場により、ニュースは新聞やテレビだけでなくインターネットを通じて得られるようになった。近年ではSNSとスマートフォンの台頭により、ちょっとした空き時間にも簡単にニュースに接触できるように、ニュース消費の環境が変化してきた。SNS上には膨大なニュースが溢れるようになってきたことから、インターネット上に配信されるニュースを整理して読者に提示するキュレーションサービスも登場している。これは膨大なニュースの配信量に対して、人々のニュース消費が追いつかなくなっている状況を示している。   However, with the advent of the Internet, news is available not only through newspapers and television, but also through the Internet. In recent years, due to the rise of SNS and smartphones, the environment of news consumption has changed so that news can be easily contacted even in a short free time. Since a huge amount of news has been flooded on the SNS, a curation service has also appeared, which organizes news presented on the Internet and presents it to the reader. This shows that people's news consumption is not keeping up with the huge amount of news distribution.

膨大なニュースの中から選んでもらうためにニュースを発信する側は、記事の価値だけではなく、数多くの読者の目を引きつけ記事に誘導する様々な仕掛けを行う必要に迫られている。例えば、SNSのアカウントを開設して情報発信をしたり、記事にはSNSに投稿できるボタンを設置したりする等の工夫をしている。   In order to select from a huge amount of news, the news sending side is required to take not only the value of the article, but also various mechanisms to attract a large number of readers and guide the article. For example, it is devised to open an SNS account to transmit information, and to install an article button on an SNS.

また、SNSで記事を照会するためのタイトルや説明文をより読者に訴求するような変更が行われている。アメリカのバイラルメディア「Upworthy」では、拡散する見出し(タイトル)をつけるために1つのコンテンツに対して見出し案を25本書き出すという約束があると言われている。一方で、人々の関心を集める中身が伴わない過激なタイトルは「釣りタイトル」と呼ばれており、読者が適切な記事を見つけることを妨げている。「釣りタイトル」ではなく、かつ、読者に訴求するタイトルや説明文をどのようにして構成するかが課題である。しかし、読者の関心を引きつけるようなタイトルや説明文をどのように構成するかは、編集者の経験と勘に委ねられており、読者の関心を引きつけるタイトルや説明文を自動的に構成する具体的な方法論は見いだせていない。   In addition, changes have been made to appeal to readers for titles and explanations for inquiring articles on the SNS. In the US viral media “Upworthy”, it is said that there is a promise to write out 25 headline proposals for one content in order to add a diffused headline (title). On the other hand, radical titles that do not have content that attracts people's attention are called "fishing titles," and prevent readers from finding suitable articles. The issue is how to compose a title or description that appeals to the reader, rather than a “fishing title”. However, how to compose a title or description that attracts the reader's attention is left to the experience and intuition of the editor. I haven't found a general methodology.

一方、記事からタイトルを自動的に構成する方法として、文短縮技術を用いてニュース記事の見出しを付与する方法が知られている(例えば、非特許文献1参照)。非特許文献1の方法では、読み手の関心を強く引くと期待される表現があらかじめ与えられるという条件の下で、そのような表現をできるだけ保持したまま文を短く書き換えている。   On the other hand, as a method of automatically constructing a title from an article, a method of adding a headline of a news article using a sentence shortening technique is known (for example, see Non-Patent Document 1). In the method of Non-Patent Document 1, a sentence is rewritten as short as possible while holding such an expression as much as possible, under the condition that an expression expected to attract the reader's attention is given in advance.

西川,今村,別所,牧野,松尾 “クエリ依存文短縮と見出し生成への応用,” 情報処理学会技術報告, 2013-NL-214, No.2, pp.1-7, 2013.Nishikawa, Imamura, Bessho, Makino, Matsuo “Query-dependent sentence shortening and application to headline generation,” IPSJ Technical Report, 2013-NL-214, No.2, pp.1-7, 2013.

しかしながら、非特許文献1の方法は、SNSユーザの関心とは無関係に文を短縮する手法であり、ユーザの関心を引きつける表現を同定する課題は扱われていない。   However, the method of Non-Patent Document 1 is a method of shortening a sentence irrespective of the interest of the SNS user, and does not deal with the problem of identifying an expression that attracts the interest of the user.

本発明は、上記問題点を解決するために成されたものであり、ユーザの関心を引きつける文書の説明文を構成するための評価モデルを学習することができるモデル学習方法、及び装置を提供することを目的とする。   The present invention has been made to solve the above problems, and provides a model learning method and apparatus capable of learning an evaluation model for constructing an explanatory text of a document that attracts a user's interest. The purpose is to

また、本発明は、ユーザの関心を引きつける文書の説明文を構成することができる説明文評価方法、及び装置を提供することを目的とする。   It is another object of the present invention to provide an explanatory text evaluation method and apparatus capable of constructing an explanatory text of a document that attracts a user's interest.

上記目的を達成するために、第1の発明に係るモデル学習方法は、素性抽出部と、モデル学習部とを含む、文書を説明する説明文を評価するための評価モデルを学習するモデル学習装置におけるモデル学習方法であって、前記素性抽出部が、入力された学習用説明文の各々について、前記学習用説明文に含まれる画像のリンクの有無に関する素性、前記学習用説明文に含まれる予め定められたキーワードの有無に関する素性、前記学習用説明文の構造に関する素性、及び前記学習用説明文に含まれる単語の意味を表した分散表現に関する素性を含む複数の素性を抽出するステップと、前記モデル学習部が、前記素性抽出部によって抽出された、前記学習用説明文の各々についての前記複数の素性に基づいて、前記評価モデルを学習するステップと、を含んで実行することを特徴とする。   In order to achieve the above-mentioned object, a model learning method according to a first aspect of the present invention is a model learning device that includes a feature extraction unit and a model learning unit and that learns an evaluation model for evaluating an explanatory sentence that describes a document. In the model learning method according to, the feature extraction unit, for each of the input learning explanations, a feature regarding the presence or absence of a link of an image included in the learning explanations, a feature included in the learning explanations in advance. Extracting a plurality of features including a feature regarding the presence or absence of a defined keyword, a feature regarding the structure of the learning explanation sentence, and a feature regarding a distributed expression that represents the meaning of a word included in the learning explanation sentence, and And a step of learning the evaluation model based on the plurality of features of each of the learning explanation sentences extracted by the feature extraction unit, the model learning unit executing the evaluation model. ..

また、第1の発明に係るモデル学習方法において、前記素性抽出部が抽出するステップは、入力された前記学習用説明文の各々についての前記学習用説明文を投稿するユーザのユーザ属性及び前記学習用説明文の投稿時刻を含む学習用投稿情報と、前記学習用説明文が説明する対象である学習用文書と、前記学習用文書の投稿時刻を含む学習用メタデータとに基づいて前記学習用説明文の各々について、前記素性として、前記学習用説明文に含まれる前記キーワードが前記学習用文書に含まれる否かに関する素性と、前記学習用説明文に含まれる単語の分散表現と前記学習用文書に含まれる単語の分散表現との類似度に関する素性と、前記学習用説明文の投稿時刻及び前記学習用文書の投稿時刻に基づく素性と、前記学習用投稿情報に含まれるユーザ属性に関する素性とを更に抽出するようにしてもよい。   In the model learning method according to the first aspect of the invention, the step of extracting by the feature extraction unit includes the user attribute of the user who posts the learning explanation sentence for each of the input learning explanation sentences, and the learning. Based on learning posting information including a posting time of a learning explanation sentence, a learning document that is a target to be explained by the learning explanation sentence, and learning metadata including a posting time of the learning document For each of the explanation sentences, as the feature, a feature regarding whether or not the keyword included in the learning explanation sentence is included in the learning document, a distributed expression of words included in the learning explanation sentence, and the learning Features related to the similarity to the distributed expression of words included in the document, features based on the posting time of the learning explanation sentence and the posting time of the learning document, and features related to user attributes included in the learning posting information. May be further extracted.

また、第1の発明に係るモデル学習方法において、前記学習用文書のメタデータに、前記学習用文書に関するキーワードが含まれる場合には、前記素性抽出部が抽出するステップは、入力された前記学習用文書の学習用メタデータに基づいて、前記学習用説明文の各々について、前記素性として、前記学習用文書の学習用メタデータに含まれる前記学習用文書に関するキーワードが前記学習用説明文に含まれることに関する素性を更に抽出するようにしてもよい。   Further, in the model learning method according to the first aspect, when the metadata of the learning document includes a keyword related to the learning document, the feature extracting unit extracts the input learning For each of the learning explanation sentences based on the learning metadata of the learning document, a keyword relating to the learning document included in the learning metadata of the learning document is included in the learning explanation sentence as the feature. You may make it further extract the feature regarding what is done.

第2の発明に係る説明文評価方法は、素性抽出部と、候補評価部とを含む、文書を説明する説明文候補を評価する説明文評価装置における説明文評価方法であって、前記素性抽出部が、入力された前記説明文候補について、前記説明文候補に含まれる画像のリンクの有無を示す素性、前記説明文候補に含まれる予め定められたキーワードの有無を示す素性、前記説明文候補の構造を示す素性、及び前記説明文候補に含まれる単語の意味に関する分散表現を示す素性を含む複数の素性を抽出するステップと、前記候補評価部が、前記説明文候補について、前記素性抽出部が抽出するステップにより抽出された前記複数の素性と、予め学習された説明文を評価するための評価モデルと、に基づいて、前記説明文候補を評価するステップと、を含んで実行することを特徴とする。   An explanation sentence evaluation method according to a second aspect of the present invention is an explanation sentence evaluation method in an explanation sentence evaluation device that includes a feature extraction unit and a candidate evaluation unit and evaluates a description sentence candidate that describes a document. Part, for the input explanation sentence candidate, a feature indicating the presence or absence of a link of the image included in the explanation sentence candidate, a feature indicating the presence or absence of a predetermined keyword included in the explanation sentence candidate, the explanation sentence candidate And a plurality of features including a feature indicating a distributed representation of the meaning of words included in the explanation sentence candidates, the candidate evaluation unit, the candidate extraction unit, the feature extraction unit Based on the plurality of features extracted by the step of extracting, and an evaluation model for evaluating the pre-learned explanatory text, the step of evaluating the explanatory text candidates, including the execution. Characterize.

また、第2の発明に係る説明文評価方法において、前記素性抽出部が抽出するステップは、入力された前記説明文候補についての前記説明文候補を投稿するユーザのユーザ属性及び前記説明文候補の投稿時刻を含む投稿情報と、前記説明文候補が説明する対象である文書と、前記文書の投稿時刻を含むメタデータとに基づいて、前記素性として、前記説明文候補に含まれる前記キーワードが前記文書に含まれる否かに関する素性と、前記説明文候補に含まれる単語の分散表現と前記文書に含まれる単語の分散表現との類似度に関する素性と、前記説明文候補の投稿時刻及び前記文書の投稿時刻に基づく素性と、前記投稿情報に含まれるユーザ属性に関する素性とを更に抽出するようにしてもよい。   In the explanation sentence evaluation method according to the second aspect of the present invention, the step of extracting by the feature extracting unit includes the user attribute of the user who posts the explanation sentence candidate for the input explanation sentence candidate and the explanation sentence candidate. Based on posting information including a posting time, a document that is a target to be explained by the explanation sentence candidate, and metadata including a posting time of the document, the keyword included in the explanation sentence candidate is the feature as the feature. Features regarding whether or not they are included in a document, features regarding the similarity between a distributed expression of words included in the explanatory sentence candidates and a distributed expression of words included in the document, and a posting time of the explanatory sentence candidates and the document The feature based on the posted time and the feature related to the user attribute included in the posted information may be further extracted.

また、第2の発明に係る説明文評価方法において、前記文書のメタデータに、前記文書に関するキーワードが含まれる場合には、前記素性抽出部が抽出するステップは、入力された前記文書のメタデータに基づいて、前記素性として、前記文書のメタデータに含まれる前記文書に関するキーワードが前記説明文候補に含まれることに関する素性を更に抽出するようにしてもよい。   Further, in the explanatory text evaluation method according to the second invention, when the metadata of the document includes a keyword related to the document, the feature extracting unit extracts the metadata of the input document. Based on the above, as the feature, a feature regarding that the keyword related to the document included in the metadata of the document is included in the description sentence candidate may be further extracted.

第3の発明に係るモデル学習装置は、文書を説明する説明文を評価するための評価モデルを学習するモデル学習装置であって、入力された学習用説明文の各々について、前記学習用説明文に含まれる画像のリンクの有無に関する素性、前記学習用説明文に含まれる予め定められたキーワードの有無に関する素性、前記学習用説明文の構造に関する素性、及び前記学習用説明文に含まれる単語の意味を表した分散表現に関する素性を含む複数の素性を抽出する素性抽出部と、前記素性抽出部によって抽出された、前記学習用説明文の各々についての前記複数の素性に基づいて、前記評価モデルを学習するモデル学習部と、と、を含んで構成されている。   A model learning device according to a third aspect of the present invention is a model learning device for learning an evaluation model for evaluating a descriptive text for explaining a document, wherein the learning descriptive text for each of the input learning descriptive texts. Feature related to the presence or absence of a link of the image included in, the feature related to the presence or absence of a predetermined keyword included in the learning description, a feature related to the structure of the learning description, and of the words included in the learning description A feature extraction unit that extracts a plurality of features including a feature related to a distributed expression that represents meaning, and the evaluation model extracted based on the plurality of features for each of the learning explanation sentences extracted by the feature extraction unit. And a model learning unit for learning.

第4の発明に係る説明文評価装置は、文書を説明する説明文候補を評価する説明文評価装置であって、入力された前記説明文候補について、前記説明文候補に含まれる画像のリンクの有無を示す素性、前記説明文候補に含まれる予め定められたキーワードの有無を示す素性、前記説明文候補の構造を示す素性、及び前記説明文候補に含まれる単語の意味に関する分散表現を示す素性を含む複数の素性を抽出する素性抽出部と、前記説明文候補について、前記素性抽出部が抽出するステップにより抽出された前記複数の素性と、予め学習された説明文を評価するための評価モデルと、に基づいて、前記説明文候補を評価する候補評価部と、を含んで構成されている。   An explanatory note evaluation device according to a fourth aspect of the present invention is an explanatory note evaluation device that evaluates explanatory note candidates that explain a document, wherein the input explanatory note candidate is a link of an image included in the explanatory note candidate. Feature indicating presence/absence, feature indicating presence/absence of a predetermined keyword included in the explanation sentence candidate, feature indicating structure of the explanation sentence candidate, and feature indicating a distributed expression regarding meaning of words included in the explanation sentence candidate Feature extraction unit that extracts a plurality of features, including, with respect to the description sentence candidates, the plurality of features extracted by the step of extracting the feature extraction unit, an evaluation model for evaluating the pre-learned description sentence And a candidate evaluation unit that evaluates the description sentence candidate based on the above.

本発明のモデル学習方法、及び装置によれば、学習用説明文の各々について、画像のリンクの有無に関する素性、キーワードの有無に関する素性、構造に関する素性、及び単語の意味を表した分散表現に関する素性を含む複数の素性を抽出し、学習用説明文の各々についての複数の素性に基づいて評価モデルを学習することにより、読者の興味を引きつける文書の説明文を構成するための評価モデルを学習することができる、という効果が得られる。   According to the model learning method and the apparatus of the present invention, for each of the learning explanation sentences, the feature regarding the presence or absence of the image link, the feature regarding the presence or absence of the keyword, the feature regarding the structure, and the feature regarding the distributed expression expressing the meaning of the word. By extracting multiple features including, and learning the evaluation model based on multiple features for each of the learning explanation sentences, we learn the evaluation model for constructing the explanation sentence of the document that attracts the reader's interest. The effect that can be obtained is obtained.

本発明の説明文評価方法、及び装置によれば、説明文候補について、画像のリンクの有無に関する素性、キーワードの有無に関する素性、構造に関する素性、及び単語の意味を表した分散表現に関する素性を含む複数の素性を抽出し、複数の素性と、予め学習された評価モデルとに基づいて、説明文候補を評価することにより、読者の興味を引きつける文書の説明文を構成することができる、という効果が得られる。   According to the explanatory text evaluation method and apparatus of the present invention, the explanatory text candidates include the feature regarding the presence or absence of the link of the image, the feature regarding the presence or absence of the keyword, the feature regarding the structure, and the feature regarding the distributed expression representing the meaning of the word. An effect that a description sentence of a document that attracts a reader's interest can be configured by extracting a plurality of features and evaluating a description sentence candidate based on the plurality of features and an evaluation model learned in advance. Is obtained.

本発明の第1の実施の形態に係るモデル学習装置の構成を示すブロック図である。It is a block diagram which shows the structure of the model learning apparatus which concerns on the 1st Embodiment of this invention. 本発明の第1の実施の形態に係る説明文評価装置の構成を示すブロック図である。It is a block diagram which shows the structure of the explanatory note evaluation apparatus which concerns on the 1st Embodiment of this invention. 本発明の第1の実施の形態に係るモデル学習装置におけるモデル学習処理ルーチンを示すフローチャートである。It is a flow chart which shows a model learning processing routine in a model learning device concerning a 1st embodiment of the present invention. 本発明の第1の実施の形態に係る説明文評価装置における説明文評価処理ルーチンを示すフローチャートである。It is a flowchart which shows the explanatory note evaluation processing routine in the explanatory note evaluation apparatus which concerns on the 1st Embodiment of this invention. 本発明の第2の実施の形態に係る説明文評価装置の構成を示すブロック図である。It is a block diagram which shows the structure of the explanatory note evaluation apparatus which concerns on the 2nd Embodiment of this invention. 本発明の第2の実施の形態に係る説明文評価装置における説明文評価処理ルーチンを示すフローチャートである。It is a flowchart which shows the explanatory note evaluation processing routine in the explanatory note evaluation apparatus which concerns on the 2nd Embodiment of this invention.

以下、図面を参照して本発明の実施の形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

<本発明の実施の形態に係る概要> <Outline of Embodiment of the Present Invention>

まず、本発明の実施の形態における概要を説明する。本実施の形態では、モデル学習装置により、文書を説明する説明文を評価するための評価モデルを構築し、説明文評価装置により、構築した評価モデルに基づいて、あらかじめ構成された説明文候補の中から適切な候補を選択することにより、ユーザの関心を引きつけるニュース記事の説明文を構成する場合を例に説明する。   First, the outline of the embodiment of the present invention will be described. In the present embodiment, a model learning device is used to build an evaluation model for evaluating the explanatory texts that explain a document, and the explanatory text evaluation device is used to create pre-configured explanatory text candidates based on the constructed evaluation model. An example will be described in which an explanatory sentence of a news article that attracts a user's attention is formed by selecting an appropriate candidate from among them.

例えば、モデル学習装置は、学習用素性抽出部とモデル学習部によって、ユーザの関心を引きつける表現を定量的に分析することが可能な説明文の評価モデルを構築する。また、説明文評価装置は、候補評価部により、構築した説明文の評価モデルに基づいて、あらかじめ構成された出力説明文候補の中から適切な候補を選択することにより、ユーザの関心を引きつけるニュース記事の説明文を構成できる。   For example, the model learning device constructs an evaluation model of an explanatory sentence that enables quantitative analysis of an expression that attracts a user's interest by using the learning feature extraction unit and the model learning unit. In addition, the explanation sentence evaluation device selects a suitable candidate from among the output explanation sentence candidates pre-configured by the candidate evaluation unit on the basis of the constructed evaluation model of the explanation sentence, thereby attracting the user's attention. You can configure the description of the article.

<本発明の第1の実施の形態に係るモデル学習装置の構成> <Configuration of Model Learning Device According to First Embodiment of the Present Invention>

次に、本発明の第1の実施の形態に係るモデル学習装置の構成について説明する。なお、本実施の形態のモデル学習装置においては、学習用文書としてはニュース記事を用い、学習用説明文としてはSNS(例えばTwitter(登録商標)等)のユーザの投稿を用いて評価モデルを学習する場合を例に説明する。   Next, the configuration of the model learning device according to the first embodiment of the present invention will be described. In the model learning apparatus according to the present embodiment, a news article is used as a learning document, and an evaluation model is learned using a user's post of SNS (eg, Twitter (registered trademark)) as a learning description. A case will be described as an example.

図1に示すように、本発明の第1の実施の形態に係るモデル学習装置100は、CPUと、RAMと、後述するモデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このモデル学習装置100は、機能的には図1に示すように入力部10と、演算部20とを備えている。   As shown in FIG. 1, a model learning device 100 according to a first embodiment of the present invention includes a CPU, a RAM, and a ROM that stores a program for executing a model learning processing routine described later and various data. , Can be configured by a computer including. The model learning device 100 functionally includes an input unit 10 and a calculation unit 20 as shown in FIG.

入力部10は、学習用文書(例えば、ニュース記事)と、学習用文書の各種関連情報としての学習用文書に関するキーワード(例えば、出版社名、著者名、著者略歴に含まれる固有名詞等)及び投稿時刻等を含む学習用メタデータと、学習用文書を説明する説明文である複数の学習用説明文(例えば、ニュース記事に言及するSNS上の投稿)と、各学習用説明文を投稿する際の付帯情報である学習用説明文の投稿時刻及び学習用説明文を投稿するユーザの各種のユーザ属性等を含む学習用投稿情報と、学習用文書をどの程度適切に表現しているかを表す各学習用説明文についての学習用評価値とを受け付ける。   The input unit 10 includes a learning document (for example, a news article), a keyword related to the learning document as various related information of the learning document (for example, a publisher name, an author name, a proper noun included in the author biographies, etc.), Post learning metadata including a posting time, a plurality of learning explanatory texts (for example, postings on an SNS that mention news articles) that are explanatory texts that explain the learning document, and post each learning explanatory text. The post information for learning including the posting time of the explanatory text for learning and various user attributes of the user who posts the explanatory text for learning, and how well the learning document is expressed A learning evaluation value for each learning explanation is accepted.

演算部20は、素性抽出部30と、モデル学習部32と、分散表現データベース40と、評価モデル42を含んで構成されている。   The calculation unit 20 includes a feature extraction unit 30, a model learning unit 32, a distributed expression database 40, and an evaluation model 42.

素性抽出部30は、入力部10により受け付けた、学習用文書、学習用メタデータ、複数の学習用説明文、及び各学習用説明文の学習用投稿情報に基づいて、学習用説明文の各々について、以下の例1〜例6−5に挙げる、複数の素性を抽出する。なお、学習用評価値を用いて、素性の値を決めるようにしてもよい。   The feature extracting unit 30 each of the learning explanation sentences based on the learning document, the learning metadata, the plurality of learning explanation sentences, and the learning contribution information of each learning explanation sentence received by the input unit 10. With respect to, a plurality of features listed in Examples 1 to 6-5 below are extracted. The feature value may be determined using the learning evaluation value.

素性抽出部30は、例1として、学習用説明文に含まれる画像のリンクの有無に関する素性を抽出する。当該素性は、学習用説明文に画像へのリンクを表す情報が含まれるかどうかを2値で表現する。   As an example 1, the feature extraction unit 30 extracts features related to the presence/absence of a link in an image included in the learning explanatory note. The feature expresses whether or not the description for learning includes information indicating a link to an image by a binary value.

また、素性抽出部30は、以下に挙げる例2−1から例2−3のように、学習用説明文の投稿時刻及び学習用文書の投稿時刻に基づく素性と、学習用説明文の投稿時刻に基づく素性とを抽出する。   In addition, the feature extraction unit 30, as in Examples 2-1 to 2-3 below, includes a feature based on the posting time of the learning explanatory note and the posting time of the learning document, and the posting time of the learning explanatory note. And a feature based on.

素性抽出部30は、例2−1として、学習用説明文の投稿時刻と学習用文書の投稿時刻との差、又は当該差の対数を素性として抽出する(Time-diff)。学習用説明文の投稿時刻は学習用投稿情報から、学習用文書の投稿時刻は学習用メタデータから、それぞれ取得できるものとする。   As Example 2-1, the feature extraction unit 30 extracts the difference between the posting time of the learning explanation sentence and the posting time of the learning document or the logarithm of the difference as the feature (Time-diff). The posting time of the learning explanatory note can be obtained from the learning posting information, and the posting time of the learning document can be obtained from the learning metadata.

素性抽出部30は、例2−2として、学習用説明文の投稿時間帯を素性とする(Time-period)。例えば、時間帯を2−5時、6−9時、10−15時、16−19時、20−25時の5つの区間に分割し、いずれの時間帯に属するかを、5つの2値系列で表現する素性を抽出する。時間帯の情報は、学習用投稿情報に含まれる投稿時刻から取得する。   As an example 2-2, the feature extraction unit 30 sets the posting time period of the learning explanatory note as a feature (Time-period). For example, the time zone is divided into five sections from 2-5 o'clock, 6-9 o'clock, 10-15 o'clock, 16-19 o'clock, and 20-25 o'clock, and five binary values indicating which time zone they belong to. A feature expressed by a series is extracted. The time zone information is acquired from the posting time included in the learning posting information.

素性抽出部30は、例2−3して、学習用説明文の投稿曜日を素性とする(Time-weekday)。例えば、学習用投稿情報から曜日を取得し、平日か週末かを2値で表現する素性を抽出する。   The feature extraction unit 30 sets the posting day of the learning explanation text as a feature in Example 2-3 (Time-weekday). For example, the day of the week is acquired from the post information for learning, and the feature of expressing a weekday or a weekend by a binary value is extracted.

また、素性抽出部30は、予め定められたキーワードの有無に関する素性を抽出する。例えば、以下に挙げる例3−1のように、特定のキーワードが学習用説明文に含まれているかどうかを、指定したキーワードの数の2値系列等で表現した素性を抽出する。   In addition, the feature extraction unit 30 extracts a feature regarding the presence or absence of a predetermined keyword. For example, as in Example 3-1, which will be described below, a feature in which whether or not a specific keyword is included in the learning explanatory note is expressed by a binary sequence of the number of designated keywords is extracted.

素性抽出部30は、例3−1として、学習用説明文に、あらかじめ指定したキーワードを含む場合を1、キーワードを含まない場合を0とし、指定したキーワードの有無の2値系列で表現した素性を抽出する。本実施の形態では、理由(Keyword-reason)、方法(Keyword-method)、驚き(Keyword-surprise)、特別(Keyword-special)などに関連するキーワードをいくつか設定して、それらのキーワードの有無を素性とする。   As an example 3-1, the feature extraction unit 30 sets 1 when the learning explanation includes a keyword specified in advance, sets 0 when it does not include the keyword, and expresses the feature as a binary sequence of the presence or absence of the specified keyword. To extract. In the present embodiment, some keywords related to reasons (Keyword-reason), method (Keyword-method), surprise (Keyword-surprise), special (Keyword-special), etc. are set, and the presence or absence of those keywords is set. Is a feature.

また、素性抽出部30は、上記例3−1のような予め定められたキーワードを含む場合以外に、その他、以下のようなキーワードに関連する素性を抽出してもよい。   Further, the feature extraction unit 30 may extract features related to the following keywords in addition to the case where the predetermined keywords are included as in the above Example 3-1.

素性抽出部30は、例3−2として、学習用文書の学習用メタデータに含まれる学習用文書に関するキーワードが、学習用説明文に含まれるかどうか、もしくは含まれる数に関する素性を抽出する(Keyword-publisher)。例えば、学習用説明文に学習用文書の著者名が含まれていれば1とカウントアップし、出版社名が含まれていれば更に1とカウントアップする方法が考えられる。また、学習用文書に独自のキーワードが設定されている場合(webニュース記事の場合にはMETAタグにキーワードが設定されることがある)には、学習用説明文にそれらのキーワードにあるかどうか、もしくはそれらキーワードの出現回数を用いる方法も考えられる。   As Example 3-2, the feature extraction unit 30 extracts features related to whether or not a keyword related to the learning document included in the learning metadata of the learning document is included in the learning explanation text ( Keyword-publisher). For example, a method of counting up 1 if the learning explanation includes the author name of the learning document, and further counting up 1 if the publisher name is included can be considered. Also, if unique keywords are set in the learning document (in the case of web news articles, keywords may be set in the META tag), whether those keywords are included in the learning explanation Alternatively, a method of using the number of appearances of those keywords can be considered.

素性抽出部30は、例3−3として、学習用説明文に含まれるキーワードが学習用文書に含まれるか否かに関する素性を抽出する。例えば、学習用説明文に含まれる一般名詞及び固有名詞が、学習用文書の第1段落に含まれるかどうかを、一般名詞及び固有名詞のそれぞれについて2値で表現した素性を抽出する(Keyword-paragraph1)。   As an example 3-3, the feature extraction unit 30 extracts a feature regarding whether or not the keyword included in the learning explanatory note is included in the learning document. For example, whether or not the general nouns and proper nouns included in the learning explanation are included in the first paragraph of the learning document is extracted by binary representation of the general nouns and proper nouns (Keyword- paragraph1).

また、素性抽出部30は、以下に挙げる例4−1から例4−6のように、学習用説明文及び学習用文書の構造に関する素性を抽出する。   Further, the feature extraction unit 30 extracts features related to the structure of the learning explanatory note and the learning document, as in Examples 4-1 to 4-6 listed below.

素性抽出部30は、例4−1として、学習用説明文の先頭に括弧を含むかどうかを、2値で表現した素性を抽出する(Structure-bracket)。   As Example 4-1, the feature extraction unit 30 extracts a feature that represents whether or not a parenthesis is included at the head of the learning explanation sentence by a binary value (Structure-bracket).

素性抽出部30は、例4−2として、学習用説明文の先頭に括弧が含まれ、その括弧内に特定のキーワードが含まれるかどうかを2値で表現した素性、又は、特定のキーワードの各々が含まれるかを表す2値系列で表現した素性を抽出する(Structure-keyword)。   As the example 4-2, the feature extraction unit 30 includes a parenthesis at the beginning of the learning explanatory sentence and a binary feature indicating whether or not the particular keyword is included in the parenthesis, or a feature of the particular keyword. A feature expressed by a binary sequence indicating whether each is included is extracted (Structure-keyword).

素性抽出部30は、例4−3として、学習用説明文の先頭の括弧を除く最初の形態素が固有名詞どうかを、2値で表現する素性を抽出する(Structure-propernoun)。   As Example 4-3, the feature extraction unit 30 extracts a feature that binary-expresses whether the first morpheme excluding the parenthesis at the beginning of the learning explanation sentence is a proper noun (Structure-propernoun).

素性抽出部30は、例4−4として、学習用説明文の先頭の括弧及び助詞を除く2番目の形態素が名詞かどうかを、2値で表現する素性を抽出する(Structure-noun)。   As Example 4-4, the feature extraction unit 30 extracts a feature that represents whether or not the second morpheme excluding the parenthesis and particle in the beginning of the learning explanation sentence is a noun by a binary value (Structure-noun).

素性抽出部30は、例4−5として、学習用文書のタイトルと学習用説明文との編集距離、又は編集距離の対数により表した素性を抽出する(Structure-title)。   As Example 4-5, the feature extraction unit 30 extracts a feature represented by the edit distance between the title of the learning document and the learning explanation or the logarithm of the edit distance (Structure-title).

素性抽出部30は、例4−6として、学習用説明文の総単語数及び総文字数、又はこれらを対数により表した素性を抽出する(Structure-length)。   As Example 4-6, the feature extraction unit 30 extracts the total number of words and the total number of characters of the learning explanation sentence, or a feature represented by logarithm thereof (Structure-length).

また、素性抽出部30は、例5として、学習用投稿情報に含まれるユーザ属性に関する素性を抽出する。例えば、Twitter(登録商標)のようなSNSを対象とした場合、投稿ユーザ属性は、フォロアー数、フォロー数、リスト被登録数、総投稿数、又はこれらの対数などを、学習用投稿情報から取得して素性とすればよい。   Further, as Example 5, the feature extraction unit 30 extracts features related to user attributes included in the learning post information. For example, when an SNS such as Twitter (registered trademark) is targeted, the posting user attribute acquires the number of followers, the number of followers, the number of registered items in the list, the total number of posts, or the logarithm thereof from the learning posting information. Then you can make it a feature.

また、素性抽出部30は、以下に挙げる例6−1から例6−4のように、分散表現データベース40に基づいて、学習用説明文に含まれる単語の意味を表した分散表現に関する素性を抽出する。   In addition, the feature extraction unit 30, based on the distributed expression database 40, as in Examples 6-1 to 6-4 described below, identifies features related to the distributed expressions that represent the meanings of the words included in the learning description. Extract.

ここで、分散表現データベース40には、予め単語の各々について学習した単語の分散表現が格納されている。単語の分散表現は、単語を固定次元の実数値ベクトルで表現する枠組であり、このベクトルの中に単語の言語的な性質を持たせ、類似した意味を持つ単語が類似したベクトルとなるように学習するのが一般的である。このような単語の分散表現のベクトルは、非特許文献2(Mikolov, Sutskever, Chen, Corrado, Dean “Distributed representations of words and phrases and their compositionality,” Proc. Advances in Neural Information Processing Systems (NIPS), pp.3111-3119, 2013.)に示す方法などで獲得できる。   Here, the distributed expression database 40 stores the distributed expressions of the words learned for each of the words in advance. The distributed representation of words is a framework that expresses words in fixed-dimension real-valued vectors, and the linguistic properties of words are given in this vector so that words with similar meanings become similar vectors. It is common to learn. Such a distributed expression vector of words is described in Non-Patent Document 2 (Mikolov, Sutskever, Chen, Corrado, Dean “Distributed representations of words and phrases and their compositionality,” Proc. Advances in Neural Information Processing Systems (NIPS), pp. .3111-3119, 2013.) and other methods.

本実施の形態では、各単語の分散表現は1つの多次元ベクトルで、単語の集合の分散表現は各単語に対応する多次元ベクトルの和として、それぞれ表現されるものとする。これにより、単語と単語との類似度、単語と単語集合との類似度、及び単語集合と単語集合との類似度を、多次元ベクトル同士の類似度として計算できる。多次元ベクトル同士の類似度は、例えばコサイン距離などを使って計算する。   In the present embodiment, the distributed expression of each word is represented by one multidimensional vector, and the distributed expression of a set of words is represented by the sum of the multidimensional vectors corresponding to each word. Thereby, the similarity between words, the similarity between words and word sets, and the similarity between word sets and word sets can be calculated as the similarity between multidimensional vectors. The degree of similarity between multidimensional vectors is calculated using, for example, the cosine distance.

素性抽出部30は、単語の分散表現のベクトルを用いて、例6−1として、学習用説明文の中で最も類似度の高い名詞の対の類似度を素性として抽出する(Distribute-sim)。   The feature extracting unit 30 extracts the similarity of the pair of nouns having the highest similarity among the learning explanations as the feature, using the vector of the distributed expression of words as Example 6-1 (Distribute-sim). ..

素性抽出部30は、単語の分散表現のベクトルを用いて、例6−2として、学習用説明文の中で他の単語集合と最も離れている単語と、当該最も離れている単語以外の全ての単語の集合との類似度を素性として抽出する(Distribute-farword1)。なお、上記の単語を名詞に限定した場合の類似度を素性としてもよい。   The feature extraction unit 30 uses the vector of the distributed expression of words, and as Example 6-2, all the words apart from the word set farthest from the other word set in the learning explanation sentence and the word farthest from the word set. The similarity with the set of words is extracted as a feature (Distribute-farword1). Note that the similarity when the above words are limited to nouns may be the feature.

素性抽出部30は、単語の分散表現のベクトルを用いて、例6−3として、学習用説明文の中で他の単語集合と最も離れている単語と、学習用説明文の中で当該最も離れている単語に対して最も類似度の高い名詞の対との類似度を素性として抽出する(Distribute-simfar)。   As an example 6-3, the feature extraction unit 30 uses the vector of the distributed expression of words, and as Example 6-3, the word farthest from the other word set in the learning explanation sentence and the most relevant word in the learning explanation sentence. The similarity with a noun pair having the highest similarity to distant words is extracted as a feature (Distribute-simfar).

素性抽出部30は、単語の分散表現のベクトルを用いて、例6−4として、学習用説明文の中で他の単語集合と最も離れている単語と、当該最も離れている単語に対して類似度が最も小さい単語との類似度を素性として抽出する(Distribute-farwords2)。なお、上記の単語を名詞に限定した場合の類似度を素性としてもよい。   The feature extracting unit 30 uses the vector of the distributed expression of the words, as Example 6-4, for the word most distant from the other word set in the learning explanation sentence, and for the word most distant. The similarity with the word with the smallest similarity is extracted as a feature (Distribute-farwords2). Note that the similarity when the above words are limited to nouns may be the feature.

素性抽出部30は、例6−5として、学習用説明文に含まれる単語の分散表現と学習用文書に含まれる単語の分散表現との類似度に関する素性を抽出する。例えば、学習用文書に含まれる単語の分散表現のベクトルの和集合と、学習用説明文の各々に含まれる単語の分散表現のベクトルの和集合との類似度を素性として抽出する(Distribute-paragraph)。   As Example 6-5, the feature extraction unit 30 extracts features related to the degree of similarity between the distributed expression of words included in the learning explanation and the distributed expression of words included in the learning document. For example, the similarity between the union of vectors of distributed expressions of words included in the learning document and the union of vectors of distributed expressions of words included in each of the learning explanation sentences is extracted as a feature (Distribute-paragraph ).

モデル学習部32は、素性抽出部30によって抽出された、学習用説明文の各々についての複数の素性と、入力部10により受け付けた学習用説明文の各々についての学習用評価値とに基づいて、評価モデルを学習し、評価モデル42として記憶する。なお、学習用評価値は、全ての学習用説明文について用意されている場合を例に説明するが、これに限定されるものではなく、一部の学習用説明文に対して用意されており、半教師あり学習を行うようにしてもよい。   The model learning unit 32 is based on the plurality of features for each of the learning explanation sentences extracted by the feature extraction unit 30 and the learning evaluation value for each of the learning explanation sentences received by the input unit 10. , The evaluation model is learned and stored as the evaluation model 42. The learning evaluation value will be described as an example of the case where all learning explanations are prepared, but the learning evaluation value is not limited to this, and it is prepared for some learning explanations. Alternatively, semi-supervised learning may be performed.

モデル学習部32において、評価モデルを学習する方法は特に限定されるものではないが、本実施形態においては、抽出した複数の素性から学習用評価値の順位を予測する順位付けモデルを利用する。モデル学習部32は、順位付けモデルを用いて、同一の学習用文書から抽出された学習用素性に対応する学習用評価値の順位を推定するモデルを学習する。学習用評価値を直接推定する回帰モデルに比べて、学習に要する計算量は増加するが、学習用評価値の絶対値による影響を緩和できる。順位付けモデルの学習には様々な手法を用いることができるが、例えば、非特許文献3(Joachims, “Training linear SVMs in linear time,” Proc. ACM International Conference on Knowledge Discovery and Data Mining (KDD), pp.217-226, 2006.)などに示すサポートベクトルに基づく手法を用いる方法が考えられる。なお、学習用素性から学習用評価値を直接推定する回帰モデルを利用してもよい。回帰モデルを用いる場合には、学習用素性から学習用評価値を直接推定するモデルを学習する。学習用素性は多次元ベクトルであるため、一般に知られるいずれの線形・非線形の回帰手法を用いることができるが、例えば、非特許文献4(Chang and Lin "LIBSVM: A library for support vector machines," ACM Transactions on Intelligent Systems and Technology, Vol.2, No.27, pp.1-27, 2011.)などに記載のサポートベクトル回帰を用いる。   The method for learning the evaluation model in the model learning unit 32 is not particularly limited, but in the present embodiment, a ranking model for predicting the rank of the learning evaluation value from the extracted plurality of features is used. The model learning unit 32 uses the ranking model to learn a model for estimating the rank of the learning evaluation value corresponding to the learning feature extracted from the same learning document. Although the amount of calculation required for learning increases compared to a regression model that directly estimates the learning evaluation value, the influence of the absolute value of the learning evaluation value can be mitigated. Although various methods can be used for learning the ranking model, for example, Non-Patent Document 3 (Joachims, “Training linear SVMs in linear time,” Proc. pp.217-226, 2006.) and other methods using the support vector-based method can be considered. A regression model that directly estimates the learning evaluation value from the learning feature may be used. When the regression model is used, a model for directly estimating the learning evaluation value from the learning feature is learned. Since the learning feature is a multidimensional vector, any generally known linear/non-linear regression method can be used. For example, Non-Patent Document 4 (Chang and Lin "LIBSVM: A library for support vector machines," Support vector regression described in ACM Transactions on Intelligent Systems and Technology, Vol.2, No.27, pp.1-27, 2011.) is used.

<本発明の第1の実施の形態に係る説明文評価装置の構成> <Structure of explanatory sentence evaluation device according to first embodiment of the present invention>

次に、本発明の実施の形態に係る説明文評価装置の構成について説明する。図2に示すように、本発明の実施の形態に係る説明文評価装置200は、CPUと、RAMと、後述する説明文評価処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この説明文評価装置200は、機能的には図2に示すように入力部210と、演算部220と、出力部250とを備えている。   Next, the configuration of the explanatory note evaluation device according to the embodiment of the present invention will be described. As shown in FIG. 2, the explanatory note evaluation device 200 according to the embodiment of the present invention includes a CPU, a RAM, a ROM that stores a program for executing an explanatory note evaluation processing routine, which will be described later, and various data. Can be configured with a computer including. The explanatory text evaluation device 200 is functionally provided with an input unit 210, a calculation unit 220, and an output unit 250, as shown in FIG.

入力部210は、説明対象となる文書と、当該文書の各種関連情報としての文書に関するキーワード及び投稿時刻等を含むメタデータと、当該文書に対する複数の説明文候補と、当該文書について説明している説明文候補の各々を投稿する際の付帯情報である説明文候補の投稿時刻及び説明文候補を投稿したユーザの各種のユーザ属性等を含む投稿情報とを受け付ける。   The input unit 210 describes a document to be explained, metadata including a keyword and a posting time regarding the document as various related information of the document, a plurality of explanation sentence candidates for the document, and the document. Posting information including posting time of the explanatory text candidate and various user attributes of the user who posted the explanatory text candidate, which is additional information when posting each of the explanatory text candidates, is accepted.

演算部220は、素性抽出部230と、候補評価部232と、説明文選択部234と、分散表現データベース240と、評価モデル242とを含んで構成されている。   The calculation unit 220 is configured to include a feature extraction unit 230, a candidate evaluation unit 232, an explanation sentence selection unit 234, a distributed expression database 240, and an evaluation model 242.

素性抽出部230は、入力部210により受け付けた文書、メタデータ、投稿情報、及び複数の説明文候補に基づいて、説明文候補の各々について、複数の素性を抽出する。具体的には、上記モデル学習装置100の素性抽出部30と同様の処理を行って、複数の素性を抽出する。   The feature extraction unit 230 extracts a plurality of features for each of the explanation sentence candidates based on the document, the metadata, the posted information, and the plurality of explanation sentence candidates received by the input unit 210. Specifically, the same process as the feature extraction unit 30 of the model learning device 100 is performed to extract a plurality of features.

候補評価部232は、説明文候補の各々について、素性抽出部230により抽出された複数の素性と、予め学習された説明文を評価するための評価モデル242とに基づいて、説明文候補を評価する。   The candidate evaluation unit 232 evaluates the explanation sentence candidates for each of the explanation sentence candidates based on the plurality of features extracted by the feature extraction unit 230 and the evaluation model 242 for evaluating the previously learned explanation sentence. To do.

評価モデル242には、上記モデル学習装置100により学習された評価モデル42と同じものが記憶されている。   The same model as the evaluation model 42 learned by the model learning device 100 is stored in the evaluation model 242.

候補評価部232において、評価値を算出する方法は特に限定されるものではないが、本実施形態では、説明文候補の各々についての複数の素性を評価モデルに与えた際に推定される評価値を用いる。評価モデルとして順位付けモデルを用いた場合には、説明文候補の各々について順位付けの基準となる評価値が予測される。なお、複数の説明文候補を順位付けした順位を評価値として採用してもよい。また、評価モデルとして回帰モデルを用いた場合には、説明文候補の各々について評価値が直接予測される。   The method for calculating the evaluation value in the candidate evaluation unit 232 is not particularly limited, but in the present embodiment, the evaluation value estimated when a plurality of features for each of the explanatory sentence candidates is given to the evaluation model. To use. When a ranking model is used as the evaluation model, an evaluation value serving as a ranking standard is predicted for each of the explanatory sentence candidates. A ranking obtained by ranking a plurality of explanation sentence candidates may be adopted as the evaluation value. When a regression model is used as the evaluation model, the evaluation value is directly predicted for each of the explanation sentence candidates.

説明文選択部234は、候補評価部232で説明文候補の各々について評価された評価値に基づいて、文書を説明する説明文として適切と評価された説明文候補と、対応する投稿情報とを選択し、選択した組を出力部250に出力する。説明文候補と投稿情報を選択する方法は特に限定されるものではないが、本実施形態では、最大の評価値を示した素性に対応する説明文候補と投稿情報との組を選択する。なお、評価値の大きい順に素性を複数選択して、選択した素性に対応する複数の説明文候補から、投稿情報が重複しないように、説明文候補と投稿情報との組を選択するようにしてもよい。   Based on the evaluation value evaluated by the candidate evaluation unit 232 for each of the explanation sentence candidates, the explanation sentence selection unit 234 selects the explanation sentence candidate that is evaluated as appropriate as the explanation sentence that explains the document and the corresponding post information. The selected set is output to the output unit 250. The method of selecting the explanation sentence candidates and the posted information is not particularly limited, but in the present embodiment, the set of the explanation sentence candidates and the posted information corresponding to the feature having the maximum evaluation value is selected. In addition, by selecting a plurality of features in descending order of evaluation value, from a plurality of explanation sentence candidates corresponding to the selected features, select a combination of explanation sentence candidates and posted information, so that the posted information does not overlap. Good.

<本発明の第1の実施の形態に係るモデル学習装置の作用> <Operation of the model learning device according to the first embodiment of the present invention>

次に、本発明の実施の形態に係るモデル学習装置100の作用について説明する。入力部10において、学習用文書、学習用メタデータ、複数の学習用説明文、各学習用説明文の学習用投稿情報、及び各学習用説明文の学習用評価値を受け付けると、モデル学習装置100は、図3に示すモデル学習処理ルーチンを実行する。   Next, the operation of the model learning device 100 according to the embodiment of the present invention will be described. When the input section 10 receives a learning document, learning metadata, a plurality of learning explanation sentences, learning posting information of each learning explanation sentence, and a learning evaluation value of each learning explanation sentence, the model learning device 100 executes the model learning processing routine shown in FIG.

まず、ステップS100では、入力部10において受け付けた学習用文書、学習用メタデータ、複数の学習用説明文、学習用投稿情報、及び学習用評価値を取得する。   First, in step S100, the learning document, the learning metadata, the plurality of learning explanatory notes, the learning posting information, and the learning evaluation value received by the input unit 10 are acquired.

次に、ステップS102では、ステップS100で取得した学習用文書、学習用メタデータ、複数の学習用説明文、及び学習用説明文の各々の学習用投稿情報に基づいて、学習用説明文の各々について、上記の例1〜例6−5に挙げた、複数の素性を抽出する。   Next, in step S102, each of the learning explanation sentences is based on the learning document, the learning metadata, the plurality of learning explanation sentences, and the learning contribution information of each of the learning explanation sentences acquired in step S100. For, the plurality of features listed in Examples 1 to 6-5 above are extracted.

ステップS104では、ステップS102で抽出された、学習用説明文の各々についての複数の素性と、ステップS100で取得した学習用説明文の各々についての学習用評価値とに基づいて、評価モデルを学習する。   In step S104, the evaluation model is learned based on the plurality of features of each of the learning explanation sentences extracted in step S102 and the learning evaluation value of each of the learning explanation sentences acquired in step S100. To do.

ステップS106では、ステップS104で学習した評価モデルを、評価モデル42として記憶して処理を終了する。   In step S106, the evaluation model learned in step S104 is stored as the evaluation model 42, and the process ends.

以上説明したように、第1の実施の形態に係るモデル学習装置によれば、学習用文書、学習用メタデータ、複数の学習用説明文、及び学習用投稿情報に基づいて、学習用説明文の各々について、画像のリンクの有無に関する素性、キーワードの有無に関する素性、構造に関する素性、単語の意味を表した分散表現に関する素性、学習用説明文に含まれるキーワードが学習用文書に含まれるか否かに関する素性、学習用説明文に含まれる単語の分散表現と学習用文書に含まれる単語の分散表現との類似度に関する素性、学習用説明文の投稿時刻及び学習用文書の投稿時刻に基づく素性、学習用投稿情報に含まれるユーザ属性に関する素性、及び学習用メタデータに含まれるキーワードが学習用説明文に含まれることに関する素性を含む複数の素性を抽出し、学習用説明文の各々についての複数の素性と、学習用説明文の各々についての学習用評価値とに基づいて、評価モデルを学習することにより、精度よく、読者の興味を引きつける文書の説明文を構成するための評価モデルを学習することができる。   As described above, according to the model learning apparatus according to the first embodiment, the learning explanation text is based on the learning document, the learning metadata, the plurality of learning explanation texts, and the learning posting information. For each of the above, features related to the presence or absence of image links, features related to the presence or absence of keywords, features related to structure, features related to distributed expressions that express the meaning of words, and whether or not the keywords included in the learning explanation are included in the learning document. Features related to or, features related to the degree of similarity between the distributed expression of words included in the learning explanation and the distributed expression of words included in the learning document, the posting time of the learning explanation text, and the feature based on the posting time of the learning text , A plurality of features including features related to user attributes included in the learning post information and features related to the keywords included in the learning metadata being included in the learning explanation sentences, and By learning the evaluation model based on a plurality of features and the evaluation value for learning for each of the learning explanation text, an evaluation model for accurately constructing the explanation text of the document that attracts the reader's interest can be obtained. You can learn.

<本発明の第1の実施の形態に係る説明文評価装置の作用> <Operation of the explanatory sentence evaluation device according to the first embodiment of the present invention>

次に、本発明の第1の実施の形態に係る説明文評価装置200の作用について説明する。入力部210において、文書、文書の各種関連情報であるメタデータ、当該文書に対する複数の説明文候補、及び説明文候補の各々についての投稿情報を受け付けると、説明文評価装置200は、図4に示す説明文評価処理ルーチンを実行する。   Next, the operation of the explanatory text evaluation device 200 according to the first embodiment of the present invention will be described. When the input unit 210 receives a document, metadata that is various pieces of related information of the document, a plurality of explanation sentence candidates for the document, and posted information about each of the explanation sentence candidates, the explanation sentence evaluation device 200 displays the information in FIG. The illustrated evaluation processing routine is executed.

まず、ステップS200では、入力部210において受け付けた文書、メタデータ、複数の説明文候補、及び投稿情報を取得する。   First, in step S200, the document, the metadata, the plurality of explanatory sentence candidates, and the posting information received by the input unit 210 are acquired.

次に、ステップS204では、ステップS200で取得した文書、メタデータ、複数の説明文候補、及び説明文候補の各々についての投稿情報に基づいて、説明文候補の各々について、複数の素性を抽出する。   Next, in step S204, a plurality of features are extracted from each of the explanation sentence candidates based on the document, the metadata, the plurality of explanation sentence candidates, and the posted information about each of the explanation sentence candidates acquired in step S200. ..

ステップS206では、ステップS204で説明文候補の各々について生成された複数の素性と、予め学習された評価モデル242とに基づいて、説明文候補の各々について、当該説明文候補の素性の各々について評価値を予測する。   In step S206, based on the plurality of features generated for each of the explanation sentence candidates in step S204 and the evaluation model 242 learned in advance, for each of the explanation sentence candidates, each of the features of the corresponding explanation sentence candidate is evaluated. Predict the value.

ステップS208では、ステップS206で説明文候補の各々について予測された説明文候補のうち、最大の評価値を示した素性に対応する説明文候補と投稿情報との組を選択する。   In step S208, a set of an explanation sentence candidate and post information corresponding to the feature showing the maximum evaluation value is selected from the explanation sentence candidates predicted for each of the explanation sentence candidates in step S206.

ステップS210では、ステップS208で選択された説明文候補と投稿情報との組を出力部250に出力し処理を終了する。   In step S210, the set of the explanatory sentence candidate and the post information selected in step S208 is output to the output unit 250, and the process ends.

以上説明したように、第1の実施の形態に係る説明文評価装置によれば、説明文候補の各々について、複数の素性を抽出し、説明文候補の各々について抽出された複数の素性と、評価モデル242とに基づいて、説明文候補の各々について、評価値を予測することにより、精度よく、読者の興味を引きつける文書の説明文を構成することができる。   As described above, according to the explanation sentence evaluation device according to the first embodiment, a plurality of features are extracted for each of the explanation sentence candidates, and a plurality of features extracted for each of the explanation sentence candidates, By predicting the evaluation value for each of the explanation sentence candidates based on the evaluation model 242, the explanation sentence of the document that attracts the reader's interest can be accurately constructed.

<本発明の第2の実施の形態に係るモデル学習装置の構成> <Configuration of model learning device according to second embodiment of the present invention>

次に、本発明の第2の実施の形態に係るモデル学習装置の構成について説明する。なお、第2の実施の形態に係るモデル学習装置の構成及び作用は第1の実施の形態に係るモデル学習装置100と同様であるため詳細な説明を省略する。   Next, a configuration of the model learning device according to the second exemplary embodiment of the present invention will be described. The configuration and operation of the model learning device according to the second embodiment are the same as those of the model learning device 100 according to the first embodiment, and detailed description thereof will be omitted.

<本発明の第2の実施の形態に係る説明文評価装置の構成> <Structure of explanatory sentence evaluation device according to second embodiment of the present invention>

次に、本発明の第2の実施の形態に係る説明文評価装置の構成について説明する。なお、第1の実施の形態に係る説明文評価装置200と同様の構成及び作用となる部分については同一符号を付して説明を省略する。   Next, the configuration of the explanatory note evaluation device according to the second embodiment of the present invention will be described. It should be noted that parts having the same configurations and operations as those of the explanatory sentence evaluation device 200 according to the first embodiment are designated by the same reference numerals and description thereof will be omitted.

第2の実施の形態に係る説明文評価装置は、文書から説明文候補の各々を生成する点が第1の実施の形態と異なっている。   The explanation sentence evaluation apparatus according to the second embodiment differs from that of the first embodiment in that each of the explanation sentence candidates is generated from a document.

図5に示すように、本発明の第2の実施の形態に係る説明文評価装置400は、CPUと、RAMと、説明文評価処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この説明文評価装置400は、機能的には上記図5に示すように入力部410と、演算部420と、出力部250とを備えている。   As shown in FIG. 5, the explanatory note evaluation device 400 according to the second embodiment of the present invention includes a CPU, a RAM, and a ROM that stores a program for executing the explanatory note evaluation processing routine and various data. , And can be configured by a computer including. This explanatory sentence evaluation device 400 is functionally provided with an input unit 410, a calculation unit 420, and an output unit 250, as shown in FIG.

入力部410は、文書、及びメタデータを受け付ける。   The input unit 410 receives a document and metadata.

第2の実施の形態に係る演算部420は、説明文候補生成部428と、素性抽出部430と、候補評価部232と、説明文選択部234と、分散表現データベース240と、評価モデル242とを含んで構成されている。   The calculation unit 420 according to the second embodiment includes a description sentence candidate generation unit 428, a feature extraction unit 430, a candidate evaluation unit 232, a description sentence selection unit 234, a distributed expression database 240, and an evaluation model 242. It is configured to include.

説明文候補生成部428は、入力部410により受け付けた文書に基づいて、当該文書を要約した複数の要約文候補を、複数の説明文候補として生成する。説明文候補を生成する方法は特に限定されるものではないが、第2の実施形態においては、例えば、文書からその要約文を生成する文書要約の手法を適用する。例えば、非特許文献5(西川,有田,田中,平尾,牧野,松尾 “識別的隠れ半マルコフモデルによるテキスト一貫性を考慮した単一文書要約,” 言語処理学会年次大会発表論文集,pp.492-495,2014年.)などに示す所定の文字数制約を満たすように文書中の文を選択する方法を用いることができる。また、上記非特許文献1などに示す文短縮器を併用し、生成した要約文候補を短縮して、説明文候補としてもよい。   Based on the document received by the input unit 410, the explanatory text candidate generation unit 428 generates a plurality of abstract text candidates that summarize the document as a plurality of explanatory text candidates. The method of generating the explanation sentence candidates is not particularly limited, but in the second embodiment, for example, a document summarization method of generating the summary sentence from a document is applied. For example, Non-Patent Document 5 (Nishikawa, Arita, Tanaka, Hirao, Makino, Matsuo “Single Document Summarization Considering Text Consistency by Discriminative Hidden Semi-Markov Model,” Proc. 492-495, 2014.) and the like can be used to select a sentence in a document so as to satisfy a predetermined character number constraint. Further, the sentence shortener shown in Non-Patent Document 1 or the like may be used in combination, and the generated summary sentence candidates may be shortened to serve as explanation sentence candidates.

素性抽出部430は、入力部410により受け付けた文書、メタデータ、及び説明文候補生成部428により生成された説明文候補の各々に基づいて、説明文の各々について、複数の素性を抽出する。具体的には、上記モデル学習装置100の素性抽出部30と同様の処理を行って、複数の素性を抽出する。なお、第2の実施の形態では投稿情報を用いずに抽出が可能な素性のみを抽出する。ただし、文書から生成される説明文候補の各々に対して予め定めた任意の投稿情報を用いて素性を抽出してもよい。   The feature extraction unit 430 extracts a plurality of features from each of the explanation sentences based on each of the document, the metadata received by the input unit 410, and the explanation sentence candidate generated by the explanation sentence candidate generation unit 428. Specifically, the same process as the feature extraction unit 30 of the model learning device 100 is performed to extract a plurality of features. In the second embodiment, only the features that can be extracted are extracted without using the posted information. However, the feature may be extracted using any predetermined posting information for each of the explanatory sentence candidates generated from the document.

なお、第2の実施の形態に係る説明文評価装置の他の構成は、第1の実施の形態の説明文評価装置200と同様であるため詳細な説明を省略する。   Note that the other configurations of the explanatory note evaluation device according to the second embodiment are similar to those of the explanatory note evaluation device 200 of the first embodiment, and thus detailed description thereof will be omitted.

<本発明の第2の実施の形態に係る説明文評価装置の作用> <Operation of the explanatory sentence evaluation device according to the second embodiment of the present invention>

次に、本発明の第2の実施の形態に係る説明文評価装置400の作用について説明する。入力部410において文書、及び文書の各種関連情報であるメタデータを受け付けると、図6に示す説明文評価処理ルーチンを実行する。なお、第2の実施の形態の説明文評価装置の作用について、第1の実施の形態と同様の作用となる部分については、同一符号を付して説明を省略する。   Next, the operation of the explanatory note evaluation device 400 according to the second embodiment of the present invention will be described. When the input unit 410 receives a document and metadata that is various related information of the document, the explanatory note evaluation processing routine shown in FIG. 6 is executed. Regarding the operation of the explanatory sentence evaluation device of the second embodiment, the same reference numerals will be given to parts having the same operations as those of the first embodiment, and description thereof will be omitted.

ステップS400では、入力部410において受け付けた文書、及びメタデータを取得する。   In step S400, the document and metadata received by the input unit 410 are acquired.

ステップS402では、ステップS200で取得した文書から、複数の要約文候補を、複数の説明文候補として生成する。   In step S402, a plurality of summary sentence candidates are generated as a plurality of explanatory sentence candidates from the document acquired in step S200.

ステップS404では、ステップS400で取得した文書、及びメタデータ、並びにステップS402で生成された説明文候補の各々に基づいて、説明文候補の各々について、複数の素性を抽出する。   In step S404, a plurality of features are extracted from each of the explanation sentence candidates based on the document and metadata acquired in step S400 and each of the explanation sentence candidates generated in step S402.

なお、第2の実施の形態に係る説明文評価装置の他の作用は、第1の実施の形態の説明文評価装置200と同様であるため詳細な説明を省略する。   Note that other operations of the explanatory note evaluation device according to the second embodiment are similar to those of the explanatory note evaluation device 200 of the first embodiment, and detailed description thereof will be omitted.

以上説明したように、第2の実施の形態に係る説明文評価装置によれば、文書から説明文候補の各々を生成し、説明文候補の各々について、複数の素性を抽出し、説明文候補の各々について抽出された複数の素性と、評価モデル242とに基づいて、説明文候補の各々について、評価値を予測することにより、精度よく、読者の興味を引きつける文書の説明文を構成することができる。   As described above, according to the explanation sentence evaluation apparatus according to the second embodiment, each of the explanation sentence candidates is generated from the document, a plurality of features is extracted from each of the explanation sentence candidates, and the explanation sentence candidate is extracted. By accurately estimating the evaluation value for each of the explanation sentence candidates based on the plurality of features extracted for each of the above and the evaluation model 242, the explanation sentence of the document that accurately attracts the reader's interest can be configured. You can

<実験結果> <Experimental results>

第1の実施形態を検証するために、Twitter(R)-APIから取得したツイートを説明文候補として用いる実験を行った。およそ3ヶ月間の間に投稿されたツイートのうち、特定のニュースサイトの記事へのリンクを含み、1回以上リツイートもしくはお気に入り登録され、同一記事へのリンクを含むツイートが複数存在するツイートを抽出した。また、これらの抽出したツイートからリンクされたニュースサイトの記事を収集し、タイトル、本文、メタ情報などを抽出した。上記の手順により、総計約700記事、約2800ツイートを収集した。   In order to verify the first embodiment, an experiment was performed in which a tweet acquired from Twitter(R)-API was used as an explanatory text candidate. Among tweets posted in about 3 months, extracted tweets that include links to articles on a specific news site, are retweeted or registered once or more, and have multiple tweets that include links to the same article. did. We also collected news site articles linked from these extracted tweets and extracted titles, texts, and meta information. Through the above procedure, a total of about 700 articles and about 2,800 tweets were collected.

また、学習用説明文候補の評価値として、ツイートのリツイート数とお気に入り登録数の合計値を採用した。説明文候補を選択する手法の評価手法としては、順位付けで一般的に用いられる尺度の一つであるnormalized discount cumulative gain (NDCG) を採用する。このNDCGは、予測した順位付けが正解と完全に一致したときに1となり、上位の順位付けの予測を外すほど評価値が大きく下がる。   In addition, the total value of the number of retweets of tweets and the number of favorite registrations was adopted as the evaluation value of the learning explanation sentence candidates. Normalized discount cumulative gain (NDCG), which is one of the scales commonly used in ranking, is adopted as the evaluation method for selecting explanatory sentence candidates. This NDCG becomes 1 when the predicted ranking completely matches the correct answer, and the evaluation value is greatly reduced as the prediction of the higher ranking is missed.

モデル学習では、回帰モデル学習にSVMlightを、順位付けモデル学習にSVMrankをそれぞれ用い、SVMのカーネルは線形カーネルを選択した。SVMのハイパーパラメータの決定は4-fold cross validationで、SVMモデル学習は5-fold cross validationで、それぞれ実行した。   In model learning, SVMlight was used for regression model learning and SVMrank was used for ranking model learning, and a linear kernel was selected as the SVM kernel. SVM hyperparameter determination was performed with 4-fold cross validation, and SVM model learning was performed with 5-fold cross validation.

本実験では、上記素性抽出部30に示した素性のうち51次元の素性を用いた。それぞれの素性種別の次元数は、以下の表1に示す通りである。51次元全ての素性を用いた場合に加え、素性種別ごと、およびランダムな予測と比較し、各素性がどの程度有効であるかを、順位付けモデル学習を用いた場合について検証する。また、全ての素性を用いた場合については、回帰モデル学習 (All SVR) と順位付けモデル (All) とを比較した。   In this experiment, 51-dimensional features among the features shown in the feature extraction unit 30 were used. The number of dimensions of each feature type is as shown in Table 1 below. In addition to the case of using all 51-dimensional features, the effectiveness of each feature is verified by comparing with each feature type and random prediction in the case of using the ranking model learning. When all features were used, regression model learning (All SVR) and ranking model (All) were compared.

実験結果を表1に示す。表1から、全ての素性を用いた場合が個別の素性種別を用いた結果よりも必ずしも良くなるとは限らないものの、各素性が少なくともランダムな予測よりも良い結果を示したことがわかる。また、順位付けモデルが回帰モデルに比べて有意に良い結果となった。個別の素性種別では、画像の有無 (Image)、説明文の構造 (Structure)、投稿ユーザの統計情報 (User) が説明文候補の選択に有効であることが示唆される。   The experimental results are shown in Table 1. From Table 1, it can be seen that although all features are not always better than the results using individual feature types, each feature shows at least better results than random prediction. In addition, the ranking model was significantly better than the regression model. For each feature type, it is suggested that the presence or absence of an image (Image), the structure of the explanatory text (Structure), and the statistical information (User) of the posting user are effective for selecting the explanatory text candidates.

Figure 0006699031
Figure 0006699031

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   The present invention is not limited to the above-described embodiments, and various modifications and applications can be made without departing from the scope of the present invention.

例えば、上述した実施の形態では、説明文評価装置において、複数の説明文候補について評価する場合を例に説明したが、これに限定されるものではなく、一つの説明文候補を評価するようにしてもよい。   For example, in the above-described embodiment, the explanation sentence evaluation device has been described by way of example in which a plurality of explanation sentence candidates are evaluated, but the present invention is not limited to this, and one explanation sentence candidate may be evaluated. You may.

また、上述した実施の形態では、モデル学習装置によって、ニュース記事の文書に対する説明文を評価する評価モデルを学習し、説明文評価装置によって、学習した評価モデルを用いてニュース記事の文書に対する説明文を評価する場合を例に説明したが、これに限定されるものではなく、モデル学習装置によって、動画や音声等から得られた文書に対する説明文を評価する評価モデル学習し、説明文評価装置によって、学習した評価モデルを用いて動画や音声等から得られた文書に対する説明文を評価することもできる。   Further, in the above-described embodiment, the model learning device learns the evaluation model for evaluating the explanatory note for the news article document, and the explanatory sentence evaluation device uses the learned evaluation model to explain the explanatory text for the news article document. However, the present invention is not limited to this, and the model learning device performs the evaluation model learning to evaluate the explanatory text for the document obtained from the moving image or the sound, and the explanatory text evaluation device. By using the learned evaluation model, it is also possible to evaluate the explanatory note for the document obtained from the moving image or the sound.

また、上述した第1の実施の形態に係る説明文評価装置では、説明文候補の各々を入力として受け付けて、受け付けた説明文候補の各々を用いて複数の素性を抽出する場合を例に説明したが、これに限定されるものではなく、文書に対応する説明文候補の各々をインターネット上のSNS、ブログ等から取得して、取得した説明文候補の各々を用いて複数の素性を抽出するようにしてもよい。   Further, in the explanation sentence evaluation device according to the above-described first embodiment, a case where each of the explanation sentence candidates is received as an input and a plurality of features is extracted using each of the received explanation sentence candidates will be described as an example. However, the present invention is not limited to this, and each of the explanatory sentence candidates corresponding to the document is acquired from the SNS, blog, etc. on the Internet, and a plurality of features are extracted using each of the acquired explanatory text candidates. You may do it.

10、210、410 入力部
20、220、420 演算部
30、230、430 素性抽出部
32 モデル学習部
40、 評価モデル
40、240 分散表現データベース
42、242 評価モデル
100 モデル学習装置
200 説明文評価装置
232 候補評価部
234 説明文選択部
250 出力部
428 説明文候補生成部
10, 210, 410 Input unit 20, 220, 420 Operation unit 30, 230, 430 Feature extraction unit 32 Model learning unit 40, evaluation model 40, 240 Distributed expression database 42, 242 Evaluation model 100 Model learning device 200 Explanatory sentence evaluation device 232 candidate evaluation unit 234 explanatory sentence selection unit 250 output unit 428 explanatory sentence candidate generation unit

Claims (9)

素性抽出部と、モデル学習部とを含む、文書を説明する説明文が読者に訴求する構成であるか評価するための評価モデルを学習するモデル学習装置におけるモデル学習方法であって、
前記素性抽出部が、入力された学習用説明文の各々について、前記学習用説明文に含まれる画像のリンクの有無に関する素性、前記学習用説明文に含まれる予め定められたキーワードの有無に関する素性、前記学習用説明文の構造に関する素性、及び前記学習用説明文に含まれる単語の意味を表した分散表現に関する素性を含む複数の素性を抽出するステップと、
前記モデル学習部が、前記素性抽出部によって抽出された、前記学習用説明文の各々についての前記複数の素性に基づいて、前記評価モデルを学習するステップと、を含む
モデル学習方法。
A model learning method in a model learning device for learning an evaluation model for evaluating whether or not a description sentence for explaining a document is a configuration that appeals to a reader, including a feature extraction unit and a model learning unit,
The feature extraction unit, for each of the input learning explanation sentences, a feature regarding the presence or absence of a link of an image included in the learning explanation sentence, a feature regarding the presence or absence of a predetermined keyword included in the learning explanation sentence A step of extracting a plurality of features including a feature relating to the structure of the learning explanation sentence and a feature relating to a distributed expression expressing the meaning of words included in the learning explanation sentence,
The model learning unit learns the evaluation model based on the plurality of features of each of the learning explanation sentences extracted by the feature extraction unit.
前記モデル学習部は、前記説明文が読者に訴求する度合が大きいほど評価値が高くなるように、前記複数の素性と、学習用評価値とに基づいて、前記評価モデルを学習する請求項1記載のモデル学習方法。 The model learning unit learns the evaluation model based on the plurality of features and the evaluation value for learning so that the evaluation value increases as the degree to which the explanation sentence appeals to the reader increases. The model learning method described. 前記素性抽出部が抽出するステップは、入力された前記学習用説明文の各々についての前記学習用説明文を投稿するユーザのユーザ属性及び前記学習用説明文の投稿時刻を含む学習用投稿情報と、前記学習用説明文が説明する対象である学習用文書と、前記学習用文書の投稿時刻を含む学習用メタデータとに基づいて前記学習用説明文の各々について、前記素性として、前記学習用説明文に含まれる前記キーワードが前記学習用文書に含まれる否かに関する素性と、前記学習用説明文に含まれる単語の分散表現と前記学習用文書に含まれる単語の分散表現との類似度に関する素性と、前記学習用説明文の投稿時刻及び前記学習用文書の投稿時刻に基づく素性と、前記学習用投稿情報に含まれるユーザ属性に関する素性と、前記学習用説明文の先頭に括弧を含むかどうかを二値で表現した素性と、前記学習用説明文の先頭に括弧が含まれその括弧内に特定のキーワードが含まれるかどうかを二値で表現した素性、を更に抽出する請求項2に記載のモデル学習方法。 The feature extraction unit extracts the learning posting information including the user attribute of the user who posts the learning explanatory text for each of the input learning explanatory text and the posting time of the learning explanatory text, and , For each of the learning explanation sentences based on the learning document that is the target of the learning explanation sentence and the learning metadata including the posting time of the learning document, Regarding the feature regarding whether or not the keyword included in the explanation sentence is included in the learning document, and the similarity between the distributed expression of the words included in the learning explanation sentence and the distributed expression of the words included in the learning document Features, features based on the posting time of the learning explanation sentence and the posting time of the learning document, features relating to user attributes included in the learning posting information, and whether the learning explanation sentence includes parentheses at the beginning The feature expressed by a binary value and the feature expressed by a binary value indicating whether or not a parenthesis is included at the beginning of the learning explanation and the particular keyword is included in the parenthesis are further extracted. The model learning method described. 前記学習用文書のメタデータに、前記学習用文書に関するキーワードが含まれる場合には、
前記素性抽出部が抽出するステップは、入力された前記学習用文書の学習用メタデータに基づいて、前記学習用説明文の各々について、前記素性として、前記学習用文書の学習用メタデータに含まれる前記学習用文書に関するキーワードが前記学習用説明文に含まれることに関する素性を更に抽出する請求項3に記載のモデル学習方法。
When the metadata of the learning document includes a keyword related to the learning document,
The feature extraction unit extracts the learning metadata of the learning document based on the input learning metadata of the learning document, and includes the learning metadata of the learning document as the features. The model learning method according to claim 3, further comprising extracting a feature regarding that the keyword related to the learning document included in the learning explanation sentence is included.
素性抽出部と、候補評価部とを含む、文書を説明する説明文候補を評価する説明文評価装置における説明文評価方法であって、
前記素性抽出部が、入力された前記説明文候補について、前記説明文候補に含まれる画像のリンクの有無を示す素性、前記説明文候補に含まれる予め定められたキーワードの有無を示す素性、前記説明文候補の構造を示す素性、及び前記説明文候補に含まれる単語の意味に関する分散表現を示す素性を含む複数の素性を抽出するステップと、
前記候補評価部が、前記説明文候補について、前記素性抽出部が抽出するステップにより抽出された前記複数の素性と、予め学習された説明文が読者に訴求する構成であるか評価するための評価モデルと、に基づいて、前記説明文候補を評価するステップと、
を含む説明文評価方法。
A description sentence evaluation method in a description sentence evaluation device for evaluating a description sentence candidate for explaining a document, comprising a feature extraction unit and a candidate evaluation unit,
The feature extraction unit, for the input explanation sentence candidate, a feature indicating the presence or absence of a link of an image included in the explanation sentence candidate, a feature indicating the presence or absence of a predetermined keyword included in the explanation sentence candidate, the A step of extracting a plurality of features including a feature indicating the structure of the explanation sentence candidates and a feature indicating a distributed expression regarding the meaning of the words included in the explanation sentence candidates;
The candidate evaluation unit, for the explanation sentence candidate, an evaluation for evaluating whether or not the plurality of features extracted by the step of extracting by the feature extraction unit, and a pre-learned explanation sentence appeals to the reader A model, and evaluating the explanatory sentence candidates based on
Evaluation method including the description.
前記素性抽出部が抽出するステップは、入力された前記説明文候補についての前記説明文候補を投稿するユーザのユーザ属性及び前記説明文候補の投稿時刻を含む投稿情報と、前記説明文候補が説明する対象である文書と、前記文書の投稿時刻を含むメタデータとに基づいて、前記素性として、 前記説明文候補に含まれる前記キーワードが前記文書に含まれる否かに関する素性と、前記説明文候補に含まれる単語の分散表現と前記文書に含まれる単語の分散表現との類似度に関する素性と、前記説明文候補の投稿時刻及び前記文書の投稿時刻に基づく素性と、前記投稿情報に含まれるユーザ属性に関する素性と、前記学習用説明文の先頭に括弧を含むかどうかを二値で表現した素性と、前記学習用説明文の先頭に括弧が含まれその括弧内に特定のキーワードが含まれるかどうかを二値で表現した素性、を更に抽出する請求項5に記載の説明
文評価方法。
The step of extracting by the feature extraction unit is the posting information including the user attribute of the user who posts the explanation sentence candidate for the input explanation sentence candidate and the posting time of the explanation sentence candidate, and the explanation sentence candidate is explained. Based on the document that is the target and the metadata including the posting time of the document, as the feature, a feature regarding whether the keyword included in the description sentence candidate is included in the document, and the description sentence candidate Related to the degree of similarity between the distributed expression of the words included in and the distributed expression of the words included in the document, a feature based on the posting time of the explanatory sentence candidate and the posting time of the document, and a user included in the posted information Attribute features, a binary representation of whether or not a parenthesis is included at the beginning of the learning explanation sentence, and whether a parenthesis is included at the beginning of the learning explanation sentence and a specific keyword is included in the parenthesis. The explanatory sentence evaluation method according to claim 5, further comprising extracting a feature expressing whether it is binary .
前記文書のメタデータに、前記文書に関するキーワードが含まれる場合には、
前記素性抽出部が抽出するステップは、入力された前記文書のメタデータに基づいて、
前記素性として、前記文書のメタデータに含まれる前記文書に関するキーワードが前記説明文候補に含まれることに関する素性を更に抽出する請求項6に記載の説明文評価方法。
When the metadata of the document includes a keyword related to the document,
The step of extracting the feature extraction unit, based on the metadata of the input document,
7. The explanation sentence evaluation method according to claim 6, further comprising extracting, as the feature, a feature regarding that a keyword related to the document included in the metadata of the document is included in the explanation sentence candidate.
文書を説明する説明文が読者に訴求する構成であるか評価するための評価モデルを学習するモデル学習装置であって、
入力された学習用説明文の各々について、前記学習用説明文に含まれる画像のリンクの有無に関する素性、前記学習用説明文に含まれる予め定められたキーワードの有無に関する素性、前記学習用説明文の構造に関する素性、及び前記学習用説明文に含まれる単語の意味を表した分散表現に関する素性を含む複数の素性を抽出する素性抽出部と、
前記素性抽出部によって抽出された、前記学習用説明文の各々についての前記複数の素性に基づいて、前記評価モデルを学習するモデル学習部と、
を含むモデル学習装置。
A model learning device for learning an evaluation model for evaluating whether or not a description explaining a document is a structure appealing to a reader ,
For each of the input learning explanations, the feature regarding the presence or absence of the link of the image included in the learning explanation, the feature regarding the presence or absence of a predetermined keyword included in the learning explanation, the learning explanation A feature extraction unit that extracts a plurality of features including a feature related to the structure of, and a feature related to a distributed expression that represents the meaning of words included in the learning explanation sentence
A model learning unit, which is extracted by the feature extracting unit, learns the evaluation model based on the plurality of features for each of the learning explanation sentences,
Model learning device including.
文書を説明する説明文候補を評価する説明文評価装置であって、
入力された前記説明文候補について、前記説明文候補に含まれる画像のリンクの有無を示す素性、前記説明文候補に含まれる予め定められたキーワードの有無を示す素性、前記説明文候補の構造を示す素性、及び前記説明文候補に含まれる単語の意味に関する分散表現を示す素性を含む複数の素性を抽出する素性抽出部と、
前記説明文候補について、前記素性抽出部が抽出するステップにより抽出された前記複数の素性と、予め学習された説明文が読者に訴求する構成であるか評価するための評価モデルと、に基づいて、前記説明文候補を評価する候補評価部と、
を含む説明文評価装置。
An explanatory sentence evaluation device for evaluating explanatory sentence candidates for explaining a document,
For the input explanation sentence candidates, a feature indicating the presence or absence of a link of an image included in the explanation sentence candidates, a feature indicating the presence or absence of a predetermined keyword included in the explanation sentence candidates, and a structure of the explanation sentence candidates. A feature extraction unit that extracts a plurality of features including a feature indicating the feature and a distributed expression related to the meaning of words included in the description sentence candidate,
For the explanation sentence candidates, based on the plurality of features extracted by the step of extracting the feature extraction unit, and an evaluation model for evaluating whether the pre-learned explanation sentence is a configuration to appeal to the reader, A candidate evaluation unit for evaluating the explanatory sentence candidates,
An explanation sentence evaluation device including.
JP2015103964A 2015-05-21 2015-05-21 Model learning method, description evaluation method, and device Active JP6699031B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015103964A JP6699031B2 (en) 2015-05-21 2015-05-21 Model learning method, description evaluation method, and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015103964A JP6699031B2 (en) 2015-05-21 2015-05-21 Model learning method, description evaluation method, and device

Publications (2)

Publication Number Publication Date
JP2016218807A JP2016218807A (en) 2016-12-22
JP6699031B2 true JP6699031B2 (en) 2020-05-27

Family

ID=57581111

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015103964A Active JP6699031B2 (en) 2015-05-21 2015-05-21 Model learning method, description evaluation method, and device

Country Status (1)

Country Link
JP (1) JP6699031B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6205466B1 (en) * 2016-07-19 2017-09-27 ヤフー株式会社 Generating device, generating method, and generating program
KR101874994B1 (en) * 2017-04-05 2018-08-02 동국대학교 산학협력단 Device and method for predicting chances of norovirus infectious disease outbreak
KR101968309B1 (en) * 2017-09-05 2019-04-11 서울시립대학교 산학협력단 SYSTEM AND METHOD FOR text classification
CN109508370B (en) * 2018-09-28 2022-07-08 北京百度网讯科技有限公司 Comment extraction method, comment extraction device and storage medium

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3682529B2 (en) * 2002-01-31 2005-08-10 独立行政法人情報通信研究機構 Summary automatic evaluation processing apparatus, summary automatic evaluation processing program, and summary automatic evaluation processing method
JP6184840B2 (en) * 2013-11-07 2017-08-23 株式会社Nttドコモ Information processing apparatus and display priority determination method

Also Published As

Publication number Publication date
JP2016218807A (en) 2016-12-22

Similar Documents

Publication Publication Date Title
Silva et al. A survey and comparative study of tweet sentiment analysis via semi-supervised learning
Duric et al. Feature selection for sentiment analysis based on content and syntax models
Kang et al. based measurement of customer satisfaction in mobile service: Sentiment analysis and VIKOR approach
Chen et al. Mining user requirements to facilitate mobile app quality upgrades with big data
Montejo-Ráez et al. Ranked wordnet graph for sentiment polarity classification in twitter
CN107368515B (en) Application page recommendation method and system
US10242323B2 (en) Customisable method of data filtering
Vakulenko et al. A comparison of question rewriting methods for conversational passage retrieval
Bhonde et al. Sentiment analysis based on dictionary approach
CN102262647A (en) information processing apparatus, information processing method, and program
Dubey et al. Extended opinion lexicon and ML-based sentiment analysis of tweets: a novel approach towards accurate classifier
US10796095B2 (en) Prediction of tone of interpersonal text communications
Kauer et al. Using information retrieval for sentiment polarity prediction
CN117932036A (en) Dialogue processing method, device, electronic device and storage medium
Siddharth et al. Sentiment analysis on twitter data using machine learning algorithms in python
CN105378717A (en) Method for user categorization in social media, computer program, and computer
CN108090042A (en) For identifying the method and apparatus of text subject
JP6699031B2 (en) Model learning method, description evaluation method, and device
CN107798622A (en) A kind of method and apparatus for identifying user view
Das et al. Sentiment analysis of movie reviews using POS tags and term frequencies
Er et al. User-level twitter sentiment analysis with a hybrid approach
Li et al. Discriminating gender on Chinese microblog: A study of online behaviour, writing style and preferred vocabulary
JP2018028866A (en) Explanatory text creation method, explanatory text creation model learning method, and program
Pamungkas et al. Word sense disambiguation for lexicon-based sentiment analysis
Brum et al. Semi-supervised sentiment annotation of large corpora

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20150522

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20150615

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20171106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181002

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20181121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190124

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190618

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20190705

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20190719

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200407

R150 Certificate of patent or registration of utility model

Ref document number: 6699031

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250