Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP4468294B2 - EXPERIENCE INFORMATION EVALUATION DEVICE, PROGRAM, AND COMPUTER-READABLE RECORDING MEDIUM - Google Patents
[go: Go Back, main page]

JP4468294B2 - EXPERIENCE INFORMATION EVALUATION DEVICE, PROGRAM, AND COMPUTER-READABLE RECORDING MEDIUM - Google Patents

EXPERIENCE INFORMATION EVALUATION DEVICE, PROGRAM, AND COMPUTER-READABLE RECORDING MEDIUM Download PDF

Info

Publication number
JP4468294B2
JP4468294B2 JP2005354784A JP2005354784A JP4468294B2 JP 4468294 B2 JP4468294 B2 JP 4468294B2 JP 2005354784 A JP2005354784 A JP 2005354784A JP 2005354784 A JP2005354784 A JP 2005354784A JP 4468294 B2 JP4468294 B2 JP 4468294B2
Authority
JP
Japan
Prior art keywords
experience
expression
keyword
evaluation
text document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2005354784A
Other languages
Japanese (ja)
Other versions
JP2007157048A (en
Inventor
佳代 池田
雅博 奥
徹 定方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005354784A priority Critical patent/JP4468294B2/en
Publication of JP2007157048A publication Critical patent/JP2007157048A/en
Application granted granted Critical
Publication of JP4468294B2 publication Critical patent/JP4468294B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、体験情報評価装置及びプログラム及びコンピュータ読み取り可能な記録媒体に係り、特に、インターネットのようなあらゆる種類の情報が混在するような状況の中から、その情報に含まれる文章を解析し、注目するキーワードに関する体験談を提供することができる、注目キーワードを利用した体験情報評価装置及びプログラム及びコンピュータ読み取り可能な記録媒体に関する。 The present invention relates to experience information Review AtaiSo location and program and a computer-readable recording medium, in particular, from the circumstances, such as all kinds of information, such as the Internet are mixed, analyzes the sentence included in the information and can provide experiences related keywords of interest relates to experience information Review AtaiSo location and program and a computer-readable recording medium utilizing a target keyword.

近年、ホテルや旅行、電化製品など様々な事柄に関して、多くの人々がインターネット上で個人の意見を公開している。この公開場所は、ショッピングサイト自身が運営しているような様々な人の意見が集まる掲示板や、個人の意見をまとめたWeblogや個人のホームページのような場所等がある。特に、実体験に基づくユーザの声は、クチコミ情報もしくは評判情報としてマーケティングや商品開発、商品の購入検討などの支援として利用価値が高い。   In recent years, many people have published their opinions on the Internet regarding various matters such as hotels, travel, and electrical appliances. This public place includes a bulletin board where opinions of various people gathered, such as a shopping site itself, a weblog where personal opinions are gathered, and a personal homepage. In particular, the user's voice based on actual experience is highly useful as support for marketing, product development, product purchase consideration, etc. as word-of-mouth information or reputation information.

このため、ユーザが実際にある物事を体験したことを記述した情報か否かを判定する技術がある。これは、体験したことを記述する時に現れる記述的特徴である動詞の過去形を体験表現とし、それが記述された文章を体験情報として判定するというものである。   For this reason, there is a technique for determining whether or not the information describes that the user actually experienced a certain thing. In this method, the past form of a verb, which is a descriptive feature that appears when describing what has been experienced, is used as an experience expression, and the sentence in which it is described is determined as experience information.

上記のような技術を利用する場合は、文章の形態素解析を行うことがしばしばある。この形態素解析の技術として、例えば、語の共起を用いて同形語の読み分けを行う日本語形態素解析システムがある。語の共起は人にとって識別しやすいため、間違えにくく、確実にシステムの精度を上げることができる(例えば、非特許文献1参照)。   When using the above technique, morphological analysis of sentences is often performed. As a technique of this morpheme analysis, for example, there is a Japanese morpheme analysis system that reads homomorphic words using word co-occurrence. Since co-occurrence of words is easy to identify for a person, it is difficult to make a mistake and the accuracy of the system can be reliably increased (see, for example, Non-Patent Document 1).

本件で扱う「体験情報」とは、ユーザが実際にある物事を体験したことを記述した情報を指す。例えば、図12に示すようなものがある。図12において、A,C,Dは、書き手が実際に体験したこともしくは、継続して体験していることについて、「行っています」「食事をしています」「行ってきました」のような体験表現を利用して表現している。また、図12のB,Eは、書き手が実際に体験した結果得た意見や感想を「よかった」「悪かった」のような体験表現を利用して表現している。   “Experience information” handled in this case refers to information describing that the user actually experienced a certain thing. An example is shown in FIG. In Fig. 12, A, C, and D are like "I'm doing", "I'm eating", "I've been" about what the writer actually experienced or continuously experiencing It expresses using simple experience expression. Also, B and E in FIG. 12 express opinions and impressions obtained as a result of the actual experience of the writer using experience expressions such as “good” and “bad”.

体験表現でないものには、図12のF,Gに示すようなものがある。   Examples that are not experiential expressions include those shown in F and G of FIG.

図12のFは、マシンが安いという条件を示しているだけで、書き手が体験したものかどうかは特定できない。Gについても、アメニティと料金という条件を示しているだけで、書き手が体験したものかどうかは特定できない。   F in FIG. 12 indicates only the condition that the machine is cheap, and it cannot be determined whether the writer has experienced it. As for G, it is not possible to specify whether or not the writer has experienced only by showing the conditions of amenity and fee.

体験情報は、長文にわたるものもあれば、図12のA〜Eのように、1文で表現されるものもある。
渕武志、他、“保守性を考慮したい日本語形態素解析システム”情報処理学会自然言語処理研究会報告 117-09, vol. 1997-no, 004, pp59-66
The experience information may be a long sentence, or may be expressed in one sentence as shown in A to E of FIG.
Takeshi Tsuji, et al., “Japanese Morphological Analysis System that Considers Conservativeness” Report of the Information Processing Society of Japan Natural Language Processing Study Group 117-09, vol. 1997-no, 004, pp59-66

ユーザが欲しい情報を探そうとした時、何らかのキーワードを用いて、その情報が蓄積されているデータベースや、検索エンジンなどを利用して検索を行う。ユーザがある物事についての体験情報を探そうとした時、上記のようにキーワード検索を行ってしまうと広告やそのキーワードの説明などといった体験情報以外の情報が多く混ざってしまい、欲しい情報へ辿り着くことが困難である。特に、近年では、個人の意見などが記載されるようなWeblogや掲示板などが多く存在しているため、話の話題が混ざり合った文書が多量に存在していることから、例え、検索を行う情報源を体験情報のみに限定したとしても、キーワードとは何ら関係のない体験情報が拾い上げられてしまい、やはり、ユーザの欲しい情報へ辿り着くことが困難である。   When the user wants to find the information he wants, he uses some keyword and searches using a database or a search engine where that information is stored. When a user searches for experience information about a certain thing, if a keyword search is performed as described above, a lot of information other than the experience information such as advertisements and explanation of the keyword will be mixed, and it will arrive at the desired information. Is difficult. In particular, in recent years, there are many weblogs and bulletin boards that contain personal opinions and so on, so there are a large number of documents with mixed talk topics. Even if the information source is limited to only experience information, experience information that has nothing to do with keywords is picked up, and it is still difficult to reach the information that the user wants.

例えば、
例1)「今日、○×レストランに行きました。記念感謝祭のため、1万円のコースが5000円で食べることができました。美味しいし、安いし、大満足でした。…。そうそう、携帯電話XXXほしいな。」
のような情報があったとする。これは、「レストラン」について「行きました」という体験を表す表現が含まれていることから、「レストラン」の体験情報と言える。しかしながら、ユーザが「携帯電話」についての情報を探すために、検索を行ってもこの情報が提示されてしまう。
For example,
Example 1) “Today I went to a restaurant. For the Thanksgiving Day, I was able to eat a 10,000 yen course for 5000 yen. It was delicious, cheap, and I was very satisfied. I want mobile phone XXX. "
If there is information like This can be said to be “restaurant” experience information because it includes an expression representing the experience “I went” for “restaurant”. However, even if the user searches for information on the “mobile phone”, the information is presented.

また、従来の技術では、あるテキスト文書が体験情報か否かの判定はできるが、ある注目するキーワードに関する体験情報か否かを判定することはできなかった。   Further, according to the conventional technology, it is possible to determine whether or not a certain text document is experience information, but it is not possible to determine whether or not it is experience information regarding a certain keyword.

本発明は、上記の点に鑑みなされたもので、ユーザが注目するキーワードに対応する体験表現を用いて、そのキーワードに関連した文書集合を優先順位付けすることが可能な体験情報評価装置及びプログラム及びコンピュータ読み取り可能な記録媒体を提供することを目的とする。 The present invention has been made in view of the above, using the experience representation corresponding to the keyword that the user pays attention, experience information Review AtaiSo location capable of prioritizing document set associated with that keyword Another object of the present invention is to provide a program and a computer-readable recording medium.

図1は、本発明の原理説明図である。   FIG. 1 is an explanatory diagram of the principle of the present invention.

本発明は、注目するキーワード(以下、注目キーワード)を利用した体験情報評価方法であって、
物事を利用もしくは体験・経験したことを表すような語句を体験表現とするときに、
体験表現選定処理手段が、注目キーワードが入力されると、該注目キーワードと体験表現との関係が格納されている体験表現辞書記憶手段を参照し、該注目キーワードに関連した体験表現を選定し、体験表現記憶手段に格納する、体験表現選定ステップ(ステップ1)と、
キーワード距離測定処理手段が、入力された入力テキスト文書群の各テキスト文書の中において、注目キーワードと体験表現選定ステップで選定され、体験表現記憶手段に格納されている体験表現との出現位置関係を測定するキーワード距離測定ステップ(ステップ2)と、
評価手段が、注目キーワードと体験表現の関係性及び、キーワード距離測定ステップにより測定された体験表現との出現位置関係に基づいて、入力テキスト文書群の各テキスト文書を評価し、評価結果と入力テキスト文書を関連付けて文書記憶手段に出力する評価ステップ(ステップ3)と、を行い、
評価ステップ(ステップ3)において、
注目キーワードと体験表現の関係性の強弱に基づき、ランキング評価式によって入力テキスト文書群の中のテキスト文書間の順序関係を決定するランキング算出ステップを行い、
ランキング算出ステップにおいて、
ランキング評価式として、
注目キーワードと体験表現の出現位置によって値が変化し、
入力テキスト文書の中で、注目キーワードに関連する体験表現が注目キーワードより先に記述されている場合は、評価式の値が低くなり、
入力テキスト文書の中で、注目キーワードに関連する体験表現が注目キーワードより後に記述されている場合は、評価式の値が高くなる、評価式を用いる。
This onset Ming, keyword of interest (below, say) an experience information evaluation method using the,
When using a phrase that expresses the use or experience / experience of things as an experience expression,
The experience expression selection processing means, when an attention keyword is inputted, refers to the experience expression dictionary storage means in which the relationship between the attention keyword and the experience expression is stored, selects the experience expression related to the attention keyword, Experience expression selection step (step 1) to be stored in the experience expression storage means;
The keyword distance measurement processing means determines the appearance position relationship between the keyword of interest and the experience expression stored in the experience expression storage means selected in the experience expression selection step in each text document of the inputted input text document group. Keyword distance measurement step to measure (Step 2),
The evaluation means evaluates each text document in the input text document group based on the relationship between the attention keyword and the experience expression and the appearance position relation between the experience expression measured by the keyword distance measurement step, and the evaluation result and the input text. An evaluation step (step 3) for associating the document and outputting it to the document storage means ;
In the evaluation step (step 3),
Based on the strength of the relationship between the keyword of interest and the experience expression, a ranking calculation step is performed to determine the order relationship between the text documents in the input text document group by the ranking evaluation formula,
In the ranking calculation step,
As a ranking evaluation formula,
The value changes depending on the location of the attention keyword and experience expression,
If the experience text related to the keyword of interest is described before the keyword of interest in the input text document, the value of the evaluation formula will be low,
In the input text document, when an experiential expression related to the keyword of interest is described after the keyword of interest, an evaluation expression that increases the value of the evaluation expression is used.

図2は、本発明の原理構成図である。   FIG. 2 is a principle configuration diagram of the present invention.

本発明(請求項)は、注目するキーワード(以下、注目キーワード)を利用した体験情報評価装置であって、
物事を利用もしくは体験・経験したことを表すような語句を体験表現とするときに、
注目キーワードが入力されると、該注目キーワードと体験表現との関係が格納されている体験表現辞書記憶手段21を参照し、該注目キーワードに関連した体験表現を選定し、体験表現記憶手段20に格納する、体験表現選定処理手段300と、
入力された入力テキスト文書群の各テキスト文書の中において、注目キーワードと体験表現選定処理手段300で選定され、体験表現記憶手段20に格納されている体験表現との出現位置関係を測定するキーワード距離測定手段310と、
注目キーワードと体験表現の関係性及び、キーワード距離測定手段310により測定された体験表現との出現位置関係に基づいて、入力テキスト文書群の各テキスト文書を評価し、評価結果と入力テキスト文書を関連付けて文書記憶手段22に出力する評価手段320と、を有し、
評価手段320は、
注目キーワードと体験表現の関係性の強弱に基づき、入力テキスト文書群の中のテキスト文書間の順序関係を決定するランキング算出手段を有し、
ランキング算出手段は、
ランキング評価式として、
注目キーワードと体験表現の出現位置によって値が変化し、
入力テキスト文書の中で、注目キーワードに関連する体験表現が該注目キーワードより先に記述されている場合は、評価式の値が低くなり、
入力テキスト文書の中で、注目キーワードに関連する体験表現が注目キーワードより後に記述されている場合は、評価式の値が高くなる、評価式を用いる。
The present invention (Claim 1 ) is an experience information evaluation apparatus using a keyword of interest (hereinafter referred to as a keyword of interest),
When using a phrase that expresses the use or experience / experience of things as an experience expression,
When the attention keyword is input, the experience expression dictionary storage means 21 in which the relationship between the attention keyword and the experience expression is stored is selected, the experience expression related to the attention keyword is selected, and the experience expression storage means 20 is selected. Storing experience expression selection processing means 300;
Keyword distance that measures the appearance position relationship between the keyword of interest and the experience expression selected by the experience expression selection processing means 300 and stored in the experience expression storage means 20 in each text document of the input text document group. Measuring means 310;
Each text document of the input text document group is evaluated based on the relationship between the attention keyword and the experience expression and the appearance position relationship with the experience expression measured by the keyword distance measuring unit 310, and the evaluation result and the input text document are associated with each other. , an evaluation unit 320 for outputting the document storage means 22 Te have a,
Evaluation means 320
Based on the strength of the relationship between the keyword of interest and the experiential expression, the ranking calculation means for determining the order relationship between the text documents in the input text document group,
Ranking calculation means
As a ranking evaluation formula,
The value changes depending on the location of the attention keyword and experience expression,
In the input text document, when the experiential expression related to the keyword of interest is described before the keyword of interest, the value of the evaluation formula becomes low,
In the input text document, when an experiential expression related to the keyword of interest is described after the keyword of interest, an evaluation expression that increases the value of the evaluation expression is used.

また、本発明(請求項)は、請求項の体験情報評価装置のランキング算出手段において、
ランキング評価式として、
注目キーワードと体験表現の出現位置から測定された距離が近いほど評価式の値が高くなり、
注目キーワードに関連する体験表現の出現頻度によって得られた重みが高いほど評価式の値が高くなる、評価式を用いる。
Further, the present invention (Claim 2 ) is a ranking calculation means of the experience information evaluation apparatus according to Claim 1 ,
As a ranking evaluation formula,
The closer the distance measured from the keyword of interest and the appearance location of the experience expression, the higher the value of the evaluation formula,
An evaluation formula is used in which the value of the evaluation formula increases as the weight obtained by the appearance frequency of the experience expression related to the keyword of interest increases.

また、本発明(請求項)は、請求項の体験情報評価装置のランキング算出手段において、
入力テキスト文書の更新日付が利用できる場合は、該更新日付の新鮮度に基づき、該入力テキスト文書が新しいほど評価式の値を高くして、該入力テキスト文書群の中のテキスト文書間の順序関係を決定する。
Further, the present invention (Claim 3 ) is a ranking calculation means of the experience information evaluation apparatus according to Claim 1 ,
When the update date of the input text document is available, based on the freshness of the update date, the value of the evaluation formula is increased as the input text document is newer, and the order between the text documents in the input text document group is increased. Determine the relationship.

また、本発明(請求項)は、請求項1または3の体験情報評価装置のランキング算出手段において、
体験表現辞書記憶手段に体験表現の重みが格納されている場合は、該重みを、ランキング評価式に適用し、該重みが高いほど評価式の値を高くする。
Further, the present invention (Claim 4 ) is a ranking calculation unit of the experience information evaluation apparatus according to Claim 1 or 3 ,
When the weight of the experience expression is stored in the experience expression dictionary storage means, the weight is applied to the ranking evaluation expression, and the value of the evaluation expression is increased as the weight is higher.

本発明(請求項)は、請求項1乃至4のいずれか1項に記載の体験情報評価装置を構成する各手段としてコンピュータを機能させるための体験情報評価プログラムである。 The present invention (Claim 5 ) is an experience information evaluation program for causing a computer to function as each means constituting the experience information evaluation apparatus according to any one of Claims 1 to 4 .

本発明(請求項)は、請求項5に記載の体験情報評価プログラムを格納したコンピュータ読み取り可能な記録媒体である。

The present invention (Claim 6 ) is a computer-readable recording medium storing the experience information evaluation program according to Claim 5 .

上記のように本発明では、ユーザが注目するキーワードに対応する体験表現を用いて、そのキーワードに関連した文書集合を優先順位付けすることができるため、ユーザが注目するキーワードとより関係の強い体験情報を含む文書が上位に来るように順位付けすることができる。   As described above, in the present invention, it is possible to prioritize a set of documents related to a keyword using an experience expression corresponding to the keyword that the user pays attention to. It is possible to rank so that documents containing information are ranked higher.

また、入力テキスト文書の更新日付が利用できる場合は、上記に加えて、より新鮮な文書が上位に来るように順位付けすることができる。   Further, when the update date of the input text document is available, in addition to the above, it is possible to rank so that a fresher document comes to the top.

本発明によれば、前述の「発明が解決しようとする課題」の例1)のような情報において、
「レストラン」と関連する体験表現:行きました、行ったことがあります、たべてみました、予約しました、
「携帯電話」と関連する体験表現:買いました,使ってみました,試しました、
のようなキーワードと体験表現との関係性を基に、例文を評価すると、
「レストラン」に関連する体験表現「行きました」は存在するが、「携帯電話」に関連する体験表現は存在しないことから、例1)は、「レストラン」と関連する体験情報としては、優先順位が高くなるが、「携帯電話」と関連する体験情報ではないと判断され、優先順位が低くなる。
According to the present invention, in the information as in Example 1) of the above-mentioned “Problem to be Solved by the Invention”,
Experience related to "restaurant": I went, I've been, I tried it, I booked it,
Experiential expressions related to "mobile phone": bought, tried, tried,
Based on the relationship between keywords and experience expressions like
Although there is an experience expression related to “Restaurant”, there is no experience expression related to “Mobile phone”, so Example 1) is given priority as experience information related to “Restaurant” Although the ranking is higher, it is determined that the experience information is not related to the “mobile phone”, and the priority ranking is lowered.

このようにして、注目キーワードと体験表現の関係によって、同じ文書であっても優先順位を変化させることができる。   In this way, the priority order can be changed even for the same document depending on the relationship between the keyword of interest and the experience expression.

これは、従来技術に比べて、注目キーワードに関する体験情報が取得しやすくなり、特に評判情報のような人々の体験情報が価値を持つ場合などに、有益である。   This makes it easier to obtain experience information related to the keyword of interest than in the prior art, and is particularly useful when the experience information of people such as reputation information has value.

以下、図面と共に本発明の実施の形態を説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

図3は、本発明の概要を説明するための図であり、図4は、本発明の一実施の形態における注目キーワードを利用した体験情報評価装置の構成を示す。   FIG. 3 is a diagram for explaining the outline of the present invention, and FIG. 4 shows a configuration of an experience information evaluation apparatus using a keyword of interest in one embodiment of the present invention.

本実施の形態では、図3に示すように、1つ以上のテキスト文書が集まったテキスト文書群と1つまたは複数の注目キーワードの入力があったときに、テキスト文書1つ1つについて、
(1)注目キーワードと関連する体験表現を選定し、
(2)注目キーワードに関連した体験情報との関係性の強弱を距離を測定することにより計算し、
(3)順位付けを行う。
In the present embodiment, as shown in FIG. 3, when a text document group in which one or more text documents are gathered and one or a plurality of attention keywords are input,
(1) Select experience expressions related to the keyword of interest,
(2) Calculate the strength of the relationship with the experience information related to the keyword of interest by measuring the distance,
(3) Ranking is performed.

以下に、本実施の形態を詳細に説明する。   Hereinafter, this embodiment will be described in detail.

図4に示す装置は、コンピュータ30とこのコンピュータ30にネットワーク40を介して接続される、もしくは、コンピュータ30に内蔵されている体験表現記憶部20、体験表現辞書記憶部21、文書記憶部22で構成されている。   The apparatus shown in FIG. 4 includes a computer 30 and an experience expression storage unit 20, an experience expression dictionary storage unit 21, and a document storage unit 22 that are connected to the computer 30 via a network 40 or are built in the computer 30. It is configured.

コンピュータ30は、RAM、ROM、磁気ディスク等からなるメモリ、CPU、ディスプレイによる表示部11、及びマウスやキーボード等からなる指示入力部12から構成されており、CPUが実行するソフトウェアプログラムによって実現される体験表現選定処理部31と、キーワード距離測定処理部32と、ランキング算出処理部33とを備えている。   The computer 30 includes a memory including a RAM, a ROM, and a magnetic disk, a CPU, a display unit 11 using a display, and an instruction input unit 12 including a mouse and a keyboard, and is realized by a software program executed by the CPU. An experience expression selection processing unit 31, a keyword distance measurement processing unit 32, and a ranking calculation processing unit 33 are provided.

図5は、本発明の一実施の形態における体験表現辞書記憶部の例を示す。   FIG. 5 shows an example of the experience expression dictionary storage unit in one embodiment of the present invention.

例えば、図5のように、体験表現辞書記憶部21は、地名や人物名などの「カテゴリ名」と注目キーワードとして与えられるキーワードに対応する「語句」とその語句に「関連する体験表現」で構成されている。   For example, as illustrated in FIG. 5, the experience expression dictionary storage unit 21 includes “category names” such as place names and person names, “phrases” corresponding to keywords given as keywords of interest, and “related experience expressions” for the phrases. It is configured.

体験表現は、物事を体験・経験したことを表すような語句が相当する。例えば、注目キーワードとして、「レストラン」という語句が与えられた場合、それに関連する体験表現は、「行った(5),行ったことがある(5),食べてみた(5),予約した(3),…」になる。ここで、括弧内に書かれている数字は、それぞれの体験表現の重みであり、関連する語句に対してどれだけ関係が深いのかの強度を表している。この重みは必須ではない。注目キーワードが辞書に存在しない場合は、「カテゴリ名」の欄から関連する体験表現を探すこともできる。また、「カテゴリ名」に入れる語句は、分類辞典などを利用して決定しても良いし、利用目的合わせて装置を構築する際に、適宜作成してもよい。但し、この「カテゴリ名」の欄は、必須ではない。また、これら全ての情報は、事前に与えられている。   Experiential expression corresponds to a phrase that expresses experience or experience of things. For example, when the phrase “restaurant” is given as a keyword of interest, the related experience expression is “I went (5), I ’ve been (5), I tried it (5), I made a reservation ( 3), ... " Here, the number written in the parenthesis is the weight of each experience expression, and represents the strength of how deeply related the phrase is. This weight is not essential. If the keyword of interest does not exist in the dictionary, a related experience expression can be searched from the “category name” column. In addition, the phrase to be included in the “category name” may be determined using a classification dictionary or the like, or may be appropriately created when constructing a device according to the purpose of use. However, this “category name” field is not essential. All these information are given in advance.

体験表現においては、図5のように表現そのものが格納されている場合もあれば、品詞の原形{行く,見る,食べる,等}とそれに対応する表現形態{してみた,したことがある,等}が格納されている場合もある。また、品詞の原形{行く,見る,食べる,等]とそれに対応する図6のような形態素解析した後の品詞の組み合わせのルール{動詞語幹+動詞活用語尾+動詞接尾辞+動詞語幹の連用「みる」+動詞接尾辞の終止「ました」、等}が格納されている場合もあれば、上記が混合された情報が格納されている場合もある。   In the experience expression, the expression itself may be stored as shown in FIG. 5, or the original form of parts of speech {going, seeing, eating, etc.} and the corresponding expression form have been tried { Etc.} may be stored. Also, the rule of combination of parts of speech after the original part of speech {go, see, eat, etc.] and the corresponding morphological analysis as shown in Fig. 6 {Verb stem + verb inflection + verb suffix + verb stem conjunctive " In some cases, “see” + termination of the verb suffix “is”, etc.} is stored, and in other cases, a mixture of the above information is stored.

図7の体験表現記憶部20の例のように、体験表現記憶部20には、注目キーワードとそれに関連する体験表現とがセットになって格納されている。図5のように体験表現それぞれに重みが与えられている場合は、その重みも体験表現とともに格納されている。体験表現記憶部20には、事前に情報が格納されている場合もあるが、処理を行う過程で、随時情報が格納されたり、削除されたりする場合もある。   As in the example of the experience expression storage unit 20 in FIG. 7, the experience expression storage unit 20 stores the keyword of interest and the experience expression related thereto as a set. When a weight is given to each experience expression as shown in FIG. 5, the weight is also stored together with the experience expression. In the experience expression storage unit 20, information may be stored in advance, but information may be stored or deleted as needed during the process.

文書記憶部22には、与えられたテキスト文書群とそのテキスト文書それぞれに記述されている注目キーワードの位置情報やその注目キーワードに関連する体験表現の位置情報、そのテキスト文書と注目キーワードの関係性を示すランク値などが格納されている。事前にテキスト文書群のみ格納されているか、テキスト文書が与えられた時に、テキスト文書を随時格納するかのどちらかの方法が取られ、その後、処理を行う過程で、注目キーワードの位置情報や体験表現の位置情報、ランク値などが随時格納されていく。   The document storage unit 22 stores the position information of the keyword of interest described in the given text document group and each of the text documents, the position information of the experience expression related to the keyword of interest, and the relationship between the text document and the keyword of interest. The rank value etc. which show are stored. Either a text document group is stored in advance, or a text document is stored at any time when a text document is given. Then, in the process of processing, the location information and experience of the keyword of interest Expression position information, rank values, etc. are stored as needed.

体験表現記憶部20と体験表現辞書記憶部21、文書記憶部22は、このように構成される装置の基で、以降に説明する処理を実行することで、本発明を実現するように動作する。本実施の形態では、注目キーワードを「温泉」とし、その注目キーワードを利用した体験情報ランキングの例を示すことにする。   The experience expression storage unit 20, the experience expression dictionary storage unit 21, and the document storage unit 22 operate to realize the present invention by executing processing described below based on the apparatus configured as described above. . In this embodiment, the hot keyword is “hot spring”, and an example of experience information ranking using the hot keyword is shown.

入力となるテキストは、例えば、図8に示す例のようなものがある。出力は、入力テキスト文書それぞれのランク値である。詳細については、各処理部に示す。   The input text is, for example, as shown in FIG. The output is the rank value of each input text document. Details are shown in each processing unit.

[1]体験表現選定処理部31:
指示入力部12から入力された注目キーワードを基に注目キーワードに関連する体験表現を選定する処理を行う。絞込み方法は、様々であるが、本実施の形態では、図9を用いて説明する。図9は、本発明の一実施の形態における体験表現選定処理のフローチャートである。体験表現選定処理部31には、S(S>0)個の注目キーワードが入力されるものとする。
[1] Experience expression selection processing unit 31:
Based on the attention keyword input from the instruction input unit 12, a process of selecting an experience expression related to the attention keyword is performed. There are various narrowing methods, but in this embodiment, description will be made with reference to FIG. FIG. 9 is a flowchart of experience expression selection processing according to an embodiment of the present invention. It is assumed that S (S> 0) attention keywords are input to the experience expression selection processing unit 31.

ステップ101) 体験表現選定処理部31は、注目キーワードが入力として与えられた時に、変数kに1を代入する。   Step 101) The experience expression selection processing unit 31 substitutes 1 for a variable k when a keyword of interest is given as an input.

ステップ102) 図5のような体験表現辞書記憶部21の「語句」欄と「関連する体験表現(重み)」欄を参照し、k番目の注目キーワードが格納されている「語句」欄を探し、それに付随する「関連する体験表現(重み)」欄の体験表現を取り出す。   Step 102) Refer to the “phrase” field and the “related experience expression (weight)” field of the experience expression dictionary storage unit 21 as shown in FIG. 5 to find the “word / phrase” field in which the k-th keyword of interest is stored. Then, the experience expression in the “Related experience expression (weight)” column accompanying it is extracted.

ステップ103) 上記のステップ102で得た関連する体験表現をk番目の注目キーワードと共に体験表現記憶部20に格納する。   Step 103) The related experience expression obtained in Step 102 is stored in the experience expression storage unit 20 together with the kth keyword of interest.

ステップ104) 注目キーワードの総数S>kならば、kにk+1を代入し、ステップ102に戻る(S=kになるまでこの処理を繰り返す)。注目キーワードの総数S=kならば、終了する。   Step 104) If the total number S of interest keywords S> k, substitute k + 1 for k and return to Step 102 (this process is repeated until S = k). If the total number of keywords of interest S = k, the process ends.

図5のような体験表現辞書記憶部21があったとき、注目キーワードが「温泉」であればそれに関連する体験表現は、「行ってみた(5),行ってきた(5),寄ってみた(2),…」を選定することができる。本実施の形態では、体験表現それぞれに重みがついている例を示す。しかし、重みはあってもなくてもよい。これらを図7のように体験表現記憶部20に格納し、処理が終了する。   When there is an experience expression dictionary storage unit 21 as shown in FIG. 5, if the keyword of interest is “hot spring”, the related experience expression is “I went (5), I went (5), I tried to stop by” (2), ... "can be selected. In the present embodiment, an example is shown in which each experience expression is weighted. However, the weight may or may not be present. These are stored in the experience expression storage unit 20 as shown in FIG. 7, and the process ends.

[2]キーワード距離測定処理部32:
入力テキスト文書群の各テキスト文書の中において、注目キーワードと体験表現選定処理部31にて選定された体験表現との出現位置関係を測定する。出現位置関係の測定方法は、様々であるが、本実施の形態では、図10を用いて説明する。
[2] Keyword distance measurement processing unit 32:
In each text document of the input text document group, the appearance position relationship between the keyword of interest and the experience expression selected by the experience expression selection processing unit 31 is measured. Although there are various methods for measuring the appearance position relationship, this embodiment will be described with reference to FIG.

図10は、本発明の一実施の形態におけるキーワード距離測定処理のフローチャートである。以下では、キーワード距離測定処理部32に、注目キーワード、注目キーワードの数(S)、注目キーワード各々に関連する体験表現、1つ以上のテキスト文書、テキスト文書の数(N)が入力されるものとする。   FIG. 10 is a flowchart of the keyword distance measurement process according to the embodiment of the present invention. In the following, the keyword distance measurement processing unit 32 is inputted with the keyword of interest, the number of keywords of interest (S), the experience expression related to each of the keywords of interest, one or more text documents, and the number of text documents (N). And

ステップ201) 変数aに1を代入する。   Step 201) Substitute 1 for the variable a.

ステップ202) 変数kに1を代入する。   Step 202) Substitute 1 for the variable k.

ステップ203) a番目の入力テキスト文書に対し、形態素解析を行う。   Step 203) Morphological analysis is performed on the a-th input text document.

ステップ204) ステップ203の処理にて形態素解析した出力結果の中からk番目の注目キーワードと、その注目キーワードに関連する体験表現があるか否かを検査する。注目キーワードと体験表現の両者が存在する場合は、ステップ205の処理に移行し、どちらか一方が存在しない、または、両者が存在しない場合は、ステップ207の処理へ移行する。   Step 204) It is checked whether or not there is a k-th attention keyword from the output results obtained by the morphological analysis in Step 203 and an experience expression related to the attention keyword. If both the keyword of interest and the experience expression exist, the process proceeds to step 205, and if either one does not exist or both do not exist, the process proceeds to step 207.

ステップ205) 入力テキスト文書中に、ステップ204にてk番目の注目キーワードとそれに関連する体験表現が発見された場合は、それぞれの出現位置から距離を測定する。ここでの距離とは、k番目の注目キーワードとそれに関連する体験表現との間の距離を指す。k番目の注目キーワードに関連する体験表現が複数存在する場合は、それぞれの体験表現とk番目の注目キーワードとの距離を測定する。また、k番目の注目キーワードが複数存在する場合も同様に、それぞれの注目キーワードとそれに関連する体験表現との距離を測定する。このようにして、同じ注目キーワードや同じ体験表現であっても、出現位置が異なれば、別のものとして距離を測定する。   Step 205) If the kth keyword of interest and the experiential expression associated therewith are found in the input text document in Step 204, the distance is measured from each appearance position. The distance here refers to the distance between the k-th attention keyword and the experience expression related thereto. When there are a plurality of experience expressions related to the kth keyword of interest, the distance between each experience expression and the kth keyword of interest is measured. Similarly, when there are a plurality of k-th keywords of interest, the distance between each keyword of interest and the related experience expression is measured. In this way, even if the same attention keyword or the same experience expression is used, if the appearance position is different, the distance is measured as a different one.

測定方法は様々であるが、例えば、注目キーワードが出現する位置と体験表現が出現する位置をバイト数でカウントし、何バイト離れているかを測定する方法がある。バイト数の代わりに文字数や文の数、形態素の要素数でカウントする方法などもある。   There are various measurement methods. For example, there is a method of measuring the number of bytes by counting the position where the attention keyword appears and the position where the experience expression appears as the number of bytes. There are methods such as counting by the number of characters, sentences, and morpheme elements instead of bytes.

ステップ206) k番目の注目キーワードと関連する体験表現それぞれと距離を文書記憶部22へ格納する。ここで、文書記憶部22にテキスト文書が格納されていなければ、a番目のテキスト文書も共に格納する。   Step 206) Store each experience expression and distance related to the kth keyword of interest in the document storage unit 22. Here, if no text document is stored in the document storage unit 22, the a-th text document is also stored.

ステップ207) 注目キーワードの総数S>kならば、ステップ208に移行し、そうでなければステップ209に移行する。   Step 207) If the total number S of interest keywords S> k, the process proceeds to Step 208, otherwise the process proceeds to Step 209.

ステップ208) kにk+1を代入し、ステップ204に移行する。   Step 208) Substitute k + 1 for k and go to Step 204.

ステップ209) 入力テキストの総数N>aならば、ステップ210に移行し、N=aになるまでこの処理を繰り返す。そして、N=aになったら、処理を終了する。   Step 209) If the total number of input texts N> a, go to Step 210 and repeat this process until N = a. When N = a, the process ends.

ステップ210) aにa+1を代入し、ステップ202に移行する。   Step 210) Substitute a + 1 for a and go to Step 202.

本実施の形態では、入力として注目キーワード各々に関連する体験表現を与えているが、処理の最初に、体験表現記憶部21から取り出す方式や、ステップ204の処理の中で、体験表現記憶部21から取り出す方式でもよい。   In the present embodiment, an experience expression related to each of the keywords of interest is given as an input, but the experience expression storage section 21 is included in the method of extracting from the experience expression storage section 21 at the beginning of the process or in the process of step 204. It is also possible to take out from

また、本実施の形態では、入力としてテキスト文書を与えているが、文書記憶部22にテキスト文書が予め格納されている場合は、処理の最初に、文書記憶部22からテキスト文書を取り出す方式や、ステップ203の処理の中で、必要テキスト文書を文書記憶部22から取り出す方式でもよい。   In the present embodiment, a text document is given as an input. However, when a text document is stored in the document storage unit 22 in advance, a method of extracting a text document from the document storage unit 22 at the beginning of the process, In the process of step 203, a method of taking out a necessary text document from the document storage unit 22 may be used.

本実施の形態では、ステップ203の処理にて形態素解析を行っているが、この処理は必須ではない。但し、体験表現辞書記憶部21や体験表現記憶部20に形態素解析された体験表現が格納されている場合は、ステップ203の処理が必要となる。ステップ203で形態素解析を行わない場合は、ステップ203の処理をスキップし、ステップ204の処理で、注目キーワードと体験表現を入力テキスト文書から文字列マッチングにて探していくことで処理が実現できる。   In the present embodiment, morphological analysis is performed in the process of step 203, but this process is not essential. However, when the experience expression subjected to the morphological analysis is stored in the experience expression dictionary storage unit 21 or the experience expression storage unit 20, the process of step 203 is necessary. When the morphological analysis is not performed in step 203, the process can be realized by skipping the process of step 203 and searching for the keyword of interest and the experiential expression by the character string matching from the input text document in the process of step 204.

本実施の形態では、ステップ205において体験表現と注目キーワードの距離を測定しているが、本ステップ中で距離を測定せずに、注目キーワードと体験表現の位置のみを確認し、ステップ206においてこれらの位置情報を文書記憶部22へ格納する方法もある。このときの注目キーワードや体験表現の位置情報とは、該当する注目キーワードや体験表現が入力テキスト文書の最初からカウントして何文字目にあるのかという文字数や、バイト数、形態素解析の要素数などに相当する。   In this embodiment, the distance between the experience expression and the attention keyword is measured in step 205, but only the position of the attention keyword and the experience expression is confirmed without measuring the distance in this step. There is also a method of storing the position information in the document storage unit 22. The location information of the keyword of interest and experience expression at this time is the number of characters, the number of bytes, the number of elements of morphological analysis, etc. It corresponds to.

入力テキスト文書として、図8に示すテキスト文書入力例のような文書が与えられ、注目キーワード「温泉」に関連する体験表現として「行ってみた(5),行ってきた(5),寄ってみた(2),…」が与えられた時を説明する。図8の入力テキスト文書の形態素解析を行うと、図6のようになる。形態素解析エンジンは、様々であるので、解析結果は異なることも考えられる。図6を見ると、注目キーワード「温泉」が存在し、「行ってみた」という体験表現も存在することがわかる。ここで、入力テキスト文書では、「行ってみました」という体験表現であるが、「行ってみました」は「行ってみた」の丁寧な言葉であるので、同一と見做される。日本語の表記は様々に存在するため、体験表現のルールとして丁寧語を含めた敬語は、敬語を用いていない表現と同一として見做すように予め決めておくことが適当である。   As an input text document, a document like the text document input example shown in FIG. 8 is given, and “Experienced (5), Goed (5), I tried to stop as an experiential expression related to the keyword“ hot spring ”. The time when (2),... When the morphological analysis of the input text document of FIG. 8 is performed, it is as shown in FIG. Since the morphological analysis engines are various, the analysis results may be different. As can be seen from FIG. 6, there is a hot keyword “hot spring” and an experience expression “I went”. Here, in the input text document, it is an expression of experience “I went”, but “I tried” is a polite word of “I tried”, so it is considered the same. Since there are various notations in Japanese, it is appropriate to predetermine that honorifics including polite words are the same as expressions that do not use honorifics as rules for experiential expression.

体験表現として、品詞の原形{行く,見る,食べる,等}とそれに対応する形態素解析した後の品詞の組み合わせのルール{動詞語幹+動詞活用語尾+動詞接尾辞+動詞語幹の連用「みる」+動詞接尾辞の終止「ました」等}が入力として与えられた場合は、テキスト文書の形態素解析結果で得られる品詞の組み合わせとその中で使われている動詞の原型(動詞語幹)や形容詞(形容詞語幹)を見て体験表現が存在するか否かを検査する。   As an experiential expression, the rule of combination of the part of speech {go, see, eat, etc.} and the corresponding part of speech after morphological analysis {verb stem + verb inflection + verb suffix + verb stem + "view" + If the verb suffix “sata” etc. is given as an input}, the combination of the part of speech obtained from the morphological analysis result of the text document and the verb prototype (verb stem) or adjective ( Examine the adjective stems to see if there is an experiential expression.

次に、注目キーワードと体験表現の出現位置から距離を測定する。図6の通り「温泉」と「行ってみました」の間には、「へ」という1文字が存在する。距離は、バイト数であれば2バイトとなり、文字数であれば1、形態素の要素数であれば、格助詞1つであるから、1と測定できる。注目キーワードより前に体験表現がある場合は、−Xバイトや−X文字、−X要素のようにマイナスをつけて距離を測定する。この距離をテキスト文書と共に文書記憶部22へ格納する。   Next, the distance is measured from the appearance position of the keyword of interest and the experience expression. As shown in FIG. 6, there is a single character “He” between “Onsen” and “I went”. The distance is 2 bytes if the number of bytes, 1 if the number of characters, and 1 case particle if the number of morpheme elements. If there is an experiential expression before the keyword of interest, the distance is measured with a minus sign such as -X byte, -X character, or -X element. This distance is stored in the document storage unit 22 together with the text document.

[3]ランキング算出処理部33:
キーワード距離測定処理部32にて測定された距離などを基に注目キーワードと体験表現の関係性の強弱、さらに、入力テキスト文書の更新日付が利用できる場合はその新鮮度に基づき、入力テキスト文書群の順序関係を決定する。ランキング算出方法は、様々であるが、本実施の形態では、図11を用いて説明する。
[3] Ranking calculation processing unit 33:
Based on the distance measured by the keyword distance measurement processing unit 32, the relationship between the keyword of interest and the experience expression is strong, and if the update date of the input text document is available, the input text document group Determine the order relationship. Although there are various ranking calculation methods, this embodiment will be described with reference to FIG.

図11は、本発明の一実施の形態におけるランキング算出処理のフローチャートである。   FIG. 11 is a flowchart of the ranking calculation process according to the embodiment of the present invention.

以下では、キーワード距離測定処理部32に、テキスト文書の数(N)、各々テキスト文書におけるS個の注目キーワードとそれに関連する体験表現との距離が入力されるものとする。   In the following, it is assumed that the number of text documents (N) and the distance between the S keyword of interest in each text document and the associated experience expression are input to the keyword distance measurement processing unit 32.

ステップ301) 変数aに1を代入する。   Step 301) Assign 1 to the variable a.

ステップ302) a番目の入力テキスト文書についてランキング評価式に基づきランク値の算出を行う。   Step 302) The rank value is calculated based on the ranking evaluation formula for the a-th input text document.

ステップ303) a番目の入力テキスト文書のランク値をテキスト文書と関連付けて文書記憶部22に格納する。   Step 303) The rank value of the a-th input text document is stored in the document storage unit 22 in association with the text document.

ステップ304) 入力テキスト文書の数N>aであれば、ステップ305に移行し、N=aを満たすまで、処理を繰り返し、N=aであれば処理を終了する。   Step 304) If the number of input text documents N> a, the process proceeds to Step 305, where the process is repeated until N = a is satisfied, and if N = a, the process is terminated.

ステップ305) aにa+1を代入し、ステップ302に移行する。   Step 305) Substitute a + 1 for a, and go to Step 302.

本ランキング算出処理部33では、入力として注目キーワードとそれに関連する体験表現との距離が与えられる例を示しているが、ステップ305の中で、必要に応じて文書記憶部22から該当する距離を参照し、ランキング評価式に利用してもよい。   The ranking calculation processing unit 33 shows an example in which the distance between the keyword of interest and the experience expression related thereto is given as an input. In step 305, the corresponding distance from the document storage unit 22 is set as necessary. You may refer to it and use it in the ranking evaluation formula.

キーワード距離測定処理部32において、体験表現と注目キーワードの距離を測定せず、位置情報のみを文書記憶部22に格納する場合は、次のことを行う。   When the keyword distance measurement processing unit 32 does not measure the distance between the experience expression and the keyword of interest and stores only the position information in the document storage unit 22, the following is performed.

ステップ304と305の間、もしくは、ステップ305の中において、文書記憶部22の中の該当する体験表現と注目キーワードの位置情報から距離を求めて、ステップ305のランキング評価式に利用する。距離の測定方法は様々あるが、例えば、該当する体験表現の位置(文字数やバイト数や形態素解析要素数など)から該当する注目キーワードの位置を差し引くことで求められる。該当する体験表現が入力テキスト文書中の20文字目にあり、該当する注目キーワードが10文字目にある場合、距離は(20−10)で10となる。   The distance is obtained from the relevant experience expression in the document storage unit 22 and the position information of the keyword of interest between the steps 304 and 305 or in the step 305 and used in the ranking evaluation formula in the step 305. There are various methods for measuring the distance. For example, the distance is obtained by subtracting the position of the corresponding keyword of interest from the position of the corresponding experience expression (number of characters, number of bytes, number of morpheme analysis elements, etc.). If the relevant experience expression is at the 20th character in the input text document and the relevant attention keyword is at the 10th character, the distance is 10 at (20-10).

上記のステップ302にあるランキング評価式は、注目キーワードと体験表現の距離や体験表現の出現頻度などによって表され、入力テキスト文書各々の間の順序関係を決定するようなランク値を算出する。ランキング評価式で求められるランク値は、値が高いほどその文書が注目キーワードに強く関連する体験情報であることを示す。   The ranking evaluation formula in the above step 302 is expressed by the distance between the keyword of interest and the experience expression, the appearance frequency of the experience expression, etc., and calculates a rank value that determines the order relationship between the input text documents. The rank value obtained by the ranking evaluation formula indicates that the higher the value, the more the experience information related to the keyword of interest.

ランキング評価式は、入力テキスト文書の更新日付が取得できる場合は、その新鮮度を、体験表現辞書記憶部21に体験表現の重みが格納されている場合はその重みを、利用することもできる。   The ranking evaluation formula can also use the freshness when the update date of the input text document can be acquired, and the weight of the experience expression when the experience expression dictionary storage unit 21 stores the weight of the experience expression.

ランキング評価式は、注目キーワードと体験表現の距離が近いほどランク値が高くなり、注目キーワードに関連する体験表現の出現頻度によって得られた重みが高いほどランク値が高くなる。また、入力テキスト文書の更新日付を利用する場合は、入力テキスト文書が新しいほどランク値が高くなり、体験表現辞書記憶部21に体験表現の重みを利用する場合は、その重みが高いほどランク値が高くなる。ランキング評価式は、
・注目キーワードの総数Sにおいて、k番目の注目キーワードをW
・Wに関連する体験表現で、その表現が入力テキスト文書中に存在する数がU個ある場合、i番目の体験表現をE(i≦U)、
・Eが入力テキスト文書中に存在する数がP個ある場合、j番目のE:Eij
との距離をDkij
・Eの重みをO
・入力テキスト文書の新鮮度をT,
・入力テキスト文書群の総数をN
の時、ランキング評価式はf(D,O,T)で表される。
In the ranking evaluation formula, the rank value increases as the distance between the attention keyword and the experience expression is closer, and the rank value increases as the weight obtained by the appearance frequency of the experience expression related to the attention keyword increases. Further, when the update date of the input text document is used, the rank value becomes higher as the input text document is newer. When the weight of the experience expression is used in the experience expression dictionary storage unit 21, the rank value becomes higher as the weight is higher. Becomes higher. The ranking evaluation formula is
In the total number S of attention keywords, the k-th attention keyword is set to W k
If there are U number of experience expressions related to W k and the number of the expression exists in the input text document, the i-th experience expression is expressed as E i (i ≦ U),
• If the number of E i is present in the input text document is a P number, j th E i: E ij the distance between the W k D kij,
The weight of E i is O i ,
・ T,
・ The total number of input text documents is N
In this case, the ranking evaluation formula is represented by f (D, O, T).

この評価式は、例えば、次のようなものがある。   For example, this evaluation formula is as follows.

Figure 0004468294
TまたはOが得られない場合、もしくはTまたはOを利用しない場合は、TやOの代わりに1を掛けるような(式1´)で表すこともできる。(式1´)は、TとOの両者を利用しない式を示しているが、どちらか一方のみを利用することも可能である。
Figure 0004468294
When T or O i cannot be obtained, or when T or O i is not used, it can be expressed by (Equation 1 ′) such that 1 is substituted for T or O i . (Expression 1 ′) shows an expression that does not use both T and O i , but it is also possible to use only one of them.

Figure 0004468294
入力テキスト文書の新鮮度Tは、例えば、入力テキスト文書が複数存在した場合で、かつ、それらが更新日付(Time)を持っていた時、更新日付が新しいものほどTの値が大きくなるように設定される。例えば、UNIX(登録商標)TIMEで更新日付が与えられている時には、
T=Time (式2)
で表すこともできる。または、全ての入力テキスト文書の更新日付の中から一番古い時刻を1とし、その時刻からの時間経過分(秒数等)だけ値を加算していく方法もある。
Figure 0004468294
The freshness T of the input text document is such that, for example, when there are a plurality of input text documents and they have an update date (Time), the value of T becomes larger as the update date is newer. Is set. For example, when an update date is given in UNIX (registered trademark) TIME,
T = Time (Formula 2)
It can also be expressed as Alternatively, there is a method in which the oldest time among the update dates of all input text documents is set to 1, and the value is added by the elapsed time (seconds, etc.) from that time.

また、重みOは、体験表現記憶部20で与えられている値そのままを利用してもよいが、入力テキスト文書群全体からひとつの入力テキストの重みを決めるようなTF-IDFのような式を用いて算出した値を利用することもできる。 As the weight O i , the value given in the experience expression storage unit 20 may be used as it is, but an expression such as TF-IDF that determines the weight of one input text from the entire input text document group. The value calculated using can also be used.

=(“解析対象のテキスト文書内での注目キーワードWに対する体験表現Eの出現回数”+1)×{log(N÷“入力テキスト文書群の中でEが出現する文書数”)+1}
式(3)
または、
=“解析対象のテキスト文書内での注目キーワードWに対する体験表現Eの出現回数”×(log“入力テキスト文書群の中でEが出現する文書数”+1) 式(4)
や、
=“解析対象のテキスト文書内での注目キーワードWに対する体験表現Eの出現回数”ד体験表現記憶部により与えられた重み” 式(5)
等でもよい。
O i = (“Number of appearances of experience expression E i for target keyword W k in text document to be analyzed” +1) × {log (N ÷ “number of documents in which E i appears in input text document group” ) +1}
Formula (3)
Or
O i = “the number of appearances of the experiential expression E i for the attention keyword W k in the text document to be analyzed” × (log “the number of documents in which E i appears in the input text document group” +1) Equation (4)
Or
O i = “number of appearances of experience expression E i for keyword of interest W k in text document to be analyzed” × “weight given by experience expression storage unit” Expression (5)
Etc.

上記の式(3)では、注目キーワードに関連する体験表現が、他のテキスト文書に少なく解析対象のテキスト文書中に多く存在する時に、重みが大きくなる。式(4)では、入力テキスト文書全体の中で、ある注目キーワードに関連する体験表現が多く使われている時に、その体験表現を持つテキスト文書の重みがより大きくなる。式(5)では、解析対象の文書中にある注目キーワードに関連する体験表現が多く出現する時に、重みが大きくなる。   In the above formula (3), the weight is increased when there are few experiential expressions related to the keyword of interest in other text documents and there are many in the text document to be analyzed. In Expression (4), when experience expressions related to a certain keyword of interest are frequently used in the entire input text document, the weight of the text document having the experience expression becomes larger. In Expression (5), when many experience expressions related to the attention keyword appear in the analysis target document, the weight increases.

本実施の形態において、図8の入力テキストを基にランク値を算出する例を示す。   In the present embodiment, an example in which a rank value is calculated based on the input text in FIG.

ランキング評価式(式1)を計算すると、注目キーワード「温泉」に関連する体験表現として「行ってみた(5)」があり、その距離は2バイトとして計算した場合、
O=5,D=2より
f(D,O)=5÷2=2.5
となる。
When calculating the ranking evaluation formula (Formula 1), there is “Experience (5)” as an experiential expression related to the hot keyword “hot spring”, and when the distance is calculated as 2 bytes,
From O = 5, D = 2, f (D, O) = 5 ÷ 2 = 2.5
It becomes.

kijがマイナスになる場合、つまり、入力テキストのなかで、注目キーワードよりも前方に該当する体験表現が出現している場合は、注目キーワードと体験表現の関係が薄いとみなし、該当する体験表現は、ランキング評価式で算出対象から外すこともできる。もしくは、予め設定した値Yによって除算し、Dkijがプラスの場合よりも低い値をとるように設定してもよい。例えば、(式1)や(式1´)の括弧内全体をYで割ることや、DkijそのものをYで割る等がある。 If D kij is negative, that is, if the relevant experience expression appears ahead of the keyword of interest in the input text, the relationship between the keyword of interest and the experience expression is considered to be light, and the corresponding experience expression Can be excluded from the calculation target by the ranking evaluation formula. Alternatively, the value may be divided by a preset value Y and set to take a lower value than when D kij is positive. For example, the whole of the parentheses in (Expression 1) or (Expression 1 ′) is divided by Y, or D kij itself is divided by Y.

以上によって、算出されたランク値を入力テキスト文書と関連付けて文書記憶部22へ格納する。   As described above, the calculated rank value is stored in the document storage unit 22 in association with the input text document.

このようにして、算出されたそれぞれの入力テキスト文書のランク値の大きい順に提示することで、更新日付が新しく、かつ、注目キーワードにより関連する体験情報を上位に提示することができる。これらに加えて、文書記憶部22を参照し、各入力テキスト文書中に存在する注目キーワードや、入力テキスト文書中に存在する前記注目キーワードに関連する体験表現を、ランキング結果と共に提示することもできる。   In this way, by presenting the calculated rank values of the respective input text documents in descending order, the update date is new, and related experience information can be presented higher by the keyword of interest. In addition to these, it is possible to refer to the document storage unit 22 and present the keyword of interest existing in each input text document and the experience expression related to the keyword of interest present in the input text document together with the ranking result. .

また、本発明は、上記の体験表現選定処理部31、キーワード距離測定処理部32、ランキング算出処理部の動作をプログラムとして構築し、コンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。   In addition, the present invention constructs the operations of the experience expression selection processing unit 31, the keyword distance measurement processing unit 32, and the ranking calculation processing unit as programs and installs and executes them on a computer or distributes them via a network. It is possible.

さらに、構築されたプログラムをハードディスク装置や、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。   Furthermore, the constructed program can be stored in a portable storage medium such as a hard disk device or a flexible disk / CD-ROM, and can be installed in a computer or distributed.

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。   The present invention is not limited to the above-described embodiment, and various modifications and applications can be made within the scope of the claims.

本発明は、注目キーワードを利用した体験情報の検索技術に適用可能であると共に、Web検索の分類にも適用可能であり、分野や商品などに限定されるものではない。   The present invention can be applied to a search technique for experience information using a keyword of interest, and can also be applied to a Web search classification, and is not limited to a field or a product.

例えば、インターネット上の人々の意見や評価が記述された評判情報を検索する際に利用したり、対象となる物事を購入や利用する時の検討の指標にしたり、収集した評判情報の日付を基に最近の話題となっている物事を分析する技術に適用可能である。   For example, it can be used to search reputation information that describes people's opinions and evaluations on the Internet, can be used as an index for consideration when purchasing or using the subject matter, or based on the date of collected reputation information. It can be applied to techniques for analyzing things that have become a recent topic.

また、情報の信頼性を高めるために、人々の体験情報を探す時に利用することや、これを利用した商品企画やマーケティングなどに適用可能である。   Moreover, in order to improve the reliability of information, it can be applied to search for people's experience information, and can be applied to product planning and marketing using the information.

本発明の原理説明図である。It is a principle explanatory view of the present invention. 本発明の原理構成図である。It is a principle block diagram of this invention. 本発明の概要を説明するための図である。It is a figure for demonstrating the outline | summary of this invention. 本発明の一実施の形態における注目キーワードを利用した体験情報評価装置の構成図である。It is a block diagram of the experience information evaluation apparatus using the attention keyword in one embodiment of this invention. 本発明の一実施の形態における体験表現辞書記憶部の例である。It is an example of the experience expression dictionary memory | storage part in one embodiment of this invention. 本発明の一実施の形態における形態素解析結果の例である。It is an example of the morphological analysis result in one embodiment of this invention. 本発明の一実施の形態における体験表現記憶部の例である。It is an example of the experience expression memory | storage part in one embodiment of this invention. 本発明の一実施の形態におけるテキスト文書入力例である。It is an example of the text document input in one embodiment of this invention. 本発明の一実施の形態における体験表現選定処理のフローチャートである。It is a flowchart of the experience expression selection process in one embodiment of the present invention. 本発明の一実施の形態におけるキーワード距離測定処理のフローチャートである。It is a flowchart of the keyword distance measurement process in one embodiment of the present invention. 本発明の一実施の形態におけるランキング算出処理のフローチャートである。It is a flowchart of the ranking calculation process in one embodiment of the present invention. 体験情報の例である。It is an example of experience information.

符号の説明Explanation of symbols

11 表示部
12 指示入力部
20 体験表現記憶手段、体験表現記憶部
21 体験表現辞書記憶手段、体験表現辞書記憶部
22 文書記憶手段、文書記憶部
30 コンピュータ
31 体験表現選定処理部
32 キーワード距離測定処理部
33 ランキング算出処理部
300 体験表現選定処理手段、
310 キーワード距離測定手段
320 評価手段
DESCRIPTION OF SYMBOLS 11 Display part 12 Instruction input part 20 Experience expression storage means, experience expression storage part 21 Experience expression dictionary storage means, experience expression dictionary storage part 22 Document storage means, document storage part 30 Computer 31 Experience expression selection processing part 32 Keyword distance measurement process Unit 33 ranking calculation processing unit 300 experience expression selection processing means,
310 Keyword distance measuring means 320 Evaluation means

Claims (6)

注目するキーワード(以下、注目キーワード)を利用した体験情報評価装置であって、
物事を利用もしくは体験・経験したことを表すような語句を体験表現とするときに、
前記注目キーワードが入力されると、該注目キーワードと前記体験表現との関係が格納されている体験表現辞書記憶手段を参照し、該注目キーワードに関連した体験表現を選定し、体験表現記憶手段に格納する、体験表現選定処理手段と、
入力された入力テキスト文書群の各テキスト文書の中において、前記注目キーワードと前記体験表現選定処理手段で選定され、前記体験表現記憶手段に格納されている前記体験表現との出現位置関係を測定するキーワード距離測定手段と、
前記注目キーワードと体験表現の関係性及び、前記キーワード距離測定手段により測定された前記体験表現との出現位置関係に基づいて、前記入力テキスト文書群の各テキスト文書を評価し、評価結果と前記入力テキスト文書を関連付けて文書記憶手段に出力する評価手段と、を有し、
前記評価手段は、
前記注目キーワードと体験表現の関係性の強弱に基づき、ランキング評価式によって前記入力テキスト文書群の中のテキスト文書間の順序関係を決定するランキング算出手段を有し、
前記ランキング算出手段は、
前記ランキング評価式として、
前記注目キーワードと体験表現の出現位置によって値が変化し、
前記入力テキスト文書の中で、前記注目キーワードに関連する体験表現が該注目キーワードより先に記述されている場合は、評価式の値が低くなり、
前記入力テキスト文書の中で、前記注目キーワードに関連する体験表現が注目キーワードより後に記述されている場合は、評価式の値が高くなる、評価式を用いる
ことを特徴とする体験情報評価装置。
An experience information evaluation device that uses a keyword of interest (hereinafter referred to as a keyword of interest),
When using a phrase that expresses the use or experience / experience of things as an experience expression,
When the attention keyword is input, the experience expression dictionary storage means storing the relationship between the attention keyword and the experience expression is referred to, the experience expression related to the attention keyword is selected, and the experience expression storage means Storing experiential expression selection processing means;
In each text document of the input text document group that has been input, the appearance position relationship between the attention keyword and the experience expression selected by the experience expression selection processing means and stored in the experience expression storage means is measured. Keyword distance measuring means;
Each text document in the input text document group is evaluated based on the relationship between the keyword of interest and the experience expression and the appearance position relationship with the experience expression measured by the keyword distance measuring unit, and the evaluation result and the input Evaluation means for associating and outputting the text document to the document storage means ,
The evaluation means includes
Ranking calculating means for determining an order relationship between the text documents in the input text document group by a ranking evaluation formula based on the strength of the relationship between the attention keyword and the experience expression;
The ranking calculation means includes
As the ranking evaluation formula,
The value changes depending on the appearance position of the attention keyword and the experience expression,
In the input text document, when the experience expression related to the keyword of interest is described before the keyword of interest, the value of the evaluation formula becomes low,
In the input text document, when an experiential expression related to the attention keyword is described after the attention keyword, the evaluation expression is used so that the value of the evaluation expression is increased. Information evaluation device.
前記ランキング算出手段は、
前記ランキング評価式として、
前記注目キーワードと体験表現の出現位置から測定された距離が近いほど評価式の値が高くなり、
前記注目キーワードに関連する体験表現の出現頻度によって得られた重みが高いほど評価式の値が高くなる、評価式を用いる
請求項記載の体験情報評価装置。
The ranking calculation means includes
As the ranking evaluation formula,
The closer the distance measured from the attention keyword and the appearance position of the experience expression, the higher the value of the evaluation formula,
The target value of the evaluation expression higher weights obtained by the frequency of occurrence of the keyword to the relevant experience representation that a high experience information evaluation apparatus according to claim 1, wherein using the evaluation equation.
前記ランキング算出手段は、
前記入力テキスト文書の更新日付が利用できる場合は、該更新日付の新鮮度に基づき、該入力テキスト文書が新しいほど評価式の値を高くして、該入力テキスト文書群の中のテキスト文書間の順序関係を決定する、
請求項記載の体験情報評価装置。
The ranking calculation means includes
When the update date of the input text document is available, based on the freshness of the update date, the value of the evaluation formula is increased as the input text document is newer , and the text documents in the input text document group are increased . Determine the order relationship,
The experience information evaluation apparatus according to claim 1 .
前記ランキング算出手段は
前記体験表現辞書記憶手段に体験表現の重みが格納されている場合は、該重みを、前記ランキング評価式に適用し、該重みが高いほど前記評価式の値を高くする
請求項1または3記載の体験情報評価装置。
The rankings calculation means,
When the weight of experience expression is stored in the experience expression dictionary storage unit, the weight is applied to the ranking evaluation formula, and the higher the weight , the higher the value of the evaluation formula. The experience information evaluation apparatus according to 1 or 3 .
請求項1乃至4のいずれか1項に記載の体験情報評価装置を構成する各手段としてコンピュータを機能させるための体験情報評価プログラム。The experience information evaluation program for functioning a computer as each means which comprises the experience information evaluation apparatus of any one of Claims 1 thru | or 4. 請求項5に記載の体験情報評価プログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。A computer-readable recording medium storing the experience information evaluation program according to claim 5.
JP2005354784A 2005-12-08 2005-12-08 EXPERIENCE INFORMATION EVALUATION DEVICE, PROGRAM, AND COMPUTER-READABLE RECORDING MEDIUM Expired - Lifetime JP4468294B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005354784A JP4468294B2 (en) 2005-12-08 2005-12-08 EXPERIENCE INFORMATION EVALUATION DEVICE, PROGRAM, AND COMPUTER-READABLE RECORDING MEDIUM

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005354784A JP4468294B2 (en) 2005-12-08 2005-12-08 EXPERIENCE INFORMATION EVALUATION DEVICE, PROGRAM, AND COMPUTER-READABLE RECORDING MEDIUM

Publications (2)

Publication Number Publication Date
JP2007157048A JP2007157048A (en) 2007-06-21
JP4468294B2 true JP4468294B2 (en) 2010-05-26

Family

ID=38241304

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005354784A Expired - Lifetime JP4468294B2 (en) 2005-12-08 2005-12-08 EXPERIENCE INFORMATION EVALUATION DEVICE, PROGRAM, AND COMPUTER-READABLE RECORDING MEDIUM

Country Status (1)

Country Link
JP (1) JP4468294B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104144209A (en) * 2014-07-08 2014-11-12 深圳市赛亿科技开发有限公司 Internet-of-Things product communication method

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101042515B1 (en) * 2008-12-11 2011-06-17 주식회사 네오패드 Information retrieval method and information provision method based on user's intention
JP5345987B2 (en) * 2010-08-18 2013-11-20 日本電信電話株式会社 Document search apparatus, document search method, and document search program
JP2013182422A (en) * 2012-03-01 2013-09-12 Nikon Corp Electronic device
CN110276065B (en) * 2018-03-15 2024-07-19 北京京东尚科信息技术有限公司 A method and device for processing item reviews

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104144209A (en) * 2014-07-08 2014-11-12 深圳市赛亿科技开发有限公司 Internet-of-Things product communication method

Also Published As

Publication number Publication date
JP2007157048A (en) 2007-06-21

Similar Documents

Publication Publication Date Title
US10748164B2 (en) Analyzing sentiment in product reviews
US9836511B2 (en) Computer-generated sentiment-based knowledge base
Singh et al. Predicting the “helpfulness” of online consumer reviews
KR101981075B1 (en) Data analysis system, data analysis method, data analysis program, and recording medium
US9449075B2 (en) Guided search based on query model
US8332208B2 (en) Information processing apparatus, information processing method, and program
JP4622589B2 (en) Information processing apparatus and method, program, and recording medium
JP2006293731A (en) Question answering system, data retrieval method, and computer program
JP5302614B2 (en) Facility related information search database formation method and facility related information search system
JP4866153B2 (en) Interactive question method, interactive question system, interactive question program, and recording medium recording the program
JP4347226B2 (en) Information extraction program, recording medium thereof, information extraction apparatus, and information extraction rule creation method
JP5151368B2 (en) Information processing apparatus and information processing program
JP4468294B2 (en) EXPERIENCE INFORMATION EVALUATION DEVICE, PROGRAM, AND COMPUTER-READABLE RECORDING MEDIUM
KR20220075490A (en) Learning content recommendation method
CN113326348A (en) Blog quality evaluation method and tool
CN115860283B (en) Contribution degree prediction method and device based on knowledge worker portrait
JP5877775B2 (en) Content management apparatus, content management system, content management method, program, and storage medium
JP4726683B2 (en) EXPERIENCE INFORMATION EXTRACTION METHOD AND DEVICE, PROGRAM, AND COMPUTER-READABLE RECORDING MEDIUM
CN115827988A (en) Self-media content popularity prediction method
Nelli Textual Data Analysis with NLTK
Scalabrini et al. From reviews to emotions: Analysing Bragança’s tourism attractions on TripAdvisor
Gunaratnam et al. Computational model for rating mobile applications based on feature extraction
JP2018206135A (en) Information generating program, information processing apparatus, and information generating method
Francom An introduction to quantitative text analysis for linguistics: Reproducible research using R
JP6181890B2 (en) Literature analysis apparatus, literature analysis method and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070314

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100223

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100224

R150 Certificate of patent or registration of utility model

Ref document number: 4468294

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term