Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7091146B2 - Information processing equipment, information processing methods, and programs - Google Patents
[go: Go Back, main page]

JP7091146B2 - Information processing equipment, information processing methods, and programs - Google Patents

Information processing equipment, information processing methods, and programs Download PDF

Info

Publication number
JP7091146B2
JP7091146B2 JP2018100943A JP2018100943A JP7091146B2 JP 7091146 B2 JP7091146 B2 JP 7091146B2 JP 2018100943 A JP2018100943 A JP 2018100943A JP 2018100943 A JP2018100943 A JP 2018100943A JP 7091146 B2 JP7091146 B2 JP 7091146B2
Authority
JP
Japan
Prior art keywords
sentence
word
score
unit
predicate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018100943A
Other languages
Japanese (ja)
Other versions
JP2019204445A (en
Inventor
智幸 河添
修 萬羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2018100943A priority Critical patent/JP7091146B2/en
Publication of JP2019204445A publication Critical patent/JP2019204445A/en
Application granted granted Critical
Publication of JP7091146B2 publication Critical patent/JP7091146B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。 The present invention relates to an information processing apparatus, an information processing method, and a program.

特許文献1には、文書中の種々の情報、特に、構文解析結果レベルの情報を統一的な枠組の下に利用してキーワード(要約語)を抽出する技術が記載されている。 Patent Document 1 describes a technique for extracting keywords (summary words) by using various information in a document, particularly information at a parsing result level under a unified framework.

特開平8-44763号公報Japanese Unexamined Patent Publication No. 8-44763

ここで、文において、主語が重要であるか目的語が重要であるかは、文によって異なる。例えば、「〇〇テレビが視聴率三冠を獲得した。」という文では、主語である「〇〇テレビ」が重要な要約語である。それに対し、「〇〇テレビが△△さんの当選を報道した」という文では、主語である「〇〇テレビ」は重要な要約語とは言えない。このように、同じ助詞を含む文節であっても文によってその文節の重要度が異なる。
しかしながら、特許文献1に記載の技術では、文節の助詞に基づいてその文節に含まれる語の重みを決定しているが、主語が重要であるか目的語が重要であるかはその文によって異なる。そのため、特許文献1に記載の技術では、文によっては適切な要約語を抽出することができないことがあるという課題がある。
Here, in a sentence, whether the subject is important or the object is important depends on the sentence. For example, in the sentence "○○ TV has won the triple crown of audience rating", the subject "○○ TV" is an important summary word. On the other hand, in the sentence "○○ TV reported the election of Mr. △△", the subject "○○ TV" cannot be said to be an important summary word. In this way, even if the clause contains the same particle, the importance of the clause differs depending on the sentence.
However, in the technique described in Patent Document 1, the weight of the word contained in the phrase is determined based on the particle of the phrase, but whether the subject is important or the object is important depends on the sentence. .. Therefore, the technique described in Patent Document 1 has a problem that an appropriate summary word may not be extracted depending on the sentence.

本発明は、上記の点に鑑みてなされたものであり、文からより適切な要約語を抽出することができる情報処理装置、情報処理方法、およびプログラムを提供することを課題とする。 The present invention has been made in view of the above points, and an object of the present invention is to provide an information processing apparatus, an information processing method, and a program capable of extracting more appropriate summary words from a sentence.

(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、1又は複数の文からなる文書を取得する取得部と、前記文章に含まれる各語に、その格要素に応じて重み付けをする基礎スコア付与部と、前記文における述語に応じて当該文に含まれる各語の重みを更新するスコア更新部と、各語の重みに基づいて前記文書の要約語を選択する要約語選択部と、選択した要約語を出力する出力部と、を備える情報処理装置である。 (1) The present invention has been made to solve the above-mentioned problems, and one aspect of the present invention includes an acquisition unit for acquiring a document composed of one or a plurality of sentences and each word included in the sentence. , A basic score assigning unit that weights according to its case element, a score updating unit that updates the weight of each word included in the sentence according to the predicate in the sentence, and a score updating unit that updates the weight of each word, and the document based on the weight of each word. It is an information processing apparatus including a summary word selection unit for selecting a summary word and an output unit for outputting the selected summary word.

(2)また、本発明の一態様は、(1)に記載の情報処理装置であって、同一とみなす語の重みを合算する要約語統合部と、を備える。 (2) Further, one aspect of the present invention includes the information processing apparatus according to (1), which includes a summary word integration unit for summing the weights of words regarded as the same.

(3)また、本発明の一態様は、(1)または(2)に記載の情報処理装置であって、前記スコア更新部は、前記文書のカテゴリに応じて異なるルールで重みを更新する。 (3) Further, one aspect of the present invention is the information processing apparatus according to (1) or (2), and the score updating unit updates weights according to different rules according to the category of the document.

(4)また、本発明の一態様は、(1)から(3)いずれかに記載の情報処理装置であって、前記基礎スコア付与部は、前記文が能動態の場合には当該文の主語の重みを重くし、前記文が受動態の場合には当該文の目的語の重みを重くする。 (4) Further, one aspect of the present invention is the information processing apparatus according to any one of (1) to (3), and the basic score giving unit is the subject of the sentence when the sentence is active. If the sentence is passive, the weight of the object of the sentence is increased.

(5)また、本発明の一態様は、(4)に記載の情報処理装置であって、前記スコア更新部は、特定の述語が文に含まれる場合に、当該文の主語の重みと目的語の重みとを逆転させる。 (5) Further, one aspect of the present invention is the information processing apparatus according to (4), and when a specific predicate is included in a sentence, the score updating unit has a weight and an object of the subject of the sentence. Reverse the weight of the word.

(6)また、本発明の一態様は、(5)に記載の情報処理装置であって、前記特定の述語は、情報を提供する行為を意味する動詞であって、前記スコア更新部は、前記特定の述語が文に含まれる場合に、当該文において提供される情報の重みを重くする。 (6) Further, one aspect of the present invention is the information processing apparatus according to (5), wherein the specific predicate is a verb meaning an act of providing information, and the score updating unit is a score update unit. When the specific predicate is included in a sentence, the weight of the information provided in the sentence is increased.

(7)また、本発明の一態様は、(6)に記載の情報処理装置であって、前記特定の述語は、前記文書のカテゴリに応じて異なる。 (7) Further, one aspect of the present invention is the information processing apparatus according to (6), and the specific predicate differs depending on the category of the document.

(8)また、本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、取得部が、1又は複数の文からなる文書を取得する過程と、基礎スコア付与部が、前記文書に含まれる各語に、その格要素に応じて重み付けをする過程と、スコア更新部が、前記文における述語に応じて当該文に含まれる各語の重みを更新する過程と、要約語選択部が、各語の重みに基づいて前記文書の要約語を選択する過程と、出力部が、選択した要約語を出力する過程と、を有する情報処理方法である。 (8) Further, the present invention has been made to solve the above-mentioned problems, and one aspect of the present invention is a process in which the acquisition unit acquires a document consisting of one or a plurality of sentences, and a basic score is given. A process in which the unit weights each word contained in the document according to its case element, and a process in which the score updating unit updates the weight of each word contained in the sentence according to the predicate in the sentence. This is an information processing method including a process in which a summary word selection unit selects a summary word in the document based on the weight of each word, and a process in which an output unit outputs the selected summary word.

(9)また、本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、コンピュータが、1又は複数の文からなる文書を取得するステップと、前記文章に含まれる各語に、その格要素に応じて重み付けをするステップと、前記文における述語に応じて当該文に含まれる各語の重みを更新するステップと、各語の重みに基づいて前記文書の要約語を選択するステップと、選択した要約語を出力するステップと、を実行するためのプログラムである。 (9) Further, the present invention has been made to solve the above-mentioned problems, and one aspect of the present invention includes a step of a computer acquiring a document composed of one or a plurality of sentences and the above-mentioned sentence. A step of weighting each word according to its case element, a step of updating the weight of each word contained in the sentence according to the predicate in the sentence, and a summary of the document based on the weight of each word. It is a program for executing a step of selecting a word and a step of outputting the selected summary word.

本発明によれば、文書からより適切な要約語を抽出することができる。 According to the present invention, more appropriate abstracts can be extracted from a document.

本発明の第1の実施形態に係る要約語生成装置の機能構成の一例を示す概略ブロック図である。It is a schematic block diagram which shows an example of the functional structure of the summary word generation apparatus which concerns on 1st Embodiment of this invention. 本発明の第1の実施形態に係る基礎スコアルール記憶部が記憶する基礎スコアルールテーブルのデータ構成及びデータ例を示す概略図である。It is a schematic diagram which shows the data structure and the data example of the basic score rule table stored in the basic score rule storage part which concerns on 1st Embodiment of this invention. 本発明の第1の実施形態に係る特定述語リスト記憶部が記憶する特定述語リストテーブルのデータ構成及びデータ例を示す概略図である。It is a schematic diagram which shows the data structure and the data example of the specific predicate list table stored in the specific predicate list storage part which concerns on 1st Embodiment of this invention. 本発明の第1の実施形態に係るスコア更新ルール記憶部が記憶するスコア更新ルールテーブルのデータ構成及びデータ例を示す概略図である。It is a schematic diagram which shows the data structure and the data example of the score update rule table stored in the score update rule storage part which concerns on 1st Embodiment of this invention. 本発明の第1の実施形態に係る要約語生成装置のハードウェア構成の一例を示す概略ブロック図である。It is a schematic block diagram which shows an example of the hardware composition of the summary word generation apparatus which concerns on 1st Embodiment of this invention. 本発明の第1の実施形態に係る要約語生成装置が文の形態素及び構文を解析する処理を説明するための図である。It is a figure for demonstrating the process which the abstract word generator which concerns on 1st Embodiment of this invention analyzes a morpheme and a syntax of a sentence. 本発明の第1の実施形態に係る要約語生成装置がスコアを付与する処理を説明するための図である。It is a figure for demonstrating the process which gives the score by the summary word generation apparatus which concerns on 1st Embodiment of this invention. 本発明の第1の実施形態に係る要約語生成装置がスコアを付与する処理を説明するための図である。It is a figure for demonstrating the process which gives the score by the summary word generation apparatus which concerns on 1st Embodiment of this invention. 本発明の第1の実施形態に係る要約語生成装置がスコアを付与する処理を説明するための図である。It is a figure for demonstrating the process which gives the score by the summary word generation apparatus which concerns on 1st Embodiment of this invention. 本発明の第1の実施形態に係る要約語生成装置が実行する要約語生成処理の一例を示すフローチャートである。It is a flowchart which shows an example of the summary word generation process executed by the summary word generation apparatus which concerns on 1st Embodiment of this invention. 本発明の第2の実施形態に係る要約語生成装置の機能構成の一例を示す概略ブロック図である。It is a schematic block diagram which shows an example of the functional structure of the summary word generation apparatus which concerns on 2nd Embodiment of this invention. 本発明の第2の実施形態に係るカテゴリ別特定述語リスト記憶部が記憶するカテゴリ別特定述語リストテーブルのデータ構成及びデータ例を示す概略図である。It is a schematic diagram which shows the data structure and the data example of the category specific predicate list table stored in the category specific predicate list storage part which concerns on 2nd Embodiment of this invention. 本発明の第2の実施形態に係る要約語生成装置がスコアを付与する処理を説明するための図である。It is a figure for demonstrating the process which gives the score by the summary word generation apparatus which concerns on 2nd Embodiment of this invention. 本発明の第2の実施形態に係る要約語生成装置がスコアを付与する処理を説明するための図である。It is a figure for demonstrating the process which gives the score by the summary word generation apparatus which concerns on 2nd Embodiment of this invention. 本発明の第2の実施形態に係る要約語生成装置が実行する要約語生成処理の一例を示すフローチャートである。It is a flowchart which shows an example of the summary word generation process executed by the summary word generation apparatus which concerns on 2nd Embodiment of this invention.

(第1の実施形態)
以下、図面を参照しながら本発明の第1の実施形態について説明する。
図1は、本発明の第1の実施形態に係る要約語生成装置1の機能構成の一例を示す概略ブロック図である。
要約語生成装置1は、1又は複数の文からなる入力文書から当該入力文書の要約語を生成して出力する情報処理装置である。入力文書は、例えばインターネット等で公開されるニュースの文章等である。要約語は、例えばキーワード等の入力文書における重要な語であり、入力文書を要約する語である。すなわち、要約語生成装置1は、入力された1又は複数の文からなる文書から、文章の主題を一言で表す要約語を生成する。これにより、例えばニュース記事から「〇〇に関するニュースです。」といったメッセージを生成することができる。なお、要約語は、1つの単語でもよいし、複数の単語であってもよいし、複数の単語の組み合わせとであってもよい。
(First Embodiment)
Hereinafter, the first embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a schematic block diagram showing an example of the functional configuration of the summary word generation device 1 according to the first embodiment of the present invention.
The summary word generation device 1 is an information processing device that generates and outputs a summary word of the input document from an input document composed of one or a plurality of sentences. The input document is, for example, a news text published on the Internet or the like. The summary word is an important word in an input document such as a keyword, and is a word that summarizes the input document. That is, the summary word generation device 1 generates a summary word that expresses the subject of the sentence in one word from the input document consisting of one or more sentences. This makes it possible to generate a message such as "News about XX" from a news article, for example. The summary word may be one word, a plurality of words, or a combination of a plurality of words.

要約語生成装置1は、例えば、複数の端末装置が接続可能なサーバ装置であり、接続された端末装置に対し入力文書の要約語を出力する。あるいは、要約語生成装置1は、携帯電話機やスマートフォンやタブレット端末やパーソナルコンピュータ等の各端末装置に組み込まれていてもよい。端末装置は、例えばインターネットで公開されているニュースを紹介する際等の場合に、要約語生成装置1から取得した当該ニュースの要約語「〇〇」を用いて、「〇〇に関するニュースです。」等の案内をすることができる。 The summary word generation device 1 is, for example, a server device to which a plurality of terminal devices can be connected, and outputs a summary word of an input document to the connected terminal devices. Alternatively, the summary word generation device 1 may be incorporated in each terminal device such as a mobile phone, a smartphone, a tablet terminal, or a personal computer. For example, when introducing news published on the Internet, the terminal device uses the summary word "○○" of the news acquired from the summary word generation device 1, and "is news about 〇〇." Etc. can be provided.

要約語生成装置1は、入力部11と、制御部12と、記憶部13と、出力部14と、を含んで構成される。
入力部11は、例えば、キーボードやマイクやネットワークインタフェース等の、入力文書を入力するインタフェースである。入力部11は、入力された入力文書を制御部12に出力する。なお、入力部11は、ネットワークまたは他の装置から入力文章を取得してもよい。
The summary word generation device 1 includes an input unit 11, a control unit 12, a storage unit 13, and an output unit 14.
The input unit 11 is an interface for inputting an input document, such as a keyboard, a microphone, and a network interface. The input unit 11 outputs the input input document to the control unit 12. The input unit 11 may acquire input text from a network or another device.

制御部12は、要約語生成装置1を統括して制御する。制御部12は、形態素・構文解析部121と、基礎スコア付与部122と、スコア更新部123と、要約語統合部124と、要約語選択部125と、を含んで構成される。 The control unit 12 controls the summary word generation device 1 in an integrated manner. The control unit 12 includes a morpheme / syntax analysis unit 121, a basic score giving unit 122, a score updating unit 123, a summary word integration unit 124, and a summary word selection unit 125.

形態素・構文解析部121は、解析用辞書記憶部131が記憶する解析用辞書に基づいて入力文書における各文の形態素及び構文を解析し、各文にある各文節の品詞や係り受けの情報を入力文書に付与して基礎スコア付与部122に出力する。
基礎スコア付与部122は、入力文書に含まれる各文節の語に、その格要素に応じて重み(以下「スコア」とも称する。)付けをする。文節の語は、例えば格要素から格助詞を除去した語句である。具体的には、基礎スコア付与部122は、基礎スコアルール記憶部132が記憶する基礎スコアルールテーブルに基づいて各文節の語にスコアを付与する。例えば、基礎スコア付与部122は、文が能動態の場合にはその文の主語の重みを重くし、文が受動態の場合にはその文の目的語の重みを重くしてもよい。基礎スコア付与部122は、各語に付与したスコアと入力文書とをスコア更新部123に出力する。
The morpheme / syntax analysis unit 121 analyzes the morpheme and syntax of each sentence in the input document based on the analysis dictionary stored in the analysis dictionary storage unit 131, and obtains the part of speech and dependency information of each phrase in each sentence. It is given to the input document and output to the basic score giving unit 122.
The basic score giving unit 122 weights (hereinafter, also referred to as “score”) the words of each phrase included in the input document according to the case element. A phrase is, for example, a phrase in which a case particle is removed from a case element. Specifically, the basic score giving unit 122 assigns a score to each phrase word based on the basic score rule table stored in the basic score rule storage unit 132. For example, the basic score giving unit 122 may increase the weight of the subject of the sentence when the sentence is active, and may increase the weight of the object of the sentence when the sentence is passive. The basic score giving unit 122 outputs the score given to each word and the input document to the score updating unit 123.

スコア更新部123は、入力文書に含まれる各文の述語に応じてそれぞれの文にある各文節の語の重みを更新する。具体的には、スコア更新部123は、特定述語リスト記憶部133が記憶する特定述語リストにある特定述語が文の述語である場合に、スコア更新ルール記憶部134が記憶するスコア更新ルールテーブルに基づいて当該文の各文節の語のスコアを更新する。特定述語は、例えば、情報を提供する行為を意味する動詞である。なお、特定述語は、情報を提供する行為を意味する動詞に限られず、他の動詞であってもよい。スコア更新部123は、特定述語が文に含まれる場合に、当該文の主語の重みと目的語の重みとを逆転させる。すなわち、スコア更新部123は、特定述語が文に含まれる場合には、当該文において提供される情報の重みを重くする。換言すれば、スコア更新部123は、特定述語が文に含まれる場合には、当該文において提供される情報の重みづけを更新する。スコア更新部123は、更新したスコアと入力文書とを要約語統合部124に出力する。 The score updating unit 123 updates the weight of the word of each clause in each sentence according to the predicate of each sentence included in the input document. Specifically, the score update unit 123 is stored in the score update rule table stored in the score update rule storage unit 134 when the specific predicate in the specific predicate list stored in the specific predicate list storage unit 133 is a sentence predicate. Update the word score for each phrase in the sentence based on it. A specific predicate is, for example, a verb that means an act of providing information. The specific predicate is not limited to the verb meaning the act of providing information, and may be another verb. When the specific predicate is included in the sentence, the score updating unit 123 reverses the weight of the subject and the weight of the object of the sentence. That is, when the specific predicate is included in the sentence, the score updating unit 123 increases the weight of the information provided in the sentence. In other words, when the specific predicate is included in the sentence, the score update unit 123 updates the weighting of the information provided in the sentence. The score updating unit 123 outputs the updated score and the input document to the summary word integration unit 124.

要約語統合部124は、入力文書に複数の文がある場合に、各文を比較して同一とみなせる類似の語ごとのスコアを合算し、合算したスコアと入力文書とを要約語選択部125に出力する。
要約語選択部125は、各語のスコアに基づいて入力文書の要約語を選択し、選択した要約語を出力部14に出力する。具体的には、要約語選択部125は、全ての単語をスコアの降順にソートし、最もスコアの高い語を要約語として選択する。なお、要約語選択部125は、最もスコアの高い語が複数ある場合に、その中から基礎スコア付与部122が最初に付与した基礎スコアが最も高いものを選んでもよいし、入力文書において最初にある語を選んでもよいし、ランダムに選んでもよい。
When there are a plurality of sentences in the input document, the summary word integration unit 124 compares each sentence and adds up the scores for similar words that can be regarded as the same, and the summed up score and the input document are combined with the summary word selection unit 125. Output to.
The summary word selection unit 125 selects the summary word of the input document based on the score of each word, and outputs the selected summary word to the output unit 14. Specifically, the summary word selection unit 125 sorts all the words in descending order of the score, and selects the word with the highest score as the summary word. In addition, when there are a plurality of words having the highest score, the summary word selection unit 125 may select the word having the highest basic score first given by the basic score giving unit 122, or may be the first in the input document. You may choose a word or you may choose it randomly.

記憶部13は、解析用辞書記憶部131と、基礎スコアルール記憶部132と、特定述語リスト記憶部133と、スコア更新ルール記憶部134とを備え、種々の情報を記憶する。 The storage unit 13 includes an analysis dictionary storage unit 131, a basic score rule storage unit 132, a specific predicate list storage unit 133, and a score update rule storage unit 134, and stores various information.

解析用辞書記憶部131は、文書の形態素及び構文を解析するための解析用辞書を記憶する。
基礎スコアルール記憶部132は、スコアを付与する際の基礎スコアルールを示す基礎スコアルールテーブルを記憶する。
The analysis dictionary storage unit 131 stores an analysis dictionary for analyzing the morpheme and syntax of the document.
The basic score rule storage unit 132 stores a basic score rule table showing basic score rules when assigning a score.

特定述語リスト記憶部133は、特定述語を示す特定述語リストを記憶する。
スコア更新ルール記憶部134は、スコアを更新する際のスコア更新ルールを示すスコア更新ルールテーブルを記憶する。
The specific predicate list storage unit 133 stores a specific predicate list indicating a specific predicate.
The score update rule storage unit 134 stores a score update rule table showing a score update rule when updating the score.

出力部14は、例えばディスプレイやスピーカやネットワークインタフェース等の、要約語を出力するインタフェースである。出力部14は、要約語選択部125から入力された要約語を出力する。 The output unit 14 is an interface that outputs summary words, such as a display, a speaker, and a network interface. The output unit 14 outputs the abstract word input from the abstract word selection unit 125.

図2は、本発明の第1の実施形態に係る基礎スコアルール記憶部132が記憶する基礎スコアルールテーブルのデータ構成及びデータ例を示す概略図である。
図示するように、基礎スコアルールテーブルは、文の態と、文節の格と、スコアとの各項目を有する。文の態は、文が能動態であるか受動態であるかを示す。文節の格は、文節の格助詞を示す。スコアは、文節の語に付す重みを示す。
FIG. 2 is a schematic diagram showing a data structure and a data example of a basic score rule table stored in the basic score rule storage unit 132 according to the first embodiment of the present invention.
As shown in the figure, the basic score rule table has each item of sentence state, phrase case, and score. The voice of a sentence indicates whether the sentence is active or passive. The case of a phrase indicates a case particle of the phrase. The score indicates the weight attached to the word of the phrase.

図示する例では、文の態「能動態」と文節の格「ガ格」とに対応するスコアは「1.0」である。また、文の態「能動態」と文節の格「ヲ格」とに対応するスコアは「0.8」である。また、文の態「能動態」と文節の格「二格」とに対応するスコアは「0.5」である。また、文の態「能動態」と文節の格「述語」とに対応するスコアは「0.0」である。また、文の態「受動態」と文節の格「ガ格」とに対応するスコアは「0.8」である。また、文の態「受動態」と文節の格「二格」とに対応するスコアは「1.0」である。 In the illustrated example, the score corresponding to the sentence state "active voice" and the phrase case "ga case" is "1.0". In addition, the score corresponding to the sentence state "active voice" and the phrase case "wo case" is "0.8". In addition, the score corresponding to the sentence state "active voice" and the phrase case "second case" is "0.5". The score corresponding to the sentence state "active voice" and the phrase case "predicate" is "0.0". In addition, the score corresponding to the sentence state "passive voice" and the phrase case "ga case" is "0.8". The score corresponding to the sentence state "passive voice" and the phrase case "second case" is "1.0".

図3は、本発明の第1の実施形態に係る特定述語リスト記憶部133が記憶する特定述語リストテーブルのデータ構成及びデータ例を示す概略図である。
図示するように、特定述語リストテーブルは、カテゴリと、特定述語リストとの各項目を有する。カテゴリは、文書のカテゴリである。特定述語リストは、特定述語のリストである。特定述語は、例えば新聞やテレビやインターネット等のメディアが情報提供する行為を意味する動詞である。図示する例では、カテゴリ「全て」に対応する特定述語リストには「掲載する、紹介する、報道する、…」等の述語が含まれている。
FIG. 3 is a schematic diagram showing a data structure and a data example of a specific predicate list table stored in the specific predicate list storage unit 133 according to the first embodiment of the present invention.
As shown in the figure, the specific predicate list table has a category and each item of the specific predicate list. A category is a category of documents. The specific predicate list is a list of specific predicates. A specific predicate is a verb that means an act of providing information by media such as newspapers, television, and the Internet. In the illustrated example, the specific predicate list corresponding to the category "all" includes predicates such as "post, introduce, report, ...".

図4は、本発明の第1の実施形態に係るスコア更新ルール記憶部134が記憶するスコア更新ルールテーブルのデータ構成及びデータ例を示す概略図である。
図示するように、スコア更新ルールテーブルは、文の態と、文節の格と、スコアとの各項目を有する。文の態は、文が能動態であるか受動態であるかを示す。文節の格は、文節の格助詞を示す。スコアは、スコアの変化値を示し、「+」は加点を示し、「-」は減点を示す。
FIG. 4 is a schematic diagram showing a data structure and a data example of a score update rule table stored in the score update rule storage unit 134 according to the first embodiment of the present invention.
As shown in the figure, the score update rule table has each item of sentence state, phrase case, and score. The voice of a sentence indicates whether the sentence is active or passive. The case of a phrase indicates a case particle of the phrase. The score indicates the change value of the score, "+" indicates an addition point, and "-" indicates a deduction point.

図示する例では、文の態「能動態」と文節の格「ガ格」とに対応するスコアは「-0.5」である。また、文の態「能動態」と文節の格「ヲ格」とに対応するスコアは「+0.5」である。また、文の態「能動態」と文節の格「二格」とに対応するスコアは「-0.5」である。また、文の態「能動態」と文節の格「述語」とに対応するスコアは「0.0」である。また、文の態「受動態」と文節の格「ガ格」とに対応するスコアは「+0.5」である。また、文の態「受動態」と文節の格「二格」とに対応するスコアは「-0.5」である。 In the illustrated example, the score corresponding to the sentence state "active voice" and the phrase case "ga case" is "-0.5". In addition, the score corresponding to the sentence state "active voice" and the phrase case "wo case" is "+0.5". In addition, the score corresponding to the sentence state "active voice" and the phrase case "second case" is "-0.5". The score corresponding to the sentence state "active voice" and the phrase case "predicate" is "0.0". In addition, the score corresponding to the sentence state "passive voice" and the phrase case "ga case" is "+0.5". The score corresponding to the sentence state "passive voice" and the phrase case "second case" is "-0.5".

すなわち、図示する例のスコア更新ルールでは、文の述語が特定述語である場合には、メディア名を含むと想定される格要素(能動態の場合にはガ格、受動態の場合には二格)を減点し、メディアが伝える情報を含むと想定される格要素(能動態の場合にはヲ格、受動態の場合にはガ格)を加点する。 That is, in the score update rule of the illustrated example, if the predicate of the sentence is a specific predicate, the case element that is supposed to include the media name (case in the case of active voice, case in the case of passive voice). Is deducted, and the case elements that are supposed to contain the information transmitted by the media (Wo case in the case of the ability and Ga case in the case of the passive voice) are added.

図5は、本発明の第1の実施形態に係る要約語生成装置1のハードウェア構成の一例を示す概略ブロック図である。
要約語生成装置1は、CPU101と、記憶媒体インタフェース部102と、記憶媒体103と、入力装置104と、出力装置105と、ROM106(Read Only Memory)と、RAM107(Random Access Memory)と、補助記憶部108と、ネットワークインタフェース部109と、を備える。CPU101と、記憶媒体インタフェース部102と、入力装置104と、出力装置105と、ROM106と、RAM107と、補助記憶部108と、ネットワークインタフェース部109とは、バスを介して相互に接続される。
なお、ここで言うCPU101は、プロセッサ一般のことを示すものであって、狭義のいわゆるCPUと呼ばれるデバイスのことだけではなく、例えばGPUやDSP等も含む。また、ここで言うCPU101は、一つのプロセッサで実現されることに限られず、同じ、または異なる種類の複数のプロセッサを組み合わせることで実現されてもよい。
FIG. 5 is a schematic block diagram showing an example of the hardware configuration of the summary word generation device 1 according to the first embodiment of the present invention.
The summary word generation device 1 includes a CPU 101, a storage medium interface unit 102, a storage medium 103, an input device 104, an output device 105, a ROM 106 (Read Only Memory), a RAM 107 (Random Access Memory), and auxiliary storage. A unit 108 and a network interface unit 109 are provided. The CPU 101, the storage medium interface unit 102, the input device 104, the output device 105, the ROM 106, the RAM 107, the auxiliary storage unit 108, and the network interface unit 109 are connected to each other via a bus.
The CPU 101 referred to here indicates a processor in general, and includes not only a device called a so-called CPU in a narrow sense but also a GPU, a DSP, and the like. Further, the CPU 101 referred to here is not limited to being realized by one processor, and may be realized by combining a plurality of processors of the same or different types.

CPU101は、補助記憶部108、ROM106およびRAM107が記憶するプログラムを読み出して実行し、また、補助記憶部108、ROM106およびRAM107が記憶する各種データを読み出し、補助記憶部108、RAM107に対して各種データを書き込むことにより、要約語生成装置1を制御する。また、CPU101は、記憶媒体インタフェース部102を介して記憶媒体103が記憶する各種データを読み出し、また、記憶媒体103に各種データを書き込む。記憶媒体103は、光磁気ディスク、フレキシブルディスク、フラッシュメモリなどの可搬記憶媒体であり、各種データを記憶する。
記憶媒体インタフェース部102は、記憶媒体103の読み書きを行うインタフェースである。
The CPU 101 reads and executes a program stored in the auxiliary storage unit 108, ROM 106, and RAM 107, reads various data stored in the auxiliary storage unit 108, ROM 106, and RAM 107, and reads various data to the auxiliary storage unit 108, RAM 107. The summary word generation device 1 is controlled by writing. Further, the CPU 101 reads various data stored in the storage medium 103 via the storage medium interface unit 102, and writes various data in the storage medium 103. The storage medium 103 is a portable storage medium such as a magneto-optical disk, a flexible disk, and a flash memory, and stores various data.
The storage medium interface unit 102 is an interface for reading and writing the storage medium 103.

入力装置104は、マウス、キーボード、タッチパネル、音量調整ボタン、電源ボタン、設定ボタン、赤外線受信部などの入力装置である。
出力装置105は、表示部、スピーカなどの出力装置である。
ROM106、RAM107は、要約語生成装置1の各機能部を動作させるためのプログラムや各種データを記憶する。
補助記憶部108は、ハードディスクドライブ、フラッシュメモリなどであり、要約語生成装置1の各機能部を動作させるためのプログラム、各種データを記憶する。
ネットワークインタフェース部109は、通信インタフェースを有し、無線通信によりネットワークNWに接続される。
The input device 104 is an input device such as a mouse, a keyboard, a touch panel, a volume control button, a power button, a setting button, and an infrared receiver.
The output device 105 is an output device such as a display unit and a speaker.
The ROM 106 and the RAM 107 store programs and various data for operating each functional unit of the summary word generation device 1.
The auxiliary storage unit 108 is a hard disk drive, a flash memory, or the like, and stores programs and various data for operating each functional unit of the summary word generation device 1.
The network interface unit 109 has a communication interface and is connected to the network NW by wireless communication.

例えば、要約語生成装置1の機能構成における制御部12は、CPU101に対応し、記憶部13は、ROM106、またはRAM107、または補助記憶部108、またはそれらの何れかの組み合わせに対応し、入力部11は、入力装置104またはネットワークインタフェース部109に対応し、出力部14は、出力装置105またはネットワークインタフェース部109に対応する。 For example, the control unit 12 in the functional configuration of the summary word generation device 1 corresponds to the CPU 101, and the storage unit 13 corresponds to the ROM 106, the RAM 107, the auxiliary storage unit 108, or a combination thereof, and is an input unit. 11 corresponds to the input device 104 or the network interface unit 109, and the output unit 14 corresponds to the output device 105 or the network interface unit 109.

続いて、要約語生成装置1の動作について具体例を用いて詳細に説明する。まず、形態素・構文解析部121が入力文書に含まれる各文の形態素及び構文を解析する。 Subsequently, the operation of the summary word generation device 1 will be described in detail with reference to specific examples. First, the morpheme / syntax analysis unit 121 analyzes the morpheme and syntax of each sentence included in the input document.

図6は、本発明の第1の実施形態に係る要約語生成装置1が文の形態素及び構文を解析する処理を説明するための図である。図示する例では、入力文は「〇〇テレビが△△さんの当選を報道した。」である。まず、形態素・構文解析部121は、入力文を文節「〇〇テレビが」、「△△さんの」、「当選を」及び「報道した」に分割する。そして、形態素・構文解析部121は、各文節を格要素「〇〇テレビが」、「△△さんの」、「当選を」と述語「報道した」とに分類する。形態素・構文解析部121は、格要素に対して単語の種別(固有名詞・サ変動詞等)及び文節の格に関する情報を付与し、述語に対して単語の種別及び文の態に関する情報を付与する。図示する例では、「〇〇テレビが」は「ガ格/固有名詞(企業名)」であり、「△△さんの」は「ノ格/固有名詞(人名)」であり、「当選を」は「ヲ格/一般名詞」であり、「報道した」は「述語/サ変動詞/能動態」である。また、形態素・構文解析部121は、文節間の係り受けの情報を解析してツリー構造で表現する。図示する例では、「〇〇テレビが」は「報道した」に係り、「△△さんの」は「当選を」に係り、「当選を」は「報道した」に係る。 FIG. 6 is a diagram for explaining a process in which the summary word generation device 1 according to the first embodiment of the present invention analyzes a morpheme and a syntax of a sentence. In the illustrated example, the input sentence is "○○ TV reported the election of Mr. △△." First, the morpheme / syntax analysis unit 121 divides the input sentence into the clauses "○○ TV ga", "△△ -san's", "winning" and "reported". Then, the morpheme / syntax analysis unit 121 classifies each phrase into the case elements "○○ TV ga", "△△ -san's", "winning" and the predicate "reported". The morpheme / parsing unit 121 assigns information on the case type (proprietary noun, sa-variable verb, etc.) and the case of the phrase to the case element, and assigns information on the word type and sentence state to the predicate. .. In the illustrated example, "○○ TV ga" is "ga-case / proper noun (company name)", "△△ -san's" is "no-case / proper noun (personal name)", and "winning". Is "wo case / general noun", and "reported" is "predicate / sa verb / active voice". Further, the morpheme / syntax analysis unit 121 analyzes the dependency information between clauses and expresses it in a tree structure. In the illustrated example, "○○ TV" is related to "reported", "△△ -san's" is related to "winning", and "winning" is related to "reporting".

次に、基礎スコア付与部122及びスコア更新部123が各文節の語にスコアを付与する。図7~図9は、本発明の第1の実施形態に係る要約語生成装置1がスコアを付与する処理を説明するための図である。 Next, the basic score giving unit 122 and the score updating unit 123 assign scores to the words of each phrase. 7 to 9 are diagrams for explaining the process of assigning a score by the summary word generation device 1 according to the first embodiment of the present invention.

図7に示す例では、入力文書は「〇〇テレビが視聴率三冠を獲得した。」である。すなわち、入力文書はメディアが情報提供することを示すものではない。まず、図7(A)に示すように、形態素・構文解析部121が、入力文書における「〇〇テレビが」が「ガ格/固有名詞(企業名)」であり、「視聴率三冠を」が「ヲ格/普通名詞」であり、「獲得した」が「述語/サ変動詞/能動態」であることを解析する。 In the example shown in FIG. 7, the input document is "○○ TV has won the audience rating triple crown." That is, the input document does not indicate that the media provides information. First, as shown in FIG. 7 (A), the morpheme / parsing unit 121 states that "○○ TV ga" in the input document is "ga case / common noun (company name)" and "viewing rate triple crown". ”Is a“ wo case / common noun ”, and“ acquired ”is a“ predicate / sa verb / ability dynamic ”.

続いて、図7(B)に示すように、基礎スコア付与部122が基礎スコアルールテーブルに基づいて、ガ格の文節「〇〇テレビが」の語「〇〇テレビ」に基礎スコア「1.0」を付与し、ヲ格の文節「視聴率三冠を」の語「視聴率三冠」に基礎スコア「0.8」を付与し、述語の文節「獲得した」の語「獲得」に基礎スコア「0.0」を付与する。 Subsequently, as shown in FIG. 7 (B), the basic score giving unit 122 adds the basic score “1. "0" is given, and the basic score "0.8" is given to the word "audience rating triple crown" of the wo case phrase "audience rating triple crown", and the predicate phrase "acquired" is given to the word "acquisition". A basic score of "0.0" is given.

続いて、スコア更新部123が、述語「獲得した」が特定述語リストにあるか否かを判定する。スコア更新部123は、述語「獲得した」が特定述語リストにないため、基礎スコアから更新する値であるスコア更新を全て「0.0」にする。すなわち、スコア更新部123は、スコアを更新しない。その結果、各語の合計スコアは基礎スコアのままである。よって、語「〇〇テレビ」の合計スコアは「1.0」であり、語「視聴率三冠」の合計スコアは「0.8」であり、語「獲得」の合計スコアは「0.0」である。最後に、要約語選択部125が、最も合計スコアの高い語「〇〇テレビ」を入力文書「〇〇テレビが視聴率三冠を獲得した。」の要約語として選択する。すなわち、要約語生成装置1は、メディアが情報提供することを示す文でない場合には、主語である「〇〇テレビ」を要約語として出力する。 Subsequently, the score updating unit 123 determines whether or not the predicate "acquired" is in the specific predicate list. Since the predicate "acquired" is not in the specific predicate list, the score update unit 123 sets all score updates, which are values to be updated from the basic score, to "0.0". That is, the score updating unit 123 does not update the score. As a result, the total score for each word remains the basic score. Therefore, the total score of the word "○○ TV" is "1.0", the total score of the word "audience rating triple crown" is "0.8", and the total score of the word "acquisition" is "0. 0 ". Finally, the summary word selection unit 125 selects the word "OO TV" having the highest total score as the summary word of the input document "OO TV has won the triple crown of audience rating." That is, if the sentence does not indicate that the media provides information, the summary word generation device 1 outputs the subject "○○ TV" as the summary word.

一方、図8に示す例では、入力文書は「〇〇テレビが△△さんの当選を報道した。」である。すなわち、入力文書はメディアが情報提供することを示すものである。まず、図8(A)に示すように、形態素・構文解析部121が、入力文書における「〇〇テレビが」が「ガ格/固有名詞(企業名)」であり、「△△さんの当選を」が「ヲ格/普通名詞(人名)+普通名詞」であり、「報道した」が「述語/サ変動詞/能動態」であることを解析する。 On the other hand, in the example shown in FIG. 8, the input document is "○○ TV reported the election of Mr. △△." That is, the input document indicates that the media provides information. First, as shown in FIG. 8 (A), in the morpheme / syntax analysis unit 121, "○○ TV ga" in the input document is "ga case / common noun (company name)", and "Mr. △△ was elected. It is analyzed that "o" is "wo case / common noun (personal name) + common noun" and "reported" is "predicate / sa verb / ability dynamic".

続いて、図8(B)に示すように、基礎スコア付与部122が基礎スコアルールテーブルに基づいて、ガ格の文節「〇〇テレビが」の語「〇〇テレビ」に基礎スコア「1.0」を付与し、ヲ格の文節「△△さんの当選を」の語「△△さんの当選」に基礎スコア「0.8」を付与し、述語の文節「報道した」の語「報道」に基礎スコア「0.0」を付与する。 Subsequently, as shown in FIG. 8 (B), the basic score giving unit 122 adds the basic score “1. "0" is given, and the basic score "0.8" is given to the word "△△ -san's winning" of the wo-case phrase "△△ -san's winning", and the predicate phrase "reported" is given to the word "reporting". Is given a basic score of "0.0".

続いて、スコア更新部123が、述語「報道した」が特定述語リストにあるか否かを判定する。スコア更新部123は、述語「報道した」が特定述語リストにあるため、スコア更新ルールテーブルに基づいて、「〇〇テレビ」の基礎スコア「1.0」にスコア更新「-0.5」加算して合計スコアを「0.5」に更新し、語「△△さんの当選」の基礎スコア「0.8」にスコア更新「+0.5」加算して合計スコアを「1.3」に更新し、語「報道」の基礎スコア「0.0」にスコア更新「0.0」加算して合計スコアを「0.0」に更新する。 Subsequently, the score updating unit 123 determines whether or not the predicate "reported" is in the specific predicate list. Since the predicate "reported" is in the specific predicate list, the score update unit 123 adds the score update "-0.5" to the basic score "1.0" of "OO TV" based on the score update rule table. Then, the total score is updated to "0.5", and the score update "+0.5" is added to the basic score "0.8" of the word "△△ -san's winning" to make the total score "1.3". Update and update the total score to "0.0" by adding the score update "0.0" to the basic score "0.0" of the word "report".

その結果、更新前は主語である「〇〇テレビ」が最も基礎スコアが高かったのに対し、更新後は目的語である「△△さんの当選」が最も合計スコアが高くなる。そのため、要約語選択部125は、最も合計スコアの高い語「△△さんの当選」を入力文書「〇〇テレビが△△さんの当選を報道した。」の要約語として選択する。すなわち、要約語生成装置1は、メディアである「〇〇テレビ」が報道する情報である「△△さんの当選」を要約語として出力する。よって、要約語生成装置1は、入力文書に対してより適切な要約語を生成して出力することができる。 As a result, before the update, the subject "○○ TV" had the highest basic score, but after the update, the object "Mr. △△ won" has the highest total score. Therefore, the summary word selection unit 125 selects the word "Mr. △△'s winning" with the highest total score as the summary word of the input document "○○ TV reported the winning of Mr. △△." That is, the summary word generation device 1 outputs "Mr. △△'s winning", which is the information reported by the media "○○ TV", as a summary word. Therefore, the summary word generation device 1 can generate and output a more appropriate summary word for the input document.

図9に示す例では、入力文書は「AさんがBさんに手紙を渡した。Bさんはその手紙を紹介した。」である。まず、図9(A)に示すように、形態素・構文解析部121が、入力文書の第1文「AさんがBさんに手紙を渡した。」における「Aさんが」が「ガ格/固有名詞(人名)」であり、「Bさんに」が「二格/固有名詞(人名)」であり、「手紙を」が「ヲ格/普通名詞」であり、「渡した」が「述語/動詞/能動態」であることを解析する。また、図9(B)に示すように、形態素・構文解析部121は、入力文書の第2文「Bさんはその手紙を紹介した。」における「Bさんは」が「ガ格/固有名詞(人名)」であり、「その手紙を」が「ヲ格/指示代名詞+普通名詞」であり、「紹介した」が「述語/サ変動詞/能動態」であることを解析する。 In the example shown in FIG. 9, the input document is "Mr. A handed a letter to Mr. B. Mr. B introduced the letter." First, as shown in FIG. 9 (A), the morpheme / syntax analysis unit 121 says that "Mr. A" in the first sentence of the input document "Mr. A handed a letter to Mr. B." "Professional noun (personal name)", "Mr. B" is "second case / proper noun (personal name)", "letter" is "wokaku / common noun", and "passed" is "predicate" Analyze that it is "/ verb / noun". Further, as shown in FIG. 9B, in the morpheme / syntax analysis unit 121, "Mr. B" in the second sentence "Mr. B introduced the letter" of the input document is "Ga case / proper noun". It is analyzed that "(person's name)", "that letter" is "wo-case / demonstrative noun + ordinary noun", and "introduced" is "predicate / syntax verb / ability dynamic".

続いて、図9(C)に示すように、基礎スコア付与部122が基礎スコアルールテーブルに基づいて、第1文におけるガ格の文節「Aさんが」の語「Aさん」に基礎スコア「1.0」を付与し、二格の文節「Bさんに」の語「Bさん」に基礎スコア「0.5」を付与し、ヲ格の文節「手紙を」の語「手紙」に基礎スコア「0.8」を付与し、述語の文節「渡した」の語「渡す」に基礎スコア「0.0」を付与する。また、スコア更新部123は、第1文の述語「渡した」が特定述語リストにないため、第1文のスコア更新を全て「0.0」とし、第1文のスコアを更新しない。その結果、各語の合計スコアは基礎スコアのままである。 Subsequently, as shown in FIG. 9 (C), the basic score giving unit 122 adds the basic score "Mr. A" to the word "Mr. A" in the predicate phrase "Mr. A" in the first sentence based on the basic score rule table. "1.0" is given, the basic score "0.5" is given to the word "Mr. B" of the second case phrase "Mr. B", and the basic score "Letter" is given to the word "letter" of the genitive phrase "letter". A score of "0.8" is given, and a basic score of "0.0" is given to the word "pass" of the predicate phrase "passed". Further, since the predicate "passed" in the first sentence is not in the specific predicate list, the score update unit 123 sets all the score updates in the first sentence to "0.0" and does not update the score in the first sentence. As a result, the total score for each word remains the basic score.

また、図9(D)に示すように、基礎スコア付与部122は、基礎スコアルールテーブルに基づいて、第2文におけるガ格の文節「Bさんは」の語「Bさん」に基礎スコア「1.0」を付与し、ヲ格の文節「その手紙を」の語「その手紙」に基礎スコア「0.8」を付与し、述語の文節「紹介した」の語「紹介」に基礎スコア「0.0」を付与する。 Further, as shown in FIG. 9 (D), the basic score giving unit 122 adds the basic score "Mr. B" to the word "Mr. B" in the second sentence based on the basic score rule table. "1.0" is given, the basic score "0.8" is given to the word "that letter" of the wo case phrase "that letter", and the basic score is given to the word "introduction" of the predicate phrase "introduced". Give "0.0".

続いて、スコア更新部123は、第2文の述語「紹介した」が特定述語リストにあるため、スコア更新ルールテーブルに基づいて、「Bさん」の基礎スコア「1.0」にスコア更新「-0.5」加算して合計スコアを「0.5」に更新し、語「その手紙」の基礎スコア「0.8」にスコア更新「+0.5」加算して合計スコアを「1.3」に更新し、語「紹介」の基礎スコア「0.0」にスコア更新「0.0」加算して合計スコアを「0.0」に更新する。 Subsequently, the score update unit 123 updates the score to the basic score "1.0" of "Mr. B" based on the score update rule table because the predicate "introduced" in the second sentence is in the specific predicate list. Add -0.5 "to update the total score to" 0.5 ", update the score to the basic score" 0.8 "of the word" the letter ", add" +0.5 "to add the total score to" 1. Update to "3", add score update "0.0" to the basic score "0.0" of the word "introduction", and update the total score to "0.0".

続いて、図9(E)に示すように、要約語統合部124が、第1文と第2文とを比較して、同一とみなせる語「Bさん」のスコアを合算してその合計スコアを「1.0」とし、語「手紙」のスコアを合算してその合計スコアを「2.1」とする。これにより、入力文書において頻出する語のスコアが高くなる。最後に、要約語選択部125が最も合計スコアの高い語「手紙」を入力文書「AさんがBさんに手紙を渡した。Bさんはその手紙を紹介した。」の要約語として選択する。このように、要約語生成装置1は、入力文書に複数の文がある場合には、同一とみなす語のスコアを合算して要約語を選択するため、入力文書において頻出する重要な語を要約語として選択することができる。 Subsequently, as shown in FIG. 9 (E), the summary word integration unit 124 compares the first sentence and the second sentence, adds up the scores of the words "Mr. B" that can be regarded as the same, and totals the scores. Is set to "1.0", and the scores of the word "letter" are added up to make the total score "2.1". This increases the score of words that appear frequently in the input document. Finally, the summary word selection unit 125 selects the word "letter" having the highest total score as the summary word of the input document "Mr. A handed the letter to Mr. B. Mr. B introduced the letter." In this way, when the input document has a plurality of sentences, the summary word generator 1 sums up the scores of the words considered to be the same to select the summary word, so that the important words frequently appearing in the input document are summarized. Can be selected as a word.

図10は、本発明の第1の実施形態に係る要約語生成装置1が実行する要約語生成処理の一例を示すフローチャートである。
ステップS101において、入力部11に入力文書が入力される。
ステップS103において、形態素・構文解析部121が、解析用辞書に基づいて入力文書を解析する。
FIG. 10 is a flowchart showing an example of a summary word generation process executed by the summary word generation device 1 according to the first embodiment of the present invention.
In step S101, the input document is input to the input unit 11.
In step S103, the morpheme / syntax analysis unit 121 analyzes the input document based on the analysis dictionary.

ステップS105において、基礎スコア付与部122が、基礎スコアルールテーブルに基づいて入力文書に含まれる各文要素にスコアを付与する。文要素は、各文節の語である。
ステップS107において、スコア更新部123が、入力文書に含まれる文に特定述語リストにある特定述語が使われているか否かを判定する。特定述語が使われている場合(ステップS107;YES)、要約語生成装置1はステップS109の処理に進む。一方、特定述語が使われていない場合(ステップS107;NO)、要約語生成装置1はステップS111の処理に進む。
In step S105, the basic score giving unit 122 assigns a score to each sentence element included in the input document based on the basic score rule table. Sentence elements are the words of each phrase.
In step S107, the score updating unit 123 determines whether or not the specific predicate in the specific predicate list is used in the sentence included in the input document. When the specific predicate is used (step S107; YES), the summary word generator 1 proceeds to the process of step S109. On the other hand, when the specific predicate is not used (step S107; NO), the summary word generator 1 proceeds to the process of step S111.

ステップS109において、スコア更新部123は、スコア更新ルールテーブルに基づいて、特定述語が使われている文の文要素のスコアを更新する。 In step S109, the score update unit 123 updates the score of the sentence element of the sentence in which the specific predicate is used, based on the score update rule table.

ステップS111において、要約語統合部124が、入力文書に複数の文がある場合に、各文を比較して同一とみなせる類似の語のスコアを合算する。
ステップS113において、要約語選択部125が、最もスコアの高い語を要約語として選択する。
ステップS115において、出力部14が、要約語を出力する。その後、処理を終了する。
In step S111, when the input document has a plurality of sentences, the summary word integration unit 124 compares the sentences and adds up the scores of similar words that can be regarded as the same.
In step S113, the summary word selection unit 125 selects the word with the highest score as the summary word.
In step S115, the output unit 14 outputs a summary word. After that, the process ends.

このように、第1の実施形態に係る要約語生成装置1は、1又は複数の文からなる文章を取得する入力部11(取得部)と、文書に含まれる各語に、その格要素に応じて重み付けをする基礎スコア付与部122と、文における述語に応じて当該文に含まれる各語の重みを更新するスコア更新部123と、各語の重みに基づいて文書の要約語を選択する要約語選択部125と、選択した要約語を出力する出力部14と、を備える。 As described above, the summary word generation device 1 according to the first embodiment has an input unit 11 (acquisition unit) for acquiring a sentence composed of one or a plurality of sentences, and each word included in the document has its rating element. A basic score giving unit 122 that weights according to the sentence, a score updating unit 123 that updates the weight of each word included in the sentence according to the predicate in the sentence, and a summary word of the document selected based on the weight of each word. It includes a summary word selection unit 125 and an output unit 14 that outputs the selected summary word.

このような構成により、同じ助詞を含む文節の重みが述語によって変わる場合であっても、適切な要約語を抽出することができる。すなわち、文書からより適切な要約語を抽出することができる。 With such a structure, it is possible to extract an appropriate summary word even when the weight of a clause containing the same particle changes depending on the predicate. That is, a more appropriate summary word can be extracted from the document.

また、要約語生成装置1は、同一とみなす語の重みを合算する要約語統合部124と、を備える。このような構成により、文書において頻出する語の重みを重くすることができる。 Further, the summary word generation device 1 includes a summary word integration unit 124 that totals the weights of words that are regarded as the same. With such a structure, it is possible to increase the weight of words that frequently appear in a document.

また、基礎スコア付与部122は、文が能動態の場合には当該文の主語の重みを重くし、文が受動態の場合には当該文の目的語の重みを重くし、スコア更新部123は、特定の述語が文に含まれる場合に、当該文の主語の重みと目的語の重みとを逆転させる。より具体的には、特定の述語は、情報を提供する行為を意味する動詞であって、スコア更新部123は、特定の述語が文に含まれる場合に、当該文において提供される情報の重みを重くする。このような構成により、メディア等が情報を提供する文の場合には、提供される情報を要約語として抽出することができる。 Further, the basic score giving unit 122 increases the weight of the subject of the sentence when the sentence is dynamic, and the basic score giving unit 122 increases the weight of the object of the sentence when the sentence is passive. When a specific predicate is included in a sentence, the weight of the subject and the weight of the object of the sentence are reversed. More specifically, the specific predicate is a verb meaning an act of providing information, and the score updater 123, when the specific predicate is included in the sentence, weights the information provided in the sentence. Make it heavy. With such a structure, in the case of a sentence in which the media or the like provides information, the provided information can be extracted as a summary word.

(第2の実施形態)
以下、図面を参照しながら本発明の第2の実施形態について説明する。
同じ述語を使う文であっても、その入力文書のカテゴリに応じて適切な要約語となる格要素が異なる場合がある。カテゴリは、文章が属するジャンル(例えば、芸能、スポーツ、政治等)を示す。例えば、カテゴリが「芸能」である文「〇〇さんが結婚を発表した。」では主語「〇〇さん」が要約語として適切であるのに対し、カテゴリが「政治」である文「〇〇首相が△△税減税を発表した。」では目的語「△△税減税」が要約語として適切である。そこで本実施形態では、入力文書のカテゴリに応じて特定述語が異なる点が第1の実施形態と異なる。
(Second embodiment)
Hereinafter, a second embodiment of the present invention will be described with reference to the drawings.
Even sentences that use the same predicate may have different case elements that are appropriate summary words depending on the category of the input document. The category indicates the genre to which the sentence belongs (for example, performing arts, sports, politics, etc.). For example, in the sentence "Mr. OO announced her marriage" whose category is "Entertainment", the subject "Mr. OO" is appropriate as a summary word, while the sentence "Mr. OO" whose category is "Politics" is appropriate. In "The Prime Minister announced the △△ tax reduction.", The subject "△△ tax reduction" is appropriate as a summary word. Therefore, the present embodiment differs from the first embodiment in that the specific predicate differs depending on the category of the input document.

図11は、本発明の第2の実施形態に係る要約語生成装置1Aの機能構成の一例を示す概略ブロック図である。要約語生成装置1Aは、1又は複数の文からなる入力文書から当該文書の要約語を生成して出力する情報処理装置である。要約語生成装置1Aは、例えば複数の端末装置が接続可能なサーバ装置であり、接続された端末装置に入力文書の要約語を出力する。或いは、要約語生成装置1Aは、携帯電話機やスマートフォンやタブレット端末やパーソナルコンピュータ等の各端末装置に組み込まれていてもよい。要約語生成装置1Aのハードウェア構成は、第1の実施形態と同様であるため、その説明を省略する。以下、第1の実施形態と同様の構成には同一の符号を付し、その説明を省略する。 FIG. 11 is a schematic block diagram showing an example of the functional configuration of the summary word generation device 1A according to the second embodiment of the present invention. The summary word generation device 1A is an information processing device that generates and outputs a summary word of the document from an input document composed of one or a plurality of sentences. The summary word generation device 1A is, for example, a server device to which a plurality of terminal devices can be connected, and outputs a summary word of an input document to the connected terminal devices. Alternatively, the summary word generation device 1A may be incorporated in each terminal device such as a mobile phone, a smartphone, a tablet terminal, or a personal computer. Since the hardware configuration of the abstract word generation device 1A is the same as that of the first embodiment, the description thereof will be omitted. Hereinafter, the same components as those in the first embodiment are designated by the same reference numerals, and the description thereof will be omitted.

要約語生成装置1Aは、入力部11Aと、制御部12Aと、記憶部13Aと、出力部14と、を含んで構成される。入力部11Aは、例えばキーボードやマイクやネットワークインタフェース等の、入力文書をそのカテゴリとともに入力するインタフェースである。入力部11Aは、入力された入力文書及びそのカテゴリを制御部12Aに出力する。 The summary word generation device 1A includes an input unit 11A, a control unit 12A, a storage unit 13A, and an output unit 14. The input unit 11A is an interface for inputting an input document together with its category, such as a keyboard, a microphone, and a network interface. The input unit 11A outputs the input input document and its category to the control unit 12A.

制御部12Aは、要約語生成装置1Aを統括して制御する。制御部12Aは、形態素・構文解析部121と、基礎スコア付与部122と、スコア更新部123Aと、要約語統合部124と、要約語選択部125と、を含んで構成される。 The control unit 12A controls the summary word generation device 1A in an integrated manner. The control unit 12A includes a morpheme / syntax analysis unit 121, a basic score giving unit 122, a score updating unit 123A, a summary word integration unit 124, and a summary word selection unit 125.

スコア更新部123Aは、入力文書に含まれる各文の述語に応じてそれぞれの文にある各文節の語の重みを、入力文書のカテゴリに応じて異なるルールで更新する。具体的には、スコア更新部123Aは、入力文書のカテゴリに応じた特定述語リストをカテゴリ別特定述語リスト記憶部133Aから読み出し、読みだした特定述語リストに含まれる特定述語が文の述語である場合に、スコア更新ルール記憶部134が記憶するスコア更新ルールテーブルに基づいて当該文の各文節の語のスコアを更新する。スコア更新部123Aは、更新したスコアと入力文書とを要約語統合部124に出力する。 The score updating unit 123A updates the weight of each phrase in each sentence according to the predicate of each sentence included in the input document according to different rules according to the category of the input document. Specifically, the score updating unit 123A reads a specific predicate list according to the category of the input document from the category-specific specific predicate list storage unit 133A, and the specific predicate included in the read specific predicate list is a sentence predicate. In this case, the score of the word of each clause of the sentence is updated based on the score update rule table stored in the score update rule storage unit 134. The score updating unit 123A outputs the updated score and the input document to the summary word integration unit 124.

記憶部13Aは、解析用辞書記憶部131と、基礎スコアルール記憶部132と、カテゴリ別特定述語リスト記憶部133Aと、スコア更新ルール記憶部134とを備え、種々の情報を記憶する。カテゴリ別特定述語リスト記憶部133Aは、特定述語を示す特定述語リストをカテゴリ毎に記憶する。 The storage unit 13A includes a dictionary storage unit 131 for analysis, a basic score rule storage unit 132, a category-specific specific predicate list storage unit 133A, and a score update rule storage unit 134, and stores various information. The category-specific specific predicate list storage unit 133A stores a specific predicate list indicating a specific predicate for each category.

図12は、本発明の第2の実施形態に係るカテゴリ別特定述語リスト記憶部133Aが記憶するカテゴリ別特定述語リストテーブルのデータ構成及びデータ例を示す概略図である。
図示するように、カテゴリ別特定述語リストテーブルは、カテゴリと、特定述語リストとの各項目を有する。カテゴリは、文書のカテゴリである。特定述語リストは、特定述語のリストである。
図示する例では、カテゴリ「芸能」に対応する特定述語リストには、「報道する、掲載する、…」等の述語が含まれている。また、カテゴリ「スポーツ」に対応する特定述語リストには、「達成する、獲得する、…」等の述語が含まれている。また、カテゴリ「政治」に対応する特定述語リストには、「公表する、発表する、…」等の述語が含まれている。なお、各カテゴリの特定述語リストには、複数のカテゴリで同一の述語が含まれていてもよい。
FIG. 12 is a schematic diagram showing a data structure and a data example of a category-specific predicate list table stored in the category-specific predicate list storage unit 133A according to the second embodiment of the present invention.
As shown in the figure, the category-specific predicate list table has a category and each item of the specific predicate list. A category is a category of documents. The specific predicate list is a list of specific predicates.
In the illustrated example, the specific predicate list corresponding to the category "Entertainment" includes predicates such as "report, publish, ...". In addition, the specific predicate list corresponding to the category "sports" includes predicates such as "achieve, acquire, ...". In addition, the list of specific predicates corresponding to the category "politics" includes predicates such as "publish, announce, ...". The specific predicate list of each category may include the same predicate in a plurality of categories.

続いて、要約語生成装置1Aの動作について具体例を用いて詳細に説明する。図13及び図14は、本発明の第2の実施形態に係る要約語生成装置1Aがスコアを付与する処理を説明するための図である。 Subsequently, the operation of the summary word generation device 1A will be described in detail with reference to a specific example. 13 and 14 are diagrams for explaining the process of assigning a score by the summary word generator 1A according to the second embodiment of the present invention.

図13に示す例では、入力文書は「〇〇さんが結婚を発表した。」であり、そのカテゴリは芸能である。まず、図13(A)に示すように、形態素・構文解析部121が、入力文書における「〇〇さんが」が「ガ格/固有名詞(人名)」であり、「結婚を」が「ヲ格/普通名詞」であり、「発表した」が「述語/サ変動詞/能動態」であることを解析する。 In the example shown in FIG. 13, the input document is "Mr. XX announced her marriage." The category is performing arts. First, as shown in FIG. 13 (A), in the morpheme / parsing unit 121, "○○ san ga" is "ga case / common noun (personal name)" and "marriage" is "wo" in the input document. It is analyzed that it is a case / common noun and that "announced" is a "predicate / sa verb / ability dynamic".

続いて、図13(B)に示すように、基礎スコア付与部122が基礎スコアルールテーブルに基づいて、ガ格の文節「〇〇さんが」の語「〇〇さん」に基礎スコア「1.0」を付与し、ヲ格の文節「結婚を」の語「結婚」に基礎スコア「0.8」を付与し、述語の文節「発表した」の語「発表」に基礎スコア「0.0」を付与する。 Subsequently, as shown in FIG. 13 (B), the basic score giving unit 122 adds the basic score “1. A basic score of "0.8" is given to the word "marriage" of the wo case phrase "marriage", and a basic score of "0.0" is given to the word "announcement" of the predicate phrase "announced". Is given.

続いて、スコア更新部123Aが、述語「発表した」が入力文書のカテゴリ「芸能」の特定述語リストにあるか否かを判定する。スコア更新部123Aは、述語「発表した」がカテゴリ「芸能」の特定述語リストにないため、全ての語のスコア更新を「0.0」とし、各語のスコアを更新しない。その結果、各語の合計スコアは基礎スコアのままである。よって、要約語選択部125は、合計スコアの最も高い語「〇〇さん」を入力文書「〇〇さんが結婚を発表した。」の要約語として選択する。 Subsequently, the score updating unit 123A determines whether or not the predicate "announced" is in the specific predicate list of the input document category "entertainment". Since the predicate "announced" is not in the specific predicate list of the category "entertainment", the score update unit 123A sets the score update of all words to "0.0" and does not update the score of each word. As a result, the total score for each word remains the basic score. Therefore, the summary word selection unit 125 selects the word "Mr. XX" having the highest total score as the summary word of the input document "Mr. XX announced the marriage."

一方、図14に示す例では、入力文書は「〇〇首相が△△税減税を発表した。」であり、そのカテゴリは政治である。まず、図14(A)に示すように、形態素・構文解析部121が、入力文書における「〇〇首相が」が「ガ格/固有名詞(人名)」であり、「△△税減税を」が「ヲ格/普通名詞」であり、「発表した」が「述語/サ変動詞/能動態」であることを解析する。 On the other hand, in the example shown in FIG. 14, the input document is "Prime Minister XX has announced a tax reduction of △△", and the category is politics. First, as shown in FIG. 14 (A), the morpheme / parsing unit 121 states that "○○ Prime Minister ga" is "ga case / common noun (personal name)" in the input document, and "△△ tax reduction". Is "wo case / common noun", and "announced" is "predicate / sa verb / ability dynamic".

続いて、図14(B)に示すように、基礎スコア付与部122が基礎スコアルールテーブルに基づいて、ガ格の文節「〇〇首相が」の語「〇〇首相」に基礎スコア「1.0」を付与し、ヲ格の文節「△△税減税を」の語「△△税減税」に基礎スコア「0.8」を付与し、述語の文節「発表した」の語「発表」に基礎スコア「0.0」を付与する。 Subsequently, as shown in FIG. 14 (B), the basic score giving unit 122 adds the basic score “1. "0" is given, and the basic score "0.8" is given to the word "△△ tax reduction" of the phrase "△△ tax reduction", and the word "announcement" of the predicate phrase "announced". A basic score of "0.0" is given.

続いて、スコア更新部123Aが、述語「発表した」が入力文書のカテゴリ「政治」の特定述語リストにあるか否かを判定する。スコア更新部123Aは、述語「発表した」がカテゴリ「政治」の特定述語リストにあるため、スコア更新ルールテーブルに基づいて、「〇〇首相」の基礎スコア「1.0」にスコア更新「-0.5」加算して合計スコアを「0.5」に更新し、語「△△税減税」の基礎スコア「0.8」にスコア更新「+0.5」加算して合計スコアを「1.3」に更新し、語「発表」の基礎スコア「0.0」にスコア更新「0.0」加算して合計スコアを「0.0」に更新する。 Subsequently, the score updating unit 123A determines whether or not the predicate "announced" is in the specific predicate list of the input document category "politics". Since the predicate "announced" is in the specific predicate list of the category "politics", the score update unit 123A updates the score to the basic score "1.0" of "Prime Minister XX" based on the score update rule table. Add "0.5" to update the total score to "0.5", add the score update "+0.5" to the basic score "0.8" of the word "△△ tax reduction", and add the total score to "1". Update to "0.3", add score update "0.0" to the basic score "0.0" of the word "announcement", and update the total score to "0.0".

その結果、更新前は主語である「〇〇首相」が最も基礎スコアが高かったのに対し、更新後は目的語である「△△税減税」が最も合計スコアが高くなる。そのため、要約語選択部125は、合計スコアの最も高い語「△△税減税」を入力文書「〇〇首相が△△税減税を発表した。」の要約語として選択する。 As a result, the subject "Prime Minister" had the highest basic score before the update, while the object "△△ tax reduction" had the highest total score after the update. Therefore, the summary word selection unit 125 selects the word "△△ tax reduction" having the highest total score as the summary word of the input document "Prime Minister XX has announced the △△ tax reduction."

このように、要約語生成装置1Aは、入力文書のカテゴリに応じて異なる特定述語リストを用いているため、同じ述語「発表する」の文であっても、各入力文書に適した要約語を生成して出力することができる。 As described above, since the summary word generator 1A uses a different list of specific predicates according to the category of the input document, even if the sentence has the same predicate "to announce", the summary word suitable for each input document can be obtained. It can be generated and output.

図15は、本発明の第2の実施形態に係る要約語生成装置1Aが実行する要約語生成処理の一例を示すフローチャートである。
ステップS201において、入力部11Aに入力文書及びそのカテゴリが入力される。
ステップS203~ステップS205の処理は、第1の実施形態におけるステップS103~ステップS105の処理と同様であるため、その説明を省略する。
FIG. 15 is a flowchart showing an example of the summary word generation process executed by the summary word generation device 1A according to the second embodiment of the present invention.
In step S201, the input document and its category are input to the input unit 11A.
Since the processing of steps S203 to S205 is the same as the processing of steps S103 to S105 in the first embodiment, the description thereof will be omitted.

ステップS207において、スコア更新部123Aが、入力文書に含まれる文に、入力文書のカテゴリに対応する特定述語リストにある特定述語が使われているか否かを判定する。特定述語が使われている場合(ステップS207;YES)、要約語生成装置1AはステップS209の処理に進む。一方、特定述語が使われていない場合(ステップS207;NO)、要約語生成装置1AはステップS211の処理に進む。 In step S207, the score updating unit 123A determines whether or not the sentence included in the input document uses a specific predicate in the specific predicate list corresponding to the category of the input document. When the specific predicate is used (step S207; YES), the summary word generator 1A proceeds to the process of step S209. On the other hand, when the specific predicate is not used (step S207; NO), the summary word generator 1A proceeds to the process of step S211.

ステップS209~ステップS215の処理は、第1の実施形態におけるステップS109~ステップS115の処理と同様であるため、その説明を省略する。 Since the processing of steps S209 to S215 is the same as the processing of steps S109 to S115 in the first embodiment, the description thereof will be omitted.

なお、本実施形態では、入力文書のカテゴリに応じて特定述語リストを異なるものにしているが、これに限らず、入力文書のカテゴリに応じて異なるスコア更新ルールでスコアを更新してもよい。 In the present embodiment, the specific predicate list is different depending on the category of the input document, but the present invention is not limited to this, and the score may be updated by a different score update rule according to the category of the input document.

このように、第2の実施形態に係る要約語生成装置1Aは、1又は複数の文からなる文書を取得する入力部11(取得部)と、文章に含まれる各語に、その格要素に応じて重み付けをする基礎スコア付与部122と、文における述語に応じて当該文に含まれる各語の重みを更新するスコア更新部123Aと、各語の重みに基づいて文書の要約語を選択する要約語選択部125と、選択した要約語を出力する出力部14と、を備える。スコア更新部123Aは、文書のカテゴリに応じて異なるルールで重みを更新する。より具体的には、重みを更新する特定の述語が文書のカテゴリに応じて異なる。 As described above, the summary word generation device 1A according to the second embodiment has an input unit 11 (acquisition unit) for acquiring a document composed of one or a plurality of sentences, and each word included in the sentence has its rating element. The basic score giving unit 122 that weights according to the sentence, the score updating unit 123A that updates the weight of each word included in the sentence according to the predicate in the sentence, and the summary word of the document are selected based on the weight of each word. It includes a summary word selection unit 125 and an output unit 14 that outputs the selected summary word. The score update unit 123A updates the weight according to different rules according to the document category. More specifically, the particular predicate that updates the weights depends on the category of the document.

このような構成により、同じ助詞を含む文節の重みが述語によって変わる場合であっても、適切な要約語を抽出することができる。また、同じ述語を使う文であってもその文書のカテゴリに応じて重みを更新するため、文書に適した要約語を抽出することができる。すなわち、文書からより適切な要約語を抽出することができる。 With such a structure, it is possible to extract an appropriate summary word even when the weight of a clause containing the same particle changes depending on the predicate. Further, even if the sentence uses the same predicate, the weight is updated according to the category of the document, so that the summary word suitable for the document can be extracted. That is, a more appropriate summary word can be extracted from the document.

以上、図面を参照してこの発明の実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。 Although the embodiments of the present invention have been described in detail with reference to the drawings, the specific configuration is not limited to the above, and various design changes and the like can be made without departing from the gist of the present invention. It is possible to do.

例えば、上述した実施形態では、要約語生成装置1,1Aは、文の述語が特定述語である場合に同一のスコア更新ルールでスコアを更新しているが、これに限らず、特定述語毎に異なるスコア更新ルールでスコアを更新してもよい。 For example, in the above-described embodiment, the summary word generators 1 and 1A update the score according to the same score update rule when the predicate of the sentence is a specific predicate, but the score is not limited to this, and the score is updated for each specific predicate. Scores may be updated with different score update rules.

また、上述した実施形態では、要約語生成装置1,1Aは、1つの語を要約語として出力しているが、これに限らず、スコアの高い順に所定の複数語出力してもよい。 Further, in the above-described embodiment, the summary word generators 1 and 1A output one word as a summary word, but the present invention is not limited to this, and a predetermined plurality of words may be output in descending order of score.

また、上述した実施形態では、入力文書が日本語である場合を例に示したが、これに限らず、他の言語であってもよい。 Further, in the above-described embodiment, the case where the input document is in Japanese is shown as an example, but the present invention is not limited to this, and other languages may be used.

また、要約語生成装置1,1Aは、出力した要約語に対する評価の入力を受け付け、評価に基づいて機械学習によりスコア更新ルールを変更してもよい。 Further, the summary word generation devices 1 and 1A may accept the input of the evaluation for the output summary word and change the score update rule by machine learning based on the evaluation.

また、要約語生成装置1,1Aは、前にある文ほど重要であることが多いため、入力文書に複数の文がある場合には、前にある文のスコアが高くなるようにスコアを付与してもよい。 In addition, since the summary word generators 1 and 1A are often more important than the preceding sentence, when there are a plurality of sentences in the input document, a score is given so that the score of the preceding sentence is high. You may.

また、上述した実施形態では、スコア更新ルールにおいて、能動態の場合にはガ格及び二格を減点し、ヲ格を加点しているが、これに限らず、その他にもデ格やニヨル格やカラ格等メディア名を含みそうな格要素を減点し、ト格やニツク格等メディアが伝える情報を含みそうな格要素を加点するものであればよい。同様に、スコア更新ルールにおいて、受動態の場合にはガ格を加点し、二格を減点しているが、これに限らず、その他にもデ格やニヨル格やカラ格等メディア名を含みそうな格要素を減点し、ト格やニツク格等メディアが伝える情報を含みそうな格要素を加点するものであればよい。 Further, in the above-described embodiment, in the score update rule, in the case of the ability, the points are deducted from the ga-rank and the second-rank, and the wo-rank is added. It suffices to deduct points that are likely to include media names such as Kara, and add points that are likely to include information transmitted by the media such as Tok and Nikku. Similarly, in the score update rule, in the case of passive voice, a point is added to the ga rating and a point is deducted from the second rating. It suffices to deduct points from the case elements and add points to the case elements that are likely to contain information transmitted by the media, such as the To case and the Nikku case.

なお、上述した各実施形態や各変形例の1つまたは複数、上述した各実施形態や各変形例の一部または全部を組み合わせて本発明の一態様を実現するようにしてもよい。 It should be noted that one or more of the above-described embodiments and modifications, and a part or all of the above-mentioned embodiments and modifications may be combined to realize one aspect of the present invention.

なお、本発明の一態様における要約語生成装置1,1Aで動作するプログラムは、本発明の一態様に関わる上記の各実施形態や変形例で示した機能を実現するように、1つ、または複数の、CPU(Central Processing Unit)等のプロセッサを制御するプログラム(コンピュータを機能させるプログラム)であっても良い。そして、これらの各装置で取り扱われる情報は、その処理時に一時的にRAM(Random Access Memory)に蓄積され、その後、フラッシュメモリやHDD(Hard Disk Drive)等の各種ストレージに格納され、必要に応じてCPU等によって読み出し、修正・書き込みが行われても良い。 It should be noted that the program operating on the summary word generators 1 and 1A in one aspect of the present invention may be one or the program so as to realize the functions shown in the above embodiments and modifications related to the one aspect of the present invention. It may be a program (a program that makes a computer function) that controls a plurality of processors such as a CPU (Central Processing Unit). Then, the information handled by each of these devices is temporarily stored in a RAM (Random Access Memory) at the time of processing, and then stored in various storages such as a flash memory and an HDD (Hard Disk Drive), if necessary. It may be read, corrected and written by a CPU or the like.

なお、上述した各実施形態や変形例における要約語生成装置1,1Aの一部又は全部を1つ、または複数のプロセッサを備えたコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータが読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。 It should be noted that a part or all of the summary word generation devices 1 and 1A in each of the above-described embodiments and modifications may be realized by a computer provided with one or a plurality of processors. In that case, a program for realizing this control function may be recorded on a recording medium readable by a computer, and the program recorded on the recording medium may be read by a computer system and executed.

なお、ここでいう「コンピュータシステム」とは、要約語生成装置1,1Aに内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。 The term "computer system" as used herein is a computer system built into the summary word generators 1 and 1A, and includes hardware such as an OS and peripheral devices. Further, the "computer-readable recording medium" refers to a portable medium such as a flexible disk, a magneto-optical disk, a ROM, or a CD-ROM, and a storage device such as a hard disk built in a computer system.

さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。 Further, a "computer-readable recording medium" is a medium that dynamically holds a program for a short time, such as a communication line when a program is transmitted via a network such as the Internet or a communication line such as a telephone line. In that case, a program may be held for a certain period of time, such as a volatile memory inside a computer system serving as a server or a client. Further, the above program may be for realizing a part of the above-mentioned functions, and may be further realized for realizing the above-mentioned functions in combination with a program already recorded in the computer system.

また、上述した各実施形態や変形例における要約語生成装置1,1Aの一部、又は全部を典型的には集積回路であるLSIとして実現してもよいし、チップセットとして実現してもよい。また、上述した各実施形態や変形例における要約語生成装置1、1Aの各機能ブロックは個別にチップ化してもよいし、一部、又は全部を集積してチップ化してもよい。また、集積回路化の手法は、LSIに限らず専用回路、および/または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いることも可能である。 Further, a part or all of the summary word generators 1 and 1A in each of the above-described embodiments and modifications may be realized as an LSI, which is typically an integrated circuit, or may be realized as a chipset. .. Further, each functional block of the summary word generation devices 1 and 1A in each of the above-described embodiments and modifications may be individually chipped, or a part or all of them may be integrated into a chip. Further, the method of making an integrated circuit is not limited to the LSI, and may be realized by a dedicated circuit and / or a general-purpose processor. Further, when an integrated circuit technology that replaces an LSI appears due to advances in semiconductor technology, it is also possible to use an integrated circuit based on this technology.

以上、この発明の一態様として各実施形態や変形例に関して図面を参照して詳述してきたが、具体的な構成は各実施形態や変形例に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。また、本発明の一態様は、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。また、上記各実施形態や変形例に記載された要素であり、同様の効果を奏する要素同士を置換した構成も含まれる。 As described above, as one aspect of the present invention, each embodiment and modification have been described in detail with reference to the drawings, but the specific configuration is not limited to each embodiment and modification, and deviates from the gist of the present invention. It also includes design changes that are not included. Further, one aspect of the present invention can be variously modified within the scope of the claims, and the technical aspects of the present invention can also be obtained by appropriately combining the technical means disclosed in the different embodiments. Included in the range. Further, the elements described in each of the above-described embodiments and modifications are included, and a configuration in which elements having the same effect are replaced with each other is also included.

1,1A 要約語生成装置
11,11A 入力部
12,12A 制御部
121 形態素・構文解析部
122 基礎スコア付与部
123,123A スコア更新部
124 要約語統合部
125 要約語選択部
13,13A 記憶部
131 解析用辞書記憶部
132 基礎スコアルール記憶部
133 特定述語リスト記憶部
133A カテゴリ別特定述語リスト記憶部
134 スコア更新ルール記憶部
14 出力部
101 CPU
102 記憶媒体インタフェース部
103 記憶媒体
104 入力装置
105 出力装置
106 ROM
107 RAM
108 補助記憶部
109 ネットワークインタフェース部
1,1A Predicate generator 11, 11A Input unit 12, 12A Control unit 121 Predicate / parsing unit 122 Basic score assignment unit 123, 123A Score update unit 124 Summary word integration unit 125 Predicate selection unit 13, 13A Storage unit 131 Parsing dictionary storage unit 132 Basic score rule storage unit 133 Specific predicate list storage unit 133A Category-specific specific predicate list storage unit 134 Score update rule storage unit 14 Output unit 101 CPU
102 Storage medium interface unit 103 Storage medium 104 Input device 105 Output device 106 ROM
107 RAM
108 Auxiliary storage unit 109 Network interface unit

Claims (9)

1又は複数の文からなる文書を取得する取得部と、
前記文書に含まれる各語に、その格要素に応じて重み付けをする基礎スコア付与部と、
前記文における述語に応じて当該文に含まれる各語の重みを更新するスコア更新部と、
各語の重みに基づいて前記文書の要約語を選択する要約語選択部と、
選択した要約語を出力する出力部と、
を備え
前記基礎スコア付与部は、前記文が能動態か受動態かに応じて当該文の主語および目的語の少なくともいずれかの重みを変更する
情報処理装置。
An acquisition unit that acquires a document consisting of one or more sentences,
A basic scoring unit that weights each word contained in the document according to its case element,
A score updater that updates the weight of each word included in the sentence according to the predicate in the sentence, and a score updater.
A summary word selection unit that selects the summary word of the document based on the weight of each word, and
An output section that outputs the selected summary word, and
Equipped with
The basic score giving unit changes the weight of at least one of the subject and the object of the sentence depending on whether the sentence is active or passive.
Information processing equipment.
同一とみなす語の重みを合算する要約語統合部と、
を備える請求項1に記載の情報処理装置。
A summary word integration section that adds up the weights of words that are considered to be the same,
The information processing apparatus according to claim 1.
前記スコア更新部は、前記文書のカテゴリに応じて異なるルールで重みを更新する、
請求項1または請求項2に記載の情報処理装置。
The score updater updates the weights according to different rules depending on the category of the document.
The information processing apparatus according to claim 1 or 2.
前記基礎スコア付与部は、前記文が能動態の場合には当該文の主語の重みを重くし、前記文が受動態の場合には当該文の目的語の重みを重くする、
請求項1から請求項3いずれか1項に記載の情報処理装置。
When the sentence is active, the basic score giving unit increases the weight of the subject of the sentence, and when the sentence is passive, the weight of the object of the sentence is increased.
The information processing apparatus according to any one of claims 1 to 3.
前記スコア更新部は、特定の述語が文に含まれる場合に、当該文の主語の重みと目的語の重みとを逆転させる、
請求項4に記載の情報処理装置。
When a specific predicate is included in a sentence, the score updater reverses the weight of the subject and the weight of the object of the sentence.
The information processing apparatus according to claim 4.
前記特定の述語は、情報を提供する行為を意味する動詞であって、
前記スコア更新部は、前記特定の述語が文に含まれる場合に、当該文において提供される情報の重みを重くする、
請求項5に記載の情報処理装置。
The specific predicate is a verb that means the act of providing information.
The score updater weights the information provided in a sentence when the particular predicate is included in the sentence.
The information processing apparatus according to claim 5.
前記特定の述語は、前記文書のカテゴリに応じて異なる
請求項5または請求項6に記載の情報処理装置。
The information processing apparatus according to claim 5 or 6, wherein the specific predicate differs depending on the category of the document.
取得部が、1又は複数の文からなる文書を取得する過程と、
基礎スコア付与部が、前記文書に含まれる各語に、その格要素に応じて重み付けをする過程と、
スコア更新部が、前記文における述語に応じて当該文に含まれる各語の重みを更新する過程と、
要約語選択部が、各語の重みに基づいて前記文書の要約語を選択する過程と、
出力部が、選択した要約語を出力する過程と、
前記基礎スコア付与部が、前記文が能動態か受動態かに応じて当該文の主語および目的語の少なくともいずれかの重みを変更する過程と、
を有する、
情報処理方法。
The process by which the acquisition unit acquires a document consisting of one or more sentences,
The process in which the basic score assigning unit weights each word contained in the document according to its case element, and
The process in which the score updater updates the weight of each word included in the sentence according to the predicate in the sentence, and
The process in which the abstract word selection unit selects the abstract word of the document based on the weight of each word, and
The process by which the output section outputs the selected summary word,
The process in which the basic score giving unit changes the weight of at least one of the subject and the object of the sentence depending on whether the sentence is active or passive.
Have,
Information processing method.
コンピュータが、
1又は複数の文からなる文書を取得する取得ステップと、
前記文書に含まれる各語に、その格要素に応じて重み付けをする基礎スコア付与ステップと、
前記文における述語に応じて当該文に含まれる各語の重みを更新するスコア更新ステップと、
各語の重みに基づいて前記文書の要約語を選択する要約語選択ステップと、
選択した要約語を出力する出力ステップと、
を実行し、
前記基礎スコア付与ステップにおいて、前記文が能動態か受動態かに応じて当該文の主語および目的語の少なくともいずれかの重みを変更するためのプログラム。
The computer
An acquisition step to acquire a document consisting of one or more sentences,
A basic scoring step that weights each word contained in the document according to its case element, and
A score update step that updates the weight of each word contained in the sentence according to the predicate in the sentence, and
A summary word selection step that selects the summary word of the document based on the weight of each word, and
An output step that outputs the selected summary word, and
And run
A program for changing the weight of at least one of the subject and the object of the sentence depending on whether the sentence is active or passive in the basic score giving step .
JP2018100943A 2018-05-25 2018-05-25 Information processing equipment, information processing methods, and programs Active JP7091146B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018100943A JP7091146B2 (en) 2018-05-25 2018-05-25 Information processing equipment, information processing methods, and programs

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018100943A JP7091146B2 (en) 2018-05-25 2018-05-25 Information processing equipment, information processing methods, and programs

Publications (2)

Publication Number Publication Date
JP2019204445A JP2019204445A (en) 2019-11-28
JP7091146B2 true JP7091146B2 (en) 2022-06-27

Family

ID=68727097

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018100943A Active JP7091146B2 (en) 2018-05-25 2018-05-25 Information processing equipment, information processing methods, and programs

Country Status (1)

Country Link
JP (1) JP7091146B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021114184A (en) * 2020-01-20 2021-08-05 シャープ株式会社 Summary generation device, summary generation method and program
CN113672722B (en) * 2021-08-20 2023-08-22 中国平安财产保险股份有限公司 Online course intelligent recommendation method and device, electronic equipment and storage medium
JP7474296B2 (en) * 2022-09-01 2024-04-24 三菱電機インフォメーションシステムズ株式会社 Information processing system, information processing method, and program
JP7474295B2 (en) * 2022-09-01 2024-04-24 三菱電機インフォメーションシステムズ株式会社 Information processing system, information processing method, and program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001052032A (en) 1999-05-28 2001-02-23 Nippon Telegr & Teleph Corp <Ntt> Abstract sentence creating method and apparatus, and storage medium storing abstract sentence creating program
JP2010092357A (en) 2008-10-09 2010-04-22 Intec Systems Institute Inc Facility-related information retrieval method and facility-related information retrieval system
JP2018049478A (en) 2016-09-21 2018-03-29 日本電信電話株式会社 Text analysis method, text analysis apparatus, and program

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03135669A (en) * 1989-06-29 1991-06-10 Tokyo Electric Power Co Inc:The Automatic key word extracting system
JPH0844763A (en) * 1994-08-02 1996-02-16 Ricoh Co Ltd Keyword automatic extractor

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001052032A (en) 1999-05-28 2001-02-23 Nippon Telegr & Teleph Corp <Ntt> Abstract sentence creating method and apparatus, and storage medium storing abstract sentence creating program
JP2010092357A (en) 2008-10-09 2010-04-22 Intec Systems Institute Inc Facility-related information retrieval method and facility-related information retrieval system
JP2018049478A (en) 2016-09-21 2018-03-29 日本電信電話株式会社 Text analysis method, text analysis apparatus, and program

Also Published As

Publication number Publication date
JP2019204445A (en) 2019-11-28

Similar Documents

Publication Publication Date Title
JP7642335B2 (en) Information processing device, method, and program
JP5620349B2 (en) Dialogue device, dialogue method and dialogue program
US8612206B2 (en) Transliterating semitic languages including diacritics
JP7091146B2 (en) Information processing equipment, information processing methods, and programs
KR20210061141A (en) Method and apparatus for processimg natural languages
JP4861375B2 (en) Document processing apparatus, document processing program, and recording medium
JP5379138B2 (en) Creating an area dictionary
JP7272060B2 (en) Generation method, learning method, generation program, and generation device
JP5538185B2 (en) Text data summarization device, text data summarization method, and text data summarization program
JP6373243B2 (en) Information processing apparatus, information processing method, and information processing program
JP7381052B2 (en) Inquiry support device, inquiry support method, program and recording medium
Zupon et al. Text normalization for low-resource languages of Africa
KR102618219B1 (en) Method of fine-tuning parameters and pre-trained vocabulary of pre-trained language model and electronic device for fine-tuning parameters and pre-trained vocabulary of pre-trained language model
JP2015219582A (en) Interactive method, interaction device, interactive program, and recording medium
CN105531757A (en) Voice selection assistance device, voice selection method, and program
KR20070119076A (en) System for generating and selecting names
KR102345815B1 (en) Method and system for generating sentences containing target words
JP2016103156A (en) Text feature amount extraction device, text feature amount extraction method, and program
CN113360004A (en) Input method candidate word recommendation method and device
CN101371252B (en) Character processing device, method and program, and recording medium
JP6805927B2 (en) Index generator, data search program, index generator, data search device, index generation method, and data search method
JP5942981B2 (en) Summary creation device, summary creation method, and program
JP6996190B2 (en) Compound word generator, program and compound word generation method
JP2012203472A (en) Document processor and program
CN111125302A (en) User input sentence error detection method, device and electronic device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210324

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220427

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220607

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220615

R150 Certificate of patent or registration of utility model

Ref document number: 7091146

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150