Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP5111300B2 - Document summarization method, document summarization apparatus, document summarization program, and recording medium recording the program - Google Patents
[go: Go Back, main page]

JP5111300B2 - Document summarization method, document summarization apparatus, document summarization program, and recording medium recording the program - Google Patents

Document summarization method, document summarization apparatus, document summarization program, and recording medium recording the program Download PDF

Info

Publication number
JP5111300B2
JP5111300B2 JP2008217600A JP2008217600A JP5111300B2 JP 5111300 B2 JP5111300 B2 JP 5111300B2 JP 2008217600 A JP2008217600 A JP 2008217600A JP 2008217600 A JP2008217600 A JP 2008217600A JP 5111300 B2 JP5111300 B2 JP 5111300B2
Authority
JP
Japan
Prior art keywords
sentence
shortening
score
document
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008217600A
Other languages
Japanese (ja)
Other versions
JP2010055236A (en
Inventor
努 平尾
潤 鈴木
秀樹 磯崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008217600A priority Critical patent/JP5111300B2/en
Publication of JP2010055236A publication Critical patent/JP2010055236A/en
Application granted granted Critical
Publication of JP5111300B2 publication Critical patent/JP5111300B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、自然言語で記述されたテキストを対象とした要約を扱い、文書Dが入力として与えられ、指定された文字数の上限Uにおさまり、なおかつ、ある評価関数を最大とする要約Aを出力する問題を扱う、文書要約方法、文書要約装置、文書要約プログラムおよびそのプログラムを記録した記録媒体に関する。   The present invention deals with a summary for text described in a natural language, and a document D is given as an input, and a summary A that falls within the upper limit U of a specified number of characters and maximizes a certain evaluation function is output. The present invention relates to a document summarization method, a document summarization apparatus, a document summarization program, and a recording medium on which the program is recorded.

従来の要約技術は何らかの方法によって文書中の「文」にスコアを与え、それをランキングした後、文字数の上限Uに達するまで「文」を選択し、要約としている(非特許文献1参照)。   The conventional summarization technique gives a score to “sentences” in a document by some method, ranks them, selects “sentences” until the upper limit U of the number of characters is reached, and makes a summary (see Non-Patent Document 1).

ここで、図6に示す文書を入力として説明する。まず、文S5に対する文スコアの決定法について表1とともに説明する。 Here, the document shown in FIG. 6 will be described as input. First, the sentence score determination method for the sentence S 5 will be described with reference to Table 1.

Figure 0005111300
Figure 0005111300

文は形態素解析器により単語に分割され、品詞タグが付与される。次に、品詞タグに基づき、重み付けの対象とするか否か(文のスコアに寄与するか否か)が決定され、単語スコアを外部データベースより取得する。通常、重み付けの対象となるのは、名詞、動詞、形容詞である。単語スコアは、大規模テキストデータベースからtf・idf法などを用いることで得ることができる。こうして得た単語スコアの総和を最終的な文スコアとする。   The sentence is divided into words by a morphological analyzer and a part of speech tag is given. Next, based on the part-of-speech tag, whether or not to make a weighting target (whether or not to contribute to the sentence score) is determined, and a word score is acquired from an external database. Usually, nouns, verbs, and adjectives are subject to weighting. The word score can be obtained from a large-scale text database by using the tf / idf method or the like. The sum of the word scores thus obtained is used as the final sentence score.

上述した手法を用い、図6の文書中のすべての文S1〜S5に対し下記表2のようにスコアを付与する。 Using the method described above, scores are assigned to all sentences S 1 to S 5 in the document of FIG.

Figure 0005111300
Figure 0005111300

次に、文スコアの高い文から文字数制限Uを満たすまで文を選択し、それを要約とする(非特許文献2参照)。U=50の場合、文S1を選択した後、文S5を選択すると総文字数が57となるので、Uを超えてしまう。よって、要約は図7(a)に示すように文S1のみで構成されることとなる。
堀智織、古井貞熙、「単語抽出による音声要約文生成法とその評価」、電子情報通信学会論文誌、D−II VOl.J85−D−II No.2 pp.200−209 2002年2月 Zechner,K.“Fast Generation of Abstracts from General Domain Text Corpora by Extracting Relevant Sentences”,Proc.of the 16th International Conference on Computational Linguistics,pp.986−989(1996).
Next, sentences are selected from sentences having a high sentence score until the character number limit U is satisfied, and these are summarized (see Non-Patent Document 2). In the case of U = 50, if the sentence S 5 is selected after selecting the sentence S 1 , the total number of characters becomes 57, so U is exceeded. Therefore, the summary is composed only of the sentence S 1 as shown in FIG.
Tomoori Hori and Sadahiro Furui, “Speech summary sentence generation method by word extraction and its evaluation”, IEICE Transactions, D-II VOL. J85-D-II No. 2 pp. 200-209 February 2002 Zechner, K.M. “Fast Generation of Abstracts from General Domain Text Corporative Extracting Relevant Sentences”, Proc. of the 16th International Conference on Computational Linguistics, pp. 15-16 986-989 (1996).

従来の手法では、単なる文抽出によって要約を生成するため、与えられた文字数制限をうまく満たすように文を抽出できるとは限らない。先の例では、たった1文しか要約として選択できていない。このように文抽出のみによる要約では文字数制限に柔軟でないという問題がある。これは携帯端末のような限られたスペースに要約を表示したい場合には致命的な問題である。   In the conventional method, since a summary is generated by simple sentence extraction, it is not always possible to extract a sentence so as to satisfy a given character limit. In the previous example, only one sentence can be selected as a summary. As described above, there is a problem that the summarization based only on sentence extraction is not flexible in limiting the number of characters. This is a fatal problem when it is desired to display the summary in a limited space such as a portable terminal.

本発明は上記課題を解決するものであり、その目的は、文字数制限に柔軟に対応することができる文書要約方法、文書要約装置、文書要約プログラムおよびそのプログラムを記録した記録媒体を提供することにある。   An object of the present invention is to provide a document summarizing method, a document summarizing apparatus, a document summarizing program, and a recording medium on which the program is recorded, which can flexibly cope with the limitation on the number of characters. is there.

本発明では、前記課題を解決するため、文短縮と文抽出を併用することで、与えられた文字数制限に柔軟に対応できる文書要約手法を提供する。ただし、単純に一律の短縮率で文を短縮しては、文脈がそこなわれることもある。そこで、本発明では、文書中の各文に対して、原文そのものと、複数の短縮率による短縮文を用意し、そこから評価関数を最大化する文の組み合わせを選択することでこの問題を解決する。   In order to solve the above problems, the present invention provides a document summarization technique that can flexibly cope with a given character limit by using sentence shortening and sentence extraction together. However, simply shortening the sentence at a uniform reduction rate can break the context. Therefore, in the present invention, for each sentence in the document, the original sentence itself and a shortened sentence with a plurality of shortening rates are prepared, and a problem combination is selected by selecting a combination of sentences that maximizes the evaluation function. To do.

すなわち請求項1に記載の文書要約方法は、文短縮手段が、入力された文書中のそれぞれの文に対して、指定された複数の短縮率で短縮して原文および短縮文を出力する文短縮ステップと、文スコア決定手段が、前記文短縮ステップにより出力されたそれぞれの文に対する原文および短縮文のそれぞれに対して、要約文としての適正を示す尺度である文スコアを決定する文スコア決定ステップと、文選択手段が、指定された文字数制限のもと、前記文スコア決定ステップにより決定された文スコアの和が最大となる前記文書中のそれぞれの文に対する原文または短縮文の組合せを要約として選択する文選択ステップとを備えたことを特徴としている。 That is, in the document summarizing method according to claim 1, the sentence shortening means shortens each sentence in the input document at a plurality of designated shortening rates and outputs the original sentence and the shortened sentence. A sentence score determining step, wherein the sentence score determining means determines a sentence score that is a measure indicating suitability as a summary sentence for each of the original sentence and the abbreviated sentence for each sentence output by the sentence shortening step. And the sentence selection means, as a summary, combines the original sentence or the abbreviated sentence for each sentence in the document that has the maximum sum of the sentence scores determined by the sentence score determination step under the designated character limit. And a sentence selection step for selecting.

また請求項2に記載の文書要約方法は、請求項1において、前記文スコア決定ステップは、前記指定された短縮率、文の出現位置情報および指定されたパラメタにより求められた位置情報スコアと、文を構成する単語の重みを示す尺度である単語スコアとに基づいて前記文スコアを決定することを特徴としている。   The document summarization method according to claim 2 is the document summarization method according to claim 1, wherein the sentence score determination step includes a position information score obtained from the designated shortening rate, sentence appearance position information, and a designated parameter; The sentence score is determined based on a word score, which is a scale indicating the weight of words constituting the sentence.

また請求項3に記載の文書要約方法は、請求項1又は2において、前記文選択ステップは、前記文スコアの和が最大となる前記文書中のそれぞれの文に対する原文または短縮文の組合せを動的計画法によって求めることを特徴としている。 The document summarization method according to claim 3 is the document summarization method according to claim 1, wherein the sentence selection step moves a combination of an original sentence or a shortened sentence for each sentence in the document having a maximum sum of the sentence scores. It is characterized by being obtained by statistical programming.

また、請求項4に記載の文書要約装置は、入力された文書中のそれぞれの文に対して、指定された複数の短縮率で短縮して原文および短縮文を出力する文短縮手段と、前記文短縮手段により出力されたそれぞれの文に対する原文および短縮文のそれぞれに対して、要約文としての適正を示す尺度である文スコアを決定する文スコア決定手段と、指定された文字数制限のもと、前記文スコア決定手段により決定された文スコアの和が最大となる前記文書中のそれぞれの文に対する原文または短縮文の組合せを要約として選択する文選択手段とを備えたことを特徴としている。 Further, the document summarization apparatus according to claim 4, wherein each sentence in the input document is shortened at a plurality of designated shortening rates to output an original sentence and a shortened sentence; Sentence score determination means for determining a sentence score, which is a measure indicating the appropriateness as a summary sentence, for each of the original sentence and the shortened sentence for each sentence output by the sentence shortening means, and under a specified number of characters And sentence selecting means for selecting, as a summary, a combination of original sentences or shortened sentences for each sentence in the document having the maximum sum of sentence scores determined by the sentence score determining means.

また請求項5に記載の文書要約装置は、請求項4において、前記文スコア決定手段は、前記指定された短縮率、文の出現位置情報および指定されたパラメタにより求められた位置情報スコアと、文を構成する単語の重みを示す尺度である単語スコアとに基づいて前記文スコアを決定することを特徴としている。   The document summarizing apparatus according to claim 5 is the document summarizing apparatus according to claim 4, wherein the sentence score determining means includes a position information score obtained from the designated shortening rate, sentence appearance position information and designated parameters; The sentence score is determined based on a word score, which is a scale indicating the weight of words constituting the sentence.

また請求項6に記載の文書要約装置は、請求項4又は5において、前記文選択手段は、前記文スコアの和が最大となる前記文書中のそれぞれの文に対する原文または短縮文の組合せを動的計画法によって求めることを特徴としている。 The document summarizing apparatus according to claim 6 is the document summarizing apparatus according to claim 4, wherein the sentence selecting unit moves a combination of an original sentence or an abbreviated sentence for each sentence in the document having a maximum sum of the sentence scores. It is characterized by being obtained by statistical programming.

また、請求項7に記載の文書要約プログラムは、コンピュータを請求項4ないし6のいずれか1項に記載の各手段として機能させる文抽出および文短縮を組合せた文書要約プログラムである。   A document summarization program according to claim 7 is a document summarization program that combines sentence extraction and sentence shortening for causing a computer to function as each means according to any one of claims 4 to 6.

また、請求項8に記載の記録媒体は、請求項7に記載の文抽出および文短縮を組合せた文書要約プログラムを記録したコンピュータ読み取り可能な記録媒体である。   A recording medium according to an eighth aspect is a computer-readable recording medium on which a document summarizing program combining the sentence extraction and the sentence shortening according to the seventh aspect is recorded.

(1)請求項1〜8に記載の発明によれば、文書の要約において、文字数制限に柔軟に対応することができる。また、原文そのものと、複数の短縮率による短縮文とを用意し、それらに文スコアを付与し、該文スコアの和が最大となる前記文書中のそれぞれの文に対する原文または短縮文の組合せを要約として選択しているので、文脈が損なわれることがない。
(2)請求項2、5に記載の発明によれば、文の出現位置情報を加味した文スコアを決定することができる。
(3)請求項3、6に記載の発明によれば、文スコアの和が最大となる前記文書中のそれぞれの文に対する原文または短縮文の組合せを効率的に求めることができる。
(1) According to the first to eighth aspects of the present invention, it is possible to flexibly cope with the character number limitation in document summarization. In addition, the original sentence itself and a shortened sentence with a plurality of shortening rates are prepared, sentence scores are given to them, and a combination of the original sentence or the abbreviated sentence for each sentence in the document that maximizes the sum of the sentence scores. Because it is selected as a summary, the context is not compromised.
(2) According to the second and fifth aspects of the invention, it is possible to determine a sentence score in consideration of sentence appearance position information.
(3) According to the third and sixth aspects of the invention, it is possible to efficiently obtain a combination of an original sentence or a shortened sentence for each sentence in the document having the maximum sum of sentence scores.

以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。図1は本発明の文書要約装置の実施形態例を示すブロック図である。   Hereinafter, embodiments of the present invention will be described with reference to the drawings, but the present invention is not limited to the following embodiments. FIG. 1 is a block diagram showing an embodiment of a document summarizing apparatus according to the present invention.

図1において、1は文書要約装置であり、文短縮手段としての文短縮装置11と、文スコア決定手段としての文スコア決定装置12と、文選択手段としての文選択装置13とを備えている。   In FIG. 1, reference numeral 1 denotes a document summarizing apparatus, which includes a sentence shortening device 11 as a sentence shortening means, a sentence score determining device 12 as a sentence score determining means, and a sentence selecting device 13 as a sentence selecting means. .

2は、文書要約装置1の外部に設けられ、単語の重みを示す尺度としての単語スコアが格納された単語スコアデータベースである。この単語スコアデータベース2と文書要約装置1は、例えばネットワークによって接続されている。   A word score database 2 is provided outside the document summarizing apparatus 1 and stores a word score as a scale indicating the weight of the word. The word score database 2 and the document summarization apparatus 1 are connected by, for example, a network.

前記文短縮装置11、文スコア決定装置12および文選択装置13の、後述する各機能は例えばコンピュータにより達成される。文書要約装置1には、図示省略の入力装置から文書、文字数制限、文短縮率集合、パラメタが入力され、これによって制限文字数、文短縮率、パラメタが指定される。   Each function to be described later of the sentence shortening device 11, the sentence score determining device 12, and the sentence selecting device 13 is achieved by, for example, a computer. A document, a character limit, a sentence shortening rate set, and a parameter are input to the document summarizing apparatus 1 from an input device (not shown), thereby specifying a limit character number, a sentence shortening rate, and a parameter.

文短縮装置11は、文書中の各文を、入力された文短縮率に従い文を短縮し、原文と短縮文の集合を出力し(図示「文集合(原文と短縮文)」)、該文集合は文スコア決定装置12へ入力される。   The sentence shortening device 11 shortens each sentence in the document according to the inputted sentence shortening rate, and outputs a set of original sentences and abbreviated sentences (illustrated “sentence set (original sentence and abbreviated sentence)”). The set is input to the sentence score determination device 12.

文スコア決定装置12は、入力された原文と短縮文に対し、単語スコアデータベース2を参照して取得した単語スコア、文の出現位置情報、文短縮率および与えられたパラメタに基づき文のスコアを決定する(図示「スコアつき文集合」)。   The sentence score determination device 12 calculates a sentence score based on a word score obtained by referring to the word score database 2, sentence appearance position information, sentence shortening rate, and given parameters for the input original sentence and the abbreviated sentence. Determine (sent sentence set with score).

尚本発明における文のスコアとは、要約文としての適正を示す尺度である。   The sentence score in the present invention is a scale indicating the suitability as a summary sentence.

文選択装置13は、与えられた文字数制限を満たす文の組み合わせのなかで、前記文スコア決定装置12により決定された文スコアの和を最大とする組み合わせを要約として選択し、出力する。   The sentence selection device 13 selects and outputs, as a summary, a combination that maximizes the sum of the sentence scores determined by the sentence score determination device 12 among the combinations of sentences that satisfy the given character number limit.

次に上記各装置の詳細を説明する。
<文短縮装置11>
いま、N文からなる文書をD={S1,...,Si,...,SN}、文短縮率集合をR={r1,...,rj,...,rk}とする。文短縮装置11は、集合Dの要素である文Si(1≦i≦N)に対し、短縮率rj(1≦j≦k)で短縮する。なお、短縮率は単語数に基づき計算する。入力文が10単語、短縮率が0.7とすると、短縮文は7単語となる。
Next, details of each of the above devices will be described.
<Sentence shortening device 11>
Now, it is assumed that a document composed of N sentences is D = {S 1 ,. . . , S i,. . . , S N }, and the sentence shortening rate set R = {r 1 ,. . . , R j,. . . , R k }. The sentence shortening device 11 shortens the sentence S i (1 ≦ i ≦ N), which is an element of the set D, at a shortening rate r j (1 ≦ j ≦ k). The shortening rate is calculated based on the number of words. If the input sentence is 10 words and the shortening rate is 0.7, the shortened sentence is 7 words.

Figure 0005111300
Figure 0005111300

文短縮手法については、文短縮率を任意に設定できるものであればどのような手法でもよい。図2の例は、20単語からなる入力文S1に対し、短縮率R={1.0,0.9,0.8,0.7,0.6}で短縮した結果である。 Any sentence shortening technique may be used as long as the sentence shortening rate can be arbitrarily set. The example of FIG. 2 is the result of shortening the input sentence S 1 consisting of 20 words by the shortening rate R = {1.0, 0.9, 0.8, 0.7, 0.6}.

尚、文短縮装置11の前記処理は、例えば非特許文献1に記載の各処理方法を用いるものである。
<文スコア決定装置12>
文短縮率、文の出現位置および単語スコアデータベース2を参照して取得した単語スコアに基づき、図3のようにして文のスコアを決定する。図3において、文スコア決定装置12の入力側の文集合は、図6の文S1〜S5を短縮率r=1.0,0.9,0.8,0.7,0.6で各々短縮した文集合を表し、文スコア決定装置12の出力側は、前記文集合の各文に付与されたスコアを示している。
The processing of the sentence shortening device 11 uses each processing method described in Non-Patent Document 1, for example.
<Sentence score determination device 12>
Based on the sentence shortening rate, the appearance position of the sentence, and the word score obtained by referring to the word score database 2, the sentence score is determined as shown in FIG. In FIG. 3, the sentence set on the input side of the sentence score determining device 12 is the sentence S 1 to S 5 in FIG. 6 with the shortening rate r = 1.0, 0.9, 0.8, 0.7, 0.6. And the output side of the sentence score determination device 12 indicates the score given to each sentence of the sentence set.

まず短縮率rjにおけるi番目の文に対する位置情報スコアを混合正規分布を用いて以下の式(1)で計算する。 First, the position information score for the i-th sentence at the shortening rate r j is calculated by the following formula (1) using the mixed normal distribution.

Figure 0005111300
Figure 0005111300

式(1)のSiは、文書Dにおけるi番目の文をあらわし、k(Si,D)は、i番目の文の相対出現位置を返す関数であり、以下の式(2)で計算する。 S i in equation (1) represents the i-th sentence in document D, and k (S i , D) is a function that returns the relative appearance position of the i-th sentence, and is calculated by the following equation (2). To do.

Figure 0005111300
Figure 0005111300

式(2)のstart(Si)は文Siが文書の先頭から何文字目で始まるかをあらわし、length(D)は、文書Dの総文字数をあらわす。 Start (S i ) in equation (2) represents the number of characters that the sentence S i starts from the beginning of the document, and length (D) represents the total number of characters in the document D.

Figure 0005111300
Figure 0005111300

Figure 0005111300
Figure 0005111300

これら、パラメタは人間の先見知識を用いて与えても良いし、機械学習手法などを用いて、自動的に最適値を求めても良い。   These parameters may be given using human foresight knowledge, or optimum values may be automatically obtained using a machine learning method or the like.

たとえば、文書の先頭付近、末尾付近に出現する文の重要度を高く、短縮率の高い文の重要度を高くするように下記パラメタを設定すると、その位置情報スコアは、図4に示すグラフとなる。   For example, if the following parameters are set so that the importance of sentences appearing near the beginning and near the end of a document is high and the importance of sentences with a high shortening rate is high, the position information score is as shown in the graph of FIG. Become.

次に位置情報スコアgrj(k(Si,D),λrj)と、単語スコアw(t)の和との積として、文スコアを以下の式(3)で決定する。 Next, the sentence score is determined by the following equation (3) as the product of the position information score g rj (k (S i , D), λ rj ) and the sum of the word scores w (t).

Figure 0005111300
Figure 0005111300

Figure 0005111300
Figure 0005111300

<文選択装置13>
ここで、ある文字数制限を満たし、なおかつ、式(4)を最大とする文の組合せ、つまり要約Aを求めることが本発明の目的となる。
<Sentence selection device 13>
Here, it is an object of the present invention to obtain a sentence combination that satisfies a certain character limit and maximizes the expression (4), that is, a summary A.

Figure 0005111300
Figure 0005111300

そこで、本発明では、動的計画法を用いることで効率的に式(4)を最大とする要約Aを求める。図5にその計算手続きの一例を示す。   Therefore, in the present invention, the summary A that efficiently maximizes the expression (4) is obtained by using dynamic programming. FIG. 5 shows an example of the calculation procedure.

図5において、Nは文書中の文の数、Uは要約の上限となる文字数、Len(・)は、文の文字数を返す関数。Cost[i][c]は、文字数がc以下の時点での要約のスコアF(・)の最大値を表し、i番目の文までを選択した時点での要約のスコアを格納するテーブルとしている。   In FIG. 5, N is the number of sentences in the document, U is the number of characters that is the upper limit of summarization, and Len (•) is a function that returns the number of characters in the sentence. Cost [i] [c] represents the maximum value of the summary score F (•) when the number of characters is less than or equal to c, and is a table that stores the summary score when the i-th sentence is selected. .

図5において、まず、i番目の文までを選択した時点での要約のスコアを格納するテーブルCost[i][c]と、その時にどの短縮率を選択したかを記憶するテーブルG[i][c]を用意し、初期化する。図5の1〜7行目がそれに相当する。   In FIG. 5, first, a table Cost [i] [c] that stores a summary score at the time of selecting up to the i-th sentence, and a table G [i] that stores which shortening rate is selected at that time. [c] is prepared and initialized. The first to seventh lines in FIG.

次にi番目の文までを選択した場合のスコアを計算する。図5の8〜22行目がそれに相当する。ただし、文字数制限がUとして与えられているので、その文を選択できない場合もある。この時G[i][c]は0となる。すなわち10行目で、Cost[i−1][c]をtmpに格納し、11行目でG[i][c]を0とする。12行目のforループでは各短縮率について以下の処理を行う。   Next, a score is calculated when the i-th sentence is selected. The 8th to 22nd lines in FIG. However, since the character limit is given as U, the sentence may not be selected. At this time, G [i] [c] becomes zero. That is, Cost [i−1] [c] is stored in tmp in the 10th line, and G [i] [c] is set to 0 in the 11th line. In the for loop on the 12th line, the following processing is performed for each shortening rate.

Figure 0005111300
Figure 0005111300

以上により、効率的に要約Aを求めることができる。   As described above, the summary A can be efficiently obtained.

ここで、図6の入力文書に対し、本発明を適用して要約を作成した例を図7(b)に示す。図7(b)によれば、図7(a)の従来手法による要約と比較して、文字数制限に柔軟に対応できることがわかる。また図7(b)において、図6の入力文書の文S1〜S5の文脈は損なわれていない。 Here, FIG. 7B shows an example in which a summary is created by applying the present invention to the input document of FIG. According to FIG. 7B, it can be seen that the limitation on the number of characters can be flexibly handled as compared with the summary by the conventional method of FIG. In FIG. 7B, the context of the sentences S 1 to S 5 of the input document in FIG. 6 is not impaired.

また、文の短縮率、出現位置情報および混合正規分布のパラメタに基づいて前記式(1)の位置情報スコアを求めているので、文の出現位置情報を加味した文スコアを決定することができる。   Further, since the position information score of the formula (1) is obtained based on the sentence shortening rate, the appearance position information, and the parameters of the mixed normal distribution, the sentence score can be determined in consideration of the sentence appearance position information. .

また、図5に示す動的計画法を用いているので、文スコアの和(式(4))を最大とする要約Aを、効率的に求めることができる。   Further, since the dynamic programming shown in FIG. 5 is used, the summary A that maximizes the sum of the sentence scores (formula (4)) can be efficiently obtained.

尚、前記図1の文スコア決定装置12で決定されたスコアつき文集合は、図示省略のメモリに格納して取り扱うように構成しても良い。   The sentence-attached sentence set determined by the sentence score determination apparatus 12 of FIG. 1 may be configured to be stored in a memory (not shown) and handled.

また、本発明の文書要約方法の実施形態例としては、図1の文書要約装置1の前記各装置11〜13で述べた処理を実行するものである。   Further, as an embodiment of the document summarizing method of the present invention, the processing described in each of the devices 11 to 13 of the document summarizing device 1 in FIG. 1 is executed.

すなわち、文短縮装置11が、入力された文書中の文を、入力された複数の文短縮率で短縮して例えば図2のように原文および短縮文を出力する文短縮ステップと、文スコア決定装置12が、前記文短縮ステップにより出力された原文および短縮文に対して、例えば図3のように要約文としての適正を示す尺度である文スコアを決定する文スコア決定ステップと、文選択装置13が、入力された文字数制限のもと、前記文スコア決定ステップにより決定された文スコアの和が最大となる文の組合せを要約として選択する文選択ステップとを実行する。   That is, the sentence shortening device 11 shortens the sentence in the input document at a plurality of input sentence shortening rates and outputs the original sentence and the shortened sentence as shown in FIG. A sentence score determining step in which the apparatus 12 determines a sentence score, which is a measure indicating appropriateness as a summary sentence, for example, as shown in FIG. 3 for the original sentence and the shortened sentence output in the sentence shortening step; 13 executes a sentence selection step of selecting, as a summary, a combination of sentences that maximizes the sum of the sentence scores determined by the sentence score determination step under the input character limit.

また前記文スコア決定ステップは、前記入力された短縮率、文の出現位置情報および入力されたパラメタにより、例えば前記式(1)を計算して求められた位置情報スコアと、例えば図1の単語スコアデータベース2を参照して取得した、文を構成する単語の重みを示す尺度である単語スコアとに基づいて前記文スコアを決定するものである。   The sentence score determination step includes, for example, the position information score obtained by calculating the formula (1) based on the input shortening rate, sentence appearance position information, and input parameters, and the word of FIG. The sentence score is determined based on a word score, which is a scale indicating the weight of words constituting the sentence, acquired with reference to the score database 2.

また、前記文選択ステップは、前記文スコアの和が最大となる文の組合せを、例えば図5に示す動的計画法によって求めるものである。   In the sentence selection step, a combination of sentences that maximizes the sum of the sentence scores is obtained by, for example, dynamic programming shown in FIG.

また、本実施形態の文書要約装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の文書要約方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW,HDD,リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。   In addition, some or all of the functions of each means in the document summarizing apparatus of the present embodiment can be configured by a computer program, and the program can be executed using the computer to realize the present invention. Needless to say, the procedure in the document summarization method can be constituted by a computer program, and the program can be executed by the computer, and the computer-readable recording medium, for example, FD, can be realized by the computer. (Floppy (registered trademark) Disk), MO (Magneto-Optical disk), ROM (Read Only Memory), memory card, CD (Compact Disk) -ROM, DVD (Digital Versatile D) sk) -ROM, CD-R, CD-RW, HDD, and recorded in a removable disk, or stored, it is possible or distribute. It is also possible to provide the above program through a network such as the Internet or electronic mail.

本発明の文書要約装置の一実施形態例を示すブロック図。1 is a block diagram illustrating an embodiment of a document summarization apparatus according to the present invention. 本発明の文書要約装置の一実施形態例における文短縮装置の詳細を示す説明図。Explanatory drawing which shows the detail of the sentence shortening apparatus in one embodiment of the document summarization apparatus of this invention. 本発明の文書要約装置の一実施形態例における文スコア決定装置の詳細を示す説明図。Explanatory drawing which shows the detail of the sentence score determination apparatus in one embodiment of the document summarization apparatus of this invention. 本発明の文書要約装置の一実施形態例における位置情報スコアの一例を示すグラフ。The graph which shows an example of the position information score in one example of embodiment of the document summarization apparatus of this invention. 本発明の文書要約装置の一実施形態例において、文スコアの和が最大となる文の組合せを効率的に求める計算手続きの一例を示す説明図。Explanatory drawing which shows an example of the calculation procedure which calculates | requires efficiently the combination of the sentence in which the sum of sentence scores becomes the maximum in one Embodiment of the document summarization apparatus of this invention. 本発明の文書要約装置に入力される文書の一例を示す説明図。Explanatory drawing which shows an example of the document input into the document summarization apparatus of this invention. 文字数制限が50文字のときの要約を表し、(a)は従来の手法による要約の説明図、(b)は本発明による要約の説明図。The summary when a character limit is 50 characters is represented, (a) is explanatory drawing of the summary by a conventional method, (b) is explanatory drawing of the summary by this invention.

符号の説明Explanation of symbols

1…文書要約装置、2…単語スコアデータベース、11…文短縮装置、12…文スコア決定装置、13…文選択装置。   DESCRIPTION OF SYMBOLS 1 ... Document summary apparatus, 2 ... Word score database, 11 ... Sentence shortening apparatus, 12 ... Sentence score determination apparatus, 13 ... Sentence selection apparatus.

Claims (8)

文短縮手段が、入力された文書中のそれぞれの文に対して、指定された複数の短縮率で短縮して原文および短縮文を出力する文短縮ステップと、
文スコア決定手段が、前記文短縮ステップにより出力されたそれぞれの文に対する原文および短縮文のそれぞれに対して、要約文としての適正を示す尺度である文スコアを決定する文スコア決定ステップと、
文選択手段が、指定された文字数制限のもと、前記文スコア決定ステップにより決定された文スコアの和が最大となる前記文書中のそれぞれの文に対する原文または短縮文の組合せを要約として選択する文選択ステップとを備えたことを特徴とする文抽出および文短縮を組合せた文書要約方法。
A sentence shortening step in which the sentence shortening means shortens each sentence in the input document at a plurality of designated shortening rates and outputs the original sentence and the shortened sentence;
Sentence score determination means, for each of the original sentence and the shortened sentence for each sentence output by the sentence shortening step, a sentence score determining step for determining a sentence score which is a measure indicating appropriateness as a summary sentence;
The sentence selecting means selects, as a summary, a combination of the original sentence or the abbreviated sentence for each sentence in the document in which the sum of the sentence scores determined by the sentence score determining step is maximized under the designated number of characters limit. A document summarization method combining sentence extraction and sentence shortening, characterized by comprising a sentence selection step.
前記文スコア決定ステップは、前記指定された短縮率、文の出現位置情報および指定されたパラメタにより求められた位置情報スコアと、文を構成する単語の重みを示す尺度である単語スコアとに基づいて前記文スコアを決定することを特徴とする請求項1に記載の文抽出および文短縮を組合せた文書要約方法。   The sentence score determination step is based on a position information score obtained from the designated shortening rate, sentence appearance position information and a designated parameter, and a word score which is a scale indicating a weight of words constituting the sentence. The sentence summarization method combining sentence extraction and sentence shortening according to claim 1, wherein the sentence score is determined. 前記文選択ステップは、前記文スコアの和が最大となる前記文書中のそれぞれの文に対する原文または短縮文の組合せを動的計画法によって求めることを特徴とする請求項1又は2に記載の文抽出および文短縮を組合せた文書要約方法。 3. The sentence according to claim 1, wherein the sentence selection step obtains a combination of an original sentence or a shortened sentence for each sentence in the document having the maximum sum of the sentence scores by dynamic programming. A document summarization method that combines extraction and sentence shortening. 入力された文書中のそれぞれの文に対して、指定された複数の短縮率で短縮して原文および短縮文を出力する文短縮手段と、
前記文短縮手段により出力されたそれぞれの文に対する原文および短縮文のそれぞれに対して、要約文としての適正を示す尺度である文スコアを決定する文スコア決定手段と、
指定された文字数制限のもと、前記文スコア決定手段により決定された文スコアの和が最大となる前記文書中のそれぞれの文に対する原文または短縮文の組合せを要約として選択する文選択手段とを備えたことを特徴とする文抽出および文短縮を組合せた文書要約装置。
A sentence shortening means for outputting the original sentence and the shortened sentence for each sentence in the input document by shortening at a plurality of designated shortening rates;
Sentence score determining means for determining a sentence score which is a measure indicating appropriateness as a summary sentence for each of the original sentence and the shortened sentence for each sentence output by the sentence shortening means;
Sentence selecting means for selecting, as a summary, a combination of original sentences or abbreviated sentences for each sentence in the document having a maximum sum of sentence scores determined by the sentence score determining means under a designated number of character limit; A document summarization apparatus that combines sentence extraction and sentence shortening characterized by being provided.
前記文スコア決定手段は、前記指定された短縮率、文の出現位置情報および指定されたパラメタにより求められた位置情報スコアと、文を構成する単語の重みを示す尺度である単語スコアとに基づいて前記文スコアを決定することを特徴とする請求項4に記載の文抽出および文短縮を組合せた文書要約装置。   The sentence score determining means is based on a position information score obtained from the designated shortening rate, sentence appearance position information and a designated parameter, and a word score which is a scale indicating a weight of a word constituting the sentence. 5. The document summarization apparatus combining sentence extraction and sentence shortening according to claim 4, wherein the sentence score is determined. 前記文選択手段は、前記文スコアの和が最大となる前記文書中のそれぞれの文に対する原文または短縮文の組合せを動的計画法によって求めることを特徴とする請求項4又は5に記載の文抽出および文短縮を組合せた文書要約装置。 The sentence according to claim 4 or 5, wherein the sentence selection means obtains a combination of an original sentence or a shortened sentence for each sentence in the document having a maximum sum of the sentence scores by dynamic programming. Document summarization device combining extraction and sentence shortening. コンピュータを請求項4ないし6のいずれか1項に記載の各手段として機能させる文抽出および文短縮を組合せた文書要約プログラム。   A document summarization program combining sentence extraction and sentence shortening for causing a computer to function as each means according to any one of claims 4 to 6. 請求項7に記載の文抽出および文短縮を組合せた文書要約プログラムを記録したコンピュータ読み取り可能な記録媒体。   A computer-readable recording medium on which a document summarizing program combining sentence extraction and sentence shortening according to claim 7 is recorded.
JP2008217600A 2008-08-27 2008-08-27 Document summarization method, document summarization apparatus, document summarization program, and recording medium recording the program Expired - Fee Related JP5111300B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008217600A JP5111300B2 (en) 2008-08-27 2008-08-27 Document summarization method, document summarization apparatus, document summarization program, and recording medium recording the program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008217600A JP5111300B2 (en) 2008-08-27 2008-08-27 Document summarization method, document summarization apparatus, document summarization program, and recording medium recording the program

Publications (2)

Publication Number Publication Date
JP2010055236A JP2010055236A (en) 2010-03-11
JP5111300B2 true JP5111300B2 (en) 2013-01-09

Family

ID=42071107

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008217600A Expired - Fee Related JP5111300B2 (en) 2008-08-27 2008-08-27 Document summarization method, document summarization apparatus, document summarization program, and recording medium recording the program

Country Status (1)

Country Link
JP (1) JP5111300B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105068996A (en) * 2015-09-21 2015-11-18 哈尔滨工业大学 Chinese participle increment learning method

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8623994B2 (en) 2010-01-20 2014-01-07 Nippon Shokubai, Co., Ltd. Method for producing water absorbent resin
JP5523929B2 (en) * 2010-05-21 2014-06-18 日本電信電話株式会社 Text summarization apparatus, text summarization method, and text summarization program
JP5921457B2 (en) * 2013-02-05 2016-05-24 日本電信電話株式会社 Document summarization method, apparatus, and program
JP2017151863A (en) * 2016-02-26 2017-08-31 国立大学法人東京工業大学 Document summarization device
JP6549064B2 (en) * 2016-06-06 2019-07-24 日本電信電話株式会社 Speech recognition device, speech recognition method, program
JP2023183312A (en) * 2022-06-15 2023-12-27 株式会社日立製作所 Text generation device and text generation method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105068996A (en) * 2015-09-21 2015-11-18 哈尔滨工业大学 Chinese participle increment learning method
CN105068996B (en) * 2015-09-21 2017-11-17 哈尔滨工业大学 A kind of Chinese word segmentation Increment Learning Algorithm

Also Published As

Publication number Publication date
JP2010055236A (en) 2010-03-11

Similar Documents

Publication Publication Date Title
JP5111300B2 (en) Document summarization method, document summarization apparatus, document summarization program, and recording medium recording the program
CN104573099B (en) The searching method and device of topic
US20150371626A1 (en) Method and apparatus for speech synthesis based on large corpus
KR102296931B1 (en) Real-time keyword extraction method and device in text streaming environment
JP6524008B2 (en) INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, AND PROGRAM
JP4931958B2 (en) Text summarization method, apparatus and program
JP6373243B2 (en) Information processing apparatus, information processing method, and information processing program
CN111737961A (en) Method and device for generating story, computer equipment and medium
JP5466575B2 (en) Important word extraction device, method and program thereof
JP5976037B2 (en) Model learning device, ranking device, method, and program
KR20210071713A (en) Speech Skill Feedback System
CN104881403B (en) Segmenting method and device
JP2017010107A (en) Information processing device, information processing system and program
JP6486789B2 (en) Speech recognition apparatus, speech recognition method, and program
CN103594082A (en) Sound synthesis device, sound synthesis method and storage medium
KR102422844B1 (en) Method of managing language risk of video content based on artificial intelligence
JP5685014B2 (en) Discussion soundness calculation device
JP5538268B2 (en) Document summarization apparatus, document summarization method, and program
KR102519955B1 (en) Apparatus and method for extracting of topic keyword
KR102350359B1 (en) A method of video editing using speech recognition algorithm
JP2009122381A (en) Speech synthesis apparatus, speech synthesis method and program thereof
JP4940251B2 (en) Document processing program and document processing apparatus
KR101227716B1 (en) Audio synthesis device, audio synthesis method, and computer readable recording medium recording audio synthesis program
JP2008021139A (en) Semantic tagging model construction device, semantic tagging device, and computer program
KR20220080999A (en) Network server and method to communicate with user terminal based on plurality of multimedia contents

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100608

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100723

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120731

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121002

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121009

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151019

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees