JP7305077B2 - Information processing device, abstract output method, and abstract output program - Google Patents
Information processing device, abstract output method, and abstract output program Download PDFInfo
- Publication number
- JP7305077B2 JP7305077B2 JP2023501746A JP2023501746A JP7305077B2 JP 7305077 B2 JP7305077 B2 JP 7305077B2 JP 2023501746 A JP2023501746 A JP 2023501746A JP 2023501746 A JP2023501746 A JP 2023501746A JP 7305077 B2 JP7305077 B2 JP 7305077B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- sentences
- information
- unit
- important
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
本開示は、情報処理装置、要約文出力方法、及び要約文出力プログラムに関する。 The present disclosure relates to an information processing device, a summary output method, and a summary output program.
コールセンターでは、オペレータは、顧客とオペレータとの対話内容をまとめて、報告書を作成する。報告書を作成する作業は、アフターコールワークとも言う。オペレータがアフターコールワークを行うことは、オペレータの作業負担が大きい。そこで、対話内容を自動的に要約することが考えられる。ここで、要約を作成する技術が提案されている(特許文献1を参照)。特許文献1の要約装置は、入力されたデータから抽出された重要な文を結合した要約を作成する。なお、当該データは、音声認識結果を示すデータなどである。 At the call center, the operator summarizes the contents of the conversation between the customer and the operator and creates a report. The work of preparing reports is also called after-call work. The operator's work burden is heavy for the operator to perform after-call work. Therefore, it is conceivable to automatically summarize the dialogue contents. Here, a technique for creating a summary has been proposed (see Patent Literature 1). The summarizing device of Patent Literature 1 creates a summary by combining important sentences extracted from input data. Note that the data is, for example, data indicating a speech recognition result.
上記の技術では、音声認識結果を示すデータを用いて、要約文が作成される。そのため、例えば、音声認識に誤りがあった場合、要約文には、誤りが含まれる。また、例えば、要約文の内容は、話し言葉で表される。このように、上記の技術では、要約文は、データの文体に依存される。そのため、上記の技術に基づく要約文は、適切と言えない場合がある。 In the above technique, a summary sentence is created using data indicating the speech recognition result. Therefore, for example, if there is an error in speech recognition, the summary contains the error. Also, for example, the content of the abstract is expressed in spoken language. Thus, in the above technique, the summary sentence depends on the writing style of the data. Therefore, the abstract based on the above technology may not be appropriate.
本開示の目的は、適切な要約文を出力することである。 The purpose of the present disclosure is to output an appropriate summary sentence.
本開示の一態様に係る情報処理装置が提供される。情報処理装置は、対話内容を示すテキストデータと、過去の報告書に基づいて作成された複数の文を含む知識情報とを取得する取得部と、形態素解析を用いて、前記テキストデータを解析する解析部と、前記形態素解析の結果を用いて、前記テキストデータに含まれている複数の文の中から、1つの文を、第1の重要文として、抽出する重要文抽出部と、前記第1の重要文に基づいて、クエリを作成し、前記知識情報の中から、前記クエリにより得られる文を検索し、予め設定された方法で、検索された複数の文のそれぞれのスコアを算出する作成検索算出部と、前記第1の重要文と、検索された複数の文のそれぞれとに基づいて、前記第1の重要文と、検索された複数の文のそれぞれとが類似している度合である複数の類似度を算出し、前記複数の類似度に基づいて、検索された複数の文のそれぞれのスコアを更新する算出更新部と、複数の文のそれぞれのスコアに基づいて、検索された複数の文のうちの1つの文を、要約文として、選択する選択部と、前記要約文を出力する出力部と、を有する。 An information processing device according to one aspect of the present disclosure is provided. The information processing device analyzes the text data using an acquisition unit that acquires text data indicating the content of dialogue and knowledge information including a plurality of sentences created based on past reports, and morphological analysis. an analysis unit, an important sentence extracting unit for extracting one sentence as a first important sentence from among a plurality of sentences included in the text data using the result of the morphological analysis; A query is created based on one important sentence, sentences obtained by the query are searched from the knowledge information, and scores of each of the retrieved sentences are calculated by a preset method. A degree of similarity between the first important sentence and each of the plurality of retrieved sentences, based on the created search calculation unit, the first important sentence, and each of the plurality of retrieved sentences a calculation updating unit that calculates a plurality of similarities and updates the score of each of the retrieved sentences based on the plurality of similarities; and based on the score of each of the retrieved sentences, a selection unit for selecting one of the plurality of sentences as a summary sentence; and an output unit for outputting the summary sentence.
本開示によれば、適切な要約文を出力することができる。 According to the present disclosure, an appropriate summary can be output.
以下、図面を参照しながら実施の形態を説明する。以下の実施の形態は、例にすぎず、本開示の範囲内で種々の変更が可能である。 Embodiments will be described below with reference to the drawings. The following embodiments are merely examples, and various modifications are possible within the scope of the present disclosure.
実施の形態1.
図1は、実施の形態1の情報処理装置の機能を示すブロック図である。情報処理装置100は、要約文出力方法を実行する装置である。情報処理装置100は、対話要約生成装置と呼んでもよい。Embodiment 1.
FIG. 1 is a block diagram showing functions of an information processing apparatus according to a first embodiment. The
まず、情報処理装置100が有するハードウェアを説明する。
図2は、実施の形態1の情報処理装置が有するハードウェアを示す図である。情報処理装置100は、プロセッサ101、揮発性記憶装置102、不揮発性記憶装置103、及びインタフェース104を有する。First, hardware included in the
FIG. 2 illustrates hardware included in the information processing apparatus according to the first embodiment. The
プロセッサ101は、情報処理装置100全体を制御する。例えば、プロセッサ101は、CPU(Central Processing Unit)、FPGA(Field Programmable Gate Array)などである。プロセッサ101は、マルチプロセッサでもよい。また、情報処理装置100は、処理回路を有してもよい。処理回路は、単一回路又は複合回路でもよい。
The
揮発性記憶装置102は、情報処理装置100の主記憶装置である。例えば、揮発性記憶装置102は、RAM(Random Access Memory)である。不揮発性記憶装置103は、情報処理装置100の補助記憶装置である。例えば、不揮発性記憶装置103は、HDD(Hard Disk Drive)、又はSSD(Solid State Drive)である。
The
インタフェース104は、他の装置と通信する。また、インタフェース104は、顧客とオペレータとの音声を示す音声信号を受信してもよい。さらに、インタフェース104は、オペレータが入力したテキストデータを受信してもよい。
図1に戻って、情報処理装置100が有する機能を説明する。
情報処理装置100は、記憶部110、取得部120、解析部130、不要語削除部140、重要文抽出部150、作成検索算出部160、算出更新部170、選択部180、及び出力部190を有する。Returning to FIG. 1, functions of the
The
記憶部110は、揮発性記憶装置102又は不揮発性記憶装置103に確保した記憶領域として実現してもよい。
取得部120、解析部130、不要語削除部140、重要文抽出部150、作成検索算出部160、算出更新部170、選択部180、及び出力部190の一部又は全部は、処理回路によって実現してもよい。また、取得部120、解析部130、不要語削除部140、重要文抽出部150、作成検索算出部160、算出更新部170、選択部180、及び出力部190の一部又は全部は、プロセッサ101が実行するプログラムのモジュールとして実現してもよい。例えば、プロセッサ101が実行するプログラムは、要約文出力プログラムとも言う。例えば、要約文出力プログラムは、記録媒体に記録されている。The
Part or all of the
記憶部110は、不要語辞書111、文分割辞書112、単語重要度モデル113、及び知識データベース114を記憶してもよい。不要語辞書111、文分割辞書112、単語重要度モデル113、及び知識データベース114については、後で説明する。
The
取得部120は、テキストデータを取得する。例えば、取得部120は、テキストデータを外部装置(例えば、クラウドサーバ)から取得する。また、例えば、取得部120は、テキストデータを記憶部110から取得する。テキストデータは、対話内容を示すデータである。例えば、対話内容は、顧客とオペレータとの対話内容、チャットボットとユーザとの対話内容などである。なお、顧客とオペレータとの対話内容を示すテキストデータは、音声認識技術を用いることで、生成される。また、テキストデータには、対話内容を示す複数の文が含まれている。
取得部120は、知識データベース114を取得する。例えば、取得部120は、知識データベース114を記憶部110から取得する。また、例えば、取得部120は、知識データベース114を外部装置から取得する。
解析部130は、形態素解析を用いて、テキストデータを解析する。これにより、テキストデータに含まれる単語及び品詞が、抽出される。また、解析部130は、構文解析を用いて、テキストデータ内の文節及び文節間の関係を解析してもよい。
解析部130は、後述する不要語削除処理が実行された後のテキストデータを、解析してもよい。The
The
不要語削除部140は、予め設定された方法で、テキストデータの中から不要語を削除する。例えば、不要語削除部140は、不要語辞書111を用いて、不要語を削除する。ここで、不要語辞書111を例示する。
The unnecessary
図3は、実施の形態1の不要語辞書の例を示す図である。例えば、不要語辞書111は、記憶部110に格納されている。不要語辞書111には、“あー”、“えー”などのフィラー、及び“お待たせ致しました。”のような定型句が登録される。また、不要語辞書111には、単語と品詞との対応関係を示す情報が登録されてもよい。
FIG. 3 is a diagram showing an example of an unnecessary word dictionary according to the first embodiment. For example, the
また、不要語削除部140は、機械学習により得られた学習済モデルを用いて、テキストデータの中から不要語を削除してもよい。なお、テキストデータの中に不要語が含まれていない場合、不要語削除部140は、処理を実行しない。
The unnecessary
重要文抽出部150は、形態素解析の結果を用いて、テキストデータ(例えば、不要語が削除されたテキストデータ)に含まれている複数の文の中から、予め設定された数の文を、重要文として抽出する。なお、予め設定された数は、1つでもよいし、2つ以上でもよい。予め設定された数が1つである場合、抽出された重要文は、第1の重要文とも言う。以下の説明では、予め設定された数は、2つ以上とする。
The important
詳細に、重要文の抽出処理を説明する。まず、重要文抽出部150は、テキストデータに含まれている複数の文を分割する。複数の文を分割する方法としては、音声認識の区切れ目で分割する方法、テキストデータに含まれる句点又は読点で分割する方法、文分割辞書112を用いて分割する方法、学習済モデルを用いて分割する方法などが挙げられる。ここで、文分割辞書112を例示する。
The extraction processing of important sentences will be described in detail. First, the important
図4は、実施の形態1の文分割辞書の例を示す図である。例えば、文分割辞書112は、記憶部110に格納されている。重要文抽出部150は、文分割辞書112を用いて、複数の文を分割してもよい。
FIG. 4 is a diagram showing an example of a sentence segmentation dictionary according to the first embodiment. For example, the
重要文抽出部150は、複数の文のそれぞれに対して、重要度を算出する。まず、1つの文に対応する重要度の算出方法を説明する。例えば、重要文抽出部150は、形態素解析の結果により得られた、当該1つの文に含まれている複数の単語のそれぞれの重要度を、TF-IDF、Okapi BM25などを用いて、算出する。重要文抽出部150は、複数の単語のそれぞれの重要度を加算することで、当該1つの文に対応する重要度を算出する。また、重要文抽出部150は、形態素解析の結果により得られた、当該1つの文に含まれている複数の単語のそれぞれの重要度を、学習済モデルである単語重要度モデル113を用いて、算出してもよい。そして、重要文抽出部150は、複数の単語のそれぞれの重要度を加算することで、当該1つの文に対応する重要度を算出する。また、重要文抽出部150は、複数の単語のそれぞれの重要度の平均値を、当該1つの文に対応する重要度として、算出してもよい。
The important
このように、当該1つの文に対応する重要度が、算出される。同様に、重要文抽出部150は、複数の文のそれぞれに対して、重要度を算出する。これにより、複数の文に対応する複数の重要度が、算出される。
Thus, the importance corresponding to the one sentence is calculated. Similarly, the important
重要文抽出部150は、重要度が高い順に、複数の文を並べる。重要文抽出部150は、上位の予め設定された数の文を、重要文として抽出する。具体的に、重要文の抽出を例示する。
The important
図5は、実施の形態1の重要文の抽出の例を示す図である。図5は、テキストデータに含まれている複数の文(すなわち、複数の分割文)を示している。重要文抽出部150は、複数の文の中から、重要文を抽出する。
FIG. 5 is a diagram showing an example of extraction of important sentences according to the first embodiment. FIG. 5 shows multiple sentences (that is, multiple divided sentences) included in the text data. The important
上述したように、重要文抽出部150は、上位の予め設定された数の文を、重要文として抽出する。これにより、重要度の低い文が除かれる。後述するように、重要文に基づいて要約文が選択されるので、重要文のみが抽出されることは、適切な要約文が選択される。
As described above, the important
作成検索算出部160は、重要文に基づいて、クエリを作成する。クエリは、文単位、又は単語(すなわち、形態素)単位で作成されてもよい。クエリは、文又は単語のn-gram連鎖により作成されてもよい。ここで、クエリを例示する。
The creation
図6は、実施の形態1のクエリの例を示す図である。図6は、重要文に基づいて作成されたクエリを示している。図6は、2-gram連鎖を用いて作成されたクエリを示している。 FIG. 6 is a diagram showing an example of a query according to Embodiment 1. FIG. FIG. 6 shows a query created based on key sentences. FIG. 6 shows a query constructed using 2-gram chaining.
ここで、作成検索算出部160は、重要文の中の連続する単語を語彙化することにより、クエリを作成してもよい。例えば、作成検索算出部160は、重要文の中の否定語と、否定語の直前の動詞とを語彙化することにより、クエリを作成する。例えば、図6は、否定語と直前の動詞とが連結された“居る_ない”を示している。
Here, the creation
ここで、数詞と、数詞の後の単位とのそれぞれが、クエリに含まれる場合が考えられる。例えば、重要文が“エアコンを25℃に設定した”である場合、クエリは、“エアコン 25 ℃ 設定”である。しかし、当該クエリを用いて、検索が行われた場合、意味が異なる文が検索されることがある。例えば、“冷蔵庫を25日に購入”が、検索される。そこで、作成検索算出部160は、重要文の中の数詞と、当該数詞の後の単位とを語彙化することにより、クエリを作成してもよい。例えば、語彙化されたクエリは、“25_℃”である。これにより、上記のクエリは、“エアコン 25_℃ 設定”に変わる。このように、数詞と単位とを1つの語彙にすることで、意味が異なる文が検索されることが、防止される。
Here, it is conceivable that both the numeral and the unit after the numeral are included in the query. For example, if the key sentence is "set the air conditioner to 25 degrees Celsius", the query is "set the air conditioner to 25 degrees Celsius". However, when a search is performed using the query, sentences with different meanings may be retrieved. For example, "Purchase a refrigerator on the 25th" is retrieved. Therefore, the creation
作成検索算出部160は、知識データベース114の中から、クエリにより得られる文を検索する。言い換えれば、作成検索算出部160は、クエリを用いて、知識データベース114の中から、重要文の意味に近い文を検索する。ここで、知識データベース114を例示する。
The creation
図7は、実施の形態1の知識データベースの例を示す図である。知識データベース114は、知識情報とも言う。知識データベース114は、過去の報告書に基づいて作成された複数の文を含む。知識データベース114は、文、インデックス登録クエリ、ステップ、及びカテゴリの項目を有する。
FIG. 7 is a diagram showing an example of a knowledge database according to the first embodiment. The
文の項目には、過去の報告書に基づいて作成された文が登録される。また、文の項目には、文節、連続した複数の文節、連続した複数の文が登録されてもよい。インデックス登録クエリの項目には、クエリが登録される。ステップの項目には、業務の名称が登録される。カテゴリの項目には、文の項目に登録されている文の内容が示すカテゴリが登録される。このように、文の項目に登録されている複数の文のそれぞれには、カテゴリが対応付けられている。
また、知識データベース114は、グラフ形式の情報でもよい。In the sentence item, sentences created based on past reports are registered. In addition, clauses, a plurality of continuous clauses, and a plurality of continuous sentences may be registered in the sentence item. A query is registered in the index registration query field. The name of the work is registered in the step item. A category indicated by the content of the sentence registered in the sentence item is registered in the category item. In this way, a category is associated with each of a plurality of sentences registered in the sentence item.
Also, the
このように、作成検索算出部160は、クエリを用いて、知識データベース114の中から、重要文の意味に近い文を検索する。検索結果として、複数の文が検索される。
In this way, the creation
また、作成検索算出部160は、重要文と、テキストデータの中の当該重要文の前文と後文とのうちの少なくとも1つとに基づいて、クエリを作成してもよい。前文と後文とうちの少なくとも1つに含まれている単語が、クエリの中に含まれることで、作成検索算出部160は、重要文が短い場合でも、重要文と関係のある文を検索できる。
Moreover, the creation
作成検索算出部160は、重要文に含まれている単語の類義語をクエリに含めてもよい。重要文に含まれている単語が“点かない”である場合、作成検索算出部160は、“点かない”の類義語である“消える”をクエリに含める。なお、作成検索算出部160は、word2vecを用いて、重要文に含まれている単語の類義語を得ることができる。このように、作成検索算出部160は、類義語をクエリに含めることで、類義語が含まれている文を検索できる。
The creation
また、作成検索算出部160は、検索対象を、名詞、動詞、形容詞、形状詞などの品詞でフィルタリングしてもよい。作成検索算出部160は、重要文と知識データベース114とを用いて、文ベクトルの類似度を算出してもよい。
Moreover, the creation
作成検索算出部160は、予め設定された方法で、検索された複数の文のそれぞれのスコアを算出する。例えば、予め設定された方法は、次のような方法である。例えば、クエリは、“エアコン 25_℃ 設定”とする。検索された文は、“エアコンは25℃”と“エアコンが動かない”とする。作成検索算出部160は、“エアコンは25℃”のスコアを2と算出する。作成検索算出部160は、“エアコンが動かない”のスコアを、1と算出する。すなわち、作成検索算出部160は、検索された文とクエリに含まれる単語とのマッチ数をスコアとして、算出する。このように、スコアが、算出される。また、作成検索算出部160は、Elasticsearchのような検索エンジンで用いられている算出方法を用いて、スコアを算出してもよい。
The creation
作成検索算出部160は、複数の文のそれぞれのスコアを検索結果に含めてもよい。ここで、検索結果を例示する。
図8は、実施の形態1の検索結果の例を示す図である。図8が示すように、検索された文と、当該検索された文のスコアとが、検索結果として出力される。The
FIG. 8 is a diagram showing an example of search results according to the first embodiment. As shown in FIG. 8, the searched sentence and the score of the searched sentence are output as the search result.
算出更新部170は、重要文と、検索された複数の文のそれぞれとに基づいて、複数の類似度を算出する。まず、重要文と、検索された複数の文のうちの1つの文とに基づいて、類似度が算出される場合を説明する。なお、当該類似度は、当該重要文と、当該1つの文とが類似している度合である。よって、上記の複数の類似度とは、重要文と、検索された複数の文のそれぞれとが類似している度合である。
The
ここで、類似度を算出する方法として、Jaccard係数などを用いる方法が考えられる。しかし、音声対話が対象である場合、Jaccard係数などの方法を用いることは、望ましくない。理由は、差集合の要素数が大きいほど値が小さくなるというJaccard係数の特徴にある。音声対話において、発話が冗長になることが多いため、重要文に含まれる単語の集合から検索された文に含まれる単語の集合を引いた差集合の要素数が大きいことは、許容されるべきである。一方で、検索された文に含まれる単語の集合から重要文に含まれる単語の集合を引いた差集合の要素数が大きい場合は、発話していない余計な内容が検索された文に含まれる可能性があるためペナルティを与えたい。そこで、算出更新部170は、式(1)を用いて、類似度を算出する。Iは、重要文に含まれる単語の集合である。Kは、検索された文に含まれる単語の集合である。
Here, as a method of calculating the degree of similarity, a method using a Jaccard coefficient or the like is conceivable. However, it is undesirable to use methods such as the Jaccard coefficients when speech dialogue is of interest. The reason lies in the characteristic of the Jaccard coefficient that the larger the number of elements in the difference set, the smaller the value. In spoken dialogue, utterances often become redundant, so a large number of elements in the difference set obtained by subtracting the set of words contained in the retrieved sentence from the set of words contained in the key sentence should be allowed. is. On the other hand, if the set of words contained in the retrieved sentence minus the set of words contained in the key sentence has a large number of elements in the difference set, the retrieved sentence contains unnecessary content that is not uttered. I want to give a penalty because there is a possibility. Therefore, the
このように、算出更新部170は、検索された文に含まれる単語の集合から重要文に含まれる単語の集合を引いた差集合の要素数が大きい場合にペナルティを与えることにより、集合同士の類似度を算出する。これにより、冗長な発話を吸収しつつ、発話していない余計な内容を含まない文が検索できるようになる。
In this way, the
上記したように、算出更新部170は、重要文と、当該1つの文とに基づいて、類似度を算出する。同様に、算出更新部170は、複数の文のそれぞれに対応する類似度を算出する。これにより、複数の類似度が算出される。算出更新部170は、検索された複数の文のうち、上位N個の文のそれぞれを用いて、類似度を算出してもよい。
算出更新部170は、複数の類似度に基づいて、検索された複数の文のそれぞれのスコアを更新する。ここで、更新されたスコアを例示する。As described above, the
The
図9は、実施の形態1の更新されたスコアの例を示す図である。図9のスコアは、類似度を示している。 9 is a diagram showing an example of updated scores according to Embodiment 1. FIG. The score in FIG. 9 indicates the degree of similarity.
選択部180は、更新された、複数の文のそれぞれのスコアに基づいて、検索された複数の文のうちの1つの文を、要約文として、選択する。例えば、選択部180は、最も高いスコアに対応する文を、要約文として、選択する。以下の説明では、最も高いスコアに対応する文が、要約文として、特定されるものとする。
出力部190は、要約文を出力する。The
The
次に、情報処理装置100が実行する処理を、フローチャートを用いて、説明する。
図10は、実施の形態1の情報処理装置が実行する処理の例を示すフローチャートである。
(ステップS11)取得部120は、テキストデータを取得する。
(ステップS12)解析部130は、形態素解析を用いて、テキストデータを解析する。
(ステップS13)不要語削除部140は、テキストデータの中から不要語を削除する。Next, processing executed by the
10 is a flowchart illustrating an example of processing executed by the information processing apparatus according to the first embodiment; FIG.
(Step S11) The
(Step S12) The
(Step S13) The unnecessary
(ステップS14)重要文抽出部150は、テキストデータに含まれている複数の文を分割する。重要文抽出部150は、複数の文のそれぞれに対して、重要度を算出する。これにより、複数の文に対応する複数の重要度が算出される。重要文抽出部150は、複数の重要度に基づいて、上位の予め設定された数の文を、重要文として抽出する。これにより、複数の重要文が抽出される。
(Step S14) The
(ステップS15)作成検索算出部160は、未処理の重要文があるか否かを判定する。未処理の重要文がある場合、処理は、ステップS16に進む。全ての重要文が処理された場合、処理は、ステップS20に進む。
(ステップS16)作成検索算出部160は、未処理の重要文の中から、1つの重要文を選択する。なお、選択された重要文は、第1の重要文と呼んでもよい。(Step S15) The creation
(Step S16) The creation
(ステップS17)作成検索算出部160は、重要文に基づいて、クエリを作成し、知識データベース114の中から、クエリにより得られる文を検索する。これにより、複数の文が検索される。作成検索算出部160は、検索された複数の文のそれぞれのスコアを算出する。これにより、複数の文に対応する複数のスコアが、算出される。
(Step S17) The creation
(ステップS18)算出更新部170は、重要文と、上位N個のスコアに対応する複数の文のそれぞれとに基づいて、複数の類似度を算出する。算出更新部170は、複数の類似度に基づいて、上位N個のスコアに対応する複数の文のそれぞれのスコアを更新する。
(ステップS19)選択部180は、最も高いスコアに対応する文を、要約文として、選択する。そして、処理は、ステップS15に進む。
(ステップS20)出力部190は、特定された複数の要約文をまとめて、要約テキストとして、出力する。出力部190は、報告書形式に作成された要約テキストを出力してもよい。(Step S18) The
(Step S19) The
(Step S20) The
実施の形態1によれば、要約テキストに含まれる要約文は、音声認識結果に基づく文でない。当該要約文は、過去の報告書に基づく文である。そのため、当該要約文には、誤りが含まれていない可能性が高い。また、当該要約文の内容は、話し言葉で表されていない。よって、情報処理装置100は、適切な要約文を出力することができる。
According to Embodiment 1, the summary sentence included in the summary text is not a sentence based on the speech recognition result. The abstract is based on past reports. Therefore, there is a high possibility that the summary does not contain any error. Also, the content of the abstract is not expressed in spoken language. Therefore, the
ここで、作成装置を説明する。作成装置は、単語重要度モデル113と知識データベース114とを作成する。具体的に、作成装置を説明する。
図11は、実施の形態1の作成装置の機能を示すブロック図である。作成装置200は、記憶部210、単語重要度学習部220、及びデータベース作成部230を有する。Here, the production device will be described. The creating device creates a
FIG. 11 is a block diagram showing functions of the creation device according to the first embodiment. The
記憶部210は、作成装置200が有する揮発性記憶装置又は不揮発性記憶装置に確保した記憶領域として実現してもよい。
単語重要度学習部220及びデータベース作成部230の一部又は全部は、作成装置200が有する処理回路によって実現してもよい。また、単語重要度学習部220及びデータベース作成部230の一部又は全部は、作成装置200が有するプロセッサが実行するプログラムのモジュールとして実現してもよい。The
A part or all of the word importance
記憶部210は、対話データベース211を記憶する。ここで、対話データベース211を例示する。
図12は、実施の形態1の対話データベースの例を示す図である。対話データベース211は、記憶部210に格納されている。対話データベース211には、過去の対話履歴が登録されている。具体的には、対話データベース211は、対話ID(identifier)、音声認識結果、カテゴリ、及び受付日時の項目を有する。
12 is a diagram showing an example of a dialogue database according to Embodiment 1. FIG. A
対話IDの項目には、識別子が登録される。音声認識結果の項目には、対話内容が登録される。カテゴリの項目には、音声認識結果の項目に登録されている文の内容が示すカテゴリが登録される。受付日時の項目には、対話が行われた日時が登録される。 An identifier is registered in the dialogue ID item. Conversation content is registered in the speech recognition result item. The Category field registers a category indicated by the content of the sentence registered in the Speech Recognition Result field. The date and time when the dialogue was conducted is registered in the item of date and time of reception.
記憶部210は、報告書データベース212を記憶する。ここで、報告書データベース212を例示する。
図13は、実施の形態1の報告書データベースの例を示す図である。報告書データベース212は、記憶部210に格納されている。報告書データベース212は、過去の報告書に基づいて作成された情報である。報告書データベース212は、対話ID、受付履歴、対応履歴、カテゴリ、及び受付日時の項目を有する。
13 is a diagram illustrating an example of a report database according to Embodiment 1. FIG. A
対話IDの項目には、識別子が登録される。受付履歴の項目には、対話データベース211の音声認識結果の項目に登録されている情報の要約文が登録される。対応履歴の項目には、対応内容が登録される。カテゴリの項目には、受付履歴に登録されている内容が示すカテゴリが登録される。受付日時の項目には、対話が行われた日時が登録される。
An identifier is registered in the dialogue ID item. A summary of the information registered in the speech recognition result item of the
単語重要度学習部220は、対話データベース211を用いて機械学習を行うことにより、単語重要度モデル113を作成する。なお、単語重要度モデル113は、単語が入力された場合、当該単語の重要度を出力する。
The word
データベース作成部230は、報告書データベース212に基づいて、知識データベース114を作成する。例えば、データベース作成部230は、報告書データベース212の受付履歴及び対応履歴の項目に登録されている情報のうち、意味のある文、又は意味のある文節を抽出することで、知識データベース114を作成する。
The
データベース作成部230は、報告書データベース212に登録されている情報のうち、言語として不自然な文(以下、非文という)を削除してもよい。例えば、データベース作成部230は、n-gram尤度等を用いて、文の尤度を算出し、文の尤度に基づいて、非文を削除してもよい。ここで、非文が削除される例を示す。
The
図14は、実施の形態1の非文の削除の例を示す図である。図14が示すように、データベース作成部230は、報告書データベース212に登録されている情報の中から、非文を削除する。このように、知識データベース114は、過去の報告書の中から非文が削除されることにより作成される。そして、過去の報告書の中から非文が削除されることにより、非文が要約文として選択されることが防止できる。
14 is a diagram illustrating an example of non-sentence deletion according to Embodiment 1. FIG. As shown in FIG. 14 , the
次に、作成装置200が実行する処理を、フローチャートを用いて、説明する。
図15は、実施の形態1の作成装置が実行する処理の例を示すフローチャートである。
(ステップS21)単語重要度学習部220は、対話データベース211の音声認識結果を参照し、形態素解析を用いて、音声認識結果を解析する。
(ステップS22)単語重要度学習部220は、TF-IDFなどを用いて、解析により得られた単語の重要度を算出する。単語重要度学習部220は、単語と重要度との対応関係を示す情報を作成する。Next, processing executed by the
15 is a flowchart illustrating an example of processing executed by the creation device according to Embodiment 1. FIG.
(Step S21) The word
(Step S22) The word
(ステップS23)単語重要度学習部220は、全ての音声認識結果に対して処理を行ったか否かを判定する。全ての音声認識結果に対して処理を行った場合、処理は、ステップS24に進む。未処理の音声認識結果がある場合、処理は、ステップS21に進む。
(Step S23) The word importance
このように、ステップS21とステップS22とが繰り返されることで、単語に対応する重要度が変化する。言い換えれば、学習により、単語に対応する重要度が更新される。そして、ステップS21とステップS22とが繰り返されることで得られた、単語と重要度との対応関係を示す情報が、単語重要度モデル113になる。
By repeating steps S21 and S22 in this manner, the degree of importance corresponding to a word changes. In other words, learning updates the importance associated with a word. Then, the
(ステップS24)データベース作成部230は、報告書データベース212に基づいて、知識データベース114を作成する。
これにより、単語重要度モデル113と知識データベース114とが、作成される。(Step S<b>24 ) The
As a result, a
実施の形態2.
次に、実施の形態2を説明する。実施の形態2では、実施の形態1と相違する事項を主に説明する。そして、実施の形態2では、実施の形態1と共通する事項の説明を省略する。
図16は、実施の形態2の情報処理装置の機能を示すブロック図である。情報処理装置100は、さらに、カテゴリ推定部191を有する。Embodiment 2.
Next, Embodiment 2 will be described. In Embodiment 2, mainly matters different from Embodiment 1 will be described. In the second embodiment, descriptions of items common to the first embodiment are omitted.
FIG. 16 is a block diagram showing functions of the information processing apparatus according to the second embodiment.
記憶部110は、さらに、カテゴリ推定モデル115を記憶してもよい。カテゴリ推定モデル115は、単語が入力された場合、当該単語に基づいたカテゴリを出力する。言い換えれば、カテゴリ推定モデル115は、当該単語に基づいて、カテゴリを推定する。なお、例えば、カテゴリは、機種である。
取得部120は、カテゴリ推定モデル115を取得する。例えば、取得部120は、カテゴリ推定モデル115を記憶部110から取得する。また、例えば、取得部120は、カテゴリ推定モデル115を外部装置から取得する。
カテゴリ推定部191は、形態素解析により得られた単語と、カテゴリ推定モデル115とを用いて、対話内容のカテゴリを推定する。
The
ここで、カテゴリが推定されない場合の例を示す。
図17は、実施の形態2のカテゴリが推定されない場合の例を示す図である。テキストデータが示す対話内容のカテゴリは、冷蔵庫である。カテゴリが推定されない場合、単語“庫内灯”に基づいて、オーブンレンジに関する文が、多く検索される。そこで、作成検索算出部160は、推定されたカテゴリ“冷蔵庫”を用いて、“冷蔵庫”に関する文を検索する。これにより、対話内容のカテゴリに関する文のみが、検索される。情報処理装置100は、対話内容のカテゴリに関する文のみを検索することで、適切な要約文を選択することができる。Here is an example when the category is not inferred.
FIG. 17 is a diagram showing an example in which the category is not estimated according to the second embodiment. The category of dialogue content indicated by the text data is a refrigerator. If the category is not estimated, many sentences related to microwave ovens are retrieved based on the word "inside light". Therefore, the creation
図18は、実施の形態2の情報処理装置が実行する処理の例を示すフローチャートである。図18の処理は、ステップS13aが実行される点が図10の処理と異なる。また、図18の処理では、ステップS17がステップS17aに変更される。そこで、図18では、ステップS13a,17aを説明する。そして、ステップS13a,17a以外の処理の説明は、省略する。 18 is a flowchart illustrating an example of processing executed by the information processing apparatus according to the second embodiment; FIG. The process of FIG. 18 differs from the process of FIG. 10 in that step S13a is executed. Further, in the process of FIG. 18, step S17 is changed to step S17a. Therefore, steps S13a and S17a will be described with reference to FIG. Further, description of processes other than steps S13a and S17a is omitted.
(ステップS13a)カテゴリ推定部191は、形態素解析により得られた単語と、カテゴリ推定モデル115とを用いて、対話内容のカテゴリを推定する。
(ステップS17a)作成検索算出部160は、重要文に基づいて、クエリを作成する。作成検索算出部160は、推定されたカテゴリとクエリを用いて、知識データベース114に対して検索を行う。すなわち、作成検索算出部160は、推定されたカテゴリに情報を絞った状態で、クエリを用いて、知識データベース114に対して検索を行う。これにより、推定されたカテゴリと関係のある複数の文が検索される。作成検索算出部160は、検索された複数の文のそれぞれのスコアを算出する。これにより、複数の文に対応する複数のスコアが、算出される。(Step S<b>13 a ) The
(Step S17a) The creation
実施の形態2によれば、情報処理装置100は、対話内容のカテゴリに関する文のみを検索することで、適切な要約文を選択することができる。
According to Embodiment 2, the
ここで、カテゴリ推定モデル115は、作成装置200により、作成される。カテゴリ推定モデル115の作成について説明する。
図19は、実施の形態2の作成装置の機能を示すブロック図である。作成装置200は、さらに、カテゴリ推定学習部240を有する。カテゴリ推定学習部240は、カテゴリ推定モデル115を作成する。Here, the
FIG. 19 is a block diagram showing functions of the creation device according to the second embodiment.
図20は、実施の形態2の作成装置が実行する処理の例を示すフローチャートである。図20の処理は、ステップS24aが実行される点が図15の処理と異なる。そこで、図20では、ステップS24aを説明する。そして、ステップS24a以外の処理の説明は、省略する。 20 is a flowchart illustrating an example of processing executed by the creation device according to Embodiment 2. FIG. The process of FIG. 20 differs from the process of FIG. 15 in that step S24a is executed. Therefore, in FIG. 20, step S24a will be described. The description of the processes other than step S24a is omitted.
(ステップS24a)カテゴリ推定学習部240は、対話データベース211の音声認識結果に対して、形態素解析を行う。カテゴリ推定学習部240は、形態素解析により得られた単語と、対話データベース211のカテゴリとにおける自己相互情報量を算出し、自己相互情報量に基づいて、単語とカテゴリとの対応関係を示す情報を、カテゴリ推定モデル115として、作成する。
(Step S<b>24 a ) The category
また、カテゴリ推定学習部240は、報告書データベース212の受付履歴に対して、形態素解析を行ってもよい。カテゴリ推定学習部240は、形態素解析により得られた単語と、報告書データベース212のカテゴリとにおける自己相互情報量を算出し、自己相互情報量に基づいて、単語とカテゴリとの対応関係を示す情報を、カテゴリ推定モデル115として、作成する。
Also, the category
実施の形態3.
次に、実施の形態3を説明する。実施の形態3では、実施の形態1と相違する事項を主に説明する。そして、実施の形態3では、実施の形態1と共通する事項の説明を省略する。
図21は、実施の形態3の情報処理装置の機能を示すブロック図である。記憶部110は、補助情報116を記憶してもよい。補助情報116は、クエリの生成を補助する情報である。言い換えれば、補助情報116は、クエリを生成する際に用いられる情報である。例えば、補助情報116は、特許文献2に記載の3次元情報と同じような情報であると考えてもよい。ここで、補助情報116を具体的に示す。
Embodiment 3.
Next, Embodiment 3 will be described. In the third embodiment, mainly matters different from the first embodiment will be described. In the third embodiment, descriptions of matters common to the first embodiment are omitted.
FIG. 21 is a block diagram showing functions of the information processing apparatus according to the third embodiment. The
図22は、実施の形態3の補助情報の例を示す図である。補助情報116は、複数の述語である複数の単語のそれぞれと、複数の関係情報のそれぞれとの対応関係を示す情報である。関係情報とは、複数の単語のそれぞれの関係性を示す。
22 is a diagram illustrating an example of auxiliary information according to Embodiment 3. FIG. The
例えば、補助情報116は、述語ラベルとサブ単語文脈行列の項目を有する。述語ラベルの項目には、述語である単語が登録される。例えば、述語ラベルの項目には、述語である単語“落ちる”が登録される。サブ単語文脈行列の項目には、関係情報が登録される。ここで、関係情報は、2次元のテーブルで表されると考えてもよい。すなわち、関係情報は、2次元情報と考えてもよい。関係情報には、述語である単語が対応付けられる。述語である単語と関係情報との対応関係を示す情報は、3次元情報と考えてもよい。よって、補助情報116は、3次元情報と考えてもよい。
For example, the
上述したように、関係情報は、複数の単語のそれぞれの関係性を示す。当該複数の単語とは、動詞、名詞、形容詞などの単語である。図22の関係情報では、名詞の単語が例示されている。上述の通り、図22の関係情報には、名詞以外の品詞の単語が含まれてもよい。 As described above, the relationship information indicates relationships between multiple words. The plurality of words are words such as verbs, nouns, and adjectives. The relationship information in FIG. 22 exemplifies noun words. As described above, the relationship information in FIG. 22 may include words of parts of speech other than nouns.
次に、補助情報116を具体的に説明する。例えば、述語ラベル“落ちる”には、関係情報が対応付けられている。図22の関係情報では、“証明”と“照明”との関係性の度合が“159”であることが示されている。ここで、“159”などの数字は、複数の単語のそれぞれの関係性の度合を示す関係度と呼ぶ。このように、補助情報116には、関係度が含まれている。また、関係度は、自己相互情報量と考えてもよい。なお、関係度の上限は、100に限らない。関係度“159”は、予め設定された閾値よりも大きい。よって、図22の関係情報は、“証明”と“照明”との関係性が強いことを示している。
Next, the
取得部120は、補助情報116を取得する。例えば、取得部120は、補助情報116を記憶部110から取得する。また、例えば、取得部120は、補助情報116を外部装置から取得する。
作成検索算出部160は、重要文に対して形態素解析を実行することで得られた複数の品詞付単語の中から、述語になれる名詞の単語又は述語の単語を特定する。作成検索算出部160は、名詞の単語が述語に変換された単語又は特定された述語の単語と、複数の品詞付単語の中の単語(例えば、第1の単語とも言う。)と、補助情報116とに基づいて、当該単語(すなわち、第1の単語)と関係がある単語である関係単語を特定する。作成検索算出部160は、重要文と関係単語とに基づいてクエリを生成する。
The creation
例えば、重要文が“証明が落ちる”であるものとする。作成検索算出部160は、述語の単語“落ちる”を特定する。作成検索算出部160は、述語の単語“落ちる”と、単語“証明”と、補助情報116とに基づいて、単語“証明”と関係がある単語“照明”を特定する。作成検索算出部160は、重要文“証明が落ちる”と単語“照明”とに基づいてクエリを生成する。例えば、作成検索算出部160は、クエリ“証明 落ちる 照明”を作成する。このように、作成検索算出部160は、クエリ拡張によって、クエリを作成する。
For example, it is assumed that the key sentence is "proof fails". The creation
ここで、重要文“証明が落ちる”の“証明”は、“照明”の誤りである。例えば、重要文(すなわち、テキストデータ)が音声認識によって作成された場合、音声認識の誤りによって、重要文“証明が落ちる”が作成される。クエリが“証明が落ちる”に基づいて、作成された場合、“証明”に関係する文が、検索される。“証明”に関係する文に基づいて、選択された要約文は、正確性が低い。そこで、作成検索算出部160は、“照明”を含むクエリを作成する。これにより、“照明”に関係する文も、検索される。これにより、情報処理装置100は、“照明”に関係する文を要約文として、選択できる。
Here, the "proof" of the important sentence "proof fails" is the error of "illumination". For example, when an important sentence (that is, text data) is produced by speech recognition, an error in speech recognition produces the important sentence "Proof falls". If the query is formulated based on "proof falls", then sentences related to "proof" are retrieved. Based on the sentences related to "proof", the selected summary sentences are less accurate. Therefore, the creation
図23は、実施の形態3の情報処理装置が実行する処理の例を示すフローチャートである。図23の処理では、ステップS17がステップS17bに変更される。そこで、図23では、ステップS17bを説明する。そして、ステップS17b以外の処理の説明は、省略する。 23 is a flowchart illustrating an example of processing executed by the information processing apparatus according to the third embodiment; FIG. In the process of FIG. 23, step S17 is changed to step S17b. Therefore, FIG. 23 explains step S17b. A description of the processes other than step S17b is omitted.
(ステップS17b)作成検索算出部160は、クエリ拡張によって、クエリを作成する。作成検索算出部160は、知識データベース114の中から、クエリにより得られる文を検索する。これにより、複数の文が検索される。作成検索算出部160は、検索された複数の文のそれぞれのスコアを算出する。これにより、複数の文に対応する複数のスコアが、算出される。
(Step S17b) The creation
実施の形態3によれば、情報処理装置100は、正確性の高い要約文を選択できる。
ここで、補助情報116は、作成装置200により、作成される。補助情報116の作成について説明する。According to Embodiment 3, the
Here, the
図24は、実施の形態3の作成装置の機能を示すブロック図である。作成装置200は、さらに、補助情報作成部250を有する。
補助情報作成部250は、補助情報116を作成する。FIG. 24 is a block diagram showing functions of the creation device according to the third embodiment. The creating
Auxiliary
図25は、実施の形態3の作成装置が実行する処理の例を示すフローチャートである。図25の処理は、ステップS24bが実行される点が図15の処理と異なる。そこで、図25では、ステップS24bを説明する。そして、ステップS24b以外の処理の説明は、省略する。 25 is a flowchart illustrating an example of processing executed by the creation device according to Embodiment 3. FIG. The process of FIG. 25 differs from the process of FIG. 15 in that step S24b is executed. Therefore, FIG. 25 explains step S24b. A description of the processes other than step S24b is omitted.
(ステップS24b)例えば、補助情報作成部250は、対話データベース211に含まれている1つの述語と1つの名詞を抽出する。補助情報作成部250は、報告書データベース212に含まれている1つの名詞を抽出する。補助情報作成部250は、抽出された、対話データベース211の述語と名詞と、報告書データベース212の名詞とを用いて、自己相互情報量を算出する。補助情報作成部250は、自己相互情報量に基づいて、補助情報116を作成する。また、対話データベース211(詳細には、対話データベース211の述語と名詞)に誤りが含まれていても、報告書データベース212に基づいて作成された知識データベース114内の名詞が検索されることで、当該誤りが回復される。
(Step S<b>24 b ) For example, the auxiliary
実施の形態4.
次に、実施の形態4を説明する。実施の形態4では、実施の形態3と相違する事項を主に説明する。そして、実施の形態4では、実施の形態3と共通する事項の説明を省略する。
図26は、実施の形態4の情報処理装置の機能を示すブロック図である。情報処理装置100は、さらに、抽出更新部192を有する。
取得部120は、修正情報を取得する。修正情報は、ユーザに修正された要約文の情報である。Embodiment 4.
Next, Embodiment 4 will be described. In Embodiment 4, mainly matters different from Embodiment 3 will be described. Further, in the fourth embodiment, descriptions of matters common to the third embodiment are omitted.
FIG. 26 is a block diagram showing functions of the information processing apparatus according to the fourth embodiment. The
抽出更新部192は、出力部190が出力した要約テキスト内の要約文と、修正情報とを比較し、差分を抽出する。抽出更新部192は、重要文と要約文の差分とに基づいて、重要文の単語と要約文の差分に対応する単語との関係度を補助情報116から特定し、特定された関係度を、現状の当該関係度(すなわち、値)よりも低くする。抽出更新部192は、重要文と修正情報の差分とに基づいて、重要文の単語と修正情報の差分に対応する単語との関係度を補助情報116から特定し、特定された関係度を、現状の当該関係度(すなわち、値)よりも高くする。
The
例えば、重要文が“証明が落ちる”であるものとする。当該要約テキストが“賞名が落ちる”であるとする。修正情報が“照明が落ちる”であるとする。当該要約テキストと修正情報との差分は、“賞名”と“照明”である。抽出更新部192は、重要文と要約文の差分とに基づいて、重要文の単語“証明”と要約文の差分に対応する単語“賞名”との関係度を補助情報116から特定し、特定された関係度を低くする。抽出更新部192は、重要文と修正情報の差分とに基づいて、重要文の単語“証明”と修正情報の差分に対応する単語“照明”との関係度を補助情報116から特定し、特定された関係度を高くする。
これにより、より正確な単語が、クエリに含まれる。よって、情報処理装置100は、正確性の高い要約文を選択することができる。For example, it is assumed that the key sentence is "proof fails". Suppose that the summary text is "the prize name falls". Suppose that the correction information is "lights go off". The differences between the summary text and the correction information are "award name" and "lighting". Based on the difference between the important sentence and the abstract sentence, the extracting and updating
This allows more precise words to be included in the query. Therefore, the
図27は、実施の形態4の情報処理装置が実行する処理の例を示すフローチャートである。図27の処理では、ステップS20aが実行される点が図23の処理と異なる。そこで、図27では、ステップS20aを説明する。そして、ステップS20a以外の処理の説明は、省略する。 27 is a flowchart illustrating an example of processing executed by the information processing apparatus according to the fourth embodiment; FIG. The process of FIG. 27 differs from the process of FIG. 23 in that step S20a is executed. Therefore, step S20a will be described with reference to FIG. A description of the processes other than step S20a is omitted.
(ステップS20a)抽出更新部192は、出力部190が出力した要約テキスト内の要約文と、取得部120により取得された修正情報とを比較し、差分を抽出する。抽出更新部192は、差分に基づいて、補助情報116を更新する。
(Step S20a) The
実施の形態4によれば、情報処理装置100は、正確性の高い要約文を選択することができる。
According to Embodiment 4, the
以上に説明した各実施の形態における特徴は、互いに適宜組み合わせることができる。 The features of the embodiments described above can be combined as appropriate.
100 情報処理装置、 101 プロセッサ、 102 揮発性記憶装置、 103 不揮発性記憶装置、 104 インタフェース、 110 記憶部、 111 不要語辞書、 112 文分割辞書、 113 単語重要度モデル、 114 知識データベース、 115 カテゴリ推定モデル、 116 補助情報、 120 取得部、 130 解析部、 140 不要語削除部、 150 重要文抽出部、 160 作成検索算出部、 170 算出更新部、 180 選択部、 190 出力部、 191 カテゴリ推定部、 192 抽出更新部、 200 作成装置、 210 記憶部、 211 対話データベース、 212 報告書データベース、 220 単語重要度学習部、 230 データベース作成部、 240 カテゴリ推定学習部、 250 補助情報作成部。
100
Claims (15)
形態素解析を用いて、前記テキストデータを解析する解析部と、
前記形態素解析の結果を用いて、前記テキストデータに含まれている複数の文の中から、1つの文を、第1の重要文として、抽出する重要文抽出部と、
前記第1の重要文に基づいて、クエリを作成し、前記知識情報の中から、前記クエリにより得られる文を検索し、予め設定された方法で、検索された複数の文のそれぞれのスコアを算出する作成検索算出部と、
前記第1の重要文と、検索された複数の文のそれぞれとに基づいて、前記第1の重要文と、検索された複数の文のそれぞれとが類似している度合である複数の類似度を算出し、前記複数の類似度に基づいて、検索された複数の文のそれぞれのスコアを更新する算出更新部と、
複数の文のそれぞれのスコアに基づいて、検索された複数の文のうちの1つの文を、要約文として、選択する選択部と、
前記要約文を出力する出力部と、
を有する情報処理装置。an acquisition unit that acquires text data indicating the content of dialogue and knowledge information including a plurality of sentences created based on past reports;
an analysis unit that analyzes the text data using morphological analysis;
an important sentence extraction unit for extracting one sentence as a first important sentence from among a plurality of sentences included in the text data using the result of the morphological analysis;
creating a query based on the first important sentence, searching the knowledge information for sentences obtained by the query, and calculating scores of each of the retrieved sentences by a preset method; a creation search calculator that calculates;
A plurality of degrees of similarity, which are degrees of similarity between the first important sentence and each of the plurality of retrieved sentences, based on the first important sentence and each of the plurality of retrieved sentences. and updating the score of each of the plurality of retrieved sentences based on the plurality of similarities;
a selection unit that selects one sentence from the plurality of retrieved sentences as a summary sentence based on the score of each of the plurality of sentences;
an output unit that outputs the summary sentence;
Information processing device having
前記作成検索算出部は、前記複数の重要文のうちの前記第1の重要文に基づいて、前記クエリを作成する、
請求項1に記載の情報処理装置。The important sentence extraction unit extracts a plurality of sentences as a plurality of important sentences from a plurality of sentences included in the text data,
The creation search calculation unit creates the query based on the first important sentence among the plurality of important sentences.
The information processing device according to claim 1 .
請求項1又は2に記載の情報処理装置。further comprising an unnecessary word deletion unit that deletes unnecessary words from the text data by a preset method;
The information processing apparatus according to claim 1 or 2.
請求項1から3のいずれか1項に記載の情報処理装置。The creation search calculation unit creates the query by lexicalizing consecutive words in the first important sentence.
The information processing apparatus according to any one of claims 1 to 3.
請求項4に記載の情報処理装置。The creation search calculation unit creates the query by lexicalizing a negative word in the first important sentence and a verb immediately before the negative word.
The information processing apparatus according to claim 4.
請求項4又は5に記載の情報処理装置。The creation search calculation unit creates the query by lexicalizing numerals in the first important sentence and units after the numerals.
The information processing apparatus according to claim 4 or 5.
請求項1から6のいずれか1項に記載の情報処理装置。The creation search calculation unit creates the query based on the first key sentence and at least one of a preamble and a post sentence of the first key sentence in the text data.
The information processing apparatus according to any one of claims 1 to 6.
請求項1から7のいずれか1項に記載の情報処理装置。The creation search calculation unit includes synonyms of words included in the first important sentence in the query.
The information processing apparatus according to any one of claims 1 to 7.
請求項1から8のいずれか1項に記載の情報処理装置。When calculating one degree of similarity out of the plurality of degrees of similarity, the calculation updating unit selects a set of words included in one of the retrieved plurality of sentences to be included in the first important sentence. Calculate the similarity between sets by giving a penalty when the number of elements of the difference set is large, which is obtained by subtracting the set of words
The information processing apparatus according to any one of claims 1 to 8.
請求項1から9のいずれか1項に記載の情報処理装置。The knowledge information is information created by deleting non-sentences from the past report,
The information processing apparatus according to any one of claims 1 to 9.
前記知識情報に含まれる複数の文のそれぞれには、カテゴリが対応付けられており、
前記取得部は、単語に基づいて、カテゴリを推定するカテゴリ推定モデルを取得し、
前記カテゴリ推定部は、前記形態素解析により得られた単語と、前記カテゴリ推定モデルとを用いて、前記対話内容のカテゴリを推定し、
前記作成検索算出部は、推定されたカテゴリと前記クエリを用いて、前記知識情報に対して検索を行う、
請求項1から10のいずれか1項に記載の情報処理装置。further comprising a category estimator;
Each of the plurality of sentences included in the knowledge information is associated with a category,
The acquisition unit acquires a category estimation model for estimating categories based on words,
The category estimation unit estimates a category of the dialogue content using the words obtained by the morphological analysis and the category estimation model,
The creation search calculation unit performs a search on the knowledge information using the estimated category and the query.
The information processing apparatus according to any one of claims 1 to 10.
前記作成検索算出部は、前記第1の重要文に対して形態素解析を実行することで得られた複数の品詞付単語の中から、述語になれる名詞の単語又は述語の単語を特定し、名詞の単語が述語に変換された単語又は特定された述語の単語と、前記複数の品詞付単語の中の第1の単語と、前記補助情報とに基づいて、前記第1の単語と関係がある単語である関係単語を特定し、前記第1の重要文と前記関係単語とに基づいて前記クエリを作成する、
請求項1から11のいずれか1項に記載の情報処理装置。The acquisition unit acquires auxiliary information that is information indicating a correspondence relationship between each of a plurality of words that are a plurality of predicates and each of a plurality of relational information that indicates the relationship between each of the plurality of words,
The creation search calculation unit specifies a noun word that can be a predicate or a predicate word from among a plurality of words with parts of speech obtained by executing morphological analysis on the first important sentence, is related to the first word based on the word converted into the predicate or the specified predicate word, the first word among the plurality of words with parts of speech, and the auxiliary information Identifying related words that are words, and creating the query based on the first important sentence and the related words;
The information processing apparatus according to any one of claims 1 to 11.
前記補助情報は、前記関係性の度合を示す関係度を含み、
前記取得部は、前記要約文の修正情報を取得し、
前記抽出更新部は、前記要約文と、前記修正情報とを比較して差分を抽出し、前記第1の重要文と前記要約文の差分とに基づいて、前記第1の重要文の単語と前記要約文の差分に対応する単語との前記関係度を前記補助情報から特定し、特定された前記関係度を、現状の値よりも低くし、前記第1の重要文と前記修正情報の差分とに基づいて、前記第1の重要文の単語と前記修正情報の差分に対応する単語との前記関係度を前記補助情報から特定し、特定された前記関係度を、現状の値よりも高くする、
請求項12に記載の情報処理装置。further comprising an extraction update unit;
The auxiliary information includes a degree of relationship indicating the degree of relationship,
The acquisition unit acquires correction information of the abstract,
The extracting and updating unit compares the summary sentence and the correction information to extract a difference, and based on the difference between the first important sentence and the summary sentence, extracts the words of the first important sentence and the correction information. The degree of relationship between the word corresponding to the difference in the summary is specified from the auxiliary information, the specified degree of relationship is made lower than the current value, and the difference between the first important sentence and the correction information. and specifying the degree of relationship between the word of the first important sentence and the word corresponding to the difference in the correction information from the auxiliary information, and increasing the specified degree of relationship higher than the current value. do,
The information processing apparatus according to claim 12.
対話内容を示すテキストデータと、過去の報告書に基づいて作成された複数の文を含む知識情報とを取得し、
形態素解析を用いて、前記テキストデータを解析し、
前記形態素解析の結果を用いて、前記テキストデータに含まれている複数の文の中から、1つの文を、第1の重要文として、抽出し、
前記第1の重要文に基づいて、クエリを作成し、
前記知識情報の中から、前記クエリにより得られる文を検索し、
予め設定された方法で、検索された複数の文のそれぞれのスコアを算出し、
前記第1の重要文と、検索された複数の文のそれぞれとに基づいて、前記第1の重要文と、検索された複数の文のそれぞれとが類似している度合である複数の類似度を算出し、
前記複数の類似度に基づいて、検索された複数の文のそれぞれのスコアを更新し、
複数の文のそれぞれのスコアに基づいて、検索された複数の文のうちの1つの文を、要約文として、選択し、
前記要約文を出力する、
要約文出力方法。The information processing device
Acquiring text data indicating the content of the dialogue and knowledge information including multiple sentences created based on past reports,
Analyzing the text data using morphological analysis,
extracting one sentence as a first important sentence from among a plurality of sentences contained in the text data using the result of the morphological analysis;
create a query based on the first key sentence;
searching the knowledge information for a sentence obtained by the query;
Calculate scores for each of the retrieved sentences by a preset method,
A plurality of degrees of similarity, which are degrees of similarity between the first important sentence and each of the plurality of retrieved sentences, based on the first important sentence and each of the plurality of retrieved sentences. to calculate
updating a score for each of the plurality of retrieved sentences based on the plurality of similarities;
selecting one sentence from the plurality of retrieved sentences as a summary sentence based on the score of each of the plurality of sentences;
outputting said summary sentence;
Summary sentence output method.
対話内容を示すテキストデータと、過去の報告書に基づいて作成された複数の文を含む知識情報とを取得し、
形態素解析を用いて、前記テキストデータを解析し、
前記形態素解析の結果を用いて、前記テキストデータに含まれている複数の文の中から、1つの文を、第1の重要文として、抽出し、
前記第1の重要文に基づいて、クエリを作成し、
前記知識情報の中から、前記クエリにより得られる文を検索し、
予め設定された方法で、検索された複数の文のそれぞれのスコアを算出し、
前記第1の重要文と、検索された複数の文のそれぞれとに基づいて、前記第1の重要文と、検索された複数の文のそれぞれとが類似している度合である複数の類似度を算出し、
前記複数の類似度に基づいて、検索された複数の文のそれぞれのスコアを更新し、
複数の文のそれぞれのスコアに基づいて、検索された複数の文のうちの1つの文を、要約文として、選択し、
前記要約文を出力する、
処理を実行させる要約文出力プログラム。
information processing equipment,
Acquiring text data indicating the content of the dialogue and knowledge information including multiple sentences created based on past reports,
Analyzing the text data using morphological analysis,
extracting one sentence as a first important sentence from among a plurality of sentences contained in the text data using the result of the morphological analysis;
create a query based on the first key sentence;
searching the knowledge information for a sentence obtained by the query;
Calculate scores for each of the retrieved sentences by a preset method,
A plurality of degrees of similarity, which are degrees of similarity between the first important sentence and each of the plurality of retrieved sentences, based on the first important sentence and each of the plurality of retrieved sentences. to calculate
updating a score for each of the plurality of retrieved sentences based on the plurality of similarities;
selecting one sentence from the plurality of retrieved sentences as a summary sentence based on the score of each of the plurality of sentences;
outputting said summary sentence;
Summary statement output program to execute processing.
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2021/007002 WO2022180721A1 (en) | 2021-02-25 | 2021-02-25 | Information processing device, summary sentence output method, and summary sentence output program |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JPWO2022180721A1 JPWO2022180721A1 (en) | 2022-09-01 |
| JPWO2022180721A5 JPWO2022180721A5 (en) | 2023-03-15 |
| JP7305077B2 true JP7305077B2 (en) | 2023-07-07 |
Family
ID=83047888
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2023501746A Active JP7305077B2 (en) | 2021-02-25 | 2021-02-25 | Information processing device, abstract output method, and abstract output program |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP7305077B2 (en) |
| WO (1) | WO2022180721A1 (en) |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005084858A (en) | 2003-09-08 | 2005-03-31 | Chubu Electric Power Co Inc | NETWORK COMMUNICATION SYSTEM, NETWORK COMMUNICATION PROVIDING SERVER, PROGRAM FOR OPERATING THE SAME, AND RECORDING MEDIUM CONTAINING THE PROGRAM |
| JP2020035135A (en) | 2018-08-29 | 2020-03-05 | 株式会社日立製作所 | Question and answer system, question and answer processing method, and question and answer integrated system |
| JP2020071676A (en) | 2018-10-31 | 2020-05-07 | 株式会社eVOICE | Dialog abstract generating apparatus, dialog abstract generating method and program |
-
2021
- 2021-02-25 WO PCT/JP2021/007002 patent/WO2022180721A1/en not_active Ceased
- 2021-02-25 JP JP2023501746A patent/JP7305077B2/en active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005084858A (en) | 2003-09-08 | 2005-03-31 | Chubu Electric Power Co Inc | NETWORK COMMUNICATION SYSTEM, NETWORK COMMUNICATION PROVIDING SERVER, PROGRAM FOR OPERATING THE SAME, AND RECORDING MEDIUM CONTAINING THE PROGRAM |
| JP2020035135A (en) | 2018-08-29 | 2020-03-05 | 株式会社日立製作所 | Question and answer system, question and answer processing method, and question and answer integrated system |
| JP2020071676A (en) | 2018-10-31 | 2020-05-07 | 株式会社eVOICE | Dialog abstract generating apparatus, dialog abstract generating method and program |
Also Published As
| Publication number | Publication date |
|---|---|
| JPWO2022180721A1 (en) | 2022-09-01 |
| WO2022180721A1 (en) | 2022-09-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN108491462B (en) | Semantic query expansion method and device based on word2vec | |
| CN109101479B (en) | Clustering method and device for Chinese sentences | |
| JP3720068B2 (en) | Question posting method and apparatus | |
| US7983915B2 (en) | Audio content search engine | |
| US7272558B1 (en) | Speech recognition training method for audio and video file indexing on a search engine | |
| US6345253B1 (en) | Method and apparatus for retrieving audio information using primary and supplemental indexes | |
| CN112069298A (en) | Human-computer interaction method, device and medium based on semantic web and intention recognition | |
| US20040254795A1 (en) | Speech input search system | |
| US20080270344A1 (en) | Rich media content search engine | |
| US20080270110A1 (en) | Automatic speech recognition with textual content input | |
| US11573989B2 (en) | Corpus specific generative query completion assistant | |
| US10102199B2 (en) | Corpus specific natural language query completion assistant | |
| JP2002510076A (en) | Information retrieval and speech recognition based on language model | |
| Mendels et al. | Improving speech recognition and keyword search for low resource languages using web data | |
| CN111159381B (en) | Data searching method and device | |
| CN111625621B (en) | Document retrieval method and device, electronic equipment and storage medium | |
| US20120209590A1 (en) | Translated sentence quality estimation | |
| CN111125299B (en) | Dynamic word stock updating method based on user behavior analysis | |
| JP2011118689A (en) | Retrieval method and system | |
| CN111611356A (en) | Information searching method and device, electronic equipment and readable storage medium | |
| CN119066155A (en) | A large language model training method, device, equipment and storage medium | |
| CN109783806A (en) | A kind of text matching technique using semantic analytic structure | |
| JP2015138351A (en) | Information retrieval device, information retrieval method and information retrieval program | |
| CN119808778B (en) | Intelligent text segmentation method and system based on large language model | |
| JP5189413B2 (en) | Voice data retrieval system |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230117 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230117 |
|
| A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230117 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230307 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230403 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230530 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230627 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7305077 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |