JP7629844B2 - ANSWER CANDIDATE PROPOSAL SYSTEM AND ANSWER CANDIDATE PROPOSAL METHOD - Google Patents
ANSWER CANDIDATE PROPOSAL SYSTEM AND ANSWER CANDIDATE PROPOSAL METHOD Download PDFInfo
- Publication number
- JP7629844B2 JP7629844B2 JP2021206569A JP2021206569A JP7629844B2 JP 7629844 B2 JP7629844 B2 JP 7629844B2 JP 2021206569 A JP2021206569 A JP 2021206569A JP 2021206569 A JP2021206569 A JP 2021206569A JP 7629844 B2 JP7629844 B2 JP 7629844B2
- Authority
- JP
- Japan
- Prior art keywords
- question
- sentence
- answer
- answer candidate
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、新規質問文章に対する回答文章の候補となる回答候補文章を生成する回答候補提案システムおよび回答候補提案方法に関する。 The present invention relates to an answer candidate suggestion system and an answer candidate suggestion method that generate answer candidate sentences that are candidates for answers to new question sentences.
インターネットや公衆通信網を介して得られたユーザの新規質問文章に対する回答文章の候補となる回答候補文章を生成する技術がある。例えば、特許文献1には、質問文字列を複数の形態素(単語)に分解し、得られた複数の形態素に基づいて、蓄積された過去の回答文字列群から回答文字列を選択して出力する技術が開示されている。
There is a technology that generates candidate answer sentences that serve as answers to new questions from users obtained via the Internet or public communication networks. For example,
また、特許文献2には、質問文を形態素解析して複数の形態素に分解し、得られた複数の形態素から生成した検索クエリを用いて検索処理を行い、検索結果から回答候補の文の集合を抽出し、抽出した回答候補の文の集合に含まれる回答候補の文をランキングする技術が開示されている。
ところで、新規質問文章が、質問の意図と関係のない単語を多く含む場合には、質問文書を形態素解析して得られる複数の形態素は、質問の意図と関係のない単語を多く含む。この場合に、特許文献1に記載の技術では、質問文字列を形態素解析して得られる、質問の意図と関係のない単語を多く含む複数の形態素に基づいて、過去の回答文字列群から回答文字列を選択して出力する。このため、出力する回答文字列は、質問の意図と関係のない多くの単語に関連する回答文字列となる。従って、特許文献1に記載の技術では、出力する回答文字列は、ユーザの質問の意図に沿わない、不適切な回答文字列となるおそれがある。
However, when a new question text contains many words unrelated to the intent of the question, the multiple morphemes obtained by morphological analysis of the question text contain many words unrelated to the intent of the question. In this case, the technology described in
また、上記の場合に、特許文献2に記載の技術では、質問文を形態素解析して得られる、質問の意図と関係のない単語を多く含む複数の形態素から検索クエリ生成し、検索クエリを用いて検索処理を行う。検索結果は、検索クエリに含まれる、複数の形態素に多く含まれる質問の意図と関係のない単語の影響を受ける。このため、検索結果から抽出される回答候補の文は、内容が質問の意図と関係が弱いおそれがある。従って、特許文献2に記載の技術では、回答候補の文は不適切な回答候補の文となるおそれがある。
In the above case, the technology described in
そこで、本発明の目的は、新規質問文章に対して好適な回答候補文章を出力する回答候補提案システムおよび回答候補提案方法を提供することを目的とする。 The object of the present invention is to provide an answer candidate suggestion system and an answer candidate suggestion method that output suitable answer candidate sentences for new question sentences.
上記目的を達成するため、本発明の回答候補提案システムの一態様は、新規質問文章に対する回答文章の候補となる回答候補文章を生成する回答候補提案システムであって、プロセッサと、記憶装置とを備え、前記記憶装置は、過去の質問文章と、当該過去の質問文章に対する過去の回答文章を対応付けて保存する質問回答データベースを格納し、前記プロセッサは、前記新規質問文章が入力されると、前記質問回答データベースに保存された前記過去の質問文章および前記新規質問文章に基づいて項目候補単語群を生成し、さらに、生成された項目候補単語群からユーザが選択した項目単語群が入力されると、前記項目単語群と前記新規質問文章に基づいて、前記項目単語群を含む質問情報を生成し、前記質問回答データベースに保存された前記過去の質問文章それぞれに対して、前記質問情報との類似度を算出し、前記質問情報との類似度に基づいて前記質問回答データベースから前記質問情報に類似する過去の質問文章を抽出し、抽出した前記質問情報に類似する過去の質問文章に対応付けられた過去の回答文章を前記質問回答データベースから抽出して、第1の回答候補文章とする。 In order to achieve the above object, one aspect of the answer candidate suggestion system of the present invention is an answer candidate suggestion system that generates answer candidate sentences that are candidates for answer sentences to a new question sentence, the system comprising a processor and a storage device, the storage device stores a question and answer database that associates and stores past question sentences with past answer sentences to the past question sentences, the processor generates a group of item candidate words based on the past question sentences and the new question sentence stored in the question and answer database when the new question sentence is input, and when an item word group selected by the user from the generated item candidate word group is input, the processor generates question information including the item word group based on the item word group and the new question sentence, calculates a similarity between each of the past question sentences stored in the question and answer database and the question information, extracts past question sentences similar to the question information from the question and answer database based on the similarity with the question information, and extracts from the question and answer database past answer sentences associated with the extracted past question sentences similar to the question information to set them as first answer candidate sentences.
また、本発明の回答候補提案システムの回答候補提案方法の一態様は、新規質問文章に対する回答文章の候補となる回答候補文章を生成する回答候補提案システムにおける回答候補提案方法であって、回答候補提案システムの記憶装置は、過去の質問文章と、当該過去の質問文章に対する過去の回答文章を対応付けて保存する質問回答データベースを格納し、前記新規質問文章が入力されると、前記質問回答データベースに保存された前記過去の質問文章および前記新規質問文章に基づいて項目候補単語群を生成し、さらに、生成された項目候補単語群からユーザが選択した項目単語群が入力されると、前記項目単語群と前記新規質問文章に基づいて、前記項目単語群を含む質問情報を生成し、前記質問回答データベースに保存された前記過去の質問文章それぞれに対して、前記質問情報との類似度を算出し、前記質問情報との類似度に基づいて前記質問回答データベースから前記質問情報に類似する過去の質問文章を抽出し、抽出した前記質問情報に類似する過去の質問文章に対応付けられた過去の回答文章を前記質問回答データベースから抽出して、第1の回答候補文章とする。 An aspect of the answer candidate suggestion method of the answer candidate suggestion system of the present invention is an answer candidate suggestion method in an answer candidate suggestion system that generates answer candidate sentences that are candidates for answer sentences to a new question sentence, in which a storage device of the answer candidate suggestion system stores a question and answer database that associates and stores past question sentences with past answer sentences to the past question sentences, and when the new question sentence is input, a group of item candidate words is generated based on the past question sentence and the new question sentence stored in the question and answer database, and when an item word group selected by a user from the generated item candidate word group is input, question information including the item word group is generated based on the item word group and the new question sentence, and a similarity between each of the past question sentences stored in the question and answer database and the question information is calculated, and past question sentences similar to the question information are extracted from the question and answer database based on the similarity with the question information, and past answer sentences associated with the extracted past question sentences similar to the question information are extracted from the question and answer database to be used as first answer candidate sentences.
本発明によれば、新規質問文章に対して好適な回答候補文章を出力できる。 The present invention makes it possible to output suitable answer candidate sentences for new question sentences.
以下、図面を参照して本発明の実施の形態を説明する。実施例は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略および簡略化がなされている。本発明は、他の種々の形態でも実施することが可能である。特に限定しない限り、各構成要素は単数でも複数でも構わない。 The following describes embodiments of the present invention with reference to the drawings. The embodiments are illustrative for explaining the present invention, and some parts have been omitted or simplified as appropriate for clarity of explanation. The present invention can also be implemented in various other forms. Unless otherwise specified, each component may be singular or plural.
図面において示す各構成要素の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面に開示された位置、大きさ、形状、範囲などに限定されない。 The position, size, shape, range, etc. of each component shown in the drawings may not represent the actual position, size, shape, range, etc., in order to facilitate understanding of the invention. Therefore, the present invention is not necessarily limited to the position, size, shape, range, etc. disclosed in the drawings.
各種情報の例として、「テーブル」、「リスト」、「キュー」等の表現にて説明することがあるが、各種情報はこれら以外のデータ構造で表現されてもよい。例えば、「XXテーブル」、「XXリスト」、「XXキュー」等の各種情報は、「XX情報」としてもよい。識別情報について説明する際に、「識別情報」、「識別子」、「名」、「ID」、「番号」等の表現を用いるが、これらについてはお互いに置換が可能である。 As examples of various types of information, expressions such as "table," "list," and "queue" may be used, but the various types of information may be expressed in other data structures. For example, various types of information such as "XX table," "XX list," and "XX queue" may be expressed as "XX information." When explaining identification information, expressions such as "identification information," "identifier," "name," "ID," and "number" are used, but these are interchangeable.
同一あるいは同様の機能を有する構成要素が複数ある場合には、同一の符号に異なる添字を付して説明する場合がある。また、これらの複数の構成要素を区別する必要がない場合には、添字を省略して説明する場合がある。 When there are multiple components with the same or similar functions, they may be described using the same reference numerals with different subscripts. Also, when there is no need to distinguish between these multiple components, the subscripts may be omitted.
実施例において、プログラムを実行して行う処理について説明する場合がある。ここで、計算機は、プロセッサ(例えばCPU、GPU)によりプログラムを実行し、記憶資源(例えばメモリ)やインターフェースデバイス(例えば通信ポート)等を用いながら、プログラムで定められた処理を行う。そのため、プログラムを実行して行う処理の主体を、プロセッサとしてもよい。同様に、プログラムを実行して行う処理の主体が、プロセッサを有するコントローラ、装置、システム、計算機、ノードであってもよい。プログラムを実行して行う処理の主体は、演算部であれば良く、特定の処理を行う専用回路を含んでいてもよい。ここで、専用回路とは、例えばFPGA(Field Programmable Gate Array)やASIC(Application Specific Integrated Circuit)、CPLD(Complex Programmable Logic Device)等である。 In the embodiments, the processing performed by executing a program may be described. Here, the computer executes the program using a processor (e.g., CPU, GPU), and performs the processing defined by the program using storage resources (e.g., memory) and interface devices (e.g., communication ports). Therefore, the subject of the processing performed by executing the program may be the processor. Similarly, the subject of the processing performed by executing the program may be a controller, device, system, computer, or node having a processor. The subject of the processing performed by executing the program may be a calculation unit, and may include a dedicated circuit that performs specific processing. Here, the dedicated circuit is, for example, an FPGA (Field Programmable Gate Array), an ASIC (Application Specific Integrated Circuit), or a CPLD (Complex Programmable Logic Device).
プログラムは、プログラムソースから計算機にインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバまたは計算機が読み取り可能な記憶メディアであってもよい。プログラムソースがプログラム配布サーバの場合、プログラム配布サーバはプロセッサと配布対象のプログラムを記憶する記憶資源を含み、プログラム配布サーバのプロセッサが配布対象のプログラムを他の計算機に配布してもよい。また、実施例において、2以上のプログラムが1つのプログラムとして実現されてもよいし、1つのプログラムが2以上のプログラムとして実現されてもよい。 The program may be installed on the computer from a program source. The program source may be, for example, a program distribution server or a computer-readable storage medium. When the program source is a program distribution server, the program distribution server may include a processor and a storage resource that stores the program to be distributed, and the processor of the program distribution server may distribute the program to be distributed to other computers. In addition, in the embodiments, two or more programs may be realized as one program, and one program may be realized as two or more programs.
実施例の回答候補提案システム1は、新規質問文章および項目単語群が入力されると、新規質問文章および項目単語群に基づいて、新規質問文章に対する回答文章の候補となる回答候補文章(以下で説明する、第1の回答候補文章、第2の回答候補文章)を生成する。
項目単語群とは、項目候補単語群から選択された、新規質問文章に関する単語である。
項目候補単語群とは、質問回答データベース21(後述)に保存された過去の質問文章および新規質問文章に基づいて生成された、新規質問文章に関する複数の単語(項目候補単語)である。なお、「~単語群」との記載は、少なくとも1つの「~単語」を意味する。
In the embodiment, when a new question sentence and a group of item words are input, the answer
The item word group is words related to the new question sentence, selected from the item candidate word group.
The item candidate word group is a plurality of words (item candidate words) related to a new question sentence that are generated based on past question sentences and new question sentences stored in the question and answer database 21 (described later). Note that the expression "-- word group" means at least one "-- word."
<システム構成>
図1は、実施例における回答候補提案システム1の機能ブロック図の一例を示す図である。図1に示すように、回答候補提案システム1は、ユーザ端末2と、オペレータ端末3と、ウェブ検索エンジン4とに、ネットワークNWを介して接続されている。
<System Configuration>
1 is a diagram showing an example of a functional block diagram of an answer
ユーザ端末2は、問題文章を入力するユーザに操作される。ユーザ端末2は、ユーザから入力を受け付ける入力装置と、ディスプレイやタッチパネルなどの情報を表示する出力装置を備える。ユーザ端末2は、ネットワークNWを介して、回答候補提案システム1やオペレータ端末3と情報の送受信ができる。また、ユーザ端末2は、回答候補提案システム1やオペレータ端末3から受信した情報を表示できる。そして、ユーザ端末2は、ユーザから入力された情報を回答候補提案システム1やオペレータ端末3に送信できる。
The
オペレータ端末3は、オペレータに操作され、オペレータからの入力を受け付ける入力装置と、ディスプレイやタッチパネルなどの情報を表示する出力装置を備えている。オペレータ端末3は、ネットワークNWを介して、回答候補提案システム1やユーザ端末2と情報の送受信ができる。オペレータ端末3は、回答候補提案システム1を利用するヘルプデスクに設置されるほか、例えばヘルプデスクの委託業者等が保有してもよい。オペレータ端末3として、例えば、パーソナルコンピュータ等の電子機器が用いられる。
The
ウェブ検索エンジン4は、ネットワークNWを介して、少なくとも1つの単語を受信すると、受信した単語に関するWEBサイトの情報を含む検索結果を返す。検索結果に含まれるWEBサイトの情報には、WEBサイトの概要文やURLが含まれる。ここで、概要文とは、ウェブ検索エンジン等にて生成された、各WEBサイトの概要文章(例えば、100字程度)であり、スニペットと称される場合もある。
When the
ネットワークNWは、有線のネットワークでもよいし、無線のネットワークでもよい。また、ネットワークNWは、インターネットのようなグローバルネットワークであってもよいし、構内ネットワーク(LAN:Local Area Network)であってもよい。 The network NW may be a wired network or a wireless network. The network NW may also be a global network such as the Internet, or a local area network (LAN).
回答候補提案システム1は、項目候補単語群生成部11と、回答候補文章生成部12とを備えている。また、回答候補提案システム1は、質問回答データベース21と、疑問詞要望語リスト22と、個人情報単語リスト23と、補足単語リスト24と、項目候補単語テーブル25と、を格納している。
The answer
項目候補単語群生成部11は、詳細は図8のフローチャートを用いて後述するが、ユーザ端末2のユーザが入力した新規質問文章が回答候補提案システム1に入力された場合に、新規質問文章に関する項目候補単語群を生成する。さらに、項目候補単語群生成部11は、生成した項目候補単語群を後述するネットワークI/F36(送受信装置)に出力して、ネットワークI/F36に項目候補単語群をネットワークNW介してユーザ端末2に送信させる。
The item candidate word
回答候補文章生成部12は、詳細は図12のフローチャートを用いて後述するが、項目単語群および新規質問文章が回答候補提案システム1に入力された場合に、回答候補文章(第1の回答候補文章、第2の回答候補文章)を生成する。そして、回答候補文章生成部12は、生成した回答候補文章を、後述するネットワークI/F36(送受信装置)に出力して、ネットワークI/F36に、回答候補文章をネットワークNW介してオペレータ端末3に送信させる。
The answer candidate
質問回答データベース21は、詳細は図3を用いて後述するが、過去の質問文章と、過去の質問文章に対する過去の回答文章と、過去の質問文章のtfidfベクトルと、を対応付けて格納する。
The question and
疑問詞要望語リスト22は、詳細は図4を用いて後述するが、疑問があることを表す疑問詞および要望があることを表す要望語を保存するデータベースである。
The interrogative word/
個人情報単語リスト23は、詳細は図5を用いて後述するが、個人情報を表す複数の個人情報単語を保存するデータベースである。
The personal
補足単語リスト24は、詳細は図6を用いて後述するが、補足単語を保存するデータベースである。
The
項目候補単語テーブル25は、詳細は図7を用いて後述するが、過去の質問文章に含まれる単語(特に動詞)と、項目候補単語群とを対応付けて保存しているデータベースである。 The item candidate word table 25, details of which will be described later with reference to FIG. 7, is a database that stores words (particularly verbs) contained in past question sentences in association with item candidate word groups.
図2は、回答候補提案システム1のハードウェア構成例を示すブロック図である。図2に示すように、回答候補提案システム1は、プロセッサ31、主記憶装置32、副記憶装置33、入力装置34、出力装置35、ネットワークI/F36、これらを接続するバス37を有している。回答候補提案システム1は、例えばPCやサーバーコンピューターのような一般的な情報処理装置で実現できる。
Figure 2 is a block diagram showing an example of the hardware configuration of the answer
プロセッサ31は、副記憶装置33に記憶されたデータやプログラムを主記憶装置32に読み出して、プログラムによって定められた処理を実行する。
The
主記憶装置32は、RAMなどで、揮発性記憶素子を有し、プロセッサ31が実行するプログラムや、データを記憶する。
The
副記憶装置33は、HDD(Hard Disk Drive)やSSD(Solid State Drive)などで、不揮発性記憶素子を有し、プログラムやデータ等を記憶する装置である。副記憶装置33には、上述した、質問回答データベース21と、疑問詞要望語リスト22と、個人情報単語リスト23と、補足単語リスト24と、項目候補単語テーブル25と、を格納している。
The
また、副記憶装置33には、項目候補単語群生成プログラム11aと、回答候補文章生成プログラム12aと、がインストールされている。図1を用いて上述した、項目候補単語群生成部11と、回答候補文章生成部12とは、副記憶装置33に記憶されている項目候補単語群生成プログラム11aと、回答候補文章生成プログラム12aとを、プロセッサ31が主記憶装置32に読み出して実行することにより実現される。
In addition, the
入力装置34は、キーボードやマウスなどのユーザの操作を受け付ける装置であり、ユーザの操作により入力された情報を取得する。出力装置35は、ディスプレイなど情報を出力する装置であり、例えば画面への表示により情報をユーザに提示する。
The
ネットワークI/F36は、ユーザ端末2や、オペレータ端末3や、ウェブ検索エンジン4等の装置と、ネットワークNWを介してデータを送受信するためのインターフェースである。すなわち、ネットワークI/F36は、ネットワークNWを介して、ユーザ端末2、オペレータ端末3、ウェブ検索エンジン4に情報の送受信が可能な送受信装置である。回答候補提案システム1は、ネットワークI/F36を用いて、ネットワークNWに接続されているユーザ端末2や、オペレータ端末3や、ウェブ検索エンジン4等の装置とデータの送受信を行うことができる。
The network I/
ユーザ端末2およびオペレータ端末3は、回答候補提案システム1と同様のハードウェア資源を使用することで構成できる。
The
<各種データ構造>
図3は、質問回答データベース21の一例を示す図である。図3に示す質問回答データベース21では、質問回答ID301は、過去の質問文章302を識別するIDである。回答文章303、tfidfベクトル304(詳細は後述する)は、過去の質問文章302に対応付けられている。この様に、質問回答データベース21は、過去の質問文章302と、当該過去の質問文章302に対する過去の回答文章303を対応付けて保存する。tfidfベクトル304は、質問回答データベース21に、新たに過去の質問文章と過去の回答文章との組が保存される度に、質問回答データベース21に保存された全ての過去の質問文章に対して生成してもよい。また、例えば、過去の質問文章と過去の回答文章との組が所定の数、質問回答データベース21に保存される毎等、あらかじめ設定したタイミングでtfidfベクトル304を生成し直しても良い。
<Various data structures>
3 is a diagram showing an example of the question and
図4は、疑問詞要望語リスト22の一例を示す図である。図4に示す疑問詞要望語リスト22では、疑問詞要望語ID401は、疑問詞要望語402を識別するIDである。疑問詞要望語402は、疑問があることを表す疑問詞または要望があることを表す要望語である。図4には、疑問詞要望語402の例として、「しょうか」と「下さい」を示した。他の疑問詞要望語402の例として、「すか」、「のか」、「んか」、「なの」、「だれ」、「なに」、「何」、「どこ」、「いつ」、「いくつ」、「いくら」、「どう」、「なぜ」、「いか」、「どの」、「だれ」、「誰」、「どなた」、「何」、「どれ」、「どんな」、「いかなる」、「ほしい」、「欲しい」、「ください」、「たい」、「求」、「頼」、「?」が挙げられる。
Fig. 4 is a diagram showing an example of the interrogative
図5は、個人情報単語リスト23の一例を示す図である。図5に示す個人情報単語リスト23では、個人情報単語ID501は、個人情報単語502を識別するIDである。個人情報単語502は、個人情報を表す複数の個人情報単語である。図5には、個人情報単語502の例として、郵便番号として「***-****」と、電話番号として「***-****-****」を示した。個人情報単語502の他の例として、郵便番号として「*******」、電話番号として「***********」、「カード番号」、「生年月日」、「メールアドレス」、「人名」、「住所」が挙げられる。なお、以上で「*」は、一文字の数字を表す。
Figure 5 is a diagram showing an example of personal
図6は、補足単語リスト24の一例を示す図である。図6に示す補足単語リスト24では、補足単語ID601は、補足単語602を識別するIDである。補足単語602とは、新規質問文章に含まれる質問の意図に関して重要な意味をもつ場合が多いと考えられる単語である。なおかつ、補足単語602は、tf-idf法の後述する「(A)文章に含まれる単語の重要度を算出し、文章に含まれる重要単語を抽出する重要単語抽出方法」で、重要度が低く算出され、重要単語として抽出されない場合が多いと考えられる単語(形態素)である。図6には、補足単語602の例として、「ない」を示した。
Figure 6 is a diagram showing an example of the
図7は、項目候補単語テーブル25の一例を示す図である。図7に示す項目候補単語テーブル25では、項目候補単語ID701は、単語702を識別するIDである。項目候補単語群703は、単語702に対応付けられている。項目候補単語テーブル25は、例えば、次の様に、質問回答データベース21に保存された過去の質問文章に基づいて生成される。まず、質問回答データベース21に保存されている、過去の質問文章それぞれに対して、疑問詞要望語リスト22に保存されている疑問詞および要望語を少なくとも1つ含む疑問要望文を抽出する。次に、抽出した疑問要望文それぞれを形態素解析し、疑問要望文に含まれる動詞を項目候補単語テーブル25の単語702とし、疑問要望文に含まれる少なくとも1つの名詞を項目候補単語群703として、項目候補単語テーブル25に保存する。この様に、項目候補単語テーブル25の項目候補単語群703は、質問回答データベース21に保存された過去の質問文章に基づいて生成されている。
7 is a diagram showing an example of the item candidate word table 25. In the item candidate word table 25 shown in FIG. 7, the item
<tf-idf法>
回答候補提案システム1は、新規質問文章に基づいて、項目候補単語群や、第1の回答候補文章や、第2の回答候補文章を生成する過程で、tf-idf法(単語頻度逆文書頻度法)の重要度と、コサイン類似度を算出する。重要度は、文章に含まれる単語の重要度である。一方、コサイン類似度は、文章と文章の類似度である。以下では、tf-idf法において、(A)文章に含まれる単語の重要度を算出し、文章に含まれる重要単語を抽出する重要単語抽出方法と、(B)文章と文章のコサイン類似度を算出し、対象とする文章に類似する類似文章を抽出する類似文書抽出方法と、の概要を以下に説明する。(A)における重要度の算出、(B)におけるコサイン類似度の算出では、複数の文章が格納されたデータベース(本実施例では質問回答データベース21)を使用する。
<tf-idf method>
The answer
(A)文章に含まれる単語の重要度を算出し、文章に含まれる重要単語を抽出する重要単語抽出方法では、重要度を対象とする文章中の全ての単語に対して算出する。 (A) In a method for extracting important words that calculates the importance of words contained in a sentence and extracts important words contained in the sentence, the importance is calculated for all words in the target sentence.
単語の重要度(tfidf値とする)は、tfとidfの積である。まず、文章を形態素解析し、文章を形態素(単語)に分解する。そして、tfを算出する。文章中の全単語数をN、重要度算出対象の単語の文章中の出現回数をnとすると、tfは、例えばtf=n/Nで表される。tfは文章での単語の出現回数の多さを表す。またtfでは、文章中の出現回数nの多い単語程、重要とみなす。 The importance of a word (referred to as the tfidf value) is the product of tf and idf. First, the sentence is subjected to morphological analysis to break the sentence down into morphemes (words). Then, tf is calculated. If the total number of words in the sentence is N, and the number of times the word for which importance is to be calculated appears in the sentence is n, then tf can be expressed, for example, as tf = n/N. tf represents the number of times a word appears in a sentence. In addition, with tf, the more times a word appears in a sentence, n, the more important it is considered to be.
次に、idfを算出する。データベースに格納された文章の数をDとし、重要度算出対象の単語を含む文章の数をdとする。idfは、例えば、idf=-log(d/D)で表される。これを、idf=log(D/d)と表すこともできる。重要度算出対象の単語を含む文章の数dが小さい程、idf=log(D/d)は大きくなる。idfは、データベースに格納されている全文章中で、重要度算出対象の単語を含む文章の数dの少なさを表す。idfでは、対象の単語を含む文章の数dが小さい単語程、重要とみなす。 Next, idf is calculated. Let D be the number of sentences stored in the database, and d be the number of sentences containing the word for which importance is to be calculated. idf is expressed, for example, as idf = -log(d/D). This can also be expressed as idf = log(D/d). The smaller the number d of sentences containing the word for which importance is to be calculated, the larger idf = log(D/d). idf indicates how few the number d of sentences containing the word for which importance is to be calculated is among all the sentences stored in the database. With idf, the smaller the number d of sentences containing the target word, the more important the word is considered to be.
単語の重要度は、tfidf値=tf・idf=n/N・(-log(d/D))である。そして、文章中の全ての単語に対してtfidf値(重要度)を算出する。そして、tfidf値の高い単語のうち、上位から所定の割合(または所定の数)の単語を、重要単語とする。 The importance of a word is tfidf value = tf * idf = n/N * (-log(d/D)). Then, the tfidf value (importance) is calculated for all words in the sentence. Then, among the words with high tfidf values, a certain percentage (or a certain number) of the top words are determined to be important words.
(B)文章と文章のコサイン類似度を算出し、対象とする文章に類似する類似文章を抽出する類似文書抽出方法では、以下で説明するように、データベースに格納されている文章それぞれと、対象とする文章とに、tfidfベクトルを算出し、コサイン類似度を算出する。 (B) In a similar document extraction method that calculates the cosine similarity between sentences and extracts sentences that are similar to a target sentence, as described below, a tfidf vector is calculated between each sentence stored in a database and the target sentence, and the cosine similarity is calculated.
まず、データベースに格納されている全文章と、対象とする文章と、を形態素解析し、文章を単語(形態素)に分解する。次に、分解して得られた複数の単語から、単語の重複する分を削除し、単語それぞれを成分とする単語ベクトルを生成する。次に、データベースに格納されている文章それぞれと、対象とする文章に対して、tfidfベクトルを算出する。tfidfベクトルは、単語ベクトルの成分の単語に対するtfidf値を成分とするベクトルである。 First, all sentences stored in the database and the target sentence are subjected to morphological analysis to break the sentences down into words (morphemes). Next, duplicate words are removed from the multiple words obtained from the breakdown, and a word vector with each word as a component is generated. Next, tfidf vectors are calculated for each sentence stored in the database and the target sentence. A tfidf vector is a vector whose components are the tfidf values for the words that are components of the word vector.
単語ベクトルと、tfidfベクトルとの例を挙げると、「スマートフォンは軽い。」という文を、形態素解析して生成される単語ベクトルは、例えば、(スマートフォン,は,軽い,。)となる。これに対するtfidfベクトルは、例えば、(「スマートフォン」のtfidf値,「は」のtfidf値,「軽い」のtfidf値,「。」のtfidf値)となる。 To give an example of a word vector and a tfidf vector, the word vector generated by morphological analysis of the sentence "Smartphones are light" is, for example, (smartphone, is, light, .). The corresponding tfidf vector is, for example, (tfidf value of "smartphone", tfidf value of "wa", tfidf value of "light", tfidf value of ".").
次に、データベースに格納されている文章のtfidfベクトルそれぞれと、対象とする文章のtfidfベクトルとのコサイン類似度(2つのtfidfベクトルの間の角度に対するコサインの値)を算出する。2つのtfidfベクトルA、Bのコサイン類似度は、コサイン類似度=A・B/(|A||B|)となる。対象文章とのコサイン類似度の値が大きい文章ほど(コサイン類似度が高い文章ほど)、類似度が高い文章とする。 Next, calculate the cosine similarity (the cosine value of the angle between two tfidf vectors) between each of the tfidf vectors of the sentences stored in the database and the tfidf vector of the target sentence. The cosine similarity of two tfidf vectors A and B is cosine similarity = A · B / (|A||B|). A sentence with a larger cosine similarity value with the target sentence (a sentence with higher cosine similarity) is considered to be more similar.
そして、データベースに含まれる文章のうちで、コサイン類似度の高さで上位から所定の割合(または所定の数)の文章を、類似度が高い類似文章とする。ここで、コサイン類似度の代わりに、データベースに格納されている文章のtfidfベクトルと、対象とする文章のtfidfベクトルと、の内積を用いても良い。 Then, among the sentences included in the database, a certain percentage (or a certain number) of the sentences that rank highest in terms of cosine similarity are determined to be similar sentences with high similarity. Here, instead of cosine similarity, the inner product of the tfidf vector of a sentence stored in the database and the tfidf vector of the target sentence may be used.
以上の説明は、tf-idf法の概要であり、tf-idf法を用いる際のtf-idf法のアルゴリズムは、以上で説明した方法から適宜変更できる。また、tf-idf法の「(B)文章と文章のコサイン類似度を算出し、対象とする文章に類似する類似文章を抽出する類似文書抽出方法」に換えて、例えばDoc2Vec法等の文章の類似度を算出する他の方法を用いて類似文章を抽出しても良い。 The above explanation is an overview of the tf-idf method, and the algorithm of the tf-idf method when using the tf-idf method can be changed as appropriate from the method explained above. Also, instead of the tf-idf method's "(B) similar document extraction method that calculates the cosine similarity between sentences and extracts similar sentences that are similar to the target sentence," other methods that calculate the similarity of sentences, such as the Doc2Vec method, may be used to extract similar sentences.
<処理手順>
次に、回答候補提案システム1の処理手順について説明する。ユーザは、ユーザ端末2を操作して、ユーザ端末2に、回答候補提案システム1にアクセスさせる。回答候補提案システム1は、ユーザ端末2からアクセスされると、項目候補単語群生成部11により実行される、項目候補単語群生成処理を開始する。以下では、図9及び図10を参照しつつ、図8を用いて項目候補単語群生成処理について説明する。
<Processing Procedure>
Next, a description will be given of the processing procedure of the answer
図8は、回答候補提案システム1の項目候補単語群生成処理の一例を示すフローチャートである。
Figure 8 is a flowchart showing an example of the process for generating a group of item candidate words in the answer
回答候補提案システム1は、ユーザ端末2に新規質問文章入力画面情報を送信する(ステップS101)。新規質問文章入力画面情報は、新規質問文章入力画面の構成の情報と、ユーザ端末2に新規質問文章入力画面を表示させる旨の情報と、を含む。新規質問文章入力画面は、新規質問文章の入力と、入力された新規質問文章を回答候補提案システム1に送信する旨の入力と、を受け付けることができるように構成されている。
The answer
図9は、ユーザ端末2に表示される新規質問文章入力画面の一例を示す説明図である。図9に示す新規質問文章入力画面900は、新規質問文章入力欄901と、項目選択ボタン902とを備えている。新規質問文章入力欄901は、ユーザが新規質問文章を入力する欄である。項目選択ボタン902は、入力された新規質問文章を回答候補提案システム1に送信する旨を入力するボタンである。ユーザが、新規質問文章入力欄901に新規質問文章を入力し、さらに、項目選択ボタン902を押すと、ユーザ端末2は、新規質問文章入力欄901に入力された新規質問文章を、回答候補提案システム1に送信するようになっている。図9には、新規質問文章入力欄901に、「繋がらないから助けてほしい。私日立花子はA県B市C丁目に住んでいるが、自宅の椅子に座って本を読んでいた時に発覚した。」との新規質問文章が入力されており、項目選択ボタン902が押されると、入力された新規質問文章が、回答候補提案システム1に送信される。
9 is an explanatory diagram showing an example of a new question sentence input screen displayed on the
図8に戻り、次に、回答候補提案システム1は、所定時間待機する(ステップS102)。
Returning to FIG. 8, next, the answer
次に、回答候補提案システム1は、ユーザ端末2から新規質問文章を受信したか否かを判定する(ステップS103)。ユーザ端末2から新規質問文章を受信したと判定された場合(ステップS103:YES)はステップS104に進み、ユーザ端末2から新規質問文章を受信していないと判定された場合(ステップS103:NO)は、ステップS102に戻る。これにより、回答候補提案システム1は、ユーザ端末2から新規質問文章を受信するまで、ステップS102、ステップS103の処理を繰り返して、新規質問文章を待ち受ける。
Next, the answer
次に、回答候補提案システム1は、ユーザ端末2から受信した新規質問文章を保存する(ステップS104)。ここで、回答候補提案システム1のネットワークI/F36(送受信装置)は、ユーザ端末2から新規質問文章を受信する(入力される)と、プロセッサ31は、新規質問文章を受信した旨をネットワークI/F36から受け取り、受信した新規質問文章を主記憶装置32に記憶させる。以上の様に回答候補提案システム1に新規質問文章が入力される。
Next, the answer
次に、回答候補提案システム1は、質問回答データベース21を用いtf-idf法のコサイン類似度を算出して、新規質問文章に類似する過去の質問文章を抽出し、抽出した新規質問文章に類似する過去の質問文章を保存する(ステップS105)。ここで、回答候補提案システム1は、質問回答データベース21を用い、質問回答データベース21に保存された過去の質問文章それぞれに対して、質問情報との、上述したtf-idf法のコサイン類似度を算出する。そして、質問回答データベース21に保存されている過去の質問文章のうちで、コサイン類似度の高さで上位から所定の割合(例えば20%)または所定の数(例えば3)の文章を抽出し、新規質問文章に類似する過去の質問文章として保存する。
Next, the answer
次に、回答候補提案システム1は、質問回答データベース21を用いて、上述したtf-idf法の重要度を算出して、ステップS105にて抽出した新規質問文章に類似する過去の質問文章から高重要度単語群を生成し、保存する(ステップS106)。ここで、回答候補提案システム1は、ステップS105にて抽出した新規質問文章に類似する過去の質問文章を形態素解析して、複数の過去質問文章形態素を生成する。過去質問文章形態素とは、新規質問文章に類似する過去の質問文章を形態素解析して得られる形態素(単語)である。そして回答候補提案システム1は、複数の過去質問文章形態素それぞれに対して、上述したtf-idf法の重要度を、質問回答データベース21を用いて算出する。そして、複数の過去質問文章形態素のうちで、tf-idf法の重要度の高さで上位から所定の割合(例えば20%)または所定の数(例えば10)の過去質問文章形態素のうちの名詞を高重要度単語群として保存する。
Next, the answer
次に、回答候補提案システム1は、高重要度単語群から、新規質問文章に含まれる単語を除いた単語群を項目候補単語群とし、保存する(ステップS107)。ここで、回答候補提案システム1は、新規質問文章を形態素解析して新規質問文章形態素(単語)を生成して保存する。新規質問文章形態素とは、新規質問文章を形態素解析して得られる形態素である。また、新規質問文章形態素を、「新規質問文章に含まれる単語」とする。そして、高重要度単語群から「新規質問文章に含まれる単語」(新規質問文章形態素)を除いて、項目候補単語群とする。なお、ステップS107を省略し、項重要度単語群を項目候補単語群としてもよい。
Next, the answer
次に、回答候補提案システム1は、項目候補単語群と、項目単語群選択画面情報とをネットワークI/F36(送受信装置)に出力し、ネットワークI/F36に、項目候補単語群と、項目単語群選択画面情報とをネットワークNWを介してユーザ端末2に送信させて、処理を終了する(ステップS108)。項目単語群選択画面情報は、項目単語群選択画面の構成の情報と、ユーザ端末2に項目単語群選択画面を表示させる旨の情報と、を含む。項目単語群選択画面は、図10を用いて後述するが、項目候補単語群を表示でき、項目候補単語群から選択される項目単語群の入力と、入力された項目単語群および新規質問文章をオペレータ端末3に送信する旨の入力と、を受け付けることができるように構成されている。
Next, the answer
図10は、ユーザ端末2に表示される項目単語群選択画面の一例を示す説明図である。図10に示す項目単語群選択画面1000は、項目単語選択ボタン1001~1004と、項目単語投稿ボタン1005を備えている。項目単語選択ボタン1001~1004は、項目候補単語が描かれたボタンである。項目単語選択ボタン1001~1004は、ユーザに押されると、枠を示す線の種類が切り替わる。項目単語選択ボタン1001~1004において、実線で描かれた枠は項目単語選択ボタンに書かれた項目候補単語をユーザが項目単語に選択したことを示し、破線で描かれた枠は項目単語選択ボタンに書かれた項目候補単語をユーザが項目単語に選択していないことを示す。
Figure 10 is an explanatory diagram showing an example of an item word group selection screen displayed on the
図10の例では、項目単語選択ボタン1001、1002の枠は実線になっており、項目単語選択ボタン1001の「スマートフォン」と、項目単語選択ボタン1002の「電波」は項目単語に選択されている。また、項目単語選択ボタン1003、1004の枠は破線になっており、項目単語選択ボタン1003の「コード」と、項目単語選択ボタン1004の「電子書籍」は項目単語に選択されていない。
In the example of FIG. 10, the frames of the item word selection buttons 1001 and 1002 are solid lines, and the item word selection button 1001 "smartphone" and the item word selection button 1002 "radio waves" are selected as item words. The item
項目単語投稿ボタン1005は、入力された項目単語群を回答候補提案システム1に送信する旨を入力するボタンである。ユーザが、項目単語選択ボタン1001~1004を押して項目単語を選択し、さらに、項目単語投稿ボタン1005を押すと、ユーザ端末2は、項目単語選択ボタン1001~1004で選択された項目単語(項目単語群)と、新規質問文章と、回答候補生成選択画面情報とを、オペレータ端末3に送信するようになっている。
The item word submission button 1005 is a button for inputting that the input item word group is to be sent to the answer
回答候補生成選択画面情報は、回答候補生成選択画面の構成の情報と、オペレータ端末3に回答候補生成選択画面を表示させる旨の情報と、を含む。回答候補生成選択画面は、図11を用いて後述するが、新規質問文章および項目単語群を表示でき、回答候補提案システム1に回答候補文章を生成させるか否かの情報の入力と、ウェブ検索で第2の回答候補文章を収集するか否かの情報であるWEB検索設定情報の入力と、を受け付けることができるように構成されている。
The answer candidate generation selection screen information includes information on the configuration of the answer candidate generation selection screen and information on displaying the answer candidate generation selection screen on the
なお、ユーザ端末2は、項目単語群と、新規質問文章と、回答候補生成選択画面情報とを、オペレータ端末3に送信する代わりに、回答候補提案システム1に項目単語群および新規質問文章を送信してもよい。ここで、回答候補提案システム1は、ユーザ端末2から項目単語群および新規質問文章を受信すると、WEBから第2の回答候補文章を取得(詳細は後述)するか否かを適宜設定して、図12に一例をフローチャートで示す回答候補文章生成処理を実行しても良い。
In addition, instead of transmitting the item word group, the new question sentence, and the answer candidate generation selection screen information to the
以上で説明した、図8のステップS105~S107では、質問回答データベース21に保存された過去の質問文章それぞれに対して、新規質問文章との類似度(コサイン類似度)を算出し、新規質問文章との類似度に基づいて、新規質問文章に類似する過去の質問文章を抽出する(ステップS105)。抽出した新規質問文章に類似する過去の質問文章から生成した複数の過去質問文章形態素それぞれの重要度を算出し、複数の過去質問文章形態素から重要度の高い過去質問文章形態素を抽出して、項目候補単語群とする(ステップS106~S107)。これにより、項目候補単語群は、新規質問文章に類似する過去の質問文章において、重要度が高い、比較的重要な意味を持つ単語(過去質問文章形態素)となる。
In steps S105 to S107 in FIG. 8 described above, the similarity (cosine similarity) between each past question sentence stored in the question and
また、回答候補文章(第1の回答候補文章、第2の回答候補文章)は、項目候補単語群から選択された項目候補単語と新規質問文章とに基づいて生成される。このため、項目候補単語群は、新規質問文章の質問に関して重要な意味を持つことが望ましい。これに対して、上述した様に、項目候補単語群は、新規質問文章に類似する過去の質問文章において、比較的重要な意味を持つ単語である。従って、回答候補提案システム1は、上記の様に項目候補単語群を生成することで、より適切な項目候補単語群を生成できる。
Furthermore, the answer candidate sentences (first answer candidate sentence, second answer candidate sentence) are generated based on the item candidate words selected from the item candidate word group and the new question sentence. For this reason, it is desirable that the item candidate word group has an important meaning with respect to the question of the new question sentence. In contrast, as described above, the item candidate word group is words that have a relatively important meaning in past question sentences similar to the new question sentence. Therefore, by generating the item candidate word group as described above, the answer
また、図8のステップS105~S107に換えて、次のように、項目候補単語テーブル25を用いて、新規質問文章から項目候補単語群を生成してもよい。まず、回答候補提案システム1は、新規質問文章に含まれる文から、疑問詞要望語リスト22に保存されている疑問詞および要望語を少なくとも一つ含む疑問要望文を抽出する。次に、回答候補提案システム1は、抽出した疑問要望文を形態素解析して、疑問要望文に含まれる複数の単語(形態素)を得る。次に、回答候補提案システム1は、疑問要望文に含まれる複数の単語から、動詞を抽出する。次に、回答候補提案システム1は、項目候補単語テーブル25(図7参照)を参照して、抽出した動詞に対応する項目候補単語群を項目候補単語テーブル25から抽出し、項目候補単語群を得る。
In addition, instead of steps S105 to S107 in FIG. 8, a group of item candidate words may be generated from the new question sentence using the item candidate word table 25 as follows. First, the answer
項目候補単語テーブル25に保存されている項目候補単語群は、図7を用いて上述した様に、質問回答データベース21に保存された過去の質問文章に基づいて生成されている。従って、以上で説明した、項目候補単語テーブル25を用いて項目候補単語群を生成する方法でも、項目候補単語群は、質問回答データベース21に保存された過去の質問文章と新規質問文章に基づいて生成される。これにより、回答候補提案システム1は、より適切な項目候補単語群を生成できる。
The item candidate word group stored in the item candidate word table 25 is generated based on past question sentences stored in the question and
図11は、オペレータ端末3に表示される回答候補生成選択画面の一例を示す説明図である。図11に示す回答候補生成選択画面1100は、新規質問文章表示枠1101と、項目単語群表示枠1102と、ウェブ検索選択ボタン1103と、送信ボタン1104と、回答ボタン1105と、を含む。新規質問文章表示枠1101は、新規質問文章を表示する枠である。項目単語群表示枠1102は、項目単語群を表示する枠である。オペレータ端末3を操作するオペレータが、新規質問文章表示枠1101内を押す(クリック等する)と、オペレータ端末3は、オペレータからの入力を受け付けて、オペレータが新規質問文章表示枠1101内の新規質問文章を編集できるようになっている。これにより、オペレータ端末3は、オペレータが誤記の修正等の編集を加えた新規質問文章を回答候補提案システム1に送信することができる。その結果、回答候補提案システム1は、編集を加えた新規質問文章を新規質問文章とみなして回答候補文章を生成する。これにより、回答候補提案システム1は、より好適な第1の回答候補文章を生成し得る。
11 is an explanatory diagram showing an example of an answer candidate generation selection screen displayed on the
ウェブ検索選択ボタン1103は、回答候補提案システム1がウェブ検索で第2の回答候補文章を収集するか否かの情報であるWEB検索設定情報を入力するためのボタンである。ウェブ検索選択ボタン1103は、回答候補提案システム1にウェブ検索で第2の回答候補文章を収集させる場合には、図11に示すように黒塗りになり、回答候補提案システム1にウェブ検索で第2の回答候補文章を収集させない場合には白塗りになる。ここで、黒塗りか、白塗りかは、オペレータがウェブ検索選択ボタン1103押す毎に、切り替わるようになっている。
The web
送信ボタン1104は、オペレータが押すと、オペレータ端末3が、回答候補提案システム1に、新規質問文章表示枠1101内の新規質問文章と、項目単語群と、WEB検索設定情報と、回答候補提案システム1に回答候補文章の生成を指示する情報である回答候補文章生成開始情報と、を含む生成開始情報を送信するようになっている。ここで、生成開始情報に含まれる新規質問文章は、オペレータが送信ボタン1104を押した時点での新規質問文章表示枠1101内の新規質問文章である。従って、オペレータが送信ボタン1104を押す前に、新規質問文章表示枠1101内の新規質問文章を編集した場合には、編集後の新規質問文章が新規質問文章として開始情報に含まれる。なお、上述したように、オペレータが新規質問文章表示枠1101内の新規質問文章を編集する際に、オペレータが新規質問文章の一部(例えば、オペレータが質問で重要な意味を持つと思う部分)にアンダーラインや太字等の修飾を加えることができるとし、さらに、オペレータが修飾を加えた部分の文字の情報を重要文字情報として、生成開示情報に含めても良い。そして、後述するように、回答候補提案システム1は、重要文字情報を用いて、回答候補文章(第1の回答候補文章、第2の回答候補文章)を生成してもよい。
When the operator presses the send button 1104, the
回答ボタン1105は、押されると、オペレータ端末3に表示されている画面が、回答候補生成選択画面から、オペレータが新規質問文章に対する回答文章を入力する画面に切り替わるように構成されている。
When the answer button 1105 is pressed, the screen displayed on the
回答候補提案システム1は、ネットワークI/F36でオペレータ端末3から生成開始情報を受信する(これにより、生成開始情報に含まれる、新規質問文章が入力され、さらに、項目候補単語群からユーザが選択した項目単語群が入力される)と、回答候補文章生成部12により実行される回答候補文章生成処理を開始する。
When the answer
図12は、回答候補提案システム1の回答候補文章生成処理の一例を示すフローチャートである。
Figure 12 is a flowchart showing an example of the answer candidate sentence generation process of the answer
回答候補提案システム1は、オペレータ端末3から受信した生成開始情報に含まれる、WEB検索設定情報と、新規質問文章と、項目単語群と、を保存する(ステップS201)。
The answer
次に、回答候補提案システム1は、疑問詞要望語リスト22を用い、新規質問文章から疑問要望文を抽出し、抽出した疑問要望文に項目単語群を加えて質問情報を生成する(ステップS202)。ここで、回答候補提案システム1は、疑問詞要望語リスト22に保存された疑問詞または要望語を少なくとも一つ含む疑問要望文を、新規質問文章から抽出する。そして、回答候補提案システム1は、抽出した疑問要望文の後ろまたは前に項目単語群を加えて質問情報とする。例えば、疑問要望文が「繋がらないから助けてほしい。」で、項目単語群が「スマートフォン」及び「電波」の場合、質問情報は、例えば、「繋がらないから助けてほしい。スマートフォン、電波」または「スマートフォン、電波、繋がらないから助けてほしい。」となる。なお、上述した様に生成開始情報が重要文字情報を含む場合には、疑問要望文と、項目単語群と、重要文字情報に含まれる文字(疑問要望文と重複する部分は削除するようにしてもよい)とを加えて、質問情報としてもよい。その結果、オペレータが、新規質問文章にアンダーライン等の修飾を加えた部分の文字を、質問情報に加えることができる。これにより、回答候補提案システム1は、より好適な第1の回答候補文章を生成し得る。
Next, the answer
次に、回答候補提案システム1は、質問回答データベース21を用い、tf-idf法のコサイン類似度を算出して、質問情報に類似する過去の質問文章を抽出し、抽出した過去の質問文章に対応付けられた過去の回答文章を第1の回答候補文章として、保存する(ステップS203)。ここで、回答候補提案システム1は、質問回答データベース21を用い、質問回答データベース21に保存された過去の質問文章それぞれに対して、質問情報との上述したtf-idf法のコサイン類似度を算出する。また、質問回答データベース21に保存されている過去の質問文章のうちで、コサイン類似度の高さで上位から所定の割合(例えば20%)または所定の数(例えば3)の過去の質問文章を抽出する。そして、抽出した過去の質問文章に対応付けられた過去の回答文章を、質問回答データベース21から抽出し、抽出した過去の回答文章を、第1の回答候補文章として保存する。
Next, the answer
次に、回答候補提案システム1は、ステップS201にて保存したWEB検索設定情報に基づいて、ウェブ検索で第2の回答候補文章を収集するか否かを判定する(ステップS204)。ウェブ検索で第2の回答候補文章を収集すると判定された場合(ステップS204:YES)はステップS205に進み、ウェブ検索で第2の回答候補文章を収集しないと判定された場合(ステップS204:NO)は、ステップS208に進む。ここで、上述した様に、WEB検索情報は、ウェブ検索で第2の回答候補文章を収集するか否かの情報であり、回答候補提案システム1は、WEB検索情報に基づいて、ウェブ検索で第2の回答候補文章を収集するか否かを判定できる。
Next, the answer
次に、回答候補提案システム1は、質問情報を形態素解析して複数の質問情報形態素を得て、質問回答データベース21を用いて質問情報形態素毎のtf-idf法の重要度を算出し、複数の質問情報形態素からtf-idf法の重要度が高い複数の質問情報形態素を抽出し、さらに、個人情報単語リスト23に保存されている個人情報単語を除いて得られる質問情報形態素群を検索単語群とし、保存する(ステップS205)。ここで、質問情報形態素とは、質問情報を形態素解析して得られる形態素である。また、tf-idf法の重要度の算出方法は、上述した。tf-idf法の重要度が高い複数の質問情報形態素とは、質問情報形態素のうちで、重要度の高さで上位から所定の割合(例えば20%)または所定の数(例えば3)の質問情報形態素である。
Next, the answer
また、ステップS205において、回答候補提案システム1は、補足単語リスト24に保存されている補足単語(例えば、「ない」)が、質問情報内にある場合、質問情報内にある補足単語を、検索単語群に加えてもよい。これにより、より望ましい第2の回答候補を得ることができる場合がある。
In addition, in step S205, if a supplementary word (e.g., "not") stored in the
また、検索単語群に含まれる単語(形態素)のうち、活用する単語は、活用形を残した形式(例えば:「繋がら」、「助け」)とするのが好ましいが、活用形の情報を除いた基本形(例えば:「繋がる」、「助ける」)としてもよい。 In addition, among the words (morphemes) included in the search word group, it is preferable that the words to be inflected are in a form that retains the inflected form (for example, "tsunagara" (connect), "tasuku" (help)), but they may be in a basic form that removes the inflected form information (for example, "tsunagara" (connect), "tasuku" (help)).
次に、回答候補提案システム1は、ウェブ検索エンジンに検索単語群を送信し、ウェブ検索エンジンから返される検索単語群に関する検索結果を取得し、検索結果に含まれるWEBサイトの概要文を収集する(ステップS206)。ここで、回答候補提案システム1(プロセッサ31)は、ネットワークI/F36(送受信装置)が検索単語群をウェブ検索エンジンに送信するように、ネットワークI/F36(送受信装置)が検索単語群をウェブ検索エンジン4に送信する旨とともに検索単語群を、ネットワークI/F36(送受信装置)に出力する。これにより、ネットワークI/F36は、検索単語群を、ネットワークNWを介してウェブ検索エンジン4に送信する。検索単語群を受信したウェブ検索エンジン4は、回答候補提案システム1に、検索単語群に関する検索結果を返信する。検索単語群に関する検索結果は、検索単語群に関するWEBサイトの概要文を含む。
Next, the answer
なお、回答候補提案システム1は、過去の質問文章とその回答文章との組が記載された少なくとも1つのWEBページをあらかじめ記憶し、記憶したWEBページを、ステップS206の処理にてウェブ検索エンジンで検索する対象のWEBサイトに設定してもよい。これにより、WEBサイトの概要文をより容易に収集でき、ひいては、第2の回答候補文章(後述)をより容易に収集できる。
The answer
また、ステップS206の処理にてウェブ検索エンジンを用いる代わりに、あらかじめ登録してあり記憶されている、所定の装置内のデータ(例えば、過去の質問文章とその回答文章との組のデータ等)を検索する検索装置を用いてもよい。ここで、検索装置は、例えば、WEBサイトの概要文と同様の概要文を生成し、記憶し、この概要文を、上記のWEBサイトの概要文の代わりとしてもよい。これにより、概要文をより効率よく収集し得り、ひいては、第2の回答候補文章(後述)をより効率よく収集し得る。 In addition, instead of using a web search engine in the process of step S206, a search device may be used that searches for pre-registered and stored data in a specified device (e.g., data pairs of past question sentences and their answers). Here, the search device may, for example, generate and store a summary similar to the summary of the website, and use this summary instead of the summary of the website. This makes it possible to collect summaries more efficiently, and ultimately to collect second candidate answer sentences (described below) more efficiently.
次に、回答候補提案システム1は、ステップS206で得たWEBサイトの概要文を所定の順位付け方法で順位を付け、順位が上位から所定の数(または所定の割合)のWEBサイトの概要文を第2の回答候補文として保存する(ステップS207)。ここで、順位付け方法は、例えば、WEBサイトの概要文それぞれに対する新規質問文章とのtf-idf法のコサイン類似度の高さでもよい。また、順位付け方法は、特許文献2に記載されたランキングモデルを用いた順位付けでも良く、他の公知技術であってよい。また、ステップS207にて、順位付けするかわりに、ステップS206で、ウェブ検索エンジンが順位付けた、上位の検索結果の検索概要文を第2の回答候補文章としてもよい。さらに、第2の回答候補文章には、WEBサイトのURLを含めてよい。これにより、オペレータ端末3のオペレータは、第2の回答候補文章を読む際に、第2の回答候補文章に含まれるWEBサイトの概要文に関する情報を、URLを用いてWEBサイトにアクセスして手に入れることができる。
Next, the answer
次に、回答候補提案システム1は、回答候補文章および回答候補文章表示画面情報を、出力装置(ネットワークI/F36)に出力して、出力装置(ネットワークI/F36)に回答候補文章および回答候補文章表示画面情報をオペレータ端末3に送信させて、処理を終了する(ステップS208)。ここで、回答候補文章には、第1の回答候補文章と、第2の回答候補文章とを含む。言うまでもなく、ステップS204の処理で、ウェブ検索で第2の回答候補文章を収集しないと判定された場合(ステップS204:NO)には、回答候補文章は、第1の回答候補文章のみとなる。また、回答候補文章表示画面情報は、回答候補文章表示画面の構成の情報と、オペレータ端末3に回答候補文章表示画面を表示させる旨の情報と、を含む。回答候補文章表示画面は、回答候補文章を表示できるように構成されている。
Next, the answer
図13は、オペレータ端末3に表示される回答候補文章表示画面の一例を示す説明図である。図13に示す回答候補文章表示画面1300は、第1の枠1301と、第1の回答候補文章欄1302、1303と、第2の枠1304と、第2の回答候補文章欄1305、1306と、を備えている。第1の回答候補文章を示す「過去回答」と描かれた第1の枠1301の右に、第1の回答候補文章を表示する第1の回答候補文章欄1302、1303が示されている。同様に、第2の回答候補文章を示す「ウェブ検索」と描かれた第2の枠1304の右に、第2の回答候補文章を表示する第2の回答候補文章欄1305、1306が示されている。
Figure 13 is an explanatory diagram showing an example of an answer candidate sentence display screen displayed on the
オペレータ端末3に、回答候補文章表示画面で、回答候補文章が表示されることで、オペレータは、表示された回答候補文章を参考にして、新規質問文章に対する回答文章を生成できる。これにより、オペレータは、より容易に回答文章を生成できる。また、オペレータが回答文章を生成するために必要となるエネルギーや生成される二酸化炭素の排出量を減らすことができ、地球温暖化を抑制できる。
By displaying the answer candidate sentences on the answer candidate sentence display screen on the
このように、実施例において、回答候補提案システム1は、新規質問文章だけでなく、質問回答データベース21に保存された過去の質問文章および新規質問文章に基づいて生成された項目候補単語群からユーザが選択した項目単語群に基づいて、回答候補文章(第1の回答候補文章及び第2の回答候補文章)を生成する。これにより、回答候補提案システム1は、新規質問文章だけに基づいて回答候補文章を生成する場合に比べて、新規質問文章の質問の意図により一層沿う、好適な回答候補文章を生成でき、出力できる。
In this way, in the embodiment, the answer
また、質問回答データベース21に保存された過去の質問文章と、過去の回答文章とを用いて、回答候補文章(第1の回答候補文章及び第2の回答候補文章)を生成する。これにより、回答候補提案システム1は、より容易に回答候補文章を生成できる。
In addition, answer candidate sentences (first answer candidate sentences and second answer candidate sentences) are generated using past question sentences and past answer sentences stored in the question and
また、回答候補提案システム1は、疑問詞および要望語を少なくとも一つ含む疑問要望文を、新規質問文章から抽出し、抽出した疑問要望文に項目単語群を加えて質問情報を生成する(図12のステップS202)。これにより、回答候補提案システム1は、新規質問文章から質問の意図と関係の低い部分を除いた、質問の意図と関係の高い疑問要望文に基づいて、第1の回答候補文を生成できる。従って、回答候補提案システム1は、ユーザの質問の意図により一層沿う、好適な第1の回答候補文章を生成できる。
The answer
また、図12のステップS203において、回答候補提案システム1が算出する、質問回答データベース21に保存された過去の質問文章それぞれに対する、質問情報との類似度は、質問回答データベース21を用いて算出されるtf-idf法のコサイン類似度である。これにより、回答候補提案システム1は、類似度を容易に算出でき、ひいては、より容易に第1の回答候補文章を生成できる。
In addition, in step S203 of FIG. 12, the similarity between the question information and each of the past question sentences stored in the question and
また、回答候補提案システム1は、ネットワークI/F36(送受信装置)に、回答候補文章(第1の回答候補文章及び第2の回答候補文章)を出力して、ネットワークI/F36(送受信装置)に、回答候補文章を、ネットワークNWを介してオペレータ端末3に送信させる。これにより、オペレータ端末3を操作するオペレータは、容易に回答候補文章(第1の回答候補文章及び第2の回答候補文章)を読むことができる。
In addition, the answer
また、回答候補提案システム1は、ウェブ検索エンジン4に検索単語群を送信し、ウェブ検索エンジン4から返された検索単語群に関する検索結果に基づいて、第2の回答候補文章を生成する。これにより、回答候補提案システム1は、より容易に第2の回答候補文章を生成できる。
The answer
また、回答候補提案システム1は、新規質問文章から疑問要望文を抽出し、疑問要望文に項目単語群を加えた質問情報を生成し(図12のステップS202)、tf-idf法の重要度に基づいて質問情報の複数の質問情報形態素(質問情報の形態素)から検索単語群を生成する(図12のステップS205)。これにより、回答候補提案システム1は、新規質問文章から質問の意図と関係の低い部分を除いた、質問の意図と関係の高い疑問要望文に基づいて、検索単語群を生成でき、ひいては、より適切な第2の回答候補文章を生成できる。また、検索単語群は、tf-idf法の重要度に基づいて生成されることにより、質問の意図により一層沿う検索単語群が生成できる。従って、回答候補提案システム1は、ユーザの質問の意図により一層沿う、好適な第2の回答候補文章を生成できる。
The answer
また、回答候補提案システム1は、tf-idf法の重要度が高い複数の質問情報形態素(質問情報の形態素)から、個人情報単語リストに保存されている個人情報単語を除いて、検索単語群を生成する(図12のステップS205)。検索単語群は、ウェブ検索エンジン4に送信され、ウェブ検索エンジン4は、検索単語群で検索した検索結果を回答候補提案システム1に送信する。検索単語群には、ユーザのプライバシーに関わる個人情報単語が除かれているため、回答候補提案システム1は、ユーザのプライバシーを守った上で検索結果を取得でき、ひいてはユーザのプライバシーを守った上で第2の回答候補文章を生成できる。
The answer
また、回答候補提案システム1は、検索単語群に関する検索結果に含まれるWEBサイトの概要文に基づいて第2の回答候補文章を生成する(図12のステップS206およびS207)。これにより、第2の回答候補文章の長さは、第2の回答候補文章の内容を把握することが容易になる程度に調整される。従って、オペレータが、第2の回答候補文章の内容を把握することが容易になる。
The answer
また、回答候補提案システム1は、WEBサイトの概要文を所定の順位付け方法で順位を付け、順位が上位のWEBサイトの概要文を第2の回答候補文章とする(図12のステップS207)。これにより、回答候補提案システム1は、より適切な第2の回答候補文章を生成できる。
The answer
また、回答候補提案システム1は、質問回答データベース21に保存された過去の質問文章それぞれに対して、新規質問文章との類似度(コサイン類似度)を算出して、新規質問文章に類似する過去の質問文章を抽出する(図8のステップS105)。抽出した新規質問文章に類似する過去の質問文章から生成した複数の過去質問文章形態素それぞれの重要度を算出し、重要度の高い過去質問文章形態素を抽出して、項目候補単語群とする(図8のステップS106~S107)。これにより、項目候補単語群は、新規質問文章に類似する過去の質問文章において、重要度が高い、比較的重要な意味を持つ単語(過去質問文章形態素)となる。また、項目候補単語群は、回答候補文章(第1の回答候補文章、第2の回答候補文章)を生成するために用いるため、項目候補単語群は、新規質問文章の質問に重要な意味を持つ単語であることが望ましい。従って、回答候補提案システム1は、より適切な項目候補単語群を生成できる。
The answer
また、図8にフローチャートで一例を示す項目候補単語群生成処理において、質問回答データベース21に保存された過去の質問文章それぞれに対する新規質問文章との類似度は、質問回答データベース21を用いて算出されるtf-idf法のコサイン類似度である(図8のステップS105)。また、複数の過去質問文章形態素それぞれの重要度は、質問回答データベース21を用いて算出されるtf-idf法の重要度である(図8のステップS106)。この様に、tf-idf法のコサイン類似度および重要度を用いることにより、回答候補提案システム1は、より容易に項目候補単語群を生成できる。
In addition, in the item candidate word group generation process, an example of which is shown in the flowchart in FIG. 8, the similarity between the new question sentence and each of the past question sentences stored in the question and
なお、本発明は上述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。たとえば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに本発明は限定されない。また、実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。 The present invention is not limited to the above-described embodiments, but includes various modifications and equivalent configurations within the spirit of the appended claims. For example, the above-described embodiments have been described in detail to clearly explain the present invention, and the present invention is not necessarily limited to those having all of the configurations described. In addition, other configurations may be added to, deleted from, or substituted for part of the configuration of the embodiments.
1:回答候補提案システム
2:ユーザ端末
3:オペレータ端末
4:ウェブ検索エンジン
11:項目候補単語群生成部
11a:項目候補単語群生成プログラム
12:回答候補文章生成部
12a:回答候補文章生成プログラム
21:質問回答データベース
22:疑問詞要望語リスト
23:個人情報単語リスト
24:補足単語リスト
25:項目候補単語テーブル
31:プロセッサ
32:主記憶装置
33:副記憶装置
34:入力装置
35:出力装置
36:ネットワークI/F
37:バス
1: Answer candidate suggestion system 2: User terminal 3: Operator terminal 4: Web search engine 11: Item candidate word
37: Bus
Claims (10)
プロセッサと、記憶装置とを備え、
前記記憶装置は、
過去の質問文章と、当該過去の質問文章に対する過去の回答文章を対応付けて保存する質問回答データベースを格納し、
前記プロセッサは、
前記新規質問文章が入力された場合には、
前記質問回答データベースに保存された前記過去の質問文章それぞれに対して、前記新規質問文章との類似度を算出し、
算出した、前記新規質問文章との類似度に基づいて、前記新規質問文章に類似する前記過去の質問文章を抽出し、
抽出した前記過去の質問文章を形態素解析して、複数の過去質問文章形態素を生成し、
複数の過去質問文章形態素それぞれの重要度を算出し、
前記複数の過去質問文章形態素から前記重要度の高い過去質問文章形態素を抽出して、項目候補単語群とし、
前記項目候補単語群からユーザが選択した項目単語群および前記新規質問文章が入力された場合には、
前記項目単語群と前記新規質問文章に基づいて、前記項目単語群を含む質問情報を生成し、
前記質問回答データベースに保存された前記過去の質問文章それぞれに対して、前記質問情報との類似度を算出し、
前記質問情報との類似度に基づいて前記質問回答データベースから前記質問情報に類似する過去の質問文章を抽出し、
抽出した前記質問情報に類似する過去の質問文章に対応付けられた過去の回答文章を前記質問回答データベースから抽出して、第1の回答候補文章とする、
回答候補提案システム。 An answer candidate suggestion system that generates answer candidate sentences that are candidates for answer sentences to a new question sentence,
A processor and a storage device,
The storage device includes:
storing a question and answer database that stores past question sentences and past answer sentences to the past question sentences in association with each other;
The processor,
When the new question text is input,
calculating a similarity between the new question sentence and each of the past question sentences stored in the question and answer database;
extracting the past question sentences similar to the new question sentence based on the calculated similarity with the new question sentence;
performing morphological analysis on the extracted past question sentences to generate a plurality of past question sentence morphemes;
Calculate the importance of each of the multiple past question sentence morphemes,
extracting the past question sentence morphemes having high importance from the plurality of past question sentence morphemes, and setting the extracted morphemes as a group of candidate words for an item;
When the item word group selected by the user from the item candidate word group and the new question sentence are input,
generating question information including the item word group based on the item word group and the new question sentence;
calculating a similarity between the question information and each of the past question sentences stored in the question and answer database;
extracting past question sentences similar to the question information from the question and answer database based on the similarity with the question information;
extracting from the question and answer database a past answer sentence associated with a past question sentence similar to the extracted question information, and setting the extracted answer sentence as a first answer candidate sentence;
Answer candidate suggestion system.
前記記憶装置は、さらに、疑問があることを表す疑問詞および要望があることを表す要望語を保存する疑問詞要望語リストを格納し、
前記プロセッサは、
前記疑問詞要望語リストに保存された前記疑問詞および前記要望語を少なくとも一つ含む疑問要望文を、前記新規質問文章から抽出し、
抽出した前記疑問要望文に前記項目単語群を加えて前記質問情報を生成する、
回答候補提案システム。 The answer candidate suggestion system according to claim 1,
The storage device further stores an interrogative word and a request word list for storing interrogative words expressing doubt and request words expressing requests,
The processor,
extracting an interrogative sentence including at least one of the interrogative words and the desired words stored in the interrogative word desired word list from the new question sentence;
generating the question information by adding the item word group to the extracted question/request sentence;
Answer candidate suggestion system.
前記質問情報との類似度は、前記質問回答データベースを用いて算出されるtf-idf法のコサイン類似度である、
回答候補提案システム。 The answer candidate suggestion system according to claim 1,
The similarity to the question information is a cosine similarity calculated by a tf-idf method using the question and answer database.
Answer candidate suggestion system.
さらに、ネットワークに接続され当該ネットワークを介して情報の送受信が可能な送受信装置を備え、
前記プロセッサは、前記第1の回答候補文章を、前記送受信装置に出力する、
回答候補提案システム。 The answer candidate suggestion system according to claim 1,
Further, a transmitting/receiving device is provided which is connected to the network and capable of transmitting and receiving information via the network,
The processor outputs the first answer candidate sentence to the transmitting/receiving device.
Answer candidate suggestion system.
さらに、少なくとも1つの単語を受信すると受信した前記単語に関するWEBサイトの情報を含む検索結果を返すウェブ検索エンジンに接続されたネットワークに接続され、当該ネットワークを介して前記ウェブ検索エンジンに情報の送受信が可能な送受信装置を備え、
前記記憶装置は、さらに、疑問があることを表す疑問詞および要望があることを表す要望語を保存する疑問詞要望語リストを格納し、
前記プロセッサは、
前記疑問詞要望語リストに保存された前記疑問詞または前記要望語を少なくとも一つ含む疑問要望文を、前記新規質問文章から抽出し、
前記疑問要望文に前記項目単語群を加えて前記質問情報を生成し、
前記質問情報を形態素解析して、複数の質問情報形態素を生成し、
前記複数の質問情報形態素それぞれのtf-idf法の重要度を、質問回答データベースを用いて算出し、
前記複数の質問情報形態素それぞれの前記tf-idf法の重要度に基づいて前記複数の質問情報形態素から検索単語群を生成し、
生成した前記検索単語群を前記送受信装置が前記ウェブ検索エンジンに送信するよう、前記送受信装置に前記検索単語群を出力し、
前記送受信装置が前記ウェブ検索エンジンから受信した前記検索単語群に関する検索結果を取得し、
取得した前記検索単語群に関する検索結果に基づいて第2の回答候補文章を生成する、回答候補提案システム。 The answer candidate suggestion system according to claim 1,
Further, a transmitting/receiving device is connected to a network connected to a web search engine that, upon receiving at least one word, returns search results including information on a web site related to the received word, and is capable of transmitting and receiving information to and from the web search engine via the network,
The storage device further stores an interrogative word and a request word list for storing interrogative words expressing doubt and request words expressing requests,
The processor,
Extracting an interrogative sentence including at least one of the interrogative words or the desired words stored in the interrogative word desired word list from the new question sentence;
generating the question information by adding the item word group to the question request sentence;
morphologically analyzing the question information to generate a plurality of question information morphemes;
calculating a TF-IDF importance for each of the plurality of question information morphemes using a question and answer database;
generating a search word group from the plurality of question information morphemes based on the importance of each of the plurality of question information morphemes in the TF-IDF method ;
outputting the generated search word group to the transmitting/receiving device so that the transmitting/receiving device transmits the generated search word group to the web search engine;
obtaining a search result relating to the group of search words received by the transmitting/receiving device from the web search engine;
The answer candidate suggestion system generates a second answer candidate sentence based on the search results related to the acquired group of search words.
前記記憶装置は、さらに、個人情報を表す複数の個人情報単語を保存する個人情報単語リストを格納し、
前記プロセッサは、
前記複数の質問情報形態素から、前記tf-idf法の重要度が高い複数の質問情報形態素を抽出し、さらに、前記個人情報単語リストに保存されている少なくとも1つの前記個人情報単語を除いて、前記検索単語群を生成する、
回答候補提案システム。 The answer candidate suggestion system according to claim 5 ,
The storage device further stores a personal information word list storing a plurality of personal information words representing personal information;
The processor,
extracting a plurality of question information morphemes having a high importance in the TF-IDF method from the plurality of question information morphemes, and generating the search word group by excluding at least one of the personal information words stored in the personal information word list;
Answer candidate suggestion system.
前記ウェブ検索エンジンが返す前記検索結果は、前記WEBサイトの概要文を含み、
前記プロセッサは、前記検索単語群に関する検索結果に含まれるWEBサイトの概要文に基づいて第2の回答候補文章を生成する、
回答候補提案システム。 The answer candidate suggestion system according to claim 5,
the search results returned by the web search engine include a summary of the web site;
The processor generates a second answer candidate sentence based on an outline of a website included in a search result related to the group of search words.
Answer candidate suggestion system.
前記プロセッサは、前記検索単語群に関する検索結果に含まれるWEBサイトの概要文を所定の順位付け方法で順位を付け、順位が上位の前記WEBサイトの概要文を第2の回答候補文章とする、
回答候補提案システム。 The answer candidate suggestion system according to claim 7 ,
the processor ranks abstracts of the websites included in the search results related to the group of search words using a predetermined ranking method, and sets the abstracts of the websites ranked higher as second answer candidate sentences.
Answer candidate suggestion system.
前記新規質問文章との類似度は、前記質問回答データベースを用いて算出されるtf-idf法のコサイン類似度であり、
前記複数の過去質問文章形態素それぞれの重要度は、前記質問回答データベースを用いて算出されるtf-idf法の重要度である、
回答候補提案システム。 The answer candidate suggestion system according to claim 1 ,
the similarity with the new question sentence is a cosine similarity calculated by the tf-idf method using the question and answer database,
the importance of each of the plurality of past question sentence morphemes is an importance calculated by a TF-IDF method using the question and answer database;
Answer candidate suggestion system.
前記回答候補提案システムは、プロセッサと、記憶装置とを備え、
前記記憶装置は、
過去の質問文章と、当該過去の質問文章に対する過去の回答文章を対応付けて保存する質問回答データベースを格納し、
前記プロセッサは、
前記新規質問文章が入力された場合には、
前記質問回答データベースに保存された前記過去の質問文章それぞれに対して、前記新規質問文章との類似度を算出し、
算出した、前記新規質問文章との類似度に基づいて、前記新規質問文章に類似する前記過去の質問文章を抽出し、
抽出した前記過去の質問文章を形態素解析して、複数の過去質問文章形態素を生成し、
複数の過去質問文章形態素それぞれの重要度を算出し、
前記複数の過去質問文章形態素から前記重要度の高い過去質問文章形態素を抽出して、項目候補単語群とし、
前記項目候補単語群からユーザが選択した項目単語群および前記新規質問文章が入力された場合には、
前記項目単語群と前記新規質問文章に基づいて、前記項目単語群を含む質問情報を生成し、
前記質問回答データベースに保存された前記過去の質問文章それぞれに対して、前記質問情報との類似度を算出し、
前記質問情報との類似度に基づいて前記質問回答データベースから前記質問情報に類似する過去の質問文章を抽出し、
抽出した前記質問情報に類似する過去の質問文章に対応付けられた過去の回答文章を前記質問回答データベースから抽出して、第1の回答候補文章とする、
回答候補提案方法。 An answer candidate suggestion method in an answer candidate suggestion system that generates answer candidate sentences that are candidates for answer sentences to a new question sentence, comprising:
The answer candidate suggestion system includes a processor and a storage device,
The storage device includes:
storing a question and answer database that stores past question sentences and past answer sentences to the past question sentences in association with each other;
The processor,
When the new question text is input,
calculating a similarity between the new question sentence and each of the past question sentences stored in the question and answer database;
extracting the past question sentences similar to the new question sentence based on the calculated similarity with the new question sentence;
performing morphological analysis on the extracted past question sentences to generate a plurality of past question sentence morphemes;
Calculate the importance of each of the multiple past question sentence morphemes,
extracting the past question sentence morphemes having high importance from the plurality of past question sentence morphemes, and setting the extracted morphemes as a group of candidate words for an item;
When the item word group selected by the user from the item candidate word group and the new question sentence are input,
generating question information including the item word group based on the item word group and the new question sentence;
calculating a similarity between the question information and each of the past question sentences stored in the question and answer database;
extracting past question sentences similar to the question information from the question and answer database based on the similarity with the question information;
extracting from the question and answer database a past answer sentence associated with a past question sentence similar to the extracted question information, and setting the extracted answer sentence as a first answer candidate sentence;
How to suggest answer candidates.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021206569A JP7629844B2 (en) | 2021-12-21 | 2021-12-21 | ANSWER CANDIDATE PROPOSAL SYSTEM AND ANSWER CANDIDATE PROPOSAL METHOD |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021206569A JP7629844B2 (en) | 2021-12-21 | 2021-12-21 | ANSWER CANDIDATE PROPOSAL SYSTEM AND ANSWER CANDIDATE PROPOSAL METHOD |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2023091791A JP2023091791A (en) | 2023-07-03 |
| JP7629844B2 true JP7629844B2 (en) | 2025-02-14 |
Family
ID=86995824
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021206569A Active JP7629844B2 (en) | 2021-12-21 | 2021-12-21 | ANSWER CANDIDATE PROPOSAL SYSTEM AND ANSWER CANDIDATE PROPOSAL METHOD |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7629844B2 (en) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2025059088A (en) * | 2023-09-28 | 2025-04-09 | ソフトバンクグループ株式会社 | system |
| US12158882B1 (en) * | 2023-10-03 | 2024-12-03 | Hitachi, Ltd. | Query based method to derive insight about manufacturing operations |
| JP7724506B2 (en) * | 2024-01-11 | 2025-08-18 | 株式会社Ndkcom | Question and answer search device and question and answer search program |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004102494A (en) | 2002-09-06 | 2004-04-02 | Nippon Telegr & Teleph Corp <Ntt> | Internet question answering method and apparatus using agent |
| JP2019219737A (en) | 2018-06-15 | 2019-12-26 | カラクリ株式会社 | Interactive server, interactive method and interactive program |
| WO2020240756A1 (en) | 2019-05-29 | 2020-12-03 | 富士通株式会社 | Reply processing program, reply processing method, and information processing device |
| JP2021144397A (en) | 2020-03-11 | 2021-09-24 | 北日本コンピューターサービス 株式会社 | Question-answering system and program |
-
2021
- 2021-12-21 JP JP2021206569A patent/JP7629844B2/en active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004102494A (en) | 2002-09-06 | 2004-04-02 | Nippon Telegr & Teleph Corp <Ntt> | Internet question answering method and apparatus using agent |
| JP2019219737A (en) | 2018-06-15 | 2019-12-26 | カラクリ株式会社 | Interactive server, interactive method and interactive program |
| WO2020240756A1 (en) | 2019-05-29 | 2020-12-03 | 富士通株式会社 | Reply processing program, reply processing method, and information processing device |
| JP2021144397A (en) | 2020-03-11 | 2021-09-24 | 北日本コンピューターサービス 株式会社 | Question-answering system and program |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2023091791A (en) | 2023-07-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11403355B2 (en) | Ingestion and retrieval of dynamic source documents in an automated question answering system | |
| JP7629844B2 (en) | ANSWER CANDIDATE PROPOSAL SYSTEM AND ANSWER CANDIDATE PROPOSAL METHOD | |
| CN102016787B (en) | Determining relevant information for domains of interest | |
| US8214347B2 (en) | Search result sub-topic identification system and method | |
| US10423672B2 (en) | Network resource-specific search assistance | |
| JP2011134334A (en) | System and method for identifying topics for short text communications | |
| JP2015109068A (en) | Mechanisms, methods, computer programs and devices for identifying and displaying relationships between candidate answers | |
| CN111194457A (en) | Patent evaluation determination method, patent evaluation determination device, and patent evaluation determination program | |
| CN102227723B (en) | Device and method for supporting detection of mistranslation | |
| KR20130021944A (en) | Method and apparatus for descriptive question answering | |
| JP5296014B2 (en) | Search device, method and program | |
| JP5480058B2 (en) | Advertisement matching apparatus, method and program | |
| US20120254233A1 (en) | Information processing system, information processor, and computer program product | |
| JP6488399B2 (en) | Information presentation system and information presentation method | |
| JP6188226B2 (en) | Related word extraction apparatus and program | |
| JP6188222B2 (en) | Topic extraction apparatus and program | |
| JP6034584B2 (en) | Patent search support device, patent search support method, and program | |
| JP2004054619A (en) | Document search system and method and document search program | |
| JP7203398B1 (en) | PAGE GENERATOR, WEB PAGE PRODUCTION METHOD, AND PROGRAM | |
| JP2011242844A (en) | Device, method, program and system for keyword extraction | |
| JP6695538B1 (en) | Similar sentence retrieval device and program | |
| JP5394512B2 (en) | Teacher data generation apparatus, method, and program | |
| JP2010055518A (en) | Searching device, method, and computer program | |
| JP6131983B2 (en) | Information retrieval apparatus, information retrieval method and program thereof | |
| JP2025009947A (en) | Information processing device, method, and program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231212 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20241016 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20241126 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20241225 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250121 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250203 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7629844 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |