JP5488249B2 - Program and information processing apparatus - Google Patents
Program and information processing apparatus Download PDFInfo
- Publication number
- JP5488249B2 JP5488249B2 JP2010142670A JP2010142670A JP5488249B2 JP 5488249 B2 JP5488249 B2 JP 5488249B2 JP 2010142670 A JP2010142670 A JP 2010142670A JP 2010142670 A JP2010142670 A JP 2010142670A JP 5488249 B2 JP5488249 B2 JP 5488249B2
- Authority
- JP
- Japan
- Prior art keywords
- evaluation
- expression
- expressions
- extracted
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000010365 information processing Effects 0.000 title claims description 20
- 238000011156 evaluation Methods 0.000 claims description 451
- 230000014509 gene expression Effects 0.000 claims description 436
- 238000000605 extraction Methods 0.000 claims description 28
- 238000012545 processing Methods 0.000 description 36
- 230000003908 liver function Effects 0.000 description 31
- 210000004185 liver Anatomy 0.000 description 30
- 238000000034 method Methods 0.000 description 27
- 230000006866 deterioration Effects 0.000 description 20
- 230000007423 decrease Effects 0.000 description 16
- 230000008569 process Effects 0.000 description 11
- 239000000284 extract Substances 0.000 description 10
- 101000856500 Bacillus subtilis subsp. natto Glutathione hydrolase proenzyme Proteins 0.000 description 9
- 241000701027 Human herpesvirus 6 Species 0.000 description 9
- 230000008859 change Effects 0.000 description 9
- 230000004048 modification Effects 0.000 description 9
- 238000012986 modification Methods 0.000 description 9
- 238000007689 inspection Methods 0.000 description 6
- 230000003612 virological effect Effects 0.000 description 6
- 238000013500 data storage Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 230000007420 reactivation Effects 0.000 description 3
- 241000282693 Cercopithecidae Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002637 fluid replacement therapy Methods 0.000 description 1
- -1 increase) or (liver Proteins 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、プログラムおよび情報処理装置に関する。 The present invention relates to a program and an information processing apparatus.
自然言語処理の分野において、ある表現と同じ意味を持つ表現である同義表現や、ある表現を言い換えた言い換え表現を特定する技術が知られている。 In the field of natural language processing, techniques for identifying synonymous expressions that have the same meaning as a certain expression and paraphrased expressions that rephrase a certain expression are known.
例えば、非特許文献1に記載の技術では、文における語の係り受け関係に基づいて、ある語とその修飾語または被修飾語とを接続する二部グラフを作成し、この二部グラフを用いて、互いに類似した係り受け関係を有する語同士を言い換え表現として特定する。
For example, in the technique described in Non-Patent
また、特許文献1には、予め設定されたルールに従って、ある表現の同義表現や言い換え表現を特定する技術が開示されている。特許文献1には、ある表現と他の表現との間に括弧記号(「」、()など)があり、かつ一方の表現が括弧で囲まれている場合に、これらの表現を言い換え表現とするルールの例が記載されている。
また、非特許文献2には、文中の語の構文のパターンに従って同義語などの関係を抽出するためのルールを定義しておき、このルールで定められた構文のパターンに現れる語同士を同義語などの関係を有する語として特定する技術が開示されている。 Also, in Non-Patent Document 2, a rule for extracting relationships such as synonyms according to the syntax pattern of words in a sentence is defined, and words appearing in the syntax pattern defined by this rule are synonyms. A technique for specifying a word having a relationship such as is disclosed.
ところで、何らかの対象に対する評価を表す表現では、互いに異なる意味の語句が、同一の構文または類似した構文の文中に現れることがある。また、評価を表す表現では、異なる意味の語句の前後に同一の単語が現れることもある。したがって、評価を表す表現に対して関連性が高い表現の候補を、ある表現を含む文の構文または当該表現の前後の単語を参考にして特定した場合、互いに異なる意味の表現を、互いに関連性が高い表現の候補として特定してしまう可能性がある。 By the way, in expressions representing evaluations for some objects, phrases having different meanings may appear in sentences having the same syntax or similar syntax. In the expression representing evaluation, the same word may appear before and after words having different meanings. Therefore, if a candidate for an expression that is highly relevant to the expression representing the evaluation is identified with reference to the syntax of a sentence including the expression or words before and after the expression, expressions having different meanings are related to each other. May be identified as a candidate for a high expression.
本発明は、ある表現を含む文の構文または当該表現の前後の単語を参考にして関連性が高い表現の候補を特定する技術と比較して、より正確に、評価を表す表現について関連性が高い表現の候補を特定するプログラムおよび情報処理装置を提供することを目的とする。 The present invention is more accurately related to expressions representing evaluations compared to a technique for identifying candidate expressions having high relevance by referring to the syntax of a sentence including a certain expression or words before and after the expression. It is an object of the present invention to provide a program and an information processing apparatus that specify high expression candidates.
請求項1に係る発明は、評価対象を評価するための評価項目を表す語と当該評価項目に対する評価値を表す語とを含む評価表現と、当該評価表現が肯定的な表現であるか否かを表す極性と、を関連付けて記憶した評価表現記憶手段を参照して、処理対象の文字列に含まれる前記評価表現を前記処理対象の文字列から抽出し、抽出した評価表現それぞれの極性を特定する特定ステップと、前記抽出した評価表現の間で前記評価対象および前記極性が共通するか否かに基づいて、前記抽出した評価表現を1以上のグループに分類する分類ステップと、前記分類ステップで同一のグループに分類された評価表現が複数ある場合に、これら複数の評価表現を互いに関連付けて関連表現記憶手段に対して出力する出力ステップと、をコンピュータに実行させるためのプログラムである。
The invention according to
請求項2に係る発明は、請求項1に係る発明において、前記分類ステップにおいて、前記抽出した評価表現を前記処理対象の文字列における出現順に並べた場合に、連続する評価表現の間で前記評価対象および前記極性が共通していれば、当該連続する評価表現を同じグループに分類する。
The invention according to claim 2 is the invention according to
請求項3に係る発明は、請求項1または2に係る発明において、前記出力ステップにおいて、前記複数の評価表現のうち、前記評価項目を表す語が互いに共通の意味クラスにある評価表現については、当該評価表現の間の関連付けを行わない。
The invention according to claim 3 is the invention according to
請求項4に係る発明は、請求項1から3のいずれか1項に係る発明において、前記コンピュータに、さらに、前記出力ステップにおける出力の対象となる前記複数の評価表現それぞれについて、当該評価表現を含む文字列を前記処理対象の文字列から抽出する抽出ステップを実行させ、前記抽出ステップで抽出される文字列は、前記処理対象の文字列において当該評価表現の前記評価項目を表す語または前記評価値を表す語との間に係り受け関係を有する語句を含み、前記出力ステップにおいて、前記複数の評価表現それぞれについて抽出した文字列を互いに関連付けて前記関連表現記憶手段に対して出力する。
The invention according to
請求項5に係る発明は、請求項4に係る発明において、前記出力ステップにおいて、前記複数の評価表現それぞれについて抽出した文字列のうち、互いに共通の意味クラスにある語が含まれる文字列については、当該文字列の間の関連付けを行わない。
The invention according to claim 5 is the invention according to
請求項6に係る発明は、請求項1から5のいずれか1項に係る発明において、前記コンピュータに、さらに、前記評価表現記憶手段に記憶された評価表現における前記評価項目のうち数値で評価値が表され得る評価項目を表す語のそれぞれと、当該評価項目の評価値の基準値と、を関連付けて記憶した基準値情報記憶手段を参照し、前記処理対象の文字列から、前記基準値情報記憶手段に記憶された評価項目を表す語と当該評価項目の評価値に相当する数値とを抽出し、抽出した評価項目に関連付けられた前記基準値と抽出した数値とを比較した結果に基づいて、当該評価項目と当該数値との組合せに相当する前記評価表現およびその極性を前記評価表現記憶手段において特定する第2特定ステップを実行させ、前記第2特定ステップで特定した評価表現をさらに前記分類ステップの処理対象とする。
The invention according to claim 6 is the invention according to any one of
請求項7に係る発明は、評価対象を評価するための評価項目を表す語と当該評価項目に対する評価値を表す語とを含む評価表現と、当該評価表現が肯定的な表現であるか否かを表す極性と、を関連付けて記憶した評価表現記憶手段を参照して、処理対象の文字列に含まれる前記評価表現を前記処理対象の文字列から抽出し、抽出した評価表現それぞれの極性を特定する特定手段と、前記特定手段が抽出した評価表現の間で前記評価対象および前記極性が共通するか否かに基づいて、前記抽出した評価表現を1以上のグループに分類する分類手段と、前記分類手段で同一のグループに分類された評価表現が複数ある場合に、これら複数の評価表現を互いに関連付けて関連表現記憶手段に対して出力する出力手段と、を備えることを特徴とする情報処理装置である。
The invention according to
請求項1または7に係る発明によると、ある表現を含む文の構文または当該表現の前後の単語を参考にして関連性が高い表現の候補を特定する技術と比較して、より正確に、評価を表す表現について関連性が高い表現の候補を特定することができる。
According to the invention according to
請求項2に係る発明によると、処理対象の文字列における出現順で連続して、同じ評価対象について肯定的な評価または否定的な評価を表す評価表現同士を互いに関連付けて出力できる。 According to the second aspect of the present invention, evaluation expressions representing positive evaluation or negative evaluation for the same evaluation object can be output in association with each other successively in the order of appearance in the character string to be processed.
請求項3に係る発明によると、評価項目を表す語が互いに共通の意味クラスにある評価表現同士を関連付けないようにすることができる。 According to the third aspect of the present invention, it is possible not to associate evaluation expressions in which words representing evaluation items are in a common semantic class.
請求項4に係る発明によると、互いに関連付けられる複数の評価表現のそれぞれと、当該評価表現の評価項目を表す語または評価値を表す語との間に係り受け関係を有する語句と、を含む文字列を処理対象の文字列から抽出し、抽出した文字列を互いに関連付けて出力できる。
According to the invention of
請求項5に係る発明によると、互いに共通の意味クラスにある語を含む文字列同士を関連付けないようにすることができる。 According to the invention which concerns on Claim 5, the character string containing the word which exists in a mutually common semantic class can be made not to associate.
請求項6に係る発明によると、数値で評価が表される評価項目を含む評価表現について関連性が高い表現の候補を特定できる。 According to the invention which concerns on Claim 6, the expression candidate with high relevance can be specified about the evaluation expression containing the evaluation item by which evaluation is represented numerically.
本発明の実施形態の例では、処理対象のテキスト(文章)を解析することで、何らかの評価対象を評価する表現の言い換え表現の候補を特定する。ここで、ある表現の「言い換え表現」とは、当該ある表現と何らかの関連があることから当該ある表現と置換可能な表現を指す。例えば、ある表現の「言い換え表現」は、当該ある表現と同じ意味を有する表現であってもよいし、当該ある表現と類似した意味を有する表現であってもよい。また、本実施形態の例では、各人の知識や考え方によっては必ずしも置換可能と認められないような表現同士であっても、一方の表現を他方の言い換え表現の候補として特定することもある。例えば、ある専門分野における評価の表現を他の表現に言い換えることで、当該専門分野の知識を有しない者にとって、その評価についての理解の助けになり得る場合、当該専門分野の専門家にとって必ずしも置換可能とは認められない表現同士であっても、言い換え表現の候補とすることがある。したがって、本発明の実施形態の例では、ある語の言い換え表現の候補とは、当該ある語に対して関連性が高い表現であると捉えられる。以下では、ある表現の言い換え表現の候補となる表現、つまり、ある表現に対して関連性が高い表現を「関連表現」と呼ぶ。 In the example of the embodiment of the present invention, by analyzing the text (sentence) to be processed, a paraphrase expression candidate for an expression that evaluates some evaluation object is specified. Here, the “paraphrased expression” of a certain expression refers to an expression that can be replaced with the certain expression because it has some relation to the certain expression. For example, the “paraphrase expression” of a certain expression may be an expression having the same meaning as the certain expression, or may be an expression having a similar meaning to the certain expression. Further, in the example of the present embodiment, one expression may be specified as a candidate for the other paraphrase expression, even if the expressions are not necessarily recognized as being replaceable depending on the knowledge and way of thinking of each person. For example, if a person who does not have knowledge in the field of specialization can help to understand the evaluation by rephrasing the expression of the evaluation in one field of expertise, it is not necessarily a replacement for the expert in the field of expertise. Even expressions that are not considered possible may be candidates for paraphrased expressions. Therefore, in the example of the embodiment of the present invention, a candidate for a paraphrased expression of a certain word is regarded as an expression highly relevant to the certain word. Hereinafter, an expression that is a candidate for a paraphrase expression of a certain expression, that is, an expression that is highly relevant to a certain expression is referred to as a “related expression”.
図1は、本発明の一実施形態の例による情報処理装置の内部構成の概略を示すブロック図である。情報処理装置10は、参照データ記憶部110、コーパス解析部120、評価表現抽出部130、評価表現分類部140、関連表現生成部150、意味クラス判定部160、出力処理部170、および関連表現記憶部180を備える。
FIG. 1 is a block diagram showing an outline of an internal configuration of an information processing apparatus according to an example of an embodiment of the present invention. The
参照データ記憶部110は、処理対象のテキストの解析において用いられる各種のデータを記憶する。参照データ記憶部110は、解析辞書112、評価表現辞書114、および意味辞書116を備える。
The reference
解析辞書112は、単語と当該単語の文法上の役割などを表す情報とを対応づけて記憶すると共に、処理対象のテキストが記述された言語(本例では日本語)の文法規則を記憶した辞書である。解析辞書112には、一般的な単語だけでなく、様々な専門分野で用いられる専門用語も登録しておいてよい。例えば、特定の専門分野の文章を処理対象とする場合、当該特定の専門分野の専門用語を解析辞書112に登録しておく。本実施形態の例では、医療分野の文章が情報処理装置10の処理対象であり、一般的な単語と共に医療分野の専門用語が解析辞書112に登録されるものとする。
The
評価表現辞書114は、何らかの評価対象に対する評価を表す評価表現と、その評価表現が肯定的な評価であるか否定的な評価であるかを示す極性と、を関連付けて記憶する。本実施形態の例の評価表現辞書114は、医療分野における評価表現およびその極性を記憶する。図2に、評価表現辞書114のデータ内容の一例を示す。
The
図2には、評価対象の状態の変化を評価する評価表現の例を示す。図2の例では、評価表現辞書114において、評価の「対象」、「属性」、および「評価値」の組からなる評価表現のそれぞれに関連付けて、当該評価表現の極性が登録される。評価表現の「対象」は、その評価表現における評価対象を表す。図2に例示する評価表現は、すべて、「肝臓」が評価対象である。評価表現の「属性」は、評価対象を評価するための評価項目を表す語である。図2には、属性として、「肝機能」,「GOP」,「GPT」の各語を含む評価表現の例が示される。評価表現の「評価値」は、対応する属性の評価の良し悪しを表す語である。図2には、評価値として、「改善」,「悪化」,「低下」,「減少」,「増加」,「上昇」の各語を含む評価表現の例が示される。図2に例示する評価値は、いずれも、評価対象の状態の変化を表す語である。また、各評価表現に関連付けられた「極性」は、当該評価表現が肯定的であるか否定的であるかを表す。図2の表では、極性の値「positive」は当該評価表現が肯定的であることを表し、極性の値「negative」は当該評価表現が否定的であることを表す。
FIG. 2 shows an example of an evaluation expression for evaluating a change in the state of the evaluation target. In the example of FIG. 2, in the
評価表現辞書114のデータ内容は、情報処理装置10の後述の各要素が処理を開始する前に予め生成して登録しておく。例えば、処理対象とするテキストに関連する分野(本実施形態の例では医療分野)における複数の文章から、評価対象、属性、および評価値を含む評価表現を抽出して極性を決定し、当該評価表現と当該極性とを関連付けて評価表現辞書114に登録することで、評価表現辞書114のデータ内容を生成する。評価表現の抽出および極性の決定は、従来から知られている技術を用いて行えばよい。例えば、特開2005−235014号公報および参考文献1(小林のぞみ,乾健太郎,松本裕治,立石健二,福島俊一共著,「意見抽出のための評価表現の収集」,自然言語処理,12(2),2005年)などに記載された手法を用いればよい。
The data contents of the
再び図1を参照し、意味辞書116は、一般的な単語および専門用語の意味に関する情報を記憶する。本実施形態の例では、意味辞書116は、一般的な単語および専門用語についてのシソーラスを含む。シソーラスは、単語の概念上の上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけた辞書であり、単語の分類に応じた階層構造を有する。また、本実施形態の例の意味辞書116は、各単語の同義語を表す同義語辞書をさらに含む。
Referring again to FIG. 1, the
図1の説明に戻り、コーパス解析部120は、解析辞書112を参照して、処理対象のテキストに対して形態素解析および構文解析を行う。形態素解析および構文解析は、自然言語処理の技術において従来から知られている手法を用いて行えばよい。コーパス解析部120による解析は、後述の各部における処理のための前処理である。
Returning to the description of FIG. 1, the
なお、処理対象のテキストは、例えば、文書を記憶したデータベース(図示しない)から取得される。本実施形態の例では、医師、看護師、および医療機関のスタッフなどが作成した文書(学術論文や患者の病状についてのレポートなど)を記憶したデータベース中の文書から処理対象のテキストを取得するものとする。データベース中の全文書に含まれるすべての文章を処理対象のテキストとしてもよいし、データベース中の文書のうちユーザが指定した文書に含まれる文章のすべてを処理対象のテキストとしてもよい。あるいは、データベース中の1以上の文書においてユーザが指定した1以上の部分に含まれる文章を処理対象のテキストとしてもよい。 Note that the text to be processed is acquired from, for example, a database (not shown) that stores documents. In the example of this embodiment, the text to be processed is acquired from a document in a database storing documents (such as academic papers and reports on patient medical conditions) created by doctors, nurses, and staff of medical institutions. And All sentences included in all documents in the database may be text to be processed, or all sentences included in documents specified by the user among documents in the database may be text to be processed. Alternatively, a sentence included in one or more portions designated by the user in one or more documents in the database may be set as the text to be processed.
評価表現抽出部130は、評価表現辞書114を参照し、コーパス解析部120が解析した処理対象のテキストから評価表現を抽出する。以下、図3に示す文章「GPT優位の肝機能の悪化が認められた。GOPの増加、GPTの著明な上昇。補液などを行い速やかな肝機能の改善を認めた。・・・」が処理対象のテキストである場合を例にとり、評価表現抽出部130による評価表現の抽出の様子を説明する。本例において、評価表現辞書114には、図2に例示するデータ内容が登録されているとする。
The evaluation
評価表現抽出部130は、評価表現辞書114に登録された評価表現に含まれる、属性を表す語および評価値を表す語を処理対象のテキストにおいて特定する。図3において破線の四角で囲まれた語が、評価表現抽出部130により特定される属性および評価値の語の例である。さらに、評価表現抽出部130は、特定した評価値と組になる属性を特定する。特定した評価値に対応する属性は、例えば、処理対象のテキストの係り受け関係に基づいて特定してもよいし、あるいは、参考文献2(飯田龍,小林のぞみ,乾健太郎,松本裕治,立石健二,福島俊一共著,「意見抽出を目的とした機械学習による属性‐評価値対同定」,情報処理学会自然言語処理研究会,2005−NL−165)に記載されているように機械学習の手法を用いて特定してもよい。参考文献2に記載された手法では、処理対象のテキストから<対象,属性,評価値>の3つ組で表される評価表現(当該文献中では「意見」と呼ばれる)を抽出する問題を、(1)<属性,評価値>の対を同定する問題、および(2)同定した対が意見性を持つか否か(どのような記述を意見とみなすかを表す条件を満たすか否か)を判定する問題に分けて、それぞれ、機械学習に基づく手法を用いて解析することで、評価表現を抽出する。図3において、組となる属性と評価値とは破線矢印で接続されている。評価表現抽出部130は、処理対象のテキストにおいて特定した属性を表す語と評価値を表す語との組を抽出する。図3の例では、(属性,評価値)の組として、(肝機能,悪化),(GOP,増加),(GPT,上昇),(肝機能,改善)が抽出される。
The evaluation
なお、図3を参照する本例では、評価表現抽出部130は、評価表現における評価対象を、処理対象のテキストとは別に取得する。例えば、評価表現抽出部130は、処理対象のテキストを含む文書をデータベースから取得して解析し、当該文書の主題を表す文字列を特定し、この文字列から、評価表現辞書114に記憶された評価対象を表す語を抽出する。文書の主題を表す文字列は、例えば、文書の名称であってよい。また、例えば当該文書が患者の病状についてのレポートである場合、当該患者の病名を記述した文字列を、文書の主題を表す文字列としてもよい。また、当該文書の主題を表す文字列を特定する代わりに、当該文書において処理対象のテキストを含む部分(章、節、項目など)のタイトルに相当する文字列を特定し、この文字列から評価対象を表す語を抽出してもよい。以上の例において、文書中のどのような文字列から評価対象を表す語を抽出するか、および、評価対象を表す語の抽出の基となる文字列が文書中のどこに存在し得るかを表す情報は、予め設定されて参照データ記憶部110に記憶されており、この情報を参照して、評価表現抽出部130は文書の解析および評価対象の抽出を行えばよい。また、他の例では、ユーザによる処理対象のテキストの指定を受け付けると共に、評価対象の指定をユーザから受け付けてもよい。評価表現抽出部130は、上述の各例のように取得した評価対象を、処理対象のテキストから抽出した属性と評価値との組に対応づけて、(対象,属性,評価値)の3つ組からなる評価表現とする。図3の例では、評価対象「肝臓」が取得され、評価表現(肝臓,肝機能,悪化),(肝臓,GOP,増加),(肝臓,GPT,上昇),(肝臓,肝機能,改善)が得られるとする。
In this example with reference to FIG. 3, the evaluation
さらに、評価表現抽出部130は、抽出した評価表現のそれぞれについて、評価表現辞書114において当該評価表現に関連付けて登録された極性の値を取得する。図3の例の処理対象のテキストから抽出される評価表現(対象,属性,評価値)と各評価表現について取得される極性の値とを図4に例示する。図4の表に示す各評価表現の極性の値は、図2に例示する評価表現辞書114において当該評価表現に関連付けられた極性の値である。
Further, the evaluation
図1の説明に戻り、評価表現分類部140は、抽出された評価表現の間で、属性を表す語および極性が共通するか否かに基づいて、抽出された評価表現を1以上のグループに分類する。同じグループに分類された複数の評価表現は、互いに関連表現の候補となる。
Returning to the description of FIG. 1, the evaluation
図4を参照し、評価表現分類部140による分類の一具体例を説明する。図4の表は、図3の例の処理対象のテキストから抽出された評価表現およびその極性を、処理対象のテキストにおける評価表現の出現の順に上の行から下の行に向かって並べたものである。本例では、評価表現分類部140は、処理対象のテキストで連続して出現する評価表現の間で、評価対象および極性が共通するものを同じグループに分類する。同一の評価対象に対し、同じ極性の評価表現が連続して記述されている場合、記述を行った者の評価対象に対する態度が一貫していると認められる。よって、このような評価表現同士は、同一の評価対象に対して、同様の評価を言い換えて表現したものである可能性がある。したがって、評価表現分類部140は、このような評価表現同士を、関連表現の候補として同じグループに分類する。図4を参照し、評価対象が「肝臓」で、極性が「negative」で連続している最初の3つの評価表現がグループ1に分類され、評価対象がグループ1と同じ「肝臓」であっても、極性が「positive」で異なる4つめの評価表現は、グループ2に分類される。
A specific example of classification by the evaluation
再び図1を参照し、関連表現生成部150は、評価表現分類部140による分類の結果を用いて、関連表現の組を生成する。例えば、関連表現生成部150は、評価表現分類部140が評価表現を分類したグループのうち複数の評価表現を含むグループについて、当該グループに含まれる評価表現のそれぞれを含む文字列を処理対象の文字列から抽出する。ここで各評価表現について抽出される文字列は、処理対象のテキストにおいて、評価表現の属性を表す語または評価値を表す語との間に係り受け関係を有する語句を含む。例えば、図4の例のグループ1に含まれる評価表現(肝臓,肝機能,悪化)の場合、処理対象のテキスト(図3)から、属性「肝機能」および評価値「悪化」を含む、「肝機能の悪化」,「GPT優位の肝機能の悪化」などの文字列が抽出される。また、評価表現(肝臓,GOP,増加)の場合、文字列「GOPの増加」が抽出され、評価表現(肝臓,GPT,上昇)の場合、文字列「GPTの上昇」,「GPTの著明な上昇」が抽出される。なお、関連表現生成部150は、評価表現の属性および評価値を含む文字列のうち、構文上、句または文として成立する最小単位の文字列(構文上の最短のパスにより得られる文字列)だけを処理対象のテキストから抽出してもよい。この場合、文字列「肝機能の悪化」,「GOPの増加」,「GPTの上昇」が処理対象のテキストから抽出される。
Referring again to FIG. 1, the related
関連表現生成部150は、あるグループに含まれる各評価表現について抽出した文字列のうちの2つずつを関連表現の組とする。ただし、評価表現における属性を表す語同士が共通の意味クラスに属すると判定される文字列同士は関連表現の組としない。また、処理対象の文字列から評価表現について抽出した文字列においても、共通の意味クラスに属すると判定される語を含む文字列同士を関連表現の組とすることはない。ここで、意味クラスとはシソーラス辞書等で共通の意味素でまとめられた語の集合のことであり、意味素とは意味を計算機で扱う際に用いる意味の基本単位である。例えば、意味素が「動物」である場合、意味クラスは「犬」や「馬」や「猿」といった語の集合となる。関連表現生成部150は、意味クラス判定部160に依頼して、あるグループに含まれる評価表現の属性を表す語のうち互いに共通の意味クラスにあるものが存在するか否か、および、評価表現について抽出した文字列において互いに共通の意味クラスにある語を含む文字列が存在するか否かを判定させる。
The related
意味クラス判定部160は、関連表現生成部150からの依頼を受けて、互いに共通の意味クラスにある語を判定する。ある評価対象を評価する評価表現において異なる事柄を表す複数の語が現れる場合は、これらの語が共通の意味クラスを持つ場合と捉えることができる。例えば、図3および図4を参照する上述の例において、評価表現の属性「GOP」,「GPT」は、互いに異なる検査項目を表す。よって、本例では、「GOP」および「GPT」が互いに共通する意味クラスにある語と判定される。本実施形態の例の意味クラス判定部160は、意味辞書116を参照して、語同士が共通の意味クラスにあるか否かを判定する。より具体的には、意味辞書116に含まれるシソーラスにおいて意味クラスが同じであり、かつ、意味辞書116に含まれる同義語辞書において同義語として登録されていない語同士を、互いに共通の意味クラスにあると判定する。ここで、複数の語の意味クラスが同じであるか否かは、シソーラスが有する概念の階層構造に従って判定すればよい。例えば、シソーラスの階層構造において、複数の語に相当する各概念(の項目)の直近の上位に位置する概念が同一である場合に、意味クラスが同じであると判定すればよい。言い換えると、シソーラスの階層構造に対応する木構造において、複数の語にそれぞれ対応するノードが同一の親ノードを有する場合に、意味クラスが同じであると判定すればよい。上述の「GOP」,「GPT」の例の場合、これらの語は、シソーラスの階層構造において、同じ「検査値」の概念(意味クラス)の直近の下位概念に属し、同義語ではないことから、共通の意味クラスにあると判定されるものとする。
The semantic
出力処理部170は、関連表現生成部150が生成した関連表現の組を出力する処理を行う。例えば、生成された関連表現の組を関連表現記憶部180に対して出力する。この出力処理により、関連表現の組が関連表現記憶部180に登録される。また、出力処理部170は、関連表現の組を図示しない表示装置に表示させる処理を行ってもよい。
The
関連表現記憶部180は、関連表現生成部150が生成し、出力処理部170により出力された関連表現の組を記憶する。図5に、関連表現記憶部180のデータ内容の一例を示す。図5は、図3の処理対象テキストから図4の評価表現が抽出された場合に関連表現生成部150が生成する関連表現の組の例を示す。図5の表の1行に記載された2つの表現が1つの関連表現の組を表す。図5を参照すると、評価表現(肝臓,肝機能,悪化)に基づく表現「肝機能の悪化」と、評価表現(肝臓,GOP,増加)に基づく表現「GOPの増加」と、が関連表現の組として登録されている。また、「肝機能の悪化」と、評価表現(肝臓,GPT,上昇)に基づく表現「GPTの上昇」および「GPTの著明な上昇」のそれぞれとが関連付けられて登録されている。さらに、評価表現(肝臓,肝機能,悪化)に基づく表現「GPT優位の肝機能の悪化」と、「GPTの上昇」および「GPT」のそれぞれとが関連付けられて登録されている。なお、意味クラス判定部160により属性を表す語が共通の意味クラスにあると判定される評価表現(肝臓,GOP,増加)および(肝臓,GPT,上昇)に基づく表現同士は、関連表現の組として登録されていない。また、表現「GPT優位の肝機能の悪化」は、「GPT」の語を含むことから、これと共通の意味クラスにある語「GOP」を含む「GOPの増加」と関連付けられていない。
The related
以下、図6を参照し、情報処理装置10が行う処理の手順の例を説明する。情報処理装置10は、例えば、図示しない入力装置を用いてユーザが処理の開始を指示したときに、図6の例の手順の処理を開始する。
Hereinafter, an example of a procedure of processing performed by the
まず、情報処理装置10は、処理対象のテキストを取得する(ステップS10)。本例では、医療分野の文書を記憶したデータベース中の文書から処理対象のテキストを取得する。
First, the
情報処理装置10のコーパス解析部120は、処理対象のテキストに対し、形態素解析および構文解析を行う(ステップS12)。ステップS12では、解析辞書112が参照される。
The
ステップS12の後、評価表現抽出部130は、処理対象のテキストから、評価表現を抽出する(ステップS14)。評価表現抽出部130は、図3を参照して上述した例のように、評価表現辞書114を参照して、処理対象のテキストから属性を表す語と評価値を表す語との組を抽出する。さらに、処理対象のテキストを含む文書から、あるいは、ユーザの指定により、処理対象のテキスト中の評価表現における評価対象を取得し、取得した評価対象を、抽出した属性と評価値との組に対応づけて、(評価対象,属性,評価値)により表される評価表現を得る。
After step S12, the evaluation
評価表現抽出部130は、ステップS14で抽出した評価表現のそれぞれの極性を特定する(ステップS16)。本例の評価表現抽出部130は、抽出した評価表現のそれぞれについて、当該評価表現に関連付けて評価表現辞書114に登録された極性の値を取得する。評価表現抽出部130は、ステップS14,S16の結果を評価表現分類部140に渡す。上述の図4は、ステップS14,S16の結果として得られる評価表現とその極性の例である。
The evaluation
評価表現分類部140は、ステップS14で抽出された評価表現を、これらの評価表現の間で評価対象および極性が共通するか否かに基づいて、1以上のグループに分類する(ステップS18)。評価表現分類部140は、図4を参照して上述した例のように、処理対象のテキストにおける出現順で連続する評価表現の間で、評価対象および極性が共通する場合に、これらの連続する評価表現を同じグループに分類する。図4の例では、抽出された評価表現のすべてにおいて評価対象が「肝臓」で共通であるため、同じ極性が連続していれば同じグループに分類される。
The evaluation
ステップS18における分類結果の他の例として、図7に、抽出された評価表現において異なる評価対象を含むものがある場合の例を示す。図7の表を参照し、対象Aについての評価表現が3つ、対象Bについての評価表現が4つ、対象Cについての評価表現が1つ、ステップS14で抽出されたとする。また、これらの評価表現は、図7の表の上の行から順に処理対象のテキスト中に出現していたとする。このとき、対象Aで極性「positive」が連続する2つの評価表現がグループaに分類され、その次の対象Aの評価表現(極性「negative」)は、単独でグループbに分類される。さらに、対象Bで極性「negative」が連続する2つの評価表現がグループcに、対象Bで極性「positive」が連続する2つの評価表現がグループdに分類され、残りの対象Cの評価表現はさらに他のグループeに分類される。 As another example of the classification result in step S18, FIG. 7 shows an example in the case where there is an extracted evaluation expression including different evaluation objects. Referring to the table of FIG. 7, it is assumed that three evaluation expressions for the object A, four evaluation expressions for the object B, and one evaluation expression for the object C are extracted in step S14. Also, it is assumed that these evaluation expressions appear in the text to be processed in order from the top row in the table of FIG. At this time, two evaluation expressions in which the polarity “positive” continues in the object A are classified into the group a, and the evaluation expression (polarity “negative”) of the next object A is classified into the group b alone. Further, two evaluation expressions having the polarity “negative” continuous in the object B are classified into the group c, and two evaluation expressions having the polarity “positive” in the object B are classified into the group d, and the evaluation expressions of the remaining object C are Furthermore, it is classified into another group e.
評価表現分類部140は、ステップS18における分類の結果を関連表現生成部150に渡す。
The evaluation
次に、関連表現生成部150は、各グループについて、評価表現の属性を表す語のうち共通の意味クラスにある語が存在するか否かを意味クラス判定部160に判定させる(ステップS20)。例えば、関連表現生成部150は、複数の評価表現を含むグループについて、当該グループに含まれる評価表現の属性を表す語のうち、互いに共通の意味クラスにあるものが存在するか否かを意味クラス判定部160に判定させる。図4のグループ1の例の場合、「肝機能」と「GOP」、「肝機能」と「GPT」、および「GOP」と「GPT」の3種類の組合せについて、互いに共通の意味クラスにあるか否かを意味クラス判定部160に判定させる。この例では、意味クラス判定部160は、上記で説明したように、「GOP」と「GPT」とが共通の意味クラスにあると判定し、「肝機能」と「GOP」、「肝機能」と「GPT」については共通の意味クラスにないと判定する。
Next, the related
共通の意味クラスにあるか否かの判定の後、関連表現生成部150は、複数の評価表現を含む各グループの各評価表現を含む文字列を処理対象のテキストから抽出する(ステップS22)。図4のグループ1の場合、ステップS22で、上述のように、図3の処理対象テキストから、「肝機能の悪化」、「GPT優位の肝機能の悪化」、「GOPの増加」、「GPTの上昇」および「GPTの著明な上昇」が抽出される。関連表現生成部150は、同じグループの各評価表現について抽出した文字列のうちの2つずつを関連表現の組とする。ただし、ステップS20で共通の意味クラスにあると判定された語を含む文字列同士は関連表現の組としない。関連表現生成部150は、生成した関連表現の組を出力処理部170に渡す。
After determining whether or not they are in a common semantic class, the related
ステップS22の後、出力処理部170は、関連表現生成部150から受け取った関連表現の組を関連表現記憶部180に登録する(ステップS24)。上述の図5は、ステップS24における登録の結果の例である。ステップS24の後、図6の例の手順の処理は終了する。
After step S22, the
図6の例の手順の処理により、関連表現記憶部180には、関連表現の組、つまり、言い換え可能な(互いに関連性の高い)表現の候補の組が登録される。関連表現記憶部180は、文章の検索処理などに用いられる。例えば、ユーザにより入力された検索クエリに含まれる表現の関連表現を関連表現記憶部180から取得し、入力された検索クエリに含まれる表現だけでなく、この表現の関連表現も検索キーとして文書を検索するといった処理を行うことが考えられる。
By the processing of the procedure in the example of FIG. 6, a set of related expressions, that is, a set of expression candidates that can be paraphrased (highly related to each other) is registered in the related
以上、図3から図5を参照して説明した例では、処理対象のテキストにおいて、評価表現の属性および評価値の両方が1つの文に含まれている。処理対象のテキストの他の例では、評価表現の属性および評価値が異なる文に出現していてもよい。例えば、図8を参照し、処理対象のテキストが「血小板の調査結果が得られた。著明な低下が認められる。HHV−6ウイルス量の増加が認められる。HHV−6の再活性化が関与していた可能性も考えられる。」であるとする。図8における破線の四角および破線矢印は、図3と同様、評価表現の属性を表す語とその評価値を表す語との組を示す。図8では、評価表現の属性と評価値との組として、(血小板,低下),(HHV−6ウイルス量,増加),(HHV−6,再活性化)が抽出され、これらの3つの評価表現が図6のステップS18で同じグループに分類されるとする。(血小板,低下)の組は、属性を表す語「血小板」と評価値を表す語「低下」とが2つの異なる文に出現している。このような場合、(血小板,低下)を含む文字列として、例えば、「血小板の調査結果が得られた。低下が認められる。」および「血小板の調査結果が得られた。著明な低下が認められる。」が抽出され、(HHV−6ウイルス量,増加),(HHV−6,再活性化)に基づく文字列「HHV−6ウイルス量の増加」,「HHV−6の再活性化」などの関連表現として関連表現記憶部180に登録され得る。 As described above, in the example described with reference to FIGS. 3 to 5, both the attribute of the evaluation expression and the evaluation value are included in one sentence in the text to be processed. In another example of the text to be processed, the evaluation expression attribute and the evaluation value may appear in different sentences. For example, referring to FIG. 8, the text to be processed is “Platelet survey results were obtained. A marked decrease was observed. An increase in HHV-6 viral load was observed. Reactivation of HHV-6 was observed. It is possible that he was involved. ” A broken-line square and a broken-line arrow in FIG. 8 indicate a set of a word representing an attribute of the evaluation expression and a word representing the evaluation value, as in FIG. In FIG. 8, (platelet, decrease), (HHV-6 viral load, increase), and (HHV-6, reactivation) are extracted as a set of evaluation expression attributes and evaluation values, and these three evaluations are extracted. Assume that the expressions are classified into the same group in step S18 of FIG. In the set of (platelet, decrease), the word “platelet” representing an attribute and the word “decrease” representing an evaluation value appear in two different sentences. In such a case, as a character string including (platelet, decrease), for example, “Platelet survey results were obtained. Decrease was observed.” And “Platelet survey results were obtained. Is recognized, and the strings “HHV-6 viral load”, “HHV-6 viral load, increase”, “HHV-6 viral load”, “HHV-6 viral load”, “reactivation of HHV-6” Or the like as a related expression.
以上で説明した実施形態の例は、本発明の実施の形態の一例に過ぎず、各種の変形例があってよい。 The example of embodiment described above is only an example of embodiment of this invention, and there may be various modifications.
一変形例では、評価表現の属性のうち数値で評価値が表され得る属性について、処理対象のテキストにおいて当該属性の評価値を表す数値が記述されている場合に、評価表現抽出部130は、当該属性を表す語と数値との組を処理対象のテキストから抽出してもよい。この変形例では、評価表現辞書114または意味辞書116において、さらに、評価表現のうち評価値が数値で表され得る属性(評価項目)の評価値の基準値を表す情報を記憶しておく。例えば、医療における各種の検査項目は、評価表現の属性となることがあり、かつ、数値によって評価値が表される。よって、本変形例の評価表現辞書114または意味辞書116は、評価表現における属性のうち検査項目を表す語と当該検査項目の検査値の基準値を表す情報とを関連付けて記憶する。図9に、このような基準値の情報の例を示す。図9の例の表は、評価表現の属性のうち数値で評価値が表され得る検査項目を表す語と、その評価値の基準値とが互いに関連付けられている。図9に例示するような基準値の情報は、例えば、医療機関で行われ得る検査の検査項目およびその基準値を用いて予め生成されて評価表現辞書114または意味辞書116に登録される。
In one modification, for an attribute whose evaluation value can be represented by a numerical value among the attributes of the evaluation expression, when a numerical value representing the evaluation value of the attribute is described in the text to be processed, the evaluation expression extracting unit 130 A pair of a word and a numerical value representing the attribute may be extracted from the text to be processed. In this modified example, the
図2の例のデータ内容に加えて図9の例の基準値の情報が評価表現辞書114に登録されている場合に、例えば、文「γ−GTPは110となり、肝機能の低下が見られる。」を処理対象のテキストとしたとする。このとき、評価表現抽出部130は、属性と評価値との組として、(γ−GTP,110)および(肝機能,低下)を抽出する。なお、評価対象としては「肝臓」が取得される。処理対象テキストから抽出される評価表現(肝臓,肝機能,低下)は、評価表現辞書114に登録された評価表現そのものであり、その極性は「negative」である。評価表現抽出部130は、抽出した属性と数値との組(γ−GTP,110)については、図9の例の基準値の情報を参照し、「γ−GTP」の基準値「50以下」と抽出した数値「110」とを比較する。この比較の結果、抽出した数値「110」の方が基準値よりも大きいことから、例えば、属性「γ−GTP」を含む評価表現のうち、数値が大きくなる変化を表す評価値「増加」または「上昇」を含む評価表現(肝臓,γ−GTP,増加)または(肝臓,γ−GTP,上昇)を、(γ−GTP,110)に対応する評価表現として選択する。そして、選択した評価表現の極性を評価表現辞書114から取得し、この評価表現およびその極性を、処理対象のテキストから抽出した他の評価表現(肝臓,肝機能,低下)およびその極性と共に、評価表現分類部140による分類処理の対象とする。なお、関連表現生成部150は、属性と数値との組に対応する評価表現について、処理対象のテキストから文字列を抽出する処理を行うとき、当該属性と数値とを含む文字列(例「γ−GTPは110」)を抽出してもよいし、当該数値を、対応する評価表現の評価値の語に置き換えた文字列(例「γ−GTPは増加」)を取得してもよい。
When the reference value information of the example of FIG. 9 is registered in the
図9を参照する本変形例において、処理対象のテキストから抽出された属性と数値との組に対応する評価表現は、当該抽出された数値と、当該属性に関連付けられた基準値と、の比較の結果に基づいて特定される。例えば、抽出された数値が基準値よりも大きければ、数値が大きくなる変化を表す語(増加、上昇など)を評価値として含み、かつ当該数値と組として抽出された属性を含む評価表現を対応する評価表現とする。逆に、抽出された数値が基準値よりも小さければ、数値が小さくなる変化を表す語(減少、低下など)を評価値として含み、かつ当該数値と組として抽出された属性を含む評価表現を対応する評価表現とする。また、抽出された数値が基準値と同じであれば、対応する評価表現は存在しないことにしてよい。なお、属性の基準値が数値の範囲によって表されている場合、抽出した数値が基準値の範囲の上限を超えていれば、数値が大きくなる変化を表す語を含む評価表現を、抽出した数値が基準値の範囲の下限を下回っていれば、数値が小さくなる変化を表す評価表現を、対応する評価表現とすればよい。 In this modification example with reference to FIG. 9, the evaluation expression corresponding to the combination of the attribute and the numerical value extracted from the text to be processed is a comparison between the extracted numerical value and the reference value associated with the attribute. Based on the result of For example, if the extracted numerical value is larger than the reference value, it corresponds to an evaluation expression that includes a word (increase, increase, etc.) that represents a change that increases the numerical value as an evaluation value and includes the attribute extracted as a pair with the numerical value. The evaluation expression to be used. On the contrary, if the extracted numerical value is smaller than the reference value, an evaluation expression including a word (decrease, decrease, etc.) indicating a change in the numerical value as an evaluation value and an attribute extracted as a pair with the numerical value. The corresponding evaluation expression. Further, if the extracted numerical value is the same as the reference value, there may be no corresponding evaluation expression. In addition, when the reference value of an attribute is represented by a numerical value range, if the extracted numerical value exceeds the upper limit of the reference value range, the extracted numerical value includes an evaluation expression that includes a word representing a change in the numerical value. If the value is below the lower limit of the range of the reference value, an evaluation expression representing a change in which the numerical value becomes smaller may be set as a corresponding evaluation expression.
以上で説明した実施形態および変形例では、評価対象の状態の変化を評価する評価表現(上昇、増加、低下、減少など、変化を表す評価値を含む)が評価表現辞書114に登録される。他の変形例では、状態の変化を評価する評価表現だけでなく、評価対象の状態そのものを評価する評価表現を評価表現辞書に登録しておいてもよい。例えば、「良い」,「悪い」,「高い」,「低い」,「大きい」,「小さい」など、時間による変化を表す語ではなく、単に状態を記述する語を評価値として含む評価表現をさらに評価表現辞書114に登録しておいてもよい。この場合、数値で評価値が表される属性を含む評価表現を処理する上述の変形例において、処理対象のテキストから抽出した数値と、対応する属性に関連付けられた基準値と、の大小関係に応じた語を評価値として含む評価表現を、当該抽出した数値および属性の組に相当する評価表現とすればよい。例えば、抽出した数値が基準値よりも大きい場合に、「高い」の語を含む評価表現を、抽出した数値が基準値よりも小さい場合に「低い」の語を含む評価表現を、当該数値と属性との組に対応する評価表現とする。また、抽出した数値が基準値と同じであれば、その数値と属性との組に対応する評価表現は存在しないと判定する。
In the embodiment and the modification described above, evaluation expressions (including evaluation values representing changes such as increase, increase, decrease, decrease, etc.) for evaluating changes in the state of the evaluation target are registered in the
また、以上の説明では、評価表現分類部140は、処理対象のテキストにおける出現順に連続する評価表現の間で評価対象および極性が共通するものを同じグループに分類する。一変形例では、評価表現分類部140は、処理対象のテキストにおける出現順を考慮せずに、単に、評価対象および極性が共通する評価表現を同じグループに分類してもよい。この場合、処理対象のテキストにおける出現順で連続している評価表現でなくても、評価対象および極性が共通していれば同じグループに分類される。さらに他の例では、処理対象のテキスト中の接続詞やモダリティをさらに用いて分類してもよいし、機械学習に基づくクラスタリングの問題として分類を行ってもよい。
Further, in the above description, the evaluation
また、以上の説明では、意味クラス判定部160は、シソーラスにおける意味クラスが同一であって同義語でない語同士を共通の意味クラスにある異なる語と判定する。一変形例では、従来から知られている構文解析の手法を用いて、処理対象のテキストにおいて属性を表す語を含む句が並置構造を有する(例えば、「GOPの増加、GPTの著明な上昇」では、2つの句が並置されている)ことを検出し、この検出結果とシソーラスにおける意味クラスの判定とを組み合わせて、共通の意味クラスにある異なる語の有無を判定してもよい。
Moreover, in the above description, the semantic
また、以上の説明では、関連表現生成部150により、評価表現を含む文字列を処理対象のテキストから抽出し、抽出した文字列同士を関連付けて関連表現記憶部180に登録する。一変形例では、抽出した評価表現自体を関連表現記憶部180にさらに登録してもよい。例えば、図4を参照し、同じグループ1に分類された3つの評価表現(肝臓,肝機能,悪化),(肝臓,GOP,増加),(肝臓,GPT,上昇)について、属性を表す語が共通の意味クラスにない組である、(肝臓,肝機能,悪化)と(肝臓,GOP,増加)、(肝臓,肝機能,悪化)と(肝臓,GPT,上昇)を関連表現記憶部180に登録してもよい。また、評価表現自体を関連表現記憶部180に登録する場合、処理対象のテキストから評価表現を含む文字列を抽出し、抽出した文字列を関連付けて関連表現記憶部180に登録する処理は省略してもよい。
In the above description, the related
なお、関連表現生成部150は、必ずしも、関連表現の「組」を明示的に生成しなくてもよい。評価表現分類部140によって同じグループに分類された評価表現であって互いに共通の意味クラスにある語を含まない複数の評価表現(および各評価表現に基づき処理対象のテキストから抽出された文字列)を互いに関連付けて関連表現記憶部180に登録しておけばよい。
Note that the related
また、以上では、対象、属性、および評価値の3種類の値の組からなる評価表現を評価表現辞書114に登録する。一変形例では、評価対象を含まずに、属性を表す語と評価値を表す語との組からなる評価表現を評価表現辞書114に登録しておき、処理対象のテキストから抽出した属性と評価値との組を評価表現として上述の実施形態および各種の変形例の処理を同様に行ってもよい。この例の場合、属性を表す語から評価対象を特定すればよい。例えば、各評価対象と、その属性を表す語と、を関連付ける情報を評価表現辞書114または意味辞書116に登録しておき、処理対象のテキストから抽出した属性を表す語に関連付けられた評価対象を、当該属性を含む評価表現の評価対象として特定する。
In the above, an evaluation expression composed of a set of three types of values, that is, an object, an attribute, and an evaluation value is registered in the
なお、以上では、医療分野の文章を処理対象のテキストとする場合の例を説明した。当然ながら、本実施形態の例の処理は、他の専門分野の文章を処理対象のテキストとする場合も上記の説明と同様に行ってよい。あるいは、専門分野に限られない、一般的な文章を処理対象のテキストとしてもよい。 In the above description, an example in which medical text is a text to be processed has been described. Of course, the processing of the example of the present embodiment may be performed in the same manner as described above when a sentence in another specialized field is used as a text to be processed. Alternatively, a general sentence that is not limited to a specialized field may be used as a text to be processed.
以上に例示した情報処理装置10は、典型的には、汎用のコンピュータにて上述の情報処理装置10の各部の機能又は処理内容を記述したプログラムを実行することにより実現される。コンピュータは、例えば、ハードウエアとして、図10に示すように、CPU(中央演算装置)80、メモリ(一次記憶)82、各種I/O(入出力)インタフェース84等がバス86を介して接続された回路構成を有する。また、そのバス86に対し、例えばI/Oインタフェース84経由で、ハードディスクドライブ(HDD)88やCDやDVD、フラッシュメモリなどの各種規格の可搬型の不揮発性記録媒体を読み取るためのディスクドライブ90が接続される。このようなドライブ88又は90は、メモリに対する外部記憶装置として機能する。実施形態の処理内容が記述されたプログラムがCDやDVD等の記録媒体を経由して、又はネットワーク経由で、HDD88等の固定記憶装置に保存され、コンピュータにインストールされる。固定記憶装置に記憶されたプログラムがメモリに読み出されCPUにより実行されることにより、実施形態の処理が実現される。
The
なお、以上では、情報処理装置10を1台のコンピュータにより実現する例の実施形態を説明したが、上述した情報処理装置10の各種の例の機能を複数のコンピュータに分散させて実現してもよい。
In the above, the embodiment of the example in which the
10 情報処理装置、80 CPU、82 メモリ、84 I/Oインタフェース、86 バス、88 HDD、90 ディスクドライブ、110 参照データ記憶部、112 解析辞書、114 評価表現辞書、116 意味辞書、120 コーパス解析部、130 評価表現抽出部、140 評価表現分類部、150 関連表現生成部、160 意味クラス判定部、170 出力処理部、180 関連表現記憶部。
DESCRIPTION OF
Claims (7)
前記抽出した評価表現の間で前記評価対象および前記極性が共通するか否かに基づいて、前記抽出した評価表現を1以上のグループに分類する分類ステップと、
前記分類ステップで同一のグループに分類された評価表現が複数ある場合に、これら複数の評価表現を互いに関連付けて関連表現記憶手段に対して出力する出力ステップと、
をコンピュータに実行させるためのプログラム。 Associating an evaluation expression including a word representing an evaluation item for evaluating an evaluation object and a word representing an evaluation value for the evaluation item, and a polarity indicating whether or not the evaluation expression is a positive expression A step of referring to the stored evaluation expression storage means, extracting the evaluation expression included in the character string to be processed from the character string to be processed, and specifying the polarity of each of the extracted evaluation expressions;
A classification step of classifying the extracted evaluation expressions into one or more groups based on whether the evaluation object and the polarity are common among the extracted evaluation expressions;
When there are a plurality of evaluation expressions classified in the same group in the classification step, an output step of outputting the plurality of evaluation expressions to the related expression storage means in association with each other;
A program that causes a computer to execute.
ことを特徴とする請求項1に記載のプログラム。 In the classification step, when the extracted evaluation expressions are arranged in the order of appearance in the character string to be processed, if the evaluation object and the polarity are common among consecutive evaluation expressions, the continuous evaluation expressions Classify them into the same group,
The program according to claim 1.
ことを特徴とする請求項1または2に記載のプログラム。 In the output step, among the plurality of evaluation expressions, for the evaluation expressions in which the words representing the evaluation items are in a common semantic class, the association between the evaluation expressions is not performed.
The program according to claim 1 or 2, characterized in that
前記抽出ステップで抽出される文字列は、前記処理対象の文字列において当該評価表現の前記評価項目を表す語または前記評価値を表す語との間に係り受け関係を有する語句を含み、
前記出力ステップにおいて、前記複数の評価表現それぞれについて抽出した文字列を互いに関連付けて前記関連表現記憶手段に対して出力する、
ことを特徴とする請求項1から3のいずれか1項に記載のプログラム。 The computer is further caused to execute an extraction step of extracting a character string including the evaluation expression from the character string to be processed for each of the plurality of evaluation expressions to be output in the output step,
The character string extracted in the extraction step includes a word having a dependency relationship with a word representing the evaluation item of the evaluation expression or a word representing the evaluation value in the character string to be processed,
In the output step, character strings extracted for each of the plurality of evaluation expressions are associated with each other and output to the related expression storage unit.
The program according to any one of claims 1 to 3, wherein:
ことを特徴とする請求項4に記載のプログラム。 In the output step, among character strings extracted for each of the plurality of evaluation expressions, a character string including words in a common semantic class is not associated with the character strings.
The program according to claim 4.
前記第2特定ステップで特定した評価表現をさらに前記分類ステップの処理対象とする、
ことを特徴とする請求項1から5のいずれか1項に記載のプログラム。 In the computer, each of words representing an evaluation item whose evaluation value can be expressed numerically among the evaluation items in the evaluation expression stored in the evaluation expression storage means, and a reference value of the evaluation value of the evaluation item, , Referring to the reference value information storage means stored in association with each other, from the character string to be processed, a word representing the evaluation item stored in the reference value information storage means, and a numerical value corresponding to the evaluation value of the evaluation item, And the evaluation expression corresponding to the combination of the evaluation item and the numerical value and its polarity based on the result of comparing the reference value associated with the extracted evaluation item and the extracted numerical value. A second specifying step for specifying in the storage means is executed;
The evaluation expression specified in the second specifying step is further processed in the classification step.
The program according to any one of claims 1 to 5, wherein:
前記特定手段が抽出した評価表現の間で前記評価対象および前記極性が共通するか否かに基づいて、前記抽出した評価表現を1以上のグループに分類する分類手段と、
前記分類手段で同一のグループに分類された評価表現が複数ある場合に、これら複数の評価表現を互いに関連付けて関連表現記憶手段に対して出力する出力手段と、
を備えることを特徴とする情報処理装置。 Associating an evaluation expression including a word representing an evaluation item for evaluating an evaluation object and a word representing an evaluation value for the evaluation item, and a polarity indicating whether or not the evaluation expression is a positive expression Referring to the stored evaluation expression storage means, extracting the evaluation expression included in the character string to be processed from the character string to be processed, and specifying means for specifying the polarity of each of the extracted evaluation expressions;
Classification means for classifying the extracted evaluation expressions into one or more groups based on whether the evaluation object and the polarity are common among the evaluation expressions extracted by the specifying means;
When there are a plurality of evaluation expressions classified into the same group by the classification means, an output means that associates the plurality of evaluation expressions with each other and outputs them to the related expression storage means
An information processing apparatus comprising:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2010142670A JP5488249B2 (en) | 2010-06-23 | 2010-06-23 | Program and information processing apparatus |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2010142670A JP5488249B2 (en) | 2010-06-23 | 2010-06-23 | Program and information processing apparatus |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2012008701A JP2012008701A (en) | 2012-01-12 |
| JP5488249B2 true JP5488249B2 (en) | 2014-05-14 |
Family
ID=45539189
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2010142670A Expired - Fee Related JP5488249B2 (en) | 2010-06-23 | 2010-06-23 | Program and information processing apparatus |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5488249B2 (en) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP6237639B2 (en) * | 2012-10-26 | 2017-11-29 | 日本電気株式会社 | Information extraction system, information extraction method, and information extraction program |
| JP6545634B2 (en) * | 2016-04-04 | 2019-07-17 | 株式会社東芝 | INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, AND PROGRAM |
-
2010
- 2010-06-23 JP JP2010142670A patent/JP5488249B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2012008701A (en) | 2012-01-12 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US12019981B2 (en) | Method and system for converting literature into a directed graph | |
| US20180260474A1 (en) | Methods for extracting and assessing information from literature documents | |
| CN107209759B (en) | Annotation auxiliary device and recording medium | |
| RU2607975C2 (en) | Constructing corpus of comparable documents based on universal measure of similarity | |
| Lobo et al. | Identifying human phenotype terms by combining machine learning and validation rules | |
| US10452907B2 (en) | System and method for global identification in a collection of documents | |
| Yu et al. | NILE: fast natural language processing for electronic health records | |
| Bouarroudj et al. | Named entity disambiguation in short texts over knowledge graphs | |
| CN113723085B (en) | A pseudo-fuzzy detection method in privacy policy documents | |
| JP6409071B2 (en) | Sentence sorting method and calculator | |
| Tovar et al. | A metric for the evaluation of restricted domain ontologies | |
| JP5488249B2 (en) | Program and information processing apparatus | |
| Azmi et al. | iTree-Automating the construction of the narration tree of Hadiths (Prophetic Traditions) | |
| Pham et al. | A hybrid approach for biomedical event extraction | |
| Jiang et al. | LATTE: A knowledge-based method to normalize various expressions of laboratory test results in free text of Chinese electronic health records | |
| Rauf et al. | Logical structure extraction from software requirements documents | |
| de Carvalho et al. | Extracting semantic information from patent claims using phrasal structure annotations | |
| Nasiri et al. | AI-driven methodology for refining and clustering Agile requirements | |
| KR101983477B1 (en) | Method and System for zero subject resolution in Korean using a paragraph-based pivotal entity identification | |
| Baradaran et al. | Event Extraction from Classical Arabic Texts. | |
| WO2015177861A1 (en) | Device and method for generating training data | |
| Khalid et al. | ZK DrugResist 2.0: A TextMiner to extract semantic relations of drug resistance from PubMed | |
| Mutuvi et al. | Multilingual epidemic event extraction | |
| Dehghani et al. | Persian Typographical Error Type Detection using Many-to-Many Deep Neural Networks on Algorithmically-Generated Misspellings | |
| KR101088483B1 (en) | Method and apparatus for mapping heterogeneous classification systems |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130522 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140117 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140128 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140210 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5488249 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |