JP5223671B2 - テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム - Google Patents
テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム Download PDFInfo
- Publication number
- JP5223671B2 JP5223671B2 JP2008517833A JP2008517833A JP5223671B2 JP 5223671 B2 JP5223671 B2 JP 5223671B2 JP 2008517833 A JP2008517833 A JP 2008517833A JP 2008517833 A JP2008517833 A JP 2008517833A JP 5223671 B2 JP5223671 B2 JP 5223671B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- feature
- source
- category
- texts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
関連するテキストマイニング装置は、各テキストから単語を抽出し、分析対象のカテゴリに属するテキストと関連性が高い単語、もしくは、単語の組み合わせを、そのカテゴリの特徴として抽出するように構成される。
このような場合、利用者に対して、抽出されたそれぞれの特徴が、出典によらず、あらゆるテキストに共通のものであるのか、あるいは、特定の出典のテキストに偏って見られるものであるのかということを示すことができれば、利用者がより多くの知見を得られる可能性がある。
その理由は、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合を考慮していないためである。
その理由は、テキストマイニングによって抽出された各特徴がテキスト中に出現するかどうかという点に関して、テキストが属するカテゴリによる差異を何ら考慮していないためである。
ここで、「出典情報」とは、特徴を含むテキストの出典がどのような傾向にあるかを示す情報である。
そのため、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、テキストマイニングによって抽出された特徴が、出典によらず、あらゆるテキストに共通のものであるのか、あるいは、特定の出典のテキストに偏って見られるものであるのかということを利用者に示すことができる。
そのため、マイニング対象のテキストが複数の分類軸に従って分類されているときに、抽出された特徴のそれぞれがあらゆるテキストに一様に見られるものであるのか、あるいは、ある分類軸の特定のカテゴリのテキストに偏って見られるものであるのかということを利用者に示すことができる。
そのため、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、テキストマイニングによって抽出された特徴が、出典によらず、あらゆるテキストに共通のものであるのか、あるいは、特定の出典のテキストに偏って見られるものであるのかということを利用者に示すことができる。
そのため、マイニング対象のテキストが複数の分類軸に従って分類されているときに、抽出された特徴のそれぞれがあらゆるテキストに一様に見られるものであるのか、あるいは、ある分類軸の特定のカテゴリのテキストに偏って見られるものであるのかということを利用者に示すことができる。
そのため、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、テキストマイニングによって抽出された特徴が、出典によらず、あらゆるテキストに共通のものであるのか、あるいは、特定の出典のテキストに偏って見られるものであるのかということを利用者に示すことができる。
上記テキストマイニングプログラムによれば、テキストマイニングによって抽出されたそれぞれの特徴に対して、テキストがその特徴を含むかどうかと強く連関する分類軸を判別し、さらに、その分類軸のカテゴリのうち、その特徴を含むテキストの集合において、そのカテゴリに属するテキストの実際の件数が、期待値と大きく乖離しているものを判別して、それぞれの特徴にそのカテゴリを付けて出力することができる。
そのため、マイニング対象のテキストが複数の分類軸に従って分類されているときに、抽出された特徴のそれぞれがあらゆるテキストに一様に見られるものであるのか、あるいは、ある分類軸の特定のカテゴリのテキストに偏って見られるものであるのかということを利用者に示すことができる。
そのため、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、テキストマイニングによって抽出された特徴が、出典によらず、あらゆるテキストに共通のものであるのか、あるいは、特定の出典のテキストに偏って見られるものであるのかということを利用者に示すことができる。
そのため、マイニング対象のテキストが複数の分類軸に従って分類されているときに、抽出された特徴のそれぞれがあらゆるテキストに一様に見られるものであるのか、あるいは、ある分類軸の特定のカテゴリのテキストに偏って見られるものであるのかということを利用者に示すことができる。
図1を参照すると、テキストマイニング装置11は、キーボード、マウス等の入力装置1と、情報を記憶するハードディスク装置等の記憶装置21と、プログラム制御により動作するデータ処理装置31と、ディスプレイ装置等の出力装置4とから構成される。
テキスト集合記憶部201は、マイニング対象のテキストを、それぞれのテキストの出典が分かるような形態で記憶する。このとき、例えば、図1に示すように、テキストをその出典別に第1出典テキスト集合記憶部から第N出典テキスト集合記憶部に分けて記憶してもよいし、各テキストに対応付けてそのテキストの出典を記憶するようにしてもよい。
抽出結果記憶部203は、テキストマイニングの結果として、利用者が指定するカテゴリの特徴と、その特徴を含むテキストとを対応付けて記憶する。なお、テキストマイニングの結果として抽出される特徴とは、例えば、単独の単語、複数の単語の組合せ、フレーズ、文、段落等のようなテキストの一部分である。
特徴表現抽出手段301は、テキスト集合記憶部201に記憶されているテキスト集合に対してテキストマイニングを行い、入力装置1を通して利用者が指定するカテゴリの特徴を抽出する。また、その結果を抽出結果記憶部203に格納する。
テキストマイニングは、例えば、各テキストから単語を抽出し、分析対象のカテゴリに属するテキストと関連性が高い単語を、そのカテゴリの特徴として抽出するように構成することができる。なお、単語の代わりに、複数の単語の組合せ、フレーズ、文、段落等のようなテキストの一部分を特徴として抽出するようにしてもよい。
なお、それぞれの特徴について、主要な出典を1つのみ対応づけるのではなく、複数の主要な出典を対応づけるようにしてもよい。また、主要な出典として適当なものがない場合には、何も対応づけないようにしてもよい。
まず、特徴表現抽出手段301が、入力装置1を通して利用者が指定するマイニング対象のカテゴリを読み取る(ステップA1)。特徴表現抽出手段301は、カテゴリ情報記憶部202も参照して、テキストマイニングを実行し、テキスト集合記憶部201に格納されているテキストのうち、ステップA1において利用者が指定したカテゴリに属するものに特有な特徴と、その特徴を含むテキストの集合を得る(ステップA2)。特徴表現抽出手段301は、得られた特徴、および、その特徴を含むテキストの集合を対応付けて、抽出結果として抽出結果記憶部203に格納する(ステップA3)。
本実施の形態では、テキストマイニングによって抽出されたそれぞれの特徴に対して、その特徴を含むテキストの主要な出典を判別し、特徴とともに出力する。これにより、利用者は、テキストマイニングによって抽出された特徴が、主としてどの出典のテキストに見られる特徴であるのかということを知ることができる。また、特に、主要な出典として適当なものがない場合には、出典を出力しないように構成することにより、利用者は、テキストマイニングによって抽出された特徴がいずれかの出典のテキストに偏って出現している場合に、そのことを知ることができる。
図3を参照すると、テキストマイニング装置12は、データ処理装置32が、図1に示されたテキストマイニング装置11のデータ処理装置31の構成における主要出典判別手段302と主要出典付抽出結果出力手段303にかわり、構成比率計算手段304と、構成比率付抽出結果出力手段305を有する点で異なる。
図4のステップA1ないしA3で示される、本実施の形態における特徴表現抽出手段301の動作は、第1の実施の形態における特徴表現抽出手段301の動作と同一のため、説明は省略する。
本実施の形態では、特徴表現抽出手段301が動作した後、構成比率計算手段304が、抽出結果記憶部203に格納された抽出結果から、特徴表現抽出手段301によって抽出された特徴を1つ選択し(ステップB1)、その特徴を含むテキストの集合を読み出す(ステップB2)。さらに、テキスト集合記憶部201を参照して、その集合におけるテキストの出典別の構成比率を計算する(ステップB3)。構成比率計算手段304は、抽出結果記憶部203に格納されたすべての特徴に対してこれらの処理を繰り返す(ステップB4)。
テキストマイニング装置12では、テキストマイニングによって抽出されたそれぞれの特徴に対して、その特徴を含むテキストの出典別の構成比率を計算し、特徴とともに出力する。これにより、利用者は、テキストマイニングによって抽出された特徴が、主としてどの出典のテキストに見られる特徴であるのかということを知ることができる。また、テキストマイニングによって抽出された特徴がいずれかの出典のテキストに偏って出現している場合に、利用者がその偏りの程度を知ることができる。
図5を参照すると、テキストマイニング装置13は、データ処理装置33が、図1に示されたテキストマイニング装置11のデータ処理装置31の構成における主要出典判別手段302と主要出典付抽出結果出力手段303にかわり、特異出典判別手段306と、特異出典付抽出結果出力手段307を有する点で異なる。
例えば、テキスト集合記憶部201に、出典が「メール」のテキスト1500件と出典が「ワールドワイドウェブ(World Wide Web、以下「ウェブ」という)」のテキスト500件が格納されている場合、テキスト100件中で、出典が「メール」のテキストの件数の期待値は75で、出典が「ウェブ」のテキストの件数の期待値は25である。このテキスト100件中で、出典が「ウェブ」のテキストの実際の件数が期待値25と大きく乖離している場合、「ウェブ」は、この100件のテキストにおいて特異な出典ということになる。
図6のステップA1ないしA3で示される、本実施の形態における特徴表現抽出手段301の動作は、第1の実施の形態における特徴表現抽出手段301の動作と同一のため、説明は省略する。
本実施の形態では、特徴表現抽出手段301が動作した後、特異出典判別手段306が、抽出結果記憶部203に格納された抽出結果から、特徴表現抽出手段301によって抽出された特徴を1つ選択し(ステップC1)、その特徴を含むテキストの集合を読み出す(ステップC2)。さらに、その集合において特異な出典を判別する(ステップC3)。特異出典判別手段306は、抽出結果記憶部203に格納されたすべての特徴に対してこれらの処理を繰り返す(ステップC4)。
本実施の形態では、テキストマイニングによって抽出されたそれぞれの特徴に対して、その特徴を含むテキストにおいて特異な出典を判別し、特徴とともに出力する。これにより、テキストマイニングによって抽出された特徴がある出典のテキストに通常より極度に多く出現している場合、または、通常より極度に少なくしか出現していない場合に、利用者がそのことを知ることができる。
図7を参照すると、テキストマイニング装置14は、データ処理装置34が、図1に示されたテキストマイニング装置11のデータ処理装置31の構成における主要出典判別手段302と主要出典付抽出結果出力手段303にかわり、乖離度計算手段308と、乖離度付抽出結果出力手段309を有する点で異なる。
乖離度としては、実際の件数と期待値との差や、期待値に対する実際の件数と期待値との差の割合等を採用することができる。また、これ以外の方法で乖離度を定義してもよい。
図8のステップA1ないしA3で示される、本実施の形態における特徴表現抽出手段301の動作は、第1の実施の形態における特徴表現抽出手段301の動作と同一のため、説明は省略する。
本実施の形態では、特徴表現抽出手段301が動作した後、乖離度計算手段308が、抽出結果記憶部203に格納された抽出結果から、特徴表現抽出手段301によって抽出された特徴を1つ選択し(ステップD1)、その特徴を含むテキストの集合を読み出す(ステップD2)。さらに、その集合における各出典のテキストの件数に関する乖離度を計算する(ステップD3)。乖離度計算手段308は、抽出結果記憶部203に格納されたすべての特徴に対してこれらの処理を繰り返す(ステップD4)。
本実施の形態では、テキストマイニングによって抽出されたそれぞれの特徴に対して、その特徴を含むテキストの件数の出典別の乖離度を計算し、特徴とともに出力する。テキストマイニングによって抽出された特徴がある出典のテキストに通常より極度に多く出現している場合、または、通常より極度に少なくしか出現していない場合、その出典のテキストの件数の乖離度の絶対値が大きくなり、利用者がそのことを知ることができる。また、そのとき、通常とどの程度乖離しているのかを知ることができる。
この場合、特徴表現抽出手段301は、例えば、各テキストから単語を抽出し、多くのテキストに出現する単語を、テキスト集合全体の特徴として抽出するように構成することができる。なお、単語の代わりに、複数の単語の組合せ、フレーズ、文、段落等のようなテキストの一部分を特徴として抽出するようにしてもよい。
図9を参照すると、テキストマイニング装置15は、データ処理装置35が、図1に示されるテキストマイニング装置11のデータ処理装置31の構成における主要出典判別手段302と主要出典付抽出結果出力手段303にかわり、連関分類軸判別手段310と、特異カテゴリ判別手段311と、特異カテゴリ付抽出結果出力手段312とを有する点で異なる。
このとき、例えば、図9に示すように、分類軸ごとに、第1分類軸カテゴリ情報記憶部から第N分類軸カテゴリ情報記憶部に、その分類軸の各カテゴリに属するテキストを記憶するようにしてもよいし、各テキストに対して、各分類軸におけるそのテキストのカテゴリを記憶するようにしてもよい。
なお、特異カテゴリ判別手段311は、それぞれの特徴に対して、複数の特異なカテゴリを判別するようにしてもよいし、実際の件数と期待値とがもっとも乖離しているもの1つを特異なカテゴリとするようにしてもよい。
図10のステップA1ないしA3で示される、本実施の形態における特徴表現抽出手段301の動作は、第1の実施の形態における特徴表現抽出手段301の動作と同一のため、説明は省略する。
本実施の形態では、特徴表現抽出手段301が動作した後、連関分類軸判別手段310が、抽出結果記憶部203に格納された抽出結果から特徴を1つ読み出し(ステップE1)、その特徴に対して、以下のステップE2以降の処理を行う。
続いて、連関分類軸判別手段310が、抽出結果記憶部203に格納されたすべての特徴に対してステップE2ないしE5の処理が完了したかどうかを判定し(ステップE6)、未処理の特徴があれば、ステップE1に戻って処理を続ける。
本実施の形態では、テキストがある特徴を含むかどうかと強く連関する分類軸を判別し、さらに、その分類軸のカテゴリのうち、その特徴を含むテキストの集合において特異なカテゴリを判別して、特徴とともに出力する。これにより、ある分類軸において、抽出された特徴を含むテキストが属するカテゴリが特定のものに偏っている場合に、利用者がそのことを知ることができる。また、抽出された特徴のそれぞれが、どのカテゴリに属するテキストに偏って見られるものであるのかということを知ることができる。
なお、本実施の形態においても、特徴表現抽出手段301が、テキスト集合記憶部201に記憶されているテキスト集合に対して、入力装置1を通して利用者が指定するカテゴリの特徴を抽出するのではなく、テキスト集合全体の特徴を抽出するように構成してもよい。
図11を参照すると、コンピュータ16は、本発明の第1ないし第5の実施の形態と同様に、入力装置1、記憶装置23、データ処理装置36、出力装置4とを備える。
まず、本発明の第1の実施例を図面を参照して説明する。かかる実施例は、図1および図2に示した本発明の第1の実施の形態に対応するものである。
ここでは、メールおよび電話で問い合わせを受けた内容を記録して、問い合わせの種別によって分類しておき、利用者が、その中から「故障」の問い合わせの特徴を抽出する場合を例として、本発明の実施の形態の動作を説明する。
利用者は、ここで、カテゴリ「故障」を指定する。
特徴表現抽出手段301は、次に、テキストマイニングを実行し、テキスト集合記憶部201に記憶されているテキスト集合のうち、カテゴリ「故障」に属するものに特有な特徴を抽出し、テキストマイニングの結果として、特徴とその特徴を含むテキストとを対応付けて抽出結果記憶部203に記録する。
ここでは、特徴表現抽出手段301が、テキスト中に出現する単語を特徴として抽出するものとし、図14に示すような特徴を抽出結果記憶部203に記録したとする。
ここでは、ある特徴Pを含むテキストのうち、70%以上の出典がSであったときに、出典Sを特徴Pを含むテキストの主要な出典と判別するものとする。
主要出典判別手段302は、図14に示される抽出結果記憶部203を参照し、特徴「電源」を含むテキストがD1、D4、D9、D107、D127の5件であることを得る。次に、図12に示されるテキスト集合記憶部201を参照し、このうちのD1、D4、D9の3件の出典が「メール」であり、D107、および、D127の2件の出典が「電話」であることを得る。
主要出典判別手段302は、これらの値を基に、特徴「電源」を含むテキストのうち、60%の出典が「メール」であり、40%の出典が「電話」であることを計算する。これらはいずれも70%未満であるため、主要出典判別手段302は、特徴「電源」を含むテキストについては、主要な出典がないと判別する。
最後に、主要出典付抽出結果出力手段303が、抽出結果記憶部203に格納されたそれぞれの特徴について、その特徴を含むテキストの主要な出典を付けて出力する。
この場合の出力例を図15に示す。
利用者は、この出力から、特徴「点検」は、主として電話に出現する特徴であり、特徴「リモコン」は、主としてメールに出現する特徴であることを知ることができる。これにより、特に電話に偏って出現する特徴「点検」については、音声認識による認識誤りの可能性があることに気付くことができる。
ここでは、第1の実施例と同じ例を用いて第2の実施例を説明する。すなわち、図12に示されるテキスト集合記憶部201に記憶されるテキストが、図13に示されるカテゴリ情報記憶部202のように分類されているとき、利用者がカテゴリ「故障」を指定してテキストマイニングを行った場合の動作を説明する。
構成比率計算手段304は、まず、特徴「電源」について、その特徴を含むテキストの出典別の構成比率を判別する。
はじめに、図14に示される抽出結果記憶部203を参照し、特徴「電源」を含むテキストがD1、D4、D9、D107、D127の5件であることを得る。次に、図12に示されるテキスト集合記憶部201を参照し、このうちのD1、D4、D9の3件の出典が「メール」であり、D107、および、D127の2件の出典が「電話」であることを得る。
構成比率計算手段304は、これらの値を基に、特徴「電源」を含むテキストのうち、60%の出典が「メール」であり、40%の出典が「電話」であることを計算する。
構成比率計算手段304は、このような処理をすべての特徴についてくり返す。
この場合の出力例を図16に示す。この例では、各特徴に対して、帯グラフによって出典別の構成比率を示している。
図15に示される第1の実施例の出力と比べ、利用者は、図16の出力から出典間にどの程度の偏りがあるのかを知ることができる。図16の例では、特に、特徴「点検」は、出典の比率が他の特徴と大きく異なり、電話にしか出現しない特徴であることを知ることができる。これにより、特徴「点検」は、他の特徴と異なる傾向を示す特徴であることが分かり、音声認識による認識誤りの可能性があることに気付くことができる。
第3の実施例も、第1の実施例と同じ例を用いて説明する。すなわち、図12に示されるテキスト集合記憶部201に記憶されるテキストが、図13に示されるカテゴリ情報記憶部202のように分類されているとき、利用者がカテゴリ「故障」を指定してテキストマイニングを行った場合の動作を説明する。
ただし、本実施例においては、テキスト集合記憶部201に記憶されるテキストの総数が125件で、そのうち100件の出典が「メール」であり、25件の出典が「電話」であったとする。
ここでは、期待値に対する実際の件数と期待値との差の割合が予め定める閾値を超えているかどうかによって、期待値と実際の件数とが乖離しているかどうかを判別するものとする。すなわち、ある特徴Pを含むテキストの集合において、出典がSであるテキストの件数の期待値をE、出典がSであるテキストの実際の件数をXとすると、(X−E)/Eの絶対値が、閾値1.0を超える場合に、出典Sを特徴Pを含むテキストの集合において特異な出典と判別する。
はじめに、図14に示される抽出結果記憶部203を参照し、特徴「電源」を含むテキストがD1、D4、D9、D107、D127の5件であることを得る。
次に、これらの5件のテキストのうち、出典が「メール」であるテキストの件数の期待値を計算する。テキストの総数が125件で、そのうちの100件の出典が「メール」であるため、特徴「電源」を含む5件のテキストのうち、出典が「メール」であるテキストの件数の期待値は、5×100/125=4となる。
また、図12に示されるテキスト集合記憶部201を参照し、特徴「電源」を含む5件のテキストのうち、実際には、D1、D4、D9の3件の出典が「メール」であることを得る。
また、図12に示されるテキスト集合記憶部201を参照し、特徴「電源」を含む5件のテキストのうち、実際には、D107、および、D127の2件の出典が「電話」であることを得る。
特異出典判別手段306は、これらの結果から、特徴「電源」を含む5件のテキストにおいては、特異な出典がないと判別する。
特徴「画面」を含む4件のテキスト(D3、D10、D123、D126)において、出典が「メール」であるテキストの件数の期待値が4×100/125=3.2であるのに対し、出典が「メール」であるテキストの実際の件数は、2件(D3、および、D10)である。このため、期待値に対する実際の件数と期待値との差の割合は、(2−3.2)/3.2=−0.375となり、その絶対値は1.0を超えない。
この結果、特異出典判別手段306は、特徴「画面」を含む4件のテキストにおいては、出典が「電話」であるものの件数が期待値と大きく乖離しており、「電話」が特異な出典であると判別する。
特異出典判別手段306は、このような処理をすべての特徴についてくり返す。
この場合の出力例を図17に示す。
特徴「画面」を含む4件のテキストにおいては、そのうちの2件のテキストの出典が「メール」、2件のテキストの出典が「電話」であり、件数だけを見ると偏りがないが、テキスト集合記憶部201に記憶されるテキストの出典が「メール」に偏っているため、「電話」が特異な出典として判別され、出力されている。また、特徴「リモコン」を含む4件のテキストにおいては、そのうちの3件のテキストの出典が「メール」、1件のテキストの出典が「電話」であり、件数だけを見ると「メール」に偏っているが、テキスト集合記憶部201に記憶されるテキストの出典が「メール」に偏っているため、特異な出典はないと判別され、何も出力されていない。
第4の実施例も、第1の実施例と同じ例を用いて説明する。すなわち、図12に示されるテキスト集合記憶部201に記憶されるテキストが、図13に示されるカテゴリ情報記憶部202のように分類されているとき、利用者がカテゴリ「故障」を指定してテキストマイニングを行った場合の動作を説明する。
また、第3の実施例と同様に、テキスト集合記憶部201に記憶されるテキストの総数が125件で、そのうち100件の出典が「メール」であり、25件の出典が「電話」であったとする。
ここでは、乖離度として、期待値に対する実際の件数と期待値との差の割合を使用するものとする。すなわち、ある特徴Pを含むテキストの集合において、出典がSであるテキストの件数の期待値をE、出典がSであるテキストの実際の件数をXとすると、特徴Pを含むテキストの集合において出典がSであるテキストの件数に関する乖離度は(X−E)/Eとなる。
はじめに、図14に示される抽出結果記憶部203を参照し、特徴「電源」を含むテキストがD1、D4、D9、D107、D127の5件であることを得る。
次に、これらの5件のテキストのうち、出典が「メール」であるテキストの件数の期待値を計算する。テキストの総数が125件で、そのうちの100件の出典が「メール」であるため、特徴「電源」を含む5件のテキストのうち、出典が「メール」であるテキストの件数の期待値は、5×100/125=4となる。
また、図12に示されるテキスト集合記憶部201を参照し、特徴「電源」を含む5件のテキストのうち、実際には、D1、D4、D9の3件の出典が「メール」であることを得る。
乖離度計算手段308は、これらの値を基に、特徴「電源」を含む5件のテキストにおいて、出典が「メール」であるテキストの件数に関する乖離度を計算し、(3−4)/4=−0.25という値を得る。
また、図12に示されるテキスト集合記憶部201を参照し、特徴「電源」を含む5件のテキストのうち、実際には、D107、および、D127の2件の出典が「電話」であることを得る。
乖離度計算手段308は、これらの値を基に、特徴「電源」を含む5件のテキストにおいて、出典が「電話」であるテキストの件数に関する乖離度を計算し、(2−1)/1=1という値を得る。
特徴「画面」を含む4件のテキスト(D3、D10、D123、D126)において、出典が「メール」であるテキストの件数の期待値が4×100/125=3.2であるのに対し、出典が「メール」であるテキストの実際の件数は、2件(D3、および、D10)である。このため、乖離度は、(2−3.2)/3.2=−0.375と計算される。
また、特徴「画面」を含む4件のテキストにおいて、出典が「電話」であるテキストの件数の期待値が4×25/125=0.8であるのに対し、出典が「電話」であるテキストの実際の件数は、2件(D123、および、D126)である。このため、乖離度は、(2−0.8)/0.8=1.5と計算される。
乖離度計算手段308は、このような処理をすべての特徴についてくり返す。
この場合の出力例を図18に示す。この例では、各特徴に対して、横軸を乖離度とする棒グラフによって、出典別の乖離度を示している。図18においては、縦の線50が乖離度0の位置を表しており、この線からグラフが左右に延びているほど、テキストの件数の期待値と実際の件数との乖離の度合いが大きい。また、本実施例で使用した乖離度の求め方から、グラフが右に延びていることは、実際の件数が期待値を上回っていることを意味し、グラフが左に延びていることは、実際の件数が期待値を下回っていることを意味する。
ここでは、1200人に対して、ある製品の印象に関するアンケートを実施し、その回答が、回答者の製品に対する興味の有無・回答者の性別・回答者の年代・回答者の職業によって分類されているときに、製品に興味がある回答者の回答の特徴を抽出する場合を例として、本発明の実施の形態の動作を説明する。
これらのテキストは、「製品に対する興味」「性別」「年齢」「職業」の4つの分類軸で分類されている。なお、分類軸「製品に対する興味」は、「興味あり」「興味なし」の2つのカテゴリを有し、分類軸「性別」は、「女性」「男性」の2つのカテゴリを有し、分類軸「年齢」は、「20代」「30代」「40代」「50代」の4つのカテゴリを有し、分類軸「職業」は、「学生」「会社員」「主婦」「その他」の4つのカテゴリを有するものとする。また、各カテゴリのテキストの件数は、図19に示す通りであるものとする。
このときのカテゴリ情報記憶部205の例を図20に示す。この例では、各テキストに対して、分類軸ごとに、そのテキストが属するカテゴリが記憶されている。
利用者は、ここで、分類軸「製品に対する興味」におけるカテゴリ「興味あり」を指定する。
特徴表現抽出手段301は、次に、テキストマイニングを実行し、テキスト集合記憶部204に記憶されているテキスト集合のうち、分類軸「製品に対する興味」においてカテゴリ「興味あり」に属するものに特有な特徴を抽出し、テキストマイニングの結果として、特徴とその特徴を含むテキストとを対応付けて抽出結果記憶部203に記録する。
ここでは、テキストがある特徴を含むどうかと、テキストがある分類軸において属するカテゴリとが連関するかどうかを、有意水準を1%としてカイ2乗検定により検定し、判定するものとする。
ここでは、分類軸「性別」に関する検定について説明する。
全800件のテキストを、特徴「性能」を含むかどうか、および、分類軸「性別」において属するカテゴリによって分類すると、図22に示される、特徴「性能」を含むテキストのカテゴリ別の件数と、図19に示される、全テキストのカテゴリ別の件数とから、分類結果のそれぞれの件数は図25のようになる。
この結果、連関分類軸判別手段310は、テキストが特徴「性能」を含むかどうかと連関する分類軸はないと判別する。
このため、特異カテゴリ判別手段311は、特徴「性能」に対しては、何も処理を行わない。
特徴「デザイン」を含むどうかと、分類軸「性別」において属するカテゴリとの間でのカイ2乗値は19.54となる。これに対する自由度1のカイ2乗分布における上側確率は0.0%で、この値は有意水準1%を下回る。したがって、連関分類軸判別手段310は、テキストが特徴「デザイン」を含むかどうかと、テキストが分類軸「性別」において属するカテゴリとは連関すると判定する。
これらの結果から、連関分類軸判別手段310は、分類軸「性別」を、テキストが特徴「デザイン」を含むどうかと連関する分類軸として判別する。
なお、本実施例では、あるカテゴリに属するテキストの件数が期待値を大きく上回るカテゴリのみを特異なカテゴリと判別するものとする。また、期待値に対する実際の件数と期待値との差の絶対値の割合が予め定める閾値を超えているかどうかによって、期待値と実際の件数とが乖離しているかどうかを判別するものとする。
すなわち、ある特徴Pを含むテキストの集合において、カテゴリCに属するテキストの件数の期待値をE、カテゴリCに属するテキストの実際の件数をXとすると、(X−E)/Eの値が正であり、かつ、閾値0.2を超える場合に、カテゴリCを特徴Pを含むテキストの集合において特異なカテゴリと判別する。
カテゴリ「女性」に関して、値は正となり、かつ、閾値0.2を超えているので、特異カテゴリ判別手段311は、分類軸「性別」のカテゴリのうち、カテゴリ「女性」を特異なカテゴリとして判別する。
特徴「デザイン」を含むどうかと、分類軸「年齢」において属するカテゴリとの間でのカイ2乗値は6.95となる。これに対する自由度3のカイ2乗分布における上側確率は7.3%で、この値は有意水準1%を上回るため、連関分類軸判別手段310は、テキストが特徴「デザイン」を含むかどうかと、テキストが分類軸「年齢」において属するカテゴリとは連関しないと判定する。
また、特徴「デザイン」を含むどうかと、分類軸「職業」において属するカテゴリとの間でのカイ2乗値は3.66となる。これに対する自由度3のカイ2乗分布における上側確率は30.0%で、この値は有意水準1%を上回るため、連関分類軸判別手段310は、テキストが特徴「デザイン」を含むかどうかと、テキストが分類軸「職業」において属するカテゴリとは連関しないと判定する。
連関分類軸判別手段310は、特徴「価格」に対して、これまでと同様の処理により、分類軸「職業」を連関する分類軸として判別する。これに対して、特異カテゴリ判別手段311が、分類軸「職業別」のカテゴリのうち、カテゴリ「学生」を特異なカテゴリとして判別する。
以降、連関分類軸判別手段310、および、特異カテゴリ判別手段311は、すべての特徴に対してこのような処理をくり返す。
この場合の出力例を図27に示す。
テキストが特徴「デザイン」を含むかどうかは、分類軸「性別」においてテキストが属するカテゴリと強く連関し、特に、カテゴリ「女性」に属するテキストの件数が期待値を大きく上回っていたため、特徴「デザイン」に対して、特異なカテゴリとして「女性」が出力されている。また、テキストが特徴「価格」を含むかどうかは、分類軸「職業」においてテキストが属するカテゴリと強く連関し、特に、カテゴリ「学生」に属するテキストの件数が期待値を大きく上回っていたため、特徴「価格」に対して、特異なカテゴリとして「学生」が出力されている。
これにより、利用者は、抽出された特徴のうち、「デザイン」は、女性の回答者の回答に偏って出現しており、「価格」は、学生の回答者の回答に偏って出現していることを知ることができる。
このようにすれば、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、テキストマイニングによって抽出された特徴が、出典によらず、あらゆるテキストに共通のものであるのか、あるいは、特定の出典のテキストに偏って見られるものであるのかということを利用者に示すことができる。
このようにすれば、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、テキストマイニングによって抽出された特徴が出現するテキストの件数に、出典間でどの程度偏りがあるかということを利用者に示すことができる。
このようにすれば、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、出典ごとのテキストの件数に偏りがあっても、テキストマイニングによって抽出された特徴が、特定の出典のテキストに通常考えられるよりも大きく偏って出現しているときに、そのことを利用者に示すことができる。
このようにすれば、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、テキストマイニングによって抽出された特徴が出現する実際のテキストの件数が、その特徴が出典とは無関係に各テキストに出現すると仮定したときの件数とどの程度ずれているのかを利用者に示すことができる。
そのため、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、テキストマイニングによって抽出された特徴が、出典によらず、あらゆるテキストに共通のものであるのか、あるいは、特定の出典のテキストに偏って見られるものであるのかということを利用者に示すことができる。
このようにすれば、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、テキストマイニングによって抽出された特徴が、出典によらず、あらゆるテキストに共通のものであるのか、あるいは、特定の出典のテキストに偏って見られるものであるのかということを利用者に示すことができる。
このようにすれば、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、テキストマイニングによって抽出された特徴が出現するテキストの件数に、出典間でどの程度偏りがあるかということを利用者に示すことができる。
このようにすれば、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、出典ごとのテキストの件数に偏りがあっても、テキストマイニングによって抽出された特徴が、特定の出典のテキストに通常考えられるよりも大きく偏って出現しているときに、そのことを利用者に示すことができる。
このようにすれば、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、テキストマイニングによって抽出された特徴が出現する実際のテキストの件数が、その特徴が出典とは無関係に各テキストに出現すると仮定したときの件数とどの程度ずれているのかを利用者に示すことができる。
このようにすれば、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、テキストマイニングによって抽出された特徴が、出典によらず、あらゆるテキストに共通のものであるのか、あるいは、特定の出典のテキストに偏って見られるものであるのかということを利用者に示すことができる。
このようにすれば、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、テキストマイニングによって抽出された特徴が出現するテキストの件数に、出典間でどの程度偏りがあるかということを利用者に示すことができる。
このようにすれば、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、出典ごとのテキストの件数に偏りがあっても、テキストマイニングによって抽出された特徴が、特定の出典のテキストに通常考えられるよりも大きく偏って出現しているときに、そのことを利用者に示すことができる。
このようにすれば、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、テキストマイニングによって抽出された特徴が出現する実際のテキストの件数が、その特徴が出典とは無関係に各テキストに出現すると仮定したときの件数とどの程度ずれているのかを利用者に示すことができる。
4 出力装置
5 テキストマイニングプログラム
11 テキストマイニング装置
12 テキストマイニング装置
13 テキストマイニング装置
14 テキストマイニング装置
15 テキストマイニング装置
16 コンピュータ
21 記憶装置
22 記憶装置
23 記憶装置
25 期待値
31 データ処理装置
32 データ処理装置
33 データ処理装置
34 データ処理装置
35 データ処理装置
36 データ処理装置
201 テキスト集合記憶部
202 カテゴリ情報記憶部
203 抽出結果記憶部
204 テキスト集合記憶部
205 カテゴリ情報記憶部
301 特徴表現抽出手段
302 主要出典判別手段
303 主要出典付抽出結果出力手段
304 構成比率計算手段
305 構成比率付抽出結果出力手段
306 特異出典判別手段
307 特異出典付抽出結果出力手段
308 乖離度計算手段
309 乖離度付抽出結果出力手段
310 連関分類軸判別手段
311 特異カテゴリ判別手段
312 特異カテゴリ付抽出結果出力手段
Claims (14)
- 複数の異なる出典から集められたテキストの集合をカテゴリ毎に記憶する記憶装置と、データ処理装置とを有し、前記異なる出典はテキストの異なるソースであり、
前記データ処理装置は、特徴表現抽出手段と、出典情報生成手段と、マイニング結果出力手段とを含み、
前記特徴表現抽出手段は、前記記憶装置から読み出した指定の対象カテゴリに属するテキストの集合から特徴を抽出するものであり、
前記出典情報生成手段は、前記特徴表現抽出手段が抽出した前記特徴の各々に対して、該特徴を含むテキストの出典別のテキスト件数を計数し、前記計数結果から、該特徴を含むテキストの出典の統計的傾向を示す情報である出典情報を生成するものであり、
前記マイニング結果出力手段は、前記特徴表現抽出手段が抽出した特徴と前記出典情報生成手段が作成した出典情報とを対応付けて、テキストマイニングによって抽出された特徴が、出典によらず、あらゆるテキストに共通のものであるか、或いは特定の出典に偏って現れるものであるかを利用者に示す情報を出力するものであることを特徴とするテキストマイニング装置。 - 前記マイニング結果出力手段は、前記特徴を含むテキストの主要な出典を特定する情報として前記出典情報を生成するものであることを特徴とする請求項1に記載のテキストマイニング装置。
- 前記マイニング結果出力手段は、前記特徴を含むテキストの出典別の構成比率を示す情報として前記出典情報を生成するものであることを特徴とする請求項1に記載のテキストマイニング装置。
- 前記マイニング結果出力手段は、前記特徴を含むテキストの集合において、前記出典のテキストの件数が、前記テキストの集合全体における出典別のテキスト件数を鑑みて妥当である値と大きく乖離している出典を特定する情報として前記出典情報を生成するものであることを特徴とする請求項1に記載のテキストマイニング装置。
- 前記マイニング結果出力手段は、前記特徴を含むテキストの集合において、前記出典のテキストの件数が、前記テキストの集合全体における出典別のテキストの件数に鑑みて妥当な値と乖離している度合いを示す情報として前記出典情報を生成するものであることを特徴とする請求項1に記載のテキストマイニング装置。
- 複数の分類軸について各テキストが属するその分類軸におけるそのテキストのカテゴリを記憶する記憶装置と、データ処理装置とを有し、
前記データ処理装置は、特徴表現抽出手段と、連関分類軸判別手段と、特異カテゴリ判別手段と、特異カテゴリ付抽出結果出力手段とを含むものであり、
前記特徴表現抽出手段は、前記記憶装置から読み出した指定の分類軸におけるカテゴリに属するテキストの集合から特徴を抽出するものであり、
前記連関分類軸判別手段は、前記特徴表現抽出手段が抽出した前記特徴の各々に対して、テキストがその特徴を含むかどうかが、テキストが属するカテゴリに応じて異なるかどうかを各分類軸について判定し、テキストがその特徴を含むかどうかと連関する分類軸を判別するものであり、
前記特異カテゴリ判別手段は、前記連関分類軸判別手段にて判別された前記分類軸のカテゴリであって、該特徴を含むテキストの集合において、前記カテゴリに属するテキストの件数が、前記テキスト集合の全体における前記分類軸の前記カテゴリ別のテキストの件数に鑑みて妥当な値と大きく乖離している前記カテゴリを判別するものであり、
前記特異カテゴリ付抽出結果出力手段は、前記特徴表現抽出手段が抽出した前記特徴と前記特異カテゴリ判別手段が判定した前記カテゴリとを対応付けて、前記特徴が出典によらず、あらゆるテキストに共通のものであるか、或いは特定の出典に偏って現れるものであるかを利用者に示す情報を出力するものであることを特徴とするテキストマイニング装置。 - 複数の異なる出典から集められたテキストの集合をカテゴリ毎に記憶装置に記憶し、前記異なる出典はソースの異なるテキストであり、
前記記憶装置から読み出した指定の対象カテゴリに属するテキストの集合から特徴を抽出し、
前記抽出した前記特徴の各々に対して、該特徴を含むテキストの出典別のテキスト件数を計数し、前記計数結果から、該特徴を含むテキストの出典の統計的傾向を示す情報である出典情報を生成し、
前記抽出した特徴と前記作成した出典情報とを対応付けて、テキストマイニングによって抽出された特徴が、出典によらず、あらゆるテキストに共通のものであるか、或いは特定の出典に偏って現れるものであるかを利用者に示す情報を出力することを特徴とするテキストマイニング方法。 - 前記特徴を含むテキストの主要な出典を特定する情報として前記出典情報を生成することを特徴とする請求項7に記載のテキストマイニング方法。
- 前記特徴を含むテキストの出典別の構成比率を示す情報として前記出典情報を生成することを特徴とする請求項7に記載のテキストマイニング方法。
- 前記特徴を含むテキストの集合において、前記出典のテキストの件数が、前記テキストの集合全体における出典別のテキスト件数を鑑みて妥当である値と大きく乖離している出典を特定する情報として前記出典情報を生成することを特徴とする請求項7に記載のテキストマイニング方法。
- 前記特徴を含むテキストの集合において、前記出典のテキストの件数が、前記テキストの集合全体における出典別のテキストの件数に鑑みて妥当な値と乖離している度合いを示す情報として前記出典情報を生成することを特徴とする請求項7に記載のテキストマイニング方法。
- 複数の分類軸について各テキストが属するその分類軸におけるそのテキストのカテゴリを記憶装置に記憶し、
前記記憶装置から読み出した指定の分類軸におけるカテゴリに属するテキストの集合から特徴を抽出し、
前記抽出した前記特徴の各々に対して、テキストがその特徴を含むかどうかが、テキストが属するカテゴリに応じて異なるかどうかを各分類軸について判定し、テキストがその特徴を含むかどうかと連関する分類軸を判別し、
前記判別された前記分類軸のカテゴリであって、前記特徴を含むテキストの集合において、前記カテゴリに属するテキストの件数が、前記テキスト集合の全体における前記分類軸の前記カテゴリ別のテキストの件数に鑑みて妥当な値と大きく乖離している前記カテゴリを判別し、
前記抽出した前記特徴と前記判定した前記カテゴリとを対応付けて、前記特徴が出典によらず、あらゆるテキストに共通のものであるか、或いは特定の出典に偏って現れるものであるかを利用者に示す情報を出力することを特徴とするテキストマイニング方法。 - 記憶装置に記憶されている複数の異なる出典から集められたテキストの集合から特徴を抽出するためのテキストマイニングプログラムであって、
複数の異なる出典から集められたテキストの集合をカテゴリ毎に記憶装置に記憶し、前記異なる出典はソースの異なるテキストであり、
コンピュータに、
前記記憶装置から読み出した指定の対象カテゴリに属するテキストの集合から特徴を抽出する機能と、
前記抽出した前記特徴の各々に対して、該特徴を含むテキストの出典別のテキスト件数を計数し、前記計数結果から、該特徴を含むテキストの出典の統計的傾向を示す情報である出典情報を生成する機能と、
前記抽出した特徴と前記作成した出典情報とを対応付けて、テキストマイニングによって抽出された特徴が、出典によらず、あらゆるテキストに共通のものであるか、或いは特定の出典に偏って現れるものであるかを利用者に示す情報を出力する機能とを実行させることを特徴とするテキストマイニングプログラム。 - 記憶装置に記憶されている複数の異なる出典から集められたテキストの集合から特徴を抽出するためのテキストマイニングプログラムであって、
複数の分類軸について各テキストが属するその分類軸におけるそのテキストのカテゴリを記憶装置に記憶し、
コンピュータに、
前記記憶装置から読み出した指定の分類軸におけるカテゴリに属するテキストの集合から特徴を抽出する機能と、
前記抽出した前記特徴の各々に対して、テキストがその特徴を含むかどうかが、テキストが属するカテゴリに応じて異なるかどうかを各分類軸について判定し、テキストがその特徴を含むかどうかと連関する分類軸を判別する機能と、
前記判別された前記分類軸のカテゴリであって、前記特徴を含むテキストの集合において、前記カテゴリに属するテキストの件数が、前記テキスト集合の全体における前記分類軸の前記カテゴリ別のテキストの件数に鑑みて妥当な値と大きく乖離している前記カテゴリを判別する機能と、
前記抽出した前記特徴と前記判定した前記カテゴリとを対応付けて、前記特徴が出典によらず、あらゆるテキストに共通のものであるか、或いは特定の出典に偏って現れるものであるかを利用者に示す情報を出力するする機能とを実行させることを特徴とするテキストマイニングプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008517833A JP5223671B2 (ja) | 2006-05-26 | 2007-05-17 | テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム |
Applications Claiming Priority (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006147038 | 2006-05-26 | ||
| JP2006147038 | 2006-05-26 | ||
| JP2008517833A JP5223671B2 (ja) | 2006-05-26 | 2007-05-17 | テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム |
| PCT/JP2007/060133 WO2007138872A1 (ja) | 2006-05-26 | 2007-05-17 | テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPWO2007138872A1 JPWO2007138872A1 (ja) | 2009-10-01 |
| JP5223671B2 true JP5223671B2 (ja) | 2013-06-26 |
Family
ID=38778391
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2008517833A Active JP5223671B2 (ja) | 2006-05-26 | 2007-05-17 | テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US8595247B2 (ja) |
| JP (1) | JP5223671B2 (ja) |
| WO (1) | WO2007138872A1 (ja) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8751531B2 (en) | 2008-08-29 | 2014-06-10 | Nec Corporation | Text mining apparatus, text mining method, and computer-readable recording medium |
| JP5472641B2 (ja) * | 2008-08-29 | 2014-04-16 | 日本電気株式会社 | テキストマイニング装置、テキストマイニング方法、及びプログラム |
| CN103678320B (zh) * | 2012-09-03 | 2017-10-27 | 腾讯科技(深圳)有限公司 | 网络信息的挖掘方法和装置 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH07311777A (ja) * | 1994-05-19 | 1995-11-28 | Hitachi Ltd | 異種データベースのデータ検索方法 |
| JP2001142887A (ja) * | 1999-11-10 | 2001-05-25 | Sharp Corp | 文書検索方法および文書検索装置およびプログラム記録媒体 |
| JP2002041547A (ja) * | 2000-07-27 | 2002-02-08 | Ricoh Co Ltd | 情報分析支援装置、システム、方法及び情報分析支援を実行するための記録媒体 |
| JP2004021445A (ja) * | 2002-06-14 | 2004-01-22 | Nri & Ncc Co Ltd | テキストデータ分析システム、テキストデータ分析方法およびコンピュータプログラム |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20020099730A1 (en) * | 2000-05-12 | 2002-07-25 | Applied Psychology Research Limited | Automatic text classification system |
| JP3864687B2 (ja) | 2000-09-13 | 2007-01-10 | 日本電気株式会社 | 情報分類装置 |
| JP2003141134A (ja) | 2001-11-07 | 2003-05-16 | Hitachi Ltd | テキストマイニング処理方法及びその実施装置 |
| JP2003308417A (ja) | 2002-04-16 | 2003-10-31 | Tm System Kikaku:Kk | 情報蒐集システム |
| US20070016580A1 (en) * | 2005-07-15 | 2007-01-18 | International Business Machines Corporation | Extracting information about references to entities rom a plurality of electronic documents |
-
2007
- 2007-05-17 WO PCT/JP2007/060133 patent/WO2007138872A1/ja not_active Ceased
- 2007-05-17 JP JP2008517833A patent/JP5223671B2/ja active Active
- 2007-05-17 US US12/227,696 patent/US8595247B2/en active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH07311777A (ja) * | 1994-05-19 | 1995-11-28 | Hitachi Ltd | 異種データベースのデータ検索方法 |
| JP2001142887A (ja) * | 1999-11-10 | 2001-05-25 | Sharp Corp | 文書検索方法および文書検索装置およびプログラム記録媒体 |
| JP2002041547A (ja) * | 2000-07-27 | 2002-02-08 | Ricoh Co Ltd | 情報分析支援装置、システム、方法及び情報分析支援を実行するための記録媒体 |
| JP2004021445A (ja) * | 2002-06-14 | 2004-01-22 | Nri & Ncc Co Ltd | テキストデータ分析システム、テキストデータ分析方法およびコンピュータプログラム |
Non-Patent Citations (4)
| Title |
|---|
| CSNA200601634001; '問い合わせ/帳票機能の充実' FUJITSU SymfoWARER Navigator Server新機能ご紹介 第1版, 20020331, 39-50頁, 富士通株式会社 * |
| CSNG200300654004; 那須川 哲哉: 'テキストマイニング' 人工知能学会誌 第16巻 第2号, 20010301, 219-225ページ, (社)人工知能学会 * |
| JPN6012004791; 那須川 哲哉: 'テキストマイニング' 人工知能学会誌 第16巻 第2号, 20010301, 219-225ページ, (社)人工知能学会 * |
| JPN6012004793; '問い合わせ/帳票機能の充実' FUJITSU SymfoWARER Navigator Server新機能ご紹介 第1版, 20020331, 39-50頁, 富士通株式会社 * |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2007138872A1 (ja) | 2007-12-06 |
| US20090307210A1 (en) | 2009-12-10 |
| JPWO2007138872A1 (ja) | 2009-10-01 |
| US8595247B2 (en) | 2013-11-26 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Kalampokis et al. | Understanding the predictive power of social media | |
| US9483730B2 (en) | Hybrid review synthesis | |
| US20200143115A1 (en) | Systems and methods for improved automated conversations | |
| US10140285B2 (en) | System and method for generating phrase based categories of interactions | |
| US11950020B2 (en) | Methods and apparatus for displaying, compressing and/or indexing information relating to a meeting | |
| Moges et al. | Determining the use of data quality metadata (DQM) for decision making purposes and its impact on decision outcomes—An exploratory study | |
| CN114514546A (zh) | 用于促进产品研发的系统、方法和用户界面 | |
| JP2017102757A (ja) | 探索支援方法、探索支援装置、及び、プログラム | |
| JP2013033376A (ja) | 情報処理装置、情報処理方法、および、プログラム | |
| JP5223671B2 (ja) | テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム | |
| KR20150005795A (ko) | 소셜 데이터의 분석을 통한 감성 영향 인덱스의 생성 방법 및 그 시스템 | |
| CN103635898A (zh) | 喜好可视化系统和审查系统 | |
| Son et al. | Topic diversity of online consumer reviews and its effect on review helpfulness | |
| JP7300420B2 (ja) | 通話録音テキスト分析システムおよび方法 | |
| JP2005190284A (ja) | 情報分類装置および情報分類方法 | |
| JP2006004098A (ja) | 評価情報生成装置、評価情報生成方法、及びプログラム | |
| JP6536671B2 (ja) | テキスト可視化システム、テキスト可視化方法、及び、プログラム | |
| JP5224532B2 (ja) | 評判情報分類装置及びプログラム | |
| Ustyianovych et al. | Instant messaging platforms news multi-task classification for stance, sentiment, and discrimination detection | |
| JP2007257330A (ja) | 顧客対応要員を評価させるプログラム、評価方法、および顧客対応要員の評価装置 | |
| KR101730883B1 (ko) | 코멘트 데이터의 계층화된 정보를 시각화하는 장치 및 방법 | |
| JP2019096019A (ja) | 情報解析システム | |
| JP2005165754A (ja) | テキストマイニング分析装置、テキストマイニング分析方法、及びテキストマイニング分析プログラム | |
| JP7171352B2 (ja) | ワークショップ支援システム及びワークショップ支援方法 | |
| Perikos et al. | Opinion mining and visualization of online users reviews: a case study in Booking. com |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100414 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120207 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120405 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120925 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121220 |
|
| A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20121227 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130212 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130225 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5223671 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160322 Year of fee payment: 3 |