JP5223671B2

JP5223671B2 - テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム

Info

Publication number: JP5223671B2
Application number: JP2008517833A
Authority: JP
Inventors: 崇博池田; 聡中澤; 要祐坂尾; 研治佐藤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-05-26
Filing date: 2007-05-17
Publication date: 2013-06-26
Anticipated expiration: 2027-05-17
Also published as: WO2007138872A1; US20090307210A1; JPWO2007138872A1; US8595247B2

Description

本発明は、テキスト集合から特徴を抽出するテキストマイニング装置に関し、特に複数の異なる種類のテキストから構成されるテキスト集合から特徴を抽出するテキストマイニング装置に関する。

テキストマイニングとは、ある分類軸に従って複数のカテゴリに分類されたテキストの集合を入力とし、分析対象として利用者が指定する特定のカテゴリに属するテキストに特有の特徴を発見する処理である。これにより、利用者は、指定したカテゴリがどのような特徴を持っているのかを知ることができる。
関連するテキストマイニング装置は、各テキストから単語を抽出し、分析対象のカテゴリに属するテキストと関連性が高い単語、もしくは、単語の組み合わせを、そのカテゴリの特徴として抽出するように構成される。

この種のテキストマイニング装置の一例が、特許文献１に記載されている。この特許文献１に記載されたテキストマイニング装置は、マイニング対象のテキストを特徴付ける語句を抽出する特徴語抽出処理部と、分析の対象とする分類軸を設定する分析軸設定処理部と、分類軸の各カテゴリと関連する度合いが高い語句を抽出する関連語句取得処理部とを有し、分析の対象として利用者が設定した分類軸の各カテゴリと深く関連する語句を抽出する。

特開２００３−１４１１３４号公報

テキストマイニングにおいて、マイニング対象のテキストの集合が、出典が異なる複数の種類のテキストからなる場合、抽出された特徴は、必ずしも各出典のテキストが共通に持つ特徴であるとは限らない。
このような場合、利用者に対して、抽出されたそれぞれの特徴が、出典によらず、あらゆるテキストに共通のものであるのか、あるいは、特定の出典のテキストに偏って見られるものであるのかということを示すことができれば、利用者がより多くの知見を得られる可能性がある。

例えば、ある商品に関するアンケートを実施し、回答者がその商品に関心があるかどうかによって「商品への関心あり」「商品への関心なし」の２つにカテゴリ分けされた、回答のテキストが多数得られたとする。このとき、このテキストの集合を対象としてテキストマイニングを行い、例えば、「商品への関心あり」のカテゴリの回答と関連性が高い単語を、そのカテゴリの特徴として抽出することができる。ここでは、「商品への関心あり」というカテゴリの特徴として、「デザイン」「価格」「機能」等の単語が抽出されたものとする。

一方、アンケートが複数の地区で実施された場合、マイニング対象のテキストは、第１の地区で得られた回答を出典とするテキストと、第２の地区で得られた回答を出典とするテキスト等のように、アンケートを実施した地区が異なる複数の種類のテキストからなることがある。この場合、「商品への関心あり」というカテゴリの特徴として抽出された「デザイン」「価格」「機能」等の単語は、必ずしも各地区の回答に共通に出現する単語であるとは限らず、第１の地区の回答にしか出現しない単語や、第２の地区の回答にしか出現しない単語である可能性がある。

このとき、例えば、「デザイン」という単語は、第１の地区の回答に偏って出現しており、「価格」という単語は、第２の地区の回答に偏って出現しているという状況があったとすると、そのことを利用者に示すことができれば、利用者は、第１の地区では、特に「デザイン」が重視され、第２の地区では、特に「価格」が重視されている可能性があることに気付くことができる。

次に、別の例として、例えば、コンタクトセンタにおいて、受付内容によって「苦情」「要望」等のカテゴリに分類された、顧客からの問い合わせ内容を記述したテキストが蓄積されていたとする。このとき、このテキストの集合を対象としてテキストマイニングを行い、例えば、「苦情」というカテゴリのテキストと関連性が高い単語を、そのカテゴリの特徴として抽出することができる。

一方、コンタクトセンタが、メールによる問い合わせと電話による問い合わせの双方を受け付ける場合には、マイニング対象のテキストが顧客からのメールを出典とするテキスト、および、顧客からの電話を出典とする、その通話内容を音声認識した認識結果のテキストの２種類のテキストからなることがある。この場合、「苦情」というカテゴリの特徴として抽出された単語は、必ずしも電話による問い合わせとメールによる問い合わせの双方に共通に出現する単語であるとは限らず、電話による問い合わせにしか出現しない単語や、メールによる問い合わせにしか出現しない単語である可能性がある。

一般に、音声認識によって音声データをテキスト化する場合、発話された単語をすべて正しく認識できるとは限らず、発話された単語と異なる単語に誤認識してしまうことがある。このため、例えば、音声認識によって「故障」という単語が「呼称」と誤認識され、通話内容を音声認識した認識結果にのみ「呼称」という単語が含まれることがある。このため、例えば、「苦情」というカテゴリの特徴として抽出された単語が、「故障」「呼称」「動作音」等であったときに、「呼称」という単語が通話内容を音声認識した認識結果のみに偏って出現するという状況であれば、そのことを利用者に示すことによって、利用者は、「呼称」という単語が「故障」という単語を誤認識したものである可能性があることに気付くことができる。

しかしながら、関連するテキストマイニング装置は、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合を考慮しておらず、抽出された特徴が、出典によらず、あらゆるテキストに共通のものであるのか、あるいは、特定の出典のテキストに偏って見られるものであるのかということを利用者に示すことができなかった。

一方、マイニング対象のテキストが複数の分類軸に従って分類されている場合には、テキストマイニングによって抽出された特徴（利用者が分析対象として指定したカテゴリの特徴）が、ある分類軸のどのカテゴリのテキストにも共通して出現するものであるのか、あるいは、ある分類軸の特定のカテゴリのテキストに偏って出現するものであるのかということを示すことができれば、利用者がより多くの知見を得られる可能性がある。

例えば、ある商品に関するアンケートに対する回答のテキストが多数得られているとする。また、回答のテキストは、回答者がその商品に関心があるかどうかという分類軸に従って、「商品への関心あり」「商品への関心なし」の２つにカテゴリに分類されており、回答者の性別という分類軸に従って、「男性」「女性」という２つのカテゴリに分類されているものとする。このとき、このテキストの集合を対象としてテキストマイニングを行い、例えば、「商品への関心あり」のカテゴリの回答と関連性が高い単語を、そのカテゴリの特徴として抽出することができる。例えば、「商品への関心あり」というカテゴリの特徴として、「デザイン」「価格」「機能」等の単語が抽出されたものとする。

これらの単語は、回答者がその商品に関心があるかどうかという分類軸に関しては、「商品への関心あり」というカテゴリと強く関連することが自明だが、他の分類軸（例えば、回答者の性別）に関しては、その分類軸の各カテゴリとどのような関連性を持つのかを一概に言うことはできない。回答者の性別とは無関係に、すべてのテキストに一様に出現する単語である可能性もあれば、回答者が「女性」である回答にしか出現しない単語や、回答者が「男性」である回答にしか出現しない単語である場合もある。

このとき、例えば、「デザイン」という単語は、回答者が「女性」である回答に偏って出現しており、「価格」という単語は、回答者が「男性」である回答に偏って出現しているという状況があったとすると、そのことを利用者に示すことができれば、利用者は、女性が「デザイン」を重視し、男性が「価格」を重視している可能性があることに気付くことができる。

しかしながら、関連するテキストマイニング装置は、抽出された特徴がテキスト中に出現するかどうかということに関して、ある分類軸の各カテゴリ間で差異があるかどうかを考慮しておらず、それぞれの特徴が、あらゆるテキストに一様に見られるものであるのか、あるいは、特定のカテゴリのテキストに偏って見られるものであるのかということを利用者に示すことができなかった。

以上のように、関連するテキストマイニング装置の第１の問題点は、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、テキストマイニングによって抽出された特徴が、出典によらず、あらゆるテキストに共通のものであるのか、あるいは、特定の出典のテキストに偏って見られるものであるのかということを利用者に示すことができなかったことにある。
その理由は、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合を考慮していないためである。

第２の問題点は、マイニング対象のテキストが複数の分類軸に従って分類されている場合に、テキストマイニングによって抽出された特徴が、あらゆるテキストに一様に見られるものであるのか、あるいは、特定のカテゴリのテキストに偏って見られるものであるのかということを利用者に示すことができなかったことにある。
その理由は、テキストマイニングによって抽出された各特徴がテキスト中に出現するかどうかという点に関して、テキストが属するカテゴリによる差異を何ら考慮していないためである。

本発明の目的は、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、テキストマイニングによって抽出された特徴が、出典によらず、あらゆるテキストに共通のものであるのか、あるいは、特定の出典のテキストに偏って見られるものであるのかということを利用者に示すことができるテキストマイニング装置等を提供することにある。

本発明の他の目的は、マイニング対象のテキストが複数の分類軸に従って分類されているときに、抽出された特徴のそれぞれがあらゆるテキストに一様に見られるものであるのか、あるいは、ある分類軸の特定のカテゴリのテキストに偏って見られるものであるのかということを利用者に示すことができるテキストマイニング装置等を提供することにある。

本発明の、テキストマイニング装置は、複数の出典から集められたテキストの集合から抽出した特徴の各々に対して、該特徴を含むテキストの出典情報を生成する出典情報生成手段と、該特徴と該出典情報とを対応付けて出力するマイニング結果出力手段とを有する。
ここで、「出典情報」とは、特徴を含むテキストの出典がどのような傾向にあるかを示す情報である。

上記テキストマイニング装置によれば、テキスト集合から抽出された各特徴とその特徴を含むテキストの出典に関する情報を対応付けて利用者に提示することができる。
そのため、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、テキストマイニングによって抽出された特徴が、出典によらず、あらゆるテキストに共通のものであるのか、あるいは、特定の出典のテキストに偏って見られるものであるのかということを利用者に示すことができる。

本発明のテキストマイニング装置は、複数の分類軸で分類されたテキストの集合から抽出した特徴の各々に対して、分類軸の１つであって、テキストが該特徴を含むかどうかと、該分類軸においてテキストが属するカテゴリとが強く連関する分類軸を判別する連関分類軸判別手段と、該分類軸のカテゴリであって、該特徴を含むテキストの集合において、該カテゴリに属するテキストの件数が、テキスト集合の全体における該分類軸のカテゴリ別のテキストの件数に鑑みて妥当な値と大きく乖離しているカテゴリを判別する特異カテゴリ判別手段と、該特徴と該カテゴリとを対応付けて出力する特異カテゴリ付抽出結果出力手段とを有する。

上記テキストマイニング装置によれば、テキストマイニングによって抽出されたそれぞれの特徴に対して、テキストがその特徴を含むかどうかと強く連関する分類軸を判別し、さらに、その分類軸のカテゴリのうち、その特徴を含むテキストの集合において、そのカテゴリに属するテキストの実際の件数が、期待値と大きく乖離しているものを判別して、それぞれの特徴にそのカテゴリを付けて出力することができる。
そのため、マイニング対象のテキストが複数の分類軸に従って分類されているときに、抽出された特徴のそれぞれがあらゆるテキストに一様に見られるものであるのか、あるいは、ある分類軸の特定のカテゴリのテキストに偏って見られるものであるのかということを利用者に示すことができる。

本発明の、テキストマイニング方法は、複数の出典から集められたテキストの集合から特徴を抽出し、特徴の各々に対して、該特徴を含むテキストの出典情報を生成し、該特徴と該出典情報とを対応付けて出力する。

上記テキストマイニング方法によれば、テキスト集合から抽出された各特徴とその特徴を含むテキストの出典に関する情報を対応付けて利用者に提示することができる。
そのため、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、テキストマイニングによって抽出された特徴が、出典によらず、あらゆるテキストに共通のものであるのか、あるいは、特定の出典のテキストに偏って見られるものであるのかということを利用者に示すことができる。

本発明のテキストマイニング方法は、複数の分類軸で分類されたテキストの集合から特徴を抽出し、特徴の各々に対して、分類軸の１つであって、テキストが該特徴を含むかどうかと、該分類軸においてテキストが属するカテゴリとが強く連関する分類軸を判別し、該分類軸のカテゴリであって、該特徴を含むテキストの集合において、該カテゴリに属するテキストの件数が、テキストの集合全体における該分類軸のカテゴリ別のテキストの件数に鑑みて妥当な値と大きく乖離しているカテゴリを判別し、該特徴と該カテゴリとを対応付けて出力する（。

上記テキストマイニング方法によれば、テキストマイニングによって抽出されたそれぞれの特徴に対して、テキストがその特徴を含むかどうかと強く連関する分類軸を判別し、さらに、その分類軸のカテゴリのうち、その特徴を含むテキストの集合において、そのカテゴリに属するテキストの実際の件数が、期待値と大きく乖離しているものを判別して、それぞれの特徴にそのカテゴリを付けて出力することができる。
そのため、マイニング対象のテキストが複数の分類軸に従って分類されているときに、抽出された特徴のそれぞれがあらゆるテキストに一様に見られるものであるのか、あるいは、ある分類軸の特定のカテゴリのテキストに偏って見られるものであるのかということを利用者に示すことができる。

本発明のテキストマイニングプログラムは、コンピュータに、複数の出典から集められたテキストの集合から特徴を抽出し、特徴の各々に対して、該特徴を含むテキストの出典情報を生成する処理と、該特徴と該出典情報とを対応付けて出力させる処理とを実行させる。

上記テキストマイニングプログラムによれば、テキスト集合から抽出された各特徴とその特徴を含むテキストの出典に関する情報を対応付けて利用者に提示することができる。
そのため、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、テキストマイニングによって抽出された特徴が、出典によらず、あらゆるテキストに共通のものであるのか、あるいは、特定の出典のテキストに偏って見られるものであるのかということを利用者に示すことができる。

本発明のテキストマイニングプログラムは、複数の分類軸で分類されたテキストの集合から特徴を抽出して出力する出力処理をコンピュータに実行させる。また、コンピュータに、特徴の各々に対して、分類軸の１つであって、テキストが該特徴を含むかどうかと、該分類軸においてテキストが属するカテゴリとが強く連関する分類軸を判別する処理と、該分類軸のカテゴリであって、該特徴を含むテキストの集合において、該カテゴリに属するテキストの件数が、テキストの集合全体における該分類軸のカテゴリ別のテキストの件数に鑑みて妥当な値と大きく乖離しているカテゴリを判別する処理とを実行させ、出力処理において、該特徴と該カテゴリとを対応付けて出力させる。
上記テキストマイニングプログラムによれば、テキストマイニングによって抽出されたそれぞれの特徴に対して、テキストがその特徴を含むかどうかと強く連関する分類軸を判別し、さらに、その分類軸のカテゴリのうち、その特徴を含むテキストの集合において、そのカテゴリに属するテキストの実際の件数が、期待値と大きく乖離しているものを判別して、それぞれの特徴にそのカテゴリを付けて出力することができる。
そのため、マイニング対象のテキストが複数の分類軸に従って分類されているときに、抽出された特徴のそれぞれがあらゆるテキストに一様に見られるものであるのか、あるいは、ある分類軸の特定のカテゴリのテキストに偏って見られるものであるのかということを利用者に示すことができる。

本発明によれば、テキスト集合から抽出された各特徴とその特徴を含むテキストの出典に関する情報を対応付けて利用者に提示することができる。
そのため、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、テキストマイニングによって抽出された特徴が、出典によらず、あらゆるテキストに共通のものであるのか、あるいは、特定の出典のテキストに偏って見られるものであるのかということを利用者に示すことができる。

また、テキストマイニングによって抽出されたそれぞれの特徴に対して、テキストがその特徴を含むかどうかと強く連関する分類軸を判別し、さらに、その分類軸のカテゴリのうち、その特徴を含むテキストの集合において、そのカテゴリに属するテキストの実際の件数が、期待値と大きく乖離しているものを判別して、それぞれの特徴にそのカテゴリを付けて出力することができる。
そのため、マイニング対象のテキストが複数の分類軸に従って分類されているときに、抽出された特徴のそれぞれがあらゆるテキストに一様に見られるものであるのか、あるいは、ある分類軸の特定のカテゴリのテキストに偏って見られるものであるのかということを利用者に示すことができる。

次に、図を参照しながら本発明の第１の実施形態であるテキストマイニング装置１１の構成と動作について説明する。
図１を参照すると、テキストマイニング装置１１は、キーボード、マウス等の入力装置１と、情報を記憶するハードディスク装置等の記憶装置２１と、プログラム制御により動作するデータ処理装置３１と、ディスプレイ装置等の出力装置４とから構成される。

記憶装置２１は、テキスト集合記憶部２０１と、カテゴリ情報記憶部２０２と、抽出結果記憶部２０３とを含む。
テキスト集合記憶部２０１は、マイニング対象のテキストを、それぞれのテキストの出典が分かるような形態で記憶する。このとき、例えば、図１に示すように、テキストをその出典別に第１出典テキスト集合記憶部から第Ｎ出典テキスト集合記憶部に分けて記憶してもよいし、各テキストに対応付けてそのテキストの出典を記憶するようにしてもよい。

カテゴリ情報記憶部２０２は、テキスト集合記憶部２０１に記憶される各テキストに対応付けて、そのテキストが属するカテゴリを表す情報を記憶する。
抽出結果記憶部２０３は、テキストマイニングの結果として、利用者が指定するカテゴリの特徴と、その特徴を含むテキストとを対応付けて記憶する。なお、テキストマイニングの結果として抽出される特徴とは、例えば、単独の単語、複数の単語の組合せ、フレーズ、文、段落等のようなテキストの一部分である。

データ処理装置３１は、特徴表現抽出手段３０１と、主要出典判別手段３０２と、主要出典付抽出結果出力手段３０３とを含む。
特徴表現抽出手段３０１は、テキスト集合記憶部２０１に記憶されているテキスト集合に対してテキストマイニングを行い、入力装置１を通して利用者が指定するカテゴリの特徴を抽出する。また、その結果を抽出結果記憶部２０３に格納する。
テキストマイニングは、例えば、各テキストから単語を抽出し、分析対象のカテゴリに属するテキストと関連性が高い単語を、そのカテゴリの特徴として抽出するように構成することができる。なお、単語の代わりに、複数の単語の組合せ、フレーズ、文、段落等のようなテキストの一部分を特徴として抽出するようにしてもよい。

主要出典判別手段３０２（出典情報生成手段の一例）は、抽出結果記憶部２０３に格納されたそれぞれの特徴に対して、テキスト集合記憶部２０１を参照して、その特徴を含むテキストの主要な出典を判別し、出典情報としてその特徴に対応づける。例えば、抽出結果記憶部２０３に格納されたそれぞれの特徴に対して、その特徴を含むテキストの出典のうち、もっとも多いものを主要な出典として、その特徴に対応づけることができる。
なお、それぞれの特徴について、主要な出典を１つのみ対応づけるのではなく、複数の主要な出典を対応づけるようにしてもよい。また、主要な出典として適当なものがない場合には、何も対応づけないようにしてもよい。

例えば、抽出結果記憶部２０３に格納されたそれぞれの特徴に対して、その特徴を含むテキストの件数を出典別に計数し、その件数が予め定める閾値を超える出典すべてを、主要な出典としてその特徴に対応づけるようにしてもよい。また、抽出結果記憶部２０３に格納されたそれぞれの特徴に対して、その特徴を含むテキストの出典別の構成比率を求め、その比率が予め定める閾値を超える出典すべてを、主要な出典としてその特徴に対応づけるようにしてもよい。

また、複数の主要な出典を対応づけるようにする場合、主要な出典として判別されるものが数多くあるときは、そのすべてが主要であるとは考えにくいため、主要な出典として適当なものがないと判別し直すようにしてもよい。

主要出典付抽出結果出力手段３０３（マイニング結果出力手段の一例）は、抽出結果記憶部２０３に格納されたそれぞれの特徴について、その特徴を含むテキストの主要な出典を添えて、出力装置４を通して出力する。

次に、図１および図２を参照してテキストマイニング装置１１の動作について詳細に説明する。
まず、特徴表現抽出手段３０１が、入力装置１を通して利用者が指定するマイニング対象のカテゴリを読み取る（ステップＡ１）。特徴表現抽出手段３０１は、カテゴリ情報記憶部２０２も参照して、テキストマイニングを実行し、テキスト集合記憶部２０１に格納されているテキストのうち、ステップＡ１において利用者が指定したカテゴリに属するものに特有な特徴と、その特徴を含むテキストの集合を得る（ステップＡ２）。特徴表現抽出手段３０１は、得られた特徴、および、その特徴を含むテキストの集合を対応付けて、抽出結果として抽出結果記憶部２０３に格納する（ステップＡ３）。

続いて、主要出典判別手段３０２が、抽出結果記憶部２０３に格納された抽出結果から、特徴表現抽出手段３０１によって抽出された特徴を１つ選択し（ステップＡ４）、その特徴を含むテキストの集合を読み出す（ステップＡ５）。さらに、テキスト集合記憶部２０１を参照して、その集合におけるテキストの主要な出典を判別する（ステップＡ６）。主要出典判別手段３０２は、抽出結果記憶部２０３に格納されたすべての特徴に対してこれらの処理を繰り返す（ステップＡ７）。

最後に、主要出典付抽出結果出力手段３０３が、抽出結果記憶部２０３に格納されたそれぞれの特徴について、ステップＡ４ないしＡ６の処理によって判別された、その特徴を含むテキストの主要な出典を付けて出力し（ステップＡ８）、処理を終了する。

なお、本実施の形態の説明では、主要出典判別手段３０２が、抽出結果記憶部２０３に格納されたすべての特徴に対して、その特徴を含むテキストの主要な出典を判別した後に、主要出典付抽出結果出力手段３０３が出力を行うように説明したが、主要出典判別手段３０２が、抽出結果記憶部２０３に格納された一部の特徴に対して、その特徴を含むテキストの主要な出典を判別し、主要出典付抽出結果出力手段３０３がその分の出力を行うことを繰り返すように構成してもよい。

次に、本実施の形態の効果について説明する。
本実施の形態では、テキストマイニングによって抽出されたそれぞれの特徴に対して、その特徴を含むテキストの主要な出典を判別し、特徴とともに出力する。これにより、利用者は、テキストマイニングによって抽出された特徴が、主としてどの出典のテキストに見られる特徴であるのかということを知ることができる。また、特に、主要な出典として適当なものがない場合には、出典を出力しないように構成することにより、利用者は、テキストマイニングによって抽出された特徴がいずれかの出典のテキストに偏って出現している場合に、そのことを知ることができる。

次に、図を参照しながら本発明の第２の実施形態であるテキストマイニング装置１２の構成と動作について説明する。
図３を参照すると、テキストマイニング装置１２は、データ処理装置３２が、図１に示されたテキストマイニング装置１１のデータ処理装置３１の構成における主要出典判別手段３０２と主要出典付抽出結果出力手段３０３にかわり、構成比率計算手段３０４と、構成比率付抽出結果出力手段３０５を有する点で異なる。

構成比率計算手段３０４（出典情報生成手段の一例）は、抽出結果記憶部２０３に格納されたそれぞれの特徴に対して、テキスト集合記憶部２０１を参照し、出典情報としてその特徴を含むテキストの出典別の構成比率を求める。

構成比率付抽出結果出力手段３０５（マイニング結果出力手段の一例）は、抽出結果記憶部２０３に格納されたそれぞれの特徴について、その特徴を含むテキストの出典別の構成比率を添えて、出力装置４を通して出力する。このとき、構成比率は、それぞれの比率を数字で出力してもよいし、比率を示すグラフを用いて出力してもよい。また、比率の値そのものを示すかわりに、その大きさがどの程度かを示すアイコン等を出力するようにしてもよい。

次に、図３および図４を参照してテキストマイニング装置１２の動作について詳細に説明する。
図４のステップＡ１ないしＡ３で示される、本実施の形態における特徴表現抽出手段３０１の動作は、第１の実施の形態における特徴表現抽出手段３０１の動作と同一のため、説明は省略する。
本実施の形態では、特徴表現抽出手段３０１が動作した後、構成比率計算手段３０４が、抽出結果記憶部２０３に格納された抽出結果から、特徴表現抽出手段３０１によって抽出された特徴を１つ選択し（ステップＢ１）、その特徴を含むテキストの集合を読み出す（ステップＢ２）。さらに、テキスト集合記憶部２０１を参照して、その集合におけるテキストの出典別の構成比率を計算する（ステップＢ３）。構成比率計算手段３０４は、抽出結果記憶部２０３に格納されたすべての特徴に対してこれらの処理を繰り返す（ステップＢ４）。

最後に、構成比率付抽出結果出力手段３０５が、抽出結果記憶部２０３に格納されたそれぞれの特徴について、ステップＢ１ないしステップＢ４の処理によって計算された、その特徴を含むテキストの出典別の構成比率を付けて出力し（ステップＢ５）、処理を終了する。

なお、本実施の形態の説明では、構成比率計算手段３０４が、抽出結果記憶部２０３に格納されたすべての特徴に対して、その特徴を含むテキストの出典別の構成比率を計算した後に、構成比率付抽出結果出力手段３０５が出力を行うように説明したが、構成比率計算手段３０４が、抽出結果記憶部２０３に格納された一部の特徴に対して、その特徴を含むテキストの出典別の構成比率を計算し、構成比率付抽出結果出力手段３０５がその分の出力を行うことを繰り返すように構成してもよい。

次に、テキストマイニング装置１２の効果について説明する。
テキストマイニング装置１２では、テキストマイニングによって抽出されたそれぞれの特徴に対して、その特徴を含むテキストの出典別の構成比率を計算し、特徴とともに出力する。これにより、利用者は、テキストマイニングによって抽出された特徴が、主としてどの出典のテキストに見られる特徴であるのかということを知ることができる。また、テキストマイニングによって抽出された特徴がいずれかの出典のテキストに偏って出現している場合に、利用者がその偏りの程度を知ることができる。

次に、図を参照しながら本発明の第３の実施形態であるテキストマイニング装置１３の構成と動作について説明する。
図５を参照すると、テキストマイニング装置１３は、データ処理装置３３が、図１に示されたテキストマイニング装置１１のデータ処理装置３１の構成における主要出典判別手段３０２と主要出典付抽出結果出力手段３０３にかわり、特異出典判別手段３０６と、特異出典付抽出結果出力手段３０７を有する点で異なる。

特異出典判別手段３０６（出典情報生成手段の一例）は、抽出結果記憶部２０３に格納されたそれぞれの特徴に対して、テキスト集合記憶部２０１を参照し、出典情報として、その特徴を含むテキストの集合において特異な出典を判別して、その特徴に対応づける。ここで、特異な出典とは、その出典のテキストの件数が期待値と大きく乖離している出典のことを指すものとする。
例えば、テキスト集合記憶部２０１に、出典が「メール」のテキスト１５００件と出典が「ワールドワイドウェブ（World Wide Web、以下「ウェブ」という）」のテキスト５００件が格納されている場合、テキスト１００件中で、出典が「メール」のテキストの件数の期待値は７５で、出典が「ウェブ」のテキストの件数の期待値は２５である。このテキスト１００件中で、出典が「ウェブ」のテキストの実際の件数が期待値２５と大きく乖離している場合、「ウェブ」は、この１００件のテキストにおいて特異な出典ということになる。

実際の件数が期待値と大きく乖離しているかどうかは、例えば、実際の件数と期待値との差の絶対値が予め定める閾値を超えているかどうかによって判別することができる。また、期待値に対する実際の件数と期待値との差の絶対値の割合が予め定める閾値を超えているかどうかによって判別することもできる。また、これ以外の方法によって判別してもよい。

なお、特異出典判別手段３０６は、それぞれの特徴に対して、複数の特異な出典を判別するようにしてもよいし、実際の件数と期待値とがもっとも乖離しているもの１つを特異な出典とするようにしてもよい。

特異出典付抽出結果出力手段３０７（マイニング結果出力手段の一例）は、抽出結果記憶部２０３に格納されたそれぞれの特徴について、その特徴を含むテキストの集合において特異な出典を添えて、出力装置４を通して出力する。

なお、ある特徴を含むテキストの集合において特異な出典としては、その出典のテキストの件数が期待値を大きく上回るものと、期待値を大きく下回るものの２種類が存在する。本実施の形態では、特異出典判別手段３０６がその両者を区別して扱い、特異出典付抽出結果出力手段３０７が両者の違いが分かるように出力するように構成することができる。また、特異出典判別手段３０６がその片方のみを特異な出典として判別するようにしてもよい。

次に、図５および図６を参照してテキストマイニング装置１３の動作について詳細に説明する。
図６のステップＡ１ないしＡ３で示される、本実施の形態における特徴表現抽出手段３０１の動作は、第１の実施の形態における特徴表現抽出手段３０１の動作と同一のため、説明は省略する。
本実施の形態では、特徴表現抽出手段３０１が動作した後、特異出典判別手段３０６が、抽出結果記憶部２０３に格納された抽出結果から、特徴表現抽出手段３０１によって抽出された特徴を１つ選択し（ステップＣ１）、その特徴を含むテキストの集合を読み出す（ステップＣ２）。さらに、その集合において特異な出典を判別する（ステップＣ３）。特異出典判別手段３０６は、抽出結果記憶部２０３に格納されたすべての特徴に対してこれらの処理を繰り返す（ステップＣ４）。

最後に、特異出典付抽出結果出力手段３０７が、抽出結果記憶部２０３に格納されたそれぞれの特徴について、ステップＣ１ないしＣ４の処理によって判別された、その特徴を含むテキストの集合において特異な出典を付けて出力し（ステップＣ５）、処理を終了する。

なお、本実施の形態の説明では、特異出典判別手段３０６が、抽出結果記憶部２０３に格納されたすべての特徴に対して、その特徴を含むテキストの集合において特異な出典を判別した後に、特異出典付抽出結果出力手段３０７が出力を行うように説明したが、特異出典判別手段３０６が、抽出結果記憶部２０３に格納された一部の特徴に対して、その特徴を含むテキストの集合において特異な出典を判別し、特異出典付抽出結果出力手段３０７がその分の出力を行うことを繰り返すように構成してもよい。

次に、本実施の形態の効果について説明する。
本実施の形態では、テキストマイニングによって抽出されたそれぞれの特徴に対して、その特徴を含むテキストにおいて特異な出典を判別し、特徴とともに出力する。これにより、テキストマイニングによって抽出された特徴がある出典のテキストに通常より極度に多く出現している場合、または、通常より極度に少なくしか出現していない場合に、利用者がそのことを知ることができる。

また、本発明の第１の実施の形態では、特に、テキスト集合記憶部２０１に格納されているテキストの出典が特定のものに偏っている場合、その出典がテキストの主要な出典として出力され、ある特徴を含むテキストの出典に、元のテキスト集合とは異なる偏りがあっても利用者に分からない可能性があったが、本実施の形態によれば、出典の偏りが元のテキスト集合と異なっている場合に、その出典が特異な出典として出力されるため、そのようなことがない。

次に、図を参照しながら本発明の第４の実施形態であるテキストマイニング装置１４の構成と動作について説明する。
図７を参照すると、テキストマイニング装置１４は、データ処理装置３４が、図１に示されたテキストマイニング装置１１のデータ処理装置３１の構成における主要出典判別手段３０２と主要出典付抽出結果出力手段３０３にかわり、乖離度計算手段３０８と、乖離度付抽出結果出力手段３０９を有する点で異なる。

乖離度計算手段３０８（出典情報生成手段の一例）は、抽出結果記憶部２０３に格納されたそれぞれの特徴について、その特徴を含むテキストの集合を取得し、テキスト集合記憶部２０１を参照して、出典情報として、その集合における各出典のテキストの件数に関する乖離度を計算する。ここで、乖離度とは、件数の期待値と実際の件数がどの程度乖離しているかを表す値である。
乖離度としては、実際の件数と期待値との差や、期待値に対する実際の件数と期待値との差の割合等を採用することができる。また、これ以外の方法で乖離度を定義してもよい。

例えば、テキスト集合記憶部２０１に、全２０００件のテキストが格納されており、そのうちの１５００件の出典が「メール」であり、５００件の出典が「ウェブ」であったとすると、テキスト１００件中で、出典が「メール」のテキストの件数の期待値は１００×１５００／２０００＝７５であり、出典が「ウェブ」のテキストの件数の期待値は１００×５００／２０００＝２５である。このテキスト１００件中で、実際には、出典が「メール」のテキストの件数が６０件、出典が「ウェブ」のテキストの件数が４０件であったとすると、乖離度として期待値に対する実際の件数と期待値との差の割合を採用する場合、出典が「メール」のテキストの件数に関する乖離度は、（６０−７５）÷７５＝−０．２、出典が「ウェブ」のテキストの件数に関する乖離率は、（４０−２５）÷２５＝０．６となる。

乖離度付抽出結果出力手段３０９（マイニング結果出力手段の一例）は、抽出結果記憶部２０３に格納されたそれぞれの特徴について、その特徴を含むテキストの件数の出典別の乖離度を添えて、出力装置４を通して出力する。このとき、それぞれの乖離度を数字で出力してもよいし、グラフを用いて出力してもよい。また、乖離度の値そのものを示すかわりに、その大きさがどの程度かを示すアイコン等を出力するようにしてもよい。

次に、図７および図８を参照してテキストマイニング装置１４の動作について詳細に説明する。
図８のステップＡ１ないしＡ３で示される、本実施の形態における特徴表現抽出手段３０１の動作は、第１の実施の形態における特徴表現抽出手段３０１の動作と同一のため、説明は省略する。
本実施の形態では、特徴表現抽出手段３０１が動作した後、乖離度計算手段３０８が、抽出結果記憶部２０３に格納された抽出結果から、特徴表現抽出手段３０１によって抽出された特徴を１つ選択し（ステップＤ１）、その特徴を含むテキストの集合を読み出す（ステップＤ２）。さらに、その集合における各出典のテキストの件数に関する乖離度を計算する（ステップＤ３）。乖離度計算手段３０８は、抽出結果記憶部２０３に格納されたすべての特徴に対してこれらの処理を繰り返す（ステップＤ４）。

最後に、乖離度付抽出結果出力手段３０９が、抽出結果記憶部２０３に格納されたそれぞれの特徴について、ステップＤ１ないしＤ４の処理によって出典別ごとに計算されたテキストの件数に関する乖離度を付けて出力し（ステップＤ５）、処理を終了する。

なお、本実施の形態の説明では、乖離度計算手段３０８が、抽出結果記憶部２０３に格納されたすべての特徴に対して、その特徴を含むテキストの件数の出典別の乖離度を計算した後に、乖離度付抽出結果出力手段３０９が出力を行うように説明したが、乖離度計算手段３０８が、抽出結果記憶部２０３に格納された一部の特徴に対して、その特徴を含むテキストの件数の出典別の乖離度を計算し、乖離度付抽出結果出力手段３０９がその分の出力を行うことを繰り返すように構成してもよい。

次に、本実施の形態の効果について説明する。
本実施の形態では、テキストマイニングによって抽出されたそれぞれの特徴に対して、その特徴を含むテキストの件数の出典別の乖離度を計算し、特徴とともに出力する。テキストマイニングによって抽出された特徴がある出典のテキストに通常より極度に多く出現している場合、または、通常より極度に少なくしか出現していない場合、その出典のテキストの件数の乖離度の絶対値が大きくなり、利用者がそのことを知ることができる。また、そのとき、通常とどの程度乖離しているのかを知ることができる。

本発明の第１ないし第４の実施の形態の説明においては、特徴表現抽出手段３０１が、テキスト集合記憶部２０１に記憶されているテキスト集合に対して、入力装置１を通して利用者が指定するカテゴリの特徴を抽出するように説明したが、特定のカテゴリの特徴ではなく、テキスト集合全体の特徴を抽出するようにしてもよい。そのような構成をとる場合、カテゴリ情報記憶部２０２はなくてもかまわない。
この場合、特徴表現抽出手段３０１は、例えば、各テキストから単語を抽出し、多くのテキストに出現する単語を、テキスト集合全体の特徴として抽出するように構成することができる。なお、単語の代わりに、複数の単語の組合せ、フレーズ、文、段落等のようなテキストの一部分を特徴として抽出するようにしてもよい。

次に、図を参照しながら本発明の第５の実施形態であるテキストマイニング装置１５の構成と動作について説明する。
図９を参照すると、テキストマイニング装置１５は、データ処理装置３５が、図１に示されるテキストマイニング装置１１のデータ処理装置３１の構成における主要出典判別手段３０２と主要出典付抽出結果出力手段３０３にかわり、連関分類軸判別手段３１０と、特異カテゴリ判別手段３１１と、特異カテゴリ付抽出結果出力手段３１２とを有する点で異なる。

なお、テキスト集合記憶部２０４は、図１に示されるテキストマイニング装置１１におけるテキスト集合記憶部２０１と異なり、マイニング対象のテキストを、それぞれのテキストの出典が分かるような形態で記憶する必要はない。

また、カテゴリ情報記憶部２０５は、図１に示されるテキストマイニング装置１１におけるカテゴリ情報記憶部２０２と異なり、複数の分類軸について、テキスト集合記憶部２０４に記憶される各テキストが属する、その分類軸におけるカテゴリを表す情報を記憶する。
このとき、例えば、図９に示すように、分類軸ごとに、第１分類軸カテゴリ情報記憶部から第Ｎ分類軸カテゴリ情報記憶部に、その分類軸の各カテゴリに属するテキストを記憶するようにしてもよいし、各テキストに対して、各分類軸におけるそのテキストのカテゴリを記憶するようにしてもよい。

連関分類軸判別手段３１０は、抽出結果記憶部２０３に格納された各特徴に対して、テキストがその特徴を含むかどうかが、テキストが属するカテゴリに応じて異なるかどうかを、カテゴリ情報記憶部２０５に記憶されている各分類軸について判定し、テキストがその特徴を含むかどうかと連関する分類軸を判別する。テキストが特徴を含むかどうかと、テキストが属するカテゴリとが連関するかどうかは、例えば、カイ（χ）２乗検定等を用いて判定することができる。

特異カテゴリ判別手段３１１は、抽出結果記憶部２０３に格納されたそれぞれの特徴について、連関分類軸判別手段３１０によって連関すると判別された分類軸のカテゴリのうち、その特徴を含むテキストの集合において特異なカテゴリを判別し、その特徴に対応づける。ここで、特異なカテゴリとは、そのカテゴリに属するテキストの件数が期待値と大きく乖離しているカテゴリのことを指す。

実際の件数が期待値と大きく乖離しているかどうかは、例えば、実際の件数と期待値の差の絶対値が予め定める閾値を超えているかどうかによって判別することができる。また、期待値に対する実際の件数と期待値の差の絶対値の割合が予め定める閾値を超えているかどうかによって判別することもできる。また、これ以外の方法によって判別してもよい。
なお、特異カテゴリ判別手段３１１は、それぞれの特徴に対して、複数の特異なカテゴリを判別するようにしてもよいし、実際の件数と期待値とがもっとも乖離しているもの１つを特異なカテゴリとするようにしてもよい。

特異カテゴリ付抽出結果出力手段３１２は、抽出結果記憶部２０３に格納されたそれぞれの特徴について、特異カテゴリ判別手段３１１によって判別された特異なカテゴリを添えて、出力装置４を通して出力する。

なお、ある特徴を含むテキストの集合において特異なカテゴリとしては、そのカテゴリに属するテキストの件数が期待値を大きく上回るものと、期待値を大きく下回るものの２種類が存在する。本実施の形態では、特異カテゴリ判別手段３１１が、その両者を区別して扱い、特異カテゴリ付抽出結果出力手段３１２が両者の違いが分かるように出力するように構成することができる。また、特異カテゴリ判別手段３１１がその片方のみを特異なカテゴリとして判別するようにしてもよい。

次に、図９および図１０を参照して本実施の形態の動作について詳細に説明する。
図１０のステップＡ１ないしＡ３で示される、本実施の形態における特徴表現抽出手段３０１の動作は、第１の実施の形態における特徴表現抽出手段３０１の動作と同一のため、説明は省略する。
本実施の形態では、特徴表現抽出手段３０１が動作した後、連関分類軸判別手段３１０が、抽出結果記憶部２０３に格納された抽出結果から特徴を１つ読み出し（ステップＥ１）、その特徴に対して、以下のステップＥ２以降の処理を行う。

連関分類軸判別手段３１０は、まず、カテゴリ情報記憶部２０５から分類軸を１つ読み出し（ステップＥ２）、カテゴリ情報記憶部２０５および抽出結果記憶部２０３を参照して、ステップＥ１で読み出した特徴をテキストが含むかどうかと、ステップＥ２で読み出した分類軸においてそのテキストが属するカテゴリとが連関するかどうかを判定する（ステップＥ３）。連関分類軸判別手段３１０は、カテゴリ情報記憶部２０５中のすべての分類軸に対してこれらの処理を繰り返し（ステップＥ４）、ステップＥ３で判別された分類軸を特徴と組にして特異カテゴリ判別手段３１１に渡す。

特異カテゴリ判別手段３１１は、連関分類軸判別手段３１０から渡された特徴と分類軸に対して、その分類軸のカテゴリのうち、その特徴を含むテキストの集合において特異なカテゴリを判別する（ステップＥ５）。
続いて、連関分類軸判別手段３１０が、抽出結果記憶部２０３に格納されたすべての特徴に対してステップＥ２ないしＥ５の処理が完了したかどうかを判定し（ステップＥ６）、未処理の特徴があれば、ステップＥ１に戻って処理を続ける。

最後に、特異カテゴリ付抽出結果出力手段３１２が、抽出結果記憶部２０３に格納されたそれぞれの特徴について、ステップＥ５において判別された、特異なカテゴリを付けて出力し（ステップＥ７）、処理を終了する。

本実施の形態で、ステップＡ１において、利用者がマイニング対象のカテゴリを指定した分類軸については、ステップＥ３の処理の対象とする必要はない。その分類軸については、テキストが特徴を含むかどうかとテキストが属するカテゴリとが連関することは、マイニングの定義から明白であり、Ｅ５およびＥ７の処理によっても、新しい知見を利用者に与えることができないためである。

また、ステップＥ３において、連関分類軸判別手段３１０が連関すると判別する分類軸は、各特徴に対して１つであるとは限らない。連関分類軸判別手段３１０が複数の分類軸を判別する場合には、特異カテゴリ判別手段３１１は、それぞれの分類軸に対してステップＥ５の処理を行って、各特徴を含むテキストの集合において特異なカテゴリを判別する。また、特異カテゴリ付抽出結果出力手段３１２は、ステップＥ７において、判別された特異なカテゴリをすべて出力するようにする。

一方、連関分類軸判別手段３１０が連関すると判別する分類軸を、各特徴に対して１つに限定するように構成することもできる。この場合、連関分類軸判別手段３１０は、ステップＥ３において、テキストが特徴を含むかどうかとテキストが属するカテゴリとがどの程度連関するかを計算し、もっとも強く連関する分類軸のみを特異カテゴリ判別手段３１１に渡すようにすればよい。テキストが特徴を含むかどうかとテキストが属するカテゴリとが連関する度合いは、例えば、クラメールの連関係数等によって表すことができ、もっとも強く連関する分類軸として、この値がもっとも大きくなる分類軸を選択することができる。

また、本実施の形態の説明では、連関分類軸判別手段３１０、および、特異カテゴリ判別手段３１１が、抽出結果記憶部２０３に格納されたすべての特徴に対して処理を行った後に、特異カテゴリ付抽出結果出力手段３１２が出力を行うように説明したが、連関分類軸判別手段３１０、および、特異カテゴリ判別手段３１１が、抽出結果記憶部２０３に格納された一部の特徴に対して処理を行い、特異カテゴリ付抽出結果出力手段３１２がその分の出力を行うことを繰り返すように構成してもよい。

次に、本実施の形態の効果について説明する。
本実施の形態では、テキストがある特徴を含むかどうかと強く連関する分類軸を判別し、さらに、その分類軸のカテゴリのうち、その特徴を含むテキストの集合において特異なカテゴリを判別して、特徴とともに出力する。これにより、ある分類軸において、抽出された特徴を含むテキストが属するカテゴリが特定のものに偏っている場合に、利用者がそのことを知ることができる。また、抽出された特徴のそれぞれが、どのカテゴリに属するテキストに偏って見られるものであるのかということを知ることができる。
なお、本実施の形態においても、特徴表現抽出手段３０１が、テキスト集合記憶部２０１に記憶されているテキスト集合に対して、入力装置１を通して利用者が指定するカテゴリの特徴を抽出するのではなく、テキスト集合全体の特徴を抽出するように構成してもよい。

次に、図を参照しながら本発明の第６の実施形態であるコンピュータ１６の構成と動作について説明する。
図１１を参照すると、コンピュータ１６は、本発明の第１ないし第５の実施の形態と同様に、入力装置１、記憶装置２３、データ処理装置３６、出力装置４とを備える。

テキストマイニングプログラム５は、データ処理装置３６に読み込まれ、データ処理装置３６の動作を制御して、記憶装置２３を第１ないし第４の実施の形態における記憶装置２１、もしくは、第５の実施の形態における記憶装置２２と同様に構成する。データ処理装置３６は、テキストマイニングプログラム５の制御により第１の実施の形態におけるデータ処理装置３１、もしくは、第２の実施の形態におけるデータ処理装置３２、もしくは、第３の実施の形態におけるデータ処理装置３３、もしくは、第４の実施の形態におけるデータ処理装置３４、もしくは、第５の実施の形態におけるデータ処理装置３５の処理と同一の処理を実行する。

なお、本発明の第１ないし第６の実施の形態の説明においては、特徴表現抽出手段３０１が、テキストマイニングの結果を抽出結果記憶部２０３に記憶する構成について説明したが、テキストマイニングの結果を図示しないＤＲＡＭ(Dynamic Random Access Memory)等の主記憶装置上に記憶する構成とすることもできる。

次に、具体的な実施例を用いて、本発明を実施するための最良の形態の動作を説明する。
まず、本発明の第１の実施例を図面を参照して説明する。かかる実施例は、図１および図２に示した本発明の第１の実施の形態に対応するものである。
ここでは、メールおよび電話で問い合わせを受けた内容を記録して、問い合わせの種別によって分類しておき、利用者が、その中から「故障」の問い合わせの特徴を抽出する場合を例として、本発明の実施の形態の動作を説明する。

テキスト集合記憶部２０１には、図１２に示すように、それぞれの出典が分かるような形態で、テキストマイニングの対象となるテキストが予め記憶されている。この例では、出典は、「メール」と「電話」の２種類がある。Ｄ１、Ｄ２、Ｄ３、Ｄ４、‥‥が、出典が「メール」のテキストで、Ｄ１０１、Ｄ１０２、Ｄ１０３、Ｄ１０４、‥‥が、出典が「電話」のテキストである。この例では、出典が「電話」のテキストは、電話を通して話された内容を音声認識した認識結果であり、このため、テキスト中に認識誤りが含まれている。

なお、テキスト集合記憶部２０１に記憶されるテキストは、問い合わせの種別に関して、予め複数のカテゴリに分類されており、カテゴリ情報記憶部２０２に、テキストとカテゴリの対応関係が記憶されている。図１３にその一例を示す。

このとき、特徴表現抽出手段３０１が、まず、入力装置１を通して、利用者から、テキストマイニングによって特徴を抽出する対象のカテゴリの指定を受ける。
利用者は、ここで、カテゴリ「故障」を指定する。
特徴表現抽出手段３０１は、次に、テキストマイニングを実行し、テキスト集合記憶部２０１に記憶されているテキスト集合のうち、カテゴリ「故障」に属するものに特有な特徴を抽出し、テキストマイニングの結果として、特徴とその特徴を含むテキストとを対応付けて抽出結果記憶部２０３に記録する。
ここでは、特徴表現抽出手段３０１が、テキスト中に出現する単語を特徴として抽出するものとし、図１４に示すような特徴を抽出結果記憶部２０３に記録したとする。

続いて、主要出典判別手段３０２が、抽出結果記憶部２０３に格納されたそれぞれの特徴について、その特徴を含むテキストの主要な出典を判別し、その特徴に対応づける。
ここでは、ある特徴Ｐを含むテキストのうち、７０％以上の出典がＳであったときに、出典Ｓを特徴Ｐを含むテキストの主要な出典と判別するものとする。

主要出典判別手段３０２は、まず、特徴「電源」について、その特徴を含むテキストの主要な出典を判別する。
主要出典判別手段３０２は、図１４に示される抽出結果記憶部２０３を参照し、特徴「電源」を含むテキストがＤ１、Ｄ４、Ｄ９、Ｄ１０７、Ｄ１２７の５件であることを得る。次に、図１２に示されるテキスト集合記憶部２０１を参照し、このうちのＤ１、Ｄ４、Ｄ９の３件の出典が「メール」であり、Ｄ１０７、および、Ｄ１２７の２件の出典が「電話」であることを得る。
主要出典判別手段３０２は、これらの値を基に、特徴「電源」を含むテキストのうち、６０％の出典が「メール」であり、４０％の出典が「電話」であることを計算する。これらはいずれも７０％未満であるため、主要出典判別手段３０２は、特徴「電源」を含むテキストについては、主要な出典がないと判別する。

主要出典判別手段３０２は、次に、特徴「画面」について同様の処理を行い、特徴「画面」を含むテキスト（Ｄ３、Ｄ１０、Ｄ１２３、Ｄ１２６）のうち、５０％（Ｄ３、および、Ｄ１０）の出典が「メール」であり、５０％（Ｄ１２３、および、Ｄ１２６）の出典が「電話」であることを計算する。これらはいずれも７０％未満であるため、主要出典判別手段３０２は、特徴「画面」を含むテキストについても、主要な出典がないと判別する。

次の特徴「点検」に対しては、特徴「点検」を含むテキスト（Ｄ１０２、Ｄ１０４、Ｄ１２１）のうち、出典が「メール」であるものが０％、出典が「電話」であるものが１００％であることが計算される。この結果、主要出典判別手段３０２は、特徴「点検」を含むテキストの主要な出典は「電話」であると判別する。

一方、次の特徴「リモコン」に対しては、特徴「リモコン」を含むテキスト（Ｄ７、Ｄ１１、Ｄ１５、Ｄ１３１）のうち、出典が「メール」であるものが７５％（Ｄ７、Ｄ１１、Ｄ１５）、出典が「電話」であるものが２５％（Ｄ１３１）であることが計算される。この結果、主要出典判別手段３０２は、特徴「点検」を含むテキストの主要な出典は「メール」であると判別する。

主要出典判別手段３０２は、このような処理をすべての特徴についてくり返す。
最後に、主要出典付抽出結果出力手段３０３が、抽出結果記憶部２０３に格納されたそれぞれの特徴について、その特徴を含むテキストの主要な出典を付けて出力する。
この場合の出力例を図１５に示す。
利用者は、この出力から、特徴「点検」は、主として電話に出現する特徴であり、特徴「リモコン」は、主としてメールに出現する特徴であることを知ることができる。これにより、特に電話に偏って出現する特徴「点検」については、音声認識による認識誤りの可能性があることに気付くことができる。

次に、本発明の第２の実施例を図面を参照して説明する。かかる実施例は、図３および図４に示した本発明の第２の実施の形態に対応するものである。
ここでは、第１の実施例と同じ例を用いて第２の実施例を説明する。すなわち、図１２に示されるテキスト集合記憶部２０１に記憶されるテキストが、図１３に示されるカテゴリ情報記憶部２０２のように分類されているとき、利用者がカテゴリ「故障」を指定してテキストマイニングを行った場合の動作を説明する。

このとき、まず、特徴表現抽出手段３０１が、カテゴリ「故障」に属するものに特有な特徴を抽出し、テキストマイニングの結果として、特徴とその特徴を含むテキストとを対応付けて抽出結果記憶部２０３に記録する。この動作は、第１の実施例における特徴表現抽出手段３０１の動作と同一であり、抽出結果記憶部２０３には、図１４に示される結果が記録される。

続いて、構成比率計算手段３０４が、抽出結果記憶部２０３に格納されたそれぞれの特徴について、その特徴を含むテキストの出典別の構成比率を計算し、その特徴に対応づける。
構成比率計算手段３０４は、まず、特徴「電源」について、その特徴を含むテキストの出典別の構成比率を判別する。
はじめに、図１４に示される抽出結果記憶部２０３を参照し、特徴「電源」を含むテキストがＤ１、Ｄ４、Ｄ９、Ｄ１０７、Ｄ１２７の５件であることを得る。次に、図１２に示されるテキスト集合記憶部２０１を参照し、このうちのＤ１、Ｄ４、Ｄ９の３件の出典が「メール」であり、Ｄ１０７、および、Ｄ１２７の２件の出典が「電話」であることを得る。
構成比率計算手段３０４は、これらの値を基に、特徴「電源」を含むテキストのうち、６０％の出典が「メール」であり、４０％の出典が「電話」であることを計算する。

構成比率計算手段３０４は、次に、特徴「画面」について同様の処理を行い、特徴「画面」を含むテキスト（Ｄ３、Ｄ１０、Ｄ１２３、Ｄ１２６）のうち、５０％（Ｄ３、および、Ｄ１０）の出典が「メール」であり、５０％（Ｄ１２３、および、Ｄ１２６）の出典が「電話」であることを計算する。

次の特徴「点検」に対しては、特徴「点検」を含むテキスト（Ｄ１０２、Ｄ１０４、Ｄ１２１）のうち、出典が「メール」であるものが０％、出典が「電話」であるものが１００％であることが計算される。

また、次の特徴「リモコン」に対しては、特徴「リモコン」を含むテキスト（Ｄ７、Ｄ１１、Ｄ１５、Ｄ１３１）のうち、出典が「メール」であるものが７５％（Ｄ７、Ｄ１１、Ｄ１５）、出典が「電話」であるものが２５％（Ｄ１３１）であることが計算される。
構成比率計算手段３０４は、このような処理をすべての特徴についてくり返す。

最後に、構成比率付抽出結果出力手段３０５が、抽出結果記憶部２０３に格納されたそれぞれの特徴について、その特徴を含むテキストの出典別の構成比率を付けて出力する。
この場合の出力例を図１６に示す。この例では、各特徴に対して、帯グラフによって出典別の構成比率を示している。
図１５に示される第１の実施例の出力と比べ、利用者は、図１６の出力から出典間にどの程度の偏りがあるのかを知ることができる。図１６の例では、特に、特徴「点検」は、出典の比率が他の特徴と大きく異なり、電話にしか出現しない特徴であることを知ることができる。これにより、特徴「点検」は、他の特徴と異なる傾向を示す特徴であることが分かり、音声認識による認識誤りの可能性があることに気付くことができる。

次に、本発明の第３の実施例を図面を参照して説明する。かかる実施例は、図５および図６に示した本発明の第３の実施の形態に対応するものである。
第３の実施例も、第１の実施例と同じ例を用いて説明する。すなわち、図１２に示されるテキスト集合記憶部２０１に記憶されるテキストが、図１３に示されるカテゴリ情報記憶部２０２のように分類されているとき、利用者がカテゴリ「故障」を指定してテキストマイニングを行った場合の動作を説明する。
ただし、本実施例においては、テキスト集合記憶部２０１に記憶されるテキストの総数が１２５件で、そのうち１００件の出典が「メール」であり、２５件の出典が「電話」であったとする。

続いて、特異出典判別手段３０６が、抽出結果記憶部２０３に格納されたそれぞれの特徴について、その特徴を含むテキストの集合において特異な出典、すなわち、その出典のテキストの件数が期待値と大きく乖離している出典を判別し、その特徴に対応づける。
ここでは、期待値に対する実際の件数と期待値との差の割合が予め定める閾値を超えているかどうかによって、期待値と実際の件数とが乖離しているかどうかを判別するものとする。すなわち、ある特徴Ｐを含むテキストの集合において、出典がＳであるテキストの件数の期待値をＥ、出典がＳであるテキストの実際の件数をＸとすると、（Ｘ−Ｅ）／Ｅの絶対値が、閾値１．０を超える場合に、出典Ｓを特徴Ｐを含むテキストの集合において特異な出典と判別する。

特異出典判別手段３０６は、まず、特徴「電源」について、その特徴を含むテキストの集合において特異な出典を判別する。
はじめに、図１４に示される抽出結果記憶部２０３を参照し、特徴「電源」を含むテキストがＤ１、Ｄ４、Ｄ９、Ｄ１０７、Ｄ１２７の５件であることを得る。
次に、これらの５件のテキストのうち、出典が「メール」であるテキストの件数の期待値を計算する。テキストの総数が１２５件で、そのうちの１００件の出典が「メール」であるため、特徴「電源」を含む５件のテキストのうち、出典が「メール」であるテキストの件数の期待値は、５×１００／１２５＝４となる。
また、図１２に示されるテキスト集合記憶部２０１を参照し、特徴「電源」を含む５件のテキストのうち、実際には、Ｄ１、Ｄ４、Ｄ９の３件の出典が「メール」であることを得る。

特異出典判別手段３０６は、これらの値を基に、特徴「電源」を含む５件のテキストにおいて、出典が「メール」であるテキストの件数の期待値が実際の件数と大きく乖離しているかどうかを判定する。ここで、期待値に対する実際の件数と期待値との差の割合は、（３−４）／４＝−０．２５となり、絶対値が１．０を超えていない。したがって、特異出典判別手段３０６は、期待値と実際の件数が大きく乖離していないと判定する。

特異出典判別手段３０６は、続いて、特徴「電源」を含む５件のテキストのうち、出典が「電話」であるテキストの件数の期待値を計算する。テキストの総数１２５件のうちの２５件の出典が「電話」であるため、特徴「電源」を含む５件のテキストのうち、出典が「電話」であるテキストの件数の期待値は、５×２５／１２５＝１となる。
また、図１２に示されるテキスト集合記憶部２０１を参照し、特徴「電源」を含む５件のテキストのうち、実際には、Ｄ１０７、および、Ｄ１２７の２件の出典が「電話」であることを得る。

特異出典判別手段３０６は、これらの値を基に、特徴「電源」を含む５件のテキストにおいて、出典が「電話」であるテキストの件数が期待値と大きく乖離しているかどうかを判定する。ここで、期待値に対する実際の件数と期待値との差の割合は、（２−１）／１＝１となり、絶対値が１．０を超えていない。したがって、特異出典判別手段３０６は、期待値と実際の件数が大きく乖離していないと判定する。
特異出典判別手段３０６は、これらの結果から、特徴「電源」を含む５件のテキストにおいては、特異な出典がないと判別する。

特異出典判別手段３０６は、次に、特徴「画面」について同様の処理を行う。
特徴「画面」を含む４件のテキスト（Ｄ３、Ｄ１０、Ｄ１２３、Ｄ１２６）において、出典が「メール」であるテキストの件数の期待値が４×１００／１２５＝３．２であるのに対し、出典が「メール」であるテキストの実際の件数は、２件（Ｄ３、および、Ｄ１０）である。このため、期待値に対する実際の件数と期待値との差の割合は、（２−３．２）／３．２＝−０．３７５となり、その絶対値は１．０を超えない。

また、特徴「画面」を含む４件のテキストにおいて、出典が「電話」であるテキストの件数の期待値が４×２５／１２５＝０．８であるのに対し、出典が「電話」であるテキストの実際の件数は、２件（Ｄ１２３、および、Ｄ１２６）である。このため、期待値に対する実際の件数と期待値との差の割合は、（２−０．８）／０．８＝１．５となり、その絶対値は１．０を超える。
この結果、特異出典判別手段３０６は、特徴「画面」を含む４件のテキストにおいては、出典が「電話」であるものの件数が期待値と大きく乖離しており、「電話」が特異な出典であると判別する。

次の特徴「点検」に対しては、特徴「点検」を含む３件のテキスト（Ｄ１０２、Ｄ１０４、Ｄ１２１）において、出典が「メール」であるテキストの件数の期待値が３×１００／１２５＝２．４であるのに対し、実際の件数は０件である。このため、期待値に対する実際の件数と期待値との差の割合は、（０−２．４）／２．４＝−１となる。また、出典が「電話」であるテキストの件数の期待値が３×２５／１２５＝０．６であるのに対し、実際の件数は３件であるから、期待値に対する実際の件数と期待値との差の割合は、（３−０．６）／０．６＝４となる。後者の絶対値のみが１．０を超えるため、特異出典判別手段３０６は、特徴「点検」を含む３件のテキストにおいては、「電話」が特異な出典であると判別する。

一方、次の特徴「リモコン」に対しては、特徴「リモコン」を含む４件のテキスト（Ｄ７、Ｄ１１、Ｄ１５、Ｄ１３１）において、出典が「メール」であるテキストの件数の期待値が４×１００／１２５＝３．２であるのに対し、実際の件数は３件（Ｄ７、Ｄ１１、Ｄ１５）である。このため、期待値に対する実際の件数と期待値との差の割合は、（３−３．２）／３．２＝−０．０６２５となる。また、出典が「電話」であるテキストの件数の期待値が４×２５／１２５＝０．８であるのに対し、実際の件数は１件（Ｄ１３１）であるため、期待値に対する実際の件数と期待値との差の割合は、（１−０．８）／０．８＝０．２５となる。いずれの絶対値も１．０を超えないため、特異出典判別手段３０６は、特徴「リモコン」を含む４件のテキストにおいては、特異な出典がないと判別する。
特異出典判別手段３０６は、このような処理をすべての特徴についてくり返す。

最後に、特異出典付抽出結果出力手段３０７が、抽出結果記憶部２０３に格納されたそれぞれの特徴について、その特徴を含むテキストの集合において特異な出典を付けて出力する。
この場合の出力例を図１７に示す。
特徴「画面」を含む４件のテキストにおいては、そのうちの２件のテキストの出典が「メール」、２件のテキストの出典が「電話」であり、件数だけを見ると偏りがないが、テキスト集合記憶部２０１に記憶されるテキストの出典が「メール」に偏っているため、「電話」が特異な出典として判別され、出力されている。また、特徴「リモコン」を含む４件のテキストにおいては、そのうちの３件のテキストの出典が「メール」、１件のテキストの出典が「電話」であり、件数だけを見ると「メール」に偏っているが、テキスト集合記憶部２０１に記憶されるテキストの出典が「メール」に偏っているため、特異な出典はないと判別され、何も出力されていない。

このように、本実施例によれば、ある出典のテキストが通常より極度に多く出現している場合、または、通常より極度に少なくしか出現していない場合に、その出典を特異な出典として出力することができる。

次に、本発明の第４の実施例を図面を参照して説明する。かかる実施例は、図７および図８に示した本発明の第４の実施の形態に対応するものである。
第４の実施例も、第１の実施例と同じ例を用いて説明する。すなわち、図１２に示されるテキスト集合記憶部２０１に記憶されるテキストが、図１３に示されるカテゴリ情報記憶部２０２のように分類されているとき、利用者がカテゴリ「故障」を指定してテキストマイニングを行った場合の動作を説明する。
また、第３の実施例と同様に、テキスト集合記憶部２０１に記憶されるテキストの総数が１２５件で、そのうち１００件の出典が「メール」であり、２５件の出典が「電話」であったとする。

続いて、乖離度計算手段３０８が、抽出結果記憶部２０３に格納されたそれぞれの特徴について、その特徴を含むテキストの集合を取得し、その集合における各出典のテキストの件数に関する乖離度、すなわち、各出典のテキストの実際の件数が期待値とどの程度乖離しているかを表す値を計算する。
ここでは、乖離度として、期待値に対する実際の件数と期待値との差の割合を使用するものとする。すなわち、ある特徴Ｐを含むテキストの集合において、出典がＳであるテキストの件数の期待値をＥ、出典がＳであるテキストの実際の件数をＸとすると、特徴Ｐを含むテキストの集合において出典がＳであるテキストの件数に関する乖離度は（Ｘ−Ｅ）／Ｅとなる。

乖離度計算手段３０８は、まず、特徴「電源」を含むテキストの集合において、各出典のテキストの件数に関する乖離度を計算する。
はじめに、図１４に示される抽出結果記憶部２０３を参照し、特徴「電源」を含むテキストがＤ１、Ｄ４、Ｄ９、Ｄ１０７、Ｄ１２７の５件であることを得る。
次に、これらの５件のテキストのうち、出典が「メール」であるテキストの件数の期待値を計算する。テキストの総数が１２５件で、そのうちの１００件の出典が「メール」であるため、特徴「電源」を含む５件のテキストのうち、出典が「メール」であるテキストの件数の期待値は、５×１００／１２５＝４となる。
また、図１２に示されるテキスト集合記憶部２０１を参照し、特徴「電源」を含む５件のテキストのうち、実際には、Ｄ１、Ｄ４、Ｄ９の３件の出典が「メール」であることを得る。
乖離度計算手段３０８は、これらの値を基に、特徴「電源」を含む５件のテキストにおいて、出典が「メール」であるテキストの件数に関する乖離度を計算し、（３−４）／４＝−０．２５という値を得る。

乖離度計算手段３０８は、続いて、特徴「電源」を含む５件のテキストのうち、出典が「電話」であるテキストの件数の期待値を計算する。テキストの総数１２５件のうちの２５件の出典が「電話」であるため、特徴「電源」を含む５件のテキストのうち、出典が「電話」であるテキストの件数の期待値は、５×２５／１２５＝１となる。
また、図１２に示されるテキスト集合記憶部２０１を参照し、特徴「電源」を含む５件のテキストのうち、実際には、Ｄ１０７、および、Ｄ１２７の２件の出典が「電話」であることを得る。
乖離度計算手段３０８は、これらの値を基に、特徴「電源」を含む５件のテキストにおいて、出典が「電話」であるテキストの件数に関する乖離度を計算し、（２−１）／１＝１という値を得る。

乖離度計算手段３０８は、次に、特徴「画面」について同様の処理を行う。
特徴「画面」を含む４件のテキスト（Ｄ３、Ｄ１０、Ｄ１２３、Ｄ１２６）において、出典が「メール」であるテキストの件数の期待値が４×１００／１２５＝３．２であるのに対し、出典が「メール」であるテキストの実際の件数は、２件（Ｄ３、および、Ｄ１０）である。このため、乖離度は、（２−３．２）／３．２＝−０．３７５と計算される。
また、特徴「画面」を含む４件のテキストにおいて、出典が「電話」であるテキストの件数の期待値が４×２５／１２５＝０．８であるのに対し、出典が「電話」であるテキストの実際の件数は、２件（Ｄ１２３、および、Ｄ１２６）である。このため、乖離度は、（２−０．８）／０．８＝１．５と計算される。

次の特徴「点検」に対しては、特徴「点検」を含む３件のテキスト（Ｄ１０２、Ｄ１０４、Ｄ１２１）において、出典が「メール」であるテキストの件数の期待値が３×１００／１２５＝２．４であるのに対し、実際の件数は０件である。このため、乖離度は、（０−２．４）／２．４＝−１となる。また、出典が「電話」であるテキストの件数の期待値が３×２５／１２５＝０．６であるのに対し、実際の件数は３件であるから、乖離度は、（３−０．６）／０．６＝４となる。

一方、次の特徴「リモコン」に対しては、特徴「リモコン」を含む４件のテキスト（Ｄ７、Ｄ１１、Ｄ１５、Ｄ１３１）において、出典が「メール」であるテキストの件数の期待値が４×１００／１２５＝３．２であるのに対し、実際の件数は３件（Ｄ７、Ｄ１１、Ｄ１５）である。このため、乖離度は、（３−３．２）／３．２＝−０．０６２５となる。また、出典が「電話」であるテキストの件数の期待値が４×２５／１２５＝０．８であるのに対し、実際の件数は１件（Ｄ１３１）であるため、乖離度は、（１−０．８）／０．８＝０．２５となる。
乖離度計算手段３０８は、このような処理をすべての特徴についてくり返す。

最後に、乖離度付抽出結果出力手段３０９が、抽出結果記憶部２０３に格納されたそれぞれの特徴について、特徴ごとに出典別の乖離度を付けて出力する。
この場合の出力例を図１８に示す。この例では、各特徴に対して、横軸を乖離度とする棒グラフによって、出典別の乖離度を示している。図１８においては、縦の線５０が乖離度０の位置を表しており、この線からグラフが左右に延びているほど、テキストの件数の期待値と実際の件数との乖離の度合いが大きい。また、本実施例で使用した乖離度の求め方から、グラフが右に延びていることは、実際の件数が期待値を上回っていることを意味し、グラフが左に延びていることは、実際の件数が期待値を下回っていることを意味する。

図１７に示される第３の実施例の出力と比べ、利用者は、図１８の出力から、その出典のテキストの件数がどの程度期待値から乖離しているのかを知ることができる。図１８の例では、特徴「点検」を含み、出典が「電話」であるテキストの件数が、他と比べて、期待値から乖離している度合いが大きいことが分かる。これにより、特徴「点検」は、異常な結果である可能性があることが分かり、音声認識による認識誤りの可能性があることに気付くことができる。

このように、本実施例によれば、ある出典のテキストが通常より多く出現している場合、または、通常より少なくしか出現していない場合に、その度合いを利用者に示すことができる。

次に、本発明の第５の実施例を図面を参照して説明する。かかる実施例は、図９および図１０に示した本発明の第５の実施の形態に対応するものである。
ここでは、１２００人に対して、ある製品の印象に関するアンケートを実施し、その回答が、回答者の製品に対する興味の有無・回答者の性別・回答者の年代・回答者の職業によって分類されているときに、製品に興味がある回答者の回答の特徴を抽出する場合を例として、本発明の実施の形態の動作を説明する。

このとき、テキスト集合記憶部２０４には、Ｄ１ないしＤ８００の８００件のテキストが記憶されている。
これらのテキストは、「製品に対する興味」「性別」「年齢」「職業」の４つの分類軸で分類されている。なお、分類軸「製品に対する興味」は、「興味あり」「興味なし」の２つのカテゴリを有し、分類軸「性別」は、「女性」「男性」の２つのカテゴリを有し、分類軸「年齢」は、「２０代」「３０代」「４０代」「５０代」の４つのカテゴリを有し、分類軸「職業」は、「学生」「会社員」「主婦」「その他」の４つのカテゴリを有するものとする。また、各カテゴリのテキストの件数は、図１９に示す通りであるものとする。
このときのカテゴリ情報記憶部２０５の例を図２０に示す。この例では、各テキストに対して、分類軸ごとに、そのテキストが属するカテゴリが記憶されている。

このとき、特徴表現抽出手段３０１が、まず、入力装置１を通して、利用者から、テキストマイニングによって特徴を抽出する対象のカテゴリの指定を受ける。
利用者は、ここで、分類軸「製品に対する興味」におけるカテゴリ「興味あり」を指定する。
特徴表現抽出手段３０１は、次に、テキストマイニングを実行し、テキスト集合記憶部２０４に記憶されているテキスト集合のうち、分類軸「製品に対する興味」においてカテゴリ「興味あり」に属するものに特有な特徴を抽出し、テキストマイニングの結果として、特徴とその特徴を含むテキストとを対応付けて抽出結果記憶部２０３に記録する。

ここでは、特徴表現抽出手段３０１が、テキスト中に出現する単語を特徴として抽出するものとし、図２１に示すような特徴を抽出結果記憶部２０３に記録したとする。図２１には、それぞれの特徴を含むテキストすべてを示さないが、全８００件のテキストのうち、特徴「性能」を含むものが２８３件、特徴「デザイン」を含むものが２５４件、特徴「価格」を含むものが２２４件、特徴「サイズ」を含むものが１５５件あったものとする。また、この抽出結果において、各特徴を含むテキストの件数のカテゴリ別の内訳が、分類軸「性別」、分類軸「年齢」、分類軸「職業」に関して、それぞれ図２２、図２３、図２４の通りであったとして以降の説明を行う。

特徴表現抽出手段３０１による処理に続いて、連関分類軸判別手段３１０が、抽出結果記憶部２０３に格納されたそれぞれの特徴について、テキストがその特徴を含むどうかと、テキストが属するカテゴリとが連関するかどうかを、カテゴリ情報記憶部２０５に記憶される分類軸ごとに判定する。
ここでは、テキストがある特徴を含むどうかと、テキストがある分類軸において属するカテゴリとが連関するかどうかを、有意水準を１％としてカイ２乗検定により検定し、判定するものとする。

連関分類軸判別手段３１０は、まず、特徴「性能」について、カテゴリ情報記憶部２０５に記憶される分類軸ごとに、テキストがその特徴を含むどうかと、テキストが属するカテゴリとが連関するかどうかを判定する。
ここでは、分類軸「性別」に関する検定について説明する。
全８００件のテキストを、特徴「性能」を含むかどうか、および、分類軸「性別」において属するカテゴリによって分類すると、図２２に示される、特徴「性能」を含むテキストのカテゴリ別の件数と、図１９に示される、全テキストのカテゴリ別の件数とから、分類結果のそれぞれの件数は図２５のようになる。

一方、全テキストのうち、特徴「性能」を含むものの割合は、２８３／８００であり、分類軸「性別」においてカテゴリ「女性」に属するものの割合は、３８４／８００であるから、特徴「性能」を含み、かつ、分類軸「性別」においてカテゴリ「女性」に属するテキストの件数の期待値は、８００×２８３／８００×３８４／８００＝１３５．８４となる。同様にして、図２５のそれぞれの項目の期待値を求めると、図２６のようになる。

図２５と図２６より、この場合のカイ２乗値を求めると０．３２となる。これに対する自由度１のカイ２乗分布における上側確率は５７．０％で、この値は有意水準１％を上回るため、連関分類軸判別手段３１０は、テキストが特徴「性能」を含むかどうかと、テキストが分類軸「性別」において属するカテゴリとは連関しないと判定する。

同様にして、特徴「性能」を含むどうかと、分類軸「年齢」において属するカテゴリとの間でのカイ２乗値は２．３９となる。これに対する自由度３のカイ２乗分布における上側確率は４９．５％で、この値は有意水準１％を上回るため、連関分類軸判別手段３１０は、テキストが特徴「性能」を含むかどうかと、テキストが分類軸「年齢」において属するカテゴリとは連関しないと判定する。

また、特徴「性能」を含むどうかと、分類軸「職業」において属するカテゴリとの間でのカイ２乗値は３．０６となる。これに対する自由度３のカイ２乗分布における上側確率は３８．３％で、この値は有意水準１％を上回るため、連関分類軸判別手段３１０は、テキストが特徴「性能」を含むかどうかと、テキストが分類軸「職業」において属するカテゴリとは連関しないと判定する。

なお、分類軸「製品に対する興味」は、利用者がマイニング対象として指定したカテゴリの分類軸であるため、連関分類軸判別手段３１０は、この分類軸を処理の対象としない。
この結果、連関分類軸判別手段３１０は、テキストが特徴「性能」を含むかどうかと連関する分類軸はないと判別する。
このため、特異カテゴリ判別手段３１１は、特徴「性能」に対しては、何も処理を行わない。

連関分類軸判別手段３１０は、次に、特徴「デザイン」について、カテゴリ情報記憶部２０５に記憶される分類軸ごとに、テキストがその特徴を含むかどうかと、テキストが属するカテゴリとが連関するかどうかを判定する。
特徴「デザイン」を含むどうかと、分類軸「性別」において属するカテゴリとの間でのカイ２乗値は１９．５４となる。これに対する自由度１のカイ２乗分布における上側確率は０．０％で、この値は有意水準１％を下回る。したがって、連関分類軸判別手段３１０は、テキストが特徴「デザイン」を含むかどうかと、テキストが分類軸「性別」において属するカテゴリとは連関すると判定する。

一方、特徴「デザイン」を含むどうかと、分類軸「年齢」において属するカテゴリとの間でのカイ２乗値は６．９５となる。これに対する自由度３のカイ２乗分布における上側確率は７．３％で、この値は有意水準１％を上回るため、連関分類軸判別手段３１０は、テキストが特徴「デザイン」を含むかどうかと、テキストが分類軸「年齢」において属するカテゴリとは連関しないと判定する。

また、特徴「デザイン」を含むどうかと、分類軸「職業」において属するカテゴリとの間でのカイ２乗値は３．６６となる。これに対する自由度３のカイ２乗分布における上側確率は３０．０％で、この値は有意水準１％を上回るため、連関分類軸判別手段３１０は、テキストが特徴「デザイン」を含むかどうかと、テキストが分類軸「職業」において属するカテゴリとは連関しないと判定する。
これらの結果から、連関分類軸判別手段３１０は、分類軸「性別」を、テキストが特徴「デザイン」を含むどうかと連関する分類軸として判別する。

これを受けて、特異カテゴリ判別手段３１１が、分類軸「性別」のカテゴリのうち、特徴「デザイン」を含むテキストの集合において特異なカテゴリを判別する。
なお、本実施例では、あるカテゴリに属するテキストの件数が期待値を大きく上回るカテゴリのみを特異なカテゴリと判別するものとする。また、期待値に対する実際の件数と期待値との差の絶対値の割合が予め定める閾値を超えているかどうかによって、期待値と実際の件数とが乖離しているかどうかを判別するものとする。
すなわち、ある特徴Ｐを含むテキストの集合において、カテゴリＣに属するテキストの件数の期待値をＥ、カテゴリＣに属するテキストの実際の件数をＸとすると、（Ｘ−Ｅ）／Ｅの値が正であり、かつ、閾値０．２を超える場合に、カテゴリＣを特徴Ｐを含むテキストの集合において特異なカテゴリと判別する。

図２２によれば、特徴「デザイン」を含む２５４件のテキストのうち、カテゴリ「女性」に属するものが１５１件、カテゴリ「男性」に属するものが１０３件である。また、図１９によると、全テキストのうち、カテゴリ「女性」に属するものの割合は３８４／８００であり、カテゴリ「男性」に属するものの割合は４１６／８００であるから、特徴「デザイン」を含む２５４件のテキストのうち、カテゴリ「女性」に属するテキストの件数の期待値は、２５４×３８４／８００＝１２１．９２、カテゴリ「男性」に属するテキストの件数の期待値は、２５４×４１６／８００＝１３２．０８となる。したがって、期待値に対する実際の件数と期待値との差の割合は、カテゴリ「女性」に関して０．２４、カテゴリ「男性」に対して−０．２２となる。
カテゴリ「女性」に関して、値は正となり、かつ、閾値０．２を超えているので、特異カテゴリ判別手段３１１は、分類軸「性別」のカテゴリのうち、カテゴリ「女性」を特異なカテゴリとして判別する。

連関分類軸判別手段３１０は、残っている分類軸「年齢」および分類軸「職業」についても、テキストが特徴「デザイン」を含むどうかと、テキストが属するカテゴリとが連関するかどうかを判定する。
特徴「デザイン」を含むどうかと、分類軸「年齢」において属するカテゴリとの間でのカイ２乗値は６．９５となる。これに対する自由度３のカイ２乗分布における上側確率は７．３％で、この値は有意水準１％を上回るため、連関分類軸判別手段３１０は、テキストが特徴「デザイン」を含むかどうかと、テキストが分類軸「年齢」において属するカテゴリとは連関しないと判定する。
また、特徴「デザイン」を含むどうかと、分類軸「職業」において属するカテゴリとの間でのカイ２乗値は３．６６となる。これに対する自由度３のカイ２乗分布における上側確率は３０．０％で、この値は有意水準１％を上回るため、連関分類軸判別手段３１０は、テキストが特徴「デザイン」を含むかどうかと、テキストが分類軸「職業」において属するカテゴリとは連関しないと判定する。

連関分類軸判別手段３１０は、続いて、特徴「価格」および特徴「サイズ」について、カテゴリ情報記憶部２０５に記憶される分類軸ごとに、テキストがその特徴を含むどうかと、テキストが属するカテゴリとが連関するかどうかを判定する。
連関分類軸判別手段３１０は、特徴「価格」に対して、これまでと同様の処理により、分類軸「職業」を連関する分類軸として判別する。これに対して、特異カテゴリ判別手段３１１が、分類軸「職業別」のカテゴリのうち、カテゴリ「学生」を特異なカテゴリとして判別する。

連関分類軸判別手段３１０は、特徴「サイズ」に対しては連関する分類軸がないと判別する。このため、特異カテゴリ判別手段３１１は、特徴「価格」に対しては何も処理を行わない。
以降、連関分類軸判別手段３１０、および、特異カテゴリ判別手段３１１は、すべての特徴に対してこのような処理をくり返す。

最後に、特異カテゴリ付抽出結果出力手段３１２が、抽出結果記憶部２０３に格納されたそれぞれの特徴について、特徴ごとに特異なカテゴリを付けて出力する。
この場合の出力例を図２７に示す。
テキストが特徴「デザイン」を含むかどうかは、分類軸「性別」においてテキストが属するカテゴリと強く連関し、特に、カテゴリ「女性」に属するテキストの件数が期待値を大きく上回っていたため、特徴「デザイン」に対して、特異なカテゴリとして「女性」が出力されている。また、テキストが特徴「価格」を含むかどうかは、分類軸「職業」においてテキストが属するカテゴリと強く連関し、特に、カテゴリ「学生」に属するテキストの件数が期待値を大きく上回っていたため、特徴「価格」に対して、特異なカテゴリとして「学生」が出力されている。
これにより、利用者は、抽出された特徴のうち、「デザイン」は、女性の回答者の回答に偏って出現しており、「価格」は、学生の回答者の回答に偏って出現していることを知ることができる。

次に、本発明の他の実施形態について逐次説明する。

上述したテキストマイニング装置において、出典情報を、特徴を含むテキストの主要な出典を特定する情報としてもよい。
このようにすれば、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、テキストマイニングによって抽出された特徴が、出典によらず、あらゆるテキストに共通のものであるのか、あるいは、特定の出典のテキストに偏って見られるものであるのかということを利用者に示すことができる。

上述したテキストマイニング装置において、出典情報を、特徴を含むテキストの出典別の構成比率としてもよい。
このようにすれば、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、テキストマイニングによって抽出された特徴が出現するテキストの件数に、出典間でどの程度偏りがあるかということを利用者に示すことができる。

上述したテキストマイニング装置において、出典情報を、特徴を含むテキストの集合において、該出典のテキストの件数が、テキストの集合全体における出典別のテキスト件数を鑑みて妥当である値と大きく乖離している出典を特定する情報としてもよい。
このようにすれば、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、出典ごとのテキストの件数に偏りがあっても、テキストマイニングによって抽出された特徴が、特定の出典のテキストに通常考えられるよりも大きく偏って出現しているときに、そのことを利用者に示すことができる。

上述したテキストマイニング装置において、出典情報が、特徴を含むテキストの集合において、該出典のテキストの件数が、テキストの集合全体における出典別のテキストの件数に鑑みて妥当な値と乖離している度合いを示す情報としてもよい。
このようにすれば、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、テキストマイニングによって抽出された特徴が出現する実際のテキストの件数が、その特徴が出典とは無関係に各テキストに出現すると仮定したときの件数とどの程度ずれているのかを利用者に示すことができる。

また、テキストマイニング方法は、複数の出典から集められたテキストの集合から特徴を抽出し、特徴の各々に対して、該特徴を含むテキストの出典情報を生成し、該特徴と該出典情報とを対応付けて出力するようにしてもよいものである。

上記テキストマイニング方法において、出典情報を特徴を含むテキストの主要な出典を特定する情報としてもよい。
このようにすれば、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、テキストマイニングによって抽出された特徴が、出典によらず、あらゆるテキストに共通のものであるのか、あるいは、特定の出典のテキストに偏って見られるものであるのかということを利用者に示すことができる。

上記テキストマイニング方法において、出典情報を特徴を含むテキストの出典別の構成比率としてもよい。
このようにすれば、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、テキストマイニングによって抽出された特徴が出現するテキストの件数に、出典間でどの程度偏りがあるかということを利用者に示すことができる。

上記テキストマイニング方法において、出典情報を特徴を含むテキストの集合において、該出典のテキストの件数が、テキストの集合全体における出典別のテキストの件数に鑑みて妥当である値と大きく乖離している出典を特定する情報としてもよい。
このようにすれば、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、出典ごとのテキストの件数に偏りがあっても、テキストマイニングによって抽出された特徴が、特定の出典のテキストに通常考えられるよりも大きく偏って出現しているときに、そのことを利用者に示すことができる。

上記テキストマイニング方法において、出典情報を特徴を含むテキストの集合において、該出典のテキストの件数が、テキストの集合全体における出典別のテキストの件数に鑑みて妥当な値と乖離している度合いを示す情報としてもよい。
このようにすれば、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、テキストマイニングによって抽出された特徴が出現する実際のテキストの件数が、その特徴が出典とは無関係に各テキストに出現すると仮定したときの件数とどの程度ずれているのかを利用者に示すことができる。

上記テキストマイニングプログラムにおいて、出典情報を特徴を含むテキストの主要な出典を特定する情報としてもよい。
このようにすれば、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、テキストマイニングによって抽出された特徴が、出典によらず、あらゆるテキストに共通のものであるのか、あるいは、特定の出典のテキストに偏って見られるものであるのかということを利用者に示すことができる。

上記テキストマイニングプログラムにおいて、出典情報を特徴を含むテキストの出典別の構成比率としてもよい。
このようにすれば、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、テキストマイニングによって抽出された特徴が出現するテキストの件数に、出典間でどの程度偏りがあるかということを利用者に示すことができる。

上記テキストマイニングプログラムにおいて、出典情報を特徴を含むテキストの集合において、該出典のテキストの件数が、テキストの集合全体における出典別のテキストの件数に鑑みて妥当である値と大きく乖離している出典を特定する情報としてもよい。
このようにすれば、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、出典ごとのテキストの件数に偏りがあっても、テキストマイニングによって抽出された特徴が、特定の出典のテキストに通常考えられるよりも大きく偏って出現しているときに、そのことを利用者に示すことができる。

上記テキストマイニングプログラムにおいて、出典情報を特徴を含むテキストの集合において、該出典のテキストの件数が、テキストの集合全体における出典別のテキストの件数に鑑みて妥当な値と乖離している度合いを示す情報としてもよい。
このようにすれば、マイニング対象のテキストが、出典が異なる複数の種類のテキストからなる場合に、テキストマイニングによって抽出された特徴が出現する実際のテキストの件数が、その特徴が出典とは無関係に各テキストに出現すると仮定したときの件数とどの程度ずれているのかを利用者に示すことができる。

なお、上述した各実施形態は本発明を具体化した一例に過ぎず、請求の範囲に記載された本発明の趣旨の範囲内であれば、種々変更することができるものである。

本発明によれば、コールセンタで録音した問い合わせのデータや報告書等の紙の文書データから不具合情報や問題点等の有効な知識を抽出するマイニングシステムや、マイニングシステムを実現するためのプログラムといった用途に適用できる。また、問い合わせの内容をテキストとして蓄積しておき、その中から頻出する問い合わせを抽出してＱ＆Ａ集を構築するシステム等の用途にも適用可能である。

第１の実施の形態の構成を示すブロック図である。第１の実施の形態の動作を示す流れ図である。第２の実施の形態の構成を示すブロック図である。第２の実施の形態の動作を示す流れ図である。第３の実施の形態の構成を示すブロック図である。第３の実施の形態の動作を示す流れ図である。第４の実施の形態の構成を示すブロック図である。第４の実施の動作を示す流れ図である。第５の実施の形態の構成を示すブロック図である。第５の実施の動作を示す流れ図である。第６の実施の形態の構成を示すブロック図である。テキスト集合記憶部の例を示す図である。カテゴリ情報記憶部の例を示す図である。抽出結果記憶部の例を示す図である。主要出典付抽出結果出力手段による出力の例を示す図である。構成比率付抽出結果出力手段による出力の例を示す図である。特異出典付抽出結果出力手段による出力の例を示す図である。乖離度付抽出結果出力手段による出力の例を示す図である。カテゴリごとのテキストの件数を示す図である。カテゴリ情報記憶部の例を示す図である。抽出結果記憶部の例を示す図である。各特徴を含むテキストの件数の分類軸「性別」におけるカテゴリ別の内訳を示す図である。各特徴を含むテキストの件数の分類軸「年齢」におけるカテゴリ別の内訳を示す図である。各特徴を含むテキストの件数の分類軸「職業」におけるカテゴリ別の内訳を示す図である。特徴「性能」を含むかどうか、および、分類軸「性別」において属するカテゴリよって、全テキストを分類したときのそれぞれの件数を示す図である。特徴「性能」を含むかどうか、および、分類軸「性別」において属するカテゴリよって、全テキストを分類したときのそれぞれの件数の期待値を示す図である。特異出典付抽出結果出力手段による出力の例を示す図である。

符号の説明

１入力装置
４出力装置
５テキストマイニングプログラム
１１テキストマイニング装置
１２テキストマイニング装置
１３テキストマイニング装置
１４テキストマイニング装置
１５テキストマイニング装置
１６コンピュータ
２１記憶装置
２２記憶装置
２３記憶装置
２５期待値
３１データ処理装置
３２データ処理装置
３３データ処理装置
３４データ処理装置
３５データ処理装置
３６データ処理装置
２０１テキスト集合記憶部
２０２カテゴリ情報記憶部
２０３抽出結果記憶部
２０４テキスト集合記憶部
２０５カテゴリ情報記憶部
３０１特徴表現抽出手段
３０２主要出典判別手段
３０３主要出典付抽出結果出力手段
３０４構成比率計算手段
３０５構成比率付抽出結果出力手段
３０６特異出典判別手段
３０７特異出典付抽出結果出力手段
３０８乖離度計算手段
３０９乖離度付抽出結果出力手段
３１０連関分類軸判別手段
３１１特異カテゴリ判別手段
３１２特異カテゴリ付抽出結果出力手段

Claims

複数の異なる出典から集められたテキストの集合をカテゴリ毎に記憶する記憶装置と、データ処理装置とを有し、前記異なる出典はテキストの異なるソースであり、
前記データ処理装置は、特徴表現抽出手段と、出典情報生成手段と、マイニング結果出力手段とを含み、
前記特徴表現抽出手段は、前記記憶装置から読み出した指定の対象カテゴリに属するテキストの集合から特徴を抽出するものであり、
前記出典情報生成手段は、前記特徴表現抽出手段が抽出した前記特徴の各々に対して、該特徴を含むテキストの出典別のテキスト件数を計数し、前記計数結果から、該特徴を含むテキストの出典の統計的傾向を示す情報である出典情報を生成するものであり、
前記マイニング結果出力手段は、前記特徴表現抽出手段が抽出した特徴と前記出典情報生成手段が作成した出典情報とを対応付けて、テキストマイニングによって抽出された特徴が、出典によらず、あらゆるテキストに共通のものであるか、或いは特定の出典に偏って現れるものであるかを利用者に示す情報を出力するものであることを特徴とするテキストマイニング装置。
前記マイニング結果出力手段は、前記特徴を含むテキストの主要な出典を特定する情報として前記出典情報を生成するものであることを特徴とする請求項１に記載のテキストマイニング装置。
前記マイニング結果出力手段は、前記特徴を含むテキストの出典別の構成比率を示す情報として前記出典情報を生成するものであることを特徴とする請求項１に記載のテキストマイニング装置。
前記マイニング結果出力手段は、前記特徴を含むテキストの集合において、前記出典のテキストの件数が、前記テキストの集合全体における出典別のテキスト件数を鑑みて妥当である値と大きく乖離している出典を特定する情報として前記出典情報を生成するものであることを特徴とする請求項１に記載のテキストマイニング装置。
前記マイニング結果出力手段は、前記特徴を含むテキストの集合において、前記出典のテキストの件数が、前記テキストの集合全体における出典別のテキストの件数に鑑みて妥当な値と乖離している度合いを示す情報として前記出典情報を生成するものであることを特徴とする請求項１に記載のテキストマイニング装置。
複数の分類軸について各テキストが属するその分類軸におけるそのテキストのカテゴリを記憶する記憶装置と、データ処理装置とを有し、
前記データ処理装置は、特徴表現抽出手段と、連関分類軸判別手段と、特異カテゴリ判別手段と、特異カテゴリ付抽出結果出力手段とを含むものであり、
前記特徴表現抽出手段は、前記記憶装置から読み出した指定の分類軸におけるカテゴリに属するテキストの集合から特徴を抽出するものであり、
前記連関分類軸判別手段は、前記特徴表現抽出手段が抽出した前記特徴の各々に対して、テキストがその特徴を含むかどうかが、テキストが属するカテゴリに応じて異なるかどうかを各分類軸について判定し、テキストがその特徴を含むかどうかと連関する分類軸を判別するものであり、
前記特異カテゴリ判別手段は、前記連関分類軸判別手段にて判別された前記分類軸のカテゴリであって、該特徴を含むテキストの集合において、前記カテゴリに属するテキストの件数が、前記テキスト集合の全体における前記分類軸の前記カテゴリ別のテキストの件数に鑑みて妥当な値と大きく乖離している前記カテゴリを判別するものであり、
前記特異カテゴリ付抽出結果出力手段は、前記特徴表現抽出手段が抽出した前記特徴と前記特異カテゴリ判別手段が判定した前記カテゴリとを対応付けて、前記特徴が出典によらず、あらゆるテキストに共通のものであるか、或いは特定の出典に偏って現れるものであるかを利用者に示す情報を出力するものであることを特徴とするテキストマイニング装置。
複数の異なる出典から集められたテキストの集合をカテゴリ毎に記憶装置に記憶し、前記異なる出典はソースの異なるテキストであり、
前記記憶装置から読み出した指定の対象カテゴリに属するテキストの集合から特徴を抽出し、
前記抽出した前記特徴の各々に対して、該特徴を含むテキストの出典別のテキスト件数を計数し、前記計数結果から、該特徴を含むテキストの出典の統計的傾向を示す情報である出典情報を生成し、
前記抽出した特徴と前記作成した出典情報とを対応付けて、テキストマイニングによって抽出された特徴が、出典によらず、あらゆるテキストに共通のものであるか、或いは特定の出典に偏って現れるものであるかを利用者に示す情報を出力することを特徴とするテキストマイニング方法。
前記特徴を含むテキストの主要な出典を特定する情報として前記出典情報を生成することを特徴とする請求項７に記載のテキストマイニング方法。
前記特徴を含むテキストの出典別の構成比率を示す情報として前記出典情報を生成することを特徴とする請求項７に記載のテキストマイニング方法。
前記特徴を含むテキストの集合において、前記出典のテキストの件数が、前記テキストの集合全体における出典別のテキスト件数を鑑みて妥当である値と大きく乖離している出典を特定する情報として前記出典情報を生成することを特徴とする請求項７に記載のテキストマイニング方法。
前記特徴を含むテキストの集合において、前記出典のテキストの件数が、前記テキストの集合全体における出典別のテキストの件数に鑑みて妥当な値と乖離している度合いを示す情報として前記出典情報を生成することを特徴とする請求項７に記載のテキストマイニング方法。
複数の分類軸について各テキストが属するその分類軸におけるそのテキストのカテゴリを記憶装置に記憶し、
前記記憶装置から読み出した指定の分類軸におけるカテゴリに属するテキストの集合から特徴を抽出し、
前記抽出した前記特徴の各々に対して、テキストがその特徴を含むかどうかが、テキストが属するカテゴリに応じて異なるかどうかを各分類軸について判定し、テキストがその特徴を含むかどうかと連関する分類軸を判別し、
前記判別された前記分類軸のカテゴリであって、前記特徴を含むテキストの集合において、前記カテゴリに属するテキストの件数が、前記テキスト集合の全体における前記分類軸の前記カテゴリ別のテキストの件数に鑑みて妥当な値と大きく乖離している前記カテゴリを判別し、
前記抽出した前記特徴と前記判定した前記カテゴリとを対応付けて、前記特徴が出典によらず、あらゆるテキストに共通のものであるか、或いは特定の出典に偏って現れるものであるかを利用者に示す情報を出力することを特徴とするテキストマイニング方法。
記憶装置に記憶されている複数の異なる出典から集められたテキストの集合から特徴を抽出するためのテキストマイニングプログラムであって、
複数の異なる出典から集められたテキストの集合をカテゴリ毎に記憶装置に記憶し、前記異なる出典はソースの異なるテキストであり、
コンピュータに、
前記記憶装置から読み出した指定の対象カテゴリに属するテキストの集合から特徴を抽出する機能と、
前記抽出した前記特徴の各々に対して、該特徴を含むテキストの出典別のテキスト件数を計数し、前記計数結果から、該特徴を含むテキストの出典の統計的傾向を示す情報である出典情報を生成する機能と、
前記抽出した特徴と前記作成した出典情報とを対応付けて、テキストマイニングによって抽出された特徴が、出典によらず、あらゆるテキストに共通のものであるか、或いは特定の出典に偏って現れるものであるかを利用者に示す情報を出力する機能とを実行させることを特徴とするテキストマイニングプログラム。
記憶装置に記憶されている複数の異なる出典から集められたテキストの集合から特徴を抽出するためのテキストマイニングプログラムであって、
複数の分類軸について各テキストが属するその分類軸におけるそのテキストのカテゴリを記憶装置に記憶し、
コンピュータに、
前記記憶装置から読み出した指定の分類軸におけるカテゴリに属するテキストの集合から特徴を抽出する機能と、
前記抽出した前記特徴の各々に対して、テキストがその特徴を含むかどうかが、テキストが属するカテゴリに応じて異なるかどうかを各分類軸について判定し、テキストがその特徴を含むかどうかと連関する分類軸を判別する機能と、
前記判別された前記分類軸のカテゴリであって、前記特徴を含むテキストの集合において、前記カテゴリに属するテキストの件数が、前記テキスト集合の全体における前記分類軸の前記カテゴリ別のテキストの件数に鑑みて妥当な値と大きく乖離している前記カテゴリを判別する機能と、
前記抽出した前記特徴と前記判定した前記カテゴリとを対応付けて、前記特徴が出典によらず、あらゆるテキストに共通のものであるか、或いは特定の出典に偏って現れるものであるかを利用者に示す情報を出力するする機能とを実行させることを特徴とするテキストマイニングプログラム。