JP4423385B2 - Document classification support apparatus and computer program - Google Patents
Document classification support apparatus and computer program Download PDFInfo
- Publication number
- JP4423385B2 JP4423385B2 JP2002309555A JP2002309555A JP4423385B2 JP 4423385 B2 JP4423385 B2 JP 4423385B2 JP 2002309555 A JP2002309555 A JP 2002309555A JP 2002309555 A JP2002309555 A JP 2002309555A JP 4423385 B2 JP4423385 B2 JP 4423385B2
- Authority
- JP
- Japan
- Prior art keywords
- section
- document
- classification
- important
- important word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
【発明の属する技術分野】
この発明は、文書データの分類を支援する文書分類支援装置に関する。
【0002】
【従来の技術】
従来、コンピュータによる文書の自動分類は、各文書がすでにカテゴリに分類されている文書集合を利用することによって、与えられた文書をより詳細で適切なカテゴリに分類することが多い。このような文書の自動分類の従来手法の多くは、文書から単語やフレーズなどの特徴を抽出し、その出現頻度などの特徴量を用いて適切なカテゴリに自動分類する。
特許文献1には、「会社名」や「製品名」などのグループごとに分類された名詞的表現や、同じくグループごとに分類された動詞的表現を文書から抽出し、これらの表現とその出現個所を文書の特徴量として用いることにより文書の分類を行う技術が記載されている。
また、特許文献2には、文書中に含まれる単語に加え、文書の話題内容を表す単語、また文書の発言者や作成日付などの文書の付随属性情報などを文書の特徴量として用いることにより文書の分類を行う技術が記載されている。
また、特許文献3には、一つの文書から複数の単語集合を主題として抽出することにより、複数の主題を考慮して二つの文書間の類似度を算出したり、この文書間類似度算出方法を用いて文書検索を行ったり、文書集合のクラスタリングを行う技術が記載されている。
【0003】
【特許文献1】
特開2002−108893号公報(段落0014−段落0079、第1図−第24図)
【特許文献2】
特開2001−60199号公報(段落0029−0080段落、第図1−第7図)
【特許文献3】
特開2000−123041号公報(段落0048−0106段落、第4図−第10図)
【0004】
【発明が解決しようとする課題】
ある文書を、参考書や取扱説明書のような文書集合へ分類することを想定する。参考書や取扱説明書は、章や節などの階層的なセクションにより構成されていることが多い。また、章や節には順序があり、節が進むにしたがって高度な内容について記述され、ある箇所に記述されている内容が前提となってそれ以降の内容が記述されている。従って、ある節で出現した重要語がそれ以降の節にも出現し、節が進むにつれ、出現する重要語が累積していくことが多い。また、章のような上位階層のセクションどうしは関連する内容が少ない。そこで、分類対象の文書をこのような文書集合の節に自動分類する場合、その分類対象の文書の内容について最初に記述されている節(「初出の節」とよぶ)に分類すべきである。初出の節以降の節にはより高度な内容が記述されているため、分類先として適切でない。例えば、理科の教科書のある節において「電流」が、次の節において「電流」を用いて「電圧」が説明され、さらに後述の節において「電流」及び「電圧」を用いて「抵抗」の説明がなされている場合、「電流」が記載されている分類対象の文書は、「電圧」又は「抵抗」の説明がなされている節ではなく、最初に「電流」が説明されている初出の節に分類されるべきである。
このような状況において、特許文献1〜3に示される従来の分類手法には以下のような問題点があった。
(1)分類対象文書中には主題となる内容が複数ある場合があるにも関わらず、分類先を一つに決定していたため、利用者は正しい分類先を見つけ出すのに時間がかかっていた。例えば、特許文献3の主題抽出手法を用いれば、抽出された主題ごとに分類先を決定することもできる。しかし、この主題抽出方法は、一つの文書中の単語分布のみから主題を抽出するものであり、すでにカテゴリに分類されている文書集合の文書中の単語分布を利用していない。そのため、抽出された主題はカテゴリの内容を考慮したものになっておらず、しばしば両者の内容がうまく適合しないことがあるという問題点がある。
(2)分類対象文書の内容に関連する重要語は、初出の節よりも後ろの節に多く出現することがある。従って、単語の出現頻度などを利用する従来手法においては、重要語がしばしば初出の節よりも後ろの節に分類されてしまい、利用者が正しい分類先に修正する手間が大きかった。
(3)分類対象文書全体に対する分類先を提示しているが、文書中のどの部分が分類先カテゴリに関連しているかを提示することは行っていない。よって、利用者は分類先が正しいかを否かを判断するために分類対象文書全体を参照する必要があり、手間がかかっていた。
【0005】
この発明は、上記のような事情を考慮してなされたもので、その目的は、節が進むに従って高度な内容が記述される文書データに対して、新規の分類対象文書を適切な節に分類するための分類先候補の提示を行うことができる文書分類支援装置を提供することにある。
【0006】
【課題を解決するための手段】
この発明は、上記の課題を解決すべくなされたもので、請求項1に記載の発明は、階層化されたセクションにより構成される分類先文書、前記分類先文書の下位階層のセクションへの分類を行う対象の分類対象文書、及び、重要語と、該重要語が前記分類先文書中に出現する下位階層のセクションの上位階層のセクションと、該上位階層のセクションにおける該下位階層のセクションの出現順を示す番号との対応付けを記憶する記憶部と、前記記憶部から前記分類先文書を読み出して重要語を抽出し、該重要語が出現する下位階層のセクションの上位階層のセクション及び該下位階層のセクションの番号と対応付けて前記記憶部に書き込む第1の重要語抽出部と、前記記憶部から前記分類対象文書及び前記重要語を読み出し、前記分類対象文書から読み出した重要語を抽出する第2の重要語抽出部と、前記第2の重要語抽出部が抽出した重要語と、前記記憶部内の該重要語が前記分類先文書中に出現する下位階層のセクションの上位階層のセクション及び該下位階層のセクションの番号とを基に、上位階層のセクション毎に、同じ下位階層のセクションに出現する前記重要語が同じ集合に含まれるように構成した1または複数の集合であって、前記重要語が互いに共有されないように最小化した1または複数の集合を主題として抽出する主題抽出部と、前記主題抽出部が抽出した分類対象文書の主題を構成する重要語群と、前記記憶部内の該重要語が前記分類先文書中に出現する下位階層のセクションの番号とを基に、主題を構成する各重要語が前記分類先文書内に初めて出現する下位階層のセクションのうち、最も後ろの下位階層のセクションを分類先の下位階層のセクションとして導出する分類先導出部と、前記主題抽出部が抽出した分類対象文書の主題を構成する重要語群と、前記分類先導出部が導出した分類対象文書の主題の分類先の下位階層のセクションとを表示する表示部と、を具備することを特徴とする文書分類支援装置である。
【0008】
請求項2に記載の発明は、請求項1に記載の文書分類支援装置であって、前記第1の重要語抽出部は、予め決められた品詞、重要な事柄であることを表す文表現、あるいは、分類先文書中の単語分布を基に重要語を抽出することを特徴とする。
【0010】
請求項3に記載の発明は、文書分類支援装置として用いられるコンピュータに、階層化されたセクションにより構成される分類先文書、前記分類先文書の下位階層のセクションへの分類を行う対象の分類対象文書、及び、重要語と、該重要語が前記分類先文書中に出現する下位階層のセクションの上位階層のセクションと、該上位階層のセクションにおける該下位階層のセクションの出現順を示す番号との対応付けを記憶する記憶部から前記分類先文書を読み出すステップと、読み出した前記分類先文書から重要語を抽出し、該重要語が出現する下位階層のセクションの上位階層のセクション及び該下位階層のセクションの番号と対応付けて前記記憶部に書き込むステップと、前記記憶部から分類対象文書及び重要語を読み出し、前記分類対象文書から読み出した重要語を抽出するステップと、前記分類対象文書から抽出した重要語と、前記記憶部内の該重要語が前記分類先文書中に出現する下位階層のセクションの上位階層のセクション及び該下位階層のセクションの番号とを基に、上位階層のセクション毎に、同じ下位階層のセクションに出現する前記重要語が同じ集合に含まれるように構成した1または複数の集合であって、前記重要語が互いに共有されないように最小化した1または複数の集合を主題として抽出するステップと、抽出した前記分類対象文書の主題を構成する重要語群と、前記記憶部内の該重要語が前記分類先文書中に出現する下位階層のセクションの番号とを基に、主題を構成する各重要語が前記分類先文書内に初めて出現する下位階層のセクションのうち、最も後ろの下位階層のセクションを分類先の下位階層のセクションとして導出するステップと、前記分類対象文書の主題を構成する重要語群と、主題の分類先の下位階層のセクションとを表示するステップと、を実行させるためのコンピュータプログラムである。
【0011】
【発明の実施の形態】
以下、図面を参照し、この発明の実施の形態について説明する。
まず、本実施の形態による文書分類支援装置が文書分類を支援する対象の文書(以下、「分類対象文書」)の分類先となる文書(以下、「分類先文書」)の特徴を示す。分類先文書は、参考書や取扱説明書のように、徐々に記述内容が高度になっていく文書であり、以下のような特徴を備える。
(1)章及び節からなる階層的なセクションにより構成される。もっとも細かい下位階層のセクションを節、節よりも上位階層のセクションを章と呼ぶ。したがって、最も下位階層の章は複数の節から構成される。
(2)ある一つのもっとも下位階層の章においては、節が進むにしたがって徐々に高度な内容が記述される。すなわち、ある箇所で記述されている内容を前提として、それ以降の内容が記述される。そのため、ある節で出現した重要語がそれ以降の節にも出現し、節が進むにしたがって出現する重要語が累積していく。
(3)章の間には、関連する内容が少ない。教科書を例にとると、ある学年・科目も一つの章として捉えることができる。
【0012】
図1は、この発明の一実施の形態による文書分類支援装置の構成を機能展開して示したブロック図である。
分類先文書データベース(DB)101(記憶部)は、電子化された文書データの集合である分類先文書と、各文書が記述されているセクション、すなわち、各文書データが属する章及び節の情報とを記憶している。分類先文書は、例えば、教科書、参考書、各種操作マニュアルなどである。
重要語データベース(DB)103(記憶部)は、分類先文書から抽出された重要語に関する情報と、重要語の候補となる重要語候補に関する情報とを記憶する。
分類対象文書記憶部201(記憶部)は、電子化された文書データである分類対象文書を記憶している。分類対象文書は、例えば、新聞記事やコラム、操作マニュアルの一部などである。
重要語抽出部102(第1の重要語抽出部)は、分類先文書DB101から分類先文書を読み出して重要語及び重要語候補を抽出し、重要語DB103に書き込む機能を有する。
重要語抽出部202(第2の重要語抽出部)は、分類対象文書記憶部201から分類対象文書を読み出し、重要語DB103に登録されている重要語及び重要語候補を抽出する機能を有する。
主題抽出部203は、重要語抽出部202が分類対象文書から抽出した重要語を用いて、分類対象文書の主題を抽出する機能を有する。
分類先導出部204は、主題抽出部203が抽出した主題に基づき、重要語が分類されるべき分類先文書の節を導出する機能を有する。
記述範囲導出部205は、分類対象文書中の重要語の記載範囲を導出する機能を有する。
表示部206は、文書分類支援装置が備えるディスプレイへの出力を制御し、分類先導出部204や記述範囲導出部205の処理結果を表示する機能を有する。
【0013】
次に、本実施の形態による文書分類支援装置の処理手順について説明する。文書分類支援装置の処理手順は、「分類先文書からの重要語抽出」段階と「分類対象文書の分類支援」段階との2つの段階により構成される。
図2は、分類先文書からの重要語抽出の処理手順を示す図である。「分類先文書からの重要語抽出」段階においては、まず分類の前段階として、参考書や取扱説明書などの分類先文書から節ごとに重要語を抽出する。
ステップS110:
まず、重要語抽出部102は、分類先文書と分類先文書中の各文書データが属する章及び節の情報を分類先文書DB101から読み出し、形態素解析によって単語に分割し、単語ごとの品詞を特定する。
【0014】
ステップS120:
続いて、重要語抽出部102は、ステップS110において分類した単語の品詞、分類先文書中の文表現及び単語分布を利用して重要語を抽出する。具体的には、以下の「(1)品詞の条件」を満たし、さらに、「(2a)文表現の条件」または「(2b)単語分布の条件」を満たす単語を重要語として抽出する。さらに、重要語抽出部102は、重要語の条件を満たさないが、「(1)品詞の条件」のみを満たす単語を重要語候補として抽出する。
(1)品詞の条件
特定の品詞をもつ単語を抽出する。例えば、品詞が名詞、動詞、形容詞のいずれかである単語を抽出する。
(2a)文表現の条件
重要な事柄であることを表す文表現に基づき重要語を抽出する。例えば、形態素解析結果により、
「を/格助詞 A/名詞 と/格助詞 いい/動詞 ます/助動詞」
という文表現を認識した場合、単語Aを重要単語として抽出する。その他、重要な事柄であることを表す文表現には、以下がある。
「A/名詞 と/格助詞 は/係助詞 (いくつかの単語) の/格助詞 こと/名詞 です/助動詞」(単語Aが重要語)
「A/名詞 に/格助詞 なる/動詞 と/接続助詞」(単語Aが重要語)
(2b)単語分布の条件
一般的に、多くの節に出現する単語は重要語ではないことが多い。換言すれば、ある箇所とその周辺に集中して出現し、その他の場所にはあまり出現しない単語が重要であることが多い。そこで以下の2つの条件を満たす単語を重要語として抽出する。
・文書中の全節に対して、単語が出現する節の比率が所定の閾値以下の割合である。例えば、閾値は1/5〜1/10とする。
・分類先文書中のすべての文章に連番を付与した場合、単語が出現する文の番号の分散が所定の閾値以下の値である。
【0015】
ステップS130:
重要語抽出部102は、ステップS120において抽出した重要語と重要語候補に関する情報を重要語DB103に登録する。すなわち、重要語、重要語の品詞、重要語が出現する分類先文書の章と節、及び、重要語が出現する節ごとの出現頻度からなる重要語情報と、重要語候補、重要語候補の品詞、重要語候補が出現する分類先文書の章と節、及び、重要語候補が出現する節ごとの出現頻度からなる重要語候補情報とを重要語DB103に書き込む。
本実施例においては、以下の重要語情報が書き込まれたとする。
【0016】
図3は、分類対象文書の分類支援の処理手順を示す図である。「分類対象文書の分類支援」においては、まず分類対象文書から関連する重要語のグループにより構成される主題を抽出し、各主題を分類先文書内の節に分類する。そして、各主題に対応する分類対象文書の記述範囲を求めて提示する。さらに、利用者の操作により、分類先文書内の分類先の節を修正し、決定する。
ステップS210:
まず、重要語抽出部202は、分類対象文書記憶部201から分類対象文書を読み出し、形態素解析によって単語に分割し、単語ごとの品詞を特定する。
【0017】
ステップS220:
重要語抽出部202は、重要語DB103から重要語情報及び重要語候補情報を読み出し、ステップS210において分割した単語のうち、読み出した重要語、あるいは、重要語候補と一致する単語を分類対象文書内から抽出する。
本実施例においては、分類対象文書内から重要語として、重要語1、重要語2、重要語3、重要語4、重要語5、重要語6及び重要語7が抽出され、重要語候補として単語8、単語9、単語10、単語11、及び、単語12が抽出されたとする。
【0018】
ステップS230:
主題抽出部203は、ステップS220において重要語抽出部202が分類対象文書から抽出した重要語が分類先文書において出現する章と節を用い、分類対象文書の主題を抽出する。すなわち、主題抽出部203は、以下の2段階により、主題を構成する重要語群を抽出する。
(1)分類先文書の章ごとに出現する重要語群を求める。ひとつの重要語が複数の章に含まれていてもよい。
(2)各章に含まれる重要語群に対し、「同じ節に出現する重要語は同じクラスタに含まれる」という条件に基づいて重要語群をクラスタリング(分割)し、最小のクラスタを得る。得られた各クラスタが一つの主題を表し、同じクラスタ内に含まれる重要語群が主題を構成する重要語群となる。
ステップS220において重要語DB103から読み出した重要語情報と、分類対象文書から抽出された重要語の例を用いて具体的に説明する。分類先文書の1章において、節1.1に重要語4が、節1.2及び節1.3に重要語4及び重要語5が出現しており、他の重要語と、重要語4あるいは重要語5が同じ節内に出現している箇所はない。従って、重要語4及び重要語5からなる重要語群が1つの主題(「主題B」とする)を表している。また、節1.4及び節1.5に重要語3が、節1.6に重要語2及び重要語3が、節1.7に重要語1及び重要語2が、節1.8に重要語1、重要語2及び重要語3が出現しており、1章において、重要語1、重要語2あるいは重要語3が他の重要語と同時に出現している節はない。よって、重要語1、重要語2及び重要語3からなる重要語群が1つの主題(「主題A」とする)を表している。同様に、2章については、重要語6及び重要語7からなる重要語群が1つの主題(「主題C」とする)を表している。
【0019】
ステップS240:
分類先導出部204は、各主題の分類先の節を導出する。すなわち、各主題について、主題を構成する各重要語が分類先文書内に初めて出現する節(「初出の節」)のうち、最も後ろの節を分類先の節とする。
具体的に説明すると、主題Aの重要語群は重要語1、重要語2及び重要語3からなり、重要語1の初出の節は節1.7、重要語2の初出の節は節1.6、重要語3の初出の節は節1.4である。従って、重要語1の初出の節1.7が主題Aを構成する重要語群の中で最も後ろの初出の節であり、主題Aの分類先の節となる。同様に、主題Bの分類先の節は重要語4の初出の節1.2、主題Cの分類先の節は重要語6の初出の節2.3となる。
【0020】
ステップS250:
分類先導出部204は、表示部206に指示することにより、各主題の分類先の節や重要語が出現する節などを視覚的に表示する。具体的には、以下により、文書分類支援画面の表示を行う。
(1)各主題を構成する重要語群と、重要語群を構成する重要語と同じ節内に出現し、ステップS220で抽出された重要語候補群とを表示する。
(2)初出の節が最も後ろの重要語から順に各重要語が出現する節とその出現頻度、および、初出の節を表示する。また、ステップS240において導出した分類先の節に対応するチェックボックスをONに設定する。なお、節に対応するチェックボックスは、分類先の節の決定に使用される。
(3)分類先文書の章と節の一覧のうち、各主題の分類先の節を反転表示したり、他の節とは色を変えるなどして強調表示する。
【0021】
図4は、文書分類支援画面イメージを示す図である。
文書分類支援画面には、分類先文書を構成する章とその配下の節の一覧が縦方向にツリー状に表示され、各節の横には主題の分類先であるか否かを示すチェックボックスが表示される。そして、各主題A、主題B、主題Cが横方向に並べて表示され、各主題を構成する重要語群及び重要語群を構成する重要語と同じ節内に出現する重要語候補群が示される。図においては、主題Aは、重要語1、重要語2及び重要語3からなる重要語群と、単語8及び単語9からなる重要語候補群とで構成されることを示している。また、主題Bは、重要語4及び重要語5からなる重要語群と、単語10及び単語11からなる重要語候補群とで構成され、主題Cは、重要語6及び重要語7からなる重要語群と、単語12からなる重要語候補群とで構成されることを示している。
各主題の重要語群は、初出の節がもっとも後ろの重要語から順に、各重要語が出現する節とその出現頻度が提示される。また、各重要語の初出の節が強調表示される。図において、主題Aの重要語1は初出の節1.7に2回、節1.8に4回出現し、重要語2は初出の節1.6に3回、節1.7に2回、節1.8に3回出現し、重要語3は初出の節1.4に4回、節1.5に1回、節1.6に3回、節1.8に4回出現していることを示している。そして、主題Aの中で最も初出の節が後ろである重要語Aの初出の節1.7が強調表示され、横のチェックボックスがONとなり、主題Aの分類先の節であることを示している。同様に、主題Bにおいては、分類先の節として重要語4の初出の節1.2が強調表示され、横のチェックボックスがONとなり、主題Cにおいては、重要語6の初出の節2.3が強調表示され、横のチェックボックスがONとなっている。これにより、重要語が出現する順番を把握するとともに、初出の節が最も後ろの重要語が分類先に寄与していることを一目で認識することが可能となる。
【0022】
図3のステップS250に戻り、さらに、分類先導出部204は、表示された文書分類支援画面に対する利用者の操作に従って、分類先文書DB101から分類先文書と分類先文書中の各文書データが属する章及び節の情報を読み出し、文書分類を支援する以下の画面を表示するよう表示部206へ指示する。
(1)利用者が、マウスのクリックにより分類先文書の章と節の一覧の中から章あるいは節を選択した場合、分類先文書中の該当する章あるいは節の文全体を表示する。また、表示された章あるいは節中に出現する重要語及び出現頻度の一覧を表示する。なお、このとき表示される重要語には、分類対象文書には含まれていない重要語も含まれる。
(2)利用者が、マウスのクリックにより各主題を構成する重要語群の中から重要語を選択した場合、分類先文書中の該当する重要語が出現する文とその周辺の文を表示する。
(3)利用者が、マウスのクリックにより重要語が出現する節の出現頻度の部分を選択した場合、選択した重要語が該当する分類先文書の節において出現する文とその周辺の文を表示する。
【0023】
また、利用者が、主題を構成する重要語群に対して、マウスによるドラッグ&ドロップの操作により、重要語を重要語候補に変更、あるいは、重要語候補を重要語に変更した場合は、重要語群の変更を受け、ステップS240からの処理を再び行い、新たに指定された重要語が分類先文書中に出現する節とその出現頻度、主題の分類先の節を抽出し、文書分類支援画面の表示を指示する。また、新たな分類先の節に対応するチェックボックスをONにする。
【0024】
ステップS260:
記述範囲導出部205は、以下の手順により、各主題の分類対象文書中における記述範囲を求めて表示部206に通知し、表示部206はディスプレイへの表示を行う。すなわち、各主題を構成する重要語群のうち一つ以上の重要語を含む分類対象文書中の文の集合を、その重要語が属する主題に対応する記述範囲として選択する。そして、分類対象文書中の主題ごとの重要語群と、主題の記述範囲とを提示する。
【0025】
図5は、各主題の分類対象文書中における記述範囲の表示画面イメージを示す図である。図において、分類対象文書において、重要語6及び重要語7を含み、主題Cに対応する記述範囲が提示されている。また、重要語5及び重要語4を含み、主題Bに対応する記述範囲が、重要語1、重要語2及び重要語3を含み、主題Aに対応する記述範囲が提示されている。
【0026】
ステップS270:
図3のステップS270において、分類先導出部204は、利用者が文書分類支援画面に対して行う以下の操作による分類先の修正、選択に従い、分類先を決定する。
(1)利用者は、再び、各主題の重要語を重要語候補に変更、あるいは、重要語候補を重要語に変更する。この操作に応じて、自動的に分類先の節を修正し、新たな分類先の節に対応するチェックボックスをONにする。
(2)利用者は、分類先の節に対応するチェックボックスをクリックすることにより、ON/OFFの設定を行い、分類先を選択する。
(3)利用者は、分類先を選択後、「分類先決定」ボタンをマウスでクリックするなどの操作を行い、分類先を確定する。分類先導出部204は、ONが設定された節を主題の分類先の節として内部に記憶する。
【0027】
本実施の形態による文書分類支援装置の利用イメージとして、以下があげられる。
(1)学校の先生がネットワーク上に公開されている新聞記事などの文書を授業の補助教材として活用するために、文書を教科書の節(ある程度まとまった学習範囲)に分類するための支援を行う。文書に含まれる主題ごとに分類先の節が提示されるため、正しい分類先の節を効率よく見つけることが可能となり、教科書の各節に対応する補助教材を短時間のうちに蓄積できる。
(2)ある装置を利用しようとしている人が、その装置の取扱説明書を読んでいるときに、意味の分からない文章や用語が出てきた場合、その文章や用語に対して取扱説明書の節への自動分類を行い、内容の理解を支援する。分類先の節の説明を参照することにより、その文章や用語の内容を理解することができる。
【0028】
本実施の形態によれば、参考書や取扱説明書のような文書集合への文書の自動分類において、文書集合の初出の節を利用して分類対象文書の分類を行うことが可能になる。従って、従来の自動分類手法よりも適切な節(カテゴリ)に分類対象文書を分類することができる。
また、分類対象文書の複数の主題を分類先文書から抽出した重要語群により表すことが可能となる。従って、分類対象文書の各主題を構成する重要語群を表示することにより、利用者は分類対象文書にどのような主題が含まれているかを一目で把握することが可能となるとともに、分類作業の効率が向上する。
また、各主題の重要語を初出の節がもっとも後ろの重要語から順に表示することにより、初出の節がもっとも後ろの重要語が分類先に寄与していることが一目で分かり、分類作業の効率が向上する。
また、各重要語に対する分類先文書中の節が提示されるため、利用者は意味の分からない重要語の分類先文書中の節を参照することにより、分類対象文書の理解支援に役立つ。
【0029】
なお、分類先文書DB101及び分類対象文書記憶部201は、文書が公開されているURI(Universal Resource Identifier)など、文書の記憶場所を記憶することでもよい。この場合、記憶場所により示される文書を読み込み、上記処理が行われる。
また、ステップS120における品詞の条件、あるいは、単語分布の条件に付随する閾値は、利用者の操作により変更してもよい。
【0030】
なお、上述の文書分類支援装置は、内部にコンピュータシステムを有している。そして、上述した文書分類支援装置の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、OSや周辺機器等のハードウェアを含むものである。
【0031】
また、「コンピュータ読み取り可能な記録媒体」とは、ROMの他に、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のシステムやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0032】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【0033】
【発明の効果】
この発明によれば、参考書や取扱説明書のような文書集合への文書の自動分類において、文書集合の初出の節を利用して分類対象文書の分類を行うことが可能になる。従って、従来の自動分類手法よりも適切な節(カテゴリ)に分類対象文書を分類することができる。
また、分類対象文書の複数の主題を分類先文書から抽出した重要語群により表すことが可能となる。従って、分類対象文書の各主題を構成する重要語群を表示することにより、利用者は分類対象文書にどのような主題が含まれているかを一目で把握することが可能となるとともに、分類作業の効率が向上する。
【図面の簡単な説明】
【図1】 この発明の一実施の形態による文書分類支援装置の構成を機能展開して示したブロック図である。
【図2】 同実施の形態による分類先文書からの重要語抽出の処理手順を示す図である。
【図3】 同実施の形態による分類対象文書の分類支援の処理手順を示す図である。
【図4】 同実施の形態による文書分類支援画面イメージを示す図である。
【図5】 同実施の形態による各主題の分類対象文書中における記述範囲の表示画面イメージを示す図である。
【符号の説明】
101…分類先文書DB(データベース)
102、202…重要語抽出部
103…重要語DB(データベース)
201…分類対象文書記憶部
203…主題抽出部
204…分類先導出部
205…記述範囲導出部
206…表示部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a document classification support apparatus that supports document data classification.
[0002]
[Prior art]
Conventionally, automatic document classification by a computer often classifies a given document into a more detailed and appropriate category by using a document set in which each document is already classified into a category. Many of the conventional methods for automatically classifying documents extract features such as words and phrases from a document and automatically classify them into appropriate categories using feature quantities such as their appearance frequency.
Patent Document 1 extracts nounistic expressions classified for each group such as “company name” and “product name” and verbal expressions classified similarly for each group from documents, and these expressions and their appearances. A technique for classifying a document by using a location as a feature amount of the document is described.
Further, in
In
[0003]
[Patent Document 1]
Japanese Patent Laid-Open No. 2002-108893 (paragraphs 0014 to 0079, FIGS. 1 to 24)
[Patent Document 2]
Japanese Patent Laid-Open No. 2001-60199 (paragraphs 0029-0080, FIGS. 1-7)
[Patent Document 3]
JP 2000-123041 (paragraphs 0048-0106, FIGS. 4-10)
[0004]
[Problems to be solved by the invention]
Assume that a document is classified into a collection of documents such as reference books and instruction manuals. Reference books and instruction manuals are often composed of hierarchical sections such as chapters and sections. In addition, chapters and sections have an order, and advanced contents are described as the sections progress, and the subsequent contents are described on the assumption that the contents are described in a certain place. Therefore, important words that appear in a certain section also appear in subsequent sections, and as the section progresses, the appearing important words often accumulate. In addition, there is little content related to sections in higher layers such as chapters. Therefore, when automatically classifying a document to be classified into sections of such a document set, it should be classified into a section that is first described about the contents of the document to be classified (referred to as “first section”). . Since more advanced content is described in the sections after the first section, it is not appropriate as a classification destination. For example, “current” is explained in one section of a science textbook, “voltage” is explained using “current” in the next section, and “resistance” is explained using “current” and “voltage” in the following section. If explained, the document to be classified with “current” is not the section in which “voltage” or “resistance” is explained, but the first time that “current” is explained first. Should be classified into sections.
Under such circumstances, the conventional classification methods disclosed in Patent Documents 1 to 3 have the following problems.
(1) Although there are cases where there are multiple contents as the subject matter in the classification target document, since the classification destination is determined as one, the user takes time to find the correct classification destination. . For example, if the subject extraction method of
(2) Many important words related to the contents of the classification target document may appear in a section after the first section. Therefore, in the conventional method using the appearance frequency of words, the important words are often classified into a section after the first appearing section, and it takes much time for the user to correct it to the correct classification destination.
(3) Although the classification destination for the entire classification target document is presented, it is not indicated which part of the document is related to the classification destination category. Therefore, it is necessary for the user to refer to the entire classification target document in order to determine whether or not the classification destination is correct.
[0005]
The present invention has been made in consideration of the above circumstances, and its purpose is to classify a new classification target document into an appropriate section for document data in which advanced contents are described as the section progresses. An object of the present invention is to provide a document classification support apparatus capable of presenting classification destination candidates to be used.
[0006]
[Means for Solving the Problems]
The present invention has been made to solve the above-described problems, and the invention according to claim 1 is directed to a classification destination document composed of hierarchized sections, and classification into subordinate sections of the classification destination document. A classification target document to be subjected to classification, an important word, a higher hierarchy section of a lower hierarchy section in which the important word appears in the classification destination document, and an appearance of the lower hierarchy section in the upper hierarchy section A storage unit that stores a correspondence with a number indicating an order; and reads out the classification destination document from the storage unit, extracts a keyword, and extracts a lower-level section in which the important word appears and the lower-level section. A first important word extraction unit that writes to the storage unit in association with a section number of the hierarchy; reads out the classification target document and the important word from the storage unit; A second important word extraction unit that extracts the important word read from the key word extracted by the second important word extraction unit, and a lower hierarchy in which the important word in the storage unit appears in the classification destination document Based on the section of the upper hierarchy and the section number of the lower hierarchy, 1 or a plurality of sets configured so that the important words appearing in the same lower hierarchy section are included in the same set for each section of the higher hierarchy, and the 1 is minimized so that the important words are not shared with each other Or multiple sets subject As A subject extraction unit to extract, an important word group constituting a subject of the classification target document extracted by the subject extraction unit, and a section number of a lower hierarchy in which the important word in the storage unit appears in the classification destination document; Based on Among the lower-level sections where each important word constituting the subject appears for the first time in the classified document, the last lower-level section is selected. Subordinate section of the classification destination As A classification destination derivation unit to be derived, an important word group constituting a subject of the classification target document extracted by the subject extraction unit, and a section of a lower level of a classification destination of the subject of the classification target document derived by the classification destination derivation unit; A document classification support apparatus comprising: a display unit that displays
[0008]
[0010]
[0011]
DETAILED DESCRIPTION OF THE INVENTION
Embodiments of the present invention will be described below with reference to the drawings.
First, the characteristics of a document (hereinafter referred to as “classification target document”) that is a classification destination of a document (hereinafter referred to as “classification target document”) that is supported by the document classification support apparatus according to the present embodiment will be described. The classification destination document is a document whose description contents gradually become advanced, such as a reference book or an instruction manual, and has the following characteristics.
(1) Consists of hierarchical sections consisting of chapters and sections. The finest lower-level section is called a section, and the higher-level section is called a chapter. Therefore, the chapter of the lowest hierarchy is composed of a plurality of sections.
(2) In one chapter at the lowest level, advanced contents are gradually described as the section progresses. That is, on the premise of the contents described in a certain place, the subsequent contents are described. Therefore, important words that appear in a certain section also appear in subsequent sections, and the important words that appear as the section progresses accumulate.
(3) There are few related contents between chapters. Taking a textbook as an example, a certain grade and subject can be considered as a chapter.
[0012]
FIG. 1 is a functional block diagram showing the structure of a document classification support apparatus according to an embodiment of the present invention.
The classification destination document database (DB) 101 (storage unit) includes a classification destination document that is a set of digitized document data, a section in which each document is described, that is, information on a chapter and a section to which each document data belongs. Is remembered. The classification destination document is, for example, a textbook, a reference book, various operation manuals, and the like.
The important word database (DB) 103 (storage unit) stores information on important words extracted from the classification destination document and information on important word candidates that are candidates for important words.
The classification target document storage unit 201 (storage unit) stores a classification target document which is digitized document data. The classification target document is, for example, a newspaper article, a column, or a part of an operation manual.
The important word extraction unit 102 (first important word extraction unit) has a function of reading out a classification destination document from the classification
The keyword extraction unit 202 (second keyword extraction unit) has a function of reading out the classification target document from the classification target document storage unit 201 and extracting the keyword and the keyword candidate registered in the
The
The classification
The description
The
[0013]
Next, the processing procedure of the document classification support apparatus according to this embodiment will be described. The processing procedure of the document classification support apparatus is composed of two stages: an “important word extraction from a classification destination document” stage and a “classification support for classification target document” stage.
FIG. 2 is a diagram showing a processing procedure for extracting important words from the classification destination document. In the “important word extraction from the classification destination document” stage, first, as a pre-classification stage, an important word is extracted for each section from the classification destination document such as a reference book or an instruction manual.
Step S110:
First, the
[0014]
Step S120:
Subsequently, the
(1) Part-of-speech conditions
Extract words with specific parts of speech. For example, a word whose part of speech is a noun, a verb, or an adjective is extracted.
(2a) Conditions for sentence expression
Important words are extracted based on sentence expressions that represent important matters. For example, according to the morphological analysis result,
“O / Noun A A / Noun and / Noun Good / Verb Mas / Auxiliary Verb”
Is recognized as an important word. Other sentence expressions that represent important matters are as follows.
“A / noun and / or case particle is / in case particle (some words) / case particle that is / noun is / auxiliary verb” (word A is an important word)
"A / Noun / Case particles become / Verbs and / Connective particles" (word A is an important word)
(2b) Word distribution conditions
In general, words that appear in many sections are often not important words. In other words, words that appear in a concentrated manner in and around a certain part and that do not appear much in other places are often important. Therefore, words satisfying the following two conditions are extracted as important words.
-The ratio of the section in which a word appears is less than a predetermined threshold with respect to all sections in the document. For example, the threshold value is 1/5 to 1/10.
-When serial numbers are assigned to all sentences in the classified document, the distribution of the numbers of sentences in which words appear is a value equal to or less than a predetermined threshold.
[0015]
Step S130:
The important
In this embodiment, it is assumed that the following important word information is written.
[0016]
FIG. 3 is a diagram illustrating a classification support processing procedure for a document to be classified. In “classification support for classification target documents”, first, a subject composed of a group of related important words is extracted from the classification target document, and each subject is classified into sections in the classification destination document. Then, the description range of the classification target document corresponding to each subject is obtained and presented. Further, the classification destination section in the classification destination document is corrected and determined by the user's operation.
Step S210:
First, the
[0017]
Step S220:
The important
In this embodiment, important words 1,
[0018]
Step S230:
The
(1) An important word group appearing for each chapter of the classified document is obtained. One important word may be included in multiple chapters.
(2) For the important word group included in each chapter, the important word group is clustered (divided) based on the condition that “important words appearing in the same clause are included in the same cluster” to obtain the smallest cluster. Each obtained cluster represents one theme, and important word groups included in the same cluster are important word groups constituting the theme.
A specific description will be given using important word information read from the
[0019]
Step S240:
The classification
More specifically, the important word group of the subject A consists of important words 1,
[0020]
Step S250:
The classification
(1) The important word group constituting each theme and the important word candidate group appearing in the same clause as the important word constituting the important word group and extracted in step S220 are displayed.
(2) The first appearing section displays the section in which each important word appears in order from the last important word, its appearance frequency, and the first appearing section. In addition, the check box corresponding to the classification destination section derived in step S240 is set to ON. A check box corresponding to a section is used to determine a classification destination section.
(3) From the list of chapters and sections of the classified document, the classified section of each subject is highlighted and displayed differently from other sections.
[0021]
FIG. 4 is a diagram showing a document classification support screen image.
The document classification support screen displays a list of chapters that make up the classification target document and the subordinate sections in a tree shape vertically, and a check box that indicates whether the subject is the classification target of the subject next to each section. Is displayed. Each subject A, subject B, and subject C are displayed side by side in the horizontal direction, and the important word group that constitutes each subject and the important word candidate group that appears in the same section as the important word that constitutes the important word group are shown. . In the figure, it is shown that the subject A is composed of an important word group consisting of the important word 1, the
In the important word group of each subject, the first appearing section is presented in order from the last significant word, and the section in which each important word appears and its appearance frequency are presented. Also, the first occurrence of each important word is highlighted. In the figure, the important word 1 of the subject A appears twice in the first section 1.7 and four times in the section 1.8, and the
[0022]
Returning to step S250 of FIG. 3, the classification
(1) When the user selects a chapter or section from the list of chapters and sections of the classified document by clicking the mouse, the entire sentence of the corresponding chapter or section in the classified document is displayed. In addition, a list of important words and appearance frequencies appearing in the displayed chapter or section is displayed. The important words displayed at this time include important words that are not included in the classification target document.
(2) When a user selects an important word from a group of important words constituting each subject by clicking with the mouse, a sentence in which the relevant important word appears in the classified document and the surrounding sentences are displayed. .
(3) When the user selects a part of the appearance frequency of a section in which an important word appears by clicking the mouse, the sentence that appears in the section of the classification destination document to which the selected important word appears and the surrounding sentences are displayed. To do.
[0023]
Also, if a user changes an important word to an important word candidate or changes an important word candidate to an important word by dragging and dropping with the mouse to the important words that make up the subject, it is important. In response to the change of the word group, the processing from step S240 is performed again to extract the clause in which the newly designated important word appears in the classification destination document, its appearance frequency, the subject classification destination clause, and document classification support Instructs screen display. Also, the check box corresponding to the new classification destination section is turned ON.
[0024]
Step S260:
The description
[0025]
FIG. 5 is a diagram showing a display screen image of the description range in the classification target document of each subject. In the drawing, a description range corresponding to the subject C is presented including the important words 6 and 7 in the classification target document. The description range corresponding to the subject B including the important word 5 and the important word 4 includes the important word 1, the
[0026]
Step S270:
In step S270 of FIG. 3, the classification
(1) The user again changes the important word of each subject to an important word candidate or changes the important word candidate to an important word. In accordance with this operation, the classification destination section is automatically corrected, and the check box corresponding to the new classification destination section is turned ON.
(2) The user clicks the check box corresponding to the section of the classification destination to set ON / OFF and select the classification destination.
(3) After selecting the classification destination, the user performs an operation such as clicking a “classification destination determination” button with a mouse to determine the classification destination. The classification
[0027]
The following are examples of usage images of the document classification support apparatus according to the present embodiment.
(1) In order for school teachers to use documents such as newspaper articles published on the network as supplementary teaching materials for classes, support is provided for classifying documents into textbook sections (a certain range of learning). . Since the classification destination section is presented for each subject included in the document, the correct classification destination section can be efficiently found, and auxiliary teaching materials corresponding to each section of the textbook can be accumulated in a short time.
(2) If a person trying to use a device reads a text or term that does not make sense when reading the manual for that device, the Automatically classify sections and assist understanding of content. By referring to the explanation in the section of the classification destination, you can understand the contents of the sentences and terms.
[0028]
According to this embodiment, in the automatic classification of documents into document sets such as reference books and instruction manuals, it is possible to classify the classification target documents using the first section of the document set. Therefore, it is possible to classify the classification target documents into more appropriate sections (categories) than the conventional automatic classification method.
In addition, a plurality of themes of the classification target document can be represented by an important word group extracted from the classification destination document. Therefore, by displaying the important word group constituting each subject of the classification target document, it becomes possible for the user to grasp at a glance what themes are included in the classification target document, as well as the classification work. Increases efficiency.
In addition, by displaying the important words of each subject in order from the most significant word in the first sentence, it can be seen at a glance that the most important word in the first sentence contributes to the classification destination. Efficiency is improved.
In addition, since a section in the classification destination document for each important word is presented, the user can assist in understanding the classification target document by referring to the section in the classification destination document of the important word whose meaning is unknown.
[0029]
The classification
In addition, the threshold associated with the part-of-speech condition or the word distribution condition in step S120 may be changed by a user operation.
[0030]
The document classification support apparatus described above has a computer system inside. The operation process of the document classification support apparatus described above is stored in a computer-readable recording medium in the form of a program, and the above-described processing is performed by the computer system reading and executing this program. The computer system here includes an OS and hardware such as peripheral devices.
[0031]
In addition to ROM, “computer-readable recording medium” refers to a portable medium such as a magnetic disk, a magneto-optical disk, a CD-ROM, a DVD-ROM, or a storage device such as a hard disk built in a computer system. That means. Further, the “computer-readable recording medium” refers to a volatile memory (RAM) in a computer system serving as a system or a client when a program is transmitted via a network such as the Internet or a communication line such as a telephone line. In addition, those holding programs for a certain period of time are also included.
[0032]
The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line.
The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.
[0033]
【The invention's effect】
According to the present invention, in the automatic classification of documents into document sets such as reference books and instruction manuals, it becomes possible to classify the classification target documents by using the first section of the document set. Therefore, it is possible to classify the classification target documents into more appropriate sections (categories) than the conventional automatic classification method.
In addition, a plurality of themes of the classification target document can be represented by an important word group extracted from the classification destination document. Therefore, by displaying the important word group constituting each subject of the classification target document, it becomes possible for the user to grasp at a glance what themes are included in the classification target document, as well as the classification work. Increases efficiency.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a functional development of a configuration of a document classification support apparatus according to an embodiment of the present invention.
FIG. 2 is a diagram showing a processing procedure for extracting important words from a classification destination document according to the embodiment;
FIG. 3 is a diagram showing a processing procedure for classification support of a classification target document according to the embodiment;
FIG. 4 is a diagram showing a document classification support screen image according to the embodiment.
FIG. 5 is a diagram showing a display screen image of a description range in the subject classification target document according to the embodiment;
[Explanation of symbols]
101 ... Classification destination document DB (database)
102, 202 ... Important word extraction unit
103 ... Keyword DB (database)
201: Classification target document storage unit
203 ... Theme extraction unit
204 ... Classification destination deriving unit
205: Description range deriving unit
206 ... display section
Claims (3)
前記記憶部から前記分類先文書を読み出して重要語を抽出し、該重要語が出現する下位階層のセクションの上位階層のセクション及び該下位階層のセクションの番号と対応付けて前記記憶部に書き込む第1の重要語抽出部と、
前記記憶部から前記分類対象文書及び前記重要語を読み出し、前記分類対象文書から読み出した重要語を抽出する第2の重要語抽出部と、
前記第2の重要語抽出部が抽出した重要語と、前記記憶部内の該重要語が前記分類先文書中に出現する下位階層のセクションの上位階層のセクション及び該下位階層のセクションの番号とを基に、上位階層のセクション毎に、同じ下位階層のセクションに出現する前記重要語が同じ集合に含まれるように構成した1または複数の集合であって、前記重要語が互いに共有されないように最小化した1または複数の集合を主題として抽出する主題抽出部と、
前記主題抽出部が抽出した分類対象文書の主題を構成する重要語群と、前記記憶部内の該重要語が前記分類先文書中に出現する下位階層のセクションの番号とを基に、主題を構成する各重要語が前記分類先文書内に初めて出現する下位階層のセクションのうち、最も後ろの下位階層のセクションを分類先の下位階層のセクションとして導出する分類先導出部と、
前記主題抽出部が抽出した分類対象文書の主題を構成する重要語群と、前記分類先導出部が導出した分類対象文書の主題の分類先の下位階層のセクションとを表示する表示部と、
を具備することを特徴とする文書分類支援装置。A classification target document composed of hierarchized sections, a classification target document to be classified into a lower hierarchy section of the classification target document, an important word, and the important word appear in the classification target document A storage unit that stores a correspondence between a section of a higher layer of the section of the lower layer and a number indicating an appearance order of the section of the lower layer in the section of the higher layer;
Reading the classification destination document from the storage unit to extract important words, and writing them to the storage unit in association with the upper layer section of the lower layer section in which the important word appears and the section number of the lower layer 1 key word extraction unit;
A second important word extraction unit that reads out the classification target document and the important word from the storage unit and extracts the important word read out from the classification target document;
An important word extracted by the second important word extraction unit, a section of an upper hierarchy of a section of a lower hierarchy in which the important word in the storage unit appears in the classification destination document, and a section number of the lower hierarchy Based on one or a plurality of sets configured so that the important words appearing in the same lower hierarchy section are included in the same set for each section in the upper hierarchy, and the minimum so that the important words are not shared with each other A subject extraction unit that extracts one or a plurality of collected sets as a subject;
And key words that constitute the subject of classified documents the subject extracting unit is extracted, based on the number of the lower layer section in which the key words appear in the grouping destination document in the storage unit, form the subject A classification destination derivation unit for deriving the last lower hierarchy section as a classification lower hierarchy section among the lower hierarchy sections in which each important word appears for the first time in the classification destination document ;
A display unit for displaying an important word group constituting a subject of the classification target document extracted by the subject extraction unit, and a lower-level section of a classification target of the subject of the classification target document derived by the classification destination derivation unit;
A document classification support apparatus comprising:
階層化されたセクションにより構成される分類先文書、前記分類先文書の下位階層のセクションへの分類を行う対象の分類対象文書、及び、重要語と、該重要語が前記分類先文書中に出現する下位階層のセクションの上位階層のセクションと、該上位階層のセクションにおける該下位階層のセクションの出現順を示す番号との対応付けを記憶する記憶部から前記分類先文書を読み出すステップと、
読み出した前記分類先文書から重要語を抽出し、該重要語が出現する下位階層のセクションの上位階層のセクション及び該下位階層のセクションの番号と対応付けて前記記憶部に書き込むステップと、
前記記憶部から分類対象文書及び重要語を読み出し、前記分類対象文書から読み出した重要語を抽出するステップと、
前記分類対象文書から抽出した重要語と、前記記憶部内の該重要語が前記分類先文書中に出現する下位階層のセクションの上位階層のセクション及び該下位階層のセクションの番号とを基に、上位階層のセクション毎に、同じ下位階層のセクションに出現する前記重要語が同じ集合に含まれるように構成した1または複数の集合であって、前記重要語が互いに共有されないように最小化した1または複数の集合を主題として抽出するステップと、
抽出した前記分類対象文書の主題を構成する重要語群と、前記記憶部内の該重要語が前記分類先文書中に出現する下位階層のセクションの番号とを基に、主題を構成する各重要語が前記分類先文書内に初めて出現する下位階層のセクションのうち、最も後ろの下位階層のセクションを分類先の下位階層のセクションとして導出するステップと、
前記分類対象文書の主題を構成する重要語群と、主題の分類先の下位階層のセクションとを表示するステップと、
を実行させるためのコンピュータプログラム。In a computer used as a document classification support device,
A classification target document composed of hierarchized sections, a classification target document to be classified into a lower hierarchy section of the classification target document, an important word, and the important word appear in the classification target document Reading the classification destination document from a storage unit that stores a correspondence between a section of an upper layer of a section of the lower layer and a number indicating an appearance order of the section of the lower layer in the section of the upper layer;
Extracting a key word from the read classification destination document, writing the key word in the storage unit in association with a section of a lower layer in which the key word appears and a section number of the lower layer;
Reading the classification target document and the important word from the storage unit, extracting the important word read from the classification target document;
Based the important words extracted from the classified document, and a number of sections of the key words of the upper hierarchy of sections of the lower layer appearing in the grouping destination document section and lower level hierarchy in the storage unit, the upper For each section of the hierarchy, one or a plurality of sets configured such that the important words appearing in the same lower-level section are included in the same set, wherein the important words are minimized so that they are not shared with each other extracting a plurality of sets as a subject,
Each important word constituting the theme based on the extracted important word group constituting the subject of the classification target document and the section number of the lower hierarchy in which the important word in the storage unit appears in the classification destination document Deriving the last lower hierarchy section as the lower hierarchy section of the classification destination among the lower hierarchy sections first appearing in the classification destination document ;
Displaying a group of important words constituting the subject of the document to be classified, and a section of a lower hierarchy to which the subject is classified;
A computer program for running.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002309555A JP4423385B2 (en) | 2002-10-24 | 2002-10-24 | Document classification support apparatus and computer program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002309555A JP4423385B2 (en) | 2002-10-24 | 2002-10-24 | Document classification support apparatus and computer program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2004145626A JP2004145626A (en) | 2004-05-20 |
| JP4423385B2 true JP4423385B2 (en) | 2010-03-03 |
Family
ID=32455329
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2002309555A Expired - Fee Related JP4423385B2 (en) | 2002-10-24 | 2002-10-24 | Document classification support apparatus and computer program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4423385B2 (en) |
Families Citing this family (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007265068A (en) * | 2006-03-29 | 2007-10-11 | National Institute Of Information & Communication Technology | Document difference detection apparatus and program |
| JP5347334B2 (en) * | 2008-05-29 | 2013-11-20 | 富士通株式会社 | Summary work support processing method, apparatus and program |
| CN102737057B (en) * | 2011-04-14 | 2015-04-01 | 阿里巴巴集团控股有限公司 | Determining method and device for goods category information |
| WO2014002212A1 (en) * | 2012-06-27 | 2014-01-03 | 株式会社日立製作所 | Document linking method, document searching method, document linking apparatus, document linking apparatus, and program therefor |
| KR101521331B1 (en) * | 2012-08-06 | 2015-05-19 | 지승환 | Method of recomending books in electronic form based on study plan |
| KR101521330B1 (en) * | 2012-08-06 | 2015-05-20 | 지승환 | Method of managing books in electronic form by mapping onto knowlege hierarchy |
| CN118377912B (en) * | 2024-06-27 | 2024-11-08 | 山东捷瑞数字科技股份有限公司 | Electronic manual processing method, interaction system, electronic device and readable storage medium |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3577972B2 (en) * | 1998-10-19 | 2004-10-20 | 日本電信電話株式会社 | Similarity determination method, document search device, document classification device, storage medium storing document search program, and storage medium storing document classification program |
| JP2001101226A (en) * | 1999-10-01 | 2001-04-13 | Ricoh Co Ltd | Document group classification device and document group classification method |
-
2002
- 2002-10-24 JP JP2002309555A patent/JP4423385B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2004145626A (en) | 2004-05-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6912550B2 (en) | File classification management system and method used in operating systems | |
| JP5161658B2 (en) | Keyword input support device, keyword input support method, and program | |
| NZ524988A (en) | A document categorisation system | |
| JP5587821B2 (en) | Document topic extraction apparatus, method, and program | |
| US20080162115A1 (en) | Computer program, apparatus, and method for searching translation memory and displaying search result | |
| CN112749272A (en) | Intelligent new energy planning text recommendation method for unstructured data | |
| CN112307336A (en) | Hotspot information mining and previewing method and device, computer equipment and storage medium | |
| CN112231554A (en) | Search recommendation word generation method and device, storage medium and computer equipment | |
| US10970489B2 (en) | System for real-time expression of semantic mind map, and operation method therefor | |
| JP4967133B2 (en) | Information acquisition apparatus, program and method thereof | |
| JPH09231238A (en) | Text search result display method and device | |
| JP4423385B2 (en) | Document classification support apparatus and computer program | |
| JP3735336B2 (en) | Document summarization method and system | |
| JP2012093966A (en) | Document analysis apparatus and program | |
| CN117313675A (en) | Text modification method, apparatus, computer device and computer readable storage medium | |
| CN114328895A (en) | News abstract generation method and device and computer equipment | |
| JP3743204B2 (en) | Data analysis support method and apparatus | |
| JP4931114B2 (en) | Data display device, data display method, and data display program | |
| JP2002183175A (en) | Text mining method | |
| JP7029205B1 (en) | Technical survey support equipment, technical survey support methods, and technical survey support programs | |
| JP4719921B2 (en) | Data display device and data display program | |
| JP2010061176A (en) | Text mining device, text mining method, and text mining program | |
| JP3943005B2 (en) | Information retrieval program | |
| JPH1173426A (en) | Document matching device | |
| JP2003271616A (en) | Document classification device, document classification method, and recording medium |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20040513 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20040517 |
|
| RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20041105 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051020 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20051020 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090206 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090217 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090407 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090707 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090904 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091020 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091105 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121218 Year of fee payment: 3 |
|
| LAPS | Cancellation because of no payment of annual fees |