JP4423841B2 - Keyword determination device, determination method, document search device, search method, document classification device, classification method, and program - Google Patents
Keyword determination device, determination method, document search device, search method, document classification device, classification method, and program Download PDFInfo
- Publication number
- JP4423841B2 JP4423841B2 JP2002236195A JP2002236195A JP4423841B2 JP 4423841 B2 JP4423841 B2 JP 4423841B2 JP 2002236195 A JP2002236195 A JP 2002236195A JP 2002236195 A JP2002236195 A JP 2002236195A JP 4423841 B2 JP4423841 B2 JP 4423841B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- cluster
- keyword
- clusters
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 95
- 238000012545 processing Methods 0.000 claims description 96
- 239000013598 vector Substances 0.000 claims description 86
- 238000004364 calculation method Methods 0.000 claims description 28
- 238000010586 diagram Methods 0.000 description 21
- 230000000877 morphologic effect Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 150000001875 compounds Chemical class 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000239290 Araneae Species 0.000 description 1
- 240000000543 Pentas lanceolata Species 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
【発明の属する技術分野】
本発明はキーワード決定装置、決定方法、文書検索装置、検索方法、文書分類装置及び分類方法並びにプログラムに係り、特にハイパーテキストを対象としたキーワード決定装置、決定方法、文書検索装置、検索方法、文書分類装置及び分類方法並びにプログラムに関する。
【0002】
ハイパーテキストとは、ハイパーリンク(リンク)で構造化された文書集合のことであり、文書をノードとし、文書間にリンクをはった構造を持つ。文書Aから文書Bへのリンクに関して、文書Bのリンク元になる文書A中の文字列をアンカー文字列と呼ぶ。ハイパーテキストの代表例が、WWW(World Wide Web)である。WWWはHTML(Hyper Text Markup Language)形式で記述されたハイパーテキストであり、リンク及びアンカー文字列は<A>タグによってマークされる。なお、WWWはハイパーテキストの代表例であるが、本発明は対象をWWWに限定したものではない。また、ハイパーテキストはHTMLだけではなく、XML(Extensible Markup Language)、SGML(Standard Generalized Markup Language)等を用いて記述することも可能である。
【0003】
【従来の技術】
近年のインターネットの普及により、リンクで構造化された大量の文書に容易にアクセスすることが可能になっている。リンクで構造化された文書は通常、サイトと呼ばれる文書クラスタを形成している。サイトを構成する文書クラスタの単位は必ずしも明確ではないが、同一ドメイン名を持つ文書クラスタを一つのサイトとみなしたり、あるいは同一管理者による同一テーマの文書クラスタを一つのサイトとみなしたりすることが多い。各サイトには、トップページと呼ばれる入り口となる文書が存在し、閲覧者はそこからサイト内の各コンテンツの文書へリンクをたどってアクセスすることができる。
【0004】
例えば、後述する図2の例では、文書11、文書21、文書31、文書41がそれぞれサイト1、サイト2、サイト3、サイト4のトップページである。リンクは、引用したい文書の格納場所を表すURLと、引用先の文書の内容を表すアンカー文字列からなる。アクセス可能などの文書へもリンクを自由にはることもできるが、インターネットの習慣上、異なるサイトからのリンクはURLにトップページが指定され、アンカー文字列にサイトのタイトルまたはサイトの内容を表す文字列が使われる傾向がある。
【0005】
一方、同一サイト内の各コンテンツの文書へのリンクは、閲覧者がトップページから順番にリンクをたどってくることを想定して、表現を省略することが多い。例えば、サイト1が全国のグルメ情報を扱うサイトであった場合、サイト2やサイト3などの異なるサイトからトップページである文書11へはられたリンクのアンカー文字列「L203」や「L302」には、「グルメ」のページ、「レストラン検索」など、サイトのタイトルそのものやサイトの内容を表す表現が多く使われる。
【0006】
一方、サイト内のコンテンツへのリンクのアンカー文字列「L101」、「L103」、「L106」には、それぞれ「関西」、「奈良県」、「中華」など閲覧者がトップページから順番にリンクをたどってくることを想定して必要最低限の表現が使われる傾向があり、アンカー文字列単独ではリンク先の文書の内容が部分的にしか把握できないことが多い。また、文書の内容自体も、閲覧者がトップページから順番にリンクをたどってくることを想定して記述されているため、例えば「奈良県」というアンカー文字列がある文書には、県名のリストが記述されているだけなど、文書単独では内容を十分に把握することはできないことが多い。
【0007】
このようなリンクで構造化された文書を検索・分類する従来技術として、例えばプロシーディングズ・オブ・ザ・ファースト・インターナショナル・カンファレンス・オン・ワールド・ワイド・ウェブ(Proceedings of The 1st International Conference on the World Wide Web, 1994 )に掲載の論文、ゲンヴル・アンド・フォーダブリュ:ツールズ・フォー・テイミング・ザ・ウェブ(GENVL and WWWW: Tools for Taming the Web)に示される検索装置や、特許第3108015号公報に記載されたハイパーテキスト検索装置、特開平10−254899号公報に記載された文書分類システム、再公表特許WO99/14690に記載のリンク情報を用いたキーワード付与方法、特開2000−339320号公報に記載された関連文書表示装置などのように、リンク元のアンカー文字列を検索対象や分類対象とする方法が挙げられる。
【0008】
これらの検索装置や文書分類システムやキーワード付与方法によれば、文書本体に含まれるキーワードに加え、リンク元のアンカー文字列を検索インデックスに登録したり、文書特徴ベクトルに追加したりすることにより、リンク元のアンカー文字列がリンク先文書の説明を記述している性質を利用して、検索・分類の精度を高めようとしている。
【0009】
【発明が解決しようとする課題】
しかるに、上記の従来のキーワード抽出装置、文書検索装置及び文書分類装置では、以下のような問題点がある。すなわち、第1の問題点は、サイト内のリンクについて文書のリンク元のアンカー文字列を検索・分類対象としても、そのアンカー文字列が必ずしも文書内容を完全に説明した記述となっていないことである。その原因は、従来のキーワード抽出装置、文書検索装置及び文書分類装置では、単独のページの本文かリンク元アンカー文字列のみを検索対象にしているからである。サイト内のリンクやページの内容は、閲覧者がトップページから順番にリンクを辿ってくることを想定して記述される傾向があるため、単独のページの本文やリンク元アンカー文字列では、その文書の内容を十分に反映した検索・分類が行えないことがある。
【0014】
本発明は以上の点に鑑みなされたもので、サイト全体の内容を表すサイト外からのリンクと、サイト内での文書の位置付けを表すサイト内のリンクをそれぞれ遡って得られるアンカー文字列の系列を、文書クラスタと文書との関係を特徴付ける単語群として抽出することにより、サイト全体の内容とサイト内での文書の位置付けを反映した検索・分類を行え得るキーワード決定装置、決定方法、文書検索装置、検索方法、文書分類装置及び分類方法並びにプログラムを提供することを目的とする。
【0016】
【課題を解決するための手段】
上記の目的を達成するため、本発明のキーワード決定装置は、ハイパーリンクで構造化された複数の文書により形成されている文書クラスタのそれぞれが備える階層化された複数の文書のそれぞれについて文書本文、その文書のリンク先文書とリンク元文書を示すリンク情報及びその文書のリンク元文書中の文字列であるアンカー文字列を少なくとも記憶している記憶手段と、ディレクトリ階層における位置関係から定まる文書クラスタ内の最上位文書であるトップページの条件と同一の文書クラスタに含まれる文書の条件とを含む文書クラスタの条件を指定する対象指定手段と、記憶手段から複数の文書の文書本文、リンク情報及びアンカー文字列を読み出し、リンク情報と対象指定手段により指定された文書クラスタの条件とに基づき、与えられた文書がトップページであるか、トップページでないときは同一の文書クラスタに含まれる文書の条件に基づきどの文書クラスタに属する文書であるかの文書クラスタの特定を行う文書クラスタ特定手段と、文書クラスタ特定手段により特定された文書クラスタのリンク情報に基づき、同一文書クラスタの複数の文書のそれぞれについて、各文書をリンク先文書としたとき、その文書クラスタ内の最上位文書まで上位層であるリンク元文書方向にリンクを遡って得られる各リンク元文書中の文字列であるアンカー文字列の系列をその文書のサイト内キーワードと決定し、文書クラスタの最上位文書に対してリンクしている別の文書クラスタ内の文書中の文字列であるアンカー文字列を文書クラスタの各文書のサイト外キーワードとして決定する決定手段とを有することを特徴とする。
また、上記の目的を達成するため、本発明のキーワード決定方法は、データ処理装置が、ハイパーリンクで構造化された複数の文書により形成されている文書クラスタのそれぞれが備える階層化された複数の文書のそれぞれについて文書本文、その文書のリンク先文書とリンク元文書を示すリンク情報及びその文書のリンク元文書中の文字列であるアンカー文字列を少なくとも記憶している記憶手段から複数の文書の文書本文、リンク情報及びアンカー文字列を読み出す読み出しステップと、データ処理装置が、ディレクトリ階層における位置関係から定まる文書クラスタ内の最上位文書であるトップページの条件と同一の文書クラスタに含まれる文書の条件とを含む文書クラスタの条件を指定する対象指定ステップと、データ処理装置が、読み出しステップで読み出されたリンク情報と対象指定ステップにより指定された文書クラスタの条件とに基づき、与えられた文書がトップページであるか、トップページでないときは同一の文書クラスタに含まれる文書の条件に基づきどの文書クラスタに属する文書であるかの文書クラスタの特定を行う文書クラスタ特定ステップと、データ処理装置が、文書クラスタ特定ステップにより特定された文書クラスタのリンク情報に基づき、同一文書クラスタの複数の文書のそれぞれについて、各文書をリンク先文書としたとき、その文書クラスタ内の最上位文書まで上位層であるリンク元文書方向にリンクを遡って得られる各リンク元文書中の文字列であるアンカー文字列の系列をその文書のサイト内キーワードと決定し、文書クラスタの最上位文書に対してリンクしている別の文書クラスタ内の文書中の文字列であるアンカー文字列を文書クラスタの各文書のサイト外キーワードとして決定する決定ステップとを含むことを特徴とする。
【0017】
また、上記の目的を達成するため、本発明の文書検索装置は、ハイパーリンクで構造化された複数の文書により形成されている文書クラスタのそれぞれが備える階層化された複数の文書のそれぞれについて文書本文、リンク情報及びその文書のリンク元文書中の文字列であるアンカー文字列を少なくとも記憶している記憶手段と、ディレクトリ階層における位置関係から定まる文書クラスタ内の最上位文書であるトップページの条件と同一の文書クラスタに含まれる文書の条件とを含む文書クラスタの条件を指定する対象指定手段と、記憶手段から複数の文書の文書本文、リンク情報及びアンカー文字列を読み出し、リンク情報と対象指定手段により指定された文書クラスタの条件とに基づき、与えられた文書がトップページであるか、トップページでないときは同一の文書クラスタに含まれる文書の条件に基づきどの文書クラスタに属する文書であるかの文書クラスタの特定を行う文書クラスタ特定手段と、文書クラスタ特定手段により特定された文書クラスタのリンク情報に基づき、同一文書クラスタの複数の文書のそれぞれについて、各文書をリンク先文書としたとき、その文書クラスタ内の最上位文書までリンク元文書方向にリンクを遡って得られる各リンク元文書中の文字列であるアンカー文字列の系列をその文書のサイト内キーワードと決定し、文書クラスタの最上位文書に対してリンクしている別の文書クラスタ内の文書中の文字列であるアンカー文字列を文書クラスタの各文書のサイト外キーワードとして決定する決定手段と、決定手段により決定された各文書のサイト内キーワードとサイト外キーワードとのうち、どのキーワードがどの文書中に出現するかを索引であるインデックスとして作成して記憶するインデックス作成及び記憶手段と、検索条件を入力する入力手段と、入力手段により入力された検索条件から検索に使うキーワードを決定し、その検索に使うキーワードが現れている文書を、インデックス作成及び記憶手段により記憶されているインデックスに基づいて検索結果候補として検索する検索手段とを有することを特徴とする。
【0018】
また、上記の目的を達成するため、本発明の文書検索方法は、データ処理装置が、ハイパーリンクで構造化された複数の文書により形成されている文書クラスタのそれぞれが備える階層化された複数の文書のそれぞれについて文書本文、その文書のリンク先文書とリンク元文書を示すリンク情報及びその文書のリンク元文書中の文字列であるアンカー文字列を少なくとも記憶している記憶手段から複数の文書の文書本文、リンク情報及びアンカー文字列を読み出す読み出しステップと、データ処理装置が、ディレクトリ階層における位置関係から定まる文書クラスタ内の最上位文書であるトップページの条件と同一の文書クラスタに含まれる文書の条件とを含む文書クラスタの条件を指定する対象指定ステップと、データ処理装置が、読み出しステップで読み出されたリンク情報と対象指定ステップにより指定された文書クラスタの条件とに基づき、与えられた文書がトップページであるか、トップページでないときは同一の文書クラスタに含まれる文書の条件に基づきどの文書クラスタに属する文書であるかの文書クラスタの特定を行う文書クラスタ特定ステップと、データ処理装置が、文書クラスタ特定ステップにより特定された文書クラスタのリンク情報に基づき、同一文書クラスタの複数の文書のそれぞれについて、各文書をリンク先文書としたとき、その文書クラスタ内の最上位文書まで上位層であるリンク元文書方向にリンクを遡って得られる各リンク元文書中の文字列であるアンカー文字列の系列をその文書のサイト内キーワードと決定し、文書クラスタの最上位文書に対してリンクしている別の文書クラスタ内の文書中の文字列であるアンカー文字列を文書クラスタの各文書のサイト外キーワードとして決定する決定ステップと、データ処理装置が、決定ステップにより決定された各文書のサイト内キーワードとサイト外キーワードとのうち、どのキーワードがどの文書中に出現するかを索引であるインデックスとして作成して記憶するインデックス作成及び記憶ステップと、入力手段により検索条件を入力する入力ステップと、データ処理装置が、入力された検索条件から検索に使うキーワードを決定し、その検索に使うキーワードが現れている文書を、インデックス作成及び記憶ステップにより記憶されているインデックスに基づいて検索結果候補として検索する検索ステップとを含むことを特徴とする
【0019】
また、上記の目的を達成するため、本発明の文書分類装置は、ハイパーリンクで構造化された複数の文書により形成されている文書クラスタのそれぞれが備える階層化された複数の文書のそれぞれについて文書本文、その文書のリンク先文書とリンク元文書を示すリンク情報及びその文書のリンク元文書中の文字列であるアンカー文字列を少なくとも記憶している記憶手段と、ディレクトリ階層における位置関係から定まる文書クラスタ内の最上位文書であるトップページの条件と同一の文書クラスタに含まれる文書の条件とを含む文書クラスタの条件を指定する対象指定手段と、記憶手段から複数の文書の文書本文、リンク情報及びアンカー文字列を読み出し、リンク情報と対象指定手段により指定された文書クラスタの条件とに基づき、与えられた文書がトップページであるか、トップページでないときは同一の文書クラスタに含まれる文書の条件に基づきどの文書クラスタに属する文書であるかの文書クラスタの特定を行う文書クラスタ特定手段と、文書クラスタ特定手段により特定された文書クラスタのリンク情報に基づき、同一文書クラスタの複数の文書のそれぞれについて、各文書をリンク先文書としたとき、その文書クラスタ内の最上位文書までリンク元文書方向にリンクを遡って得られる各リンク元文書中の文字列であるアンカー文字列の系列をその文書のサイト内キーワードと決定し、文書クラスタの最上位文書に対してリンクしている別の文書クラスタ内の文書中の文字列であるアンカー文字列を文書クラスタの各文書のサイト外キーワードとして決定する決定手段と、決定手段により決定された各文書のサイト内キーワード及びサイト外キーワードが各文書中に出現する頻度又は出現の有無の情報を多次元ベクトルとして表現した文書ベクトルを作成する文書ベクトル作成手段と、分類したいカテゴリについて、それぞれ特徴的なキーワードとその出現頻度が特徴ベクトルとして記憶されているカテゴリ条件記憶手段と、文書ベクトル作成手段により作成された各文書の文書ベクトルについて、カテゴリ条件記憶手段に記憶されている各カテゴリの特徴ベクトルとの類似度計算を行う類似度計算手段と、類似度計算結果に応じて、複数の文書を分類する分類手段とを有することを特徴とする。
【0020】
また、上記の目的を達成するため、本発明の文書分類方法は、データ処理装置が、ハイパーリンクで構造化された複数の文書により形成されている文書クラスタのそれぞれが備える階層化された複数の文書のそれぞれについて文書本文、その文書のリンク先文書とリンク元文書を示すリンク情報及びその文書のリンク元文書中の文字列であるアンカー文字列を少なくとも記憶している記憶手段から複数の文書の文書本文、リンク情報及びアンカー文字列を読み出す読み出しステップと、データ処理装置が、ディレクトリ階層における位置関係から定まる文書クラスタ内の最上位文書であるトップページの条件と同一の文書クラスタに含まれる文書の条件とを含む文書クラスタの条件を指定する対象指定ステップと、データ処理装置が、読み出しステップで読み出されたリンク情報と対象指定ステップにより指定された文書クラスタの条件とに基づき、与えられた文書がトップページであるか、トップページでないときは同一の文書クラスタに含まれる文書の条件に基づきどの文書クラスタに属する文書であるかの文書クラスタの特定を行う文書クラスタ特定ステップと、データ処理装置が、文書クラスタ特定ステップにより特定された文書クラスタのリンク情報に基づき、同一文書クラスタの複数の文書のそれぞれについて、各文書をリンク先文書としたとき、その文書クラスタ内の最上位文書まで上位層であるリンク元文書方向にリンクを遡って得られる各リンク元文書中の文字列であるアンカー文字列の系列をその文書のサイト内キーワードと決定し、文書クラスタの最上位文書に対してリンクしている別の文書クラスタ内の文書中の文字列であるアンカー文字列を文書クラスタの各文書のサイト外キーワードとして決定する決定ステップと、データ処理装置が、決定ステップにより決定された各文書のサイト内キーワード及びサイト外キーワードが各文書中に出現する頻度又は出現の有無の情報を多次元ベクトルとして表現した文書ベクトルを作成する文書ベクトル作成ステップと、データ処理装置が、分類したいカテゴリについて、それぞれ特徴的なキーワードとその出現頻度が特徴ベクトルとして記憶されているカテゴリ条件記憶手段から読み出した特徴ベクトルと文書ベクトル作成ステップにより作成された各文書の文書ベクトルとの類似度計算を行う類似度計算ステップと、データ処理装置が、類似度計算ステップによる類似度計算結果に応じて、複数の文書を分類する分類ステップとを含むことを特徴とする。
【0021】
また、上記の目的を達成するため、本発明のプログラムは、上記のキーワード決定方法、文書検索方法、文書分類方法を、データ処理装置内のコンピュータに実行させることを特徴とする。
【0025】
【発明の実施の形態】
次に、本発明の実施の形態について、図面を参照して詳細に説明する。
【0026】
[第1の実施の形態]
図1は本発明の第1の実施の形態のブロック図を示す。同図に示すように、本発明のキーワード設定装置、文書検索装置及び文書分類装置の第1の実施の形態は、プログラム制御により動作するデータ処理装置1と、情報を記憶する記憶装置2とを含む構成である。
【0027】
記憶装置2は、ハイパーテキストデータベース21と、文書キーワード記憶部22とを備えている。ハイパーテキストデータベース21は、図2に示すようなハイパーリンクで構造化された文書群について、各文書のURL、ローカルアドレス、本文テキスト、リンク先文書とそのアンカー文字列などを記憶している。ハイパーテキストデータベース21の例としては、例えばインターネットまたはイントラネット上のウェブ(Web)がこれに該当する。
【0028】
文書キーワード記憶部22は、各文書について、後述の文書キーワード決定手段14が決定したキーワードを記憶する。文書キーワード決定手段14が決定するキーワードには、同一サイト内のリンクを遡って得られるアンカー文字列の系列(サイト内キーワード)と、異なるサイトからそのサイトのトップページへのリンクのアンカー文字列(サイト外キーワード)の2種類がある。
【0029】
ハイパーテキストデータベース21が図2のようなハイパーリンクで構造化された文書群の場合、文書キーワード記憶部22が記憶するキーワードの例は図3のようになる。図3において、文書キーワード記憶部22には、各文書が文書名とサイト外キーワードとサイト内キーワードとが対応付けて記憶されており、例えば文書15のサイト外キーワードとして「L203,L302」が、サイト内キーワードとして「L104←L101」が記憶されているのがわかる。
【0030】
一方、図1のデータ記憶装置1は、ハイパーテキストアクセス手段11と、文書クラスタ情報取得手段12と、対象指定手段13と、文書キーワード決定手段14とを備えている。
【0031】
ハイパーテキストアクセス手段11は、ハイパーテキストデータベース21に格納されている文書を読み出し、文書クラスタ情報取得手段12に渡す。ハイパーテキストデータベース21がWWWの場合、HTTP(Hyper Text Transfer Protocol)を介して文書にアクセスすることができる。このような機能は、従来、IE(Internet Explorer)などのWebブラウザ、あるいはWebクローラー(スパイダー/ロボット)において実現されている。
【0032】
文書クラスタ情報取得手段12は、ハイパーテキストアクセス手段11が読み出した文書に含まれるリンク情報を抽出し、対象指定手段13によって指定された条件に基づきサイトを構成する文書クラスタを特定し、文書参照関係表と文書クラスタ表を生成する。文書参照関係表の例を図4に、文書クラスタ表の例を図5に示す。
【0033】
図4に示すように、文書参照関係表は、アンカー文字列、リンク元文書及びリンク先文書が対応付けられた一覧表であり、例えば文書11から文書12に対してアンカー文字列「L101」のリンクがはられていることを示している。また、図5に示すように、文書クラスタ表は、文書クラスタ、トップページ及びクラスタ内文書が対応付けられた一覧表であり、例えば文書クラスタ「サイト1」のトップページは文書11で、クラスタ内には、文書12〜19が含まれていることを示している。
【0034】
図1のデータ処理装置1内の対象指定手段13は、同一サイトとみなすべき文書クラスタの条件を、文書クラスタ情報取得手段12に与える。対象指定手段13が与える条件には、「サイトのトップページの条件」と「同一サイトに含まれる文書の条件」を含む。例えば、同一ドメイン名のサーバーに格納された文書クラスタを一つのサイトとみなしたい場合、「サイトのトップページの条件」として、「文書のURLが『http://ドメイン名/』、または『http://ドメイン名/index.html』であるもの」と指定し、「同一サイトに含まれる文書の条件」として、「ドメイン名が同じ」と指定すればよい。
【0035】
データ処理装置1内の文書キーワード決定手段14は、文書クラスタ情報取得手段12によって生成された文書参照関係表と文書クラスタ表を参照しながら、同一文書クラスタ内を遡って得られるアンカー文字列の系列と、異なる文書クラスタからのリンクのアンカー文字列をその文書のキーワードとして決定し、文書キーワード記憶部22に格納する。
【0036】
次に、図1のブロック図乃至図6のフローチャートを併せ参照して第1の実施の形態の動作について、詳細に説明する。まず、ハイパーテキストアクセス手段11は、ハイパーテキストデータベース21に格納されている各文書を読み出し、文書クラスタ情報取得手段12に渡す。文書クラスタ情報取得手段12は、与えられた文書からリンク情報を抽出し、図4に示すような文書参照関係表を生成する(ステップS1)。
【0037】
次に、文書クラスタ情報取得手段12は、対象指定手段13により指定された「サイトのトップページの条件」に基づき、与えられた文書についてトップページか否かの判定を行う。ここで、トップページとは、ディレクトリ階層における位置関係から定まる文書クラスタ内の最上位文書である(図2の場合、サイト1では文書11、サイト3では文書31である。)。
【0038】
もし、トップページであれば図5に示す文書クラスタ表に1行追加して登録する(ステップS2)。例えば、「サイトのトップページの条件」として「文書のURLが『http://ドメイン名/』、または『http://ドメイン名/index.html』であるもの」と指定されていた場合、ドメイン名単位でトップページが文書クラスタ表に登録される。
【0039】
また、文書クラスタ情報取得手段12は、与えられた文書がトップページでないと判定した場合は、対象指定手段13により指定された「同一サイトに含まれる文書の条件」に基づき、トップページでないと判定された文書がどのサイトに属するかを決定し、図5に示す文書クラスタ表のクラスタ内文書に登録する(ステップS3)。例えば、「同一サイトに含まれる文書の条件」として、「ドメイン名が同じ」と指定されていた場合、トップページと同じドメイン名を持つ文書がクラスタ内文書に登録される。
【0040】
次に、文書キーワード決定手段14は、文書クラスタ情報取得手段12が生成した文書参照関係表と文書クラスタ表を参照して、各サイトのトップページに対してサイト外からはられているリンクのアンカー文字列をサイト外キーワードとして文書キーワード記憶部22に記憶させる(ステップS4)。
【0041】
さらに、文書キーワード決定手段14は、文書クラスタ情報取得手段12が生成した文書参照関係表と文書クラスタ表を参照して、各クラスタ内文書について、同一クラスタ内文書のリンクを遡って得られるアンカー文字列の系列をサイト内キーワードとして文書キーワード記憶部22に記憶させる(ステップS5)。この時、同一サイトに含まれている文書のサイト外キーワードは、そのサイトのトップページのサイト外キーワードと同じにする。したがって、図2の文書12〜文書19のサイト外キーワードは、文書11のサイト外キーワードと同一の「L203,L302」となる。
【0042】
また、リンクを遡る際に、一度遡った文書を覚えておき、ループして遡らないようにする。例えば、図2の文書16に対するリンクを単純に遡ると「L105←L102」というアンカー文字列の系列のほかに、「L105←L109」、「L105←L109←L105←L102」、「L105←L109←L105←L109←・・・」のようにループによって無数のアンカー文字列が生成されてしまう。そこで、一度遡った文書を同じアンカー文字列の系列内で二度遡らないようにしておくと、文書16のサイト内キーワードは「L105←L102」だけになる。
【0043】
一方、別のアンカー文字列の系列で同じ文書を遡る場合は、それぞれ別のキーワードとして登録する。例えば図2の文書19の場合、「L108←L104←L101」と「L110←L105←L102」はどちらも文書11に遡るアンカー文字列の系列であるが、別の系列であるため両方をサイト内キーワードとして記憶する。ここでも、「L110←L105←L109←L105←L102」というアンカー文字列の系列などが考えられるが、これは同一系列内で文書13と文書16をそれぞれ2回遡っているためサイト内キーワードとしては記憶しない。
【0044】
なお、本実施の形態では、ハイパーテキストアクセス手段11が記憶装置2に記憶されたハイパーテキストデータベース21にアクセスする方法について述べたが、他にもインターネットに直接アクセスし、記憶装置2にハイパーテキストデータベース21を記憶する方法もあり、本発明は本実施の形態で述べた方法に限定されない。
【0045】
また、本実施の形態では、対象指定手段13により指定される「サイトのトップページの条件」として「文書のURLが『http://ドメイン名/』、または『http://ドメイン名/index.html』であるもの」とし、「同一サイトに含まれる文書の条件」として「ドメイン名が同じ」である場合を例として説明を行った。しかし、「サイトのトップページの条件」として「異なるドメイン名のページからのリンクが一定数以上の文書」、「同一サイトに含まれる文書の条件」として「同一ドメインでトップページとURLのディレクトリ階層が同じか、深い文書」を指定する方法もある。また、習慣的にチルダ「~」で始まるディレクトリ名は、そのサーバーを利用している各ユーザーのサイトであるとみなすこともできる。
【0046】
また、「サイトのトップページの条件」として「『Home Page』『Topへ』『最初に戻る』など、トップページを指すと考えられる表現のアンカー文字列を持つリンクのリンク先文書」とし、「同一サイトに含まれる条件」として「『Home Page』『Topへ』『最初に戻る』など、トップページを指すと考えられる表現のアンカー文字列を持つリンクのリンク元文書」とする方法もある。さらに、「サイトのトップページの条件」として、予め人手によって指定されたURLのリストを使う方法もあり、本実施の形態で述べた方法に限定されるものではない。
【0047】
また、本実施の形態では、文書キーワード決定手段14は、同一クラスタ内文書のリンクを遡って得られるアンカー文字列の系列をサイト内キーワードとしたが、トップページでない文書にサイト外からリンクがはられている場合、そのリンクを一つだけ遡ったアンカー文字列の系列もサイト内キーワードとして記憶してもよい。また、必ずしもトップページまでのリンクをすべて遡らずに、遡る数を指定したリンク数に限定する方法もあり、本実施の形態で述べた方法に限定されるものではない。
【0048】
また、本実施の形態では、文書キーワード決定手段14は、ループしたリンクのアンカー文字列の系列をサイト内キーワードから除いていた。しかし、他にも、「戻る」「Back」「Topへ」「Home Page」「前へ」「次へ」など、検索・分類に適切でないキーワードをあらかじめ辞書として持っておき、その文字列を含むアンカー文字列の系列はサイト内キーワードとして登録しない方法などもある。また、遡る文書数が一定以上に長くなったアンカー文字列の系列をサイト内キーワードとして登録しない方法や、遡る文書数が少ない上位s通りのアンカー文字列の系列のみをサイト内キーワードとして登録する方法などがあり、本実施の形態で述べた方法に限定されない。
【0049】
また、本実施の形態では、文書キーワード決定手段14はアンカー文字列を基にキーワードを決定しているが、アンカー文字列に加えて文書のタイトル、アンカー文字列周辺の一定長の文字列、アンカー文字列周辺のテーブルタグに囲まれた文字列、アンカー文字列周辺のリストタグに囲まれた文字列、アンカー文字列周辺の<BR>または<P>タグで囲まれた文字列、文書中の<H>タグやフォントサイズや色が強調された文字列も含めてキーワードとする方法もあり、本実施の形態で述べた方法に限定されない。
【0050】
また、本実施の形態では、文書キーワード記憶部22にサイト外キーワードとサイト内キーワードのみ記憶しているが、さらに文書のタイトル、本文テキストなどをキーワードとして記憶してもよく、本実施の形態で述べた方法に限定されない。また、本実施の形態では、トップページを特定するステップS2の後に文書クラスタを特定するステップS3を実行するとして動作を説明したが、先に文書クラスタを特定するステップS3を実行した後に、トップページを特定するステップS2を実行する方法もあり、本実施の形態で述べた方法に限定されない。
【0051】
また、本実施の形態では、サイト外キーワードを決定するステップS4の後にサイト内キーワードを決定するステップS5を実行するとして動作を説明したが、先にサイト内キーワードを決定するステップS5を実行した後に、サイト外キーワードを決定するステップS4を実行する方法もあり、本実施の形態で述べた方法に限定されない。
【0052】
次に、本発明の第1の実施の形態の効果について説明する。本実施の形態では、サイト全体の内容を表すサイト外からのリンクと、サイト内での文書の位置付けを表すサイト内のリンクをそれぞれ遡って得られるアンカー文字列の系列を、文書クラスタと文書との関係を特徴付ける単語群として抽出する。そのため、各文書について、サイト全体の内容とサイト内での文書の位置付けを反映したキーワードを得ることができる。
【0053】
[第2の実施の形態]
次に、本発明の第2の実施の形態について図面を参照して説明する。図7は本発明の第2の実施の形態のブロック図を示す。同図に示すように、本発明のキーワード設定装置、文書検索装置及び文書分類装置の第2の実施の形態は、プログラム制御により動作するデータ処理装置5と、情報を記憶する記憶装置6と、入力手段3と出力手段4を含む構成である。同図中、図1と同一構成部分には同一符号を付し、その説明を省略する。
【0054】
本発明の第2の実施の形態は、データ処理装置5が、図1に示された第1の実施の形態におけるデータ処理装置1の構成に加え、インデックス作成手段15とインデックス検索手段16を有する点で異なる。また、記憶装置6が、図1に示された第1の実施の形態における記憶装置2の構成に加え、第1のインデックス記憶部23を有する点で異なる。さらに、図1に示された第1の実施の形態に加え、キーボード等の入力手段3とディスプレイ装置や印刷装置等の出力手段4を有する点で異なる。
【0055】
図7において、記憶装置6内の第1のインデックス記憶部23は、文書キーワード記憶部22のデータをもとにインデックス作成手段15が生成するインデックスを格納する。データ処理装置5内のインデックス作成手段15は、文書キーワード記憶部22に記憶されている各文書のサイト外キーワードとサイト内キーワードを読み出し、どのキーワードがどの文書のサイト外キーワードまたはサイト内キーワードに出現するかをインデックスとして作成し、第1のインデックス記憶部23に格納する。データ処理装置5内のインデックス検索手段16は、入力手段3から入力された検索条件に応じて、第1のインデックス記憶部23を検索しその結果を出力手段4に出力する。
【0056】
次に、第2の実施の形態の動作を、図面を参照して詳細に説明する。本実施の形態では、図8(A)に示すフローチャートによる登録処理と、図8(B)に示すフローチャートによる検索処理という動作のタイミングが異なる2種類の処理がある。検索処理は利用者からの入力がある度に行われるのに対し、登録処理は予め1回だけ行っておけばよい。
【0057】
まず、第2の実施の形態の登録処理について図8(A)のフローチャートと共に説明する。図8(A)中、図6と同一処理ステップには同一符号を付してある。すなわち、図8(A)に示す登録処理のフローチャート中、ステップS1〜S5で示される本実施の形態におけるハイパーテキストアクセス手段11、文書クラスタ情報取得手段12、対象指定手段13、文書キーワード決定手段14の動作は、第1の実施の形態の各手段11、12、13および14の動作と同一のため、説明は省略する。
【0058】
第1の実施の形態では、ステップS5でサイト内キーワードを決定した段階で処理を終了していた。本実施の形態では、ステップS5の結果生成された文書キーワードを基に、インデックス作成手段15がサイト外キーワードについて、どの語がどの文書に登録されているかという索引を作成する(ステップS6)。続いて、インデックス作成手段15は、サイト内キーワードについて、どの語がどの文書に登録されているかという索引を作成する(ステップS7)。これにより、登録処理を終了する。
【0059】
次に、検索処理について図8(B)のフローチャートと共に説明する。まず、入力手段3から検索条件が入力される(ステップT1)。検索条件として入力されるものとしては、キーワードの他にも、自然言語による質問文や、検索目的とする文書に類似した別の文書などがある。
【0060】
次に、インデックス検索手段16は、入力された検索条件から検索に使うキーワードn語を決定する(ステップT2)。キーワードの決定の方法には、文の分割とキーワード選定の二つの処理が含まれる。例えば、文の分割には形態素解析を用い、キーワードの選定では「の」などの付属語を除外した残りの語をキーワードとして使うなどの方法がある。
【0061】
次に、インデックス検索手段16は、n語に分割したキーワードのうち、サイト外キーワードに現れる語がないか調べる。現れていれば、そのキーワードm語(1≦m≦n−1)とその出現頻度、及びキーワードが現れた文書を検索結果候補として記憶しておく(ステップT3)。
【0062】
次に、インデックス検索手段16は、検索結果候補となった文書のうち、サイト内キーワードに、残りのn−m語が現れている文書と、キーワードの出現頻度を検索結果リストに追加登録し(ステップT4)、その検索結果リストをキーワードの出現頻度でソートし、出力手段4を使って利用者に検索結果を表示する(ステップT5)。
【0063】
なお、本発明は第2の実施の形態に限定されるものではなく、以下の種々の変形例も含むものである。すなわち、第2の実施の形態では、文書キーワード記憶部22にはサイト外キーワードとサイト内キーワードだけを記憶しているが、その他にサイトタイトルやサイト本文をキーワードとして記憶し、検索キーワード分割後に検索対象とする方法でもよい。また、本実施の形態では、検索結果リストをキーワードの出現頻度でソートしているが、サイト外キーワードでの出現頻度とサイト内キーワードでの出現頻度にそれぞれ異なる重みを掛けて、その結果でソートする方法を採用してもよい。
【0064】
また、本実施の形態では、検索方式/検索モデルをキーワードマッチによるものを想定しているが、検索方式/検索モデルとしては、ベクトル空間モデル、確率モデル、ANDやOR演算を行うブーリアンモデルなどの方法でもよい。
【0065】
また、本実施の形態では、サイト外キーワードの索引を作成するステップS6の後にサイト内キーワードの索引を作成するステップS7を実行しているが、サイト内キーワードの索引を作成するステップS7の後にサイト外キーワードの索引を作成するステップS6を実行してもよい。
【0066】
また、本実施の形態では、サイト外キーワードを決定するステップS4とサイト内キーワードを決定するステップS5の後にそれぞれサイト外キーワードの索引を作成するステップS6とサイト内キーワードの索引を作成するステップS7を実行しているが、サイト外キーワードを決定するステップS4の後にサイト外キーワードの索引を作成するステップS6を実行し、サイト内キーワードを決定するステップS5の後にサイト内キーワードの索引を作成するステップS7を実行してもよい。
【0067】
また、本実施の形態では、検索キーワードを決定するステップT2で、形態素解析を用いて文を分割する方法について述べたが、他にも漢字・英数字・カタカナ・ひらがななどの字種で分割する、一定文字数で分割する、スペースや句読点で分割する、「の」などの付属語で分割するなどの方法もあり、本実施の形態で述べた方法に限定されない。
【0068】
また、本実施の形態では、検索キーワードを決定するステップT2における、キーワード選定で「の」などの付属語を除外する方法について述べたが、他にも「情報」、「方法」など一般的な文書での出現頻度が高い語を不要語として除外するか、検索にヒットしても低いスコアの加算にとどめておき、逆に、一般的な文書における出現頻度に比較して質問文内での出現頻度が高い語を重要語として検索にヒットした場合にスコアを高いスコアを加算するなどの方法があり、本実施の形態で述べた方法に限定されない。
【0069】
また、本実施の形態では、サイト外キーワードを検索するステップT3で、キーワードが1語以上現れた場合に、その文書を検索結果候補として記憶する方法について述べたが、すべての文書ですべてのキーワードがヒットしなかった場合に、すべての文書を検索結果候補としてサイト内キーワードを検索するステップT4を実行する方法もある。また、サイト外キーワード、サイト内キーワードのどちらか一方でもヒットすれば検索結果リストに含めておき、検索結果を出力するステップT5で、サイト外、サイト内のいずれでヒットしたかによって文書のスコアの重みを変えてソートする方法もある。
【0070】
次に、第2の実施の形態の効果について説明する。本実施の形態では、サイト全体の内容を表すサイト外からのリンクと、サイト内での文書の位置付けを表すサイト内のリンクをそれぞれ遡って得られるアンカー文字列の系列を、文書クラスタと文書との関係を特徴付ける単語群として抽出し、インデックスを作成している。これにより、サイト全体の内容とサイト内での文書の位置付けを反映した検索を行うことができる。
【0071】
また、本実施の形態では、キーワードがスペースで分割されたり、「の」で接続されたり、複合語として検索条件に入力された場合に、そのキーワードを分割し、サイト全体の内容を表すサイト外からのリンクと、サイト内での文書の位置付けを表すサイト内のリンクをそれぞれ遡って得られるアンカー文字列の系列をそれぞれ検索している。これにより、サイト構造を反映した効果的な絞込み検索を行うことができる。
【0072】
[第3の実施の形態]
次に、本発明の第3の実施の形態について図面を参照して詳細に説明する。図9は本発明の第3の実施の形態のブロック図を示す。同図に示すように、本発明のキーワード設定装置、文書検索装置及び文書分類装置の第3の実施の形態は、プログラム制御により動作するデータ処理装置7と、情報を記憶する記憶装置8とを含む構成である。同図中、図1と同一構成部分には同一符号を付し、その説明を省略する。
【0073】
本発明の第3の実施の形態は、図9に示すように、データ処理装置7が、図1に示された第1の実施の形態におけるデータ処理装置1の構成に加え、文書ベクトル作成手段17と、類似度計算手段18を有する点で異なる。また、記憶装置8が、図1に示された第1に示された第1の実施の形態における記憶装置2の構成に加え、文書ベクトル記憶部24、カテゴリ条件記憶部25、および分類結果記憶部26を有する点で異なる。
【0074】
文書ベクトル記憶部24には、文書キーワード記憶部22に格納されているキーワードを基に文書ベクトル作成手段17によって作成された、各文書の特徴ベクトルが記憶されている。文書の特徴ベクトルとは、例えば文書中に出現する各キーワードとその出現頻度を多次元ベクトルとして表現したものである。
【0075】
複数の文書について、それぞれ特徴ベクトルを決定しておけば、特徴ベクトル間のユークリッド距離や、特徴ベクトルがなす角度などから、文書間の類似度を計算することができる。また、あるカテゴリに属する複数の文書の特徴ベクトルの総和や重心を、そのカテゴリの特徴ベクトルと考え、カテゴリの特徴ベクトルと未分類の文書の特徴ベクトルの類似度を計算することによって、その文書がどのカテゴリに属するかを決定することもできる。
【0076】
カテゴリ条件記憶部25には、分類したいカテゴリについて、それぞれ特徴的なキーワードとその出現頻度が特徴ベクトルとして記憶されている。分類結果記憶部26には、類似度計算手段18によって文書ベクトルと各カテゴリの特徴ベクトルの余弦を計算した結果が記憶されている。この結果は、値が大きいほど文書がそのカテゴリに属すると判断できる。
【0077】
文書ベクトル作成手段17は、文書キーワード記憶部22に記憶されている文書キーワードを基に、各文書について、どのキーワードがどの部分(サイト外キーワードか、サイト内キーワードか、タイトルか、本文か等)に何回出現したかを文書ベクトルとして文書ベクトル記憶部24に記憶させる。
【0078】
類似度計算手段18は、文書ベクトル記憶部24に格納されている各文書の文書ベクトルについて、カテゴリ条件記憶部25に格納されている各カテゴリの特徴ベクトルとの余弦を計算し、その結果を分類結果記憶部26に格納する。
【0079】
次に、本実施の形態の動作を、図10のフローチャート共に詳細に説明する。図10中、図6と同一処理ステップには同一符号を付し、その説明を省略する。すなわち、図10のステップS1〜S5で示される本実施の形態におけるハイパーテキストアクセス手段11、文書クラスタ情報取得手段12、対象指定手段13、文書キーワード決定手段14の動作は、第1の実施の形態の各手段11、12、13及び14の動作と同一のため、説明は省略する。
【0080】
第1の実施の形態では、ステップS5でサイト内キーワードを決定した段階で処理を終了していた。本実施の形態では、ステップS5の結果生成された文書キーワードを基に、文書ベクトル作成手段17が、各文書について、どのキーワードがどの部分(サイト外キーワードか、サイト内キーワードか、タイトルか、本文か等)に何回出現したかを文書ベクトルとして文書ベクトル記憶部24に記憶させる(ステップS8)。
【0081】
次に、類似度計算手段18が文書ベクトル記憶部24に格納されている各文書の文書ベクトルについて、カテゴリ条件記憶部25に格納されている各カテゴリの特徴ベクトルとの余弦を計算し、その結果を分類結果記憶部26に格納する(ステップS9)。
【0082】
なお、本実施の形態では、文書ベクトルとしてキーワードと、その出現部分(サイト外キーワードか、サイト内キーワードか、タイトルか、本文か等)、および出現頻度を使ったが、特に出現部分の区別をしない方法や、出現部分によって出現頻度に重み付けを行う方法、あるいは出現頻度ではなく出現したか否かのみの情報を使う方法などを採用してもよい。
【0083】
また、本実施の形態では、文書の類似度計算としてベクトルの余弦をとっているが、類似度計算としてベクトル間のユークリッド距離を用いる方法でもよい。また、本実施の形態では、カテゴリ条件として各カテゴリの特徴ベクトルを指定している。しかし、カテゴリの特徴ベクトルを指定する代わりに、実際にカテゴリに含まれる文書を指定して教師データとし、SVMなどの機械学習を用いて学習した結果生成される学習モデルをカテゴリ条件として使い、類似度計算手段18でこの学習モデルを使って未学習の文書を分類する方法でもよい。SVMを用いた文書分類についての詳細は1988年、プロシーディングズ・オブ・テンス・ヨーロピアン・カンファレンス・オン・マシン・ラーニング、137〜142頁(Proceedings of 10th European Conference on Machine Learning, pp.137-I42, 1998)などに記載されている。
【0084】
次に、第3の実施の形態の効果について説明する。本実施の形態では、サイト全体の内容を表すサイト外からのリンクと、サイト内での文書の位置付けを表すサイト内のリンクをそれぞれ遡って得られるアンカー文字列の系列を、文書クラスタと文事との関係を特徴付ける単語群として抽出し、文書ベクトルを作成している。これにより、サイト全体の内容とサイト内での文書の位置付けを反映した分類を行うことができる。
【0085】
[第4の実施の形態]
次に、本発明の第4の実施の形態について図面を参照して詳細に説明する。図11は本発明の第4の実施の形態のブロック図を示す。同図に示すように、本発明のキーワード設定装置、文書検索装置及び文書分類装置の第4の実施の形態は、プログラム制御により動作するデータ処理装置9と、情報を記憶する記憶装置11と、入力手段3と出力手段4を含む構成である。同図中、図1と同一構成部分には同一符号を付し、その説明を省略する。
【0086】
図11に示すように、本発明の第4の実施の形態は、データ処理装置9が、図7に示された第2の実施の形態におけるデータ処理装置5の構成から、ハイパーテキストアクセス手段11、文書クラスタ情報取得手段12、対象指定手段13、文書キーワード決定手段14、インデックス作成手段15を除いている点で異なる。また、記憶装置10が、図7に示された第2の実施の形態における記憶装置6の構成から、ハイパーテキストデータベース21、文書キーワード記憶部22を除き、新たに第2のインデックス記憶部27を有する点で異なる。
【0087】
第1のインデックス記憶部23には、文書の内容を表すメタ情報としてサイト外キーワードとサイト内キーワードの索引が記憶されている。また、第2のインデックス記憶部27には、文書の本文中に出現したキーワードの索引が記憶されている。
【0088】
次に、本実施の形態の動作を図12のフローチャートを参照して詳細に説明する。なお、図12中、図8(B)と同一処理ステップには同一符号を付し、その説明を省略する。図12のステップTl、T2及びステップT5で示される本実施の形態におけるインデックス検索手段16の動作は、第2の実施の形態におけるインデックス検索手段16の動作と同一のため、説明は省略する。
【0089】
第2の実施の形態では、キーワードを決定するステップT2の後、インデックス検索手段16はサイト外キーワードとサイト内キーワードをそれぞれ検索していた。本実施の形態では、インデックス検索手段16はサイト外キーワードとサイト内キーワードの索引である第1のインデックスを検索し、文書の本文中に出現したキーワードの索引である第2のインデックスをそれぞれ検索する。
【0090】
まず、インデックス検索手段16は、ステップT2でn語に決定したキーワードのうち、第1のインデックス記憶部23に登録された語(第1のインデックス)がないか検索する。登録されていれば、そのキーワードm語(1≦m≦n−1)と、その出現頻度およびキーワードが現れた文書を検索結果候補として記憶しておく(ステップU3)。
【0091】
次に、インデックス検索手段16は、検索結果候補となった各文書の残りのn−m語のうち、第2のインデックス記憶部27に登録された語(第2のインデックス)がないか検索し、登録されていれば、その登録されている文書と、キーワードの出現頻度を検索結果リストに追加登録する(ステップU4)。その後、インデックス検索手段16は、上記の検索結果リストをキーワードの出現頻度でソートし、出力手段4を使って利用者に検索結果を表示する(ステップT5)。
【0092】
なお、本発明はこの実施の形態に限定されるものではなく、以下の種々の変形例が可能である。すなわち、第4の実施の形態では、検索結果リストをキーワードの出現頻度でソートしているが、第1のインデックスでの出現頻度と第2のインデックスでの出現頻度にそれぞれ異なる重みを掛けて総和をとり、その結果でソートしてもよい。また、本実施の形態では、第1のインデックス記憶部23には、ハイパーテキストから抽出されたサイト外キーワードとサイト内キーワードが登録されているとしたが、文書の内容を表すメタ情報中に出現するキーワードであってもよい。例えば、検索対象が学術論文である場合、引用元論文内での紹介文がこのメタ情報にあたる。また、検索対象が書籍である場合、書誌事項や書籍の紹介記事などがこのメタ情報にあたる。
【0093】
また、本実施の形態では、検索結果リストをキーワードの出現頻度でソートしているが、第1のインデックスでの出現頻度と第2のインデックスでの出現頻度にそれぞれ異なる重みを掛けて、その結果でソートするようにしてもよい。また、本実施の形態では、第1のインデックスを検索するステップU3で、キーワードが1語以上現れた場合に、その文書を検索結果候補として記憶する方法について述べたが、すべての文書ですべてのキーワードがヒットしなかった場合に、すべての文書を検索結果候補として第2のインデックスを検索するステップU4を実行する方法もある。
【0094】
また、第1のインデックス、第2のインデックスのどちらか一方でもヒットすれば検索結果リストに含めておき、検索結果を出力するステップT5で、第1のインデックスと第2のインデックスのいずれでヒットしたかによって、文書スコアの重みを変えてソートする方法もあり、本実施の形態で述べた方法に限定されない。
【0095】
次に、本実施の形態の効果について説明する。本実地の形態では、文書の内容を表すメタ情報に含まれるキーワードから第1のインデックスを作成し、これを優先して検索している。これにより、文書の内容を反映した検索を行うことができる。
【0096】
また、本実施の形態では、キーワードがスペースで分割されたり、「の」で接続されたり、複合語として検索条件に入力された場合に、そのキーワードを分割し、第1のインデックスと第2のインデックスをそれぞれ検索している。これにより、文書の内容を反映した効果的な絞り込み検索を行うことができる。
【0097】
[第5の実施の形態]
次に本発明の第5の実施の形態について図画を参照して詳細に説明する。図13は、本発明の第5の実施の形態のブロック図を示す。同図に示すように、本発明のキーワード設定装置の第5の実施の形態は、入力装置31、データ処理装置32、出力装置33、記憶装置34を備え、さらに、前述の第1の実施の形態のキーワード設定装置を実現するためのプログラムを記録した記録媒体30を備える。この記録媒体30は、磁気ディスク、半導体メモリ、CD−ROMその他の記録媒体のいずれでもよい。
【0098】
入力装置31は、マウス、キーボード等、操作者からの指示を入力するための装置である。また、出力装置33は、データ処理装置32による処理結果を出力する装置で、例えば表示装置、プリンタ等である。キーワード設定装置を実現するためのプログラムは、記録媒体30からデータ処理装置32に読み込まれ、データ処理装置32の動作を制御し、記憶装置34に入力メモリ35とワークメモリ36を生成する。データ処理装置32は、キーワード設定装置を実現するためのプログラムの制御により第1の実施の形態と同一の処理を実行する。
【0099】
図1におけるデータ処理装置1と図13におけるデータ処理装置32が対応し、図1における記憶装置2と図13における記憶装置34が対応する。ただし、処理対象となるハイパーテキストデータベース21は、記録媒体30から読み込む形態の他に、データ処理装置32によって外部にあるデータベースにネットワーク(例えばインターネット)を介してアクセスして取得する形態であってもよい。
【0100】
[第6の実施の形態]
次に、本発明の第6の実施の形態について図面を参照して詳細に説明する。第6の実施の形態は、第5の実施の形態と同様に、図13の構成を用いる。文書検索装置を実現するためのプログラムが、記録媒体30からデータ処理装置32に読み込まれ、データ処理装置32の動作を制御する。データ処理装置32は、文書検索装置を実現するためのプログラムの制御により第2の実施の形態と同一の処理を実行する。
【0101】
図7におけるデータ処理装置5と図13におけるデータ処理装置32が対応し、図7における記憶装置6と図13における記憶装置34が対応する。ただし、処理対象となるハイパーテキストデータベース21は、記録媒体30から読み込む形態の他に、データ処理装置32によって外部にあるデータベースにネットワーク(例えばインターネット)を介してアクセスして取得する形態であってもよい。
【0102】
なお、ここでは、図7におけるハイパーテキストアクセス手段11、文書クラスタ情報取得手段12、対象指定手段13、文書キーワード決定手段14、インデックス作成手段15、インデックス検索手段16のすべてが1つの記録媒体30からデータ処理装置32によって読み込まれる形態で説明したが、複数の記録媒体に分割して記録されていてもよい。例えば、ハイパーテキストアクセス手段11、文書クラスタ情報取得手段12、対象指定手段13、文書キーワード決定手段14のプログラムは、第5の実施の形態の記録媒体から読み込むようにし、それ以外のインデックス作成手段15とインデックス検索手段16のプログラムは別の記録媒体としてもよい。さらには、インデックス作成手段15のプログラムとインデックス検索手段16のプログラムが別の記録媒体に分けて構成されていてもよい。
【0103】
[第7の実施の形態]
次に本発明の第7の実施の形態について図面を参照して詳細に説明する。第7の実施の形態は、第5、第6の実施の形態と同様に、図13の構成を用いる。文書分類装置を実現するためのプログラムが記録媒体30からデータ処理装置32に読み込まれ、データ処理装置32の動作を制御する。データ処理装置32は、文書分類装置を実現するためのプログラムの制御により第3の実施の形態と同一の処理を実行する。
【0104】
図9におけるデータ処理装置7と図13におけるデータ処理装置32が対応し、図9における記憶装置8と図13における記憶装置34が対応する。ただし、処理対象となるハイパーテキストデータベース21は、記録媒体30から読み込む形態の他に、データ処理装置32によって外部にあるデータベースにネットワーク(例えばインターネット)を介してアクセスして取得する形態であってもよい。
【0105】
なお、ここでは、図9におけるハイパーテキストアクセス手段11、文書クラスタ情報取得手段12、対象指定手段13、文書キーワード決定手段14、文書ベクトル作成手段17、類似度計算手段18のすべてが1つの記録媒体30からデータ処理装置32に読み込まれる形態で説明したが、複数の記録媒体に分割して記録されていてもよい。
【0106】
例えば、ハイパーテキストアクセス手段11、文書クラスタ情報取得手段12、対象指定手段13、文書キーワード決定手段14のプログラムは、第5の実施の形態の記録媒体から読み込むようにし、それ以外の文書ベクトル作成手段17と類似度計算手段18のプログラムは別の記録媒体として構成されていてもよい。さらには、文書ベクトル作成手段17のプログラムと類似度計算手段18のプログラムが別の記録媒体に分けて構成されていてもよい。
【0107】
[第8の実施の形態]
次に、本発明の第8の実施の形態について図面を参照して詳細に説明する。第8の実施の形態は、第5、第6、第7の実施の形態と同様に、図13の構成を用いる。文書検索装置を実現するためのプログラムが、記録媒体30からデータ処理装置32に読み込まれ、データ処理装置32の動作を制御する。データ処理装置32は、文書検索装置を実現するためのプログラムの制御により第4の実施の形態と同一の処理を実行する。図11におけるデータ処理装置9と図13におけるデータ処理装置32が対応し、図11における記録装置10と図13における記録装置34が対応する。
【0108】
【実施例】
[第1の実施例]
次に、本発明の第1の実施例を、図面を参照して説明する。この第1の実施例は本発明の第1の実施の形態に対応するものである。本実施例は、図1に示したデータ処理装置1としてパーソナルコンピュータを、記憶装置2として磁気ディスク記憶装置を備えている。
【0109】
パーソナルコンピュータは、図1に示したハイパーテキストアクセス手段11、文書クラスタ情報取得手段12、対象指定手段13、文書キーワード決定手段14として機能する中央演算装置を有している。また、磁気ディスク記憶装置には、図1に示したハイパーテキストデータベース21、文書キーワード記憶部22が記憶されている。ハイパーテキストデータベース21に格納されているハイパーテキスト群の一例を図14に示す。
【0110】
まず、ハイパーテキストアクセス手段11はハイパーテキストデータベース21に格納されている各文書を読み出し、文書クラスタ情報取得手段12に渡す。文書クラスタ情報取得手段12は、与えられた文書からリンク情報を抽出し、図15に示すような、アンカー文字列とリンク元文書とリンク先文書とが対応付けられた文書参照関係表を生成する。
【0111】
次に、文書クラスタ情報取得手段12は、対象指定手段13に指定された「サイトのトップページの条件」と「同一サイトに含まれる文書の条件」に基づき、図16に示すような、文書クラスタとトップページとクラスタ内文書とが対応付けられた文書クラスタ表を生成する。なお、本実施例では、「サイトのトップページの条件」として「文書のURLが『http://ドメイン名/』、または『http://ドメイン名/index.html』であるもの」とし、「同一サイトに含まれる文書の条件」として、「ドメイン名が同じ」としている。
【0112】
次に、文書キーワード決定手段14は、文書クラスタ情報取得手段12が生成した文書参照関係表と文書クラスタ表を参照して、各サイトのトップページに対してサイト外からはられているリンクのアンカー文字列をサイト外キーワードとし、各クラスク内文書について、同一クラスタ内文書のリンクを遡って得られるアンカー文字列の系列をサイト内キーワードとして文書キーワード記憶部22に記憶させる。得られる文書キーワードの例を図17に示す。
【0113】
なお、本実施例では、同一サイトに含まれている文書のサイト外キーワードは、そのサイトのトップページのサイト外キーワードと同じにする。したがって、図14の文書112〜文書119のサイト外キーワードは、文書111のサイト外キーワードと同一の「グルメ情報,レストラン検索」となる。
【0114】
また、リンクを遡る際に、一度遡った文書を覚えておき、ループして遡らないようにする。例えば、図14の文書116に対するリンクを単純に遡ると「東京都←関東」というアンカー文字列の系列のほかに、「東京都←関東←戻る←東京都←関東」、「東京都←関東←戻る←東京都←関東←戻る←東京都・・・」のようにループによって無数のアンカー文字列が生成されてしまう。そこで、一度遡った文書を同じアンカー文字列の系列内で二度遡らないようにする。したがって、文書116のサイト内キーワードは「戻る」を含まないことになる。
【0115】
また、本実施例では、トップページでないページへのサイト外からのリンクを一つだけ遡ってサイト内キーワードに含めるようにしている。したがって、文書116のサイト内キーワードには「東京都←関東」と「東京のお勧め店」の2種類になる。図14の文書119についても同様の方法で登録するが、別のアンカー文字列の系列で同じ文書を遡る場合は、それぞれ別のキーワードとしで登録する。
【0116】
すなわち、「中華←東京都←関東」と「中華←大阪府←関西」はどちらも文書111に遡るアンカー文字列の系列であるが、別の系列であるため両方をサイト内キーワードとしで記憶する。ここでも、「中華←東京都←関東←戻る←東京都←関東」というアンカー文字列の系列などが考えられるが、これは同一系列内で文書113と文書116をそれぞれ2回遡っているためサイト内キーワードとしては記憶しない。また、トップページでないページへのサイト外からのリンクを一つだけ遡ってサイト内キーワードに含めるようにしているため、「中華←東京のお勧め店」も文書119のサイト内キーワードとして記憶される。
【0117】
[第2の実施例]
次に、本発明の第2の実施例を、図面を参照して説明する。この第2の実施例は本発明の第2の実施の形態に対応するものである。本実施例は図7に示した第2の実施の形態におけるデータ処理装置5としてパーソナルコンピュータを、記憶装置6として磁気ディスク記憶装置を備えている。
【0118】
上記のパーソナルコンピュータの中央演算装置は、第1の実施例と同様の機能を有するが、これに加えて図7に示したインデックス作成手段15、インデックス検索手段16としても機能する点で第1の実施例と異なる。また、入力装置としてキーボードを、出力装置としてディスプレイを備える点で第1の実施例と異なる。また、磁気ディスク記憶装置には、図7に示した第1のインデックス記憶部23も記憶される点で第1の実施例と異なる。本実施例のハイパーテキストデータベース21に格納されているハイパーテキスト群の一例を図14に示す。
【0119】
本実施例では、登録と検索という動作のタイミングが異なる2種類の処理がある。検索は利用者からの入力がある度に行われるのに対し、登録は予め1回だけ行っておけばよい。登録処理では、まず、ハイパーテキストアクセス手段11はハイパーテキストデータベース21に格納されている各文書を読み出し、文書クラスタ情報取得手段12に渡す。文書クラスタ情報取得手段12は、与えられた文書からリンク情報を抽出し、図15に示すような文書参照関係表を生成する。
【0120】
次に、文書クラスタ情報取得手段12は、対象指定手段13に指定された「サイトのトップページの条件」と「同一サイトに含まれる文書の条件」に基づき、図16に示すような文書クラスタ表を生成する。なお、本実施例では、「サイトのトップページの条件」として「文書のURLが『http://ドメイン名/』、または『http://ドメイン名/index.html』であるもの」とし、「同一サイトに含まれる文書の条件」としている。
【0121】
次に、文書キーワード決定手段14は、文書クラスタ情報取得手段12が生成した文書参照関係表と文書クラスタ表を参照して、各サイトのトップページに対してサイト外からはられているリンクのアンカー文字列をサイト外キーワードとし、各クラスタ内文書について、同一クラスタ内文書のリンクを遡って得られるアンカー文字列の系列をサイト内キーワードとして文書キーワード記憶部22に記憶させる。得られる文書キーワードの例を図17に示す。
【0122】
なお、本実施例では、同一サイトに含まれている文書のサイト外キーワードは、そのサイトのトップページのサイト外キーワードと同じにする。したがって、図14の文書112〜文書119のサイト外キーワードは文書111のサイト外キーワードと同一の「グルメ情報,レストラン検索」となる。
【0123】
また、リンクを遡る際に、一度遡った文書を覚えておき、ループして遡らないようにする。例えば、図14の文書116に対するリンクを単純に遡ると「東京都←関東」というアンカー文字列の系列のほかに、「東京都←関東←戻る←東京都←関東」、「東京都←関東←戻る←東京都・・・」のようにループによって無数のアンカー文字列が生成されてしまう。そこで、一度遡った文書を同じアンカー文字列の系列内で二度遡らないようにする。したがって、文書116のサイト内キーワードは「戻る」を含まないことになる。
【0124】
また、本実施例では、トップページでないページへのサイト外からのリンクを一つだけ遡ってサイト内キーワードに含めるようにしている。したがって、文書116のサイト内キーワードには「東京都←関東」と「東京のお勧め店」の2種類になる。図14の文書119についても同様の方法で登録するが別のアンカー文字列の系列で同じ文書を遡る場合は、それぞれ別のキーワードとして登録する。
【0125】
すなわち、「中華←東京都←関東」と「中華←大阪府←関西」はどちらも文書111に遡るアンカー文字列の系列であるが、別の系列であるため両方をサイト内キーワードとして記憶する。ここでも、「中華←東京都←関東←戻る←東京都←関東」というアンカー文字列の系列などが考えられるが、これは同一系列内で文書113と文書116をそれぞれ2回遡っているためサイト内キーワードとしては記憶しない。また、トップページでないページへのサイト外からのリンクを一つだけ遡ってサイト内キーワードに含めるようにしているため、「中華←東京のお勧め店」も文書119のサイト内キーワードとして記憶される。
【0126】
次に、インデックス作成手段15は、サイト外キーワードについて、どの語がどの文書に登録されているかという索引を作成し、続いて、サイト内キーワードについて、どの語がどの文書に登録されているかという索引を作成する。
【0127】
次に、検索処理の詳細な説明を行う。今、キーボードから「奈良 グルメ」という検索条件が入力されたとする。すると、インデックス検索手段16は、検索条件を、スペースや「の」で区切り、あるいは形態素解析を行うことによって、「奈良」と「グルメ」の2つのキーワードに分割する。
【0128】
次に、インデックス検索手段16は、「奈良」、「グルメ」のうち、サイト外キーワードに現れる語がないか調べる。現れていれば、そのキーワードとその出現頻度およびキーワードが現れた文書を検索結果候補として記憶しておく。文書キーワードが図17の場合、「グルメ」が文書111〜119のサイト外キーワードにそれぞれ1回ずつ現れているので、検索結果候補とする。
【0129】
次に、インデックス検索手段16は、検索結果候補となった文書のうち、サイト内キーワードに、残りの「奈良」が現れている文書と、キーワードの出現頻度を検索結果リストに追加登録する。文書キーワードが図17の場合、検索結果候補となった文書111〜119のうち、サイト内キーワードに「奈良」が出現しているのは文書114、文書117、文書118である。キーワード「奈良」の出現頻度はいずれも1回である。最後に、インデックス検索手段16は、検索結果リストをキーワードの出現頻度でソートし、ディスプレイを使って利用者に検索結果を表示する。
【0130】
なお、本実施例では、文書114、文書117、文書118でのキーワードの出現頻度はいずれも1回であるが、出現位置(サイト外キーワードか、サイト内キーワードか、サイト内キーワード中、でも最初の方か、本文か)に応じて出現頻度に重みをつけたスコアを用いて検索結果をソートしてもよい。
【0131】
また、キーボードから「奈良グルメ検索」という検索条件が入力されたとする。すると、インデックス検索手段16は、検索条件をスペースや「の」で区切り、あるいは形態素解析を行うことによって、「奈良」、「グルメ」、「検索」に分割する。
【0132】
次に、インデックス検索手段16は、「奈良」、「グルメ」、「検索」のうち、サイト外キーワードに現れる語がないか調べる。現れていれば、そのキーワードとその出現頻度およびキーワードが現れた文書を検索結果候補として記憶しておく。文書キーワードが図17の場合、「グルメ」、「検索」が文書111〜文書119のサイト外キーワードにそれぞれ1回ずつ現れているので、検索結果候補とする。
【0133】
次に、インデックス検索手段16は、検索結果候補となった文書のうち、サイト内キーワードに、残りの「奈良」が現れている文書と、キーワードの出現頻度を検索結果リストに追加登録する。文書キーワードが図17の場合、検索結果候補となった文書111〜文書119のうち、サイト内キーワードに「奈良」が出現しているのは文書114、文書117、文書118である。キーワード「奈良」の出現頻度はいずれも1回である。最後に、インデックス検索手段16は、検索結果リストをキーワードの出現頻度でソートし、ディスプレイを使って利用者に検索結果を表示する。
【0134】
なお、本実施例では、文書114、文書117、文書118でのキーワードの出現頻度はいずれも1回であるが、出現位置(サイト外キーワードか、サイト内キーワードか、サイト内キーワード中でも最初の方か、本文か)に応じて出現頻度に重みをつけたスコアを用いて検索結果をソートしてもよい。
【0135】
また、キーボードから「奈良 中華」という検索条件が入力されたとする。次に、インデックス検索手段16は、検索条件をスペースや「の」で区切り、あるいは形態素解析を行うことによって、「奈良」、「中華」に分割する。
【0136】
次に、インデックス検索手段16は、「奈良」、「中華」のうち、サイト外キーワードに現れる語がないか調べる。現れていれば、そのキーワードとその出現頻度およびキーワードが現れた文書を検索結果候補として記憶しておく。文書キーワードが図17の場合、「奈良」も「中華」もサイト外キーワードとして現れていない。
【0137】
次に、インデックス検索手段16は、すべての文書のうち、サイト内キーワードに、「奈良」と「中華」が現れている文書と、キーワードの出現頻度を検索結果リストに追加登録する。文書キーワードが図17の場合、文書117に「奈良」と「中華」がそれぞれ1回ずつ出現しているため、文書117が検索結果リストに登録される。最後に、インデックス検索手段16は、検索結果リストをキーワードの出現頻度でソートし、ディスプレイを使って利用者に検索結果を表示する。
【0138】
また、キーボードから「中華レストラン」という検索条件が入力されたとする。すると、インデックス検索手段は、検索条件をスペースや「の」で区切り、あるいは形態素解析を行うことによって、「中華」、「レストラン」に分割する。
【0139】
次に、インデックス検索手段16は、「中華」、「レストラン」のうち、サイト外キーワードに現れる語がないか調べる。現れていれば、そのキーワードとその出現頻度およびキーワードが現れた文書を検索結果候補として記憶しておく。文書キーワードが図17の場合、「レストラン」が文書111〜文書119のサイト外キーワードにそれぞれ1回ずつ現れているので、検索結果候補とする。
【0140】
次に、インデックス検索手段16は、検索結果候補となった文書のうち、サイト内キーワードに、残りの「中華」が現れている文書と、キーワードの出現頻度を検索結果リストに追加登録する。文書キーワードが図17の場合、検索結果候補となった文書111〜文書119のうち、サイト内キーワードに「中華」が出現しているのは文書117と文書119であり、キーワード「中華」の出現頻度はそれぞれ1回、3回である。最後に、インデックス検索手段は、検索結果リストをキーワードの出現頻度でソートし、ディスプレイを使って利用者に検索結果を表示する。
【0141】
なお、本実施例では、文書119のサイト内キーワードを「中華←大阪府←関西」、「中華←東京都←関東」、「中華←東京のお勧め店」の3通りであるとして「中華」の出現頻度を3回と数えたが、いずれの「中華」も同一のリンクが由来となっているため、出現頻度を1回と数えてもよい。あるいは、文書119のサイト内キーワードを「中華←大阪府,東京都,東京のお勧め店←関西,関東」として記憶しておき、「中華」の出現頻度を1回と数えてもよい。
【0142】
[第3の実施例]
次に、本発明の第3の実施例を、図面を参照して説明する。この第3の実施例は、本発明の第3の実施の形態に対応するものである。本実施例は第1の実施例と同様に、図9に示した第3の実施の形態のデータ処理装置9をパーソナルコンピュータとし、記憶装置8を磁気ディスク記憶装置とした構成であるが、パーソナルコンピュータの中央演算装置が、図9に示した文書ベクトル作成手段17、類似度計算手段18としても機能する点で第1の実施例と異なる。また、磁気ディスク記憶装置には、図9に示した文書ベクトル記憶部24、カテゴリ条件記憶部25、および分類結果記憶部26も記憶される点で第1の実施例と異なる。
【0143】
次に、本実施の形態の動作について説明する。まず、ハイパーテキストアクセス手段(図9の11)はハイパーテキストデータベース(図9の21)に格納されている各文書を読み出し、文書クラスタ情報取得手段(図9の12)に渡す。ここで、ハイパーテキストデータベース21に格納されているハイパーテキスト群の一例を図14に示す。文書クラスタ情報取得手段12は、与えられた文書からリンク情報を抽出し、図15に示すような文書参照関係表を生成する。
【0144】
次に、文書クラスタ情報取得手段12は、対象指定手段(図9の13)に指定された「サイトのトップページの条件」と「同一サイトに含まれる文書の条件」に基づき、図16に示すような文書クラスタ表を生成する。なお、本実施例では、「サイトのトップページの条件」として「文書のURLが『http://ドメイン名/』、または『http://ドメイン名/index.html』であるもの」とし、「同一サイトに含まれる文書の条件」として、「ドメイン名が同じ」としている。
【0145】
次に、文書キーワード決定手段(図9の14)は、文書クラスタ情報取得手段12が生成した文書参照関係表と文書クラスタ表を参照して、各サイトのトップページに対してサイト外からはられているリンクのアンカー文字列の系列をサイト外キーワードとし、各クラスタ内文書について、同一クラスタ内文書のリンクを遡って得られるアンカー文字列の系列をサイト内キーワードとして文書キーワード記憶部(図9の22)に記憶させる。得られる文書キーワードの例を図17に示す。
【0146】
なお、本実施例では、同一サイトに含まれている文書のサイト外キーワードは、そのサイトのトップページのサイト外キーワードと同じにする。したがって、図14の文書112〜文書119のサイト外キーワードは文書111のサイト外キーワードと同一の「グルメ情報,レストラン検索」となる。
【0147】
また、リンクを遡る際に、一度遡った文書を覚えておき、ループして遡らないようにする。例えば、図14の文書116に対するリンクを単純に遡ると「東京都←関東」というアンカー文字列の系列のほかに、「東京都←関東←戻る←東京都←関東」、「東京都←関東←戻る←東京都←関東←戻る←東京都・・・」のようにループによって無数のアンカー文字列が生成されてしまう。そこで、一度遡った文書を同じアンカー文字列の系列内で二度遡らないようにする。したがって、文書116のサイト内キーワードは「戻る」を含まないことになる。
【0148】
また、本実施例では、トップページでないページへのサイト外からのリンクを一つだけ遡ってサイト内キーワードに含めるようにしている。したがって、文書116のサイト内キーワードには「東京都←関東」と「東京都のお勧め店」の2種類になる。図14の文書119についても同様の方法で登録するが、別のアンカー文字列の系列で同じ文書を遡る場合は、それぞれ別のキーワードとして登録する。
【0149】
すなわち、「中華←東京都←関東」と「中華←大阪府←関西」はどちらも文書111に遡るアンカー文字列の系列であるが、別の系列であるため両方をサイト内キーワードとして記憶する。ここでも、「中華←東京都←関東←戻る←東京都←関東」というアンカー文字列の系列などが考えられるが、これは同一系列内で文書113と文書116をそれぞれ2回遡っているためサイト内キーワードとしては記憶しない。また、トップページでないページへのサイト外からのリンクを一つだけ遡ってサイト内キーワードに含めるようにしているため、「中華←東京のお勧め店」も文書119のサイト内キーワードとして記憶される。
【0150】
次に、文書ベクトル作成手段17は、各文書について、どのキーワードがどの部分(サイト外キーワードか、サイト内キーワードか、タイトルか、本文か等)に何回出現したかを文書ベクトルとして文書ベクトル記憶部24に記憶させる。
【0151】
そして、類似度計算手段18が文書ベクトル記憶部24に格納されている各文書の文書ベクトルについて、カテゴリ条件記憶部25に格納されている各カテゴリの特徴ベクトルとの余弦を計算し、その結果を分類記憶部26に格納する。
【0152】
[第4の実施例]
次に、本発明の第4の実施例を、図面を参照して説明する。この第4の実施例は、本発明の第4の実施の形態に対応するものである。本実施例は図11に示した第4の実施の形態のデータ処理装置9をパーソナルコンピュータで構成し、記憶装置10を磁気ディスク記憶装置で構成した点は第2の実施例と同様であるが、パーソナルコンピュータの中央演算装置が、インデックス検索手段としてしか機能しない点で第2の実施例と異なる。また、磁気ディスク記憶装置には、ハイパーテキストデータベース、文書キーワード記憶部が記憶されない代わりに、図11に示した第2のインデックス記憶部27が記憶される点で第2の実施例と異なる。
【0153】
図11に示した第1のインデックス記憶部23に記憶されている文書のメタ情報から作成されたインデックスの一例を図18に示す。図18には、キーワードと出現する文書、および出現頻度が記録されており、例えば、キーワード「ホテル」で登録されている文書は文書211、文書212、文書214で、それぞれキーワード「ホテル」の出現頻度は3回、1回、5回であることが分かる。
【0154】
また、第2のインデックス記憶部27に記憶されている文書の本文から作成されたインデックスの一例を図19に示す。第2のインデックスの形式も第1のインデックスと同様で、キーワードと出現する文書、および出現頻度が記録されており、例えば、キーワード「東京」で登録されている文書は文書212、文書213、文書214、文書217、文書218、文書219で、それぞれキーワード「東京」の出現頻度は1回、4回、6回、8回、1回、2回であることが分かる。
【0155】
今、キーボードから検索条件「奈良グルメ」が入力されたとする。すると、インデックス検索手段16は、検索条件をスペースや「の」で区切り、あるいは形態素解析を行うことによって、「奈良」と「グルメ」のキーワードに分割する。
【0156】
次に、インデックス検索手段16は、キーワード「奈良」と「グルメ」のうち、第1のインデックス記憶部23に登録された語がないか調べる。登録されていれば、そのキーワードとその出現頻度およびキーワードが現れた文書を検索結果候補として記憶しておく。第1のインデックスが図18の場合、「グルメ」が登録されているので、文書211、文書212、文書213、文書214が検索結果候補となる。
【0157】
次に、インデックス検索手段16は、検索結果候補となった文書のうち、第2のインデックス記憶部27に、残りの「奈良」が登録されている文書と、キーワードの出現頻度を検索結果リストに追加登録する。第2のインデックスが図19の場合、検索結果候補の文書211、文書212、文書213、文書214のうち、「奈良」は文書213にだけ現れているため、文書213が検索結果リストに登録される。
【0158】
次に、インデックス検索手段16は、検索結果リストをキーワードの出現頻度でソートし、ディスプレイに検索結果を表示する。この場合、検索結果として出力されるのは検索結果リストに登録されている文書213である。
【0159】
また、キーボードから検索条件「大阪の図書館」が入力されたとする。すると、インデックス検索手段16は、検索キーワードをスペースや「の」で区切り、あるいは形態素解析を行うことによって、「大阪」と「図書館」のキーワードに分割する。
【0160】
次に、インデックス検索手段16は、キーワード「大阪」と「図書館」のうち、第1のインデックス記憶部23に登録された語がないか調べる。登録されていれば、そのキーワードとその出現頻度およびキーワードが現れた文書を検索結果候補として記憶しておく。第1のインデックスが図18の場合、「図書館」が登録されている、文書215、文書216、文書217、文書218、文書219が検索結果候補となる。キーワード「図書館」の出現頻度は、それぞれ1回、5回、2回、7回、4回である。
【0161】
次に、インデックス検索手段16は、検索結果候補となった文書のうち、第2のインデックス記憶部27に、残りの「大阪」が登録されている文書と、キーワードの出現頻度を検索結果リストに追加登録する。第2のインデックスが図19の場合、検索結果候補の文書215、文書216、文書217、文書218、文書219のうち、キーワード「大阪」は文書216、文書217、文書219に現れており、「大阪」の出現頻度はそれぞれ2回、4回、8回である。
【0162】
次に、インデックス検索手段16は、検索結果リストをキーワードの出現頻度でソートし、ディスプレイに検索結果を表示する。キーワード「図書館」、「大阪」の出現頻度の合計は、文書216では7回、文書217では6回、文書219では12回であるので、ディスプレイには文書219、文書216、文書217の順序で表示される。
【0163】
なお、本実施例では単純にキーワードの出現頻度の合計でソートしたが、第1のキーワードインデックスでのキーワード出現頻度と、第2のキーワードインデックスでのキーワード出現頻度にそれぞれ別の重みを掛けて合計して得られるスコアを基準にソートしてもよい。
【0164】
【発明の効果】
以上説明したように、本発明によれば、以下の種々の効果を奏する
(1)ハイパーテキスト群に対してサイト全体の内容とサイト内での文書の位置付けを反映した検索・分類を行うことができる。その理由は、サイト全体の内容を表すサイト外からのリンクと、サイト内での文書の位置付けを表すサイト内のリンクをそれぞれ遡って得られるアンカー文字列の系列を、文書クラスタと文書との関係を特徴付ける単語群として抽出し、検索・分類対象とするからである。
【0165】
(2)複数キーワードに対する効果的な絞り込み検索を行うことができる。その理由は、キーワードがスペースで分割されたり、「の」で接続されたり、複合語として、検索条件に入力された場合に、そのキーワードを分割し、文書の内容を表すメタ情報としてのキーワードと文書本体のキーワードを別々に検索するからである。
【0166】
(3)一般的な文書に対しても、文書の内容と意味付けを反映した検索を行うことができる。その理由は、文書の内容を表すメタ情報中のキーワードと、文書中のキーワードを区別し、それぞれ別のインデックスとして検索を行うからである。
【図面の簡単な説明】
【図1】 本発明の第1の実施の形態の構成を示すブロック図である。
【図2】本発明の第1の実施の形態におけるハイパーテキストデータベースが記憶するハイパーテキスト群の一例を示す図である。
【図3】 本発明の第1の実施の形態における文書キーワード記憶部が記憶する文書キーワードの一例を示す図である。
【図4】本発明の第1の実施の形態における文書クラスタ情報取得部が生成する文書参照関係表の一例を示す図である。
【図5】 本発明の第1の実施の形態における文書クラスタ情報取得部が生成する文書クラスタ表の一例を示す図である。
【図6】本発明の第1の実施の形態の動作を示すフローチャートである。
【図7】 本発明の第2の実施の形態の構成を示すブロック図である。
【図8】本発明の第2の実施の形態の動作を示すフローチャートである。
【図9】 本発明の第3の実施の形態の構成を示すブロック図である。
【図10】本発明の第3の実施の形態の動作を示すフローチャートである。
【図11】 本発明の第4の実施の形態の構成を示すブロック図である。
【図12】本発明の第4の実施の形態の動作を示すフローチャートである。
【図13】 本発明の第5〜8の実施の形態の構成を示すブロック図である。
【図14】本発明の第1の実施例におけるハイパーテキストデータベースが記憶するハイパーテキスト群の一例を示す図である。
【図15】 本発明の第1の実施例における文書クラスタ情報取得部が生成する文書参照関係表の一例を示す図である。
【図16】本発明の第1の実施例における文書クラスタ情報取得部が生成する文書クラスタ表の一例を示す図である。
【図17】本発明の第1の実施例における文書キーワード記憶部が記憶する文書キーワードの一例を示す図である。
【図18】 本発明の第4の実施例における第1のインデックス記憶部が記憶するインデックスの一例を示す図である。
【図19】本発明の第4の実施例における第2のインデックス記憶部が記憶するインデックスの一例を示す図である。
【符号の説明】
1、5、7 データ処理装置
2、6、8 記憶装置
3 入力手段
4 出力手段
11 ハイパーテキストアクセス手段
12 文書クラスタ情報取得手段
13 対象指定手段
14 文書キーワード決定手段
15 インデックス作成手段
16 インデックス検索手段
17 文書ベクトル作成手段
18 類似度計算手段
21 ハイパーテキストデータベース
22 文書キーワード記憶部
23 第1のインデックス記憶部
24 文書ベクトル記憶部
25 カテゴリ条件記憶部
26 分類結果記憶部
27 第2のインデックス記憶部
30 記憶媒体
31 入力装置
32 データ処理装置
33 出力装置
34 記憶装置
35 入力メモリ
36 ワークメモリ[0001]
BACKGROUND OF THE INVENTION
The present invention is a keywordDecisionapparatus,DecisionMethod, document search apparatus, search method, document classification apparatus, classification method, and program, particularly keyword for hypertextDecisionapparatus,DecisionThe present invention relates to a method, a document search device, a search method, a document classification device, a classification method, and a program.
[0002]
Hypertext is a set of documents structured by hyperlinks (links), and has a structure in which documents are nodes and links are made between documents. Regarding the link from document A to document B, the character string in document A that is the link source of document B is called an anchor character string. A representative example of hypertext is WWW (World Wide Web). WWW is hypertext described in HTML (Hyper Text Markup Language) format, and links and anchor character strings are marked by <A> tags. Although WWW is a representative example of hypertext, the present invention is not limited to the WWW. Further, the hypertext can be described using not only HTML but also XML (Extensible Markup Language), SGML (Standard Generalized Markup Language), and the like.
[0003]
[Prior art]
With the recent spread of the Internet, it is possible to easily access a large number of documents structured by links. Documents structured with links usually form document clusters called sites. The unit of the document cluster that constitutes a site is not necessarily clear, but a document cluster with the same domain name can be regarded as one site, or a document cluster of the same theme by the same administrator can be regarded as one site. Many. Each site has an entrance document called a top page, from which a viewer can access a document of each content in the site by following a link.
[0004]
For example, in the example of FIG. 2 described later, the
[0005]
On the other hand, links to documents of each content in the same site are often omitted in the assumption that the viewer follows the links in order from the top page. For example, if the
[0006]
On the other hand, viewers such as “Kansai”, “Nara Prefecture”, and “Chinese” link to the anchor character strings “L101”, “L103”, and “L106” of links to the contents in the site in order from the top page. There is a tendency that the minimum necessary expression is used on the assumption that the document is followed. In many cases, the content of the linked document can be grasped only partially by the anchor character string alone. In addition, since the content of the document itself is described on the assumption that the viewer follows the links in order from the top page, for example, a document with an anchor character string “Nara Prefecture” contains the name of the prefecture. In many cases, a document alone cannot fully grasp the contents, such as only a list being described.
[0007]
As a conventional technique for searching and classifying a document structured by such a link, for example, Proceedings of the 1st International Conference on the World Wide Web, 1994), a search device shown in GENVL and WWWW: Tools for Taming the Web, and Japanese Patent No. 3108015 A hypertext search device described in JP-A-10-254899, a document classification system described in JP-A-10-254899, a keyword assignment method using link information described in a republished patent WO99 / 14690, and JP-A-2000-339320 Unlink source, such as the related document display device described And a method for the over string searched and classified.
[0008]
According to these search devices, document classification systems, and keyword assignment methods, in addition to the keywords included in the document body, by registering the link source anchor character string in the search index or adding it to the document feature vector, Using the property that the anchor character string of the link source describes the description of the link destination document, the search / classification accuracy is improved.
[0009]
[Problems to be solved by the invention]
However, the above-described conventional keyword extraction device, document search device, and document classification device have the following problems. That is, the first problem is that, even if the anchor character string of the link source of the document is searched and classified for the links in the site, the anchor character string is not necessarily a description that completely describes the document contents. is there. This is because the conventional keyword extraction device, document search device, and document classification device search only the text of a single page or the link source anchor character string. Because the content of links and pages within a site tends to be written assuming that the viewer follows the links in order from the top page, in the text of a single page or the link source anchor string, Search and classification that fully reflects the contents of the document may not be possible.
[0014]
The present invention has been made in view of the above points, and a series of anchor character strings obtained by tracing back a link from outside the site representing the contents of the entire site and a link within the site representing the position of the document within the site. Can be searched and classified by reflecting the contents of the entire site and the position of the document within the site by extracting the word as a group of words characterizing the relationship between the document cluster and the documentDecisionapparatus,DecisionIt is an object to provide a method, a document search device, a search method, a document classification device, a classification method, and a program.
[0016]
[Means for Solving the Problems]
In order to achieve the above object, the keyword of the present inventionDecisionapparatusIs the link information indicating the document body, the link destination document of the document, and the link source document for each of the plurality of hierarchized documents included in each of the document clusters formed by a plurality of documents structured by hyperlinks. And a storage unit storing at least an anchor character string that is a character string in a link source document of the document, and a document having the same condition as the top page that is the highest document in the document cluster determined from the positional relationship in the directory hierarchy Target specification means for specifying document cluster conditions including the conditions of documents included in the cluster, and the document text, link information, and anchor character strings of a plurality of documents are read from the storage means, and specified by the link information and target specification means. The given document is the top page or the top page Document cluster specifying means for specifying the document cluster to which the document cluster belongs based on the conditions of the documents included in the same document cluster, and link information of the document cluster specified by the document cluster specifying means Based on the above, for each of multiple documents in the same document cluster, when each document is a link destination document, each link obtained by going back to the link source document direction that is the upper layer up to the highest document in the document cluster It is a character string in a document in another document cluster that is determined as an in-site keyword of the document as a sequence of anchor strings, which is a character string in the original document, and is linked to the top-level document of the document cluster. Determining means for determining an anchor character string as an off-site keyword for each document in the document cluster.Features.
In order to achieve the above object, the keyword determination method according to the present invention provides a data processing device having a plurality of hierarchies provided in each of document clusters formed by a plurality of documents structured by hyperlinks. For each document, a plurality of documents are stored from a storage means storing at least the document text, link information indicating the link destination document and link source document of the document, and an anchor character string that is a character string in the link source document of the document. A reading step for reading out the document body, link information, and anchor character string, and a data processing device for a document included in the same document cluster as the top page condition in the document cluster determined from the positional relationship in the directory hierarchy. A target specifying step for specifying a condition of a document cluster including the condition, and a data processing device, Based on the link information read in the extraction step and the document cluster conditions specified in the target specification step, if the given document is the top page or not the top page, the documents included in the same document cluster The document cluster specifying step for specifying the document cluster to which the document cluster belongs based on the conditions of the document cluster, and the data processing device uses the same document cluster based on the link information of the document cluster specified by the document cluster specifying step. For each of a plurality of documents, when each document is a link destination document, the character string in each link source document obtained by tracing back the link in the direction of the link source document that is the upper layer up to the top document in the document cluster Is determined as the keyword in the site of the document, and the maximum of the document cluster is determined. Position, characterized in that it comprises a determining step of determining the anchor character string is a character string in a document in another document clusters linked to a document as a site outside keywords for each document in the document clusters.
[0017]
In order to achieve the above object, the document search apparatus of the present invention provides:An anchor that is a document text, link information, and a character string in a link source document of each of a plurality of hierarchized documents included in each of document clusters formed by a plurality of documents structured by hyperlinks Document cluster conditions including storage means storing at least a character string and conditions of a document included in the same document cluster as a top page condition in a document cluster determined from a positional relationship in a directory hierarchy The object designation means for designating the document body, the document text, link information and anchor character strings of a plurality of documents from the storage means are read out, and the given document is determined based on the link information and the document cluster condition designated by the object designation means. If it is the top page or not the top page, the conditions of the documents included in the same document cluster Based on the document cluster specifying means for specifying the document cluster to which the document cluster belongs, and for each of a plurality of documents in the same document cluster based on the link information of the document cluster specified by the document cluster specifying means When each document is a link destination document, a series of anchor character strings that are character strings in each link source document obtained by tracing back the link in the direction of the link source document up to the topmost document in the document cluster Decision to determine as an in-site keyword and an anchor character string, which is a character string in a document in another document cluster linked to the top document in the document cluster, as an off-site keyword for each document in the document cluster And the key of the keyword in the site and the keyword outside the site of each document determined by the determination unit Index creation and storage means for creating and storing in which document a document appears as an index, an input means for inputting search conditions, and a keyword used for the search from the search conditions input by the input means As a search result candidate based on the index stored in the index creation and storage means, the document in which the keyword used for the search appearsAnd a search means for searching.
[0018]
In order to achieve the above object, the document search method of the present invention includes a data processing device,Document text for each of a plurality of hierarchized documents included in each of a plurality of document clusters formed by a plurality of documents structured by hyperlinks, link information indicating the link destination document and link source document of the document, and A reading step of reading out document texts, link information, and anchor character strings of a plurality of documents from a storage unit that stores at least an anchor character string that is a character string in a link source document of the document, and a data processing device in a directory hierarchy A target specifying step for specifying a condition of a document cluster including a condition of a document included in the same document cluster as a condition of a top page which is a top-level document in the document cluster determined from the positional relationship, and a reading step by the data processing device The link information read in
[0019]
In order to achieve the above object, the document classification apparatus of the present invention provides:Document text for each of a plurality of hierarchized documents included in each of a plurality of document clusters formed by a plurality of documents structured by hyperlinks, link information indicating the link destination document and link source document of the document, and A storage means storing at least an anchor character string, which is a character string in a link source document of the document, and the same document cluster as the condition of the top page in the document cluster determined from the positional relationship in the directory hierarchy A document that is designated by the link information and the target designation unit by reading out the document text, link information, and anchor character strings of a plurality of documents from the storage unit Based on the cluster conditions, the given document is the top page or not the top page The document cluster specifying means for specifying the document cluster to which the document cluster belongs based on the conditions of the documents included in the same document cluster, and the link information of the document cluster specified by the document cluster specifying means. Based on this, for each of a plurality of documents in the same document cluster, when each document is a linked document, the characters in each link source document that can be obtained by going back to the link source document up to the topmost document in the document cluster A series of anchor character strings that are columns is determined as a keyword in the site of the document, and an anchor character string that is a character string in a document in another document cluster linked to the top-level document of the document cluster is a document. A determining means for determining as an off-site keyword for each document in the cluster, and an in-site keyword for each document determined by the determining means. Document vector creation means for creating a document vector that expresses the frequency or occurrence information of keywords and out-of-site keywords in each document as a multidimensional vector, and a characteristic keyword and its appearance for each category to be classified A category condition storage means whose frequency is stored as a feature vector, and a document vector of each document created by the document vector creation means, and a feature vector of each category stored in the category condition storage meansIt is characterized by having similarity calculation means for performing similarity calculation and classification means for classifying a plurality of documents according to the similarity calculation result.
[0020]
In order to achieve the above object, the document classification method of the present invention includes:A data processing apparatus determines a document body, a link destination document and a link source document of each of a plurality of hierarchical documents included in each of document clusters formed by a plurality of documents structured by hyperlinks. A reading step for reading out document texts, link information and anchor character strings of a plurality of documents from storage means storing at least link information to be displayed and anchor character strings which are character strings in the link source document of the document, and a data processing device Is a target specifying step for specifying a document cluster condition including a condition of a document included in the same document cluster as a condition of a top page that is a top-level document in a document cluster determined from a positional relationship in a directory hierarchy, and data processing The device uses the link information read in the reading step and the target specifying step. Based on the specified document cluster conditions, the given document is the top page, or if it is not the top page, the document that belongs to which document cluster is based on the conditions of the documents included in the same document cluster A document cluster specifying step for specifying a cluster, and the data processing apparatus determines each document as a linked document for each of a plurality of documents in the same document cluster based on the link information of the document cluster specified by the document cluster specifying step. When this is done, a sequence of anchor strings, which is a character string in each link source document obtained by tracing back the link in the direction of the link source document, which is the upper layer up to the top document in the document cluster, is used as a keyword in the site of the document. A character in a document in another document cluster that is determined and linked to the top document in the document cluster A determination step for determining an anchor character string as an out-of-site keyword for each document in the document cluster, and the data processing apparatus causes the in-site keyword and off-site keyword for each document determined in the determination step to appear in each document. A document vector creation step for creating a document vector that expresses frequency or occurrence information as a multidimensional vector, and the data processing device stores a characteristic keyword and its appearance frequency as a feature vector for each category to be classified. Between the feature vector read from the category condition storage means and the document vector of each document created by the document vector creation step.A similarity calculation step for performing similarity calculation and a data processing apparatus include a classification step for classifying a plurality of documents according to the similarity calculation result obtained by the similarity calculation step.
[0021]
In order to achieve the above object, the program of the present inventionThe above-described keyword determination method, document search method, and document classification method are executed by a computer in a data processing apparatus.
[0025]
DETAILED DESCRIPTION OF THE INVENTION
Next, embodiments of the present invention will be described in detail with reference to the drawings.
[0026]
[First Embodiment]
FIG. 1 shows a block diagram of a first embodiment of the present invention. As shown in FIG.SettingThe first embodiment of the device, the document search device, and the document classification device is configured to include a
[0027]
The
[0028]
The document
[0029]
When the
[0030]
On the other hand, the
[0031]
The
[0032]
The document cluster
[0033]
As shown in FIG. 4, the document reference relation table is a list in which an anchor character string, a link source document, and a link destination document are associated with each other. Indicates that a link has been established. As shown in FIG. 5, the document cluster table is a list in which a document cluster, a top page, and documents in the cluster are associated with each other. For example, the top page of the document cluster “
[0034]
The
[0035]
The document
[0036]
Next, the operation of the first embodiment will be described in detail with reference to the block diagram of FIG. 1 to the flowchart of FIG. First, the
[0037]
Next, the document cluster
[0038]
If it is a top page, one line is added and registered in the document cluster table shown in FIG. 5 (step S2). For example, when “the URL of the document is“ http: // domain name / ”or“ http: // domain name / index.html ”” is specified as “the condition of the top page of the site”, The top page is registered in the document cluster table for each domain name.
[0039]
If the document cluster
[0040]
Next, the document
[0041]
Further, the document
[0042]
Also, when going back to the link, remember the document that went back once, so that it doesn't go back in a loop. For example, when the link to the
[0043]
On the other hand, when the same document is traced back by another anchor character string series, it is registered as a different keyword. For example, in the case of the document 19 in FIG. 2, “L108 ← L104 ← L101” and “L110 ← L105 ← L102” are both anchor character string sequences that go back to the
[0044]
In this embodiment, the method in which the
[0045]
In the present embodiment, “the URL of the document is“ http: // domain name / ”or“ http: // domain name / index ”as the“ site top page condition ”designated by the
[0046]
In addition, the “site top page condition” is “link destination document with an anchor character string that is considered to indicate the top page, such as“ Home Page ”,“ Top ”,“ return to the beginning ”, etc. There is also a method in which “a condition included in the same site” is “a link source document of a link having an anchor character string of an expression that is considered to indicate a top page, such as“ Home Page ”,“ Top ”, and“ Return to Top ”. Further, there is a method of using a list of URLs specified by hand in advance as the “site top page condition”, and the method is not limited to the method described in this embodiment.
[0047]
In the present embodiment, the document keyword determination means 14 uses an anchor character string series obtained by tracing back links of documents in the same cluster as keywords in the site. If it is, the anchor character string series that goes back one link may be stored as an in-site keyword. In addition, there is a method of limiting the number of links to the designated number of links without necessarily going back all the links to the top page, and the method is not limited to the method described in the present embodiment.
[0048]
In the present embodiment, the document
[0049]
In the present embodiment, the document keyword determination means 14 determines a keyword based on the anchor character string, but in addition to the anchor character string, the document title, a fixed-length character string around the anchor character string, the anchor A character string enclosed in table tags around the character string, a character string enclosed in a list tag around the anchor character string, a character string enclosed in <BR> or <P> tags around the anchor character string, <H> There is a method of using a keyword including a character string in which a tag, font size, and color are emphasized, and the method is not limited to the method described in this embodiment.
[0050]
In the present embodiment, only the off-site keyword and the in-site keyword are stored in the document
[0051]
In the present embodiment, the operation has been described as executing step S5 for determining an in-site keyword after step S4 for determining an off-site keyword. However, after executing step S5 for determining an in-site keyword first. There is also a method of executing step S4 for determining an off-site keyword, and is not limited to the method described in the present embodiment.
[0052]
Next, effects of the first exemplary embodiment of the present invention will be described. In the present embodiment, a series of anchor character strings obtained by tracing back a link from outside the site representing the contents of the entire site and a link within the site representing the position of the document within the site are divided into a document cluster and a document. This is extracted as a word group characterizing the relationship. Therefore, for each document, a keyword reflecting the contents of the entire site and the position of the document in the site can be obtained.
[0053]
[Second Embodiment]
Next, a second embodiment of the present invention will be described with reference to the drawings. FIG. 7 shows a block diagram of the second embodiment of the present invention. As shown in FIG.SettingThe second embodiment of the apparatus, the document search apparatus, and the document classification apparatus includes a
[0054]
In the second embodiment of the present invention, the
[0055]
In FIG. 7, the first
[0056]
Next, the operation of the second embodiment will be described in detail with reference to the drawings. In this embodiment mode, there are two types of processing with different operation timings, namely, registration processing according to the flowchart shown in FIG. 8A and search processing according to the flowchart shown in FIG. The search process is performed every time there is an input from the user, whereas the registration process only needs to be performed once in advance.
[0057]
First, registration processing according to the second embodiment will be described with reference to the flowchart of FIG. In FIG. 8A, the same processing steps as those in FIG. That is, in the flowchart of the registration process shown in FIG. 8A, the
[0058]
In the first embodiment, the process is terminated when the in-site keyword is determined in step S5. In this embodiment, based on the document keyword generated as a result of step S5, the index creating means 15 creates an index indicating which word is registered in which document for the off-site keyword (step S6). Subsequently, the index creating means 15 creates an index indicating which word is registered in which document for the keyword in the site (step S7). This completes the registration process.
[0059]
Next, the search process will be described with reference to the flowchart of FIG. First, a search condition is input from the input means 3 (step T1). What is input as a search condition includes, in addition to keywords, a question sentence in a natural language, another document similar to a document to be searched, and the like.
[0060]
Next, the index search means 16 determines the keyword n word used for a search from the input search conditions (step T2). The keyword determination method includes two processes, sentence division and keyword selection. For example, there is a method in which morphological analysis is used for sentence division, and the remaining words excluding attached words such as “no” are used as keywords for keyword selection.
[0061]
Next, the index search means 16 checks whether there are any words that appear in the off-site keyword among the keywords divided into n words. If it appears, the keyword m word (1 ≦ m ≦ n−1), its appearance frequency, and the document in which the keyword appears are stored as search result candidates (step T3).
[0062]
Next, the index search means 16 additionally registers, in the search result list, a document in which the remaining nm words appear in the site keyword among the documents that are search result candidates and the appearance frequency of the keyword ( In step T4), the search result list is sorted by keyword appearance frequency, and the search result is displayed to the user using the output means 4 (step T5).
[0063]
In addition, this invention is not limited to 2nd Embodiment, The following various modifications are also included. That is, in the second embodiment, only the off-site keyword and the in-site keyword are stored in the document
[0064]
In this embodiment, the search method / search model is assumed to be based on keyword matching. However, as the search method / search model, a vector space model, a probability model, a Boolean model for performing AND and OR operations, etc. It may be a method.
[0065]
Further, in this embodiment, step S7 for creating an index for in-site keywords is executed after step S6 for creating an index for keywords outside the site. Step S6 for creating an index of outside keywords may be executed.
[0066]
Further, in the present embodiment, after step S4 for determining the keyword outside the site and step S5 for determining the keyword within the site, step S6 for creating an index for the keyword outside the site and step S7 for creating the index for the keyword within the site, respectively. Although it is executed, step S6 for creating an index for the off-site keyword is executed after step S4 for determining the keyword outside the site, and step S7 for creating an index for the keyword inside the site after step S5 for determining the keyword within the site. May be executed.
[0067]
In the present embodiment, the method of dividing a sentence using morphological analysis in the step T2 for determining a search keyword has been described. However, it is divided into other character types such as kanji, alphanumeric, katakana, and hiragana. There are also methods such as dividing by a certain number of characters, dividing by spaces or punctuation marks, and dividing by an attached word such as “no”, and are not limited to the method described in this embodiment.
[0068]
In the present embodiment, the method of excluding ancillary words such as “no” in keyword selection in step T2 for determining a search keyword has been described, but other general information such as “information” and “method” are also used. Exclude words with high frequency in the document as unnecessary words, or add only a low score even if the search hits, and conversely, in the question text in comparison with the frequency in general documents There is a method of adding a high score when a search hits a word having a high appearance frequency as an important word, and is not limited to the method described in the present embodiment.
[0069]
In the present embodiment, the method of storing a document as a search result candidate when one or more keywords appear in step T3 of searching for an off-site keyword has been described. There is also a method of executing step T4 of searching for in-site keywords using all documents as search result candidates when no hit is found. If either the keyword outside the site or the keyword inside the site is hit, it is included in the search result list, and in step T5 for outputting the search result, the score of the document is determined depending on whether it is hit outside the site or inside the site. There is also a method of sorting by changing the weight.
[0070]
Next, the effect of the second embodiment will be described. In the present embodiment, a series of anchor character strings obtained by tracing back a link from outside the site representing the contents of the entire site and a link within the site representing the position of the document within the site are divided into a document cluster and a document. It is extracted as a group of words that characterize the relationship between them, and an index is created. Thereby, it is possible to perform a search reflecting the contents of the entire site and the position of the document in the site.
[0071]
Also, in this embodiment, when a keyword is divided by a space, connected by “no”, or entered as a compound word in a search condition, the keyword is divided to indicate the contents of the entire site. And a series of anchor character strings obtained by tracing back a link in the site and a link in the site representing the position of the document in the site. This makes it possible to perform an effective refined search that reflects the site structure.
[0072]
[Third Embodiment]
Next, a third embodiment of the present invention will be described in detail with reference to the drawings. FIG. 9 shows a block diagram of a third embodiment of the present invention. As shown in FIG.SettingThe third embodiment of the apparatus, the document search apparatus, and the document classification apparatus includes a
[0073]
In the third embodiment of the present invention, as shown in FIG. 9, the
[0074]
In the document
[0075]
If a feature vector is determined for each of a plurality of documents, the similarity between documents can be calculated from the Euclidean distance between the feature vectors, the angle formed by the feature vectors, and the like. In addition, the sum or centroid of the feature vectors of a plurality of documents belonging to a certain category is regarded as the feature vector of the category, and by calculating the similarity between the feature vector of the category and the feature vector of the unclassified document, It is also possible to determine which category it belongs to.
[0076]
The category
[0077]
Based on the document keywords stored in the document
[0078]
The similarity calculation means 18 calculates the cosine of the feature vector of each category stored in the category
[0079]
Next, the operation of the present embodiment will be described in detail with reference to the flowchart of FIG. In FIG. 10, the same processing steps as those in FIG. 6 are denoted by the same reference numerals, and the description thereof is omitted. That is, the operations of the
[0080]
In the first embodiment, the process is terminated when the in-site keyword is determined in step S5. In the present embodiment, based on the document keyword generated as a result of step S5, the document vector creation means 17 determines which part of each document is which keyword (external keyword, in-site keyword, title, text) Or the like) is stored in the document
[0081]
Next, the similarity calculation means 18 calculates the cosine of the feature vector of each category stored in the category
[0082]
In this embodiment, keywords, their appearance parts (non-site keywords, in-site keywords, titles, body texts, etc.) and appearance frequencies are used as document vectors. A method of not performing, a method of weighting the appearance frequency according to the appearance part, a method of using only information on whether or not the appearance frequency is used instead of the appearance frequency may be employed.
[0083]
In the present embodiment, the cosine of a vector is taken as the similarity calculation of the document, but a method using the Euclidean distance between the vectors may be used as the similarity calculation. In this embodiment, the feature vector of each category is specified as the category condition. However, instead of specifying a category feature vector, a document actually included in a category is specified as teacher data, and a learning model generated as a result of learning using machine learning such as SVM is used as a category condition. A method of classifying unlearned documents using the learning model by the degree calculation means 18 may be used. For details on document classification using SVM, see Proceedings of 10th European Conference on Machine Learning, pp.137-I42, 1988, Proceedings of 10th European Conference on Machine Learning. , 1998).
[0084]
Next, the effect of the third embodiment will be described. In the present embodiment, a series of anchor character strings obtained by tracing back a link from outside the site representing the contents of the entire site and a link within the site representing the position of the document within the site are divided into a document cluster and a document. A word vector is extracted as a group of words that characterizes the relationship between and a document vector. Thereby, it is possible to perform classification that reflects the contents of the entire site and the position of the document in the site.
[0085]
[Fourth Embodiment]
Next, a fourth embodiment of the present invention will be described in detail with reference to the drawings. FIG. 11 shows a block diagram of a fourth embodiment of the present invention. As shown in FIG.SettingThe fourth embodiment of the apparatus, document search apparatus, and document classification apparatus includes a
[0086]
As shown in FIG. 11, in the fourth embodiment of the present invention, the
[0087]
The first
[0088]
Next, the operation of the present embodiment will be described in detail with reference to the flowchart of FIG. In FIG. 12, the same processing steps as those in FIG. 8B are denoted by the same reference numerals, and the description thereof is omitted. The operation of the index search means 16 in the present embodiment shown in steps Tl, T2 and T5 in FIG. 12 is the same as the operation of the index search means 16 in the second embodiment, and a description thereof will be omitted.
[0089]
In the second embodiment, after step T2 for determining a keyword, the index search means 16 searches for an off-site keyword and an on-site keyword, respectively. In the present embodiment, the index search means 16 searches the first index that is the index of the keyword outside the site and the keyword within the site, and searches the second index that is the index of the keyword that appears in the text of the document. .
[0090]
First, the index search means 16 searches for a word (first index) registered in the first
[0091]
Next, the index search means 16 searches for the word (second index) registered in the second
[0092]
The present invention is not limited to this embodiment, and the following various modifications are possible. That is, in the fourth embodiment, the search result list is sorted by the appearance frequency of keywords, but the appearance frequency in the first index and the appearance frequency in the second index are multiplied by different weights, and the sum is obtained. And sort by the result. Further, in the present embodiment, the first
[0093]
In this embodiment, the search result list is sorted by the appearance frequency of the keyword. However, the appearance frequency in the first index and the appearance frequency in the second index are multiplied by different weights, and the result is obtained. You may make it sort by. In the present embodiment, the method of storing the document as a search result candidate when one or more keywords appear in step U3 for searching the first index has been described. There is also a method of executing the step U4 of searching the second index using all documents as search result candidates when the keyword is not hit.
[0094]
If either the first index or the second index is hit, it is included in the search result list, and in step T5 for outputting the search result, either the first index or the second index is hit. Depending on the method, there is a method of sorting by changing the weight of the document score, and the method is not limited to the method described in the present embodiment.
[0095]
Next, the effect of this embodiment will be described. In the present embodiment, a first index is created from a keyword included in meta information representing the content of a document, and this is preferentially searched. As a result, a search reflecting the contents of the document can be performed.
[0096]
In this embodiment, when a keyword is divided by a space, connected by “no”, or inputted as a compound word in a search condition, the keyword is divided, and the first index and the second index are divided. Each index is searched. As a result, an effective narrowing search that reflects the contents of the document can be performed.
[0097]
[Fifth Embodiment]
Next, a fifth embodiment of the present invention will be described in detail with reference to the drawings. FIG. 13 shows a block diagram of a fifth embodiment of the present invention. As shown in FIG.SettingThe fifth embodiment of the apparatus includes an
[0098]
The
[0099]
The
[0100]
[Sixth Embodiment]
Next, a sixth embodiment of the present invention will be described in detail with reference to the drawings. The sixth embodiment uses the configuration shown in FIG. 13 as in the fifth embodiment. A program for realizing the document search device is read from the
[0101]
The
[0102]
Here, all of the
[0103]
[Seventh Embodiment]
Next, a seventh embodiment of the present invention will be described in detail with reference to the drawings. The seventh embodiment uses the configuration of FIG. 13 as in the fifth and sixth embodiments. A program for realizing the document classification device is read from the
[0104]
9 corresponds to the
[0105]
Here, the
[0106]
For example, the hypertext access means 11, document cluster information acquisition means 12, object designation means 13, and document keyword determination means 14 are read from the recording medium of the fifth embodiment, and other document vector creation means 17 and the program of the similarity calculation means 18 may be configured as separate recording media. Furthermore, the program of the document vector creation means 17 and the program of the similarity calculation means 18 may be configured separately on different recording media.
[0107]
[Eighth Embodiment]
Next, an eighth embodiment of the present invention will be described in detail with reference to the drawings. The eighth embodiment uses the configuration of FIG. 13 as in the fifth, sixth, and seventh embodiments. A program for realizing the document search device is read from the
[0108]
【Example】
[First embodiment]
Next, a first embodiment of the present invention will be described with reference to the drawings. This first example corresponds to the first embodiment of the present invention. In this embodiment, a personal computer is provided as the
[0109]
The personal computer has a central processing unit that functions as the
[0110]
First, the
[0111]
Next, the document cluster
[0112]
Next, the document
[0113]
In this embodiment, the off-site keyword of documents included in the same site is the same as the off-site keyword of the top page of the site. Accordingly, the off-site keywords of the document 112 to the document 119 in FIG. 14 are the same “gourmet information, restaurant search” as the off-site keyword of the document 111.
[0114]
Also, when going back to the link, remember the document that went back once, so that it doesn't go back in a loop. For example, when the link to the document 116 in FIG. 14 is simply traced back, in addition to the anchor character string series “Tokyo → Kanto”, “Tokyo → Kanto ← Back ← Tokyo → Kanto”, “Tokyo → Kanto ← An infinite number of anchor strings are generated by a loop like "Back ← Tokyo ← Kanto ← Back ← Tokyo ...". Therefore, a document that has been traced once is not traced twice within the same anchor character string series. Therefore, the keyword in the site of the document 116 does not include “return”.
[0115]
Further, in this embodiment, only one link from outside the site to a page that is not the top page is traced back and included in the in-site keyword. Accordingly, there are two types of keywords in the site of the document 116: “Tokyo ← Kanto” and “Recommended shops in Tokyo”. The document 119 shown in FIG. 14 is registered in the same manner. However, when the same document is traced back in another anchor character string series, it is registered as different keywords.
[0116]
That is, “Chinese ← Tokyo ← Kanto” and “Chinese ← Osaka Prefecture ← Kansai” are both anchor character strings that go back to the document 111, but both are stored as site keywords because they are separate series. . In this case as well, an anchor character string such as “Chinese ← Tokyo ← Kanto ← Back ← Tokyo ← Kanto” can be considered, but this is because the
[0117]
[Second Embodiment]
Next, a second embodiment of the present invention will be described with reference to the drawings. This second example corresponds to the second embodiment of the present invention. In this embodiment, a personal computer is provided as the
[0118]
The above central processing unit of the personal computer has the same function as that of the first embodiment, but in addition to this, it also functions as the index creating means 15 and index searching means 16 shown in FIG. Different from the embodiment. The second embodiment is different from the first embodiment in that a keyboard is provided as an input device and a display is provided as an output device. The magnetic disk storage device is different from the first embodiment in that the first
[0119]
In this embodiment, there are two types of processing with different timings of registration and search. The search is performed every time there is an input from the user, whereas the registration need only be performed once in advance. In the registration process, first, the hypertext access means 11 reads each document stored in the
[0120]
Next, the document cluster
[0121]
Next, the document
[0122]
In this embodiment, the off-site keyword of documents included in the same site is the same as the off-site keyword of the top page of the site. Accordingly, the off-site keywords of the document 112 to the document 119 in FIG. 14 are the same “gourmet information, restaurant search” as the off-site keyword of the document 111.
[0123]
Also, when going back to the link, remember the document that went back once, so that it doesn't go back in a loop. For example, when the link to the document 116 in FIG. 14 is simply traced back, in addition to the anchor character string series “Tokyo → Kanto”, “Tokyo → Kanto ← Back ← Tokyo → Kanto”, “Tokyo → Kanto ← An infinite number of anchor strings are generated by a loop like "Back ← Tokyo ...". Therefore, a document that has been traced once is not traced twice within the same anchor character string series. Therefore, the keyword in the site of the document 116 does not include “return”.
[0124]
Further, in this embodiment, only one link from outside the site to a page that is not the top page is traced back and included in the in-site keyword. Accordingly, there are two types of keywords in the site of the document 116: “Tokyo ← Kanto” and “Recommended shops in Tokyo”. The document 119 in FIG. 14 is also registered in the same manner, but when the same document is traced back with another anchor character string series, it is registered as a different keyword.
[0125]
In other words, “Chinese ← Tokyo → Kanto” and “Chinese ← Osaka Prefecture ← Kansai” are both anchor character string sequences that go back to the document 111, but both are stored as in-site keywords. In this case as well, an anchor character string such as “Chinese ← Tokyo ← Kanto ← Back ← Tokyo ← Kanto” can be considered, but this is because the
[0126]
Next, the index creating means 15 creates an index indicating which words are registered in which document for the off-site keyword, and subsequently, an index indicating which word is registered in which document for the in-site keyword. Create
[0127]
Next, the search process will be described in detail. Assume that a search condition “Nara gourmet” is entered from the keyboard. Then, the index search means 16 divides the search condition into two keywords “Nara” and “Gourmet” by separating the search condition with a space or “no” or by performing morphological analysis.
[0128]
Next, the index search means 16 checks whether there is a word that appears in the keyword outside the site among “Nara” and “Gourmet”. If it appears, the keyword, its appearance frequency, and the document in which the keyword appears are stored as search result candidates. When the document keyword is shown in FIG. 17, “gourmet” appears once for each of the off-site keywords of the documents 111 to 119, so that it is set as a search result candidate.
[0129]
Next, the index search means 16 additionally registers, in the search result list, a document in which the remaining “Nara” appears as a keyword in the site among the documents that are search result candidates, and the appearance frequency of the keyword. When the document keyword is shown in FIG. 17, among the documents 111 to 119 that are search result candidates, the
[0130]
In the present embodiment, the appearance frequency of the keyword in the
[0131]
It is also assumed that a search condition “Nara gourmet search” is input from the keyboard. Then, the index search means 16 divides the search condition into “Nara”, “Gourmet”, and “Search” by dividing the search condition by a space or “NO” or by performing morphological analysis.
[0132]
Next, the index search means 16 checks whether there is a word that appears in the keyword outside the site among “Nara”, “Gourmet”, and “Search”. If it appears, the keyword, its appearance frequency, and the document in which the keyword appears are stored as search result candidates. When the document keyword is shown in FIG. 17, “gourmet” and “search” appear once in the off-site keywords of the documents 111 to 119, respectively, and therefore are set as search result candidates.
[0133]
Next, the index search means 16 additionally registers, in the search result list, a document in which the remaining “Nara” appears as a keyword in the site among the documents that are search result candidates, and the appearance frequency of the keyword. When the document keyword is shown in FIG. 17, among the documents 111 to 119 that are search result candidates, “Nara” appears as the keyword in the site in the
[0134]
In this embodiment, the appearance frequency of the keywords in the
[0135]
Also assume that a search condition of “Nara Chinese” is entered from the keyboard. Next, the index search means 16 divides the search condition into “Nara” and “Chinese” by dividing the search condition with a space or “no” or performing morphological analysis.
[0136]
Next, the index search means 16 checks whether there is a word that appears in the off-site keyword among “Nara” and “Chinese”. If it appears, the keyword, its appearance frequency, and the document in which the keyword appears are stored as search result candidates. When the document keyword is shown in FIG. 17, neither “Nara” nor “Chinese” appears as off-site keywords.
[0137]
Next, the index search means 16 additionally registers in the search result list the documents in which “Nara” and “Chinese” appear in the site keywords among all the documents, and the appearance frequency of the keywords. When the document keyword is shown in FIG. 17, since “Nara” and “Chinese” appear once in the document 117, the document 117 is registered in the search result list. Finally, the index search means 16 sorts the search result list by the appearance frequency of the keywords, and displays the search results to the user using the display.
[0138]
Further, it is assumed that a search condition “Chinese restaurant” is input from the keyboard. Then, the index search means divides the search condition into “Chinese” and “Restaurant” by dividing the search condition with a space or “no” or performing morphological analysis.
[0139]
Next, the index search means 16 checks whether there is a word that appears in the keyword outside the site among “Chinese” and “Restaurant”. If it appears, the keyword, its appearance frequency, and the document in which the keyword appears are stored as search result candidates. In the case where the document keyword is shown in FIG. 17, “restaurant” appears once for each of the off-site keywords of the document 111 to the document 119, and is thus regarded as a search result candidate.
[0140]
Next, the index search means 16 additionally registers, in the search result list, the remaining “Chinese” in the site keyword among the documents that are search result candidates and the appearance frequency of the keyword. When the document keyword is FIG. 17, among the documents 111 to 119 that are search result candidates, “Chinese” appears in the site keyword in the documents 117 and 119, and the appearance of the keyword “Chinese” appears. The frequency is once and three times, respectively. Finally, the index search means sorts the search result list according to the appearance frequency of the keywords, and displays the search results to the user using the display.
[0141]
In this embodiment, the keyword in the site of document 119 is “Chinese ← Osaka Prefecture ← Kansai”, “Chinese ← Tokyo ← Kanto”, and “Chinese ← Tokyo recommended shops”. However, since all “Chinese Chinese” are derived from the same link, the appearance frequency may be counted as one. Alternatively, the keyword in the site of the document 119 may be stored as “Chinese ← Osaka Prefecture, Tokyo, Tokyo recommended store ← Kansai, Kanto”, and the appearance frequency of “Chinese” may be counted as one time.
[0142]
[Third embodiment]
Next, a third embodiment of the present invention will be described with reference to the drawings. This third example corresponds to the third embodiment of the present invention. As in the first example, this example has a configuration in which the
[0143]
Next, the operation of the present embodiment will be described. First, the hypertext access means (11 in FIG. 9) reads each document stored in the hypertext database (21 in FIG. 9) and passes it to the document cluster information acquisition means (12 in FIG. 9). An example of a hypertext group stored in the
[0144]
Next, the document cluster information acquisition means 12 is shown in FIG. 16 based on the “site top page condition” and the “document condition included in the same site” designated by the target designation means (13 in FIG. 9). A document cluster table like this is generated. In this embodiment, “the condition of the top page of the site” is “the URL of the document is“ http: // domain name / ”or“ http: // domain name / index.html ””, “The domain name is the same” as the “condition of documents included in the same site”.
[0145]
Next, the document keyword determination means (14 in FIG. 9) refers to the document reference relation table and the document cluster table generated by the document cluster information acquisition means 12 and is applied to the top page of each site from outside the site. 9 is used as a keyword outside the site, and for each intra-cluster document, a series of anchor character strings obtained by tracing back the links of the documents in the same cluster as the intra-site keyword. 22). An example of the obtained document keyword is shown in FIG.
[0146]
In this embodiment, the off-site keyword of documents included in the same site is the same as the off-site keyword of the top page of the site. Accordingly, the off-site keywords of the document 112 to the document 119 in FIG. 14 are the same “gourmet information, restaurant search” as the off-site keyword of the document 111.
[0147]
Also, when going back to the link, remember the document that went back once, so that it doesn't go back in a loop. For example, when the link to the document 116 in FIG. 14 is simply traced back, in addition to the anchor character string series “Tokyo → Kanto”, “Tokyo → Kanto ← Back ← Tokyo → Kanto”, “Tokyo → Kanto ← An infinite number of anchor strings are generated by a loop like "Back ← Tokyo ← Kanto ← Back ← Tokyo ...". Therefore, a document that has been traced once is not traced twice within the same anchor character string series. Therefore, the keyword in the site of the document 116 does not include “return”.
[0148]
Further, in this embodiment, only one link from outside the site to a page that is not the top page is traced back and included in the in-site keyword. Therefore, there are two types of keywords in the site of the document 116, “Tokyo ← Kanto” and “Tokyo recommended shops”. The document 119 in FIG. 14 is registered in the same manner, but when the same document is traced back in another anchor character string series, it is registered as a different keyword.
[0149]
In other words, “Chinese ← Tokyo → Kanto” and “Chinese ← Osaka Prefecture ← Kansai” are both anchor character string sequences that go back to the document 111, but both are stored as in-site keywords. In this case as well, an anchor character string such as “Chinese ← Tokyo ← Kanto ← Back ← Tokyo ← Kanto” can be considered, but this is because the
[0150]
Next, the document vector creating means 17 stores the document vector as a document vector indicating how many times each keyword appears in which part (external keyword, in-site keyword, title, text, etc.). Store in the
[0151]
Then, the similarity calculation means 18 calculates the cosine of the feature vector of each category stored in the category
[0152]
[Fourth embodiment]
Next, a fourth embodiment of the present invention will be described with reference to the drawings. This fourth example corresponds to the fourth embodiment of the present invention. This embodiment is the same as the second embodiment in that the
[0153]
FIG. 18 shows an example of an index created from document meta information stored in the first
[0154]
An example of an index created from the text of the document stored in the second
[0155]
Assume that the search condition “Nara gourmet” is entered from the keyboard. Then, the index search means 16 divides the search condition into a keyword of “Nara” and “Gourmet” by dividing the search condition by a space or “no” or by performing morphological analysis.
[0156]
Next, the index search means 16 checks whether there is a word registered in the first
[0157]
Next, the
[0158]
Next, the index search means 16 sorts the search result list by the appearance frequency of the keywords, and displays the search results on the display. In this case, the document 213 registered in the search result list is output as the search result.
[0159]
Also assume that the search condition “Osaka Library” is entered from the keyboard. Then, the index search means 16 divides the search keyword into a keyword of “Osaka” and “library” by separating the search keyword with a space or “no” or by performing a morphological analysis.
[0160]
Next, the index search means 16 checks whether there is a word registered in the first
[0161]
Next, the
[0162]
Next, the index search means 16 sorts the search result list by the appearance frequency of the keywords, and displays the search results on the display. The total frequency of occurrence of the keywords “library” and “Osaka” is 7 times for the
[0163]
In this embodiment, the keywords are simply sorted according to the total appearance frequency of the keywords. However, the keyword appearance frequencies in the first keyword index and the keyword appearance frequencies in the second keyword index are multiplied by different weights, respectively. You may sort on the basis of the score obtained.
[0164]
【The invention's effect】
As described above, according to the present invention, the following various effects can be achieved.
(1) It is possible to perform search / classification on the hypertext group reflecting the contents of the entire site and the position of the document in the site. The reason for this is that the link between the document cluster and the document is a series of anchor strings obtained by tracing back the link from outside the site that represents the contents of the entire site and the link within the site that represents the position of the document within the site. This is because it is extracted as a word group that characterizes and is used as a search / classification target.
[0165]
(2) An effective refinement search for a plurality of keywords can be performed. The reason for this is that when a keyword is divided by a space, connected by “no”, or entered as a compound word in a search condition, the keyword is divided into a keyword as meta information representing the content of the document. This is because the keyword of the document body is searched separately.
[0166]
(3) A search that reflects the contents and meaning of a document can be performed for a general document. The reason is that a keyword in meta information representing the content of a document is distinguished from a keyword in the document, and a search is performed as separate indexes.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a first exemplary embodiment of the present invention.
FIG. 2 is a diagram showing an example of a hypertext group stored in a hypertext database according to the first embodiment of the present invention.
FIG. 3 is a diagram showing an example of a document keyword stored in a document keyword storage unit according to the first embodiment of the present invention.
FIG. 4 is a diagram illustrating an example of a document reference relationship table generated by a document cluster information acquisition unit according to the first embodiment of this invention.
FIG. 5 is a diagram showing an example of a document cluster table generated by a document cluster information acquisition unit according to the first embodiment of the present invention.
FIG. 6 is a flowchart showing the operation of the first exemplary embodiment of the present invention.
FIG. 7 is a block diagram showing a configuration of a second exemplary embodiment of the present invention.
FIG. 8 is a flowchart showing the operation of the second exemplary embodiment of the present invention.
FIG. 9 is a block diagram showing a configuration of a third exemplary embodiment of the present invention.
FIG. 10 is a flowchart showing the operation of the third exemplary embodiment of the present invention.
FIG. 11 is a block diagram showing a configuration of a fourth exemplary embodiment of the present invention.
FIG. 12 is a flowchart showing the operation of the fourth exemplary embodiment of the present invention.
FIG. 13 is a block diagram showing a configuration of fifth to eighth embodiments of the present invention.
FIG. 14 is a diagram showing an example of a hypertext group stored in a hypertext database according to the first embodiment of the present invention.
FIG. 15 is a diagram illustrating an example of a document reference relationship table generated by a document cluster information acquisition unit according to the first embodiment of this invention.
FIG. 16 is a diagram illustrating an example of a document cluster table generated by a document cluster information acquisition unit according to the first embodiment of this invention.
FIG. 17 is a diagram illustrating an example of a document keyword stored in a document keyword storage unit according to the first embodiment of this invention.
FIG. 18 is a diagram illustrating an example of an index stored in a first index storage unit according to the fourth exemplary embodiment of the present invention.
FIG. 19 is a diagram illustrating an example of an index stored in a second index storage unit according to the fourth embodiment of the present invention.
[Explanation of symbols]
1, 5, 7 Data processing device
2, 6, 8 storage device
3 Input means
4 Output means
11 Hypertext access means
12 Document cluster information acquisition means
13 Target designation means
14 Document keyword determination means
15 Index creation means
16 Index search means
17 Document vector creation means
18 Similarity calculation means
21 Hypertext database
22 Document keyword storage
23 First index storage unit
24 Document vector storage
25 Category condition storage
26 Classification result storage unit
27 Second index storage unit
30 storage media
31 Input device
32 Data processing equipment
33 Output device
34 Storage device
35 Input memory
36 Work memory
Claims (28)
ディレクトリ階層における位置関係から定まる前記文書クラスタ内の最上位文書であるトップページの条件と同一の文書クラスタに含まれる文書の条件とを含む文書クラスタの条件を指定する対象指定手段と、
前記記憶手段から前記複数の文書の前記文書本文、リンク情報及びアンカー文字列を読み出し、前記リンク情報と前記対象指定手段により指定された前記文書クラスタの条件とに基づき、与えられた文書が前記トップページであるか、トップページでないときは前記同一の文書クラスタに含まれる文書の条件に基づきどの文書クラスタに属する文書であるかの文書クラスタの特定を行う文書クラスタ特定手段と、
前記文書クラスタ特定手段により特定された前記文書クラスタのリンク情報に基づき、同一文書クラスタの複数の文書のそれぞれについて、各文書をリンク先文書としたとき、その文書クラスタ内の最上位文書まで上位層であるリンク元文書方向にリンクを遡って得られる各リンク元文書中の文字列であるアンカー文字列の系列をその文書のサイト内キーワードと決定し、前記文書クラスタの最上位文書に対してリンクしている別の文書クラスタ内の文書中の文字列であるアンカー文字列を前記文書クラスタの各文書のサイト外キーワードとして決定する決定手段と
を有することを特徴とするキーワード決定装置。Article for each body of a plurality of hierarchical documents with each document cluster that is formed by the structured plurality of documents in the hyperlink, the link information and indicates a link destination document and link source document of the document Storage means for storing at least an anchor character string that is a character string in a document from which the document is linked ;
A target designating unit for designating a condition of a document cluster including a condition of a document included in the same document cluster as a condition of a top page which is a top-level document in the document cluster determined from a positional relationship in a directory hierarchy;
The document body of said plurality of documents from the storage means, reads the link information and the anchor character string, the based on the condition of the specified the document clusters by link information and the object specifying means, a given document is the either a top page, a document cluster specific means for performing certain which document of document clusters is a document belonging to a cluster based on the condition of the documents included in the same document clusters and if not the top page,
Based on the link information of the document cluster specified by the document cluster specifying means , for each of a plurality of documents in the same document cluster, when each document is a linked document, the upper layer up to the highest level document in the document cluster the sequence of the anchor character string and determines the site keywords of the document is a character string of each link source document in the resultant is back links in the link source document direction is, link to the top-level document of the document clusters keyword determination apparatus characterized by having a determining means for determining anchors string is a character string in a document in another document clusters that as a site outside keywords for each document in the document clusters.
ディレクトリ階層における位置関係から定まる前記文書クラスタ内の最上位文書であるトップページの条件と同一の文書クラスタに含まれる文書の条件とを含む文書クラスタの条件を指定する対象指定手段と、
前記記憶手段から前記複数の文書の前記文書本文、リンク情報及びアンカー文字列を読み出し、前記リンク情報と前記対象指定手段により指定された前記文書クラスタの条件とに基づき、与えられた文書が前記トップページであるか、トップページでないときは前記同一の文書クラスタに含まれる文書の条件に基づきどの文書クラスタに属する文書であるかの文書クラスタの特定を行う文書クラスタ特定手段と、
前記文書クラスタ特定手段により特定された前記文書クラスタのリンク情報に基づき、同一文書クラスタの複数の文書のそれぞれについて、各文書をリンク先文書としたとき、その文書クラスタ内の最上位文書までリンク元文書方向にリンクを遡って得られる各リンク元文書中の文字列であるアンカー文字列の系列をその文書のサイト内キーワードと決定し、前記文書クラスタの最上位文書に対してリンクしている別の文書クラスタ内の文書中の文字列であるアンカー文字列を前記文書クラスタの各文書のサイト外キーワードとして決定する決定手段と、
前記決定手段により決定された各文書の前記サイト内キーワードと前記サイト外キーワードとのうち、どのキーワードがどの文書中に出現するかを索引であるインデックスとして作成して記憶するインデックス作成及び記憶手段と、
検索条件を入力する入力手段と、
前記入力手段により入力された前記検索条件から検索に使うキーワードを決定し、その検索に使うキーワードが現れている前記文書を、前記インデックス作成及び記憶手段により記憶されている前記インデックスに基づいて検索結果候補として検索する検索手段と
を有することを特徴とする文書検索装置。An anchor that is a document text, link information, and a character string in a link source document of each of a plurality of hierarchized documents included in each of document clusters formed by a plurality of documents structured by hyperlinks Storage means storing at least a character string;
A target designating unit for designating a condition of a document cluster including a condition of a document included in the same document cluster as a condition of a top page which is a top-level document in the document cluster determined from a positional relationship in a directory hierarchy;
The document body of said plurality of documents from the storage means, reads the link information and the anchor character string, the based on the condition of the specified the document clusters by link information and the object specifying means, a given document is the either a top page, a document cluster specific means for performing certain which document of document clusters is a document belonging to a cluster based on the condition of the documents included in the same document clusters and if not the top page,
Based on the link information of the document cluster specified by the document cluster specifying means , when each document is a linked document for each of a plurality of documents in the same document cluster, the link source up to the highest level document in the document cluster determining the sequence of the anchor character string is a character string of each link source document in the resulting back links in the document direction as site keyword of the document, another linked with respect to the top-level document of the document clusters determining means for determining the anchors string as offsite keywords for each document in the document clusters is a character string in a document in the document cluster,
Index creation and storage means for creating and storing as an index an index which keyword appears in which document among the in- site keyword and the off-site keyword of each document determined by the determination means; ,
An input means for entering search conditions;
A keyword to be used for a search is determined from the search condition input by the input unit, and the document in which the keyword to be used for the search appears is searched based on the index stored by the index creation and storage unit. And a search means for searching as a candidate .
ディレクトリ階層における位置関係から定まる前記文書クラスタ内の最上位文書であるトップページの条件と同一の文書クラスタに含まれる文書の条件とを含む文書クラスタの条件を指定する対象指定手段と、
前記記憶手段から前記複数の文書の前記文書本文、リンク情報及びアンカー文字列を読み出し、前記リンク情報と前記対象指定手段により指定された前記文書クラスタの条件とに基づき、与えられた文書が前記トップページであるか、トップページでないときは前記同一の文書クラスタに含まれる文書の条件に基づきどの文書クラスタに属する文書であるかの文書クラスタの特定を行う文書クラスタ特定手段と、
前記文書クラスタ特定手段により特定された前記文書クラスタのリンク情報に基づき、同一文書クラスタの複数の文書のそれぞれについて、各文書をリンク先文書としたとき、その文書クラスタ内の最上位文書までリンク元文書方向にリンクを遡って得られる各リンク元文書中の文字列であるアンカー文字列の系列をその文書のサイト内キーワードと決定し、前記文書クラスタの最上位文書に対してリンクしている別の文書クラスタ内の文書中の文字列であるアンカー文字列を前記文書クラスタの各文書のサイト外キーワードとして決定する決定手段と、
前記決定手段により決定された各文書の前記サイト内キーワード及び前記サイト外キーワードが前記各文書中に出現する頻度又は出現の有無の情報を多次元ベクトルとして表現した文書ベクトルを作成する文書ベクトル作成手段と、
分類したいカテゴリについて、それぞれ特徴的なキーワードとその出現頻度が特徴ベクトルとして記憶されているカテゴリ条件記憶手段と、
前記文書ベクトル作成手段により作成された各文書の前記文書ベクトルについて、前記カテゴリ条件記憶手段に記憶されている各カテゴリの特徴ベクトルとの類似度計算を行う類似度計算手段と、
前記類似度計算結果に応じて、前記複数の文書を分類する分類手段と
を有することを特徴とする文書分類装置。Article for each body of a plurality of hierarchical documents with each document cluster that is formed by the structured plurality of documents in the hyperlink, the link information and indicates a link destination document and link source document of the document Storage means for storing at least an anchor character string that is a character string in a document from which the document is linked ;
A target designating unit for designating a condition of a document cluster including a condition of a document included in the same document cluster as a condition of a top page which is a top-level document in the document cluster determined from a positional relationship in a directory hierarchy;
The document body of said plurality of documents from the storage means, reads the link information and the anchor character string, the based on the condition of the specified the document clusters by link information and the object specifying means, a given document is the either a top page, a document cluster specific means for performing certain which document of document clusters is a document belonging to a cluster based on the condition of the documents included in the same document clusters and if not the top page,
Based on the link information of the document cluster specified by the document cluster specifying means , when each document is a linked document for each of a plurality of documents in the same document cluster, the link source up to the highest level document in the document cluster determining the sequence of the anchor character string is a character string of each link source document in the resulting back links in the document direction as site keyword of the document, another linked with respect to the top-level document of the document clusters determining means for determining the anchors string as offsite keywords for each document in the document clusters is a character string in a document in the document cluster,
Document vector creation means for creating a document vector that expresses, as a multidimensional vector, the frequency of occurrence or occurrence of occurrence of the in-site keyword and the off-site keyword of each document determined by the determination means. When,
Category condition storage means for storing a characteristic keyword and its appearance frequency as a feature vector for each category to be classified,
Similarity calculation means for calculating similarity between the document vector of each document created by the document vector creation means and the feature vector of each category stored in the category condition storage means;
Classification means for classifying the plurality of documents according to the similarity calculation result;
Document classification apparatus characterized by having a.
前記データ処理装置が、ディレクトリ階層における位置関係から定まる前記文書クラスタ内の最上位文書であるトップページの条件と同一の文書クラスタに含まれる文書の条件とを含む文書クラスタの条件を指定する対象指定ステップと、
前記データ処理装置が、前記読み出しステップで読み出された前記リンク情報と前記対象指定ステップにより指定された前記文書クラスタの条件とに基づき、与えられた文書が前記トップページであるか、トップページでないときは前記同一の文書クラスタに含まれる文書の条件に基づきどの文書クラスタに属する文書であるかの文書クラスタの特定を行う文書クラスタ特定ステップと、
前記データ処理装置が、前記文書クラスタ特定ステップにより特定された前記文書クラスタのリンク情報に基づき、同一文書クラスタの複数の文書のそれぞれについて、各文書をリンク先文書としたとき、その文書クラスタ内の最上位文書まで上位層であるリンク元文書方向にリンクを遡って得られる各リンク元文書中の文字列であるアンカー文字列の系列をその文書のサイト内キーワードと決定し、前記文書クラスタの最上位文書に対してリンクしている別の文書クラスタ内の文書中の文字列であるアンカー文字列を前記文書クラスタの各文書のサイト外キーワードとして決定する決定ステップと
を含むことを特徴とするキーワード決定方法。A data processing apparatus determines a document body, a link destination document and a link source document of each of a plurality of hierarchical documents included in each of document clusters formed by a plurality of documents structured by hyperlinks. the document body of the link information and the plurality of document anchor character string from a storage unit operable to store at least a string of the link of the document based on the document in shown, a reading step of to read out the link information and the anchor character string ,
Target specification for specifying a condition of a document cluster including a condition of a top page that is the top document in the document cluster and a condition of a document included in the same document cluster determined by the data processing apparatus based on a positional relationship in a directory hierarchy Steps,
Wherein the data processing device, based on the condition of the document clusters designated by said object designating step and the link information read by said reading step, whether a given document is the top page, the top page If not , a document cluster specifying step of specifying a document cluster as to which document cluster belongs based on the conditions of the documents included in the same document cluster ;
When each of the data processing devices sets each document as a link destination document for each of a plurality of documents in the same document cluster based on the link information of the document cluster specified in the document cluster specifying step , A series of anchor character strings, which are character strings in each link source document obtained by going back to the link source document direction that is the upper layer up to the highest document, is determined as a keyword in the site of the document, and the top of the document cluster is determined. characterized in that it comprises a determining step of determining the anchors string is a character string in a document in another document clusters linked by relative level document as offsite keywords for each document in the document clusters Keyword decision method.
前記データ処理装置が、ディレクトリ階層における位置関係から定まる前記文書クラスタ内の最上位文書であるトップページの条件と同一の文書クラスタに含まれる文書の条件とを含む文書クラスタの条件を指定する対象指定ステップと、
前記データ処理装置が、前記読み出しステップで読み出された前記リンク情報と前記対象指定ステップにより指定された前記文書クラスタの条件とに基づき、与えられた文書が前記トップページであるか、トップページでないときは前記同一の文書クラスタに含まれる文書の条件に基づきどの文書クラスタに属する文書であるかの文書クラスタの特定を行う文書クラスタ特定ステップと、
前記データ処理装置が、前記文書クラスタ特定ステップにより特定された前記文書クラスタのリンク情報に基づき、同一文書クラスタの複数の文書のそれぞれについて、各文書をリンク先文書としたとき、その文書クラスタ内の最上位文書まで上位層であるリンク元文書方向にリンクを遡って得られる各リンク元文書中の文字列であるアンカー文字列の系列をその文書のサイト内キーワードと決定し、前記文書クラスタの最上位文書に対してリンクしている別の文書クラスタ内の文書中の文字列であるアンカー文字列を前記文書クラスタの各文書のサイト外キーワードとして決定する決定ステップと、
前記データ処理装置が、前記決定ステップにより決定された各文書の前記サイト内キーワードと前記サイト外キーワードとのうち、どのキーワードがどの文書中に出現するかを索引であるインデックスとして作成して記憶するインデックス作成及び記憶ステップと、
入力手段により検索条件を入力する入力ステップと、
前記データ処理装置が、入力された前記検索条件から検索に使うキーワードを決定し、その検索に使うキーワードが現れている前記文書を、前記インデックス作成及び記憶ステップにより記憶されている前記インデックスに基づいて検索結果候補として検索する検索ステップと
を含むことを特徴とする文書検索方法。A data processing apparatus determines a document body, a link destination document and a link source document of each of a plurality of hierarchical documents included in each of document clusters formed by a plurality of documents structured by hyperlinks. the document body of the link information and the plurality of document anchor character string from a storage unit operable to store at least a string of the link of the document based on the document in shown, a reading step of to read out the link information and the anchor character string ,
Target specification for specifying a condition of a document cluster including a condition of a top page that is the top document in the document cluster and a condition of a document included in the same document cluster determined by the data processing apparatus based on a positional relationship in a directory hierarchy Steps,
Based on the link information read in the reading step and the condition of the document cluster specified in the target specifying step, the given data processing device is the top page or not the top page a document clusters specifying step of performing any specific document or document clusters is a document belonging to a cluster based on the condition of the documents included in the same document clusters when,
When the data processing apparatus sets each document as a link destination document for each of a plurality of documents in the same document cluster based on the link information of the document cluster specified in the document cluster specifying step , A series of anchor character strings, which are character strings in each link source document obtained by tracing back the link in the direction of the link source document, which is the upper layer up to the top document, is determined as a keyword in the site of the document, and the top of the document cluster is determined. a determination step of determining a anchors string is a character string in a document in another document clusters linked by relative level document as offsite keywords for each document in the document clusters,
The data processing device creates and stores as an index an index which keyword appears in which document among the in- site keyword and the off-site keyword of each document determined in the determining step. Indexing and storage steps;
An input step for inputting a search condition by an input means;
The data processing device determines a keyword to be used for a search from the inputted search condition, and the document on which the keyword to be used for the search appears is based on the index stored by the index creation and storage step. A document search method comprising: a search step for searching as a search result candidate .
前記データ処理装置が、ディレクトリ階層における位置関係から定まる前記文書クラスタ内の最上位文書であるトップページの条件と同一の文書クラスタに含まれる文書の条件とを含む文書クラスタの条件を指定する対象指定ステップと、
前記データ処理装置が、前記読み出しステップで読み出された前記リンク情報と前記対象指定ステップにより指定された前記文書クラスタの条件とに基づき、与えられた文書が前記トップページであるか、トップページでないときは前記同一の文書クラスタに含まれる文書の条件に基づきどの文書クラスタに属する文書であるかの文書クラスタの特定を行う文書クラスタ特定ステップと、
前記データ処理装置が、前記文書クラスタ特定ステップにより特定された前記文書クラスタのリンク情報に基づき、同一文書クラスタの複数の文書のそれぞれについて、各文書をリンク先文書としたとき、その文書クラスタ内の最上位文書まで上位層であるリンク元文書方向にリンクを遡って得られる各リンク元文書中の文字列であるアンカー文字列の系列をその文書のサイト内キーワードと決定し、前記文書クラスタの最上位文書に対してリンクしている別の文書クラスタ内の文書中の文字列であるアンカー文字列を前記文書クラスタの各文書のサイト外キーワードとして決定する決定ステップと、
前記データ処理装置が、前記決定ステップにより決定された各文書の前記サイト内キーワード及び前記サイト外キーワードが前記各文書中に出現する頻度又は出現の有無の情報を多次元ベクトルとして表現した文書ベクトルを作成する文書ベクトル作成ステップと、
前記データ処理装置が、分類したいカテゴリについて、それぞれ特徴的なキーワードとその出現頻度が特徴ベクトルとして記憶されているカテゴリ条件記憶手段から読み出した前記特徴ベクトルと前記文書ベクトル作成ステップにより作成された各文書の前記文書ベクトルとの類似度計算を行う類似度計算ステップと、
前記データ処理装置が、前記類似度計算ステップによる類似度計算結果に応じて、前記複数の文書を分類する分類ステップと
を含むことを特徴とする文書分類方法。 A data processing apparatus determines a document body, a link destination document and a link source document of each of a plurality of hierarchical documents included in each of document clusters formed by a plurality of documents structured by hyperlinks. the document body of the link information and the plurality of document anchor character string from a storage unit operable to store at least a string of the link of the document based on the document in shown, a reading step of to read out the link information and the anchor character string ,
Target specification for specifying a condition of a document cluster including a condition of a top page that is the top document in the document cluster and a condition of a document included in the same document cluster determined by the data processing apparatus based on a positional relationship in a directory hierarchy Steps,
Based on the link information read in the reading step and the condition of the document cluster specified in the target specifying step, the given data processing device is the top page or not the top page a document clusters specifying step of performing any specific document or document clusters is a document belonging to a cluster based on the condition of the documents included in the same document clusters when,
When each of the data processing devices sets each document as a link destination document for each of a plurality of documents in the same document cluster based on the link information of the document cluster specified in the document cluster specifying step , A series of anchor character strings, which are character strings in each link source document obtained by going back to the link source document direction that is the upper layer up to the highest document, is determined as a keyword in the site of the document, and a determination step of determining a anchors string is a character string in a document in another document clusters linked by relative level document as offsite keywords for each document in the document clusters,
A document vector in which the data processing device expresses, as a multidimensional vector, information on the frequency or presence / absence of appearance of the in-site keyword and the off-site keyword of each document determined in the determining step. A document vector creation step to be created;
Each document created by the document vector creation step and the feature vector read from the category condition storage means in which the characteristic keyword and its appearance frequency are stored as a feature vector for the category to be classified by the data processing device. A similarity calculation step for calculating a similarity with the document vector of
A classification step in which the data processing device classifies the plurality of documents according to a similarity calculation result in the similarity calculation step;
Document classification method, which comprises a.
ハイパーリンクで構造化された複数の文書により形成されている文書クラスタのそれぞれが備える階層化された複数の文書のそれぞれについて文書本文、その文書のリンク先文書とリンク元文書を示すリンク情報及びその文書のリンク元文書中の文字列であるアンカー文字列を少なくとも記憶している記憶手段から前記複数の文書の前記文書本文、リンク情報及びアンカー文字列を読み出す読み出しステップと、
ディレクトリ階層における位置関係から定まる前記文書クラスタ内の最上位文書であるトップページの条件と同一の文書クラスタに含まれる文書の条件とを含む文書クラスタの条件を指定する対象指定ステップと、
前記読み出しステップで読み出された前記リンク情報と前記対象指定ステップにより指定された前記文書クラスタの条件とに基づき、与えられた文書が前記トップページであるか、トップページでないときは前記同一の文書クラスタに含まれる文書の条件に基づきどの文書クラスタに属する文書であるかの文書クラスタの特定を行う文書クラスタ特定ステップと、
前記文書クラスタ特定ステップにより特定された前記文書クラスタのリンク情報に基づき、同一文書クラスタの複数の文書のそれぞれについて、各文書をリンク先文書としたとき、その文書クラスタ内の最上位文書まで上位層であるリンク元文書方向にリンクを遡って得られる各リンク元文書中の文字列であるアンカー文字列の系列をその文書のサイト内キーワードと決定し、前記文書クラスタの最上位文書に対してリンクしている別の文書クラスタ内の文書中の文字列であるアンカー文字列を前記文書クラスタの各文書のサイト外キーワードとして決定する決定ステップと
を実行させることを特徴とするキーワード決定プログラム。 The computer in the data processing device,
Article for each body of a plurality of hierarchical documents with each document cluster that is formed by the structured plurality of documents in the hyperlink, the link information and indicates a link destination document and link source document of the document a reading step of to read out the document body, link information and anchor character string of the plurality of documents from the storage means for storing at least an anchor character string is a string of link source document in the document,
A target designating step for designating a condition of a document cluster including a condition of a document included in the same document cluster as a condition of a top page that is a top-level document in the document cluster determined from a positional relationship in a directory hierarchy;
Based on the condition of the specified the document clusters by the target designation step and the link information read by said reading step, whether a given document is the top page, and if not the top page of the same a document clusters specifying step of performing any specific document is a document belonging to a cluster of document clusters based on the condition of the documents included in the document clusters,
Based on the link information of the document cluster specified by the document cluster specifying step , when each document is a linked document for each of a plurality of documents in the same document cluster, the upper layer up to the highest level document in the document cluster the sequence of the anchor character string and determines the site keywords of the document is a character string of each link source document in the resultant is back links in the link source document direction is, link to the top-level document of the document clusters a determination step of determining a anchors string is a character string in a document in another document clusters you are as off-site keywords for each document in the document clusters
A keyword determination program characterized by causing
ハイパーリンクで構造化された複数の文書により形成されている文書クラスタのそれぞれが備える階層化された複数の文書のそれぞれについて文書本文、その文書のリンク先文書とリンク元文書を示すリンク情報及びその文書のリンク元文書中の文字列であるアンカー文字列を少なくとも記憶している記憶手段から前記複数の文書の前記文書本文、リンク情報及びアンカー文字列を読み出す読み出しステップと、
ディレクトリ階層における位置関係から定まる前記文書クラスタ内の最上位文書であるトップページの条件と同一の文書クラスタに含まれる文書の条件とを含む文書クラスタの条件を指定する対象指定ステップと、
前記読み出しステップで読み出された前記リンク情報と前記対象指定ステップにより指定された前記文書クラスタの条件とに基づき、与えられた文書が前記トップページであるか、トップページでないときは前記同一の文書クラスタに含まれる文書の条件に基づきどの文書クラスタに属する文書であるかの文書クラスタの特定を行う文書クラスタ特定ステップと、
前記文書クラスタ特定ステップにより特定された前記文書クラスタのリンク情報に基づき、同一文書クラスタの複数の文書のそれぞれについて、各文書をリンク先文書としたとき、その文書クラスタ内の最上位文書まで上位層であるリンク元文書方向にリンクを遡って得られる各リンク元文書中の文字列であるアンカー文字列の系列をその文書のサイト内キーワードと決定し、前記文書クラスタの最上位文書に対してリンクしている別の文書クラスタ内の文書中の文字列であるアンカー文字列を前記文書クラスタの各文書のサイト外キーワードとして決定する決定ステップと、
前記決定ステップにより決定された各文書の前記サイト内キーワードと前記サイト外キーワードとのうち、どのキーワードがどの文書中に出現するかを索引であるインデックスとして作成してインデックス記憶手段に記憶するインデックス作成及び記憶ステップと、
検索条件を入力する入力ステップと、
入力された前記検索条件から検索に使うキーワードを決定し、その検索に使うキーワードが現れている前記文書を、前記インデックス記憶手段から読み出した前記インデックスに基づいて検索結果候補として検索する検索ステップと
を実行させることを特徴とする文書検索プログラム。 The computer in the data processing device,
Article for each body of a plurality of hierarchical documents with each document cluster that is formed by the structured plurality of documents in the hyperlink, the link information and indicates a link destination document and link source document of the document a reading step of to read out the document body, link information and anchor character string of the plurality of documents from the storage means for storing at least an anchor character string is a string of link source document in the document,
A target designating step for designating a condition of a document cluster including a condition of a document included in the same document cluster as a condition of a top page that is a top-level document in the document cluster determined from a positional relationship in a directory hierarchy;
Based on the link information read in the reading step and the condition of the document cluster specified in the target specifying step, if the given document is the top page or not the top page, the same document a document clusters specifying step of performing certain of document clusters is a document belonging to any document clusters based on the condition of the documents included in the cluster,
Based on the link information of the document cluster specified in the document cluster specifying step , when each document is a linked document for each of a plurality of documents in the same document cluster, the uppermost layer up to the topmost document in the document cluster the sequence of the anchor character string and determines the site keywords of the document is a character string of each link source document in the resultant is back links in the link source document direction is, link to the top-level document of the document clusters a determination step of determining a anchors string as offsite keywords for each document in the document clusters is a character string in a document in another document clusters you are,
Index creation that creates an index as an index indicating which keyword appears in which document among the in-site keyword and the off-site keyword of each document determined in the determination step, and stores it in an index storage means And a memory step;
An input step for entering search criteria;
A search step of determining a keyword to be used for a search from the input search condition and searching for the document in which the keyword to be used for the search appears as a search result candidate based on the index read from the index storage unit ;
A document search program characterized in that is executed .
ハイパーリンクで構造化された複数の文書により形成されている文書クラスタのそれぞれが備える階層化された複数の文書のそれぞれについて文書本文、その文書のリンク先文書とリンク元文書を示すリンク情報及びその文書のリンク元文書中の文字列であるアンカー文字列を少なくとも記憶している記憶手段から前記複数の文書の前記文書本文、リンク情報及びアンカー文字列を読み出す読み出しステップと、
ディレクトリ階層における位置関係から定まる前記文書クラスタ内の最上位文書であるトップページの条件と同一の文書クラスタに含まれる文書の条件とを含む文書クラスタの条件を指定する対象指定ステップと、
前記読み出しステップで読み出された前記リンク情報と前記対象指定ステップにより指定された前記文書クラスタの条件とに基づき、与えられた文書が前記トップページであるか、トップページでないときは前記同一の文書クラスタに含まれる文書の条件に基づきどの文書クラスタに属する文書であるかの文書クラスタの特定を行う文書クラスタ特定ステップと、
前記文書クラスタ特定ステップにより特定された前記文書クラスタのリンク情報に基づき、同一文書クラスタの複数の文書のそれぞれについて、各文書をリンク先文書としたとき、その文書クラスタ内の最上位文書まで上位層であるリンク元文書方向にリンクを遡って得られる各リンク元文書中の文字列であるアンカー文字列の系列をその文書のサイト内キーワードと決定し、前記文書クラスタの最上位文書に対してリンクしている別の文書クラスタ内の文書中の文字列であるアンカー文字列を前記文書クラスタの各文書のサイト外キーワードとして決定する決定ステップと、
前記決定ステップにより決定された各文書の前記サイト内キーワード及び前記サイト外キーワードが前記各文書中に出現する頻度又は出現の有無の情報を多次元ベクトルとして表現した文書ベクトルを作成する文書ベクトル作成ステップと、
分類したいカテゴリについて、それぞれ特徴的なキーワードとその出現頻度が特徴ベクトルとして記憶されているカテゴリ条件記憶手段から読み出した前記特徴ベクトルと前記文書ベクトル作成ステップにより作成された各文書の前記文書ベクトルとの類似度計算を行う類似度計算ステップと、
前記類似度計算ステップによる類似度計算結果に応じて、前記複数の文書を分類する分類ステップと
を実行させることを特徴とする文書分類プログラム。 In the computer in the data processor,
Article for each body of a plurality of hierarchical documents with each document cluster that is formed by the structured plurality of documents in the hyperlink, the link information and indicates a link destination document and link source document of the document a reading step of to read out the document body, link information and anchor character string of the plurality of documents from the storage means for storing at least an anchor character string is a string of link source document in the document,
A target designating step for designating a condition of a document cluster including a condition of a document included in the same document cluster as a condition of a top page that is a top-level document in the document cluster determined from a positional relationship in a directory hierarchy;
Based on the link information read in the reading step and the condition of the document cluster specified in the target specifying step, if the given document is the top page or not the top page, the same document a document clusters specifying step of performing certain of document clusters is a document belonging to any document clusters based on the condition of the documents included in the cluster,
Based on the link information of the document cluster specified by the document cluster specifying step , when each document is a linked document for each of a plurality of documents in the same document cluster, the upper layer up to the highest level document in the document cluster the sequence of the anchor character string and determines the site keywords of the document is a character string of each link source document in the resultant is back links in the link source document direction is, link to the top-level document of the document clusters a determination step of determining a anchors string as offsite keywords for each document in the document clusters is a character string in a document in another document clusters you are,
A document vector creation step of creating a document vector that expresses information on the frequency or occurrence of occurrence of the in-site keyword and the off-site keyword of each document determined in the determination step as a multidimensional vector. When,
For each category to be classified, a characteristic keyword and its appearance frequency are stored as a feature vector between the feature vector read from the category condition storage means and the document vector of each document created by the document vector creation step. A similarity calculation step for calculating the similarity,
A classification step for classifying the plurality of documents according to a similarity calculation result obtained by the similarity calculation step;
Features and to Rubun document classification program that is running.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002236195A JP4423841B2 (en) | 2002-08-14 | 2002-08-14 | Keyword determination device, determination method, document search device, search method, document classification device, classification method, and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002236195A JP4423841B2 (en) | 2002-08-14 | 2002-08-14 | Keyword determination device, determination method, document search device, search method, document classification device, classification method, and program |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2008287280A Division JP4826622B2 (en) | 2008-11-10 | 2008-11-10 | Document search apparatus, search method and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2004078446A JP2004078446A (en) | 2004-03-11 |
| JP4423841B2 true JP4423841B2 (en) | 2010-03-03 |
Family
ID=32020441
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2002236195A Expired - Fee Related JP4423841B2 (en) | 2002-08-14 | 2002-08-14 | Keyword determination device, determination method, document search device, search method, document classification device, classification method, and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4423841B2 (en) |
Families Citing this family (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPWO2005121982A1 (en) * | 2004-06-14 | 2008-04-10 | 日本電気株式会社 | Information providing system, method, program, information communication terminal, and information display switching program |
| JP4756953B2 (en) * | 2005-08-26 | 2011-08-24 | 富士通株式会社 | Information search apparatus and information search method |
| JP4983401B2 (en) * | 2007-05-25 | 2012-07-25 | 富士ゼロックス株式会社 | Information processing apparatus and control program |
| KR100994349B1 (en) * | 2009-02-12 | 2010-11-12 | 엔에이치엔(주) | Search Modeling System and Method Using Association Map |
| JP5133946B2 (en) * | 2009-06-18 | 2013-01-30 | ヤフー株式会社 | Information search apparatus and information search method |
| US8959091B2 (en) * | 2009-07-30 | 2015-02-17 | Alcatel Lucent | Keyword assignment to a web page |
| WO2014141452A1 (en) * | 2013-03-14 | 2014-09-18 | 株式会社 東芝 | Document analysis device, and document analysis program |
| CN107066626A (en) * | 2017-05-15 | 2017-08-18 | 惠州市德赛工业研究院有限公司 | A kind of terminal collection file download storage, sort management method and device |
| JP2020204988A (en) * | 2019-06-19 | 2020-12-24 | 株式会社コムスクエア | Operator support system, operator support method, and operator support program |
| CN118043801A (en) * | 2021-10-04 | 2024-05-14 | 富士通株式会社 | Processing method, processing program, and information processing device |
-
2002
- 2002-08-14 JP JP2002236195A patent/JP4423841B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2004078446A (en) | 2004-03-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Chang et al. | Automatic information extraction from semi-structured web pages by pattern discovery | |
| Wang et al. | Data-rich section extraction from html pages | |
| Lage et al. | Automatic generation of agents for collecting hidden web pages for data extraction | |
| US6738759B1 (en) | System and method for performing similarity searching using pointer optimization | |
| Wei et al. | A survey of faceted search | |
| Fernandez et al. | Semantic search meets the web | |
| US7676745B2 (en) | Document segmentation based on visual gaps | |
| JP4637181B2 (en) | Displaying search results based on document structure | |
| US20090248707A1 (en) | Site-specific information-type detection methods and systems | |
| CN105912633A (en) | Sparse sample-oriented focus type Web information extraction system and method | |
| EP1218831A1 (en) | System and method for performing similarity searching | |
| JP2008538019A (en) | System and method for generating linked classification structures | |
| Caverlee et al. | Probe, cluster, and discover: Focused extraction of qa-pagelets from the deep web | |
| WO2009079875A1 (en) | Systems and methods for extracting phrases from text | |
| JP4423841B2 (en) | Keyword determination device, determination method, document search device, search method, document classification device, classification method, and program | |
| JP4826622B2 (en) | Document search apparatus, search method and program | |
| JP2001184358A (en) | Information retrieval apparatus, information retrieval method and program recording medium using category factor | |
| Srinath | An overview of web content mining techniques | |
| Jakob et al. | Dcbot: Finding spatial information on the web | |
| Chen et al. | White page construction from web pages for finding people on the Internet | |
| Qiu et al. | Detection and optimized disposal of near-duplicate pages | |
| KR100555982B1 (en) | Information retrieval system for documents written in extended markup language, computer readable recording medium having recorded thereon methods and methods thereof | |
| Chang et al. | A tool for associative text analysis to enhance efficiency in exploring historical texts | |
| Wang | Information extraction and integration for Web databases | |
| Kumar et al. | Enhancing the Search Results through Web Structure Mining Using Frequent Pattern Analysis and Linear Correlation Method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050720 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080909 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081110 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090602 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090826 |
|
| A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20090914 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091117 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091130 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121218 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121218 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131218 Year of fee payment: 4 |
|
| LAPS | Cancellation because of no payment of annual fees |