JP5116775B2 - 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 - Google Patents
情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 Download PDFInfo
- Publication number
- JP5116775B2 JP5116775B2 JP2009542497A JP2009542497A JP5116775B2 JP 5116775 B2 JP5116775 B2 JP 5116775B2 JP 2009542497 A JP2009542497 A JP 2009542497A JP 2009542497 A JP2009542497 A JP 2009542497A JP 5116775 B2 JP5116775 B2 JP 5116775B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- word
- document
- information
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
Gerard Salton and Chris Buckley, Term Weighting Approaches in Automatic Text Retrieval, Information Processing and Management: an International Journal, Pages: 513-523 Vol.24, Issue 5, 1988. Stephen E. Robertson, Steve Walker, Micheline Hancock-Beaulieu, Asrron Gull, and Marianna Lau. Okapi at TREC3. In text Retrieval Conference, pages 21-30, 1992. Tao Tao and ChengXiang Zhai. An exploration of proximity measures in information retrieval. In SIGIR '07: Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval, pp.295-302. New York, NY, USA, 2007. ACM Press.
文字列を分割して得た単語の集合をQとし、Pos d (q i )を文書d中の単語q i の出現位置とし、Pos dk (q j )を文書d中の単語q j の出現位置からk減算した値とし、kを所定のカウンタ値とし、αを所定の係数とし、Count(Pos,Pos)を、2つの位置データが与えられた時に、その一致度を返す関数とした場合に、
前記類似度算出手段は、単語の出現位置間の一致度score(Q,d,k)を
2 文字列情報検索部、文字列情報検索手段
3,3' 文字列インデックスDB
4,4' 類似度算出部、類似度算出手段
5 クライアント出力部、出力手段
6 文字列選択部
10 情報検索装置
12 近接未考慮単語リスト記憶部
14 文書保存DB
20 クライアント
30 ネットワーク
41 単語重要度類似度算出部
42 単語頻度類似度算出部
43 単語位置類似度算出部
上記で入力された文字列が2単語(形態素)以上であった時に、近接していることを利用した類似度の算出方法を説明した。しかしながら、必ずしも近接していることが精度向上に繋がるとは言えない。例えば、"レストラン名 電話番号"という文字列が検索条件として入力された場合、"レストラン名 電話番号"を探しているわけではなく、あるレストランのページで「電話番号」という文字列が存在しているページを提示するだけでよい可能性がある。そこで、本実施の形態では、その検索条件として入力された単語が、近接を考慮するか否かを判断する。
入力された文字列が2単語で構成される場合に、文単位の単語出現位置情報のみを用いた近接処理では、複合語を判別できないので、検索精度が低下する恐れがある。そこで、本実施の形態では、2単語で構成される語の連接処理を単語出現位置情報が文単位で保存されている場合に実現する方法を説明する。
Claims (12)
- クライアントからの文字列を取得する文字列入力手段と、該文字列が含まれる情報をインデックスDBから取得する文字列情報検索手段と、該文字列と検索された情報との類似度を算出する類似度算出手段と、類似度の高い順に検索された情報を出力する出力手段と、を有する情報検索装置であって、
前記文字列情報検索手段は、
入力された前記文字列が複数の単語からなる場合に、各単語に基づいて、単語及び該単語の文書中における文単位での出現位置を格納したインデックスDBを検索し、各単語を含む文書dと当該文書dでの各単語の出現位置を取得し、
文字列を分割して得た単語の集合をQとし、Pos d (q i )を文書d中の単語q i の出現位置とし、Pos dk (q j )を文書d中の単語q j の出現位置からk減算した値とし、kを所定のカウンタ値とし、αを所定の係数とし、Count(Pos,Pos)を、2つの位置データが与えられた時に、その一致度を返す関数とした場合に、
前記類似度算出手段は、
単語の出現位置間の一致度score(Q,d,k)を
により算出し、当該一致度score(Q,d,k)に基づいて類似度を算出することを特徴とする情報検索装置。 - 前記インデックスDBは、
各単語の出現位置をビット列で表現し、
前記文字列情報検索手段は、
前記インデックスDBを検索し、前記ビット列による単語の出現位置を取得する手段を含み、
前記類似度算出手段は、
前記インデックスDBの前記出現位置のビット列を用いてビットの論理演算により類似度を求める手段を含む請求項1又は2に記載の情報検索装置。 - 前記入力された前記文字列が複数の単語からなる場合に、該単語に基づいて、近接を考慮しない単語が登録されている近接未考慮単語リスト記憶手段を参照して、該単語が該近接未考慮単語リスト記憶手段に存在する場合は近接を考慮しない単語と判断する文字列選択手段を更に有し、
前記文字列情報検索手段は、
前記文字列選択手段において、近接を考慮しない単語であると判断された単語については、全ての文に該単語が存在することとして前記インデックスDBを検索する手段を含む請求項1又は2に記載の情報検索装置。 - 前記文字列情報検索手段は、
前記入力された文字列から得られた複数の単語に基づいて、前記インデックスDBを検索し、当該複数の単語が存在する文のIDを検出し、文書保存DBから当該IDに対応する文を検索し、当該文に該入力された文字列が存在している場合のみ検索結果を前記類似度算出手段に出力する連接確認手段を更に有する請求項1又は2に記載の情報検索装置。 - クライアントからの文字列を取得し、該文字列が含まれる情報をインデックスDBから取得し、該文字列と検索された情報との類似度を算出し、類似度の高い順に検索された情報を出力する装置における情報検索方法であって、
文字列情報検索手段が、入力された前記文字列が複数の単語からなる場合に、各単語に基づいて、単語及び該単語の文書中における文単位での出現位置を格納したインデックスDBを検索し、各単語を含む文書dと当該文書dでの各単語の出現位置を取得する文字列情報検索ステップと、
文字列を分割して得た単語の集合をQとし、Pos d (q i )を文書d中の単語q i の出現位置とし、Pos dk (q j )を文書d中の単語q j の出現位置からk減算した値とし、kを所定のカウンタ値とし、αを所定の係数とし、Count(Pos,Pos)を、2つの位置データが与えられた時に、その一致度を返す関数とした場合に、類似度算出手段が、単語の出現位置間の一致度score(Q,d,k)を
により算出し、当該一致度score(Q,d,k)に基づいて類似度を算出する類似度算出ステップと、
を有することを特徴とする情報検索方法。 - 前記インデックスDBは、
各単語の出現位置をビット列で表現し、
前記文字列情報検索ステップにおいて、
前記文字列情報検索手段は、前記インデックスDBを検索し、前記ビット列による単語の出現位置を取得し、
前記類似度算出ステップにおいて、
前記類似度算出手段は、前記インデックスDBの前記出現位置のビット列を用いてビットの論理演算により類似度を求める請求項6又は7に記載の情報検索方法。 - 前記入力された前記文字列が複数の単語からなる場合に、該単語に基づいて、近接を考慮しない単語が登録されている近接未考慮単語リスト記憶手段を参照して、該単語が該近接未考慮単語リスト記憶手段に存在する場合は近接を考慮しない単語と判断する文字列選択ステップを更に有し、
前記文字列情報検索ステップにおいて、
前記文字列情報検索手段は、前記文字列選択ステップにおいて、近接を考慮しない単語であると判断された単語については、全ての文に該単語が存在することとして前記インデックスDBを検索する請求項6又は7に記載の情報検索方法。 - 前記文字列情報検索ステップにおいて、
前記文字列情報検索手段は、前記入力された文字列から得られた複数の単語に基づいて、前記インデックスDBを検索し、当該複数の単語が存在する文のIDを検出し、文書保存DBから当該IDに対応する文を検索し、当該文に該入力された文字列が存在している場合のみ検索結果を前記類似度算出手段に出力する請求項6又は7に記載の情報検索方法。 - 請求項1乃至5のいずれか1項に記載の情報検索装置を構成する各手段としてコンピュータを機能させる情報検索プログラム。
- 請求項11に記載の情報検索プログラムを格納したコンピュータ読取可能な記録媒体。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009542497A JP5116775B2 (ja) | 2007-11-19 | 2008-09-10 | 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 |
Applications Claiming Priority (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007299784 | 2007-11-19 | ||
| JP2007299784 | 2007-11-19 | ||
| PCT/JP2008/066356 WO2009066501A1 (ja) | 2007-11-19 | 2008-09-10 | 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 |
| JP2009542497A JP5116775B2 (ja) | 2007-11-19 | 2008-09-10 | 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPWO2009066501A1 JPWO2009066501A1 (ja) | 2011-04-07 |
| JP5116775B2 true JP5116775B2 (ja) | 2013-01-09 |
Family
ID=40667330
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2009542497A Active JP5116775B2 (ja) | 2007-11-19 | 2008-09-10 | 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US8909654B2 (ja) |
| JP (1) | JP5116775B2 (ja) |
| WO (1) | WO2009066501A1 (ja) |
Families Citing this family (28)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8443278B2 (en) | 2009-01-02 | 2013-05-14 | Apple Inc. | Identification of tables in an unstructured document |
| US8612431B2 (en) * | 2009-02-13 | 2013-12-17 | International Business Machines Corporation | Multi-part record searches |
| JP5389538B2 (ja) * | 2009-06-05 | 2014-01-15 | 日本電信電話株式会社 | 検索結果ランキング方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 |
| CN101957828B (zh) * | 2009-07-20 | 2013-03-06 | 阿里巴巴集团控股有限公司 | 一种对搜索结果进行排序的方法和装置 |
| US10956475B2 (en) * | 2010-04-06 | 2021-03-23 | Imagescan, Inc. | Visual presentation of search results |
| US8463797B2 (en) * | 2010-07-20 | 2013-06-11 | Barracuda Networks Inc. | Method for measuring similarity of diverse binary objects comprising bit patterns |
| US9727641B2 (en) * | 2013-04-25 | 2017-08-08 | Entit Software Llc | Generating a summary based on readability |
| JP6152711B2 (ja) * | 2013-06-04 | 2017-06-28 | 富士通株式会社 | 情報検索装置および情報検索方法 |
| US10372739B2 (en) * | 2014-03-17 | 2019-08-06 | NLPCore LLC | Corpus search systems and methods |
| US10102274B2 (en) * | 2014-03-17 | 2018-10-16 | NLPCore LLC | Corpus search systems and methods |
| US9600542B2 (en) * | 2014-06-27 | 2017-03-21 | Sap Se | Fuzzy substring search |
| US10915543B2 (en) | 2014-11-03 | 2021-02-09 | SavantX, Inc. | Systems and methods for enterprise data search and analysis |
| CN107102998A (zh) * | 2016-02-22 | 2017-08-29 | 阿里巴巴集团控股有限公司 | 一种字符串距离计算方法和装置 |
| JP6740845B2 (ja) * | 2016-10-07 | 2020-08-19 | 富士通株式会社 | 文書符号化プログラム、情報処理装置および文書符号化方法 |
| JP6805720B2 (ja) * | 2016-10-21 | 2020-12-23 | 富士通株式会社 | データ検索プログラム、データ検索装置およびデータ検索方法 |
| WO2018096686A1 (ja) * | 2016-11-28 | 2018-05-31 | 富士通株式会社 | 検証プログラム、検証装置、検証方法、インデックス生成プログラム、インデックス生成装置およびインデックス生成方法 |
| EP3590053A4 (en) * | 2017-02-28 | 2020-11-25 | SavantX, Inc. | SYSTEM AND METHOD OF ANALYSIS AND DATA TRAVEL |
| US11328128B2 (en) | 2017-02-28 | 2022-05-10 | SavantX, Inc. | System and method for analysis and navigation of data |
| JP7059516B2 (ja) | 2017-03-29 | 2022-04-26 | 富士通株式会社 | 符号化プログラム、符号化装置および符号化方法 |
| CN108959440A (zh) * | 2018-06-13 | 2018-12-07 | 福建新大陆软件工程有限公司 | 一种短信聚类方法及装置 |
| US11151325B2 (en) * | 2019-03-22 | 2021-10-19 | Servicenow, Inc. | Determining semantic similarity of texts based on sub-sections thereof |
| JP6710007B1 (ja) * | 2019-04-26 | 2020-06-17 | Arithmer株式会社 | 対話管理サーバ、対話管理方法、及びプログラム |
| CN110633356B (zh) * | 2019-09-04 | 2022-05-20 | 广州市巴图鲁信息科技有限公司 | 一种词语相似度计算方法、装置以及存储介质 |
| JP7377524B2 (ja) * | 2019-12-06 | 2023-11-10 | アイビーリサーチ株式会社 | 入力支援装置、入力支援システム及びプログラム |
| CN111950272B (zh) * | 2020-06-23 | 2023-06-27 | 北京百度网讯科技有限公司 | 文本相似度的生成方法、装置及电子设备 |
| WO2022219804A1 (ja) * | 2021-04-16 | 2022-10-20 | 三菱電機株式会社 | 情報処理装置、作成方法、及び作成プログラム |
| CN116127101A (zh) * | 2022-07-05 | 2023-05-16 | 马上消费金融股份有限公司 | 文本检索方法、装置、电子设备及存储介质 |
| CN116578666B (zh) * | 2023-07-12 | 2023-09-22 | 拓尔思信息技术股份有限公司 | 段句位的倒排索引结构设计及其限定运算全文检索的方法 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000242646A (ja) * | 1999-02-18 | 2000-09-08 | Real World Computing Partnership | 情報検索方法及び情報検索装置 |
| JP2004094387A (ja) * | 2002-08-29 | 2004-03-25 | Chubu Electric Power Co Inc | 特定情報検索方法および情報検索装置 |
| JP2005215716A (ja) * | 2004-01-27 | 2005-08-11 | Hitachi Ltd | テキスト検索方法 |
| JP2007004458A (ja) * | 2005-06-23 | 2007-01-11 | National Institute Of Information & Communication Technology | 二項関係抽出装置,二項関係抽出処理を用いた情報検索装置,二項関係抽出処理方法,二項関係抽出処理を用いた情報検索処理方法,二項関係抽出処理プログラム,および二項関係抽出処理を用いた情報検索処理プログラム |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH1049549A (ja) * | 1996-05-29 | 1998-02-20 | Matsushita Electric Ind Co Ltd | 文書検索装置 |
| US7003516B2 (en) * | 2002-07-03 | 2006-02-21 | Word Data Corp. | Text representation and method |
| US8166033B2 (en) * | 2003-02-27 | 2012-04-24 | Parity Computing, Inc. | System and method for matching and assembling records |
| CN100437561C (zh) * | 2003-12-17 | 2008-11-26 | 国际商业机器公司 | 电子文档的处理方法和装置及其系统 |
-
2008
- 2008-09-10 US US12/742,442 patent/US8909654B2/en active Active
- 2008-09-10 WO PCT/JP2008/066356 patent/WO2009066501A1/ja not_active Ceased
- 2008-09-10 JP JP2009542497A patent/JP5116775B2/ja active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000242646A (ja) * | 1999-02-18 | 2000-09-08 | Real World Computing Partnership | 情報検索方法及び情報検索装置 |
| JP2004094387A (ja) * | 2002-08-29 | 2004-03-25 | Chubu Electric Power Co Inc | 特定情報検索方法および情報検索装置 |
| JP2005215716A (ja) * | 2004-01-27 | 2005-08-11 | Hitachi Ltd | テキスト検索方法 |
| JP2007004458A (ja) * | 2005-06-23 | 2007-01-11 | National Institute Of Information & Communication Technology | 二項関係抽出装置,二項関係抽出処理を用いた情報検索装置,二項関係抽出処理方法,二項関係抽出処理を用いた情報検索処理方法,二項関係抽出処理プログラム,および二項関係抽出処理を用いた情報検索処理プログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| JPWO2009066501A1 (ja) | 2011-04-07 |
| WO2009066501A1 (ja) | 2009-05-28 |
| US8909654B2 (en) | 2014-12-09 |
| US20100257159A1 (en) | 2010-10-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5116775B2 (ja) | 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 | |
| JP5480093B2 (ja) | 検索結果を統合するための方法、コンピュータ・プログラムおよびシステム | |
| US8051080B2 (en) | Contextual ranking of keywords using click data | |
| JP5727512B2 (ja) | 検索提案のクラスタ化及び提示 | |
| JP3755134B2 (ja) | コンピュータベースの適合テキスト検索システムおよび方法 | |
| US8983965B2 (en) | Document rating calculation system, document rating calculation method and program | |
| US8321409B1 (en) | Document ranking using word relationships | |
| JP4878624B2 (ja) | 文書処理装置および文書処理方法 | |
| US9720904B2 (en) | Generating training data for disambiguation | |
| US20100198802A1 (en) | System and method for optimizing search objects submitted to a data resource | |
| CN101567011A (zh) | 文档处理装置和文档处理方法 | |
| US20080189273A1 (en) | System and method for utilizing advanced search and highlighting techniques for isolating subsets of relevant content data | |
| US20110302166A1 (en) | Search system, search method, and program | |
| JP5329540B2 (ja) | ユーザ中心の情報探索方法、コンピュータ読み取り可能な記録媒体およびユーザ中心の情報探索システム | |
| CN102722498A (zh) | 搜索引擎及其实现方法 | |
| CN103430172A (zh) | 检索装置、检索方法及程序 | |
| JP2024091709A (ja) | 文作成装置、文作成方法および文作成プログラム | |
| JP4767694B2 (ja) | 不正ハイパーリンク検出装置及びその方法 | |
| US20140101162A1 (en) | Method and system for recommending semantic annotations | |
| CN107870915B (zh) | 对搜索结果的指示 | |
| CN114141384A (zh) | 用于检索医学数据的方法、设备和介质 | |
| JP5869948B2 (ja) | パッセージ分割方法、装置、及びプログラム | |
| US10810236B1 (en) | Indexing data in information retrieval systems | |
| JP2010282403A (ja) | 文書検索方法 | |
| JP2003271648A (ja) | 検索装置、検索方法、ならびに、プログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120724 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120918 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121009 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121016 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5116775 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151026 Year of fee payment: 3 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |