Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP4283038B2 - Document registration device, document search device, program, and storage medium - Google Patents
[go: Go Back, main page]

JP4283038B2 - Document registration device, document search device, program, and storage medium - Google Patents

Document registration device, document search device, program, and storage medium Download PDF

Info

Publication number
JP4283038B2
JP4283038B2 JP2003156116A JP2003156116A JP4283038B2 JP 4283038 B2 JP4283038 B2 JP 4283038B2 JP 2003156116 A JP2003156116 A JP 2003156116A JP 2003156116 A JP2003156116 A JP 2003156116A JP 4283038 B2 JP4283038 B2 JP 4283038B2
Authority
JP
Japan
Prior art keywords
document
language
search
languages
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003156116A
Other languages
Japanese (ja)
Other versions
JP2004362007A (en
Inventor
裕一 小島
研策 山本
裕子 井田
雅之 亀田
優希子 平岡
泰嗣 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2003156116A priority Critical patent/JP4283038B2/en
Publication of JP2004362007A publication Critical patent/JP2004362007A/en
Application granted granted Critical
Publication of JP4283038B2 publication Critical patent/JP4283038B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、入力された検索式に合致した文書を登録されている複数の文書データから検索するために文書データの登録を行う文書登録装置、入力された検索式に合致した文書を登録されている複数の文書データから検索する文書検索装置、これらの装置を実現するプログラム及びこのプログラムを記憶している記憶媒体に関する。
【0002】
【従来の技術】
多言語で検索を行う技術としては、例えば、特許文献1に開示のものがある。かかる技術では、言語横断検索を実現するために、言語間の対訳辞書を利用するものである。
【0003】
しかしながら、本格的な言語横断検索機能が提供されなくても、文書データベースに複数の言語の文書が格納される場面は十分に考えられる。例えば、日本で利用される文書データベースでは、英語のテキストや英語交じりのテキストが格納されることは、まれなケースではない。
【0004】
一方、文書検索技術においては、検索漏れを防ぐため、例えば、「コンピュータ」、「コンピューター」などの表記の揺れや“chair”、“chairs”などの単数形/複数形の揺れを吸収する正規化技術が存在する。これらの正規化は、登録する文書ごとに、そこで用いられている言語によって行われるべきであり、日本で使われる文書データベースだからといって、日本語の正規化のみを行うのは、文書データベース中の、日本語以外の言語で記述された文書の検索漏れにつながる。かかる問題を解決するために、WWW上の検索エンジンなどでは、言語を指定できるインターフェースを設けているものがある。
【0005】
【特許文献1】
特開平8−212229号公報
【0006】
【発明が解決しようとする課題】
しかしながら、文書データベース技術では、販売国の言語が主言語で、主言語で記述された文書中に、ときどき他の言語が混じる。あるいは、ある言語で記述された文書であっても、その中に一般的に広く用いられている英語が、ときどき混じるなどのケースが存在し、これらのケースでは、主ではない言語の指定ができないために、十分な正規化が行えず、検索漏れの可能性があるという不具合があった。
【0007】
本発明の目的は、複数言語で記述された文書に対し、漏れの少ない検索の実行を行うことである。
【0008】
請求項1に記載の発明は、入力された検索式に合致した文書を登録されている複数の文書データから検索するために前記文書データの登録を行う文書登録装置において、前記登録をしようとする文書データの入力を受け付ける文書データ受付手段と、この受け付ける1文書に関する言語の指定を受け付ける言語指定受付手段と、この受け付けた指定言語を含む複数の言語がそれぞれ異なる文字コードエリアを保持するときに、前記文書データに対して、前記複数の言語のうち、一つの言語についての正規化を行って正規化データを作成し、前記正規化データに対して外の一つの言語についての正規化を行って新たな正規化データを作成し、その外の前記複数の言語全てについて、同様に新たな正規化データを作成することにより、一つの正規化データを作成し、前記一つの正規化データに基づいて索引の作成を行い、前記複数の言語が同じ文字コードエリアを保持するときに、前記文書データに対して、前記複数の言語毎に正規化を行って前記複数の言語の数と同数の複数の正規化データを作成し、前記複数の正規化データに基づいて索引の作成を行う索引作成手段と、この索引と前記受け付けた文書データとを登録する登録手段と、を備えてることを特徴とする文書登録装置である。
【0009】
したがって、1文書に対して複数の言語で正規化を行い、複数言語で記述された文書に対し、漏れの少ない検索の実行を行うことができる。
【0010】
請求項2に記載の発明は、請求項1に記載の文書登録装置において、前記索引作成手段は、前記言語指定受付手段で受け付けた指定言語の他に所定の言語を指定して当該複数の言語で前記正規化を行うこと、を特徴とする。
【0011】
したがって、ユーザ側でわざわざ1文書について複数の言語を指定する手間を減らし、あわせて言語の指定し忘れによる検索漏れを防ぐことができる。
【0012】
請求項3に記載の発明は、請求項2に記載の文書登録装置において、前記索引作成手段は、前記所定の言語として英語を指定すること、を特徴とする。
【0013】
したがって、特に言語の指定なしに、ある言語の文書の中に突然あらわれる可能性の高い英語に対してデフォルトの言語とすることにより、英語交じりの文書に対する検索漏れを防ぐことができる。
【0018】
請求項に記載の発明は、入力された検索式に合致した文書を請求項1の文書登録装置により登録され複数の文書データから検索する文書検索装置において、前記検索の検索要求を受け付ける検索要求受付手段と、この受け付ける1検索要求に関する言語の指定を受け付ける言語指定受付手段と、この受け付けた指定言語を含む複数の言語で前記受け付けた検索要求を正規化して、複数の言語で前記文書データを正規化して作成した索引を用いて前記複数の文書データの検索を実行する検索手段と、を備えていることを特徴とする文書検索装置である。
【0019】
したがって、1検索要求に対して複数の言語で正規化を行い、複数言語で記述された文書に対し、漏れの少ない検索の実行を行うことができる。
【0020】
請求項に記載の発明は、請求項に記載の文書検索装置において、前記検索手段は、前記言語指定受付手段で受け付けた指定言語の他に所定の言語を指定して当該複数の言語で前記正規化を行うこと、を特徴とする。
【0021】
したがって、ユーザ側でわざわざ1検索要求について複数の言語を指定する手間を減らし、あわせて言語の指定し忘れによる検索漏れを防ぐことができる。
【0022】
請求項に記載の発明は、請求項に記載の文書検索装置において、前記検索手段は、前記所定の言語として英語を指定すること、を特徴とする。
【0023】
したがって、特に言語の指定なしに、ある言語の文書の中に突然あらわれる可能性の高い英語に対してデフォルトの言語とすることにより、英語交じりの文書に対する検索漏れを防ぐことができる。
【0024】
請求項7に記載の発明は、入力された検索式に合致した文書を登録されている複数の文書データから検索するために前記文書データの登録を行う処理をコンピュータに実行させるコンピュータに読み取り可能なプログラムにおいて、前記登録をしようとする文書データの入力を受け付ける文書データ受付処理と、この受け付ける1文書に関する言語の指定を受け付ける言語指定受付処理と、この受け付けた指定言語を含む複数の言語がそれぞれ異なる文字コードエリアを保持するときに、前記文書データに対して、前記複数の言語のうち、一つの言語についての正規化を行って正規化データを作成し、前記正規化データに対して外の一つの言語についての正規化を行って新たな正規化データを作成し、その外の前記複数の言語全てについて、同様に新たな正規化データを作成することにより、一つの正規化データを作成し、前記一つの正規化データに基づいて索引の作成を行い、前記複数の言語が同じ文字コードエリアを保持するときに、前記文書データに対して、前記複数の言語毎に正規化を行って前記複数の言語の数と同数の複数の正規化データを作成し、前記複数の正規化データに基づいて索引の作成を行う索引作成処理と、この索引と前記受け付けた文書データとを登録する登録処理と、をコンピュータに実行させることを特徴とするプログラムである。
【0025】
したがって、1文書に対して複数の言語で正規化を行い、複数言語で記述された文書に対し、漏れの少ない検索の実行を行うことができる。
【0026】
請求項に記載の発明は、入力された検索式に合致した文書を請求項7のプログラムにより登録され複数の文書データから検索する処理をコンピュータに実行させるコンピュータに読み取り可能なプログラムにおいて、前記検索の検索要求を受け付ける検索要求受付処理と、この受け付ける1検索要求に関する言語の指定を受け付ける言語指定受付処理と、この受け付けた指定言語を含む複数の言語で前記受け付けた検索要求を正規化して、複数の言語で前記文書データを正規化して作成した索引を用いて前記複数の文書データの検索を実行する検索処理と、をコンピュータに実行させることを特徴とするプログラムである。
【0027】
したがって、1検索要求に対して複数の言語で正規化を行い、複数言語で記述された文書に対し、漏れの少ない検索の実行を行うことができる。
【0028】
請求項に記載の発明は、コンピュータに読み取り可能なプログラムを記憶している記憶媒体において、前記プログラムは請求項又はのいずれかの一に記載のプログラムであること、を特徴とする記憶媒体である。
【0029】
したがって、記憶されているプログラムにより、請求項又はに記載の発明と同様の作用、効果を奏する。
【0030】
【発明の実施の形態】
本発明の一実施の形態について説明する。
【0031】
図1は、本実施の形態の文書検索システム1の電気的な接続のブロック図である。文書検索システム1は、本発明の文書登録装置、文書検索装置を実施した装置で、図1に示すように、各種演算を行ない、文書検索システム1の各部を集中的に制御するCPU11と、各種のROM、RAMからなるメモリ12とが、バス13で接続されている。
【0032】
バス13には、所定のインターフェースを介して、ハードディスクなどの磁気記憶装置14と、キーボード、マウスなどの入力装置15と、表示装置16と、光ディスクなどの記憶媒体17を読み取る記憶媒体読取装置18とが接続され、また、ネットワーク2と通信を行なう所定の通信インターフェース19が接続されている。なお、記憶媒体17としては、CD,DVDなどの光ディスク、光磁気ディスク、フレキシブルディスクなどの各種メディアを用いることができる。また、記憶媒体読取装置18は、具体的には記憶媒体17の種類に応じて光ディスク装置、光磁気ディスク装置、フレキシブルディスク装置などが用いられる。
【0033】
文書検索システム1は、この発明の記憶媒体を実施する記憶媒体17から、この発明のプログラムを実施するプログラム20を読み取って、磁気記憶装置14にインストールする。これらのプログラムはインターネットなどのネットワーク2等を介してダウンロードしてインストールするようにしてもよい。このインストールにより、文書検索システム1は、後述の所定の処理の実行が可能な状態となる。なお、プログラム20は、所定のOS上で動作するものであってもよい。
【0034】
次に、文書検索システム1が実行する処理について説明する。図2は、文書検索システム1がプログラム20に基づいて実現する機能の機能ブロック図である。図3、図4は、文書検索システム1が実行する処理を説明するフローチャートである。
【0035】
まず、文書検索システム1により文書データを登録する場合の処理について、図2、図3を参照して説明する。最初にユーザは、文書検索システム1に文書データを格納する際に、特定の言語の種類を指定して、登録しようとする文書データを入力する(文書データ受付手段、言語指定受付手段、文書データ受付処理、言語指定受付処理)(ステップS1のY)。この指定(言語指定)は、言語指定部21に送られ(ステップS2)、言語指定部21では、ユーザによる言語指定に、さらに特定の言語、この例では“英語”の言語指定を付加して言語情報とする(ステップS3)。
【0036】
文書データ格納部22は、この文書データと言語情報とを受け取り、まず、図に示すような言語指定―文字コードエリア対応テーブル31を参照する(ステップS4)。このテーブル31には、図に示すような言語指定−文字コードエリア対応表が記録されている。これは、日本語、英語など各種の言語32と、その言語で使用される文字コードの範囲(文字コードエリア33)とを関連付けて登録したものである。
【0037】
そして、言語情報で指定された2言語を言語32から探し、その2言語にそれぞれ対応する文字コードエリア33同士が重なるか否かを判断する(ステップS5)。例えば、言語情報に含まれる複数の言語が“日本語”、“英語”であった場合、文字コードエリア33の重なりは無い(ステップS5のN)。このような場合には、文書データ格納部22は、受け取った文書データにユーザの指定言語(この例では“日本語”)の正規化を実施し(ステップS6)、その結果に対して言語指定部21の指定言語(この例では“英語”)の正規化を実施し(ステップS7)、その結果を用いて、文書データ群が蓄積されるデータベースとなる文書データ蓄積部23(磁気記憶装置14に構築される)内に索引を作成し(後述する図5の索引テーブル41に格納される)(ステップS8)、文書データを格納する(ステップS9)。
【0038】
例えば、言語情報に含まれる複数の言語が“仏語”、“英語”であった場合、文字コードエリア33に重なりがある(ステップS5のY)。この場合には、文書データ格納部22は受け取った文書データにユーザの指定言語(この例では“仏語”)の正規化を実施し(ステップS10)、その結果を用いて文書データ蓄積部23内に索引を作成し(ステップS11)、次に言語指定部21の指定言語(この例では“英語”)の正規化を実施し(ステップS12)、その結果を用いて文書データ蓄積部内に索引を作成し(ステップS13)、文書データを格納する(ステップS14)。ステップS6〜8,S10〜S13により索引作成手段、索引作成処理を実現し、ステップS9,S14により文書登録手段、文書登録処理を実現している。
【0039】
かかる処理で作成された索引は図5の索引テーブル41に格納される。以下では、この索引テーブル41の索引について具体的に説明する。図5の例では、「messagingマネージャ」なる文書1が“日本語”、“英語”で格納され、同じ内容の文書2が“仏語”、“英語”で格納された場合の索引テーブル41の例を示す。
【0040】
文書1では、それぞれ異なった文字コードの部分に対して異なった正規化が適用されているため、文書を構成する単語数分のみの索引が作成される。すなわち、“日本語”(文字コードエリア33の0x3000-0x30ff,0x3200-0x33ff,0x4e00-0x9fff,0xf900-0xfaff,0xff00-0xff9f)と、“英語”(文字コードエリア33の0x0020-0x00ff)とは、重なり合う文字コード範囲を持たないので、まず、文書1に対して日本語の正規化を施し、次にその結果に英語の正規化を施すこととなる。文書1に“日本語”の正規化を施した結果は「messagingマネイジャ」、さらに“英語”の正規化を施した結果は、英語の正規化ルールでは、ing形に関する正規化ルールが存在するため、「messageマネイジャ」となる。この結果、正規化後の文書1を構成する2つの単語の「message」、「マネイジャ」が文書1への索引として登録される。よって、索引テーブル41には、単語表記42の欄に2つの単語の「message」、「マネイジャ」が登録され、これらにそれぞれ関連付けられて文書43の欄に文書1が登録される。
【0041】
一方、文書2では、それぞれ異なった言語の正規化をした分の索引を作るため、正規化によって生成したバリエーション分の索引が作成される。すなわち、「messagingマネージャ」なる文書2が、“仏語”、“英語”で格納された場合、言語指定―文字コードエリア対応テーブル31によれば、“仏語”(文字コードエリア33の0x0020-0x00ff)は、“英語”と同じ文字コード範囲を持つため、文書2を“仏語”で正規化した正規化文書と、“英語”で正規化した正規化文書が作成される。“仏語”で正規化した場合は、仏語の正規化ルールでは、“messaging→message”が存在しないため、「messagingマネージャ」なる正規化文書が生成される。また、“英語”で正規化した場合は「messageマネージャ」なる正規化文書が生成される。これら2つの正規化文書から異なる単語を取り出し、3つの単語「message」、「messaging」、「マネージャ」が文書2への索引として登録される。よって、索引テーブル41には、単語表記42の欄に3つの単語の「message」、「messaging」、「マネイジャ」が登録され、これらにそれぞれ関連付けられて文書43の欄に文書2が登録される。
【0042】
次に、文書検索システム1により文書データの検索を行う場合について、図2、図4を参照して説明する。以下では、「windows」なる単語を例にとって説明する。まず、ユーザは、要求入力部24に検索要求を入力し(検索要求受付手段、検索要求受付処理)(ステップS21のY)、さらに、言語指定(例えば、「日本語」、「英語」、「フランス語」である)を行う(言語指定受付手段、言語指定受付処理)(ステップS22のY)。言語指定部21は、ユーザからの言語指定に通常は特定の言語として「英語」を付加するが(ステップS23)、この例の場合、すでに「英語」が言語指定中に含まれているので、何も付加は行わない。
【0043】
多言語展開部25は、検索要求の単語を、指定言語、この例では「日本語」、「英語」、「フランス語」について正規化し(ステップS24)、その結果、この例では、「windows」、「window」、「window」を得る。要求入力部24はこれを受け取り、この例では、重なり合う「window」を1つにまとめ、正規化の結果、この例では「windows」、「window」を検索部26に送る(ステップS25)。
【0044】
検索部26は、正規化の結果、この例では「windows」あるいは「window」で、索引テーブル43の索引を用いて検索を実施し(ステップS26)、その結果を検索結果として出力する(ステップS27)。ステップS23〜S26により検索手段、検索処理を実現している。
【0045】
この例では、「windows」という記述を含む文書が、“日本語”として登録された場合には「windows」という単語が、“英語”や“仏語”、あるいは“日本語”、英語”として登録された場合には、「window」という単語が検索においてヒットし、漏れのない検索を実現できる。
【0046】
【発明の効果】
請求項1,6,9,10,11に記載の発明は、1文書、1検索要求に対して複数の言語で正規化を行い、複数言語で記述された文書に対し、漏れの少ない検索の実行を行うことができる。
【0047】
請求項2,7に記載の発明は、請求項1,6に記載の発明において、ユーザ側でわざわざ1文書、1検索要求について複数の言語を指定する手間を減らし、あわせて言語の指定し忘れによる検索漏れを防ぐことができる。
【0048】
請求項3,8に記載の発明は、請求項2,7に記載の発明において、特に言語の指定なしに、ある言語の文書の中に突然あらわれる可能性の高い英語に対してデフォルトの言語とすることにより、英語交じりの文書に対する検索漏れを防ぐことができる。
【0049】
請求項4に記載の発明は、請求項1〜3のいずれかの一に記載の発明において、複数の言語が指定された場合の文書登録処理として、複数の正規化を行って索引を作成することにより、索引のサイズは大きくなっても、特に、言語が使用する文字に依存しないで、1文書中の複数言語に対応することができる。
【0050】
請求項5に記載の発明は、請求項1〜4のいずれかの一に記載の発明において、複数の言語が指定された場合の文書登録処理として、複数の言語によって実施される正規化の影響がそれぞれ影響しあわないとき、ある言語の正規化と別の言語の正規化とを1文書に同時に行うことにより、検索漏れを防ぎつつ、作成される索引のサイズを低減することができる。
【図面の簡単な説明】
【図1】本発明の一実施の形態である文書検索システムの電気的な接続のブロック図である。
【図2】文書検索システムの機能ブロック図である。
【図3】文書データを登録する場合の処理のフローチャートである。
【図4】文書データを検索する場合の処理のフローチャートである。
【図5】言語指定―文字コードエリア対応テーブルの説明図である。
【図6】索引テーブルの説明図である。
【符号の説明】
1 文書登録装置、文書検索装置
17 記憶媒体
20 プログラム
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a document registration apparatus for registering document data in order to search a document that matches an input search expression from a plurality of registered document data, and a document that matches the input search expression is registered. The present invention relates to a document retrieval apparatus that retrieves a plurality of document data, a program that realizes these apparatuses, and a storage medium that stores the program.
[0002]
[Prior art]
As a technique for searching in multiple languages, for example, there is one disclosed in Patent Document 1. In such a technique, a bilingual dictionary between languages is used to implement cross-language search.
[0003]
However, even if a full-fledged cross-language search function is not provided, it is fully conceivable that documents in a plurality of languages are stored in the document database. For example, in a document database used in Japan, it is not uncommon to store English text or English mixed text.
[0004]
On the other hand, in document search technology, for example, normalization that absorbs fluctuations of notations such as “computer” and “computer” and singular / plural forms such as “chair” and “chairs” in order to prevent omission of search. Technology exists. These normalizations should be performed for each document to be registered in the language used in the document, and just because Japanese document databases are used in Japan, only Japanese normalization is performed in the document database. This leads to omission of search for documents written in languages other than Japanese. In order to solve such a problem, some search engines on the WWW are provided with an interface for specifying a language.
[0005]
[Patent Document 1]
JP-A-8-212229 gazette
[Problems to be solved by the invention]
However, in document database technology, the language of the country of sale is the main language, and other languages are sometimes mixed in the document described in the main language. Or, even in a document written in a certain language, there are cases where English, which is generally widely used, is sometimes mixed, and in these cases, it is not possible to specify a language other than the main language. Therefore, there is a problem that sufficient normalization cannot be performed and there is a possibility of a search omission.
[0007]
An object of the present invention is to perform a search with few leaks on a document described in a plurality of languages.
[0008]
According to the first aspect of the present invention, in the document registration apparatus for registering the document data in order to search a document that matches the input search formula from a plurality of registered document data, the registration is attempted. A document data receiving unit that receives input of document data, a language designation receiving unit that receives designation of a language related to the one document to be received, and a plurality of languages including the received designated language each having a different character code area. The document data is normalized for one language among the plurality of languages to create normalized data, and the normalized data is normalized for one other language. By creating new normalized data and creating new normalized data in the same way for all the other languages, Create data, create an index based on the one normalized data, and normalize the document data for each of the plurality of languages when the plurality of languages hold the same character code area To create a plurality of normalized data having the same number as the number of the plurality of languages, and to create an index based on the plurality of normalized data, the index and the received document data And a registration unit for registering the document.
[0009]
Therefore, it is possible to normalize one document in a plurality of languages and execute a search with few omissions on a document described in a plurality of languages.
[0010]
According to a second aspect of the present invention, in the document registration apparatus according to the first aspect, the index creating means designates a plurality of languages by designating a predetermined language in addition to the designated language accepted by the language designation accepting means. And performing the normalization.
[0011]
Therefore, it is possible to reduce the trouble of specifying a plurality of languages for one document on the user side, and to prevent a search omission due to forgetting to specify a language.
[0012]
According to a third aspect of the present invention, in the document registration apparatus according to the second aspect, the index creating means designates English as the predetermined language.
[0013]
Therefore, it is possible to prevent omission of search for documents mixed with English by setting the default language for English which is likely to appear suddenly in a document in a certain language without specifying a language.
[0018]
According to a fourth aspect of the present invention, there is provided a document retrieval apparatus for retrieving a document that matches an input retrieval formula from a plurality of document data registered by the document registration apparatus according to the first aspect . A request accepting means; a language designation accepting means for accepting a language specification relating to the accepted one search request; and normalizing the accepted search request in a plurality of languages including the accepted designated language, and the document data in a plurality of languages. And a search means for executing a search of the plurality of document data using an index created by normalizing the document.
[0019]
Therefore, normalization can be performed in a plurality of languages with respect to one search request, and a search with less omission can be performed on a document described in a plurality of languages.
[0020]
According to a fifth aspect of the present invention, in the document retrieval apparatus according to the fourth aspect , the retrieval unit designates a predetermined language in addition to the designated language accepted by the language designation acceptance unit, and uses the plurality of languages. The normalization is performed.
[0021]
Accordingly, it is possible to reduce the trouble of designating a plurality of languages for one search request on the user side, and to prevent a search omission due to forgetting to designate a language.
[0022]
The invention described in claim 6 is the document search apparatus according to claim 5 , wherein the search means specifies English as the predetermined language.
[0023]
Therefore, it is possible to prevent omission of search for documents mixed with English by setting the default language for English which is likely to appear suddenly in a document in a certain language without specifying a language.
[0024]
The invention according to claim 7 is readable by a computer that causes a computer to execute processing for registering the document data in order to search a document that matches the input search formula from a plurality of registered document data. In the program, the document data receiving process for receiving the input of the document data to be registered, the language specifying receiving process for receiving the specification of the language relating to the received one document, and the plurality of languages including the received specified language are different. When the character code area is held, the document data is normalized with respect to one language out of the plurality of languages to create normalized data, and the normalized data is Normalize one language and create new normalized data, and for all the other languages, When creating one normalized data by creating new normalized data, creating an index based on the one normalized data, and when the plurality of languages hold the same character code area In addition, the document data is normalized for each of the plurality of languages to create a plurality of normalized data having the same number as the number of the plurality of languages, and an index is created based on the plurality of normalized data And a registration process for registering the index and the received document data.
[0025]
Therefore, it is possible to normalize one document in a plurality of languages and execute a search with few omissions on a document described in a plurality of languages.
[0026]
The invention described in claim 8 is a computer-readable program that causes a computer to execute a process of searching a plurality of document data registered by the program of claim 7 for a document that matches an input search expression. A search request reception process for receiving a search request for search; a language specification reception process for receiving a language specification relating to this one search request to be received; and normalizing the received search request in a plurality of languages including the received specified language; A program that causes a computer to execute search processing for searching for the plurality of document data using an index created by normalizing the document data in a plurality of languages.
[0027]
Therefore, normalization can be performed in a plurality of languages with respect to one search request, and a search with less omission can be performed on a document described in a plurality of languages.
[0028]
The invention according to claim 9 is a storage medium storing a computer-readable program, wherein the program is the program according to any one of claims 7 and 8. It is a medium.
[0029]
Therefore, the stored program produces the same operations and effects as the invention according to claim 7 or 8 .
[0030]
DETAILED DESCRIPTION OF THE INVENTION
An embodiment of the present invention will be described.
[0031]
FIG. 1 is a block diagram of electrical connection of the document search system 1 according to the present embodiment. The document search system 1 is an apparatus that implements the document registration apparatus and the document search apparatus of the present invention. As shown in FIG. 1, a CPU 11 that performs various operations and controls each part of the document search system 1 in a centralized manner. A memory 12 composed of a ROM and a RAM is connected by a bus 13.
[0032]
The bus 13 is connected to a magnetic storage device 14 such as a hard disk, an input device 15 such as a keyboard and a mouse, a display device 16 and a storage medium reader 18 that reads a storage medium 17 such as an optical disk via a predetermined interface. And a predetermined communication interface 19 for communicating with the network 2 is connected. As the storage medium 17, various media such as an optical disk such as a CD and a DVD, a magneto-optical disk, and a flexible disk can be used. As the storage medium reading device 18, specifically, an optical disk device, a magneto-optical disk device, a flexible disk device, or the like is used according to the type of the storage medium 17.
[0033]
The document retrieval system 1 reads the program 20 that implements the program of the present invention from the storage medium 17 that implements the storage medium of the present invention, and installs it in the magnetic storage device 14. These programs may be downloaded and installed via the network 2 such as the Internet. As a result of this installation, the document search system 1 becomes ready to execute a predetermined process described later. The program 20 may operate on a predetermined OS.
[0034]
Next, processing executed by the document search system 1 will be described. FIG. 2 is a functional block diagram of functions realized by the document search system 1 based on the program 20. 3 and 4 are flowcharts for explaining processing executed by the document search system 1.
[0035]
First, processing when document data is registered by the document search system 1 will be described with reference to FIGS. First, when storing the document data in the document search system 1, the user designates a specific language type and inputs the document data to be registered (document data receiving means, language designation receiving means, document data). Reception process, language designation reception process) (Y in step S1). This designation (language designation) is sent to the language designation unit 21 (step S2). The language designation unit 21 adds a language designation of a specific language, “English” in this example, to the language designation by the user. It is set as language information (step S3).
[0036]
The document data storage unit 22 receives the document data and language information, and first refers to a language designation / character code area correspondence table 31 as shown in FIG. 5 (step S4). In this table 31, a language designation / character code area correspondence table as shown in FIG. 5 is recorded. In this example, various languages 32 such as Japanese and English are registered in association with character code ranges (character code area 33) used in the language.
[0037]
Then, two languages designated by the language information are searched from the language 32, and it is determined whether or not the character code areas 33 corresponding to the two languages overlap each other (step S5). For example, when the plurality of languages included in the language information are “Japanese” and “English”, the character code area 33 does not overlap (N in step S5). In such a case, the document data storage unit 22 normalizes the user specified language (in this example, “Japanese”) on the received document data (step S6), and specifies the language for the result. Normalization of the specified language (in this example, “English”) of the unit 21 is performed (step S7), and using the result, the document data storage unit 23 (magnetic storage device 14) serving as a database in which the document data group is stored. Are created (stored in an index table 41 of FIG. 5 described later) (step S8), and document data is stored (step S9).
[0038]
For example, when the plurality of languages included in the language information are “French” and “English”, there is an overlap in the character code area 33 (Y in step S5). In this case, the document data storage unit 22 normalizes the user specified language (in this example, “French”) to the received document data (step S10), and uses the result to store the document data in the document data storage unit 23. (Step S11), the language specification unit 21 normalizes the specified language (in this example, “English”) (step S12), and uses the result to create an index in the document data storage unit. Create (step S13) and store document data (step S14). Steps S6 to S8 and S10 to S13 realize index creation means and index creation processing, and Steps S9 and S14 realize document registration means and document registration processing.
[0039]
The index created by such processing is stored in the index table 41 of FIG. Below, the index of this index table 41 is demonstrated concretely. In the example of FIG. 5, an example of the index table 41 when the document 1 “messaging manager” is stored in “Japanese” and “English” and the document 2 having the same contents is stored in “French” and “English”. Indicates.
[0040]
In the document 1, since different normalization is applied to different character code portions, only the number of words constituting the document is created. That is, “Japanese” (0x3000-0x30ff, 0x3200-0x33ff, 0x4e00-0x9fff, 0xf900-0xfaff, 0xff00-0xff9f in the character code area 33) and “English” (0x0020-0x00ff in the character code area 33) are Since there is no overlapping character code range, the document 1 is first normalized in Japanese, and then the result is subjected to English normalization. The result of normalizing “Japanese” on document 1 is “messaging manager”, and the result of normalizing “English” is the normalization rule for English because there is a normalization rule related to the ing form. , "Message manager". As a result, the two words “message” and “manager” constituting the normalized document 1 are registered as indexes to the document 1. Therefore, in the index table 41, two words “message” and “manager” are registered in the column of the word notation 42, and the document 1 is registered in the column of the document 43 in association with these.
[0041]
On the other hand, in document 2, in order to create an index for normalization of different languages, an index for variations generated by normalization is created. That is, when the document 2 “messaging manager” is stored in “French” and “English”, according to the language designation-character code area correspondence table 31, “French” (0x0020-0x00ff in the character code area 33). Has the same character code range as “English”, a normalized document obtained by normalizing document 2 with “French” and a normalized document obtained by normalizing with “English” are created. In the case of normalization with “French”, since “messaging → message” does not exist in the French normalization rule, a normalized document “messaging manager” is generated. In addition, when normalized in “English”, a normalized message “message manager” is generated. Different words are extracted from these two normalized documents, and three words “message”, “messaging”, and “manager” are registered as an index to the document 2. Therefore, in the index table 41, three words “message”, “messaging”, and “manager” are registered in the column of the word notation 42, and the document 2 is registered in the column of the document 43 in association with each of them. .
[0042]
Next, a case where document data is searched by the document search system 1 will be described with reference to FIGS. In the following, the word “windows” will be described as an example. First, the user inputs a search request to the request input unit 24 (search request reception means, search request reception processing) (Y in step S21), and further specifies a language (for example, “Japanese”, “English”, “ "French") (Language designation accepting means, language designation accepting process) (Y in step S22). The language designation unit 21 normally adds “English” as a specific language to the language designation from the user (step S23). In this example, “English” is already included in the language designation. Nothing is added.
[0043]
The multilingual expansion unit 25 normalizes the search request word with respect to the specified language, in this example, “Japanese”, “English”, “French” (step S24). As a result, in this example, “windows”, Get “window”, “window”. The request input unit 24 receives this, and in this example, the overlapping “windows” are combined into one, and as a result of normalization, “windows” and “window” in this example are sent to the search unit 26 (step S25).
[0044]
As a result of normalization, the search unit 26 performs a search using “index” in the index table 43 with “windows” or “window” in this example (step S26), and outputs the result as a search result (step S27). ). Search means and search processing are realized by steps S23 to S26.
[0045]
In this example, if a document containing the description “windows” is registered as “Japanese”, the word “windows” is registered as “English” or “French” or “Japanese” or “English”. If the search is performed, the word “window” is hit in the search, and a search without omission can be realized.
[0046]
【The invention's effect】
The inventions according to claims 1, 6, 9, 10, and 11 normalize one document and one search request in a plurality of languages, and perform a search with few leaks for a document described in a plurality of languages. Execution can be performed.
[0047]
The inventions described in claims 2 and 7 are the inventions described in claims 1 and 6, reducing the trouble of specifying multiple languages for one document and one search request on the user side, and forgetting to specify a language. Search omission due to can be prevented.
[0048]
The inventions of claims 3 and 8 are the inventions of claims 2 and 7, in which the default language is used for English which is likely to appear suddenly in a document in a language, without particularly specifying the language. By doing so, it is possible to prevent omission of search for documents mixed with English.
[0049]
The invention according to claim 4 is the invention according to any one of claims 1 to 3, wherein the index is created by performing a plurality of normalizations as document registration processing when a plurality of languages are designated. As a result, even if the size of the index is increased, it is possible to deal with a plurality of languages in one document without depending on the characters used by the language.
[0050]
The invention according to claim 5 is the invention according to any one of claims 1 to 4, and the effect of normalization performed in a plurality of languages as a document registration process when a plurality of languages are designated. When there is no influence on each other, normalization of one language and normalization of another language are simultaneously performed on one document, so that the size of an index to be created can be reduced while preventing a search omission.
[Brief description of the drawings]
FIG. 1 is a block diagram of electrical connection of a document search system according to an embodiment of the present invention.
FIG. 2 is a functional block diagram of a document search system.
FIG. 3 is a flowchart of processing when registering document data.
FIG. 4 is a flowchart of processing when retrieving document data.
FIG. 5 is an explanatory diagram of a language designation / character code area correspondence table;
FIG. 6 is an explanatory diagram of an index table.
[Explanation of symbols]
1 Document Registration Device, Document Search Device 17 Storage Medium 20 Program

Claims (9)

入力された検索式に合致した文書を登録されている複数の文書データから検索するために前記文書データの登録を行う文書登録装置において、
前記登録をしようとする文書データの入力を受け付ける文書データ受付手段と、
この受け付ける1文書に関する言語の指定を受け付ける言語指定受付手段と、
この受け付けた指定言語を含む複数の言語がそれぞれ異なる文字コードエリアを保持するときに、前記文書データに対して、前記複数の言語のうち、一つの言語についての正規化を行って正規化データを作成し、前記正規化データに対して外の一つの言語についての正規化を行って新たな正規化データを作成し、その外の前記複数の言語全てについて、同様に新たな正規化データを作成することにより、一つの正規化データを作成し、前記一つの正規化データに基づいて索引の作成を行い、前記複数の言語が同じ文字コードエリアを保持するときに、前記文書データに対して、前記複数の言語毎に正規化を行って前記複数の言語の数と同数の複数の正規化データを作成し、前記複数の正規化データに基づいて索引の作成を行う索引作成手段と、
この索引と前記受け付けた文書データとを登録する登録手段と、
を備えていることを特徴とする文書登録装置。
In a document registration apparatus for registering the document data in order to search a document that matches the input search formula from a plurality of registered document data,
Document data receiving means for receiving input of document data to be registered;
Language designation accepting means for accepting designation of a language relating to the one document to be accepted;
When the plurality of languages including the received designated language hold different character code areas, the document data is normalized with respect to one language out of the plurality of languages to obtain normalized data. Create new normalized data by normalizing the normalized data for one other language, and create new normalized data for all the other languages in the same way By creating one normalized data, creating an index based on the one normalized data, when the plurality of languages hold the same character code area, for the document data, wherein the plurality of each language performs normalization to create as many plurality of normalized data of the plurality of languages, and indexing means of making indexes based on the plurality of normalized data
Registration means for registering the index and the received document data;
A document registration apparatus comprising:
前記索引作成手段は、前記言語指定受付手段で受け付けた指定言語の他に所定の言語を指定して当該複数の言語で前記正規化を行うこと、を特徴とする請求項1に記載の文書登録装置。  2. The document registration according to claim 1, wherein the index creation unit designates a predetermined language in addition to the designated language accepted by the language designation acceptance unit and performs the normalization in the plurality of languages. apparatus. 前記索引作成手段は、前記所定の言語として英語を指定すること、を特徴とする請求項2に記載の文書登録装置。  The document registration apparatus according to claim 2, wherein the index creating unit designates English as the predetermined language. 入力された検索式に合致した文書を請求項1の文書登録装置により登録された複数の文書データから検索する文書検索装置において、
前記検索の検索要求を受け付ける検索要求受付手段と、
この受け付ける1検索要求に関する言語の指定を受け付ける言語指定受付手段と、
この受け付けた指定言語を含む複数の言語で前記受け付けた検索要求を正規化して、複数の言語で前記文書データを正規化して作成した索引を用いて前記複数の文書データの検索を実行する検索手段と、
を備えていることを特徴とする文書検索装置。
In a document search apparatus that searches a plurality of document data registered by the document registration apparatus according to claim 1 for a document that matches the input search formula,
Search request accepting means for accepting the search request for the search;
Language designation accepting means for accepting the designation of the language related to the one search request to be accepted;
Retrieval means for normalizing the accepted search request in a plurality of languages including the accepted designated language and performing a search of the plurality of document data using an index created by normalizing the document data in a plurality of languages When,
A document retrieval apparatus comprising:
前記検索手段は、前記言語指定受付手段で受け付けた指定言語の他に所定の言語を指定して当該複数の言語で前記正規化を行うこと、を特徴とする請求項4に記載の文書検索装置。  5. The document search apparatus according to claim 4, wherein the search unit specifies a predetermined language in addition to the specified language received by the language specification reception unit and performs the normalization in the plurality of languages. . 前記検索手段は、前記所定の言語として英語を指定すること、を特徴とする請求項5に記載の文書検索装置。  The document search apparatus according to claim 5, wherein the search unit specifies English as the predetermined language. 入力された検索式に合致した文書を登録されている複数の文書データから検索するために前記文書データの登録を行う処理をコンピュータに実行させるコンピュータに読み取り可能なプログラムにおいて、
前記登録をしようとする文書データの入力を受け付ける文書データ受付処理と、
この受け付ける1文書に関する言語の指定を受け付ける言語指定受付処理と、
この受け付けた指定言語を含む複数の言語がそれぞれ異なる文字コードエリアを保持するときに、前記文書データに対して、前記複数の言語のうち、一つの言語についての正規化を行って正規化データを作成し、前記正規化データに対して外の一つの言語についての正規化を行って新たな正規化データを作成し、その外の前記複数の言語全てについて、同様に新たな正規化データを作成することにより、一つの正規化データを作成し、前記一つの正規化データに基づいて索引の作成を行い、前記複数の言語が同じ文字コードエリアを保持するときに、前記文書データに対して、前記複数の言語毎に正規化を行って前記複数の言語の数と同数の複数の正規化データを作成し、前記複数の正規化データに基づいて索引の作成を行う索引作成処理と、
この索引と前記受け付けた文書データとを登録する登録処理と、
をコンピュータに実行させることを特徴とするプログラム。
In a computer-readable program for causing a computer to execute a process of registering the document data in order to search a document that matches the input search formula from a plurality of registered document data,
Document data reception processing for receiving input of document data to be registered;
A language designation accepting process for accepting designation of a language relating to the one document to be accepted;
When the plurality of languages including the received designated language hold different character code areas, the document data is normalized with respect to one language out of the plurality of languages to obtain normalized data. Create new normalized data by normalizing the normalized data for one other language, and create new normalized data for all the other languages in the same way By creating one normalized data, creating an index based on the one normalized data, when the plurality of languages hold the same character code area, for the document data, the normalization to make creating a plurality of normalized data as many of said plurality of languages for each of a plurality of languages, the indexing process for creating an index based on the plurality of normalized data
A registration process for registering this index and the received document data;
A program that causes a computer to execute.
入力された検索式に合致した文書を請求項7のプログラムにより登録された複数の文書データから検索する処理をコンピュータに実行させるコンピュータに読み取り可能なプログラムにおいて、
前記検索の検索要求を受け付ける検索要求受付処理と、
この受け付ける1検索要求に関する言語の指定を受け付ける言語指定受付処理と、
この受け付けた指定言語を含む複数の言語で前記受け付けた検索要求を正規化して、複数の言語で前記文書データを正規化して作成した索引を用いて前記複数の文書データの検索を実行する検索処理と、
をコンピュータに実行させることを特徴とするプログラム。
In a computer-readable program for causing a computer to execute processing for searching a plurality of document data registered by the program of claim 7 for a document that matches an input search expression,
A search request receiving process for receiving a search request for the search;
A language designation accepting process for accepting designation of a language related to the one search request to be accepted;
A search process for normalizing the received search request in a plurality of languages including the specified language that has been received, and executing a search for the plurality of document data using an index created by normalizing the document data in a plurality of languages When,
A program that causes a computer to execute.
コンピュータに読み取り可能なプログラムを記憶している記憶媒体において、
前記プログラムは請求項7又は8のいずれかの一に記載のプログラムであること、を特徴とする記憶媒体。
In a storage medium storing a computer-readable program,
A storage medium, wherein the program is the program according to any one of claims 7 and 8.
JP2003156116A 2003-06-02 2003-06-02 Document registration device, document search device, program, and storage medium Expired - Fee Related JP4283038B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003156116A JP4283038B2 (en) 2003-06-02 2003-06-02 Document registration device, document search device, program, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003156116A JP4283038B2 (en) 2003-06-02 2003-06-02 Document registration device, document search device, program, and storage medium

Publications (2)

Publication Number Publication Date
JP2004362007A JP2004362007A (en) 2004-12-24
JP4283038B2 true JP4283038B2 (en) 2009-06-24

Family

ID=34050292

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003156116A Expired - Fee Related JP4283038B2 (en) 2003-06-02 2003-06-02 Document registration device, document search device, program, and storage medium

Country Status (1)

Country Link
JP (1) JP4283038B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1677208A1 (en) * 2004-12-30 2006-07-05 Sap Ag Method and system for searching for data objects
KR101117171B1 (en) 2008-10-22 2012-03-07 엔에이치엔(주) Method, system and computer-readable recording medium for creating data for retrieval

Also Published As

Publication number Publication date
JP2004362007A (en) 2004-12-24

Similar Documents

Publication Publication Date Title
US7802305B1 (en) Methods and apparatus for automated redaction of content in a document
JP3695191B2 (en) Translation support apparatus and method and computer-readable recording medium
JP4202041B2 (en) Method and system for applying input mode bias
JP4173774B2 (en) System and method for automatic retrieval of example sentences based on weighted edit distance
JP3666004B2 (en) Multilingual document search system
US6246976B1 (en) Apparatus, method and storage medium for identifying a combination of a language and its character code system
US20020138479A1 (en) Adaptive search engine query
JP2006053892A (en) Localization of xml through transformation
JP2003223437A (en) Method of displaying candidate for correct word, method of checking spelling, computer device, and program
JP2006099428A (en) Document summary creation system, method, and program
JP2006073012A (en) System and method for managing information by responding to a predetermined number of predefined questions
JP2008198237A (en) Structured document management system
JP4283038B2 (en) Document registration device, document search device, program, and storage medium
JP2008084070A (en) Structured document retrieval apparatus and program
US7418658B2 (en) System and method for integrating reference material in an electronic document
US20040054677A1 (en) Method for processing text in a computer and a computer
JP4091586B2 (en) Structured document management system, index construction method and program
JP2001101184A (en) Structured document generation method and apparatus, and storage medium storing structured document generation program
JP2943791B2 (en) Language identification device, language identification method, and recording medium recording language identification program
JP2991142B2 (en) Structured document database system with dynamic componentization function
JP2010250389A (en) Information retrieval system, method and program, and index generation system, method, and program
JP3450598B2 (en) Technical term dictionary selection device
JP4010589B2 (en) Document retrieval system and retrieval document presentation method applied to the system
JPH10283368A (en) Information processing apparatus and method
JP2000305938A (en) Document information search device and computer-readable recording medium for causing computer to function as document information search device

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20041012

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050705

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20050707

RD05 Notification of revocation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7425

Effective date: 20060922

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080902

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081104

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081224

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090130

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090202

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090130

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090317

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090318

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120327

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120327

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130327

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140327

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees