JP4283038B2 - Document registration device, document search device, program, and storage medium - Google Patents
Document registration device, document search device, program, and storage medium Download PDFInfo
- Publication number
- JP4283038B2 JP4283038B2 JP2003156116A JP2003156116A JP4283038B2 JP 4283038 B2 JP4283038 B2 JP 4283038B2 JP 2003156116 A JP2003156116 A JP 2003156116A JP 2003156116 A JP2003156116 A JP 2003156116A JP 4283038 B2 JP4283038 B2 JP 4283038B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- language
- search
- languages
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
【発明の属する技術分野】
この発明は、入力された検索式に合致した文書を登録されている複数の文書データから検索するために文書データの登録を行う文書登録装置、入力された検索式に合致した文書を登録されている複数の文書データから検索する文書検索装置、これらの装置を実現するプログラム及びこのプログラムを記憶している記憶媒体に関する。
【0002】
【従来の技術】
多言語で検索を行う技術としては、例えば、特許文献1に開示のものがある。かかる技術では、言語横断検索を実現するために、言語間の対訳辞書を利用するものである。
【0003】
しかしながら、本格的な言語横断検索機能が提供されなくても、文書データベースに複数の言語の文書が格納される場面は十分に考えられる。例えば、日本で利用される文書データベースでは、英語のテキストや英語交じりのテキストが格納されることは、まれなケースではない。
【0004】
一方、文書検索技術においては、検索漏れを防ぐため、例えば、「コンピュータ」、「コンピューター」などの表記の揺れや“chair”、“chairs”などの単数形/複数形の揺れを吸収する正規化技術が存在する。これらの正規化は、登録する文書ごとに、そこで用いられている言語によって行われるべきであり、日本で使われる文書データベースだからといって、日本語の正規化のみを行うのは、文書データベース中の、日本語以外の言語で記述された文書の検索漏れにつながる。かかる問題を解決するために、WWW上の検索エンジンなどでは、言語を指定できるインターフェースを設けているものがある。
【0005】
【特許文献1】
特開平8−212229号公報
【0006】
【発明が解決しようとする課題】
しかしながら、文書データベース技術では、販売国の言語が主言語で、主言語で記述された文書中に、ときどき他の言語が混じる。あるいは、ある言語で記述された文書であっても、その中に一般的に広く用いられている英語が、ときどき混じるなどのケースが存在し、これらのケースでは、主ではない言語の指定ができないために、十分な正規化が行えず、検索漏れの可能性があるという不具合があった。
【0007】
本発明の目的は、複数言語で記述された文書に対し、漏れの少ない検索の実行を行うことである。
【0008】
請求項1に記載の発明は、入力された検索式に合致した文書を登録されている複数の文書データから検索するために前記文書データの登録を行う文書登録装置において、前記登録をしようとする文書データの入力を受け付ける文書データ受付手段と、この受け付ける1文書に関する言語の指定を受け付ける言語指定受付手段と、この受け付けた指定言語を含む複数の言語がそれぞれ異なる文字コードエリアを保持するときに、前記文書データに対して、前記複数の言語のうち、一つの言語についての正規化を行って正規化データを作成し、前記正規化データに対して外の一つの言語についての正規化を行って新たな正規化データを作成し、その外の前記複数の言語全てについて、同様に新たな正規化データを作成することにより、一つの正規化データを作成し、前記一つの正規化データに基づいて索引の作成を行い、前記複数の言語が同じ文字コードエリアを保持するときに、前記文書データに対して、前記複数の言語毎に正規化を行って前記複数の言語の数と同数の複数の正規化データを作成し、前記複数の正規化データに基づいて索引の作成を行う索引作成手段と、この索引と前記受け付けた文書データとを登録する登録手段と、を備えてることを特徴とする文書登録装置である。
【0009】
したがって、1文書に対して複数の言語で正規化を行い、複数言語で記述された文書に対し、漏れの少ない検索の実行を行うことができる。
【0010】
請求項2に記載の発明は、請求項1に記載の文書登録装置において、前記索引作成手段は、前記言語指定受付手段で受け付けた指定言語の他に所定の言語を指定して当該複数の言語で前記正規化を行うこと、を特徴とする。
【0011】
したがって、ユーザ側でわざわざ1文書について複数の言語を指定する手間を減らし、あわせて言語の指定し忘れによる検索漏れを防ぐことができる。
【0012】
請求項3に記載の発明は、請求項2に記載の文書登録装置において、前記索引作成手段は、前記所定の言語として英語を指定すること、を特徴とする。
【0013】
したがって、特に言語の指定なしに、ある言語の文書の中に突然あらわれる可能性の高い英語に対してデフォルトの言語とすることにより、英語交じりの文書に対する検索漏れを防ぐことができる。
【0018】
請求項4に記載の発明は、入力された検索式に合致した文書を請求項1の文書登録装置により登録された複数の文書データから検索する文書検索装置において、前記検索の検索要求を受け付ける検索要求受付手段と、この受け付ける1検索要求に関する言語の指定を受け付ける言語指定受付手段と、この受け付けた指定言語を含む複数の言語で前記受け付けた検索要求を正規化して、複数の言語で前記文書データを正規化して作成した索引を用いて前記複数の文書データの検索を実行する検索手段と、を備えていることを特徴とする文書検索装置である。
【0019】
したがって、1検索要求に対して複数の言語で正規化を行い、複数言語で記述された文書に対し、漏れの少ない検索の実行を行うことができる。
【0020】
請求項5に記載の発明は、請求項4に記載の文書検索装置において、前記検索手段は、前記言語指定受付手段で受け付けた指定言語の他に所定の言語を指定して当該複数の言語で前記正規化を行うこと、を特徴とする。
【0021】
したがって、ユーザ側でわざわざ1検索要求について複数の言語を指定する手間を減らし、あわせて言語の指定し忘れによる検索漏れを防ぐことができる。
【0022】
請求項6に記載の発明は、請求項5に記載の文書検索装置において、前記検索手段は、前記所定の言語として英語を指定すること、を特徴とする。
【0023】
したがって、特に言語の指定なしに、ある言語の文書の中に突然あらわれる可能性の高い英語に対してデフォルトの言語とすることにより、英語交じりの文書に対する検索漏れを防ぐことができる。
【0024】
請求項7に記載の発明は、入力された検索式に合致した文書を登録されている複数の文書データから検索するために前記文書データの登録を行う処理をコンピュータに実行させるコンピュータに読み取り可能なプログラムにおいて、前記登録をしようとする文書データの入力を受け付ける文書データ受付処理と、この受け付ける1文書に関する言語の指定を受け付ける言語指定受付処理と、この受け付けた指定言語を含む複数の言語がそれぞれ異なる文字コードエリアを保持するときに、前記文書データに対して、前記複数の言語のうち、一つの言語についての正規化を行って正規化データを作成し、前記正規化データに対して外の一つの言語についての正規化を行って新たな正規化データを作成し、その外の前記複数の言語全てについて、同様に新たな正規化データを作成することにより、一つの正規化データを作成し、前記一つの正規化データに基づいて索引の作成を行い、前記複数の言語が同じ文字コードエリアを保持するときに、前記文書データに対して、前記複数の言語毎に正規化を行って前記複数の言語の数と同数の複数の正規化データを作成し、前記複数の正規化データに基づいて索引の作成を行う索引作成処理と、この索引と前記受け付けた文書データとを登録する登録処理と、をコンピュータに実行させることを特徴とするプログラムである。
【0025】
したがって、1文書に対して複数の言語で正規化を行い、複数言語で記述された文書に対し、漏れの少ない検索の実行を行うことができる。
【0026】
請求項8に記載の発明は、入力された検索式に合致した文書を請求項7のプログラムにより登録された複数の文書データから検索する処理をコンピュータに実行させるコンピュータに読み取り可能なプログラムにおいて、前記検索の検索要求を受け付ける検索要求受付処理と、この受け付ける1検索要求に関する言語の指定を受け付ける言語指定受付処理と、この受け付けた指定言語を含む複数の言語で前記受け付けた検索要求を正規化して、複数の言語で前記文書データを正規化して作成した索引を用いて前記複数の文書データの検索を実行する検索処理と、をコンピュータに実行させることを特徴とするプログラムである。
【0027】
したがって、1検索要求に対して複数の言語で正規化を行い、複数言語で記述された文書に対し、漏れの少ない検索の実行を行うことができる。
【0028】
請求項9に記載の発明は、コンピュータに読み取り可能なプログラムを記憶している記憶媒体において、前記プログラムは請求項7又は8のいずれかの一に記載のプログラムであること、を特徴とする記憶媒体である。
【0029】
したがって、記憶されているプログラムにより、請求項7又は8に記載の発明と同様の作用、効果を奏する。
【0030】
【発明の実施の形態】
本発明の一実施の形態について説明する。
【0031】
図1は、本実施の形態の文書検索システム1の電気的な接続のブロック図である。文書検索システム1は、本発明の文書登録装置、文書検索装置を実施した装置で、図1に示すように、各種演算を行ない、文書検索システム1の各部を集中的に制御するCPU11と、各種のROM、RAMからなるメモリ12とが、バス13で接続されている。
【0032】
バス13には、所定のインターフェースを介して、ハードディスクなどの磁気記憶装置14と、キーボード、マウスなどの入力装置15と、表示装置16と、光ディスクなどの記憶媒体17を読み取る記憶媒体読取装置18とが接続され、また、ネットワーク2と通信を行なう所定の通信インターフェース19が接続されている。なお、記憶媒体17としては、CD,DVDなどの光ディスク、光磁気ディスク、フレキシブルディスクなどの各種メディアを用いることができる。また、記憶媒体読取装置18は、具体的には記憶媒体17の種類に応じて光ディスク装置、光磁気ディスク装置、フレキシブルディスク装置などが用いられる。
【0033】
文書検索システム1は、この発明の記憶媒体を実施する記憶媒体17から、この発明のプログラムを実施するプログラム20を読み取って、磁気記憶装置14にインストールする。これらのプログラムはインターネットなどのネットワーク2等を介してダウンロードしてインストールするようにしてもよい。このインストールにより、文書検索システム1は、後述の所定の処理の実行が可能な状態となる。なお、プログラム20は、所定のOS上で動作するものであってもよい。
【0034】
次に、文書検索システム1が実行する処理について説明する。図2は、文書検索システム1がプログラム20に基づいて実現する機能の機能ブロック図である。図3、図4は、文書検索システム1が実行する処理を説明するフローチャートである。
【0035】
まず、文書検索システム1により文書データを登録する場合の処理について、図2、図3を参照して説明する。最初にユーザは、文書検索システム1に文書データを格納する際に、特定の言語の種類を指定して、登録しようとする文書データを入力する(文書データ受付手段、言語指定受付手段、文書データ受付処理、言語指定受付処理)(ステップS1のY)。この指定(言語指定)は、言語指定部21に送られ(ステップS2)、言語指定部21では、ユーザによる言語指定に、さらに特定の言語、この例では“英語”の言語指定を付加して言語情報とする(ステップS3)。
【0036】
文書データ格納部22は、この文書データと言語情報とを受け取り、まず、図5に示すような言語指定―文字コードエリア対応テーブル31を参照する(ステップS4)。このテーブル31には、図5に示すような言語指定−文字コードエリア対応表が記録されている。これは、日本語、英語など各種の言語32と、その言語で使用される文字コードの範囲(文字コードエリア33)とを関連付けて登録したものである。
【0037】
そして、言語情報で指定された2言語を言語32から探し、その2言語にそれぞれ対応する文字コードエリア33同士が重なるか否かを判断する(ステップS5)。例えば、言語情報に含まれる複数の言語が“日本語”、“英語”であった場合、文字コードエリア33の重なりは無い(ステップS5のN)。このような場合には、文書データ格納部22は、受け取った文書データにユーザの指定言語(この例では“日本語”)の正規化を実施し(ステップS6)、その結果に対して言語指定部21の指定言語(この例では“英語”)の正規化を実施し(ステップS7)、その結果を用いて、文書データ群が蓄積されるデータベースとなる文書データ蓄積部23(磁気記憶装置14に構築される)内に索引を作成し(後述する図5の索引テーブル41に格納される)(ステップS8)、文書データを格納する(ステップS9)。
【0038】
例えば、言語情報に含まれる複数の言語が“仏語”、“英語”であった場合、文字コードエリア33に重なりがある(ステップS5のY)。この場合には、文書データ格納部22は受け取った文書データにユーザの指定言語(この例では“仏語”)の正規化を実施し(ステップS10)、その結果を用いて文書データ蓄積部23内に索引を作成し(ステップS11)、次に言語指定部21の指定言語(この例では“英語”)の正規化を実施し(ステップS12)、その結果を用いて文書データ蓄積部内に索引を作成し(ステップS13)、文書データを格納する(ステップS14)。ステップS6〜8,S10〜S13により索引作成手段、索引作成処理を実現し、ステップS9,S14により文書登録手段、文書登録処理を実現している。
【0039】
かかる処理で作成された索引は図5の索引テーブル41に格納される。以下では、この索引テーブル41の索引について具体的に説明する。図5の例では、「messagingマネージャ」なる文書1が“日本語”、“英語”で格納され、同じ内容の文書2が“仏語”、“英語”で格納された場合の索引テーブル41の例を示す。
【0040】
文書1では、それぞれ異なった文字コードの部分に対して異なった正規化が適用されているため、文書を構成する単語数分のみの索引が作成される。すなわち、“日本語”(文字コードエリア33の0x3000-0x30ff,0x3200-0x33ff,0x4e00-0x9fff,0xf900-0xfaff,0xff00-0xff9f)と、“英語”(文字コードエリア33の0x0020-0x00ff)とは、重なり合う文字コード範囲を持たないので、まず、文書1に対して日本語の正規化を施し、次にその結果に英語の正規化を施すこととなる。文書1に“日本語”の正規化を施した結果は「messagingマネイジャ」、さらに“英語”の正規化を施した結果は、英語の正規化ルールでは、ing形に関する正規化ルールが存在するため、「messageマネイジャ」となる。この結果、正規化後の文書1を構成する2つの単語の「message」、「マネイジャ」が文書1への索引として登録される。よって、索引テーブル41には、単語表記42の欄に2つの単語の「message」、「マネイジャ」が登録され、これらにそれぞれ関連付けられて文書43の欄に文書1が登録される。
【0041】
一方、文書2では、それぞれ異なった言語の正規化をした分の索引を作るため、正規化によって生成したバリエーション分の索引が作成される。すなわち、「messagingマネージャ」なる文書2が、“仏語”、“英語”で格納された場合、言語指定―文字コードエリア対応テーブル31によれば、“仏語”(文字コードエリア33の0x0020-0x00ff)は、“英語”と同じ文字コード範囲を持つため、文書2を“仏語”で正規化した正規化文書と、“英語”で正規化した正規化文書が作成される。“仏語”で正規化した場合は、仏語の正規化ルールでは、“messaging→message”が存在しないため、「messagingマネージャ」なる正規化文書が生成される。また、“英語”で正規化した場合は「messageマネージャ」なる正規化文書が生成される。これら2つの正規化文書から異なる単語を取り出し、3つの単語「message」、「messaging」、「マネージャ」が文書2への索引として登録される。よって、索引テーブル41には、単語表記42の欄に3つの単語の「message」、「messaging」、「マネイジャ」が登録され、これらにそれぞれ関連付けられて文書43の欄に文書2が登録される。
【0042】
次に、文書検索システム1により文書データの検索を行う場合について、図2、図4を参照して説明する。以下では、「windows」なる単語を例にとって説明する。まず、ユーザは、要求入力部24に検索要求を入力し(検索要求受付手段、検索要求受付処理)(ステップS21のY)、さらに、言語指定(例えば、「日本語」、「英語」、「フランス語」である)を行う(言語指定受付手段、言語指定受付処理)(ステップS22のY)。言語指定部21は、ユーザからの言語指定に通常は特定の言語として「英語」を付加するが(ステップS23)、この例の場合、すでに「英語」が言語指定中に含まれているので、何も付加は行わない。
【0043】
多言語展開部25は、検索要求の単語を、指定言語、この例では「日本語」、「英語」、「フランス語」について正規化し(ステップS24)、その結果、この例では、「windows」、「window」、「window」を得る。要求入力部24はこれを受け取り、この例では、重なり合う「window」を1つにまとめ、正規化の結果、この例では「windows」、「window」を検索部26に送る(ステップS25)。
【0044】
検索部26は、正規化の結果、この例では「windows」あるいは「window」で、索引テーブル43の索引を用いて検索を実施し(ステップS26)、その結果を検索結果として出力する(ステップS27)。ステップS23〜S26により検索手段、検索処理を実現している。
【0045】
この例では、「windows」という記述を含む文書が、“日本語”として登録された場合には「windows」という単語が、“英語”や“仏語”、あるいは“日本語”、英語”として登録された場合には、「window」という単語が検索においてヒットし、漏れのない検索を実現できる。
【0046】
【発明の効果】
請求項1,6,9,10,11に記載の発明は、1文書、1検索要求に対して複数の言語で正規化を行い、複数言語で記述された文書に対し、漏れの少ない検索の実行を行うことができる。
【0047】
請求項2,7に記載の発明は、請求項1,6に記載の発明において、ユーザ側でわざわざ1文書、1検索要求について複数の言語を指定する手間を減らし、あわせて言語の指定し忘れによる検索漏れを防ぐことができる。
【0048】
請求項3,8に記載の発明は、請求項2,7に記載の発明において、特に言語の指定なしに、ある言語の文書の中に突然あらわれる可能性の高い英語に対してデフォルトの言語とすることにより、英語交じりの文書に対する検索漏れを防ぐことができる。
【0049】
請求項4に記載の発明は、請求項1〜3のいずれかの一に記載の発明において、複数の言語が指定された場合の文書登録処理として、複数の正規化を行って索引を作成することにより、索引のサイズは大きくなっても、特に、言語が使用する文字に依存しないで、1文書中の複数言語に対応することができる。
【0050】
請求項5に記載の発明は、請求項1〜4のいずれかの一に記載の発明において、複数の言語が指定された場合の文書登録処理として、複数の言語によって実施される正規化の影響がそれぞれ影響しあわないとき、ある言語の正規化と別の言語の正規化とを1文書に同時に行うことにより、検索漏れを防ぎつつ、作成される索引のサイズを低減することができる。
【図面の簡単な説明】
【図1】本発明の一実施の形態である文書検索システムの電気的な接続のブロック図である。
【図2】文書検索システムの機能ブロック図である。
【図3】文書データを登録する場合の処理のフローチャートである。
【図4】文書データを検索する場合の処理のフローチャートである。
【図5】言語指定―文字コードエリア対応テーブルの説明図である。
【図6】索引テーブルの説明図である。
【符号の説明】
1 文書登録装置、文書検索装置
17 記憶媒体
20 プログラム[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a document registration apparatus for registering document data in order to search a document that matches an input search expression from a plurality of registered document data, and a document that matches the input search expression is registered. The present invention relates to a document retrieval apparatus that retrieves a plurality of document data, a program that realizes these apparatuses, and a storage medium that stores the program.
[0002]
[Prior art]
As a technique for searching in multiple languages, for example, there is one disclosed in
[0003]
However, even if a full-fledged cross-language search function is not provided, it is fully conceivable that documents in a plurality of languages are stored in the document database. For example, in a document database used in Japan, it is not uncommon to store English text or English mixed text.
[0004]
On the other hand, in document search technology, for example, normalization that absorbs fluctuations of notations such as “computer” and “computer” and singular / plural forms such as “chair” and “chairs” in order to prevent omission of search. Technology exists. These normalizations should be performed for each document to be registered in the language used in the document, and just because Japanese document databases are used in Japan, only Japanese normalization is performed in the document database. This leads to omission of search for documents written in languages other than Japanese. In order to solve such a problem, some search engines on the WWW are provided with an interface for specifying a language.
[0005]
[Patent Document 1]
JP-A-8-212229 gazette
[Problems to be solved by the invention]
However, in document database technology, the language of the country of sale is the main language, and other languages are sometimes mixed in the document described in the main language. Or, even in a document written in a certain language, there are cases where English, which is generally widely used, is sometimes mixed, and in these cases, it is not possible to specify a language other than the main language. Therefore, there is a problem that sufficient normalization cannot be performed and there is a possibility of a search omission.
[0007]
An object of the present invention is to perform a search with few leaks on a document described in a plurality of languages.
[0008]
According to the first aspect of the present invention, in the document registration apparatus for registering the document data in order to search a document that matches the input search formula from a plurality of registered document data, the registration is attempted. A document data receiving unit that receives input of document data, a language designation receiving unit that receives designation of a language related to the one document to be received, and a plurality of languages including the received designated language each having a different character code area. The document data is normalized for one language among the plurality of languages to create normalized data, and the normalized data is normalized for one other language. By creating new normalized data and creating new normalized data in the same way for all the other languages, Create data, create an index based on the one normalized data, and normalize the document data for each of the plurality of languages when the plurality of languages hold the same character code area To create a plurality of normalized data having the same number as the number of the plurality of languages, and to create an index based on the plurality of normalized data, the index and the received document data And a registration unit for registering the document.
[0009]
Therefore, it is possible to normalize one document in a plurality of languages and execute a search with few omissions on a document described in a plurality of languages.
[0010]
According to a second aspect of the present invention, in the document registration apparatus according to the first aspect, the index creating means designates a plurality of languages by designating a predetermined language in addition to the designated language accepted by the language designation accepting means. And performing the normalization.
[0011]
Therefore, it is possible to reduce the trouble of specifying a plurality of languages for one document on the user side, and to prevent a search omission due to forgetting to specify a language.
[0012]
According to a third aspect of the present invention, in the document registration apparatus according to the second aspect, the index creating means designates English as the predetermined language.
[0013]
Therefore, it is possible to prevent omission of search for documents mixed with English by setting the default language for English which is likely to appear suddenly in a document in a certain language without specifying a language.
[0018]
According to a fourth aspect of the present invention, there is provided a document retrieval apparatus for retrieving a document that matches an input retrieval formula from a plurality of document data registered by the document registration apparatus according to the first aspect . A request accepting means; a language designation accepting means for accepting a language specification relating to the accepted one search request; and normalizing the accepted search request in a plurality of languages including the accepted designated language, and the document data in a plurality of languages. And a search means for executing a search of the plurality of document data using an index created by normalizing the document.
[0019]
Therefore, normalization can be performed in a plurality of languages with respect to one search request, and a search with less omission can be performed on a document described in a plurality of languages.
[0020]
According to a fifth aspect of the present invention, in the document retrieval apparatus according to the fourth aspect , the retrieval unit designates a predetermined language in addition to the designated language accepted by the language designation acceptance unit, and uses the plurality of languages. The normalization is performed.
[0021]
Accordingly, it is possible to reduce the trouble of designating a plurality of languages for one search request on the user side, and to prevent a search omission due to forgetting to designate a language.
[0022]
The invention described in
[0023]
Therefore, it is possible to prevent omission of search for documents mixed with English by setting the default language for English which is likely to appear suddenly in a document in a certain language without specifying a language.
[0024]
The invention according to claim 7 is readable by a computer that causes a computer to execute processing for registering the document data in order to search a document that matches the input search formula from a plurality of registered document data. In the program, the document data receiving process for receiving the input of the document data to be registered, the language specifying receiving process for receiving the specification of the language relating to the received one document, and the plurality of languages including the received specified language are different. When the character code area is held, the document data is normalized with respect to one language out of the plurality of languages to create normalized data, and the normalized data is Normalize one language and create new normalized data, and for all the other languages, When creating one normalized data by creating new normalized data, creating an index based on the one normalized data, and when the plurality of languages hold the same character code area In addition, the document data is normalized for each of the plurality of languages to create a plurality of normalized data having the same number as the number of the plurality of languages, and an index is created based on the plurality of normalized data And a registration process for registering the index and the received document data.
[0025]
Therefore, it is possible to normalize one document in a plurality of languages and execute a search with few omissions on a document described in a plurality of languages.
[0026]
The invention described in claim 8 is a computer-readable program that causes a computer to execute a process of searching a plurality of document data registered by the program of claim 7 for a document that matches an input search expression. A search request reception process for receiving a search request for search; a language specification reception process for receiving a language specification relating to this one search request to be received; and normalizing the received search request in a plurality of languages including the received specified language; A program that causes a computer to execute search processing for searching for the plurality of document data using an index created by normalizing the document data in a plurality of languages.
[0027]
Therefore, normalization can be performed in a plurality of languages with respect to one search request, and a search with less omission can be performed on a document described in a plurality of languages.
[0028]
The invention according to
[0029]
Therefore, the stored program produces the same operations and effects as the invention according to claim 7 or 8 .
[0030]
DETAILED DESCRIPTION OF THE INVENTION
An embodiment of the present invention will be described.
[0031]
FIG. 1 is a block diagram of electrical connection of the
[0032]
The
[0033]
The
[0034]
Next, processing executed by the
[0035]
First, processing when document data is registered by the
[0036]
The document
[0037]
Then, two languages designated by the language information are searched from the
[0038]
For example, when the plurality of languages included in the language information are “French” and “English”, there is an overlap in the character code area 33 (Y in step S5). In this case, the document
[0039]
The index created by such processing is stored in the index table 41 of FIG. Below, the index of this index table 41 is demonstrated concretely. In the example of FIG. 5, an example of the index table 41 when the
[0040]
In the
[0041]
On the other hand, in
[0042]
Next, a case where document data is searched by the
[0043]
The
[0044]
As a result of normalization, the
[0045]
In this example, if a document containing the description “windows” is registered as “Japanese”, the word “windows” is registered as “English” or “French” or “Japanese” or “English”. If the search is performed, the word “window” is hit in the search, and a search without omission can be realized.
[0046]
【The invention's effect】
The inventions according to
[0047]
The inventions described in
[0048]
The inventions of claims 3 and 8 are the inventions of
[0049]
The invention according to claim 4 is the invention according to any one of
[0050]
The invention according to
[Brief description of the drawings]
FIG. 1 is a block diagram of electrical connection of a document search system according to an embodiment of the present invention.
FIG. 2 is a functional block diagram of a document search system.
FIG. 3 is a flowchart of processing when registering document data.
FIG. 4 is a flowchart of processing when retrieving document data.
FIG. 5 is an explanatory diagram of a language designation / character code area correspondence table;
FIG. 6 is an explanatory diagram of an index table.
[Explanation of symbols]
1 Document Registration Device, Document Search Device 17
Claims (9)
前記登録をしようとする文書データの入力を受け付ける文書データ受付手段と、
この受け付ける1文書に関する言語の指定を受け付ける言語指定受付手段と、
この受け付けた指定言語を含む複数の言語がそれぞれ異なる文字コードエリアを保持するときに、前記文書データに対して、前記複数の言語のうち、一つの言語についての正規化を行って正規化データを作成し、前記正規化データに対して外の一つの言語についての正規化を行って新たな正規化データを作成し、その外の前記複数の言語全てについて、同様に新たな正規化データを作成することにより、一つの正規化データを作成し、前記一つの正規化データに基づいて索引の作成を行い、前記複数の言語が同じ文字コードエリアを保持するときに、前記文書データに対して、前記複数の言語毎に正規化を行って前記複数の言語の数と同数の複数の正規化データを作成し、前記複数の正規化データに基づいて索引の作成を行う索引作成手段と、
この索引と前記受け付けた文書データとを登録する登録手段と、
を備えていることを特徴とする文書登録装置。In a document registration apparatus for registering the document data in order to search a document that matches the input search formula from a plurality of registered document data,
Document data receiving means for receiving input of document data to be registered;
Language designation accepting means for accepting designation of a language relating to the one document to be accepted;
When the plurality of languages including the received designated language hold different character code areas, the document data is normalized with respect to one language out of the plurality of languages to obtain normalized data. Create new normalized data by normalizing the normalized data for one other language, and create new normalized data for all the other languages in the same way By creating one normalized data, creating an index based on the one normalized data, when the plurality of languages hold the same character code area, for the document data, wherein the plurality of each language performs normalization to create as many plurality of normalized data of the plurality of languages, and indexing means of making indexes based on the plurality of normalized data
Registration means for registering the index and the received document data;
A document registration apparatus comprising:
前記検索の検索要求を受け付ける検索要求受付手段と、
この受け付ける1検索要求に関する言語の指定を受け付ける言語指定受付手段と、
この受け付けた指定言語を含む複数の言語で前記受け付けた検索要求を正規化して、複数の言語で前記文書データを正規化して作成した索引を用いて前記複数の文書データの検索を実行する検索手段と、
を備えていることを特徴とする文書検索装置。In a document search apparatus that searches a plurality of document data registered by the document registration apparatus according to claim 1 for a document that matches the input search formula,
Search request accepting means for accepting the search request for the search;
Language designation accepting means for accepting the designation of the language related to the one search request to be accepted;
Retrieval means for normalizing the accepted search request in a plurality of languages including the accepted designated language and performing a search of the plurality of document data using an index created by normalizing the document data in a plurality of languages When,
A document retrieval apparatus comprising:
前記登録をしようとする文書データの入力を受け付ける文書データ受付処理と、
この受け付ける1文書に関する言語の指定を受け付ける言語指定受付処理と、
この受け付けた指定言語を含む複数の言語がそれぞれ異なる文字コードエリアを保持するときに、前記文書データに対して、前記複数の言語のうち、一つの言語についての正規化を行って正規化データを作成し、前記正規化データに対して外の一つの言語についての正規化を行って新たな正規化データを作成し、その外の前記複数の言語全てについて、同様に新たな正規化データを作成することにより、一つの正規化データを作成し、前記一つの正規化データに基づいて索引の作成を行い、前記複数の言語が同じ文字コードエリアを保持するときに、前記文書データに対して、前記複数の言語毎に正規化を行って前記複数の言語の数と同数の複数の正規化データを作成し、前記複数の正規化データに基づいて索引の作成を行う索引作成処理と、
この索引と前記受け付けた文書データとを登録する登録処理と、
をコンピュータに実行させることを特徴とするプログラム。In a computer-readable program for causing a computer to execute a process of registering the document data in order to search a document that matches the input search formula from a plurality of registered document data,
Document data reception processing for receiving input of document data to be registered;
A language designation accepting process for accepting designation of a language relating to the one document to be accepted;
When the plurality of languages including the received designated language hold different character code areas, the document data is normalized with respect to one language out of the plurality of languages to obtain normalized data. Create new normalized data by normalizing the normalized data for one other language, and create new normalized data for all the other languages in the same way By creating one normalized data, creating an index based on the one normalized data, when the plurality of languages hold the same character code area, for the document data, the normalization to make creating a plurality of normalized data as many of said plurality of languages for each of a plurality of languages, the indexing process for creating an index based on the plurality of normalized data
A registration process for registering this index and the received document data;
A program that causes a computer to execute.
前記検索の検索要求を受け付ける検索要求受付処理と、
この受け付ける1検索要求に関する言語の指定を受け付ける言語指定受付処理と、
この受け付けた指定言語を含む複数の言語で前記受け付けた検索要求を正規化して、複数の言語で前記文書データを正規化して作成した索引を用いて前記複数の文書データの検索を実行する検索処理と、
をコンピュータに実行させることを特徴とするプログラム。In a computer-readable program for causing a computer to execute processing for searching a plurality of document data registered by the program of claim 7 for a document that matches an input search expression,
A search request receiving process for receiving a search request for the search;
A language designation accepting process for accepting designation of a language related to the one search request to be accepted;
A search process for normalizing the received search request in a plurality of languages including the specified language that has been received, and executing a search for the plurality of document data using an index created by normalizing the document data in a plurality of languages When,
A program that causes a computer to execute.
前記プログラムは請求項7又は8のいずれかの一に記載のプログラムであること、を特徴とする記憶媒体。In a storage medium storing a computer-readable program,
A storage medium, wherein the program is the program according to any one of claims 7 and 8.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003156116A JP4283038B2 (en) | 2003-06-02 | 2003-06-02 | Document registration device, document search device, program, and storage medium |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003156116A JP4283038B2 (en) | 2003-06-02 | 2003-06-02 | Document registration device, document search device, program, and storage medium |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2004362007A JP2004362007A (en) | 2004-12-24 |
| JP4283038B2 true JP4283038B2 (en) | 2009-06-24 |
Family
ID=34050292
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2003156116A Expired - Fee Related JP4283038B2 (en) | 2003-06-02 | 2003-06-02 | Document registration device, document search device, program, and storage medium |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4283038B2 (en) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP1677208A1 (en) * | 2004-12-30 | 2006-07-05 | Sap Ag | Method and system for searching for data objects |
| KR101117171B1 (en) | 2008-10-22 | 2012-03-07 | 엔에이치엔(주) | Method, system and computer-readable recording medium for creating data for retrieval |
-
2003
- 2003-06-02 JP JP2003156116A patent/JP4283038B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2004362007A (en) | 2004-12-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7802305B1 (en) | Methods and apparatus for automated redaction of content in a document | |
| JP3695191B2 (en) | Translation support apparatus and method and computer-readable recording medium | |
| JP4202041B2 (en) | Method and system for applying input mode bias | |
| JP4173774B2 (en) | System and method for automatic retrieval of example sentences based on weighted edit distance | |
| JP3666004B2 (en) | Multilingual document search system | |
| US6246976B1 (en) | Apparatus, method and storage medium for identifying a combination of a language and its character code system | |
| US20020138479A1 (en) | Adaptive search engine query | |
| JP2006053892A (en) | Localization of xml through transformation | |
| JP2003223437A (en) | Method of displaying candidate for correct word, method of checking spelling, computer device, and program | |
| JP2006099428A (en) | Document summary creation system, method, and program | |
| JP2006073012A (en) | System and method for managing information by responding to a predetermined number of predefined questions | |
| JP2008198237A (en) | Structured document management system | |
| JP4283038B2 (en) | Document registration device, document search device, program, and storage medium | |
| JP2008084070A (en) | Structured document retrieval apparatus and program | |
| US7418658B2 (en) | System and method for integrating reference material in an electronic document | |
| US20040054677A1 (en) | Method for processing text in a computer and a computer | |
| JP4091586B2 (en) | Structured document management system, index construction method and program | |
| JP2001101184A (en) | Structured document generation method and apparatus, and storage medium storing structured document generation program | |
| JP2943791B2 (en) | Language identification device, language identification method, and recording medium recording language identification program | |
| JP2991142B2 (en) | Structured document database system with dynamic componentization function | |
| JP2010250389A (en) | Information retrieval system, method and program, and index generation system, method, and program | |
| JP3450598B2 (en) | Technical term dictionary selection device | |
| JP4010589B2 (en) | Document retrieval system and retrieval document presentation method applied to the system | |
| JPH10283368A (en) | Information processing apparatus and method | |
| JP2000305938A (en) | Document information search device and computer-readable recording medium for causing computer to function as document information search device |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20041012 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050705 |
|
| RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20050707 |
|
| RD05 | Notification of revocation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7425 Effective date: 20060922 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080829 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080902 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081104 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081104 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081224 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090130 |
|
| RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20090202 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090130 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20090217 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090317 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090318 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120327 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120327 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130327 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140327 Year of fee payment: 5 |
|
| LAPS | Cancellation because of no payment of annual fees |