Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP3375978B2 - Document processing device - Google Patents
[go: Go Back, main page]

JP3375978B2 - Document processing device - Google Patents

Document processing device

Info

Publication number
JP3375978B2
JP3375978B2 JP17677491A JP17677491A JP3375978B2 JP 3375978 B2 JP3375978 B2 JP 3375978B2 JP 17677491 A JP17677491 A JP 17677491A JP 17677491 A JP17677491 A JP 17677491A JP 3375978 B2 JP3375978 B2 JP 3375978B2
Authority
JP
Japan
Prior art keywords
word
search
holding unit
held
incompatible
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP17677491A
Other languages
Japanese (ja)
Other versions
JPH0520305A (en
Inventor
史朗 伊藤
隆也 上田
稔 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP17677491A priority Critical patent/JP3375978B2/en
Publication of JPH0520305A publication Critical patent/JPH0520305A/en
Application granted granted Critical
Publication of JP3375978B2 publication Critical patent/JP3375978B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は文書処理装置に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document processing device.

【0002】[0002]

【従来の技術】一般に、全文検索を行なう文書処理装置
では文字列としては検索語と同じだが語としては検索語
と異なる語が検索されてしまうことが多いのが通常であ
る。従来のこの種の装置では、検索語とは異なる語を含
む文の形態素解析を行ない検索語と一致することを確か
めることにより、検索語とは異なる語を検索することが
ないようにしていた。
2. Description of the Related Art Generally, in a document processing apparatus for performing full-text search, a character string is usually the same as a search word, but a word different from the search word is often searched. In the conventional device of this type, a morphological analysis of a sentence including a word different from the search word is performed and it is confirmed that the sentence matches the search word so that a word different from the search word is not searched.

【0003】[0003]

【発明が解決しようとする課題】しかしながら、上記従
来例では語が検索されるたびに形態素解析を行なうの
で、検索にかかる処理時間が増大するという欠点があっ
た。
However, in the above-mentioned conventional example, since the morphological analysis is performed every time a word is searched, there is a drawback that the processing time required for the search increases.

【0004】この発明は上述した従来の欠点を解決した
文書処理装置を提供することを目的とする。
An object of the present invention is to provide a document processing apparatus which solves the above-mentioned conventional drawbacks.

【0005】[0005]

【課題を解決するための手段】このような目的を達成す
るために、本発明は、検索対象となる文書を保持する検
索対象文書保持手段と、検索したい検索語を保持する検
索語保持手段と、該検索語保持手段に保持されている検
索語を部分的に含んでいる不適合語を保持する不適合語
保持手段と、前記検索対象文書保持手段に保持されてい
る検索対象文書に対して前記検索語保持手段に保持され
ている検索語と前記不適合語保持手段に保持されている
不適合語とを検索する検索処理手段と、該検索処理手段
によって検索された結果を保持する検索結果保持手段
と、該検索結果保持手段に保持されている検索結果に対
して、検索された語のうち前記検索語保持手段に保持さ
れている検索語と一致するものだけを抽出する適合文書
抽出処理手段と、該適合文書抽出処理手段によって抽出
された検索語と一致する文に対して形態素解析を行う形
態素解析手段と、該形態素解析手段により形態素が一致
しないと判断された場合、該文を不適合語として前記不
適合語保持手段に記憶するよう制御する記憶制御手段
と、を有することを特徴とする。
In order to achieve such an object, the present invention provides a retrieval target document retaining means for retaining a document to be retrieved and a retrieval word retaining means for retaining a retrieval word desired to be retrieved. An incompatible word holding unit that holds an incompatible word that partially includes the search word held in the search word holding unit, and the search for the search target document held in the search target document holding unit Search processing means for searching the search word held in the word holding means and the incompatible word held in the incompatible word holding means, and search result holding means for holding the result searched by the search processing means, Relevant document extraction processing means for extracting, from the search results held in the search result holding means, only those words that match the search word held in the search word holding means among the searched words; When the morpheme analysis unit that performs morpheme analysis on the sentence that matches the search word extracted by the combined document extraction processing unit and the morpheme analysis unit determines that the morpheme does not match, the sentence is regarded as a nonconforming word and the nonconformity Storage control means for controlling to store in the word holding means.

【0006】[0006]

【作用】本発明によれば、形態素解析を行なう回数が減
り、速く正確に希望する検索語の検索が行なわれる。
According to the present invention, the number of times morphological analysis is performed can be reduced, and a desired search word can be searched quickly and accurately.

【0007】[0007]

【実施例】以下、図面を参照して本発明を詳細に説明す
る。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS The present invention will be described in detail below with reference to the drawings.

【0008】図1は、本発明の一実施例に係る装置の構
成を示すブロック図である。同図において1は検索対象
となる文書を保持する検索対象文書保持部、2は検索対
象文書保持部1に保持されている文書から検索したい検
索語を保持する検索語保持部、3は検索語保持部2に保
持されている検索語を部分的に含んでいるため検索対象
文書保持部1に保持されている文書から誤って検索され
てしまう不適合語を保持する不適合語保持部、4は検索
対象文書保持部1に保持されている検索対象文書から検
索語保持部2に保持されている検索語と不適合語保持部
3に保持されている不適合語とを検索する検索処理部、
5は検索処理部4によって検索された結果を保持する検
索結果保持部、6は検索結果保持部5に保持されている
検索結果に対して、検索された語が検索語保持部2に保
持されている検索語と真に一致するものだけを抽出する
適合文書抽出処理部、7は適合文書抽出処理部6によっ
て抽出された文書を保持する抽出結果保持部である。
FIG. 1 is a block diagram showing the configuration of an apparatus according to an embodiment of the present invention. In the figure, 1 is a search target document holding unit that holds a document to be searched, 2 is a search word holding unit that holds a search word to be searched from the document held in the search target document holding unit 1, and 3 is a search word. The nonconformity word holding unit 4 that holds the nonconformity word that is erroneously searched from the document held in the search target document holding unit 1 because it partially includes the search word held in the holding unit 2 is searched by A search processing unit that searches the search target document held in the target document holding unit 1 for the search word held in the search word holding unit 2 and the incompatible word held in the incompatible word holding unit 3.
Reference numeral 5 denotes a search result holding unit that holds the result searched by the search processing unit 4, and 6 indicates that the searched word is held in the search word holding unit 2 for the search result held in the search result holding unit 5. The relevant document extraction processing unit 7 extracts only those that exactly match the search word, and the extraction result holding unit 7 holds the document extracted by the relevant document extraction processing unit 6.

【0009】図2は本発明の実施例の具体的構成を示
す。ここで、21は制御メモリであり、図3のフローチ
ャートに示すような制御手順に従った制御プログラムを
記憶する。22は制御メモリ21に保持されている制御
手順に従って判断・演算などを行なう中央処理装置であ
る。23はメモリであり、検索語保持部IB,検索結果
保持部OB,抽出結果保持部FB,不適合語保持部UB
を有している。24はディスク装置であり、検索対象文
書保持部DBを有している。25はバスである。
FIG. 2 shows a specific configuration of the embodiment of the present invention. Here, 21 is a control memory, which stores a control program according to a control procedure as shown in the flowchart of FIG. Reference numeral 22 is a central processing unit for making judgments and calculations according to the control procedure stored in the control memory 21. Reference numeral 23 denotes a memory, which is a search word holding unit IB, a search result holding unit OB, an extraction result holding unit FB, an incompatible word holding unit UB.
have. A disk device 24 has a search target document holding unit DB. 25 is a bus.

【0010】次に図3に示すフローチャートを参照し
て、本装置の動作を説明する。まず、ステップS1で
は、不適合語保持部3を初期化して空にする。そしてス
テップS2に移る。次に、検索語保持部2に検索語が保
持されるまで、ステップS2が繰り返される。検索語が
検索語保持部2に保持されると、ステップS3に移る。
ステップS3では、検索対象文書保持部1に検索対象文
が残っているか否かを調べ、検索対象文がある場合はス
テップS4に移り、検索対象文がない場合は全ての処理
を終了する。
Next, the operation of this apparatus will be described with reference to the flow chart shown in FIG. First, in step S1, the mismatch word holding unit 3 is initialized to be empty. Then, the process proceeds to step S2. Next, step S2 is repeated until the search word holding unit 2 holds the search word. When the search word is held in the search word holding unit 2, the process proceeds to step S3.
In step S3, it is checked whether or not a search target sentence remains in the search target document holding unit 1. If there is a search target sentence, the process proceeds to step S4, and if there is no search target sentence, all processing is terminated.

【0011】ステップS4では、検索対象文書保持部1
に保持されている検索対象文書から一文を取り出しステ
ップS5に移る。ステップS5では、ステップS4で取
り出された文に対して、検索語保持部2に保持されてい
る検索語と不適合語保持部に保持されている不適合語と
を検索し、検索の結果を検索結果保持部5に保持し、ス
テップS6に移る。ステップS6では、検索結果保持部
5に保持されている検索結果に基づき、検索された語が
不適合語保持部3に保持されている不適合語に対応する
場合は、何もしないでステップS3に戻り、検索された
語が検索語保持部2に保持されている検索語だけに対応
する場合は、検索された語を含む文に対して形態素解析
を行い、検索された語と検索された語に対応する検索語
が形態素として一致する場合には、結果を抽出結果保持
部に保持しステップS3に戻り、検索された語と検索さ
れた語に対応する語が形態素としては一致しない場合
は、検索された語を不適合語保持部に新たに保持させス
テップS3に戻る。例えば、検索語保持部2に図4のよ
うな語が保持されると、適合文書抽出処理によって、図
5のような語が不適合語保持部3に保持される。
In step S4, the retrieval target document holding unit 1
One sentence is extracted from the search target document held in the step S5, and the process proceeds to step S5. In step S5, with respect to the sentence extracted in step S4, the search word held in the search word holding unit 2 and the incompatible word held in the incompatible word holding unit are searched, and the search result is the search result. It is held in the holding unit 5, and the process proceeds to step S6. In step S6, if the searched word corresponds to the non-matching word held in the non-matching word holding section 3 based on the search result held in the search result holding section 5, nothing is done and the process returns to step S3. , If the searched word corresponds only to the search word held in the search word holding unit 2, morphological analysis is performed on the sentence including the searched word, and the searched word and the searched word are combined. When the corresponding search word matches as a morpheme, the result is held in the extraction result holding unit and the process returns to step S3. When the searched word and the word corresponding to the searched word do not match as a morpheme, the search is performed. The selected word is newly held in the nonconforming word holding unit, and the process returns to step S3. For example, when the word as shown in FIG. 4 is held in the search word holding unit 2, the word as shown in FIG. 5 is held in the unmatched word holding unit 3 by the matching document extraction processing.

【0012】なお、 1.上記実施例では、不適合語保持部の初期化処理を全
ての処理に先だって行なう場合について説明したが、こ
れに限定されるものでなく、図3のステップS2の後な
ど、検索処理に先立つ任意の箇所で行なってもよいもの
である。
Note that 1. In the above-described embodiment, the case where the initialization process of the incompatible word holding unit is performed prior to all the processes has been described, but the present invention is not limited to this, and any process prior to the search process such as after step S2 in FIG. 3 is performed. It may be done in place.

【0013】2.上記実施例では、検索対象文書保持部
1に保持される文書が一つの場合について説明したが、
これに限定されるものでなく、複数の文書であってもよ
いものである。
2. In the above embodiment, the case where the number of documents held in the search target document holding unit 1 is one has been described.
The present invention is not limited to this, and may be a plurality of documents.

【0014】3.上記実施例では、検索処理部4と適合
文書抽出処理部6とで文を単位として処理を行なった場
合について説明したが、これに限定されるものでなく、
文書、段落などでもよいものである。
3. In the above embodiment, the case where the search processing unit 4 and the matching document extraction processing unit 6 perform processing in units of sentences has been described, but the present invention is not limited to this.
It can be a document, paragraph, etc.

【0015】4.上記実施例では、適合文書抽出処理部
6で形態素解析を行なう際に検索された語を含む文を形
態素解析の対象とした場合について説明したが、これに
限定されるものでなく、検索された語を含む節などでも
よいものである。
4. In the above-described embodiment, the case has been described in which the sentence including the word retrieved when the morpheme analysis is performed by the matching document extraction processing unit 6 is the target of the morpheme analysis, but the present invention is not limited to this and the retrieval is performed. It may be a clause including words.

【0016】5.上記実施例では、検索対象文書保持部
1をディスク装置で実現し、検索語保持部2と不適合語
保持部3と検索結果保持部5と抽出結果保持部7とをメ
モリで実現した場合について説明したが、これらに限定
されるものでなく、光磁気ディスク装置など他の記憶デ
バイスでもよいものである。
5. In the above embodiment, the case where the search target document holding unit 1 is realized by the disk device and the search word holding unit 2, the incompatibility word holding unit 3, the search result holding unit 5, and the extraction result holding unit 7 are realized by the memory will be described. However, the storage device is not limited to these, and may be another storage device such as a magneto-optical disk device.

【0017】図6は、本発明の他の実施例に係る装置の
構成を示すブロック図である。同図において11は検索
対象となる文書を保持する検索対象文書保持部、12は
検索対象文書保持部11に保持されている文書から検索
したい検索語を保持する検索語保持部、13は検索語保
持部12に保持されている検索語を部分的に含んでいる
ため検索対象文書保持部11に保持されている文書から
誤って検索されてしまう不適合語を保持する不適合語保
持部、14は語に対する関連語と不適合語を保持してい
る関連語辞書、15は検索語保持部12に保持されてい
る検索語に対する関連語と不適合語を関連語辞書14か
ら取り出し、検索語保持部12に対して関連語の展開を
行い不適合語保持部13に対して不適合語の設定を行な
う関連語展開部、16は検索文書保持部11に保持され
ている検索対象文書から検索語保持部12に保持されて
いる検索語と不適合語保持部13に保持されている不適
合語とを検索する検索処理部、17は検索処理部16に
よって検索された結果を保持する検索結果保持部、18
は検索結果保持部17に保持されている検索結果に対し
て、検索された語が検索語保持部12に保持されている
検索語と真に一致するものだけを抽出する適合文書抽出
処理部、19は適合文書抽出処理部18によって抽出さ
れた文書を保持する抽出結果保持部である。
FIG. 6 is a block diagram showing the arrangement of an apparatus according to another embodiment of the present invention. In the figure, 11 is a search target document holding unit that holds a document to be searched, 12 is a search word holding unit that holds a search word to be searched from documents held in the search target document holding unit 11, and 13 is a search word. The nonconforming word holding unit that holds the nonconforming word that is erroneously searched from the document held in the search target document holding unit 11 because it partially includes the search word held in the holding unit 12 is a word A related word dictionary holding a related word and a non-matching word with respect to, and a related word with respect to the search word held in the search word holding unit 12 and a non-matching word are taken out from the related word dictionary 14 and stored in the search word holding unit 12. A related word expansion unit that expands related words by performing related word expansion and sets incompatible words in the incompatibility word holding unit 13, and 16 is held in the search word holding unit 12 from the search target document held in the search document holding unit 11. Search processing unit for searching incompatible words stored in the search term incompatible word holding portion 13 that is, 17 search results holding unit for holding the result searched by the search processing unit 16, 18
Is a matching document extraction processing unit that extracts only the searched words that match the search word held in the search word holding unit 12 from the search results held in the search result holding unit 17; Reference numeral 19 denotes an extraction result holding unit that holds the document extracted by the matching document extraction processing unit 18.

【0018】図7は本発明の他の実施例の具体的構成を
示す。ここで、21は制御メモリであり、図8のフロー
チャートに示すような制御手順に従った制御プログラム
を記憶する。22は制御メモリ21に保持されている制
御手順に従って判断・演算などを行なう中央処理装置で
ある。23はメモリであり、検索語保持部IB,検索結
果保持部OB、抽出結果保持部FB、不適合語保持部U
Bを有している。24はディスク装置であり、検索対象
文書保持部DB、関連語辞書RDを有している。25は
バスである。
FIG. 7 shows a concrete structure of another embodiment of the present invention. Here, 21 is a control memory, which stores a control program according to a control procedure as shown in the flowchart of FIG. Reference numeral 22 is a central processing unit for making judgments and calculations according to the control procedure stored in the control memory 21. Reference numeral 23 denotes a memory, which is a search word holding unit IB, a search result holding unit OB, an extraction result holding unit FB, and a nonconforming word holding unit U.
Have B. A disk device 24 has a search target document holding unit DB and a related word dictionary RD. 25 is a bus.

【0019】次に図8に示すフローチャートを参照し
て、本装置の動作を説明する。まず、検索語保持部12
に検索語が保持されるまで、ステップS11が繰り返さ
れる。検索語が検索語保持部12に保持されると、ステ
ップS12に移る。ステップS12では、検索語保持部
12に保持されている検索語に対する関連語を関連語辞
書14より取り出し、取り出した関連語を検索語保持部
12に新たな検索語として保持させる。そしてステップ
S13に移る。ステップS13では、検索語保持部12
に保持されている検索語に対する不適合語を関連語辞書
14より取り出し、取り出した不適合語を不適合語保持
部13に保持させ、ステップS14に移る。例えば、検
索語保持部12に図9のような語が保持されると、図1
0のような関連語辞書を用いた関連語展開処理によっ
て、図11のような語が新たに検索語保持部12に保持
され、図12のような語が不適合語保持部13に保持さ
れる。
Next, the operation of this apparatus will be described with reference to the flow chart shown in FIG. First, the search term holding unit 12
Step S11 is repeated until the search word is stored in. When the search word is held in the search word holding unit 12, the process proceeds to step S12. In step S12, the related word for the search word held in the search word holding unit 12 is extracted from the related word dictionary 14, and the extracted related word is held in the search word holding unit 12 as a new search word. Then, the process proceeds to step S13. In step S13, the search word holding unit 12
The non-conforming words for the search word held in are retrieved from the related word dictionary 14, and the retrieved non-conforming words are held in the non-conforming word holding unit 13, and the process proceeds to step S14. For example, if the search word holding unit 12 holds a word as shown in FIG.
By the related word expanding process using the related word dictionary such as 0, the word as shown in FIG. 11 is newly held in the search word holding unit 12, and the word as shown in FIG. 12 is held in the incompatible word holding unit 13. .

【0020】ステップS14では、検索対象文書保持部
11に検索対象文が残っているか否かを調べ、検索対象
文がある場合はステップS15に移り、検索対象文がな
い場合は全ての処理を終了する。ステップS15では、
検索対象文書保持部11に保持されている検索対象文書
から一文を取り出し、ステップS16に移る。ステップ
S16では、ステップS15で取り出された文に対し
て、検索語保持部12に保持されている検索語と不適合
語保持部13に保持されている不適合語とを検索し、検
索の結果を検索結果保持部17に保持し、ステップS1
7に移る。
In step S14, it is checked whether or not a search target sentence remains in the search target document holding unit 11. If there is a search target sentence, the process proceeds to step S15. If there is no search target sentence, all processing is terminated. To do. In step S15,
A sentence is extracted from the search target document held in the search target document holding unit 11, and the process proceeds to step S16. In step S16, with respect to the sentence extracted in step S15, the search word held in the search word holding unit 12 and the incompatible word held in the incompatible word holding unit 13 are searched, and the search result is searched. The result is held in the result holding unit 17, and step S1
Go to 7.

【0021】ステップS17では、検索結果保持部17
に保持されている検索結果に基づき、検索された語が不
適合語保持部13に保持されている不適合語に対応する
場合は、何もしないでステップS14に戻る。また検索
された語が検索語保持部12に保持されている検索語だ
けに対応する場合は、検索された語を含む文に対して形
態素解析を行い、検索された語と検索された語に対応す
る検索語保持部12に保持されている検索語が形態素と
して一致する場合には、結果を抽出結果保持部19に保
持しステップS14に戻る。検索された語と検索された
語に対応する検索語が形態素として一致しない場合は、
検索された語を検索された語に対応する検索語の不適合
語として関連語辞書14に登録し、ステップS14に戻
る。
In step S17, the search result holding unit 17
If the searched word corresponds to the incompatible word held in the incompatible word holding unit 13 based on the search result held in, the process returns to step S14 without doing anything. When the searched word corresponds only to the search word held in the search word holding unit 12, morpheme analysis is performed on the sentence including the searched word, and the searched word and the searched word are combined. When the corresponding search word held in the corresponding search word holding unit 12 matches as a morpheme, the result is held in the extraction result holding unit 19 and the process returns to step S14. If the searched word and the search word corresponding to the searched word do not match as a morpheme,
The searched word is registered in the related word dictionary 14 as an incompatible word of the search word corresponding to the searched word, and the process returns to step S14.

【0022】なお、 A.上記実施例では、語に対する関連語と不適合語を一
つの関連語辞書14にまとめて保持した場合について説
明したが、これに限定されるものでなく、関連語と不適
合語を別の辞書に保持してもよいものである。このと
き、関連語展開部15を関連語の展開を行なう部分と不
適合語の設定を行なう部分に分けてもよいものである。
In addition, A. In the above-described embodiment, a case has been described in which related words and incompatible words for words are collectively stored in one related word dictionary 14, but the present invention is not limited to this, and related words and incompatible words are stored in another dictionary. You can do it. At this time, the related word expansion unit 15 may be divided into a part for expanding the related word and a part for setting the incompatible word.

【0023】B.上記実施例では、検索語保持部11に
保持されている検索語に対する関連語の展開を行なう場
合について説明したが、これに限定されるものでなく、
関連語の展開を行なわなくてもよいものである。
B. In the above embodiment, the case where the related word is expanded with respect to the search word held in the search word holding unit 11 has been described, but the present invention is not limited to this.
The related words need not be expanded.

【0024】C.上記実施例では、図8のフローチャー
トのステップS17で示した適合文書抽出処理において
新たな不適合語を関連語辞書14に登録する場合につい
て説明したが、これに限定されるものでなく、不適合語
の関連語辞書14への登録を行なわなくてもよいもので
ある。
C. In the above-described embodiment, a case has been described in which a new incompatible word is registered in the related word dictionary 14 in the compatible document extraction process shown in step S17 of the flowchart in FIG. 8, but the invention is not limited to this, and the incompatible word It is not necessary to register in the related word dictionary 14.

【0025】D.上記実施例では、検索対象文書保持部
11に保持される文書が一つの場合について説明した
が、これに限定されるものでなく、複数の文書であって
もよいものである。
D. In the above embodiment, the case where the number of documents held in the search target document holding unit 11 is one has been described, but the present invention is not limited to this, and a plurality of documents may be used.

【0026】E.上記実施例では、検索処理部14と適
合文書抽出処理部16とで文を単位として処理を行なう
場合について説明したが、これに限定されるものでな
く、文書、段落などでもよいものである。
E. In the above embodiment, the case where the search processing unit 14 and the matching document extraction processing unit 16 perform processing in units of sentences has been described, but the present invention is not limited to this, and documents, paragraphs, etc. may be used.

【0027】F.上記実施例では、適合文書抽出処理部
16で形態素解析を行なう際に検索された語を含む文を
形態素解析の対象とした場合について説明したが、これ
に限定されるものでなく、検索された語を含む節などで
もよいものである。
F. In the above-described embodiment, the case has been described in which the sentence including the word retrieved when performing the morpheme analysis in the matching document extraction processing unit 16 is targeted for the morpheme analysis, but the present invention is not limited to this, and the retrieval is performed. It may be a clause including words.

【0028】G.上記実施例では、検索対象文書保持部
11をディスク装置で実現し、検索語保持部12と不適
合語保持部13と検索結果保持部15と抽出結果保持部
17とをメモリで実現した場合について説明したが、こ
れらに限定されるものでなく、光磁気ディスク装置など
他の記憶デバイスでもよいものである。
G. In the above embodiment, the case where the search target document holding unit 11 is realized by the disk device and the search word holding unit 12, the incompatibility word holding unit 13, the search result holding unit 15, and the extraction result holding unit 17 are realized by the memory will be described. However, the storage device is not limited to these, and may be another storage device such as a magneto-optical disk device.

【0029】[0029]

【発明の効果】以上説明したように、本発明によれば、
検索語を部分的に含んでいる不適合語を保持し、検索対
象文書に対して前記検索語と前記不適合語とを検索し、
その検索結果に対して、検索された語のうち前記検索語
と一致するものだけを抽出し、その抽出された検索語と
一致する文に対して形態素解析を行い、その形態素解析
により形態素が一致しないと判断された場合、該文を不
適合語として記憶することによって、保持されている不
適合語を更新することができ、以降の形態素解析を行う
回数を減らすことができ、検索処理効率を向上させるこ
とができる。また、本発明によれば、関連語辞書に不適
合語を保持し、検索の途中で新たに発見された不適合語
をも保持することにより、一層速く正確に希望する検索
語の検索を行うことができる。
As described above, according to the present invention,
Retaining a non-conforming word that partially includes the search word, searching the search target document and the non-conforming word,
From the search results, only those words that match the above search words are extracted, morphological analysis is performed on the sentences that match the extracted search words, and the morphemes are matched by the morphological analysis. If it is determined not to do so, the stored incompatible word can be updated by storing the sentence as an incompatible word, the number of times of subsequent morphological analysis can be reduced, and the search processing efficiency is improved. be able to. Further, according to the present invention, by holding the non-conforming words in the related word dictionary and also holding the non-conforming words newly found in the middle of the search, it is possible to search for a desired search word more quickly and accurately. it can.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明に係る文書処理装置の基本構成図であ
る。
FIG. 1 is a basic configuration diagram of a document processing apparatus according to the present invention.

【図2】本発明の一実施例のシステム構成を示すブロッ
ク図である。
FIG. 2 is a block diagram showing a system configuration of an embodiment of the present invention.

【図3】本発明の一実施例の処理手順を示す動作フロー
チャートである。
FIG. 3 is an operation flowchart showing a processing procedure of an embodiment of the present invention.

【図4】図4は検索語保持部の内容を説明する図であ
る。
FIG. 4 is a diagram illustrating the contents of a search word holding unit.

【図5】図5は不適合語保持部の内容を説明する図であ
る。
FIG. 5 is a diagram for explaining the contents of a nonconforming word storage unit.

【図6】本発明に係る文書処理装置の基本構成図であ
る。
FIG. 6 is a basic configuration diagram of a document processing apparatus according to the present invention.

【図7】本発明の他の実施例のシステム構成を示すブロ
ック図である。
FIG. 7 is a block diagram showing a system configuration of another embodiment of the present invention.

【図8】本発明の他の実施例の処理手順を示す動作フロ
ーチャートである。
FIG. 8 is an operation flowchart showing a processing procedure of another embodiment of the present invention.

【図9】検索語保持部の別の内容を説明する図である。FIG. 9 is a diagram illustrating another content of the search word holding unit.

【図10】関連語辞書の内容を説明する図である。FIG. 10 is a diagram illustrating the contents of a related word dictionary.

【図11】検索語保持部のさらに別の内容を説明する図
である。
FIG. 11 is a diagram illustrating still another content of the search word holding unit.

【図12】不適合語保持部の内容を説明する図である。FIG. 12 is a diagram illustrating the contents of an incompatible word holding unit.

【符号の説明】[Explanation of symbols]

1 検索対象文書保持部 2 検索語保持部 3 不適合語保持部 4 検索する検索処理部 5 検索結果保持部 6 適合文書抽出処理部 7 抽出結果保持部 21 制御メモリ 22 中央処理装置 23 メモリ 24 ディスク装置 25 バス 1 Search target document storage 2 Search word storage 3 Nonconforming word storage 4 Search processing unit to search 5 Search result storage 6 Relevant document extraction processing unit 7 Extraction result storage 21 Control memory 22 Central processing unit 23 memory 24 disk unit 25 bus

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平2−165270(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 17/21 - 17/26 G06F 17/30 ─────────────────────────────────────────────────── ─── Continuation of the front page (56) Reference JP-A-2-165270 (JP, A) (58) Fields investigated (Int.Cl. 7 , DB name) G06F 17/21-17/26 G06F 17 / 30

Claims (2)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 検索対象となる文書を保持する検索対象
文書保持手段と、 検索したい検索語を保持する検索語保持手段と、 該検索語保持手段に保持されている検索語を部分的に含
んでいる不適合語を保持する不適合語保持手段と、 前記検索対象文書保持手段に保持されている検索対象文
書に対して前記検索語保持手段に保持されている検索語
と前記不適合語保持手段に保持されている不適合語とを
検索する検索処理手段と、 該検索処理手段によって検索された結果を保持する検索
結果保持手段と、 該検索結果保持手段に保持されている検索結果に対し
て、検索された語のうち前記検索語保持手段に保持され
ている検索語と一致するものだけを抽出する適合文書抽
出処理手段と、 該適合文書抽出処理手段によって抽出された検索語と一
致する文に対して形態素解析を行う形態素解析手段と、 該形態素解析手段により形態素が一致しないと判断され
た場合、該文を不適合語として前記不適合語保持手段に
記憶するよう制御する記憶制御手段と、 を有することを特徴とする文書処理装置。
1. A search target document holding unit for holding a document to be searched, a search word holding unit for holding a search word to be searched, and a search word held in the search word holding unit. An incompatible word holding unit for holding an incompatible word, and a search word held in the search word holding unit for the search target document held in the search target document holding unit and an incompatible word holding unit Search processing means for searching the incompatible words, search result holding means for holding the results searched by the search processing means, and search results held for the search result holding means. Matching document extraction processing means for extracting only those matching words that match the search word held in the search word holding means, and matching search words extracted by the matching document extraction processing means A morpheme analysis means for performing a morpheme analysis on the sentence; and a storage control means for controlling the morpheme analysis means to store the sentence as an incompatible word in the incompatible word holding means when it is determined that the morphemes do not match, A document processing device comprising:
【請求項2】 前記不適合語と語に対する関連語とを保
持している関連語辞書と、 前記検索語保持手段に保持されている検索語に対する関
連語と不適合語とを前記関連語辞書から取り出し、前記
検索語保持手段への関連語の展開と前記不適合語保持手
段への不適合語の設定を行う関連語展開手段とを有する
ことを特徴とする請求項1に記載の文書処理装置。
2. A related word dictionary holding the incompatible word and a related word to the word, and a related word to the search word held in the search word holding means and an incompatible word are taken out from the related word dictionary. The document processing apparatus according to claim 1, further comprising: a related word expanding unit that expands a related word in the search word holding unit and sets an incompatible word in the incompatible word holding unit.
JP17677491A 1991-07-17 1991-07-17 Document processing device Expired - Fee Related JP3375978B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP17677491A JP3375978B2 (en) 1991-07-17 1991-07-17 Document processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP17677491A JP3375978B2 (en) 1991-07-17 1991-07-17 Document processing device

Publications (2)

Publication Number Publication Date
JPH0520305A JPH0520305A (en) 1993-01-29
JP3375978B2 true JP3375978B2 (en) 2003-02-10

Family

ID=16019598

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17677491A Expired - Fee Related JP3375978B2 (en) 1991-07-17 1991-07-17 Document processing device

Country Status (1)

Country Link
JP (1) JP3375978B2 (en)

Also Published As

Publication number Publication date
JPH0520305A (en) 1993-01-29

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US8055498B2 (en) Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in the dictionary
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPS63254559A (en) Spelling aid for compound word
JPH0567144A (en) Method and device for pre-edit supporting
JP2000132560A (en) Chinese teletext processing method and apparatus
JP3375978B2 (en) Document processing device
JP4888677B2 (en) Document search system
JP3007375B2 (en) Document information retrieval device
JP2595934B2 (en) Kana-Kanji conversion processor
JP3666066B2 (en) Multilingual document registration and retrieval device
JP3187671B2 (en) Electronic dictionary display
JPH05165889A (en) Document retrieval device
JPH09212523A (en) Entire sentence retrieval method
JPH0954781A (en) Document retrieving system
US20060167680A1 (en) System and method for optimizing run-time memory usage for a lexicon
JP4139805B2 (en) Apparatus, method and program for converting lexical data to data
JP3387582B2 (en) Character processor
JPH03118661A (en) Word retrieving device
JPH09212524A (en) Entire sentence retrieval method and electronic dictionary formation device
KR19990084950A (en) Data partial retrieval device using inverse file and its method
JPH01205226A (en) Word dictionary retrieving device
JPH08287083A (en) Dictionary unregistered word expansion method and device
JPH09114842A (en) Information retrieval processor and information retrieval processing method
JPH086951A (en) Electronic dictionary lookup device

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071129

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081129

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091129

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101129

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees