Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP4933741B2 - Information processing apparatus, synonym pair generation method, synonym pair generation program, and recording medium recording synonym pair generation program - Google Patents
[go: Go Back, main page]

JP4933741B2 - Information processing apparatus, synonym pair generation method, synonym pair generation program, and recording medium recording synonym pair generation program - Google Patents

Information processing apparatus, synonym pair generation method, synonym pair generation program, and recording medium recording synonym pair generation program Download PDF

Info

Publication number
JP4933741B2
JP4933741B2 JP2005079588A JP2005079588A JP4933741B2 JP 4933741 B2 JP4933741 B2 JP 4933741B2 JP 2005079588 A JP2005079588 A JP 2005079588A JP 2005079588 A JP2005079588 A JP 2005079588A JP 4933741 B2 JP4933741 B2 JP 4933741B2
Authority
JP
Japan
Prior art keywords
character string
synonym
pair
dependency
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005079588A
Other languages
Japanese (ja)
Other versions
JP2006260402A (en
Inventor
栄治 剣持
敦夫 嶋田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2005079588A priority Critical patent/JP4933741B2/en
Publication of JP2006260402A publication Critical patent/JP2006260402A/en
Application granted granted Critical
Publication of JP4933741B2 publication Critical patent/JP4933741B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、同義語データベースを生成する情報処理装置、同義語対生成方法、同義語対生成プログラム、同義語対生成プログラムを記録した記録媒体に関する。   The present invention relates to an information processing apparatus that generates a synonym database, a synonym pair generation method, a synonym pair generation program, and a recording medium on which a synonym pair generation program is recorded.

近年WWW(World Wide Web)になどのインターネット技術の発達に伴い、容易に大量の文書データにアクセスすることが可能になり、大量の文書データの中から興味のある文書データのみを探し出す技術として様々な文書検索技術が提案されてきている。このような検索システムの代表的なものとして、google(http://www.google.com)があり、googleの検索性能は非常に評価高いものとなっている。   In recent years, with the development of Internet technologies such as the World Wide Web (WWW), it has become possible to easily access large amounts of document data, and there are various technologies for searching only interesting document data from a large amount of document data. Document retrieval techniques have been proposed. A typical example of such a search system is google (http://www.google.com), and the search performance of google is very high.

しかしながら、検索システムには、如何にシステム自体の性能が高くともユーザが入力する問合わせ語が適切でないかぎり、適切な検索結果を返すことができないという本質的な問題がある。このような問題に対応するための技術として、ユーザの入力する問合わせ語の関連語を抽出し、求めた関連語も問合わせ語に含めることで検索精度を高めるための関連語展開技術があり、CepceptBase search(株式会社ジャストシステム)にような商用の検索システム等に実装されている。   However, the search system has an essential problem that an appropriate search result cannot be returned unless the query word input by the user is appropriate, no matter how high the system itself is. As a technique for dealing with such problems, there is a related word expansion technique for improving the search accuracy by extracting the related words of the query word input by the user and including the obtained related words in the query word. It is implemented in commercial search systems such as CepceptBase search (Just System Co., Ltd.).

この関連語展開技術には、関連語辞書などのいわゆるシソーラス辞書が用いられる。シソーラスとは、単語を意味によって整理し、体系化したものであり、前記の関連語展開に用いられるほか、連想支援、用語統制に利用されたり、機械翻訳システムにおいて表層表現の多義解消に利用されるなど、自然言語で書かれたテキストの高度な処理に有用な辞書である。   A so-called thesaurus dictionary such as a related word dictionary is used for this related word expansion technique. A thesaurus is a system that organizes words into meanings and organizes them. In addition to being used for the development of related words, it is used for association support, terminology control, and for the ambiguity of surface expression in machine translation systems. This dictionary is useful for advanced processing of text written in natural language.

既存の汎用シソーラスとしては「分類語彙表」「日本語語彙大系」が代表に挙げられるが、汎用シソーラスの構築には、専門知識と人手による単語への意味コード付与に非常な労力を要するため、新規の構築は困難である。   Typical general-purpose thesauruses include "Classified vocabulary table" and "Japanese vocabulary system". However, the construction of a general-purpose thesaurus requires a great deal of expertise and manual assignment of meaning codes to words. New construction is difficult.

そのため、シソーラスを用いる文書処理システムにおいて、シソーラスは既存のものとして扱われ、シソーラスそのものの構築方法に関する提案は数少ない。杉村らによる「意味コード体系の自動生成」は、意味コード体系の自動生成の試みであるが、人手によって収集された用例からの自動生成であり、用例収集者の観点の偏りや、網羅性に課題が残る。また、専門性の高い文書や資料を扱う場合、汎用シソーラスではその専用性が反映できず、有効な処理結果が得にくい場合が考えられる。しかしながら、専門用語シソーラスを専門分野毎に用意するのは困難である。   For this reason, in a document processing system using a thesaurus, the thesaurus is treated as an existing one, and there are few proposals regarding the construction method of the thesaurus itself. "Automatic generation of semantic code system" by Sugimura et al. Is an attempt to automatically generate a semantic code system, but it is an automatic generation from examples collected manually. Issues remain. Also, when dealing with highly specialized documents and materials, the general-purpose thesaurus cannot reflect its speciality, and it may be difficult to obtain effective processing results. However, it is difficult to prepare a technical term thesaurus for each specialized field.

そこで、人手を介さないテキストからのシソーラス自動作成の試みとして、特許文献1の「シソーラス作成装置」、および特許文献2の「単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品」などが提案されている。   Therefore, as an attempt to automatically create a thesaurus from text without human intervention, a “thesaurus creation device” in Patent Literature 1 and a “word thesaurus construction method and computer for causing a computer system to construct a word thesaurus” in Patent Literature 1. Software program products "have been proposed.

前記手法は、抽出した単語データにかける文法的な制約に差異はあるものの、基本的には単語データ間の共起情報という統計的性質に基礎をおくものであり、統計的な共起性と意味的関連性に相関を仮定することには問題があるものと考えられる。例えば、係り受け関係を持つ可能性の高い“文書”と“検索”という単語対と、“文書”と“処理”という単語対が共起性が高いとしても、“検索”と“処理”に意味的な関連性があると仮定することは危険である。   The above method is basically based on the statistical property of co-occurrence information between word data, although there are differences in grammatical constraints on the extracted word data. Assuming a correlation in semantic relevance is considered problematic. For example, even if the word pair “document” and “search”, which are highly likely to have a dependency relationship, and the word pair “document” and “process” have high co-occurrence, “search” and “process” It is dangerous to assume that there is a semantic connection.

一方、特許文献3の「同義語対抽出装置および方法ならびに記憶媒体」においては、文中の丸括弧対に着目し、丸括弧対のなかの文字列(文字列2)は開き丸括弧の直前の文字列(文字列2)の同義語となることがあるとして、同義語対を抽出するものである。
特開平9−120401号公報 特開2001−331515号公報 特開平11−328205号公報
On the other hand, in “Synonym pair extraction apparatus and method and storage medium” in Patent Document 3, attention is paid to a pair of parentheses in a sentence, and a character string (character string 2) in the pair of parentheses is immediately before the opening parenthesis. A synonym pair is extracted as a synonym of a character string (character string 2).
JP-A-9-120401 JP 2001-331515 A JP 11-328205 A

しかしながら、前述の関係を有する文字列1と文字列2が常に同義語関係を有するとは限らないため、文字列1と文字列2に関するヒューリスティックな規則をもとにそれらが同義語関係か否かの判定をしている。このヒューリスティックな規則は、限定した分野であれば有効性は認められるものの、汎用性にはとぼしいため、言語のように常に新たな表現が創出される分野においては、常に既存の規則の修正や新たな規則を生成が必要となる。   However, since the character string 1 and the character string 2 having the above relationship do not always have a synonym relationship, whether or not they have a synonym relationship based on the heuristic rules regarding the character string 1 and the character string 2 is determined. Judgment is made. Although this heuristic rule is effective in a limited field, it is extremely versatile. Therefore, in a field where new expressions are always created, such as language, it is always necessary to modify or renew existing rules. It is necessary to generate a simple rule.

本発明は、このような問題点に鑑み、簡便かつ高精度な同義語データベースを生成する情報処理装置、同義語対生成方法、同義語対生成プログラム、同義語対生成プログラムを記録した記録媒体を提供することを目的とする。   In view of such problems, the present invention provides an information processing apparatus that generates a simple and highly accurate synonym database, a synonym pair generation method, a synonym pair generation program, and a recording medium on which a synonym pair generation program is recorded. The purpose is to provide.

上記課題を解決するために、本発明は、文を構成する文節の品詞と、前記文節の係り受けを解析する係り受け解析手段と、前記文から、第一記号と第二記号とからなる所定の記号対を含む文である対象文を検出する対象文検出手段と、前記係り受け解析手段による係り受け解析結果を用いて、前記対象文における前記第一記号の直前の所定の連続する文節からなる第一の文字列と前記記号対内の所定の連続する文節からなる第二の文字列とを抽出する文字列対抽出手段と、前記第一の文字列と前記第二の文字列がともに係り関係を有する所定の文節が存在するか否かを判定する共係り関係存在判定手段とを有し、前記共係り関係存在判定手段で係り関係が存在する場合、第一の文字列と第二の文字列を同義語対とすることを特徴とする。   In order to solve the above-mentioned problem, the present invention provides a predetermined part consisting of a part of speech of a sentence constituting a sentence, dependency analysis means for analyzing the dependency of the phrase, and a first symbol and a second symbol from the sentence. A target sentence detection unit that detects a target sentence that is a sentence including a pair of symbols, and a dependency analysis result by the dependency analysis unit, from a predetermined continuous phrase immediately before the first symbol in the target sentence A character string pair extracting means for extracting a first character string and a second character string consisting of a predetermined continuous phrase in the symbol pair, and both the first character string and the second character string A relationship determination unit that determines whether or not a predetermined phrase having a relationship exists, and when the relationship exists by the relationship determination unit, the first character string and the second character string Character strings are used as synonym pairs.

また、上記課題を解決するために、本発明は、辞書形式のデータを格納する係り受け文字列データベースと、前記係り受け解析手段による係り受け解析結果から、各文節の自立語が所定の品詞を持つ係り受け対を検出し、その検出された係り受け対から、少なくとも係り文節の形態素を含む所定の係り文字列と、少なくとも受け文節の形態素を含む所定の受け文字列とを生成し、前記係り文字列を値とし、前記受け文字列をキーとして前記係り受け文字列データベースに登録する係り受け文字列生成手段とを有し、前記共係り関係存在判定手段は、前記文字列対抽出手段により抽出された文字列対が値であるレコードが前記係り受け文字列データベース内にひとつ以上存在するか否かにより対象文字列対の共係り関係の存在を判定することを特徴とする。   In order to solve the above problems, the present invention provides a dependency character string database for storing data in a dictionary format and a dependency analysis result by the dependency analysis means. Detecting a dependency pair, and generating, from the detected dependency pair, a predetermined dependency character string including at least a dependency clause morpheme and a predetermined reception character string including at least a dependency clause morpheme, A dependency character string generation unit that registers a character string as a value and the received character string as a key in the dependency character string database; and the relationship relationship determination unit extracts the character string pair by the character string pair extraction unit Determining whether or not there is a cooperating relationship between the target character string pair depending on whether or not there is one or more records in the dependency character string database in which the value of the character string pair is a value. And butterflies.

また、上記課題を解決するために、本発明は、順序のある文字列対が格納される同義語候補データベースを有し、前記文字列対抽出手段は、抽出した文字列対を前記同義語候補データベースに格納し、前記共係り関係存在判定手段は、前記係り受け文字列データベース内に、前記同義語候補データベースから取得される文字列対が値であるレコードがひとつ以上存在するか否かにより対象文字列対の共係り関係の存在を判定することを特徴とする。   In order to solve the above-mentioned problem, the present invention has a synonym candidate database in which ordered character string pairs are stored, and the character string pair extraction unit uses the extracted character string pairs as the synonym candidates. Stored in the database, the co-relationship presence determination means is subject to whether there is one or more records in the dependency character string database whose value is a character string pair acquired from the synonym candidate database. It is characterized by determining the existence of the relationship between character string pairs.

また、上記課題を解決するために、本発明は、同義語集合が格納される同義語データベースと、前記共係り関係存在判定手段により、共係り関係が存在すると判定された文字列対と同義語データベースの同義語集合が所定の条件を満たすか否かを判定する同義語集合判定手段と、前記同義語集合判定手段で前記所定の条件を満たす場合、前記同義語データベースの該当同義語集合を、該当同義語集合と抽出した文字列対との和集合に置き換える同義語集合合成手段と、前記同義語集合判定手段で前記所定の条件を満たさない場合、共係り関係が存在する文字列対を新規の同義語集合として前記同義語データベースに追加する同義語集合追加手段とを有することを特徴とする。   In order to solve the above problem, the present invention provides a synonym database in which a synonym set is stored, and a character string pair and a synonym that are determined to have a cooperating relationship by the cooperating relationship existence determining unit. When the synonym set determining means for determining whether or not the synonym set of the database satisfies a predetermined condition, and when the predetermined condition is satisfied by the synonym set determining means, the corresponding synonym set of the synonym database is A synonym set synthesizing unit that replaces the union of the corresponding synonym set and the extracted character string pair, and if the synonym set determining unit does not satisfy the predetermined condition, a character string pair that has a cooperating relationship is newly created. Synonym set adding means for adding to the synonym database as a synonym set.

また、上記課題を解決するために、本発明は、前記所定の条件は、共係り関係が存在すると判定された文字列対と同義語データベースの同義語集合の積集合が空集合でない場合を真とすることを特徴とする。   In order to solve the above problem, the present invention is that the predetermined condition is true when a product set of a synonym set in a synonym database and a character string pair determined to have a cooperating relationship is not an empty set. It is characterized by.

また、上記課題を解決するために、本発明は、前記同義語候補データベースに追加されてからの保存時間が所定の条件を満たす同義語候補の情報を削除する不要同義語候補削除手段を有することを特徴とする。   In order to solve the above-mentioned problem, the present invention has unnecessary synonym candidate deletion means for deleting information on synonym candidates that satisfy a predetermined time after being added to the synonym candidate database. It is characterized by.

また、上記課題を解決するために、本発明は、前記係り受け文字列生成手段で生成される文字列対は、係り文節の自立語の品詞が名詞、受け文節の自立語の品詞が動詞であり、前記値となる文字列は、係り文節に対し再帰的に係り受け関係をもつ自立語が名詞の文節をもとに構成し、前記キーとなる文字列は受け文節の自立語をもとに構成することを特徴とする。   Further, in order to solve the above-mentioned problem, the present invention provides a character string pair generated by the dependency character string generation means, in which the part of speech of the independent phrase of the dependency phrase is a noun and the part of speech of the independent word of the reception phrase is a verb. The character string that is the value is constructed based on a noun phrase that is a self-supporting word recursively dependent on the dependency phrase, and the key character string is based on the self-supporting word of the receiving phrase. It is characterized by comprising.

また、上記課題を解決するために、本発明は、前記文字列対抽出手段で抽出される各文字列は、文節の自立語が名詞もしくはそれに類する品詞をもつ形態素であり、かつ任意の一対の文節対に係り受け関係が存在し、連続する文節からなることを特徴とする。   In order to solve the above-mentioned problem, the present invention provides that each character string extracted by the character string pair extraction unit is a morpheme in which the independent word of the phrase has a noun or a part of speech similar to the noun, and any pair of There is a dependency relationship between phrase pairs, and it consists of consecutive phrases.

また、上記課題を解決するために、本発明は、インターネット上のウェブページを自動的に収集する自動ページ収集手段と、前記自動ページ収集手段により収集されたウェブページから前記文を抽出する文抽出手段とを含むことを特徴とする。   In order to solve the above problems, the present invention provides an automatic page collecting means for automatically collecting web pages on the Internet, and a sentence extraction for extracting the sentence from the web pages collected by the automatic page collecting means. Means.

また、上記課題を解決するために、本発明は、文を構成する文節の品詞と、前記文節の係り受けを解析する係り受け解析段階と、前記文から、第一記号と第二記号とからなる所定の記号対を含む文である対象文を検出する対象文検出段階と、前記係り受け解析段階による係り受け解析結果を用いて、前記対象文における前記第一記号の直前の所定の連続する文節からなる第一の文字列と前記記号対内の所定の連続する文節からなる第二の文字列とを抽出する文字列対抽出段階と、前記第一の文字列と前記第二の文字列がともに係り関係を有する所定の文節が存在するか否かを判定する共係り関係存在判定段階とを有し、前記共係り関係存在判定段階で係り関係が存在する場合、第一の文字列と第二の文字列を同義語対とすることを特徴とする。   In order to solve the above-mentioned problem, the present invention includes a part of speech of a phrase constituting a sentence, a dependency analysis stage for analyzing the dependency of the phrase, the sentence, a first symbol, and a second symbol. A target sentence detection stage that detects a target sentence that is a sentence including a predetermined symbol pair and a dependency analysis result obtained by the dependency analysis stage, and a predetermined sequence immediately before the first symbol in the target sentence. A character string pair extraction step of extracting a first character string composed of a phrase and a second character string composed of a predetermined continuous phrase in the symbol pair; and the first character string and the second character string A relationship determination step for determining whether or not a predetermined phrase having both a relationship exists, and when a relationship exists in the relationship determination step, the first character string and the second character string Characterized by making the second character string a synonym pair

また、上記課題を解決するために、本発明は、前記係り受け解析段階による係り受け解析結果から、各文節の自立語が所定の品詞を持つ係り受け対を検出し、その検出された係り受け対から、少なくとも係り文節の形態素を含む所定の係り文字列と、少なくとも受け文節の形態素を含む所定の受け文字列とを生成し、前記係り文字列を値とし、前記受け文字列をキーとして係り受け文字列データベースに登録する係り受け文字列生成段階とを有し、前記共係り関係存在判定段階では、前記文字列対抽出段階により抽出された文字列対が値であるレコードが前記係り受け文字列データベース内にひとつ以上存在するか否かにより対象文字列対の共係り関係の存在を判定することを特徴とする。   Further, in order to solve the above-mentioned problem, the present invention detects a dependency pair in which a self-supporting word of each clause has a predetermined part of speech from the dependency analysis result in the dependency analysis stage, and detects the detected dependency. From the pair, a predetermined character string including at least a morpheme of a dependency clause and a predetermined character string including at least a morpheme of the reception clause are generated, and the relationship character string is used as a value and the reception character string is used as a key. A dependency character string generation stage to be registered in the reception character string database, and in the co-relationship presence determination step, a record whose value is the character string pair extracted by the character string pair extraction step is the dependency character The existence of a co-relationship between target character string pairs is determined based on whether one or more exist in the column database.

また、上記課題を解決するために、本発明は、前記文字列対抽出段階では、抽出した文字列対を、順序のある文字列対が格納される同義語候補データベースに格納し、前記共係り関係存在判定段階は、前記係り受け文字列データベース内に、前記同義語候補データベースから取得される文字列対が値であるレコードがひとつ以上存在するか否かにより対象文字列対の共係り関係の存在を判定することを特徴とする。   In order to solve the above-mentioned problem, the present invention stores the extracted character string pair in the synonym candidate database in which the ordered character string pairs are stored in the character string pair extraction stage. The relationship existence determination step determines whether or not the relationship of the target character string pair depends on whether or not there is one or more records whose value is the character string pair acquired from the synonym candidate database in the dependency character string database. It is characterized by determining existence.

また、上記課題を解決するために、本発明は、前記共係り関係存在判定段階により、共係り関係が存在すると判定された文字列対と同義語データベースの同義語集合が所定の条件を満たすか否かを判定する同義語集合判定段階と、前記同義語集合判定段階で前記所定の条件を満たす場合、同義語集合が格納される同義語データベースの該当同義語集合を、該当同義語集合と抽出した文字列対との和集合に置き換える同義語集合合成段階と、前記同義語集合判定段階で前記所定の条件を満たさない場合、共係り関係が存在する文字列対を新規の同義語集合として前記同義語データベースに追加する同義語集合追加段階と
を有することを特徴とする。
In order to solve the above-described problem, the present invention is based on whether the synonym set in the synonym database and the character string pair determined to have a cooperating relationship by the cooperating relationship existence determining step satisfies a predetermined condition. A synonym set determining step for determining whether or not, and when the predetermined condition is satisfied in the synonym set determining step, the corresponding synonym set in the synonym database storing the synonym set is extracted as the corresponding synonym set If the predetermined condition is not satisfied in the synonym set synthesizing step and the synonym set determining step to replace the union set with the character string pair, the character string pair having a cooperating relationship is defined as a new synonym set. And a synonym set addition stage to be added to the synonym database.

また、上記課題を解決するために、本発明は、前記所定の条件は、共係り関係が存在すると判定された文字列対と同義語データベースの同義語集合の積集合が空集合でない場合を真とすることを特徴とする。   In order to solve the above problem, the present invention is that the predetermined condition is true when a product set of a synonym set in a synonym database and a character string pair determined to have a cooperating relationship is not an empty set. It is characterized by.

また、上記課題を解決するために、本発明は、前記同義語候補データベースに追加されてからの保存時間が所定の条件を満たす同義語候補の情報を削除する不要同義語候補削除段階を有することを特徴とする。   In order to solve the above-mentioned problem, the present invention has an unnecessary synonym candidate deletion step of deleting information on synonym candidates that satisfy a predetermined storage time after being added to the synonym candidate database. It is characterized by.

また、上記課題を解決するために、本発明は、前記係り受け文字列生成段階で生成される文字列対は、係り文節の自立語の品詞が名詞、受け文節の自立語の品詞が動詞であり、前記値となる文字列は、係り文節に対し再帰的に係り受け関係をもつ自立語が名詞の文節をもとに構成し、前記キーとなる文字列は受け文節の自立語をもとに構成することを特徴とする。   In order to solve the above-mentioned problem, the present invention relates to the character string pair generated in the dependency character string generation stage, in which the part of speech of the independent phrase of the dependency clause is a noun, and the part of speech of the independent word of the reception clause is a verb. The character string that is the value is constructed based on a noun phrase that is a self-supporting word recursively dependent on the dependency phrase, and the key character string is based on the self-supporting word of the receiving phrase. It is characterized by comprising.

また、上記課題を解決するために、本発明は、前記文字列対抽出段階で抽出される各文字列は、文節の自立語が名詞もしくはそれに類する品詞をもつ形態素であり、かつ任意の一対の文節対に係り受け関係が存在し、連続する文節からなることを特徴とする。   Further, in order to solve the above-mentioned problem, in the present invention, each character string extracted in the character string pair extraction stage is a morpheme in which a self-supporting word of a phrase has a noun or a part of speech similar to it, and any pair of words There is a dependency relationship between phrase pairs, and it consists of consecutive phrases.

また、上記課題を解決するために、本発明は、インターネット上のウェブページを自動的に収集する自動ページ収集段階と、前記自動ページ収集段階により収集されたウェブページから前記文を抽出する文抽出段階とを含むことを特徴とする。   To solve the above problems, the present invention provides an automatic page collection stage for automatically collecting web pages on the Internet, and a sentence extraction for extracting the sentence from the web pages collected by the automatic page collection stage. A stage.

また、上記課題を解決するために、本発明は、請求項10から18のいずれか1項に記載の同義語対生成方法をコンピュータに実行させるための同義語対生成プログラム。   Moreover, in order to solve the said subject, this invention is a synonym pair production | generation program for making a computer perform the synonym pair production | generation method of any one of Claim 10 to 18.

また、上記課題を解決するために、本発明は、請求項19に記載の同義語対生成プログラムを記録したコンピュータ読取可能な記録媒体。   In order to solve the above problem, the present invention provides a computer-readable recording medium on which the synonym pair generation program according to claim 19 is recorded.

以上説明したように、本発明によれば、簡便かつ高精度な同義語データベースを生成する情報処理装置、同義語対生成方法、同義語対生成プログラム、同義語対生成プログラムを記録した記録媒体を提供することができる。   As described above, according to the present invention, an information processing apparatus that generates a simple and highly accurate synonym database, a synonym pair generation method, a synonym pair generation program, and a recording medium on which a synonym pair generation program is recorded. Can be provided.

以下、図面を参照し、本発明の実施形態について説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

図1は本発明の一実施形態である情報処理装置を実現するコンピュータの構成例である。図1には、キーボード12と、通信I/O13と、ディスプレイ14と、プリンター15と、メモリ16と、CPU(Central Processing Unit)17と、ハードディスク18と、それらを接続するバス10と、ネットワーク11とが示されている。   FIG. 1 is a configuration example of a computer that realizes an information processing apparatus according to an embodiment of the present invention. In FIG. 1, a keyboard 12, a communication I / O 13, a display 14, a printer 15, a memory 16, a CPU (Central Processing Unit) 17, a hard disk 18, a bus 10 for connecting them, and a network 11 are shown. Is shown.

キーボード12は、文書を登録する入力手段である。通信I/O13は、外部からの信号を受信したり、本装置から信号を送信する通信手段である。CPU17は、メモリ16に記録された手順に従ってプログラムを実行する。メモリ16は、記憶手段である。通常は、揮発性または不揮発性のものがある。ハードディスクは不揮発性の記憶手段である。   The keyboard 12 is input means for registering a document. The communication I / O 13 is a communication unit that receives a signal from the outside or transmits a signal from the apparatus. The CPU 17 executes the program according to the procedure recorded in the memory 16. The memory 16 is a storage unit. There are usually volatile or non-volatile ones. The hard disk is a non-volatile storage means.

ディスプレイ14とプリンター15は、出力手段である。通信I/O13は、モデムやターミナルアダプタなどが想定でき、通信回線を介してイントラネット、またはインターネットに接続されているサーバなどからデータを受信できる。   The display 14 and the printer 15 are output means. The communication I / O 13 can be a modem or a terminal adapter, and can receive data from a server connected to an intranet or the Internet via a communication line.

次に、図2を用いて情報処理装置に搭載されるモジュールとデータベースについて説明する。モジュールには、係り受け解析処理部51と、文字列対抽出処理部52と、係り受け文字列生成処理部53と、同義語集合追加処理部54と、対象文検出処理部55と、同義語集合判定処理部56と、同義語集合合成処理部57と、同義語集合追加処理部58と、不要同義語候補削除処理部59と、共係り関係存在判定処理部60とがある。   Next, a module and a database mounted on the information processing apparatus will be described with reference to FIG. The modules include a dependency analysis processing unit 51, a character string pair extraction processing unit 52, a dependency character string generation processing unit 53, a synonym set addition processing unit 54, a target sentence detection processing unit 55, and synonyms. There are a set determination processing unit 56, a synonym set synthesis processing unit 57, a synonym set addition processing unit 58, an unnecessary synonym candidate deletion processing unit 59, and a cooperative relationship existence determination processing unit 60.

これらのモジュールは、上記ハードディスクに記憶されているか、あるいは図示しなかったリムーバルディスクに記憶され、情報処理装置は、それらを読み込むことにより動作するようになっている。   These modules are stored in the hard disk or in a removable disk (not shown), and the information processing apparatus operates by reading them.

また、データベースには、同義語候補データベース71と、同義語データベース72と、係り受け文字列データベース73がある。   The databases include a synonym candidate database 71, a synonym database 72, and a dependency character string database 73.

まず、上記モジュールの概要について説明する。なお、これらの詳細な説明は、後述するフローチャートを説明する際に行う。   First, an outline of the module will be described. Note that these detailed descriptions will be made when a flowchart described later is described.

係り受け解析処理部51は、文を構成する文節の品詞と、前記文節の係り受けを解析する。本実施の形態における係り受け解析系は、表記と品詞の情報を適切に出力できるものであればよいので、既存の係り受け解析系を利用すればよい。   The dependency analysis processing unit 51 analyzes the part of speech of a phrase constituting the sentence and the dependency of the phrase. The dependency analysis system in the present embodiment may be any one that can appropriately output notation and part-of-speech information, and therefore, an existing dependency analysis system may be used.

文字列対抽出処理部52は、係り受け解析処理部による係り受け解析結果を用いて、対象となる文における記号“(”の直前の所定の連続する文節からなる第一の文字列と記号対“()”内の所定の連続する文節からなる第二の文字列とを抽出する。   The character string pair extraction processing unit 52 uses the dependency analysis result of the dependency analysis processing unit to generate a first character string and a symbol pair consisting of a predetermined continuous phrase immediately before the symbol “(” in the target sentence. A second character string consisting of a predetermined continuous phrase in “()” is extracted.

係り受け文字列生成処理部53は、係り受け解析処理部51による係り受け解析結果から、各文節の自立語が所定の品詞を持つ係り受け対を検出し、その検出された係り受け対から、少なくとも係り文節の形態素を含む所定の係り文字列と、少なくとも受け文節の形態素を含む所定の受け文字列とを生成し、係り文字列を値とし、受け文字列をキーとして前記係り受け文字列データベースに登録する。   The dependency character string generation processing unit 53 detects a dependency pair in which the independent word of each phrase has a predetermined part of speech from the dependency analysis result by the dependency analysis processing unit 51, and from the detected dependency pair, A predetermined character string including at least a morpheme of a dependency phrase and a predetermined character string including at least a morpheme of the reception clause are generated, the dependency character string is a value, and the dependency character string database is a reception character string as a key. Register with.

対象文検出処理部55は、第一記号“(”と第二記号“)”とからなる所定の記号対を含む文である対象文を検出する。   The target sentence detection processing unit 55 detects a target sentence that is a sentence including a predetermined symbol pair including the first symbol “(” and the second symbol “)”.

同義語集合判定処理部56は、共係り関係が存在すると判定された文字列対と同義語データベース72の同義語集合が所定の条件を満たすか否かを判定する。   The synonym set determination processing unit 56 determines whether or not a character string pair determined to have a cooperating relationship and a synonym set in the synonym database 72 satisfy a predetermined condition.

同義語集合合成処理部57は、同義語データベースの該当同義語集合を、該当同義語集合と抽出した文字列対との和集合に置き換える。   The synonym set synthesis processing unit 57 replaces the corresponding synonym set in the synonym database with the union of the corresponding synonym set and the extracted character string pair.

同義語集合追加処理部58は、共係り関係が存在する文字列対を新規の同義語集合として同義語データベースに追加する。   The synonym set addition processing unit 58 adds a character string pair having a cooperating relationship to the synonym database as a new synonym set.

不要同義語候補削除処理部59では、同義語候補データベースに追加されてからの保存時間が所定の条件を満たす同義語候補を削除する。   The unnecessary synonym candidate deletion processing unit 59 deletes synonym candidates that satisfy a predetermined time after being added to the synonym candidate database.

共係り関係存在判定処理部60は、第一の文字列と第二の文字列がともに係り関係を有する所定の文節が存在するか否かを判定する。   The co-relationship presence determination processing unit 60 determines whether there is a predetermined phrase in which both the first character string and the second character string are related.

次に、各データベースについて説明する。最初に係り受け文字列データベース73について説明する。まず、係り受け文字列とは、各文節の自立語(形態素)が所定の品詞を持つ係り受け対の、少なくとも係り文節の自立語を含む所定の文字列と、少なくとも受け文節の自立語を含む所定の文字列で構成される文字列対のことをいう。また、係り受け文字列において、受け側文字列をキー文字列、係り側文字列を値文字列とし、辞書構造を有する係り受け文字列データベースで管理する。さらに、キー文字列を構成するもとになった文節の自立語をキー自立語、値文字列を構成するもとになった文節の自立語を値自立語とする。   Next, each database will be described. First, the dependency character string database 73 will be described. First, the dependency character string includes a predetermined character string including at least a dependency word independent word of a dependency pair in which each word independent word (morpheme) has a predetermined part of speech, and at least a dependency word independent word. A character string pair composed of a predetermined character string. In the dependency character string, the receiving character string is a key character string, and the dependency character string is a value character string, which are managed by a dependency character string database having a dictionary structure. Furthermore, the independent word of the phrase that forms the key character string is the key independent word, and the independent word of the phrase that forms the value character string is the value independent word.

なお、以下の動作例においては、簡単のためデータベース構造としてハッシュを用いているが、同等の機能が実現できる構造であれば、どのようなものでもよい。また、本発明では、データベースに特殊な仕様を必要としないため、既存のデータベースを利用すればよい。   In the following operation example, a hash is used as a database structure for simplicity, but any structure may be used as long as an equivalent function can be realized. In the present invention, since a database does not require special specifications, an existing database may be used.

図3に、係り受け文字列において、キー自立語の品詞が動詞であり、値自立語の品詞が名詞である場合の係り受け文字列データベースのデータ構造の一例を示す。なお、本実施例では明示しないが、キー自立語の品詞を名詞および値自立語の品詞を形容詞としたり、それらの組み合わせを用いてもよい。   FIG. 3 shows an example of the data structure of the dependency character string database when the part of speech of the key independent word is a verb and the part of speech of the value independent word is a noun in the dependency character string. Although not clearly shown in the present embodiment, the part of speech of the key independent word may be a noun and the part of speech of the value independent word may be an adjective, or a combination thereof may be used.

図3では、第一列がキー文字列、第二列以降が値文字列である5つの係り受け自立語データが管理されている。なお、本例においては、品詞の活用変化を吸収するために、キー文字列を構成する末端の自立語はすべて終止形で管理する。例えば、識別番号1の係り受け文字列は、キー文字列が“発表する”で、値文字列が、“国際原子力機関”、“IAEA”、”総務省”、および“IOC”であることを示している。   In FIG. 3, five dependency independent word data in which the first column is a key character string and the second and subsequent columns are value character strings are managed. In this example, in order to absorb the change in the use of parts of speech, all terminal free words constituting the key character string are managed in a terminal form. For example, the dependency character string of identification number 1 is that the key character string is “announce”, and the value character string is “International Atomic Energy Agency”, “IAEA”, “Ministry of Internal Affairs and Communications”, and “IOC”. Show.

次に、同義語候補データベース71について説明する。同義語候補対とは順序をもつ文字列対であり、同義語候補データベース71で管理される。順序をもつ文字列対とは、2つの文字列A、Bにおいて、「A(B)」と表現されるが、「B(A)」と表現されるかどうかが判定されていない文字列対をいう。例えば、東京タワー、港区という文字列対において「東京タワー(港区)」と表現されるが、フレーズを入れ替えた「港区(東京タワー)」という表現は普通はされない。すなわち、同義語候補対とは、同義語の文字列からなる文字列対である可能性がある文字列対である。なお、本実施例では、同義語候補データベースは特殊な仕様を必要としないため、既存のデータベースを利用すればよい。   Next, the synonym candidate database 71 will be described. The synonym candidate pairs are character string pairs having an order, and are managed in the synonym candidate database 71. A character string pair having an order is expressed as “A (B)” in the two character strings A and B, but is not determined whether it is expressed as “B (A)”. Say. For example, in the character string pair of Tokyo Tower and Minato Ward, it is expressed as “Tokyo Tower (Minato Ward)”, but the phrase “Minato Ward (Tokyo Tower)” with the phrase replaced is not usually used. That is, the synonym candidate pair is a character string pair that may be a character string pair made up of synonym character strings. In the present embodiment, the synonym candidate database does not require special specifications, and an existing database may be used.

図4に同義語対データベースのデータ構造の一例を示す。図4では、各行が各同義語候補の情報であり、第一列が第一文字列、第二列が第二文字列、および第三列は同義語候補を追加した日付である。また、各行を識別するために識別番号を付与している。例えば、識別番号1の同義語候補対は“松下二郎外野手”と“NYベアーズ”であり、これは2004年2月29日に追加されたものである。   FIG. 4 shows an example of the data structure of the synonym pair database. In FIG. 4, each row is information on each synonym candidate, the first column is the first character string, the second column is the second character string, and the third column is the date when the synonym candidate is added. An identification number is assigned to identify each row. For example, the synonym candidate pair with the identification number 1 is “Jiro Matsushita Outfielder” and “NY Bears”, which was added on February 29, 2004.

また、同義語候補対の追加日時情報は、同一の同義語候補対が観測される度に更新してもよい。   Moreover, you may update the additional date information of a synonym candidate pair whenever the same synonym candidate pair is observed.

次に、同義語データベース72について説明する。まず、互いに同義表現をもつ文字列からなる集合を同義語集合と呼び、同義語集合は、同義語データベース72で管理される。本実施例で、同義語データベース72は特殊な仕様を必要としないため、既存のデータベースを利用すればよい。   Next, the synonym database 72 will be described. First, a set of character strings having synonymous expressions is called a synonym set, and the synonym set is managed in the synonym database 72. In the present embodiment, the synonym database 72 does not require special specifications, so an existing database may be used.

図5に同義語データベースのデータ構造の一例を示す。図5では、各行が各同義語集合であり、各セルが同義語を構成する文字列である。また、各行を識別するために識別番号を付与している。例えば、識別番号2の同義語集合は、“北大西洋条約機構”、“NATO”、“North Atlantic Treaty Organization”はそれぞれがそれぞれの同義語である。   FIG. 5 shows an example of the data structure of the synonym database. In FIG. 5, each row is a synonym set, and each cell is a character string constituting a synonym. An identification number is assigned to identify each row. For example, the synonym set of the identification number 2 is “North Atlantic Treaty Organization”, “NATO”, and “North Atlantic Treaty Organization”, respectively.

以上がモジュールとデータベースに関する説明である。次に、全体の処理の流れを、図5のフローチャートを用いて説明する。このフローチャートの説明の後、各ステップの詳細な説明を行う。   This completes the description of the module and database. Next, the overall processing flow will be described with reference to the flowchart of FIG. After the description of this flowchart, each step will be described in detail.

ステップS101で、文の係り受け解析が行われる。次のステップS102で、係り受け文字列生成処理が行われる。次にステップS103で、対象文検出処理が行われる。ステップS104で文字列対抽出処理が行われる。   In step S101, sentence dependency analysis is performed. In the next step S102, dependency character string generation processing is performed. Next, in step S103, a target sentence detection process is performed. In step S104, character string pair extraction processing is performed.

次のステップS105で、共係り関係存在判定処理が行われる。判定結果が偽であれば、処理は終了する。判定結果が真であれば、ステップS106で、同義語集合判定処理が行われる。ここでの判定結果が真のとき、ステップS108で、同義語集合合成処理が行われ、処理が終了する。判定結果が偽のとき、ステップS107で、同義語集合追加処理が行われ、処理が終了する。   In the next step S105, a cooperative relationship existence determination process is performed. If the determination result is false, the process ends. If the determination result is true, a synonym set determination process is performed in step S106. If the determination result here is true, a synonym set synthesis process is performed in step S108, and the process ends. When the determination result is false, a synonym set addition process is performed in step S107, and the process ends.

以上説明したステップS101は、係り受け解析段階に対応する。ステップS102は、係り受け文字列生成段階に対応する。ステップS103は、対象文検出段階に対応する。ステップS104は、文字列対抽出段階に対応する。ステップS105は、共係り関係存在判定段階に対応する。ステップS106は、同義語集合判定段階に対応する。ステップS107は、同義語集合追加段階に対応する。ステップS108は、同義語集合合成段階に対応する。   Step S101 described above corresponds to the dependency analysis stage. Step S102 corresponds to a dependency character string generation stage. Step S103 corresponds to the target sentence detection stage. Step S104 corresponds to the character string pair extraction stage. Step S105 corresponds to the relationship determination step. Step S106 corresponds to a synonym set determination stage. Step S107 corresponds to a synonym set addition stage. Step S108 corresponds to a synonym set synthesis stage.

次に、各ステップの詳細な説明を行う。まず、ステップS101の係り受け解析処理について、図7、8を用いて説明する。   Next, each step will be described in detail. First, the dependency analysis process in step S101 will be described with reference to FIGS.

図8は、図7に示す3つの文に対し、係り受け解析処理を実行した結果である。なお、図8において第一列が文節の識別番号、第二列が係り先の文節識別番号、第三列が文節を構成する形態素表記、第四列が形態素の終止形表記、および第五列が形態素の品詞を示す。なお、本実施例においては、文節は一つの自立語と0以上の付属語から構成されるという一般的な生成規則に基づくものとする。   FIG. 8 shows the result of executing the dependency analysis process for the three sentences shown in FIG. In FIG. 8, the first column is the phrase identification number, the second column is the related phrase identification number, the third column is the morpheme notation constituting the phrase, the fourth column is the ending morpheme notation, and the fifth column Indicates the part of speech of the morpheme. In this embodiment, the phrase is based on a general generation rule that is composed of one independent word and zero or more attached words.

また、図8の第二列において、係り先文節識別番号の“−1”は、係り先文節がないことを示し、第四列は活用する品詞をもつ形態素のみ終止形を記述し、さらに第五列において名詞、動詞、連体詞、および明示しないが、形容詞、形容動詞が自立語を示す品詞である。(厳密には、文Cの文節21の自立語である“説明”の品詞はサ変動詞とするべきであるが、本実施例では簡単のためサ変動詞も動詞とする。同様に、本来未登録語や未知語として扱われる品詞についても簡単のため、名詞とする。)
また、記号については、特定のものには、独自の品詞を割り当てている。例えば、開括弧記号、閉括弧記号、読点記号、句点記号はそれぞれ品詞を“開括弧”、“閉括弧”、“読点”、“句点”とする。さらに、本例では記号を自立語として扱うが、読点記号と句点記号は付属語とする。
Further, in the second column of FIG. 8, the dependency clause identification number “−1” indicates that there is no dependency clause, the fourth column describes the ending form only for the morpheme having the part of speech to be used, In the fifth column, nouns, verbs, conjunctions, and adjectives are not specified, but adjectives and adjective verbs are parts of speech that indicate independent words. (Strictly speaking, the part of speech of “explanation”, which is an independent word in the phrase 21 of the sentence C, should be a sub-variable, but in this embodiment, the sub-variable is also a verb for simplicity. The part of speech that is treated as a word or unknown word is also a noun for simplicity.)
In addition, specific symbols are assigned to specific symbols. For example, an open parenthesis symbol, a closing parenthesis symbol, a punctuation symbol, and a punctuation symbol have parts of speech of “open parenthesis”, “closed parenthesis”, “reading mark”, and “punctuation mark”, respectively. Furthermore, in this example, symbols are treated as independent words, but punctuation symbols and punctuation symbols are attached words.

次に、ステップS102の係り受け文字列生成処理について説明する。係り受け文字列生成処理では、係り受け解析結果から、各文節の自立語が所定の品詞を持つ係り受け対を検出し、検出された係り受け対から、少なくとも係り文節の形態素を含む所定の文字列と、少なくとも受け文節の形態素を含む所定の文字列を生成し、それぞれの文字列を値とキーとして係り受け文字列データベースに登録する。   Next, the dependency character string generation processing in step S102 will be described. In the dependency character string generation process, a dependency pair having a predetermined part-of-speech is detected from the dependency analysis result, and a predetermined character including at least a dependency clause morpheme is detected from the detected dependency pair. A predetermined character string including a string and at least a morpheme of the receiving clause is generated, and each character string is registered in the dependency character string database as a value and a key.

本実施例では、図8に示す係り受け解析結果から、係り文節の自立語の品詞が名詞、また受け文節の自立語の品詞が動詞である係り受け自立語対をもとに、係り受け文字列が生成される。   In this embodiment, from the dependency analysis result shown in FIG. 8, the dependency character is based on a dependency independent word pair in which the part of speech of the dependency phrase is a noun and the part of speech of the dependency phrase is a verb. A column is generated.

値文字列は、係り文節の自立語に対し係り文節に再帰的に係り関係をもつ、自立語の品詞が名詞の文節の文字列を結合することで生成される。また、キー文字列は、受け文節の自立語の終止形として生成される。なお、上記再帰的係り関係とは、図9に示すように、係り受け対の係り側の自立語が、別の係り受け対の受け側文字列にとなる連鎖関係を示す。   The value character string is generated by combining the character string of the noun phrase with the part of speech of the self-supporting word, which has recursive dependency relation with the dependency phrase for the independent word of the dependency phrase. The key character string is generated as an end form of the self-supporting word of the receiving clause. As shown in FIG. 9, the recursive dependency relationship indicates a chain relationship in which the independent word on the dependency side of the dependency pair becomes the character string on the reception side of another dependency pair.

係り受け文字列生成処理部53の処理を、図10のフローチャートを用いて説明する。ステップS201で、係り受け文字列生成処理部53は、係り文節の自立語の品詞が名詞、受け文節の自立語の品詞が動詞である文節対を検出する。ステップS202で、係り受け文字列生成処理部53は、係り受け文節に再帰的に係る自立語の品詞が名詞である文節をすべて検出し、文節の出現順で各文節表記を結合し、値文字列を生成する。ステップS203で、係り受け文字列生成処理部53は、受け文節の自立語の終止形を取得し、キー文字列を生成する。ステップS204で、係り受け文字列生成処理部53は、生成したキー文字列と値文字列をそれぞれキーと値として、係りうけ文字列データベースに登録する。   The processing of the dependency character string generation processing unit 53 will be described with reference to the flowchart of FIG. In step S201, the dependency character string generation processing unit 53 detects a phrase pair in which the part-of-speech of the independent phrase of the dependency phrase is a noun and the part-of-speech of the independent word of the reception phrase is a verb. In step S202, the dependency character string generation processing unit 53 detects all the clauses in which the part of speech of the independent word recursively depends on the dependency clause, and combines the phrase representations in the order in which the clauses appear, Generate a column. In step S <b> 203, the dependency character string generation processing unit 53 acquires the end form of the self-supporting word of the receiving phrase, and generates a key character string. In step S204, the dependency character string generation processing unit 53 registers the generated key character string and value character string in the dependency character string database as keys and values, respectively.

例えば、図7の文Cにおいて、係り受け文字列である条件を満たす文節対は識別番号18と22、および20と21の文節対であることがわかる。また、識別番号18および20の文節はともに、自立語の品詞が名詞である文節から係り関係を有していないため、係り受け文字列として、“述べる”-“JASS”、“説明する”-“問題”を得る。   For example, in the sentence C of FIG. 7, it can be seen that the phrase pairs satisfying the condition of the dependency character string are the phrase pairs having the identification numbers 18 and 22, and 20 and 21. In addition, since the clauses having the identification numbers 18 and 20 have no relation from the clause whose part of speech of the independent word is a noun, “describe”-“JASS”, “explain”- Get a “problem”.

次に、係り受け文字列:“述べる”-“JASS”のキー文字列:“述べる”は図3の識別番号3のキーと同一であるので、値文字列:“JASS”は識別番号3のレコードの値として追加される。   Next, since the dependency character string: “describe”-“JASS” key character string: “describe” is the same as the key of the identification number 3 in FIG. 3, the value character string: “JASS” is the identification number 3 Added as record value.

一方、係り受け文字列:“説明する”-“問題”のキー文字列:“説明する”は、新規キー文字列であることがわかるので、図3に新しいレコードとして登録される。同様にして、文A、文Bからも係り受け文字列対を生成し、図3の係り受け対データベースに登録した結果が図11に示されている。   On the other hand, since the dependency character string: “explain”-“problem” key character string: “explain” is a new key character string, it is registered as a new record in FIG. Similarly, FIG. 11 shows the result of generating dependency character string pairs from sentence A and sentence B and registering them in the dependency pair database of FIG.

次に、ステップS103の対象文検出処理について説明する。対象文検出処理では、第一記号と第二記号とからなる所定の記号対を含む文を検出する。本実施例では、特許文献3において開示されている方法を利用してもよいし、もしくは例えば、丸括弧対であれば、正規表現”\([^\)]+\)“などを文に適用することで簡単に検出することができる。   Next, the target sentence detection process in step S103 will be described. In the target sentence detection process, a sentence including a predetermined symbol pair composed of a first symbol and a second symbol is detected. In the present embodiment, the method disclosed in Patent Document 3 may be used. For example, in the case of a pair of parentheses, a regular expression “\ ([^ \)] + \)” or the like is used as a sentence. It can be easily detected by applying.

なお、\はバックスラッシュ、[]はクラス、+は1つ以上の出現をそれぞれ示す。この正規表現を用いることで、例えば図7もしくは図8に示す文において、丸括弧対を含む文は文Aであることが容易に検出できる。   Note that \ indicates a backslash, [] indicates a class, and + indicates one or more occurrences. By using this regular expression, for example, in the sentence shown in FIG. 7 or FIG. 8, it can be easily detected that the sentence including the pair of parentheses is the sentence A.

次に、ステップS104の文字列対抽出処理について説明する。文字列対抽出処理では、対象文検出処理で検出された文の係り受け結果をもとに特定記号対の直前および内部の所定の文字列を抽出する。   Next, the character string pair extraction process in step S104 will be described. In the character string pair extraction process, a predetermined character string immediately before and inside the specific symbol pair is extracted based on the dependency result of the sentence detected in the target sentence detection process.

本実施例では、図8に示す係り受け解析結果から、特定記号対を丸括弧とし、先頭と終端の文節の自立語の品詞が名詞であり、それ以外の文節の自立語は、名詞もしくは記号である連続する文節から生成される文字列として取得する処理例を、図12のフローチャートに示す。なお、本実施例では簡単のため、記号対の入れ子は存在しないとする。   In the present embodiment, from the dependency analysis results shown in FIG. 8, the specific symbol pair is a parenthesis, the part of speech of the independent phrase in the first and last phrases is a noun, and the independent words in the other phrases are nouns or symbols FIG. 12 is a flowchart illustrating an example of processing to be acquired as a character string generated from successive phrases. In this embodiment, for simplicity, it is assumed that there is no symbol pair nesting.

ステップS301で、文字列対抽出処理部は、記号“(”の出現位置を検出し、変数P1に代入する。次に文字列対抽出処理部は、ステップS302で、P1+1の位置から最初に出現する記号“)”の位置を検出し、変数P2に代入する。次のステップS303で、文字列対抽出処理部は、P1+1からP2−1の範囲の文節列に対し、次に示す式に示す品詞の正規表現を満たす文節列を抽出し、第二文字列とする。
(名詞)((名詞|未登録語)*(名詞))?
なお、この式において、(|)は選択を、?は高々1つ存在を、それぞれ示す。
In step S301, the character string pair extraction processing unit detects the appearance position of the symbol “(” and assigns it to the variable P1. Next, in step S302, the character string pair extraction processing unit first appears from the position P1 + 1. The position of the symbol “)” to be detected is detected and assigned to the variable P2. In the next step S303, the character string pair extraction processing unit extracts a phrase string satisfying the regular expression of the part of speech shown in the following expression for the phrase string in the range of P1 + 1 to P2-1, To do.
(Noun) ((noun | unregistered word) * (noun))?
In this expression, (|) is a selection,? Indicates at most one occurrence.

ステップS304で、文字列対抽出処理部は、P1−1から先頭への文節列に対し、式に示す品詞の正規表現を満たす文節列を抽出し、第一文字列とし、処理を終了する。   In step S304, the character string pair extraction processing unit extracts a phrase string that satisfies the part-of-speech regular expression shown in the expression from the phrase string starting from P1-1, sets the first character string, and ends the process.

例えば、図7の文Aでは、まず記号“(”を含む文節の位置として5(図8参照)を、記号“)“を含む文節の位置として7を得る。次に、位置6から位置6の形態素列で上記式の品詞の正規表現を満たす列を検出すると、名詞を得るので、第二文字列は“JSAA”となる。次に、位置4から先頭へ式1の正規表現を満たす列を検出すると、名詞・名詞・名詞・名詞となるため、第一文字列は“日本スポーツ仲裁機構”となり、文字列対:“日本スポーツ仲裁機構”-“JSAA”を抽出する。   For example, in the sentence A in FIG. 7, first, 5 (see FIG. 8) is obtained as the position of the phrase including the symbol “(”, and 7 is obtained as the position of the phrase including the symbol “)”. Next, when a column satisfying the regular expression of the part of speech of the above formula is detected in the morpheme sequence from position 6 to position 6, a noun is obtained, so the second character string is “JSAA”. Next, when a column satisfying the regular expression of Formula 1 is detected from position 4 to the beginning, it becomes a noun / noun / noun / noun, so the first character string becomes “Japan Sports Arbitration Agency”, and the character string pair: “Japan Sports Extract "Arbitration Agency"-"JSAA".

また、このようにして抽出された文字列対は同義語候補データベースに登録される。例えば、抽出した文字列対:“日本スポーツ仲裁機構”-“JSAA”を図5に示す同義語候補データベースに登録すると、同義語候補データベースは図13のようになる。なお、登録した時刻は、2004年6月7日とする。   The character string pairs extracted in this way are registered in the synonym candidate database. For example, when the extracted character string pair: “Japan Sports Arbitration Agency”-“JSAA” is registered in the synonym candidate database shown in FIG. 5, the synonym candidate database becomes as shown in FIG. The registered time is assumed to be June 7, 2004.

次に、ステップS105の共係り関係存在判定処理について説明する。共係り関係存在判定処理では、第一の文字列と第二の文字列が共に係り関係を有する所定の文節が存在するか否かを判定する。   Next, the cooperative relationship existence determination process in step S105 will be described. In the cooperative relationship existence determination process, it is determined whether or not there is a predetermined phrase in which the first character string and the second character string are both related.

本実施例では、判定対象文字列はすべて同義語候補データベースに登録されているとし、判定条件は対象文字列対が共に係り受け文字列データベースの値文字列に含まれる場合を真とし、すべての同義語候補文字列対の識別番号を取得する。   In this embodiment, it is assumed that all the determination target character strings are registered in the synonym candidate database, and the determination condition is true when both the target character string pairs are included in the value character string of the dependency character string database. Acquires the identification number of the synonym candidate character string pair.

この共係り関係存在判定処理部の処理を、図14を用いて説明する。ステップS401で、共係り関係存在判定処理部は、識別番号を保持する識別番号リストを作成する。ステップS402で、共係り関係存在判定処理部は、同義語候補データベースから同義語候補を1つ抽出する。   The process of this co-relationship presence determination processing unit will be described with reference to FIG. In step S401, the cooperative relationship existence determination processing unit creates an identification number list holding identification numbers. In step S402, the cooperative relationship existence determination processing unit extracts one synonym candidate from the synonym candidate database.

ステップS403で、共係り関係存在判定処理部は、同義語候補がないかどうか判断する。同義語候補がない場合、共係り関係存在判定処理部は、ステップS404で、識別番号リストを返し、処理を終了する。   In step S403, the cooperative relationship existence determination processing unit determines whether there is a synonym candidate. If there is no synonym candidate, the cooperative relationship existence determination processing unit returns the identification number list in step S404 and ends the process.

同義語候補がある場合、共係り関係存在判定処理部は、ステップS405で、係り受け文字列データベースに対し、同義語候補の文字列対を共に値文字列として含むレコードを検索し、存在する場合には、識別番号リストに対象同義語候補の識別番号を追加する。そして、ステップS402の処理に戻る。   If there is a synonym candidate, the co-relationship presence determination processing unit searches the dependency character string database for a record that includes both character string pairs of synonym candidates as value character strings in step S405, and exists. In this case, the identification number of the target synonym candidate is added to the identification number list. Then, the process returns to step S402.

例えば、図11に示す係り受け文字列データベースと図15の示す同義語候補データベースのもとで共係り関係存在判定条件を満たす同義語候補データベースの識別番号リストを求めることを考える。   For example, consider obtaining an identification number list of a synonym candidate database satisfying the co-relationship existence existence condition under the dependency character string database shown in FIG. 11 and the synonym candidate database shown in FIG.

まず、同義語候補データベースから文字列対:“松下二郎外野手”-“NYベアーズ”を取得する。係り受け文字列データベースで、この文字列対を値文字列として含むレコードを検索すると該当するものはないことがわかる。   First, the character string pair: “Jiro Matsushita Outfielder”-“NY Bears” is acquired from the synonym candidate database. When a record including the character string pair as a value character string is searched in the dependency character string database, it is found that there is no corresponding one.

次に、同義語候補データベースから文字列対:“国際原子力機関”-“IAEA”を取得する。係り受け文字列データベースで、この文字列対を値文字列として含むレコードを検索すると、識別番号1のレコードが該当するため、識別番号リストに対象文字列対の識別番号2を追加する。   Next, the character string pair: “International Atomic Energy Agency”-“IAEA” is acquired from the synonym candidate database. When a record including the character string pair as a value character string is searched in the dependency character string database, the record with the identification number 1 corresponds, and therefore the identification number 2 of the target character string pair is added to the identification number list.

次に、同義語候補データベースから文字列対:“日本スポーツ仲裁期間”-“JASS”を取得する。係り受け文字列データベースで、この文字列対を値文字列として含むレコードを検索すると、識別番号3のレコードが該当するため、識別番号リストに対象文字列対の識別番号3を追加する。   Next, the character string pair: “Japan Sports Arbitration Period”-“JASS” is acquired from the synonym candidate database. When a record including the character string pair as a value character string is searched in the dependency character string database, the record with the identification number 3 is applicable, so that the identification number 3 of the target character string pair is added to the identification number list.

同義語候補データベースにはもうエントリがないため、結果として識別番号2と3を値としてもつ識別番号リストを得え、この識別番号リストに対応する同義語候補が同義語対になることがわかる。   Since there are no more entries in the synonym candidate database, an identification number list having identification numbers 2 and 3 as values is obtained as a result, and it can be seen that the synonym candidates corresponding to this identification number list are synonym pairs.

次に、ステップS106の同義語集合判定処理について説明する。同義語集合判定処理では、生成した同義語対と同義語データベースの同義語集合が所定の条件を満たすか否かを判定する。   Next, the synonym set determination process in step S106 will be described. In the synonym set determination process, it is determined whether or not the generated synonym pair and the synonym set in the synonym database satisfy a predetermined condition.

具体的に、同義語集合判定処理は、判定条件を“2つの集合の積集合が空集合でない場合を真”として、同義語データベースと共係り関係存在判定処理で同義語対であると認定された同義語候補データベースの文字列対の識別番号を用いた処理が行われる。   Specifically, in the synonym set determination process, the determination condition is “true when the product set of two sets is not an empty set”, and the synonym database is recognized as a synonym pair in the relationship existence determination process. The processing using the identification number of the character string pair in the synonym candidate database is performed.

この同義語集合判定処理部の処理を、図16を用いて説明する。ステップS501で、同義語集合判定処理部は、同義語データベースに同義語集合があるかどうか判断する。なければステップS505で、−1を返し、処理を終了する。次のステップS502で、同義語集合判定処理部は、同義語データベースから同義語集合を1つ抽出する。   The processing of the synonym set determination processing unit will be described with reference to FIG. In step S501, the synonym set determination processing unit determines whether there is a synonym set in the synonym database. If not, -1 is returned in step S505, and the process ends. In the next step S502, the synonym set determination processing unit extracts one synonym set from the synonym database.

次に、同義語集合判定処理部は、ステップS503で、生成した同義語集合と該当同義語集合の積集合が空集合かどうか判断する。空集合でないならば、同義語集合判定処理部は、ステップS504で、該当同義語集合の識別番号を返し、処理を終了する。空集合の場合、同義語集合判定処理部は、ステップS501の処理に戻る。   Next, in step S503, the synonym set determination processing unit determines whether the product set of the generated synonym set and the corresponding synonym set is an empty set. If it is not an empty set, the synonym set determination processing unit returns the identification number of the corresponding synonym set in step S504 and ends the process. In the case of an empty set, the synonym set determination processing unit returns to the process of step S501.

例えば、前述の共係り関係存在判定処理までの動作例を継承し、さらに同義語データベースが図5として与えられている場合を考える。まず、前例より図15の同義語候補データベースのなかで識別番号2と3の文字列対が同義語対であることがわかるので、まず識別番号2の文字列対(集合):(国際原子力機関、IAEA)を取得する。次に、この文字列集合を図5の同義語データベースの各レコード(同義語集合)との積集合を取ると、識別番号1の場合積集合が空集合ではないことがわかるので、結果として識別番号1が返し、処理を終了する。   For example, consider a case where the operation example up to the above-described cooperative relationship existence determination process is inherited and a synonym database is given as FIG. First, it can be seen from the previous example that the character string pair of identification numbers 2 and 3 is a synonym pair in the synonym candidate database of FIG. 15. First, the character string pair (set) of identification number 2: (International Atomic Energy Agency) , IAEA). Next, when the product set of this character string set and each record (synonym set) of the synonym database in FIG. 5 is taken, it can be seen that the product set is not an empty set in the case of identification number 1. Number 1 is returned, and the process is terminated.

同様に、同義語候補データベースの識別番号2の文字列対:(日本スポーツ仲裁機構、JASS)について同様に判定すると、この場合すべての積集合が空集合であることがわかるので、識別番号として-1を返し、処理を終了する。   Similarly, if a similar determination is made with respect to the character string pair of identification number 2 in the synonym candidate database: (Japan Sports Arbitration Agency, JASS), in this case, it is found that all the product sets are empty sets. 1 is returned and the process ends.

次に、ステップS108の同義語集合合成処理について説明する。同義語集合合成処理では、生成された同義語文字列対が、同義語集合判定処理で判定条件を満たす場合、その同義語集合と同義語データベースの該当同義語集合を合成し、該当同義語集合を更新する。   Next, the synonym set synthesizing process in step S108 will be described. In the synonym set synthesis process, when the generated synonym string pair satisfies the determination condition in the synonym set determination process, the synonym set and the corresponding synonym set in the synonym database are combined, and the corresponding synonym set Update.

ここでは、判定条件をみたす同義語文字列対(集合)と同義語データベースにおける該当同義語集合を合成する処理例を、図17のフローチャートを用いて説明する。ステップS601で、同義語集合合成処理部は、生成された同義語集合の、同義語データベースにおける該当同義語集合との差集合を生成する。次のステップS602で、同義語集合合成処理部は、生成した差集合の全要素を当該同義語集合に加える。   Here, a processing example of synthesizing a synonym character string pair (set) satisfying a determination condition and a corresponding synonym set in the synonym database will be described with reference to a flowchart of FIG. In step S601, the synonym set synthesis processing unit generates a difference set between the generated synonym set and the corresponding synonym set in the synonym database. In the next step S602, the synonym set synthesis processing unit adds all elements of the generated difference set to the synonym set.

例えば、前述の同義語集合判定処理までの動作例を継承すると、同義語集合判定処理で真となるのは、同義語文字列集合:(国際原子力機関、IAEA)で、対応する同義語集合は、同義語データベースの識別番号1のエントリであるので、2つの文字列集合の和を取ると(IAEA,International Atomic Energy Agency,国際原子力機関)となり、同義語データベースの識別番号1のエントリは図13のようになる。   For example, if the operation example up to the above-described synonym set determination process is inherited, the synonym set determination process is true in the synonym character string set: (International Atomic Energy Agency, IAEA), and the corresponding synonym set is Since the entry of ID number 1 in the synonym database is taken, the sum of the two character string sets becomes (IAEA, International Atomic Energy Agency), and the entry of ID number 1 in the synonym database is shown in FIG. become that way.

次に、ステップS107の同義語集合追加処理について説明する。同義語集合追加処理では、生成された同義語文字列対が、同義語集合判定処理で判定条件を満さない場合、その同義語集合を同義語データベースの新規同義語集合として追加する。   Next, the synonym set addition process in step S107 will be described. In the synonym set addition process, when the generated synonym character string pair does not satisfy the determination condition in the synonym set determination process, the synonym set is added as a new synonym set in the synonym database.

ここでは、判定条件を満たさない同義語文字列対と同義語データベースに追加し、該当同義語データベースを更新する処理例を示す。   Here, a processing example is shown in which a synonym character string pair that does not satisfy the determination condition is added to the synonym database and the corresponding synonym database is updated.

例えば、前述の同義語集合判定処理までの動作例を継承すると、同義語集合判定処理で真となるのは、同義語文字列集合:(日本スポーツ仲裁機構、JASS)であるから、これを新規同義語集合として、同義語データベースに登録したものが、図13の識別番号3のレコードである。   For example, if the operation example up to the above-described synonym set determination process is inherited, the synonym character set: (Japan Sports Arbitration Agency, JASS) is true in the synonym set determination process. What is registered in the synonym database as a synonym set is the record with the identification number 3 in FIG.

なお、同義語集合合成処理および同義語集合追加処理で処理された同義語候補データベースのレコード、すなわち同義語文字列対は、同一の情報が同義語データベースに登録されるため、削除してもよい。   The record of the synonym candidate database processed by the synonym set synthesis process and the synonym set addition process, that is, the synonym character string pair may be deleted because the same information is registered in the synonym database. .

このように、複数文書に対し、上述した処理を繰り返し実行することにより簡便に高精度な同義語データベースを生成できる。なお、上記処理例において、同義語データベース、同義語候補データベースともに識別番号が不連続になる場合が生じているが、ひとつの抽出された文字列対単位で識別番号の整合性が取れていればよいので、任意の抽出された文字列対における処理が終了した後に、識別番号を連続値に修正してもよい。   In this manner, a high-accuracy synonym database can be easily generated by repeatedly executing the above-described processing on a plurality of documents. In the above processing example, there are cases where the identification numbers are discontinuous in both the synonym database and the synonym candidate database, but if the identification numbers are consistent in units of one extracted character string pair Therefore, the identification number may be corrected to a continuous value after the processing for any extracted character string pair is completed.

次に、不要同義語候補削除処理について説明する。不要同義語候補削除処理では、同義語候補データベースに登録されている同義語候補について、追加されてから一定時間経過したものは、同義語を構成しないものとみなし、同義語候補データベースから削除する。   Next, unnecessary synonym candidate deletion processing will be described. In the unnecessary synonym candidate deletion process, synonym candidates registered in the synonym candidate database that have been added for a certain period of time are regarded as not constituting synonyms and are deleted from the synonym candidate database.

なお、この処理は、上述した処理と同期を取る必要はなく、定期的に独立に実行してよい。   This process does not need to be synchronized with the process described above, and may be executed independently periodically.

ここでは、図15に示す同義語候補データベースに対し、指定される最大経過日数を超える同義語候補は削除する処理例を示す。   Here, a processing example in which synonym candidates exceeding the specified maximum elapsed days are deleted from the synonym candidate database shown in FIG.

この不要同義語候補削除処理を示すフローチャートを図18に示す。ステップS701で、不要同義語候補削除処理部は、最大経過日数と現在の日付を取得する。ステップS702で、不要同義語候補削除処理は、同義語候補データベースがあるかどうか判断する。なければ処理を終了する。不要同義語候補削除処理部は、ステップS703で、同義語候補データベースから同義語候補を1つ取得し、該当同義語候補の追加日付と現在の日付から経過日数を算出する。   A flowchart showing this unnecessary synonym candidate deletion processing is shown in FIG. In step S701, the unnecessary synonym candidate deletion processing unit acquires the maximum number of elapsed days and the current date. In step S702, the unnecessary synonym candidate deletion process determines whether there is a synonym candidate database. If not, the process ends. In step S703, the unnecessary synonym candidate deletion processing unit obtains one synonym candidate from the synonym candidate database, and calculates the number of elapsed days from the addition date of the corresponding synonym candidate and the current date.

次に、不要同義語候補削除処理部は、ステップS704で、経過日数が最大経過日数を超えるかどうか判断する。超えるならば、不要同義語候補削除処理部は、ステップS705で、該当同義語候補のエントリを同義語候補データベースから削除する。超えない場合、不要同義語候補削除処理部は、ステップS701の処理に戻る。   Next, the unnecessary synonym candidate deletion processing unit determines whether or not the number of elapsed days exceeds the maximum number of elapsed days in step S704. If exceeded, the unnecessary synonym candidate deletion processing unit deletes the entry of the corresponding synonym candidate from the synonym candidate database in step S705. If not, the unnecessary synonym candidate deletion processing unit returns to the process of step S701.

例えば、現在日時を2004年7月4日、最大経過日数を120日とすると、図15の同義語候補データベースで、識別番号1と2の同義語候補は追加日付が2004年2月29日であるから、経過日数は126日となり、120日を越えているため、削除される。同様にして、識別番号3の同義語候補は経過日数が120日以内のため、削除されない。   For example, if the current date and time is July 4, 2004 and the maximum number of elapsed days is 120 days, the synonym candidate database with identification numbers 1 and 2 in FIG. 15 has an additional date of February 29, 2004. Therefore, the number of elapsed days is 126 days, and since it exceeds 120 days, it is deleted. Similarly, the synonym candidate with the identification number 3 is not deleted because the number of elapsed days is within 120 days.

次に、自動ページ収集処理と文抽出処理について説明する。自動ページ収集処理と文抽出処理では、インターネット上のテキストデータを自動的に収集し、収集した文書から特定の記号対を含む文を抽出する。そして、抽出した複数の文を、前述の文字列対抽出処理からの一連の処理に繰り返し適用する。また、定期的に不要同義語削除処理も合わせて実行することで、簡便に高精度かつ鮮度の高い同義語データベースを生成できる。   Next, automatic page collection processing and sentence extraction processing will be described. In automatic page collection processing and sentence extraction processing, text data on the Internet is automatically collected, and sentences including specific symbol pairs are extracted from the collected documents. Then, the plurality of extracted sentences are repeatedly applied to a series of processes from the above-described character string pair extraction process. In addition, by executing unnecessary synonym deletion processing periodically, a synonym database with high accuracy and high freshness can be easily generated.

なお、テキストの収集処理は、既存の所謂検索ロボットなどの自動文書収集エージェントを用いればよいし、特定記号対を含む文の抽出に関しては前述しているので、ここでは動作例は明示しない。   The text collection process may be performed using an existing automatic document collection agent such as a so-called search robot, and since the sentence extraction including the specific symbol pair has been described above, an example of the operation is not specified here.

本実施の形態により、従来手動で行われることの多かった同義語辞書の生成を自動で行うことが可能となる。   According to the present embodiment, it is possible to automatically generate a synonym dictionary, which has been conventionally performed manually.

さらに、従来提案されている自動同義語辞書生成方法と比較し、より詳細な文法的規則を利用して同義語集合の生成を行っているため、より高精度な同義語辞書を自動生成できる。   Furthermore, since a synonym set is generated using more detailed grammatical rules as compared with a conventionally proposed automatic synonym dictionary generation method, a more accurate synonym dictionary can be automatically generated.

その上、日々刻々と更新されるインターネットリソースを対象としているため、鮮度の高い同義語辞書を構成することができる。   In addition, because it targets Internet resources that are updated every day, a synonym dictionary with high freshness can be constructed.

コンピュータの構成例を示す図である。It is a figure which shows the structural example of a computer. モジュールとデータベースを示す図である。It is a figure which shows a module and a database. 係り受け文字列データベースのデータ構造例を示す図である(その1)。It is a figure which shows the example of a data structure of a dependency character string database (the 1). 同義語候補データベースのデータ構造例を示す図である(その1)。It is a figure which shows the example of a data structure of a synonym candidate database (the 1). 同義語データベースのデータ構造例を示す図である(その1)。It is a figure which shows the example of a data structure of a synonym database (the 1). 全体の処理の流れを示すフローチャートである。It is a flowchart which shows the flow of the whole process. 例文を示す図である。It is a figure which shows an example sentence. 係り受け解析結果を示す図である。It is a figure which shows a dependency analysis result. 再帰的な係り受け関係を示す図である。It is a figure which shows recursive dependency relationship. 係り受け文字列生成処理部の処理を示すフローチャートである。It is a flowchart which shows the process of a dependency character string production | generation process part. 係り受け文字列データベースのデータ構造例を示す図である(その2)。It is a figure which shows the example of a data structure of a dependency character string database (the 2). 文字列対抽出処理を示すフローチャートである。It is a flowchart which shows a character string pair extraction process. 同義語データベースのデータ構造例を示す図である(その2)。It is a figure which shows the example of a data structure of a synonym database (the 2). 共係り関係存在判定処理を示すフローチャートである。It is a flowchart which shows a cooperative relationship presence determination process. 同義語候補データベースのデータ構造例を示す図である(その2)。It is a figure which shows the example of a data structure of a synonym candidate database (the 2). 同義語集合判定処理を示すフローチャートである。It is a flowchart which shows a synonym set determination process. 同義語集合合成処理を示すフローチャートである。It is a flowchart which shows a synonym set synthetic | combination process. 不要同義語候補削除処理を示すフローチャートである。It is a flowchart which shows an unnecessary synonym candidate deletion process.

符号の説明Explanation of symbols

10 バス
11 ネットワーク
12 キーボード
13 通信I/O
14 ディスプレイ
15 プリンター
16 メモリ
17 CPU
18 ハードディスク
51 係り受け解析処理部
52 文字列対抽出処理部
53 係り受け文字列生成処理部
55 対象文検出処理部
56 同義語集合判定処理部
57 同義語集合合成処理部
58 同義語集合追加処理部
59 不要同義語候補削除処理部
60 共係り関係存在判定処理部
71 同義語候補データベース
72 同義語データベース
73 係り受け文字列データベース
10 bus 11 network 12 keyboard 13 communication I / O
14 Display 15 Printer 16 Memory 17 CPU
18 Hard Disk 51 Dependency Analysis Processing Unit 52 Character String Pair Extraction Processing Unit 53 Dependent Character String Generation Processing Unit 55 Target Sentence Detection Processing Unit 56 Synonym Set Determination Processing Unit 57 Synonym Set Synthesis Processing Unit 58 Synonym Set Addition Processing Unit 59 Unnecessary synonym candidate deletion processing unit 60 Co-relationship existence determination processing unit 71 Synonym candidate database 72 Synonym database 73 Dependent character string database

Claims (14)

文を構成する文節の品詞と、前記文節の係り受けを解析する係り受け解析手段と、
前記文から、開括弧である第一記号と閉括弧である第二記号とからなる記号対を含む文である対象文を検出する対象文検出手段と、
前記係り受け解析手段による係り受け解析結果のうち解析された文節の品詞を用いて、前記対象文における前記第一記号の直前の名詞及び該名詞の前に連続する名詞からなる第一の文字列と前記記号対内の名詞及び該名詞の前又は後に連続する名詞からなる第二の文字列とを抽出する文字列対抽出手段と、
辞書形式のデータを格納する係り受け文字列データベースと、
前記係り受け解析手段による係り受け解析結果から、各文節の自立語が所定の品詞を持つ係り受け対を検出し、その検出された係り受け対から、少なくとも係り文節の形態素を含む係り文字列と、少なくとも受け文節の形態素を含む受け文字列とを生成し、前記係り文字列を値とし、前記受け文字列をキーとして前記係り受け文字列データベースに登録する係り受け文字列生成手段と、
前記第一の文字列と前記第二の文字列がともに係り関係を有する文節の終止形が存在するか否かを判定する共係り関係存在判定手段とを有し、
前記共係り関係存在判定手段は、前記文字列対抽出手段により抽出された前記第一の文字列及び第二の文字列の文字列対が値であるキーが前記係り受け文字列データベース内にひとつ以上存在するか否かにより対象文字列対の共係り関係の存在を判定し、
前記共係り関係存在判定手段で係り関係が存在する場合、第一の文字列と第二の文字列を同義語対とすることを特徴とする情報処理装置。
Part-of-speech of a clause constituting a sentence; dependency analysis means for analyzing the dependency of the clause;
From the sentence, a target sentence detection means for detecting a target sentence that is a sentence including a symbol pair consisting of a first symbol that is an open parenthesis and a second symbol that is a close parenthesis;
A first character string consisting of a noun immediately before the first symbol and a noun consecutive before the noun in the target sentence, using the part of speech of the analyzed clause among the dependency analysis results by the dependency analysis means A character string pair extracting means for extracting a noun in the symbol pair and a second character string consisting of a noun continuous before or after the noun,
A dependency string database for storing dictionary-format data;
From the dependency analysis result by the dependency analysis means, a dependency pair having a predetermined part of speech as an independent word of each clause is detected, and from the detected dependency pair, a dependency character string including at least a dependency clause morpheme and Generating a received character string including at least a morpheme of the received clause, the modified character string as a value, and a received character string generating unit that registers the received character string as a key in the received character string database;
A co-relationship presence determination means for determining whether or not there is an end form of a phrase in which the first character string and the second character string are both related;
The co-relationship presence determination means has one key in the dependency character string database in which the character string pair of the first character string and the second character string extracted by the character string pair extraction means is a value. The existence of the co-relationship between the target character string pair is determined based on whether or not it exists,
An information processing apparatus comprising: a first character string and a second character string as synonym pairs when a relationship is present by the relationship relationship determination unit.
文字列対が格納される同義語候補データベースを有し、
前記文字列対抽出手段は、抽出した文字列対を前記同義語候補データベースに格納し、
前記共係り関係存在判定手段は、前記係り受け文字列データベース内に、前記同義語候補データベースから取得される文字列対が値であるレコードがひとつ以上存在するか否かにより対象文字列対の共係り関係の存在を判定することを特徴とする請求項に記載の情報処理装置。
A synonym candidate database in which character string pairs are stored;
The character string pair extraction means stores the extracted character string pair in the synonym candidate database,
The co-relationship presence determination means determines whether the target character string pair is shared depending on whether or not there is one or more records whose values are character string pairs acquired from the synonym candidate database in the dependency character string database. The information processing apparatus according to claim 1 , wherein presence of a relationship is determined.
単語を要素として同義の単語を集めた同義語集合が一以上格納される同義語データベースと、
前記共係り関係存在判定手段により、共係り関係が存在すると判定された文字列対と同義語データベースに格納されたいずれかの同義語集合が所定の条件を満たすか否かを判定する同義語集合判定手段と、
前記同義語集合判定手段で前記所定の条件を満たす場合、前記同義語データベースの該当同義語集合を、該当同義語集合と抽出した文字列対との和集合に置き換える同義語集合合成手段と、
前記同義語集合判定手段で前記所定の条件を満たさない場合、共係り関係が存在する文字列対を新規の同義語集合として前記同義語データベースに追加する同義語集合追加手段とを有し、
前記所定の条件は、共係り関係が存在すると判定された文字列対と前記同義語データベースの同義語集合の積集合が空集合でない場合を真とすること、
を特徴とする請求項に記載の情報処理装置。
A synonym database that stores one or more synonym sets that collect synonymous words using words as elements;
A synonym set for determining whether a synonym set stored in the synonym database and a character string pair determined to have a cooperating relationship satisfies the predetermined condition by the cooperating relationship existence determining unit A determination means;
When the predetermined condition is satisfied by the synonym set determination unit, a synonym set synthesizing unit that replaces the corresponding synonym set in the synonym database with a union of the corresponding synonym set and the extracted character string pair;
If the predetermined condition is not satisfied by the synonym set determination means, the synonym set addition means for adding a character string pair having a cooperating relationship as a new synonym set to the synonym database,
The predetermined condition is true when the intersection of the character string pair determined to have a cooperating relationship and the synonym set of the synonym database is not an empty set;
The information processing apparatus according to claim 2 .
前記同義語候補データベースに追加されてからの保存時間が指定された時間を経過した同義語候補の情報を削除する不要同義語候補削除手段を有することを特徴とする請求項2又は3に記載の情報処理装置。 The unnecessary synonym candidate deletion means for deleting information on synonym candidates whose storage time has elapsed after being specified in the synonym candidate database, according to claim 2 or 3 . Information processing device. 前記係り受け文字列生成手段で生成される文字列対は、係り文節の自立語の品詞が名詞、受け文節の自立語の品詞が動詞であり、前記値となる文字列は、係り文節に対し再帰的に係り受け関係をもつ自立語が名詞の文節の文字列を結合することで構成し、前記キーとなる文字列は受け文節の自立語の終止形であることを特徴とする請求項1から4のいずれか1項に記載の情報処理装置。 The character string pair generated by the dependency character string generation means is such that the part-of-speech of the independent phrase of the dependency clause is a noun, the part-of-speech of the independent word of the dependency clause is a verb, and the character string serving as the value corresponds to the dependency phrase claim 1 independent word with recursive dependency relationship is constituted by combining the string of noun phrase, and wherein the character string to be the keys are independent word termination shaped receiving clauses 5. The information processing apparatus according to any one of items 1 to 4 . インターネット上のウェブページを自動的に収集する自動ページ収集手段と、
前記自動ページ収集手段により収集されたウェブページから前記文を抽出する文抽出手段とを含むことを特徴とする請求項1からのいずれか1項に記載の情報処理装置。
Automatic page collection means for automatically collecting web pages on the Internet;
The information processing apparatus according to any one of claims 1 to 5, characterized in that the web pages collected by the automatic page collection means and a sentence extraction means for extracting the sentence.
情報処理装置が、
文を構成する文節の品詞と、前記文節の係り受けを解析する係り受け解析段階と、
前記文から、開括弧である第一記号と閉括弧である第二記号とからなる記号対を含む文である対象文を検出する対象文検出段階と、
前記係り受け解析手段による係り受け解析結果のうち解析された文節の品詞を用いて、前記対象文における前記第一記号の直前の名詞及び該名詞の前に連続する名詞からなる第一の文字列と前記記号対内の名詞及び該名詞の前又は後に連続する名詞からなる第二の文字列とを抽出する文字列対抽出段階と、
前記係り受け解析段階による係り受け解析結果から、各文節の自立語が所定の品詞を持つ係り受け対を検出し、その検出された係り受け対から、少なくとも係り文節の形態素を含む係り文字列と、少なくとも受け文節の形態素を含む受け文字列とを生成し、前記係り文字列を値とし、前記受け文字列をキーとして係り受け文字列データベースに登録する係り受け文字列生成段階と、
前記第一の文字列と前記第二の文字列がともに係り関係を有する文節の終止形が存在するか否かを判定する共係り関係存在判定段階とを有し、
前記共係り関係存在判定段階では、前記文字列対抽出段階により抽出された前記第一の文字列及び第二の文字列の文字列対が値であるキーが前記係り受け文字列データベース内にひとつ以上存在するか否かにより対象文字列対の共係り関係の存在を判定し、
前記共係り関係存在判定段階で係り関係が存在する場合、第一の文字列と第二の文字列を同義語対とすることを特徴とする同義語対生成方法。
Information processing device
A part of speech of a clause constituting the sentence, a dependency analysis stage for analyzing the dependency of the clause,
A target sentence detection step of detecting a target sentence that is a sentence including a symbol pair consisting of a first symbol that is an open parenthesis and a second symbol that is a close parenthesis from the sentence;
A first character string consisting of a noun immediately before the first symbol and a noun consecutive before the noun in the target sentence, using the part of speech of the analyzed clause among the dependency analysis results by the dependency analysis means A string pair extraction step of extracting a noun in the symbol pair and a second string of nouns consecutive before or after the noun;
From the dependency analysis result of the dependency analysis stage, a dependency pair having a predetermined part of speech as an independent word of each clause is detected, and from the detected dependency pair, a dependency character string including at least a dependency clause morpheme and Generating a received character string including at least a morpheme of the received clause, setting the modified character string as a value, and registering the received character string in a modified character string database using the received character string as a key; and
A co-relationship presence determination step for determining whether or not there is an end form of a phrase in which both the first character string and the second character string are related.
In the co-relationship presence determination step, one key in the dependency character string database is a key whose value is the character string pair of the first character string and the second character string extracted in the character string pair extraction step. The existence of the co-relationship between the target character string pair is determined based on whether or not it exists,
A synonym pair generation method characterized in that, when a relationship exists at the step of determining the presence of a relationship, the first character string and the second character string are used as a synonym pair.
前記文字列対抽出段階では、抽出した文字列対を、文字列対が格納される同義語候補データベースに格納し、
前記共係り関係存在判定段階は、前記係り受け文字列データベース内に、前記同義語候補データベースから取得される文字列対が値であるレコードがひとつ以上存在するか否かにより対象文字列対の共係り関係の存在を判定することを特徴とする請求項に記載の同義語対生成方法。
In the character string pair extraction step, the extracted character string pair is stored in a synonym candidate database in which the character string pair is stored,
The co-relationship existence determination step determines whether the target character string pair is shared depending on whether or not there is one or more records whose values are character string pairs acquired from the synonym candidate database in the dependency character string database. The synonym pair generation method according to claim 7 , wherein presence of a relationship is determined.
情報処理装置が、
前記共係り関係存在判定段階により、共係り関係が存在すると判定された文字列対と単語を要素として同義の単語を集めた同義語集合が一以上格納される同義語データベースに格納されたいずれかの同義語集合が所定の条件を満たすか否かを判定する同義語集合判定段階と、
前記同義語集合判定段階で前記所定の条件を満たす場合、前記同義語データベースの該当同義語集合を、該当同義語集合と抽出した文字列対との和集合に置き換える同義語集合合成段階と、
前記同義語集合判定段階で前記所定の条件を満たさない場合、共係り関係が存在する文字列対を新規の同義語集合として前記同義語データベースに追加する同義語集合追加段階とを有し、
前記所定の条件は、共係り関係が存在すると判定された文字列対と前記同義語データベースの同義語集合の積集合が空集合でない場合を真とすること、
を特徴とする請求項に記載の同義語対生成方法。
Information processing device
Any one of the synonym databases in which one or more synonym sets in which synonyms are collected by using a character string pair and a word determined as having a cooperating relationship by the cooperating relationship existence determining step are stored. A synonym set determination stage for determining whether or not a synonym set of
When the predetermined condition is satisfied in the synonym set determination step, a synonym set synthesis step of replacing the corresponding synonym set in the synonym database with a union of the corresponding synonym set and the extracted character string pair;
If the predetermined condition is not satisfied in the synonym set determination step, a synonym set addition step of adding a character string pair having a cooperating relationship to the synonym database as a new synonym set,
The predetermined condition is true when the intersection of the character string pair determined to have a cooperating relationship and the synonym set of the synonym database is not an empty set;
The synonym pair production | generation method of Claim 8 characterized by these.
情報処理装置が、
前記同義語候補データベースに追加されてからの保存時間が指定された時間を経過した同義語候補の情報を削除する不要同義語候補削除段階を有することを特徴とする請求項8又は9に記載の同義語対生成方法。
Information processing device
The unnecessary synonym candidate deletion step of deleting information on synonym candidates that have passed a specified time after being added to the synonym candidate database, according to claim 8 or 9 . Synonym pair generation method.
前記係り受け文字列生成段階で生成される文字列対は、係り文節の自立語の品詞が名詞、受け文節の自立語の品詞が動詞であり、前記値となる文字列は、係り文節に対し再帰的に係り受け関係をもつ自立語が名詞の文節の文字列を結合することで構成し、前記キーとなる文字列は受け文節の自立語の終止形であることを特徴とする請求項7から10のいずれか1項に記載の同義語対生成方法。 The character string pair generated in the dependency character string generation step is such that the part-of-speech of the independent phrase of the dependency clause is a noun, the part-of-speech of the independent word of the dependency clause is a verb, and the character string serving as the value corresponds to the dependency phrase claim 7 independent word with recursive dependency relationship is constituted by combining the string of noun phrase, and wherein the character string to be the keys are independent word termination shaped receiving clauses synonyms pairing method according to any one of 10. 情報処理装置が、
インターネット上のウェブページを自動的に収集する自動ページ収集段階と、
前記自動ページ収集段階により収集されたウェブページから前記文を抽出する文抽出段階とを含むことを特徴とする請求項7から11のいずれか1項に記載の同義語対生成方法。
Information processing device
An automatic page collection stage that automatically collects web pages on the Internet,
The synonym pair generation method according to claim 7 , further comprising: a sentence extraction step of extracting the sentence from the web page collected by the automatic page collection step.
請求項7から12のいずれか1項に記載の同義語対生成方法をコンピュータに実行させるための同義語対生成プログラム。 Synonyms pair generation program for executing the synonym pair generation method according to the computer in any one of claims 7 to 12. 請求項13に記載の同義語対生成プログラムを記録したコンピュータ読取可能な記録媒体。 A computer-readable recording medium on which the synonym pair generation program according to claim 13 is recorded.
JP2005079588A 2005-03-18 2005-03-18 Information processing apparatus, synonym pair generation method, synonym pair generation program, and recording medium recording synonym pair generation program Expired - Fee Related JP4933741B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005079588A JP4933741B2 (en) 2005-03-18 2005-03-18 Information processing apparatus, synonym pair generation method, synonym pair generation program, and recording medium recording synonym pair generation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005079588A JP4933741B2 (en) 2005-03-18 2005-03-18 Information processing apparatus, synonym pair generation method, synonym pair generation program, and recording medium recording synonym pair generation program

Publications (2)

Publication Number Publication Date
JP2006260402A JP2006260402A (en) 2006-09-28
JP4933741B2 true JP4933741B2 (en) 2012-05-16

Family

ID=37099535

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005079588A Expired - Fee Related JP4933741B2 (en) 2005-03-18 2005-03-18 Information processing apparatus, synonym pair generation method, synonym pair generation program, and recording medium recording synonym pair generation program

Country Status (1)

Country Link
JP (1) JP4933741B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009146397A (en) * 2007-11-19 2009-07-02 Omron Corp Important sentence extraction method, important sentence extraction device, important sentence extraction program, and recording medium

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0652221A (en) * 1992-05-08 1994-02-25 Fujitsu Ltd Proper noun extraction method
JPH0782500B2 (en) * 1992-09-25 1995-09-06 日本電気株式会社 Unregistered word acquisition method
JPH10260974A (en) * 1997-03-17 1998-09-29 Hitachi Ltd Word dictionary creation support method
JP3853974B2 (en) * 1998-05-18 2006-12-06 株式会社リコー Synonym pair extraction device and storage medium

Also Published As

Publication number Publication date
JP2006260402A (en) 2006-09-28

Similar Documents

Publication Publication Date Title
Singh et al. A systematic review of text stemming techniques
CA2390784C (en) A method and system for theme-based word sense ambiguity reduction
US20100332217A1 (en) Method for text improvement via linguistic abstractions
Chaabi et al. Amazigh spell checker using Damerau-Levenshtein algorithm and N-gram
Saloot et al. An architecture for Malay Tweet normalization
CA2793268A1 (en) Method and apparatus for paraphrase acquisition
Dahab et al. A comparative study on Arabic stemmers
Taghi-Zadeh et al. A new hybrid stemming method for Persian language
Mori et al. A machine learning approach to recipe text processing
Gogoi et al. Improving stemming for Assamese information retrieval
US8229970B2 (en) Efficient storage and retrieval of posting lists
Roy et al. An unsupervised normalization algorithm for noisy text: a case study for information retrieval and stance detection
Cosijn et al. Information access in indigenous languages: a case study in Zulu
JP4933741B2 (en) Information processing apparatus, synonym pair generation method, synonym pair generation program, and recording medium recording synonym pair generation program
JP2006139708A (en) Text data similarity calculation method, text data similarity calculation device, and text data similarity calculation program
JP4155970B2 (en) Information processing apparatus, synonym database generation method, and synonym database generation program
Rachidi et al. Arabic user search query correction and expansion
Liang Spell checkers and correctors: A unified treatment
KR100376931B1 (en) A Method of Database System Implementation for Korean-English Translation Using Information Retrieval Techniques
Mallat et al. Proposal of statistical method of semantic indexing for multilingual documents
Pinnis et al. Extracting data from comparable corpora
JP4059501B2 (en) Natural language dictionary update device
Hosoda Hawaiian morphemes: Identification, usage, and application in information retrieval
Islam et al. KULemma: Towards a Comprehensive Bangla Lemmatizer
JP3419748B2 (en) Dictionary creation device and method, and recording medium recording dictionary creation program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080315

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110208

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110407

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111101

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120124

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120217

R150 Certificate of patent or registration of utility model

Ref document number: 4933741

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150224

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees