JP5146979B2 - Ambiguity resolution device and computer program in natural language - Google Patents
Ambiguity resolution device and computer program in natural language Download PDFInfo
- Publication number
- JP5146979B2 JP5146979B2 JP2006154497A JP2006154497A JP5146979B2 JP 5146979 B2 JP5146979 B2 JP 5146979B2 JP 2006154497 A JP2006154497 A JP 2006154497A JP 2006154497 A JP2006154497 A JP 2006154497A JP 5146979 B2 JP5146979 B2 JP 5146979B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- candidate
- meaning
- document
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
この発明は自然言語処理に関し、特に、単語の読み(日本語における仮名表記)、アクロニム(頭字語)のフルスペル、及び二つの言語の間での訳語の対応などに見られるあいまい性を解消するための自然言語処理に関する。 The present invention relates to natural language processing, and more particularly to eliminate ambiguity seen in word reading (kana notation in Japanese), full spelling of acronyms (acronyms), and correspondence between translated words between two languages. Related to natural language processing.
自然言語には、あいまい性が常に付きまとう。例えば同形異音語という問題がある。同形異音語とは、読みが複数ある単語のことである。例えば英語の「bow」という単語には、「bow」(蝶型リボン)と「bow」(船首)という二つの読み方がある。日本語でもこうした例は多い。例えば「大平」という語は、「オオヒラ」とも、「タイヘイ」とも、「オオダイラ」とも読める。 Natural language is always ambiguous. For example, there is a problem of isomorphic allophones. An isomorphic allophone is a word with multiple readings. For example, the word “bow” in English has two readings: “bow” (butterfly ribbon) and “bow” (bow). There are many examples in Japanese. For example, the word “Ohira” can be read as “Ohira”, “Taihei”, and “Odaira”.
こうしたあいまい性は、アクロニムにも存在する。例えば「ACL」というアクロニムは、「The Association for Computational Linguistics」、「Anterior Cruciate Ligament」、及び「Access Control List」のいずれとも解釈できる。同様のあいまい性は、翻訳の際の訳語の決め方等にも見出すことができる。 Such ambiguity also exists in acronyms. For example, an acronym “ACL” can be interpreted as any of “The Association for Computational Linguistics”, “Anterior Cruciate Ligament”, and “Access Control List”. Similar ambiguity can also be found in the way of deciding the translation word for translation.
人間の場合、こうしたあいまい性については、その語が生起した状況などに応じて適宜適切に判断をしたり、いずれかの手段を用いて候補をさがし、その中で状況に応じて最も適していると思われるものを選択したりすることで解決している。しかし、自然言語処理でそのような処理を実現することは困難である。 In the case of humans, such ambiguity is best suited to the situation according to the situation in which the word occurs, as appropriate, or by using one of the means to find candidates. It is solved by selecting what seems to be. However, it is difficult to realize such processing by natural language processing.
このようなあいまい性は、自然言語処理において重大な問題となり得る。例えば、日本語テキストの読上げにおいて、同形異音語に遭遇した場合、適切な発音で読上げを行なうためには、その発音(かな表記)を決定する必要がある。さもないと、不適切な読上げが行なわれてしまう。 Such ambiguity can be a serious problem in natural language processing. For example, in the case of reading a Japanese text, when an isomorphic allophone is encountered, it is necessary to determine the pronunciation (kana notation) in order to read out with proper pronunciation. Otherwise, inappropriate reading will occur.
こうした問題を解決するための提案が非特許文献1でなされている。非特許文献1では、予め、ある単語Wとその対応する意味Siとを記述した学習データを人手で用意し、その学習データを用いて、ある単語Wが与えられたときに意味Siのうちで適切なものを選択する分類器を作成する。
しかし、非特許文献1に開示された方法では、学習データを人手で用意する必要があり、時間と費用とがかさむという問題がある。また、限られた人の手によって学習データが作成されるので、学習データに偏りが生ずる可能性もあるため、信頼性が低いという問題もある。
However, in the method disclosed in
それ故に本発明の目的は、自然言語に伴うあいまい性を、容易に、かつ信頼性高く解決できる、自然言語における多義解消装置を提供することである。 Therefore, an object of the present invention is to provide an ambiguity resolution device in natural language that can easily and reliably resolve the ambiguity associated with natural language.
本発明の第1の局面によれば、自然言語における多義解消装置は、自然言語文からなる入力文において、ある単語と、入力文においてある単語が置かれた文脈と、ある単語の意味を表す可能性のある複数の意味候補を含む意味候補の集合とが与えられると、当該意味候補の集合の中から、文脈においてある単語の意味として最も適切なものを選択する、自然言語における多義解消装置であって、ある単語と、意味候補集合中の意味候補との組合せの各々について、所定のコーパスから、当該組合せを構成する語が共起する文書の集合を収集するための文書収集手段と、文書収集手段によって組合せの各々について収集された文書の集合を学習データとして用い、ある単語と、その単語の文書中の文脈とが与えられると、ある単語の当該文脈中での意味として最適な意味候補を意味候補集合中から選択する分類器を自動的に作成するための分類器作成手段と、入力文において、ある単語が置かれた文脈に基づいて、ある単語の意味として最適なものを、意味候補の集合の中から分類器を用いて選択するための分類実行手段とを含む。 According to the first aspect of the present invention, an ambiguity resolution device in a natural language represents a certain word, a context in which a certain word is placed in the input sentence, and the meaning of a certain word in an input sentence composed of natural language sentences. Given a set of semantic candidates including a plurality of possible semantic candidates, an ambiguity resolution device in natural language that selects the most appropriate meaning of a word in context from the set of semantic candidates A document collection means for collecting a set of documents in which a word constituting the combination co-occurs from a predetermined corpus for each combination of a word and a meaning candidate in the meaning candidate set; Using a set of documents collected for each combination by the document collection means as learning data, given a word and the context of the word in the document, A classifier creating means for automatically creating a classifier that selects an optimal meaning candidate from the semantic candidate set as the meaning of the meaning of the word, and the meaning of the word based on the context in which the word is placed in the input sentence Classification execution means for selecting an optimal one from a set of semantic candidates using a classifier.
入力文中のある単語と、その単語が置かれた文脈と、その単語に意味を表す可能性のある複数の意味候補を含む意味候補の集合が与えられると、その単語と意味候補との組合わせの各々について、文書収集手段が所定のコーパスから当該組合せを構成する単語が共起する文書の集合を収集する。分類器作成手段は、組合せの各々について収集された文書の集合を学習データとして用いて分類器を作成する。この分類器は、ある単語と、その単語の文書中の文脈とが与えられると、ある単語の当該文脈中での意味として最適な意味候補を意味候補集合中から選択する機能を持つ。分類手段は、入力文中の単語と、その単語が置かれた文脈とを、このようにして作成された分類器に与え、その結果に基づいて、入力文中の単語の意味として最適なものを、意味候補の集合の中から選択する。 Given a word in an input sentence, the context in which the word is placed, and a set of semantic candidates that include multiple semantic candidates that might represent the meaning of the word, the combination of the word and the semantic candidate For each of the above, the document collection means collects a set of documents in which words constituting the combination co-occur from a predetermined corpus. The classifier creating means creates a classifier using a set of documents collected for each combination as learning data. This classifier has a function of selecting a semantic candidate most suitable as a meaning of a certain word from the semantic candidate set given a certain word and the context of the word in the document. The classification means gives the word in the input sentence and the context in which the word is placed to the classifier created in this way, and based on the result, the most appropriate meaning of the word in the input sentence, Select from a set of semantic candidates.
すなわち、この装置では、ある単語と、その単語の文脈と、その単語に対応する可能性のある複数の意味候補とが与えられると、文脈から適切と思われる意味候補を自動的に選択できる。この作業には人手を介在させる必要はない。従って、容易に適切な意味候補を選択し、入力された単語の多義性を解消できる多義解消装置を提供できる。 That is, in this apparatus, given a certain word, the context of the word, and a plurality of semantic candidates that may correspond to the word, it is possible to automatically select a semantic candidate that seems appropriate from the context. This operation does not require manual intervention. Therefore, it is possible to provide an ambiguity resolution device that can easily select an appropriate meaning candidate and eliminate the ambiguity of an input word.
好ましくは、分類器作成手段は、文書収集手段によって組合せの各々について収集された文書の集合のうち、集合に含まれる文書の数が多いものを所定の基準に従って選択し、それら文書の集合に対応する意味候補のみを意味候補の集合の要素として選択する処理を行なうための意味候補選択手段と、意味候補選択手段により選択された文書集合を学習データとして用い、ある単語と、その単語の文書中の文脈とが与えられると、ある単語の当該文脈中での意味として最適な意味候補を、意味候補集合中から選択する分類器を機械学習により自動的に作成するための機械学習手段とを含む。 Preferably, the classifier creating unit selects a document set collected by the document collecting unit for each of the combinations according to a predetermined criterion, and selects a document having a large number of documents included in the set, and corresponds to the set of documents. Semantic candidate selection means for performing processing for selecting only the meaning candidates to be selected as elements of the semantic candidate set, and using the document set selected by the semantic candidate selection means as learning data, a word and a document in the word And a machine learning means for automatically creating a classifier for selecting a semantic candidate most suitable as the meaning of a certain word from the semantic candidate set by machine learning. .
収集された文書集合のうち、集合に含まれる文書の数が少ないものは意味候補選択手段により棄却される。集合に含まれる文書の数が少ないということは、その単語と、その集合に対応する意味候補とが共起する可能性が他と比較して少ないということである。従って、与えられた文脈におけるある単語の意味として不適切なものを排除できる。その結果、分類の信頼性を高めることができる。 Among the collected document sets, those with a small number of documents included in the set are rejected by the semantic candidate selection means. The fact that the number of documents included in the set is small means that the possibility that the word and the semantic candidate corresponding to the set co-occur is smaller than others. Therefore, it is possible to exclude inappropriate words as meanings of a word in a given context. As a result, the reliability of classification can be improved.
さらに好ましくは、機械学習手段は、文書集合選択手段により選択された文書集合に含まれる文書の各々に対し、当該文書中におけるある単語の位置の前後の所定範囲に存在する単語列から、当該文書中におけるある単語の文脈の特徴量を表す、所定の構成の学習用の特徴量ベクトルを算出するための特徴量ベクトル算出手段と、文書集合選択手段により選択された文書集合に含まれる文書の各々に対して特徴量ベクトル算出手段により算出された学習用の特徴量ベクトルと、当該文書の検索時に使用された意味候補とを組にして学習用データを作成し、当該学習用データを用いた機械学習により、学習用の特徴量ベクトルと同じ構成の分類用の特徴量ベクトルが与えられると、当該分類用の特徴量ベクトルに対応する文脈中におけるある単語の意味として最適なものを、意味候補集合中から選択する所定の分類器を自動的に作成するための手段とを含む。 More preferably, for each of the documents included in the document set selected by the document set selection unit, the machine learning unit calculates the document from a word string existing in a predetermined range before and after a certain word position in the document. Each of the documents included in the document set selected by the document set selection means and the feature quantity vector calculation means for calculating the feature quantity vector for learning having a predetermined configuration representing the context feature quantity of a certain word The learning feature data calculated by the feature value vector calculating means and the semantic candidates used at the time of searching the document are created as learning data, and the machine using the learning data is used. When learning provides a feature vector for classification having the same configuration as the feature vector for learning, a single unit in the context corresponding to the feature vector for classification is provided. The optimum as meaning, and means for automatically generating a predetermined classifier selected from means candidate set in.
単語の文脈を、その単語の前後の所定範囲に存在する単語列から作成した学習用の特徴量ベクトルにより表す。こうした学習用の特徴量ベクトルを用いた機械学習により分類器を自動的に作成できる。その結果、適切な意味候補を人手を介在させることなく自動的に選択し、入力された単語の多義性を解消できる多義解消装置を提供できる。 The context of a word is represented by a learning feature value vector created from a word string existing in a predetermined range before and after the word. A classifier can be automatically created by machine learning using such learning feature vectors. As a result, it is possible to provide an ambiguity resolution device that can automatically select an appropriate meaning candidate without human intervention and eliminate the ambiguity of an input word.
より好ましくは、意味候補選択手段は、文書収集手段によって組合せの各々について収集された文書の集合のうち、集合に含まれる文書の数が多い所定の個数の集合を選択し、それら文書の集合に対応する意味候補のみを意味候補として選択する処理を行なうための手段を含む。 More preferably, the semantic candidate selection unit selects a predetermined number of sets having a large number of documents included in the set from the set of documents collected for each combination by the document collection unit, and sets the set of documents as the set of documents. Means for selecting only the corresponding semantic candidate as the semantic candidate is included.
入力された単語と、ある意味候補との組合せに対して収集された文書の集合に含まれる文書の数が多いということは、その組合せを構成する単語が共起する可能性が高いということである。従ってそうした意味候補は入力された単語に対する適切な意味候補である可能性が高い。また、この時点で意味候補の上限個数が設定されるので、以後の処理を安定した時間で完了できる。その結果、適切な意味候補を、人手を介在させることなく自動的に、信頼性高く、安定した時間で選択し、入力された単語の多義性を解消できる多義解消装置を提供できる。 A large number of documents included in a set of documents collected for a combination of an input word and a semantic candidate means that there is a high possibility that the words constituting the combination will co-occur. is there. Therefore, there is a high possibility that such semantic candidates are appropriate semantic candidates for the input word. Further, since the upper limit number of semantic candidates is set at this time, the subsequent processing can be completed in a stable time. As a result, it is possible to provide an ambiguity resolution device that can automatically select a proper meaning candidate with high reliability and stable time without manual intervention, and eliminate the ambiguity of the input word.
意味候補選択手段は、文書収集手段によって組合せの各々について収集された文書の集合のうち、集合に含まれる文書の数が予め定められるしきい値より大きな集合を選択し、それら文書の集合に対応する意味候補のみを意味候補として選択する処理を行なうための手段を含んでもよい。 The semantic candidate selection unit selects a set in which the number of documents included in the set is larger than a predetermined threshold from the set of documents collected for each combination by the document collection unit, and corresponds to the set of documents. Means for performing processing for selecting only meaning candidates to be selected as meaning candidates may be included.
入力された単語と、ある意味候補との組合せに対して収集された文書の集合に含まれる文書の数があるしきい値より多いということは、その組合せを構成する単語が共起する可能性が高いということである。従ってそうした意味候補は入力された単語に対する適切な意味候補である可能性が高い。その結果、適切な意味候補を、人手を介在させることなく自動的に、かつ信頼性高く選択し、入力された単語の多義性を解消できる多義解消装置を提供できる。 If the number of documents included in a set of documents collected for a combination of an input word and a semantic candidate is greater than a certain threshold value, the word constituting the combination may co-occur. Is high. Therefore, there is a high possibility that such semantic candidates are appropriate semantic candidates for the input word. As a result, it is possible to provide an ambiguity resolution device capable of automatically and reliably selecting an appropriate meaning candidate without human intervention and eliminating the ambiguity of an input word.
文書収集手段は、ある単語と、意味候補集合中の意味候補との組合せの各々について、インターネット上に存在するウェブページからなる仮想的コーパスから、当該組合せを構成する語が共起するウェブページの集合を検索し収集するための検索手段を含む。 For each combination of a word and a meaning candidate in a meaning candidate set, the document collection means uses a virtual corpus consisting of a web page existing on the Internet to generate a web page in which the words constituting the combination co-occur. Includes search means for searching and collecting sets.
インターネット上のウェブページは、多数の人間により作成され維持されている。従ってそこで使用されている単語の用法は非常に数多い使用例をカバーしている。そのため、そうした文書をもとに分類器を作成すると、分類結果の偏りをなくし、信頼性を高めることができる。 Web pages on the Internet are created and maintained by many people. Therefore, the word usage used there covers a very large number of use cases. Therefore, if a classifier is created based on such a document, the bias of the classification result can be eliminated and the reliability can be improved.
好ましくは、収集するための手段は、ある単語と、意味候補集合中の意味候補との組合せの各々について、インターネット上に存在するウェブページからなる仮想的コーパスから、当該組合せを構成する語が共起するウェブページの集合を検索し、所定の定数を上限とした要素数の集合として収集するための手段を含む。 Preferably, the means for collecting includes, for each combination of a word and a meaning candidate in the meaning candidate set, a word constituting the combination from a virtual corpus including web pages existing on the Internet. Means for searching for a set of web pages to occur and collecting them as a set of elements up to a predetermined constant.
一つの集合について収集されるウェブページの個数に上限が設けられる。そのため、分類器の学習が過大な負荷となるおそれは小さい。その結果、適切な意味候補を、人手を介在させることなく自動的に、かつ信頼性高く安定して選択し、入力された単語の多義性を解消できる多義解消装置を提供できる。 There is an upper limit on the number of web pages collected for a set. Therefore, there is little possibility that the learning of the classifier becomes an excessive load. As a result, it is possible to provide an ambiguity resolution device that can automatically and reliably select an appropriate meaning candidate without human intervention and eliminate the ambiguity of an input word.
本発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを、上記したいずれかの自然言語における多義解消装置として機能させるものである。 The computer program according to the second aspect of the present invention, when executed by a computer, causes the computer to function as an ambiguity resolution device in any of the natural languages described above.
以下、本発明の実施の形態について図を参照して説明する。実施の形態は三つある。第1の実施の形態は、日本語の入力文に対する音声合成において、複数の仮名表記(読み)を持つ語の仮名表記を決定する装置に関する。第2の実施の形態は、英語のアクロニムに対し、英語の定義(フルスペル)を与える装置に関する。第3の実施の形態は、日本語から英語への翻訳において、日本語の単語に対し複数の英語の訳語が存在するときに、そのうちの一つを選択する装置に関する。すなわち、本発明において、ある単語の「意味」とは、日本語の場合に国語辞書にのっているような「意味」だけでなく、ある基準で見てその単語と等価であると評価できるような単語又は単語の集合又は文字列のことをいう。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. There are three embodiments. The first embodiment relates to an apparatus for determining kana notation of a word having a plurality of kana notations (readings) in speech synthesis for Japanese input sentences. The second embodiment relates to an apparatus for giving an English definition (full spelling) to an English acronym. The third embodiment relates to an apparatus for selecting one of a plurality of English translations for a Japanese word in translation from Japanese to English. That is, in the present invention, the “meaning” of a word can be evaluated not only as “meaning” in the Japanese language dictionary in the case of Japanese, but also as equivalent to the word as seen from a certain standard. Such a word or a set of words or a character string.
なお、以下の実施の形態の説明に用いる図面において、同一の部品には同一の参照符号を付してある。それらの名称及び機能も同一である。従って、それらについての詳細な説明は繰返さない。なお、後述するように、各実施の形態は、コンピュータハードウェアと、その上で実行されるコンピュータプログラムとにより実現可能である。従って、以下に示すブロック図中の機能ブロックの一部については、それを実現するためのコンピュータプログラムのフローチャート形式でその機能及び構成を示す。 In the drawings used for the description of the following embodiments, the same reference numerals are assigned to the same components. Their names and functions are also the same. Therefore, detailed description thereof will not be repeated. As will be described later, each embodiment can be realized by computer hardware and a computer program executed on the computer hardware. Therefore, about a part of functional block in the block diagram shown below, the function and structure are shown in the flowchart format of the computer program for implement | achieving it.
<第1の実施の形態>
[構成]
図1に、本発明の第1の実施の形態に係る音声合成システム30のブロック図を示す。図1を参照して、音声合成システム30は、音声合成の対象となる日本語の入力文を記憶するための入力文記憶部40と、入力文記憶部40から所定長を順次取出して記憶するための入力文バッファ42と、日本語の単語と、その仮名表記とを対応付けて記憶した複数の辞書からなる辞書群46と、入力文バッファ42に含まれる文を形態素解析して、漢字を含む単語があれば辞書群46を参照して仮名表記を検索し、仮名表記等の情報が付された形態素列を出力するための仮名変換部44とを含む。
<First Embodiment>
[Constitution]
FIG. 1 shows a block diagram of a
既に述べたように、漢字を含む単語の中には、複数の仮名表記を持つものがあり得る。音声合成のためには、それら複数の仮名表記の中で適切なものを選択する必要がある。音声合成システム30は、そのために、仮名変換部44及びいわゆるインターネット52に接続され、仮名変換部44がある単語Wについて複数の仮名表記候補Rk(k=1〜K:Kは仮名表記候補の数)が存在することを検出したことに応答して、インターネット52上でその単語Wと仮名表記候補Rkとが共起するウェブページを、単語Wと仮名表記候補Rkの組合わせの各々について検索し、得られたウェブページのテキストを学習データとした機械学習による分類によって、単語Wにふさわしい仮名表記を決定して仮名変換部44に与えるための同形異音語解消処理部50とを含む。すなわち、このシステムでは、インターネット52上のウェブページの集合を、一つの仮想的なコーパスと見なして用例文書を収集している。
As already mentioned, some words including kanji may have a plurality of kana notations. For speech synthesis, it is necessary to select an appropriate one of the plural kana notations. For this purpose, the
音声合成システム30はさらに、仮名変換部44が出力する、仮名表記付入力文を記憶するための仮名表記入力文記憶部54と、音声合成のための、仮名表記に対応する音声を格納した音声データベース48と、仮名表記入力文記憶部54から仮名表記付入力文を読出し、音声データベース48を参照して音声合成を行ない、アナログ音声信号を出力するための音声合成部56と、音声合成部56から出力されるアナログ音声信号を音声に変換するスピーカ58とを含む。
The
本実施の形態では、同形異音語解消処理部50がインターネット52から検索するウェブページのテキストのうち、「スニペット」と呼ばれる部分を機械学習に用いる。「スニペット」とは、インターネットのいわゆる検索エンジンによる検索結果において、検索されたウェブページの内容を説明するための短文のことをいう。多くの場合、スニペットは、検索のキーワードとされた単語を含む部分のテキストからなる。なお、同形異音語解消処理部50によるウェブページの検索には、独自の検索プログラムを用いてもよいが、本実施の形態では、既存の検索サービスサイトを利用し、単語Wと仮名表記候補RkとについてのAND検索をするクエリを検索サービスサイトに対して発行し、その結果を得ることで行なっている。なお、本実施の形態では、処理時間を安定させるため、検索件数の上限として、一回の検索について1000件という基準を設けている。
In the present embodiment, a part called “snippet” is used for machine learning in the text of the web page searched by the homomorphic abnormal word
音声合成部56による音声合成の部分は、本発明とは直接には関係しないため、その詳細についての説明はここでは行なわない。
The portion of speech synthesis performed by the
図2に、同形異音語解消処理部50の詳細なブロック図を示す。図2を参照して、同形異音語解消処理部50は、単語Wが与えられると、入力文バッファ42に記憶された入力文のうち、単語Wを中心とする所定長の窓に含まれる単語に基づいて行なう学習により、単語Wに関する所定の特徴ベクトルが与えられればその単語Wに対応する適切な仮名表記を出力するように学習可能な決定木82と、仮名変換部44から単語Wとその仮名表記候補Rkとの組合せ(W,Rk)を受け、それらが共起するウェブページのスニペットをインターネット52から収集し、その結果を用いて決定木82の学習を行なうための決定木作成部80と、仮名変換部44に接続され、仮名変換部44から、組合せ(W,Rk)中の単語Wと、入力文中における単語Wを中心とする所定範囲の単語列85とが与えられると、それらから決定木82による分類に適合した分類用特徴ベクトルを作成し、出力するための分類用特徴ベクトル作成部84と、分類用特徴ベクトル作成部84から出力される分類用特徴ベクトルを決定木82に与え、その結果として決定木82から得られる、分類結果である仮名表記を仮名変換部44に与えるための分類実行部86とを含む。
FIG. 2 shows a detailed block diagram of the homomorphic abnormal word
決定木作成部80は、単語Wとその仮名表記Rkとの組合せ(W,Rk)が与えられると、インターネット52上でそれらが共起するウェブページを検索するための検索部100と、検索部100により検索されたウェブページのスニペットの集合(以下単に「ウェブページの集合」と呼ぶ。)を組合せ(W,Rk)ごとに記憶するための検索結果記憶部102と、組合せ(W,Rk)のうちで、取得されたウェブページの件数の降順にウェブページの集合をソートし、件数が上位であるN件(Nは自然数)のみを選択することにより、決定木82のための学習データを作成するためのソート及び選択部104とを含む。本実施の形態では、このソート及び選択部104により選択された(W,Rk)に含まれるN個の仮名表記候補Rkが、仮名表記候補として残され、後の決定木の学習に用いられる。
When a combination (W, Rk) of the word W and its kana notation Rk is given, the decision
この処理では、他の文書集合は棄却され、それら文書集合の検索に用いられた仮名表記候補も棄却される。これは、単語Wと共起する頻度の低い仮名表記候補は候補として不適であると一般的に考えられるためである。もっとも、応用によってはそのように低頻度の仮名表記候補であっても棄却しない方がよい場合もあり得る。 In this process, other document sets are rejected, and kana notation candidates used for searching these document sets are also rejected. This is because a kana notation candidate with a low frequency of co-occurring with the word W is generally considered to be inappropriate as a candidate. However, depending on the application, it may be better not to reject even such a low frequency kana notation candidate.
決定木作成部80はさらに、ソート及び選択部104により作成された学習データを記憶するための学習データ記憶部106と、検索対象となっている単語Wについて、学習データ記憶部106に記憶されている、その単語Wに関して検索された仮名表記候補Rkのウェブページの各々から、所定の学習用特徴ベクトルを作成するための学習用特徴ベクトル作成部108と、学習用特徴ベクトル作成部108の作成した特徴ベクトルを記憶するための特徴ベクトル記憶部110と、特徴ベクトル記憶部110に記憶された特徴ベクトルを用いて決定木82を学習させるための決定木学習部112とを含む。
The decision
図3は、図2に示す検索部100を実現するためのコンピュータプログラムのフローチャートである。図3を参照して、このプログラムは、ある単語Wについての仮名表記の候補Rk(k=1〜K)の各々について繰返されるステップ130〜134の3つのステップを含む。
FIG. 3 is a flowchart of a computer program for realizing the
ステップ130では、クエリ「単語W and 単語Rk」でウェブページを上限件数MAX=1000件で検索する要求をインターネット上の検索エンジンに送信する。
In
ステップ132では、その検索結果として、単語Wと仮名表記候補Rk(k=1〜N)とを含むスニペットの集合{Sn(W,Rk)}(n=1〜Lk,k=1〜K)を取得する。ただしここでLkは単語Wと仮名表記候補Rkとの組合せに対して得られた検索結果の数である。
In
ステップ134では、各集合Snから仮名表記候補Rkを削除することで、検索結果のスニペットの集合{(Tn(W),Rk)|n=1〜Lk}を作成する。
In
以上の3つのステップは、単語Wに対する仮名表記候補Rkの全てに対して繰返される。 The above three steps are repeated for all the kana notation candidates Rk for the word W.
図2に示す検索部100の機能はこのようなプログラムで実現される。
The function of the
なお、ソート及び選択部104によって、検索件数が上位N個のスニペットの集合{(Tn(W),Rk)|n=1〜Lk}が抽出され、学習データ記憶部106に学習データとして記憶されるものとする。
The sort and
図4に、図2に示す学習用特徴ベクトル作成部108の構成をブロック図形式で示す。図4を参照して、学習用特徴ベクトル作成部108は、学習データ記憶部106に記憶された学習データのスニペットの集合{(Tn(W),Rk)|n=1〜Lk}に含まれる各スニペットから、そのスニペット中に存在する単語Wをはさんで前後それぞれM個(合計2M個)の単語群(これら合計2M個の単語群を「窓」と呼ぶ。」)を抽出するための抽出部150と、学習データ記憶部106に記憶された学習データ106に出現する、単語W以外の語彙によって、決定木82(図2参照)の学習に用いる分類用特徴ベクトルの構成を決定するためのベクトル構成決定部152と、ベクトル構成決定部152により決定された特徴ベクトルの構成に従い、抽出部150によりスニペットごとに抽出された単語群に基づいて各スニペットの特徴ベクトルの要素を算出して、各スニペットの特徴ベクトルを作成し、特徴ベクトル記憶部110に記憶させるための要素算出部154とを含む。
FIG. 4 shows the configuration of the learning feature
図5に、単語Wを中心とする「窓」の構成を模式的に示す。図5を参照して、学習用のスニペット170の単語列のうち、単語Wを中心としてその前後に存在する単語列を、単語Wを含めて、「W−m,W−(m−1),W−(m−2),…,W−2,W−1,W、W1,W2,…,Wm−2,Wm−1,Wm」と書くことができる。単語Wを中心とし、その前のm個の単語からなる単語列174と、単語Wより後のm個の単語からなる単語列176とを含む単語列により、窓長2mの窓172が構成される。本実施の形態では、窓長を2Mとする。
FIG. 5 schematically shows the configuration of the “window” centered on the word W. Referring to FIG. 5, among word strings of learning
ベクトル構成決定部152は、次のようにして特徴ベクトルの構成を決定する。すなわち、ベクトル構成決定部152は、学習データ記憶部106に存在する学習データ内に出現する単語の頻度を各単語について算出する。ベクトル構成決定部152はさらに、頻度が上位であるH個の単語のみを選択する。ベクトル構成決定部152はさらに、特徴ベクトルの次元をH次元とし、1番目〜H番目の要素を、それぞれ頻度が1位〜H位の単語に対応付ける。これにより特徴ベクトルの構成が決定される。この特徴ベクトルの要素数はH個である。各要素は0又は1の値をとる。各要素は、その要素に対応する単語がスニペット中の単語Wを中心とする窓長2Mの窓内に出現すると1の値となり、出現しないと0の値となる。
The vector
従って、ある学習用のスニペットTiについて要素算出部154が行なう処理は次のような処理である。すなわち、要素算出部154は、このスニペットTiに対応するH次元の特徴ベクトルの各要素について、対応する単語がスニペットTi中の、単語Wを中心とする窓長2Mの窓の中に出現するか否かを調べる。その要素の値は、その単語が出現すれば1、出現しなければ0となる。この処理をH個の要素の全てについて行なうことにより、スニペットTiの特徴ベクトルViが算出される。この特徴ベクトルViと、その特徴ベクトルが得られた組合せ(W,Rk)の仮名表記候補Rkとを互いに関連付けて(特徴ベクトルに対する正解が仮名表記候補Rkであるとして)決定木82の学習に用いる。
Therefore, the process performed by the
図2に示す分類用特徴ベクトル作成部84が行なう分類用の特徴ベクトルの作成も、基本的にはこれと同様である。すなわち、分類用特徴ベクトル作成部84は、学習用特徴ベクトル作成部108のベクトル構成決定部152(図4参照)から、特徴ベクトルの各要素に対応する単語に関する情報を受け、処理対象となる単語Wについて、その単語Wを中心とする窓長2Mの窓内に所定の単語が出現するか否かによって、単語Wに対する分類用の特徴ベクトルを作成する。すなわち、この特徴ベクトルは、学習用特徴ベクトル作成部108によって作成される特徴ベクトルと全く同じ構成となる。
The creation of classification feature vectors performed by the classification feature
決定木学習部112は、機械学習によって決定木82の学習を行なう。この学習方式については機械学習の分野で慣用されている事項であるので、ここではその詳細な説明は行なわない。
The decision
図6に、本実施の形態に係る要素算出部154により作成される決定木の一例である、「佐原」という単語に関する決定木200を示す。図6を参照して、この決定木は、4つの中間のノード210,212,214及び216と、5つの終端のノード230,232,234,236及び238を含み、各ノード210,212,214及び216では、それぞれ窓内の単語が特定の条件を満たすか否かという質問がなされる。
FIG. 6 shows a
ノード210の質問は、単語「佐原」を中心とする窓長2Mの窓内に、キーワード「千葉県」があるか、というものである。もしあればノード230に進み、「佐原」に対応する仮名表記として「さわら」が選択される。もしなければノード212に進む。なお、図6においては、「千葉県」のような具体的な単語について、窓内にあるか否かを聞いているが、実際の処理では、単語「佐原」の特徴ベクトル内において、単語「千葉県」に対応する要素(ビット)の値が1か0かを調べることによってこの判定を行なっている。
The question of
ノード212の質問は、キーワード「神奈川県」があるか、というものである。もしあればノード232に進み、「佐原」に対応する仮名表記として「さはら」が選択される。もしなければノード214に進む。
The question at
ノード214の質問は、キーワード「成田」があるか、というものである。もしあればノード234に進み、「佐原」に対応する読みとして「さわら」234が選択される。もしなければノード216に進む。
The question of
ノード216の質問は、キーワード「横須賀」があるか、というものである。もしあればノード236に進み、「佐原」に対応する仮名表記として「さはら」が選択される。もしなければノード238に進み、「佐原」に対応する仮名表記として「さわら」が選択される。
The question at
本実施の形態では、基本的に各単語に対し、決定木200が作成される。ある単語に対応する特徴ベクトルが与えられると、その単語に対応する決定木を特徴ベクトルの各要素の値に従ってたどることにより、その単語の仮名表記が選択される。
In the present embodiment, a
[動作]
図1〜図6を参照して、上記した音声合成システム30は以下のように動作する。図1に示す入力文記憶部40には、音声合成の対象となる日本語の文が予め記憶される。そのうちの所定長部分が読出され、入力文バッファ42に記憶される。
[Operation]
1 to 6, the above-described
仮名変換部44は、入力文バッファ42に記憶された文について辞書群46を参照して形態素解析を行なう。その結果、各単語の品詞、仮名表記(漢字の場合)、活用型、活用形などが決定される。もしも一つの単語について複数の仮名表記が得られた場合(すなわち同形異音語が存在する場合)、仮名変換部44は、その単語(単語Wとする。)と、仮名表記の組合せをそれぞれ同形異音語解消処理部50に与える。以下の説明では、構成のときに使用した表記を用いる。すなわち、ある単語Wに対して得られたK個の仮名表記候補を仮名表記候補R1〜RKとする。
The
図2を参照して、検索部100は、単語Wと、仮名表記候補Rk(k=1〜K)との組合せ(W,Rk)が与えられると、(単語W and 単語Rk)をクエリとしてインターネット52上の検索エンジンに検索件数上限=1000件という条件で検索要求を送信する(図3のステップ130)。そして、この検索要求に応答して検索エンジンから得られたウェブページのスニペットの集合{Sn(W,Rk)}(n=1〜Lk)を取得する(図3のステップ132)。ここでLkはクエリ(単語W and 単語Rk)に対して得られた検索結果(ウェブページ)の数である。このスニペットの集合の各々から単語Rkを削除して得られた検索結果のスニペットの集合が検索結果記憶部102に記憶される(図3のステップ134)。これらスニペットの集合は、(単語W,仮名表記候補Rk)の組合せごとに得られる。スニペットの集合の各々の要素の数Lkの上限MAXは、本実施の形態では、上記したように1000である。
Referring to FIG. 2, when a combination (W, Rk) of word W and kana notation candidate Rk (k = 1 to K) is given,
検索部100は、単語Wと仮名表記候補Rkとの組合せの各々に対し、上記した処理を実行する。すなわち、図3におけるステップ130〜134の処理を各組合せに対し実行する。その結果、検索結果記憶部102には、これら組合せの各々について、検索結果のスニペットの集合{Sn(W,Rk)}が記憶される。
The
ソート及び選択部104は、検索結果記憶部102に記憶されたスニペットの集合{Sn(W,Rk)}を、その要素の数Lkをキーに降順にソートする。ソート及び選択部104はさらに、ソート結果のうち、上位N個のスニペットの集合{(Tn(W),Rk)|n=1〜Lk}を選択して、それらスニペットが得られた仮名表記要素Rkと関連付けて学習データ記憶部106に学習データとして記憶させる。すなわち学習データ記憶部106には、スニペットの集合のうち、検索結果の多かったものから順番にN個が記憶される。
The sort and
図4を参照して、学習用特徴ベクトル作成部108のベクトル構成決定部152は、学習データ記憶部106に学習データが記憶されると、これら学習データに出現する単語の頻度を各単語について算出する。ベクトル構成決定部152はさらに、出現頻度が上位H番目までの単語を選択する。特徴ベクトルの1番目〜H番目の要素を出現頻度1位〜H位の単語に対応付けることにより、特徴ベクトルの構成が決定される。ベクトル構成決定部152は、この特徴ベクトルの構成(すなわち特徴ベクトルの各要素に対応する単語に関する情報)を図2に示す分類用特徴ベクトル作成部84及び図4に示す要素算出部154に与える。
Referring to FIG. 4, when learning data is stored in learning
一方、抽出部150は、学習データ記憶部106に記憶されている各スニペットについて、単語Wを中心とする窓長2Mの窓を抽出して要素算出部154に与える。
On the other hand, for each snippet stored in the learning
要素算出部154は、ベクトル構成決定部152から与えられるベクトル構成に従い、抽出部150から与えられる窓に含まれる単語に基づいて、各スニペットの特徴ベクトルの各要素の値を算出する。その結果、各スニペットの特徴ベクトルが得られる。要素算出部154は、各スニペットを、そのスニペットが検索されたときの仮名表記候補Rkと関連付けて特徴ベクトル記憶部110に学習用データとして記憶させる。
The
図2を参照して、決定木学習部112は、特徴ベクトル記憶部110に記憶された特徴ベクトルと、それら特徴ベクトルに関連付けられた仮名表記候補とを用いた機械学習により、決定木82の学習を行なう。
Referring to FIG. 2, the decision
以上の処理によって、決定木82は、ある単語Wを中心とする窓長2Mの窓中の単語列、すなわち単語Wの文脈、を表す特徴ベクトルが与えられると、その文脈における単語Wの仮名表記として最適なものを出力するように機能するようになる。
With the above processing, when the
一方、仮名変換部44は、分類用特徴ベクトル作成部84に対し、同形異音語の解消を要求する単語Wと、入力文において単語Wを中心とする窓長2Mの窓に含まれる単語列85とを与える。分類用特徴ベクトル作成部84は、単語Wについて、仮名変換部44より与えられた、入力文中のその単語Wを中心とする窓長2Mの窓に含まれる単語列85と、図4に示すベクトル構成決定部152から与えられたベクトル構成とによって、要素算出部154と同様の処理により単語Wの特徴ベクトルを作成し、分類実行部86に与える。
On the other hand, the
分類実行部86は、この特徴ベクトルを決定木82に与える。決定木82は、単語Wを中心とする窓長Mから上記方法によって作成した特徴ベクトルが与えられると、単語Wの仮名表記として適切なものを出力するように学習済みである。分類実行部86は、この仮名表記を決定木82から得て、仮名変換部44に与える。
The
仮名変換部44は、このようにして同形異音語解消処理部50から得られた仮名表記を、問題となった単語Wに形態素分析の結果と同様にして付加する。仮名変換部44はさらに、形態素解析が終わり、品詞、仮名表記(漢字の場合)、活用型、活用形などの情報が付された形態素列を音声合成部56に与える。この場合、同形異音語については既に同形異音語解消処理部50により解消されているため、一つの単語には一つの仮名表記しか付されていない。
The
音声合成部56は、与えられた形態素列に基づき、形態素に付された仮名表記などを用いて音声データベース48から適切な音声波形を抽出し、波形接続処理によって合成音声波形データを作成し、さらにこの合成音声波形データをアナログ変換してスピーカ58に与える。スピーカ58はこの音声信号を音声に変換する。
The
以上のように音声合成システム30によれば、入力文記憶部40に記憶された入力文に同形異音語が含まれていても、同形異音語解消処理部50によって同形異音語が解消され、一つの仮名表記のみがその単語に割当てられる。インターネット52上のウェブページをいわば仮想的なコーパスとして用い、自動的にこの同形異音語の解消のための決定木の学習が行なわれる。人手で学習データを作成する必要がなく、同形異音語の解消のための手間を従来と比較してはるかに少なくできる。さらに、インターネット52上で検索されるウェブページは多数の人により作成されたものであるため、少数の人が学習データを作成する場合と比較して、学習データの偏りが少なく、そのカバーする範囲も広くなる。従って、同形異音語の解消の信頼性が従来より高くなるという効果がある。
As described above, according to the
[コンピュータによる実現]
上記した第1の実施の形態に係る音声合成システム30は、既に述べたようにコンピュータハードウエア及び当該コンピュータハードウエア上で実行されるコンピュータソフトウエアにより実現される。図7に音声合成システム30を実現するための一般的なコンピュータシステム250の外観を示し、図8にこのコンピュータシステム250の内部構成をブロック図形式で示す。
[Realization by computer]
The
図7を参照して、コンピュータシステム250は、コンピュータ260と、いずれもコンピュータ260に接続されるモニタ262、キーボード266、マウス268、マイクロホン290及び一対のスピーカ58とを含む。コンピュータ260には、DVD(Digital Versatile Disc)の再生及び記録が可能なDVDドライブ270と、所定の規格に従った半導体メモリ記憶装置が装着可能なメモリポート272とが備えられている。コンピュータ260の内部構成については図8を参照して後述する。
Referring to FIG. 7, a
図8を参照して、コンピュータ260は、図7に示すDVDドライブ270及びメモリポート272に加え、CPU(中央演算処理装置)276と、CPU276に接続されたバス286と、いずれもバス286に接続されたROM(読出専用メモリ)278、RAM(ランダムアクセスメモリ)280、ハードディスク274、ネットワークインタフェース296、及びサウンドボード288を含む。
Referring to FIG. 8, in addition to DVD drive 270 and
DVDドライブ270には、DVD282が装着される。メモリポート272には半導体メモリ記憶装置284が装着される。CPU276は、バス286並びにDVDドライブ270及びメモリポート272をそれぞれ介して、DVD282及びメモリ284をアクセスできる。
A
キーボード266、マウス268、モニタ262はいずれも図示しないインタフェースを介してコンピュータ260のバス286に接続される。スピーカ58及びマイクロホン290は、サウンドボード288に接続される。このコンピュータシステム250において、CPU276で実行される音声合成プログラムは、最終的にはデジタル形式の音声波形データを生成する。サウンドボード288はその音声波形データをCPU276から受取ると、アナログ信号に変換してスピーカ58を介して音声を発生させる処理をする。
The
上記実施の形態における入力文記憶部40、辞書群46、仮名表記入力文記憶部54、音声データベース48、検索結果記憶部102、学習データ記憶部106、特徴ベクトル記憶部110等は、RAM280、ハードディスク274、DVDディスク282、半導体メモリ記憶装置284のいずれでも実現できる。実際には、格納するデータの容量、読出し、書込みに要求される速度などによって、最も効率のよい記憶装置が各記憶部を実現するために選択される。
The input
上記した第1の実施の形態に係る音声合成システム30を実現するためのコンピュータプログラムは、単一のプログラムでもよいし、複数のプログラムを組合せたものでもよい。特に、上記した各部の機能のうち、図1に示す仮名変換部44において行なわれる形態素解析処理、音声合成部56において行なわれる音声合成処理、図2に示す検索部100が実行するスニペットの検索処理、ソート及び選択部104が実行するソート及び選択処理、決定木学習部112が実行する決定木82の学習処理などについては、既に広く流布しているプログラムをそのまま使用できる。もちろん、これらプログラムは汎用に作成されているため、適切な調整を行なうことは要求されるが、それらはこの技術分野における通常の知識を持つ者にとっては、目的に照らして容易に実現できる範囲に留まる。
The computer program for realizing the
さらに、学習用特徴ベクトル作成部108、分類用特徴ベクトル作成部84での処理についても、上記した説明に基づいて、当該技術分野の通常の知識を持つものであれば、仕様に応じて適宜実現することが可能である。
Furthermore, the processing in the learning feature
これらプログラムは、例えばDVDディスク282等のような記憶媒体に記憶され、又はインターネット52等のネットワークを通じて流通し、通常はハードディスク274等の不揮発外部記憶装置に記憶される。そして実行時にはハードディスク274からRAM280にコピーされ、CPU276内の図示しないプログラムカウンタにより指し示されるアドレスから読出された命令がCPU276により実行され、上記した所期の機能を実現する。コンピュータハードウェアそのものの動作形態については周知であるので、ここではこれ以上の詳細な説明は行なわない。
These programs are stored in a storage medium such as a
<第2の実施形態>
図9に、本発明の第2の実施の形態に係る、複数の定義を有する英語のアクロニムに対し、適切な定義を与える多義アクロニム解消システム330の構成をブロック図形式で示す。この多義アクロニム解消システム330は、アクロニムの近傍に、そのアクロニムの定義を与えている文書が多いこと、アクロニムの近傍に存在する単語は、その文書の分野によって何らかの傾向を持っていることを利用して、実施の形態1における同形異音語の解消と同じ原理によって、アクロニムに適切な定義を与えるものである。
<Second Embodiment>
FIG. 9 is a block diagram showing a configuration of a multiple definition
図9を参照して、この多義アクロニム解消システム330は、アクロニムを含む可能性のある入力文を記憶するための入力文記憶部340と、入力文記憶部340に記憶された入力文の所定部分を読込むための入力文バッファ342と、アクロニム及びその定義のリストよりなるデータからなる辞書群346と、入力文バッファ342に格納された入力文を形態素解析し、定義が付されていないアクロニムを見出すと、辞書群346によって当該アクロニムの定義を決定し、入力文中の当該アクロニムに当該定義を付して入力文を出力するためのアクロニム解釈部344とを含む。
Referring to FIG. 9, this ambiguous
多義アクロニム解消システム330はさらに、アクロニム解釈部344から出力される、アクロニムに定義が付された入力文を記憶するためのアクロニム定義付入力文記憶部354と、アクロニム定義付入力文記憶部354に記憶された入力文の意味を理解するための文章理解装置356とを含む。
The ambiguous
既に述べたように、アクロニムの中には複数の定義を持つものもあり得る。そうした場合に、アクロニム解釈部344がアクロニムに複数の定義を付して出力することはできない。そうすると、文章理解装置356における文章理解の障害となるからである。従って、入力文中で定義されていないアクロニムに対し、複数の定義が辞書群346から見出された場合、何らかの手段によりそれらの中の適切な一つを自動的に選択できるようにする必要がある。
As already mentioned, some acronyms can have multiple definitions. In such a case, the
こうした問題を解決するために、本実施の形態に係る多義アクロニム解消システム330は、アクロニム解釈部344及びインターネット52に接続され、アクロニム解釈部344から、アクロニムと、そのアクロニムに対して得られた複数の定義候補と、アクロニムの前後の所定の窓中に存在する単語列とが与えられると、インターネット52をコーパスとして用いた学習処理により、与えられた複数の定義候補のうち、与えられた単語列に対して最も適切と思われるものを選択し、アクロニム解釈部344に与える処理を行なうための多義アクロニム解消処理部350を含む。
In order to solve such a problem, the ambiguous
多義アクロニム解消処理部350の構成の詳細についてはここでは述べないが、多義アクロニム解消処理部350の構成及び動作は第1の実施の形態における同形異音語解消処理部50と同様である。すなわち多義アクロニム解消処理部350は、以下の手順でアクロニムに対する適切な定義を決定する。
Although the details of the configuration of the ambiguity acronym
(1)アクロニムAと定義候補Dk(k=1〜K:Kは定義候補の数)が与えられると、定義候補Dkの各々について、アクロニムAと定義候補Dkとが共起するウェブページのスニペットに対する検索要求をインターネット52上の検索エンジンに与える。
(1) Given an acronym A and a definition candidate Dk (k = 1 to K: K is the number of definition candidates), for each definition candidate Dk, a snippet of a web page in which acronym A and the definition candidate Dk co-occur To the search engine on the
(2)検索結果として、アクロニムAと定義候補Dkとを含むスニペットの集合{Sn(A,Dk)}(n=1〜Lk)(ただしLj(j=1〜k)はアクロニムAと定義候補Dkとの組合せに対して検索されたスニペットの数を表す。)を取得する。 (2) As a search result, a set of snippets {Sn (A, Dk)} (n = 1 to Lk) including acronym A and definition candidate Dk (where Lj (j = 1 to k) is acronym A and definition candidate) Represents the number of snippets retrieved for the combination with Dk).
(3)このスニペットの集合{Sn(A,Dk)}の各々から、定義候補Dkを削除することによって、検索結果のスニペットの集合{(Tn(A),Dk)|n=1〜Lk}を作成する。 (3) By deleting the definition candidate Dk from each of the snippet sets {Sn (A, Dk)}, a set of search result snippets {(Tn (A), Dk) | n = 1 to Lk} Create
(4)上記した3つの処理を、全ての定義候補Dkに対して繰返す。 (4) The above three processes are repeated for all definition candidates Dk.
(5)検索されたウェブページのスニペットの集合Snを、それらに含まれるウェブページの数(検索結果の数)の降順でソートし、さらにその内で上位N個のみを選択することで、N個の学習用のスニペットの集合{(Tn(A),Dk)|n=1〜Lk}が抽出され、学習データとして記憶される。 (5) The set Sn of the searched web page snippets is sorted in descending order of the number of web pages (number of search results) included in them, and only the top N are selected among them. A set of learning snippets {(Tn (A), Dk) | n = 1 to Lk} is extracted and stored as learning data.
(6)この学習データを用い、図4に示す学習用特徴ベクトル作成部108と全く同様にして学習用の複数個の特徴ベクトルが作成される。特徴ベクトルの作成の仕方も第1の実施の形態の場合と全く同様である。特徴ベクトルの作成時の窓長も第1の実施の形態と同様、2Mと表すことにする。
(6) Using this learning data, a plurality of feature vectors for learning are created in exactly the same manner as the learning feature
(7)これらの特徴ベクトルと、それら特徴ベクトルを与えたスニペットが検索されたときの検索に用いられた定義候補とを関連付けて学習用のデータとする。 (7) These feature vectors are associated with the definition candidates used for the search when the snippet giving the feature vectors is searched for as learning data.
(8)この学習用のデータを用い、決定木の学習を行なう。この学習の結果、決定木は、入力文のうち、多義解消の対象となるアクロニムAを中心とする窓長2Mに含まれる単語により作成される特徴ベクトルが与えられると、そのアクロニムに対する適切な定義を出力するようになる。 (8) Learning of the decision tree is performed using the learning data. As a result of this learning, when a decision vector is given a feature vector created by a word included in the window length 2M centered on the acronym A to be resolved, the appropriate definition for the acronym is given. Will be output.
(9)入力文の中の、多義解消の対象となるアクロニムAを中心とし、窓長2Mの窓から決定木のための特徴ベクトルを作成する。 (9) A feature vector for a decision tree is created from a window having a window length of 2M, centering on the acronym A that is the object of ambiguity resolution in the input sentence.
(10)この特徴ベクトルを決定木に与えることにより、決定木からはアクロニムAの定義を一つだけ選択する出力が得られる。この出力を多義アクロニム解消処理部350からアクロニム解釈部344に与えることにより、アクロニム解釈部344は当該アクロニムに対し、多義アクロニム解消処理部350から与えられたただ一つの定義を付して、アクロニム定義付入力文記憶部354に出力できる。
(10) By giving this feature vector to the decision tree, an output for selecting only one definition of acronym A is obtained from the decision tree. By giving this output from the ambiguous acronym
<第3の実施の形態>
図10に、第3の実施の形態に係る日本語−英語の自動翻訳システム430のブロック図を示す。図10を参照して、この自動翻訳システム430は、日本語の入力文を記憶するための日本文記憶部440と、日本文記憶部440に記憶された日本文の所定量を記憶するための入力文バッファ442と、日本語から英語への1又は複数の辞書からなる辞書群446と、自動翻訳の前処理として、入力文バッファ442に記憶された日本文を形態素解析し、各単語について辞書群446を参照して英語の訳語を割当て、出力するための訳語決定部444と、このように前処理された訳語付日本文を記憶するための訳語付日本文記憶部454と、訳語付日本文記憶部454に記憶された訳語付日本文を、その訳語を使用しながら英語に翻訳する自動翻訳装置456とを含む。
<Third Embodiment>
FIG. 10 is a block diagram of a Japanese-English
しかし、既に述べたとおり、入力される一つの日本語単語に複数の英語の訳語候補が存在する場合があり得る。そうしたときにそれら複数の英語の訳語候補を日本語単語にそのまま付して訳語決定部444から出力すると、自動翻訳装置456における翻訳に支障が生ずる。そのために、何らかの手段でこれら複数の訳語候補の中から適切なものを選択する必要がある。
However, as already described, there may be a case where there are a plurality of English translation candidates for one input Japanese word. If such a plurality of English translation candidates are directly attached to the Japanese word and output from the
そのために、本実施の形態に係る自動翻訳システム430は、訳語決定部444及びインターネット52に接続され、訳語決定部444から、日本語の単語と、その単語に対して得られた複数の訳語候補と、入力文における当該日本語の単語の前後の所定の窓中に存在する単語列とが与えられると、インターネット52をコーパスとして用いた学習処理により、与えられた複数の訳語候補のうち、与えられた単語列に対して最も適切と思われるものを選択し、訳語決定部444に与える処理を行なうための多義訳語解消処理部450を含む。
For this purpose, the
多義訳語解消処理部450の構成の詳細についてはここでは述べないが、多義訳語解消処理部450における処理が、第1の実施の形態の同形異音語解消処理部50における処理、及び第2の実施の形態の多義アクロニム解消処理部350における処理と同一であり、従ってその構成も同形異音語解消処理部50の構成と同一であることが理解されるであろう。
Although details of the configuration of the multiple meaning word
訳語決定部444は、入力文バッファ442中の文を読出し、形態素解析して、各単語について辞書群446を参照することにより英語の訳語を割当て、訳語付日本文記憶部454に出力していく。複数の訳語候補が一つの日本語単語について出現した場合、訳語決定部444はその日本語単語と、複数の訳語候補とを多義訳語解消処理部450に引渡し、多義性の解消を依頼する。多義訳語解消処理部450は、第1の実施の形態における同形異音語解消処理部50と全く同じ動作によって決定木を作成し、入力文のうち、与えら得た日本語単語の前後の窓内の単語列を用いて特徴ベクトルを作成し、決定木に与えることにより適切な訳語候補を得て、訳語決定部444に返す。訳語決定部444は問題となった日本語単語に、多義訳語解消処理部450から与えられたただ一つの訳語を付し、訳語付日本文記憶部454に出力する。従って、自動翻訳装置456における自動翻訳処理に支障が生ずることはない。
The
以上、第1〜第3の実施の形態の説明から明らかなように、本発明に係る多義性の解消、又はあいまい性の解消は、自然言語処理の分野の広い範囲にわたり、容易に適用できる。しかも、多義性の解消を行なう部分の仕組みは基本的に同一でよい。もちろん、解消処理の細部において様々な設計事項はあり得るが、ある分野で有効な方式は、基本的にそのままの形で他の分野についても適用可能である。 As is apparent from the description of the first to third embodiments, the ambiguity elimination or the ambiguity elimination according to the present invention can be easily applied over a wide range in the field of natural language processing. In addition, the mechanism of the part for eliminating ambiguity may be basically the same. Of course, there may be various design items in the details of the cancellation processing, but a method effective in a certain field can be applied to other fields basically as it is.
例えば日本語と英語との間の翻訳のみならず、あらゆる言語の間の単語の翻訳に、言語の相違にかかわらず本発明に係る多義性又はあいまい性の解消をする装置を適用できる。第1の実施の形態における同形異音語の解消を行なう機構も、言語にかかわらずほとんどそのまま適用できる。もちろん、言語に特有の調整が必要な場合もあり得るが(例えば日本語における形態素解析)、その部分は自然言語処理での前提として必ず前もって行なわれているとすれば、多義性又はあいまい性の部分の仕組みは言語に係らず同一でよい。 For example, the device for eliminating ambiguity or ambiguity according to the present invention can be applied not only to translation between Japanese and English but also to translation of words between all languages regardless of language differences. The mechanism for eliminating homomorphic abnormal words in the first embodiment can be applied almost as it is regardless of the language. Of course, language-specific adjustments may be necessary (for example, morphological analysis in Japanese), but if that part is always done in advance as a premise in natural language processing, it may be ambiguous or ambiguous. The mechanism of the part may be the same regardless of language.
従って、自然言語処理の分野の広い領域において、本発明を適用することができ、しかもある領域から別の領域への移植も極めて簡単に実現できる。 Therefore, the present invention can be applied to a wide area in the field of natural language processing, and transplantation from one area to another can be realized very easily.
<可能な変形例>
上記した実施の形態では、適切な仮名表記、アクロニムの定義、及び訳語を決定するために、決定木を用いた。しかし本発明は決定木を用いるものには限定されず、インターネットから収集した学習データによって、対象となる単語又は単語列がおかれた文脈(環境)によって、目的物として複数のうちからどれを選択するかを機械学習により学習できるものであれば、どのような分類方法でも用いることができる。例えば、ナイーブベイズ、決定リスト、k−最近隣法、オンラインアルゴリズム、最大エントロピー法、サポートベクトルマシン、ブースティングなどを利用できる。
<Possible modification>
In the embodiment described above, a decision tree is used to determine an appropriate kana notation, an acronym definition, and a translation. However, the present invention is not limited to the one using a decision tree, and any one of a plurality of objects is selected as a target object according to the context (environment) where the target word or word string is placed by learning data collected from the Internet. Any classification method can be used as long as it can be learned by machine learning. For example, naive Bayes, decision lists, k-nearest neighbor methods, online algorithms, maximum entropy methods, support vector machines, boosting, etc. can be used.
また、上記した実施の形態では学習データとしてウェブページのスニペットを収集したが、本発明がそのような実施の形態に限定されないことはもちろんである。例えばウェブページ全体を処理の対象としてもよい。また、例えば一つの単語Wと仮名表記Rkとの組み合わせに対して収集するウェブページの数の上限MAXを1000に限定しているが、この数が自由に変更できることはいうまでもない。また、このような限定を用いないことも可能である。 In the above-described embodiment, web page snippets are collected as learning data. However, the present invention is not limited to such an embodiment. For example, the entire web page may be processed. Further, for example, the upper limit MAX of the number of web pages collected for a combination of one word W and kana notation Rk is limited to 1000, but it goes without saying that this number can be freely changed. It is also possible not to use such a limitation.
さらに、上記した実施の形態では、問題となる単語と、その単語と対となるべきいくつかの候補が与えられると、その時点でインターネットにアクセスし、決定木を作成している。しかし本発明はそのような実施の形態には限定されない。例えば、予め何らかのテスト文に対し、上記したような処理をすることにより、テスト文中に含まれる、何らかのあいまい性を持ついくつかの単語について、そのあいまい性を解消するための分類装置を予め準備しておいてもよい。そうした分類装置を多数の単語に対して一つずつ予め準備しておけば、その単語が与えられてから分類装置の学習を行なったりする必要はなく、直ちに適切な答えを与えることができる。もしもそれら複数の分類装置ではあいまい性が解消できない単語であれば、そのときに上記実施の形態で示したように改めて一つの分類装置を作成して適切な答えを得るようにすればよい。 Further, in the above-described embodiment, when a word in question and several candidates to be paired with the word are given, the Internet is accessed at that time, and a decision tree is created. However, the present invention is not limited to such an embodiment. For example, by performing the above-described processing on a certain test sentence in advance, a classification device is prepared in advance to eliminate some ambiguity for some words included in the test sentence. You may keep it. If such a classifier is prepared in advance for each of many words, it is not necessary to learn the classifier after the word is given, and an appropriate answer can be given immediately. If the ambiguity cannot be resolved by the plurality of classifiers, then one classifier may be created again as described in the above embodiment to obtain an appropriate answer.
また、上記した第1の実施の形態では、ソート及び選択部104により選択される仮名表記候補は、検索部100によりヒットしたウェブページの数の多い上位N件(Nは複数)であった。第2の実施の形態及び第3の実施の形態の場合も同様である。しかし本発明はそのような実施の形態には限定されない。例えば、ソート及び選択部104の処理でヒット数の多かった最上位の1件の仮名表記候補のみを単語Wの仮名表記として採用してもよい。この場合には、決定木は1:1の分類を行なうものとして機能する。もっとも、この方法では単語Wの文脈が全く考慮されないので、結果の信頼性は低く、あいまい性の解消とはいえない。
Further, in the first embodiment described above, the kana notation candidates selected by the sort and
また、第1の実施の形態のソート及び選択部104の処理で、ヒットしたウェブページの数の多い上位N件ではなく、所定のしきい値以上のウェブページがヒットしたものを全て仮名表記候補として選択してもよい。又は、全ヒット数のうち、上位から各候補の割合を積算し、所定割合を超えるまでのものを、その数にかかわらず全て仮名表記候補として採用してもよい。
Also, in the sort and
さらに、上記実施の形態では、一つの単語を単位としてその意味候補を決定している。しかし本発明はそのような実施の形態には限定されない。意味候補の集合を作成するための辞書の見出しとして、例えば複数の単語からなる句を設けておくことにより、その句の意味についても、複数の意味集合の中から適切なものを選択できるようになる。 Further, in the above embodiment, the meaning candidate is determined for each word. However, the present invention is not limited to such an embodiment. As a dictionary heading for creating a set of meaning candidates, for example, by providing a phrase consisting of a plurality of words, the meaning of the phrase can be selected from a plurality of meaning sets. Become.
そして、そのようにして得られた分類装置を随時蓄積しておくことにより、直ちにあいまい性を解消できる単語が増加することになり、好ましい。 Then, it is preferable to accumulate the classification devices thus obtained as needed, because the number of words that can be immediately resolved is increased.
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。 The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim in the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.
30 音声合成システム
40,340 入力文記憶部
42,342,442 入力文バッファ
44 仮名変換部
46,346,446 辞書群
48 音声データベース
50 同形異音語解消処理部
52 インターネット
54 仮名表記入力文記憶部
56 音声合成部
58 スピーカ
80 決定木作成部
82 決定木
84 分類用特徴ベクトル作成部
86 分類実行部
100 検索部
102 検索結果記憶部
104 ソート及び選択部
106 学習データ記憶部
108 学習用特徴ベクトル作成部
110 特徴ベクトル記憶部
112 決定木学習部
344 アクロニム解釈部
350 多義アクロニム解消処理部
354 アクロニム定義付入力文記憶部
440 日本文記憶部
444 訳語決定部
450 多義訳語解消処理部
454 訳語付日本文記憶部
456 自動翻訳装置
DESCRIPTION OF
Claims (6)
前記ある単語と、前記意味候補集合中の意味候補との組合せの各々について、所定のコーパスから、当該組合せを構成する語同士が共起する文書の集合を収集するための文書収集手段と、
前記文書収集手段によって前記組合せの各々について収集された前記文書の集合を学習データとして用い、前記ある単語と、その単語の文書中の文脈とが与えられると、前記ある単語の当該文脈中での意味として最適な意味候補を前記意味候補集合中から選択する分類器を自動的に作成するための分類器作成手段と、
前記入力文において、前記ある単語が置かれた文脈に基づいて、前記ある単語の意味として最適なものを、前記意味候補の集合の中から前記分類器を用いて選択するための分類実行手段とを含み、
前記文書収集手段は、前記ある単語と、前記意味候補集合中の意味候補との組合せの各々について、前記ある単語とその意味候補との両方を検索キーワードとして、インターネット上に存在する文書からなる仮想的コーパスから、当該組合せを構成する語同士が共起する文書の集合を検索し収集するための検索手段を含み、
前記分類器作成手段は、
前記文書収集手段によって前記組合せの各々について収集された前記文書の集合のうち、集合に含まれる文書の数が多いものを所定の基準に従って選択し、それら文書の集合に対応する意味候補のみを前記意味候補の集合の要素として選択する処理を行なうための意味候補選択手段と、
前記意味候補選択手段により選択された文書集合を学習データとして用い、前記ある単語と、その単語の文書中の文脈とが与えられると、前記ある単語の当該文脈中での意味として最適な意味候補を、前記意味候補集合中から選択する分類器を機械学習により自動的に作成するための機械学習手段とを含む、自然言語における多義解消装置。 In an input sentence composed of a natural language sentence, a certain word, a context in which the certain word is placed in the input sentence, and a set of semantic candidates including a plurality of semantic candidates that may represent the meaning of the certain word Given a ambiguity resolver in natural language that selects the most appropriate meaning of the word in the context from the set of semantic candidates,
Wherein and words, for each combination of the meanings candidates for the meaning candidate set in, from a given corpus, a document collection means for the word that constitute the combination to collect a set of documents to be co-occur,
Using the collection of documents collected for each of the combinations by the document collection means as learning data, given the certain word and the context in the document of the word, the certain word in the context A classifier creating means for automatically creating a classifier that selects a semantic candidate optimum as a meaning from the semantic candidate set;
In the input sentence, based on a context in which the certain word is placed, classification execution means for selecting an optimum meaning of the certain word from the set of meaning candidates using the classifier Including
The document collection means includes a virtual document composed of documents existing on the Internet for each combination of the certain word and the meaning candidate in the meaning candidate set, using both the certain word and the meaning candidate as a search keyword. from corpus comprises search means for word that constitute the combination are searched to collect a set of documents that co-occur,
The classifier creating means includes:
Of the set of documents collected for each of the combinations by the document collection means, a document having a large number of documents included in the set is selected according to a predetermined criterion, and only semantic candidates corresponding to the set of documents are selected. Semantic candidate selection means for performing processing of selecting as a candidate of a semantic candidate set;
When a set of documents selected by the meaning candidate selecting means is used as learning data and given the word and the context in the document of the word, the meaning candidate most suitable as the meaning of the word in the context is given. And a machine learning means for automatically creating, by machine learning, a classifier that selects the semantic candidate set from the semantic candidate set.
前記文書集合選択手段により選択された文書集合に含まれる文書の各々に対し、当該文書中における前記ある単語の位置の前後の所定範囲に存在する単語列から、当該文書中における前記ある単語の文脈の特徴量を表す、所定の構成の学習用の特徴量ベクトルを算出するための特徴量ベクトル算出手段と、
前記文書集合選択手段により選択された文書集合に含まれる文書の各々に対して前記特徴量ベクトル算出手段により算出された学習用の特徴量ベクトルと、当該文書の検索時に使用された意味候補とを組にして学習用データを作成し、当該学習用データを用いた機械学習により、前記学習用の特徴量ベクトルと同じ構成の分類用の特徴量ベクトルが与えられると、当該分類用の特徴量ベクトルに対応する文脈中における前記ある単語の意味として最適なものを、前記意味候補集合中から選択する所定の分類器を自動的に作成するための手段とを含む、請求項1に記載の自然言語における多義解消装置。 The machine learning means includes
For each document included in the document set selected by the document set selection unit, the context of the word in the document is determined from a word string existing in a predetermined range before and after the position of the word in the document. A feature amount vector calculating means for calculating a feature amount vector for learning having a predetermined configuration, which represents the feature amount of
A learning feature amount vector calculated by the feature amount vector calculation unit for each of the documents included in the document set selected by the document set selection unit, and a semantic candidate used when searching the document When learning data is created in pairs and machine learning using the learning data gives a feature vector for classification having the same configuration as the feature vector for learning, the feature vector for the classification 2. The natural language according to claim 1, further comprising: means for automatically creating a predetermined classifier that selects an optimum meaning of the certain word in the context corresponding to the meaning candidate set from the meaning candidate set. Ambiguity resolution device.
A computer program that, when executed by a computer, causes the computer to function as an ambiguity resolver in natural language according to any one of claims 1 to 5.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006154497A JP5146979B2 (en) | 2006-06-02 | 2006-06-02 | Ambiguity resolution device and computer program in natural language |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006154497A JP5146979B2 (en) | 2006-06-02 | 2006-06-02 | Ambiguity resolution device and computer program in natural language |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2007323475A JP2007323475A (en) | 2007-12-13 |
| JP5146979B2 true JP5146979B2 (en) | 2013-02-20 |
Family
ID=38856213
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2006154497A Expired - Fee Related JP5146979B2 (en) | 2006-06-02 | 2006-06-02 | Ambiguity resolution device and computer program in natural language |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5146979B2 (en) |
Families Citing this family (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5533853B2 (en) * | 2009-03-31 | 2014-06-25 | 日本電気株式会社 | Reading judgment device, method, program, and speech synthesizer |
| CN103299304B (en) * | 2011-01-13 | 2016-09-28 | 三菱电机株式会社 | Classifying rules generating means and classifying rules generate method |
| BR102012024861B1 (en) * | 2011-09-30 | 2021-02-09 | Apple Inc. | system to disambiguate user input to perform a task |
| JP5734503B2 (en) * | 2012-03-07 | 2015-06-17 | 三菱電機株式会社 | Meaning estimation apparatus, method, and program |
| JP2016194822A (en) * | 2015-03-31 | 2016-11-17 | 株式会社エクシング | Server system and program thereof, and error check method |
| JP6720764B2 (en) * | 2016-08-08 | 2020-07-08 | 富士ゼロックス株式会社 | Text analysis device and program |
| JP6373320B2 (en) * | 2016-09-08 | 2018-08-15 | ヤフー株式会社 | Generating device, generating method, and generating program |
| CN108280061B (en) * | 2018-01-17 | 2021-10-26 | 北京百度网讯科技有限公司 | Text processing method and device based on ambiguous entity words |
| US20210201929A1 (en) * | 2018-05-31 | 2021-07-01 | Sony Corporation | Information processing apparatus, information processing method, and program |
| JP7115187B2 (en) * | 2018-09-27 | 2022-08-09 | 大日本印刷株式会社 | Information processing device, information processing method and program |
| CN111026844B (en) * | 2019-12-04 | 2023-08-01 | 河北数云堂智能科技有限公司 | Method and device for identifying digital serial reading method |
| WO2022049668A1 (en) * | 2020-09-02 | 2022-03-10 | 三菱電機株式会社 | Information processing device, generation method, and generation program |
-
2006
- 2006-06-02 JP JP2006154497A patent/JP5146979B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2007323475A (en) | 2007-12-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Gupta et al. | Abstractive summarization: An overview of the state of the art | |
| JP3429184B2 (en) | Text structure analyzer, abstracter, and program recording medium | |
| KR101136007B1 (en) | System and method for anaylyzing document sentiment | |
| JP2004005600A (en) | Method and system for indexing and retrieving document stored in database | |
| Hiemstra et al. | Disambiguation strategies for cross-language information retrieval | |
| JP2005520251A (en) | Translate named entities | |
| JP2004133880A (en) | Method for constructing dynamic vocabulary for speech recognizer used in database for indexed document | |
| WO2008023470A1 (en) | Sentence search method, sentence search engine, computer program, recording medium, and document storage | |
| WO2005059771A1 (en) | Translation judgment device, method, and program | |
| Hasegawa-Johnson et al. | Grapheme-to-phoneme transduction for cross-language ASR | |
| JP5146979B2 (en) | Ambiguity resolution device and computer program in natural language | |
| US7742922B2 (en) | Speech interface for search engines | |
| JP2011118689A (en) | Retrieval method and system | |
| KR100481598B1 (en) | Apparatus and method for analyzing compounded morpheme | |
| Beshirov et al. | Post-OCR text correction for Bulgarian historical documents | |
| Smadja et al. | Translating collocations for use in bilingual lexicons | |
| Leidig et al. | Automatic detection of anglicisms for the pronunciation dictionary generation: a case study on our German IT corpus. | |
| JPH1049543A (en) | Document search device | |
| JP5025603B2 (en) | Machine translation apparatus, machine translation program, and machine translation method | |
| JP3471253B2 (en) | Document classification method, document classification device, and recording medium recording document classification program | |
| JP4361299B2 (en) | Evaluation expression extraction apparatus, program, and storage medium | |
| JPH117447A (en) | Topic extraction method, topic extraction model and its creation method used therefor, topic extraction program recording medium | |
| KR20050064574A (en) | System for target word selection using sense vectors and korean local context information for english-korean machine translation and thereof | |
| JP3326646B2 (en) | Dictionary / rule learning device for machine translation system | |
| KR20040018008A (en) | Apparatus for tagging part of speech and method therefor |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081208 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111117 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111129 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120126 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120807 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121001 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121030 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121121 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5146979 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151207 Year of fee payment: 3 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |