JP3035261B2 - Japanese parser - Google Patents
Japanese parserInfo
- Publication number
- JP3035261B2 JP3035261B2 JP10072037A JP7203798A JP3035261B2 JP 3035261 B2 JP3035261 B2 JP 3035261B2 JP 10072037 A JP10072037 A JP 10072037A JP 7203798 A JP7203798 A JP 7203798A JP 3035261 B2 JP3035261 B2 JP 3035261B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- speech
- decision tree
- processing
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000003066 decision tree Methods 0.000 claims description 357
- 238000012545 processing Methods 0.000 claims description 291
- 238000000034 method Methods 0.000 claims description 117
- 230000008569 process Effects 0.000 claims description 96
- 238000004458 analytical method Methods 0.000 claims description 42
- 238000004422 calculation algorithm Methods 0.000 claims description 35
- 238000010926 purge Methods 0.000 claims description 26
- 230000011218 segmentation Effects 0.000 claims description 18
- 230000015654 memory Effects 0.000 description 97
- 239000002245 particle Substances 0.000 description 15
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 230000000877 morphologic effect Effects 0.000 description 6
- 241000282326 Felis catus Species 0.000 description 5
- 238000009499 grossing Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000010354 integration Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 241000408659 Darpa Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
Description
【0001】[0001]
【発明の属する技術分野】本発明は、文字列を含む日本
語の文章のテキストデータに対して、構文構造決定用の
確率付き決定木を用いて、構文構造を自動的に付与する
日本語構文解析装置に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a Japanese syntax for automatically assigning a syntax structure to text data of a Japanese sentence including a character string by using a decision tree with a probability for determining a syntax structure. It relates to an analyzer.
【0002】[0002]
【従来の技術】従来、比較的精度のよい品詞付与システ
ム(以下、第1の従来例という。)が、従来技術文献1
「E.Brill et al.,“Some Advances in Transformation
--Based Part of Speech Tagging",Proceedings of the
Twelfth National Conferenceon Artificial Intellig
ence,pp.722-727,AAAI,1994年」及び従来技術文献2
「B.Merialdo et al.,“Tagging English Text with a
Probabilistic Model",Computational Linguistics,20-
2,pp.155-171,1994年」において報告されている。この
従来例の品詞付与システムにおいては、単語表記とその
表記のとる品詞ラベルの組を記述した、品詞付与のため
の辞書を参照することによりテキストデータに対して品
詞を付与している。2. Description of the Related Art Conventionally, a relatively accurate part-of-speech assigning system (hereinafter referred to as a first conventional example) is disclosed in Prior Art Document 1.
“E. Brill et al.,“ Some Advances in Transformation
--Based Part of Speech Tagging ", Proceedings of the
Twelfth National Conferenceon Artificial Intellig
ence, pp.722-727, AAAI, 1994 "and prior art document 2
“B. Merialdo et al.,“ Tagging English Text with a
Probabilistic Model ", Computational Linguistics, 20-
2, pp. 155-171, 1994 ". In this part-of-speech giving system of this conventional example, part-of-speech is given to text data by referring to a dictionary for giving part-of-speech, which describes a set of a word notation and a part-of-speech label taken by the notation.
【0003】この第1の従来例の品詞付与システムにお
いては、辞書を用いて品詞を付与しているために、辞書
項目に記載されていない未知語に対する品詞付与は難し
く、また、単語と品詞ラベルとの未知の組合せに対する
処理は難しいという問題点があった。さらに、使われる
品詞体系の変更により辞書のメンテナンスを行う必要が
あるという問題点があった。また、辞書を使用しない
で、ヒューリスティックスにより(発見的に又は経験的
に)単語に対する品詞ラベルを割り当てている品詞付与
装置もあるが、品詞付与の正解率は比較的低いという問
題点があった。In the part-of-speech assigning system of the first conventional example, part-of-speech is assigned using a dictionary. Therefore, it is difficult to assign a part-of-speech to an unknown word not described in a dictionary item. There is a problem that processing for an unknown combination with is difficult. Furthermore, there is a problem that it is necessary to maintain the dictionary by changing the part of speech system used. There is also a part-of-speech device that uses heuristics (heuristically or empirically) to assign a part-of-speech label to a word without using a dictionary. However, there is a problem that the accuracy rate of part-of-speech assignment is relatively low.
【0004】以上の問題点を解決するために、本特許出
願人は、特願平8−232993号の特許出願におい
て、品詞付与のための辞書を用いることなく、第1の従
来例に比較して正確に自動的に付与することができる品
詞付与装置(以下、第2の従来例という。)を開示して
いる。この第2の従来例の品詞付与装置は、(a)単語
列からなる品詞付与済みテキストデータに基づいて、各
単語の綴りの特徴と、文章内の使われ方による特徴と、
単語の相互情報量を用いた階層的な分類とを含む複数の
属性を用いて、上記各属性の属性値に依存して分割され
るような二分木形式の木構造を有し品詞付与のための決
定木を生成し、上記生成された決定木の分割されないノ
ードであるリーフノードに対して複数の品詞に対する頻
度確率を計算して付与することにより、頻度確率付き決
定木を生成する決定木学習手段と、(b)上記決定木学
習手段によって生成された頻度確率付き決定木を用い
て、入力される単語列からなるテキストデータに基づい
て、上記リーフノードに付与された頻度確率の中で上位
複数n個の頻度確率を選択して上記テキストデータの各
単語に対して付与し、上記テキストデータの単語列にお
いて最大の結合確率を有する品詞列を正解品詞列として
決定して出力する品詞付与手段とを備えたことを特徴と
している。[0004] In order to solve the above problems, the present applicant has compared the first conventional example without using a dictionary for assigning the part of speech in the patent application of Japanese Patent Application No. Hei 8-232993. A part-of-speech assigning device (hereinafter, referred to as a second conventional example) that can be assigned automatically and accurately. The second conventional example of the part-of-speech providing apparatus includes: (a) a spelling feature of each word, a feature based on how to be used in a sentence,
Using a plurality of attributes including hierarchical classification using mutual information of words, and having a tree structure in a binary tree format that is divided depending on the attribute value of each attribute, Tree that generates a decision tree with frequency probabilities by calculating and assigning frequency probabilities for a plurality of parts of speech to a leaf node that is an undivided node of the generated decision tree. Means, and (b) using the decision tree with frequency probability generated by the decision tree learning means, based on the text data composed of the input word strings, the top among the frequency probabilities assigned to the leaf nodes. A product in which a plurality of n frequency probabilities are selected and given to each word of the text data, and a part of speech having the maximum connection probability in the word string of the text data is determined and output as a correct part of speech. It is characterized in that a supplying means.
【0005】さらに、英語構文解析装置として、従来技
術文献3「M.J.Collins,“A new statistical parser b
ased on bigram lexical dependencies",the 34th Annu
al Meeting of ACL Proceedings,1996年」において、構
文構造が付与されたテキストデータから主要語のバイグ
ラムの統計情報を学習し、構文解析を行うこと(以下、
第3の従来例という。)が開示されている。しかしなが
ら、第3の従来例では、素性構造付き文脈自由文法など
の詳細な構文構造の情報を付与することはできないとい
う問題点があった。[0005] Further, as an English parsing apparatus, a conventional technique 3 "MJ Collins," A new statistical parser b
ased on bigram lexical dependencies ", the 34th Annu
al Meeting of ACL Proceedings, 1996 ”, learn the bigram statistical information of the main words from the text data with the syntactic structure, and perform parsing.
This is referred to as a third conventional example. ) Is disclosed. However, in the third conventional example, there is a problem that information of a detailed syntax structure such as a context-free grammar with a feature structure cannot be added.
【0006】以上の問題点を解決するために、本特許出
願人は、特願平9−218522号の特許出願におい
て、品詞付与のための辞書を用いることなく、第3の従
来例に比較して正確に自動的に品詞を付与することがで
き、しかも素性構造付き文脈自由文法などの詳細な構文
構造の情報を付与することができる構文解析装置(以
下、第4の従来例という。)を提案している。この第3
の従来例の構文解析装置は、(a)単語列からなる構文
解析済みテキストデータに基づいて、各単語の綴りの特
徴と、文章内の使われ方による特徴と、単語の相互情報
量を用いた階層的な分類とを含む複数の属性を用いて、
上記各属性の属性値に依存して分割されるような二分木
形式の木構造を有し品詞付与のための品詞決定木を生成
し、上記生成された品詞決定木の分割されないノードで
あるリーフノードに対して複数の品詞に対する頻度確率
を計算して付与することにより、頻度確率付き品詞決定
木を生成する品詞決定木学習手段と、(b)単語列から
なる構文解析済みテキストデータに基づいて、処理対象
の単語の語数と、処理対象の主辞単語の品詞、処理対象
の直前の単語の品詞、単語の相互情報量を用いた階層的
な分類とを含む複数の属性を用いて、上記各属性の属性
値に依存して分割されるような二分木形式の木構造を有
し文法規則付与のための文法規則決定木を生成し、上記
生成された文法規則決定木の分割されないノードである
リーフノードに対して複数の文法規則に対する頻度確率
を計算して付与することにより、頻度確率付き文法規則
決定木を生成する文法規則決定木学習手段と、(c)単
語列からなる構文解析済みテキストデータに基づいて、
処理対象の単語の語数と、処理対象の主辞単語の品詞、
処理対象の直前の単語の品詞、単語の相互情報量を用い
た階層的な分類とを含む複数の属性を用いて、上記各属
性の属性値に依存して分割されるような二分木形式の木
構造を有し文法規則付与処理における各パージング状態
で処理方向を決定するための処理方向決定木を生成し、
上記生成された処理方向決定木の分割されないノードで
あるリーフノードに対して複数の処理方向に対する頻度
確率を計算して付与することにより、頻度確率付き処理
方向決定木を生成する処理方向決定木学習手段と、
(d)上記品詞決定木学習手段によって生成された頻度
確率付き品詞決定木を用いて、入力される処理対象の単
語列からなるテキストデータに基づいて、上記リーフノ
ードに付与された頻度確率の中で上位複数n個の頻度確
率を選択して上記テキストデータの各単語に対して付与
し、上記テキストデータの単語列において最大の結合確
率を有する品詞列を正解品詞列として決定し、次いで、
所定のスタック・デコーダ・アルゴリズムを用いて、文
法規則付与処理における各パージング状態での単語列に
対する結合確率が最大の結合確率を有するパージング状
態を選択した後、上記処理方向決定木学習手段によって
生成された頻度確率付き処理方向決定木を用いて上記処
理対象の単語列における処理方向を決定し、決定された
処理方向におけるパージング状態において、上記文法規
則決定木学習手段によって生成された頻度確率付き文法
規則決定木に従って文法規則を上記処理対象の単語列に
加えることにより構文解析情報を付与して構文解析済み
テキストデータを出力する構文情報付与手段とを備えた
ことを特徴としている。[0006] In order to solve the above problems, the present applicant has compared the patent application of Japanese Patent Application No. 9-218522 with the third conventional example without using a dictionary for assigning parts of speech. A parsing device (hereinafter referred to as a fourth conventional example) capable of automatically and accurately assigning a part of speech and adding detailed syntax structure information such as a context-free grammar with a feature structure. is suggesting. This third
The conventional parsing apparatus of (a) uses (a) a spelling characteristic of each word, a characteristic based on how the word is used in a sentence, and a mutual information amount of the word based on the parsed text data composed of a word string. Using multiple attributes, including hierarchical classifications
A leaf tree which has a tree structure of a binary tree format that is divided depending on the attribute value of each attribute and generates a part-of-speech decision tree for giving part-of-speech, and is a node that is not divided by the generated part-of-speech decision tree A part-of-speech decision tree learning means for generating a part-of-speech decision tree with a frequency probability by calculating and assigning the frequency probabilities for a plurality of parts of speech to a node, and (b) based on parsed text data composed of a word string. Using a plurality of attributes including the number of words of the word to be processed, the part of speech of the subject word to be processed, the part of speech of the word immediately before the object of processing, and hierarchical classification using mutual information of words, A node that has a tree structure of a binary tree format that is divided depending on the attribute value of the attribute, generates a grammar rule decision tree for grammar rule assignment, and is an undivided node of the generated grammar rule decision tree. For leaf nodes Grammar rule decision tree learning means for generating a grammar rule decision tree with frequency probability by calculating and assigning frequency probabilities for a plurality of grammar rules, and (c) parsing text data composed of word strings. ,
The number of words to be processed, the part of speech of the subject word to be processed,
Using a plurality of attributes including the part of speech of the word immediately before the processing target, and hierarchical classification using the mutual information of the words, a binary tree format is used which is divided depending on the attribute value of each of the above attributes. Generate a processing direction decision tree for determining a processing direction in each parsing state in the grammar rule assignment processing having a tree structure,
Processing direction decision tree learning for generating a processing direction decision tree with a frequency probability by calculating and assigning frequency probabilities for a plurality of processing directions to leaf nodes that are nodes that are not split and that are generated as described above. Means,
(D) Using the part-of-speech decision tree with frequency probabilities generated by the part-of-speech tree learning means, based on the text data consisting of the input word string to be processed, the frequency probabilities assigned to the leaf nodes In the above, a plurality of upper n frequency probabilities are selected and assigned to each word of the text data, and a part of speech having a maximum connection probability in the word string of the text data is determined as a correct part of speech string,
Using a predetermined stack decoder algorithm, after selecting a purging state having a maximum connection probability for the word string in each purging state in the grammar rule assignment processing, the parsing state generated by the processing direction decision tree learning means is used. The grammar rule with frequency probability generated by the grammar rule decision tree learning means in the parsing state in the determined processing direction is determined by using the processing direction decision tree with frequency probability. A syntactic information adding unit that adds syntactic analysis information by adding a grammar rule to the word string to be processed according to the decision tree and outputs syntactically analyzed text data.
【0007】[0007]
【発明が解決しようとする課題】しかしながら、上記第
4の従来例の英語の構文解析装置においては、英語の構
文解析であるので、単語の区切りが空白文字を手がかり
として、比較的簡単な規則により判断できる。しかしな
がら、日本語では、単語の区切りを見いだすことが困難
である。そのため、単語区切りの情報が付与されている
状態から解析を行っている英語構文解析を日本語の構文
解析に用いるには、単語の区切りを判断する機構が必要
であり、従来の英語構文解析機構では処理できない。However, in the English parsing apparatus of the fourth conventional example, since the English parsing is performed, the delimiter of words is determined by a relatively simple rule using blank characters as clues. I can judge. However, in Japanese, it is difficult to find word breaks. Therefore, in order to use English parsing that analyzes from the state in which word break information is added to Japanese parsing, a mechanism that determines word breaks is necessary. Cannot be processed.
【0008】本発明の目的は、日本語の品詞付与のため
の辞書を用いることなく、第4の従来例に比較して正確
に自動的に品詞を付与することができ、しかも素性構造
付き文脈自由文法などの詳細な構文構造の情報を付与す
ることができる日本語構文解析装置を提供することにあ
る。It is an object of the present invention to provide a method of automatically assigning a part of speech more accurately than in the fourth conventional example without using a dictionary for assigning Japanese parts of speech, and a context with a feature structure. An object of the present invention is to provide a Japanese syntax analyzer capable of adding detailed syntax structure information such as free grammar.
【0009】[0009]
【課題を解決するための手段】本発明に係る請求項1記
載の日本語構文解析装置は、日本語の文字列からなる構
文解析済みテキストデータに基づいて、各単語の綴りの
特徴と、文章内の使われ方による特徴と、単語の相互情
報量を用いた階層的な分類とを含む複数の属性を用い
て、上記各属性の属性値に依存して分割されるような二
分木形式の木構造を有し品詞付与のための品詞決定木を
生成し、上記生成された品詞決定木の分割されないノー
ドであるリーフノードに対して複数の品詞に対する頻度
確率を計算して付与することにより、品詞カテゴリーの
頻度確率付き品詞決定木を生成する第1の学習手段と、
上記テキストデータに基づいて、各単語の綴りの特徴
と、後続する文字の特徴と、前につながる品詞の特徴
と、単語の相互情報量を用いた階層的な分類とを含む複
数の属性を用いて、上記各属性の属性値に依存して分割
されるような二分木形式の木構造を有し単語分割のため
の単語分割決定木を生成し、上記生成された単語分割決
定木の分割されないノードであるリーフノードに対して
単語及び非単語に対する頻度確率を計算して付与するこ
とにより、単語カテゴリーの頻度確率付き単語分割決定
木を生成する第2の学習手段と、上記テキストデータに
基づいて、処理対象の単語の語数と、処理対象の主辞単
語の品詞、処理対象の直前の単語の品詞、単語の相互情
報量を用いた階層的な分類とを含む複数の属性を用い
て、上記各属性の属性値に依存して分割されるような二
分木形式の木構造を有し文法規則付与のための文法規則
決定木を生成し、上記生成された文法規則決定木の分割
されないノードであるリーフノードに対して複数の文法
規則に対する頻度確率を計算して付与することにより、
頻度確率付き文法規則決定木を生成する第3の学習手段
と、上記テキストデータに基づいて、処理対象の単語の
語数と、処理対象の主辞単語の品詞、処理対象の直前の
単語の品詞、単語の相互情報量を用いた階層的な分類と
を含む複数の属性を用いて、上記各属性の属性値に依存
して分割されるような二分木形式の木構造を有し文法規
則付与処理における各パージング状態で処理方向を決定
するための処理方向決定木を生成し、上記生成された処
理方向決定木の分割されないノードであるリーフノード
に対して複数の処理方向に対する頻度確率を計算して付
与することにより、頻度確率付き処理方向決定木を生成
する第4の学習手段と、入力される日本語の文字列から
なるテキストデータに基づいて、上記第2の学習手段に
よって生成された単語カテゴリーの頻度確率付き単語分
割決定木を用いて、上記単語分割決定木のリーフノード
に付与された単語カテゴリーの頻度確率の中で上位複数
n個の頻度確率を選択して上記テキストデータの各単語
候補に対して付与するとともに、上記入力される文字列
からなるテキストデータに基づいて、上記第1の学習手
段によって生成された品詞カテゴリーの頻度確率付き品
詞決定木を用いて、上記品詞決定木のリーフノードに付
与された品詞カテゴリーの頻度確率の中で上位複数n個
の頻度確率を選択して上記テキストデータの各単語候補
に対して付与し、上記テキストデータの単語候補列にお
いて上位複数n個の結合確率を有する単語分割された単
語と品詞の組み合わせの列を、複数n個の処理候補とし
て出力する第1の処理手段と、上記第1の処理手段から
出力される複数n個の処理候補のうち、より上位の処理
候補から順次1つずつの処理候補に対して1つの文とし
て成立するまで、所定のスタック・デコーダ・アルゴリ
ズムを用いて、文法規則付与処理における各パージング
状態での単語列に対する結合確率が最大の結合確率を有
するパージング状態を選択した後、上記第4の学習手段
によって生成された頻度確率付き処理方向決定木を用い
て上記処理対象の単語列における処理方向を決定し、決
定された処理方向におけるパージング状態において、上
記第3の学習手段によって生成された頻度確率付き文法
規則決定木に従って文法規則を上記処理対象の単語列に
加えることにより構文解析情報を付与して構文解析済み
テキストデータを出力する第2の処理手段とを備えたこ
とを特徴とする。According to a first aspect of the present invention, there is provided a Japanese-language parsing apparatus, comprising: a spelling feature for each word; Using a plurality of attributes including the characteristics according to how they are used and the hierarchical classification using mutual information of words, the binary tree format is divided depending on the attribute value of each attribute described above. By generating a part-of-speech decision tree having a tree structure for part-of-speech assignment, by calculating and adding frequency probabilities for a plurality of parts of speech to a leaf node that is an undivided node of the generated part-of-speech decision tree, First learning means for generating a part-of-speech decision tree with frequency probabilities of part-of-speech categories;
Based on the text data, a plurality of attributes including a spelling characteristic of each word, a characteristic of a succeeding character, a characteristic of a part of speech connected before, and a hierarchical classification using mutual information of words are used. Generating a word-segmented decision tree for word segmentation having a tree structure in a binary tree format that is segmented depending on the attribute value of each attribute, and the generated word-segmented decision tree is not segmented. A second learning unit that generates a word division decision tree with a frequency probability of a word category by calculating and adding frequency probabilities for words and non-words to a leaf node that is a node, and based on the text data. Using a plurality of attributes including the number of words of the word to be processed, the part of speech of the subject word to be processed, the part of speech of the word immediately before the object of processing, and hierarchical classification using mutual information of words, Attribute value of attribute A grammar rule decision tree for grammar rule assignment is generated having a tree structure of a binary tree format that is dependently divided, and a leaf node that is an undivided node of the generated grammar rule decision tree is generated. By calculating and assigning frequency probabilities for multiple grammar rules,
Third learning means for generating a grammar rule decision tree with frequency probability, based on the text data, the number of words to be processed, the part of speech of the head word to be processed, the part of speech of the word immediately before the processing target, and the word Using a plurality of attributes including a hierarchical classification using mutual information, a tree structure of a binary tree format that is divided depending on the attribute value of each of the above attributes is used in the grammar rule assignment process. Generates a processing direction decision tree for determining a processing direction in each purging state, and calculates and assigns frequency probabilities for a plurality of processing directions to a leaf node that is an undivided node of the generated processing direction decision tree. By doing so, the fourth learning means for generating a processing direction decision tree with a frequency probability and the second learning means based on text data consisting of an input Japanese character string Using the word segmentation decision tree with frequency probabilities of the word categories, selecting the top plural n frequency probabilities among the frequency probabilities of the word categories assigned to the leaf nodes of the word segmentation decision tree, and selecting each of the text data The part-of-speech tree is assigned to a word candidate, and using the part-of-speech tree with frequency probability of the part-of-speech category generated by the first learning means, based on the text data composed of the input character string. Among the frequency probabilities of the part-of-speech categories assigned to the leaf nodes of n, a plurality of top n frequency probabilities are selected and assigned to each word candidate of the text data, and the top plural n in the word candidate sequence of the text data are selected. First processing means for outputting a sequence of combinations of words and parts of speech that have been divided into words having a combination probability of n as a plurality of n processing candidates; A predetermined stack decoder algorithm is used until a single sentence is established for each of the processing candidates one by one from the higher processing candidates among the plurality of n processing candidates output from one processing means. Then, in the grammar rule assignment process, after selecting a purging state in which the connection probability for the word string in each purging state has the maximum connection probability, the processing direction decision tree with frequency probability generated by the fourth learning means is used. In the parsing state in the determined processing direction, the grammatical rule is determined according to the grammar rule decision tree with frequency probability generated by the third learning means. Second processing means for adding parsing information by adding to the column and outputting parsed text data. And features.
【0010】また、請求項2記載の日本語構文解析装置
は、請求項1記載の日本語構文解析装置において、上記
各決定木学習手段は、上記二分木の形式で分割するとき
に、上記各属性による分割前の属性の有効性の優先順位
を表わすエントロピーH0と分割後のエントロピーHと
の差(H0−H)が最大の属性を分割候補の属性として
選択し、所定の分割続行基準を満足するときに、二分木
の形式で分割して決定木を更新することを特徴とする。Further, in the Japanese parsing apparatus according to claim 2, in the Japanese parsing apparatus according to claim 1, each of the decision tree learning means, when dividing in the binary tree format, The attribute having the largest difference (H 0 −H) between the entropy H 0 indicating the priority of the validity of the attribute before the attribute and the entropy H after the split is selected as the attribute of the candidate for division, and a predetermined division continuation criterion Is satisfied, the decision tree is updated by dividing in the form of a binary tree.
【0011】さらに、請求項3記載の日本語構文解析装
置は、請求項2記載の日本語構文解析装置において、上
記分割続行基準は、(I)選択された属性に基づいて分
割したときのエントロピーの差(H0−H)が所定のエ
ントロピーしきい値Hth以上であり、かつ(II)選択
された属性に基づく分割後の属性とその属性値及び品詞
の組のイベント数が所定のイベント数しきい値Dth以
上であることを特徴とする。Further, in the Japanese parsing apparatus according to the third aspect, in the Japanese parsing apparatus according to the second aspect, the division continuation criterion is: (I) entropy when the division is performed based on the selected attribute. (H 0 −H) is equal to or greater than a predetermined entropy threshold value Hth, and (II) the number of events of the set of the attribute after division based on the selected attribute and its attribute value and part of speech is the predetermined number of events It is characterized by being equal to or more than the threshold value Dth.
【0012】またさらに、請求項4記載の日本語構文解
析装置は、請求項1乃至3のうちの1つに記載の日本語
構文解析装置において、上記第1の処理手段は、上記単
語分割決定木のリーフノードに付与された単語カテゴリ
ーの頻度確率の中で上位複数n個の頻度確率を選択して
上記テキストデータの各単語候補に対して付与し、かつ
上記品詞付与決定木のリーフノードに付与された品詞カ
テゴリーの頻度確率の中で上位複数n個の頻度確率を選
択して上記テキストデータの各単語候補に対して付与し
た後、所定のスタック・デコーダ・アルゴリズムに用い
て、処理途中のテキストデータの単語候補列に対する結
合確率が所定の結合確率以上である単語と品詞の組み合
わせの列の処理候補のみを残して当該組み合わせの候補
を限定し、当該処理終了時の上記テキストデータの文字
列において上位複数n個の結合確率を有する単語分割さ
れた単語と品詞の組み合わせの列を、複数n個の処理候
補として出力することを特徴とする。Further, the Japanese parsing apparatus according to a fourth aspect of the present invention is the Japanese parsing apparatus according to any one of the first to third aspects, wherein the first processing means is configured to determine the word division. From the frequency probabilities of the word categories assigned to the leaf nodes of the tree, select the top n number of frequency probabilities and assign them to each word candidate of the text data, and to the leaf node of the part-of-speech assignment decision tree After selecting a plurality of top n frequency probabilities from the frequency probabilities of the given part-of-speech categories and adding them to each word candidate of the text data, they are used for a predetermined stack decoder algorithm, and The candidates of the combination of words and parts of speech whose connection probabilities to the word candidate sequence of the text data are equal to or higher than a predetermined connection probability are limited, and the candidates of the combination are limited. A row of combinations of word split word and part of speech having a higher multiple of n joint probability in a string of the text data at the end, and outputs a plurality of n candidate processing.
【0013】本発明に係る請求項5記載の日本語構文解
析装置は、日本語の文字列からなる構文解析済みテキス
トデータに基づいて、各単語の綴りの特徴と、文章内の
使われ方による特徴と、単語の相互情報量を用いた階層
的な分類とを含む複数の属性を用いて、上記各属性の属
性値に依存して分割されるような二分木形式の木構造を
有し品詞付与のための品詞決定木を生成し、上記生成さ
れた品詞決定木の分割されないノードであるリーフノー
ドに対して複数の品詞に対する頻度確率を計算して付与
することにより、品詞カテゴリーの頻度確率付き品詞決
定木を生成する第1の学習手段と、上記テキストデータ
に基づいて、各単語の綴りの特徴と、後続する文字の特
徴と、前につながる品詞の特徴と、単語の相互情報量を
用いた階層的な分類とを含む複数の属性を用いて、上記
各属性の属性値に依存して分割されるような二分木形式
の木構造を有し単語分割のための単語分割決定木を生成
し、上記生成された単語分割決定木の分割されないノー
ドであるリーフノードに対して単語及び非単語に対する
頻度確率を計算して付与することにより、単語カテゴリ
ーの頻度確率付き単語分割決定木を生成する第2の学習
手段と、上記テキストデータに基づいて、処理対象の単
語の語数と、処理対象の主辞単語の品詞、処理対象の直
前の単語の品詞、単語の相互情報量を用いた階層的な分
類とを含む複数の属性を用いて、上記各属性の属性値に
依存して分割されるような二分木形式の木構造を有し文
法規則付与のための文法規則決定木を生成し、上記生成
された文法規則決定木の分割されないノードであるリー
フノードに対して複数の文法規則に対する頻度確率を計
算して付与することにより、頻度確率付き文法規則決定
木を生成する第3の学習手段と、上記テキストデータに
基づいて、処理対象の単語の語数と、処理対象の主辞単
語の品詞、処理対象の直前の単語の品詞、単語の相互情
報量を用いた階層的な分類とを含む複数の属性を用い
て、上記各属性の属性値に依存して分割されるような二
分木形式の木構造を有し文法規則付与処理における各パ
ージング状態で処理方向を決定するための処理方向決定
木を生成し、上記生成された処理方向決定木の分割され
ないノードであるリーフノードに対して複数の処理方向
に対する頻度確率を計算して付与することにより、頻度
確率付き処理方向決定木を生成する第4の学習手段と、
入力される日本語の文字列からなるテキストデータに基
づいて、上記第2の学習手段によって生成された単語カ
テゴリーの頻度確率付き単語分割決定木を用いて、上記
単語分割決定木のリーフノードに付与された単語カテゴ
リーの頻度確率の中で上位複数n個の頻度確率を選択し
て上記テキストデータの各単語候補に対して付与すると
ともに、上記入力される文字列からなるテキストデータ
に基づいて、上記第1の学習手段によって生成された品
詞カテゴリーの頻度確率付き品詞決定木を用いて、上記
品詞決定木のリーフノードに付与された品詞カテゴリー
の頻度確率の中で上位複数n個の頻度確率を選択して上
記テキストデータの先頭単語候補から1つずつの単語候
補に対して付与し、上記テキストデータの単語候補列に
おいて最上位の結合確率を有する単語分割された単語と
品詞の組み合わせの列を、処理候補として出力する第1
の処理手段と、上記第1の処理手段から出力される処理
候補に対して、所定のスタック・デコーダ・アルゴリズ
ムを用いて、文法規則付与処理における各パージング状
態での単語列に対する結合確率が最大の結合確率を有す
るパージング状態を選択した後、上記第4の学習手段に
よって生成された頻度確率付き処理方向決定木を用いて
上記処理対象の単語列における処理方向を決定し、決定
された処理方向におけるパージング状態において、上記
第3の学習手段によって生成された頻度確率付き文法規
則決定木に従って文法規則を上記処理対象の単語列に加
えることにより構文解析情報を付与して構文解析済み単
語を出力する第2の処理手段と、上記第1と第2の処理
手段の処理を、上記入力される文字列からなるテキスト
データの先頭から1つの単語候補ずつ、上記テキストデ
ータの1文に対する構文解析済みテキストデータが得ら
れるまで繰り返すように制御する第3の処理手段とを備
えたことを特徴とする。According to a fifth aspect of the present invention, there is provided a Japanese-language parsing apparatus according to a spelling characteristic of each word and a usage in a sentence based on parsed text data composed of Japanese character strings. Using a plurality of attributes including a feature and a hierarchical classification using mutual information of words, a part-of-speech having a tree structure in a binary tree format that is divided depending on the attribute value of each of the above attributes By generating a part-of-speech decision tree for assignment and calculating and assigning frequency probabilities for a plurality of parts-of-speech to a leaf node that is an undivided node of the generated part-of-speech decision tree, with a part-of-speech category frequency probability First learning means for generating a part-of-speech decision tree, and using the spelling characteristics of each word, the characteristics of the succeeding characters, the characteristics of the part of speech connected before, and the mutual information of the words based on the text data. Had a hierarchical minute And generating a word division decision tree for word division having a tree structure in a binary tree format such that the tree is divided depending on the attribute value of each of the above attributes. Learning means for generating a word division decision tree with frequency probabilities of word categories by calculating and adding frequency probabilities for words and non-words to leaf nodes, which are nodes that are not split, in the word division decision tree And a hierarchical classification using the number of words of the processing target, the part of speech of the subject head word to be processed, the part of speech of the word immediately before the processing target, and the mutual information of the words based on the text data. A grammar rule decision tree for giving a grammar rule having a tree structure in a binary tree format that is divided depending on the attribute value of each of the above attributes, Do not split the decision tree A third learning means for generating a grammar rule decision tree with a frequency probability by calculating and assigning frequency probabilities for a plurality of grammar rules to a leaf node which is a node; Using a plurality of attributes including the number of words of the word, the part of speech of the subject head word to be processed, the part of speech of the word immediately before the processing object, and hierarchical classification using mutual information of words, Generating a processing direction determination tree for determining a processing direction in each parsing state in the grammar rule assignment processing in a tree structure of a binary tree format that is divided depending on a value; Fourth learning means for calculating and assigning frequency probabilities for a plurality of processing directions to a leaf node which is a node that is not split into trees, thereby generating a processing direction decision tree with frequency probabilities;
Assigned to leaf nodes of the word division decision tree using a word division decision tree with frequency probabilities of word categories generated by the second learning means, based on text data consisting of an input Japanese character string The frequency probabilities of the upper plural n are selected from the frequency probabilities of the word categories given and assigned to each word candidate of the text data, and based on the text data composed of the input character string, Using the part-of-speech decision tree with frequency probabilities of the part-of-speech categories generated by the first learning means, a plurality of top n frequency probabilities are selected from the frequency probabilities of the part-of-speech categories assigned to the leaf nodes of the part-of-speech decision tree. Then, one word is assigned to each word candidate from the first word candidate of the text data. A row of combinations of word split word and part of speech having a probability, the outputs as processing candidate 1
And a processing candidate output from the first processing means, using a predetermined stack decoder algorithm, to obtain the maximum combination probability for the word string in each parsing state in the grammar rule assignment processing. After selecting the purging state having the connection probability, the processing direction in the word string to be processed is determined using the processing direction decision tree with frequency probability generated by the fourth learning means, and the processing direction in the determined processing direction is determined. In the parsing state, a grammar rule is added to the word string to be processed in accordance with the grammar rule decision tree with frequency probability generated by the third learning means, thereby giving syntactic analysis information and outputting a parsed word. 2 and the processing of the first and second processing means from the beginning of the text data consisting of the input character string. One of each word candidate, is characterized in that a third processing means for controlling so as to repeat until the parsed text data for one sentence of the text data is obtained.
【0014】また、請求項6記載の日本語構文解析装置
は、請求項5記載の日本語構文解析装置において、上記
各決定木学習手段は、上記二分木の形式で分割するとき
に、上記各属性による分割前の属性の有効性の優先順位
を表わすエントロピーH0と分割後のエントロピーHと
の差(H0−H)が最大の属性を分割候補の属性として
選択し、所定の分割続行基準を満足するときに、二分木
の形式で分割して決定木を更新することを特徴とする。According to a sixth aspect of the present invention, there is provided the Japanese syntax analyzer according to the fifth aspect, wherein each of the decision tree learning means is configured to perform the above-mentioned splitting in a binary tree format. The attribute having the largest difference (H 0 −H) between the entropy H 0 indicating the priority of the validity of the attribute before the attribute and the entropy H after the split is selected as the attribute of the candidate for division, and a predetermined division continuation criterion Is satisfied, the decision tree is updated by dividing it in the form of a binary tree.
【0015】さらに、請求項7記載の日本語構文解析装
置は、請求項6記載の日本語構文解析装置において、上
記分割続行基準は、(I)選択された属性に基づいて分
割したときのエントロピーの差(H0−H)が所定のエ
ントロピーしきい値Hth以上であり、かつ(II)選択
された属性に基づく分割後の属性とその属性値及び品詞
の組のイベント数が所定のイベント数しきい値Dth以
上であることを特徴とする。Further, the Japanese syntax analyzer according to claim 7 is the Japanese syntax analyzer according to claim 6, wherein the division continuation criterion is: (I) entropy when the division is performed based on the selected attribute. (H 0 −H) is equal to or greater than a predetermined entropy threshold value Hth, and (II) the number of events of the set of the attribute after division based on the selected attribute and its attribute value and part of speech is the predetermined number of events It is characterized by being equal to or more than the threshold value Dth.
【0016】またさらに、請求項8記載の日本語構文解
析装置は、請求項5乃至7のうちの1つに記載の日本語
構文解析装置において、上記第1の処理手段は、上記単
語分割決定木のリーフノードに付与された単語カテゴリ
ーの頻度確率の中で上位複数n個の頻度確率を選択して
上記テキストデータの単語候補に対して付与し、かつ上
記品詞付与決定木のリーフノードに付与された品詞カテ
ゴリーの頻度確率の中で上位複数n個の頻度確率を選択
して上記テキストデータの各単語候補に対して付与した
後、所定のスタック・デコーダ・アルゴリズムに用い
て、処理途中のテキストデータの単語候補列に対する結
合確率が所定の結合確率以上である単語と品詞の組み合
わせの列の処理候補のみを残して当該組み合わせの候補
を限定し、当該処理終了時の上記テキストデータの文字
列において最上位の結合確率を有する単語分割された単
語と品詞の組み合わせの列を、処理候補として出力する
ことを特徴とする。According to a further aspect of the present invention, there is provided the Japanese language parsing apparatus according to any one of the fifth to seventh aspects, wherein the first processing means comprises the step of: From the frequency probabilities of the word categories assigned to the leaf nodes of the tree, select the top n number of frequency probabilities and assign them to the word candidates of the text data, and assign them to the leaf nodes of the part-of-speech assignment decision tree After selecting the top n frequency probabilities from among the frequency probabilities of the part-of-speech categories given and assigning them to each word candidate of the above-described text data, using a predetermined stack decoder algorithm, the text being processed is processed. Only the processing candidates of the sequence of the combination of the word and the part-of-speech in which the combination probability of the data to the word candidate sequence is equal to or greater than the predetermined combination probability are limited, and the candidates of the combination are limited. A row of combinations of word split word and part of speech having a joint probability of the top-level in the above text data string Ryoji, and outputs the processed candidate.
【0017】[0017]
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。Embodiments of the present invention will be described below with reference to the drawings.
【0018】図1は、本発明に係る一実施形態である、
決定木学習装置10及び構文情報付与装置11を備えた
日本語構文解析システムのブロック図である。この日本
語構文解析システムは、日本語のテキストデータに対し
て、品詞付与のための辞書を参照しないで、品詞を付与
した後、素性構造付き文脈自由文法などの詳細な構文構
造の情報を付与することはできる構文解析システムであ
って、(a)構文解析付与済みテキストメモリ21に格
納された構文情報付与済みテキストデータに基づいて、
属性リストメモリ22に格納された属性リストと、品詞
リストメモリ23に格納された品詞リストとを参照し
て、詳細後述する品詞決定木学習処理を実行して学習す
ることにより、頻度確率付き品詞決定木を生成して品詞
決定木ファイルメモリ25に格納し、次いで、構文解析
付与済みテキストメモリ21に格納された構文情報付与
済みテキストデータに基づいて、属性リストメモリ22
に格納された属性リストと、文法規則リストメモリ24
に格納された文法規則リストとを参照して、詳細後述す
る文法規則決定木学習処理を実行して学習することによ
り、頻度確率付き文法規則決定木を生成して文法規則決
定木ファイルメモリ26に格納し、さらに、構文解析付
与済みテキストメモリ21に格納された構文情報付与済
みテキストデータに基づいて、属性リストメモリ22に
格納された属性リストと、文法規則リストメモリ24に
格納された文法規則リストとを参照して、詳細後述する
処理方向決定木学習処理を実行して学習することによ
り、頻度確率付き処理方向決定木を生成して処理方向決
定木ファイルメモリ27に格納し、さらには、構文解析
付与済みテキストメモリ21に格納された構文情報付与
済みテキストデータに基づいて、属性リストメモリ22
に格納された属性リストと、単語リストメモリ29に格
納された単語リストとを参照して、詳細後述する単語分
割決定木学習処理を実行して学習することにより、頻度
確率付き単語分割決定木を生成して単語分割決定木ファ
イルメモリ28に格納するする決定木学習装置10と、
(b)スタックメモリ12が構文情報付与装置11に接
続され、品詞決定木ファイルメモリ25に格納された頻
度確率付き品詞決定木と、文法規則決定木ファイルメモ
リ26に格納された頻度確率付き文法規則決定木と、処
理方向決定木ファイルメモリ27に格納された頻度確率
付き処理方向決定木と、単語分割決定木ファイルメモリ
28に格納された頻度確率付き単語分割決定木とを用い
て、属性リストメモリ22に格納された属性リストと、
品詞リストメモリ23に格納された品詞リストと、文法
規則リストメモリ24に格納された文法規則リストと、
単語リストメモリ29に格納された単語リストとを参照
して、テキストデータメモリ30に格納され入力される
テキストデータに対して、詳細後述する単語分割及び品
詞付与処理(図8及び図9)及び文法規則付与処理(図
10及び図11)を含む構文情報付与処理を実行するこ
とにより、品詞を付与しかつ文法規則を付与して、構文
解析済みテキストデータを生成して構文解析済みテキス
トデータ31に格納する構文情報付与装置11とを備え
たことを特徴とする。本実施形態においては、テキスト
データとは、日本語の文字列又は単語列からなる日本語
文である。FIG. 1 shows an embodiment according to the present invention.
1 is a block diagram of a Japanese syntax analysis system including a decision tree learning device 10 and a syntax information providing device 11. FIG. This Japanese parsing system adds detailed parts of the syntax structure, such as context-free grammar with feature structure, to the Japanese text data after adding the parts of speech without referring to the dictionary for the parts of speech. (A) based on the text data with syntax information stored in the text memory 21 with syntax analysis,
By referring to the attribute list stored in the attribute list memory 22 and the part-of-speech list stored in the part-of-speech list memory 23, the part-of-speech determination with frequency probability is performed by learning by executing a part-of-speech determination tree learning process described later in detail. A tree is generated and stored in the part-of-speech decision tree file memory 25. Then, based on the text data with syntax information stored in the text memory 21 with syntax analysis, the attribute list memory 22
List and grammar rule list memory 24
The grammar rule decision tree with the frequency probability is generated by executing the grammar rule decision tree learning process described in detail later with reference to the grammar rule list stored in the grammar rule decision tree file memory 26. The attribute list stored in the attribute list memory 22 and the grammar rule list stored in the grammar rule list memory 24 are stored based on the text data with the syntax information stored in the text memory 21 with the syntax analysis. With reference to the above, a processing direction decision tree learning process, which will be described in detail later, is executed to perform learning, thereby generating a processing direction decision tree with frequency probability and storing it in the processing direction decision tree file memory 27. On the basis of the text data with the syntax information stored in the text memory 21 with the analysis, the attribute list memory 22
By referring to the attribute list stored in the word list and the word list stored in the word list memory 29, a word division decision tree with frequency probability is learned by executing a word division decision tree learning process described later in detail. A decision tree learning device 10 that generates and stores the word tree in the word division decision tree file memory 28;
(B) The stack memory 12 is connected to the syntax information providing apparatus 11, and the part-of-speech decision tree with frequency probability stored in the part-of-speech tree file memory 25, and the grammar rule with frequency probability stored in the grammar rule decision tree file memory 26 Attribute list memory using a decision tree, a processing direction decision tree with frequency probability stored in the processing direction decision tree file memory 27, and a word division decision tree with frequency probability stored in the word division decision tree file memory 28 An attribute list stored at 22;
A part-of-speech list stored in a part-of-speech list memory 23, a grammar rule list stored in a grammar rule list memory 24,
With reference to the word list stored in the word list memory 29, the text data stored and input in the text data memory 30 is subjected to word division and part of speech assignment processing (to be described in detail later) (FIGS. 8 and 9) and grammar. By executing the syntax information providing process including the rule providing process (FIGS. 10 and 11), the part-of-speech is provided and the grammatical rule is provided, the parsed text data is generated, and the parsed text data 31 is generated. And a syntax information providing device 11 for storing. In the present embodiment, the text data is a Japanese sentence composed of a Japanese character string or word string.
【0019】まず、本実施形態で利用する知識について
説明する。一般に日本語の構文解析装置では、係り受け
関係を捉えることが多く、本実施形態では、素性構造付
文脈自由文法で記述している。また、決定木で利用され
る特徴として、語を構成している部分的な文字列の特徴
や語あるいは品詞等の接続情報などを利用している。First, the knowledge used in the present embodiment will be described. In general, Japanese syntax analyzers often detect dependency relationships, and in the present embodiment, they are described using a context-free grammar with a feature structure. Further, as features used in the decision tree, features of partial character strings constituting words, connection information such as words or parts of speech, and the like are used.
【0020】次いで、本実施形態で利用する文法につい
て説明する。本実施形態では、16種類の素性を用いた
素性構造付文脈自由文法を利用している。素性として
は、カテゴリ(cat)、名詞の型(n_type)、
動詞の型(v_type)などがあり、品詞タグは、基
本的なカテゴリ、名詞や動詞の型、活用の種類や活用形
の組み合わせにより表現され(表1参照。)、約200
種類におよぶ。文法は、この品詞タグをベースに、約1
00種類の統語規則から構成される(表2参照。))。Next, the grammar used in the present embodiment will be described. In the present embodiment, a context-free grammar with a feature structure using 16 types of features is used. The features include a category (cat), a noun type (n_type),
There are verb types (v_type) and the like, and part-of-speech tags are represented by combinations of basic categories, noun and verb types, types of inflections, and inflections (see Table 1), and are about 200.
Range. The grammar is about 1 based on this part of speech tag.
It consists of 00 types of syntactic rules (see Table 2).
【0021】[0021]
【表1】 品詞タグの一例 ─────────────────────────────────── 規則 格動詞 ─────────────────────────────────── 例 に、を、が、で、と、から、まで、へ、について、の、 によって、って、より、として、にて ─────────────────────────────────── 親 cat p bar 0 pos 助詞 p_type 格 ───────────────────────────────────[Table 1] Example of part of speech tag ─────────────────────────────────── Rule case verb ─────────────────────────────── For example,,,,,,, to, to, to, , Parent, cat, cat p bar 0 pos particle p_type case ───────────────────────────────────
【0022】[0022]
【表2】 文法規則の一例 ─────────────────────────────────── 規則 VP_np+ap ─────────────────────────────────── 記述 VP_np+ap→NP AP ─────────────────────────────────── 例 [vp[npあなたさえ] [apよければ] ─────────────────────────────────── 親 cat v bar 2 pos vp_np+ap n_type V* ─────────────────────────────────── 子1 cat CAT bar 2 pos V* n_type V* v_type V* a_type A katuyou V* katuyoukei V* ─────────────────────────────────── 条件 not((A=unspec)|(CAT=s)) ───────────────────────────────────[Table 2] An example of a grammar rule {Rule VP_np + ap} {Description VP_np + ap → NP AP}例 Example [vp [np even you] [if you like ap] ───────────────── {Parent cat v bar 2 pos vp_np + ap n_type V *}子 child 1 cat CAT bar 2 pos V * n_type V * v_type V * a_type A katyouyou V * katyuyoukei V * ─────────────────────────────────── Condition not ((A = unspec) | (CAT = s) ) ───────────────────────────────────
【0023】また、この文法は、対話データでの表現を
捉えられるように、考慮されており、いわゆる通常の文
法という意味では、非文扱いされるものに対しても、処
理できるように考慮されている。This grammar is considered so as to capture the expression in the conversation data. In the sense of a so-called ordinary grammar, it is also considered so as to be able to process non-sentences. ing.
【0024】次いで、語法の性質(特徴)について説明
する。上述した文法の制約のみでは、形態素解析済の入
力に対する構文構造だけでも、多くの解析候補がある。
さらに、形態素解析の候補を考慮すると、膨大な量の候
補が存在することになる。このような候補から正しい構
造を選択するには、処理の過程で適切な選択をしていく
必要があり、その選択を行うために、様々な特徴を利用
する。利用している特徴には、(1)語(あるいは句、
節)に関する特徴、と(2)(文内の)文脈に関する特
徴があり、形態素、構文のレベルで統計的な尤度にした
がって有効に活用される。Next, the nature (characteristics) of the wording will be described. With only the grammatical constraints described above, there are many analysis candidates only for the syntax structure of the morphologically analyzed input.
Furthermore, considering the candidates for morphological analysis, there will be an enormous amount of candidates. In order to select a correct structure from such candidates, it is necessary to make an appropriate selection in the course of processing, and various characteristics are used to make the selection. Features used include (1) words (or phrases,
Clauses) and (2) contextual features (in sentences), which are effectively used at the morpheme and syntax levels according to statistical likelihood.
【0025】次いで、語に関する特徴について説明す
る。単語自身の持つ特徴であり、その部分的な綴り、文
字数、構成文字種等に関する特徴や、品詞タグが付与さ
れた後には、品詞タグの持つ各素性の値が特徴として利
用される。なお、語ではなく句や節として文法規則でま
とめられている場合には、その規則の親ノードの持つ素
性の値が特徴として利用される。また、どのようなノー
ドから構成されているか、句や節を構成している単語数
なども特徴として利用される。単語自身が持つ語彙の特
徴は、単語に対するタグを決めるのに非常に有効な情報
であるとともに、構文構造のある範囲での主辞となる語
の情報としても利用される。本実施形態で扱う語彙の情
報は、見出し語として辞書より得られる情報を利用する
こともできるが、基本的には、先に述べたような語を構
成している部分的な文字列や文字数等により特徴づけら
れているためにいわゆる「未知語」という概念がない。
強いて、本実施形態で「未知語」を考える場合には、特
徴を抽出した学習データに現れない語と捉えることがで
きる。Next, features relating to words will be described. The characteristics of the word itself, such as its partial spelling, the number of characters, the type of constituent characters, and the like, and after the part-of-speech tag is attached, the value of each feature of the part-of-speech tag is used as the characteristic. When a phrase or a clause is grouped by a grammatical rule instead of a word, the feature value of the parent node of the rule is used as a feature. In addition, what kind of node is used, the number of words forming a phrase or a clause, and the like are also used as features. The characteristics of the vocabulary of the word itself are very useful information for determining a tag for the word, and are also used as information of a head word in a certain range of the syntax structure. The vocabulary information handled in the present embodiment can use information obtained from a dictionary as a headword, but basically, the partial character string or the number of characters constituting the word as described above is used. There is no concept of so-called "unknown word" because it is characterized by the like.
When considering "unknown word" in the present embodiment, it can be considered as a word that does not appear in the learning data from which the feature is extracted.
【0026】次いで、文内文脈に関する特徴について説
明する。現在の処理対象に関する特徴だけでなく、その
直前の語の特徴や、接続する文字の特徴、あるいは、処
理対象の2つ前の語や品詞についての特徴、文頭や、文
末に関する特徴、処理対象の前で一番近くにある助詞の
情報、そこまでの単語数などが特徴として利用される。
このように、ある一定の定められた語の情報だけでな
く、柔軟に距離が変化する特徴も利用することができ
る。また、今処理している文字列が、同一文内に現れて
いるかどうか等も、特徴として利用で用できる。これら
の特長を、「語法の特徴」と呼び、記述するための枠組
みを本実施形態で用いた。Next, features relating to the in-sentence context will be described. In addition to the features related to the current processing target, the features of the word immediately before it, the characteristics of the characters to be connected, the features of the word or part of speech two words before the processing target, the features related to the beginning and end of the sentence, the characteristics of the processing target The information of the nearest particle in front, the number of words up to that, and the like are used as features.
As described above, not only information of a certain fixed word but also a feature that a distance is flexibly changed can be used. Whether or not the character string currently being processed appears in the same sentence can also be used as a feature. These features are called "characteristic features", and a framework for describing them is used in the present embodiment.
【0027】さらに、確率付決定木による解析について
説明する。すべての「語法の特徴」が、形態素、および
構文解析で利用されるわけではない。「語法の特徴」
は、学習用コーパスに現れる統計的な優位性を基準に、
解析知識として効率的に利用するために決定木の枠組み
の中で利用される。ここで、枝刈りに、最小コストコン
プレキシティ(minimal cost-complexity)アルゴリズ
ムを用い、スムージングには、フォワード・バックワー
ド(Forward-Backward)アルゴリズムを用いた。利用す
る決定木は、2分木のものであり、各分岐点での判断に
「語法の特徴」を利用する。だたし、2分木であるた
め、3個以上の値を持つ特徴を直接利用することができ
ない。そこで、3個以上の値を持つ語法の特徴を決定木
の分岐点の情報として利用するために、特徴の各値に
“0”,“1”からなる固有のビット列を与え、そのビ
ット列内の特定のビットを1つの分岐点の情報として利
用する。また、その特徴が有効な特徴であるかどうかの
分岐も行っている。特徴が有効かどうかは、その特徴を
判断することができるかいなかによる。例えば、文頭の
単語を処理する場合に、直前の単語に関する特徴は利用
できないため、有効な特徴ではない。Further, analysis using a decision tree with probability will be described. Not all "grammatical features" are used in morphemes and parsing. "Characteristics"
Is based on the statistical advantage that appears in the learning corpus,
It is used in the framework of decision trees for efficient use as analytical knowledge. Here, a minimum cost complexity (minimal cost-complexity) algorithm was used for pruning, and a forward-backward (Forward-Backward) algorithm was used for smoothing. The decision tree to be used is a binary tree, and uses “characteristics of language” for judgment at each branch point. However, since it is a binary tree, a feature having three or more values cannot be directly used. Therefore, in order to use the features of the wording having three or more values as information on the branch point of the decision tree, a unique bit string consisting of “0” and “1” is given to each value of the feature, and A specific bit is used as information of one branch point. In addition, branching is performed to determine whether the feature is a valid feature. Whether a feature is valid depends on whether the feature can be determined. For example, when processing the word at the beginning of a sentence, the feature relating to the immediately preceding word cannot be used, and is not a valid feature.
【0028】次いで、解析処理の流れについて説明す
る。形態素解析、構文解析を統合する処理機構を実現す
るために、以下のような二つの統合の方法を用いる。 (a)[処理A]文末まで一旦、形態素解析を行い、各
候補に対して順次構文解析を行う。当該処理Aを、後述
する実施形態の説明において、実施形態として説明す
る。 (b)[処理B]左から右に文字単位で処理しながら形
態素解析、構文解析を行う。当該処理Bを、変形例とし
て説明する。Next, the flow of the analysis process will be described. In order to realize a processing mechanism that integrates morphological analysis and syntax analysis, the following two integration methods are used. (A) [Processing A] Morphological analysis is performed once until the end of the sentence, and syntax analysis is sequentially performed on each candidate. The process A will be described as an embodiment in the following description of the embodiment. (B) [Processing B] Morphological analysis and syntax analysis are performed while processing is performed in character units from left to right. The process B will be described as a modification.
【0029】処理Aでは、形態素解析時に構文情報を有
効に利用できるという統合での利点がなく、処理Bでの
統合が望まれる。比較のために、実験では、二つの処理
手法を切り替えて利用できるようにした。本実施形態で
は、その統計的言語モデルとして決定木モデルを採用
し、解析処理のために、以下の4種類の決定木を、学習
データを用いて構築する。 (a)[単語認識の決定木]単語としての妥当性を判断
するための決定木(以下、単語分割決定木という。)。 (b)[品詞付与の決定木]品詞タグの候補を選択する
ための決定木(以下、品詞決定木という。)。 (c)[文法規則適用の決定木]適用する構文規則を選
択するための決定木(以下、文法規則決定木とい
う。)。 (d)[処理方向の決定木]文法規則適用時の単語に対
する処理方向を選択するための決定木(以下、処理方向
決定木という。)。In process A, there is no advantage in integration that syntax information can be effectively used at the time of morphological analysis, and integration in process B is desired. For comparison, in the experiment, the two processing methods were switched and used. In the present embodiment, a decision tree model is adopted as the statistical language model, and the following four types of decision trees are constructed using learning data for analysis processing. (A) [Decision Tree for Word Recognition] A decision tree for determining validity as a word (hereinafter, referred to as a word division decision tree). (B) [decision tree for giving part-of-speech] A decision tree for selecting candidates for part-of-speech tags (hereinafter, referred to as a part-of-speech decision tree). (C) [Decision Tree for Applying Grammar Rules] A decision tree for selecting a syntax rule to be applied (hereinafter, referred to as a grammar rule decision tree). (D) [Processing direction decision tree] A decision tree for selecting a processing direction for a word when a grammar rule is applied (hereinafter, referred to as a processing direction decision tree).
【0030】解析処理では、これら4つの決定木をそれ
ぞれ以下の4つの状態で利用し、各状態で処理が行われ
る。 (a)単語認識の状態:現在の処理対象となっている文
字列が単語として妥当かを判断する。妥当な場合、単語
ノードとした状態を品詞付与の状態とするとともに、次
の文字を取り込んだ文字列を処理対象とする単語認識の
状態をつくり、各状態の処理を行う。妥当でないと判断
された場合、次の文字を取り込んだ文字列を処理対象と
する単語認識の状態をつくり、各状態の処理を行う。 (b)品詞付与の状態:現在の処理対象となる単語ノー
ドに適切な品詞タグを(複数の品詞候補がある場合は、
その候補分の状態をつくり、処理を行う。)、タグノー
ドとする構文規則適用の状態とするとともに、次の一文
字を処理対象とした単語認識の状態を作り、各々の状態
について処理を行う。 (c)構文規則適用の状態:現在の処理対象となるノー
ドから前のノードを参照し、適用できる構文規則に対し
て、ルートノードを設定し、構文規則適用の状態とする
とともに、次の一文字を処理対象とした単語認識の状態
を作り、各々の状態について処理を行う。 (d)処理方向選択の状態:現在の処理対象となるノー
ドから前のノードを参照し、適用できる処理方向に対し
て、ルートノードを設定し、処理方向の適用の状態とす
るとともに、次の一文字を処理対象とした単語認識の状
態を作り、各々の状態について処理を行う。In the analysis processing, these four decision trees are used in the following four states, respectively, and the processing is performed in each state. (A) State of word recognition: It is determined whether the current character string to be processed is valid as a word. If it is appropriate, the state as a word node is set as a part-of-speech state, and a state of word recognition is created in which a character string including the next character is to be processed. If it is determined that it is not appropriate, a state of word recognition is created with the character string containing the next character as a processing target, and the processing of each state is performed. (B) Part-of-speech state: An appropriate part-of-speech tag is assigned to the currently processed word node (when there are a plurality of part-of-speech candidates,
The state for the candidates is created and processing is performed. ), A state of applying the syntax rule as a tag node, and a state of word recognition for the next one character to be processed is created, and processing is performed for each state. (C) Status of application of syntax rules: The current node to be processed refers to the previous node, sets a root node for applicable syntax rules, sets the status of application of syntax rules, and sets the next character. Is made a word recognition state for processing, and processing is performed for each state. (D) Processing direction selection state: A root node is set for the applicable processing direction with reference to the previous node from the current processing target node, and the processing direction is applied. A state of word recognition for one character is created, and processing is performed for each state.
【0031】単語認識の状態では、単語ノードの作成に
対して、処理文字列が単語として妥当かどうかを判断す
る決定木が利用される。ここで利用される決定木は「単
語分割決定木」であり、単語として現れる確率値が計算
され、その値により、妥当か否かの判断がなされる。品
詞タグを付与する場合には、「品詞決定木」が利用さ
れ、確率付で一定以上の値を持つ品詞タグ候補が与えら
れる。構文規則適用についても、文法的に適用できる規
則に対して、「文法規則決定木」により適用できる規則
の内、一定以上の値を持つ規則に対して、ルートノード
が設定される。さらに、処理方向の選択についても、文
法的に適用できる規則に対して、「処理方向決定木」に
より適用できる処理方向の内、一定以上の値を持つ処理
方向に対して、ルートノードが設定される。また、複数
の状態の処理については、公知のスタックデコーダアル
ゴリズムを利用することで、処理の効率化をはかってい
る。In the word recognition state, a decision tree for determining whether a processing character string is valid as a word is used for creating a word node. The decision tree used here is a “word division decision tree”, and a probability value that appears as a word is calculated, and whether or not it is appropriate is determined based on the value. When a part-of-speech tag is assigned, a “part-of-speech decision tree” is used, and a part-of-speech tag candidate having a certain value or more with a probability is given. Regarding the application of syntax rules, a root node is set for a rule having a value equal to or more than a certain value among rules applicable by a “grammar rule decision tree” for rules applicable grammatically. Further, regarding the selection of the processing direction, a root node is set for a processing direction having a value equal to or more than a certain value among processing directions applicable by the “processing direction decision tree” for rules applicable grammatically. You. In addition, for the processing of a plurality of states, a known stack decoder algorithm is used to improve the processing efficiency.
【0032】次いで、本実施形態の構文解析システムに
おいて用いる文法規則と知識について詳述する。この中
で、まず、本実施形態で用いる詳細な文法規則について
述べる。学習用テキストデータベースであるコーパスに
現れる言語現象の中には、ある単位としてまとまること
により、言語的な特徴を持つ場合が少なくない。また、
この特徴が構文解析に非常に有効な情報となる場合も多
い。文法としては、素性構造つき文脈自由文法を用い
る。これは、文法規則の子供のノードには現れない特徴
を親ノードに付与することで、より詳細な情報を付与で
き、各素性の特徴を利用しやすいと考えたためである。Next, grammar rules and knowledge used in the syntax analysis system of the present embodiment will be described in detail. First, detailed grammatical rules used in the present embodiment will be described. Many linguistic phenomena appearing in a corpus, which is a learning text database, have linguistic characteristics by being organized as a unit. Also,
This feature is often very useful information for parsing. As the grammar, a context-free grammar with a feature structure is used. This is because it is considered that by giving features that do not appear in the child node of the grammar rule to the parent node, more detailed information can be given and the features of each feature are easy to use.
【0033】上述の文法規則に従う構造から、正しい構
造を得るために、様々な特徴を利用する。まず、文法に
与えられている各素性の持つ値の特徴を利用する。この
特徴に加えて、単語自身が持つ語彙の特徴、文の持つ特
徴を利用する。様々な文脈において、文法規則の素性が
取る値の統計的な性質を調べることで、どの文法規則が
確らしいかの指標を与えることができる。単語自身が持
つ語彙の特徴は、単語に対するタグを決めるのに非常に
有効な情報であるとともに、構文構造のある範囲での第
1の主辞となる語の情報としても利用される。本実施形
態において取り扱う語彙の情報は、辞書より得られる情
報ではなく、語を構成しているサフィックスやプレフィ
ックス、単語の文字数等により特徴づけられている。ま
た、文の持つ特徴は、1文に含まれる単語数や句読法、
あるいは、同じ単語が複数回現れているか等により特徴
づけられる。さらに、文脈的な情報を利用できるよう
に、直前の単語や文末、文頭、処理対象の文法規則のカ
バーする範囲の先頭の単語、末尾の単語等に関する特徴
も利用できるようにしている。文法家(文法規則を生成
する専門家をいう。)が様々な特徴を記述するために、
語法の特徴を記述するための枠組みを用いる。Various features are used to obtain the correct structure from the structure according to the grammar rules described above. First, the feature of the value of each feature given to the grammar is used. In addition to these features, the vocabulary features of the words themselves and the features of the sentences are used. In various contexts, examining the statistical properties of the values taken by the features of a grammar rule can give an indication of which grammar rule is likely. The characteristics of the vocabulary of the word itself are very effective information for determining a tag for the word, and are also used as information of the first head word in a certain range of the syntax structure. The vocabulary information handled in the present embodiment is not information obtained from the dictionary, but is characterized by the suffix and prefix constituting the word, the number of characters of the word, and the like. The sentence features include the number of words contained in one sentence, punctuation,
Alternatively, it is characterized by whether the same word appears more than once. Further, in order to use contextual information, features related to the immediately preceding word, the end of a sentence, the beginning of a sentence, the first word in the range covered by the grammar rule to be processed, the last word, and the like are also available. To describe various features, grammarists (specialists who generate grammar rules)
Use a framework to describe the characteristics of the grammar.
【0034】次いで、本実施形態で用いる統計的構文解
析法について述べる。本実施形態では、上述した特徴を
効率的に利用するために、統計的な性質を学習用コーパ
スを用いて計算し、確率付決定木として学習している。
本手法で用いる決定木では、枝刈りに、最小コスト−コ
ンプレキシティアルゴリズムを用い、スムージングに
は、フォワード−バックワードアルゴリズムを用いた。
この決定木は、2分木となっている。そのため、上述し
た特徴を決定木の分岐点の情報としては、直接利用でき
ない。そこで、各特徴の値に“0”,“1”の固有のビ
ット列を与え、特定のビットを利用する。また、その特
徴が有効な特徴であるかどうかの分岐も行っている。こ
こで、例えば、文頭の単語を処理する場合に、直前の単
語に関する特徴は利用できない。Next, a statistical parsing method used in this embodiment will be described. In the present embodiment, in order to efficiently use the above-described features, statistical properties are calculated using a learning corpus, and learning is performed as a decision tree with probability.
In the decision tree used in this method, a minimum cost-complexity algorithm was used for pruning, and a forward-backward algorithm was used for smoothing.
This decision tree is a binary tree. Therefore, the above-mentioned features cannot be directly used as the information of the branch point of the decision tree. Therefore, a unique bit string of “0” and “1” is given to each feature value, and specific bits are used. In addition, branching is performed to determine whether the feature is a valid feature. Here, for example, when processing the word at the beginning of the sentence, the feature related to the immediately preceding word cannot be used.
【0035】本手法の構文解析は、部分的な解析木を表
現する状態を、連続的に構築する処理として捉えられ
る。ある状態から次の状態に移るために、以下の処理の
いずれかが行われている。この各処理に対して上述した
決定木が構成されている。 (a)単語にタグを付与し、統語的な素性を決めた後、
意味的な素性を決める。(b)現在の処理対象が構成要
素の終りかどうかを判断する。 (c)現在の処理対象の構成要素に文法規則を付与す
る。 これらの処理の順序関係には、何通りかの可能性がある
が、本実施形態では、まず、全ての単語に品詞のタグ付
を行い、左から右に、ボトム・アップで解析を進めてい
る。文法から生成される候補は、非常に膨大であり、最
適な候補を見いだすことが困難に思われるが、本手法で
は、決定木で文脈に依存した確率の推定を行っており、
詳細後述するスタック・デコーダ・アルゴリズムを利用
することで、処理の効率化をはかっている。The syntax analysis of the present method is regarded as a process of continuously constructing a state representing a partial parse tree. To move from one state to the next, one of the following processes is performed. The above-described decision tree is formed for each process. (A) After assigning tags to words and determining syntactic features,
Determine semantic features. (B) Determine whether the current processing target is the end of the component. (C) Add a grammar rule to the current component to be processed. There are several possibilities for the order of these processes. In the present embodiment, first, all words are tagged with parts of speech, and the analysis is performed from left to right in a bottom-up manner. I have. The number of candidates generated from the grammar is very large, and it seems difficult to find the best candidate.However, in this method, the probability depending on the context is estimated using a decision tree.
The efficiency of processing is improved by using a stack decoder algorithm described in detail below.
【0036】次いで、図1の構文解析システムの構成及
び動作について説明する。決定木学習装置10は、メモ
リ21から読み出された文字列又は単語列からなる構文
解析済みテキストデータに基づいて、各単語の綴りの特
徴と、文章内の使われ方による特徴と、単語の相互情報
量を用いた階層的な分類とを含み属性リストメモリ22
に格納された複数の属性を用いて、上記各属性の属性値
に依存して分割されるような二分木形式の木構造を有し
品詞付与のための品詞決定木を生成し、上記生成された
品詞決定木の分割されないノードであるリーフノードに
対して複数の品詞に対する頻度確率を計算して付与する
ことにより、頻度確率付き品詞決定木を生成して品詞決
定木ファイルメモリ25に格納する。次いで、決定木学
習装置10は、メモリ21から読み出された文字列又は
単語列からなる構文解析済みテキストデータに基づい
て、処理対象の単語の語数と、処理対象の主辞単語の品
詞、処理対象の直前の単語の品詞、単語の相互情報量を
用いた階層的な分類とを含み属性リストメモリ22に格
納された複数の属性を用いて、上記各属性の属性値に依
存して分割されるような二分木形式の木構造を有し文法
規則付与のための文法規則決定木を生成し、上記生成さ
れた文法規則決定木の分割されないノードであるリーフ
ノードに対して複数の文法規則に対する頻度確率を計算
して付与することにより、頻度確率付き文法規則決定木
を生成して文法規則決定木ファイルメモリ26に格納す
る。Next, the configuration and operation of the syntax analysis system shown in FIG. 1 will be described. The decision tree learning device 10 uses the spelling characteristics of each word, the characteristics based on how the words are used in the text, and the characteristics of the words based on the parsed text data composed of the character strings or word strings read from the memory 21. Attribute list memory 22 including hierarchical classification using mutual information
Using a plurality of attributes stored in the above, a part-of-speech decision tree for giving a part-of-speech having a tree structure of a binary tree format that is divided depending on the attribute value of each attribute is generated, By calculating and assigning frequency probabilities for a plurality of parts of speech to a leaf node that is an undivided node of the part of speech decision tree, a part-of-speech decision tree with frequency probabilities is generated and stored in the part-of-speech tree storage file memory 25. Next, the decision tree learning device 10 determines the number of words to be processed, the part-of-speech of the subject word to be processed, the part-of-speech of the subject word to be processed, based on the parsed text data consisting of the character string or word string read from the memory 21. Is divided depending on the attribute value of each attribute, using a plurality of attributes stored in the attribute list memory 22 including the part of speech of the word immediately before, the hierarchical classification using the mutual information amount of the word. A grammar rule decision tree having a tree structure of a binary tree format as described above is generated for assigning a grammar rule, and the frequency of a plurality of grammar rules for a leaf node which is an undivided node of the generated grammar rule decision tree is described. By calculating and assigning probabilities, a grammar rule decision tree with frequency probabilities is generated and stored in the grammar rule decision tree file memory 26.
【0037】さらに、決定木学習装置10は、メモリ2
1から読み出された文字列又は単語列からなる構文解析
済みテキストデータに基づいて、処理対象の単語の語数
と、処理対象の主辞単語の品詞、処理対象の直前の単語
の品詞、単語の相互情報量を用いた階層的な分類とを含
み属性リストメモリ22に格納された複数の属性を用い
て、上記各属性の属性値に依存して分割されるような二
分木形式の木構造を有し文法規則付与処理における各パ
ージング状態で処理方向を決定するための処理方向決定
木を生成し、上記生成された処理方向決定木の分割され
ないノードであるリーフノードに対して複数の処理方向
に対する頻度確率を計算して付与することにより、頻度
確率付き処理方向決定木を生成して処理方向決定木ファ
イルメモリ27に格納する。またさらに、メモリ21か
ら読み出された文字列又は単語列からなる構文解析済み
テキストデータに基づいて、各単語の綴りの特徴と、文
章内の使われ方による特徴と、単語の相互情報量を用い
た階層的な分類とを含み属性リストメモリ22に格納さ
れた複数の属性を用いて、上記各属性の属性値に依存し
て分割されるような二分木形式の木構造を有し単語間の
単語分割のための単語分割決定木を生成し、上記生成さ
れた単語分割決定木の分割されないノードであるリーフ
ノードに対して複数の単語に対する頻度確率を計算して
付与することにより、頻度確率付き単語分割決定木を生
成して単語分割決定木ファイルメモリ28に格納する。Further, the decision tree learning device 10 includes a memory 2
1, the number of words to be processed, the part of speech of the head word to be processed, the part of speech of the word immediately before the processing, and the mutual Using a plurality of attributes stored in the attribute list memory 22 including a hierarchical classification using the amount of information, a tree structure in a binary tree format that is divided depending on the attribute value of each attribute is provided. Generate a processing direction decision tree for determining a processing direction in each parsing state in the grammar rule assignment processing, and generate a frequency for a plurality of processing directions with respect to a leaf node which is an undivided node of the generated processing direction decision tree. By calculating and assigning the probabilities, a processing direction decision tree with frequency probability is generated and stored in the processing direction decision tree file memory 27. Further, based on the parsed text data composed of a character string or a word string read from the memory 21, the spelling characteristics of each word, the characteristics according to how the words are used in the text, and the mutual information amount of the words are determined. Using a plurality of attributes including the hierarchical classification used and stored in the attribute list memory 22, the tree structure has a tree structure in a binary tree format that is divided depending on the attribute value of each attribute. By generating a word division decision tree for word division of the word, and calculating and adding frequency probabilities for a plurality of words to a leaf node that is an undivided node of the generated word division decision tree. An attached word division decision tree is generated and stored in the word division decision tree file memory 28.
【0038】ここで、決定木学習装置10は、上記二分
木の形式で分割するときに、上記各属性による分割前の
属性の有効性の優先順位を表わすエントロピーH0と分
割後のエントロピーHとの差(H0−H)が最大の属性
を分割候補の属性として選択し、所定の分割続行基準を
満足するときに、二分木の形式で分割して決定木を更新
する。Here, when the decision tree learning device 10 performs the division in the form of the binary tree, the entropy H 0 indicating the priority of the validity of the attribute before the division by each attribute and the entropy H after the division are used. The attribute having the largest difference (H 0 −H) is selected as the attribute of the division candidate, and when a predetermined division continuation criterion is satisfied, the decision tree is updated by division in the form of a binary tree.
【0039】次いで、構文情報付与装置11は、メモリ
30から入力される日本語の文字列又は単語列からなる
テキストデータに基づいて、決定木学習装置10によっ
て生成された単語カテゴリーの頻度確率付き単語分割決
定木を用いて、上記単語分割決定木のリーフノードに付
与された単語カテゴリーの頻度確率の中で上位複数n個
の頻度確率を選択して上記テキストデータの各単語候補
に対して付与するとともに、上記入力される文字列から
なるテキストデータに基づいて、決定木学習装置10に
よって生成された品詞カテゴリーの頻度確率付き品詞決
定木を用いて、上記品詞決定木のリーフノードに付与さ
れた品詞カテゴリーの頻度確率の中で上位複数n個の頻
度確率を選択して上記テキストデータの各単語候補に対
して付与し、上記テキストデータの単語候補列において
上位複数n個の結合確率を有する単語分割された単語と
品詞の組み合わせの列を、複数n個の処理候補とする。
次いで、構文情報付与装置11は、上記複数n個の処理
候補のうち、より上位の処理候補から順次1つずつの処
理候補に対して1つの文として成立するまで、所定のス
タック・デコーダ・アルゴリズムを用いて、文法規則付
与処理における各パージング状態での単語列に対する結
合確率が最大の結合確率を有するパージング状態を選択
した後、決定木学習装置10によって生成された頻度確
率付き処理方向決定木を用いて上記処理対象の単語列に
おける処理方向を決定し、決定された処理方向における
パージング状態において、決定木学習装置10によって
生成された頻度確率付き文法規則決定木に従って文法規
則を上記処理対象の単語列に加えることにより構文解析
情報を付与して構文解析済みテキストデータを出力す
る。Next, the syntax information providing device 11 generates a word with frequency probability of the word category generated by the decision tree learning device 10 based on the text data consisting of a Japanese character string or word string input from the memory 30. Using the split decision tree, the frequency probabilities of the top plurality n among the frequency probabilities of the word categories assigned to the leaf nodes of the word split decision tree are selected and assigned to each word candidate of the text data. And a part of speech assigned to a leaf node of the part of speech tree using a part of speech tree with frequency probability of the part of speech category generated by the decision tree learning device 10 based on the text data composed of the input character string. From the frequency probabilities of the categories, a plurality of n higher frequency probabilities are selected and assigned to each word candidate of the text data. A row of combinations of word split word and part of speech having a higher multiple of n joint probability in word candidate string of text data, and a plurality of n candidate processing.
Next, the syntax information providing device 11 performs a predetermined stack decoder algorithm until a single sentence is established for each of the processing candidates in order from the higher processing candidate among the plurality of n processing candidates. After selecting the purging state in which the connection probability for the word string in each purging state in the grammar rule assignment processing has the maximum connection probability, the processing direction decision tree with frequency probability generated by the decision tree learning device 10 is used. The processing direction in the word string to be processed is determined using the grammar rule according to the grammar rule decision tree with frequency probability generated by the decision tree learning device 10 in the parsing state in the determined processing direction. By adding the parsing information to the column, the parsing information is output and the parsed text data is output.
【0040】ここで、構文情報付与装置11は、単語分
割決定木のリーフノードに付与された単語カテゴリーの
頻度確率の中で上位複数n個の頻度確率を選択して上記
テキストデータの各単語候補に対して付与し、かつ品詞
付与決定木のリーフノードに付与された品詞カテゴリー
の頻度確率の中で上位複数n個の頻度確率を選択して上
記テキストデータの各単語候補に対して付与した後、所
定のスタック・デコーダ・アルゴリズムに用いて、処理
途中のテキストデータの単語候補列に対する結合確率が
所定の結合確率以上である単語と品詞の組み合わせの列
の処理候補のみを残して当該組み合わせの候補を限定
し、当該処理終了時の上記テキストデータの文字列又は
単語列において上位複数n個の結合確率を有する単語分
割された単語と品詞の組み合わせの列を、複数n個の処
理候補として出力する。Here, the syntactic information providing device 11 selects the top n frequency probabilities from among the frequency probabilities of the word categories assigned to the leaf nodes of the word division decision tree, and selects each word candidate of the text data. After selecting the top n frequency probabilities from among the frequency probabilities of the part-of-speech categories assigned to the leaf nodes of the part-of-speech assignment decision tree and assigning them to each word candidate of the text data Using a predetermined stack decoder algorithm, leaving only processing candidates for a row of word and part-of-speech combinations in which the combining probability of the text data being processed with respect to the word candidate string is equal to or greater than the predetermined combining probability. And the word-segmented word and the part of speech having the upper plural n connection probabilities in the character string or word string of the text data at the end of the processing The combination of the columns, to output a plurality of n candidate processing.
【0041】本実施形態においては、品詞決定木学習処
理により、構文解析済みテキストデータから得られる知
識を用いて、二分木形式の木構造を有し品詞付与のため
の頻度確率付き品詞決定木を生成し、品詞付与を行な
う。頻度確率付き品詞決定木で用いられる属性は、言語
学的な特徴やコーパスから得られる統計的な特徴を用い
る。従来の品詞付与では、辞書を引くことで品詞候補を
制限し、その中から、前後に現れる語との関係などを考
慮して、もっとも適切な品詞を選択するという方法が一
般的である。しかしながら、辞書の作成や保守にかかる
コストの問題となる。また、辞書項目に無い語(未知
語)や辞書の品詞候補にない品詞として使われた語に対
しては、特別な処理が必要とされる。本実施形態に係る
頻度確率付き品詞決定木を用いた方法では、単語の品詞
を決定するために、辞書を用いないため、辞書の作成や
保守にかかるコストは問題にならない。頻度確率付き品
詞決定木を、構文解析済みテキストを用いた学習により
構築する。そのために、構文解析済みテキストデータが
あれば、品詞体系に柔軟に対応できる。また、上記頻度
確率を用いて、品詞列の優先順位を自動的に決定するこ
とができる。品詞決定木は、対象を複数の属性とその属
性値から、適切なクラスに分類する木構造のモデルであ
る。品詞付与においては、対象が各単語に、クラスが品
詞に相当する。属性としては、各単語の綴の特徴や文内
の使われ方による特徴や単語の相互情報量を用いた階層
的分類などを用いる。In the present embodiment, a part-of-speech decision tree having a tree structure of a binary tree format and having a frequency probability for giving a part-of-speech is obtained by using a part-of-speech decision tree learning process using knowledge obtained from parsed text data. Generate and give part of speech. The attributes used in the part-of-speech decision tree with frequency probability use linguistic features and statistical features obtained from a corpus. In the conventional part-of-speech assignment, a method is generally used in which part-of-speech candidates are limited by drawing a dictionary, and the most appropriate part-of-speech is selected from the candidates, taking into account the relationship with words that appear before and after. However, there is a problem of the cost for creating and maintaining the dictionary. In addition, special processing is required for words that are not included in dictionary items (unknown words) and words that are used as parts of speech that are not included in dictionary part-of-speech candidates. In the method using the part-of-speech decision tree with frequency probability according to the present embodiment, a dictionary is not used in order to determine the part of speech of a word, so that the cost of creating and maintaining the dictionary does not matter. A part-of-speech decision tree with frequency probabilities is constructed by learning using parsed text. Therefore, if there is text data that has been parsed, it is possible to flexibly cope with the part of speech system. In addition, the priority of the part of speech sequence can be automatically determined using the frequency probability. The part-of-speech decision tree is a tree structure model that classifies a target into an appropriate class from a plurality of attributes and their attribute values. In the part of speech, the object corresponds to each word and the class corresponds to the part of speech. As the attribute, a spelling feature of each word, a feature according to a usage in a sentence, a hierarchical classification using mutual information of words, and the like are used.
【0042】また、構文情報付与装置11における文法
付与処理においては、文法規則決定木と処理方向決定木
を用いて、処理対象の単語候補列に対して、文法規則を
付与してゆく。ここで、文法規則決定木と処理方向決定
木の属性としては、処理対象の単語の語数と、処理対象
の主辞単語の品詞、処理対象の直前の単語の品詞、単語
の相互情報量を用いた階層的な分類を用いる。文法規則
決定木と処理方向決定木を用いた方法では、文法規則の
付加を決定するために、辞書を用いないため、辞書の作
成や保守にかかるコストは問題にならない。頻度確率付
き文法規則決定木及び処理方向決定木を、構文解析済み
テキストを用いた学習により構築する。そのために、構
文解析済みテキストデータがあれば、文規則の体系に柔
軟に対応できる。以下、本実施形態の構文解析システム
について詳述する。In the grammar assignment process in the syntax information assignment device 11, a grammar rule is assigned to a word candidate string to be processed using a grammar rule decision tree and a processing direction decision tree. Here, as attributes of the grammar rule decision tree and the processing direction decision tree, the number of words of the processing target, the part of speech of the head word of the processing target, the part of speech of the word immediately before the processing target, and the mutual information of the words were used. Use hierarchical classification. In the method using the grammar rule decision tree and the processing direction decision tree, a dictionary is not used in order to determine the addition of the grammar rule, so that the cost of creating and maintaining the dictionary does not matter. A grammar rule decision tree with a frequency probability and a processing direction decision tree are constructed by learning using a parsed text. Therefore, if there is parsed text data, it is possible to flexibly cope with the system of sentence rules. Hereinafter, the syntax analysis system of the present embodiment will be described in detail.
【0043】図1において、決定木学習装置10は、構
文解析済みテキストメモリ21に格納された構文情報付
きテキストデータに基づいて、属性リストメモリ22に
格納された属性リストと、品詞リストメモリ23に格納
された品詞リストとを参照して、詳細後述する品詞決定
木学習処理を実行して学習することにより、頻度確率付
き品詞決定木を生成して品詞決定木ファイルメモリ25
に格納し、次いで、構文解析済みテキストメモリ21に
格納された構文情報付きテキストデータに基づいて、属
性リストメモリ22に格納された属性リストと、文法規
則リストメモリ24に格納された文法規則リストとを参
照して、詳細後述する文法規則決定木学習処理を実行し
て学習することにより、頻度確率付き文法規則決定木を
生成して文法規則決定木ファイルメモリ26に格納し、
さらに、構文解析済みテキストメモリ21に格納された
構文情報付きテキストデータに基づいて、属性リストメ
モリ22に格納された属性リストと、文法規則リストメ
モリ24に格納された文法規則リストとを参照して、詳
細後述する処理方向決定木学習処理を実行して学習する
ことにより、頻度確率付き処理方向決定木を生成して処
理方向決定木ファイルメモリ27に格納し、さらには、
構文解析済みテキストメモリ21に格納された構文情報
付きテキストデータに基づいて、属性リストメモリ22
に格納された属性リストと、単語リストメモリ29に格
納された単語リストとを参照して、詳細後述する単語分
割決定木学習処理を実行して学習することにより、頻度
確率付き単語分割決定木を生成して単語分割決定木ファ
イルメモリ28に格納する。In FIG. 1, the decision tree learning device 10 stores an attribute list stored in an attribute list memory 22 and a part-of-speech list memory 23 based on text data with syntax information stored in a syntax-parsed text memory 21. By referring to the stored part-of-speech list and performing learning by executing a part-of-speech decision tree learning process described in detail later, a part-of-speech decision tree with frequency probability is generated and the part-of-speech decision tree file memory 25 is stored.
Then, based on the text data with syntax information stored in the parsed text memory 21, the attribute list stored in the attribute list memory 22 and the grammar rule list stored in the grammar rule list memory 24 , By executing a grammar rule decision tree learning process, which will be described later in detail, to generate a grammar rule decision tree with frequency probability and store it in the grammar rule decision tree file memory 26;
Further, based on the text data with syntax information stored in the parsed text memory 21, referring to the attribute list stored in the attribute list memory 22 and the grammar rule list stored in the grammar rule list memory 24. By executing and learning a processing direction decision tree learning process described in detail later, a processing direction decision tree with frequency probability is generated and stored in the processing direction decision tree file memory 27.
Based on the text data with syntax information stored in the parsed text memory 21, an attribute list memory 22
By referring to the attribute list stored in the word list and the word list stored in the word list memory 29, a word division decision tree with frequency probability is learned by executing a word division decision tree learning process described later in detail. It is generated and stored in the word division decision tree file memory 28.
【0044】次いで、構文情報付与装置11には、スタ
ックメモリ12が接続され、構文情報付与装置11は、
品詞決定木ファイルメモリ25に格納された頻度確率付
き品詞決定木と、文法規則決定木ファイルメモリ26に
格納された頻度確率付き文法規則決定木と、処理方向決
定木ファイルメモリ27に格納された頻度確率付き処理
方向決定木と、単語分割決定木ファイルメモリ28に格
納された頻度確率付き単語分割決定木とを用いて、属性
リストメモリ22に格納された属性リストと、品詞リス
トメモリ23に格納された品詞リストと、文法規則リス
トメモリ24に格納された文法規則リストと、単語リス
トメモリ29に格納された単語リストとを参照して、テ
キストデータメモリ30に格納され入力されるテキスト
データに対して、詳細後述する単語分割及び品詞付与処
理(図8及び図9)及び文法規則付与処理(図10及び
図11)を含む構文情報付与処理を実行することによ
り、品詞を付与しかつ文法規則を付与して、構文解析済
みテキストデータを生成して構文解析済みテキストデー
タ31に格納する。ここで、生成された構文解析済みテ
キストデータは、例えばCRTディスプレイやプリンタ
などの出力機器に出力してもよい。Next, a stack memory 12 is connected to the syntax information providing device 11, and the syntax information providing device 11
Part-of-speech decision tree with frequency probability stored in part-of-speech tree memory 25, grammar rule decision tree with frequency probability stored in grammar rule decision tree file memory 26, and frequency stored in processing direction decision tree file memory 27 The attribute list stored in the attribute list memory 22 and the attribute list stored in the part-of-speech list memory 23 using the processing direction decision tree with probability and the word division decision tree with frequency probability stored in the word division decision tree file memory 28. With reference to the part-of-speech list, the grammar rule list stored in the grammar rule list memory 24, and the word list stored in the word list memory 29, the text data stored and input in the text data memory 30 is referred to. And a word segmentation and part-of-speech assignment process (FIGS. 8 and 9) and a grammar rule assignment process (FIGS. 10 and 11), which will be described in detail later. By executing the information adding processing, grant part of speech and by applying grammar rules, generate and store the parsed text data to the parsed text data 31. Here, the generated parsed text data may be output to an output device such as a CRT display or a printer.
【0045】ここで、決定木学習装置10と構文情報付
与装置11はそれぞれ、例えば、各処理を実行するCP
Uと、各処理のプログラム及びそれを実行するために必
要なデータを格納するROM(読出専用メモリ)と、C
PUのワーキングメモリとして用いられるRAM(ラン
ダムアクセスメモリ)とを備えたデジタル計算機で構成
される。また、メモリ12,21乃至29,30,31
は、例えばハードディスクメモリで構成される。さら
に、構文情報付与装置11には、スタック・デコーダ・
アルゴリズムを用いて品詞付与処理及び文法規則付与処
理を実行するためのスタック用スタックメモリ12が接
続される。Here, the decision tree learning device 10 and the syntax information providing device 11 are, for example, CPs for executing the respective processes.
U, a ROM (read only memory) for storing a program for each process and data necessary for executing the program, and C
It comprises a digital computer having a RAM (random access memory) used as a working memory of the PU. Further, the memories 12, 21 to 29, 30, 31
Is composed of, for example, a hard disk memory. Further, the syntax information providing device 11 includes a stack decoder
A stack memory 12 for executing part-of-speech assignment processing and grammar rule assignment processing using an algorithm is connected.
【0046】単語リストメモリ29には、日本語の複数
の単語が格納される。品詞リストメモリ23に格納され
る品詞リストの一例を表3に示す。また、属性リストメ
モリ22に格納される属性リストの一例を表4に示す。
さらに、文法規則リストメモリ24に格納される文法規
則の一例を表5に示す。The word list memory 29 stores a plurality of Japanese words. Table 3 shows an example of the part-of-speech list stored in the part-of-speech list memory 23. Table 4 shows an example of the attribute list stored in the attribute list memory 22.
Table 5 shows an example of the grammar rules stored in the grammar rule list memory 24.
【0047】[0047]
【表3】 品詞リスト ───────── 品詞 ───────── 普通名詞 サ変名詞 形容名詞 数詞 形式名詞 ローマ字 本動詞 補助動詞 形容詞 格助詞 …… ─────────[Table 3] Part-of-speech list ───────── Part-of-speech 普通 Common noun Sa-variant noun Adjective noun Formal noun Roman alphabet Main verb Auxiliary verb Adjective Case particle …… ────── ───
【0048】[0048]
【表4】 単語分割及び品詞付与のための属性リスト ─────────────────────────────────── 属性 属性値 ─────────────────────────────────── 単語の相互情報量を用いた階層的分類コード 分類コード 対象単語が”〜い”を含む単語 Yes、No 対象単語が全てカタカナの単語 Yes、No 対象単語の長さ 単語長さの数値 (例えば、“カード”なら3) 直前の単語の品詞属性の値 品詞属性の値 後続する文字がカタカナか? Yes、No 対象単語の最初の文字が漢字か? Yes、No …… …… ───────────────────────────────────[Table 4] Attribute list for word segmentation and part of speech ─────────────────────────────────── Attribute Attribute value 階層 Hierarchical classification code using mutual information of words Code The word whose target word contains "~ i" Yes, No The target word is all katakana words Yes, No The length of the target word Numeric value of the word length (for example, 3 for "card") The part of speech attribute of the previous word Value The value of the part of speech attribute Is the following character katakana? Yes, No Is the first character of the target word a kanji? Yes, No …… …… ───────────────────────────────────
【0049】[0049]
【表5】 文法規則付与用属性リスト ─────────────────────────────────── 属性 属性値 ─────────────────────────────────── 処理対象の主辞単語の相互情報量 分類コード に基づく階層的単語分類コード (所定ビット) 処理対象が一語のみ Yes,No 処理対象の主辞単語の品詞が名詞 Yes,No 処理対象の直前の単語の品詞が名詞 Yes,No ………………………… ……………………… ───────────────────────────────────[Table 5] Attribute list for assigning grammar rules ─────────────────────────────────── Attribute Attribute value ──相互 Mutual information of subject words to be processed Hierarchical word classification based on classification code Code (predetermined bit) Processing target is only one word Yes, No Part of speech of head word to be processed is noun Yes, No Part of speech of word just before processing is noun Yes, No ………………………… …………………… ───────────────────────────────────
【0050】[0050]
【表6】 文法規則リスト ─────────────────────────────────── 名詞句1:名詞句→名詞,格助詞 名詞句2:名詞句→名詞,接続助詞 動詞句1:動詞句→本動詞,補助動詞,終助詞 …… …………… ───────────────────────────────────[Table 6] Grammar rule list ─────────────────────────────────── Noun phrase 1: Noun phrase → Noun , Case particle Noun phrase 2: Noun phrase → noun, connecting particle Verb phrase 1: Verb phrase → main verb, auxiliary verb, final particle …… …………… ────────────── ─────────────────────
【0051】表4の文法規則リストにおいて、例えば、
第1行目は、名詞句が名詞と格助詞から構成されること
を意味し、第3行目は、動詞句が本動詞と補助動詞、終
助詞から構成されることを意味する。なお、処理方向
は、リストとして表示していないが、本実施形態におい
て、「右」、「左」、「上」のいずれかである。In the grammar rule list in Table 4, for example,
The first line means that the noun phrase is composed of a noun and a case particle, and the third line means that the verb phrase is composed of a main verb, an auxiliary verb, and a final particle. Although the processing direction is not displayed as a list, in the present embodiment, the processing direction is one of “right”, “left”, and “up”.
【0052】ここで、品詞属性とは、品詞を粗く10種
類に分類した属性であり、品詞属性の値とは、例えば、
名詞、動詞、助詞である。また、単語の相互情報量を用
いた階層的分類コードとは、例えば、特願平8−027
809号の特許出願や従来技術文献4「Akira Ushioda,
“Hierarchical Clustering of Words",Proceedingsof
COLING'96,The 16th International Conference on Com
putational Linguistics,Vol.2,pp.1159-1162,1996年8
月」において開示された単語分類方法を用いて分類され
た階層的分類コードである。この単語分類方法では、テ
キストデータ内の単語について出現頻度の比較的低い単
語を、同一の単語に隣接する割合の多い単語を同一のク
ラスに割り当てるという基準で分類した後、単語分類結
果を中間層、上側層、及び下側層の3つの階層に分類
し、テキストデータ内のすべての単語を対象とするグロ
ーバルな(全体的な)コスト関数である所定の平均相互
情報量を用いて、中間層、上側層、及び下側層の順序で
階層別に単語の分類を実行することを特徴としている。
相互情報量を用いたクラスタリングの方法においては、
単語数Tのテキスト、語数Vの語彙、それに語彙の分割
関数πとが存在すると仮定し、ここで、語彙の分割関数
πは語彙Vから語彙の中の単語クラスセットCへの分割
写像(マッピング)を表わす写像関数である。複数の単
語からなるテキストデータを生成するバイグラムのクラ
スモデルの尤度L(π)は次式によって得られる。Here, the part-of-speech attribute is an attribute that roughly classifies the part of speech into ten types, and the value of the part-of-speech attribute is, for example,
Nouns, verbs and particles. The hierarchical classification code using mutual information of words is described in, for example, Japanese Patent Application No. 8-027.
809 patent application and prior art document 4 “Akira Ushioda,
“Hierarchical Clustering of Words”, Proceedingsof
COLING'96, The 16th International Conference on Com
putational Linguistics, Vol. 2, pp. 1159-1162, 1996.8
This is a hierarchical classification code classified using the word classification method disclosed in "Month". In this word classification method, words having relatively low frequency of occurrence in words in text data are classified based on a criterion of assigning words having a high percentage of adjacent words to the same word to the same class, and then the word classification result is classified into an intermediate layer. , An upper layer, and a lower layer, and using a predetermined average mutual information that is a global (overall) cost function for all words in the text data, , Upper layer, and lower layer.
In the clustering method using mutual information,
It is assumed that there are a text having the number of words T, a vocabulary having the number of words V, and a vocabulary division function π, where the vocabulary division function π is a division map (mapping) from the vocabulary V to the word class set C in the vocabulary. ) Is a mapping function. The likelihood L (π) of the bigram class model that generates text data composed of a plurality of words is obtained by the following equation.
【0053】[0053]
【数1】L(π)=−Hm+I## EQU1 ## L (π) =-Hm + I
【0054】ここで、Hmはモノグラムの単語分布のエ
ントロピーであり、Iはテキストデータ内の隣接する2
つのクラスC1,C2に関する平均的な相互情報量(Aver
ageMutual Information;以下、平均相互情報量とし、
AMIと表記する。)であり、次式で計算することがで
きる。Here, Hm is the entropy of the word distribution of the monogram, and I is two adjacent words in the text data.
Average mutual information about two classes C 1 and C 2 (Aver
ageMutual Information; Hereinafter, the average mutual information,
Notated as AMI. ) And can be calculated by the following equation.
【0055】[0055]
【数2】 (Equation 2)
【0056】ここで、Pr(C1)は第1のクラスC1
の単語の出現確率であり、Pr(C2)は第2のクラス
C2の単語の出現確率であり、Pr(C1|C2)は、第
2のクラスC2の単語は出現した後に、第1のクラスC1
の単語が出現する条件付き確率であり、Pr(C1,
C2)は第1のクラスC1の単語と第2のクラスC2の単
語が隣接して出現する確率である。従って、上記数2で
表されるAMIは、互いに異なる第1のクラスC1の単
語と第2のクラスC2の単語とが隣接して出現する確率
を、上記第1のクラスC1の単語の出現確率と第2のク
ラスC2の単語の出現確率との積で割った相対的な頻度
の割合を表わす。エントロピーHは写像関数πに依存し
ない値であることから、AMIを最大にする写像関数は
同時にテキストの尤度L(π)も最大にする。従って、
AMIを単語のクラス構成における目的関数として使用
することができる。Here, Pr (C 1 ) is the first class C 1
Is the probability of occurrence of the word of the class, Pr (C 2 ) is the probability of occurrence of the word of the second class C 2 , and Pr (C 1 | C 2 ) is the probability of occurrence of the word of the second class C 2 , First class C 1
Is the conditional probability of occurrence of the word, Pr (C 1 ,
C 2 ) is the probability that words of the first class C 1 and words of the second class C 2 will appear adjacent to each other. Therefore, AMI is different the first class C 1 of a word the probability of a word is the second class C 2 appearing adjacent word of the first class C 1 together represented by the number 2 It represents the probability of appearance and percentage of relative frequency divided by the product of the probabilities of occurrence of the second class of C 2 words. Since the entropy H is a value independent of the mapping function π, the mapping function that maximizes the AMI also maximizes the likelihood L (π) of the text. Therefore,
The AMI can be used as an objective function in class construction of words.
【0057】上記単語分類方法は、意味又は統語的特徴
が似通った単語が近接した位置に配置された点で、バラ
ンスが取れた二分木の形式を有するツリー構造を生成す
ることができる。処理の最後に、根のノード(ルートノ
ード(root node))から葉のノード(リーフ
ノード(leaf node)に至るパスの追跡し、左
側方向の分岐又は右側方向の分岐をそれぞれ表わす0又
は1の1ビットを各分岐に割り当てることによって、語
彙の中の各単語に対して、ビットストリング(単語ビッ
ト)を割り当てることができる。The above word classification method can generate a tree structure having a balanced binary tree form in that words having similar meanings or syntactic characteristics are arranged at close positions. At the end of the process, the path from the root node (root node) to the leaf node (leaf node) is traced, and 0 or 1 representing a leftward branch or a rightward branch, respectively. By assigning one bit to each branch, a bit string (word bit) can be assigned to each word in the vocabulary.
【0058】次いで、品詞決定木、文法規則決定木、処
理方向決定木及び単語分割決定木を構築する決定木学習
処理のアルゴリズム、及び構文情報付与処理のアルゴリ
ズムについて述べる。Next, an algorithm of a decision tree learning process for constructing a part-of-speech decision tree, a grammar rule decision tree, a processing direction decision tree, and a word division decision tree, and an algorithm of a syntax information adding process will be described.
【0059】各決定木学習処理では、各属性の有効性を
他の属性と独立に計算し、クラスの決定のための効率的
な属性による分類順序を、二分木の形式で分割された構
造を有する木構造として構築する。属性の有効性は、そ
の属性による分割分類後のエントロピーHにより評価す
る。ここでのエントロピーは、属性の有効性の優先順位
を表わす。すなわち、ある属性BでノードN1とノード
N2とに分割するときに、分割前のエントロピーH0と、
分割後のエントロピーHと、ノードN1に対するエント
ロピーH1と、ノードN2に対するエントロピーH2とは
次式で表される。In each decision tree learning process, the validity of each attribute is calculated independently of the other attributes, and the classification order based on the efficient attributes for determining the class is determined by dividing the structure divided in the form of a binary tree. Construct as a tree structure having The validity of the attribute is evaluated based on the entropy H after division and classification according to the attribute. The entropy here indicates the priority of the validity of the attribute. That is, when dividing into a node N 1 and a node N 2 with a certain attribute B, the entropy H 0 before the division,
And entropy H after division, the entropy H 1 for node N 1, and the entropy H 2 to node N 2 is expressed by the following equation.
【0060】[0060]
【数3】 (Equation 3)
【数4】H=p1H1+(1−p1)H2 ここで、H = p 1 H 1 + (1−p 1 ) H 2 where:
【数5】 (Equation 5)
【数6】 (Equation 6)
【0061】ここで、p(tagall)は分割前のす
べての品詞タグ(品詞決定木の場合;文法規則決定木の
ときは文法規則タグであり、処理方向決定木のときは処
理方向タグ、すなわち、「上」、「左」及び「右」であ
る。)についてのイベントの数の頻度確率又は出現確率
であり、tagallについてのΣは、分割前のすべて
の品詞タグについての和を示す。また、p1は、ノード
N1に分割したときに含まれる品詞タグのイベントの数
の頻度確率の総和である。さらに、p(tagN1)は
ノードN1のすべての品詞タグについてのイベントの数
の頻度確率であり、tagN1についてのΣは、ノード
N1のすべての品詞タグについての和を示す。p(ta
gN2)はノードN2のすべての品詞タグについてのイベ
ントの数の頻度確率であり、tagN2についてのΣ
は、ノードN2のすべての品詞タグについての和を示
す。Here, p (tagall) is all part-of-speech tags before division (for a part-of-speech decision tree; a grammar rule tag for a grammar rule decision tree; a processing direction tag for a processing direction decision tree, ie, , “Up,” “left,” and “right.”) Is the frequency or appearance probability of the number of events, and Σ for tagall indicates the sum of all part-of-speech tags before division. P 1 is the sum of the frequency probabilities of the number of events of the part-of-speech tag included when the node is divided into nodes N 1 . Furthermore, p (tagN 1) is the number of frequency probability events for all parts of speech tags of the node N 1, the Σ of tagn 1, indicates the sum for all parts of speech tags of the node N 1. p (ta
gN 2) is the number of frequency probability of the event for all of the part-of-speech tag of the node N 2, for tagN 2 of Σ
Indicates the sum for all parts of speech tags of the node N 2.
【0062】有効性の計算のために、学習用のテキスト
データから各語について「属性とその属性値、品詞」の
組からなるイベント情報(event:以下、イベント
という。)を予めとりだしておく。具体的には、全ての
イベントの集合に対して、分類後のエントロピーHが最
小となる属性を求め、最初のノードに割り当てる。この
属性の属性値により、イベントの集合を分割し、対応す
る子ノードを作る。各々の子ノードにおいて、同様の処
理を繰り返し行なうことにより、木構造を構築する。分
割の停止条件は、各ノードに含まれるイベント数が一定
数以下、あるいは分割による有効性が一定基準以下(こ
こで、分割後のエントロピーHと分割前のエントロピー
H0との差がある所定量を越えない場合。)とする。こ
こで、分割されないノードをリーフと呼ぶ。学習された
決定木のリーフでは、与えられたイベントの集合から各
品詞の頻度確率を計算する。In order to calculate the validity, event information (event: hereinafter, referred to as an event) including a set of “attribute, its attribute value, and part of speech” for each word is preliminarily extracted from the text data for learning. Specifically, an attribute that minimizes the entropy H after classification is obtained for a set of all events, and is assigned to the first node. The set of events is divided according to the attribute value of this attribute, and corresponding child nodes are created. A tree structure is constructed by repeating the same process at each child node. The condition for stopping the division is that the number of events included in each node is equal to or less than a certain number, or the effectiveness of the division is equal to or less than a certain reference (here, a predetermined amount having a difference between entropy H after division and entropy H 0 before division). Is not exceeded.) Here, a node that is not divided is called a leaf. At the leaf of the learned decision tree, the frequency probability of each part of speech is calculated from a given set of events.
【0063】ここで、本実施形態の構文情報付与システ
ムでは、従来技術文献5「L.E.Baum,“An inequality a
nd associated maximization technique in statistica
l estimation for probabilistic functions of a Mark
ov process",Inequalities,Vol.3,pp.1-8,1972年」に開
示されたフォワード−バックワード(Forward−
Backward)アルゴリズムを用いて、スムージン
グ用の学習データに基づいて、スムージング用の学習デ
ータから得られる確率と決定木から得られる確率との差
が最小となるようにスムージングを行ない、品詞及び構
文情報を付与すべき最後の頻度確率分布を補正する。ま
た、本実施形態のシステムでは、上記決定木学習処理の
アルゴリズムに従って、2段階の決定木を作成してい
る。1段目は、粗く分類した品詞(以下、GPOS(G
lobal Part Of Speech)とい
う。)(ここで、実際の品詞の属性の1つに対応してお
り、例えば、動詞、名詞、冠詞などに分類される。)の
ための決定木であり、2段目として、GPOSの品詞毎
に実際の品詞(表3に示した品詞タグレベル)を決定す
るための決定木を作成する。本実施形態では、より詳細
な品詞レベルの名称を品詞タグと呼んでいる。すなわ
ち、2段階に分割して決定木を生成することにより、1
回の処理で必要な記憶装置の記憶容量を大幅に減少させ
ている。Here, in the syntax information adding system according to the present embodiment, the related art document 5 “LEBaum,“ Aninequality a
nd associated maximization technique in statistica
l estimation for probabilistic functions of a Mark
ov process ", Inequalities, Vol. 3, pp. 1-8, 1972".
Backward) algorithm is used to perform smoothing based on the learning data for smoothing so as to minimize the difference between the probability obtained from the learning data for smoothing and the probability obtained from the decision tree. Correct the last frequency probability distribution to be given. Further, in the system of the present embodiment, a two-stage decision tree is created according to the algorithm of the decision tree learning process. The first row shows the parts of speech roughly classified (hereinafter GPOS (G
local Part of Speech). ) (Here, it corresponds to one of the attributes of the actual part of speech, and is classified into, for example, a verb, a noun, an article, etc.). First, a decision tree for determining the actual part of speech (part of speech tag level shown in Table 3) is created. In the present embodiment, a more detailed part-of-speech level name is called a part-of-speech tag. That is, by generating a decision tree by dividing into two stages, 1
Each time, the required storage capacity of the storage device is greatly reduced.
【0064】品詞付与処理においては、入力文のテキス
トデータを左から右に処理し、結合確率を最大にする品
詞列を出力する。入力文が、w1,w2,…,wNのよう
な複数N個の単語からなり、品詞列{t1,t2,…,t
N}(ここで、tiはi番目の単語の品詞である。)が得
られたとすると、結合確率Pは次式で表される。なお、
本実施形態では、品詞の出現をマルコフ情報源として取
り扱っておらず、それまでに出現した単語や品詞に依存
した情報源として取り扱っている。従って、十分に長い
文において、文の最初の語とその品詞に依存して最後の
単語の品詞を導くことが、原理的には可能である。In the part-of-speech giving process, the text data of the input sentence is processed from left to right, and a part-of-speech sequence that maximizes the connection probability is output. The input sentence is composed of a plurality of N words such as w 1 , w 2 ,..., W N , and the part-of-speech sequence {t 1 , t 2 ,.
Assuming that N } (where t i is the part of speech of the i-th word) is obtained, the connection probability P is represented by the following equation. In addition,
In the present embodiment, the appearance of the part of speech is not treated as a Markov information source, but as an information source depending on the words and parts of speech that have appeared so far. Thus, in a sufficiently long sentence, it is in principle possible to derive the part of speech of the last word depending on the first word of the sentence and its part of speech.
【0065】[0065]
【数7】 P≡p(t1,t2,…,tN│w1,w2,…,wN)(7) P≡p (t 1 , t 2 ,..., T N │w 1 , w 2 ,..., W N )
【数8】 (Equation 8)
【0066】上記数7の右辺は、入力文w1,w2,…,
wNが入力されたときに、品詞列t1,t2,…,tNが与
えられる結合確率を意味し、上記数8の右辺は、入力文
w1,w2,w3,…,wn、および、i−1番目の単語ま
での品詞列t1,t2,…,ti-1が与えられたときのi
番目の品詞の確率をiが1からnまで積算することによ
り得られる確率を意味する。ここで、Πの記号はiを2
からNまで変化したときの積和を意味する。そして、文
脈に依存する属性をもちいて、決定木のリーフleaf
(L)を導き、Lに関連した頻度確率分布を、pLによ
り表現し、決定木の条件付き分布を用いて以下のように
近似する。The right side of the above equation (7) represents input sentences w 1 , w 2 ,.
When w N is input, it means the connection probability that a part of speech sequence t 1 , t 2 ,..., t N is given, and the right side of the above equation 8 indicates the input sentence w 1 , w 2 , w 3 ,. w n , and i given a part-of-speech sequence t 1 , t 2 ,..., t i-1 up to the (i−1) th word
This means the probability obtained by multiplying the probability of the part of speech by i from 1 to n. Here, the symbol of Π represents i as 2
From N to N. Then, using a context-dependent attribute, the leaf leaf of the decision tree
(L) is derived, the frequency probability distribution associated with L is represented by p L , and approximated as follows using the conditional distribution of the decision tree.
【0067】[0067]
【数9】Li≡文脈w1,w2,…,wN,t1,t2,…,
ti-1において導かれたリーフL i ≡ context w 1 , w 2 ,..., W N , t 1 , t 2 ,.
Leaf led at t i-1
【数10】p(ti│w1,w2,…,wN,t1,t2,
…,ti-1)≒pLi(ti)P (t i | w 1 , w 2 ,..., W N , t 1 , t 2 ,
..., t i-1 ) ≒ p Li (t i )
【0068】上記数9における文脈w1,w2,…,
wN,t1,t2,…,ti-1は、i番目の単語wiのもつ
文脈を意味する。また、数10の左辺は、文脈w1,
w2,…,wN,t1,t2,…,ti-1の次に単語tiが来
る頻度確率又は出現確率を表し、それが、数10の右辺
である、文脈Liのもとで品詞tiをとる確率に近似でき
ることを意味する。従って、最大化すべき結合確率Pは
以下のようになる。The contexts w 1 , w 2 ,...
w N , t 1 , t 2 ,..., t i-1 mean the context of the i-th word w i . Further, the left side of Expression 10 is the context w 1 ,
w 2, ..., w N, t 1, t 2, ..., next to the word t i of t i-1 represents the frequency probability or occurrence probability come, but it is the right-hand side of the number 10, in the context L i This means that the probability of taking the part of speech t i can be approximated. Therefore, the coupling probability P to be maximized is as follows.
【0069】[0069]
【数11】 [Equation 11]
【0070】上記数11から明らかなように、結合確率
Pは、入力文の各単語での文脈に依存して得られる品詞
tiの確率の積で表される。さらに、入力文の各単語に
対する品詞付与処理においては、次の2段階の処理を行
なっている。 (a)GPOSの各品詞の頻度確率を計算する。 (b)GPOSの各品詞に対応する決定木を用いて、品
詞の頻度確率を計算する。As is apparent from the above equation 11, the connection probability P is represented by the product of the probabilities of the parts of speech t i obtained depending on the context of each word of the input sentence. Further, in the part of speech processing for each word of the input sentence, the following two-stage processing is performed. (A) Calculate the frequency probability of each part of speech of the GPOS. (B) Using the decision tree corresponding to each part of speech of the GPOS, the frequency probability of the part of speech is calculated.
【0071】各語の頻度確率の計算では、それまでに得
られている可能性のある品詞列を全て考慮する必要があ
る。細かな品詞体系を扱う場合、探索範囲が膨大になる
ため、本システムでは、従来技術文献6「F.Jelinek,
“A fast sequential decodingalgorithm using a stac
k",IBM Journal of Research and Development,No.13,p
p.675-685,1969年」及び従来技術文献7「D.Paul,“Alg
orithms for an optimal a* search and linearizing t
he search in the stack decoder",Proceedingsof the
June 1990 DARPA Speech and Natural Language Work s
hop,1990年」において開示されたスタック・デコーダ・
アルゴリズムを用いて、頻度確率又は出現確率が最大と
なる品詞列を探索している。このアルゴリズムは、一種
のグラフサーチアルゴリズムであり、しきい値により一
時的に探索範囲を限定し、評価値の最も良いものを探す
ことができる。すなわち、各語に付与される可能性のあ
る複数の品詞から、最も頻度確率の高い品詞列を選択す
ることは、各品詞をノードとし隣接する単語に付与され
ているノードを連結したグラフの複数の経路から最適な
経路を探索することであり、スタック・デコーダ・アル
ゴリズムは、二分木形式で分割された木構造の経路にお
いて、複数のノードをスタック構造としてまとめて取り
扱い、スタック構造内で、探索範囲を変更することによ
り、最適な経路を、効率的に見い出すことができる。In the calculation of the frequency probability of each word, it is necessary to consider all possible part-of-speech sequences obtained up to that time. When dealing with a fine part-of-speech system, the search range becomes enormous. Therefore, in this system, the related art document 6 “F. Jelinek,
“A fast sequential decodingalgorithm using a stac
k ", IBM Journal of Research and Development, No. 13, p
p.675-685, 1969 "and prior art document 7" D. Paul, "Alg
orithms for an optimal a * search and linearizing t
he search in the stack decoder ", Proceedingsof the
June 1990 DARPA Speech and Natural Language Work s
hop, 1990 ".
The part-of-speech sequence with the maximum frequency probability or appearance probability is searched for using an algorithm. This algorithm is a kind of graph search algorithm, in which the search range is temporarily limited by a threshold value, and the best evaluation value can be searched. In other words, selecting a part of speech sequence with the highest frequency probability from a plurality of parts of speech that may be given to each word is performed by using a graph that connects each part of speech as a node and nodes attached to adjacent words. The stack decoder algorithm treats a plurality of nodes collectively as a stack structure in a tree-structured path divided in a binary tree format, and searches the stack structure for the optimum path. By changing the range, an optimal route can be efficiently found.
【0072】さらに、本実施形態においては、品詞付与
システムを拡張し、入力として、わかち書きされていな
い1文を、単語を含む形態素に分割しながら、各単語に
品詞を付与している。単語分割の分かち書きされていな
い1文に対しては、複数の分割の仕方が考えられる。例
えば、「わかりました」に対しては、32通りの分割の
仕方がある。例えば、 (a)「わかりました」 (b)「わ/かりました」 (c)「わか/りました」 …… (d)「わ/か/り/ま/し/た」) そこで、入力された文を、1文字ずつ走査し、可能な単
語列を構成し、単語としての確率を計算する。入力文が
“C1C2C3…Cn”とすると、文字C1を読み込ん
だ時点で、1文字の単語としての確率を計算する。次
に、文字C2を読み込んだ時点で、文字C2を1文字の
単語として、2単語からなる状態と、C1C2の2文字
で1単語の状態の確率を計算する。次の文字C3を読み
込んだ時点は、文字C2までの2つの状態に対して、文
字C3が1文字の単語となる状態と、文字C3が文字C
2につながり、単語となる状態の確率を計算する。以
下、同様に複数の状態での確率を計算していくが、全て
の状態を計算していると、計算量が膨大になり、計算で
きなくなるので、スタックデコーダアルゴリズムを用い
て計算している。Further, in the present embodiment, the part-of-speech system is extended, and one part of the sentence that is not written is divided into morphemes including the word, and the part-of-speech is added to each word as an input. For one sentence that is not divided by word division, a plurality of division methods can be considered. For example, there are 32 ways to divide "OK". For example, (a) "I understand" (b) "Wa / Kari" (c) "Waka / Rita" ... (d) "Wa / Ka / Ri / Ma / Shi / Ta") The input sentence is scanned one character at a time to form a possible word string and calculate the probability as a word. Assuming that the input sentence is “C1C2C3... Cn”, the probability of one character as a word is calculated when the character C1 is read. Next, when the character C2 is read, the probability of the state of two words and the state of one word with two characters of C1C2 are calculated using the character C2 as one character word. When the next character C3 is read, the state in which the character C3 is a one-character word and the state in which the character C3 is
2 and calculate the probability of a word state. Hereinafter, similarly, the probabilities in a plurality of states are calculated. However, if all the states are calculated, the amount of calculation becomes enormous, and the calculation cannot be performed. Therefore, the calculation is performed using the stack decoder algorithm.
【0073】単語の確率を求めるための単語決定木の単
語の確率は、以下の特徴を用いた決定木により計算す
る。 (a)綴の特徴(具体例としては、「カタカナのみで構
成されている。」、「“〜しい”という単語である。」
など。)、 (b)後続する文字の特徴(具体例としては、「後続文
字が漢字である。」、「後続文字が“は”である。」な
ど。)、 (c)前につながる品詞の特徴(特に、直前の品詞と
は、限定しない。)(具体例としては、「直前の品詞が
名詞である。」、「直前の品詞が句読点である。」、
「二つ前の品詞が助詞である。」など。)、並びに、 (d)単語の相互情報量を用いた階層的な分類。 これらの特徴を用いて、学習データから、ある文字列が
単語である確率を学習する。単語の確率を得るために、
例えば、「支払い/は/どのように」では、次のよう
に、文字列と単語/非単語の組合わせを考え、単語分割
決定木を構築する。The word probability of the word decision tree for obtaining the word probability is calculated by a decision tree using the following features. (A) Features of spelling (Specific examples are "composed of only katakana." And "the word" -shii. ")
Such. ), (B) the characteristics of the following character (specifically, "the following character is a kanji.", "The subsequent character is" wa ", etc.), and (c) the characteristic of the part of speech that leads to the previous character. (Particularly, the immediately preceding part of speech is not limited.) (Specific examples include "the immediately preceding part of speech is a noun.", "The immediately preceding part of speech is a punctuation mark."
"The previous part of speech is a particle." And (d) Hierarchical classification using mutual information of words. Using these characteristics, the probability that a certain character string is a word is learned from the learning data. To get word probabilities,
For example, in “payment / how / how”, a word division decision tree is constructed by considering a combination of a character string and a word / non-word as follows.
【0074】[0074]
【表7】 ────────────────────────── 支 非単語 支払 非単語 支払い 単語 は 単語 支払いは 非単語 はどの 非単語 支払いはど 非単語 はどの 非単語 支払いはどの 非単語 ──────────────────────────[Table 7] 非 Support Nonword Payment Nonword Payment Word is Word Payment is Nonword Which is Nonword Payment Which non-word is which non-word Which payment is non-word ──────────────────────────
【0075】図2は、図1の決定木学習装置10によっ
て実行される品詞決定木学習処理を示すフローチャート
である。図2において、まず、ステップS1で構文解析
済みテキストデータメモリ21に格納された構文解析済
み(品詞付与済み)の構文情報付き文からなるテキスト
データを読み出して、決定木学習装置10内のRAMに
書き込む。次いで、ステップS2で、各属性と品詞タグ
との組み合わせの頻度確率(上記p(tagall),
p(tagN1),p(tagN2)に対応する。)を計
算して決定木学習装置10内のRAMに書き込む。さら
に、ステップS3で決定木作成処理を実行することによ
り頻度確率付き品詞決定木を生成し、ステップS4で作
成された確率付き品詞決定木をメモリ24に出力して格
納する。FIG. 2 is a flowchart showing a part-of-speech decision tree learning process executed by the decision tree learning device 10 of FIG. In FIG. 2, first, text data composed of syntax-analyzed (part-of-speech-added) sentence with syntax information stored in the syntax-analyzed text data memory 21 is read out in step S 1, and read into the RAM in the decision tree learning device 10. Write. Next, in step S2, the frequency probabilities of the combination of each attribute and the part-of-speech tag (the above p (tagall),
This corresponds to p (tagN 1 ) and p (tagN 2 ). ) Is calculated and written in the RAM in the decision tree learning device 10. Further, a part-of-speech decision tree with frequency probability is generated by executing a decision tree creation process in step S3, and the part-of-speech decision tree with probability created in step S4 is output to the memory 24 and stored.
【0076】図3は、図1の決定木学習装置10によっ
て実行される文法規則決定木学習処理(ステップS11
−S14)を示すフローチャートであり、図2の品詞決
定木学習処理と同様に実行される。図4は、図1の決定
木学習装置10によって実行される処理方向決定木学習
処理(ステップS21−S24)を示すフローチャート
であり、図2の品詞決定木学習処理と同様に実行され
る。また、図5は、図1の決定木学習装置10によって
実行される単語分割決定木学習処理(ステップS26−
S29)を示すフローチャートであり、図2の品詞決定
木学習処理と同様に実行される。ここで、処理方向と
は、文法規則付与処理における各パージング状態で処理
すべき方向であり、文法規則を付与する範囲となる処理
対象をどのように変更するかを限定するものである。こ
こで、パージング状態とは、図16に示すように、構文
情報付与装置11において部分的に解析された状態のこ
とをいい、現在の処理対象となるノード又は単語の情報
(具体的には、単語とその品詞情報、処理対象はどれ
か)を有する。また、ゴール状態は、最終的な構文解析
結果を入力する状態であり、一文を文としてまとめる文
法規則によりひとまとまりになったパージング状態であ
る。FIG. 3 shows a grammar rule decision tree learning process (step S11) executed by the decision tree learning device 10 of FIG.
3 is a flowchart showing (S14), which is executed similarly to the part-of-speech decision tree learning process of FIG. FIG. 4 is a flowchart showing the processing direction decision tree learning process (steps S21 to S24) executed by the decision tree learning device 10 of FIG. 1, and is executed in the same manner as the part of speech decision tree learning process of FIG. FIG. 5 is a flowchart of the word division decision tree learning process (step S26-) executed by the decision tree learning device 10 of FIG.
3 is a flowchart showing S29), which is executed similarly to the part-of-speech decision tree learning process of FIG. Here, the processing direction is a direction to be processed in each purging state in the grammar rule providing process, and limits how to change a processing target within a range to which the grammar rule is provided. Here, the parsing state refers to a state in which the parsing information is partially analyzed by the syntax information providing apparatus 11 as shown in FIG. 16, and information on a node or a word to be currently processed (specifically, A word, its part of speech information, and which one is to be processed). The goal state is a state in which the final result of parsing is input, and is a parsing state united by a grammar rule that combines one sentence as a sentence.
【0077】図6は、図2乃至図5のサブルーチンであ
る決定木作成処理(ステップS3,S13,S23,S
28)を示すフローチャートである。まず、ステップS
31ですべての各属性による分割後のエントロピーH
と、分割前のエントロピーH0とをそれぞれ数4と数3
を用いて計算する。次いで、ステップS32でエントロ
ピーの差(H0−H)が最大の属性を分割候補の属性と
して選択し、ステップS33で選択された属性について
分割続行判定基準を満足するか否かが判断される。ここ
で、分割続行判定基準とは、(I)選択された属性に基
づいて分割したときのエントロピーの差(H0−H)が
所定のエントロピーしきい値Hth以上であり、かつ
(II)選択された属性に基づく分割後のイベント数が所
定のイベント数しきい値Dth以上であること。ステッ
プS33で分割続行判定基準を満足するときは、ステッ
プS34で、選択された属性の属性値により分割した2
つのノードを作成して、すなわち二分木の形式で分割し
て、決定木を更新する。そして、ステップS35では、
上記作成した各ノードを処理対象として、ステップS3
1に戻り、ステップS31からの処理を繰り返す。一
方、ステップS33で分割続行判定基準を満足しないと
きは、元のメインルーチンに戻る。FIG. 6 shows a decision tree creation process (steps S3, S13, S23, S23) which is a subroutine of FIGS.
It is a flowchart which shows 28). First, step S
31 is the entropy H after division by all the attributes
And the entropy H 0 before division are given by Equations 4 and 3, respectively.
Calculate using Next, in step S32, the attribute having the largest entropy difference (H 0 −H) is selected as the attribute of the division candidate, and it is determined whether or not the attribute selected in step S33 satisfies the division continuation determination criterion. Here, the division continuation determination criterion is defined as (I) a difference (H 0 −H) in entropy at the time of division based on the selected attribute is equal to or greater than a predetermined entropy threshold Hth, and (II) The number of events after division based on the attribute set is not less than a predetermined event number threshold Dth. If the division continuation determination criterion is satisfied in step S33, in step S34 the division is performed based on the attribute value of the selected attribute.
One node is created, that is, divided in the form of a binary tree to update the decision tree. Then, in step S35,
Each of the created nodes is set as a processing target, and step S3
1 and the processing from step S31 is repeated. On the other hand, if the division continuation criterion is not satisfied in step S33, the process returns to the original main routine.
【0078】これらの決定木学習処理において作成され
た品詞決定木、文法規則決定木及び処理方向決定木の一
例を示す。ここで、入力されるテキストデータとして
は、「支払いをカードで」を用いると、構文情報付与装
置11から出力される構文解析済みテキストデータとし
て、「[名詞句1 支払い_普通名詞 を_格助詞]
[名詞句1 カード_普通名詞 で_格助詞]」が出力
される。An example of the part-of-speech decision tree, the grammar rule decision tree, and the processing direction decision tree created in these decision tree learning processes will be described. Here, when "payment is performed by card" is used as the text data to be input, "[noun phrase 1 payment_ordinary noun is replaced with _case particle" ]
[Noun phrase 1 card_ordinary noun_case particle]] is output.
【0079】ここで、作成された頻度確率付き単語分割
決定木の一例を図12に示す。図12に示すように、当
該頻度確率付き単語決定木は、各属性101乃至105
で二分木の形式で分割された木構造を有し、最後のリー
フにおいて単語カテゴリー、すなわち単語/非単語の別
に対する頻度確率が付与されている。この例では、入力
文が「支払い/を/カード/で」であるときに、201
に示すように、単語“支払い”に対して単語カテゴリー
の「単語」が付与される一方、203に示すように、単
語“カード”に対して単語カテゴリーの「単語」が付与
されている。FIG. 12 shows an example of the created word division decision tree with frequency probability. As shown in FIG. 12, the word decision tree with frequency probability has attributes 101 to 105
Has a tree structure divided in the form of a binary tree, and a word category, that is, a frequency probability for a distinction between a word and a non-word is given to the last leaf. In this example, when the input sentence is “payment / a / card / with”, 201
As shown in (2), the word “payment” is given a word category “word”, and as shown in 203, the word “card” is given a word category “word”.
【0080】また、作成された頻度確率付き品詞決定木
の一例を図13に示す。図13に示すように、当該頻度
確率付き品詞決定木は、各属性301乃至305で二分
木の形式で分割された木構造を有し、最後のリーフにお
いて単語カテゴリー、すなわち単語/非単語の別に対す
る頻度確率が付与されている。この例では、入力文が
「支払い/を/カード/で」であるときに、401に示
すように、単語“支払い”に対して品詞カテゴリーの
「名詞」が付与される一方、403に示すように、単語
“カード”に対して品詞カテゴリーの「名詞」が付与さ
れている。FIG. 13 shows an example of a part-of-speech decision tree with frequency probability that has been created. As shown in FIG. 13, the part-of-speech decision tree with frequency probabilities has a tree structure divided in the form of a binary tree by each of the attributes 301 to 305, and a word category, that is, a word / non-word Is given a frequency probability. In this example, when the input sentence is “payment / a / card / in”, the word “payment” is given a part-of-speech category “noun” as shown at 401, while as shown at 403. In addition, "noun" of the part of speech category is given to the word "card".
【0081】上記例において作成された頻度確率付き文
法規則決定木の一例を図14に示す。図14に示すよう
に、当該頻度確率付き文法規則決定木は、各属性301
乃至305で二分木の形式で分割された木構造を有し、
最後のリーフにおいて各文法規則タグに対する頻度確率
が付与されている。この例では、入力文が“支払い/
を”のときに、リーフノードにおいて、文法タグ名詞句
(名詞と格助詞から構成される名詞句を意味する。)が
付与されている。FIG. 14 shows an example of the grammar rule decision tree with frequency probability created in the above example. As shown in FIG. 14, the grammar rule decision tree with frequency probabilities
Has a tree structure divided in the form of a binary tree by
In the last leaf, the frequency probability for each grammar rule tag is given. In this example, the input sentence is "payment /
When "is", a grammatical tag noun phrase (meaning a noun phrase composed of a noun and a case particle) is given at the leaf node.
【0082】上記例において作成された頻度確率付き処
理方向決定木の一例を図15に示す。図15に示すよう
に、当該頻度確率付き処理方向決定木は、各属性501
乃至505で二分木の形式で分割された木構造を有し、
最後のリーフにおいて各処理方向タグに対する頻度確率
が付与されている。この例では、入力文が“支払い/を
/カード/で”であるときに、リーフノードにおいて、
処理方向タグ「右」が付与されて、処理対象“支払い”
にその右にある“を”を加え、新たな処理対象“支払い
/を”とする処理が、また、処理対象“カード”にその
右にある“で”を加え、新たな処理対象“カード/で”
とする処理が行われ、文法付与決定木の処理が続けられ
る。FIG. 15 shows an example of a processing direction decision tree with frequency probability created in the above example. As shown in FIG. 15, the processing direction decision tree with the frequency probability has the attribute 501
Has a tree structure divided in the form of a binary tree by
In the last leaf, a frequency probability for each processing direction tag is given. In this example, when the input sentence is "payment / for / card / in", at the leaf node,
The processing direction tag "right" is added and the processing target "payment"
Is added to the right of "", and a new processing object "payment /" is added. Also, "" is added to the right of the processing object "card", and a new processing object "card /" is added. so"
Is performed, and the processing of the grammar assignment decision tree is continued.
【0083】図7は、図1の構文情報付与装置11によ
って実行される構文情報付与処理を示すフローチャート
である。図7において、まず、ステップS41で、確率
付き品詞決定木ファイルメモリ25に格納された頻度確
率付き品詞決定木ファイルを読み出して、構文情報付与
装置11内のRAMに書き込み、確率付き文法規則決定
木ファイルメモリ26に格納された頻度確率付き文法規
則決定木ファイルを読み出して、構文情報付与装置11
内のRAMに書き込み、確率付き処理方向決定木ファイ
ルメモリ27に格納された頻度確率付き処理方向決定木
ファイルを読み出して、構文情報付与装置11内のRA
Mに書き込み、確率付き単語分割決定木ファイルメモリ
28に格納された頻度確率付き単語分割決定木ファイル
を読み出して、構文情報付与装置11内のRAMに書き
込む。次いで、ステップS42でテキストデータメモリ
30に格納された解析対象のテキストデータを読み出し
て構文情報付与装置11内のRAMに書き込む。さら
に、ステップS43で詳細後述する単語分割及び品詞付
与処理を実行して、単語分割された品詞付与済みテキス
トデータを生成し、次いで、ステップS44で、ステッ
プS43で生成された品詞付与済みテキストデータに対
して文法規則タグを付与するための文法規則付与処理を
実行することにより、構文解析済みテキストデータを生
成する。そして、ステップS45で生成された構文解析
済みテキストデータを、構文解析済みテキストデータメ
モリ31に出力して書き込む。FIG. 7 is a flowchart showing the syntax information adding process executed by the syntax information adding device 11 of FIG. In FIG. 7, first, in step S41, the part-of-speech decision tree file with frequency probability stored in the probable part-of-speech decision tree file memory 25 is read out and written to the RAM in the syntax information providing apparatus 11, and the grammatical rule decision tree with probability is read out. The grammar rule decision tree file with frequency probability stored in the file memory 26 is read out, and the syntax information
And reads the processing direction decision tree file with frequency probability stored in the processing direction decision tree file memory with probability 27 into the RAM in the syntax information providing device 11.
M, and reads out the word-segmented decision tree file with frequency probability stored in the word-segmented decision tree file memory with probabilities 28 and writes it into the RAM in the syntax information providing device 11. Next, in step S42, the text data to be analyzed stored in the text data memory 30 is read and written to the RAM in the syntax information providing device 11. Further, in step S43, word division and part-of-speech assignment processing, which will be described in detail later, is executed to generate word-segmented part-of-speech text data, and then in step S44, the part-of-speech-assigned text data generated in step S43 By executing a grammar rule assignment process for assigning a grammar rule tag to the grammar rule, parsed text data is generated. Then, the parsed text data generated in step S45 is output to the parsed text data memory 31 and written.
【0084】図8及び図9は、図7のサブルーチンであ
る単語分割及び品詞付与処理(ステップS43)を示す
フローチャートである。図8において、まず、ステップ
S51で文頭の文字を対象文字とする。次いで、ステッ
プS52で対象文字から単語候補を設定し、ステップS
53で単語決定木のルートノードを処理対象のカレント
ノードとする。そして、ステップS54でカレントノー
ドがリーフノードであるか否かが判断される。ステップ
S54でNOであるときは、ステップS55でカレント
ノードの属性値に基づいて子ノードをカレントノードと
して、ステップS54に戻る。ステップS54において
YESであるときは、ステップS56でリーフノードに
割り当てられた頻度確率リストの中で単語カテゴリーの
頻度確率を選択して単語候補に与える。FIGS. 8 and 9 are flowcharts showing the word division and part of speech processing (step S43), which are subroutines of FIG. In FIG. 8, first, in step S51, the character at the beginning of the sentence is set as a target character. Next, in step S52, word candidates are set from the target characters,
At 53, the root node of the word decision tree is set as the current node to be processed. Then, in step S54, it is determined whether the current node is a leaf node. If “NO” in the step S54, the child node is set as a current node based on the attribute value of the current node in a step S55, and the process returns to the step S54. When YES is determined in the step S54, the frequency probability of the word category is selected from the frequency probability list assigned to the leaf node in the step S56 and given to the word candidate.
【0085】次いで、ステップS57で品詞決定木のル
ートノードを処理対象のカレントノードとする。そし
て、ステップS58でカレントノードがリーフノードで
あるか否かが判断される。ステップS58でNOである
ときは、ステップS59でカレントノードの属性値に基
づいて対応する子ノードをカレントノードとしてステッ
プS58に戻る。ステップS58でYESであるとき
は、ステップS60でリーフノードに割り当てられた頻
度確率リストの中で品詞カテゴリーの頻度確率を選択し
て単語候補に与える。そして、図9のステップS61で
他の単語候補があるか否かが判断される。ステップS6
1で他の単語候補があるときはステップS52に戻り、
上記の処理を繰り返す。ステップS61でNOであると
きは、ステップS62で、スタック・デコーダ・アルゴ
リズムに従って所定の結合確率以上の結合確率を有する
単語分割された品詞候補を限定する。そして、ステップ
S63で次の文字があるか否かが判断される。ステップ
S63で次の文字があるときは、ステップS64で次の
文字を対象文字として、ステップS52に戻り、上記の
処理を繰り返す。一方、ステップS63で次の文字が無
いときはステップS65で単語分割された単語と品詞の
組み合わせ列のうち結合確率の上位複数n個を処理候補
として出力する。ここで、単語と品詞の組み合わせ列の
具体例としては、「支払い(名詞)を(格助詞)カード
(名詞)で(格助詞)」の通りである。以上で当該単語
及び品詞付与解析処理を終了する。Next, in step S57, the root node of the part of speech decision tree is set as the current node to be processed. Then, in step S58, it is determined whether the current node is a leaf node. If NO in step S58, the process returns to step S58 with the corresponding child node as the current node based on the attribute value of the current node in step S59. When YES is determined in the step S58, the frequency probability of the part of speech category is selected from the frequency probability list assigned to the leaf node in the step S60 and given to the word candidate. Then, it is determined whether or not there is another word candidate in step S61 of FIG. Step S6
If there is another word candidate in step 1, the process returns to step S52,
The above process is repeated. When NO is determined in the step S61, in a step S62, word-segmented candidates having a joint probability equal to or higher than a predetermined joint probability are limited according to a stack decoder algorithm. Then, it is determined in step S63 whether the next character exists. If there is a next character in step S63, the process returns to step S52 with the next character as a target character in step S64, and repeats the above processing. On the other hand, if there is no next character in step S63, the uppermost n pieces of the combination probabilities in the combination sequence of the word and the part of speech divided in word in step S65 are output as processing candidates. Here, as a specific example of a combination sequence of words and parts of speech, “payment (noun) is (case particle) by card (noun) (case particle)” is as shown. This is the end of the word and part of speech assignment analysis processing.
【0086】図10及び図11は、図7のサブルーチン
である文法規則付与処理(ステップS44)を示すフロ
ーチャートである。まず、図10のステップS70で単
語分割及び品詞付与処理後の上位n個の処理候補のうち
最上位を処理対象とする。次いで、ステップS71で、
文頭の単語を対象としたパージング状態を生成する。次
いで、ステップS72で、処理方向決定の回数と、文法
規則決定の回数とによって決定されるスタックメモリ1
2内のスタックに直前に生成したパージング状態を追加
する。上記決定されるスタックとは、各パージング状態
を、記録しておくデータ構造を意味する。そして、ステ
ップS73で、上述のスタック・デコーダ・アルゴリズ
ムに従って最大の結合確率を有するパージング状態を選
択し、ステップS64で処理方向決定木を用いて処理方
向を決定する。ここで、処理方向が「右」であるとき
は、ステップS75のYESを介してステップS77で
次の単語を処理対象にしたパージング状態を生成した
後、ステップS72に戻る。また、ステップS74で処
理方向が「上」であるときは、ステップS75及びS7
6を介して、ステップS78で処理対象のノードに文法
規則決定木に従って文法規則タグを加えたパージング状
態を生成した後、図11のステップS81に進む。ここ
で、処理方向が「上」とは、現在の処理対象に対してス
テップS78で、文法規則決定木に従った処理を行うこ
とを意味する。さらに、ステップS74で処理方向が
「左」であるときは、ステップS75及びS76を介し
て、ステップS79で処理対象のノードの範囲を左にの
ばして文法規則決定木に従って文法規則タグを加えたパ
ージング状態を生成した後、図11のステップS81に
進む。FIGS. 10 and 11 are flowcharts showing the grammar rule assignment process (step S44), which is a subroutine of FIG. First, in step S70 of FIG. 10, the highest one of the top n processing candidates after the word division and part of speech processing is set as the processing target. Next, in step S71,
Generate a parsing state for the first word of the sentence. Next, in step S72, the stack memory 1 determined by the number of processing direction determinations and the number of grammar rule determinations
The purging state generated immediately before is added to the stack in 2. The determined stack means a data structure for recording each purging state. Then, in step S73, the purging state having the maximum connection probability is selected according to the above-described stack decoder algorithm, and in step S64, the processing direction is determined using the processing direction determination tree. Here, when the processing direction is “right”, a purging state in which the next word is to be processed is generated in step S77 via YES in step S75, and the process returns to step S72. If the processing direction is “up” in step S74, steps S75 and S7
6, a purging state is generated in step S78 by adding a grammar rule tag to the processing target node according to the grammar rule decision tree, and then the process proceeds to step S81 in FIG. Here, the processing direction “up” means that processing is performed on the current processing target in step S78 according to the grammar rule decision tree. Further, when the processing direction is "left" in step S74, the parsing in which the range of the node to be processed is extended to the left in step S79 through steps S75 and S76 and a grammar rule tag is added according to the grammar rule decision tree. After generating the state, the process proceeds to step S81 in FIG.
【0087】図11のステップS81において、処理し
ていない単語があるか否かが判断され、YESのときは
図10のステップS72に戻る一方、NOのときは、ス
テップS82で文法規則が1つの文として成立している
か否かが判断され、NOのときステップS85で次の上
位の処理候補を処理対象として図10のステップS71
に戻る一方、YESのときステップS83に進む。ステ
ップS83では、ゴール状態に現在のパージング状態を
追加し、ステップS84で予め決められた一定数(例え
ば、上位N個の結果を得たい場合は、Nである。)のパ
ージング状態がゴール状態となったか否かが判断され、
NOのとき図10のステップS72に戻る一方、YES
のとき当該文法規則付与処理を終了して元のメインルー
チンに戻る。In step S81 of FIG. 11, it is determined whether there is a word that has not been processed. If YES, the process returns to step S72 in FIG. 10, while if NO, the grammar rule is set to one in step S82. It is determined whether the sentence is established as a sentence. If NO, the process proceeds to step S85 in FIG.
On the other hand, when YES is determined, the process proceeds to step S83. In step S83, the current purging state is added to the goal state. In step S84, a predetermined number of predetermined purging states (for example, N when obtaining the top N results) are defined as the goal state. It is determined whether or not
If NO, the process returns to step S72 in FIG. 10, while YES
In this case, the grammar rule assignment process ends, and the process returns to the original main routine.
【0088】以上の実施形態においては、予め決められ
た1つの文法規則体系で構文解析済みの学習用テキスト
データを用いているが、本発明はこれに限らず、他の文
法規則体系G1で解析された一定量のテキストデータが
ある場合、他の文法規則体系G1の情報を利用するよう
に構成してもよく、このとき、構文解析の精度を向上で
きる。ここで、利用する文法規則体系をG0とする。文
法規則体系G1の情報を利用するために、文法規則体系
G1で解析済テキストの一部を、文法規則体系G0で解
析したテキストを作成する。文法規則体系G0及びG1
双方で解析済の同じテキストデータを用いて、利用する
属性に、文法規則体系G1の文法の特徴を反映させた決
定木を学習する。文法規則体系G1の文法の特徴が反映
された決定木を用いて、文法規則体系G1で解析された
テキストを入力することにより、入力の豊富な情報を利
用した解析が可能となり、構文解析の精度を向上するこ
とができる。In the above embodiment, the learning text data that has been parsed by one predetermined grammar rule system is used. However, the present invention is not limited to this. When there is a certain amount of text data obtained, information of another grammar rule system G1 may be used. At this time, the accuracy of syntax analysis can be improved. Here, the grammar rule system to be used is G0. In order to use the information of the grammar rule system G1, a part of the text analyzed by the grammar rule system G1 and a text analyzed by the grammar rule system G0 are created. Grammar rules G0 and G1
Using the same text data analyzed on both sides, a decision tree in which the characteristics of the grammar rule system G1 are reflected in the attributes to be used is learned. By inputting the text analyzed by the grammar rule system G1 using the decision tree reflecting the grammatical features of the grammar rule system G1, analysis using abundant input information becomes possible, and the accuracy of the syntax analysis is improved. Can be improved.
【0089】さらに、実施形態の変形例について説明す
る。図17は、変形例の構文情報付与装置11によって
実行される構文情報付与処理(実施形態の図7に対応す
る。)を示すフローチャートであり、図18は、変形例
の構文情報付与装置11における処理途中のパージング
状態及び処理方向の一例(実施形態の図16に対応す
る。)を示すフロー図である。これまでに説明してきた
実施形態の処理では、1文に対して、単語分割、品詞付
与を1通り行い、その結果に対して、文法情報を付与す
る処理を行う手順を示している。上述のように、単語分
割、品詞付与、文法規則付与の順序関係は、何通りかの
可能性がある。当該変形例は、単語分割において1つ単
語と認識されると、品詞付与、文法規則付与を行い、処
理を進める。Next, a modification of the embodiment will be described. FIG. 17 is a flowchart showing syntax information addition processing (corresponding to FIG. 7 of the embodiment) executed by the syntax information addition apparatus 11 of the modification, and FIG. FIG. 17 is a flowchart illustrating an example of a purging state and a processing direction during processing (corresponding to FIG. 16 of the embodiment). In the processing of the embodiment described so far, a procedure is shown in which word division and part-of-speech assignment are performed once for one sentence, and grammar information is assigned to the result. As described above, there are several possible order relationships among word division, part of speech assignment, and grammatical rule assignment. In this modified example, when one word is recognized in word division, a part of speech is assigned and a grammar rule is assigned, and the process proceeds.
【0090】すなわち、変形例では、図17に示すよう
に、ステップS43とS44で、単語分割で1つの単語
が認識されたときに、その単語に対して品詞付与と文法
規則付与を行い、ステップS46からステップS43及
びS44までのループ処理により1つの単語毎に文末ま
で処理することを特徴としている。すなわち、変形例の
ステップS43で単語分割及び品詞処理では、単語分割
及び品詞付与処理後の最上位の単語と品詞の組み合わせ
列(1組)を出力し、これに基づいてステップS44で
は文法規則付与処理が実行されて、構文解析情報(文法
規則)を付与し、そして、それに続く単語について、ス
テップS43とS44の処理を、文末まで実行する。こ
れにより、入力される日本語の文全体について処理する
ことになる。That is, in the modified example, as shown in FIG. 17, when one word is recognized by word division in steps S43 and S44, the part of speech and grammatical rule are assigned to the word. It is characterized in that the processing is performed for each word up to the end of the sentence by the loop processing from S46 to steps S43 and S44. That is, in the word division and part-of-speech processing in step S43 of the modification, a combination sequence (one set) of the highest word and part-of-speech after the word division and part-of-speech addition processing is output, and based on this, a grammar rule assignment is performed in step S44. The process is executed to give syntactic analysis information (grammar rules), and the processes of steps S43 and S44 are executed for the subsequent words until the end of the sentence. As a result, the entire input Japanese sentence is processed.
【0091】具体的には、ステップS43では、入力さ
れる日本語の単語列からなるテキストデータに基づい
て、上記生成された単語カテゴリーの頻度確率付き単語
分割決定木を用いて、上記単語分割決定木のリーフノー
ドに付与された単語カテゴリーの頻度確率の中で上位複
数n個の頻度確率を選択して上記テキストデータの各単
語候補に対して付与するとともに、上記入力される単語
列からなるテキストデータに基づいて、上記生成された
品詞カテゴリーの頻度確率付き品詞決定木を用いて、上
記品詞決定木のリーフノードに付与された品詞カテゴリ
ーの頻度確率の中で上位複数n個の頻度確率を選択して
上記テキストデータの先頭単語候補から1つずつの単語
候補に対して付与し、上記テキストデータの単語列にお
いて最上位の結合確率を有する単語分割された単語と品
詞の組み合わせの列を、処理候補として出力する。次い
で、ステップS44では、出力される処理候補に対し
て、所定のスタック・デコーダ・アルゴリズムを用い
て、文法規則付与処理における各パージング状態での単
語列に対する結合確率が最大の結合確率を有するパージ
ング状態を選択した後、上記生成された頻度確率付き処
理方向決定木を用いて上記処理対象の単語列における処
理方向を決定し、決定された処理方向におけるパージン
グ状態において、上記生成された頻度確率付き文法規則
決定木に従って文法規則を上記処理対象の単語列に加え
ることにより構文解析情報を付与して構文解析済み単語
を出力する。そして、図17に示すように、ステップS
43とS44の処理を、上記入力される単語列からなる
テキストデータの先頭から1つの単語候補ずつ、上記テ
キストデータの1文に対する構文解析済みテキストデー
タが得られるまで繰り返すようにステップS46の処理
により制御する。More specifically, in step S43, based on the text data consisting of the input Japanese word string, the word division decision tree with frequency probability of the generated word category is used. From the frequency probabilities of the word categories assigned to the leaf nodes of the tree, the top n frequency probabilities are selected and assigned to each word candidate of the text data, and the text consisting of the input word string is selected. Based on the data, using the generated part-of-speech decision tree with frequency probabilities of the generated part-of-speech categories, select the top n multiple frequency probabilities among the frequency probabilities of the part-of-speech categories assigned to the leaf nodes of the part-of-speech decision tree Then, the top word candidate is assigned to each word candidate from the head word candidate of the text data, and the topmost connection probability in the word string of the text data is added. A row of combinations of word split word and part of speech having outputs as processing candidate. Next, in step S44, the parsing state having the largest joint probability with respect to the word string in each purging state in the grammar rule assigning process is performed on the output process candidate using a predetermined stack decoder algorithm. Is selected, and the processing direction in the word string to be processed is determined using the generated processing direction decision tree with frequency probability. In the parsing state in the determined processing direction, the generated grammar with frequency probability is determined. By adding a grammar rule to the word string to be processed according to the rule decision tree, syntactic analysis information is added and a syntactically analyzed word is output. Then, as shown in FIG.
Steps S43 and S44 are repeated by step S46 so as to repeat one word candidate at a time from the beginning of the text data consisting of the input word string until the parsed text data for one sentence of the text data is obtained. Control.
【0092】なお、ステップS43の処理では、好まし
くは、上記単語分割決定木のリーフノードに付与された
単語カテゴリーの頻度確率の中で上位複数n個の頻度確
率を選択して上記テキストデータの単語候補に対して付
与し、かつ上記品詞付与決定木のリーフノードに付与さ
れた品詞カテゴリーの頻度確率の中で上位複数n個の頻
度確率を選択して上記テキストデータの各単語候補に対
して付与した後、所定のスタック・デコーダ・アルゴリ
ズムに用いて、処理途中のテキストデータの単語列に対
する結合確率が所定の結合確率以上である単語と品詞の
組み合わせの列の処理候補のみを残して当該組み合わせ
の候補を限定し、当該処理終了時の上記テキストデータ
の単語列において最上位の結合確率を有する単語分割さ
れた単語と品詞の組み合わせの列を、処理候補として出
力する。In the processing of step S43, it is preferable to select a plurality of top n frequency probabilities from among the frequency probabilities of the word categories assigned to the leaf nodes of the word division decision tree, and to select the word probabilities of the text data. Assigned to a candidate, and selects a plurality of n higher-order frequency probabilities among the frequency probabilities of the part-of-speech categories assigned to the leaf nodes of the part-of-speech assignment decision tree and assigns them to each word candidate of the text data After that, using a predetermined stack decoder algorithm, leaving only the processing candidates of the combination row of words and parts of speech with the combination probability of the word string of the text data being processed being equal to or greater than the predetermined combination probability, The candidates are limited, and the word-segmented word having the highest combination probability in the word string of the text data at the end of the process and the part of speech The columns of the match only, and outputs it as a treatment candidate.
【0093】当該変形例において、図18では、実施形
態の図16に比較して、PS7とPS27にみられるよ
うに、解析途中で適用できる文法規則を適宜付与するこ
とで、効率的に解析候補を絞り込むことができることを
特徴としている。In this modified example, in FIG. 18, as compared with FIG. 16 of the embodiment, as shown in PS7 and PS27, grammatical rules applicable during the analysis are appropriately added, so that the analysis Is characterized by being able to narrow down.
【0094】上述のように、単語分割、品詞付与、文法
規則付与を実行する順序関係は、何通りかの可能性があ
り、一文に対して、単語分割、品詞付与を行ったのちに
文法規則を付与する場合、単語としては成立するが、文
としては成立しない単語あるいは品詞の並びが解析候補
として現れることがある。このような候補は、文法規則
の情報により絞り込まれ、最終的な解析候補になり得な
い。この候補は、文として成立しない単語あるいは品詞
の並びが解析候補として現れたときに文法規則の付与を
行うことで、解析候補から除外することができ、より可
能性のある単語、品詞を候補として残すことができる。
従って、当該変形例のごとく、単語分割において一つ単
語が認識されると、品詞付与、文法規則付与を行い、処
理を進めることにより、単語分割の情報だけでは絞り込
めない解析候補を、品詞の接続や文法規則の情報によ
り、各処理の途中段階で絞り込むことができるようにな
り効率的でかつ精度を向上させることができる。As described above, the order of executing the word division, the part-of-speech assignment, and the grammatical rule assignment may be in several ways. Is given, a word or a part-of-speech sequence that is established as a word but not as a sentence may appear as an analysis candidate. Such candidates are narrowed down by the information of the grammar rule and cannot be final analysis candidates. This candidate can be excluded from analysis candidates by applying grammatical rules when a sequence of words or parts of speech that do not hold as a sentence appears as an analysis candidate, and more likely words and parts of speech can be used as candidates. Can be left.
Therefore, as in the modification, when one word is recognized in word division, part-of-speech assignment and grammatical rule assignment are performed, and by proceeding with the processing, analysis candidates that cannot be narrowed down using only the word division information are analyzed. With the information of the connection and the grammar rule, it is possible to narrow down in the middle of each process, and it is possible to improve the efficiency and accuracy.
【0095】以上説明したように、本実施形態及び変形
例によれば、品詞の接続関係、語と品詞の関係、さら
に、離れた語あるいは品詞との依存関係を統計的に処理
するため、自動的に一意に高精度で品詞を付与でき、し
かも高精度で文法規則を付与することができ、高精度の
日本語構文解析システムを提供することができる。ま
た、辞書を用いずに、単語に品詞ラベルを割り当てるた
め、従来技術の問題となる未知語に対する特別な処理が
不必要である。さらに、構文解析済みテキストデータを
用いて学習を行なうため、多くの文法体系に対して柔軟
な対応ができる。さらには、自動的に詳細な構文情報を
付与することができるため、付与された構文情報を翻訳
システム、音声認識システム、又は情報検索システムに
利用することができる。また、詳細な情報を含む構文構
造付きデータを自動的に生成することができるため、構
文情報を付与したデータを大量に蓄えることができる。As described above, according to the present embodiment and the modification, the connection relation between parts of speech, the relation between words and parts of speech, and the dependency between distant words or parts of speech are statistically processed. It is possible to provide a part-of-speech with unique and high precision and grammar rules with high precision, and to provide a high-precision Japanese syntax analysis system. In addition, since a part of speech label is assigned to a word without using a dictionary, a special process for an unknown word, which is a problem of the related art, is unnecessary. Further, since learning is performed using the parsed text data, it is possible to flexibly cope with many grammar systems. Furthermore, since detailed syntax information can be automatically added, the added syntax information can be used for a translation system, a speech recognition system, or an information search system. Further, since data with syntax structure including detailed information can be automatically generated, a large amount of data with syntax information can be stored.
【0096】[0096]
【発明の効果】以上詳述したように本発明に係る請求項
1記載の日本語構文解析装置によれば、日本語の文字列
からなる構文解析済みテキストデータに基づいて、各単
語の綴りの特徴と、文章内の使われ方による特徴と、単
語の相互情報量を用いた階層的な分類とを含む複数の属
性を用いて、上記各属性の属性値に依存して分割される
ような二分木形式の木構造を有し品詞付与のための品詞
決定木を生成し、上記生成された品詞決定木の分割され
ないノードであるリーフノードに対して複数の品詞に対
する頻度確率を計算して付与することにより、品詞カテ
ゴリーの頻度確率付き品詞決定木を生成する第1の学習
手段と、上記テキストデータに基づいて、各単語の綴り
の特徴と、後続する文字の特徴と、前につながる品詞の
特徴と、単語の相互情報量を用いた階層的な分類とを含
む複数の属性を用いて、上記各属性の属性値に依存して
分割されるような二分木形式の木構造を有し単語分割の
ための単語分割決定木を生成し、上記生成された単語分
割決定木の分割されないノードであるリーフノードに対
して単語及び非単語に対する頻度確率を計算して付与す
ることにより、単語カテゴリーの頻度確率付き単語分割
決定木を生成する第2の学習手段と、上記テキストデー
タに基づいて、処理対象の単語の語数と、処理対象の主
辞単語の品詞、処理対象の直前の単語の品詞、単語の相
互情報量を用いた階層的な分類とを含む複数の属性を用
いて、上記各属性の属性値に依存して分割されるような
二分木形式の木構造を有し文法規則付与のための文法規
則決定木を生成し、上記生成された文法規則決定木の分
割されないノードであるリーフノードに対して複数の文
法規則に対する頻度確率を計算して付与することによ
り、頻度確率付き文法規則決定木を生成する第3の学習
手段と、上記テキストデータに基づいて、処理対象の単
語の語数と、処理対象の主辞単語の品詞、処理対象の直
前の単語の品詞、単語の相互情報量を用いた階層的な分
類とを含む複数の属性を用いて、上記各属性の属性値に
依存して分割されるような二分木形式の木構造を有し文
法規則付与処理における各パージング状態で処理方向を
決定するための処理方向決定木を生成し、上記生成され
た処理方向決定木の分割されないノードであるリーフノ
ードに対して複数の処理方向に対する頻度確率を計算し
て付与することにより、頻度確率付き処理方向決定木を
生成する第4の学習手段と、入力される日本語の文字列
からなるテキストデータに基づいて、上記第2の学習手
段によって生成された単語カテゴリーの頻度確率付き単
語分割決定木を用いて、上記単語分割決定木のリーフノ
ードに付与された単語カテゴリーの頻度確率の中で上位
複数n個の頻度確率を選択して上記テキストデータの各
単語候補に対して付与するとともに、上記入力される文
字列からなるテキストデータに基づいて、上記第1の学
習手段によって生成された品詞カテゴリーの頻度確率付
き品詞決定木を用いて、上記品詞決定木のリーフノード
に付与された品詞カテゴリーの頻度確率の中で上位複数
n個の頻度確率を選択して上記テキストデータの各単語
候補に対して付与し、上記テキストデータの単語候補列
において上位複数n個の結合確率を有する単語分割され
た単語と品詞の組み合わせの列を、複数n個の処理候補
として出力する第1の処理手段と、上記第1の処理手段
から出力される複数n個の処理候補のうち、より上位の
処理候補から順次1つずつの処理候補に対して1つの文
として成立するまで、所定のスタック・デコーダ・アル
ゴリズムを用いて、文法規則付与処理における各パージ
ング状態での単語列に対する結合確率が最大の結合確率
を有するパージング状態を選択した後、上記第4の学習
手段によって生成された頻度確率付き処理方向決定木を
用いて上記処理対象の単語列における処理方向を決定
し、決定された処理方向におけるパージング状態におい
て、上記第3の学習手段によって生成された頻度確率付
き文法規則決定木に従って文法規則を上記処理対象の単
語列に加えることにより構文解析情報を付与して構文解
析済みテキストデータを出力する第2の処理手段とを備
える。従って、品詞の接続関係、語と品詞の関係、さら
に、離れた語あるいは品詞との依存関係を統計的に処理
するため、自動的に一意に高精度で品詞を付与でき、し
かも高精度で文法規則を付与することができ、高精度の
日本語構文解析装置を提供することができる。また、辞
書を用いずに、単語に品詞ラベルを割り当てるため、従
来技術の問題となる未知語に対する特別な処理が不必要
である。さらに、構文解析済みテキストデータを用いて
学習を行なうため、多くの文法体系に対して柔軟な対応
ができる。さらには、自動的に詳細な構文情報を付与す
ることができるため、付与された構文情報を翻訳システ
ム、音声認識システム、又は情報検索システムに利用す
ることができる。また、詳細な情報を含む構文構造付き
データを自動的に生成することができるため、構文情報
を付与したデータを大量に蓄えることができる。As described in detail above, according to the Japanese language parsing apparatus according to the first aspect of the present invention, the spelling of each word is performed based on the parsed text data composed of Japanese character strings. Using multiple attributes including features, features based on how they are used in the text, and hierarchical classification using mutual information of words, the attribute is divided depending on the attribute value of each attribute. Generates a part-of-speech decision tree having a tree structure in the form of a binary tree, and calculates and assigns frequency probabilities for a plurality of parts-of-speech to leaf nodes that are undivided nodes of the generated part of speech decision tree. The first learning means for generating a part-of-speech decision tree with frequency probabilities of the part-of-speech category, based on the text data, the spelling characteristics of each word, the characteristics of the succeeding characters, and the part-of-speech Features and word phases Word segmentation for word segmentation using a plurality of attributes including hierarchical classification using the amount of information and having a tree structure in a binary tree format such that segmentation is performed depending on the attribute value of each attribute. By generating a decision tree and calculating and assigning frequency probabilities for words and non-words to leaf nodes, which are nodes that are not split, on the generated word segmentation decision tree, word segmentation with frequency probabilities of word categories is determined. A second learning unit for generating a tree, based on the text data, uses the number of words to be processed, the part of speech of the subject word to be processed, the part of speech of the word immediately before the processing object, and the mutual information of the words. A grammar rule decision tree for assigning a grammar rule, having a tree structure of a binary tree format that is divided depending on the attribute value of each attribute using a plurality of attributes including Generate and generated above A third learning means for generating a grammar rule decision tree with a frequency probability by calculating and assigning frequency probabilities for a plurality of grammar rules to a leaf node which is a node which is not divided by the legal rule decision tree; Based on the data, using multiple attributes including the number of words to be processed, the part of speech of the subject head word to be processed, the part of speech of the word immediately before the processing object, and hierarchical classification using mutual information of words Generating a processing direction determination tree for determining a processing direction in each parsing state in a grammar rule assignment process having a tree structure of a binary tree format that is divided depending on the attribute value of each attribute, By generating and assigning frequency probabilities for a plurality of processing directions to leaf nodes that are nodes that are not divided, the processing direction decision tree with frequency probabilities is generated. Using the fourth learning means to form and the word division decision tree with frequency probability of the word category generated by the second learning means based on the text data consisting of the input Japanese character string, From the frequency probabilities of the word categories assigned to the leaf nodes of the word segmentation decision tree, the top n number of frequency probabilities are selected and assigned to each word candidate of the text data, and the input character string Using the part-of-speech decision tree with frequency probabilities of the part-of-speech categories generated by the first learning means based on the text data consisting of The top n frequency probabilities are selected and assigned to each word candidate in the text data, and the top plural n A first processing unit that outputs a sequence of combinations of words and parts of speech that have been divided into words having a joint probability of n as a plurality of n processing candidates, and a plurality of n processing candidates output from the first processing unit. Of the parsing states in each parsing state in the grammar rule assignment processing using a predetermined stack decoder algorithm until one sentence is sequentially established for each processing candidate in order from the higher processing candidate. After selecting the purging state in which the connection probability with respect to has the maximum connection probability, the processing direction in the word string to be processed is determined using the processing direction decision tree with frequency probability generated by the fourth learning means, In the parsing state in the determined processing direction, the grammar rule is raised according to the grammar rule decision tree with frequency probability generated by the third learning means. By adding the word string to be processed by applying a parsing information and a second processing means for outputting the parsed text data. Therefore, since the connection relation between parts of speech, the relation between words and parts of speech, and the dependency between distant words or parts of speech are statistically processed, parts of speech can be automatically and uniquely assigned with high precision, and the grammar with high precision Rules can be given, and a high-precision Japanese syntax analyzer can be provided. In addition, since a part of speech label is assigned to a word without using a dictionary, a special process for an unknown word, which is a problem of the related art, is unnecessary. Further, since learning is performed using the parsed text data, it is possible to flexibly cope with many grammar systems. Furthermore, since detailed syntax information can be automatically added, the added syntax information can be used for a translation system, a speech recognition system, or an information search system. Further, since data with syntax structure including detailed information can be automatically generated, a large amount of data with syntax information can be stored.
【0097】また、請求項2記載の日本語構文解析装置
によれば、請求項1記載の日本語構文解析装置におい
て、上記各決定木学習手段は、上記二分木の形式で分割
するときに、上記各属性による分割前の属性の有効性の
優先順位を表わすエントロピーH0と分割後のエントロ
ピーHとの差(H0−H)が最大の属性を分割候補の属
性として選択し、所定の分割続行基準を満足するとき
に、二分木の形式で分割して決定木を更新することを特
徴とする。従って、上記各決定木の学習処理を従来例に
比較して効率的に実行することができる。According to the Japanese syntax analyzer of the second aspect, in the Japanese syntax analyzer of the first aspect, each of the decision tree learning means is configured to divide the binary tree in the form of the binary tree. The attribute having the largest difference (H 0 −H) between the entropy H 0 indicating the priority of the validity of the attribute before the division by each attribute and the entropy H after the division is selected as the attribute of the division candidate, and the predetermined division is performed. When the continuation criterion is satisfied, the decision tree is divided and updated in the form of a binary tree. Therefore, the learning process of each decision tree can be executed more efficiently than the conventional example.
【0098】さらに、請求項3記載の日本語構文解析装
置によれば、請求項2記載の日本語構文解析装置におい
て、上記分割続行基準は、(I)選択された属性に基づ
いて分割したときのエントロピーの差(H0−H)が所
定のエントロピーしきい値Hth以上であり、かつ(I
I)選択された属性に基づく分割後の属性とその属性値
及び品詞の組のイベント数が所定のイベント数しきい値
Dth以上であることを特徴とする。従って、上記各決
定木の学習処理を従来例に比較して効率的に実行するこ
とができ、処理コストを低減できる。Further, according to the Japanese syntax analyzer of the third aspect, in the Japanese syntax analyzer of the second aspect, the division continuation criterion may be such that (I) the division based on the selected attribute Is greater than or equal to a predetermined entropy threshold Hth, and (I 0 −H)
I) The number of events of a set of the attribute after division based on the selected attribute, the attribute value thereof, and the part of speech is equal to or more than a predetermined event number threshold value Dth. Therefore, the above-described learning process of each decision tree can be executed more efficiently than the conventional example, and the processing cost can be reduced.
【0099】またさらに、請求項4記載の日本語構文解
析装置によれば、請求項1乃至3のうちの1つに記載の
日本語構文解析装置において、上記第1の処理手段は、
上記単語分割決定木のリーフノードに付与された単語カ
テゴリーの頻度確率の中で上位複数n個の頻度確率を選
択して上記テキストデータの各単語候補に対して付与
し、かつ上記品詞付与決定木のリーフノードに付与され
た品詞カテゴリーの頻度確率の中で上位複数n個の頻度
確率を選択して上記テキストデータの各単語候補に対し
て付与した後、所定のスタック・デコーダ・アルゴリズ
ムに用いて、処理途中のテキストデータの単語候補列に
対する結合確率が所定の結合確率以上である単語と品詞
の組み合わせの列の処理候補のみを残して当該組み合わ
せの候補を限定し、当該処理終了時の上記テキストデー
タの文字列において上位複数n個の結合確率を有する単
語分割された単語と品詞の組み合わせの列を、複数n個
の処理候補として出力する。従って、上記第1の処理手
段の処理を従来例に比較して効率的に実行することがで
き、処理コスト低減できる。According to a fourth aspect of the present invention, in the first aspect, the first processing means may include:
Selecting the top n frequency probabilities from among the frequency probabilities of the word categories assigned to the leaf nodes of the word segmentation decision tree and assigning them to each word candidate of the text data; After selecting n top frequency probabilities among the frequency probabilities of the part-of-speech categories assigned to the leaf nodes and assigning them to each word candidate of the text data, the n is used for a predetermined stack decoder algorithm. In addition, only the processing candidates of a row of a combination of a word and a part-of-speech in which the combination probability of the text data being processed with the word candidate string is equal to or greater than a predetermined combination probability are limited, and the candidates of the combination are limited. In the character string of the data, a sequence of the word-speech combination obtained by dividing the word having a plurality of upper n combining probabilities is output as a plurality of n processing candidates. To. Therefore, the processing of the first processing means can be executed more efficiently than in the conventional example, and the processing cost can be reduced.
【0100】本発明に係る請求項5記載の日本語構文解
析装置によれば、日本語の文字列からなる構文解析済み
テキストデータに基づいて、各単語の綴りの特徴と、文
章内の使われ方による特徴と、単語の相互情報量を用い
た階層的な分類とを含む複数の属性を用いて、上記各属
性の属性値に依存して分割されるような二分木形式の木
構造を有し品詞付与のための品詞決定木を生成し、上記
生成された品詞決定木の分割されないノードであるリー
フノードに対して複数の品詞に対する頻度確率を計算し
て付与することにより、品詞カテゴリーの頻度確率付き
品詞決定木を生成する第1の学習手段と、上記テキスト
データに基づいて、各単語の綴りの特徴と、後続する文
字の特徴と、前につながる品詞の特徴と、単語の相互情
報量を用いた階層的な分類とを含む複数の属性を用い
て、上記各属性の属性値に依存して分割されるような二
分木形式の木構造を有し単語分割のための単語分割決定
木を生成し、上記生成された単語分割決定木の分割され
ないノードであるリーフノードに対して単語及び非単語
に対する頻度確率を計算して付与することにより、単語
カテゴリーの頻度確率付き単語分割決定木を生成する第
2の学習手段と、上記テキストデータに基づいて、処理
対象の単語の語数と、処理対象の主辞単語の品詞、処理
対象の直前の単語の品詞、単語の相互情報量を用いた階
層的な分類とを含む複数の属性を用いて、上記各属性の
属性値に依存して分割されるような二分木形式の木構造
を有し文法規則付与のための文法規則決定木を生成し、
上記生成された文法規則決定木の分割されないノードで
あるリーフノードに対して複数の文法規則に対する頻度
確率を計算して付与することにより、頻度確率付き文法
規則決定木を生成する第3の学習手段と、上記テキスト
データに基づいて、処理対象の単語の語数と、処理対象
の主辞単語の品詞、処理対象の直前の単語の品詞、単語
の相互情報量を用いた階層的な分類とを含む複数の属性
を用いて、上記各属性の属性値に依存して分割されるよ
うな二分木形式の木構造を有し文法規則付与処理におけ
る各パージング状態で処理方向を決定するための処理方
向決定木を生成し、上記生成された処理方向決定木の分
割されないノードであるリーフノードに対して複数の処
理方向に対する頻度確率を計算して付与することによ
り、頻度確率付き処理方向決定木を生成する第4の学習
手段と、入力される日本語の文字列からなるテキストデ
ータに基づいて、上記第2の学習手段によって生成され
た単語カテゴリーの頻度確率付き単語分割決定木を用い
て、上記単語分割決定木のリーフノードに付与された単
語カテゴリーの頻度確率の中で上位複数n個の頻度確率
を選択して上記テキストデータの各単語候補に対して付
与するとともに、上記入力される文字列からなるテキス
トデータに基づいて、上記第1の学習手段によって生成
された品詞カテゴリーの頻度確率付き品詞決定木を用い
て、上記品詞決定木のリーフノードに付与された品詞カ
テゴリーの頻度確率の中で上位複数n個の頻度確率を選
択して上記テキストデータの先頭単語候補から1つずつ
の単語候補に対して付与し、上記テキストデータの単語
候補列において最上位の結合確率を有する単語分割され
た単語と品詞の組み合わせの列を、処理候補として出力
する第1の処理手段と、上記第1の処理手段から出力さ
れる処理候補に対して、所定のスタック・デコーダ・ア
ルゴリズムを用いて、文法規則付与処理における各パー
ジング状態での単語列に対する結合確率が最大の結合確
率を有するパージング状態を選択した後、上記第4の学
習手段によって生成された頻度確率付き処理方向決定木
を用いて上記処理対象の単語列における処理方向を決定
し、決定された処理方向におけるパージング状態におい
て、上記第3の学習手段によって生成された頻度確率付
き文法規則決定木に従って文法規則を上記処理対象の単
語列に加えることにより構文解析情報を付与して構文解
析済み単語を出力する第2の処理手段と、上記第1と第
2の処理手段の処理を、上記入力される文字列からなる
テキストデータの先頭から1つの単語候補ずつ、上記テ
キストデータの1文に対する構文解析済みテキストデー
タが得られるまで繰り返すように制御する第3の処理手
段とを備える。従って、品詞の接続関係、語と品詞の関
係、さらに、離れた語あるいは品詞との依存関係を統計
的に処理するため、自動的に一意に高精度で品詞を付与
でき、しかも高精度で文法規則を付与することができ、
高精度の日本語構文解析装置を提供することができる。
また、辞書を用いずに、単語に品詞ラベルを割り当てる
ため、従来技術の問題となる未知語に対する特別な処理
が不必要である。さらに、品詞を付与した構文解析済み
テキストデータを用いて学習を行なうため、多くの品詞
体系に対して柔軟な対応ができる。さらには、自動的に
詳細な構文情報を付与することができるため、付与され
た構文情報を翻訳システム、音声認識システム、又は情
報検索システムに利用することができる。また、詳細な
情報を含む構文構造付きデータを自動的に生成すること
ができるため、構文情報を付与したデータを大量に蓄え
ることができる。さらに、請求項1記載の日本語構文解
析装置に比較して、上記各処理を従来例に比較して効率
的に実行することができ、処理コスト低減でき、しかも
高精度で構文解析することができる。According to the Japanese parsing apparatus according to the fifth aspect of the present invention, based on the parsed text data composed of Japanese character strings, the spelling characteristics of each word and the spelling characteristics of each word are used. Using a plurality of attributes including the characteristics of each of them and a hierarchical classification using the mutual information of words, and has a tree structure in a binary tree format that is divided depending on the attribute value of each of the above attributes. By generating a part-of-speech decision tree for giving part-of-speech and calculating and adding frequency probabilities for a plurality of parts-of-speech to leaf nodes which are nodes that are not divided, the frequency of the part-of-speech category is generated. First learning means for generating a part-of-speech decision tree with probability, based on the text data, the spelling characteristics of each word, the characteristics of the succeeding characters, the characteristics of the part of speech connected before, and the mutual information of the words Hierarchy using Using a plurality of attributes including a classification, a word division decision tree for word division having a tree structure of a binary tree format that is divided depending on the attribute value of each attribute, A second method of generating a word division decision tree with frequency probabilities of word categories by calculating and adding frequency probabilities for words and non-words to leaf nodes that are non-divided nodes of the generated word division decision tree. Based on the learning means, based on the text data, the number of words to be processed, the part of speech of the subject head word to be processed, the part of speech of the word immediately before the processing object, and the hierarchical classification using the mutual information of the words. Using a plurality of attributes including, generating a grammar rule decision tree for a grammar rule assignment having a tree structure of a binary tree format that is divided depending on the attribute value of each attribute,
A third learning means for generating a grammar rule decision tree with a frequency probability by calculating and assigning frequency probabilities for a plurality of grammar rules to leaf nodes which are nodes that are not divided, the generated grammar rule decision tree. And a hierarchical classification using the number of words of the processing target, the part of speech of the subject head word to be processed, the part of speech of the word immediately before the processing target, and the mutual information of the words based on the text data. And a processing direction determining tree for determining a processing direction in each parsing state in the grammar rule assigning process using a tree structure of a binary tree format that is divided depending on the attribute value of each attribute using the attribute Is generated, and frequency probabilities for a plurality of processing directions are calculated and assigned to leaf nodes, which are nodes that are not divided, in the generated processing direction decision tree, thereby providing a process with a frequency probability. A fourth learning means for generating a direction decision tree, and a word division decision tree with frequency probability of the word category generated by the second learning means, based on text data consisting of an input Japanese character string. And using the word probabilities of the word categories assigned to the leaf nodes of the word segmentation decision tree to select and assign n higher-order n frequency probabilities to each word candidate of the text data, The frequency of the part-of-speech category assigned to the leaf node of the part-of-speech decision tree using the part-of-speech decision tree with the frequency probability of the part-of-speech category generated by the first learning means based on the text data composed of the character string From among the probabilities, the n top frequency probabilities are selected and assigned to each word candidate from the head word candidate of the text data, and Processing means for outputting, as processing candidates, a sequence of combinations of words and parts of speech having the highest combination probability in the word candidate sequence of the data, and processing candidates output from the first processing means. Then, using a predetermined stack decoder algorithm, after selecting a purging state in which the connection probability with respect to the word string in each purging state in the grammar rule assignment processing has the maximum connection probability, the fourth learning means The processing direction in the word string to be processed is determined using the processing direction decision tree with the frequency probability generated by the above, and in the parsing state in the determined processing direction, the frequency with the frequency probability generated by the third learning means is determined. Parsing by adding parsing information by adding a grammar rule to the above word string to be processed according to a grammar rule decision tree The second processing means for outputting the completed word, and the processing of the first and second processing means are performed by executing one sentence of the text data by one word candidate from the beginning of the text data consisting of the input character string. And a third processing unit for controlling the repetition until the parsed text data is obtained. Therefore, since the part-of-speech connection relation, the relation between words and part-of-speech, and the dependency relation between distant words or parts of speech are statistically processed, parts of speech can be automatically and uniquely assigned with high precision, and grammar with high precision Rules can be granted,
A high-precision Japanese syntax analyzer can be provided.
In addition, since a part of speech label is assigned to a word without using a dictionary, a special process for an unknown word, which is a problem of the related art, is unnecessary. Furthermore, since the learning is performed using the parsed text data to which the parts of speech are added, it is possible to flexibly cope with many parts of speech systems. Furthermore, since detailed syntax information can be automatically added, the added syntax information can be used for a translation system, a speech recognition system, or an information search system. Further, since data with syntax structure including detailed information can be automatically generated, a large amount of data with syntax information can be stored. Furthermore, as compared with the Japanese parsing apparatus according to claim 1, each of the above processes can be executed more efficiently than in the conventional example, processing costs can be reduced, and parsing can be performed with high accuracy. it can.
【0101】また、請求項6記載の日本語構文解析装置
によれば、請求項5記載の日本語構文解析装置におい
て、上記各決定木学習手段は、上記二分木の形式で分割
するときに、上記各属性による分割前の属性の有効性の
優先順位を表わすエントロピーH0と分割後のエントロ
ピーHとの差(H0−H)が最大の属性を分割候補の属
性として選択し、所定の分割続行基準を満足するとき
に、二分木の形式で分割して決定木を更新する。従っ
て、上記各決定木の学習処理を従来例に比較して効率的
に実行することができ、処理コスト低減できる。According to the Japanese syntax analyzer of the sixth aspect, in the Japanese syntax analyzer of the fifth aspect, each of the decision tree learning means is configured to divide the binary tree in the form of the binary tree. The attribute having the largest difference (H 0 −H) between the entropy H 0 indicating the priority of the validity of the attribute before the division by each attribute and the entropy H after the division is selected as the attribute of the division candidate, and the predetermined division is performed. When the continuation criterion is satisfied, the decision tree is updated by dividing in the form of a binary tree. Therefore, the learning process of each decision tree can be executed more efficiently than in the conventional example, and the processing cost can be reduced.
【0102】さらに、請求項7記載の日本語構文解析装
置によれば、請求項6記載の日本語構文解析装置におい
て、上記分割続行基準は、(I)選択された属性に基づ
いて分割したときのエントロピーの差(H0−H)が所
定のエントロピーしきい値Hth以上であり、かつ(I
I)選択された属性に基づく分割後の属性とその属性値
及び品詞の組のイベント数が所定のイベント数しきい値
Dth以上であることを特徴とする。従って、上記各決
定木の学習処理を従来例に比較して効率的に実行するこ
とができ、処理コスト低減できる。Further, according to the Japanese syntax analyzer of the seventh aspect, in the Japanese syntax analyzer of the sixth aspect, the division continuation criterion is determined when (I) the division is performed based on the selected attribute. Is greater than or equal to a predetermined entropy threshold Hth, and (I 0 −H)
I) The number of events of a set of the attribute after division based on the selected attribute, the attribute value thereof, and the part of speech is equal to or more than a predetermined event number threshold value Dth. Therefore, the learning process of each decision tree can be executed more efficiently than in the conventional example, and the processing cost can be reduced.
【0103】またさらに、請求項8記載の日本語構文解
析装置によれば、請求項5乃至7のうちの1つに記載の
日本語構文解析装置において、上記第1の処理手段は、
上記単語分割決定木のリーフノードに付与された単語カ
テゴリーの頻度確率の中で上位複数n個の頻度確率を選
択して上記テキストデータの単語候補に対して付与し、
かつ上記品詞付与決定木のリーフノードに付与された品
詞カテゴリーの頻度確率の中で上位複数n個の頻度確率
を選択して上記テキストデータの各単語候補に対して付
与した後、所定のスタック・デコーダ・アルゴリズムに
用いて、処理途中のテキストデータの単語候補列に対す
る結合確率が所定の結合確率以上である単語と品詞の組
み合わせの列の処理候補のみを残して当該組み合わせの
候補を限定し、当該処理終了時の上記テキストデータの
文字列において最上位の結合確率を有する単語分割され
た単語と品詞の組み合わせの列を、処理候補として出力
する。従って、上記第1の処理手段の処理を従来例に比
較して効率的に実行することができ、処理コスト低減で
きる。According to still another aspect of the present invention, in the Japanese language parsing apparatus according to any one of claims 5 to 7, the first processing means may include:
From the frequency probabilities of the word categories assigned to the leaf nodes of the word segmentation decision tree, select the n top frequency probabilities and assign them to the word candidates of the text data,
In addition, after selecting a plurality of n higher-order frequency probabilities from among the frequency probabilities of the part-of-speech categories assigned to the leaf nodes of the part-of-speech assignment decision tree and assigning them to each word candidate of the text data, a predetermined stack Using the decoder algorithm, the candidate of the combination of the word and the part of speech having the combination probability of the text data being processed that is equal to or greater than the predetermined combination probability is limited to the candidates of the combination. At the end of the process, a sequence of a word-speech combination having the highest combination probability in the character string of the text data is output as a process candidate. Therefore, the processing of the first processing means can be executed more efficiently than in the conventional example, and the processing cost can be reduced.
【図1】 本発明に係る一実施形態である、決定木学習
装置10及び構文情報付与装置11を備えた日本語構文
解析システムのブロック図である。FIG. 1 is a block diagram of a Japanese syntax analysis system including a decision tree learning device 10 and a syntax information providing device 11 according to an embodiment of the present invention.
【図2】 図1の決定木学習装置10によって実行され
る品詞決定木学習処理を示すフローチャートである。FIG. 2 is a flowchart showing a part-of-speech decision tree learning process executed by the decision tree learning device 10 of FIG.
【図3】 図1の決定木学習装置10によって実行され
る文法規則決定木学習処理を示すフローチャートであ
る。FIG. 3 is a flowchart showing a grammar rule decision tree learning process executed by the decision tree learning device 10 of FIG. 1;
【図4】 図1の決定木学習装置10によって実行され
る処理方向決定木学習処理を示すフローチャートであ
る。FIG. 4 is a flowchart showing processing direction decision tree learning processing executed by the decision tree learning device 10 of FIG. 1;
【図5】 図1の決定木学習装置10によって実行され
る単語分割決定木学習処理を示すフローチャートであ
る。FIG. 5 is a flowchart showing a word division decision tree learning process executed by the decision tree learning device 10 of FIG. 1;
【図6】 図2乃至図5のサブルーチンである決定木作
成処理(ステップS3,S13,S23,S28)を示
すフローチャートである。FIG. 6 is a flowchart showing a decision tree creation process (steps S3, S13, S23, S28) which is a subroutine of FIGS. 2 to 5;
【図7】 図1の構文情報付与装置11によって実行さ
れる構文情報付与処理を示すフローチャートである。FIG. 7 is a flowchart showing a syntax information providing process executed by the syntax information providing apparatus 11 of FIG. 1;
【図8】 図7のサブルーチンである単語分割及び品詞
付与処理(ステップS43)の第1の部分を示すフロー
チャートである。8 is a flowchart showing a first part of the word division and part of speech processing (step S43), which is a subroutine of FIG.
【図9】 図7のサブルーチンである単語分割及び品詞
付与処理(ステップS43)の第2の部分を示すフロー
チャートである。9 is a flowchart showing a second part of the word division and part of speech processing (step S43), which is a subroutine of FIG.
【図10】 図7のサブルーチンである文法規則付与処
理(ステップS44)の第1の部分を示すフローチャー
トである。FIG. 10 is a flowchart showing a first part of a grammar rule assignment process (step S44), which is a subroutine of FIG.
【図11】 図7のサブルーチンである文法規則付与処
理(ステップS44)の第2の部分を示すフローチャー
トである。FIG. 11 is a flowchart showing a second part of the grammar rule assignment process (step S44), which is a subroutine of FIG.
【図12】 図1の決定木学習装置10によって作成さ
れた単語分割決定木ファイルメモリ28内の単語分割決
定木の一例を示す図である。12 is a diagram showing an example of a word division decision tree in a word division decision tree file memory 28 created by the decision tree learning device 10 of FIG.
【図13】 図1の決定木学習装置10によって作成さ
れた品詞決定木ファイルメモリ25内の品詞決定木の一
例を示す図である。FIG. 13 is a diagram showing an example of a part of speech decision tree in a part of speech decision tree file memory 25 created by the decision tree learning device 10 of FIG.
【図14】 図1の決定木学習装置10によって作成さ
れた文法規則決定木ファイルメモリ26内の文法規則決
定木の一例を示す図である。14 is a diagram showing an example of a grammar rule decision tree in a grammar rule decision tree file memory 26 created by the decision tree learning device 10 of FIG.
【図15】 図1の決定木学習装置10によって作成さ
れた処理方法決定木ファイルメモリ27内の処理方向決
定木の一例を示す図である。FIG. 15 is a diagram showing an example of a processing direction decision tree in a processing method decision tree file memory 27 created by the decision tree learning device 10 of FIG.
【図16】 図1の構文情報付与装置11における処理
途中のパージング状態及び処理方向の一例を示すフロー
図である。FIG. 16 is a flowchart showing an example of a parsing state and a processing direction during processing in the syntax information providing apparatus 11 of FIG. 1;
【図17】 変形例の構文情報付与装置11によって実
行される構文情報付与処理を示すフローチャートであ
る。FIG. 17 is a flowchart showing a syntax information adding process executed by a syntax information adding device 11 of a modified example.
【図18】 変形例の構文情報付与装置11における処
理途中のパージング状態及び処理方向の一例を示すフロ
ー図である。FIG. 18 is a flowchart illustrating an example of a parsing state and a processing direction during processing in a syntax information providing apparatus 11 according to a modified example.
10…決定木学習装置、 11…構文情報付与装置、 21…構文解析済みテキストデータメモリ、 22…属性リストメモリ、 23…品詞リストメモリ、 24…文法規則リストメモリ、 25…品詞決定木ファイルメモリ、 26…文法規則決定木ファイルメモリ、 27…処理方向決定木ファイルメモリ、 28…単語分割決定木ファイルメモリ、 29…単語リストメモリ、 30…テキストデータメモリ、 31…構文解析済みテキストデータメモリ。 10: Decision tree learning device, 11: Syntax information adding device, 21: Parsed text data memory, 22: Attribute list memory, 23: Part of speech list memory, 24: Grammar rule list memory, 25: Part of speech decision tree file memory, 26: grammar rule decision tree file memory, 27: processing direction decision tree file memory, 28: word division decision tree file memory, 29: word list memory, 30: text data memory, 31: parsed text data memory.
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 David M.Magerma n,”Learning Gramma tical Structure Us ing Statistical De cision−Trees”,Lect ure Notes in Artif icial Intelligence 1147,p.1−p.21(1996) 柏岡秀紀,Ezra W.Blac k,Stephen G.Euban k,「決定木学習による形態素解析」、 人工知能学会研究会資料、SIG−SL UD−9603−4、p.19−p.24 (1996) (58)調査した分野(Int.Cl.7,DB名) G06F 17/20 - 17/28 JICSTファイル(JOIS)──────────────────────────────────────────────────続 き Continued on the front page (56) References David M. See Magerman, "Learning Grammatic Structure Using Statistical Decision-Trees", Lecture Notes in Artificial Intelligence 1147, p. 1-p. 21 (1996) Hidenori Kashioka, Ezra W. Black, Stephen G .; Eubank, "Morphological Analysis by Decision Tree Learning", SIG-SL UD-9603-4, p. 19-p. 24 (1996) (58) Fields surveyed (Int. Cl. 7 , DB name) G06F 17/20-17/28 JICST file (JOIS)
Claims (8)
キストデータに基づいて、各単語の綴りの特徴と、文章
内の使われ方による特徴と、単語の相互情報量を用いた
階層的な分類とを含む複数の属性を用いて、上記各属性
の属性値に依存して分割されるような二分木形式の木構
造を有し品詞付与のための品詞決定木を生成し、上記生
成された品詞決定木の分割されないノードであるリーフ
ノードに対して複数の品詞に対する頻度確率を計算して
付与することにより、品詞カテゴリーの頻度確率付き品
詞決定木を生成する第1の学習手段と、 上記テキストデータに基づいて、各単語の綴りの特徴
と、後続する文字の特徴と、前につながる品詞の特徴
と、単語の相互情報量を用いた階層的な分類とを含む複
数の属性を用いて、上記各属性の属性値に依存して分割
されるような二分木形式の木構造を有し単語分割のため
の単語分割決定木を生成し、上記生成された単語分割決
定木の分割されないノードであるリーフノードに対して
単語及び非単語に対する頻度確率を計算して付与するこ
とにより、単語カテゴリーの頻度確率付き単語分割決定
木を生成する第2の学習手段と、 上記テキストデータに基づいて、処理対象の単語の語数
と、処理対象の主辞単語の品詞、処理対象の直前の単語
の品詞、単語の相互情報量を用いた階層的な分類とを含
む複数の属性を用いて、上記各属性の属性値に依存して
分割されるような二分木形式の木構造を有し文法規則付
与のための文法規則決定木を生成し、上記生成された文
法規則決定木の分割されないノードであるリーフノード
に対して複数の文法規則に対する頻度確率を計算して付
与することにより、頻度確率付き文法規則決定木を生成
する第3の学習手段と、 上記テキストデータに基づいて、処理対象の単語の語数
と、処理対象の主辞単語の品詞、処理対象の直前の単語
の品詞、単語の相互情報量を用いた階層的な分類とを含
む複数の属性を用いて、上記各属性の属性値に依存して
分割されるような二分木形式の木構造を有し文法規則付
与処理における各パージング状態で処理方向を決定する
ための処理方向決定木を生成し、上記生成された処理方
向決定木の分割されないノードであるリーフノードに対
して複数の処理方向に対する頻度確率を計算して付与す
ることにより、頻度確率付き処理方向決定木を生成する
第4の学習手段と、 入力される日本語の文字列からなるテキストデータに基
づいて、上記第2の学習手段によって生成された単語カ
テゴリーの頻度確率付き単語分割決定木を用いて、上記
単語分割決定木のリーフノードに付与された単語カテゴ
リーの頻度確率の中で上位複数n個の頻度確率を選択し
て上記テキストデータの各単語候補に対して付与すると
ともに、上記入力される文字列からなるテキストデータ
に基づいて、上記第1の学習手段によって生成された品
詞カテゴリーの頻度確率付き品詞決定木を用いて、上記
品詞決定木のリーフノードに付与された品詞カテゴリー
の頻度確率の中で上位複数n個の頻度確率を選択して上
記テキストデータの各単語候補に対して付与し、上記テ
キストデータの単語候補列において上位複数n個の結合
確率を有する単語分割された単語と品詞の組み合わせの
列を、複数n個の処理候補として出力する第1の処理手
段と、 上記第1の処理手段から出力される複数n個の処理候補
のうち、より上位の処理候補から順次1つずつの処理候
補に対して1つの文として成立するまで、所定のスタッ
ク・デコーダ・アルゴリズムを用いて、文法規則付与処
理における各パージング状態での単語列に対する結合確
率が最大の結合確率を有するパージング状態を選択した
後、上記第4の学習手段によって生成された頻度確率付
き処理方向決定木を用いて上記処理対象の単語列におけ
る処理方向を決定し、決定された処理方向におけるパー
ジング状態において、上記第3の学習手段によって生成
された頻度確率付き文法規則決定木に従って文法規則を
上記処理対象の単語列に加えることにより構文解析情報
を付与して構文解析済みテキストデータを出力する第2
の処理手段とを備えたことを特徴とする日本語構文解析
装置。Based on parsed text data composed of Japanese character strings, a hierarchical spelling using the spelling characteristics of each word, the characteristics according to the usage in a sentence, and the mutual information of the words. Using a plurality of attributes including a classification, a part-of-speech decision tree for giving a part-of-speech having a tree structure of a binary tree format that is divided depending on the attribute value of each attribute, First learning means for generating a part-of-speech decision tree with a frequency probability of a part-of-speech category by calculating and assigning frequency probabilities for a plurality of parts of speech to a leaf node which is an undivided node of the part-of-speech decision tree; Based on text data, using multiple attributes including spelling characteristics of each word, characteristics of subsequent characters, characteristics of preceding part of speech, and hierarchical classification using mutual information of words , Attributes of each of the above attributes Generates a word-segmented decision tree for word segmentation having a tree structure of a binary tree form that is segmented depending on A second learning unit that calculates and assigns the frequency probabilities for words and non-words to generate a word segmentation decision tree with frequency probabilities of the word categories, based on the text data, Using a plurality of attributes including the part of speech of the subject word to be processed, the part of speech of the word immediately before the processing object, and hierarchical classification using mutual information of words, A grammar rule decision tree for generating a grammar rule having a tree structure in a binary tree format that can be divided is generated. Regulations A third learning means for generating a grammar rule decision tree with a frequency probability by calculating and assigning a frequency probability to the word, and a word number of a word to be processed and a head word of a subject word to be processed based on the text data. A binary tree that is divided depending on the attribute value of each of the above attributes using a plurality of attributes including a part of speech, a part of speech of a word immediately before processing, and a hierarchical classification using mutual information of words. A processing direction decision tree for determining a processing direction in each parsing state in a grammar rule assignment process having a tree structure of a form is generated, and a leaf node which is an undivided node of the generated processing direction decision tree is generated. Fourth learning means for generating a processing direction decision tree with frequency probabilities by calculating and adding frequency probabilities for a plurality of processing directions, and text data comprising an input Japanese character string Using the word division decision tree with frequency probabilities of the word categories generated by the second learning means, based on the frequency probabilities of the word categories assigned to the leaf nodes of the word division decision tree. Of the part-of-speech categories generated by the first learning means based on the text data consisting of the input character string, while selecting the frequency probabilities for each word candidate of the text data. Using the part-of-speech decision tree with probabilities, the frequency probabilities of the top plural n among the part-of-speech categories assigned to the leaf nodes of the part-of-speech tree are selected and assigned to each word candidate of the text data. Then, in the word candidate sequence of the text data, a sequence of a combination of a word and a part of speech having a plurality of n higher-order connection probabilities is represented by a plurality of n A first processing means for outputting as a processing candidate, and a plurality of n processing candidates output from the first processing means, one for each processing candidate sequentially from a higher processing candidate. Until the sentence is established, after using the predetermined stack decoder algorithm to select the purging state having the maximum connection probability for the word string in each purging state in the grammar rule assignment processing, The processing direction in the word string to be processed is determined using the processing direction decision tree with frequency probability generated by the learning means, and in the parsing state in the determined processing direction, the frequency generated by the third learning means is determined. According to the grammar rule decision tree with probabilities, the grammar rule is added to the above-mentioned word string to be processed, so that parsing information is added and parsing is performed. The second to output the text data
Japanese language parsing apparatus, comprising:
形式で分割するときに、上記各属性による分割前の属性
の有効性の優先順位を表わすエントロピーH0と分割後
のエントロピーHとの差(H0−H)が最大の属性を分
割候補の属性として選択し、所定の分割続行基準を満足
するときに、二分木の形式で分割して決定木を更新する
ことを特徴とする請求項1記載の日本語構文解析装置。Wherein each decision tree learning means, when splitting in the form of the binary tree, and the entropy H of the divided entropy H 0 representing the priority of the effectiveness of the attributes before division by the respective attribute the difference (H 0 -H) selects the greatest attribute as an attribute of the candidate dividing, when satisfying the predetermined division continue criterion, and updates the decision tree is divided in the form of a binary tree of The Japanese syntax analyzer according to claim 1.
属性に基づいて分割したときのエントロピーの差(H0
−H)が所定のエントロピーしきい値Hth以上であ
り、かつ(II)選択された属性に基づく分割後の属性と
その属性値及び品詞の組のイベント数が所定のイベント
数しきい値Dth以上であることを特徴とする請求項2
記載の日本語構文解析装置。3. The division continuation criterion includes: (I) a difference (H 0) in entropy at the time of division based on a selected attribute.
-H) is equal to or greater than a predetermined entropy threshold Hth, and (II) the number of events of the set of the attribute after division based on the selected attribute and its attribute value and part of speech is equal to or greater than a predetermined event number threshold Dth 3. The method according to claim 2, wherein
Japanese parser described.
定木のリーフノードに付与された単語カテゴリーの頻度
確率の中で上位複数n個の頻度確率を選択して上記テキ
ストデータの各単語候補に対して付与し、かつ上記品詞
付与決定木のリーフノードに付与された品詞カテゴリー
の頻度確率の中で上位複数n個の頻度確率を選択して上
記テキストデータの各単語候補に対して付与した後、所
定のスタック・デコーダ・アルゴリズムに用いて、処理
途中のテキストデータの単語候補列に対する結合確率が
所定の結合確率以上である単語と品詞の組み合わせの列
の処理候補のみを残して当該組み合わせの候補を限定
し、当該処理終了時の上記テキストデータの文字列にお
いて上位複数n個の結合確率を有する単語分割された単
語と品詞の組み合わせの列を、複数n個の処理候補とし
て出力することを特徴とする請求項1乃至3のうちの1
つに記載の日本語構文解析装置。4. The method according to claim 1, wherein the first processing means selects a plurality of top n frequency probabilities from among the frequency probabilities of the word categories assigned to the leaf nodes of the word division decision tree, and selects each word of the text data. Assigned to a candidate, and selects a plurality of n higher-order frequency probabilities among the frequency probabilities of the part-of-speech categories assigned to the leaf nodes of the part-of-speech assignment decision tree and assigns them to each word candidate of the text data After that, using a predetermined stack decoder algorithm, leaving only the processing candidate of the word and part-of-speech combination row where the connection probability of the text data being processed to the word candidate string is equal to or higher than the predetermined connection probability And a combination of a word-segmented word and a part-of-speech word having a plurality of upper n combination probabilities in the character string of the text data at the end of the processing. Is output as a plurality of n processing candidates.
Japanese parser according to one of the above.
キストデータに基づいて、各単語の綴りの特徴と、文章
内の使われ方による特徴と、単語の相互情報量を用いた
階層的な分類とを含む複数の属性を用いて、上記各属性
の属性値に依存して分割されるような二分木形式の木構
造を有し品詞付与のための品詞決定木を生成し、上記生
成された品詞決定木の分割されないノードであるリーフ
ノードに対して複数の品詞に対する頻度確率を計算して
付与することにより、品詞カテゴリーの頻度確率付き品
詞決定木を生成する第1の学習手段と、 上記テキストデータに基づいて、各単語の綴りの特徴
と、後続する文字の特徴と、前につながる品詞の特徴
と、単語の相互情報量を用いた階層的な分類とを含む複
数の属性を用いて、上記各属性の属性値に依存して分割
されるような二分木形式の木構造を有し単語分割のため
の単語分割決定木を生成し、上記生成された単語分割決
定木の分割されないノードであるリーフノードに対して
単語及び非単語に対する頻度確率を計算して付与するこ
とにより、単語カテゴリーの頻度確率付き単語分割決定
木を生成する第2の学習手段と、 上記テキストデータに基づいて、処理対象の単語の語数
と、処理対象の主辞単語の品詞、処理対象の直前の単語
の品詞、単語の相互情報量を用いた階層的な分類とを含
む複数の属性を用いて、上記各属性の属性値に依存して
分割されるような二分木形式の木構造を有し文法規則付
与のための文法規則決定木を生成し、上記生成された文
法規則決定木の分割されないノードであるリーフノード
に対して複数の文法規則に対する頻度確率を計算して付
与することにより、頻度確率付き文法規則決定木を生成
する第3の学習手段と、 上記テキストデータに基づいて、処理対象の単語の語数
と、処理対象の主辞単語の品詞、処理対象の直前の単語
の品詞、単語の相互情報量を用いた階層的な分類とを含
む複数の属性を用いて、上記各属性の属性値に依存して
分割されるような二分木形式の木構造を有し文法規則付
与処理における各パージング状態で処理方向を決定する
ための処理方向決定木を生成し、上記生成された処理方
向決定木の分割されないノードであるリーフノードに対
して複数の処理方向に対する頻度確率を計算して付与す
ることにより、頻度確率付き処理方向決定木を生成する
第4の学習手段と、 入力される日本語の文字列からなるテキストデータに基
づいて、上記第2の学習手段によって生成された単語カ
テゴリーの頻度確率付き単語分割決定木を用いて、上記
単語分割決定木のリーフノードに付与された単語カテゴ
リーの頻度確率の中で上位複数n個の頻度確率を選択し
て上記テキストデータの各単語候補に対して付与すると
ともに、上記入力される文字列からなるテキストデータ
に基づいて、上記第1の学習手段によって生成された品
詞カテゴリーの頻度確率付き品詞決定木を用いて、上記
品詞決定木のリーフノードに付与された品詞カテゴリー
の頻度確率の中で上位複数n個の頻度確率を選択して上
記テキストデータの先頭単語候補から1つずつの単語候
補に対して付与し、上記テキストデータの単語候補列に
おいて最上位の結合確率を有する単語分割された単語と
品詞の組み合わせの列を、処理候補として出力する第1
の処理手段と、 上記第1の処理手段から出力される処理候補に対して、
所定のスタック・デコーダ・アルゴリズムを用いて、文
法規則付与処理における各パージング状態での単語列に
対する結合確率が最大の結合確率を有するパージング状
態を選択した後、上記第4の学習手段によって生成され
た頻度確率付き処理方向決定木を用いて上記処理対象の
単語列における処理方向を決定し、決定された処理方向
におけるパージング状態において、上記第3の学習手段
によって生成された頻度確率付き文法規則決定木に従っ
て文法規則を上記処理対象の単語列に加えることにより
構文解析情報を付与して構文解析済み単語を出力する第
2の処理手段と、 上記第1と第2の処理手段の処理を、上記入力される文
字列からなるテキストデータの先頭から1つの単語候補
ずつ、上記テキストデータの1文に対する構文解析済み
テキストデータが得られるまで繰り返すように制御する
第3の処理手段とを備えたことを特徴とする日本語構文
解析装置。5. A hierarchical structure using spelling characteristics of each word, characteristics of usage in a sentence, and mutual information of words based on parsed text data composed of Japanese character strings. Using a plurality of attributes including a classification, a part-of-speech decision tree for giving a part-of-speech having a tree structure of a binary tree format that is divided depending on the attribute value of each attribute, A first learning means for calculating a frequency probability for a plurality of parts of speech to a leaf node which is a node which is not divided by the part of speech decision tree, and generating a part of speech tree with a frequency probability of a part of speech category; Based on text data, using multiple attributes including spelling characteristics of each word, characteristics of subsequent characters, characteristics of preceding part of speech, and hierarchical classification using mutual information of words , Attributes of each of the above attributes Generates a word-segmented decision tree for word segmentation having a tree structure of a binary tree form that is segmented depending on A second learning unit that calculates and assigns the frequency probabilities for words and non-words to generate a word segmentation decision tree with frequency probabilities of the word categories, based on the text data, Using a plurality of attributes including the part of speech of the subject word to be processed, the part of speech of the word immediately before the processing object, and hierarchical classification using mutual information of words, A grammar rule decision tree for generating a grammar rule having a tree structure in a binary tree format that can be divided is generated. Regulations A third learning means for generating a grammar rule decision tree with a frequency probability by calculating and assigning a frequency probability to the word, and a word number of a word to be processed and a head word of a subject word to be processed based on the text data. A binary tree that is divided depending on the attribute value of each of the above attributes using a plurality of attributes including a part of speech, a part of speech of a word immediately before processing, and a hierarchical classification using mutual information of words. A processing direction decision tree for determining a processing direction in each parsing state in a grammar rule assignment process having a tree structure of a form is generated, and a leaf node which is an undivided node of the generated processing direction decision tree is generated. Fourth learning means for generating a processing direction decision tree with frequency probabilities by calculating and adding frequency probabilities for a plurality of processing directions, and text data comprising an input Japanese character string And using the word category decision tree with frequency probabilities of the word categories generated by the second learning means on the basis of the frequency categories of the word categories assigned to the leaf nodes of the word category decision tree. Of the part-of-speech categories generated by the first learning means based on the text data consisting of the input character string, while selecting the frequency probabilities for each word candidate of the text data. Using the part-of-speech decision tree with probabilities, the frequency probabilities of the top plural n among the part-of-speech categories assigned to the leaf nodes of the part-of-speech decision tree are selected, and one by one from the top word candidates of the text data. Of word-segmented words having the highest combination probability in the word candidate string of the text data First outputting the columns of the allowed, as processing candidate
Processing means, and processing candidates output from the first processing means,
After using a predetermined stack decoder algorithm to select a purging state having a maximum connection probability for a word string in each purging state in the grammar rule assignment process, the purging state generated by the fourth learning means is selected. The processing direction in the word string to be processed is determined using the processing direction decision tree with frequency probability, and in the parsing state in the determined processing direction, the grammatical rule decision tree with frequency probability generated by the third learning means. Adding a grammar rule to the word string to be processed according to the above, giving syntactic analysis information and outputting a parsed word; and processing the first and second processing means by the input Parsed for one sentence of the above text data, one word candidate at a time from the beginning of the text data consisting of the character string And a third processing means for controlling so as to repeat until text data is obtained.
形式で分割するときに、上記各属性による分割前の属性
の有効性の優先順位を表わすエントロピーH0と分割後
のエントロピーHとの差(H0−H)が最大の属性を分
割候補の属性として選択し、所定の分割続行基準を満足
するときに、二分木の形式で分割して決定木を更新する
ことを特徴とする請求項5記載の日本語構文解析装置。6. When the decision tree learning means divides in the form of the binary tree, the entropy H 0 indicating the priority of the validity of the attribute before the division by the attribute and the entropy H after the division are used. the difference (H 0 -H) selects the greatest attribute as an attribute of the candidate dividing, when satisfying the predetermined division continue criterion, and updates the decision tree is divided in the form of a binary tree of The Japanese syntax analyzer according to claim 5.
属性に基づいて分割したときのエントロピーの差(H0
−H)が所定のエントロピーしきい値Hth以上であ
り、かつ(II)選択された属性に基づく分割後の属性と
その属性値及び品詞の組のイベント数が所定のイベント
数しきい値Dth以上であることを特徴とする請求項6
記載の日本語構文解析装置。7. The division continuation criterion includes: (I) a difference (H 0) in entropy at the time of division based on a selected attribute.
-H) is greater than or equal to a predetermined entropy threshold Hth, and (II) the number of events of a set of attributes, their attribute values, and parts of speech based on the selected attribute is greater than or equal to a predetermined event number threshold Dth 7. The method according to claim 6, wherein
Japanese parser described.
定木のリーフノードに付与された単語カテゴリーの頻度
確率の中で上位複数n個の頻度確率を選択して上記テキ
ストデータの単語候補に対して付与し、かつ上記品詞付
与決定木のリーフノードに付与された品詞カテゴリーの
頻度確率の中で上位複数n個の頻度確率を選択して上記
テキストデータの各単語候補に対して付与した後、所定
のスタック・デコーダ・アルゴリズムに用いて、処理途
中のテキストデータの単語候補列に対する結合確率が所
定の結合確率以上である単語と品詞の組み合わせの列の
処理候補のみを残して当該組み合わせの候補を限定し、
当該処理終了時の上記テキストデータの文字列において
最上位の結合確率を有する単語分割された単語と品詞の
組み合わせの列を、処理候補として出力することを特徴
とする請求項5乃至7のうちの1つに記載の日本語構文
解析装置。8. The word processing apparatus according to claim 1, wherein the first processing means selects a plurality of n frequency probabilities among the frequency probabilities of the word categories assigned to the leaf nodes of the word division decision tree, and selects word candidates of the text data. And a plurality of upper n frequency probabilities are selected from among the frequency probabilities of the part-of-speech categories assigned to the leaf nodes of the part-of-speech assignment decision tree, and assigned to each word candidate of the text data. Then, using a predetermined stack decoder algorithm, leaving only the processing candidates of the word and part-of-speech combination row in which the connection probability of the text data being processed to the word candidate string is equal to or greater than the predetermined connection probability, Restrict candidates,
8. The method according to claim 5, wherein a sequence of a combination of a word and a word class having the highest combination probability in the character string of the text data at the end of the processing is output as a processing candidate. Japanese parser according to one.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP10072037A JP3035261B2 (en) | 1998-03-20 | 1998-03-20 | Japanese parser |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP10072037A JP3035261B2 (en) | 1998-03-20 | 1998-03-20 | Japanese parser |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH11272665A JPH11272665A (en) | 1999-10-08 |
| JP3035261B2 true JP3035261B2 (en) | 2000-04-24 |
Family
ID=13477813
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP10072037A Expired - Fee Related JP3035261B2 (en) | 1998-03-20 | 1998-03-20 | Japanese parser |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3035261B2 (en) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP1554864B1 (en) * | 2002-10-16 | 2012-11-21 | Nuance Communications, Inc. | Directory assistant method and apparatus |
| CN108197295B (en) * | 2018-01-22 | 2022-03-11 | 重庆邮电大学 | Application method of attribute reduction based on multi-granularity attribute tree in text classification |
| CN110427461B (en) * | 2019-08-06 | 2023-04-07 | 腾讯科技(深圳)有限公司 | Intelligent question and answer information processing method, electronic equipment and computer readable storage medium |
-
1998
- 1998-03-20 JP JP10072037A patent/JP3035261B2/en not_active Expired - Fee Related
Non-Patent Citations (2)
| Title |
|---|
| David M.Magerman,"Learning Grammatical Structure Using Statistical Decision−Trees",Lecture Notes in Artificial Intelligence 1147,p.1−p.21(1996) |
| 柏岡秀紀,Ezra W.Black,Stephen G.Eubank,「決定木学習による形態素解析」、人工知能学会研究会資料、SIG−SLUD−9603−4、p.19−p.24(1996) |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH11272665A (en) | 1999-10-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Brill | Transformation-based error-driven learning and natural language processing: A case study in part-of-speech tagging | |
| US7035789B2 (en) | Supervised automatic text generation based on word classes for language modeling | |
| Derouault et al. | Natural language modeling for phoneme-to-text transcription | |
| Magerman | Natural language parsing as statistical pattern recognition | |
| US5680511A (en) | Systems and methods for word recognition | |
| US6721697B1 (en) | Method and system for reducing lexical ambiguity | |
| US6760695B1 (en) | Automated natural language processing | |
| US5687384A (en) | Parsing system | |
| Chelba | Exploiting syntactic structure for natural language modeling | |
| Lavie | GLR*: A robust grammar-focused parser for spontaneously spoken language | |
| Araujo | Part-of-speech tagging with evolutionary algorithms | |
| Srihari et al. | Incorporating syntactic constraints in recognizing handwritten sentences | |
| Márquez | Part-of-speech Tagging: A Machine Learning Approach based on Decision Trees | |
| Araujo | How evolutionary algorithms are applied to statistical natural language processing | |
| JP3309174B2 (en) | Character recognition method and device | |
| Kim et al. | Learning-based intrasentence segmentation for efficient translation of long sentences | |
| JP3035261B2 (en) | Japanese parser | |
| Alegria et al. | Using finite state technology in natural language processing of Basque | |
| Magerman | Parsing as statistical pattern recognition | |
| JP3027553B2 (en) | Parser | |
| Zaenen et al. | Language analysis and understanding | |
| KR20040018008A (en) | Apparatus for tagging part of speech and method therefor | |
| Khoufi et al. | Chunking Arabic texts using conditional random fields | |
| JP3100556B2 (en) | Part-of-speech device | |
| JP3174526B2 (en) | Morphological analyzer |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090218 Year of fee payment: 9 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100218 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110218 Year of fee payment: 11 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120218 Year of fee payment: 12 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130218 Year of fee payment: 13 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140218 Year of fee payment: 14 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |