JP3972698B2 - Natural language processing system, natural language processing method, and computer program - Google Patents
Natural language processing system, natural language processing method, and computer program Download PDFInfo
- Publication number
- JP3972698B2 JP3972698B2 JP2002079630A JP2002079630A JP3972698B2 JP 3972698 B2 JP3972698 B2 JP 3972698B2 JP 2002079630 A JP2002079630 A JP 2002079630A JP 2002079630 A JP2002079630 A JP 2002079630A JP 3972698 B2 JP3972698 B2 JP 3972698B2
- Authority
- JP
- Japan
- Prior art keywords
- valence
- verb
- sentence
- natural language
- language processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000003058 natural language processing Methods 0.000 title claims description 39
- 238000000034 method Methods 0.000 title claims description 26
- 238000004590 computer program Methods 0.000 title description 15
- 230000014509 gene expression Effects 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 description 40
- 238000012545 processing Methods 0.000 description 24
- 239000000203 mixture Substances 0.000 description 8
- 230000000877 morphologic effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 230000002354 daily effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241001122315 Polites Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000002079 cooperative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000005021 gait Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、人間が日常的なコミュニケーションに使用する自然言語を数学的に取り扱うための自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに係り、特に、日本語構文の統語・意味解析を行なう自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに関する。
【0002】
さらに詳しくは、本発明は、使役文と受身文で結合価が変更する動詞を含んだ日本語文の統語意味解析処理を行なう自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに係り、特に、使役文と受身文で結合価が変更する動詞を含んだ日本語文を、コストを増大させることなく正確に統語意味解析する自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに関する。
【0003】
【従来の技術】
日本語や英語など、人間が日常的なコミュニケーションに使用する言葉のことを「自然言語」と呼ぶ。多くの自然言語は、自然発生的な起源を持ち、人類、民族、社会の歴史とともに進化してきた。勿論、人は身振りや手振りなどによっても意思疎通を行なうことが可能であるが、自然言語により最も自然で且つ高度なコミュニケーションを実現することができる。
【0004】
他方、情報技術の発展に伴い、コンピュータが人間社会に定着し、各種産業や日常生活の中に深く浸透している。いまやコンピュータ・データだけでなく、画像や音響などほとんどすべての情報コンテンツがコンピュータ上で取り扱われ、情報の編集・加工、蓄積、管理、伝達、共有など高度な処理を行なうことが可能となっている。
【0005】
自然言語は、本来抽象的であいまい性が高い性質を持つが、文章を数学的に取り扱うことにより、コンピュータ処理を行なうことができる。この結果、機械翻訳や対話システム、検索システムなど、自動化処理により自然言語に関するさまざまなアプリケーション/サービスが実現される。
【0006】
自然言語処理は一般に、形態素解析、構文解析、意味解析、文脈解析という各処理フェーズに区分される。
【0007】
形態素解析では、文を意味的最小単位である形態素(morpheme)に分節して品詞の認定処理を行なう。構文解析では、文法規則などを基に句構造などの文の構造を解析する。文法規則が木構造であることから、構文解析結果は一般に個々の形態素が係り受け関係などを基にして接合された木構造となる。意味解析では、文中の語の語義(概念)や、語と語の間の意味関係などに基づいて、文が伝える意味を表現する意味構造を求めて、意味構造を合成する。文脈解析では、文の系列である文章(談話)を解析の基本単位とみなして、文間の意味的なまとまりを得て談話構造を構成する。
【0008】
統語意味解析では、構文解析などで係り受け関係を求めた後の構造文に対して、動詞と主語などの文中の他の構成要素との関係を記述した結合価辞書を用いて、述部とそれに係る語の意味関係を抽出するということが行なわれている。
【0009】
【発明が解決しようとする課題】
文には、ほかのものに何かをさせることを表現する使役文と、ほかから働きかけられていることを表現する受動文がある。
【0010】
日本語における使役文と受動文では、動詞の結合価の変化が起こる。例えば、「生徒が作文を書く。」という文では、主語すなわち「作文を書く人」はガ格に立っている「生徒」である。これに対し、「先生が生徒に作文を書かせた。」という文では「作文を書く人」はニ格に立っている「生徒」である。
【0011】
したがって、正確な意味解析処理を行なうためには、このような結合価の変更という現象を正確に取り扱う必要がある。
【0012】
従来、上記の例文を解析するために、下記の下線部のような複数の項目を結合価辞書に用意しておくことによって、このような問題を解決していた。
【0013】
(a)[主語]が[目的語]を書く。
(b)[主語]が[動作主]に[目的語]を書かせる。
【0014】
しかしながら、このような方式では、「書いて欲しい」や「書いてもらう」など使役文を形成するすべての表現についての結合価を辞書に記述する必要があり、大きなコストがかかる。
【0015】
本発明は、上述したような技術的課題を勘案したものであり、その目的は、使役文と受身文で結合価が変更する動詞を含んだ日本語文を、コストを増大させることなく正確に統語意味解析することができる、優れた自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムを提供することにある。
【0016】
本発明のさらになる目的は、使役文を形成するすべての表現についての結合価を辞書に記述することなく、使役文と受身文で結合価が変更する動詞を含んだ日本語文を正確に統語意味解析することができる、優れた自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムを提供することにある。
【0017】
【課題を解決するための手段及び作用】
本発明は、上記課題を参酌してなされたものであり、その第1の側面は、動詞と主語や目的語など文中の他の構成要素との関係を記述した結合価辞書を参照して述部とそれに係る語の意味関係を抽出する自然言語処理システム又は自然言語処理方法であって、
使役・受身を担う表現である助動詞又は補助動詞に結合価を持たせる結合価辞書管理手段又はステップと、
使役文又は受身文に対して結合価辞書を参照して、格要素間にリンクを形成するリンク形成手段又はステップと、
を具備することを特徴とする自然言語処理システム又は自然言語処理方法である。
【0018】
ここで、前記リンク形成手段又はステップは、使役文又は受身文中の動詞の主語と使役又は受身の必須格をリンクさせるようにする。この結果、NULLになっている動詞の主語を、元々の動詞の結合価を用いて表すことができる。
【0019】
したがって、本発明に係る自然言語処理システム又は自然言語処理方法によれば、使役・受身を担う表現である「せる」「れる」や、「もらう」「いただく」などの補助動詞に結合価を持たせ、格要素間にリンクを貼ることによって、元々の動詞の結合価はそのまま利用することができる。
【0020】
これによって、使役文を形成するすべての表現についての結合価を辞書に記述する必要がなくなり、辞書記述のコストを著しく低減することができる。
【0021】
また、本発明の第2の側面は、動詞と主語や目的語など文中の他の構成要素との関係を記述した結合価辞書を参照して述部とそれに係る語の意味関係を抽出する自然言語処理をコンピュータ・システム上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、
使役・受身を担う表現である助動詞又は補助動詞に結合価を持たせる結合価辞書管理ステップと、
使役文又は受身文に対して結合価辞書を参照して、格要素間にリンクを形成するリンク形成ステップと、
を具備することを特徴とするコンピュータ・プログラムである。
【0022】
本発明の第2の側面に係るコンピュータ・プログラムは、コンピュータ・システム上で所定の処理を実現するようにコンピュータ可読形式で記述されたコンピュータ・プログラムを定義したものである。換言すれば、本発明の第2の側面に係るコンピュータ・プログラムをコンピュータ・システムにインストールすることによって、コンピュータ・システム上では協働的作用が発揮され、本発明の第1の側面に係る自然言語処理システム及び自然言語処理方法と同様の作用効果を得ることができる。
【0023】
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。
【0024】
【発明の実施の形態】
以下、図面を参照しながら本発明の実施形態について詳解する。
【0025】
自然言語の構文解析手法は、統計処理に基づく方法と文法ルール記述に基づく方法に大別することができる。本発明は、とりわけ文法ルール記述に基づく統語・意味解析に適用することで顕著な効果を奏することができる。
【0026】
本発明に係る自然言語処理システムは、例えば、LFG(Lexical-Functional Grammar)文法理論に基づく統語・意味解析処理に組み込んで実装することができる。LFGでは、ネイティブ・スピーカの言語知識すなわち文法を、コンピュータ処理や、コンピュータの処理動作に影響を及ぼすその他の非文法的な処理パラメータとは切り離したコンポーネントとして構成している。まず、自然言語処理システムの全体像について簡単に説明する。なお、本実施形態ではLFG文法理論に基づいて説明するが、勿論、他の文法ルールを備えた解析システムにおいても本発明を同様に適用することができる。
【0027】
図5には、LFGに基づく自然言語処理システム1の構成を模式的に示している。
【0028】
形態素解析部2は、日本語など特定の言語に関する形態素ルール2Aと形態素辞書2Bを持ち、入力文を意味的最小単位である形態素に分節して品詞の認定処理を行なう。例えば、「私の娘は英語を話します。」という文が入力された場合、形態素解析結果として、「私{Noun} の{up} 娘{Noun} は{up} 英語{Noun} を{up} 話す{Verb1}{tr} ます{jp} 。{pt}」が出力される。
【0029】
このような形態素解析結果は、次いで、統語・意味解析部3に入力される。統語・意味解析部は、文法ルール3Aや結合価辞書3Bなどの辞書を持ち、文法ルールなどに基づく句構造の解析や、文中の語の語義や語と語の間の意味関係などに基づいて文が伝える意味を表現する意味構造の解析を行なう(結合価辞書は動詞と主語などの文中の他の構成要素との関係を記述したものであり、述部とそれに係る語の意味関係を抽出することができる)。
【0030】
そして、構文解析した結果として、単語や形態素などからなる文章の句構造を木構造として表した"c−structure(constituent structure)"と、主語、目的語などの格構造に基づいて入力文を疑問文、過去形、丁寧文など意味的・機能的に解析した結果として"f−structure(functional structure)"を出力する。
【0031】
図6及び図7には、入力文「私の娘は英語を話します。」を統語・意味解析部1により処理した結果として得られるc−structure及びf−structureをそれぞれ示している。
【0032】
c−structureは、文中の単語や句の構造を木構造形式で表したものであり、構文カテゴリーによって定義される。例えば音素列を生成するための音韻学的な解釈を、c−structureを基に行なうことができる。一方、f−structureは、文法的な機能を明確に表現したものであり、文法的な機能名、意味的形式、並びに特徴シンボルにより構成される。f−structureを参照することにより、主語(subject)、目的語(object)、補語(complement)、修飾語(adjunct)といった意味理解を得ることができる。f−structureは、c−structureの各節点に付随する素性の集合であり、図7に示すように属性−属性値のマトリックスの形で表現される。すなわち、[]で囲まれた中の左側は素性(属性)の名前であり、右側は素性の値(属性値)である。
【0033】
なお、LFGの詳細に関しては、例えばR. M. Kaplan及びJ. Bresnan共著の論文"Lexical-Functional Grammar: A Formal System for Grammatical Representation"(The MIT Press, Cambridge (1982). Reprinted in Formal Issues in Lexical-Functional Grammar, pp. 29-130. CSLI publications, Stanford University(1995).)に記述されている。
【0034】
既に述べたように、日本語における使役文と受動文では、動詞の結合価の変化が起こる。したがって、正確な意味解析処理を行なうためには、このような結合価の変更という現象を正確に取り扱う必要がある。しかしながら、使役文を形成するすべての表現についての結合価を辞書に記述すると、大きなコストがかかる。
【0035】
そこで、本発明に係る自然言語処理システム1では、結合価辞書3Aにおいて、使役・受身を担う表現である助動詞「せる」「れる」や、「もらう」「いただく」などの補助動詞に結合価を持たせ、格要素間にリンクを張ることによって、元々の動詞の結合価はそのまま利用することにした。これによって、辞書記述のコストを著しく低減することができる。
【0036】
図1には、本実施形態に係る使役・受身文の統語・意味解析処理の手順をフローチャートの形式で示している。
【0037】
使役文又は受身文からなる文が処理に投入されると、結合価辞書3Aを参照する(ステップS1)。
【0038】
図2には、結合価辞書3A内の見出し語の構成例を示している。同図に示す結合価辞書には助動詞「せる」の結合価パターンと通常の動詞の結合価が記述されている。「書く」や「咲く」という通常の動詞に対して「[主語]ガ[目的語]ヲ書く」、「[主語]ガ咲く」という結合価が記述されている以外に、例えば「せる」という助動詞に対して、「[主語]ガ[必須格]ニ[動詞]せる」や「[主語]ガ[必須格]ヲ[動詞]せる」という結合価が記述されている。
【0039】
例えば「先生が生徒に作文を書かせる」という文に対し、動詞「書く」と助動詞「せる」の2つの結合価をこのような結合価辞書3Aに問い合わせると、以下に示すような2つの参照結果を得る。
【0040】
1.[主語:先生]が[必須格:生徒]に[書く]せる
2.[主語:NULL]が[目的語:作文]を書く
【0041】
次に、動詞の主語と「せる」の必須格をリンクさせる(ステップS2)。この結果、NULLになっている動詞の主語を、元々の動詞の結合価を用いて表すことができる。
【0042】
例えば、上述した「先生が生徒に作文を書かせる」という例文の場合、図1に示した統語意味解析により、図3に示すような意味解析結果を得ることができる。図示の通り、それまでNULLになっていた「作文を書く」の主語が「生徒」になる。
【0043】
図3に示すように、「書く」という結合価をそのまま用いて、その主語が「生徒」であることを意味構造に記述することができる。したがって、元々の動詞の結合価はそのまま利用して使役文を表現することにした。これによって、辞書記述のコストを著しく低減することができる。
【0044】
次に、「彼がその花を咲かせた。」という他の使役文を図1に示した処理手順に従い意味解析した場合について考察してみる。
【0045】
まず、ステップS1において、動詞「咲く」と助動詞「せる」の2つの結合価を結合価辞書に問い合わせる。この文には格助詞ニが含まれておらず、「咲く」は自動詞であることから、下記のような2つの参照結果を得る。
【0046】
1.[主語:彼]が[必須格:その花]を[咲く]せる
2.[主語:NULL]が咲く
【0047】
次に、動詞の主語と使役文の必須格をリンクさせることによって(ステップS2)、NULLになっている動詞の主語を、元々の動詞の結合価を用いて表す。
【0048】
この結果、図4に示したような意味解析結果を得ることができる。図示の通り、それまでNULLになっていた「咲く」の主語が「花」になる。
【0049】
図4に示すように、「咲く」という結合価をそのまま用いて、その主語が「花」であることを意味構造に記述することができる。元々の動詞の結合価をそのまま利用して使役文を表現するので、辞書記述のコストを著しく低減することができる。
【0050】
[追補]
以上、特定の実施形態を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本発明の要旨を判断するためには、冒頭に記載した特許請求の範囲の欄を参酌すべきである。
【0051】
【発明の効果】
以上詳記したように、本発明によれば、使役文と受身文で結合価が変更する動詞を含んだ日本語文を、コストを増大させることなく正確に統語意味解析することができる、優れた自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムを提供することができる。
【0052】
また、本発明によれば、使役文を形成するすべての表現についての結合価を辞書に記述することなく、使役文と受身文で結合価が変更する動詞を含んだ日本語文を正確に統語意味解析することができる、優れた自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムを提供することができる。
【0053】
本発明に係る自然言語処理システム又は自然言語処理方法によれば、使役・受身を担う表現である「せる」「れる」や、「もらう」「いただく」などの補助動詞に結合価を持たせ、格要素間にリンクを貼ることによって、元々の動詞の結合価はそのまま利用して使役文や受身文を表現することができる。すなわち、使役文を形成するすべての表現についての結合価を辞書に記述する必要がなくなり、辞書記述のコストを著しく低減することができる。
【図面の簡単な説明】
【図1】本実施形態に係る使役・受身文の統語・意味解析処理の手順を示したフローチャートである。
【図2】結合価辞書の例を示した図である。
【図3】使役文を本実施形態に係る統語意味解析により処理した意味解析結果を示した図である。
【図4】使役文を本実施形態に係る統語意味解析により処理した意味解析結果を示した図である。
【図5】LFGに基づく自然言語処理システム1の構成を模式的に示した図である。
【図6】入力文「私の娘は英語を話します。」を統語・意味解析部1により処理した結果として得られるc−structureを示した図である。
【図7】入力文「私の娘は英語を話します。」を統語・意味解析部1により処理した結果として得られるf−structureを示した図である。
【符号の説明】
1…自然言語処理システム
2…形態素解析部
2A…形態素ルール,2B…形態素辞書
3…統語・意味解析部
3A…文法ルール,3B…結合価辞書[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a natural language processing system, a natural language processing method, and a computer program for mathematically handling a natural language used by humans for daily communication, and in particular, syntactic and semantic analysis of Japanese syntax. The present invention relates to a natural language processing system, a natural language processing method, and a computer program.
[0002]
More specifically, the present invention relates to a natural language processing system, a natural language processing method, and a computer program for performing syntactic and semantic analysis processing of a Japanese sentence including a verb whose valence changes between a use sentence and a passive sentence, and in particular, a computer program. The present invention relates to a natural language processing system, a natural language processing method, and a computer program that accurately and syntactically analyze a Japanese sentence including a verb whose valence changes between a use sentence and a passive sentence without increasing costs.
[0003]
[Prior art]
Words that humans use for everyday communication, such as Japanese and English, are called “natural languages”. Many natural languages have a naturally occurring origin and have evolved with the history of mankind, people and society. Of course, people can communicate with each other by gestures and hand gestures, but natural language can realize the most natural and advanced communication.
[0004]
On the other hand, with the development of information technology, computers have become established in human society and have deeply penetrated into various industries and daily life. Now, not only computer data, but almost all information content such as images and sounds are handled on the computer, making it possible to perform advanced processing such as editing / processing, storage, management, transmission and sharing of information. .
[0005]
Natural language is inherently abstract and has a high nature of nature, but it can perform computer processing by handling sentences mathematically. As a result, various applications / services related to natural language are realized by automated processing such as machine translation, dialogue system, and search system.
[0006]
Natural language processing is generally divided into processing phases of morphological analysis, syntax analysis, semantic analysis, and context analysis.
[0007]
In morphological analysis, a sentence is segmented into morpheme, which is a semantic minimum unit, and part-of-speech recognition processing is performed. In syntax analysis, sentence structure such as phrase structure is analyzed based on grammatical rules. Since the grammatical rule is a tree structure, the parsing result generally has a tree structure in which individual morphemes are joined based on a dependency relationship. In semantic analysis, a semantic structure that expresses the meaning conveyed by a sentence is obtained based on the meaning (concept) of the words in the sentence and the semantic relationship between words, and the semantic structure is synthesized. In context analysis, a sentence (discourse) that is a sequence of sentences is regarded as a basic unit of analysis, and a discourse structure is constructed by obtaining a semantic group between sentences.
[0008]
Syntactic semantic analysis uses a valence dictionary that describes the relationship between verbs and other components in the sentence, such as the subject, for the structure sentence after the dependency relationship is obtained by syntactic analysis, etc. Extracting the semantic relationship of the words related to it.
[0009]
[Problems to be solved by the invention]
There are two types of sentences: a servant sentence that expresses something that causes others to do something, and a passive sentence that expresses what others are working on.
[0010]
In Japanese sentences and passive sentences, the valence of the verb changes. For example, in the sentence “Student writes a composition”, the subject, that is, “the person who writes the composition” is a “student” standing in the gait. On the other hand, in the sentence “The teacher made the student write the composition”, “the person who wrote the composition” is the “student” standing in the second case.
[0011]
Therefore, in order to perform accurate semantic analysis processing, it is necessary to accurately handle such a phenomenon of valence change.
[0012]
Conventionally, in order to analyze the above example sentence, such a problem has been solved by preparing a plurality of items such as the underlined portion below in a valence dictionary.
[0013]
(A) [Subject] writes [Object].
(B) [Subject] causes [Operator] to write [Object].
[0014]
However, in such a method, it is necessary to describe in the dictionary the valences for all expressions that form a service sentence such as “I want you to write” and “I want you to write”, which is very expensive.
[0015]
The present invention takes into account the technical problems as described above, and its purpose is to accurately synchronize a Japanese sentence containing a verb whose valence is changed between a working sentence and a passive sentence without increasing costs. An object of the present invention is to provide an excellent natural language processing system, natural language processing method, and computer program that can perform semantic analysis.
[0016]
It is a further object of the present invention to accurately syntactically mean a Japanese sentence containing a verb whose valence changes between the active sentence and passive sentence without describing the valence for all expressions forming the active sentence in the dictionary. An object of the present invention is to provide an excellent natural language processing system, natural language processing method, and computer program that can be analyzed.
[0017]
[Means and Actions for Solving the Problems]
The present invention has been made in consideration of the above-mentioned problems. The first aspect of the present invention is described with reference to a valence dictionary that describes the relationship between verbs and other components in the sentence such as the subject and object. A natural language processing system or a natural language processing method for extracting a semantic relationship between a part and a word related thereto,
A valence dictionary management means or step for giving a valence to an auxiliary verb or an auxiliary verb that is an expression that bears a duty or passive;
A link forming means or step for forming a link between case elements by referring to a valence dictionary for a service sentence or a passive sentence;
A natural language processing system or a natural language processing method.
[0018]
Here, the link forming means or step links the subject of the verb in the working sentence or passive sentence with the essential case of the working role or passive. As a result, the subject of the verb that is NULL can be expressed using the valence of the original verb.
[0019]
Therefore, according to the natural language processing system or the natural language processing method according to the present invention, auxiliary verbs such as “sore”, “re”, “get”, and “get” are expressions that are responsible for use / passiveness. By attaching a link between case elements, the valence of the original verb can be used as it is.
[0020]
As a result, it is not necessary to describe the valence for all the expressions that form the usage sentence in the dictionary, and the cost of dictionary description can be significantly reduced.
[0021]
In addition, the second aspect of the present invention is a natural method for extracting a semantic relationship between a predicate and a word related thereto by referring to a valence dictionary that describes a relationship between a verb and another component in a sentence such as a subject and an object. A computer program written in a computer readable format for performing language processing on a computer system,
A valence dictionary management step of giving a valence to an auxiliary verb or an auxiliary verb that is an expression that plays a role of use and passiveness;
A link forming step for forming a link between case elements by referring to a valence dictionary for a service sentence or a passive sentence;
A computer program characterized by comprising:
[0022]
The computer program according to the second aspect of the present invention defines a computer program described in a computer-readable format so as to realize predetermined processing on a computer system. In other words, by installing the computer program according to the second aspect of the present invention in the computer system, a cooperative action is exhibited on the computer system, and the natural language according to the first aspect of the present invention. Effects similar to those of the processing system and the natural language processing method can be obtained.
[0023]
Other objects, features, and advantages of the present invention will become apparent from more detailed description based on embodiments of the present invention described later and the accompanying drawings.
[0024]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
[0025]
Natural language parsing techniques can be broadly divided into methods based on statistical processing and methods based on grammatical rule description. The present invention can achieve a remarkable effect when applied to syntactic / semantic analysis based on grammar rule description.
[0026]
The natural language processing system according to the present invention can be implemented by being incorporated into syntactic / semantic analysis processing based on, for example, LFG (Lexical-Functional Grammar) grammar theory. In LFG, linguistic knowledge, that is, grammar of native speakers is configured as a component separated from computer processing and other non-grammatical processing parameters that affect the processing operation of the computer. First, an overview of the natural language processing system will be briefly described. Although the present embodiment will be described based on the LFG grammar theory, it is needless to say that the present invention can be similarly applied to an analysis system having other grammar rules.
[0027]
FIG. 5 schematically shows the configuration of the natural
[0028]
The
[0029]
Such a morphological analysis result is then input to the syntactic /
[0030]
As a result of the parsing, the input sentence is questioned based on “c-structure (constituent structure)” representing a phrase structure of a sentence composed of words, morphemes and the like as a tree structure, and a case structure such as a subject and an object. “F-structure (functional structure)” is output as a result of semantically and functionally analyzing sentences, past tense, polite sentences, and the like.
[0031]
FIGS. 6 and 7 respectively show c-structure and f-structure obtained as a result of processing the input sentence “My daughter speaks English” by the syntactic /
[0032]
c-structure represents the structure of words and phrases in a sentence in a tree structure format, and is defined by a syntax category. For example, phonological interpretation for generating a phoneme string can be performed based on c-structure. On the other hand, f-structure clearly expresses a grammatical function, and includes a grammatical function name, a semantic form, and a feature symbol. By referring to the f-structure, it is possible to obtain an understanding of the meaning such as a subject, an object, a complement, and a modifier. The f-structure is a set of features associated with each node of the c-structure, and is expressed in the form of an attribute-attribute value matrix as shown in FIG. That is, the left side in [] is a feature (attribute) name, and the right side is a feature value (attribute value).
[0033]
For details on LFG, see, for example, the paper "Lexical-Functional Grammar: A Formal System for Grammatical Representation" by RM Kaplan and J. Bresnan (The MIT Press, Cambridge (1982). Reprinted in Formal Issues in Lexical-Functional Grammar. , pp. 29-130. CSLI publications, Stanford University (1995)).
[0034]
As already mentioned, there is a change in the valence of verbs in Japanese sentences and passive sentences. Therefore, in order to perform accurate semantic analysis processing, it is necessary to accurately handle such a phenomenon of valence change. However, it is very expensive to write the valence for all the expressions that form the usage sentence in the dictionary.
[0035]
Therefore, in the natural
[0036]
FIG. 1 shows a syntactic / semantic analysis procedure for a service / passive sentence according to this embodiment in the form of a flowchart.
[0037]
When a sentence composed of a usage sentence or a passive sentence is input to the process, the valence dictionary 3A is referred to (step S1).
[0038]
FIG. 2 shows a configuration example of headwords in the valence dictionary 3A. In the valence dictionary shown in the figure, the valence pattern of the auxiliary verb “Sel” and the valence of an ordinary verb are described. For example, “set” other than the common valence of “[subject] ga [object]]” and “[subject] ga bloom” for normal verbs such as “write” and “bloom” For auxiliary verbs, valences such as “[subject] ga [required case] ni [verb] make” and “[subject] ga [required case] wo [verb] make” are described.
[0039]
For example, for the sentence “Teacher to write a composition” for a sentence, when the two valences of the verb “write” and the auxiliary verb “sell” are inquired to such a valence dictionary 3A, the following two references are shown: Get results.
[0040]
1. 1. [Subject: Teacher] [Write] to [Required: Student] [Subject: NULL] writes [Object: Composition] [0041]
Next, the subject of the verb is linked to the required case of “S” (step S2). As a result, the subject of the verb that is NULL can be expressed using the valence of the original verb.
[0042]
For example, in the case of the above-described example sentence “Teacher to write a composition by a student”, the semantic analysis result shown in FIG. 3 can be obtained by the syntactic semantic analysis shown in FIG. As shown in the drawing, the subject of “writing a composition”, which was NULL until then, becomes “student”.
[0043]
As shown in FIG. 3, it is possible to describe in the semantic structure that the subject is “student” by using the valence “write” as it is. Therefore, we decided to use the valence of the original verb as it is to express the usage sentence. This can significantly reduce the cost of dictionary description.
[0044]
Next, let us consider a case where a semantic analysis of another usage sentence “He made the flower bloom” is performed according to the processing procedure shown in FIG.
[0045]
First, in step S1, the valence dictionary is inquired about two valences of the verb “Saku Saku” and the auxiliary verb “sue”. This sentence does not contain the case particle D, and “blooming” is an intransitive verb, so the following two reference results are obtained.
[0046]
1. [Subject: He] [Must]: [Flowers] [Subject: NULL] blooms. [0047]
Next, by linking the subject of the verb and the required case of the usage sentence (step S2), the subject of the verb that is NULL is expressed using the valence of the original verb.
[0048]
As a result, a semantic analysis result as shown in FIG. 4 can be obtained. As shown in the figure, the subject of “blooming”, which was NULL until then, becomes “flower”.
[0049]
As shown in FIG. 4, the valence “blooming” can be used as it is, and it can be described in the semantic structure that the subject is “flower”. Since the usage sentence is expressed using the valence of the original verb as it is, the cost of dictionary description can be significantly reduced.
[0050]
[Supplement]
The present invention has been described in detail above with reference to specific embodiments. However, it is obvious that those skilled in the art can make modifications and substitutions of the embodiment without departing from the gist of the present invention. That is, the present invention has been disclosed in the form of exemplification, and the contents described in the present specification should not be interpreted in a limited manner. In order to determine the gist of the present invention, the claims section described at the beginning should be considered.
[0051]
【The invention's effect】
As described above in detail, according to the present invention, a Japanese sentence including a verb whose valency changes between a use sentence and a passive sentence can be accurately and syntactically analyzed without increasing the cost. A natural language processing system, a natural language processing method, and a computer program can be provided.
[0052]
In addition, according to the present invention, a Japanese sentence including a verb whose valence is changed between a usage sentence and a passive sentence can be accurately syntactically defined without describing the valence for all expressions forming the usage sentence in a dictionary. An excellent natural language processing system, natural language processing method, and computer program that can be analyzed can be provided.
[0053]
According to the natural language processing system or the natural language processing method according to the present invention, the auxiliary verbs such as “sore”, “re”, “get”, and “get”, which are expressions responsible for use / passiveness, have a valence, By putting a link between the case elements, the original verb verb valence can be used as it is to express a useful sentence or passive sentence. That is, it is not necessary to describe the valence for all the expressions forming the usage sentence in the dictionary, and the cost of dictionary description can be significantly reduced.
[Brief description of the drawings]
FIG. 1 is a flowchart showing a procedure of syntactic / semantic analysis processing of a use / passive sentence according to the present embodiment;
FIG. 2 is a diagram showing an example of a valence dictionary.
FIG. 3 is a diagram showing a semantic analysis result obtained by processing a usage sentence by syntactic semantic analysis according to the present embodiment.
FIG. 4 is a diagram showing a semantic analysis result obtained by processing a usage sentence by syntactic semantic analysis according to the present embodiment.
FIG. 5 is a diagram schematically showing a configuration of a natural
FIG. 6 is a diagram showing c-structure obtained as a result of processing the input sentence “My daughter speaks English” by the syntactic /
FIG. 7 is a diagram showing f-structure obtained as a result of processing an input sentence “My daughter speaks English” by the syntactic /
[Explanation of symbols]
DESCRIPTION OF
Claims (2)
使役・受身を担う表現である助動詞又は補助動詞に結合価を持たせる結合価辞書管理手段と、
使役文又は受身文中に出現する動詞と助動詞又は補助動詞のそれぞれについての結合価を結合価辞書に問い合わせ、動詞の結合価を参照して主語が設定されていない動詞を得るとともに、該動詞の主語と助動詞又は補助動詞の結合価を参照して得られる必須格の間に対応関係を形成する対応関係形成手段と、
を具備することを特徴とする自然言語処理システム。A natural language processing system that extracts a semantic relationship between a predicate and a word related thereto by referring to a valence dictionary that describes a relationship between a verb and other components in a sentence such as a subject and an object,
A valence dictionary management means for giving a valence to an auxiliary verb or an auxiliary verb that is an expression that bears a duty or passiveness,
Queries the valency dictionary for the valence of each verb and auxiliary verb or auxiliary verb that appears in the servant sentence or passive sentence, and obtains a verb with no subject set by referring to the valence of the verb, and the subject of the verb And a correspondence forming means for forming a correspondence between essential cases obtained by referring to the valence of the auxiliary verb or the auxiliary verb, and
A natural language processing system comprising:
前記コンピュータが備える結合価辞書管理手段が、使役・受身を担う表現である助動詞又は補助動詞に結合価を持たせる結合価辞書管理ステップと、
前記コンピュータが備えるリンク形成手段が、使役文又は受身文中に出現する動詞と助動詞又は補助動詞のそれぞれについての結合価を結合価辞書に問い合わせ、動詞の結合価を参照して主語が設定されていない動詞を得るとともに、該動詞の主語と助動詞又は補助動詞の結合価を参照して得られる必須格の間に対応関係を形成する対応関係形成ステップと、
を具備することを特徴とする自然言語処理方法。In a natural language processing system built using a computer, the semantic relationship between predicates and related words is extracted by referring to a valence dictionary that describes the relationship between verbs and other components in the sentence, such as subject and object. A natural language processing method,
The valence dictionary management means provided in the computer has a valence dictionary management step of giving a valence to an auxiliary verb or an auxiliary verb that is an expression that bears a role of use and acceptance,
The link forming means included in the computer inquires the valence dictionary about the valence and auxiliary verb or auxiliary verb appearing in the working sentence or passive sentence, and the subject is not set by referring to the valence of the verb. A correspondence forming step for obtaining a verb and forming a correspondence between the subject of the verb and the essential case obtained by referring to the valence of the auxiliary verb or the auxiliary verb;
A natural language processing method comprising:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002079630A JP3972698B2 (en) | 2002-03-20 | 2002-03-20 | Natural language processing system, natural language processing method, and computer program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002079630A JP3972698B2 (en) | 2002-03-20 | 2002-03-20 | Natural language processing system, natural language processing method, and computer program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2003281135A JP2003281135A (en) | 2003-10-03 |
| JP3972698B2 true JP3972698B2 (en) | 2007-09-05 |
Family
ID=29229021
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2002079630A Expired - Fee Related JP3972698B2 (en) | 2002-03-20 | 2002-03-20 | Natural language processing system, natural language processing method, and computer program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3972698B2 (en) |
-
2002
- 2002-03-20 JP JP2002079630A patent/JP3972698B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2003281135A (en) | 2003-10-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Ouersighni | A major offshoot of the DIINAR-MBC project: AraParse, a morphosyntactic analyzer for unvowelled Arabic texts | |
| CN112487801A (en) | Term recommendation method and system for safety-critical software | |
| JPS6318458A (en) | Method and apparatus for extracting feeling information | |
| JP4033011B2 (en) | Natural language processing system, natural language processing method, and computer program | |
| JP2005284723A (en) | Natural language processing system, natural language processing method, and computer program | |
| Taghbalout et al. | Towards UNL-based machine translation for Moroccan Amazigh language | |
| Papageorgiou et al. | Multi-level XML-based Corpus Annotation. | |
| El-Kahlout et al. | Turkish constituent chunking with morphological and contextual features | |
| JP4007413B2 (en) | Natural language processing system, natural language processing method, and computer program | |
| JP3972698B2 (en) | Natural language processing system, natural language processing method, and computer program | |
| JP4033093B2 (en) | Natural language processing system, natural language processing method, and computer program | |
| JP4039282B2 (en) | Natural language processing system, natural language processing method, and computer program | |
| JP3903820B2 (en) | Natural language processing system, natural language processing method, and computer program | |
| Maranduc | A Multiform Balanced Dependency Treebank for Romanian | |
| JP3972699B2 (en) | Natural language processing system, natural language processing method, and computer program | |
| JP2005092616A (en) | Natural language processing system, natural language processing method, and computer program | |
| JP4033088B2 (en) | Natural language processing system, natural language processing method, and computer program | |
| JP3972697B2 (en) | Natural language processing system, natural language processing method, and computer program | |
| JP4033012B2 (en) | Natural language processing system, natural language processing method, and computer program | |
| JP4114580B2 (en) | Natural language processing system, natural language processing method, and computer program | |
| JP4289822B2 (en) | Natural language processing system, natural language processing method, and computer program | |
| JP3892227B2 (en) | Machine translation system | |
| Bihdai et al. | Syntactic Concepts Analyzer Based on the English Complex Sentences with an Object Clause. | |
| JP4036172B2 (en) | Natural language processing system, natural language processing method, and computer program | |
| Abdelkader et al. | Sources of Syntactic Ambiguity in Contemporary Arabic: A Corpus Study |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040915 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061128 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070122 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070213 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070413 |
|
| A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20070510 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070522 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070604 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100622 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110622 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110622 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120622 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130622 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130622 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140622 Year of fee payment: 7 |
|
| LAPS | Cancellation because of no payment of annual fees |