Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP4033012B2 - Natural language processing system, natural language processing method, and computer program - Google Patents
[go: Go Back, main page]

JP4033012B2 - Natural language processing system, natural language processing method, and computer program - Google Patents

Natural language processing system, natural language processing method, and computer program Download PDF

Info

Publication number
JP4033012B2
JP4033012B2 JP2003077146A JP2003077146A JP4033012B2 JP 4033012 B2 JP4033012 B2 JP 4033012B2 JP 2003077146 A JP2003077146 A JP 2003077146A JP 2003077146 A JP2003077146 A JP 2003077146A JP 4033012 B2 JP4033012 B2 JP 4033012B2
Authority
JP
Japan
Prior art keywords
connection destination
power range
lyrics
natural language
language processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003077146A
Other languages
Japanese (ja)
Other versions
JP2004287680A (en
Inventor
智子 大熊
博 増市
宏樹 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2003077146A priority Critical patent/JP4033012B2/en
Publication of JP2004287680A publication Critical patent/JP2004287680A/en
Application granted granted Critical
Publication of JP4033012B2 publication Critical patent/JP4033012B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、人間が日常的なコミュニケーションに使用する自然言語を数学的に取り扱うための自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに係り、特に、自然言語文の構文・意味解析を行なう自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに関する。
【0002】
さらに詳しくは、本発明は、副助詞や係助詞などのとりたて詞を含む日本語文に対して正しい構文・意味解析結果を出力する自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに係り、特に、副助詞や係助詞などのとりたて詞のとりたての勢力範囲を抽出して構文・意味解析結果とともに出力する自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに関する。
【0003】
【従来の技術】
日本語や英語など、人間が日常的なコミュニケーションに使用する言葉のことを「自然言語」と呼ぶ。多くの自然言語は、自然発生的な起源を持ち、人類、民族、社会の歴史とともに進化してきた。勿論、人は身振りや手振りなどによっても意思疎通を行なうことが可能であるが、自然言語により最も自然で且つ高度なコミュニケーションを実現することができる。
【0004】
他方、情報技術の発展に伴い、コンピュータが人間社会に定着し、各種産業や日常生活の中に深く浸透している。いまやコンピュータ・データだけでなく、画像や音響などほとんどすべての情報コンテンツがコンピュータ上で取り扱われ、情報の編集・加工、蓄積、管理、伝達、共有など高度な処理を行なうことが可能となっている。
【0005】
例えば、日本語や英語を始めと刷る各種の言語で記述される自然言語は、本来抽象的であいまい性が高い性質を持つが、文章を数学的に取り扱うことにより、コンピュータ処理を行なうことができる。この結果、機械翻訳や対話システム、検索システム、質問応答システムなど、自動化処理により自然言語に関するさまざまなアプリケーション/サービスが実現される。
【0006】
かかる自然言語処理は一般に、形態素解析、構文解析、意味解析、文脈解析という各処理フェーズに区分される。
【0007】
形態素解析では、文を意味的最小単位である形態素(morpheme)に分節して品詞の認定処理を行なう。構文解析では、文法規則などを基に句構造などの文の構造を解析する。文法規則が木構造であることから、構文解析結果は一般に個々の形態素が係り受け関係などを基にして接合された木構造となる。意味解析では、文中の語の語義(概念)や、語と語の間の意味関係などに基づいて、文が伝える意味を表現する意味構造を求めて、意味構造を合成する。また、文脈解析では、文の系列である文章(談話)を解析の基本単位とみなして、文間の意味的なまとまりを得て談話構造を構成する。
【0008】
構文解析及び意味解析は、自然言語処理の分野において、対話システム、機械翻訳、文書校正支援、文書要約などのアプリケーションを実現する上で必要不可欠の技術であるとされている。
【0009】
構文解析では、自然言語文を受け取り、文法規則に基づいて単語(文節)間の係り受け関係を決定する処理を行なう。構文解析結果は、依存構造と呼ばれる木構造(依存木)の形態で表現することができる。また、意味解析では、単語(文節)間の係り受け関係に基づいて文中の格関係を決定する処理を行なうことができる。ここで言う格関係とは、文を構成する各要素が持つ、主語(SUBJ)、目的語(OBJ)といった文法上の役割のことを指す。また、文の時制や様相、話法などを判定する処理を意味解析が含む場合もある。
【0010】
ところで、数多の自然言語の中でもとりわけ日本語は、あいまい性が高いとされている。その一因は、一般に副助詞(「ほど」、「ばかり」、「だけ」…)と呼ばれる品詞の存在に依拠する。日本語において、副助詞を含む表現は極めて標準的に用いられるものであり、そのような表現に対して正しい構文意味解析結果を出力することは重要な課題である。
【0011】
例えば、「ほど」、「ばかり」、「だけ」などの副助詞は、文の中でさまざまな位置に出現するという性質(名詞、動詞、助詞、形容詞のいずれの後にも付くことができる)と、1つの単語が複数の意味機能を持つ場合があるという特徴を持つ。すなわち、副助詞は使い方に応じて意味が変わることから、文のあいまいさを増し、文の正確な解釈・翻訳を困難にしている。
【0012】
これに対し、出現位置に応じて複数の意味機能を持つ可能性がある副助詞の意味情報をより正確に出力することができる(例えば、非特許文献1を参照のこと)。例えば、副助詞「ばかり」には「限定」と「程度」という2つの意味があるが、入力文に含まれる副助詞「ばかり」の構文情報を抽出して、副助詞「ばかり」が数量詞に係っているかどうかについて判断して、判断結果が真であれば副助詞「ばかり」の意味を「程度」に、それ以外は「限定」に決定して、意味解析の結果を出力することができる。「彼はりんごを3個ばかり食べた。」という例文では、「ばかり」は数量詞「3個」に係っているので、「ばかり」の意味を「程度」に決定することができる。
【0013】
また、副助詞の用法は、文に後続する場合、形容詞あるいは名詞に後続する場合など、多岐にわたる。このように副助詞の出現位置が広範であることが、副助詞を適正に取り扱うことを困難にする主たる原因である。
【0014】
これに対し、副助詞を品詞カテゴリとして明確に定義して、副助詞に関する句構造を正しく取り扱うことができる(例えば、非特許文献2を参照のこと)。すなわち、文S、動詞句VP、形容詞句AP、又は名詞句NPの後に副助詞Pが連結してなる入力文に格構造解析を行ない、Sが含まれているかどうかを判定する。Sの先頭にとりたてられていない主語が存在するときはこの主語を含めて副助詞を含む入力文を名詞句又は副詞句と判定し、とりたてられた主語が存在するときはこの主語を除外して入力文を名詞句又は副詞句と判定する。また、副助詞を含む入力文がSを含まないとき、入力文を名詞句又は副詞句と判定する。
【0015】
また、副助詞の意味が及ぶ範囲が明確でないことも、副助詞を適正に取り扱うことを困難にする主たる原因である。副助詞とともに、「は」、「も」、「こそ」、「しか」に代表されるように係助詞がとりたて詞と呼ばれるが、とりたての範囲を正確に判断することが、高精度な意味解析を実現する上で不可欠である。ここで言う「とりたて」とは、副助詞や係助詞が接続することによってある範囲に特定の意味が与えられることを意味する。しかしながら、これらとりたて詞の接続先が動詞となる場合、そのとりたての範囲の判断が特に難しくなる。
【0016】
【非特許文献1】
特願2002−79626号
【非特許文献2】
特願2002−79631号
【0017】
【発明が解決しようとする課題】
本発明の目的は、副助詞や係助詞などのとりたて詞を含む日本語文に対して正しい構文・意味解析結果を出力することができる、優れた自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムを提供することにある。
【0018】
本発明のさらなる目的は、副助詞や係助詞などのとりたて詞のとりたての勢力範囲を正確に抽出して構文・意味解析結果とともに出力することができる、優れた自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムを提供することにある。
【0019】
本発明のさらなる目的は、接続先が動詞となるとりたて詞のとりたての勢力範囲を正確に抽出して構文・意味解析結果とともに出力することができる、優れた自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムを提供することにある。
【0020】
【課題を解決するための手段及び作用】
本発明は、上記課題を参酌してなされたものであり、その第1の側面は、とりたて詞を含む入力文を構文又は意味解析する自然言語処理システムであって、
入力文中でとりたて詞の接続先を特定する接続先特定手段と、
とりたて詞の接続先が体言であるかどうかに応じて該とりたて詞の勢力範囲の判定処理を行なう勢力範囲判定手段と、
を具備することを特徴とする自然言語処理システムである。
【0021】
ここで、前記勢力範囲判定手段は、とりたて詞の接続先が体言である場合には、とりたて詞の接続先をとりたて勢力範囲の候補のリストに加えるようにする。すなわち、とりたて詞の接続先が体言である場合には、名詞に直結しているとりたて詞は名詞だけに係ることから、とりたて詞の接続先をとりたて勢力範囲の候補のリストに加える。
【0022】
一方、とりたて詞が動詞に係るのは特殊なケースであり、とりたての対象となっている範囲の同定の処理が難しくなる。このような場合、接続先に係っている連用修飾成分を特定する。そして、連用修飾成分として特定されたそれぞれの成分について、着目した成分に別のとりたて詞が接続していないかどうかを判断し、別のとりたて詞が接続していない場合には当該とりたて詞の接続先を範囲候補のリストに加える、という処理を繰り返し行なう。
【0023】
また、別のとりたて詞が接続している場合には、とりたて詞の接続先を範囲候補のリストに加えない。
【0024】
したがって、本発明によれば、とりたて詞の位置と、とりたてられる要素が既にとりたてられているかどうかを判断することにより、とりたてが行なわれている範囲を抽出し、構文情報に関連付けられたとりたて情報として意味情報とともに保持することができる。この結果、重要語の抽出(例えば、とりたて情報に基づいてキーワードの頻度に付随して重み付けを行なう)や、自動要約処理(副助詞は英語に翻訳すると副詞になることから、副詞を文中の正確な位置に配置することができる)などにおいて、有用な情報を抽出することができる。
【0025】
また、本発明の第2の側面は、とりたて詞を含む入力文を構文又は意味解析するための自然言語処理をコンピュータ・システム上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、
入力文中でとりたて詞の接続先を特定する接続先特定ステップと、
とりたて詞の接続先が体言である場合において、とりたて詞の接続先をとりたて勢力範囲の候補のリストに加えるステップと、
とりたて詞の接続先が体言でない場合において、接続先に係っている連用修飾成分を特定し、連用修飾成分として特定されたそれぞれの成分について、別のとりたて詞が接続していないかどうかを判断し、別のとりたて詞が接続していない場合には当該とりたて詞の接続先を範囲候補のリストに逐次加えるステップと、を具備することを特徴とするコンピュータ・プログラムである。
【0026】
本発明の第2の側面に係るコンピュータ・プログラムは、コンピュータ・システム上で所定の処理を実現するようにコンピュータ可読形式で記述されたコンピュータ・プログラムを定義したものである。換言すれば、本発明の第2の側面に係るコンピュータ・プログラムをコンピュータ・システムにインストールすることによって、コンピュータ・システム上では協働的作用が発揮され、本発明の第1の側面に係る自然言語処理システムと同様の作用効果を得ることができる。
【0027】
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。
【0028】
【発明の実施の形態】
以下、図面を参照しながら本発明の実施形態について詳解する。
【0029】
本発明に係る自然言語処理システムは、副助詞や係助詞などのとりたて詞を含む日本語文に対して正しい構文・意味解析結果を出力してより高精度の構文・意味解析処理を行なうものである。
【0030】
意味解析を行うための文法理論の代表的な例として、Lexical Functional Grammar (LFG)を挙げることができる。本発明は、例えばLFG文法理論に基づく統語・意味解析処理に組み込んで実装することができる。
【0031】
LFGでは、ネイティブ・スピーカの言語知識すなわち文法を、コンピュータ処理や、コンピュータの処理動作に影響を及ぼすその他の非文法的な処理パラメータとは切り離したコンポーネントとして構成している。まず、自然言語処理システムの全体像について簡単に説明する。
【0032】
図1には、LFGに基づく自然言語処理システム1の構成を模式的に示している。
【0033】
形態素解析部2は、日本語など特定の言語に関する形態素ルール2Aと形態素辞書2Bを持ち、入力文を意味的最小単位である形態素に分節して品詞の認定処理を行なう。例えば、「私の娘は英語を話します。」という文が入力された場合、形態素解析結果として、「私{Noun} の{up} 娘{Noun} は{up} 英語{Noun} を{up} 話す{Verb1}{tr} ます{jp} 。{pt}」が出力される。
【0034】
このような形態素解析結果は、次いで、統語・意味解析部3に入力される。統語・意味解析部は、文法ルール3Aや結合価辞書3Bなどの辞書を持ち、文法ルールなどに基づく句構造の解析や、文中の語の語義や語と語の間の意味関係などに基づいて文が伝える意味を表現する意味構造の解析を行なう(結合価辞書は動詞と主語などの文中の他の構成要素との関係を記述したものであり、述部とそれに係る語の意味関係を抽出することができる)。そして、構文解析した結果として、単語や形態素などからなる文章の句構造を木構造として表した"c−structure(constituent structure)"と、主語、目的語などの格構造に基づいて入力文を疑問文、過去形、丁寧文など意味的・機能的に解析した結果として"f−structure(functional structure)"を出力する。
【0035】
図2及び図3には、入力文「私の娘は英語を話します。」を統語・意味解析部1により処理した結果として得られるc−structure及びf−structureをそれぞれ示している。
【0036】
c−structureは、文中の単語や句の構造を木構造形式で表したものであり、構文カテゴリによって定義される。例えば音素列を生成するための音韻学的な解釈を、c−structureを基に行なうことができる。一方、f−structureは、文法的な機能を明確に表現したものであり、文法的な機能名、意味的形式、並びに特徴シンボルにより構成される。f−structureを参照することにより、主語(subject)、目的語(object)、補語(complement)、修飾語(adjunct)といった意味理解を得ることができる。f−structureは、c−structureの各節点に付随する素性の集合であり、図3に示すように属性−属性値のマトリックスの形で表現される。すなわち、[]で囲まれた中の左側は素性(属性)の名前であり、右側は素性の値(属性値)である。
【0037】
なお、LFGの詳細に関しては、例えばR. M. Kaplan及びJ. Bresnan共著の論文"Lexical-Functional Grammar: A Formal System for Grammatical Representation"(The MIT Press, Cambridge (1982). Reprinted in Formal Issues in Lexical-Functional Grammar, pp. 29-130. CSLI publications, Stanford University(1995).)に記述されている。
【0038】
次いで、本発明に係る自然言語処理によるとりたて詞のとりたて勢力範囲の判定処理について詳解する。ここで言う「とりたて」とは、副助詞や係助詞が接続することによってある範囲に特定の意味が与えられることを意味する。
【0039】
図4には、とりたて詞のとりたて勢力範囲の判定するための処理手順をフローチャートの形式で示している。
【0040】
副助詞や係助詞などのとりたて詞を含む文が当該システムに投入されると、まず、とりたて詞の接続先を特定する(ステップS1)。
【0041】
次いで、とりたて詞の接続先が体言であるかどうかを判断する(ステップS2)。
【0042】
ここで、とりたて詞の接続先が体言である場合には、名詞に直結しているとりたて詞は名詞だけに係ることから、とりたて詞の接続先をとりたて勢力範囲の候補のリストに加える(ステップS3)。
【0043】
また、とりたて詞の接続先が体言でない場合には、接続先に係っている連用修飾成分(すなわち下位範疇)を特定する(ステップS5)。とりたて詞が動詞に係るのは特殊なケースであり、係り受け関係の処理が難しくなる。
【0044】
そして、連用修飾成分として特定されたそれぞれの成分について、着目した成分に別のとりたて詞が接続していないかどうかを判断し(ステップS6)、別のとりたて詞が接続していない場合には当該とりたて詞の接続先を範囲候補のリストに加える(ステップS7)、という処理を繰り返し行なう。
【0045】
このようにして抽出された範囲候補のリストをとりたての勢力範囲として出力する(ステップS4)。このとりたて情報は、構文情報に関連付けて、意味情報とともに出力される。
【0046】
以下では、図4に示したとりたて詞のとりたて勢力範囲の判定処理に従ったとりたて勢力範囲の抽出結果の具体例について説明する。
【0047】
例えば、「彼だけが英語を話した。」という例文の場合、とりたて詞としての副助詞「だけ」の接続先が体言「彼」であることから、この接続先をとりたて勢力範囲の候補のリストに加える。
【0048】
また、「彼が英語だけを話した。」という例文の場合、とりたて詞としての副助詞「だけ」の接続先が体言「英語」であることから、この接続先をとりたて勢力範囲の候補のリストに加える。
【0049】
また、「彼が英語を話すだけだった。」という例文の場合、とりたて詞としての副助詞「だけ」の接続先は「話す」であり、体言ではない。この場合、接続先に係っている連用修飾成分(すなわち下位範疇)を特定する。そして、この連用修飾成分に含まれる各成分「彼」、「英語」、並びに「話す」について、別のとりたて詞が接続していないかどうかを判断する。この例文では、いずれの成分も別のとりたて詞が接続していないので、そのままとりたて詞の接続先を範囲候補のリストに加える。
【0050】
また、「彼は英語を話すだけだった。」という例文の場合、とりたて詞としての副助詞「だけ」の接続先は「話す」であり、体言ではない。この場合、接続先に係っている連用修飾成分(すなわち下位範疇)を特定する。そして、この連用修飾成分に含まれる各成分「彼」、「英語」、並びに「話す」について、別のとりたて詞が接続していないかどうかを判断する。この例文では、「英語」、並びに「話す」については別のとりたて詞が接続していないので、そのままとりたて詞の接続先を範囲候補のリストに加える。これに対し、成分「彼」には、別のとりたて詞としての係助詞「は」が既に接続している、既にとりたてられており、とりたて詞「だけ」の勢力が及ばなくなっているので、とりたて詞の接続先を範囲候補のリストに加えない。
【0051】
以上の処理結果を、下表にまとめておく。
【0052】
【表1】

Figure 0004033012
【0053】
また、本実施形態では、とりたて詞によりとりたてが行なわれている範囲を抽出した結果を、構文情報に関連付けられたとりたて情報として意味情報とともに保持する。このような情報の保持形態によれば、この結果、重要語の抽出(例えば、とりたて情報に基づいてキーワードの頻度に付随して重み付けを行なう)や、自動要約処理(副助詞は英語に翻訳すると副詞になることから、副詞を文中の正確な位置に配置することができる)などにおいて、有用な情報を抽出することができる。
【0054】
図5には、例文「彼だけが英語を話した。」についての構文意味をf−structurteの形式で示している。f−structurteでは、文法的な機能が明確に表現され、文法的な機能名、意味的形式、並びに特徴シンボルにより構成される。f−structureを参照することにより、主語(subject)、目的語(object)、補語(complement)、修飾語(adjunct)といった意味理解を得ることができる。
【0055】
図示の例では、とりたて詞としての副助詞「だけ」の勢力範囲が体言「彼」であることから、f−structure中の属性SUBJの属性値「彼」に、とりたて情報へのリンク参照のためのマーカとして「toritate+」が付加されるとともに、リンク参照情報としてのとりたて情報には、とりたて詞の意味機能を表すマーカ「sem」の値に「限定」が挿入されている。
【0056】
また、図6には、例文「彼が英語だけを話した。」についての構文意味をf−structurteの形式で示している。図示の例では、とりたて詞としての副助詞「だけ」の勢力範囲が体言「英語」であることから、f−structure中の属性OBJの属性値「英語」に、とりたて情報へのリンク参照のためのマーカとして「toritate+」が付加されるとともに、リンク参照情報としてのとりたて情報には、とりたて詞の意味機能を表すマーカ「sem」の値に「限定」が挿入されている。
【0057】
また、図7には、例文「彼が英語を話すだけだった。」についての構文意味をf−structureの形式で示している。図示の例では、とりたて詞としての副助詞「だけ」の勢力範囲が連用修飾成分に含まれるすべての成分「彼」、「英語」、並びに「話す」である。したがって、f−structure中の属性SUBJの属性値「彼」に、とりたて情報へのリンク参照のためのマーカとして「toritate+」が付加されるとともに、リンク参照情報としてのとりたて情報には、とりたて詞の意味機能を表すマーカ「sem」の値に「限定」が挿入されている。また、属性OBJの属性値「英語」に、とりたて情報へのリンク参照のためのマーカとして「toritate+」が付加されるとともに、リンク参照情報としてのとりたて情報には、とりたて詞の意味機能を表すマーカ「sem」の値に「限定」が挿入されている。また、属性PREDの属性値「話す」に、とりたて情報へのリンク参照のためのマーカとして「toritate+」が付加されるとともに、リンク参照情報としてのとりたて情報には、とりたて詞の意味機能を表すマーカ「sem」の値に「限定」が挿入されている。
【0058】
なお、図5〜図7に示す例では、f−structureのとりたて勢力範囲からリンクを張るという形式でとりたて情報が付加されているが、本実施形態に係るとりたて勢力範囲の判定結果の出力形式はこれに限定されない。例えば、f−structureなどの統語・意味解析結果の中にとりたて情報を埋め込むような形式であっても構わない。
【0059】
[追補]
以上、特定の実施形態を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。
【0060】
本実施形態ではLFG文法理論に基づいて説明するが,勿論、他の文法ルールを備えた解析システムにおいても本発明を同様に適用することができる。
【0061】
要するに、例示という形態で本発明を開示してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本発明の要旨を判断するためには、冒頭に記載した特許請求の範囲の欄を参酌すべきである。
【0062】
【発明の効果】
以上詳記したように、本発明によれば、副助詞や係助詞などのとりたて詞のとりたての勢力範囲を正確に抽出して構文・意味解析結果とともに出力することができる、優れた自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムを提供することができる。
【0063】
また、本発明によれば、接続先が動詞となるとりたて詞のとりたての勢力範囲を正確に抽出して構文・意味解析結果とともに出力することができる、優れた自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムを提供することができる。
【0064】
本発明によれば、とりたて詞の位置と、とりたてられる要素が既にとりたてられているかどうかを判断することにより、とりたてが行なわれている範囲を抽出し、構文情報に関連付けられたとりたて情報として意味情報とともに保持することができる。この結果、重要語の抽出(例えば、とりたて情報に基づいてキーワードの頻度に付随して重み付けを行なう)や、自動要約処理(副助詞は英語に翻訳すると副詞になることから、副詞を文中の正確な位置に配置することができる)などにおいて、有用な情報を抽出することができる。
【図面の簡単な説明】
【図1】LFGに基づく自然言語処理システム1の構成を模式的に示した図である。
【図2】入力文「私の娘は英語を話します。」を統語・意味解析部1により処理した結果として得られるc−structureを示した図である。
【図3】入力文「私の娘は英語を話します。」を統語・意味解析部1により処理した結果として得られるf−structureを示した図である。
【図4】とりたて詞のとりたて勢力範囲の判定するための処理手順を示したフローチャートである。
【図5】例文「彼だけが英語を話した。」についてのf−structurteの形式の統語・意味解析結果にとりたて情報が付加されている様子を示した図である。
【図6】例文「彼が英語だけを話した。」についてのf−structurteの形式の統語・意味解析結果にとりたて情報が付加されている様子を示した図である。
【図7】例文「彼が英語を話すだけだった。」についてのf−structurteの形式の統語・意味解析結果にとりたて情報が付加されている様子を示した図である。
【符号の説明】
1…自然言語処理システム
2…形態素解析部
2A…形態素ルール,2B…形態素辞書
3…統語・意味解析部
3A…文法ルール,3B…結合価辞書[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a natural language processing system, a natural language processing method, and a computer program for mathematically handling a natural language used by humans for daily communication, and in particular, to analyze syntax and semantics of a natural language sentence. The present invention relates to a natural language processing system, a natural language processing method, and a computer program.
[0002]
More specifically, the present invention relates to a natural language processing system and a natural language processing method, and a computer program for outputting correct syntax / semantic analysis results for a Japanese sentence including a final particle such as an adjunct particle or a co-particle, In particular, the present invention relates to a natural language processing system, a natural language processing method, and a computer program that extract a range of power of a vertical particle such as an adjunct particle or a co-particle and output it together with a syntax / semantic analysis result.
[0003]
[Prior art]
Words that humans use for everyday communication, such as Japanese and English, are called “natural languages”. Many natural languages have a naturally occurring origin and have evolved with the history of mankind, people and society. Of course, people can communicate with each other by gestures and hand gestures, but natural language can realize the most natural and advanced communication.
[0004]
On the other hand, with the development of information technology, computers have become established in human society and have deeply penetrated into various industries and daily life. Now, not only computer data, but almost all information content such as images and sounds are handled on the computer, making it possible to perform advanced processing such as editing / processing, storage, management, transmission and sharing of information. .
[0005]
For example, a natural language written in various languages such as Japanese and English has a nature that is inherently abstract and ambiguous, but it can perform computer processing by handling sentences mathematically. . As a result, various applications / services related to natural language are realized by automated processing such as machine translation, dialogue system, search system, and question answering system.
[0006]
Such natural language processing is generally divided into processing phases of morphological analysis, syntax analysis, semantic analysis, and context analysis.
[0007]
In morphological analysis, a sentence is segmented into morpheme, which is a semantic minimum unit, and part-of-speech recognition processing is performed. In syntax analysis, sentence structure such as phrase structure is analyzed based on grammatical rules. Since the grammatical rule is a tree structure, the parsing result generally has a tree structure in which individual morphemes are joined based on a dependency relationship. In semantic analysis, a semantic structure that expresses the meaning conveyed by a sentence is obtained based on the meaning (concept) of the words in the sentence and the semantic relationship between words, and the semantic structure is synthesized. In context analysis, a sentence series (discourse) is regarded as a basic unit of analysis, and a discourse structure is constructed by obtaining a semantic group between sentences.
[0008]
In the field of natural language processing, syntactic analysis and semantic analysis are considered to be indispensable techniques for realizing applications such as dialog systems, machine translation, document proofreading, and document summarization.
[0009]
In the syntax analysis, a natural language sentence is received, and a dependency relationship between words (sentences) is determined based on grammatical rules. The parsing result can be expressed in the form of a tree structure (dependency tree) called a dependency structure. In the semantic analysis, it is possible to perform a process of determining a case relationship in a sentence based on a dependency relationship between words (sentences). The case relationship here refers to a grammatical role such as a subject (SUBJ) and an object (OBJ) possessed by each element constituting a sentence. In addition, semantic analysis may include processing for determining sentence tense, appearance, speech, and the like.
[0010]
By the way, among many natural languages, Japanese is said to have high ambiguity. One reason for this depends on the existence of part-of-speech, commonly called adjunct particles ("do", "just", "just" ...). In Japanese, expressions containing adverbial particles are very standard, and it is an important issue to output correct syntactic and semantic analysis results for such expressions.
[0011]
For example, adjuncts such as “do”, “just”, and “just” appear in various positions in the sentence (can be added after nouns, verbs, particles, and adjectives). One word may have a plurality of semantic functions. In other words, since the meaning of adjunct changes depending on how it is used, it increases the ambiguity of the sentence and makes it difficult to accurately interpret and translate the sentence.
[0012]
On the other hand, it is possible to more accurately output the semantic information of the auxiliary particles that may have a plurality of semantic functions according to the appearance position (for example, see Non-Patent Document 1). For example, the adjunct “just” has two meanings, “limited” and “degree”, but the syntactic information of the adjunct “just” contained in the input sentence is extracted and the adjunct “just” becomes the quantifier. If the result is true, the meaning of the adjunct “just” may be determined as “degree”, otherwise it may be determined as “limited”, and the result of semantic analysis may be output. it can. In the example sentence “He ate only 3 apples”, “just” is related to the quantifier “3”, so the meaning of “just” can be determined to be “degree”.
[0013]
In addition, the usage of adverbial particles is diverse, such as following a sentence, following an adjective or noun. In this way, the appearance position of the auxiliary particles is wide, which is the main cause of difficulty in properly handling the auxiliary particles.
[0014]
On the other hand, an auxiliary particle can be clearly defined as a part-of-speech category to correctly handle a phrase structure related to the auxiliary particle (see, for example, Non-Patent Document 2). That is, a case structure analysis is performed on an input sentence in which an auxiliary particle P is connected after a sentence S, a verb phrase VP, an adjective phrase AP, or a noun phrase NP to determine whether S is included. When there is a subject that is not placed at the beginning of S, an input sentence including this subject and including an auxiliary particle is determined as a noun phrase or adverb phrase, and when there is a subject taken, this subject is excluded. The input sentence is determined as a noun phrase or adverb phrase. Further, when the input sentence including the adverbial particle does not include S, the input sentence is determined as a noun phrase or an adverb phrase.
[0015]
In addition, the fact that the range of the auxiliary particle is not clear is also a main cause of difficulty in properly handling the auxiliary particle. Along with adjunct particles, “H”, “M”, “Joshi” and “Koshi” are called “letters”, but it is highly accurate semantic analysis to accurately determine the range. It is indispensable for realizing. The term “taken” as used herein means that a specific meaning is given to a certain range by connecting a secondary particle or an auxiliary particle. However, when the connection destination of these vertical lyrics is a verb, it is particularly difficult to determine the vertical range.
[0016]
[Non-Patent Document 1]
Japanese Patent Application No. 2002-79626 [Non-Patent Document 2]
Japanese Patent Application No. 2002-79631 [0017]
[Problems to be solved by the invention]
An object of the present invention is to provide an excellent natural language processing system and natural language processing method capable of outputting a correct syntax / semantic analysis result for a Japanese sentence including a participle such as an auxiliary particle or a co-particle, and a computer To provide a program.
[0018]
A further object of the present invention is to provide an excellent natural language processing system and natural language processing method capable of accurately extracting the range of power of the final particles such as adjunct particles and co-particles and outputting them together with the results of syntax and semantic analysis. And providing a computer program.
[0019]
A further object of the present invention is to provide an excellent natural language processing system and natural language processing method capable of accurately extracting and outputting together with the result of syntactic and semantic analysis, the power range of a verb that is the destination of a verb, And providing a computer program.
[0020]
[Means and Actions for Solving the Problems]
The present invention has been made in consideration of the above problems, and a first aspect of the present invention is a natural language processing system for syntactically or semantically analyzing an input sentence including a tentative word,
A connection destination specifying means for specifying a connection destination of the verb in the input sentence;
Power range determination means for performing a determination process of the power range of the lyrics according to whether the connection destination of the lyrics is a body word;
It is a natural language processing system characterized by comprising.
[0021]
Here, when the connection destination of the lyrics is a body word, the power range determination means takes the connection destination of the lyrics and adds it to the list of candidates for the power range. That is, when the connection destination of the vertical lyrics is a body language, since the vertical lyrics directly connected to the noun relate only to the noun, the connection destination of the vertical lyrics is taken and added to the list of candidates for the power range.
[0022]
On the other hand, it is a special case that a fresh lyrics relates to a verb, and it becomes difficult to identify a range that is a fresh target. In such a case, the continuous modification component related to the connection destination is specified. Then, for each component specified as a continuous modification component, it is determined whether another word is connected to the component of interest, and if another word is not connected, connection of the word The process of adding the destination to the list of range candidates is repeated.
[0023]
In addition, when another speech is connected, the connection destination of the speech is not added to the range candidate list.
[0024]
Therefore, according to the present invention, by determining the position of the lyrics and whether or not the elements to be taken have already been taken, the range in which the words are taken is extracted and used as the pieces of information associated with the syntax information. Can be held together with semantic information. As a result, important words are extracted (for example, weighting is performed in association with the frequency of keywords based on information taken immediately), and automatic summarization processing (adverbs become adverbs when translated into English, so adverbs are accurately included in sentences) Useful information can be extracted.
[0025]
The second aspect of the present invention is a computer program written in a computer-readable format so that natural language processing for syntactic or semantic analysis of an input sentence including a sentence is executed on a computer system. And
A connection destination specifying step for specifying a connection destination of the verb in the input sentence;
When the connection destination of the lyrics is a body word, adding the connection destination of the lyrics to the list of candidates for the range of power,
When the connection destination of the lyrics is not a body, identify the continuous modification component related to the connection destination, and determine whether a separate speech is connected for each component specified as the continuous modification component And a step of sequentially adding a connection destination of the lyrics to the list of range candidates when another speech is not connected.
[0026]
The computer program according to the second aspect of the present invention defines a computer program described in a computer-readable format so as to realize predetermined processing on a computer system. In other words, by installing the computer program according to the second aspect of the present invention in the computer system, a cooperative action is exhibited on the computer system, and the natural language according to the first aspect of the present invention. The same effects as the processing system can be obtained.
[0027]
Other objects, features, and advantages of the present invention will become apparent from more detailed description based on embodiments of the present invention described later and the accompanying drawings.
[0028]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
[0029]
The natural language processing system according to the present invention outputs a correct syntax / semantic analysis result for a Japanese sentence containing a verbal particle such as an adjunct particle or a co-particle, and performs a more accurate syntax / semantic analysis process. .
[0030]
A typical example of grammatical theory for semantic analysis is Lexical Functional Grammar (LFG). The present invention can be implemented by being incorporated into syntactic / semantic analysis processing based on, for example, LFG grammar theory.
[0031]
In LFG, linguistic knowledge, that is, grammar of native speakers is configured as a component separated from computer processing and other non-grammatical processing parameters that affect the processing operation of the computer. First, an overview of the natural language processing system will be briefly described.
[0032]
FIG. 1 schematically shows a configuration of a natural language processing system 1 based on LFG.
[0033]
The morpheme analysis unit 2 has a morpheme rule 2A and a morpheme dictionary 2B related to a specific language such as Japanese, and performs a part-of-speech recognition process by segmenting an input sentence into morphemes that are semantic minimum units. For example, if the sentence “My daughter speaks English” is entered, the result of the morphological analysis is that {up} daughter {Noun} of me {Noun} {up} English {Noun} } Speak {Verb1} {tr} Mas {jp}. {Pt} "is output.
[0034]
Such a morphological analysis result is then input to the syntactic / semantic analysis unit 3. The syntactic / semantic analysis unit has dictionaries such as grammar rules 3A and valence dictionaries 3B. Based on grammatical rule analysis, the meaning of words in a sentence, and the semantic relationship between words. Analyzes the semantic structure expressing the meaning conveyed by a sentence (a valence dictionary describes the relationship between verbs and other constituent elements in the sentence, such as the subject, and extracts the semantic relations between predicates and related words can do). As a result of the parsing, the input sentence is questioned based on “c-structure (constituent structure)” representing a phrase structure of a sentence composed of words, morphemes and the like as a tree structure, and a case structure such as a subject and an object. “F-structure (functional structure)” is output as a result of semantically and functionally analyzing sentences, past tense, polite sentences, and the like.
[0035]
FIGS. 2 and 3 respectively show c-structure and f-structure obtained as a result of processing the input sentence “My daughter speaks English” by the syntactic / semantic analysis unit 1.
[0036]
c-structure represents the structure of words and phrases in a sentence in a tree structure format, and is defined by a syntax category. For example, phonological interpretation for generating a phoneme string can be performed based on c-structure. On the other hand, f-structure clearly expresses a grammatical function, and includes a grammatical function name, a semantic form, and a feature symbol. By referring to the f-structure, it is possible to obtain an understanding of the meaning such as a subject, an object, a complement, and a modifier. The f-structure is a set of features attached to each node of the c-structure, and is expressed in the form of an attribute-attribute value matrix as shown in FIG. That is, the left side in [] is a feature (attribute) name, and the right side is a feature value (attribute value).
[0037]
For details on LFG, see, for example, the paper "Lexical-Functional Grammar: A Formal System for Grammatical Representation" by RM Kaplan and J. Bresnan (The MIT Press, Cambridge (1982). Reprinted in Formal Issues in Lexical-Functional Grammar. , pp. 29-130. CSLI publications, Stanford University (1995)).
[0038]
Next, the determination process of the range of the power of the words taken by the natural language processing according to the present invention will be described in detail. The term “taken” as used herein means that a specific meaning is given to a certain range by connecting a secondary particle or an auxiliary particle.
[0039]
FIG. 4 shows a processing procedure for determining the range of the power of taking the lyrics in the form of a flowchart.
[0040]
When a sentence including a vertical particle such as an auxiliary particle or an auxiliary particle is input to the system, first, a connection destination of the vertical particle is specified (step S1).
[0041]
Next, it is determined whether or not the connection destination of the lyrics is a body word (step S2).
[0042]
Here, when the connection destination of the vertical lyrics is a body word, since the vertical speech directly connected to the noun relates only to the noun, the connection destination of the vertical lyrics is added to the list of candidates for the range of power (step S3). ).
[0043]
Further, when the connection destination of the final lyrics is not a body word, the continuous modification component (that is, the lower category) related to the connection destination is specified (step S5). It is a special case that a verb is related to a verb, which makes it difficult to process dependency relationships.
[0044]
Then, for each component specified as the continuous modification component, it is determined whether or not another word is connected to the component of interest (step S6). The process of adding the connection destination of the lyrics is added to the range candidate list (step S7).
[0045]
The list of range candidates extracted in this way is output as a fresh power range (step S4). This fresh information is output together with the semantic information in association with the syntax information.
[0046]
Hereinafter, a specific example of the extraction result of the vertical power range according to the determination processing of the vertical power range shown in FIG. 4 will be described.
[0047]
For example, in the case of the example sentence “Only he spoke English,” the adjunct “only” is connected to the verbal particle “only”, so the list of potential power range candidates for this connection Add to.
[0048]
In addition, in the case of the example sentence “He spoke English only”, the adjunct “only” as the final particle is connected to the body word “English”, so the list of candidates for the power range that takes this connection destination Add to.
[0049]
In addition, in the case of the example sentence “He only spoke English”, the adjunct “only” as the final particle is connected to “speak”, not the body. In this case, the continuous modification component (that is, the lower category) related to the connection destination is specified. Then, it is determined whether or not another word is connected for each of the components “he”, “English”, and “speak” included in the continuous modification component. In this example sentence, since none of the components are connected to another word, the connection destination of the word is added to the list of range candidates.
[0050]
Also, in the case of the example sentence “He only spoke English”, the adjunct “only” as the final particle is connected to “speak”, not the body. In this case, the continuous modification component (that is, the lower category) related to the connection destination is specified. Then, it is determined whether or not another word is connected for each of the components “he”, “English”, and “speak” included in the continuous modification component. In this example sentence, there is no connection between “English” and “speaking”, so the connection destination of the lyrics is added to the list of range candidates. On the other hand, the component “he” is already connected with the auxiliary particle “ha”, which is already connected to the component “he”, and the power of the word “only” is no longer in effect. Do not add the lyrics destination to the list of range candidates.
[0051]
The above processing results are summarized in the table below.
[0052]
[Table 1]
Figure 0004033012
[0053]
Further, in the present embodiment, the result of extracting the range in which the text is taken with the text is stored together with the semantic information as the text information associated with the syntax information. According to such information holding form, as a result, extraction of important words (for example, weighting is performed in association with the frequency of keywords based on the information taken) and automatic summarization processing (when auxiliary particles are translated into English) Because it becomes an adverb, it is possible to extract useful information such as adverb can be placed at an exact position in a sentence).
[0054]
FIG. 5 shows the syntax meaning of the example sentence “only he spoke English” in the form of f-structure. In f-structure, a grammatical function is clearly expressed, and includes a grammatical function name, a semantic form, and a feature symbol. By referring to the f-structure, it is possible to obtain an understanding of the meaning such as a subject, an object, a complement, and a modifier.
[0055]
In the illustrated example, since the power range of the auxiliary particle “only” as the verb is “hi”, the attribute value “h” of the attribute SUBJ in the f-structure is used for a link reference to information immediately. “Toritate +” is added as a marker of “”, and “limit” is inserted into the value of the marker “sem” representing the semantic function of the lyrics in the length information as the link reference information.
[0056]
FIG. 6 shows the syntax meaning of the example sentence “he spoke English only” in the form of f-structure. In the example shown in the figure, since the power range of the auxiliary particle “only” as a participle is the word “English”, the attribute value “English” of the attribute OBJ in the f-structure is used to refer to the link to the information immediately. “Toritate +” is added as a marker of “”, and “limit” is inserted into the value of the marker “sem” representing the semantic function of the lyrics in the length information as the link reference information.
[0057]
FIG. 7 shows the syntax meaning of the example sentence “He only spoke English” in the form of f-structure. In the illustrated example, the power range of the auxiliary particle “only” as a participle is all the components “he”, “English”, and “speak” included in the continuous modification component. Therefore, “toritate +” is added to the attribute value “he” of the attribute SUBJ in the f-structure as a marker for referring to the link to the information to be taken, and the information to be taken as the link reference information “Limited” is inserted in the value of the marker “sem” representing the semantic function. In addition, “toritate +” is added to the attribute value “English” of the attribute OBJ as a marker for referring to the link to the information, and the marker indicating the meaning function of the lyrics is added to the information as the link reference information. “Limit” is inserted in the value of “sem”. Further, “toritate +” is added to the attribute value “speak” of the attribute PRED as a marker for referring to the link to the information, and the information indicating the meaning function of the lyrics is added to the information as the link reference information. “Limit” is inserted in the value of “sem”.
[0058]
In the examples shown in FIGS. 5 to 7, the vertical information is added in the form of establishing a link from the vertical power range of f-structure, but the output format of the determination result of the vertical power range according to this embodiment is It is not limited to this. For example, a format in which information is embedded in a syntactic / semantic analysis result such as f-structure may be used.
[0059]
[Supplement]
The present invention has been described in detail above with reference to specific embodiments. However, it is obvious that those skilled in the art can make modifications and substitutions of the embodiment without departing from the gist of the present invention.
[0060]
Although the present embodiment will be described based on LFG grammar theory, of course, the present invention can be similarly applied to an analysis system having other grammar rules.
[0061]
In short, the present invention has been disclosed in the form of exemplification, and the description of the present specification should not be interpreted in a limited manner. In order to determine the gist of the present invention, the claims section described at the beginning should be considered.
[0062]
【The invention's effect】
As described above in detail, according to the present invention, an excellent natural language processing that can accurately extract the range of power of the final particle such as adjunct and co-particle and output it together with the result of syntax and semantic analysis. A system, a natural language processing method, and a computer program can be provided.
[0063]
Furthermore, according to the present invention, an excellent natural language processing system and natural language processing method capable of accurately extracting the range of power of the verbal verb that is the connection destination and outputting it together with the result of syntax and semantic analysis As well as computer programs.
[0064]
According to the present invention, by determining the position of the lyrics and whether or not the elements to be taken have already been taken, the range in which the words are taken is extracted, and semantic information is obtained as fresh information associated with the syntax information. Can be held together. As a result, important words are extracted (for example, weighting is performed in association with the frequency of keywords based on information taken immediately), and automatic summarization processing (adverbs become adverbs when translated into English, so adverbs are accurately included in sentences) Useful information can be extracted.
[Brief description of the drawings]
FIG. 1 is a diagram schematically showing a configuration of a natural language processing system 1 based on LFG.
FIG. 2 is a diagram showing c-structure obtained as a result of processing an input sentence “My daughter speaks English” by the syntactic / semantic analysis unit 1;
FIG. 3 is a diagram showing f-structure obtained as a result of processing an input sentence “My daughter speaks English” by the syntactic / semantic analysis unit 1;
FIG. 4 is a flowchart showing a processing procedure for determining a range of power of taking a word.
FIG. 5 is a diagram illustrating a state in which information is added to a syntactic / semantic analysis result in an f-structure format for an example sentence “only he spoke English”.
FIG. 6 is a diagram showing a state in which information is added to the syntactic / semantic analysis result in the f-structure format for the example sentence “He spoke English only”.
FIG. 7 is a diagram showing a state in which information is added to a syntactic / semantic analysis result in the form of f-structure for an example sentence “He only spoke English”.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 ... Natural language processing system 2 ... Morphological analysis part 2A ... Morphological rule, 2B ... Morphological dictionary 3 ... Syntactic / semantic analysis part 3A ... Grammar rule, 3B ... Valency dictionary

Claims (7)

とりたて詞を含む入力文を構文又は意味解析する自然言語処理システムであって、
入力文について形態素毎の品詞の認定結果を含んだ形態素解析結果を取得する手段と、
前記形態素解析結果によりとりたて詞と品詞認定された形態素の入力文中における接続先を特定する接続先特定手段と、
とりたて詞の接続先が体言である場合は当該とりたて詞の接続先を当該とりたて詞によってとりたてが行なわれるとりたて勢力範囲の候補リストに加え、とりたて詞の接続先が体言でない場合には、接続先に係っている連用修飾成分を特定し、連用修飾成分として特定されたそれぞれの成分について、別のとりたて詞が接続していないかどうかを判断し、別のとりたて詞が接続していない場合には当該とりたて詞の接続先を前記とりたて勢力範囲の候補リストに加える勢力範囲判定手段と、
を具備することを特徴とする自然言語処理システム。
A natural language processing system for syntactically or semantically analyzing an input sentence containing a fresh lyrics,
Means for obtaining a morpheme analysis result including a part of speech recognition result for each morpheme for the input sentence;
A connection destination specifying means for specifying a connection destination in an input sentence of a morpheme recognized as a part of speech and a part of speech obtained by the morpheme analysis result ;
In the case where the connection destination of the lyrics is in the body, in addition to the candidate list of the range of the power range where the connection of the words in the vertical is made in addition to the candidate list of the power range where the connection of the words is not in the body, If the component modification component involved is identified, it is determined whether or not another word is connected for each component specified as the component modification component. A power range determination means for adding the connection destination of the vertical lyrics to the candidate list of the vertical power range ;
A natural language processing system comprising:
前記形態素解析結果に統語・意味解析を実施して、入力文の格構造上の属性と該当する属性値との対応関係を統語・意味解析結果として出力する統語・意味解析手段をさらに備え、
前記勢力範囲判定手段は、統語・意味解析結果中で前記とりたて勢力範囲の候補リストに加えられた各接続先に対応する属性値に前記とりたて勢力範囲であることを表す情報を付加する、
ことを特徴とする請求項1に記載の自然言語処理システム。
It further comprises syntactic / semantic analysis means for performing syntactic / semantic analysis on the morphological analysis result and outputting a correspondence relationship between the attribute on the case structure of the input sentence and the corresponding attribute value as a syntactic / semantic analysis result,
The power range determination means adds information indicating the power range to the attribute value corresponding to each connection destination added to the candidate list of power range in the syntactic / semantic analysis result.
The natural language processing system according to claim 1.
とりたて詞の入力文中の出現位置に応じてその意味機能を含むとりたて情報を判定するとりたて情報判定手段をさらに備え、
前記勢力範囲判定手段は、統語・意味解析結果中で前記とりたて勢力範囲の候補リストに加えられた各接続先に対応する属性値にとりたて情報を表す情報を付加する、
ことを特徴とする請求項2に記載の自然言語処理システム。
Further comprising a fetching information judging means for judging the catching information including the semantic function according to the appearance position of the taking lyrics in the input sentence,
The power range determination means adds information representing information to the attribute value corresponding to each connection destination added to the candidate list of power range in the syntactic / semantic analysis result,
The natural language processing system according to claim 2.
コンピュータ上で構築される自然言語処理システムにおいて、とりたて詞を含む入力文を構文又は意味解析する自然言語処理方法であって、In a natural language processing system constructed on a computer, a natural language processing method for syntactically or semantically analyzing an input sentence including a lyrics,
前記コンピュータが備える取得手段が、入力文について形態素毎の品詞の認定結果を含んだ形態素解析結果を取得するステップと、The acquisition means provided in the computer acquires a morpheme analysis result including a part of speech recognition result for each morpheme for an input sentence;
前記コンピュータが備える接続先特定手段が、前記形態素解析結果によりとりたて詞と品詞認定された形態素の入力文中における接続先を特定する接続先特定ステップと、A connection destination specifying unit provided in the computer, a connection destination specifying step for specifying a connection destination in an input sentence of a morpheme recognized as a part of speech and a part of speech as a result of the morpheme analysis,
前記コンピュータが備える勢力範囲判定手段が、とりたて詞の接続先が体言である場合は当該とりたて詞の接続先を当該とりたて詞によってとりたてが行なわれるとりたて勢力範囲の候補リストに加え、とりたて詞の接続先が体言でない場合には、接続先に係っている連用修飾成分を特定し、連用修飾成分として特定されたそれぞれの成分について、別のとりたて詞が接続していないかどうかを判断し、別のとりたて詞が接続していない場合には当該とりたて詞の接続先を前記とりたて勢力範囲の候補リストに加える勢力範囲判定ステップと、The power range determination means provided in the computer adds the connection destination of the vertical lyrics to the candidate list of the horizontal power range in which the vertical connection destination is determined by using the vertical lyrics connection destination, and the connection destination of the vertical lyrics If it is not a body word, specify the continuous modification component related to the connection destination, and determine whether a separate word is connected for each component specified as the continuous modification component. A power range determination step of adding a connection destination of the lyrics to the list of candidates of the power range when the lyrics are not connected;
を具備することを特徴とする自然言語処理方法。A natural language processing method comprising:
前記コンピュータが備える統語・意味解析手段が、形態素解析結果に統語・意味解析を実施して、入力文の格構造上の属性と該当する属性値との対応関係を統語・意味解析結果として出力する統語・意味解析ステップをさらに備え、The syntactic / semantic analysis means included in the computer performs syntactic / semantic analysis on the morphological analysis result, and outputs the correspondence between the attribute on the case structure of the input sentence and the corresponding attribute value as the syntactic / semantic analysis result. A syntactic and semantic analysis step,
前記勢力範囲判定ステップでは、統語・意味解析結果中で前記とりたて勢力範囲の候補リストに加えられた各接続先に対応する属性値に前記とりたて勢力範囲であることを表す情報を付加する、In the power range determination step, information indicating that it is the power range is added to the attribute value corresponding to each connection destination added to the candidate list of the power range within the syntactic / semantic analysis result.
ことを特徴とする請求項4に記載の自然言語処理方法。The natural language processing method according to claim 4.
前記コンピュータが備えるとりたて情報判定手段が、とりたて詞の入力文中の出現位置に応じてその意味機能を含むとりたて情報を判定するとりたて情報判定ステップをさらに備え、
前記勢力範囲判定ステップでは、統語・意味解析結果中で前記とりたて勢力範囲の候補リストに加えられた各接続先に対応する属性値にとりたて情報を表す情報を付加する、
ことを特徴とする請求項5に記載の自然言語処理方法。
The length information determining means provided in the computer further includes a length information determining step for determining the length information including the semantic function according to the appearance position in the input sentence of the lyrics.
In the power range determination step, information representing information is added to the attribute value corresponding to each connection destination added to the candidate list of the power range in the syntactic / semantic analysis result,
The natural language processing method according to claim 5.
とりたて詞を含む入力文を構文又は意味解析するための自然言語処理をコンピュータ上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、前記コンピュータを、A computer program written in a computer readable format to execute natural language processing for syntactic or semantic analysis of an input sentence including a verbal word on the computer, the computer comprising:
入力文について形態素毎の品詞の認定結果を含んだ形態素解析結果を取得する手段と、Means for obtaining a morpheme analysis result including a part of speech recognition result for each morpheme for the input sentence;
前記形態素解析結果によりとりたて詞と品詞認定された形態素の入力文中における接続先を特定する接続先特定手段と、A connection destination specifying means for specifying a connection destination in an input sentence of a morpheme recognized as a part of speech and a part of speech obtained by the morpheme analysis result;
とりたて詞の接続先が体言である場合は当該とりたて詞の接続先を当該とりたて詞によってとりたてが行なわれるとりたて勢力範囲の候補リストに加え、とりたて詞の接続先が体言でない場合には、接続先に係っている連用修飾成分を特定し、連用修飾成分として特定されたそれぞれの成分について、別のとりたて詞が接続していないかどうかを判断し、別のとりたて詞が接続していない場合には当該とりたて詞の接続先を前記とりたて勢力範囲の候補リストに加える勢力範囲判定手段と、In the case where the connection destination of the vertical lyrics is a body word, the connection destination of the vertical lyrics is added to the candidate list of the vertical power range in which the vertical connection is made by the vertical speech. If the component modification component involved is identified, it is determined whether or not another word is connected for each component specified as the component modification component. A power range determination means for adding the connection destination of the vertical lyrics to the candidate list of the vertical power range;
として機能させるためのコンピュータ・プログラム。Computer program to function as
JP2003077146A 2003-03-20 2003-03-20 Natural language processing system, natural language processing method, and computer program Expired - Fee Related JP4033012B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003077146A JP4033012B2 (en) 2003-03-20 2003-03-20 Natural language processing system, natural language processing method, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003077146A JP4033012B2 (en) 2003-03-20 2003-03-20 Natural language processing system, natural language processing method, and computer program

Publications (2)

Publication Number Publication Date
JP2004287680A JP2004287680A (en) 2004-10-14
JP4033012B2 true JP4033012B2 (en) 2008-01-16

Family

ID=33291974

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003077146A Expired - Fee Related JP4033012B2 (en) 2003-03-20 2003-03-20 Natural language processing system, natural language processing method, and computer program

Country Status (1)

Country Link
JP (1) JP4033012B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635278A (en) * 2018-11-20 2019-04-16 北京小谛机器人科技有限公司 Semantic representation method and device

Also Published As

Publication number Publication date
JP2004287680A (en) 2004-10-14

Similar Documents

Publication Publication Date Title
US20050086047A1 (en) Syntax analysis method and apparatus
US20100179803A1 (en) Hybrid machine translation
Ouersighni A major offshoot of the DIINAR-MBC project: AraParse, a morphosyntactic analyzer for unvowelled Arabic texts
Sagae et al. Adding Syntactic Annotations to Transcripts of Parent-Child Dialogs.
JP4033011B2 (en) Natural language processing system, natural language processing method, and computer program
JP2005284723A (en) Natural language processing system, natural language processing method, and computer program
JP4007413B2 (en) Natural language processing system, natural language processing method, and computer program
El-Kahlout et al. Turkish constituent chunking with morphological and contextual features
Sankaravelayuthan et al. A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam
JP4033093B2 (en) Natural language processing system, natural language processing method, and computer program
JP4033012B2 (en) Natural language processing system, natural language processing method, and computer program
JP3903820B2 (en) Natural language processing system, natural language processing method, and computer program
JP4039282B2 (en) Natural language processing system, natural language processing method, and computer program
Gasser A dependency grammar for Amharic
JP4114580B2 (en) Natural language processing system, natural language processing method, and computer program
JP3972697B2 (en) Natural language processing system, natural language processing method, and computer program
JP4036172B2 (en) Natural language processing system, natural language processing method, and computer program
JP2005092616A (en) Natural language processing system, natural language processing method, and computer program
JP4033088B2 (en) Natural language processing system, natural language processing method, and computer program
JP3972699B2 (en) Natural language processing system, natural language processing method, and computer program
JP4289822B2 (en) Natural language processing system, natural language processing method, and computer program
KR20200066009A (en) Information processing system using Korean parcing
JP3972698B2 (en) Natural language processing system, natural language processing method, and computer program
JP2003281138A (en) System and method of processing natural language, and computer program
Patil et al. A review on implementation of Sandhi Viccheda for Sanskrit words

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070717

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071002

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071015

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101102

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111102

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111102

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121102

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121102

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131102

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees