JP4039583B2 - Language information processing device - Google Patents
Language information processing device Download PDFInfo
- Publication number
- JP4039583B2 JP4039583B2 JP12756094A JP12756094A JP4039583B2 JP 4039583 B2 JP4039583 B2 JP 4039583B2 JP 12756094 A JP12756094 A JP 12756094A JP 12756094 A JP12756094 A JP 12756094A JP 4039583 B2 JP4039583 B2 JP 4039583B2
- Authority
- JP
- Japan
- Prior art keywords
- section
- specified section
- character string
- processing unit
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
【0001】
【産業上の利用分野】
本発明は、言語表現を扱う情報処理システムにおいて、区間を指定して入力された言語表現を表す文字列に基づいて、言語に関する規則や知識の登録処理やキーワードを用いた検索処理などを行う言語情報処理装置に関するものである。
【0002】
言語表現を扱う情報処理システムとしては、機械翻訳システム,文章推敲システムや文章の特徴抽出システムなどがあり、このような情報処理システムでは、言語情報処理装置によって、熟語や言い回しなどの言語表現を表す文字列を区間を指定して入力し、この文字列を解析することにより、言語に関する規則や知識を登録して活用している。
【0003】
また、言語情報処理装置は、文書中の特定の言語表現をキーワードとしてデータベースを検索するような用途にも利用することができる。
【0004】
【従来の技術】
図8に、従来の言語情報処理装置の構成例を示す。
図8において、抽出処理部301は、利用者からの指示に応じて、文書を表す文字列全体のなかから区間指定で示された文字列を抽出し、分解処理部302は、抽出された文字列を処理単位に分解して、解析処理部311に送出する構成となっている。
【0005】
この分解処理部302は、例えば、言語表現を表す文字列を自立語の語幹と活用語尾などの語尾情報とからなる形態素を蓄積している形態素辞書303に基づいて、指定区間の文字列を形態素に分解している。
【0006】
このようにして得られた形態素の集まりの入力を受けて、解析処理部311は、形態素相互間のつながりを解析し、この結果を用いて、登録処理部312は、所定の規則で結びついた形態素の連なりとして、熟語および言い回しを熟語辞書313に登録する。
【0007】
ここで、熟語辞書313への登録作業では、膨大な数の熟語をまとめて登録する場合が多い。
このような場合には、利用者は文書中の該当する区間を次々に指定していき、これに応じて、抽出処理部301が抽出した文字列を順次に蓄積していき、全ての区間の指定が終了したのちに、分解処理部302による分解処理および熟語辞書313への登録処理を一括してバッチ処理している。
【0008】
【発明が解決しようとする課題】
ところで、上述したように、解析処理部311は、形態素相互間の関係を解析するのだから、この解析処理部311への入力は、形態素の連なりに分解されていなければならない。
【0009】
このため、従来は、分解処理部302において、指定区間の文字列の全てを形態素に分解できなかった場合は、その時点で該当する指定区間の文字列についての処理を中止し、エラーメッセージなどでその文字列の指定を受け付けることができなかった旨を利用者に通知していた。
【0010】
また、熟語や言い回しを動詞や形容詞の語幹として登録するためには、例えば「指定区間は、自立語で始まって、自立語で終わっていなければならない」というような制約条件が必要となる。
【0011】
このような制約条件についての検討は、従来は、解析処理部311で行っており、分解処理部302から受け取った形態素の連なりが制約条件を満たしていない場合は、その指定区間の文字列についての処理は直ちに中止される。そして、この場合も、形態素に分解できなかった場合と同様に、その文字列の指定を受け付けることができなかった旨などを利用者に通知していた。
【0012】
このように、従来の言語情報処理装置は、利用者が言語情報処理装置における処理単位や制約条件を意識して、これらに整合するように文字列の区間を正確に指定することを前提としている。
【0013】
したがって、言語情報処理装置を使いこなすためには、利用者が、形態素など言語情報処理装置における処理単位に関する十分な知識と経験を身につけている必要があった。
【0014】
しかしながら、一般の利用者は、そのような知識や経験を持っていない場合が多く、また、上述した形態素などの処理単位は、常識的な言語の単位と同一ではないため、処理単位の境界や制約条件に整合する区間を正確に指定することは非常に難しい。
【0015】
また、十分な知識を持った利用者が指定区間の入力を行った場合でも、膨大な数の熟語や言い回しを一括して登録しようとした場合などには、利用者による指定にミスが発生しやすくなるため、多数の指定区間が受け付けられずに排除されてしまう。
【0016】
従来の言語情報処理装置においては、受け付けを拒否された指定区間に対応する熟語や言い回しを登録するためには、利用者が指定区間の入力を訂正して登録作業を繰り返すしかなかった。しかし、この作業は利用者にとって煩わしいものであり、利用者の負担を大きくしていた。
【0017】
本発明は、処理条件との不整合を含んだ言語表現の入力を柔軟に受け付ける言語情報処理装置を提供することを目的とする。
【0018】
【課題を解決するための手段】
図1に、請求項1の言語情報処理装置の原理ブロック図を示す。
請求項1の発明は、処理の対象となる言語表現の入力を受けて、所定の処理を実行する言語情報処理装置において、処理の対象となる言語表現を含んだ文字列を入力する文字列入力手段111と、文字列に含まれている言語表現の範囲を示す指定区間を入力する指定区間入力手段112と、文字列入力手段111によって入力された文字列を処理単位に分解する分解手段113と、指定区間の境界が、分解手段113によって得られる一連の処理単位のいずれかの境界に一致しているか否かに基づいて、指定区間の正当性を判定する第1の判定手段114と、第1の判定手段114によって指定区間が正当でないと判定されたときに、指定区間の境界位置を処理単位のいずれかの境界に一致するように移動することによって前記指定区間を修正する第1の修正手段115と、第1の修正手段によって修正された指定区間に含まれる少なくとも一つの処理単位が、処理対象の言語表現において出現する順序的な位置とその位置に配置されるべき処理単位の種類とに関する規則を示す所定の制約条件を満たしているか否かに基づいて、指定区間の正当性を判定する第2の判定手段121と、第2の判定手段121によって指定区間が正当でないと判定されたときに、指定区間の境界位置を修正後の指定区間に含まれる処理単位の配列が制約条件を満たすように移動することによって指定区間を修正する第2の修正手段122と、分解手段113によって得られた一連の処理単位から、修正によって得られた指定区間に含まれる文字列に対応する処理単位を抽出する抽出手段116とを備えたことを特徴とする。
【0020】
【作用】
請求項1の発明は、文字列入力手段111によって入力された文字列の全てを分解手段113による分解処理に供しているから、指定区間入力手段112によって示された指定区間の文字列とともに、その前後の文字列に関する情報を得ることができる。
【0021】
したがって、第1の判定手段114により、指定区間が正当でない旨の判定結果が得られた場合に、第1の修正手段115は、指定区間およびその前後の文字列に関する情報に基づいて、指定区間の境界をこの指定区間の前後の文字列を含めた範囲で移動することが可能である。
【0022】
このとき、第1の修正手段115が、指定区間の境界によって分けられてしまった処理単位について、指定範囲に含めるか排除するかを決定するための適切な規則にしたがって指定区間の境界を移動すれば、指定区間の境界と処理単位の境界との不整合を解消し、修正された指定区間に含まれる複数の処理単位を処理対象の言語表現に関する情報として後段の処理に供することができる。
【0023】
つまり、このようにして修正された指定区間に含まれる複数の処理単位が、第2の判定手段121に入力され、この第2の判定手段121による判定処理、すなわち、これらの処理単位の配列が制約条件を満たしているか否かを判定する処理に供される。
【0024】
第2の判定手段121が、制約条件に照らして指定区間が正当でないと判定した場合に、第2の修正手段122は、上述した制約条件に基づいて、指定区間の境界をこの指定区間に含まれる処理単位ごとに移動する。
【0025】
このとき、第2の修正手段122が、例えば、言語表現の先頭や末尾の処理単位が満たすべき条件などを示す適切な規則にしたがって指定区間の境界を移動すれば、指定区間に含まれる処理単位の並び方と上述した制約条件によって示される言語表現における構造との不整合を解消することができる。これにより、抽出手段116は、正当な指定区間に基づいて言語表現に関する情報を抽出し、登録処理などの処理に供することができる。
【0026】
【実施例】
以下、図面に基づいて本発明の実施例について詳細に説明する。
図2に、本発明の言語情報処理装置の実施例構成図を示す。
【0027】
図2において、言語表現保持部201は、登録したい熟語や言い回しを含んだ文などの言語表現をそれぞれ1つの単位として蓄積しており、表示データ作成部202は、この言語表現保持部201に蓄積された言語表現を表示するための表示データを作成し、表示用メモリ203を介して、ディスプレイ装置204に送出する構成となっている。
【0028】
ここで、上述した言語表現保持部201は、例えば、句点で区切られた1つの文を言語表現の1単位とし、各文に通し番号を付けて蓄積しておけばよい。
また、このとき、表示データ作成部202は、言語表現保持部201から少なくとも1つの文を順次に読み出して、ディスプレイ装置204による表示画面の行数や桁数に合わせて文字コードを配置した表示データを作成し、表示用メモリ203に格納すればよい。
【0029】
この場合は、利用者はディスプレイ装置204によって表示された文を見ながら、マウス205やキーボード206を操作して、これらの文に含まれている熟語や言い回しを表す文字列の区間を指定すればよい。
【0030】
このようにして指定された区間を示す情報は、表示画面上での位置の範囲を例えば行および桁で示す情報として、入力制御部207を介して、まず、表示データ作成部202に送出される。
【0031】
この情報に基づいて、表示データ作成部202が、該当する文の指定された区間に含まれる文字に対応する属性情報を変更することにより、例えば、指定区間に含まれる文字に下線が施され、これにより、利用者が区間の指定を確認できるようになっている。
【0032】
また、このとき、入力制御部207は、利用者からの区間指定があった旨を読出処理部211に通知し、これに応じて、この読出処理部211は、表示用メモリ203から該当する文に含まれる全ての文字列に対応する文字コードをその属性情報とともに読み出して、文字コード列を文字列保持部212に送出して保持するとともに、属性情報を区間情報検出部213に送出する。
【0033】
この区間情報検出部213は、受け取った属性情報の中から区間指定を示す属性情報を検出し、この検出結果に基づいて、指定された区間の範囲を示す区間情報を作成して、区間情報保持部214に送出すればよい。
【0034】
このとき、区間情報検出部213は、例えば、表示データ作成部202から1行の桁数などの文の表示形式に関する情報を受け取り、この情報に基づいて、指定区間の文における位置を文頭からの文字数として算出すればよい。また、1つの文のなかに、複数の指定区間がある場合は、各指定区間に番号を付けて、その番号とともに、区間情報保持部214に保持すればよい。
【0035】
したがって、図3 (a) に示すように、「彼は腹を立てました。」という文の下線を付して示した区間が指定された場合は、言語表現の蓄積単位であるこの文「彼は腹を立てました。」が文字情報保持部212に送出されるとともに、区間情報検出部213により、下線で示された区間の範囲を示す区間情報が検出され、区間情報保持部214に、表1に示すように、区間番号0に対応する区間情報が格納される。
【0036】
表1
ここで、表1においては、文の先頭文字から各文字に順に第0番から番号を付し、区間に含まれる番号の範囲を示すことにより、その区間の範囲を文字位置の範囲として示している。
【0037】
このように、表示用メモリ203の内容を読出処理部211が読み出して、文字コード列と属性情報とに分離し、区間情報検出部213が属性情報から区間情報を抽出することにより、熟語などを含んだ言語表現そのものに関する文字情報と、登録すべき熟語などの範囲を示す区間情報との入力をそれぞれ受け付けることができる。
【0038】
すなわち、マウス205やキーボード206の操作に応じて、入力制御部206が表示データ作成部202や読出処理部211を制御して上述した動作を起動することにより、これらの各部により、文字列入力手段111および指定区間入力手段112の機能を実現することができる。
【0039】
このようにして入力された文字情報は、言語表現保持部201に蓄積された1つの単位の言語表現全体に相当するものであるから、分解手段113に相当する分解処理部221が、形態素辞書222を参照しながらこの文字情報を従来と同様にして形態素に分解することにより、指定区間の言語表現とともにその前後の言語表現に関する情報を得ることができる。
【0040】
ここで、上述した形態素辞書222には、図4に示すように、「彼」,「腹」,「立て」などの自立語の語幹である形態素とともに、「は」,「を」,「ました」,「。」などの非自立語である形態素が、それぞれの属性などの情報とともに蓄積されている。但し、図4においては、各形態素に対応する情報の一部として、自立語である場合には丸印を付し、非自立語である場合にはバツ印を付して示した。
【0041】
例えば、図3 (a) に示した例文“彼は腹を立てました。”を分解処理部221によって形態素に分解すると、図3 (b) にハイフンで区切って示すような各形態素が得られ、形態素保持部223を介して不整合検出部224に送出される。
【0042】
この不整合検出部224は第1の判定手段114に相当するものであり、分解処理部221で得られた分解結果と、対応する区間情報とを照合して、指定区間の境界が形態素の境界と一致しているか否かを判定し、一致しない旨の判定結果を得たときに、不整合を検出したとして、修正処理部225を起動する構成となっている。
【0043】
このとき、不整合検出部224は、指定区間の開始位置が形態素の前側の境界に一致しているか否かおよび指定区間の終了位置が形態素の後ろ側の境界に一致しているか否かをそれぞれ判定すればよい。
【0044】
例えば、図3に示した例について不整合の検出処理を行うと、指定区間の開始位置は形態素の境界に一致しているが、指定区間の終了位置は非自立語である「ました」にかかっており、形態素の境界に一致していないことが分かる。
【0045】
この場合に、不整合検出部224は、不整合を検出した指定区間の境界を指定して修正処理部225を起動し、該当する指定区間の境界と形態素の境界との不整合の修正処理を依頼する。
【0046】
この修正処理部225は、修正規則保持部226内の修正規則に従って、後述する修正処理を行う構成となっている。
ここで、修正規則保持部226には、例えば、次に挙げる2つの規則の規則▲1▼および規則▲2▼を保持しておき、指定区間の境界が含まれている形態素が自立語であるか否かに応じて適用すればよい。
【0047】
規則▲1▼ 該当する形態素が自立語である場合は、指定区間を該当する形態素全体に拡張する。
規則▲2▼ 該当する形態素が非自立語である場合は、その形態素を指定区間から排除する。
【0048】
図3に示した指定区間の例を修正する際には、該当する形態素である「ました」が非自立語であることから規則▲2▼が適用され、指定区間から形態素「ました」が排除される。この場合に、修正処理部225は、区間情報保持部214の該当する区間番号に対応する区間情報を文字位置「2〜5」に修正して、図3 (c) に示すように、指定区間の終了位置を形態素「ました」の直前の形態素である「立て」の後ろ側に移動すればよい。
【0049】
このように、修正処理部225が修正規則保持部226内の修正規則に従って動作することにより、図1に示した第1の修正手段115の機能を実現し、指定区間の境界と形態素の境界との不整合を解消することができる。
【0050】
また、図2において、転送処理部227は抽出手段116として動作し、不整合が無い旨の検出結果あるいは上述した修正処理部225による修正処理が終了した旨の通知に応じて、区間情報保持部214に保持された区間情報に従って、形態素保持部223から指定区間に含まれる形態素を読み出し、順次に解析処理部311に送出すればよい。
【0051】
このようにして、不整合を含んだ区間指定も柔軟に受け付けて、該当する文字列を形態素に分解し、この分解結果を解析処理および登録処理に供することができる。
【0052】
この場合は、解析処理部311に入力される文字列は全て形態素に分解されているから、解析処理部311および登録処理部312がは、従来と同様の解析処理および登録処理を行って、指定区間の文字列によって表された熟語や言い回しを熟語辞書313に登録すればよい。
【0053】
上述したようにして、利用者による指定区間の境界を自動的に修正することを可能としたことにより、利用者が言語表現を登録する際に、言語情報処理装置における処理単位を意識する必要を無くし、利用者が直観的に判断した文字列の区間を受け付けて、該当する言語表現を確実に入力することが可能となる。
【0054】
したがって、同じ言語表現を繰り返し入力する手間を省いて利用者の作業負担を軽減し、専門的な知識の少ない利用者にとっても使いやすい言語情報処理装置を実現することができる。
【0055】
なお、言語表現保持部201に言語表現を蓄積する単位としては、文法的に完結したいわゆる「文」に限らず、登録すべき熟語などを含んだ文の一部などでもよい。ただし、蓄積する言語表現の1単位は、全て形態素に分解可能であることが必要である。
【0056】
また、指定区間の境界を修正するための規則としては、更に、次に挙げる規則▲3▼のような例も考えられる。
規則▲3▼ 形態素に分解できなかった文字列の途中に指定区間の境界がある場合には、その文字列全体に指定区間を拡張する。
【0057】
この規則▲3▼は、形態素に分解できなかった文字列を固有名詞として捉え、その文字列全体を指定区間に含めることにより、利用者の意図をくみ取ろうとするものである。
【0058】
これにより、言語表現入力装置に備えられた形態素辞書222に蓄積されていない固有名詞などを含んでいる場合においても、不完全な区間指定を柔軟に受け付けることができる。
【0059】
また、上述した実施例のように、会話的に言語表現の入力処理および解析,登録処理を進める場合には、修正処理部225による修正結果を表示データ作成部202を介してディスプレイ装置204に表示することにより、利用者に専門的な知識を経験的に習得させることも可能である。
【0060】
一方、利用者が多数の言語表現を一括して入力し、これらの言語表現に関する解析,登録処理をバッチ的に処理する場合もある。
図5に、本発明にかかわる言語情報処理装置の別実施例構成図を示す。
【0061】
図5において、言語情報処理装置は、図2に示した文字情報保持部212の代わりに、文情報保持部215と読出処理部228とを備えて構成されている。
この場合は、利用者によって区間が指定されたときに、区間指定が施された文の言語表現保持部201における格納場所を示す文情報を文情報保持部215に保持しておき、解析,登録処理を行う際に、読出処理部228が、この文情報に基づいて、言語表現保持部201から該当する文を読み出して、その全ての文字列を分解処理部221に送出すればよい。
【0062】
例えば、登録すべき熟語などを含んだ言語表現にそれぞれ文番号が与えられており、この文番号に対応して言語表現保持部201に蓄積されている場合は、文情報保持部215は、表示データ作成部202から該当する文番号を受け取り、この文番号を上述した文情報として保持しておけばよい。
【0063】
この文番号に基づいて、読出処理部228が言語表現保持部201を検索すれば、該当する文を構成する全ての文字列を読み出すことができ、指定された区間の文字列とともにその前後の文字列を分解処理部221による形態素への分解処理に供することができる。
【0064】
したがって、指定区間に含まれる文字列に関する情報とともに、その前後の文字列の情報を用いて、指定区間の境界と形態素の境界との整合性を判断し、検出された不整合を指定区間の境界を移動することによって解消することができ、不整合を含んだ区間の指定を柔軟に受け付けて登録処理を行うことができる。
【0065】
また、この場合は、解析処理や登録処理とともに、分解処理や修正処理を一括して行うことができるから、情報処理装置のプロセッサの処理能力を有効に活用することができる。
【0066】
更に、熟語や言い回しを動詞や形容詞の語幹として登録する場合などに必要とされる制約条件に関する整合性をチェックし、そのチェック結果に応じて指定区間の境界を修正することもできる。
【0067】
図6に、本発明にかかわる言語情報処理装置の別実施例構成図を示す。
図6において、言語情報処理装置は、図2に示した言語情報処理装置に、条件保持部231と条件チェック部232と修正処理部233と修正規則保持部234とを付加し、上述した指定区間と形態素の境界との不整合の検出および解消を経たのちに動作し、その処理結果を転送処理部227を介して解析処理部311に送出する構成となっている。
【0068】
図6において、条件保持部231は指定区間に含まれる形態素の順序や種類について、例えば、「先頭および末尾の形態素は自立語である」などの制約条件を保持しており、条件チェック部232は、受け取った一連の形態素がこの制約条件を満たしているか否かを判定すればよい。すなわち、条件保持部231と条件チェック部232とによって、第2の判定手段121の機能が果たされている。
【0069】
例えば、図3 (c) に示した修正結果が入力された場合は、先頭の形態素「腹」および末尾の形態素「立て」の両方が自立語であるから、条件チェック部232は、この指定区間は制約条件を満たしていると判断し、これらの形態素を解析処理部311に送出する。
【0070】
一方、図3 (d) に示すように、文字列「腹を立てました」が指定区間とされた場合は、指定区間の開始位置および終了位置共に形態素の境界と整合しているから、条件チェック部232には、先頭の形態素「腹」から末尾の形態素「ました」までの4つの形態素が入力される。
【0071】
この場合は、末尾の形態素が自立語ではないから、条件チェック部232は制約条件を満たしていないと判断し、修正処理部233に指定区間の修正処理を依頼する。
【0072】
ここで、修正規則保持部234は、例えば、次に挙げる2つの規則▲4▼,規則▲5▼を保持しており、修正処理部233による修正処理に供している。
規則▲4▼ 先頭の形態素が非自立語である場合は、自立語が現れるまで文頭に向かって指定区間を拡張する。
【0073】
規則▲5▼ 末尾の形態素が非自立語である場合は、自立語が現れるまで文頭に向かって指定区間を縮小する。
例えば、図3 (d) に示した例の場合は、修正処理部233が、規則▲5▼を適用して指定区間の終了位置を修正し、図3 (e) に示すように、指定区間から形態素「ました」を削除して、指定区間の終了位置を「立て」の後ろ側とすることにより、上述した制約条件を満たす形態素の連なりを得ることができる。
【0074】
このように、修正処理部233が修正規則保持部234内の修正規則に従って修正処理を行うことにより、図1に示した第2の修正手段122の機能を実現することができる。
【0075】
これにより、制約条件との不整合を含んだ指定区間も柔軟に受け付けて、解析,登録処理を進めることが可能となるから、入力した言語表現を確実に登録することが可能となるから、同じ言語表現を繰り返し入力する手間を省くことができる。
【0076】
また、利用者が制約条件を意識する必要性を除去するので、利用者の作業負担を大幅に軽減するとともに、専門的な知識の少ない利用者にも使いやすい言語情報処理装置を提供することができる。
【0077】
ここで、登録しようとする言語表現が上述した制約条件「先頭および末尾の形態素は自立語である」が満たしていれば、その言語表現にそのまま活用語尾を付けたり、また、接頭語を付加したりすることができ、該当する言語表現を有効に活用することができる。特に、言語表現を動詞や形容詞として登録したい場合には、上述したような制約条件を満たしていることが望まれる。
【0078】
したがって、上述した制約条件についてのチェックおよび修正機能は、動詞や形容詞などのように、語尾が活用する言語表現を登録する際に、特に有効である。
【0079】
なお、キーワード検索などの場合は、例えば「指定区間が自立語を一つだけ含む」というような制約条件が考えられる。
この場合は、修正規則保持部234に、規則▲6▼として「先頭の自立語以外の指定を無視する」を保持しておき、先頭の自立語のみをキーワードとして検索処理部に送出すればよい。
【0080】
【発明の効果】
以上説明したように本発明は、利用者が指定した区間の文字列およびその前後の文字列に関する情報に基づいて、指定区間の境界と形態素の境界との不整合や制約条件との不整合を検出し、該当する指定区間の境界位置を移動することにより、これらの不整合を解消することができる。これにより、不整合を含んだ指定区間を柔軟に受け付けて言語表現の解析,登録処理を行うことが可能となり、利用者の作業負担を大幅に軽減することができる。
【図面の簡単な説明】
【図1】本発明にかかわる言語情報処理装置の原理ブロック図である。
【図2】本発明にかかわる言語情報処理装置の実施例構成図である。
【図3】指定区間の修正動作を説明する図である。
【図4】形態素辞書の説明図である。
【図5】本発明にかかわる言語情報処理装置の別実施例構成図である。
【図6】本発明にかかわる言語情報処理装置の更に別の実施例構成図である。
【図7】従来の言語情報処理装置の構成例を示す図である。
【符号の説明】
111 文字列入力手段
112 指定区間入力手段
113 分解手段
114 第1の判定手段
115 第1の修正手段
116 抽出手段
121 第2の判定手段
122 第2の修正手段
201 言語表現保持部
202 表示データ作成部
203 表示用メモリ
204 ディスプレイ装置
205 マウス
206 キーボード
207 入力制御部
211 読出処理部
212 文字列保持部
213 区間情報検出部
214 区間情報保持部
215 文情報保持部
221,302 分解処理部
222,303 形態素辞書
223 形態素保持部
224 不整合検出部
225,233 修正処理部
226,234 修正規則保持部
227 転送処理部
228 読出処理部
231 条件保持部
232 条件チェック部
301 抽出処理部
311 解析処理部
312 登録処理部
313 熟語辞書[0001]
[Industrial application fields]
The present invention relates to a language for performing a rule registration or knowledge registration process or a search process using a keyword based on a character string representing a language expression input by specifying a section in an information processing system that handles language expressions. The present invention relates to an information processing apparatus.
[0002]
Information processing systems that handle linguistic expressions include machine translation systems, sentence selection systems, and sentence feature extraction systems. In such information processing systems, linguistic expressions such as idioms and phrases are expressed by linguistic information processing devices. By inputting a character string by specifying a section and analyzing the character string, rules and knowledge about the language are registered and utilized.
[0003]
The language information processing apparatus can also be used for searching a database using a specific language expression in a document as a keyword.
[0004]
[Prior art]
FIG. 8 shows a configuration example of a conventional language information processing apparatus.
In FIG. 8, the extraction processing unit 301 extracts the character string indicated by the section designation from the entire character string representing the document in response to an instruction from the user, and the decomposition processing unit 302 extracts the extracted character The sequence is divided into processing units and sent to the analysis processing unit 311.
[0005]
The decomposition processing unit 302, for example, converts a character string representing a linguistic expression into a morpheme based on a morpheme dictionary 303 that stores morphemes composed of stems of independent words and ending information such as inflection endings. Has been broken down.
[0006]
In response to the input of the morpheme collection obtained in this way, the analysis processing unit 311 analyzes the connection between morphemes, and using this result, the registration processing unit 312 uses the morpheme linked according to a predetermined rule. As a series of phrases, idioms and phrases are registered in the idiom dictionary 313.
[0007]
Here, in the registration work to the idiom dictionary 313, an enormous number of idioms are often registered together.
In such a case, the user designates corresponding sections in the document one after another, and accordingly, the character strings extracted by the extraction processing unit 301 are sequentially accumulated, After the designation is completed, the decomposition processing by the decomposition processing unit 302 and the registration processing to the idiom dictionary 313 are batch processed.
[0008]
[Problems to be solved by the invention]
As described above, since the analysis processing unit 311 analyzes the relationship between morphemes, the input to the analysis processing unit 311 must be decomposed into a series of morphemes.
[0009]
For this reason, conventionally, in the disassembly processing unit 302, when all the character strings in the specified section could not be decomposed into morphemes, the processing for the character string in the corresponding specified section is stopped at that time, and an error message or the like is issued. The user was notified that the specification of the character string could not be accepted.
[0010]
In addition, in order to register a idiom or phrase as a verb or adjective stem, a constraint condition such as “the specified section must start with an independent word and end with an independent word” is necessary.
[0011]
Conventionally, such a constraint condition has been examined by the analysis processing unit 311. If the sequence of morphemes received from the decomposition processing unit 302 does not satisfy the constraint condition, the character string in the designated section Processing is stopped immediately. Also in this case, the user is notified that the designation of the character string has not been accepted, as in the case where the character string cannot be decomposed.
[0012]
Thus, the conventional linguistic information processing apparatus is based on the premise that the user is aware of the processing units and restrictions in the linguistic information processing apparatus and accurately specifies the character string section so as to match them. .
[0013]
Therefore, in order to make full use of the language information processing apparatus, the user needs to have sufficient knowledge and experience regarding processing units in the language information processing apparatus such as morphemes.
[0014]
However, general users often do not have such knowledge and experience, and the processing units such as morphemes described above are not the same as common sense language units. It is very difficult to specify the interval that matches the constraint condition accurately.
[0015]
In addition, even if a user with sufficient knowledge inputs a specified section, if a large number of idioms and phrases are to be registered at once, an error will occur in the specification by the user. Since it becomes easy, many designation | designated areas will be excluded without being accepted.
[0016]
In a conventional language information processing apparatus, in order to register a idiom or phrase corresponding to a specified section that has been rejected, the user has to correct the input of the specified section and repeat the registration work. However, this operation is troublesome for the user and increases the burden on the user.
[0017]
An object of the present invention is to provide a language information processing apparatus that flexibly accepts input of language expressions including inconsistencies with processing conditions.
[0018]
[Means for Solving the Problems]
FIG. 1 shows a principle block diagram of the language information processing apparatus of
According to the first aspect of the present invention, in a language information processing apparatus that receives an input of a language expression to be processed and executes a predetermined process, the character string input for inputting a character string including the language expression to be processed
[0020]
[Action]
In the invention of
[0021]
Therefore, when the
[0022]
At this time, the first correcting
[0023]
That is, a plurality of processing units included in the designated section corrected in this way are input to the
[0024]
When the
[0025]
At this time,For example, the
[0026]
【Example】
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
In FIG.1 is a block diagram of a language information processing apparatus according to an embodiment of the present invention.
[0027]
In FIG.The linguistic
[0028]
Here, the language
At this time, the display
[0029]
In this case, the user can operate the mouse 205 and the keyboard 206 while looking at the sentences displayed on the
[0030]
Information indicating the section designated in this way is first sent to the display
[0031]
Based on this information, the display
[0032]
At this time, the
[0033]
The section information detection unit 213 detects attribute information indicating section specification from the received attribute information, creates section information indicating the range of the specified section based on the detection result, and stores section information. What is necessary is just to send to the part 214.
[0034]
At this time, for example, the section information detection unit 213 receives information on the display format of the sentence such as the number of digits in one line from the display
[0035]
Therefore,FIG. (a) As shown inIf the section underlined with the sentence “He is angry.” Is specified, this sentence, which is the accumulated unit of linguistic expression, is written text. Section information indicating the range of the underlined section is detected by the section information detection unit 213 and sent to the holding unit 212. The section information holding unit 214 sets the
[0036]
Table 1
Here, in Table 1, each character is numbered from the first character in order from the first character of the sentence, and the range of the number is indicated by indicating the range of the number included in the interval. Yes.
[0037]
In this way, the content of the
[0038]
That is, the input control unit 206 controls the display
[0039]
Since the character information input in this way corresponds to the entire language expression of one unit stored in the language
[0040]
Here, the
[0041]
For example,FIG. (a) Pointing out toungueDecomposing the example sentence “He got angry” into morphemes by the decomposition processing unit 221.FIG. (b) InEach morpheme as indicated by a hyphen is obtained and sent to the
[0042]
The
[0043]
At this time, the
[0044]
For example,As shown in FIG.When inconsistency detection processing is performed for the example, the start position of the specified section matches the boundary of the morpheme, but the end position of the specified section depends on the non-independent word “ta”, and the boundary of the morpheme It can be seen that they do not match.
[0045]
In this case, the
[0046]
The correction processing unit 225 is configured to perform correction processing described later in accordance with the correction rules in the correction rule holding unit 226.
Here, the modified rule holding unit 226 holds, for example, the following two rules (1) and (2), and the morpheme including the boundary of the designated section is an independent word. It may be applied depending on whether or not.
[0047]
Rule {circle around (1)} When the corresponding morpheme is an independent word, the designated section is extended to the entire corresponding morpheme.
Rule (2) If the corresponding morpheme is a non-independent word, the morpheme is excluded from the designated section.
[0048]
As shown in FIG.When the example of the designated section is modified, the rule {2} is applied because the corresponding morpheme “Sat” is a non-independent word, and the morpheme “Sat” is excluded from the specified section. In this case, the correction processing unit 225 corrects the section information corresponding to the corresponding section number in the section information holding unit 214 to the character position “2 to 5”,FIG. (c) As shown inThe end position of the designated section may be moved to the back side of “standing” that is the morpheme immediately before the morpheme “sata”.
[0049]
As described above, the correction processing unit 225 operates according to the correction rule in the correction rule holding unit 226, so thatFirst correcting means 115 shown in FIG.The inconsistency between the boundary of the designated section and the boundary of the morpheme can be resolved.
[0050]
Also,In FIG.The
[0051]
In this way, it is possible to flexibly accept section designations including inconsistencies, decompose the corresponding character string into morphemes, and use the decomposition results for analysis processing and registration processing.
[0052]
In this case, since all character strings input to the analysis processing unit 311 are decomposed into morphemes, the analysis processing unit 311 and the registration processing unit 312 perform analysis processing and registration processing similar to those in the past, and specify The idiom or phrase expressed by the character string of the section may be registered in the idiom dictionary 313.
[0053]
As described above, it is possible to automatically correct the boundary of the designated section by the user, so that the user needs to be aware of the processing unit in the language information processing apparatus when registering the language expression. It is possible to receive the section of the character string intuitively determined by the user and reliably input the corresponding language expression.
[0054]
Therefore, it is possible to realize a language information processing apparatus that is easy to use even for a user with less specialized knowledge by reducing the burden on the user by eliminating the trouble of repeatedly inputting the same language expression.
[0055]
The unit for accumulating language expressions in the language
[0056]
Further, as a rule for correcting the boundary of the designated section, an example such as the following rule (3) can be considered.
Rule {circle around (3)} When there is a boundary of a specified section in the middle of a character string that could not be decomposed into morphemes, the specified section is extended to the entire character string.
[0057]
This rule {circle around (3)} is intended to capture the user's intention by capturing the character string that could not be decomposed into morphemes as proper nouns and including the entire character string in the designated section.
[0058]
Thereby, even when a proper noun that is not stored in the
[0059]
In addition, as in the above-described embodiment, when the input processing, analysis, and registration processing of language expressions are performed interactively, the correction result by the correction processing unit 225 is displayed on the
[0060]
On the other hand, there is a case where a user inputs a large number of language expressions at once, and the analysis and registration processes related to these language expressions are processed in batches.
FIG. 5 is a block diagram showing another embodiment of the language information processing apparatus according to the present invention.
[0061]
In FIG.The language information processing deviceAs shown in FIG.Instead of the character information holding unit 212, a sentence information holding unit 215 and a
In this case, when a section is designated by the user, sentence information indicating the storage location in the language
[0062]
For example, when a sentence number is given to each linguistic expression including idioms to be registered and stored in the linguistic
[0063]
If the
[0064]
Therefore, using the information on the character string included in the specified section and the information on the character strings before and after it, the consistency between the boundary of the specified section and the boundary of the morpheme is determined, and the detected inconsistency is identified as the boundary of the specified section. Can be eliminated, and the registration process can be performed by flexibly receiving the designation of the section including the inconsistency.
[0065]
Further, in this case, since the decomposition process and the correction process can be performed together with the analysis process and the registration process, the processing capability of the processor of the information processing apparatus can be effectively utilized.
[0066]
Furthermore, it is possible to check the consistency of constraints required when registering idioms and phrases as verbs and adjective stems, and to modify the boundaries of the designated section according to the check results.
[0067]
FIG. 6 is a block diagram showing another embodiment of the language information processing apparatus according to the present invention.
In FIG.The language information processing deviceFigure 2A
[0068]
In FIG.The
[0069]
For example,FIG. (c) Pointing out toungueWhen the correction result is input, since both the first morpheme “antinode” and the last morpheme “stand” are independent words, the condition check unit 232 determines that the specified section satisfies the constraint condition. These morphemes are sent to the analysis processing unit 311.
[0070]
on the other hand,FIG. (d) As shown inWhen the character string “I got angry” is set as the specified section, the start and end positions of the specified section match the boundary of the morpheme. 4 morphemes from the last to the last morpheme “M”.
[0071]
In this case, since the last morpheme is not an independent word, the condition check unit 232 determines that the constraint condition is not satisfied, and requests the correction processing unit 233 to perform the correction process for the specified section.
[0072]
Here, the correction rule holding unit 234 holds, for example, the following two rules {circle around (4)} and (5) and is used for the correction processing by the correction processing unit 233.
Rule (4) If the first morpheme is a non-independent word, the designated section is extended toward the beginning of the sentence until the independent word appears.
[0073]
Rule (5) If the last morpheme is a non-independent word, the designated section is reduced toward the beginning of the sentence until the independent word appears.
For example,FIG. (d) Pointing out toungueIn the case of the example, the correction processing unit 233 applies the rule (5) to correct the end position of the designated section,FIG. (e) As shown inBy deleting the morpheme “sata” from the designated section and setting the end position of the designated section behind the “stand”, a series of morphemes satisfying the above-described constraint conditions can be obtained.
[0074]
In this way, the correction processing unit 233 performs the correction process according to the correction rule in the correction rule holding unit 234, so thatSecond correcting means 122 shown in FIG.The function can be realized.
[0075]
As a result, it is possible to flexibly accept specified sections that include inconsistencies with the constraint conditions, and to proceed with analysis and registration processing. Therefore, it is possible to reliably register the input language expression. This saves you the trouble of repeatedly entering language expressions.
[0076]
In addition, since it eliminates the need for the user to be aware of the constraints, it is possible to greatly reduce the workload of the user and provide a language information processing device that is easy to use even for users with less specialized knowledge. it can.
[0077]
Here, if the linguistic expression to be registered satisfies the above-mentioned restriction condition “the morphemes at the beginning and end are independent words”, the linguistic expression is added with a ending suffix as it is, or a prefix is added. And can make effective use of the corresponding language expression. In particular, when it is desired to register a linguistic expression as a verb or an adjective, it is desirable that the above-described constraints are satisfied.
[0078]
Therefore, the check and correction functions for the constraint conditions described above are particularly effective when registering linguistic expressions utilized by endings such as verbs and adjectives.
[0079]
In the case of keyword search or the like, for example, a constraint condition that “the specified section includes only one independent word” can be considered.
In this case, the correction rule holding unit 234 holds “ignore designations other than the first independent word” as rule (6), and sends only the first independent word as a keyword to the search processing unit. .
[0080]
【The invention's effect】
As described above, according to the present invention, inconsistency between the boundary of the specified section and the boundary of the morpheme or inconsistency with the constraint condition is based on the information about the character string of the section specified by the user and the character string before and after the section. These inconsistencies can be resolved by detecting and moving the boundary position of the corresponding designated section. As a result, it is possible to flexibly accept specified sections including inconsistencies and perform language expression analysis and registration processing, and the work burden on the user can be greatly reduced.
[Brief description of the drawings]
[Figure 1]Related to the present inventionIt is a principle block diagram of a language information processing apparatus.
[Figure 2]It is an Example block diagram of the language information processing apparatus concerning this invention.
[Fig. 3]It is a figure explaining the correction operation | movement of a designated area.
[Fig. 4]It is explanatory drawing of a morpheme dictionary.
[Figure 5]It is another Example block diagram of the language information processing apparatus concerning this invention.
[Fig. 6]It is another Example block diagram of the language information processing apparatus concerning this invention.
[Fig. 7]It is a figure which shows the structural example of the conventional language information processing apparatus.
[Explanation of symbols]
111 Character string input means
112 Specified section input means
113 Disassembling means
114 1st determination means
115FirstCorrection means
116 Extraction means
121 Second determination means
122 Second correction means
201 Language expression holding unit
202 Display data creation unit
203 Display memory
204 Display device
205 mice
206 keyboard
207 Input controller
211 Read processing section
212 Character string holding part
213 Section information detection unit
214 Section information holding unit
215 sentence information holding part
221,302 Decomposition processing unit
222,303 Morphological Dictionary
223 Morphological holder
224 Mismatch detection unit
225, 233 Correction processing unit
226, 234 Amendment rule holder
227 Transfer processing unit
228 Read processing unit
231 Condition holding unit
232 Condition check section
301 Extraction processing unit
311 Analysis processing unit
312 Registration processing section
313 Idioms dictionary
Claims (1)
前記処理の対象となる言語表現を含んだ文字列を入力する文字列入力手段と、
前記文字列に含まれている言語表現の範囲を示す指定区間を入力する指定区間入力手段と、
前記文字列入力手段によって入力された文字列を言語表現の意味解析処理の単位である処理単位に分解する分解手段と、
前記指定区間の境界が、前記分解手段によって得られる一連の処理単位のいずれかの境界に一致しているか否かに基づいて、前記指定区間の正当性を判定する第1の判定手段と、
前記第1の判定手段によって前記指定区間が正当でないと判定されたときに、前記指定区間の境界位置を処理単位のいずれかの境界に一致するように移動することによって前記指定区間を修正する第1の修正手段と、
前記第1の修正手段によって修正された指定区間に含まれる少なくとも一つの処理単位が、前記処理対象の言語表現において出現する順序的な位置とその位置に配置されるべき処理単位の種類とに関する規則を示す所定の制約条件を満たしているか否かに基づいて、前記指定区間の正当性を判定する第2の判定手段と、
前記第2の判定手段によって指定区間が正当でないと判定されたときに、前記指定区間の境界位置を修正後の指定区間に含まれる処理単位の配列が前記制約条件を満たすように移動することによって前記指定区間を修正する第2の修正手段と、
前記分解手段によって得られた一連の処理単位から、修正によって得られた指定区間に含まれる文字列に対応する処理単位を抽出する抽出手段と
を備えたことを特徴とする言語情報処理装置。In a language information processing apparatus that receives an input of a language expression to be processed and executes a predetermined process,
A character string input means for inputting a character string including a language expression to be processed;
A designated section input means for inputting a designated section indicating a range of language expressions included in the character string;
Decomposing means for decomposing the character string input by the character string input means into processing units which are units of semantic analysis processing of language expression;
First determination means for determining the validity of the specified section based on whether or not the boundary of the specified section matches any boundary of a series of processing units obtained by the decomposing means;
When the first determination means determines that the specified section is not valid, the specified section is corrected by moving the boundary position of the specified section so as to coincide with any boundary of the processing unit. 1 correction means;
Rules relating to the sequential position at which at least one processing unit included in the specified section modified by the first modification means appears in the language expression to be processed and the type of processing unit to be arranged at that position Second determination means for determining the validity of the specified section based on whether or not a predetermined restriction condition indicating
When the second determining means determines that the specified section is not valid, the boundary position of the specified section is moved so that the processing unit array included in the corrected specified section satisfies the constraint condition. Second correction means for correcting the designated section;
An linguistic information processing apparatus comprising: extraction means for extracting a processing unit corresponding to a character string included in a specified section obtained by correction from a series of processing units obtained by the decomposing means.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP12756094A JP4039583B2 (en) | 1994-06-09 | 1994-06-09 | Language information processing device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP12756094A JP4039583B2 (en) | 1994-06-09 | 1994-06-09 | Language information processing device |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2004173156A Division JP4039635B2 (en) | 2004-06-10 | 2004-06-10 | Language information processing device |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH07334513A JPH07334513A (en) | 1995-12-22 |
| JP4039583B2 true JP4039583B2 (en) | 2008-01-30 |
Family
ID=14963051
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP12756094A Expired - Fee Related JP4039583B2 (en) | 1994-06-09 | 1994-06-09 | Language information processing device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4039583B2 (en) |
-
1994
- 1994-06-09 JP JP12756094A patent/JP4039583B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JPH07334513A (en) | 1995-12-22 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6396951B1 (en) | Document-based query data for information retrieval | |
| US5010486A (en) | System and method for language translation including replacement of a selected word for future translation | |
| US5475586A (en) | Translation apparatus which uses idioms with a fixed and variable portion where a variable portion is symbolic of a group of words | |
| JPH11110416A (en) | Method and device for retrieving document from data base | |
| JP2880601B2 (en) | Language processor | |
| US4860206A (en) | Translation system allowing user designation of postpositional words | |
| JP4039635B2 (en) | Language information processing device | |
| JP4039583B2 (en) | Language information processing device | |
| JP3780556B2 (en) | Natural language case search apparatus and natural language case search method | |
| JPH08212216A (en) | Natural language processing device and natural language processing method | |
| JP2621999B2 (en) | Document processing device | |
| JP3935374B2 (en) | Dictionary construction support method, apparatus and program | |
| JPH0612453A (en) | Unknown word extraction registration device | |
| JPS62249269A (en) | Document processor | |
| JPH0765008A (en) | Term registration control method and device | |
| JP2974295B2 (en) | Japanese input system | |
| JPH0696117A (en) | Document change support system | |
| JP2002297585A (en) | Splitting method for noun phrase in text in english, creating method and apparatus for syntax information in english | |
| JPH06149878A (en) | Foreign language text preparation/reading supporting device | |
| JP2001067356A (en) | Vocabulary acquisition method, vocabulary acquisition device, and computer-readable storage medium recording vocabulary acquisition program | |
| JPH0486948A (en) | Method for preparing kana-added data base utilizing dictionary by fields | |
| JPH04296970A (en) | Sentence checking device | |
| JPH05290083A (en) | Document generation support device | |
| JPH07200592A (en) | Text processor | |
| JPS63136264A (en) | Mechanical translating device |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040123 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040217 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040415 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20040511 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040610 |
|
| A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20040615 |
|
| A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20041224 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071102 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101116 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101116 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111116 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111116 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121116 Year of fee payment: 5 |
|
| LAPS | Cancellation because of no payment of annual fees |