JPH0628057B2 - Character processor - Google Patents
Character processorInfo
- Publication number
- JPH0628057B2 JPH0628057B2 JP1320185A JP32018589A JPH0628057B2 JP H0628057 B2 JPH0628057 B2 JP H0628057B2 JP 1320185 A JP1320185 A JP 1320185A JP 32018589 A JP32018589 A JP 32018589A JP H0628057 B2 JPH0628057 B2 JP H0628057B2
- Authority
- JP
- Japan
- Prior art keywords
- candidate
- word
- likelihood
- phrase
- notation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
【発明の詳細な説明】 [産業上の利用分野] 本発明は仮名漢字変換により漢字仮名混り文を入力する
文字処理装置に関する。DETAILED DESCRIPTION OF THE INVENTION [Industrial application] The present invention relates to a character processing device for inputting a kanji / kana mixed sentence by kana / kanji conversion.
[従来の技術] 現在、日本ワードプロセッサなどの文字処理装置は漢字
仮名混り文の入力を仮名漢字変換を使って行なうことが
一般的である。[Prior Art] Currently, a character processing device such as a Japanese word processor generally inputs kanji-kana mixed sentences using kana-kanji conversion.
仮名漢字変換は辞書を参照することにより、入力された
読み列を漢字に変換するものである。辞書においては各
単語に対して名詞、サ変名詞、副詞、形容詞、形容動詞
等の品詞情報が記述されており、仮名漢字変換は読み列
を解析して可能な文節候補を作成し、それらを組み合わ
せて変換候補を決定し、尤もらしい順に提示する。提示
された変換候補の中からオペレータが望む候補を選択す
る。Kana-Kanji conversion is to convert an input reading string into Kanji by referring to a dictionary. Part-of-speech information such as nouns, sahen nouns, adverbs, adjectives, and adjective verbs is described for each word in the dictionary, and Kana-Kanji conversion analyzes possible reading strings to create possible phrase candidates and combines them. The conversion candidates are determined and presented in order of likelihood. The operator selects a desired candidate from the presented conversion candidates.
例えば、読み列「いいんかいにはかった」に対しては
「胃」「委員」「委員会」「委員会に」「印」「印か」
「引火」「課」「会」「会に」「胃」「胃に」「胃に
は」「二」「二は」「葉」「計った」「図った」「諮っ
た」「買った」などの文節候補が作成され、これらを組
み合わせた「委員会に計った」「委員会に図った」「委
員会に諮った」がこの順で変換候補として出力表示され
る。「計る」「図る」「諮る」の中では、一般に「計
る」「図る」の方が「諮る」よりも頻度が高いので「委
員会に諮った」はまず第1候補としては変換されない。For example, for the reading line "I didn't know what to say", "stomach", "committee", "committee", "to committee", "mark", "mark"
"Flame""Division""Meeting""Meeting""Stomach""Stomach""Stomach""Two""Two""Leaf""Measured""Planned""Consulted""Bought The phrase candidates such as “” are created, and “commit to committee”, “plan for committee”, “consult committee” are combined and output as conversion candidates in this order. Of the “measure”, “inquire”, and “consult”, “measure” and “inquire” are generally more frequent than “inquire”, so “inquiry to the committee” is not converted as the first candidate.
そこで、変換率を高めるために用例変換という手法が提
案されている。用例変換は、共起する単語のペア(用
例)を予め用例辞書中に登録しておき、変換時に用例辞
書を参照し、第1候補を用例辞書中の用例に従って変更
する手法である。例えば、「委員会に/諮る」というパ
ターンを用例辞書に記憶しておき、「いいんかいにはか
った」という入力に対しては「委員会に諮った」が第1
候補として変換される様にする。Therefore, in order to increase the conversion rate, a method called example conversion has been proposed. The example conversion is a method in which a pair of co-occurring words (examples) is registered in the example dictionary in advance, the example dictionary is referred to during conversion, and the first candidate is changed according to the example in the example dictionary. For example, the pattern “I consult / commit to the committee” is stored in the example dictionary, and “I consult the committee” is the first for the input “I was not good at it”.
Make it converted as a candidate.
上記の例は単語と単語の関係を記述した個別用例の例で
あるが、意味分類との関係を記述した意味用例というも
のも提案されている。例えば、「〜にいった」という文
脈においては「〜」が場所を表わすときには「行った」
という表記が尤もらしく、「〜」が人間を表わすときに
は「言った」という表記が尤もらしい。この変換を正し
く行なうために「《人間》に/言う」「《場所》に/行
く」という意味用例を用例辞書にあらかじめ登録してお
くのである。なお、《人間》《場所》などは意味分類で
あり、辞書中の全ての単語には《人間》であるか《場
所》であるかそうでないかが記述されている。この仕組
みにより「市長に言った」「市役所に行った」などを正
しく変換することができる。Although the above example is an example of an individual example in which the relationship between words is described, a semantic example in which the relationship with a semantic classification is described is also proposed. For example, in the context of “to ni,” when “to” represents a place,
The notation is plausible, and when "~" represents a human, the notation "said" seems plausible. In order to perform this conversion correctly, the meaning examples of "to / to say" to "human" / to / to "place" are registered in advance in the example dictionary. Note that “human”, “place”, etc. are semantic classifications, and all words in the dictionary describe “human”, “place”, or not. With this mechanism, it is possible to correctly convert "I told the mayor,""I went to the city hall," etc.
[発明が解決しようとしている課題] ところが、従来の用例変換の技術は、複数の用例が適用
可能なとき、すなわち、用例が競合するとき、どちらの
用例を優先すれば良いかは特に指定していなかった。わ
ずかに個別用例と意味用例が競合したときは個別用例を
優先するという指針が示されているぐらいであり、その
他の状況においてはどの用例を優先して良いかが分から
なかった。そのため、適当な用例を採用して、適当に第
1候補が決めていたため、微妙な状況での変換率が芳し
くなかった。[Problems to be Solved by the Invention] However, in the conventional example conversion technique, when a plurality of examples are applicable, that is, when the examples conflict, which example should be prioritized is specified. There wasn't. Even if there was a slight guideline to give priority to individual examples when there was a conflict between individual examples and meaning examples, it was not clear which example should be given priority in other situations. Therefore, since the first candidate was appropriately decided by adopting an appropriate example, the conversion rate in a delicate situation was not good.
[課題を解決するための手段(及び作用)] 上記課題を解決するために、本発明の文字処理装置は、
仮名文字列を入力するための入力手段と、単語の読み
と、表記及び意味分類とを対応づけて記憶した単語辞書
手段と、単語の表記と、当該単語と併用される単語の表
記もしくは意味分類とを対応づけて用例として記憶する
用例辞書手段と、前記単語辞書手段を参照して、前記入
力手段より入力された仮名文字列を読みとする表記の候
補を作成する候補作成手段と、前記候補作成手段により
作成された同じ読みに対する表記の候補について、前記
用例辞書手段に記憶された用例に、併用される単語とと
もに該当する候補を優先し、該当する候補が複数存在す
るときには、当該候補と前記併用される単語との距離が
文中で近い用例に該当する候補を優先するようにして、
表記の候補の表示優先度を決定する表示優先度決定手段
と、該表示優先度決定手段によって決定された表示優先
度に基づいて、前記候補作成手段により作成された表記
の候補を表示する候補表示手段とを具える。[Means (and Action) for Solving the Problems] In order to solve the above problems, the character processing device of the present invention is
An input means for inputting a kana character string, a word dictionary means that stores a word reading, a notation and a meaning classification in association with each other, a word notation, and a notation or a meaning classification of a word used in combination with the word And a candidate creating means for creating a notation candidate in which the kana character string input by the input means is read by referring to the word dictionary means. Regarding the candidates of the notation for the same reading created by the creating means, in the example stored in the example dictionary means, the corresponding candidate is given priority along with the word to be used together, and when there are a plurality of applicable candidates, the candidate and the By prioritizing candidates that correspond to examples in which the distance to the words used together is close in the sentence,
Display priority determining means for determining the display priority of the notation candidates, and candidate display for displaying the notation candidates created by the candidate creating means based on the display priority determined by the display priority determining means. And means.
[実施例] 以下図面を参照しながら本発明を詳細に説明する。EXAMPLES The present invention will be described in detail below with reference to the drawings.
第1図は本発明の全体構成の一例である。FIG. 1 is an example of the overall configuration of the present invention.
図示の構成において、CPUは、マイクロプロセッサで
あり、文字処理のための演算、論理判断等を行ない、ア
ドレスバスAB、コントロールバスCB、データバスD
Bを介して、それらのバスに接続された各構成要素を制
御する。In the illustrated configuration, the CPU is a microprocessor, performs arithmetic operations for character processing, logical judgments, etc., and has an address bus AB, a control bus CB, and a data bus D.
Via B, each component connected to those buses is controlled.
アドレスバスABはマイクロプロセッサCPUの制御の
対象とする構成要素を指示するアドレス信号を転送す
る。コントロールバスCBはマイクロプロセッサCPU
の制御の対象とする各構成要素のコントロール信号を転
送して印加する。データバスDBは各構成機器相互間の
データの転送を行なう。The address bus AB transfers an address signal indicating a component to be controlled by the microprocessor CPU. Control bus CB is a microprocessor CPU
The control signals of the respective components to be controlled by are transferred and applied. The data bus DB transfers data between the constituent devices.
つぎにROMは、読出し専用の固定メモリであり、第1
0図〜第15図につき後述するマイクロプロセッサCP
Uによる制御の手順を記憶させておく。Next, the ROM is a fixed read-only memory.
Microprocessor CP described later with reference to FIGS. 0 to 15
The control procedure by U is stored.
また、RAMは、1ワード16ビットの構成の書込み可
能のランダムアクセスメモリであって、各構成要素から
の各種データの一時記憶に用いる。IBUFはキー入力
されたキーデータを記憶する入力バッファであり、OB
UFは仮名漢字変換された結果を一時的に記憶する出力
バッファである。DICは仮名漢字変換を行なうための
辞書である。YDICは単語ある違背未分類間の共起関
係を記述した用例辞書である。PRTBLは意味分類間
の優先関係を記述した意味分類優先度テーブルである。
BCTBLは変換途中の文節候補を記憶する文節候補テ
ーブルである。The RAM is a writable random access memory having a structure of 1 word 16 bits, and is used for temporary storage of various data from each constituent element. IBUF is an input buffer that stores key data input by a key input.
UF is an output buffer for temporarily storing the result of Kana-Kanji conversion. DIC is a dictionary for Kana-Kanji conversion. YDIC is an example dictionary that describes a co-occurrence relationship between words that have not been classified. PRTBL is a semantic classification priority table describing a priority relationship between semantic classifications.
BCTBL is a phrase candidate table that stores phrase candidates that are in the process of conversion.
KBはキーボードであって、アルファベットキー、ひら
かなキー、カタカナキー等の文字記号入力キー、及び、
変換キー等の本文字処理装置に対する各種機能を指示す
るための各種のファンクションキーを備えている。KB is a keyboard, which is a character / symbol input key such as an alphabet key, a hiragana key, or a katakana key, and
Various function keys for instructing various functions for the character processing device such as a conversion key are provided.
DISKは文書データを記憶するための外部記憶部であ
り、テキストバッファ上に作成された文書の保管を行な
い、保管された文書はキーボードの指示により、必要な
時呼び出される。DISK is an external storage unit for storing document data, and stores a document created in the text buffer, and the stored document is called when necessary by a keyboard instruction.
CRはカーソルレジスタである。CPUにより、カーソ
ルレジスタの内容を読み書きできる。後述するCRTコ
ントローラCRTCは、ここに蓄えられたアドレスに対
応する表示装置CRT上の位置にカーソルを表示する。CR is a cursor register. The CPU can read and write the contents of the cursor register. The CRT controller CRTC described later displays a cursor at a position on the display device CRT corresponding to the address stored here.
DBUFは表示用バッファメモリで、表示すべきデータ
を蓄える。DBUF is a display buffer memory that stores data to be displayed.
CRTCはカーソルレジスタCR及びバッファDBUF
に蓄えられた内容を表示器CRTに表示する役割を担
う。CRTC is cursor register CR and buffer DBUF
It plays the role of displaying the contents stored in the display CRT.
またCRTは陰極線管等を用いた表示装置であり、その
表示装置CRTにおけるドット構成の表示パターンおよ
びカーソルの表示をCRTコントローラで制御する。The CRT is a display device using a cathode ray tube or the like, and the display pattern of the dot configuration and the display of the cursor on the display device CRT are controlled by the CRT controller.
さらに、CGはキャラクタジェネレータであって、表示
装置CRTに表示する文字、記号のパターンを記憶する
ものである。Further, CG is a character generator, which stores patterns of characters and symbols to be displayed on the display device CRT.
かかる各構成要素からなる本発明文字処理装置において
は、キーボードKBからの各種の入力に応じて作動する
ものであって、キーボードKBからの入力が供給される
と、まず、インタラプト信号がマイクロプロセッサCP
Uに送られ、そのマイクロプロセッサCPUがROM内
に記憶してある各種の制御信号を読出し、それらの制御
信号に従って各種の制御が行なわれる。The character processing device of the present invention comprising the above-described components operates in response to various inputs from the keyboard KB. When an input from the keyboard KB is supplied, first, an interrupt signal is sent to the microprocessor CP.
The control signal is sent to U, the microprocessor CPU reads out various control signals stored in the ROM, and various controls are performed in accordance with these control signals.
第2図は本発明装置による変換例を示した図である。図
中「」はそこで変換キーを打鍵するという意味であ
る。FIG. 2 is a diagram showing a conversion example by the device of the present invention. In the figure, "" means that the conversion key is pressed there.
「いいんかいにはかる」と入力した場合は、第1候補と
して「委員会に諮る」と変換される。これは用例辞書に
「委員会に/諮る」という用例が登録されているからで
ある。この様な用例変換の仕組みがないと、「はかる」
については「計る」「図る」「謀る」などの同音語があ
るので、正しく変換されるとは限らなくなってしまう。If you enter "Iinkai Ikari", it will be converted to "Consult the Committee" as the first candidate. This is because the example dictionary "/ consult to the committee" is registered. If there is no such example conversion mechanism, it will be "measured"
For, there are homophones such as "measure,""inspire," and "attempt," so they are not always converted correctly.
次の例は「かいけつをはかる」と入力した場合である。
第1の例と同様に、用例辞書に「解決を/図る」という
用例が登録されているので、正しく「解決を図る」と変
換される。The following example is for the case of inputting “measure kaiketsu”.
Similar to the first example, since the example “solve / seek” is registered in the example dictionary, it is correctly converted to “solve”.
第3の例は「いいんかいにかいけつをはかるようによう
せいした」と入力した場合の変換である。この場合「委
員会に諮る」「解決を図る」の2つの用例が適用可能で
あり、「はかる」の部分についてそれぞれが矛盾する変
換を要求している。すなわち、どちらの用例を信じるか
によって「はかる」の変換結果が変わってしまう。本発
明はこの様な場合、文節間の距離の短い方の用例に基づ
いて変換している。すなわち、「委員会に/諮る」とい
う用例は「解決を」という1文節をまたいで適用される
が、「解決を/図る」の用例は連続する2文節間に適用
できる。従って、より距離の短い「解決を/図る」の用
例を採用し、「委員会に解決を図るように要請した」と
変換される。The third example is a conversion in the case of inputting that "you have asked to check your score". In this case, the two examples of “consulting with the committee” and “solving” can be applied, and each of the “measure” parts requires contradictory conversion. In other words, the conversion result of "measure" changes depending on which example is believed. According to the present invention, in such a case, conversion is performed on the basis of the example in which the distance between phrases is shorter. That is, the example of “to consult / consult” is applied across one phrase of “solve”, but the example of “to solve / intend” can be applied between two consecutive phrases. Therefore, the example of “solving / aiming” having a shorter distance is adopted, and it is converted to “requesting the committee to solve”.
第3図は入力バッファIBUF、出力バッファOBUF
の構成を示した図である。FIG. 3 shows an input buffer IBUF and an output buffer OBUF.
It is a figure showing the composition of.
IBUF、OBUFともに同じ構成である。最初の2バ
イトは各バッファのサイズ情報であり、バッファに格納
されている文字数から1を減じたものを2倍した数値が
入る。入力バッファの末尾にある「」はそこで変換キ
ーが打鍵されたことを意味する。各文字は1文字2バイ
トで構成され、JIS X 0208コード等で格納される。Both IBUF and OBUF have the same configuration. The first 2 bytes are the size information of each buffer, and the numerical value obtained by doubling the value obtained by subtracting 1 from the number of characters stored in the buffer is entered. The "" at the end of the input buffer means that the conversion key was pressed there. Each character consists of 2 bytes per character and is stored in JIS X 0208 code or the like.
第4図は辞書DICの構成を示した図である。「読み」
「表記」「品詞」「単語尤度」「意味分類」のフィール
ドから構成される。FIG. 4 is a diagram showing the structure of the dictionary DIC. "reading"
It is composed of fields of "notation", "part of speech", "word likelihood", and "semantic classification".
「読み」には単語の読み、「表記」には単語の表記、
「品詞」には単語の品詞が格納される。"Reading" means reading a word, "writing" means writing a word,
The "part of speech" stores the part of speech of the word.
「単語尤度」は頻度情報等のその単語自体の尤もらしさ
を示す情報が1〜5の値で格納される。尤度値5は最も
尤もらしいという意味であり、値が小さくなるにつれ疑
わしいと解釈される。尤度値0は全く考えられないとい
うことを意味するので単語尤度の値としては存在しな
い。In the "word likelihood", information indicating the likelihood of the word itself such as frequency information is stored as a value of 1 to 5. The likelihood value 5 means that it is most likely, and the smaller the value, the more suspicious. A likelihood value of 0 does not exist as a word likelihood value because it means that it cannot be considered at all.
「意味分類」にはその単語の意味分類が《組織》《動
物》《食物》などと、一般には複数個記述される。ただ
し、意味分類はその単語が名詞の場合のみ記述される。In the "semantic classification", the semantic classification of the word is generally described as "organization", "animal", "food", etc. However, semantic classification is described only when the word is a noun.
第5図は用例辞書YDICの構成を示した図である。
「第1単語」「第2単語」「助詞」のフィールドから構
成される。FIG. 5 is a diagram showing the structure of the example dictionary YDIC.
It is composed of fields of "first word", "second word" and "particle".
「第1単語」「第2単語」には共起する単語のペアを記
述する。もし、個別用例ではなくて意味用例であるとき
は単語の代わりに意味分類が記述される。A pair of co-occurring words is described in “first word” and “second word”. If it is not a specific example but a semantic example, a semantic classification is described instead of a word.
「助詞」には単語のペアを結付ける助詞を記述する。The "particle" describes a particle that connects a pair of words.
すなわち、図中に示される用例は「委員会に/諮る」
「解決を/図る」「《動物》を/飼う」「《食物》を/
買う」となる。That is, the example shown in the figure is "to consult / consult"
"Solving / aiming""Animal" / keeping "" Food "/
To buy ”.
第6図は意味分類間の優先関係を記述した意味分類優先
度の構成を示した図である。「意味分類」「優先度」の
フィールドから構成される。FIG. 6 is a diagram showing the structure of the meaning classification priority, which describes the priority relationship between the meaning classifications. It is composed of fields of "semantic classification" and "priority".
「意味分類」には意味分類コードが格納され、「優先
度」には意味分類に対する優先度が格納される。優先度
はその意味分類の尤もらしさを示す情報が1〜5の値で
格納される。尤度値5は最も尤もらしいという意味であ
り、値が小さくなるにつれ疑わしいと解釈される。The "semantic classification" stores a semantic classification code, and the "priority" stores a priority for the semantic classification. As the priority, information indicating the likelihood of the semantic classification is stored as a value of 1 to 5. The likelihood value 5 means that it is most likely, and the smaller the value, the more suspicious.
第7図は文節候補テーブルBCTBLの概念を示した図
である。文節候補テーブルは入力読みの解析の結果、考
えられる文節候補をバイナリートリーで表現したもので
ある。図中、横線は子ポインタを意味し、縦線は弟ポイ
ンタを意味する。弟ポインタはある読み位置から始まる
他の文節候補(通常はより短い候補)をリンクし、子ポ
インタはその文節に引き続く文節候補をリンクする。FIG. 7 is a diagram showing the concept of the phrase candidate table BCTBL. The phrase candidate table is a binary phrase representing possible phrase candidates as a result of analysis of input reading. In the figure, a horizontal line means a child pointer, and a vertical line means a younger brother pointer. The younger brother pointer links other bunsetsu candidates (usually shorter ones) starting from a certain reading position, and the child pointer links bunsetsu candidates that follow the bunsetsu.
入力読み列「いいんかいにかいけつをはかるようによう
せいした」の先頭部分は「委員会に」「委員会」「委
員」などの解釈が存在し、これらは順に弟ポインタ(縦
線)でリンクされている。At the beginning of the input reading string "I asked you to make a call to a member", there are interpretations such as "in the committee", "committee", "committee", etc. It is linked.
「委員会に」に引き続く文節は「解決を」が考えられ、
子ポインタでリンクされている。The phrase following "to the committee" may be "solve",
It is linked by a child pointer.
この様な文節候補テーブルができ上がると、「委員会に
解決を図るように要請した」「委員会に解決を諮るよう
に要請した」「委員会に解決を図る用に要請した」「委
員会二価胃決を図るように要請した」などと文節候補列
を作成することは容易である。When such a clause candidate table is created, "I asked the committee to try to solve it,""I asked the committee to consult me for the solution,""I asked the committee to try to solve it," and "Committee two. It is easy to create a phrase candidate sequence such as "I have requested to make a bid decision."
第8図は文節候補テーブルBCTBLの具体的構成を示
した図である。FIG. 8 is a diagram showing a specific configuration of the phrase candidate table BCTBL.
「自立語」は文節候補の自立語が存在する辞書上の先頭
位置へポインタを格納する。The "independent word" stores a pointer at the head position in the dictionary where the independent word of the bunsetsu candidate exists.
「付属語列」は2バイトで構成され、文節候補の自立語
に引き続く付属語列を特定する領域である。先頭1バイ
トが入力バッファ上の付属語列先頭文字をインデックス
し、次の1バイトが入力バッファ上の付属語列の末尾文
字をインデックスする。例えば、第3図に示す入力バッ
ファのとき、「るように」を表現するには第1バイトに
26、第2バイトに32を設定する。付属語列が存在し
ないときは図中で「φ」で示している。The "adjunct word string" is composed of 2 bytes, and is an area for specifying the adjunct word string following the independent word of the bunsetsu candidate. The first 1 byte indexes the first character of the auxiliary word string on the input buffer, and the next 1 byte indexes the last character of the auxiliary word string on the input buffer. For example, in the case of the input buffer shown in FIG. 3, 26 is set in the first byte and 32 is set in the second byte to express "like". When there is no adjunct word string, it is indicated by "φ" in the figure.
「弟リンク」はその文節候補と同じ読み位置から始まる
別の文節候補をリンクする。The "younger brother link" links another phrase candidate starting from the same reading position as the phrase candidate.
「子リンク」はその文節候補に引き続く文節候補をリン
クする。The "child link" links a bunsetsu candidate following the bunsetsu candidate.
なお、リンクは値0のときに終端することを意味する。Note that the link means that it terminates when the value is 0.
例えば、文節候補0(委員会に)の弟リンクは50であ
り、文節候補50(委員会)をリンクする。文節候補0
(委員会に)の子リンクは500であり、文節候補50
0(解決を)をリンクする。文節候補500の子リンク
は800であり、文節候補800(図るように)をリン
クする。文節候補800の子リンクは1000であり、
文節候補1000(要請した)をリンクする。更に、文
節候補1000の子リンクは0であり、そこで入力読み
が終端していることが分かる。For example, the younger brother link of the phrase candidate 0 (to the committee) is 50, and the phrase candidate 50 (to the committee) is linked. Candidate 0
The child link (to the committee) is 500 and the clause candidate is 50
Link 0 (solve). The child link of the phrase candidate 500 is 800, and the phrase candidate 800 (as illustrated) is linked. The child link of the phrase candidate 800 is 1000,
Link the phrase candidate 1000 (requested). Furthermore, it can be seen that the child link of the phrase candidate 1000 is 0, and the input reading ends there.
第9図は文尤度の計算例を示した図である。文尤度は文
節候補列である文の尤もらしさを表現するものであり、
値が大きいほど尤もらしいことを意味する。FIG. 9 is a diagram showing an example of sentence likelihood calculation. The sentence likelihood expresses the likelihood of a sentence that is a phrase candidate sequence,
The larger the value, the more likely it is.
文尤度は、文節尤度の和、文節間尤度の和、用例尤度の
和を全て加算することにより計算される。The sentence likelihood is calculated by adding all the sums of the phrase likelihoods, the sums of the inter-phrase likelihoods, and the sums of the example likelihoods.
文節尤度は各文節候補の尤もらしさを表現するものであ
り、値が大きいほど尤もらしいことを意味する。文節尤
度はその文節の自立語の辞書DICに記載されている単
語尤度が使用される。The phrase likelihood expresses the likelihood of each phrase candidate, and the larger the value, the more likely it is. As the phrase likelihood, the word likelihood described in the dictionary DIC of the independent word of the phrase is used.
文節間尤度は隣接する文節候補間の接続の尤もらしさを
表現するものであり、本実施例では値−20で固定とす
る。その文がn文節で構成されていたとすると、文節間
は(n−1)あるので、文節間尤度の和は必ず−20
(n−1)となる。The inter-phrase likelihood expresses the likelihood of connection between adjacent phrase candidates, and is fixed at a value of -20 in this embodiment. If the sentence is composed of n bunsetsu, there is (n-1) between the bunsetsus, so the sum of the inter-bunsetsu likelihoods is always -20.
(N-1).
用例尤度は各文節間に適用されている、用例の一つ一つ
について文尤度に加算される。用例尤度は個別用例の場
合と、意味用例の場合で計算式が異なる。意味用例が適
用されているとき、用例尤度は、使われている意味分類
の優先度の値から、その用例を適用する際に飛び越す文
節の数の5倍を減じたものとなる。個別用例が適用され
ているとき、用例尤度は、値20から、その用例を適用
する際に飛び越す文節の数の5倍を減じたものとなる。The example likelihood is applied to the sentence likelihood for each example, which is applied between clauses. The calculation formula of the example likelihood differs between the case of the individual example and the case of the meaning example. When the semantic example is applied, the example likelihood is the value of the priority of the semantic classification used, minus five times the number of clauses skipped when applying the example. When the individual example is applied, the example likelihood is the value 20 minus five times the number of clauses skipped when applying the example.
第9図によると、「委員会に/解決を/諮るように/要
請した」の文尤度は−35であり、「委員会に/解決を
/図るように/要請した」の文尤度は−30であるの
で、文尤度の値の大きい例2の「委員会に/解決を/図
るように/要請した」が第1位に変換されることが分か
る。According to FIG. 9, the sentence likelihood of “to the committee / to solve / to ask / request” is −35, and the likelihood of “to / to the committee / to solve / request / request”. Is -30, it can be seen that the "commit / request / request / request" of Example 2 having a large sentence likelihood value is converted to the first place.
この様に正しく変換される理由は、例1に適用される用
例「委員会に/諮る」は文節「解決を」を1つ飛び越す
のに対し、例2に適用される用例「解決を/図る」は、
他の文節を飛び越さず、適用される距離が短いからであ
る。The reason for this correct conversion is that the example “Apply to / consult” applied to Example 1 skips one clause “Solution”, while the example applied to Example 2 “Solution / Aim” Is
This is because the applied distance is short without jumping over other clauses.
上述の実施例の動作をフローに従って説明する。The operation of the above embodiment will be described according to the flow.
第10図はキー入力を取り込み、処理を行なう部分のフ
ローチャートである。FIG. 10 is a flow chart of a part for receiving a key input and performing a process.
ステップ10−1はキーボードからのデータを取り込む
処理である。ステップ10−2で取り込まれたキーの種
別を判定し、各キーの処理ルーチンに分岐する。Step 10-1 is a process for fetching data from the keyboard. The type of the key fetched in step 10-2 is determined, and the process branches to each key processing routine.
変換キーであったときはステップ10−3に分岐し、ス
テップ10−3において第11図に詳述するように仮名
漢字変換の変換処理が行なわれる。その他のキーのとき
はステップ10−4に分岐し、挿入、削除等の通常の文
字処理装置において行なわれるその他の処理が行なわれ
る。その後ステップ10−1に分岐する。If it is a conversion key, the process branches to step 10-3, and in step 10-3, conversion processing of kana-kanji conversion is performed as described in detail in FIG. If the key is any other key, the process branches to step 10-4, and other processes such as insertion and deletion that are performed in a normal character processing device are performed. After that, the process branches to step 10-1.
第11図はステップ10−3の「変換処理」を詳細化し
たフローチャートである。FIG. 11 is a detailed flowchart of the "conversion process" in step 10-3.
ステップ11−1において、第12図に詳述する文節候
補作成処理を行ない、文節候補テーブルBCTBLを作
成する。In step 11-1, the phrase candidate creation process detailed in FIG. 12 is performed to create the phrase candidate table BCTBL.
ステップ11−2において、第13図に詳述する第1候
補決定処理を行なう。In step 11-2, the first candidate determination process described in detail in FIG. 13 is performed.
ステップ11−3において、決定された第1候補に基づ
いて変換結果を作成し、出力する。In step 11-3, a conversion result is created and output based on the determined first candidate.
第12図はステップ11−1の「文節候補作成処理」を
詳細化したフローチャートである。FIG. 12 is a detailed flowchart of the “bunsetsu candidate creation process” in step 11-1.
ステップ12−1において、入力バッファインデックス
i、部分候補テーブルインデックスjを0に初期設定す
る。In step 12-1, the input buffer index i and the partial candidate table index j are initialized to 0.
ステップ12−2においてiの示す入力バッファ中の読
みに基づき、辞書をサーチし、単語候補を求める。In step 12-2, the dictionary is searched for word candidates based on the reading in the input buffer indicated by i.
ステップ12−3において、見つかった単語候補に対し
て接続する付属語列を解析する形態素解析処理を行な
う。この結果、文節候補が得られる。In step 12-3, a morphological analysis process of analyzing an attached word string connected to the found word candidate is performed. As a result, bunsetsu candidates are obtained.
ステップ12−4において得られた文節候補を文節候補
テーブルに格納する。格納する時はj+1番目のエント
リーに格納する。また、必要な情報を設定する。例え
ば、この文節候補を子、あるいは弟とする文節候補につ
いては、子リンク、弟リンクを設定する。格納後jの値
をカウントアップする。The phrase candidates obtained in step 12-4 are stored in the phrase candidate table. When storing, it is stored in the (j + 1) th entry. Also, set the necessary information. For example, a child link and a younger brother link are set for a phrase candidate in which this phrase candidate is a child or a younger brother. After storing, the value of j is incremented.
ステップ12−5において文節候補テーブルからターミ
ネートしていない文節候補、すなわち、子リンクがまだ
決まっていない文節候補を見つけてその次の読み位置を
iに代入する。In step 12-5, a bunsetsu candidate that has not been terminated, that is, a bunsetsu candidate whose child link is not determined yet is found from the bunsetsu candidate table, and the next reading position is assigned to i.
ステップ12−6において、全ての文節候補の子リンク
が決定しているかどうか判定し、決定していないものが
あればステップ12−2に分岐する。そうでなければリ
ターンする。In step 12-6, it is determined whether or not the child links of all bunsetsu candidates have been decided, and if there is any child link that has not been decided, the process branches to step 12-2. Otherwise it returns.
第13図はステップ11−2の「第1候補決定処理」を
詳細化したフローチャートである。FIG. 13 is a detailed flowchart of the “first candidate determination process” in step 11-2.
ステップ13−1において、最尤文尤度を処理上許され
る最小値、例えば、−32767に初期設定する。In step 13-1, the maximum likelihood sentence likelihood is initialized to the minimum value permitted in processing, for example, -32767.
ステップ13−2において文節候補テーブルより文節候
補列を1つ取り出す。In step 13-2, one phrase candidate string is extracted from the phrase candidate table.
ステップ13−3において、第14図に詳述するように
その取り出された文節候補列に適用可能な用例を検索
し、用例尤度の和である「用例尤度和」を算出する。In step 13-3, as will be described in detail with reference to FIG. 14, an example applicable to the extracted phrase candidate sequence is searched, and the “example likelihood sum” which is the sum of example likelihoods is calculated.
ステップ13−4において、文節候補列の文尤度を第9
図に示す様に算出する。In step 13-4, the sentence likelihood of the phrase candidate sequence is set to the ninth.
Calculate as shown in the figure.
ステップ13−5において、算出された文尤度が最尤文
尤度より尤もらしいか、具体的には大きいかを判定し、
大きいときはステップ13−6において最尤文尤度を算
出された文尤度に更新する。また、ステップ13−7に
おいて現在の文節候補列を最尤文尤度に対応した文節候
補列として記憶する。In step 13-5, it is determined whether the calculated sentence likelihood is more likely than the maximum likelihood sentence likelihood, specifically, larger,
When it is larger, the maximum likelihood sentence likelihood is updated to the calculated sentence likelihood in step 13-6. In step 13-7, the current phrase candidate sequence is stored as the phrase candidate sequence corresponding to the maximum likelihood sentence likelihood.
ステップ13−8において文節候補テーブルから別の文
節候補列が取り出せるかどうかを判定し、取り出せると
きはステップ13−2に分岐する。そうでないときはリ
ターンする。In step 13-8, it is determined whether another phrase candidate string can be extracted from the phrase candidate table, and if it can be extracted, the process branches to step 13-2. If not, return.
これにより、最尤文尤度を算出するもとになった文節候
補列が第1候補として決定される。As a result, the phrase candidate sequence from which the maximum likelihood sentence likelihood is calculated is determined as the first candidate.
第14図はステップ13−3の「用例尤度和の算出」を
詳細化したフローチャートである。FIG. 14 is a detailed flowchart of “calculation of example likelihood sum” in step 13-3.
ステップ14−1において、用例尤度和をまず0に初期
設定する。In step 14-1, the example likelihood sum is first initialized to 0.
ステップ14−2において、文節候補列から1文節を着
目文節として取り出す。以下の処理ではこの着目文節に
関係する用例の尤度を求めることになる。At step 14-2, one phrase is extracted as the focused phrase from the phrase candidate sequence. In the following process, the likelihood of the example related to this focused phrase will be obtained.
ステップ14−3において最尤用例尤度を0に初期設定
する。In step 14-3, the maximum likelihood example likelihood is initialized to 0.
ステップ14−4において、着目文節とペアになる文節
を文節候補列から取り出す。In step 14-4, a phrase paired with the focused phrase is extracted from the phrase candidate string.
ステップ14−5において、着目文節のペア文節を取り
出すことができなかったときは、それ以上の着目文節の
処理を諦め、ステップ14−8に分岐する。In step 14-5, when the pair phrase of the target phrase cannot be extracted, the processing of the further target phrase is abandoned and the process branches to step 14-8.
ステップ14−6において、第15図に詳述するよう
に、着目文節とペア文節の間の用例が適用されているか
どうかを調べ、その適用状況に応じて用例尤度を設定す
る。In step 14-6, as described in detail in FIG. 15, it is checked whether or not the example between the target phrase and the pair phrase is applied, and the example likelihood is set according to the application situation.
ステップ14−7において、求まった用例尤度が最尤用
例尤度より尤もらしい(すなわち大きいか)かどうかを
調べ、尤もらしければ(すなわち大きければ)、用例尤
度の値を最尤用例尤度に代入する。その後ステップ14
−4に分岐し、別のペアについて用例尤度を求める。In step 14-7, it is checked whether or not the obtained example likelihood is more likely (ie, larger) than the maximum likelihood example likelihood, and if there is likelihood (ie, larger), the value of the example likelihood is set to the maximum likelihood example likelihood. To. Then step 14
-4 and obtain the example likelihood for another pair.
ステップ14−8において、着目文節の処理が終ったの
で、次の着目文節の処理に移るが、未処理の文節が残っ
ているかどうか判定する。残っていないときはそのまま
リターンするが、残っているときはステップ14−9に
分岐し、前回求まった最尤用例尤度を用例尤度輪に加算
する。その後、ステップ14−2に分岐し、次の着目文
節を取り出す。In step 14-8, since the processing of the target phrase is completed, the process moves to the next target phrase, but it is determined whether or not there is any unprocessed phrase. If not, the process returns as it is, but if it remains, the process branches to step 14-9 to add the maximum likelihood example likelihood obtained last time to the example likelihood wheel. After that, the process branches to step 14-2, and the next focused phrase is extracted.
第15図はステップ14−6の「用例尤度の値設定」を
詳細化したフローチャートである。FIG. 15 is a detailed flow chart of the “value setting of example likelihood” in step 14-6.
ステップ15−1において、着目文節とペア文節の2文
節感に適用される用例があるかどうか、あるとすれば、
それは個別用例か、意味用例かを判断する。In step 15-1, whether or not there is an example applied to the two phrase senses of the target phrase and the pair phrase, and if there is,
Determine if it is an individual or semantic example.
適用用例がないときはステップ15−2に分岐し、用例
尤度に0を代入し、リターンする。When there is no application example, the process branches to step 15-2, 0 is assigned to the example likelihood, and the process returns.
個別用例が適用できるときはステップ15−3に分岐
し、ステップ15−3において用例尤度に20を代入す
る。その後ステップ15−5に分岐する。If the individual example is applicable, the process branches to step 15-3, and 20 is substituted into the example likelihood in step 15-3. After that, the process branches to step 15-5.
意味用例が適用できるときはステップ15−4に分岐
し、用例尤度としてその意味用例に使われている意味分
類の優先度を代入する。その後ステップ15−5に分岐
する。When the meaning example is applicable, the process branches to step 15-4, and the priority of the meaning classification used in the meaning example is substituted as the example likelihood. After that, the process branches to step 15-5.
ステップ15−5において2文節間の距離、すなわち、
飛び越す文節の数を求め、その値に5を乗じて用例尤度
に加算する。もし、隣接する2文節であれば、飛び越す
文節は0であるので、用例尤度に0を加算することにな
る。In step 15-5, the distance between two clauses, that is,
The number of bunsetsus to jump over is calculated, and the value is multiplied by 5 and added to the example likelihood. If there are two adjacent clauses, the jumping clause is 0, so 0 is added to the example likelihood.
ステップ15−6において上記計算された用例尤度の値
が負になっていないかどうか判定し、負のときはステッ
プ15−7において0になるように補正し、リターンす
る。負でないときは値をいじらずにそのままリターンす
る。In step 15-6, it is determined whether or not the calculated value of the example likelihood is negative, and if negative, the value is corrected to 0 in step 15-7, and the process returns. When it is not negative, it returns without changing the value.
[他の実施例] 以上の説明において、用例辞書は共起する2単語(ある
いは分類)のペアであるとして説明したが、3つ組ある
いは更に一般的にn個組であっても同様に処理すること
ができる。[Other Embodiments] In the above description, the example dictionary is described as a pair of co-occurring two words (or classifications), but the same processing is performed even if it is a set of three or more generally n sets. can do.
また、尤度の計算は単に例を示しただけであり、用例の
適用される複数文節間の距離を尤度計算の過程で考慮す
る様に構成すれば、別の計算方法であっても特に本発明
の趣旨を損なうものではない。Also, the likelihood calculation is merely an example, and if the distance between multiple clauses to which the example is applied is considered in the process of likelihood calculation, even if another calculation method is used, It does not impair the gist of the present invention.
[発明の効果] 以上の説明から明らかなように本発明によれば、オペレ
ータの入力した読み列について複数の用例が適用可能な
場合、その用例が適用される2文節の距離(飛び越す文
節数)に従ってどの用例を適用すれば良いかを判断する
ので、より適切な変換を行なうことができる。これによ
り変換率の高い、快適な文字処理装置を実現することが
できる。[Effects of the Invention] As is clear from the above description, according to the present invention, when a plurality of examples are applicable to the reading sequence input by the operator, the distance of two phrases to which the example is applied (the number of skipped phrases). According to this, it is determined which example should be applied, so that more appropriate conversion can be performed. This makes it possible to realize a comfortable character processing device with a high conversion rate.
第1図は本発明の全体構成のブロック図、 第2図は本発明における仮名漢字変換の変換例を示した
図、 第3図は本発明における入力バッファIBUFと出力バ
ッファOBUFの構成を示した図、 第4図は本発明における仮名漢字変換用辞書DICの構
成を示した図、 第5図は本発明における用例辞書YDICの構成を示し
た図、 第6図は本発明における意味分類の優先関係を記述した
意味分類優先度テーブルPRTBLの構成を示した図、 第7図は本発明における文節候補テーブルBCTBLの
記憶内容を概念的に示した図、 第8図は本発明における文節候補テーブルBCTBLの
構成を示した図、 第9図は本発明における尤度計算の方式を示した図、 第10図〜第15図は本発明文字処理装置の動作を示す
フローチャート。 DISK…外部記憶部 CPU…マイクロプロセッサ ROM…読出し専用メモリ RAM…ランダムアクセスメモリ IBUF…入力バッファ OBUF…出力バッファ DIC…仮名漢字変換用辞書 YDIC…用例辞書 PRTBL…意味分類優先度テーブル BCTBL…文節候補テーブルFIG. 1 is a block diagram of the overall configuration of the present invention, FIG. 2 is a diagram showing a conversion example of kana-kanji conversion in the present invention, and FIG. 3 is a configuration of an input buffer IBUF and an output buffer OBUF in the present invention. FIG. 4, FIG. 4 is a diagram showing a structure of a kana-kanji conversion dictionary DIC in the present invention, FIG. 5 is a diagram showing a structure of an example dictionary YDIC in the present invention, and FIG. 6 is a meaning classification priority in the present invention. The figure which showed the structure of the meaning classification priority table PRTBL which described the relationship, FIG. 7 is the figure which showed notionally the memory content of the clause candidate table BCTBL in this invention, and FIG. 8 is the clause candidate table BCTBL in this invention. FIG. 9 is a diagram showing the configuration of FIG. 9, FIG. 9 is a diagram showing a method of likelihood calculation in the present invention, and FIGS. DISK ... External storage unit CPU ... Microprocessor ROM ... Read-only memory RAM ... Random access memory IBUF ... Input buffer OBUF ... Output buffer DIC ... Kana-Kanji conversion dictionary YDIC ... Example dictionary PRTBL ... Meaning classification priority table BCTBL ... Clause candidate table
Claims (1)
た単語辞書手段と、 単語の表記と、当該単語と併用される単語の表記もしく
は意味分類とを対応づけて用例として記憶する用例辞書
手段と、 前記単語辞書手段を参照して、前記入力手段より入力さ
れた仮名文字列を読みとする表記の候補を作成する候補
作成手段と、 前記候補作成手段により作成された同じ読みに対する表
記の候補について、前記用例辞書手段に記憶された用例
に、併用される単語とともに該当する候補を優先し、該
当する候補が複数存在するときには、当該候補と前記併
用される単語との距離が文中で近い用例に該当する候補
を優先するようにして、表記の候補の表示優先度を決定
する表示優先度決定手段と、 該表示優先度決定手段によって決定された表示優先度に
基づいて、前記候補作成手段により作成された表記の候
補を表示する候補表示手段とを有することを特徴とする
文字処理装置。1. An input means for inputting a kana character string, a word dictionary means for storing a reading of a word, a notation and a semantic classification in association with each other, a word notation, and a word used in combination with the word. Example dictionary means for storing as an example in association with the notation or the semantic classification, and a candidate creation for creating a notation candidate for reading the kana character string input by the input means by referring to the word dictionary means Means, and for the notation candidates for the same reading created by the candidate creating means, the example stored in the example dictionary means gives priority to the corresponding candidate together with the word used together, and when there are a plurality of the applicable candidates, A display priority determining means for determining a display priority of a notation candidate by giving priority to a candidate corresponding to an example in which a distance between the candidate and the word used in combination is short in a sentence, A character processing device, comprising: candidate display means for displaying a notation candidate created by the candidate creating means based on the display priority determined by the display priority determining means.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1320185A JPH0628057B2 (en) | 1989-12-07 | 1989-12-07 | Character processor |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1320185A JPH0628057B2 (en) | 1989-12-07 | 1989-12-07 | Character processor |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH03179551A JPH03179551A (en) | 1991-08-05 |
| JPH0628057B2 true JPH0628057B2 (en) | 1994-04-13 |
Family
ID=18118650
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP1320185A Expired - Lifetime JPH0628057B2 (en) | 1989-12-07 | 1989-12-07 | Character processor |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0628057B2 (en) |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH077399B2 (en) * | 1986-11-19 | 1995-01-30 | 日本放送協会 | Language processing |
| JPS6386073A (en) * | 1986-09-30 | 1988-04-16 | Ricoh Co Ltd | Japanese modification relation analysis device |
| JPH0769914B2 (en) * | 1987-03-09 | 1995-07-31 | 日本電信電話株式会社 | Japanese phrase interdependency analysis device |
| JP2960936B2 (en) * | 1987-07-13 | 1999-10-12 | 日本電信電話株式会社 | Dependency analyzer |
| JP2951956B2 (en) * | 1988-03-09 | 1999-09-20 | キヤノン株式会社 | Character processing apparatus and method |
-
1989
- 1989-12-07 JP JP1320185A patent/JPH0628057B2/en not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| JPH03179551A (en) | 1991-08-05 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3161942B2 (en) | Translation machine translation device | |
| JPH0628057B2 (en) | Character processor | |
| JPH0640328B2 (en) | Character processor | |
| JP3029109B2 (en) | Character processing apparatus and method | |
| JP2698458B2 (en) | Character processor | |
| JP3236190B2 (en) | Character processing apparatus and method | |
| JPH0638260B2 (en) | Character processing apparatus and method | |
| JP2714238B2 (en) | Character processor | |
| JPH0638261B2 (en) | Character processing apparatus and method | |
| JP2675912B2 (en) | Character processor | |
| JP2714239B2 (en) | Character processor | |
| JPH0576064B2 (en) | ||
| JP3278148B2 (en) | Character processing apparatus and method | |
| JPH01229369A (en) | character processing device | |
| JP2899087B2 (en) | Character processor | |
| JP3010946B2 (en) | Sentence input method | |
| JPH0697454B2 (en) | Character processor | |
| JPH04256159A (en) | Kana/kanji converter | |
| JPH08241315A (en) | Document processing device word registration mechanism | |
| JPS6379175A (en) | electronic dictionary | |
| JPS63167956A (en) | Converter to honorific expression | |
| JPH01204174A (en) | Character processor | |
| JPH0887506A (en) | Translation processing system with pattern matching | |
| JPH0468466A (en) | Kana / kanji converting device | |
| JPH10187706A (en) | Document processing method and apparatus |