JP5047209B2 - Error conversion pointing device and method for indicating error conversion based on conversion break position - Google Patents
Error conversion pointing device and method for indicating error conversion based on conversion break position Download PDFInfo
- Publication number
- JP5047209B2 JP5047209B2 JP2009058168A JP2009058168A JP5047209B2 JP 5047209 B2 JP5047209 B2 JP 5047209B2 JP 2009058168 A JP2009058168 A JP 2009058168A JP 2009058168 A JP2009058168 A JP 2009058168A JP 5047209 B2 JP5047209 B2 JP 5047209B2
- Authority
- JP
- Japan
- Prior art keywords
- conversion
- erroneous
- character string
- target word
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Description
本発明は、変換後の文字列により構成された文章の中に含まれる同音異義語の誤変換を指摘する誤変換指摘装置及びその方法に関する。 The present invention relates to an erroneous conversion indication device and method for indicating an erroneous conversion of a homonym included in a sentence composed of converted character strings.
従来、仮名漢字変換に起因する同音異義語の誤り検出・訂正の方法として、確率的LSAを用いた日本語同音異義語誤りの検出・訂正の方法(非特許文献1)がある。 Conventionally, there is a Japanese homonym error detection / correction method using probabilistic LSA (Non-Patent Document 1) as a method for detecting and correcting homonym error due to kana-kanji conversion.
この方法では、同音異義語のngramでモデル化される局所的出現確率及びPLSAによってモデル化される大域的出現確率に基づいて定義される尤度を用いて誤変換の有無を判定する。 In this method, the presence / absence of erroneous conversion is determined using the likelihood defined based on the local appearance probability modeled by ngram of the homonym and the global appearance probability modeled by PLSA.
しかし、漢字変換後の文章における入力時の変換区切り位置の違いは考慮されていないため、例えば、「練習成果」、「練習生可」等のような変換位置が異なる同音異義語(検査対象語)に対しては、誤り検出ができなかった。 However, since the difference in the conversion break position at the time of input in the sentence after conversion to Kanji is not considered, for example, homonyms with different conversion positions (test target words such as “practice result”, “practice trainee”), etc. ) Could not be detected.
そこで、本発明は、文章中の同音異義語(検査対象語)について変換区切り位置が異なる場合であっても、変換誤りを指摘することを目的とする。 Therefore, an object of the present invention is to point out a conversion error even when the conversion delimiter positions differ for homonyms (inspection words) in a sentence.
本発明では、以下のような解決手段を提供する。 The present invention provides the following solutions.
(1)変換後の文字列により構成された文章の中に含まれる、誤変換を指摘する誤変換指摘装置であって、仮名文字列の漢字変換後の変換区切り位置を記憶する変換区切位置記憶手段と、漢字変換後の文章全体を仮名文字列に変換した際に、当該仮名文字列の最長の共通部分に対応する前記漢字変換後の文字列をそれぞれ検査対象語として抽出する検査対象語抽出手段と、前記変換区切位置記憶手段を参照することにより、前記検査対象語抽出手段により抽出された各前記検査対象語の変換区切り位置を抽出する変換区切位置抽出手段と、前記変換区切位置抽出手段によって抽出された変換区切り位置が前記検査対象語間で異なる場合に、前記検査対象語抽出手段により抽出された前記検査対象語に誤変換があるか否かを判定する誤変換判定手段と、を備え、前記誤変換判定手段によって誤変換があると判定された場合に、前記検査対象語抽出手段により抽出された前記検査対象語に誤変換があることを指摘することを特徴とする誤変換指摘装置。 (1) contained in the sentence which is constituted by the character string after conversion, erroneous conversion a false conversion pointed device to point out, conversion delimiting position storage for storing the converted delimiter position after kanji conversion kana string Means for extracting a word to be inspected to extract the character string after the kanji conversion corresponding to the longest common part of the kana character string when the whole sentence after the kanji conversion is converted into a kana character string And a conversion delimiter position extracting unit for extracting a conversion delimiter position of each of the test target words extracted by the test target word extracting unit by referring to the conversion delimiter position storage unit , and the conversion delimiter position extracting unit If the extracted transform delimiter position differs between the inspection target word by erroneous conversion determination to determine whether there is a conversion false before Symbol inspection target word extracted by said object word extraction means Comprising a stage, and a feature that when it is determined that there is a mis-converted by the erroneous conversion determination means, points out that there is a conversion erroneous the inspection target word extracted by said object word extraction means An erroneous conversion indication device.
(1)の構成によれば、変換区切位置記憶手段は、仮名文字列の漢字変換後の変換区切り位置を記憶し、検査対象語抽出手段は、漢字変換後の文章の中に含まれる検査対象語を抽出し、変換区切位置抽出手段は、各検査対象語の変換区切り位置を抽出し、誤変換判定手段は、変換区切り位置が検査対象語間で異なる場合に、抽出された前記検査対象語に誤変換があるか否かを判定し、誤変換があると判定された場合に、検査対象語に誤変換があることを指摘する。 According to the configuration of (1), the conversion delimiter position storage unit stores the conversion delimiter position after kanji conversion of the kana character string, and the inspection target word extraction unit stores the inspection target included in the sentence after the kanji conversion. A conversion delimiter position extracting unit extracts a conversion delimiter position of each test target word, and an erroneous conversion determination unit extracts the test target word extracted when the conversion delimiter position differs between the test target words. It is determined whether or not there is an erroneous conversion. If it is determined that there is an erroneous conversion, it is pointed out that there is an erroneous conversion in the word to be examined .
これにより、誤変換指摘装置は、文章中の同音異義語(検査対象語)について変換区切り位置が異なる場合であっても、変換誤りを指摘することができる。 Accordingly, the erroneous conversion indication device can indicate a conversion error even when the conversion delimiter positions are different for the homonyms (test target words) in the sentence.
(2) 前記検査対象語抽出手段は、前記漢字変換後の文章を形態素に分割する形態素分割手段と、形態素分割手段によって分割された形態素を仮名文字列に変換する仮名変換手段と、仮名変換手段によって仮名文字列に変換された形態素を連結する仮名形態素連結手段と、仮名形態素連結手段によって連結された形態素である連結形態素の中から同一の連結形態素を抽出する同一連結形態素抽出手段と、を備え、前記漢字変換後の文章の中から、抽出した前記同一の連結形態素に対応する文字列を検査対象語として抽出することを特徴とする(1)記載の誤変換指摘装置。 (2) The inspection target word extracting unit includes a morpheme dividing unit that divides the sentence after the kanji conversion into morphemes, a kana conversion unit that converts the morphemes divided by the morpheme dividing unit into a kana character string, and a kana conversion unit. comprising a pseudonym morpheme connecting means for connecting the morphemes converted into kana character string, and the same connecting morpheme extraction means for extracting the same connecting morphemes from the connecting morpheme is a morpheme linked by pseudonym morpheme connecting means, by The erroneous conversion indication device according to (1), wherein a character string corresponding to the extracted connected morpheme is extracted as an inspection target word from the sentence after the Kanji conversion.
(2)の構成によれば、検査対象語抽出手段は、漢字変換後の文章を形態素に分割し、分割された形態素を仮名文字列に変換し、仮名文字列に変換された形態素を連結し、連結された形態素である連結形態素の中から同一の連結形態素を抽出し、漢字変換後の文章の中から、抽出した同一の連結形態素に対応する文字列を検査対象語として抽出する。 According to the configuration of (2), the inspection target word extraction unit divides the sentence after the kanji conversion into morphemes, converts the divided morphemes into kana character strings, and connects the morphemes converted into kana character strings. Then, the same connected morpheme is extracted from the connected morpheme that is the connected morpheme, and the character string corresponding to the extracted same connected morpheme is extracted from the sentence after the kanji conversion as the inspection target word.
ここで、(1)の発明では、誤変換指摘装置は、漢字変換後の文章全体を仮名文字に変換した際に、最長の共通部分を検査対象語として抽出するので、検査対象語が長すぎて的確に誤変換指摘ができないおそれがあるが、(2)の構成により、検査対象語を的確な長さで抽出することができるので、最適な方法で誤変換指摘ができる。 Here, in the invention of (1), the misconversion indication device extracts the longest common part as the inspection target word when the entire sentence after the kanji conversion is converted into the kana character, so the inspection target word is too long. Although there is a possibility that an erroneous conversion indication cannot be made accurately, the configuration (2) enables extraction of an inspection target word with an accurate length, so that an erroneous conversion indication can be made by an optimum method.
(3)前記変換区切位置記憶手段は、仮名文字列と漢字変換後の文字列と前記変換区切り位置とを対応付けて記憶しており、前記変換区切位置抽出手段によって抽出された前記変換区切り位置が前記検査対象語間で異なる場合に、前記検査対象語に誤変換の可能性があることを示唆する誤変換フラグを起動する誤変換フラグ起動手段を備え、前記誤変換判定手段は、前記誤変換フラグが起動した場合に、前記抽出された前記検査対象語に誤変換があるか否かを判定することを特徴とする(1)又は(2)に記載の誤変換指摘装置。 (3) the conversion break position storage means stores in association with the kana character string and the character string after kanji conversion and the conversion delimiter position, wherein the conversion delimited extracted by prior Symbol conversion break position extracting means If the positions are different between the inspection target word, before SL comprises an erroneous conversion flag activation means activates erroneously conversion flag to indicate that there is a possibility of inspection target word in erroneous conversion, the erroneous conversion determination means, if the erroneous conversion flag is activated, erroneous conversion pointed device according to, characterized in that you determine whether there is a conversion erroneous said object word the extracted (1) or (2).
(3)の構成によれば、前記変換区切位置記憶手段は、仮名文字列と漢字変換後の文字列と前記変換区切り位置とを対応付けて記憶し、誤変換フラグ起動手段は、前記変換区切位置抽出手段によって抽出された前記変換区切り位置が前記検査対象語間で異なる場合に、前記検査対象語に誤変換の可能性があることを示唆する誤変換フラグを起動する。さらに、前記誤変換判定手段は、前記誤変換フラグが起動した場合に、前記抽出された前記検査対象語に誤変換があるか否かを判定する。 According to the configuration of (3), wherein the conversion delimiting position storage means, in association with the kana character string and the character string after kanji conversion and the conversion delimiter position, erroneous conversion flag activation means, before Symbol conversion when the conversion delimiter position extracted by the break position extracting means is different between the test subject word starts erroneous conversion flag to indicate that there is a possibility of erroneous converted before Symbol inspection target word. Furthermore, the erroneous conversion determination unit, when the erroneous conversion flag is activated, it determines whether there is a conversion erroneous the extracted said object language.
これにより、誤変換指摘装置は、変換区切位置抽出手段により抽出された変換区切り位置に基づいて、検査対象語に誤変換の可能性がある場合にのみ、検査対象語に誤変換があるか否かを判定するので、誤変換の判定対象を絞り込むことができる。よって、誤変換判定処理が不要な場合、誤変換指摘装置は、当該処理を行わないで済むので、誤変換判定処理の処理効率をアップさせることができる。 Thus, the erroneous conversion pointed device, whether based on the conversion delimiter position extracted by converting delimiting position extracting means, only if there is a possibility of converting erroneous inspection target word, it is converted erroneous inspection target word Therefore, it is possible to narrow down the determination target for erroneous conversion. Therefore, when the erroneous conversion determination process is unnecessary, the erroneous conversion indication device does not need to perform the process, and thus the processing efficiency of the erroneous conversion determination process can be increased.
(4)コンピュータが、変換後の文字列により構成された文章の中に含まれる、誤変換を指摘する誤変換指摘方法であって、仮名文字列の漢字変換後の変換区切り位置を記憶する記憶ステップと、漢字変換後の文章全体を仮名文字列に変換した際に、当該仮名文字列の最長の共通部分に対応する前記漢字変換後の文字列をそれぞれ検査対象語として抽出する検査対象語抽出ステップと、前記記憶された前記変換区切り位置に基づいて、前記検査対象語抽出手段により抽出された各前記検査対象語の変換区切り位置を抽出する変換区切位置抽出ステップと、前記抽出された変換区切り位置が前記検査対象語間で異なる場合に、前記抽出された前記検査対象語に誤変換があるか否かを判定する誤変換判定ステップと、前記誤変換があると判定された場合に、前記抽出された前記検査対象語に誤変換があることを指摘する指摘ステップと、有することを特徴とする誤変換指摘方法。 (4) computer is included within a sentence constituted by the character string after conversion, a false conversion point out how to point out erroneous conversion, storage for storing the converted delimiter position after kanji conversion kana string Step and test word extraction for extracting the kanji converted character string corresponding to the longest common part of the kana character string as a test target word when the whole sentence after kanji conversion is converted into a kana character string steps and, on the basis of the stored the converted delimiter position, and conversion break position extracting a conversion delimiter position of each of the inspection target words extracted by the inspection target word extracting means, converting delimited the extracted When the position is different between the inspection target words, it is determined that there is an erroneous conversion determination step for determining whether or not the extracted inspection target word has an erroneous conversion, and that there is an erroneous conversion. Case, pointed out steps and, Yusuke erroneous transformation point out methods wherein Rukoto to point out that there is a conversion erroneous the extracted said object language.
(4)の構成によれば、(1)の誤変換指摘装置と同様な作用効果を奏する。 According to the structure of (4), there exists an effect similar to the erroneous conversion indication apparatus of (1).
(5) 前記検査対象語として抽出するステップでは、前記漢字変換後の文章を形態素に分割し、分割された前記形態素を仮名文字列に変換し、仮名文字列に変換された前記形態素を連結し、連結された前記形態素である連結形態素の中から同一の連結形態素を抽出し、前記漢字変換後の文章の中から、抽出した前記同一の連結形態素に対応する文字列を検査対象語として抽出することを特徴とする(4)記載の誤変換指摘方法。 (5) In the step of extracting as the inspection target word, divide the sentence after the kanji conversion into morphemes, the divided the morphemes into a kana character string, connecting the morphemes converted into kana character string extracts identical coupling morphemes from the connecting morphemes are concatenated the morpheme extracting from the text after the kanji conversion, the extracted character string corresponding to the same connection morphemes as an inspection target word (4) The erroneous conversion indication method according to (4).
(5)の構成によれば、(2)の誤変換指摘装置と同様な作用効果を奏する。 According to the structure of (5), there exists an effect similar to the erroneous conversion indication apparatus of (2).
(6)前記記憶ステップでは、同一の仮名文字列と漢字変換後の文字列と前記変換区切り位置とを対応付けて記憶し、前記抽出された前記変換区切り位置が前記検査対象語間で異なる場合に、前記検査対象語に誤変換の可能性があることを示唆する誤変換フラグを起動する起動ステップを有し、前記誤変換判定ステップでは、前記誤変換フラグが起動した場合に、前記抽出された前記検査対象語に誤変換があるか否かを判定することを特徴とする(4)又は(5)に記載の誤変換指摘方法。 (6) In the storing step, the same kana character string, the character string after kanji conversion and the conversion delimiter position are stored in association with each other, and the extracted conversion delimiter position is different between the inspection target words the front SL has an activation step of activating erroneous conversion flag to indicate that there is a possibility of inspection target word in erroneous conversion, in the erroneous conversion determination step, when the erroneous conversion flag is activated, the extracted It has been erroneously converted pointed method according to the inspection target word in erroneous conversion whether the characterized determine Teisu Rukoto there (4) or (5).
(6)の構成によれば、(3)の誤変換指摘装置と同様な作用効果を奏する。 According to the structure of (6), there exists an effect similar to the error conversion indication apparatus of (3).
本発明によれば、誤変換指摘装置は、文章中の同音異義語(検査対象語)について変換区切り位置が異なる場合であっても、変換誤りを指摘することができる。 According to the present invention, the erroneous conversion indicating device can indicate a conversion error even when the conversion delimiter positions are different for the homonyms (test target words) in the sentence.
以下、本発明の実施形態について図を参照しながら説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[誤変換指摘装置1の機能構成]
図1は、本発明の一実施形態に係る誤変換指摘装置1の機能構成を示す機能ブロック図である。
[Functional configuration of erroneous conversion indication device 1]
FIG. 1 is a functional block diagram showing a functional configuration of an erroneous
誤変換指摘装置1は、同一仮名文字列抽出手段110と、変換位置記憶手段120と、文章受付手段130と、検査対象語抽出手段140と、誤変換指摘手段150と、から構成される。
The erroneous
さらに、誤変換指摘手段150は、変換位置抽出手段151と、誤変換フラグ起動手段152と、誤変換判定手段153と、から構成される。変換位置抽出手段151は、変換位置記憶手段120を参照して、変換位置を抽出する。
Further, the erroneous
同一仮名文字列抽出手段110は、文章を構成する仮名文字列から同一の仮名文字列を抽出し、抽出した同一の仮名文字列の漢字変換後の変換位置を変換位置記憶手段120(図8で後述する変換位置テーブル)に記憶する。
The same kana character
文章受付手段130は、漢字変換後の文章(図6で後述する変換後の文章)の入力を受け付け、検査対象語抽出手段140は、検査対象語を抽出し、誤変換指摘手段150は、抽出した検査対象語に誤変換がある場合、誤変換があることを指摘する。
The
その際、誤変換指摘手段150が備える誤変換フラグ起動手段152が、誤変換フラグを起動した場合(変換位置に基づいた誤変換の可能性がある場合)に限って、誤変換判定手段153が、ngram+PLSAの手法(三品拓也、貞光九月、山本幹雄「確率的LSAを用いた日本語同音異義語誤りの検出・訂正」、情報処理学会論文誌、平成16年9月、Vol.45、No.9、p.1−9)を用いて誤変換の有無を判定する。 At that time, only when the erroneous conversion flag starting means 152 provided in the erroneous conversion indicating means 150 starts the erroneous conversion flag (when there is a possibility of erroneous conversion based on the conversion position), the erroneous conversion determining means 153 , Ngram + PLSA (Takuya Sanna, Sadamitsu September, Mikio Yamamoto “Detection and correction of Japanese homonyms using stochastic LSA”, Information Processing Society of Japan, September 2004, Vol. 45, No. .9, p.1-9), the presence or absence of erroneous conversion is determined.
[誤変換指摘装置1のハードウェア構成]
図2は、本実施形態の誤変換指摘装置1のハードウェア構成を示す図である。図2に示すように、制御部200を構成するCPU(Central Processing Unit)210(マルチプロセッサ構成ではCPU220等複数のCPUが追加されてもよい)、バスライン100、通信I/F(I/F:インタフェース)230、メインメモリ240、BIOS(Basic Input Output System)250、I/Oコントローラ260、ハードディスク270、光ディスクドライブ280及び半導体メモリ290を備える。なお、ハードディスク270、光ディスクドライブ280及び半導体メモリ290はまとめて記憶装置310と呼ばれる。
[Hardware configuration of erroneous conversion indication device 1]
FIG. 2 is a diagram illustrating a hardware configuration of the erroneous
制御部200は、誤変換指摘装置1を統括的に制御する部分であり、ハードディスク270に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
The
通信I/F230は、誤変換指摘装置1がネットワークを介して他の装置と情報を送受信する場合のネットワーク・アダプタである。
The communication I /
BIOS250は、誤変換指摘装置1の起動時にCPU210が実行するブートプログラムや、誤変換指摘装置1のハードウェアに依存するプログラム等を記録する。
The
I/Oコントローラ260には、ハードディスク270、光ディスクドライブ280及び半導体メモリ290等の記憶装置310を接続することができる。
The I /
ハードディスク270は、本ハードウェアを誤変換指摘装置1として機能させるための各種プログラム、本発明の機能を実行するプログラム及び後述するデータテーブル等を記憶する。なお、誤変換指摘装置1は、外部に別途設けたハードディスク(図示せず)を外部記憶装置として利用することもできる。
The
光ディスクドライブ280としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ及びCD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク300を使用する。光ディスク300から光ディスクドライブ280によりプログラム又はデータを読み取り、I/Oコントローラ260を介してメインメモリ240又はハードディスク270に提供することもできる。
As the
なお、本発明でいうコンピュータとは、記憶装置、制御部等を備えた情報処理装置をいい、誤変換指摘装置1は、記憶装置310、制御部200等を備えた情報処理装置により構成される。
The computer in the present invention refers to an information processing apparatus including a storage device, a control unit, and the like, and the erroneous
以上の例は、誤変換指摘装置1について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータをサーバ装置として動作させることにより上記で説明した機能を実現することもできる。したがって、本発明において一実施形態として説明した誤変換指摘装置1により実現される機能は、上述の方法を当該コンピュータにより実行することにより、或いは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。
In the above example, the erroneous
[文字入力処理のフローチャート]
図3は、文字入力処理のフローチャートである。
[Character input process flowchart]
FIG. 3 is a flowchart of the character input process.
まず、ステップS1では、制御部200は、仮名文字列の入力受付を行う。具体的には、制御部200は、誤変換指摘装置1に備えられたキーボード等の入力装置(図示せず)から、仮名文字列の入力を受け付ける。
First, in step S1, the
ステップS2では、制御部200は、漢字変換を行う。具体的には、制御部200は、ステップS1で受け付けた仮名文字列を漢字を含む文字列に漢字変換する。
In step S2, the
ここで、図5及び図6を参照して、図3のステップS1及びステップS2における変換処理の具体例を説明する。 Here, a specific example of the conversion process in step S1 and step S2 of FIG. 3 will be described with reference to FIGS.
図5は、入力時における入力文字列の例であり、囲み部分(図5における「やっと」、「れんしゅう」等)を入力する度に漢字変換が行われる。漢字変換は、文字を入力するユーザによって、入力装置の漢字変換に対応するキー(図示せず)が押下されるタイミングで行われる。 FIG. 5 is an example of an input character string at the time of input, and kanji conversion is performed each time a box portion (“Yatsuto”, “Renshu”, etc. in FIG. 5) is input. The kanji conversion is performed at a timing when a user inputting a character presses a key (not shown) corresponding to the kanji conversion of the input device.
図6は、変換後の文章の例であり、図5の囲み部分に対応して漢字変換がなされている。具体的に説明すると、「やっと」を入力し、入力装置の漢字変換に対応するキー(以下、「漢字変換キー」とする。)が押下されると、「やっと」と変換され、「れんしゅう」を入力し、漢字変換キーが押下されると、「練習」と変換され、以下、同様に繰り返される。 FIG. 6 is an example of the sentence after conversion, and kanji conversion is performed corresponding to the encircled portion of FIG. More specifically, when “Yatsuto” is input and a key corresponding to Kanji conversion of the input device (hereinafter referred to as “Kanji conversion key”) is pressed, “Yatsuto” is converted to “Renshu”. "Is input and the Kanji conversion key is pressed, it is converted to" practice ", and the same is repeated thereafter.
図3に戻って、ステップS3では、制御部200は、変換単位文字列テーブル(図7)の作成を行う。この変換単位文字列テーブルは、メインメモリ240の所定領域に作成される。
Returning to FIG. 3, in step S3, the
ここで、図7を参照して、変換単位文字列テーブルについて説明する。この変換単位文字列テーブルには、漢字変換の単位毎に変換前の文字列と変換後の文字列とが対応付けられており、漢字変換キーが押下されたタイミングで、最下段に変換前の文字列と変換後の文字列とが追加して格納される。 Here, the conversion unit character string table will be described with reference to FIG. In this conversion unit character string table, the character string before conversion and the character string after conversion are associated with each Kanji conversion unit, and at the timing when the Kanji conversion key is pressed, the character string before conversion is displayed at the bottom. The character string and the converted character string are added and stored.
例えば、図5の囲み部分「せいか」が入力され、漢字変換キーが押下されると、「せいか」が「変換前」欄に、「成果」が「変換後」欄に、追加して格納される。 For example, when the box “Seika” in FIG. 5 is input and the Kanji conversion key is pressed, “Seika” is added to the “Before conversion” field, and “Result” is added to the “After conversion” field. Stored.
図3に戻って、ステップS4では、制御部200は、文章作成終了か否かを判定する。この処理がYESと判定される場合、制御部200は、ステップS5に処理を移し、NOと判定される場合、処理をステップS1に戻す。具体的に文章作成終了を判定する方法は、例えば、文章が作成されたファイルが閉じられたことを制御部200が検知すること等である。なお、文章が作成されたファイルが閉じられると、図6に示す変換後の文章が記憶されたファイルが、ハードディスク270に記憶される。さらに、変換前の仮名文字列のみで構成されるファイル(図5に示す例において囲み部分を省いて漢字変換をしないものに相当)が、メインメモリ240に記憶される。
Returning to FIG. 3, in step S <b> 4, the
ここで、変換前の仮名文字列のみで構成されるファイルの作成方法は、上述した変換単位文字列テーブル(図7)の「変換前」欄の最上段に格納された仮名文字列から、下段に向かって最下段に至るまで順次に仮名文字列を抽出しファイルに展開する方法などが挙げられる。 Here, a method of creating a file composed only of kana character strings before conversion is based on the kana character strings stored in the uppermost column of the “before conversion” column of the above-described conversion unit character string table (FIG. 7). For example, a kana character string is sequentially extracted from the bottom to the bottom and expanded into a file.
図3に戻って、ステップS5では、制御部200は、同一仮名文字列抽出を行う。具体的には、制御部200は、上述した変換前の仮名文字列のみで構成されるファイルから、同一仮名文字列を検索して抽出する。
Returning to FIG. 3, in step S5, the
ここで、抽出される文字列は、「れんしゅうせいか」など複数存在する。 Here, there are a plurality of character strings to be extracted, such as “Ryushu Seika”.
ステップS6では、制御部200は、変換位置テーブル(図8)を作成する。
In step S6, the
ここで、図8を参照して、変換位置テーブルについて説明する。この変換位置テーブルは、ハードディスク270の所定の領域に割り当てられている。
Here, the conversion position table will be described with reference to FIG. This conversion position table is assigned to a predetermined area of the
図8では、説明の便宜のために「れんしゅうせいか」に絞っているが、実際には、図3のステップS5で抽出された文字列の全てについて、変換位置テーブルに書き込まれる。 In FIG. 8, for convenience of explanation, it is limited to “relenty”, but in reality, all the character strings extracted in step S5 of FIG. 3 are written in the conversion position table.
具体的には、制御部200は、変換単位文字列テーブル(図7)の「変換前」欄を検索し、2連続する仮名文字列データを結合し、ステップS5で抽出された文字列の全てと比較する。比較した結果、一致した文字列が存在した場合、制御部200は、この文字列の変換位置(何文字目の後で漢字変換キーが押下されたか)を判定し、この文字列について、変換位置テーブル(図8)の「入力ワード」欄、「変換後」欄、「変換位置」欄にデータが記憶される。
Specifically, the
変換単位文字列テーブル(図7)の「変換前」欄を参照すると、「れんしゅう」及び「せいか」が2連続しているので、「れんしゅうせいか」が、変換位置テーブル(図8)の入力ワード欄にデータ形式で記憶される。さらに、「れんしゅう」及び「せいか」にそれぞれ対応する「練習」及び「成果」を結合した「練習成果」が変換後欄にデータ形式で記憶される。変換位置については、「れんしゅう」は「れんしゅうせいか」の左から5文字分であるので、「5文字目の後」が変換位置欄にデータ形式で記憶される。 Referring to the “before conversion” column of the conversion unit character string table (FIG. 7), since “Ryushu” and “Seika” are two consecutive, “Ryushu Seika” is converted into the conversion position table (FIG. 8). ) Is stored in the data format in the input word field. Further, “practice results” obtained by combining “practice” and “results” corresponding to “renshu” and “seika” are stored in a data format in the converted column. Regarding the conversion position, “Renshu” is five characters from the left of “Renshuiseika”, so “after the fifth character” is stored in the conversion position column in the data format.
ここで、データ形式で記憶されるとは、文字コード等のデータが記憶されることであり、具体例を挙げれば、文字列「れんしゅうせいか」及び「練習成果」を構成する単位文字のそれぞれの文字コードが記憶されることである。また、「5文字目の後」については、「5」等の数値データが記憶されることである。 Here, storing in the data format means storing data such as character codes. To give a specific example, the unit characters constituting the character strings “Ryushu Seika” and “Practice Outcome” Each character code is stored. For “after the fifth character”, numerical data such as “5” is stored.
「れんしゅうせい」及び「か」についても同様に、変換位置テーブルの「入力ワード」欄、「変換後」欄、「変換位置」欄に、それぞれ、「れんしゅうせいか」、「練習生可」、「7文字目の後」が、データ形式で記憶される。 In the same way for “Ryushusei” and “Ka”, the “input word” field, “after conversion” field, and “conversion position” field in the conversion position table are respectively “Renesas Seika” and “Practice Student Allowed”. ”And“ after the seventh character ”are stored in the data format.
図3のステップS6の処理が終了すると、制御部200は、文字入力時処理を終了する。
When the process of step S6 in FIG. 3 is completed, the
[誤変換指摘処理のフローチャート]
図4は、誤変換指摘処理のフローチャートである。
[Flow chart of erroneous conversion indication processing]
FIG. 4 is a flowchart of the erroneous conversion indication process.
ステップS11では、制御部200は、文章入力受付を行う。具体的には、制御部200は、図6に示す、変換後の文章が記憶されたファイルをハードディスク270から読み込み、読み込んだファイルの文章データをメインメモリ240に展開する。
In step S11, the
図4に戻って、ステップS12では、制御部200は、検査対象語抽出を行う。具体的には、制御部200は、図6に示す漢字変換後の文章全体を仮名文字に変換し、変換した仮名文字の最長の共通部分に対応する漢字変換後の文字列を検査対象語として抽出する。
Returning to FIG. 4, in step S <b> 12, the
詳細に説明すると、図6に示す「やっと練習成果が出た・・・これも練習生可だと思う・・・」を仮名文字に変換すると、「やっとれんしゅうせいかがでた・・・これもれんしゅうせいかだとおもう・・・」となる。さらに、「やっとれんしゅうせいかがでた・・・これもれんしゅうせいかだとおもう・・・」の中から、最長の共通部分の文字列を抽出すると、「れんしゅうせいか」が得られる。さらにまた、「れんしゅうせいか」に対応する漢字変換後の文字列は、「練習成果」及び「練習生可」であるから、検査対象語は、「練習成果」及び「練習生可」となる。制御部200は、検査対象語を抽出したら、抽出した検査対象語と仮名文字列を対応付けて、検査対象語抽出結果テーブル(図9)を作成する。この検査対象語抽出結果テーブルは、メインメモリ240の所定領域に作成される。
Explaining in detail, when “practice results finally came out… I think this is also a trainee…” converted to kana characters, I'm sure it'll be ... " Furthermore, by extracting the longest common part character string from “It was a great deal, I guess it ’s a great deal”, you can get “Renshuiseika”. Furthermore, since the kanji converted character strings corresponding to “Renshuiseika” are “practice results” and “practice trainees”, the test target words are “practice results” and “practices trainees”. Become. When the test target word is extracted , the
図9を参照して、検査対象語抽出結果テーブルについて説明する。この検査対象語抽出結果テーブルは、同一仮名文字列と検査対象語との対応関係を表すテーブルある。 The inspection target word extraction result table will be described with reference to FIG. This inspection target word extraction result table is a table representing the correspondence between the same kana character string and the inspection target word.
このテーブルによれば、「れんしゅうせいか」に対応する検査対象語は「練習成果」及び「練習生可」である。 According to this table, the test target words corresponding to “Renshu Seika” are “practice result” and “practicable”.
図4に戻って、ステップS13では、制御部200は、変換位置抽出を行う。具体的には、制御部200は、検査対象語についての変換位置を、図8に示した変換位置テーブルを参照して抽出する。
Returning to FIG. 4, in step S13, the
ここで、変換位置の抽出方法について説明すると、制御部200は、図9に示した検査対象語抽出結果テーブルの「検査対象語」欄に格納されたデータをキーとして、図8に示した変換位置テーブルの「変換後」欄を検索して、変換位置を抽出する。
Here, the conversion position extraction method will be described. The
例えば、図9に示した検査対象語抽出結果テーブルの「検査対象語」欄に格納された「練習成果」をキーとした場合、変換位置として「5文字目の後」が抽出される。同様に、「練習生可」をキーとした場合、変換位置として「7文字目の後」が抽出される。 For example, when “practice result” stored in the “test target word” column of the test target word extraction result table shown in FIG. 9 is used as a key, “after the fifth character” is extracted as the conversion position. Similarly, when “Practice Student Allowed” is used as a key, “after the seventh character” is extracted as the conversion position.
抽出されたデータは、変換位置抽出結果テーブル(図10)の「変換位置」欄に記憶される。 The extracted data is stored in the “conversion position” column of the conversion position extraction result table (FIG. 10).
図10を参照して、変換位置抽出結果テーブルについて説明する。この変換位置抽出結果テーブルは、図9に示した検査対象語抽出結果テーブルに「変換位置」欄を追加したテーブルであり、メインメモリ240に記憶された検査対象語抽出結果テーブルに「変換位置」欄を結合して作成される。
The conversion position extraction result table will be described with reference to FIG. This conversion position extraction result table is a table in which the “conversion position” column is added to the inspection target word extraction result table shown in FIG. 9, and “conversion position” is added to the inspection target word extraction result table stored in the
図4に戻って、ステップS14では、制御部200は、誤変換フラグ起動を行う。具体的には、制御部200は、変換位置抽出結果テーブル(図10)における「検査対象語」欄に格納された複数の検査対象語にそれぞれ対応する変換位置を比較し、異なっている場合には、誤変換フラグ(変換位置の違いによる誤変換の可能性があることを示唆するフラグ)を起動(オンにする)し、同じ場合には、誤変換フラグを起動しない(オフのまま)。
Returning to FIG. 4, in step S <b> 14, the
実施例では、変換位置抽出結果テーブル(図10)における変換位置は、「練習成果」と「練習生可」とで異なっているので、制御部200は、誤変換フラグを「オン」にする。
In the embodiment, since the conversion positions in the conversion position extraction result table (FIG. 10) differ between “practice results” and “practice trainees allowed”, the
誤変換フラグが起動したか否かについては、図11に示す誤変換フラグ起動結果テーブルに記憶される。 Whether or not the erroneous conversion flag is activated is stored in the erroneous conversion flag activation result table shown in FIG.
図11を参照して、誤変換フラグ起動結果テーブルについて説明する。この誤変換フラグ起動結果テーブルは、図10に示した変換位置抽出結果テーブルに「誤変換フラグ」欄を追加したテーブルであり、メインメモリ240に記憶された変換位置抽出結果テーブルに「誤変換フラグ」欄を結合して作成される。
The erroneous conversion flag activation result table will be described with reference to FIG. This erroneous conversion flag activation result table is a table in which an “error conversion flag” column is added to the conversion position extraction result table shown in FIG. 10, and “error conversion flag” is added to the conversion position extraction result table stored in the
ここで、誤変換フラグが起動した場合には、「誤変換フラグ」欄に「オン」が格納され、起動しない場合には、「オフ」が格納される。「オン」を数値データの「1」、「オフ」を「0」としてもよい。 Here, when the erroneous conversion flag is activated, “ON” is stored in the “erroneous conversion flag” field, and when not activated, “OFF” is stored. “On” may be “1” of numerical data, and “off” may be “0”.
図11の誤変換フラグ起動結果テーブルを参照することにより、検査対象語について変換位置の違いによる誤変換の可能性があるか否かが分かる。図11の例で説明すると、誤変換フラグがオンとなっているので、「練習成果」又は「練習生可」に誤変換の可能性があることが分かる。 By referring to the erroneous conversion flag activation result table in FIG. 11, it can be determined whether or not there is a possibility of erroneous conversion due to a difference in conversion position for the inspection target word. In the example of FIG. 11, since the erroneous conversion flag is on, it can be seen that there is a possibility of erroneous conversion in “practice result” or “trainee acceptable”.
図4に戻って、ステップS15では、制御部200は、誤変換判定を行う。この誤変換判定の処理(及びステップS16の誤変換指摘の処理)は、ステップS14の処理で、誤変換フラグが起動した場合にのみ実行される。
Returning to FIG. 4, in step S <b> 15, the
誤変換判定の処理では、制御部200は、「練習成果」又は「練習生可」のどちらが誤変換であるかを判定する。
In the erroneous conversion determination process, the
まず、「練習生可」に誤変換があるか否かを判定する方法について説明する。 First, a method for determining whether or not there is an erroneous conversion in “Practice trainee” will be described.
詳細には、制御部200は、「練習成果」及び「練習生可」を同音異義語リストとして、ngram+PLSAの手法(三品拓也、貞光九月、山本幹雄「確率的LSAを用いた日本語同音異義語誤りの検出・訂正」、情報処理学会論文誌、平成16年9月、Vol.45、No.9、p.1−9)を用いて、ステップS11で読み込んだ文章中における「練習成果」のPLSAによってモデル化される大域的出現確率及びngramでモデル化される局所的出現確率に基づいて定義される尤度(以下、「尤度」とする)と、「練習生可」の尤度とを計算する。次に、誤り判定の計算として、制御部200は、計算した尤度の比の対数を算出し、算出した対数の値が一定の閾値を超えた場合に、「練習生可」に誤変換があると判定する。
Specifically, the
計算方法としては、d=log{(「練習生可」の尤度)/(「練習成果」の尤度)}を計算し、d<0となった場合に、「練習生可」に誤変換があると判定できる。しかし、判定条件がd<0では、「練習成果」の尤度が「練習生可」の尤度とほとんど変わらず、若干高い程度(例えば、「練習成果」の尤度が50で、「練習生可」の尤度が49)でも誤変換であると判定されてしまうので、判定条件d<0の閾値「0」の値は、負の数であることを条件に、適宜調節するようにしてもよい(例えば、d<−0.5等)。 As a calculation method, d = log { (likelihood of “practice trainee”) / (likelihood of “practice result”) } is calculated. It can be determined that there is a conversion. However, when the judgment condition is d <0, the likelihood of “practice results” is almost the same as the likelihood of “trainees allowed” and is slightly higher (for example, the likelihood of “practice results” is 50, Even if the likelihood of “possible” is 49), it is determined to be erroneous conversion. Therefore, the value of the threshold value “0” in the determination condition d <0 is appropriately adjusted on condition that it is a negative number. (E.g., d <-0.5).
一方、「練習成果」に誤変換があるか否かを判定する方法は、上記と同様の方法で、d=log{(「練習成果」の尤度)/(「練習生可」の尤度)}を計算することで行う。 On the other hand, a method for determining whether or not there is an erroneous conversion in the “practice result” is the same method as described above, and d = log { (likelihood of “practice result”) / (likelihood of “practice student”). ) } Is calculated.
ステップS16では、制御部200は、誤変換指摘を行う。この誤変換指摘の処理は、ステップS15の処理で、誤変換があると判定された場合にのみ実行される。
In step S16, the
具体的には、制御部200は、一方の検査対象語に誤変換があると判定された場合に、他方の検査対象語が正しいことを指摘する。具体例としては、図12に示すように、「練習生可」に誤変換があると判定された場合、「練習生可」に対して「練習成果」を指摘する。さらに、この図13に示した内容を、誤変換指摘装置1が備える表示装置(図示せず)に表示することで、ユーザは、誤変換があることを認識できる。
Specifically, when it is determined that there is an erroneous conversion in one of the inspection target words, the
誤変換があることを認識したユーザは、「練習生可」を「練習成果」に変更するか否かを判断し、変更する場合には、誤変換指摘装置1が備える変更確定ボタン(図示せず)を押下することで、変更を確定することができる。
The user who recognizes that there is an erroneous conversion determines whether or not to change “Practice Student Allowed” to “Practice Result”, and in the case of changing, a change confirmation button (not shown) provided in the erroneous
図4のステップS16の処理が終了すると、制御部200は、誤変換指摘処理を終了する。
When the process of step S16 in FIG. 4 ends, the
以上の処理を行うことにより、文章中の同音異義語(検査対象語)について変換位置が異なる場合であっても、変換誤りを指摘することができる。 By performing the above processing, a conversion error can be pointed out even if the conversion position is different for the homonym (inspection word) in the sentence.
さらに、誤変換フラグが起動した場合にのみ、検査対象語に誤変換があるか否かを判定するので、誤変換の判定対象を絞り込むことができ、誤変換判定処理の処理効率をアップさせることができる。 Furthermore, since it is determined whether or not there is an erroneous conversion in the inspection target word only when the erroneous conversion flag is activated, it is possible to narrow down the erroneous conversion determination target and increase the processing efficiency of the erroneous conversion determination process. Can do.
以上、実施例では、変換位置テーブル(図8)が誤変換指摘装置1に備えられているが、これに限られるものではない。例えば、図13に示すように、サーバ400が変換位置テーブルを備えるようにして、誤変換指摘装置1と通信しつつ、サーバ400内の変換位置テーブルを作成し(図3のステップS6における処理を行う)、さらに、参照する(図4のステップS12及びステップS13における処理を行う)ようにしてもよい。
As described above, in the embodiment, the conversion position table (FIG. 8) is provided in the erroneous
また、実施例における図4のステップS12における検査対象語抽出処理では、制御部200は、図6に示す漢字変換後の文章全体を仮名文字に変換し、変換した仮名文字の最長の共通部分に対応する漢字変換後の文字列を検査対象語として抽出したが、これに限られるものではない。後述する図14に示す、ステップS31からステップS36の処理を、図4のステップS12の処理に替えて行うようにしてもよい。
Further, in the inspection target word extraction process in step S12 of FIG. 4 in the embodiment, the
以下、図14を参照して、検査対象語抽出処理について説明する。 Hereinafter, the inspection target word extraction process will be described with reference to FIG.
ステップS31では、制御部200は、形態素解析を行う。具体的には、制御部200は、図4のステップS11で読み込んだファイルの文章データを形態素解析する。ステップS32では、制御部200は、仮名変換を行い、ステップS33では、制御部200は、隣接2形態素の連結を行う。
In step S31, the
ここで、形態素解析とは、コンピュータ等の計算機を用いた自然言語処理の基礎技術のひとつであり、対象言語の文法の知識(文法のルールの集まり)や辞書(品詞等の情報付きの単語リスト)を情報源として用い、自然言語で書かれた文を形態素(おおまかにいえば、言語で意味を持つ最小単位)の列に分割することである。 Here, morphological analysis is one of the basic techniques of natural language processing using a computer such as a computer, and it includes knowledge of the target language grammar (gathering of grammar rules) and dictionary (word list with information such as parts of speech). ) As an information source, and a sentence written in a natural language is divided into columns of morphemes (roughly speaking, the smallest unit having meaning in a language).
図15を参照して、形態素解析の具体例について、仮名変換と隣接2形態素の連結をも含めて説明する。図15は、形態素解析の過程と、隣接2形態素の連結とを示す図である。例えば、「練習成果」について形態素解析を行うと、「練習」と「成果」と、に分割される(図15の丸数字1)。
A specific example of morphological analysis will be described with reference to FIG. 15 including kana conversion and connection of adjacent two morphemes. FIG. 15 is a diagram illustrating a process of morphological analysis and a connection between adjacent two morphemes. For example, when morphological analysis is performed on “practice results”, it is divided into “practices” and “results” (
次に、分割された形態素である「練習」及び「成果」を仮名変換し、それぞれ「れんしゅう」及び「せいか」に変換する(図15の丸数字2)。
Next, “practice” and “result” which are the divided morphemes are converted to kana and converted to “rensyu” and “seika”, respectively (
次に、隣接2形態素(分割された形態素のうち互いに隣接する二つの形態素)の連結であるが、「れんしゅう」及び「せいか」は、互いに隣接するので、これらを連結して「れんしゅうせいか」とする(図15の丸数字3)。 Next, two adjacent morphemes (two morphemes adjacent to each other among the divided morphemes) are connected. Since “Ryushu” and “Seika” are adjacent to each other, they are connected to each other, "Seikai" (circled number 3 in FIG. 15).
「練習生可だ」については、形態素解析を行い(図15の丸囲み数字1)、「練習生」と「可」と「だ」に分割し、仮名変換を行い(図15の丸囲み数字2)、それぞれ「れんしゅうせい」と「か」と「だ」に変換し、隣接2形態素の連結を行い、「れんしゅうせいか」と「かだ」とする。
For “Practice Student Allowed”, morphological analysis is performed (circled
この形態素解析、仮名変換、隣接2形態素の連結の過程は、制御部200によりデータとしてメインメモリ240に一時的に記憶される。
The processes of morphological analysis, kana conversion, and connection of adjacent two morphemes are temporarily stored in the
図14に戻って、ステップS34では、制御部200は、同一仮名検索テーブル(図16参照)の作成を行う。具体的には、図15で説明した、連結された隣接2形態素(以下、「連結形態素」という。)を含む形態素のそれぞれについて、ステップS11で読み込んだファイルの文章中の文字列との対応関係と、形態素に分割する前の文字列との対応関係と、をハードディスク270の所定の領域に割り当てられた同一仮名検索テーブルに記憶する。
Returning to FIG. 14, in step S <b> 34, the
図16を参照して、同一仮名検索テーブルについて説明する。この同一仮名検索テーブルは、上述したように、仮名のみの連結形態素を含む形態素(連結形態素を含む形態素(仮名のみ))と、文章中の文字列(連結形態素を含む形態素(文章中))と、形態素に分割する前の文字列(形態素に分ける前)と、の対応関係を記憶するテーブルである。 The same kana search table will be described with reference to FIG. As described above, the same kana search table includes a morpheme including a connected morpheme only of kana (morpheme including a connected morpheme (only kana)), a character string in a sentence (a morpheme including a connected morpheme (in a sentence)), and This is a table for storing a correspondence relationship between character strings before being divided into morphemes (before being divided into morphemes).
この同一仮名検索テーブルは、メインメモリ240にデータとして記憶された、形態素解析、仮名変換、隣接2形態素の連結の過程のデータに基づいて作成される。
This same kana search table is created based on data of morpheme analysis, kana conversion, and connection of adjacent two morphemes stored as data in the
例えば、図15における連結形態素としての「れんしゅうせいか」について、図16の同一仮名検索テーブルでの対応関係を説明すると、文章中の文字列「練習成果」及び「練習生可」に対応しており、形態素に分ける前では「練習成果」及び「練習生可だ」に対応している。 For example, the correspondence relationship in the same kana search table of FIG. 16 will be described for “rensyu seika” as the connected morpheme in FIG. 15, corresponding to the character strings “practice results” and “trainees allowed” in the sentence. Before dividing into morphemes, it corresponds to “practice results” and “practicable”.
図14に戻って、ステップS35では、制御部200は、同一仮名検索を行う。具体的には、制御部200は、同一仮名検索テーブル(図16)を参照して、「連結形態素を含む形態素(仮名のみ)」欄を参照して、同一仮名の検索(2以上の同文字列があれば同一仮名が存在することになる)を行う。
Returning to FIG. 14, in step S <b> 35, the
例えば、図16の同一仮名検索テーブルでは、検索結果として「れんしゅうせいか」が同一仮名として抽出される。 For example, in the same kana search table of FIG. 16, “renyu seika” is extracted as the same kana as the search result.
図14に戻って、ステップS36では、制御部200は、検査対象語抽出を行う。具体的には、制御部200は、図16の同一仮名検索テーブルから、同一仮名として検索された連結形態素を含む形態素(仮名のみ)に対応する連結形態素を含む形態素(文章中)を抽出する。
Returning to FIG. 14, in step S <b> 36, the
例えば、検索された同一仮名は「れんしゅうせいか」であるので、「れんしゅうせいか」に対応する行のデータ(「練習成果」及び「練習生可」)を抽出して、上述した検査対象語抽出結果テーブル(図9)を作成する。 For example, since the retrieved same kana is “Renshuiseika”, the row data corresponding to “Renshuiseika” (“Practice result” and “Practice trainee”) is extracted and the above-mentioned inspection is performed. A target word extraction result table (FIG. 9) is created.
ステップS36の処理が終了すると、制御部200は、図4のステップS13の処理を行う。
When the process of step S36 ends, the
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。 As mentioned above, although embodiment of this invention was described, this invention is not restricted to embodiment mentioned above. The effects described in the embodiments of the present invention are only the most preferable effects resulting from the present invention, and the effects of the present invention are limited to those described in the embodiments of the present invention. is not.
1 誤変換指摘装置
110 同一仮名文字列抽出手段
120 変換位置記憶手段
130 文章受付手段
140 検査対象語抽出手段
150 誤変換指摘手段
DESCRIPTION OF
Claims (6)
仮名文字列の漢字変換後の変換区切り位置を記憶する変換区切位置記憶手段と、
漢字変換後の文章全体を仮名文字列に変換した際に、当該仮名文字列の最長の共通部分に対応する前記漢字変換後の文字列をそれぞれ検査対象語として抽出する検査対象語抽出手段と、
前記変換区切位置記憶手段を参照することにより、前記検査対象語抽出手段によって抽出された各前記検査対象語の変換区切り位置を抽出する変換区切位置抽出手段と、
前記変換区切位置抽出手段によって抽出された変換区切り位置が前記検査対象語間で異なる場合に、前記検査対象語抽出手段により抽出された前記検査対象語に誤変換があるか否かを判定する誤変換判定手段と、を備え、
前記誤変換判定手段によって誤変換があると判定された場合に、前記検査対象語抽出手段により抽出された前記検査対象語に誤変換があることを指摘する
ことを特徴とする誤変換指摘装置。 An erroneous conversion indication device for indicating an erroneous conversion included in a sentence composed of converted character strings,
A conversion break position storage means for storing a conversion delimiter position after kanji conversion kana character string,
When the entire sentence after the kanji conversion is converted into a kana character string, a test target word extracting unit that extracts the character string after the kanji conversion corresponding to the longest common part of the kana character string as a test target word, and
A conversion delimiter position extracting unit that extracts a conversion delimiter position of each of the test target words extracted by the test target word extracting unit by referring to the conversion delimiter position storage unit ;
When the conversion delimiter positions extracted by the conversion delimiting position extracting means is different between the inspection target word, to determine whether there is a conversion false before Symbol inspection target word extracted by said object word extraction means An erroneous conversion determination means ,
When the erroneous conversion determining means determines that there is an erroneous conversion, it points out that there is an erroneous conversion in the test target word extracted by the test target word extracting means. Conversion indication device.
前記漢字変換後の文章を形態素に分割する形態素分割手段と、
形態素分割手段によって分割された形態素を仮名文字列に変換する仮名変換手段と、
仮名変換手段によって仮名文字列に変換された形態素を連結する仮名形態素連結手段と、
仮名形態素連結手段によって連結された形態素である連結形態素の中から同一の連結形態素を抽出する同一連結形態素抽出手段と、を備え、
前記漢字変換後の文章の中から、抽出した前記同一の連結形態素に対応する文字列を検査対象語として抽出することを特徴とする請求項1記載の誤変換指摘装置。 The inspection target word extraction means includes
Morpheme dividing means for dividing the sentence after the kanji conversion into morphemes;
A kana conversion means for converting the morpheme divided by the morpheme dividing means into a kana character string;
Kana morpheme linking means for linking morphemes converted into kana character strings by the kana conversion means;
The same connected morpheme extracting means for extracting the same connected morpheme from the connected morphemes that are connected by the kana morpheme connecting means,
2. The erroneous conversion indication device according to claim 1, wherein a character string corresponding to the extracted connected morpheme is extracted as an inspection target word from the sentence after the Kanji conversion.
前記変換区切位置抽出手段によって抽出された前記変換区切り位置が前記検査対象語間で異なる場合に、前記検査対象語に誤変換の可能性があることを示唆する誤変換フラグを起動する誤変換フラグ起動手段を備え、
前記誤変換判定手段は、前記誤変換フラグが起動した場合に、前記抽出された前記検査対象語に誤変換があるか否かを判定することを特徴とする請求項1又は2に記載の誤変換指摘装置。 The conversion break position storage means stores in association with the conversion delimiting position and kana character string and the character string after kanji conversion,
False front Symbol converter break position extracting means and said converting delimiter position extracted by the when different between the inspection target word, activates erroneously conversion flag to indicate that there is a possibility of erroneous converted before Symbol inspected word Conversion flag activation means ,
The erroneous conversion determination unit, when the erroneous conversion flag is activated, according to claim 1 or 2, characterized in the Turkey to determine whether there is a conversion erroneous said object word the extracted Incorrect conversion indication device.
仮名文字列の漢字変換後の変換区切り位置を記憶する記憶ステップと、
漢字変換後の文章全体を仮名文字列に変換した際に、当該仮名文字列の最長の共通部分に対応する前記漢字変換後の文字列をそれぞれ検査対象語として抽出する検査対象語抽出ステップと、
前記記憶された前記変換区切り位置に基づいて、前記抽出された各前記検査対象語の変換区切り位置を抽出する変換区切位置抽出ステップと、
前記抽出された変換区切り位置が前記検査対象語間で異なる場合に、前記抽出された前記検査対象語に誤変換があるか否かを判定する誤変換判定ステップと、
前記誤変換があると判定された場合に、前記抽出された前記検査対象語に誤変換があることを指摘する指摘ステップと、
を有することを特徴とする誤変換指摘方法。 An erroneous conversion indication method in which a computer indicates an erroneous conversion included in a sentence composed of converted character strings,
A storage step for storing the conversion delimiter position after the kanji conversion of the kana character string;
A test target word extraction step of extracting the kanji converted character string corresponding to the longest common part of the kana character string as a test target word when the entire sentence after the kanji conversion is converted into a kana character string;
On the basis of the stored the converted delimiter position, and conversion break position extracting a conversion delimiter position of each of the inspection target word which is the extraction,
An erroneous conversion determination step for determining whether or not there is an erroneous conversion in the extracted inspection target word when the extracted conversion break position differs between the inspection target words;
When it is determined that there is the erroneous conversion, an indication step for pointing out that there is an erroneous conversion in the extracted word to be examined;
Erroneous transformation point out methods wherein Rukoto to have a.
前記漢字変換後の文章を形態素に分割し、
分割された前記形態素を仮名文字列に変換し、
仮名文字列に変換された前記形態素を連結し、
連結された前記形態素である連結形態素の中から同一の連結形態素を抽出し、
前記漢字変換後の文章の中から、抽出した前記同一の連結形態素に対応する文字列を検査対象語として抽出することを特徴とする請求項4記載の誤変換指摘方法。 In the inspection target word extraction step,
Divide the kanji-converted sentence into morphemes,
Converting the divided morpheme into a kana character string;
Concatenate the morphemes converted to kana strings,
Extracting the same connected morpheme from the connected morphemes that are the connected morphemes,
5. The erroneous conversion indication method according to claim 4, wherein a character string corresponding to the extracted connected morpheme is extracted as an inspection target word from the sentence after the Kanji conversion.
前記抽出された前記変換区切り位置が前記検査対象語間で異なる場合に、前記検査対象語に誤変換の可能性があることを示唆する誤変換フラグを起動する起動ステップを有し、
前記誤変換判定ステップでは、前記誤変換フラグが起動した場合に、前記抽出された前記検査対象語に誤変換があるか否かを判定することを特徴とする請求項4又は5に記載の誤変換指摘方法。 In the storing step, the same kana character string, the character string after the kanji conversion and the conversion delimiter position are stored in association with each other,
Having an activation step of the extracted said conversion delimiter position said to vary between the inspection subject word starts erroneous conversion flag to indicate that there is a possibility of erroneous converted before Symbol inspection target word,
Wherein the erroneous conversion determination step, when the erroneous conversion flag is activated, according to whether there is a conversion erroneous the extracted the inspection target word to claim 4 or 5, wherein the stamp Teisu Rukoto Of misconversion indication.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009058168A JP5047209B2 (en) | 2009-03-11 | 2009-03-11 | Error conversion pointing device and method for indicating error conversion based on conversion break position |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009058168A JP5047209B2 (en) | 2009-03-11 | 2009-03-11 | Error conversion pointing device and method for indicating error conversion based on conversion break position |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2010211609A JP2010211609A (en) | 2010-09-24 |
| JP5047209B2 true JP5047209B2 (en) | 2012-10-10 |
Family
ID=42971678
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2009058168A Expired - Fee Related JP5047209B2 (en) | 2009-03-11 | 2009-03-11 | Error conversion pointing device and method for indicating error conversion based on conversion break position |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5047209B2 (en) |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH08263492A (en) * | 1995-03-22 | 1996-10-11 | Syst Sofuto:Kk | Method and device for supporting document preparation |
-
2009
- 2009-03-11 JP JP2009058168A patent/JP5047209B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2010211609A (en) | 2010-09-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5599662B2 (en) | System and method for converting kanji into native language pronunciation sequence using statistical methods | |
| JP4301515B2 (en) | Text display method, information processing apparatus, information processing system, and program | |
| US10762293B2 (en) | Using parts-of-speech tagging and named entity recognition for spelling correction | |
| KR101629415B1 (en) | Method for detecting grammar error and apparatus thereof | |
| CN111177184A (en) | Natural language-based structured query language conversion method and related equipment | |
| US9594742B2 (en) | Method and apparatus for matching misspellings caused by phonetic variations | |
| JP5646792B2 (en) | Word division device, word division method, and word division program | |
| JP6532088B2 (en) | Autonomous learning alignment-based alignment corpus generation device and method thereof, morpheme analysis device of destruction expression using alignment corpus, and morphological analysis method thereof | |
| JPH07325828A (en) | Grammar check system | |
| KR20230009564A (en) | Learning data correction method and apparatus thereof using ensemble score | |
| Kirov et al. | Context-aware transliteration of romanized South Asian languages | |
| JP6055267B2 (en) | Character string dividing device, model file learning device, and character string dividing system | |
| JP2010134922A (en) | Similar word determination method and system | |
| JP7040155B2 (en) | Information processing equipment, information processing methods and programs | |
| JP5047209B2 (en) | Error conversion pointing device and method for indicating error conversion based on conversion break position | |
| KR102925038B1 (en) | A method for performing spacing correction on text data and an apparatus for performing spacing correction on text data | |
| US8977538B2 (en) | Constructing and analyzing a word graph | |
| JP5795302B2 (en) | Morphological analyzer, method, and program | |
| JP4941495B2 (en) | User dictionary creation system, method, and program | |
| CN112817996A (en) | Illegal keyword library updating method, device, equipment and storage medium | |
| JP5159657B2 (en) | Misconversion indication device and method for pointing out misconversion of character strings including kanji characters having multiple types of reading characters | |
| JP3935374B2 (en) | Dictionary construction support method, apparatus and program | |
| JP2010211004A (en) | Dictionary preparing device, dictionary preparing system, dictionary preparing method, and dictionary preparing program | |
| KR101629726B1 (en) | Method and program for proofreading word spacing | |
| JP5937496B2 (en) | Reading kana error detection apparatus, method and program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120410 |
|
| RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20120418 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120607 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120710 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120717 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150727 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5047209 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| LAPS | Cancellation because of no payment of annual fees |