JP6979294B2 - Calibration support device, calibration support method and calibration support program - Google Patents
Calibration support device, calibration support method and calibration support program Download PDFInfo
- Publication number
- JP6979294B2 JP6979294B2 JP2017132713A JP2017132713A JP6979294B2 JP 6979294 B2 JP6979294 B2 JP 6979294B2 JP 2017132713 A JP2017132713 A JP 2017132713A JP 2017132713 A JP2017132713 A JP 2017132713A JP 6979294 B2 JP6979294 B2 JP 6979294B2
- Authority
- JP
- Japan
- Prior art keywords
- calibration
- sentence
- candidate
- proofreading
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、校正支援装置、校正支援方法及び校正支援プログラムに関する。 The present invention relates to a calibration support device, a calibration support method, and a calibration support program.
近年の人工知能(AI)の発達に伴い、分散表現を用いた自然言語処理が注目されており、例えば、自然言語処理を応用した校正支援装置が開発されている。 With the development of artificial intelligence (AI) in recent years, natural language processing using distributed expressions has attracted attention, and for example, a proofreading support device applying natural language processing has been developed.
非特許文献1には、文の一箇所をブランクとし、ブランク前後の分散表現を用いて、ブランク箇所に入る単語候補を予測する技術が開示されている。
本発明者らは、非特許文献1の技術を校正支援装置に応用できる可能性を見出し、種々の検討を行った。しかし、非特許文献1の技術では、基本的には複数の言い換え候補が予測されるため、例えば「宮崎駅の西口から延びる」という文の「の」の言い換え候補として「東口」「南口」が含まれる等、校正には不適切な候補も含まれる。そのため、非特許文献1の技術を、そのまま校正支援装置へ適用すると、校正の精度が十分ではなく、不自然な日本語になるという問題があった。
The present inventors have found the possibility that the technique of Non-Patent
本発明は、かかる現状に鑑みてなされたものであり、分散表現を用いた校正候補の予測結果から適切な候補を選択し、正確な校正を支援することが可能な校正支援装置、校正支援方法及び校正支援プログラムを提供することを目的とする。 The present invention has been made in view of the present situation, and is a calibration support device and a calibration support method capable of selecting an appropriate candidate from the prediction results of calibration candidates using distributed representation and supporting accurate calibration. And to provide a calibration support program.
本発明の校正支援装置は、
校正対象文を処理単位に分割して分かち書き文を生成する分かち書き文生成部と、
前記分かち書き文を構成する処理単位のうち、校正履歴コーパス中の見出しと一致する処理単位を校正対象として判定する校正対象判定部と、
前記校正対象の前後少なくとも一方の処理単位または処理単位群が有するベクトルを用いて、校正候補を予測する校正候補予測部と、
前記校正候補のうち、前記校正履歴コーパス中の前記見出しに対応する校正結果と一致する校正候補を適切候補として判定する適切候補判定部と、
を有することを特徴とする。
The calibration support device of the present invention is
A word-separated sentence generator that divides the proofreading target sentence into processing units and generates a word-separated sentence,
Of the processing units that make up the word-separated text, the proofreading target determination unit that determines the processing unit that matches the heading in the proofreading history corpus as the proofreading target.
A calibration candidate prediction unit that predicts calibration candidates using a vector possessed by at least one processing unit or processing unit group before and after the calibration target.
Among the calibration candidates, an appropriate candidate determination unit that determines a calibration candidate that matches the calibration result corresponding to the heading in the calibration history corpus as an appropriate candidate.
It is characterized by having.
また、本発明の校正支援方法は、
コンピューターが実行する校正支援方法であって、
校正対象文を処理単位に分割して分かち書き文を生成する分かち書き文生成ステップと、
前記分かち書き文を構成する処理単位のうち、校正履歴コーパス中の見出しと一致する処理単位を校正対象として判定する校正対象判定ステップと、
前記校正対象の前後少なくとも一方の処理単位または処理単位群が有するベクトルを用いて、校正候補を予測する校正候補予測ステップと、
前記校正候補のうち、前記校正履歴コーパス中の前記見出しに対応する校正結果と一致する校正候補を適切候補として判定する適切候補判定ステップと、
を有することを特徴とする。
Further, the calibration support method of the present invention is:
It is a proofreading support method performed by a computer.
A step to generate a word-separated sentence by dividing the calibrated sentence into processing units and generating a word-separated sentence,
A proofreading target determination step for determining a processing unit that matches a heading in the proofreading history corpus as a proofreading target among the processing units constituting the divided sentence.
A calibration candidate prediction step for predicting a calibration candidate using a vector possessed by at least one processing unit or processing unit group before and after the calibration target.
Among the calibration candidates, an appropriate candidate determination step for determining a calibration candidate that matches the calibration result corresponding to the heading in the calibration history corpus as an appropriate candidate.
It is characterized by having.
また、本発明の校正支援プログラムは、
コンピューターに、
校正対象文を処理単位に分割して分かち書き文を生成する分かち書き文生成ステップと、
前記分かち書き文を構成する処理単位のうち、校正履歴コーパス中の見出しと一致する処理単位を校正対象として判定する校正対象判定ステップと、
前記校正対象の前後少なくとも一方の処理単位または処理単位群が有するベクトルを用いて、校正候補を予測する校正候補予測ステップと、
前記校正候補のうち、前記校正履歴コーパス中の前記見出しに対応する校正結果と一致する校正候補を適切候補として判定する適切候補判定ステップと、
を実行させることを特徴とする。
Further, the calibration support program of the present invention is
On the computer
A step to generate a word-separated sentence by dividing the calibrated sentence into processing units and generating a word-separated sentence,
A proofreading target determination step for determining a processing unit that matches a heading in the proofreading history corpus as a proofreading target among the processing units constituting the divided sentence.
A calibration candidate prediction step for predicting a calibration candidate using a vector possessed by at least one processing unit or processing unit group before and after the calibration target.
Among the calibration candidates, an appropriate candidate determination step for determining a calibration candidate that matches the calibration result corresponding to the heading in the calibration history corpus as an appropriate candidate.
Is characterized by executing.
本発明によれば、分散表現を用いた校正候補の予測結果に、校正に不適切な候補が含まれていても、より適切な候補を選択することができ、より正確な校正が可能となる。 According to the present invention, even if the prediction result of the calibration candidate using the distributed representation includes a candidate inappropriate for calibration, a more appropriate candidate can be selected, and more accurate calibration becomes possible. ..
以下、本発明の校正支援装置及び校正支援方法の実施形態について、図面を参照しながら詳細に説明する。なお、本発明の校正支援装置及び校正支援方法は、以下に示す実施形態に限定されるものではない。 Hereinafter, embodiments of the calibration support device and the calibration support method of the present invention will be described in detail with reference to the drawings. The calibration support device and the calibration support method of the present invention are not limited to the embodiments shown below.
1.第1実施形態
≪校正支援装置≫
図1は、本実施形態の校正支援装置の構成の一例を示すブロック図である。図1において、1は文入力部、2は分かち書き文生成部、3は校正対象判定部、4は校正候補予測部、5は適切候補判定部、6は出力部、8は校正履歴コーパス、9は形態素解析用辞書、10はベクトル学習済みモデルである。
1. 1. 1st Embodiment << Calibration support device >>
FIG. 1 is a block diagram showing an example of the configuration of the calibration support device of the present embodiment. In FIG. 1, 1 is a sentence input unit, 2 is a word-separated sentence generation unit, 3 is a calibration target determination unit, 4 is a calibration candidate prediction unit, 5 is an appropriate candidate determination unit, 6 is an output unit, 8 is a calibration history corpus, and 9 Is a dictionary for morphological analysis, and 10 is a vector-learned model.
<文入力部1>
まず、校正対象文が文入力部1に入力される。入力の方法は特に限定されず、例えば、キーボードによる入力、手書きによる入力等が挙げられる。文入力部1は、校正対象文を分かち書き文生成部2に出力する。
<
First, the proofreading target sentence is input to the
<分かち書き文生成部2>
分かち書き文生成部2は、校正対象文を処理単位に分割して分かち書き文を生成する。例えば、あらかじめ生成しておいた形態素解析用辞書9を用いて、校正対象文の形態素解析を行い、校正対象文を形態素と固有名詞に分割する。固有名詞については、形態素解析用辞書9に含まれていればそれ以上は分割しないことが好ましい。例えば、人物の姓名は、一般的な形態素解析では「姓」と「名」に分割され、「姓/名」という結果が得られる(以下、「/」は処理単位の区切り箇所を示す)。しかし、形態素解析用辞書9に、例えば著名人の姓名が含まれていれば、その姓名を固有名詞と判断し、「姓」と「名」に分割せずに処理単位とする。本実施形態では、処理単位は原則、形態素または固有名詞であるが、連続する形態素を幾つか結合した形態素群(例えば「伸び/る」という前後2つの形態素を結合した「伸びる」)を、処理単位としてもよい。
<Divided
The word-separated
分かち書き文生成部2は、校正対象文を処理単位に分割し、さらに、文頭に例えば<bos>等の文頭記号、文末に例えば<eos>等の文末記号を配置して、分かち書き文を生成する。分かち書き文生成部2は、生成した分かち書き文を、校正対象判定部3に出力する。
The word-separated
なお、分かち書き文は形態素解析以外の方法を用いて生成してもよい。例えば、「SentencePiece」という手法の様に、確率的な観点あるいはその後の処理のし易さの観点から処理単位に分割してもよい。また、例えば、校正対象文がスペースを用いる言語である場合にはスペースで区切って処理単位に分割する、校正対象文がスペースを用いない言語である場合には1文字ごとに処理単位に分割する等、校正対象の言語や校正の目的によって、処理単位を適宜決定してもよい。 The word-separated sentence may be generated by using a method other than morphological analysis. For example, as in the method of "SentencePiece", it may be divided into processing units from the viewpoint of probability or the ease of subsequent processing. Also, for example, if the proofreading target sentence is a language that uses spaces, it is divided into processing units by separating it with spaces, and if the proofreading target sentence is a language that does not use spaces, it is divided into processing units for each character. Etc., the processing unit may be appropriately determined depending on the language to be calibrated and the purpose of proofreading.
<校正対象判定部3>
校正対象判定部3は、分かち書き文を構成する処理単位のそれぞれを、あらかじめ生成しておいた校正履歴コーパス8の見出しと対比し、校正履歴コーパス8の見出しと一致する処理単位を、校正対象として判定する。処理単位の対比の順番は特に限定されない。ここで、校正履歴コーパス8は、過去の校正履歴を蓄積したデータベースであり、例えば表1に示すように、校正前の処理単位を見出しとし、校正結果と、校正の属性(挿入、削除、置換)と、校正回数(過去の出現回数)を関連付けたレコードが記録されている。したがって、校正対象判定部3は、分かち書き文を構成する処理単位のうち、過去に校正対象となったことがある処理単位を校正対象として判定することになる。なお、校正履歴コーパス8の詳細については後述する。
<Calibration
The proofreading
校正対象判定部3は、すべての処理単位を校正履歴コーパス8の見出しと対比してもいいし、第2実施形態で示すように、誤り箇所自動検出部により誤り箇所と推測された処理単位のみを校正履歴コーパス8の見出しと対比してもいい。
The calibration
校正対象判定部3は、判定した校正対象を校正候補予測部4に出力する。校正対象が複数ある場合、校正対象を一つずつ出力してもよいし、複数の校正対象を一度に出力してもよい。また、複数の校正対象を一度に出力する場合には、校正対象判定部3と校正候補予測部4の間に校正対象記憶部を設け、校正対象判定部3から出力された複数の校正対象を、一旦、校正対象記憶部に保持し、一つずつ校正候補予測部4に出力してもよい。
The calibration
<校正候補予測部4>
校正候補予測部4は、校正対象の一つをブランクとした場合に、そのブランクを埋める処理単位、すなわち校正候補を、校正対象(ブランク)の前後少なくとも一方、好ましくは両方の処理単位または処理単位群が有するベクトル(分散表現)、例えば文字ベクトル、単語ベクトル、文ベクトル等を用いて予測する。処理単位が有するベクトルは、例えば、あらかじめ生成しておいたベクトル学習済みモデル10から取得することができる。また、処理単位群が有するベクトルは、ベクトル学習済みモデル10から取得した処理単位が有するベクトルを用いて計算することができる。ここで、ベクトル学習済みモデル10は、過去に校正された校正後の文から、単語ベクトル等のベクトル(分散表現)を、それぞれの処理単位で機械学習し、学習済みモデルとして蓄積したものである。なお、ベクトル学習済みモデル10の詳細については後述する。
<Proofreading candidate prediction unit 4>
When one of the calibration targets is a blank, the calibration candidate prediction unit 4 sets the processing unit for filling the blank, that is, the calibration candidate at least one before or after the calibration target (blank), preferably both processing units or processing units. Prediction is made using a vector (distributed expression) possessed by a group, for example, a character vector, a word vector, a sentence vector, or the like. The vector of the processing unit can be obtained from, for example, the vector trained
予測の方法としては、例えば、以下の方法が挙げられる。なお、類似度の計算においては、例えばコサイン類似度が利用できる。
(1)ベクトル学習済みモデル10から、ブランク前後の複数の形態素が有するそれぞれの単語ベクトルを取得し、これらの平均ベクトルを算出する。算出した平均ベクトルと類似度が高い単語ベクトルを有する形態素を、ベクトル学習済みモデル10から取得して、その形態素を校正候補として予測する。
(2)ベクトル学習済みモデル10から、ブランク前後の形態素群に含まれる形態素が有するそれぞれの単語ベクトルを取得し、例えば「context2vec」等を利用して、ブランク前後の文ベクトルを算出する。算出した文ベクトルと類似度が高い単語ベクトルを有する形態素を、ベクトル学習済みモデル10から取得して、その形態素を校正候補として予測する。
Examples of the prediction method include the following methods. In the calculation of similarity, for example, cosine similarity can be used.
(1) From the vector-learned
(2) From the vector-learned
尚、校正対象文の先頭または末尾の処理単位が校正対象である場合は、文頭記号<bos>、文末記号<eos>が有するベクトルを用いてもよいし、校正対象の後のみまたは前のみの処理単位または処理単位群が有するベクトルを用いてもよい。 When the processing unit at the beginning or end of the proofreading target is the proofreading target, the vector of the sentence beginning symbol <bos> and the sentence ending symbol <eos> may be used, or only after or before the proofreading target. The vector of the processing unit or the processing unit group may be used.
また、校正候補予測部4は、校正候補を予測する際に、他の校正対象の少なくとも一つを適切候補の一つに置き換えて校正候補を予測してもよい。特に、最適候補に置き換えた場合には、校正候補の予測の精度が向上するため好ましい。 Further, when predicting a calibration candidate, the calibration candidate prediction unit 4 may predict the calibration candidate by replacing at least one of the other calibration targets with one of the appropriate candidates. In particular, when it is replaced with the optimum candidate, the accuracy of prediction of the calibration candidate is improved, which is preferable.
校正候補予測部4は、予測した校正候補を適切候補判定部5に出力する。校正候補が複数ある場合、校正候補を一つずつ出力してもよいし、複数の校正候補を一度に出力してもよい。また、複数の校正候補を一度に出力する場合には、校正候補予測部4と適切候補判定部5の間に校正候補記憶部を設け、校正候補予測部4から出力された複数の校正候補を、一旦、校正候補記憶部に保持し、一つずつ適切候補判定部5に出力してもよい。また、校正候補予測部4は、校正候補と共に校正候補の類似度を出力してもよい。
The calibration candidate prediction unit 4 outputs the predicted calibration candidate to the appropriate
<適切候補判定部5>
適切候補判定部5は、校正候補のうち、校正履歴コーパス8中の見出し(校正対象と一致する見出し)に対応する校正結果と一致する校正候補を適切候補として判定する。適切候補判定部5は、全ての校正対象について適切候補を判定してもいいし、校正候補に校正対象自身が含まれない校正対象のみについて適切候補を判定してもいい。
<Appropriate
Among the calibration candidates, the appropriate
また、適切候補判定部5は、適切候補のうちの一つを最適候補として判定してもよい。適切候補が一つの場合には、その適切候補を最適候補として判定すればよい。適切候補が複数ある場合に最適候補を判定する方法は特に限定されないが、例えば、校正候補予測部4から得た校正候補の類似度、校正履歴コーパス8から得た校正候補(校正候補と一致する校正結果)の校正回数、ブランクにした校正対象の品詞等を考慮して、最適候補を決定する方法、第2実施形態で示すように、幅優先探索を用いて最適候補を決定する方法等が挙げられる。
Further, the appropriate
適切候補判定部5は、判定した適切候補を出力部6に出力する。
The appropriate
<出力部6>
出力部6は、適切候補を校正対象文と関連付けて出力する。校正対象文と関連付ける方法は特に限定されないが、例えば以下の方法が挙げられる。
(1)校正対象文と、校正対象と、適切候補とを関連付けて出力する。
(2)校正対象文と、校正対象と、適切候補及びその適切度合とを関連付けて出力する。
(3)校正対象文と、校正対象と、最適候補とを関連付けて出力する。
(4)校正対象を最適候補で置き換えた校正済みの文を出力する。この際、最適候補が「<del>・・・</del>」である場合は、その処理単位の削除となる。例えば、表1の例では、最適候補が「<del>まもなく</del>」である場合は、「まもなく」の削除となる。また、最適候補を構成する形態素の数が、校正対象を構成する形態素の数よりも多い場合には、その処理単位の前または後への挿入となる。例えば、表1の例では、校正対象が「2例」であり、最適候補が「2例目」である場合は、「2例」の後ろへの「目」の挿入となる。
<
The
(1) Output the proofreading target sentence, the proofreading target, and the appropriate candidate in association with each other.
(2) Output the proofreading target sentence, the proofreading target, the appropriate candidate, and the appropriate degree thereof in association with each other.
(3) Output the proofreading target sentence, the proofreading target, and the optimum candidate in association with each other.
(4) Output a proofread sentence in which the proofreading target is replaced with the optimum candidate. At this time, if the optimum candidate is "<del> ... </ del>", the processing unit is deleted. For example, in the example of Table 1, if the optimum candidate is "<del> soon </ del>", "soon" is deleted. Further, when the number of morphemes constituting the optimum candidate is larger than the number of morphemes constituting the calibration target, the insertion is performed before or after the processing unit. For example, in the example of Table 1, when the calibration target is "2 cases" and the optimum candidate is "2nd case", the "eye" is inserted after the "2 cases".
尚、校正対象が無い場合、校正対象はあるが適切候補が無い場合には、校正対象文だけを出力してもよいし、校正対象文と共に校正対象または適切候補が無い旨を出力してもよい。 If there is no calibration target, or if there is a calibration target but there is no appropriate candidate, only the calibration target sentence may be output, or the calibration target or the fact that there is no appropriate candidate may be output together with the calibration target sentence. good.
出力の方法は特に限定されず、例えば、ディスプレイへの表示、プリントアウト等が挙げられる。 The output method is not particularly limited, and examples thereof include display on a display and printout.
≪校正支援方法≫
図2は、本実施形態の校正支援方法の一例を示すフローチャートである。
≪Proofreading support method≫
FIG. 2 is a flowchart showing an example of the calibration support method of the present embodiment.
<ステップ1(S1)>
校正対象文が文入力部1に入力されると、分かち書き文生成部2は、校正対象文を処理単位に分割して分かち書き文を生成する。例えば、あらかじめ生成しておいた形態素解析用辞書9を用いて、校正対象文の形態素解析を行い、校正対象文を形態素と固有名詞に分割する。さらに、分かち書き文生成部2は、文頭に例えば<bos>等の文頭記号、文末に例えば<eos>等の文末記号を配置して、分かち書き文を生成する。
<Step 1 (S1)>
When the proofreading target sentence is input to the
<ステップ2,3(S2,S3)>
校正対象判定部3は、分かち書き文を構成する処理単位のそれぞれを、あらかじめ生成しておいた校正履歴コーパス8の見出しと対比する。校正対象判定部3は、すべての処理単位を校正履歴コーパス8の見出しと対比してもいいし、第2実施形態で示すように、機械学習により誤り箇所を推測する誤り箇所自動検出部により誤り箇所と推測された処理単位のみを校正履歴コーパス8の見出しと対比してもいい。処理単位の対比の順番は特に限定されない。校正対象判定部3は、処理単位が校正履歴コーパス8の見出しと一致しない場合は、次の処理単位を校正履歴コーパス8の見出しと対比する。一方、処理単位が校正履歴コーパス8の見出しと一致する場合は、その処理単位を校正対象として判定し、ステップ4に進む。
<Steps 2 and 3 (S2, S3)>
The proofreading
<ステップ4(S4)>
校正候補予測部4は、校正対象の一つをブランクとした場合に、そのブランクを埋める処理単位、すなわち校正候補を、校正対象(ブランク)の前後少なくとも一方、好ましくは両方の処理単位または処理単位群が有するベクトル(分散表現)、例えば文字ベクトル、単語ベクトル、文ベクトル等を用いて予測する。処理単位または処理単位群が有するベクトルの求め方、これらを用いた予測方法の具体例に関しては、「<校正候補予測部4>」の欄で述べた通りである。
<Step 4 (S4)>
When one of the calibration targets is a blank, the calibration candidate prediction unit 4 sets the processing unit for filling the blank, that is, the calibration candidate at least one before or after the calibration target (blank), preferably both processing units or processing units. Prediction is made using a vector (distributed expression) possessed by a group, for example, a character vector, a word vector, a sentence vector, or the like. The method of obtaining the vector possessed by the processing unit or the processing unit group and the specific example of the prediction method using these are as described in the column of "<Calibration candidate prediction unit 4>".
<ステップ5,6(S5,S6)>
適切候補判定部5は、全ての校正候補のそれぞれを、校正履歴コーパス8中の見出し(校正対象と一致する見出し)に対応する校正結果と対比する。適切候補判定部5は、校正候補が校正結果と一致しない場合は、次の校正候補を校正履歴コーパス8の校正結果と対比する。一方、校正候補が校正結果と一致する場合は、その校正候補を適切候補と判定する。そして、全ての校正候補の判定が終わったら、ステップ2に戻る。適切候補判定部5は、適切候補のうちの一つを最適候補として判定してもよく、その場合は、校正対象を最適候補で置き換え、ステップ2に戻ると、ステップ4での校正候補の予測の精度が向上するため好ましい。
<Steps 5 and 6 (S5 and S6)>
The appropriate
適切候補判定部5は、全ての校正対象を校正履歴コーパス8の校正結果と対比してもいいし、校正候補に校正対象自身が含まれない校正対象のみを校正履歴コーパス8の校正結果と対比してもいい。その場合、適切候補判定部5は、まず、校正候補に校正対象自身が含まれないかどうかを判定し、校正対象自身が含まれる場合には、ステップ2に戻る。
The appropriate
<ステップ7(S7)>
ステップ2からステップ6を、すべての処理単位を処理するまで繰り返した後、出力部6は適切候補を校正対象文と関連付けて出力する。
<Step 7 (S7)>
After repeating
図2に示す方法では、ステップ2で校正対象を判定するたびに、ステップ3〜ステップ6に進み、その校正対象の校正の要否を判断し、ステップ2に戻って、次の処理単位について判定しているが、ステップ4からステップ6を、すべての処理単位を処理するまで繰り返す方法でもよい。また、処理速度を優先させる場合には、ステップ2からステップ6を繰り返すことなく、全ての校正対象の校正の要否を同時に判断してもよい。
In the method shown in FIG. 2, each time the calibration target is determined in
≪校正履歴コーパスの生成≫
図3は、本実施形態で用いる校正履歴コーパス8を生成する校正履歴コーパス生成部の構成の一例を示すブロック図である。図3において、13は校正済みデータベース、14は文対取得部、15は文対分かち書き文生成部、16は校正履歴獲得部である。
≪Proofreading history corpus generation≫
FIG. 3 is a block diagram showing an example of the configuration of the calibration history corpus generation unit that generates the
<校正済みデータベース13>
校正済みデータベース13には、過去に校正された校正済みの校正前文章12と校正後文章11が蓄積されている。校正済みデータベース13に蓄積される文章は、校正対象文と同一分野または関連する分野の文章であることが好ましい。例えば、校正対象文が新聞記事である場合には、校正済みデータベース13に蓄積される文章は新聞記事であることが好ましい。
<calibrated
The
<文対取得部14>
文対取得部14は、校正済みデータベース13から、校正前後の文の対を取得する。具体的には、文対取得部14は、校正済みデータベース13に蓄積された校正前文章12と校正後文章11のそれぞれを文に分割する。文への分割方法は、例えば、校正対象が日本語の場合は句点で、校正対象が英語の場合はピリオドで区切る方法が挙げられるが、これらに限定されず、校正対象の言語や校正の目的によって、適宜選択すればよい。そしてこれらの文を対比して、校正前後の文対を取得する。文対を取得する方法は特に限定されないが、例えば、ベクトル学習済みモデル10から単語ベクトルを取得して、それらの単語ベクトルを用いて校正前の文と校正後の文の類似度を計算し、算出された類似度に基づいて、文対を取得する方法が挙げられる。
<Sentence
The sentence
尚、校正前後の文の対を人力で取得する場合には、文対取得部14は設けなくてもよい。
When manually acquiring a pair of sentences before and after proofreading, the sentence
<文対分かち書き文生成部15>
校正前後の文対の校正前の文と校正後の文それぞれを処理単位に分割して分かち書き文を生成する。分かち書き文を生成する方法は、「<分かち書き文生成部2>」で述べた通りである。
<Sentence vs. word-separated
The sentence before and after proofreading is divided into the sentence before proofreading and the sentence after proofreading into processing units to generate a word-separated sentence. The method of generating a divided sentence is as described in "<Divided
<校正履歴獲得部16>
分かち書き文を用いて校正前後の文対を比較し、校正履歴を獲得する。校正履歴を獲得する方法は特に限定されないが、例えばエディットグラフを用いて校正前後の変更箇所を自動で算出して獲得する方法が挙げられる。
<Proofreading
Use the word-separated sentences to compare the sentence pairs before and after proofreading, and acquire the proofreading history. The method of acquiring the calibration history is not particularly limited, and examples thereof include a method of automatically calculating and acquiring changes before and after calibration using an edit graph.
校正履歴は、校正前の処理単位に、校正結果と、校正の属性(挿入、削除、置換)を関連付けたレコードとして獲得される。ここで、校正の属性が置換の場合は、置換した処理単位が校正結果となる。校正の属性が削除の場合は、削除された処理単位を例えば削除記号「<del>」「</del>」で挟んだものが校正結果となる。校正の属性が挿入の場合は、校正前の処理単位を含むものが校正結果となる。 The calibration history is acquired as a record in which the calibration result and the calibration attributes (insertion, deletion, replacement) are associated with each processing unit before calibration. Here, when the calibration attribute is replacement, the replaced processing unit is the calibration result. When the calibration attribute is deleted, the calibration result is obtained by sandwiching the deleted processing unit with, for example, the deletion symbols "<del>" and "</ del>". If the calibration attribute is insert, the calibration result will include the processing unit before calibration.
尚、校正履歴を人力で獲得する場合には、校正履歴獲得部16は設けなくてもよい。
When the calibration history is manually acquired, the calibration
<校正履歴コーパス8>
校正履歴獲得部16で獲得された校正履歴は、校正履歴コーパス8に保存される。前述の通り、例えば表1に示すように、校正前の処理単位を見出しとし、校正結果と校正の属性(挿入、削除、置換)、さらには校正回数(過去の出現回数)とを関連付けたレコードとして保存される。表1に示した例では、一つの見出しに、一つの校正結果、校正の属性及び校正回数の組み合わせが関連付けられているが、もちろん、一つの見出しに、複数の校正結果、校正の属性及び校正回数の組み合わせが関連付けられている場合もある。なお、校正履歴コーパス8は、校正履歴のデータが新たに得られた場合、逐次更新することが校正の正確性の観点より好ましい。
<
The calibration history acquired by the calibration
≪ベクトル学習済みモデル10の生成≫
図4は、本実施形態で用いるベクトル学習済みモデル10を生成するベクトル学習済みモデル生成部の構成の一例を示すブロック図である。図4において、17はベクトル計算部である。
≪Generation of vector trained
FIG. 4 is a block diagram showing an example of the configuration of the vector-learned model generation unit that generates the vector-learned
ベクトル計算部17は、校正済みデータベース13から、校正後文章11を取得し、文に分割する。文への分割方法は、例えば、校正対象が日本語の場合は句点で、校正対象が英語の場合はピリオドで区切る方法が挙げられるが、これらに限定されず、校正対象の言語や校正の目的によって、適宜選択すればよい。
The
ベクトル計算部17は、分割した文を処理単位に分割して分かち書き文を生成する。分かち書き文を生成する方法は、「<分かち書き文生成部2>」で述べた通りである。ここで、校正対象文の処理単位を削除するという校正を行うためには、例えば、削除された処理単位を削除記号「<del>」「</del>」で挟んだものも処理単位とする方法が挙げられる。そのためには、ベクトル計算部17は、校正済みデータベース13から、校正前後の文の対を取得して校正履歴を獲得し、獲得した校正履歴に基づいて処理単位を決定することが好ましい。校正履歴を獲得する方法は、「≪校正履歴コーパスの生成≫」の欄で述べた通りである。
The
また、校正対象文の処理単位前後に挿入するという校正、あるいは連続した複数の処理単位を置換または削除するという校正を行うためには、例えば、「n−gram」(隣接するn処理単位を結合したもの)を含めたものも処理単位とする方法が挙げられる。具体的には、校正後文章11を分割した文が「県警によると、県内では2例目の把握となる。」であった場合、以下に示すような分かち書き文を生成し、形態素ごとの他に、前後の複数の形態素を結合したものも処理単位に含めておく。ただし、「n−gram」においては、nが大きくなるほど、処理単位が増えるため、nはコンピューターのリソースによって適切な値を決定することが好ましい。
1−gram:「<bos>/県警/に/よる/と/、/県内/で/は/2例/目/の/把握/と/なる/。/<eos>」
2−gram:「<bos>県警/県警に/による/よると/と、/、県内/県内で/では/は2例/2例目/目の/の把握/把握と/となる/なる。/。<eos>」
3−gram:「<bos>県警に/県警による/によると/よると、/と、県内/、県内で/県内では/では2例/は2例目/2例目の/目の把握/の把握と/把握となる/となる。/なる。<eos>」
Further, in order to perform proofreading by inserting before or after the processing unit of the proofreading target sentence, or proofreading by replacing or deleting a plurality of consecutive processing units, for example, "n-gram" (combining adjacent n processing units). There is also a method of using the processing unit including the ones that have been used. Specifically, if the sentence obtained by dividing the
1-gram: "<bos> / prefectural police / ni / by / to /, / prefecture / de / ha / 2 cases / eyes / no / grasp / and / become /. / <eos>"
2-gram: "<bos> To the prefectural police / by / by / and /, within the prefecture / within the prefecture / in / in 2 cases / 2nd case / grasp / grasp / become / become / ./. <Eos>"
3-gram: "<bos> To the prefectural police / According to / According to /, within the prefecture /, within the prefecture / within the prefecture / in 2 cases / is the 2nd case / 2nd case / grasping the eyes / And / become / become / become. / Become. <Eos>"
ベクトル計算部17は、生成した分かち書文から、処理単位の出現頻度や、どの処理単位と処理単位が互いに近くに配置されているか、どういった文脈で使われる処理単位か、などを統計的に機械学習し、単語ベクトル等の処理単位が有するベクトル(分散表現)を得る。文頭記号、文末記号、削除記号等の各種記号についても、ベクトルを得ることが好ましい。ベクトルを得るには、例えば「word2vec」、「GloVe」などが利用できる。
The
≪具体例≫
以下、具体的な例を用いて、本実施形態をさらに説明する。
≪Specific example≫
Hereinafter, the present embodiment will be further described with reference to specific examples.
<具体例1>
校正対象文の一箇所を置き換える例、具体的には、校正対象文「県警は8日、熊谷署に100人体制の捜査本部を設置。」の「体制」を「態勢」で置き換える例について説明する。本例で用いた校正履歴コーパス8には、表2に示すレコードが保存されている。
<Specific example 1>
Explains an example of replacing one part of the calibration target sentence, specifically, an example of replacing the "system" of the calibration target sentence "The prefectural police set up an investigation headquarters of 100 people at the Kumagaya police station on the 8th." do. The records shown in Table 2 are stored in the
(1)ステップ1
分かち書き文生成部2は、文入力部1から出力された校正対象文について、形態素解析用辞書9を用いて形態素解析を行い、処理単位である形態素に分割する。さらに、文頭に文頭記号<bos>、文末に文末記号<eos>を配置して、下記分かち書き文を生成する。
「<bos>/県警/は/8日/、/熊谷署/に/100人/体制/の/捜査本部/を/設置/。/<eos>」
(1)
The word-separated
"<Bos> / Prefectural Police / Ha / 8th /, / Kumagaya Police Station / Ni / 100 people / System / / Investigation Headquarters / Established /. / <Eos>"
(2)ステップ2,3
校正対象判定部3は、上記分かち書き文を構成する形態素のそれぞれを文の先頭から順番に校正履歴コーパス8の見出しと対比し、「体制」が校正履歴コーパス8の見出しと一致するので、校正対象として判定し、ステップ4に進む。
(2) Steps 2 and 3
The proofreading
(3)ステップ4
校正候補予測部4は、校正対象「体制」がブランクであった場合に、ブランクを埋める形態素を、校正候補として予測する。具体的には、校正対象「体制」前後の形態素群「<bos>/県警/は8日/、/熊谷署/に/100人」「の/捜査本部/を/設置/。/<eos>」に含まれる形態素が有するそれぞれの単語ベクトルをベクトル学習済みモデル10から取得し、「context2vec」を利用して、それぞれの文ベクトルを算出する。そして、算出した文ベクトルと類似度が高い単語ベクトルを有する形態素を、ベクトル学習済みモデル10から取得して、その形態素を校正候補として予測する。その結果を表3に示す。
(3) Step 4
When the calibration target "system" is blank, the calibration candidate prediction unit 4 predicts a morpheme that fills the blank as a calibration candidate. Specifically, the morpheme group before and after the calibration target "system""<bos> / prefectural police / on the 8th /, / Kumagaya police station / ni / 100 people""/ investigation headquarters / established /. / <Eos> The word vector of each morpheme included in "" is acquired from the vector-learned
(4)ステップ5,6
適切候補判定部5は、校正候補のそれぞれを、表2に示す校正結果と対比する。その結果、「態勢」のみが校正結果と一致するため、これを最適候補として判定し、校正対象「体制」を、最適候補「態勢」に置き換え、ステップ2に戻る。
(4) Steps 5 and 6
The appropriate
(5)ステップ2
校正対象判定部3は、上記分かち書き文の「体制」が「態勢」に置き換えられた分かち書き文の「態勢」より後ろの形態素を順番に校正履歴コーパス8の見出しと対比する。校正履歴コーパス8の見出しと一致するものはないので、ステップ7に進む。
(5)
The proofreading
(6)ステップ7
出力部6は、校正対象「体制」を、最適候補「態勢」に置き換えた校正済み文「県警は8日、熊谷署に100人態勢の捜査本部を設置。」をディスプレイに表示する。
(6)
The
<具体例2>
校正対象文の一箇所を削除する例、具体的には、校正対象文「神通川第二ダムを超えると、まもなく木造の建物が見えてきた。」の「まもなく」を削除する例について説明する。本例で用いた校正履歴コーパス8には、表4に示すレコードが保存されている。
<Specific example 2>
An example of deleting one part of the proofreading sentence, specifically, an example of deleting "soon" in the proofreading sentence "A wooden building was soon visible after crossing the Kamitsugawa No. 2 Dam." .. The records shown in Table 4 are stored in the
(1)ステップ1
具体例1と同様にして、下記分かち書き文を生成する。
「<bos>/神通川第二ダム/を/超える/と/、/まもなく/木造/の/建物/が/見え/て/きた/。/<eos>」
(1)
In the same manner as in Specific Example 1, the following word-separated sentence is generated.
"<Bos> / Kamitsugawa No. 2 Dam / Beyond / Exceed / To /, / Soon / Wooden / No / Building / Can be seen / / Kita /. / <Eos>"
(2)ステップ2,3
具体例1と同様にして、「まもなく」を校正対象として判定し、ステップ4に進む。
(2) Steps 2 and 3
In the same manner as in Specific Example 1, "soon" is determined as the calibration target, and the process proceeds to step 4.
(3)ステップ4
校正候補予測部4は、具体例1と同様にして、校正対象「まもなく」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表5に示す。
(3) Step 4
Similar to the first embodiment, the calibration candidate prediction unit 4 predicts a morpheme that fills the blank as a calibration candidate when the calibration target “soon” is blank. The results are shown in Table 5.
(4)ステップ5,6
適切候補判定部5は、校正候補のそれぞれを、表4に示す校正結果と対比する。その結果、「<del>まもなく</del>」のみが校正結果と一致するため、これを最適候補として判定し、校正対象「まもなく」を、最適候補「<del>まもなく</del>」に置き換え、ステップ2に戻る。
(4) Steps 5 and 6
The appropriate
(5)ステップ2
校正対象判定部3は、上記分かち書き文の「まもなく」が「<del>まもなく</del>」に置き換えられた分かち書き文の「<del>まもなく</del>」より後ろの形態素を順番に校正履歴コーパス8の見出しと対比する。校正履歴コーパス8の見出しと一致するものはないので、ステップ7に進む。
(5)
The proofreading
(6)ステップ7
出力部6は、校正対象「まもなく」を、最適候補「<del>まもなく</del>」に置き換えた、すなわち「まもなく」を削除した校正済み文「神通川第二ダムを超えると、木造の建物が見えてきた。」をディスプレイに表示する。
(6)
The
<具体例3>
校正対象文の一箇所に挿入する例、具体的には、校正対象文「県警によると、県内では2例の把握となる。」の「2例」の後に「目」を挿入する例について説明する。本例で用いた校正履歴コーパス8には、表6に示すレコードが保存されている。
<Specific example 3>
An example of inserting in one place of the proofreading target sentence, specifically, an example of inserting an "eye" after "2 cases" of the proofreading target sentence "According to the prefectural police, two cases are grasped in the prefecture." do. The records shown in Table 6 are stored in the
(1)ステップ1
具体例1と同様にして、下記分かち書き文を生成する。
「<bos>/県警/に/よる/と/、/県内/で/は/2例/の/把握/と/なる/。/<eos>」
(1)
In the same manner as in Specific Example 1, the following word-separated sentence is generated.
"<Bos> / Prefectural Police / Ni / By / To /, / Prefectural / De / is / 2 cases / / Grasp / To / Become /. / <eos>"
(2)ステップ2,3
具体例1と同様にして、「2例」を校正対象として判定し、ステップ4に進む。
(2) Steps 2 and 3
In the same manner as in Specific Example 1, "2 examples" are determined as calibration targets, and the process proceeds to step 4.
(3)ステップ4
校正候補予測部4は、具体例1と同様にして、校正対象「2例」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表7に示す。
(3) Step 4
Similar to the specific example 1, the calibration candidate prediction unit 4 predicts a morpheme that fills the blank as a calibration candidate when the calibration target “2 examples” is blank. The results are shown in Table 7.
(4)ステップ5,6
適切候補判定部5は、校正候補のそれぞれを、表6に示す校正結果と対比する。その結果、「2例目」のみが校正結果と一致するため、これを最適候補として判定し、校正対象「2例」を、最適候補「2例目」に置き換え、ステップ2に戻る。
(4) Steps 5 and 6
The appropriate
(5)ステップ2
校正対象判定部3は、上記分かち書き文の「2例」が「2例目」に置き換えられた分かち書き文の「2例目」より後ろの形態素を順番に校正履歴コーパス8の見出しと対比する。校正履歴コーパス8の見出しと一致するものはないので、ステップ7に進む。
(5)
The proofreading
(6)ステップ7
出力部6は、校正対象「2例」を、最適候補「2例目」に置き換えた、すなわち「2例」の後に「目」を挿入した校正済み文「県警によると、県内では2例目の把握となる。」をディスプレイに表示する。
(6)
The
<具体例4>
校正対象文の一箇所を校正対象と判定したが校正しない例、具体的には、校正対象文「県警は8日、熊谷署に100人態勢の捜査本部を設置。」の「県警」を校正対象と判定したが適切候補を判定せずに校正しない例について説明する。本例で用いた校正履歴コーパス8には、表8に示すレコードが保存されている。
<Specific example 4>
An example of proofreading one part of the sentence to be proofread but not proofreading, specifically, proofreading the "prefectural police" in the proofreading sentence "The prefectural police set up a 100-person investigation headquarters at the Kumagaya police station on the 8th." An example in which the target is determined but the appropriate candidate is not determined and the calibration is not performed will be described. The records shown in Table 8 are stored in the
(1)ステップ1
具体例1と同様にして、下記分かち書き文を生成する。
「<bos>/県警/は/8日/、/熊谷署/に/100人/態勢/の/捜査本部/を/設置/。/<eos>」
(1)
In the same manner as in Specific Example 1, the following word-separated sentence is generated.
"<Bos> / Prefectural Police / Ha / 8th /, / Kumagaya Police Station / Ni / 100 people / Position / No / Investigation Headquarters / Established /. / <Eos>"
(2)ステップ2,3
具体例1と同様にして、「県警」を校正対象として判定し、ステップ4に進む。
(2) Steps 2 and 3
In the same manner as in Specific Example 1, the "prefectural police" is determined as the calibration target, and the process proceeds to step 4.
(3)ステップ4
校正候補予測部4は、具体例1と同様にして、校正対象「県警」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表9に示す。
(3) Step 4
Similar to the first embodiment, the calibration candidate prediction unit 4 predicts a morpheme that fills the blank as a calibration candidate when the calibration target “prefectural police” is blank. The results are shown in Table 9.
(4)ステップ5
適切候補判定部5は、校正候補に校正対象「県警」が含まれないかどうかを判定する。本例では、表9に示す校正候補に、「県警」が含まれるため、ステップ2に戻る。
(4)
The appropriate
(5)ステップ2
校正対象判定部3は、上記分かち書き文の「県警」より後ろの形態素を順番に校正履歴コーパス8の見出しと対比する。校正履歴コーパス8の見出しと一致するものはないので、ステップ9に進む。
(5)
The proofreading
(6)ステップ9
出力部6は、校正対象文「県警は8日、熊谷署に100人態勢の捜査本部を設置。」をディスプレイに表示する。
(6) Step 9
The
<具体例5>
校正対象文の複数箇所を校正する例、具体的には、校正対象文「東京(品川)と名古屋の間は2027年に開業、名古屋から大阪までは45年にも伸びる予定だ。」を「東京(品川)と名古屋の間は2027年に開業し、名古屋から大阪までは45年に延びる予定だ。」に校正する例について説明する。本例で用いた校正履歴コーパス8には、表10に示すレコードが保存されている。
<Specific example 5>
An example of proofreading multiple parts of the proofreading sentence, specifically, the proofreading sentence "The section between Tokyo (Shinagawa) and Nagoya will open in 2027, and the distance from Nagoya to Osaka will be extended to 45 years." The section between Tokyo (Shinagawa) and Nagoya will open in 2027, and the distance from Nagoya to Osaka will be extended to 45 years. " The records shown in Table 10 are stored in the
(1)ステップ1
具体例1と同様にして、下記分かち書き文を生成する。
「<bos>/東京/(/品川/)/と/名古屋/の/間/は/2027年/に/開業/、/名古屋/から/大阪/まで/は/45年/に/も/伸びる/予定/だ/。/<eos>」
(1)
In the same manner as in Specific Example 1, the following word-separated sentence is generated.
"<Bos> / Tokyo / (/ Shinagawa /) / and / Nagoya / no / ma / ha / 2027 / ni / opening /, / Nagoya / to / Osaka / to / ha / 45 years / ni / mo / growth / Schedule / Da /. / <eos>"
(2)ステップ2,3
具体例1と同様にして、「、」(読点)を校正対象として判定し、ステップ4に進む。
(2) Steps 2 and 3
In the same manner as in Specific Example 1, "," (a reading point) is determined as a proofreading target, and the process proceeds to step 4.
(3)ステップ4
校正候補予測部4は、具体例1と同様にして、校正対象「、」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表11に示す。
(3) Step 4
Similar to the first embodiment, the calibration candidate prediction unit 4 predicts a morpheme that fills the blank as a calibration candidate when the calibration target “,” is blank. The results are shown in Table 11.
(4)ステップ5,6
適切候補判定部5は、校正候補のそれぞれを、表10に示す校正結果と対比する。その結果、「し、」のみが校正結果と一致するため、これを最適候補として判定し、校正対象「、」を、最適候補「し、」に置き換え、ステップ2に戻る。
(4) Steps 5 and 6
The appropriate
(5)ステップ2,3
校正対象判定部3は、上記分かち書き文の「、」が「し、」に置き換えられた分かち書き文の「し、」より後ろの形態素を順番に校正履歴コーパス8の見出しと対比し、「も」を校正対象として判定し、ステップ4に進む。
(5) Steps 2 and 3
The proofreading
(6)ステップ4
校正候補予測部4は、具体例1と同様にして、校正対象「も」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表12に示す。
(6) Step 4
Similar to the first embodiment, the calibration candidate prediction unit 4 predicts a morpheme that fills the blank as a calibration candidate when the calibration target “mo” is blank. The results are shown in Table 12.
(7)ステップ5,6
適切候補判定部5は、校正候補のそれぞれを、表10に示す校正結果と対比する。その結果、「<del>も</del>」のみが校正結果と一致するため、これを最適候補として判定し、校正対象「も」を、最適候補「<del>も</del>」に置き換え、ステップ2に戻る。
(7) Steps 5 and 6
The appropriate
(8)ステップ2,3
校正対象判定部3は、「、」が「し、」に置き換えられた分かち書き文の「も」が「<del>も</del>」に置き換えられた分かち書き文の「<del>も</del>」より後ろの形態素を順番に校正履歴コーパス8の見出しと対比し、「伸びる」を校正対象として判定し、ステップ4に進む。
(8) Steps 2 and 3
In the proofreading
(9)ステップ4
校正候補予測部4は、具体例1と同様にして、校正対象「伸びる」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表13に示す。
(9) Step 4
Similar to the first embodiment, the calibration candidate prediction unit 4 predicts a morpheme that fills the blank as a calibration candidate when the calibration target “stretches” is blank. The results are shown in Table 13.
(10)ステップ5,6
適切候補判定部5は、校正候補のそれぞれを、表10に示す校正結果と対比する。その結果、「延びる」のみが校正結果と一致するため、これを最適候補として判定し、校正対象「伸びる」を、最適候補「延びる」に置き換え、ステップ2に戻る。
(10)
The appropriate
(11)ステップ2
校正対象判定部3は、「、」が「し、」に、「も」が「<del>も</del>」に置き換えられた分かち書き文の「伸びる」を「延びる」に置き換えた分かち書き文の「延びる」より後ろの形態素を順番に校正履歴コーパス8の見出しと対比する。校正履歴コーパス8の見出しと一致するものはないので、ステップ7に進む。
(11)
In the proofreading
(12)ステップ7
出力部6は、校正済み文「東京(品川)と名古屋の間は2027年に開業し、名古屋から大阪までは45年に延びる予定だ。」をディスプレイに表示する。
(12)
The
<具体例6>
具体例1〜3で用いた校正履歴コーパス8を生成する例について説明する。
<Specific example 6>
An example of generating the
[具体例6−1(具体例1で用いた校正履歴コーパス8)]
文対取得部14は、校正済みデータベース13に蓄積された校正前文章12と校正後文章11のそれぞれを句点で区切り、文に分割する。そして、ベクトル学習済みモデル10から単語ベクトルを取得して、それらの単語ベクトルを用いて校正前の文と校正後の文の類似度を計算し、算出された類似度に基づいて、下記校正前後の文の対を取得する。
校正前の文:「平日は40分間隔で1頭1車両体制、土日祝日は30分間隔で2頭2車両体制。」
校正後の文:「平日は40分間隔で1頭1車両態勢、土日祝日は30分間隔で2頭2車両態勢。」
[Specific Example 6-1 (
The sentence
Sentence before proofreading: "One vehicle system every 40 minutes on weekdays, two vehicles two vehicles every 30 minutes on weekends and holidays."
Sentence after proofreading: "One head and one vehicle are prepared every 40 minutes on weekdays, and two heads and two vehicles are prepared every 30 minutes on weekends and holidays."
文対分かち書き文生成部15は、校正前の文と校正後の文それぞれを、形態素解析用辞書9を用いて形態素解析を行い、処理単位である形態素に分割して、文対分かち書き文を生成する。校正履歴獲得部16は、エディットグラフを用いて、文対分かち書き文の校正前後の文の分かち書き文を比較し、「体制」が「態勢」に1回置換されたという校正履歴を獲得する。そして表2に示すように、校正前の処理単位「体制」を見出しとし、校正結果「態勢」と校正の属性「挿入」と、校正回数とを関連付けたレコードとして、校正履歴コーパス8に保存する。なお、校正回数は、「体制」が「態勢」に1回置換されたという校正履歴を獲得するごとに更新する。
The sentence-to-separate word-separated
[具体例6−2(具体例2で用いた校正履歴コーパス8)]
具体例6−1と同様にして、下記校正前後の文の対を取得する。
校正前の文:「火は約4時間半後に消し止められたが、全身にやけどを負って病院に運ばれ、まもなく死亡した。」
校正後の文:「火は約4時間半後に消し止められたが、全身にやけどを負って病院に運ばれ、<del>まもなく</del>死亡した。」
[Specific Example 6-2 (
In the same manner as in Specific Example 6-1 the following pair of sentences before and after proofreading is acquired.
Pre-proofreading sentence: "The fire was extinguished after about four and a half hours, but he was burned to the hospital and died shortly thereafter."
Post-proofreading sentence: "The fire was extinguished after about four and a half hours, but the whole body was burned and taken to the hospital, and <del> soon </ del>died."
文対分かち書き文生成部15は、具体例6−1と同様にして、文対分かち書き文を生成する。校正履歴獲得部16は、具体例6−1と同様にして、「まもなく」が「<del>まもなく</del>」に1回置き換えられた、すなわち「まもなく」が削除されたという校正履歴を獲得し、表4に示すレコードとして、校正履歴コーパス8に保存する。
The sentence-to-partition word-separated
[具体例6−3(具体例3で用いた校正履歴コーパス8)]
具体例6−1と同様にして、下記校正前後の文の対を取得する。
校正前の文:「県警によると、県内では2例の把握となる。」
校正後の文:「県警によると、県内では2例目の把握となる。」
[Specific Example 6-3 (
In the same manner as in Specific Example 6-1 the following pair of sentences before and after proofreading is acquired.
Sentence before proofreading: "According to the prefectural police, there are two cases in the prefecture."
Post-proofreading sentence: "According to the prefectural police, this is the second case in the prefecture."
文対分かち書き文生成部15は、具体例6−1と同様にして、文対分かち書き文を生成する。校正履歴獲得部16は、具体例6−1と同様にして、「2例」が「2例目」に1回置き換えられた、すなわち「2例」の後に「目」が挿入されたという校正履歴を獲得し、表6に示すレコードとして、校正履歴コーパス8に保存する。
The sentence-to-partition word-separated
2.第2実施形態
≪校正支援装置≫
図5は、本実施形態の校正支援装置の構成の一例を示すブロック図である。尚、図5において、第1実施形態と同様の構成には同一の符号を付しており、特に説明しない限りは第1実施形態と同様である。図5において、7は誤り箇所自動検出部である。
2. 2. 2nd Embodiment << Calibration support device >>
FIG. 5 is a block diagram showing an example of the configuration of the calibration support device of the present embodiment. In FIG. 5, the same components as those in the first embodiment are designated by the same reference numerals, and are the same as those in the first embodiment unless otherwise specified. In FIG. 5,
<誤り箇所自動検出部7>
誤り箇所自動検出部7は、分かち書き文を構成する処理単位のそれぞれについて、機械学習により誤り箇所(文法的に誤っており、修正すべき箇所)を推測する。
<Error location
The error location
誤り箇所を推測する方法は特に限定されず、例えば、「Liu,Zhuoran,and Yang Liu.”Exploiting Unlabeled Data for Neural Grammatical Error Detection.” arXiv preprint arXiv:1611.08987 (2016)」に記載された方法等、公知の「grammatical error detection」の手法を用いることができる。 The method of inferring the error location is not particularly limited, and for example, "Liu, Zhuoran, and Yang Liu." Exploiting Unlabeled Data for Natural Grammatic Error Detection. Known "grammatical error detection" methods such as those described in "arXiv preprint arXiv: 1611.08987 (2016)" can be used.
具体的には、例えば、下記3層のニューラルネットワークから構成され、文が入力されると、0〜4のラベル(0:変更しない、1:置換、2:削除、3:(その単語の前に)挿入)が振られた入力文長の配列を出力する方法が挙げられる。
入力層:入力文(誤りを含む可能性のある文)のベクトル
中間層:入力文の低次元へ写像したベクトル
出力層:正解文(入力文を人手で校正した文)と入力文の差を以下の例の様に表現したもののベクトル
Specifically, for example, it is composed of the following three-layer neural network, and when a sentence is input, labels 0 to 4 (0: do not change, 1: replace, 2: delete, 3: (before the word). There is a method of outputting an array of input sentence lengths with () inserted).
Input layer: Vector of input sentence (sentence that may contain errors) Intermediate layer: Vector mapped to lower dimension of input sentence Output layer: Difference between correct sentence (sentence manually calibrated) and input sentence Vector of what is expressed as in the example below
より具体的には、分かち書き文「<bos>/犯人/は/フェンス/を/乗り/越えて/から/侵入/した/と/み/られる/。/<eos>」が入力されると、「0,0,0,1,0,1,1,2,3,0,0,1,1,0,0」というベクトルが出力される。この出力は、「フェンス」「乗り」「越えて」「み」「られる」は置換、「から」は削除、「侵入」はその前に挿入の可能性があることを意味する。 More specifically, when the word-separated sentence "<bos> / criminal / ha / fence / is / rides / crosses / from / invades / / and / sees / is /. / <Eos>" is input, The vector "0,0,0,1,0,1,1,2,3,0,0,1,1,0,0" is output. This output means that "fence", "ride", "beyond", "mi", and "reru" can be replaced, "from" can be deleted, and "intrusion" can be inserted before that.
出力層のベクトルからSoftmax関数を基にした損失関数を用いて出力との誤差を計算し、その誤差から誤差逆伝播法によりニューラルネットワークの最適な各パラメータを予測してもよい。また、ラベルの種類は特に限定されず、例えば、0,1(誤り箇所か否かを表す)の2種類のラベルでも良い。 An error from the output may be calculated from the vector of the output layer using a loss function based on the Softmax function, and the optimum parameters of the neural network may be predicted from the error by the error back propagation method. Further, the type of label is not particularly limited, and for example, two types of labels of 0 and 1 (indicating whether or not it is an error location) may be used.
誤り箇所自動検出部7は、誤り箇所と推測した処理単位を、好ましくはラベルと共に校正対象判定部3に出力する。誤り箇所と推測した処理単位が複数ある場合、処理対象を一つずつ出力してもよいし、複数の処理単位を一度に出力してもよい。また、複数の処理単位を一度に出力する場合には、校正対象判定部3との間に処理単位記憶部を設け、誤り箇所自動検出部7から出力された複数の処理単位を、一旦、処理単位記憶部に保持し、一つずつ校正対象判定部3に出力してもよい。
The error location
<校正対象判定部3>
校正対象判定部3は、誤り箇所自動検出部7が誤り箇所と推測した処理単位のみを校正履歴コーパス8の見出しと対比し、校正対象を判定する。そのため、分かち書き文を構成する処理単位の全てについて校正対象を判定する場合に比べ、処理速度が向上する可能性がある。
<Calibration
The calibration
また、校正対象判定部3は、誤り箇所自動検出部7が出力したラベルを用いて、連続する処理単位を連結して1つの処理単位(n−gram)として扱ってもよい。例えば、上述の例では、「乗り」と「越えて」、「み」と「られる」については、誤り箇所自動検出部7の出力したラベル「1」(置換)が連続しているので、それぞれ両者が連結した1語(2−gram)「乗り越えて」「みられる」を処理単位として扱ってもよい。
Further, the calibration
<適切候補判定部5>
適切候補判定部5は、誤り箇所自動検出部7が出力したラベルを最適候補の判断材料にしてもよい。例えば、上述の例では、「から」の適切候補が複数ある場合に、誤り箇所自動検出部7の出力したラベル「2」(削除)を加味し、「<del>から</del>」を最適候補として判定してもよい。
<Appropriate
The appropriate
≪校正支援方法≫
図6は、本実施形態の校正支援方法の一例を示すフローチャートである。
≪Proofreading support method≫
FIG. 6 is a flowchart showing an example of the calibration support method of the present embodiment.
<ステップ11(S11)>
分かち書き文生成部2は、第1実施形態のステップ1と同様にして、分かち書き文を生成する。
<Step 11 (S11)>
The word-separated
<ステップ12〜14(S12〜S14)>
誤り箇所自動検出部7が誤り箇所と推測した処理単位のみについて校正対象を判定する点、誤り箇所と推測した処理単位の全てについて校正対象を判定してから次のステップに進む点以外は、第1実施形態のステップ2,3と同様にして、校正対象判定部3は、校正対象を判定する。
<Steps 12 to 14 (S12 to S14)>
Except for the point that the error location
<ステップ15〜19(S15〜S19)>
本例では、文脈を考慮した確率モデルを組み込むことで、最適候補を判定した。以下、ビームサーチ等の幅優先探索と校正履歴コーパスの組み合わせによる最適候補の判定について説明する。幅優先ビーム探索は知識あり探索に分類され、幅優先探索を行いつつ、評価値が高いノードをビーム幅個保持し、ビーム幅個よりノードの個数が増えたら、評価値が低い枝を切り捨てるアルゴリズムである。
<Steps 15 to 19 (S15 to S19)>
In this example, the optimum candidate was determined by incorporating a probabilistic model that takes context into consideration. Hereinafter, the determination of the optimum candidate by the combination of breadth-first search such as beam search and calibration history corpus will be described. Breadth-first beam search is classified as knowledgeable search. ..
以下、校正対象を文頭側から順に、第1校正対象、第2校正対象・・・第N校正対象(Nは2以上の整数)とする。また、一の校正対象についての適切候補を、第1適切候補、第2適切候補・・・第M適切候補(Mは1以上の整数)とする。 Hereinafter, the calibration targets are the first calibration target, the second calibration target ... Nth calibration target (N is an integer of 2 or more) in order from the beginning of the sentence. Further, the appropriate candidates for one calibration target are the first appropriate candidate, the second appropriate candidate ... the M appropriate candidate (M is an integer of 1 or more).
まず、下記手順で、第1校正対象の適切候補を判定する。 First, an appropriate candidate for the first calibration target is determined by the following procedure.
[ステップ15]
校正候補予測部4は、第1実施形態のステップ4と同様にして、所定の探索幅で第1校正対象の校正候補を予測する。その際、例えば、「Context2Vec」で得られた類似度、類似度から得られる対数尤度等をスコアとして求める。
[Step 15]
The calibration candidate prediction unit 4 predicts the calibration candidate to be calibrated with a predetermined search width in the same manner as in step 4 of the first embodiment. At that time, for example, the similarity obtained by "Conextext2Vec", the log-likelihood obtained from the similarity, and the like are obtained as scores.
[ステップ16,17]
適切候補判定部5は、第1実施形態のステップ5,6と同様にして、第1校正対象の適切候補を判定する。
[Steps 16 and 17]
The appropriate
次に、下記手順で、第1校正対象が第1適切候補に置き換えられた分かち書き文について、第2校正対象の適切候補を判定する。 Next, in the following procedure, the appropriate candidate for the second proofreading target is determined for the word-separated sentence in which the first proofreading target is replaced with the first appropriate candidate.
[ステップ18]
適切候補判定部5は、第1校正対象を第1適切候補に置き換え、ステップ15に戻る。
[Step 18]
The appropriate
[ステップ15]
校正候補予測部4は、第1実施形態のステップ4と同様にして、所定の探索幅で第2校正対象の校正候補を予測すると共にスコアを求める。
[Step 15]
The calibration candidate prediction unit 4 predicts the calibration candidate to be calibrated in the second calibration target with a predetermined search width and obtains a score in the same manner as in step 4 of the first embodiment.
[ステップ16,17]
適切候補判定部5は、第1実施形態のステップ5,6と同様にして、第2校正対象の適切候補を判定する。
[Steps 16 and 17]
The appropriate
次に、下記手順で、第1校正対象が第1適切候補に置き換えられ、第2校正対象が第1適切候補に置き換えられた分かち書き文について、第3校正対象の適切候補を判定する。 Next, in the following procedure, the appropriate candidate for the third proofreading target is determined for the word-separated sentence in which the first proofreading target is replaced with the first appropriate candidate and the second proofreading target is replaced with the first appropriate candidate.
[ステップ18]
適切候補判定部5は、第1校正対象を第1適切候補に置き換え、第2校正対象を第1適切候補に置き換え、ステップ15に戻る。
[Step 18]
The appropriate
[ステップ15]
校正候補予測部4は、第1実施形態のステップ4と同様にして、所定の探索幅で第3校正対象の校正候補を予測すると共にスコアを求める。
[Step 15]
The calibration candidate prediction unit 4 predicts the calibration candidate to be calibrated in the third calibration target with a predetermined search width and obtains a score in the same manner as in step 4 of the first embodiment.
[ステップ16,17]
適切候補判定部5は、第1実施形態のステップ5,6と同様にして、第3校正対象の適切候補を判定する。
[Steps 16 and 17]
The appropriate
以降、同様にしてステップ15〜18を繰り返し、第n校正対象(nは2〜Nの整数)について、第1校正対象〜第n−1校正対象をそれぞれの適切候補(第1適切候補〜第M適切候補)の一つで置き換えて適切候補を判定し、第1校正対象〜第N校正対象それぞれの適切候補の組み合わせを全て求める。 After that, steps 15 to 18 are repeated in the same manner, and for the nth calibration target (n is an integer of 2 to N), the first calibration target to the n-1 calibration target are each appropriate candidate (first appropriate candidate to first). The appropriate candidate is determined by replacing it with one of M appropriate candidates), and all combinations of appropriate candidates for each of the first calibration target to the Nth calibration target are obtained.
[ステップ19]
適切候補判定部5は、第1校正対象〜第N校正対象それぞれの適切候補の組み合わせを構成する適切候補のスコアを合計し、組み合わせそれぞれについて、スコア合計を求め、最もスコア合計の小さい組み合わせを構成する各適切候補を最適候補と判定する。
[Step 19]
The appropriate
<ステップ20(S20)>
出力部6は、例えば、校正対象を最適候補で置き換えた校正済みの文を出力する等、最適候補を校正対象文と関連付けて出力する。さらに、出力部6は、第1校正対象〜第N校正対象それぞれの適切候補の組み合わせを、スコア合計順に出力してもよい。
<Step 20 (S20)>
The
≪具体例≫
以下、具体的な例を用いて、本実施形態をさらに説明する。
≪Specific example≫
Hereinafter, the present embodiment will be further described with reference to specific examples.
<具体例7>
校正対象文の複数箇所を校正する例、具体的には、校正対象文「犯人はフェンスを乗り越えてから侵入したとみられる。」を「犯人は柵を乗り越え、侵入したとみられる。」に校正する例について説明する。本例で用いた校正履歴コーパス8には、表14に示すレコードが保存されている。
<Specific example 7>
An example of proofreading multiple parts of the proofreading target sentence, specifically, proofreading the proofreading target sentence "The criminal seems to have invaded after overcoming the fence." To "The criminal seems to have invaded after overcoming the fence." An example will be described. The records shown in Table 14 are stored in the
(1)ステップ11
具体例1のステップ1と同様にして、下記分かち書き文を生成する。
「<bos>/犯人/は/フェンス/を/乗り/越えて/から/侵入/した/と/み/られる/。/<eos>」
(1)
The following word-separated sentence is generated in the same manner as in
"<Bos> / Criminal / Ha / Fence / Ride / Cross / From / Invade / Intrude / To / See / Can /. / <eos>"
(2)ステップ12
誤り箇所自動検出部7は、機械学習により分かち書き文の誤り箇所を推測し、推測結果「0,0,0,1,0,1,1,2,3,0,0,1,1,0,0」というベクトルを出力する。すなわち、誤り箇所自動検出部7は、「フェンス」「乗り」「越えて」「み」「られる」は置換、「から」は削除、「侵入」はその前に挿入の可能性があると推測する。
(2)
The error location
(3)ステップ13,14
校正対象判定部3は、上記分かち書き文を構成する形態素のうち、誤り箇所自動検出部7により誤り箇所と推測された形態素、すなわち「フェンス」「乗り」「越えて」「から」「侵入」「み」「られる」のそれぞれを文の先頭から順番に校正履歴コーパス8の見出しと対比する。この際、「乗り」と「越えて」については、誤り箇所自動検出部7の出力したラベル「1」(置換)が連続しているので、両者が連結した1語(2−gram)「乗り越えて」として処理する。「み」と「られる」についても、同様に「みられる」として処理する。その結果、「フェンス」「乗り越えて」「から」「侵入」が校正履歴コーパス8の見出しと一致するので、これらを、それぞれ第1校正対象、第2校正対象、第3校正対象、第4校正対象として判定し、ステップ15に進む。
(3)
Among the morphemes constituting the above-mentioned word-separated sentence, the proofreading
(4)ステップ15
校正候補予測部4は、具体例1のステップ4と同様にして、第1校正対象「フェンス」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。ただし、探索幅は5とし、「Context2Vec」で得られた類似度から得られる対数尤度をスコアとして求めた。その結果を表15に示す。
(4)
Similar to step 4 of the specific example 1, the calibration candidate prediction unit 4 predicts a morpheme that fills the blank as a calibration candidate when the first calibration target “fence” is blank. However, the search width was set to 5, and the log-likelihood obtained from the similarity obtained by "Conextext2Vec" was obtained as a score. The results are shown in Table 15.
(5)ステップ16,17
適切候補判定部5は、校正候補のそれぞれを、表14に示す校正結果と対比する。その結果、「柵」「堀」および校正対象自身である「フェンス」が校正結果と一致するため、これらを、それぞれ第1適切候補、第2適切候補、第3適切候補として判定する。
(5)
The appropriate
(6)ステップ18
適切候補判定部5は、第1校正対象「フェンス」を第1適切候補「柵」に置き換え、ステップ15に戻る。
(6)
The appropriate
(7)ステップ15
校正候補予測部4は、「(4)ステップ15」と同様にして、第2校正対象「乗り越えて」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表16に示す。
(7)
In the same manner as in "(4)
(8)ステップ16,17
適切候補判定部5は、校正候補のそれぞれを、表14に示す校正結果と対比する。その結果、「乗り越え」「越え」「飛び越え」が校正結果と一致するため、これらを、それぞれ第1適切候補、第2適切候補、第3適切候補として判定する。
(8)
The appropriate
(9)ステップ18
適切候補判定部5は、第1校正対象「フェンス」を第1適切候補「柵」に置き換え、第2校正対象「乗り越えて」を第1適切候補「乗り越え」に置き換え、ステップ15に戻る。
(9)
The appropriate
(10)ステップ15
校正候補予測部4は、「(4)ステップ15」と同様にして、第3校正対象「から」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表17に示す。
(10)
In the same manner as in "(4)
(11)ステップ16,17
適切候補判定部5は、校正候補のそれぞれを、表14に示す校正結果と対比する。その結果、「へ」「<del>から</del>」が校正結果と一致するため、これらをそれぞれ第1適切候補、第2適切候補として判定する。さらに、適切候補判定部5は、誤り箇所自動検出部7の出力したラベル「2」(削除)を加味し、第2適切候補「<del>から</del>」を最適候補として判定する。
(11)
The appropriate
(12)ステップ18
適切候補判定部5は、第1校正対象「フェンス」を第1適切候補「柵」に置き換え、第2校正対象「乗り越えて」を第1適切候補「乗り越え」に置き換え、第3校正対象「から」を最適候補「<del>から</del>」に置き換え、ステップ15に戻る。
(12)
The appropriate
(13)ステップ15
校正候補予測部4は、「(4)ステップ15」と同様にして、第4校正対象「侵入」がブランクであった場合に、ブランクを埋める形態素を校正候補として予測する。その結果を表18に示す。
(13)
In the same manner as in "(4)
(14)ステップ16,17
適切候補判定部5は、校正候補のそれぞれを、表14に示す校正結果と対比する。その結果、「、侵入」「不法侵入」が校正結果と一致するため、これらを、それぞれ第1適切候補、第2適切候補として判定する。
(14)
The appropriate
(15)ステップ18
適切候補判定部5は、第1校正対象「フェンス」を第1適切候補「柵」に置き換え、第2校正対象「乗り越えて」を第2適切候補「越え」に置き換え、ステップ15に戻る。
(15)
The appropriate
(16)ステップ15〜18
以降、同様にして、適切候補のすべての組み合わせを求める。その結果を表19に示す。
(16) Steps 15-18
Hereafter, all combinations of appropriate candidates are obtained in the same manner. The results are shown in Table 19.
(17)ステップ19
適切候補判定部5は、適切候補の組み合わせのそれぞれについてスコア合計を求め、最もスコア合計の小さい組み合わせを構成する各適切候補を最適候補と判定する。本例では、表19に示すように、第1校正対象「フェンス」を第1適切候補「柵」に置き換え、第2校正対象「乗り越えて」を第1適切候補「乗り越え」に置き換え、第3校正対象「から」を最適候補「<del>から</del>」に置き換え、第4校正対象「から」を第1適切候補「、侵入」に置き換える組み合わせのスコア合計は1.21+1.59+1.62+1.58=6.00であり最小である。そのため、第1校正対象「フェンス」については第1適切候補「柵」を、第2校正対象「乗り越えて」については第1適切候補「乗り越え」を、第3校正対象「から」については最適候補「<del>から</del>」を、第4校正対象「から」については第1適切候補「、侵入」を、最適候補と判定する。
(17)
The appropriate
(18)ステップ20
出力部6は、各校正対象を最適候補で置き換えた校正済み文「犯人は柵を乗り越え、侵入したとみられる。」をディスプレイに表示する。さらに、出力部6は、他の適切候補の組み合わせを、スコア合計の小さい順にディスプレイに表示する。
(18) Step 20
The
1:文入力部、2:分かち書き文生成部、3:校正対象判定部、4:校正候補予測部、5:適切候補判定部、6:出力部、7:誤り箇所自動検出部、8:校正履歴コーパス、9:形態素解析用辞書、10:ベクトル学習済みモデル、11:校正後文章、12:校正前文章、13:校正済みデータベース、14:文対取得部、15:文対分かち書き文生成部、16:校正履歴獲得部、17:ベクトル計算部 1: Sentence input unit 2: Word-separated sentence generation unit 3: Proofreading target determination unit 4: Proofreading candidate prediction unit 5: Appropriate candidate determination unit, 6: Output unit, 7: Error location automatic detection unit, 8: Proofreading History corpus, 9: Morphological analysis dictionary, 10: Vector trained model, 11: Post-proofreading sentence, 12: Pre-proofreading sentence, 13: Pre-proofreading database, 14: Sentence pair acquisition unit, 15: Sentence-paired word-separated sentence generation unit , 16: Calibration history acquisition unit, 17: Vector calculation unit
Claims (10)
前記分かち書き文を構成する処理単位のうち、校正履歴コーパス中の見出しと一致する処理単位を校正対象として判定する校正対象判定部と、
前記校正対象の前後少なくとも一方の処理単位または処理単位群が有するベクトルを用いて、校正候補を予測する校正候補予測部と、
前記校正候補のうち、前記校正履歴コーパス中の前記見出しに対応する校正結果と一致する校正候補を適切候補として判定する適切候補判定部と、
を有することを特徴とする校正支援装置。 A word-separated sentence generator that divides the proofreading target sentence into processing units and generates a word-separated sentence,
Of the processing units that make up the word-separated text, the proofreading target determination unit that determines the processing unit that matches the heading in the proofreading history corpus as the proofreading target.
A calibration candidate prediction unit that predicts calibration candidates using a vector possessed by at least one processing unit or processing unit group before and after the calibration target.
Among the calibration candidates, an appropriate candidate determination unit that determines a calibration candidate that matches the calibration result corresponding to the heading in the calibration history corpus as an appropriate candidate.
A calibration support device characterized by having.
前記校正履歴コーパス生成部は、
校正済みの校正前後の文が蓄積された校正済みデータベースから、校正前後の文の対を取得する文対取得部と、
前記校正前後の文の対の校正前の文と校正後の文それぞれを処理単位に分割して分かち書き文を生成する文対分かち書き文生成部と、
前記分かち書き文を用いて校正前後の文対を比較し、校正履歴を獲得する校正履歴獲得部と、
を有することを特徴とする請求項1乃至7のいずれか一項に記載の校正支援装置。 Further, it has a calibration history corpus generation unit that generates the calibration history corpus.
The calibration history corpus generator
A sentence pair acquisition unit that acquires pairs of sentences before and after proofreading from a proofread database that stores sentences before and after proofreading.
A sentence-to-word-separated sentence generation unit that divides each of the pre-proofreading sentence and the post-proofreading sentence into processing units to generate a word-separated sentence.
A proofreading history acquisition unit that acquires proofreading history by comparing sentence pairs before and after proofreading using the above-mentioned word-separated sentences.
The calibration support device according to any one of claims 1 to 7, wherein the calibration support device is characterized by the above.
校正対象文を処理単位に分割して分かち書き文を生成する分かち書き文生成ステップと、
前記分かち書き文を構成する処理単位のうち、校正履歴コーパス中の見出しと一致する処理単位を校正対象として判定する校正対象判定ステップと、
前記校正対象の前後少なくとも一方の処理単位または処理単位群が有するベクトルを用いて、校正候補を予測する校正候補予測ステップと、
前記校正候補のうち、前記校正履歴コーパス中の前記見出しに対応する校正結果と一致する校正候補を適切候補として判定する適切候補判定ステップと、
を有することを特徴とする校正支援方法。 It is a proofreading support method performed by a computer.
A step to generate a word-separated sentence by dividing the calibrated sentence into processing units and generating a word-separated sentence,
A proofreading target determination step for determining a processing unit that matches a heading in the proofreading history corpus as a proofreading target among the processing units constituting the divided sentence.
A calibration candidate prediction step for predicting a calibration candidate using a vector possessed by at least one processing unit or processing unit group before and after the calibration target.
Among the calibration candidates, an appropriate candidate determination step for determining a calibration candidate that matches the calibration result corresponding to the heading in the calibration history corpus as an appropriate candidate.
A calibration support method characterized by having.
校正対象文を処理単位に分割して分かち書き文を生成する分かち書き文生成ステップと、
前記分かち書き文を構成する処理単位のうち、校正履歴コーパス中の見出しと一致する処理単位を校正対象として判定する校正対象判定ステップと、
前記校正対象の前後少なくとも一方の処理単位または処理単位群が有するベクトルを用いて、校正候補を予測する校正候補予測ステップと、
前記校正候補のうち、前記校正履歴コーパス中の前記見出しに対応する校正結果と一致する校正候補を適切候補として判定する適切候補判定ステップと、
を実行させることを特徴とする校正支援プログラム。 On the computer
A step to generate a word-separated sentence by dividing the calibrated sentence into processing units and generating a word-separated sentence,
A proofreading target determination step for determining a processing unit that matches a heading in the proofreading history corpus as a proofreading target among the processing units constituting the divided sentence.
A calibration candidate prediction step for predicting a calibration candidate using a vector possessed by at least one processing unit or processing unit group before and after the calibration target.
Among the calibration candidates, an appropriate candidate determination step for determining a calibration candidate that matches the calibration result corresponding to the heading in the calibration history corpus as an appropriate candidate.
A proofreading support program characterized by running.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017132713A JP6979294B2 (en) | 2017-07-06 | 2017-07-06 | Calibration support device, calibration support method and calibration support program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017132713A JP6979294B2 (en) | 2017-07-06 | 2017-07-06 | Calibration support device, calibration support method and calibration support program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2019016140A JP2019016140A (en) | 2019-01-31 |
| JP6979294B2 true JP6979294B2 (en) | 2021-12-08 |
Family
ID=65357527
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017132713A Active JP6979294B2 (en) | 2017-07-06 | 2017-07-06 | Calibration support device, calibration support method and calibration support program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6979294B2 (en) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20220405490A1 (en) * | 2021-06-16 | 2022-12-22 | Google Llc | Multilingual Grammatical Error Correction |
| JP2023048325A (en) * | 2021-09-28 | 2023-04-07 | 株式会社リコー | Information processing method, information processing device, and program |
| EP4535224A4 (en) * | 2022-06-02 | 2025-07-23 | Fujitsu Ltd | INFORMATION PROCESSING PROGRAM, INFORMATION PROCESSING METHOD AND INFORMATION PROCESSING DEVICE |
Family Cites Families (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3856515B2 (en) * | 1997-01-17 | 2006-12-13 | 富士通株式会社 | Document proofing device |
| US6424983B1 (en) * | 1998-05-26 | 2002-07-23 | Global Information Research And Technologies, Llc | Spelling and grammar checking system |
| JP3692399B2 (en) * | 2001-12-26 | 2005-09-07 | 独立行政法人情報通信研究機構 | Notation error detection processing apparatus using supervised machine learning method, its processing method, and its processing program |
| JP2011081442A (en) * | 2009-10-02 | 2011-04-21 | Toshiba Corp | Document checking device and program |
| JP5870790B2 (en) * | 2012-03-19 | 2016-03-01 | 富士通株式会社 | Sentence proofreading apparatus and proofreading method |
| JP2017027233A (en) * | 2015-07-17 | 2017-02-02 | 日本電信電話株式会社 | Question sentence generating apparatus, method, and program |
| CN106527756A (en) * | 2016-10-26 | 2017-03-22 | 长沙军鸽软件有限公司 | Method and device for intelligently correcting input information |
-
2017
- 2017-07-06 JP JP2017132713A patent/JP6979294B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2019016140A (en) | 2019-01-31 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7089330B2 (en) | Adaptive processing components | |
| US11544457B2 (en) | Machine learning based abbreviation expansion | |
| JP5744228B2 (en) | Method and apparatus for blocking harmful information on the Internet | |
| CN109885660A (en) | A kind of question answering system and method based on information retrieval that knowledge mapping is energized | |
| KR20200083111A (en) | System for correcting language and method thereof, and method for learning language correction model | |
| Çöltekin | A set of open source tools for Turkish natural language processing. | |
| JP2006031228A (en) | Morphemic analysis device, method, and program | |
| Park et al. | Neural spelling correction: translating incorrect sentences to correct sentences for multimedia | |
| KR102033458B1 (en) | System and method for coreference resolution using hierarchical pointer networks | |
| JP2021140228A (en) | Advertisement text automatic creation system | |
| CN112151019B (en) | Text processing method, device and computing equipment | |
| JP6979294B2 (en) | Calibration support device, calibration support method and calibration support program | |
| JP6626917B2 (en) | Readability evaluation method and system based on English syllable calculation method | |
| CN113934834A (en) | Question matching method, device, equipment and storage medium | |
| Scarborough | The Aeolic dialects of ancient Greek: A study in historical dialectology and linguistic classification | |
| CN112446217A (en) | Emotion analysis method and device and electronic equipment | |
| Larrivée et al. | The empirical reality of bridging contexts: Strong polarity contexts as the transition between NPIs and n-words | |
| CN111159405B (en) | Sarcasm detection method based on background knowledge | |
| 이동준 | Morpheme-based efficient Korean word embedding | |
| Zeldes et al. | A second wave of UD Hebrew treebanking and cross-domain parsing | |
| KR101929509B1 (en) | Device and method for composing morpheme | |
| Dashti | Real-word error correction with trigrams: correcting multiple errors in a sentence | |
| JP2010128774A (en) | Inherent expression extraction apparatus, and method and program for the same | |
| KR101521281B1 (en) | Foreign language learning system and method thereof | |
| JP6605997B2 (en) | Learning device, learning method and program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20170713 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200227 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210129 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210309 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211102 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211115 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6979294 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |