JPS594071B2 - 文字認識装置 - Google Patents
文字認識装置Info
- Publication number
- JPS594071B2 JPS594071B2 JP52033386A JP3338677A JPS594071B2 JP S594071 B2 JPS594071 B2 JP S594071B2 JP 52033386 A JP52033386 A JP 52033386A JP 3338677 A JP3338677 A JP 3338677A JP S594071 B2 JPS594071 B2 JP S594071B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- recognition device
- recognition
- unknown
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
Landscapes
- Character Discrimination (AREA)
Description
【発明の詳細な説明】
(1)発明の利用分野
本発明は、漢字のように文字カテゴリが多い場合に適し
た、文脈情報利用による認識結果検定機能を備えた文字
認識装置に関する。
た、文脈情報利用による認識結果検定機能を備えた文字
認識装置に関する。
(2)従来技術
従来、たとえば官公庁などの各種申請書の処理の多くは
人手によつてなされている。
人手によつてなされている。
これらの申請書は、普通漢字仮名混り文で書かれており
、これらの申請処理業務を機械化しようとすると、漢字
も含めた日本語文字の認識装置が入力部に必要となる。
現在、研究室のレベルでは、実用上満足し得る読取精度
を有する印刷漢字認識装置の原理実験に成功しており(
たとえば電子通信学会論文誌、58−D巻、2号、94
頁参照)、上記の各種申請書の大半は和文タイプによる
比較的高品質のタイプ印字文書であることを考えると、
上記の申請書処理業務において、印刷漢字認識装置を使
用する環境条件は整つているといえる。しかし、実際に
印刷漢字認識装置を実用化しようとする場合、申請業務
の性格上かなり高度の認識精度が要求される。
、これらの申請処理業務を機械化しようとすると、漢字
も含めた日本語文字の認識装置が入力部に必要となる。
現在、研究室のレベルでは、実用上満足し得る読取精度
を有する印刷漢字認識装置の原理実験に成功しており(
たとえば電子通信学会論文誌、58−D巻、2号、94
頁参照)、上記の各種申請書の大半は和文タイプによる
比較的高品質のタイプ印字文書であることを考えると、
上記の申請書処理業務において、印刷漢字認識装置を使
用する環境条件は整つているといえる。しかし、実際に
印刷漢字認識装置を実用化しようとする場合、申請業務
の性格上かなり高度の認識精度が要求される。
一方、漢字は文字種が極めて多いことや、印字品質が比
較的良好であるといえども比較的品質の悪い申請書が入
力されることもあり得ることを考えると、読取精度は全
く十分であるとは言えない。しかるに、認識結果が正し
いか否かを検定することにより、誤認識率を著しく減少
せしめることが考えられる。
較的良好であるといえども比較的品質の悪い申請書が入
力されることもあり得ることを考えると、読取精度は全
く十分であるとは言えない。しかるに、認識結果が正し
いか否かを検定することにより、誤認識率を著しく減少
せしめることが考えられる。
従来、上記の考え方は次のように行われていた。数字を
対象とした文字認識装置では、金額を扱うことが多いの
で、たとえば帳票上には各項目の金額とともにそれらの
総計をも記載しておき、認識装置では各項目の認識結果
の総計と、総計の認識結果とを比較して誤りを検出する
方法が取られている。また英字を対象とする文字認識装
置では、各英文字はある限定された語蘭の中の1つの単
語を構成しているということを前提として、N−Gra
mという手法を用いた検定方法が考えられている。しか
し、上記従来の方法はそのまま漢字を対象とした文字認
識装置に適用することができない。
対象とした文字認識装置では、金額を扱うことが多いの
で、たとえば帳票上には各項目の金額とともにそれらの
総計をも記載しておき、認識装置では各項目の認識結果
の総計と、総計の認識結果とを比較して誤りを検出する
方法が取られている。また英字を対象とする文字認識装
置では、各英文字はある限定された語蘭の中の1つの単
語を構成しているということを前提として、N−Gra
mという手法を用いた検定方法が考えられている。しか
し、上記従来の方法はそのまま漢字を対象とした文字認
識装置に適用することができない。
その理由は、漢字の場合は字種が英数字(多くて50字
)などの場合に比較して2000〜4000と多く、た
とえばN−Gramの表の記憶容量が膨大になり、その
ままでは実現不可能になる。(3)発明の目的 したがつて、本発明の目的は、字種の多い場合に適した
手法として申請書のもつ文脈上の情報を用いて読取結果
が正しいか否かを検定する手段を与え、全体として誤認
識率を下げることにある。
)などの場合に比較して2000〜4000と多く、た
とえばN−Gramの表の記憶容量が膨大になり、その
ままでは実現不可能になる。(3)発明の目的 したがつて、本発明の目的は、字種の多い場合に適した
手法として申請書のもつ文脈上の情報を用いて読取結果
が正しいか否かを検定する手段を与え、全体として誤認
識率を下げることにある。
(4)発明の総括説明上記の目的を達成するために、本
発明においては、申請書などの書式(一般的には文脈情
報)を利用している。
発明においては、申請書などの書式(一般的には文脈情
報)を利用している。
たとえば、次のような書式をもつ申請書を考える。(例
) 申請書の種類 登記申請書 登記の目的 全部移転 原 因 昭和52年2月2日売買 権利者 氏 名 甲山太部 所 在 東京都国立市1−1 持 分 3分のl 義務者 氏 名 乙月次部 住 所 東京都立川市2−2 申請日 昭和52年3月3日 以上 上記の例では、申請書左側にタイプされるキー項目(申
請書の種類、登記の目的など)は限定されており、さら
にキー項目の右の欄、すなわち固定項目の字種もキー項
目が何であつたかに依存して限定される。
) 申請書の種類 登記申請書 登記の目的 全部移転 原 因 昭和52年2月2日売買 権利者 氏 名 甲山太部 所 在 東京都国立市1−1 持 分 3分のl 義務者 氏 名 乙月次部 住 所 東京都立川市2−2 申請日 昭和52年3月3日 以上 上記の例では、申請書左側にタイプされるキー項目(申
請書の種類、登記の目的など)は限定されており、さら
にキー項目の右の欄、すなわち固定項目の字種もキー項
目が何であつたかに依存して限定される。
したがつて、この制限、すなわち文脈情報を利用して、
読取結果の正当性を検定することができる。なおここで
、キー項目とは帳票上であらかじめ定められた欄の文字
列を言い、上記例では上述したように各行のはじめから
8文字分の欄である。
読取結果の正当性を検定することができる。なおここで
、キー項目とは帳票上であらかじめ定められた欄の文字
列を言い、上記例では上述したように各行のはじめから
8文字分の欄である。
また、固定項目とはキー項目と一対一の対応を持つた欄
の文字列であり、上記例では、キー項目に続く同じ行内
の欄の文字列である。本発明装置の原理の概略を、第1
図の流れ図を用いて説明する。
の文字列であり、上記例では、キー項目に続く同じ行内
の欄の文字列である。本発明装置の原理の概略を、第1
図の流れ図を用いて説明する。
まず、201,202で帳票上の文字を光電変換し、一
定枠内に切り出し、1行毎に認識し、認識結果を文字コ
ードの形で1行分出力する。認識部は上記動作を帳票土
の全文字が認識されるまで続ける。以上までは従来の文
字認識装置と同じである。つぎに、本発明の中心部であ
る認識結果検定部は、キー項目(l行の左側の所定の長
さのフイールドに印刷される文字列)に対応する認識結
果の文字系列を抽出し、全キー項目が記憶されている辞
書の中から、この文字系列が何番目のキー項目に該当す
るかを203で認識する。これをキー項目の単語認識と
いう。なお・、文字認識は誤まることも考えられるので
、上記単語認識の手法は工夫する必要がある。手法は後
述する。何番目のキー項目かが分ると、このキー項目に
続く固定項目に出現し得る字種が限定可能となり、20
4で字種を指定する。
定枠内に切り出し、1行毎に認識し、認識結果を文字コ
ードの形で1行分出力する。認識部は上記動作を帳票土
の全文字が認識されるまで続ける。以上までは従来の文
字認識装置と同じである。つぎに、本発明の中心部であ
る認識結果検定部は、キー項目(l行の左側の所定の長
さのフイールドに印刷される文字列)に対応する認識結
果の文字系列を抽出し、全キー項目が記憶されている辞
書の中から、この文字系列が何番目のキー項目に該当す
るかを203で認識する。これをキー項目の単語認識と
いう。なお・、文字認識は誤まることも考えられるので
、上記単語認識の手法は工夫する必要がある。手法は後
述する。何番目のキー項目かが分ると、このキー項目に
続く固定項目に出現し得る字種が限定可能となり、20
4で字種を指定する。
従つて、文字認識結果の文字コード列の中で固定項目に
対応する文字コードを調べて、上記の許容される字種に
含まれるか否かを次に205で調べる。このとき、含ま
れないことが分れば、文字認識の結果が誤りであるか、
帳票の文字が誤字であつたかのどちらかである。したが
つて、この場合は上記の旨を認識結果に付随して出力す
る。たとえば文字コードの符号を反転させる。検定の結
果、許容字種に含まれていれば、正読と見做して、その
まま文字コードを出力する。以上の動作を帳票上の文字
がなくなるまで続ける。
対応する文字コードを調べて、上記の許容される字種に
含まれるか否かを次に205で調べる。このとき、含ま
れないことが分れば、文字認識の結果が誤りであるか、
帳票の文字が誤字であつたかのどちらかである。したが
つて、この場合は上記の旨を認識結果に付随して出力す
る。たとえば文字コードの符号を反転させる。検定の結
果、許容字種に含まれていれば、正読と見做して、その
まま文字コードを出力する。以上の動作を帳票上の文字
がなくなるまで続ける。
上記の考えに立つて読取り結果の検定を行うためには、
キー項目を単語として一括して認識する手段と、認識さ
れたキー項目に続く固定項目に出現し得る字種を指定す
る手段が必要である。
キー項目を単語として一括して認識する手段と、認識さ
れたキー項目に続く固定項目に出現し得る字種を指定す
る手段が必要である。
本発明の実施例の説明に移る前に、上記二つの手段につ
いて説明する。まず、認識結果の文字系列を単語として
認識する手法を説明する。
いて説明する。まず、認識結果の文字系列を単語として
認識する手法を説明する。
一般に単語認識をするためには単語の辞書(各単語を構
成する文字コード列からなる表)を用意して、入力され
た字系列がどの辞書項目と一致するかを調べればよい。
しかし、実際には入力された文字系列がすべて正しく読
取られているとは限らないので、どの辞書項目とも完全
一致がとれない場合がある。したがつて、辞書項目と一
致がとれるか否かではなく、入力文字系列と各辞書項目
との距離または等価的に類似度(後で定義する)を求め
て、単語認識をする必要がある。たとえば[申請日」を
読取つた結果として「甲フ請日]が得られることがある
が、「甲請日」という辞書項目は明らかに存在しない。
成する文字コード列からなる表)を用意して、入力され
た字系列がどの辞書項目と一致するかを調べればよい。
しかし、実際には入力された文字系列がすべて正しく読
取られているとは限らないので、どの辞書項目とも完全
一致がとれない場合がある。したがつて、辞書項目と一
致がとれるか否かではなく、入力文字系列と各辞書項目
との距離または等価的に類似度(後で定義する)を求め
て、単語認識をする必要がある。たとえば[申請日」を
読取つた結果として「甲フ請日]が得られることがある
が、「甲請日」という辞書項目は明らかに存在しない。
文字系列と辞書項目との類似度を各文字同志の類似度と
すると、上記例では「申」と「甲」との類似度が必要に
なる。
すると、上記例では「申」と「甲」との類似度が必要に
なる。
しかし、このような2つの文字の組合せは、読取対象字
種を2000字として4000,000の組合せとなり
、記憶しておくことは不可能である。したがつて、本発
明装置では、異なる文字同志(上記例では「甲」と「申
」)の類似度が必要になつた場合は、認識装置内の該当
する標準パターン同志の類似度を計算してその値を用い
る。同じ文字同志の類似度は常に1とする。ここで類似
度とはOから1までの値をとる数値で、二つの文字パタ
ーン同志の間に定義され、専用計算回路により容易に計
算され、公知であるので、ここでは説明を省略する。
種を2000字として4000,000の組合せとなり
、記憶しておくことは不可能である。したがつて、本発
明装置では、異なる文字同志(上記例では「甲」と「申
」)の類似度が必要になつた場合は、認識装置内の該当
する標準パターン同志の類似度を計算してその値を用い
る。同じ文字同志の類似度は常に1とする。ここで類似
度とはOから1までの値をとる数値で、二つの文字パタ
ーン同志の間に定義され、専用計算回路により容易に計
算され、公知であるので、ここでは説明を省略する。
上記手法による単語認識のアルゴリズムを第4図の流れ
図を用いて説明する。
図を用いて説明する。
まず、各辞書項目は、単語を構成する文字数Nkと、文
字コード列Wk−{Wi(k)1i−1,2,・・・,
Nk}とで表現されている。全辞書項目の数をKとする
。上でkは、項目番号(単語番号)であり、lからKま
での値をとる。また単語認識部へ入力される文字認識結
果の文字系列(文字コード列)をS−{Sil−1,2
,・・・,N}で表わす。文字系列SとWkとの類似度
をρkで表わす。第2図に単語認識に必要な辞書の構成
を示す。
字コード列Wk−{Wi(k)1i−1,2,・・・,
Nk}とで表現されている。全辞書項目の数をKとする
。上でkは、項目番号(単語番号)であり、lからKま
での値をとる。また単語認識部へ入力される文字認識結
果の文字系列(文字コード列)をS−{Sil−1,2
,・・・,N}で表わす。文字系列SとWkとの類似度
をρkで表わす。第2図に単語認識に必要な辞書の構成
を示す。
辞書の最初の語501(番号D)はキー項目の数Kを保
持し、つぎに各項目の文字コード列を記憶する番地Al
,A2,・・・,ANを記憶する語502が続く。つぎ
は各キー項目の文字コード列を記憶する語がつづく。た
とえばA1番地503は、項目番号1の単語を構成する
文字の長さ(文字数)N1を保持し、以下のNO語50
4は各文字コードを記憶している。第3図に単語認識の
対象となる文字コード列を図示する。
持し、つぎに各項目の文字コード列を記憶する番地Al
,A2,・・・,ANを記憶する語502が続く。つぎ
は各キー項目の文字コード列を記憶する語がつづく。た
とえばA1番地503は、項目番号1の単語を構成する
文字の長さ(文字数)N1を保持し、以下のNO語50
4は各文字コードを記憶している。第3図に単語認識の
対象となる文字コード列を図示する。
文字コード列はメモリの作業用領域に一担格納され、N
語からなる。第4図において、単語認識は次のように実
行される。
語からなる。第4図において、単語認識は次のように実
行される。
まず101,102で初期化をする。103において、
単語長が入力文字系列長に一致するか否かを判定して、
一致しないときは類似度ρkは0のままとして、次の単
語を調べる。
単語長が入力文字系列長に一致するか否かを判定して、
一致しないときは類似度ρkは0のままとして、次の単
語を調べる。
単語長が一致するときは、105〜112の過程で類似
度ρkを求める。104で初期化を行い、105で辞書
内k番目の項目のi番目の文字コードWi(k)と入力
文字系列のi番目の文字コードSiとが一致するか否か
を調べ、一致するときは、106でρkに1を加え、一
致しないときは107において判定不能であつたかどう
かを調べる。
度ρkを求める。104で初期化を行い、105で辞書
内k番目の項目のi番目の文字コードWi(k)と入力
文字系列のi番目の文字コードSiとが一致するか否か
を調べ、一致するときは、106でρkに1を加え、一
致しないときは107において判定不能であつたかどう
かを調べる。
Si=0のときは判定不能を示し、このときは106を
実行し、Si\0のときは108において、認識装置内
の標準パターンを用いて、Wi(k)の標準パターンと
Siの標準パターンの類似度を計算し、ρkに加える。
そこまでの文字数1でρkを割つた値が閾値εを越える
かどうかを109で判定し、越えない場合は項目kは候
補から113において除外する。越える場合は次の文字
に進み、全文字に対して105〜111の処理が終了し
たときは112において、文字系列同志の類似度を文字
数Nで割つて正規化する。115において全辞書項目の
処理が済んだことが検知されたときは、116で求めら
れた全類似度{ρKlk=1,2,・・・,K}の中の
最大値ρ皆次大値ρ2を求め、絶対閾値δとρ1を比較
し117、さらにρlとρ2の差に十分な開きがあるか
否かを相対閾値γにより検定し、十分なときは119で
ρlを与える単語番号k*を出力し、十分でないときは
判定不能を120で出力する。
実行し、Si\0のときは108において、認識装置内
の標準パターンを用いて、Wi(k)の標準パターンと
Siの標準パターンの類似度を計算し、ρkに加える。
そこまでの文字数1でρkを割つた値が閾値εを越える
かどうかを109で判定し、越えない場合は項目kは候
補から113において除外する。越える場合は次の文字
に進み、全文字に対して105〜111の処理が終了し
たときは112において、文字系列同志の類似度を文字
数Nで割つて正規化する。115において全辞書項目の
処理が済んだことが検知されたときは、116で求めら
れた全類似度{ρKlk=1,2,・・・,K}の中の
最大値ρ皆次大値ρ2を求め、絶対閾値δとρ1を比較
し117、さらにρlとρ2の差に十分な開きがあるか
否かを相対閾値γにより検定し、十分なときは119で
ρlを与える単語番号k*を出力し、十分でないときは
判定不能を120で出力する。
つぎに、キー項目に続く固定項目に出現し得る字種を指
定する手段を説明する。
定する手段を説明する。
本発明では、フラグ表なるものを第5図に示すごとく、
またビツト番号変換表なるものを第6図に示すごとく用
意する。キー項目の単語認識結果がk*のときは、まず
ビツト番号変換表を参照してフラグ表のどのビツトを利
用するかを示すビツト位置番号b(k*)を求める。つ
ぎに任意の文字に対するフラグ表の内容を取り出し、b
(k*)ビツト目の値がlであるときは同文字は同キー
項目に続く字種として許され、0であるときは許されな
いということが分る。したがつて、この結果を用いて、
原理の説明で述べたように認識結果を検定することがで
きる。
またビツト番号変換表なるものを第6図に示すごとく用
意する。キー項目の単語認識結果がk*のときは、まず
ビツト番号変換表を参照してフラグ表のどのビツトを利
用するかを示すビツト位置番号b(k*)を求める。つ
ぎに任意の文字に対するフラグ表の内容を取り出し、b
(k*)ビツト目の値がlであるときは同文字は同キー
項目に続く字種として許され、0であるときは許されな
いということが分る。したがつて、この結果を用いて、
原理の説明で述べたように認識結果を検定することがで
きる。
(5)実施例以下、本発明を実施例を参照して詳細に説
明する。
明する。
}
第7図は本発明装置の一実施例のプロツク図である。
以下、同図に従つて実施例を説明する。同図において1
は従来の文字認識装置で、3が未知パターンを観測する
文字観測部、4が文字認識処理装置、5は標準パターン
記憶装置である。上記の部分は公知であるのでここでは
詳述しない。認識処理装置4の出力6は、帳票上の文字
を行単位に認識した結果で、文字コード列の形で転送さ
れる。ここで、文字コードがOのときは、その文字は認
識不能であつたことを表わす。本発明の中心部である検
定処理装置10は、メモリ11と類似度計算回路30と
、マイクロプロセツサ20から成つている。
は従来の文字認識装置で、3が未知パターンを観測する
文字観測部、4が文字認識処理装置、5は標準パターン
記憶装置である。上記の部分は公知であるのでここでは
詳述しない。認識処理装置4の出力6は、帳票上の文字
を行単位に認識した結果で、文字コード列の形で転送さ
れる。ここで、文字コードがOのときは、その文字は認
識不能であつたことを表わす。本発明の中心部である検
定処理装置10は、メモリ11と類似度計算回路30と
、マイクロプロセツサ20から成つている。
回路30は、マイクロプロセツサ20から2個の文字コ
ードを受けて、同文字コードに対応する2個の標準パタ
ーンを5より受けて同標準パターン同志の類似度を計算
し、結果の類似度を20へ返送する。回路30は、第4
図の処理108を実行するときに用いられる。メモリ1
1は、第5図に示したフラグ表を記憶する部分12と、
第6図に示したビツト番号変換表を記憶する部分13と
、第2図に示したキー項目辞書を記憶する部分14と、
さらに作業用領域15とからなつている。マイクロプロ
セツサ20は20内に持つマイクロプログラムに従つて
、第4図で説明したアルゴリズムにより単語認識(キー
項目認識)を行い、固定項目の字種の指定を12を用い
て行い、固定項目の認識結果である文字コードを検定す
る。
ードを受けて、同文字コードに対応する2個の標準パタ
ーンを5より受けて同標準パターン同志の類似度を計算
し、結果の類似度を20へ返送する。回路30は、第4
図の処理108を実行するときに用いられる。メモリ1
1は、第5図に示したフラグ表を記憶する部分12と、
第6図に示したビツト番号変換表を記憶する部分13と
、第2図に示したキー項目辞書を記憶する部分14と、
さらに作業用領域15とからなつている。マイクロプロ
セツサ20は20内に持つマイクロプログラムに従つて
、第4図で説明したアルゴリズムにより単語認識(キー
項目認識)を行い、固定項目の字種の指定を12を用い
て行い、固定項目の認識結果である文字コードを検定す
る。
つぎに、文字認識装置としての処理の流れに沿つて説明
する。帳票上に印刷された文字パターンは3により光電
変換され、一定の枠内に切り出され、4へ転送される。
する。帳票上に印刷された文字パターンは3により光電
変換され、一定の枠内に切り出され、4へ転送される。
4では3から送られて来た未知パターンと5内の各標準
パターンとの類似度を計算し、最大類似度を与える文字
のコードを、1行分まとめて、文字コード列として出力
線6上に出力する。
パターンとの類似度を計算し、最大類似度を与える文字
のコードを、1行分まとめて、文字コード列として出力
線6上に出力する。
ただし、ここで4は最大類似度が所定の閾値以上になつ
ているかどうかを検定し、閾値に達しない場合は出力コ
ードを0とする。検定処理装置10内のマイクロプロセ
ツサ20は1行ごとの認識結果の文字コード列を6を通
して受け取りメモリ15に格納する。
ているかどうかを検定し、閾値に達しない場合は出力コ
ードを0とする。検定処理装置10内のマイクロプロセ
ツサ20は1行ごとの認識結果の文字コード列を6を通
して受け取りメモリ15に格納する。
まず1行分の文字系列(ブランクも1つの文字コードを
与えられている)からキー項目に対応する文字コード系
列を抽出し、単語認識に移る。l行分の文字コード列の
例を第8図に示す。l行は25文字からなり、先頭の8
文字801がキー項目に対応し、後半の17文字802
が固定項目に対応する。文字コード9999はブランク
を意味する。欄801内のブランタでない文字コード(
第8図に於いてはSl,S2,・・・,S6)がキー項
目の文字を認識した結果の文字コード列である。単語認
識はマイクロプログラムにより、第4図に示したアルゴ
リズムに従づて行う。
与えられている)からキー項目に対応する文字コード系
列を抽出し、単語認識に移る。l行分の文字コード列の
例を第8図に示す。l行は25文字からなり、先頭の8
文字801がキー項目に対応し、後半の17文字802
が固定項目に対応する。文字コード9999はブランク
を意味する。欄801内のブランタでない文字コード(
第8図に於いてはSl,S2,・・・,S6)がキー項
目の文字を認識した結果の文字コード列である。単語認
識はマイクロプログラムにより、第4図に示したアルゴ
リズムに従づて行う。
ただし、同アルゴリズムにおいて、第4図の処理108
は、類似度計算回路によつて行う。すなわち、20は2
個の文字コードS1とk番目の辞書項目のi番目の文字
コードWi(k)(第4図参照)を30に転送し、類似
度計算の命令を30に対して発する。30は同命令を受
けて、Si(5wi(k)に対応する2個の標準パター
ンを5より読み出し、同標準パターン同志の類似度ρ*
を計算し、20に対し返送する。
は、類似度計算回路によつて行う。すなわち、20は2
個の文字コードS1とk番目の辞書項目のi番目の文字
コードWi(k)(第4図参照)を30に転送し、類似
度計算の命令を30に対して発する。30は同命令を受
けて、Si(5wi(k)に対応する2個の標準パター
ンを5より読み出し、同標準パターン同志の類似度ρ*
を計算し、20に対し返送する。
以上は第1図の処理203である。マイクロプログラム
は単語認識が終了すると、検定処理に移る。まず第1図
の処理204を行う。まず、キー項目認識の結果のキー
項目番号が分ると、メモリ13内のビツト番号変換表を
調べて、同キー項目に続く固定項目の字種を指定する所
のフラグ表のビツト番号b*を得る。続いて固定項目の
認識結果の検定処理205を行う。20はメモリ15内
の認識結果文字コード列(第8図)の内、固定項目に対
応する文字コード802から1つづつ取り出し、メモリ
12内のフラグ表(第5図参照)の各文字コードに対応
するフラグのb*ビツト目を調べる。
は単語認識が終了すると、検定処理に移る。まず第1図
の処理204を行う。まず、キー項目認識の結果のキー
項目番号が分ると、メモリ13内のビツト番号変換表を
調べて、同キー項目に続く固定項目の字種を指定する所
のフラグ表のビツト番号b*を得る。続いて固定項目の
認識結果の検定処理205を行う。20はメモリ15内
の認識結果文字コード列(第8図)の内、固定項目に対
応する文字コード802から1つづつ取り出し、メモリ
12内のフラグ表(第5図参照)の各文字コードに対応
するフラグのb*ビツト目を調べる。
同ビツトがlのときは、許容される字種であるので、そ
の時は何もしないが、0のときは許容されない字種であ
るので、同結果を与えた802内の文字コードの符号を
反転させる。たとえば、固定項目のある認識結果文字コ
ードが500であり、検定の結果許容されない文字のと
きは符号を反転させて−500とする。ここで、固定項
目の認識結果の文字コードが4から送出された段階で負
の符号のときは、同文字コードに対する検定処理は行わ
ない。また、キー項目に対応する文字コードは、単語認
識結果の辞書の文字コード列を第8図に示したキー項目
の文字コード列に代人する。
の時は何もしないが、0のときは許容されない字種であ
るので、同結果を与えた802内の文字コードの符号を
反転させる。たとえば、固定項目のある認識結果文字コ
ードが500であり、検定の結果許容されない文字のと
きは符号を反転させて−500とする。ここで、固定項
目の認識結果の文字コードが4から送出された段階で負
の符号のときは、同文字コードに対する検定処理は行わ
ない。また、キー項目に対応する文字コードは、単語認
識結果の辞書の文字コード列を第8図に示したキー項目
の文字コード列に代人する。
例えば、文字認識結果801が「甲請日」であつても単
語認識の結果が[−申請日]に対応するキー項目番号で
あるとすると20は[甲請日」の代りに「申請田に対応
する文字コード列をメモリ14に格納してある辞書から
取り出して801を書き替えるので、文字認識結果に誤
りがあつても正しく修正される。キー項目の単語認識の
結果が判定不能であつた場合は、以後の文字コードの検
定ができないので同行の文字コードをすべて負に反転さ
せる。検定が終了して第8図に示した文字コード列が書
さ替えられると(誤りがない場合は結果的には変更がな
い。
語認識の結果が[−申請日]に対応するキー項目番号で
あるとすると20は[甲請日」の代りに「申請田に対応
する文字コード列をメモリ14に格納してある辞書から
取り出して801を書き替えるので、文字認識結果に誤
りがあつても正しく修正される。キー項目の単語認識の
結果が判定不能であつた場合は、以後の文字コードの検
定ができないので同行の文字コードをすべて負に反転さ
せる。検定が終了して第8図に示した文字コード列が書
さ替えられると(誤りがない場合は結果的には変更がな
い。
)、20は同文字コード列801,802を出力線50
上に出力する。以上の過程は帳票の行単位に実行される
。
上に出力する。以上の過程は帳票の行単位に実行される
。
(6)まとめ
以上説明したごとく、本発明装置は文字認識結果を文脈
情報を利用して検定し、認識結果が誤りと判断される場
合は、文字コードの符号を逆転させ、またキー項目部の
一部の文字の誤認識は正しく修正されて出力されるので
、誤認識率を低下させることができる。
情報を利用して検定し、認識結果が誤りと判断される場
合は、文字コードの符号を逆転させ、またキー項目部の
一部の文字の誤認識は正しく修正されて出力されるので
、誤認識率を低下させることができる。
本文字認識装置の結果を、たとえばつぎのように表示し
、人手により最終判定を仰ぐことができる。
、人手により最終判定を仰ぐことができる。
すなわち、正の文字コードが出力された場合は通常に表
示し、負の文字コードが出力された場合は、誤認識の可
能性が高いので、輝度や色を変えてデイスプレイしたり
、表示文字の脇に特殊記号を付して表示したりでき、人
手を介して修正できる。本発明装置の特徴は、従来の文
字認識装置の後段に付ければよいので大きな変更を必要
としないこと、本検定処理部を容易に取除くことができ
認識部はそのまま従来の認識装置として動作できるので
、本検定処理部をオプシヨンとして取扱えることである
。また、単語認識に際して、誤りを含んだ文字コード系
列から辞書を検索する手法で必要になる任意の二つの文
字の近さの測度を、標準パターン同志の類似度によつて
得ている点も特徴である。
示し、負の文字コードが出力された場合は、誤認識の可
能性が高いので、輝度や色を変えてデイスプレイしたり
、表示文字の脇に特殊記号を付して表示したりでき、人
手を介して修正できる。本発明装置の特徴は、従来の文
字認識装置の後段に付ければよいので大きな変更を必要
としないこと、本検定処理部を容易に取除くことができ
認識部はそのまま従来の認識装置として動作できるので
、本検定処理部をオプシヨンとして取扱えることである
。また、単語認識に際して、誤りを含んだ文字コード系
列から辞書を検索する手法で必要になる任意の二つの文
字の近さの測度を、標準パターン同志の類似度によつて
得ている点も特徴である。
したがつて、近さの測度を貯えるための膨大な記憶装置
が不必要である。なお、本明.細書に述べた実施例にお
いては、第5図で10の中に類似度計算回路30を設け
たが、類似度計算機能は4が本来持つているので、4を
若干変更することにより、30を4の中に含め、全体と
して効率的なものにすることができる。本発明では、一
行ごとにキー項目と固定項目が書かれている書式とした
が、書式が変わつた場合は、検定処理部のマイクロプロ
グラムを変更すればよいので、本発明は行単位の検定方
式に限られない。
が不必要である。なお、本明.細書に述べた実施例にお
いては、第5図で10の中に類似度計算回路30を設け
たが、類似度計算機能は4が本来持つているので、4を
若干変更することにより、30を4の中に含め、全体と
して効率的なものにすることができる。本発明では、一
行ごとにキー項目と固定項目が書かれている書式とした
が、書式が変わつた場合は、検定処理部のマイクロプロ
グラムを変更すればよいので、本発明は行単位の検定方
式に限られない。
また、書式を表の形で記憶装置11内に記憶しておき、
マイクロプログラムを変更しないでもすむようにもでき
る。また、キー項目により固定項目の字種を限定したが
、固定項目の中を更に分割して、単語認識をしながら以
後の字種を限定するように変更することもできる。
マイクロプログラムを変更しないでもすむようにもでき
る。また、キー項目により固定項目の字種を限定したが
、固定項目の中を更に分割して、単語認識をしながら以
後の字種を限定するように変更することもできる。
例えば、地名の場合などで、都道府県名を認識して市町
村名の字種を限定するなどである。さらに、帳票の第1
行目に大目出しを作り、その単語認識結果によりキー項
目辞書や、フラグ表を動的に変更するように作ることも
可能であり、これらすべて本発明に含まれる。以上の説
明でも明らかなように、本発明の中心である検定処理部
は、その前段である認識処理部の具体的な手法にはなん
ら依存せず、同じく採用することができる。
村名の字種を限定するなどである。さらに、帳票の第1
行目に大目出しを作り、その単語認識結果によりキー項
目辞書や、フラグ表を動的に変更するように作ることも
可能であり、これらすべて本発明に含まれる。以上の説
明でも明らかなように、本発明の中心である検定処理部
は、その前段である認識処理部の具体的な手法にはなん
ら依存せず、同じく採用することができる。
なお、本発明に似た考え方として欄ごとに数字、英字あ
るいは片仮名といつた字種を限定する方法があるが、本
発明原理は、その欄はどの字種であるのかをキー項目認
識の結果に依存して選択するのであり、動的に字種を限
定している。
るいは片仮名といつた字種を限定する方法があるが、本
発明原理は、その欄はどの字種であるのかをキー項目認
識の結果に依存して選択するのであり、動的に字種を限
定している。
したがつて、本発明は従来のそのような方法とは本質的
に異なる。
に異なる。
第1図は本発明の原理を説明するための流れ図である。
Claims (1)
- 【特許請求の範囲】 1 記録媒体上に設定された文字フィールド上の未知文
字パターンを入力し、入力された未知文字パターンをあ
らかじめ用意された標準パターンと照合して認識をおこ
なう文字認識装置において、単語辞書を格納する記憶手
段と、上記文字フィールド上のあらかじめ指定された文
脈同定領域上に存在する未知文字パターン列の認識結果
と上記単語辞書中の単語との照合度にもとづき所定の文
字フィールドにおける未知文字パターン列の文脈を同定
する同定手段と、同定された文脈により指定された文字
パターンの部分集合にもとづき各文字フィールド上の未
知文字パターン列の認識結果を検定する検定手段とを備
えたことを特徴とする文字認識装置。 2 上記照合度は認識結果を表わす文字パターンコード
列と単語を表わす文字コード列とを比較し、各文字パタ
ーンに対応する文字コードが一致した場合は類似度1を
与え、一致しない場合は各文字コードに対応する文字パ
ターン間の類似度を与えることにより算出されることを
特徴とする特許請求の範囲第1項の文字認識装置。 3 上記照合において、一致しない場合は各文字コード
に対応する標準文字パターン間の類似度を与えることを
特徴とする特許請求の範囲第2項の文字認識装置。 4 上記文脈同定領域上に存在する未知文字パターン列
は対応する文字フィールドの種類を指定するキー項目を
含むことを特徴とする特許請求の範囲第1項の文字認識
装置。 5 上記文脈同定領域上に存在する未知文字パターン列
は対応する文字フィールドに続く次の文字フィールドの
種類を指定する遷移規則を含むことを特徴とする特許請
求の範囲第1項の文字認識装置。 6 上記検定手段は、未知文字パターンのカテゴリー数
をM(M:2以上の整数)、文字パターンの部分集合数
をN(N:2以上の整数)としてM行N列の行列状に配
列された記憶要素からなる記憶手段を含み、n(n=1
、2、…、N)番目の部分集合に含まれる文字パターン
のカテゴリーは上記行列の第n列における各行に対応し
た記憶要素の記憶内容により指定することを特徴とする
特許請求の範囲第1項の文字認識装置。 7 上記同定手段は上記文脈の同定結果により上記単語
辞書を変更する手段を含むことを特徴とする特許請求の
範囲第1項の文字認識装置。 8 上記同定手段は上記文脈の同定結果により上記記憶
要素の記憶内容を変更する手段を含むことを特徴とする
特許請求の範囲第6項の文字認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP52033386A JPS594071B2 (ja) | 1977-03-28 | 1977-03-28 | 文字認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP52033386A JPS594071B2 (ja) | 1977-03-28 | 1977-03-28 | 文字認識装置 |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP58079399A Division JPS6055866B2 (ja) | 1983-05-09 | 1983-05-09 | 文字認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS53118942A JPS53118942A (en) | 1978-10-17 |
| JPS594071B2 true JPS594071B2 (ja) | 1984-01-27 |
Family
ID=12385145
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP52033386A Expired JPS594071B2 (ja) | 1977-03-28 | 1977-03-28 | 文字認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS594071B2 (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS5748163A (en) * | 1980-09-03 | 1982-03-19 | Hitachi Ltd | Method and device for inspection of pattern |
-
1977
- 1977-03-28 JP JP52033386A patent/JPS594071B2/ja not_active Expired
Also Published As
| Publication number | Publication date |
|---|---|
| JPS53118942A (en) | 1978-10-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5161245A (en) | Pattern recognition system having inter-pattern spacing correction | |
| US5467407A (en) | Method and apparatus for recognizing cursive writing from sequential input information | |
| US10963717B1 (en) | Auto-correction of pattern defined strings | |
| US5329598A (en) | Method and apparatus for analyzing character strings | |
| JPS594071B2 (ja) | 文字認識装置 | |
| JPS6262388B2 (ja) | ||
| JPS6055866B2 (ja) | 文字認識装置 | |
| JPH0520797B2 (ja) | ||
| JP4442136B2 (ja) | 文字認識方法および装置 | |
| JPS63268082A (ja) | パタ−ン認識装置 | |
| JPS59197974A (ja) | 文字認識装置 | |
| JP3245415B2 (ja) | 文字認識方法 | |
| JPS6336487A (ja) | 文字読取方式 | |
| JP2529421B2 (ja) | 文字認識装置 | |
| JPS61161588A (ja) | 文字認識後処理方式 | |
| JPS60225273A (ja) | 単語検索方式 | |
| JPS5930176A (ja) | 文字判定処理方式 | |
| JP3007697B2 (ja) | 単語照合装置及び単語照合方法 | |
| JPH08305698A (ja) | 自然語解析方法及び装置 | |
| KR101629726B1 (ko) | 띄어쓰기 교정 방법 및 프로그램 | |
| JPS62285189A (ja) | 文字認識後処理方式 | |
| JPH0212481A (ja) | 文字列認識装置 | |
| JPH0546806A (ja) | 文字認識方法 | |
| JPH0420229B2 (ja) | ||
| JPH0583957B2 (ja) |