Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP3696152B2 - Form identification device and form identification method - Google Patents
[go: Go Back, main page]

JP3696152B2 - Form identification device and form identification method - Google Patents

Form identification device and form identification method Download PDF

Info

Publication number
JP3696152B2
JP3696152B2 JP2001364815A JP2001364815A JP3696152B2 JP 3696152 B2 JP3696152 B2 JP 3696152B2 JP 2001364815 A JP2001364815 A JP 2001364815A JP 2001364815 A JP2001364815 A JP 2001364815A JP 3696152 B2 JP3696152 B2 JP 3696152B2
Authority
JP
Japan
Prior art keywords
character
area
identification
image
definition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2001364815A
Other languages
Japanese (ja)
Other versions
JP2003168074A (en
Inventor
和章 横田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2001364815A priority Critical patent/JP3696152B2/en
Priority to US10/305,193 priority patent/US7099508B2/en
Publication of JP2003168074A publication Critical patent/JP2003168074A/en
Application granted granted Critical
Publication of JP3696152B2 publication Critical patent/JP3696152B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Controlling Sheets Or Webs (AREA)
  • Character Input (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、複数種の帳票を扱う文字認識装置に適用して好適な帳票識別装置に係り、特に識別する文字列が固定位置に配置されない複数種の帳票を帳票定義に従って識別する際に適用して好適な帳票識別装置に関する。
【0002】
更に本発明は複数の識別項目による帳票定義に従って帳票を識別する帳票識別方法に関する。
【0003】
【従来の技術】
複数種類の帳票をOCR装置で文字認識したい場合、予め帳票を種類別に分類する帳票識別作業が介在する。この帳票識別作業を人手により行うと多くの時間と労力を要する。そこで従来では、あらかじめ帳票の決まった位置に、帳票種類を見分けるための手がかりとなる文字を印字しておき、この文字を認識することで帳票種類を識別する方法が知られていた。しかしながら、この方法では、あらかじめ帳票設計時点で、各帳票について、識別するための文字列を定位置に配置しておかなければならないという問題がある。
【0004】
そこで、このような不具合を解消するために、処理対象となる複数種の帳票それぞれについて、帳票のサイズ、とじ穴領域、コーナーカット領域、プレ印刷領域などの特徴を集めた辞書(帳票定義)を作成し、この辞書と入力帳票とのマッチングを行なうことで、帳票識別のための文字列を固定位置に配置していない帳票についても帳票の種類を識別可能とした技術が提案された(特願2000−298280)。
【0005】
しかしながら、上記した従来技術に於いては、識別する帳票の種類が増えると、帳票識別処理の速度が低下する。特に、プレ印刷文字の識別項目に関して、そのチェックに文字認識処理が介在することから、識別対象となる帳票の種類が多くなると、識別処理速度が著しく低下することから、更に高速な帳票識別が要望されるようになった。
【0006】
【発明が解決しようとする課題】
上述したように、従来では、あらかじめ帳票の決まった位置に、帳票種類を見分けるための手がかりとなる文字を印字しておき、この文字を認識することで帳票種類を識別する方法に於いては、あらかじめ帳票設計時点で、識別するための文字列を定位置に配置しておかなければならないという問題があり、この不具合を解消するために提案された、処理対象となる複数種の帳票それぞれについて、帳票のサイズ、とじ穴領域、コーナーカット領域、プレ印刷領域などの特徴を集めた辞書を用いて帳票識別を行う技術に於いては、識別対象となる帳票の種類が多くなると、識別処理速度が著しく低下することから、更に高速な帳票識別が要望されるようになった。
【0007】
本発明は、上記実情に鑑みなされたもので、複数の識別項目による帳票定義に従って帳票の種類を識別する帳票識別処理に於いて、帳票識別を高精度かつ高速に実行できる帳票識別装置および帳票識別方法を提供することを目的とする。
【0008】
【課題を解決するための手段】
本発明は、複数の識別項目による帳票定義に従って帳票を識別する帳票識別処理において文字存在領域を帳票定義に加え、帳票識別処理の高速化並びに高性能化を図ったことを特徴とする。
【0009】
即ち、本発明は、複数の識別項目による帳票定義に従って帳票を識別する帳票識別装置に於いて、文字存在領域を定義した識別項目を含んだ帳票定義に従って帳票を識別することを特徴とする。
【0010】
また、本発明は、複数の識別項目による帳票定義に従って帳票を識別する帳票識別装置において、プレ印字領域で文字を認識することにより帳票の種類を識別する以前に、文字存在領域の存在の判別をすることにより、帳票を識別することを特徴とする。
【0011】
また、本発明は、帳票の種類毎に定義された識別項目に基づいて複数種類の帳票の中から特定の帳票を識別する帳票識別方法において、入力された帳票の画像と前記帳票定義記憶手段に記憶された帳票定義とに基づいて、前記入力された画像において前記定義された文字存在領域が存在するか否かを判別することを特徴とする。
【0012】
また、本発明は、帳票の種類毎に定義された識別項目に基づいて複数種類の帳票の中から特定の帳票を識別する帳票識別方法において、入力された帳票の画像と前記帳票定義記憶手段に記憶された帳票定義とに基づいて、前記入力された画像において前記定義されたプレ印字領域で文字を認識することにより帳票の種類を識別をする以前に、前記入力された画像において前記定義された文字存在領域が存在するか否かを判別することを特徴とする。
【0013】
このように本発明によれば、複数の識別項目による帳票定義に従って帳票を識別する帳票識別処理においてすべての帳票識別を高精度かつ高速に実行できる。
【0014】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態を説明する。
【0015】
図1は、本発明の実施形態に於ける帳票識別装置を備えたOCR装置の構成を示すブロック図である。
【0016】
図1に於いて、帳票定義装置10はスキャナを備え、帳票(p)の種類毎に帳票定義20を作成する。OCR装置30は上記帳票定義装置10で作成した帳票定義20に基づき帳票(p)の種類を識別して認識し、認識結果40を出力する。この図1に示すハードウェア構成は、従来のOCRシステムと基本的に同一である。本発明に於いては、上記帳票定義20に、識別対象となる帳票それぞれの文字存在領域を加え、帳票(p)上の文字存在領域をチェックする機能(文字存在領域の識別項目)を付加している。なお、図1において、帳票定義装置10とOCR装置30は一体形成しても良い。
【0017】
図2および図3は、それぞれ本発明の実施形態に於ける帳票定義20の構成を説明するための図であり、このうち、図2は、帳票定義装置10の画面構成例を示す図、図3は、帳票定義のフィールド設定内容の一例を示す図である。
【0018】
図2に示す帳票定義装置10の画面構成に於いて、11は帳票(p)の帳票イメージ、11a〜11dはそれぞれ帳票(p)上のチェック対象となる、識別項目領域である。このうち、11aはコーナーカット領域、11bはプレ印字領域、11cは白紙(空白)領域である。11dはこの発明の実施形態に於いて新たに追加される文字存在領域である。
【0019】
帳票定義装置10に於ける処理では、まず各種類の帳票を1帳票ずつ用意し、スキャナで画像を読み取る操作を行う。次に、上記読み取った各帳票について、それぞれ、図3に示すような定義内容による、複数の識別項目をもつ帳票定義20を作成する。ここでは、帳票識別項目に、識別対象となる複数種の帳票(p)それぞれについて、帳票(用紙)サイズ、コーナーカット領域(11a)、とじ穴領域(図示せず)、白紙(空白)領域(11c)、プレ印字領域(11b)の各識別項目が定義され、更に、これらの各識別項目に加え、文字存在領域(11d)の識別項目が定義される。尚、ここで扱う帳票(p)上の白紙(空白)領域(11c)は、帳票(p)上に於いて、文字、記号等が何ら記録されていない単色部分(通常は白紙部分)の領域を指す。また、文字存在領域(11d)は、所定の桁範囲内で、例えば数字、記号等の文字が常に印字される領域を指す。
【0020】
OCR装置30に於ける処理では、上記帳票定義装置10によって定義された、図3に示す帳票定義20に基づき、帳票(p)を識別して、文字認識する。その処理の流れを図4に示し、図4に於ける帳票識別処理(ステップS2)の処理手順の詳細を図5に示す。この帳票識別処理では、文字認識が必要な、プレ印字領域(11b)の識別項目チェック以前に、上記文字存在領域(11d)の識別項目チェックを行っている。
【0021】
ここで上記各図を参照して、本発明の実施形態に於ける帳票識別処理動作について説明する。
【0022】
OCR装置30では、取り扱う帳票(p)の画像をスキャナで読み取り(図4ステップS1)、図3に示すような、文字存在領域(11d)の識別項目を含む複数の識別項目をもつ帳票定義に従って帳票(p)を識別し(図4ステップS2)、文字認識を行って(図4ステップS3)、ソータに出力する(図4ステップS4)という一連の作業を行う。この際、複数の出力ポケットのあるソータを接続している場合は、帳票(p)を種類毎に分別することも可能である。識別がエラーになった場合は、該当帳票をリジェクトポケットに出力するなどの処理を行う。
【0023】
この一連の処理過程(図4ステップS1〜S4)のうち、帳票識別処理(図4ステップS2)について以下に詳述する。
【0024】
この帳票識別処理では、読み取った帳票の画像を、上記作成した各帳票の種類毎の1つ1つについて帳票定義20と順次比較し、一致するか否かをすべての項目についてチェックする(図5ステップS21〜ステップS30)。
【0025】
この実施形態では、先ず、「用紙サイズ」が帳票定義20に登録されている帳票サイズと一致するか否かをチェックする(図5ステップS22)。ここで、用紙サイズが一致しなければ次の帳票定義による処理に移行する。
【0026】
一方、一致すれば(指定通りであれば)、次に「コーナーカット」が帳票定義20に登録されているコーナーカット領域の指定通りであるか否かをチェックする(図5ステップS23)。ここで、コーナーカットが指定通りでなければ次の帳票定義による処理に移行する。
【0027】
一方、コーナーカットが指定通りであれば、次に「とじ穴」が帳票定義20に登録されているとじ穴領域の指定通りであるか否かをチェックする(図5ステップS24)。ここで、とじ穴が指定通りでなければ次の帳票定義による処理に移行する。
【0028】
一方、とじ穴が指定通りであれば、次に、「白紙領域」が帳票定義20に登録されている白紙領域の指定通りであるか否かをチェックする(図5ステップS25)。ここで、白紙領域が指定通りでなければ次の帳票定義による処理に移行する。
【0029】
一方、白紙領域が指定通りであれば、次に、「プレ印字」のチェックを行う以前に、本発明の実施形態に於いて付加された、文字存在領域(11d)が帳票定義20に登録されている文字存在領域の指定通りであるか否かをチェックする(図5ステップS26)。ここで、文字存在領域(11d)が指定通りでなければ次の帳票定義による処理に移行する。
【0030】
一方、文字存在領域(11d)が指定通りであれば、次に、「プレ印字」が帳票定義20に登録されているプレ印字領域の指定通りであるか否かをチェックする(図5ステップS27)。ここで、プレ印字が指定通りでなければ次の帳票定義による処理に移行する。そして、プレ印字が指定通りであるとき、該当帳票に一致すると判定する(図5ステップS28)。
【0031】
この一連の帳票定義に従うチェックを識別対象となるすべての帳票種類(帳票フォーマット)について、帳票定義20の内容(パラメータ)を切換ながら繰り返し実行し(図5ステップS21〜ステップS29)、チェックしたすべての帳票定義について、チェック対象にある帳票が只1種類の帳票定義に従う場合にのみ(即ち一致する帳票定義がただ1種類に限られた場合にのみ)その帳票を識別結果とする(図5ステップS30)。一方、一致する帳票定義が複数または0(該当無し)の場合、その識別はエラー(異常終了)となる。
【0032】
このように、複数の識別項目による帳票定義に従って帳票を識別する帳票識別処理に於いて、識別対象となる帳票それぞれの文字存在領域を帳票定義20に加え、帳票(p)上の文字存在領域(11d)をチェックする機能を、文字認識を伴う「プレ印字」のチェック前に行うことによって、処理に多くの時間を要する文字認識を伴う「プレ印字」のチェックに移行する度合いを低減して、効率のよい帳票識別処理が実行できる。即ち、上記した白紙領域(11c)のチェックは、文字認識によるチェックよりも著しく高速である。従って、この白紙領域(11c)のチェックを行うことで、文字認識を行う必要がある帳票定義の数を格段に減らすことができ、識別性能を損なうことなく全体的な処理速度を大幅に向上することができる。
【0033】
更に、本発明に於いて、文字存在領域(11d)は、帳票の種類を識別するだけのために用いるもので、文字認識処理を一切含まない。従って、上記した文字存在領域(11d)に関するチェック(図5ステップS26)では、帳票定義20によって定義した文字存在領域に、実際に文字らしきものがあるか否かをチェックするのみであり、文字認識処理を行いことから、非常に高速にチェックすることができる。
【0034】
ここで、本発明に於ける文字存在領域の具体的なチェック処理について、図6乃至図9を参照して説明する。
【0035】
図6は、帳票にJISBと呼ばれる一定桁数の数字が常に印字される例を示している。
【0036】
文字存在領域のチェックに於いては、先ず、帳票定義20に定義した文字存在領域に基づいて、スキャナで読み取った画像イメージから文字存在領域(11d)の画像を切り出す。その上で、図6に示すように、まず(1)で示す行(ライン)の中心の画素を横に調べ、常に白黒の画素が交互(文字間毎)に現れることをチェックする。ここで、一定数以上、黒もしくは白のピクセルが続いた場合は、該当位置の桁数が指定された長さと異なるか、若しくは該当位置に文字ではないものが存在すると判定する。このように判定した場合は、「一致しない」という結果になる。
【0037】
次に、図6の符号(2),(3),(4),(5)で示す順序で、文字存在領域(11d)の上下左右の各行に、空白域があるか否かをチェックする。通常、OCR帳票の場合には文字認識領域(11d)の上下左右に「クリアエリア」と呼ばれる空白域が確保されている。そこで、このクリアエリア内の画素を横、若しくは縦に調べ、白ピクセルが続くことをチェックする。ここで、上記クリアエリアに黒ピクセルがあれば「一致しない」という結果になる。
【0038】
図7は、上記したチェック方法を用いて、文字存在領域(11d)の形式が異なる3種の帳票を例に、その各文字存在領域(11d)を識別する場合の例を示している。
【0039】
この図7に示すような3種の帳票を識別するためには、上記3種の帳票それぞれについて、指定された文字存在領域(11d)内で文字の存在チェックを行う。ここでは、各帳票共、画素を一方向に5回調べるだけであることから、該当位置に指定サイズの文字認識領域(11d)があることを、非常に高速にチェックすることができる。
【0040】
このような類似の帳票識別方法に「文字認識領域に何桁の文字が存在するか」を鍵に識別を行う方法がある。この方法では、あらかじめ定められた位置の画像を切り出し、その中にある文字をレイアウト解析して文字数を判定していた。しかし、この方法ではレイアウト解析に時間がかかり、桁数だけで識別できるケースは少なく、非常に大きなクリアエリアが必要とされていた。
【0041】
本発明に於いては、文字存在領域(11d)を帳票識別の高速化のためだけに用いて、しかも、文字らしきものの存在をチェックする方式としている。このため、厳密なレイアウト解析は必要無く、処理は高速になる。また、最終的にはプレ印字文字列を識別の鍵とすることで、従来方式よりも多くの帳票識別に適用できる。更に、帳票毎に文字存在領域(11d)を別に定義することができるため、従来方法のように非常に大きなクリアエリアを必要としない。また、文字存在領域(11d)は、文字認識領域と同一である場合が多く、帳票定義装置において文字認識領域の定義を流用できる利点もある。
【0042】
上記した図6に示す文字存在領域のチェック方法は、JISBエリアのように、常に一定桁数の数字がある場合にのみ適用可能である。
【0043】
そこで、図8に桁数が不明な場合のチェック方法を示す。この例の場合は、文字存在領域(11d)が金額などの場合に、1桁以上の数字が必ずあることを利用し、下1桁の存在、および上下右のクリアエリアをチェックしている。
【0044】
更に、図9に、手書きの場合のチェック方法を示す。この例の場合は、文字存在領域(11d)に各数字(黒と白が交互に現れる文字らしきパターン)が存在することと、文字存在領域(11d)の上下左右および文字間の各クリアエリアをチェックしている。手書き領域の場合、文字がはみ出すことも考えられるので、空白域のチェックはそれを考慮して弱めに行うことにより正確な領域チェックを行うことができる。
【0045】
【発明の効果】
以上詳記したように本発明によれば、複数の識別項目による帳票定義に従って帳票を識別する帳票識別処理に於いて、白紙に近い帳票の識別を含めたすべての帳票識別を高精度かつ高速に実行できる。
【図面の簡単な説明】
【図1】本発明の実施形態に於ける帳票識別装置を備えたOCR装置の構成を示すブロック図。
【図2】上記実施形態に於ける帳票定義20の構成を説明するための帳票定義装置の画面構成例を示す図。
【図3】上記実施形態に於ける帳票定義20の構成を説明するための帳票定義のフィールド設定内容の一例を示す図。
【図4】上記実施形態に於けるOCR装置の処理の流れの概要を示すフローチャート。
【図5】上記図4に於ける帳票識別処理の処理手順を示すフローチャート。
【図6】本発明の実施形態に於ける文字存在領域の具体的なチェック処理方法を説明するための図。
【図7】本発明の実施形態に於ける文字存在領域の具体的なチェック処理方法を説明するための図。
【図8】本発明の実施形態に於ける文字存在領域の具体的なチェック処理方法を説明するための図。
【図9】本発明の実施形態に於ける文字存在領域の具体的なチェック処理方法を説明するための図。
【符号の説明】
10…帳票定義装置
11a…コーナーカット領域
11b…プレ印字領域
11c…白紙領域
11d…文字存在領域
20…帳票定義
30…OCR装置
40…認識結果
p…帳票
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a form identification apparatus suitable for application to a character recognition apparatus that handles a plurality of types of forms, and particularly to a case where a plurality of types of forms in which character strings to be identified are not arranged at fixed positions are identified according to a form definition. It is related with a suitable form identification device.
[0002]
Furthermore, the present invention relates to a form identification method for identifying a form in accordance with a form definition with a plurality of identification items.
[0003]
[Prior art]
When it is desired to recognize a plurality of types of forms with the OCR apparatus, a form identification operation for classifying the forms in advance is involved. If this form identification operation is performed manually, a lot of time and labor are required. Therefore, conventionally, a method has been known in which a character that serves as a clue to distinguish the form type is printed at a predetermined position of the form and the form type is identified by recognizing this character. However, this method has a problem in that a character string for identifying each form must be arranged at a fixed position in advance at the time of form design.
[0004]
Therefore, in order to solve such problems, a dictionary (form definition) that collects features such as form size, binding hole area, corner cut area, and pre-print area for each of multiple types of forms to be processed. A technology has been proposed that makes it possible to identify the types of forms even for forms that do not have character strings for form identification placed at fixed positions by creating and matching this dictionary with input forms. 2000-298280).
[0005]
However, in the above-described prior art, as the number of forms to be identified increases, the speed of form identification processing decreases. In particular, because the character recognition processing is involved in the check for pre-printed character identification items, the number of types of forms to be identified increases, so the identification processing speed decreases significantly. It came to be.
[0006]
[Problems to be solved by the invention]
As described above, conventionally, in a method for identifying a form type by recognizing this character by printing a character as a clue to distinguish the form type at a predetermined position of the form in advance, At the time of form design, there is a problem that the character string for identification must be placed in a fixed position in advance, and for each of the multiple types of forms to be processed proposed to solve this problem, In the technology for identifying forms using a dictionary that collects features such as form size, binding hole area, corner cut area, pre-print area, etc., the number of forms to be identified increases. Due to the significant decrease, higher-speed form identification has been demanded.
[0007]
The present invention has been made in view of the above circumstances, and in a form identification process for identifying a form type according to a form definition by a plurality of identification items, a form identification apparatus and a form identification capable of performing form identification with high accuracy and high speed. It aims to provide a method .
[0008]
[Means for Solving the Problems]
The present invention is characterized in that , in a form identification process for identifying a form in accordance with a form definition based on a plurality of identification items, a character existence area is added to the form definition to speed up the form identification process and improve performance.
[0009]
That is, the present invention is characterized in that a form is identified according to a form definition including an identification item that defines a character existence area in a form identification apparatus that identifies a form according to a form definition based on a plurality of identification items.
[0010]
Further, the present invention is a form identification device for identifying a form according to a form definition with a plurality of identification items, and determining the presence of a character existing area before identifying a form type by recognizing a character in a pre-print area. By doing so, the form is identified.
[0011]
Further, the present invention provides a form identification method for identifying a specific form from a plurality of types of forms based on identification items defined for each type of form, in an input form image and the form definition storage means. Based on the stored form definition, it is determined whether or not the defined character existence area exists in the input image .
[0012]
Further, the present invention provides a form identification method for identifying a specific form from a plurality of types of forms based on identification items defined for each type of form, in an input form image and the form definition storage means. Based on the stored form definition, prior to identifying the form type by recognizing characters in the defined pre-printed area in the input image, the definition is defined in the input image. It is characterized by determining whether or not a character existence area exists .
[0013]
As described above, according to the present invention, in the form identification process for identifying a form in accordance with the form definition based on a plurality of identification items , all form identification can be executed with high accuracy and high speed.
[0014]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[0015]
FIG. 1 is a block diagram showing a configuration of an OCR apparatus provided with a form identification apparatus according to an embodiment of the present invention.
[0016]
In FIG. 1, a form definition device 10 includes a scanner, and creates a form definition 20 for each type of form (p). The OCR device 30 identifies and recognizes the type of the form (p) based on the form definition 20 created by the form definition device 10 and outputs a recognition result 40. The hardware configuration shown in FIG. 1 is basically the same as that of a conventional OCR system. In the present invention, the function of checking the character existence area on the form (p) (character identification area identification item) is added to the above-mentioned form definition 20 by adding the character existence area of each form to be identified. ing. In FIG. 1, the form definition device 10 and the OCR device 30 may be integrally formed.
[0017]
2 and 3 are diagrams for explaining the configuration of the form definition 20 in the embodiment of the present invention. Among these, FIG. 2 is a diagram showing a screen configuration example of the form definition device 10. FIG. 3 is a diagram illustrating an example of field setting contents of the form definition.
[0018]
In the screen configuration of the form definition apparatus 10 shown in FIG. 2, 11 is a form image of the form (p), and 11a to 11d are identification item areas to be checked on the form (p). Of these, 11a is a corner cut area, 11b is a pre-print area, and 11c is a blank (blank) area. Reference numeral 11d denotes a character presence area newly added in the embodiment of the present invention.
[0019]
In the processing in the form definition device 10, first, each type of form is prepared, and an operation of reading an image with a scanner is performed. Next, for each of the read forms, a form definition 20 having a plurality of identification items according to the definition contents as shown in FIG. 3 is created. Here, the form identification item includes, for each of a plurality of types of forms (p) to be identified, a form (paper) size, a corner cut area (11a), a binding hole area (not shown), and a blank (blank) area ( 11c) and identification items of the pre-print area (11b) are defined, and in addition to these identification items, identification items of the character existence area (11d) are defined. Note that the blank (blank) area (11c) on the form (p) handled here is an area of a single color part (usually a blank part) where no characters, symbols, etc. are recorded on the form (p). Point to. The character presence area (11d) indicates an area where characters such as numbers and symbols are always printed within a predetermined digit range.
[0020]
In the processing in the OCR device 30, the form (p) is identified and characters are recognized based on the form definition 20 shown in FIG. FIG. 4 shows the flow of the processing, and FIG. 5 shows the details of the processing procedure of the form identification processing (step S2) in FIG. In this form identification processing, the identification item check of the character existence area (11d) is performed before the identification item check of the pre-print area (11b) which requires character recognition.
[0021]
Here, the form identification processing operation in the embodiment of the present invention will be described with reference to the respective drawings.
[0022]
The OCR device 30 reads the image of the form (p) to be handled by the scanner (step S1 in FIG. 4), and follows the form definition having a plurality of identification items including the identification item of the character existence area (11d) as shown in FIG. A series of operations are performed in which the form (p) is identified (step S2 in FIG. 4), character recognition is performed (step S3 in FIG. 4), and output to the sorter (step S4 in FIG. 4). At this time, if a sorter having a plurality of output pockets is connected, the form (p) can be sorted by type. If the identification results in an error, processing such as outputting the corresponding form to the reject pocket is performed.
[0023]
Of the series of processing steps (steps S1 to S4 in FIG. 4), the form identification process (step S2 in FIG. 4) will be described in detail below.
[0024]
In this form identification process, the read form image is sequentially compared with the form definition 20 for each of the created form types, and all items are checked to see if they match (FIG. 5). Step S21 to Step S30).
[0025]
In this embodiment, first, it is checked whether or not “paper size” matches the form size registered in the form definition 20 (step S22 in FIG. 5). If the paper sizes do not match, the process proceeds to the next form definition process.
[0026]
On the other hand, if they match (as specified), then it is checked whether or not “corner cut” is as specified in the corner cut area registered in the form definition 20 (step S23 in FIG. 5). If the corner cut is not as specified, the process shifts to the next form definition process.
[0027]
On the other hand, if the corner cut is as specified, then it is checked whether or not “binding hole” is as specified in the binding hole area registered in the form definition 20 (step S24 in FIG. 5). Here, if the binding hole is not as specified, the process proceeds to the next form definition process.
[0028]
On the other hand, if the binding hole is as specified, it is next checked whether or not “blank area” is as specified for the blank area registered in the form definition 20 (step S25 in FIG. 5). If the blank area is not as specified, the process proceeds to the next form definition.
[0029]
On the other hand, if the blank area is as specified, the character presence area (11d) added in the embodiment of the present invention is registered in the form definition 20 before the “pre-print” check is performed next. It is checked whether or not the designated character existence area is designated (step S26 in FIG. 5). Here, if the character presence area (11d) is not as specified, the processing shifts to the next form definition.
[0030]
On the other hand, if the character presence area (11d) is as specified, it is next checked whether or not “pre-print” is as specified in the pre-print area registered in the form definition 20 (step S27 in FIG. 5). ). If pre-printing is not as specified, the process proceeds to the next form definition. Then, when the pre-printing is as specified, it is determined that it matches the corresponding form (step S28 in FIG. 5).
[0031]
The check according to the series of form definitions is repeatedly executed for all form types (form formats) to be identified while switching the contents (parameters) of the form definition 20 (steps S21 to S29 in FIG. 5). As for the form definition, only when the form to be checked complies with one type of form definition (that is, only when the matching form definition is limited to only one type), the form is set as the identification result (step S30 in FIG. 5). ). On the other hand, when there are a plurality of matching form definitions or 0 (not applicable), the identification is an error (abnormal end).
[0032]
In this way, in the form identification process for identifying a form in accordance with the form definition of a plurality of identification items, the character existence area of each form to be identified is added to the form definition 20 and the character existence area on the form (p) ( 11d) is performed before the “pre-print” check with character recognition is performed, thereby reducing the degree of transition to the “pre-print” check with character recognition that requires a lot of processing time. Efficient form identification processing can be executed. That is, the check of the blank area (11c) described above is significantly faster than the check by character recognition. Therefore, by checking the blank area (11c), the number of form definitions that need to be recognized can be remarkably reduced, and the overall processing speed is greatly improved without impairing the identification performance. be able to.
[0033]
Furthermore, in the present invention, the character presence area (11d) is used only for identifying the type of form and does not include any character recognition processing. Therefore, in the above-described check relating to the character presence area (11d) (step S26 in FIG. 5), it is only checked whether the character existence area defined by the form definition 20 actually looks like a character. Since processing is performed, it can be checked very quickly.
[0034]
Here, a specific check process of the character presence area in the present invention will be described with reference to FIGS.
[0035]
FIG. 6 shows an example in which a number of digits called JISB is always printed on a form.
[0036]
In checking the character existence area, first, based on the character existence area defined in the form definition 20, an image of the character existence area (11d) is cut out from the image image read by the scanner. Then, as shown in FIG. 6, first, the center pixel of the row (line) shown in (1) is examined horizontally to check that black and white pixels always appear alternately (every character). Here, when a certain number or more of black or white pixels continue, it is determined that the number of digits at the corresponding position is different from the specified length, or that there is something that is not a character at the corresponding position. If it is determined in this way, the result is “not coincident”.
[0037]
Next, it is checked whether or not there is a blank area in each of the upper, lower, left, and right lines of the character existence area (11d) in the order indicated by reference numerals (2), (3), (4), and (5) in FIG. . Normally, in the case of an OCR form, blank areas called “clear areas” are secured on the top, bottom, left, and right of the character recognition area (11d). Therefore, the pixels in the clear area are examined horizontally or vertically to check that white pixels continue. Here, if there is a black pixel in the clear area, the result is “not coincident”.
[0038]
FIG. 7 shows an example in which each character existence area (11d) is identified using three types of forms having different character existence area (11d) formats using the above-described check method.
[0039]
In order to identify the three types of forms as shown in FIG. 7, the presence of characters is checked in the designated character existence area (11d) for each of the three types of forms. Here, since each form only needs to examine a pixel five times in one direction, it can be checked very rapidly that there is a character recognition area (11d) of a specified size at the corresponding position.
[0040]
As such a similar form identifying method, there is a method of identifying by using “how many characters exist in the character recognition area” as a key. In this method, an image at a predetermined position is cut out and the number of characters is determined by layout analysis of the characters in the image. However, this method takes time for layout analysis, and there are few cases that can be identified only by the number of digits, and a very large clear area is required.
[0041]
In the present invention, the character existence area (11d) is used only for speeding up the form identification, and the existence of what appears to be a character is checked. For this reason, a strict layout analysis is not necessary, and the processing becomes faster. Moreover, by using the pre-printed character string as the identification key in the end, it can be applied to more forms identification than the conventional method. Furthermore, since the character presence area (11d) can be defined separately for each form, a very large clear area is not required unlike the conventional method. In addition, the character presence area (11d) is often the same as the character recognition area, and there is an advantage that the definition of the character recognition area can be diverted in the form definition device.
[0042]
The above-described check method of the character presence area shown in FIG. 6 is applicable only when there is always a certain number of digits as in the JISB area.
[0043]
FIG. 8 shows a check method when the number of digits is unknown. In the case of this example, when the character presence area (11d) is a monetary amount or the like, the fact that there is always one digit or more is used, and the existence of the last one digit and the clear area on the upper and lower right are checked.
[0044]
Further, FIG. 9 shows a check method in the case of handwriting. In this example, there are numbers (character-like patterns in which black and white appear alternately) in the character presence area (11d), and the clear areas between the top, bottom, left and right of the character presence area (11d) and between characters. Checked. In the case of a handwritten area, it is conceivable that characters protrude from the area. Therefore, an accurate area check can be performed by checking the blank area weakly in consideration thereof.
[0045]
【The invention's effect】
As described above in detail, according to the present invention, in the form identification process for identifying a form in accordance with the form definition by a plurality of identification items, all form identification including identification of a form close to a blank sheet is performed with high accuracy and high speed. Can be executed.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a configuration of an OCR apparatus including a form identification apparatus according to an embodiment of the present invention.
FIG. 2 is a diagram showing a screen configuration example of a form definition device for explaining a configuration of a form definition 20 in the embodiment.
FIG. 3 is a diagram showing an example of field definition contents of a form definition for explaining the configuration of the form definition 20 in the embodiment.
FIG. 4 is a flowchart showing an outline of a processing flow of the OCR device in the embodiment.
FIG. 5 is a flowchart showing a processing procedure for form identification processing in FIG. 4;
FIG. 6 is a diagram for explaining a specific check processing method of a character presence area in the embodiment of the present invention.
FIG. 7 is a diagram for explaining a specific check processing method for a character presence area in the embodiment of the present invention.
FIG. 8 is a diagram for explaining a specific check processing method for a character presence area in the embodiment of the present invention.
FIG. 9 is a diagram for explaining a specific check processing method for a character presence area in the embodiment of the present invention;
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 10 ... Form definition apparatus 11a ... Corner cut area 11b ... Pre-print area 11c ... Blank paper area 11d ... Character existence area 20 ... Form definition 30 ... OCR apparatus 40 ... Recognition result p ... Form

Claims (2)

帳票の種類毎に定義された識別項目に基づいて複数種類の帳票の中から特定の帳票を識別する帳票識別装置において、
識別対象の帳票の画像を入力する画像入力手段と、
少なくとも帳票を識別するための識別項目として帳票の文字存在領域とプレ印字領域とが定義された帳票定義を帳票の定義毎に記憶する帳票定義記憶手段と、
前記画像入力手段により入力された帳票の画像と前記帳票定義記憶手段に記憶された帳票定義とに基づいて、前記入力された画像において前記定義されたプレ印字領域で文字を認識することにより帳票の種類を識別をする以前に、前記入力された画像において前記定義された文字存在領域が存在するか否かを判別することにより前記画像が入力された帳票の種類を識別する帳票識別手段とを具備することを特徴とする帳票識別装置。
In the form identification device that identifies a specific form from among multiple types of forms based on the identification items defined for each form type,
An image input means for inputting an image of a form to be identified;
A form definition storage means for storing, for each form definition, a form definition in which a character presence area and a pre-print area of the form are defined as identification items for identifying at least the form;
Based on the image of the form input by the image input means and the form definition stored in the form definition storage means , the character of the form is recognized by recognizing the character in the defined pre-print area in the input image. Before identifying the type, a form identifying means for identifying the type of the form in which the image is input by determining whether or not the defined character existence area exists in the input image. A form identification device characterized by:
帳票の種類毎に定義された識別項目に基づいて複数種類の帳票の中から特定の帳票を識別する帳票識別方法において、
識別対象の帳票の画像を入力する画像入力ステップと、
少なくとも帳票を識別するための識別項目として帳票の文字存在領域とプレ印字領域とが定義された帳票定義を帳票の種類毎に記憶する帳票定義記憶ステップと、
前記画像入力手段により入力された帳票の画像と前記帳票定義記憶手段に記憶された帳票定義とに基づいて、前記入力された画像において前記定義されたプレ印字領域で文字を認識することにより帳票の種類を識別をする以前に、前記入力された画像において前記定義された文字存在領域が存在するか否かを判別することにより前記画像が入力された帳票の種類を識別する帳票識別ステップとを具備することを特徴とする帳票識別方法。
In the form identification method for identifying a specific form from among multiple types of forms based on the identification items defined for each form type ,
An image input step for inputting an image of the form to be identified;
A form definition storage step for storing, for each type of form, a form definition in which a character existence area and a pre-print area of the form are defined as identification items for identifying at least the form;
Based on the image of the form input by the image input means and the form definition stored in the form definition storage means, the character of the form is recognized by recognizing the character in the defined pre-print area in the input image. Before identifying the type, a form identifying step for identifying the type of the form in which the image is input by determining whether or not the defined character existence area exists in the input image. A form identification method characterized by:
JP2001364815A 2001-11-29 2001-11-29 Form identification device and form identification method Expired - Lifetime JP3696152B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001364815A JP3696152B2 (en) 2001-11-29 2001-11-29 Form identification device and form identification method
US10/305,193 US7099508B2 (en) 2001-11-29 2002-11-27 Document identification device, document definition method and document identification method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001364815A JP3696152B2 (en) 2001-11-29 2001-11-29 Form identification device and form identification method

Publications (2)

Publication Number Publication Date
JP2003168074A JP2003168074A (en) 2003-06-13
JP3696152B2 true JP3696152B2 (en) 2005-09-14

Family

ID=19174944

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001364815A Expired - Lifetime JP3696152B2 (en) 2001-11-29 2001-11-29 Form identification device and form identification method

Country Status (1)

Country Link
JP (1) JP3696152B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200080120A (en) * 2018-12-26 2020-07-06 교토 덴시 케이산 가부시키가이샤 Business form registration device and medium recording program for business form registration

Also Published As

Publication number Publication date
JP2003168074A (en) 2003-06-13

Similar Documents

Publication Publication Date Title
US7099508B2 (en) Document identification device, document definition method and document identification method
US20200117939A1 (en) Methods for mobile image capture of vehicle identification numbers in a non-document
US8818018B2 (en) System and method for enhancing security printing
US6038351A (en) Apparatus and method for multi-entity, mixed document environment document identification and processing
KR20150143711A (en) Image processing device and image processing method
JP4593729B2 (en) A method of automatically recognizing text on a structured background by combining a background model and a character model
JP3851742B2 (en) Form processing method and apparatus
US7694216B2 (en) Automatic assignment of field labels
JP3696152B2 (en) Form identification device and form identification method
JP2003087562A (en) Image processing apparatus and image processing method
JP3762289B2 (en) Form identification device and form identification method
JP2002342343A (en) Document management system
JP4807618B2 (en) Image processing apparatus and image processing program
CN117746432A (en) Text splicing method and device, electronic equipment and storage medium
JP2003030654A (en) Pattern identification device, pattern identification method, and pattern identification program
JP4585837B2 (en) Print data reading method, print data reading device, print data reading program
JP2001022883A (en) Character recognition system and recording medium for realizing functions of the character recognition system
JP2004005268A (en) Form identification device, form definition method, and form identification method
JP3673616B2 (en) Gift certificate identification method and apparatus
CN112446273A (en) Information processing apparatus and storage medium
JP2004287981A (en) Form identification device, form definition method, and form identification method
CN119478982A (en) Image forgery analysis method, system, electronic device and storage medium
JP2001195543A (en) Form processing apparatus and method, and storage medium
JP4304920B2 (en) Character string recognition device and its program
JP2006023983A (en) Character image separation device, character image separation method, character image separation program, and recording medium storing this program

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040818

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041220

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050404

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050517

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050621

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050628

R151 Written notification of patent or utility model registration

Ref document number: 3696152

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090708

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090708

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100708

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100708

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110708

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120708

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130708

Year of fee payment: 8

EXPY Cancellation because of completion of term