JPH0792818B2 - Pattern cutting and recognition method and its system - Google Patents
Pattern cutting and recognition method and its systemInfo
- Publication number
- JPH0792818B2 JPH0792818B2 JP4095186A JP9518692A JPH0792818B2 JP H0792818 B2 JPH0792818 B2 JP H0792818B2 JP 4095186 A JP4095186 A JP 4095186A JP 9518692 A JP9518692 A JP 9518692A JP H0792818 B2 JPH0792818 B2 JP H0792818B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- character
- recognition
- patterns
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Description
【0001】[0001]
【産業上の利用分野】本発明は光学文字読取り装置(以
下、「OCR」という)におけるパターン切出しおよび認
識方法とそのシステムに関し、特に自然な筆記条件で書
かれた帳票上等のパターンを切出し、それを認識するに
好適なパターン切出しおよび認識方法とそのシステムに
関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a pattern cutting and recognizing method in an optical character reader (hereinafter referred to as "OCR") and its system, and particularly to cutting a pattern on a form written under natural writing conditions, BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a pattern cutting and recognition method suitable for recognizing it and a system thereof.
【0002】[0002]
【従来の技術】従来、上記OCRに読込ませる文字は、
図1(a)に示す如く、文字毎に設定された文字枠11内
に正しく筆記する必要があった。その場合、多少の枠か
らのはみ出しは許容されるが、その程度は、図1(b)に
示す如く、上下方向については1.0〜1.5mm程度、左
右方向については隣の枠に入らない程度であった。とこ
ろで、OCRを更に普及させるためには、上述の如く、
OCR独特な文字枠内に文字,数字等を筆記させること
なく、図2(a)または(b)に示す如く、文字枠にあまり
こだわらず、通常、我々が筆記しているような、自然な
筆記条件を可能にすることが必要である。図1と図2を
比較すれば明らかな如く、従来の文字枠は、寸法が大き
いとともに、文字枠間ギャップ5が0.5〜1.0mmであ
るのに対して、条件の緩和された文字枠は、図2中の1
2,13に示される如く、寸法が小さくなるとともに、
文字枠間ギャップ6,7が0mmとなっている。2. Description of the Related Art Conventionally, the characters read by the OCR are:
As shown in FIG. 1A, it was necessary to write correctly in the character frame 11 set for each character. In that case, some protrusion from the frame is allowed, but as shown in Fig. 1 (b), the extent is about 1.0 to 1.5 mm in the vertical direction, and the adjacent frame in the horizontal direction. There was not much. By the way, in order to further spread OCR, as described above,
As shown in Fig. 2 (a) or (b), the characters and numbers are not written in the OCR unique character frame, and the character frame is not so particularized, and it is natural to write as usual. It is necessary to enable writing conditions. As is clear from a comparison between FIG. 1 and FIG. 2, the conventional character frame has a large size and the inter-character frame gap 5 is 0.5 to 1.0 mm. The frame is 1 in FIG.
As shown in Nos. 2 and 13, as the dimensions decrease,
The gaps 6 and 7 between the character frames are 0 mm.
【0003】[0003]
【発明が解決しようとする課題】この結果として、文字
の、枠12,13からのはみ出しが大きくなり、また、
文字相互が縦方向にオーバラップしたり、あるいは、文
字相互が接触し易くなるという問題が生ずることにな
る。更に、文字パターン成分が分離しているような場
合、例えば、図2(a)または(b)における数字「5」等で
は、その成分の大部分が隣の枠に入ることがあり、文字
読取り上、困難な問題を惹き起こしている。このような
場合、従来の技術では、文字を正しく切出したり、正し
く読取ることができなかった。本発明は上記事情に鑑み
てなされたもので、その目的とするところは、従来の技
術における上述の如き問題を解消し、文字枠から大きく
はみ出したり、隣接文字と接触しているような、自然な
筆記条件で書かれた文字について、特に、入力された1
単位映像パターンが1カテゴリを表わすパターンの一部
分であると判断された場合に、複数の部分パターンを組
み合せて1文字とし、該組み合せた文字について文字認
識を行うことが可能なパターン切出しおよび認識方法と
そのシステムを提供することにある。As a result of this, the amount of characters protruding from the frames 12 and 13 becomes large, and
There arises a problem that the characters overlap each other in the vertical direction or the characters easily contact each other. Further, when the character pattern components are separated, for example, in the case of the number "5" in FIG. 2 (a) or (b), most of the components may be in the adjacent frame, and the character reading Moreover, it causes difficult problems. In such a case, the conventional technology has not been able to correctly cut out characters or read them correctly. The present invention has been made in view of the above circumstances, and an object of the present invention is to solve the above-described problems in the related art, to largely protrude from a character frame, or to be in contact with an adjacent character. About the characters written under different writing conditions, especially the entered 1
A pattern cutout and recognition method capable of combining a plurality of partial patterns into one character when the unit image pattern is determined to be a part of a pattern representing one category and performing character recognition on the combined character. To provide that system.
【0004】[0004]
【課題を解決するための手段】本発明の上述の目的は、
1文字単位の文字枠を有しない帳票を入力して、電気的
信号に変換された前記帳票上の2次元映像パターンから
単位映像パターンごとに分離して切出すステップと、前
記切出された単位映像パターンを1つの単位映像パター
ンまたは複数の単位映像パターンの組み合せである認識
対象映像パターンに区分して、該認識対象映像パターン
のそれぞれをパターン辞書内の各パターンと比較して、
前記単位映像パターンに該当する文字パターンを認識す
るステップと、前記認識対象映像パターンについて得ら
れた認識結果を、隣接する認識対象映像パターンの認識
結果を参照して、予め定められた書換え規則に従って書
換えるステップとを有し、前記帳票上の2次元映像パタ
ーン中に含まれる文字列パターンを総合的に判断するこ
とを特徴とするパターン切出しおよび認識方法とそのシ
ステムによって達成される。The above objects of the present invention are as follows:
Enter the no form of the character frame of one character unit, electrical
From the two-dimensional image pattern on the form converted into a signal
The step of cutting out separately for each unit image pattern,
The cut out unit image pattern is used as one unit image pattern.
Or a combination of multiple unit image patterns
The recognition target video pattern is divided into target video patterns.
Compare each with each pattern in the pattern dictionary,
The character pattern corresponding to the unit image pattern is recognized.
Of the recognition target video pattern
The recognized recognition results are used to recognize adjacent recognition target video patterns.
Refer to the result and write according to a predetermined rewriting rule.
2D image pattern on the form.
It is achieved pattern cut and recognition wherein the this <br/> to comprehensively judge the character string pattern contained in over ting by the system.
【0005】[0005]
【作用】本発明に係るパターン切出しおよび認識方法と
そのシステムにおいては、文字読取り装置におけるパタ
ーン切出し処理において、切出されたパターン(これを
「 単位映像パターン 」 と呼ぶ)を1つ以上組み合せた、実
際に認識対象となる映像パターン(これを 「 認識対象映像
パターン 」 と呼ぶ)が、完全なパターンでなく、一つの文
字の一部分(部分パターン)であると判断された場合に、
その認識結果を、隣接する認識対象映像パターンの認識
結果を参照して、予め定められた書換え規則に従って書
換えることにより、総合的に判断するようにしたことに
より、自然な筆記条件で書かれた文字についての文字認
識の精度を向上させることが可能となるという効果が得
られるものである。 Function: Pattern cutting and recognition method according to the present inventionWhen
In that system, the pattern in the character reader is
In the cutout process, the cutout pattern (this
" Unit video pattern " Called)), one or more
Image pattern to be recognized when " Video to be recognized
pattern " Is not a complete pattern, but a single sentence
When it is judged that it is a part of a character (partial pattern),
The recognition result is used to recognize adjacent recognition target video patterns.
Refer to the result and write according to a predetermined rewriting rule.
By changing it, I decided to make a comprehensive judgment
Character recognition for characters written under natural writing conditions.
The effect of being able to improve the accuracy of knowledge
It is what is done.
【0006】[0006]
【実施例】以下、本発明の原理について若干の説明を行
った後、実施例を図面に基づいて詳細に説明する。本発
明の原理は、次の2点にある。すなわち、 (1)パターンの切出しにおいて、曖昧性が生じた場合に
は、切出し部は、無理に判断をすることなく、複数の仮
説を立てて、各々の仮説による部分パターンを含む単位
パターンを認識部に送る。 (2)認識部では、上述の単位パターンの識別を行い、総
合的な判断から切出しの妥当性のチェックを行い、曖昧
性を解消する。 以下、これについて、より具体的に説明する。図3は、
隣接文字パターンの種々の状態を示す図である。図3
(a)では、パターン31と32とが、縦方向にオーバラ
ップしている。この場合には、連続した黒領域をパター
ン成分として切出すことができる。連続した黒領域をパ
ターン成分として抽出する方法は、従来から良く知られ
ており、枠内に正しく文字が書かれている場合は勿論の
こと、単純にオーバラップしている場合でも、黒領域に
沿って枠外にはみ出している部分まで抽出できるので、
単位パターンを、正しく切出すことができる。なお、こ
れについては、例えば、A.Rosenfeld et.al.,“Sequ
ential Operations in Digital PictureProcessin
g”(J.ACM,vol.14,No.4,Oct.,1966,pp.471-494)
の記載を参考にすることができる。DESCRIPTION OF THE PREFERRED EMBODIMENTS The principle of the present invention will be described below, and then embodiments will be described in detail with reference to the drawings. The principle of the present invention lies in the following two points. That is, (1) When ambiguity occurs in the cutout of a pattern, the cutout unit makes a plurality of hypotheses and recognizes a unit pattern including a partial pattern according to each hypothesis without forcibly making a judgment. Send to the department. (2) The recognition unit discriminates the unit pattern described above, and checks the validity of the cutout from a comprehensive judgment to eliminate the ambiguity. Hereinafter, this will be described more specifically. Figure 3
It is a figure which shows the various states of an adjacent character pattern. Figure 3
In (a), the patterns 31 and 32 overlap in the vertical direction. In this case, a continuous black area can be cut out as a pattern component. The method of extracting a continuous black area as a pattern component is well known in the art, and not only when the characters are correctly written in the frame, but also when the text is simply overlapped, the black area is extracted. Since it is possible to extract even the part that is outside the frame along the
The unit pattern can be cut out correctly. Regarding this, for example, A. Rosenfeld et.al., “Sequ.
Priority Opations in Digital Picture Processin
g ”(J. ACM, vol.14, No.4, Oct., 1966, pp.471-494)
Can be referred to.
【0007】次に、図3(b)では、パターンが部分33
と34に分離していて、分離した成分34の大部分が隣
接の枠に入っている。パターン34が枠21に属するの
か、枠22に属するのか不明な場合は、双方を「あり得
るケース」として多重の仮説を作る。そして、双方のケ
ースを別個に認識部に送って、その認識結果から、どち
らの仮説が正しかったかを決定する。図3(c)は、分離
文字パターンが接触しているケース、図3(d)は、分離
パターン相互で接触しているケースである。図3(c)の
場合は、分離パターンが数字「5」のみであるのに対し
て、図3(d)の場合は、数字「5」と「7」の両方が分離パ
ターンであり、それらが接触している。図3(e)は、完
全なパターン相互が接触したケースである。つまり、分
離していないパターンであるが、隣接パターンが接触し
ている場合である。図3(b)〜(e)のケースに対する認
識方法を、以下、図4〜図7に基づいて説明する。図4
は、切出し部が複数の仮説を立てた場合の動作説明図で
あり、図3(b)に示した如き、分離したパターン成分3
4が、隣接枠に入っている場合の認識方法を説明してい
る。Next, in FIG. 3 (b), the pattern is a portion 33.
And 34, and most of the separated components 34 are contained in adjacent frames. If it is unknown whether the pattern 34 belongs to the frame 21 or the frame 22, it is assumed that both are “possible cases” and a multiple hypothesis is created. Then, both cases are sent to the recognition section separately, and which hypothesis is correct is determined from the recognition result. 3C is a case where the separated character patterns are in contact with each other, and FIG. 3D is a case where the separated patterns are in contact with each other. In the case of FIG. 3C, the separation pattern is only the number “5”, whereas in the case of FIG. 3D, both the numbers “5” and “7” are the separation patterns and Are in contact. FIG. 3E shows a case where the complete patterns are in contact with each other. That is, the patterns are not separated, but the adjacent patterns are in contact with each other. A recognition method for the cases of FIGS. 3B to 3E will be described below with reference to FIGS. Figure 4
3A is an operation explanatory diagram when the cutout unit makes a plurality of hypotheses, and the separated pattern components 3 as shown in FIG.
No. 4 describes the recognition method when it is in the adjacent frame.
【0008】図4において、51,53は切出し部が出
力した2つの仮説、また、200は認識部、100はパ
ターン辞書、101〜104は該パターン辞書100内
の部分辞書を示している。認識部200は上述の2つの
仮説51,53を入力して文字認識を行い、それぞれに
対する認識結果52,54を出力する。すなわち、第1
の仮説51に対する認識結果は(SP.5)と(RJ.6)で
ある。ここで、(SP.5)は、「5のサブパターン」を意
味しており、部分辞書101を参照して認識されたも
の、また、(RJ.6)は、「リジェクト(不読)であるが、
候補は6である」を意味している。更に、第2の仮説5
3に対する認識結果は、(AC.5)と(AC.6)であり、
いずれも、数字「5」あるいは「6」として受容したことを
意味している。従って、第2の仮説が妥当であり、認識
結果は、数字「5」,「6」となる。なお、上述のパターン
辞書100に設けられる部分辞書101〜103は、本
発明において新たに設けられたものであり、従来は、正
常なパターンの辞書104のみが設けられていたもので
ある。In FIG. 4, 51 and 53 are two hypotheses output by the clipping unit, 200 is a recognition unit, 100 is a pattern dictionary, and 101 to 104 are partial dictionaries in the pattern dictionary 100. The recognition unit 200 inputs the above-mentioned two hypotheses 51 and 53 to perform character recognition, and outputs recognition results 52 and 54 for each. That is, the first
The recognition results for Hypothesis 51 are (SP.5) and (RJ.6). Here, (SP.5) means “5 subpattern”, which is recognized by referring to the partial dictionary 101, and (RJ.6) is “reject (unread). But
The candidate is six ”. Furthermore, the second hypothesis 5
The recognition results for 3 are (AC.5) and (AC.6),
Both of them mean acceptance as the number "5" or "6". Therefore, the second hypothesis is valid, and the recognition results are the numbers “5” and “6”. The partial dictionaries 101 to 103 provided in the above-mentioned pattern dictionary 100 are newly provided in the present invention, and conventionally, only the dictionary 104 having a normal pattern is provided.
【0009】上述の部分辞書101は、部分パターン格
納している辞書であり、部分辞書102は、部分パター
ンと他の文字とが接触したパターンを格納している辞
書、部分辞書103は、接触文字パターンを格納してい
る辞書である。次に、図3(c)に示した如き、分離パタ
ーン成分が隣接文字に接触している場合の認識方法を、
図5に基づいて説明する。この場合、図5に示す如く、
切出し結果は55のようになり、認識結果56は(SP.
5)と(SC.5,6)となる。ここで、(SC.5,6)は
数字「5」の部分パターンと数字6が接触したものである
ことを意味しており、前述の部分辞書102を参照して
認識されたものである。この結果から、読取り文字は、
数字の「5」と「6」であることが判断できる。次に、図3
(d)に示した如き、分離パターン成分相互で接触してい
る場合の認識方法を、図6に基づいて説明する。この場
合には、図6(a)に示す如く、2つの仮説57,59が
立ち、認識結果58,60が得られる。また、この場合
には、図6(b)に示す如く、特にサブパターン61、す
なわち、図3(d)の38を単独で認識して、その結果と
して認識結果62の(SS.5,7)が得られる。The partial dictionary 101 is a dictionary storing partial patterns, the partial dictionary 102 is a dictionary storing patterns in which a partial pattern contacts another character, and the partial dictionary 103 is a contact character. It is a dictionary that stores patterns. Next, as shown in FIG. 3C, the recognition method when the separated pattern component is in contact with an adjacent character is
A description will be given based on FIG. In this case, as shown in FIG.
The cutout result is 55, and the recognition result 56 is (SP.
5) and (SC.5, 6). Here, (SC.5, 6) means that the partial pattern of the numeral "5" and the numeral 6 are in contact with each other, and is recognized by referring to the above-mentioned partial dictionary 102. From this result, the read character is
It can be determined that the numbers are “5” and “6”. Next, FIG.
A recognition method when the separated pattern components are in contact with each other as shown in (d) will be described with reference to FIG. In this case, as shown in FIG. 6A, two hypotheses 57 and 59 stand and recognition results 58 and 60 are obtained. Further, in this case, as shown in FIG. 6B, in particular, the subpattern 61, that is, 38 in FIG. 3D is individually recognized, and as a result, the recognition result 62 (SS. ) Is obtained.
【0010】上述の仮説57は、サブパターン38が右
側に付加されたものと仮定した場合であり、仮説59
は、サブパターン38が左側に付加されたものと仮定し
た場合である。また、認識結果58の(SP.5)と(R
J.?)は、「5のサブパターン」と「リジェクト(全く不
明)」であり、同様に、認識結果60の(RJ.?)と(S
P.7)は、「リジェクト(全く不明)」と「7のサブパター
ン」である。また、認識結果62の(SS.5,7)は「数
字5のサブパターンと数字7のサブパターンの接触した
パターン」であることを 意味している。これらは、部分
パターンと他の文字とが接触したパターンの部分辞書1
02を参照して得られるものである。これらの結果を総
合することにより、答は数字「5」と「7」であると判断さ
れることになる。次に、図3(e)に示した如き、完全な
パターン相互が接触している場合の認識方法を、図7に
基づいて説明する。この場合には、図7に示す如く、無
理に分割せずに、全体を認識部に送り、部分辞書103
を参照して同じものを探し、認識する。ここでは、その
結果として(CC.5,6)が得られているが、これは 数
字「5」と「6」が接触したものであることを意味してい
る。The above-mentioned hypothesis 57 is a hypothesis 59 when the sub-pattern 38 is assumed to be added to the right side.
Is a case where the sub-pattern 38 is assumed to be added on the left side. In addition, recognition results 58 (SP.5) and (R
J.? ) Is “5 sub-pattern” and “reject (totally unknown)”, and similarly, (RJ.?) And (S
P.7) is "reject (totally unknown)" and "7 sub-pattern". Further, (SS.5, 7) of the recognition result 62 means "a pattern in which the sub-pattern of the numeral 5 and the sub-pattern of the numeral 7 are in contact". These are partial dictionaries 1 of patterns in which partial patterns and other characters are in contact.
No. 02 is obtained. By summing up these results, the answer is judged to be the numbers "5" and "7". Next, a recognition method in the case where perfect patterns are in contact with each other as shown in FIG. 3E will be described with reference to FIG. In this case, as shown in FIG. 7, the entire dictionary is sent to the recognition unit without being forcibly divided, and the partial dictionary 103
Look for and recognize the same. Here, as a result, (CC.5, 6) is obtained, which means that the numbers "5" and "6" are in contact with each other.
【0011】以上、説明した如く、本発明においては、
認識結果を総合して最終的な答を出すことが特徴であ
る。なお、実際には、例えば、以下の如き規則に従って
処理することにより、実現される。図3(a)〜(e)に対
して行った処理を整理すると、以下のようになる。 (a) (AC.5)(AC.6) → (AC.5)(AC.6) (b) (SP.5)(RJ.6) (AC.5)(AC.6) → (AC.5)(AC.6) (c) (SP.5)(SC.5,6) → (AC.5)(AC.6) (d) (SP.5)(RJ.?) (RJ.?)(SP.7) (SS.5,7) → (AC.5)(AC.7) (e) (CC.5,6) → (AC.5)(AC.6) 上の各式の左辺の仮説毎の認識結果コードは、右辺の如
き認識結果コードに書換えがなされる。これらを一般化
したものを、書換え規則(Rewriting Rules)と呼ぶこ
とにする。As described above, in the present invention,
The feature is that the final result is given by synthesizing the recognition results. Actually, for example, it is realized by processing according to the following rules. The processes performed on FIGS. 3A to 3E are summarized as follows. (a) (AC.5) (AC.6) → (AC.5) (AC.6) (b) (SP.5) (RJ.6) (AC.5) (AC.6) → (AC .5) (AC.6) (c) (SP.5) (SC.5,6) → (AC.5) (AC.6) (d) (SP.5) (RJ.?) (RJ. ?) (SP.7) (SS.5,7) → (AC.5) (AC.7) (e) (CC.5,6) → (AC.5) (AC.6) The recognition result code for each hypothesis on the left side of is rewritten to the recognition result code on the right side. A generalization of these will be called Rewriting Rules.
【0012】本実施例に示す切出し方法では、書換え規
則が以下のようになる。In the cutting method shown in this embodiment, the rewriting rule is as follows.
【外1】 規則R1は、7頁に示した(a)と(b)に対応するもの
で、a,bをアクセプト(認識)していない場所があって
も、他に1つでもアクセプトした場所があれば、認識で
きたことにするというものである。[Outer 1] Rule R1 corresponds to (a) and (b) shown on page 7. Even if there is a place that does not accept (recognize) a and b, there is another place that accepts it. That is to say that it was recognized.
【0013】規則R2は、同(c)に対応するもので、a
のサブパターンが認識される一方、aのサブパターンと
bのパターンとの接触が認識された場合には、aとbが
認識できたことにするというものである。規則R3は、
同(d)に対応するもので、aのサブパターンが認識さ
れ、アクセプト以外の例えばリジェクトで任意の値の候
補が与えられる一方、bのサブパターンが認識され、ア
クセプト以外の任意の値の候補が与えれた場合には、分
離されているサブパターンのみを認識してみることを指
示するものである。また、規則R4も、同(d)に対応す
るものであり、規則R3によって処理されたサブパター
ンのみの認識結果を含めて、総合的に認識する場合を示
している。すなわち、aのサブパターンと認識できない
パターン,bのサブパターンと認識できないパターンお
よびaのサブパターンとbのサブパターンとの接触した
パターンの3つが認識された場合には、総合的認識によ
り、aアクセプト,bアクセプトとなるというものであ
る。規則R5は、同(e)に対応するもので、aとbの接
触したパターンは、aアクセプト,bアクセプトとなる
というものである。Rule R2 corresponds to the same (c), and
When the contact between the sub-pattern of a and the pattern of b is recognized while the sub-pattern of 1 is recognized, it means that a and b can be recognized. Rule R3 is
It corresponds to the same (d), and a sub-pattern of a is recognized and a candidate of an arbitrary value other than accept is given, for example, while a sub-pattern of b is recognized and a candidate of an arbitrary value other than accept is given. Is given, it indicates that only subpatterns that are separated are to be recognized. Further, the rule R4 also corresponds to the same (d), and shows the case of comprehensive recognition including the recognition result of only the sub-pattern processed by the rule R3. That is, when three patterns, that is, a pattern that cannot be recognized as the sub-pattern of a, a pattern that cannot be recognized as the sub-pattern of b, and a pattern in which the sub-pattern of a and the sub-pattern of b are in contact, are recognized by comprehensive recognition, a Accept and b accept. Rule R5 corresponds to the same (e), and the pattern in which a and b are in contact is a accept or b accept.
【0014】図8に、本発明の一実施例である文字読取
り装置のブロック図を示す。本実施例に示す文字読取り
装置は、パターン観測部800,パターン切出し部90
0,帳票フォーマット辞書950,パターン認識部20
0,パターン辞書100,認識結果最終判定部400お
よび認識結果書換え規則辞書300から構成されてい
る。以下、本装置の動作を説明する。読取りの対象であ
る帳票75には、図2に示した如き、自然な筆記条件で
文字が記入されている。帳票75がパターン観測部80
0に入力され、光電変換および前処理(2値化,帳票ス
キュー補正)を受けると、2次元映像パターンが電気的
信号としてパターン切出し部900に送出される。パタ
ーン切出し部900では、帳票フォーマット辞書950
からの枠位置パラメータを参照して、1枚の帳票の映像
から1文字に該当すると判断されるパターンを1組ずつ
切出して、パターン認識部200に送出する。パターン
認識部200では、入力された1文字分のパターンと、
図4にその内容を例示したパターン辞書100に記憶さ
れている各パターンとを比較照合し、認識結果を認識結
果最終判定部400に送出する。FIG. 8 shows a block diagram of a character reading apparatus which is an embodiment of the present invention. The character reading device according to the present embodiment includes a pattern observing unit 800 and a pattern cutting unit 90.
0, form format dictionary 950, pattern recognition unit 20
0, the pattern dictionary 100, the recognition result final determination unit 400, and the recognition result rewriting rule dictionary 300. The operation of this device will be described below. On the form 75 to be read, characters are written under natural writing conditions as shown in FIG. The form 75 is the pattern observation unit 80.
When it is input to 0, and subjected to photoelectric conversion and preprocessing (binarization, form skew correction), the two-dimensional image pattern is sent to the pattern cutout unit 900 as an electric signal. In the pattern cutout unit 900, the form format dictionary 950
With reference to the frame position parameter from, the patterns judged to correspond to one character are cut out one by one from the image of one sheet and sent to the pattern recognition unit 200. In the pattern recognition unit 200, the input pattern for one character,
The respective patterns stored in the pattern dictionary 100 whose contents are illustrated in FIG. 4 are compared and collated, and the recognition result is sent to the recognition result final determination unit 400.
【0015】なお、パターン認識部200での処理に
は、前述の如く、サブパターンや接触した2文字分のパ
ターンをも含んでいることは言うまでもない。また、本
実施例においては、パターン認識部200からの認識結
果の出力は、入力されたパターン毎に認識結果を記号化
して、認識結果最終判定部400に送出する。認識結果
最終判定部400は、受取った認識結果に対して、前述
の認識結果書換え辞書300中の各書換え規則を、適用
できる書換え規則がなくなるまで順次適用して、書換え
処理を行う。すなわち、前述の書換え規則R1〜R5の
条件の中から、上述の記号化された認識結果がこれに合
致するものを選択・適用し、その結果を採用する。上述
のパターン切出し部900以降の処理を、以下、更に詳
細に説明する。図9に、上述の切出し処理および認識処
理のフローチャートと、これに対応するデータの内容を
例示する。ステップ 701では、帳票1枚分の映像パター
ン711から、1行分の映像パターン712を切出す。
ステップ 702では、黒地パターンの連続性を利用して、
黒地毎のぱターン成分を抽出し、横方向に関して順序付
けを行った後、成分リスト713を作成する。Needless to say, the processing in the pattern recognition section 200 includes the sub-pattern and the pattern of two characters that have touched as described above. Further, in the present embodiment, the recognition result output from the pattern recognition unit 200 is symbolized for each input pattern and sent to the recognition result final determination unit 400. The recognition result final determination unit 400 sequentially applies the rewriting rules in the recognition result rewriting dictionary 300 to the received recognition result until there are no applicable rewriting rules, and performs the rewriting process. That is, from the conditions of the above-mentioned rewriting rules R1 to R5, the one in which the above-mentioned symbolized recognition result matches this is selected and applied, and the result is adopted. The process of the pattern cutout unit 900 and subsequent processes will be described in more detail below. FIG. 9 exemplifies a flowchart of the above-described cutout processing and recognition processing and the content of data corresponding to this. In step 701, the video pattern 712 for one line is cut out from the video pattern 711 for one form.
In step 702, the continuity of the black background pattern is used to
After extracting the pattern component for each black background and performing ordering in the horizontal direction, a component list 713 is created.
【0016】更に、各成分の属性を計算し、成分属性リ
スト714を作成する。なお、ここで、成分の属性と
は、各成分の上下端,左右端の座標,輪郭総長等であ
る。次に、ステップ 703では、上で作成した成分属性リ
スト714と、帳票フォーマット辞書950の情報か
ら、文字間の境界の仮説を立て、文字リスト715を作
成する。この文字リスト715は、各文字パターンが、
どの成分から構成されているかを示すもので、図9で
は、第1の仮説では順序1,2,3でそれぞれ1つの文
字、4と5を合せて1つの文字と仮定し、第2の仮説で
は、順序1と2を合せて1つの文字、3だけで1つの文
字、4と5を合せて1つの文字と仮定する例を示してい
る。以上は、パターン切出し部900の処理である。ス
テップ 704は、パターン認識部200の処理である。ス
テップ 704では、上述の成分リスト713,成分属性リ
スト714および文字リスト715を入力して、文字リ
スト715に示される成分を集めてパターン整合を行
い、その結果を結果リスト716に書込む。Further, the attribute of each component is calculated and a component attribute list 714 is created. Here, the component attributes include the upper and lower ends of each component, the coordinates of the left and right ends, the total length of the contour, and the like. Next, in step 703, a hypothesis of a boundary between characters is set from the component attribute list 714 created above and the information in the form format dictionary 950 to create a character list 715. In this character list 715, each character pattern is
In FIG. 9, it is assumed that the first hypothesis is composed of one character in order 1, 2, and 3, and one character 4 and 5 are combined into one character. In the above, an example is shown in which it is assumed that the sequences 1 and 2 are combined to form one character, the sequence 3 is defined as one character, and the sequences 4 and 5 are combined to form one character. The above is the processing of the pattern cutout unit 900. Step 704 is processing of the pattern recognition unit 200. In step 704, the component list 713, the component attribute list 714, and the character list 715 described above are input, the components shown in the character list 715 are collected and pattern matching is performed, and the result is written in the result list 716.
【0017】整合結果を表わす結果コードは、前述の
(SP.a),(SC.a,b),(SS.a,b),(CC.a,
b),(AC.a),(RJ.a)等の記号形式をとる。これら
の意味は、前述の通り、それぞれ、「カテゴリaのサブ
パターン」,「カテゴリaのサブパターンとカテゴリbの
接触したもの」,「カテゴリaとカテゴリbのサブパター
ンが 相互に接触したもの」,「カテゴリaとカテゴリbが
相互に接触したもの」,「カテゴリaのパターン」,「候補は
aであるがリジェクト」である。ステップ 705は、認識
結果最終判定部400の処理である。ここでは、上述の
結果リスト716に対して、書換え規則辞書300内の
すべての規則を参照し、適用できる規則がなくなるまで
順次適用し、最終的に得られた結果に応じた処理を行
う。また、ステップ 706では、帳票75上のすべての行
についての処理が終了したか否かを判断し、終了してい
なければステップ 701に戻って、終了するまで上述の処
理を繰り返し行う。The result code representing the matching result is the above-mentioned result code.
(SP.a), (SC.a, b), (SS.a, b), (CC.a,
b), (AC.a), (RJ.a), etc. The meanings of these are, as described above, “sub-pattern of category a”, “sub-pattern of category a and sub-pattern of category b”, and “sub-pattern of sub-categories a and b contact each other”, respectively. , “Category a and category b are in contact with each other”, “category a pattern”, and “candidate a is rejected”. Step 705 is processing of the recognition result final determination unit 400. Here, with respect to the above-mentioned result list 716, all rules in the rewriting rule dictionary 300 are referred to, they are sequentially applied until there are no applicable rules, and processing according to the finally obtained result is performed. In step 706, it is determined whether the processing has been completed for all the lines on the form 75. If not completed, the procedure returns to step 701, and the above-described processing is repeated until the processing is completed.
【0018】上記実施例によれば、前記認識部で、例え
ば、入力された1単位映像パターンが1カテゴリを表わ
すパターンの一部分であると判断した場合には、複数の
部分パターンを組み合せて1文字とし、該組み合せた文
字について文字認識を行うことが可能になり、文字読取
り装置における、自然な筆記条件で書かれた文字の読取
り精度が向上するという効果が得られる。なお、上記実
施例は本発明の一例を示すものであり、本発明はこれに
限定されるべきものではないことは言うまでもないこと
である。According to the above embodiment, when the recognizing unit determines that the inputted one-unit video pattern is a part of the pattern representing one category, a plurality of partial patterns are combined to form one character. Therefore, it is possible to perform character recognition on the combined characters, and it is possible to obtain the effect of improving the reading accuracy of characters written under natural writing conditions in the character reading device. It is needless to say that the above embodiment shows one example of the present invention, and the present invention should not be limited to this.
【0019】[0019]
【発明の効果】以上、詳細に述べた如く、本発明によれ
ば、文字枠から大きくはみ出したり、隣接文字と接触し
ているような、自然な筆記条件で書かれた文字につき、
特に、入力された1単位映像パターンが1カテゴリを表
わすパターンの一部分であると判断された場合に、複数
の部分パターンを組み合せて1文字とし、該組み合せた
文字について文字認識を行うことが可能なパターン切出
しおよび認識方法とそのシステムを実現できるという顕
著な効果を奏するものである。As described above in detail, according to the present invention, a character written under natural writing conditions, such as a large protrusion from a character frame or a contact with an adjacent character,
In particular, when it is determined that the input 1-unit video pattern is a part of the pattern representing one category, it is possible to combine a plurality of partial patterns into one character and perform character recognition on the combined character. It has a remarkable effect that a pattern cutting and recognition method and its system can be realized.
【0020】[0020]
【図1】従来のOCR用帳票の文字枠と筆記文字の例を
示す図である。FIG. 1 is a diagram showing an example of a character frame and a handwritten character of a conventional OCR form.
【図2】筆記条件を緩和した場合の、従来のOCR用帳
票の文字枠と筆記文字の例を示す図である。FIG. 2 is a diagram showing an example of a character frame and a handwritten character of a conventional OCR form when a writing condition is relaxed.
【図3】隣接文字パターンの種々の状態を例示する図で
ある。FIG. 3 is a diagram illustrating various states of adjacent character patterns.
【図4】本発明の原理を説明する図(その1)である。FIG. 4 is a diagram (No. 1) for explaining the principle of the present invention.
【図5】本発明の原理を説明する図(その2)である。FIG. 5 is a diagram (part 2) explaining the principle of the present invention.
【図6】本発明の原理を説明する図(その3)である。FIG. 6 is a diagram (part 3) explaining the principle of the present invention.
【図7】本発明の原理を説明する図(その4)である。FIG. 7 is a diagram (part 4) explaining the principle of the present invention.
【図8】本発明の一実施例である文字読取り装置のブロ
ック図である。FIG. 8 is a block diagram of a character reading device according to an embodiment of the present invention.
【図9】実施例に係る文字読取り装置における、切出し
処理および認識処理のフローチャートとこれに対応する
データの内容を例示する図である。FIG. 9 is a diagram exemplifying a flowchart of cutout processing and recognition processing and a content of data corresponding to the processing in the character reading device according to the embodiment.
75:読取り対象である帳票、100:パターン辞書、
101〜103:部分辞書、104:正常パターン辞
書、200:パターン認識部、300:認識結果書換え
規則辞書、400:認識結果最終判定部、800:パタ
ーン観測部、900:パターン切出し部、950:帳票
フォーマット辞書。75: form to be read, 100: pattern dictionary,
101 to 103: partial dictionary, 104: normal pattern dictionary, 200: pattern recognition unit, 300: recognition result rewriting rule dictionary, 400: recognition result final determination unit, 800: pattern observation unit, 900: pattern cutout unit, 950: form Format dictionary.
───────────────────────────────────────────────────── フロントページの続き (72)発明者 門田 彰三 神奈川県小田原市国府津2880番地 株式会 社日立製作所小田原工場内 (72)発明者 栗野 清道 神奈川県小田原市国府津2880番地 株式会 社日立製作所小田原工場内 (56)参考文献 特開 昭59−91582(JP,A) 特開 昭58−165179(JP,A) ─────────────────────────────────────────────────── ─── Continuation of the front page (72) Inventor Shozo Kadota 2880 Kunizu, Odawara, Kanagawa Stock company Hitachi Ltd. Odawara factory (72) Inventor Kiyomi Kurino 2880, Kunizu, Odawara, Kanagawa Hitachi Ltd. Odawara factory (56) Reference JP-A-59-91582 (JP, A) JP-A-58-165179 (JP, A)
Claims (11)
力して、電気的信号に変換された前記帳票上の2次元映
像パターンから単位映像パターンごとに分離して切出す
ステップと、前記切出された単位映像パターンを1つの
単位映像パターンまたは複数の単位映像パターンの組み
合せである認識対象映像パターンに区分して、該認識対
象映像パターンのそれぞれをパターン辞書内の各パター
ンと比較して、前記単位映像パターンに該当する文字パ
ターンを認識するステップと、前記認識対象映像パター
ンについて得られた認識結果を、隣接する認識対象映像
パターンの認識結果を参照して、予め定められた書換え
規則に従って書換えるステップとを有し、前記帳票上の
2次元映像パターン中に含まれる文字列パターンを総合
的に判断することを特徴とするパターン切出しおよび認
識方法。 1. A form that does not have a character frame for each character is entered.
2D image on the form converted into electrical signals
Separate from the image pattern for each unit image pattern and cut out
Step and one of the cut-out unit image patterns
Unit video pattern or combination of multiple unit video patterns
The recognition target video pattern that is the
Each pattern in the pattern dictionary for each elephant video pattern
Character pattern corresponding to the unit image pattern
A step of recognizing a turn and the recognition target image pattern
The recognition result obtained for the
Pre-defined rewriting with reference to the pattern recognition result
And a step of rewriting according to the rule,
Comprehensive character string patterns included in 2D video patterns
Pattern cutting and recognition characterized by
Knowledge method.
ーンに該当すると認識された文字パターンを表わす文字
パターン(カテゴリ)名と、前記認識対象映像パターンが
文字パターンの完全なパターンであるか、または、文字
パターンの部分パターンであるかを示す情報とを含むも
のであることを特徴とする請求項1記載のパターン切出
しおよび認識方法。 2. The recognition result is the recognition target image pattern.
A character that represents a character pattern that is recognized as a character
The pattern (category) name and the recognition target video pattern are
Is a complete pattern of character patterns or characters
It also includes information indicating whether the pattern is a partial pattern.
The pattern cutout according to claim 1, wherein
And recognition methods.
に従って書換えられた認識対象映像パターンが、なお、
文字パターンの部分パターンであると判断される場合に
は、当該認識対象映像パターンを含む複数の単位映像パ
ターンの組み合せについて、再度、パターン辞書内の各
パターンとの比較を行い、前記複数の単位映像パターン
の組み合せに該当する文字パターンについての認識を行
うステップを有することを特徴とする請求項1または2
記載のパターン切出しおよび認識方法。 3. The rewriting rule in addition to the steps
The recognition target video pattern rewritten according to
When it is determined that it is a partial pattern of a character pattern
Is a plurality of unit image patterns including the recognition target image pattern.
For the turn combinations, again, in the pattern dictionary
A plurality of unit image patterns are compared with a pattern.
Recognition of character patterns corresponding to the combination of
3. The method according to claim 1, further comprising a step of
Described pattern cutting and recognition method.
の単位映像パターンまたは複数の単位映像パターンの組
み合せである認識対象映像パターンに区分する際に、そ
の区切りに曖昧性がある場合には、前記単位映像パター
ン間の境界に複数の仮説を作成し、該複数の仮説のそれ
ぞれに対応した区分を行って得られた認識対象映像パタ
ーンについて認識処理を行い、最終的に、前記複数の仮
説のうちから単一の仮説を選択することを特徴とする請
求項1から3のいずれかに記載のパ ターン切出しおよび
認識方法。 4. One of the cut-out unit image patterns
Unit video pattern or set of multiple unit video patterns
When dividing into recognition target video patterns that are combinations,
If there is ambiguity between the
Create multiple hypotheses at the boundary between the
Recognition target video pattern obtained by performing classification corresponding to each
Recognition processing is performed on the
Contract characterized by selecting a single hypothesis from the theory
Pattern cut and according to any one of Motomeko 1 3
Recognition method.
位映像パターンごとに分離して切出すステップにおいThe step that separates each video pattern and cuts it out
て、前記帳票上の2次元映像パターンから1文字行分のThen, from the 2D image pattern on the form, one character line
2次元映像パターンを一括して切出し、前記単位映像パThe 2D image pattern is cut out at once, and the unit image pattern is extracted.
ターンとして、前記切出された1文字行分の2次元映像As a turn, the cut-out two-dimensional image for one character line
パターンから連続した黒画素領域を抽出することを特徴Characterized by extracting continuous black pixel areas from the pattern
とする請求項1から4のいずれかに記載のパターン切出The pattern cutout according to any one of claims 1 to 4.
しおよび認識方法。And recognition methods.
ンを構成する完全パターンとともに、前記文字パターンCharacter pattern together with the complete pattern
の一部分を構成する部分パターンおよび前記文字パターPattern that constitutes a part of
ンと他の文字パターンとが接触した接触パターンを記憶Memorizes the contact pattern where the character and another character pattern contact
することを特徴とする請求項1から5のいずれかに記載6. The method according to claim 1, wherein
のパターン切出しおよび認識方法。Pattern cutout and recognition method.
力し、電気的信号に変換された2次元映像パターンからFrom the two-dimensional image pattern that has been converted into an electrical signal
単位映像パターンを得る入力手段と、該入力手段によりInput means for obtaining a unit image pattern, and by the input means
得た前記帳票上の2次元映像パターンから、1つの単位One unit from the obtained two-dimensional image pattern on the form
映像パターンまたは複数の単位映像パターンの組み合せVideo pattern or combination of multiple unit video patterns
である認識対象映像パターンを切出すパターン切出し手Pattern cutout hand that cuts out the recognition target video pattern that is
段と、該パターン切出し手段により切出された認識対象Step and recognition target cut out by the pattern cutting means
映像パターンのそれぞれをパターン辞書内の各パターンEach of the video patterns, each pattern in the pattern dictionary
と比較して、前記単位映像パターンに該当する文字パタIn comparison with the character pattern corresponding to the unit image pattern,
ーンを認識するパターン認識手段と、該パターン認識手Pattern recognition means for recognizing a pattern and the pattern recognition hand
段により前記認識対象映像パターンのそれぞれについてFor each of the recognition target video patterns depending on the stage
得られた認識結果を、隣接する単位映像パターンの認識The obtained recognition result is used to recognize adjacent unit image patterns.
結果を参照して、予め定められた書換え規則に従って書Refer to the result and write according to a predetermined rewriting rule.
換えることにより、前記帳票上の2次元映像パターン中By replacing the two-dimensional image pattern on the form
に含まれる文字列パターンを総合的に判断する総合判定Judgment that comprehensively judges the character string pattern included in
手段とを有することを特徴とするパターン切出しおよびAnd a pattern cutout characterized by having means and
認識システム。Recognition system.
映像パターンに該当すると認識された文字パターンを表Displays the character patterns recognized as corresponding to the video pattern.
わす文字パターン(カテゴリ)名と、前記認識対象映像パThe name of the character pattern (category) and the recognition target video pattern
ターンが文字パターンの完全なパターンであるか、またWhether the turn is a complete pattern of letter patterns,
は、文字パターンの部分パターンであるかを示す情報とIs information indicating whether it is a partial pattern of a character pattern and
を出力することを特徴とする請求項7記載のパターン切8. The pattern switching according to claim 7, wherein
出しおよび認識システム。Placement and recognition system.
従って書換えられた認識対象映像パターンの認識結果Therefore, the recognition result of the rewritten recognition target video pattern
が、なお、文字パターンの部分パターンであると判断さHowever, it is still judged to be a partial pattern of the character pattern.
れる場合には、当該認識対象映像パターンを含む複数のIf a plurality of recognition target video patterns are included,
単位映像パターンの組み合せについて、再度、パターンFor the combination of unit image patterns,
辞書内の各パターンとの比較を行い、前記複数の単位映By comparing each pattern in the dictionary,
像パターンの組み合せに該当する文字パターンについてCharacter patterns corresponding to combinations of image patterns
の認識を行うことを特徴とする請求項7または8記載の9. The method according to claim 7 or 8, characterized in that
パターン切出しおよび認識システム。Pattern cutting and recognition system.
対象映像パターンの切出しにおいて、1つの文字パターWhen cutting out the target video pattern, one character pattern
ンを構成する認識対象映像パターンの区切りに曖昧性がThere is ambiguity in the separation of the recognition target video patterns that make up the
ある場合には、前記単位映像パターン間の境界に複数のIn some cases, there may be a plurality of borders between the unit image patterns.
仮説を作成し、前記パターン認識手段は、前記複数の仮A hypothesis is created, and the pattern recognition means uses the plurality of temporary
説のそれぞれに対応する前記認識対象映像パターンにつThe recognition target video pattern corresponding to each theory
いて認識処理を行い、前記総合判定手段は、前記複数のRecognition processing is performed by the
仮説のうちから最終的に単一の仮説を選択することを特The feature is to finally select a single hypothesis from among the hypotheses.
徴とする請求項7から9のいずれかに記載のパターン切The pattern cutting according to any one of claims 7 to 9
出しおよび認識システム。Placement and recognition system.
ーンを構成する完全パターンとともに、文字パターンのAlong with the complete patterns that make up the
一部分を構成する部分パターンおよび1つの文字パターPartial pattern and one character pattern that make up a part
ンと他の文字パターンの接触した接触パターンを記憶すMemorize the contact pattern where the character and another character pattern contact
ることを特徴とする請求項7から10のいずれかに記載11. The method according to any one of claims 7 to 10, characterized in that
のパターン切出しおよび認識システム。Pattern cutting and recognition system.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP4095186A JPH0792818B2 (en) | 1992-04-15 | 1992-04-15 | Pattern cutting and recognition method and its system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP4095186A JPH0792818B2 (en) | 1992-04-15 | 1992-04-15 | Pattern cutting and recognition method and its system |
Related Parent Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP57208300A Division JPS5998283A (en) | 1982-11-27 | 1982-11-27 | Pattern extraction and recognition method and its system |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP6192419A Division JPH0792819B2 (en) | 1994-08-16 | 1994-08-16 | Pattern cutting and recognition method and its system |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH05108887A JPH05108887A (en) | 1993-04-30 |
| JPH0792818B2 true JPH0792818B2 (en) | 1995-10-09 |
Family
ID=14130726
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP4095186A Expired - Lifetime JPH0792818B2 (en) | 1992-04-15 | 1992-04-15 | Pattern cutting and recognition method and its system |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0792818B2 (en) |
-
1992
- 1992-04-15 JP JP4095186A patent/JPH0792818B2/en not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| JPH05108887A (en) | 1993-04-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH055146B2 (en) | ||
| US6006240A (en) | Cell identification in table analysis | |
| EP0063454B1 (en) | Method for recognizing machine encoded characters | |
| JPH0467234B2 (en) | ||
| JP2000285190A (en) | Form identification method, form identification device, and storage medium | |
| JPH0792818B2 (en) | Pattern cutting and recognition method and its system | |
| Hanmandlu et al. | Segmentation of handwritten Hindi text: A structural approach | |
| JP2001022883A (en) | Character recognition system and recording medium for realizing functions of the character recognition system | |
| JPH07230525A (en) | Ruled line recognition method and table processing method | |
| JP2917427B2 (en) | Drawing reader | |
| JPH0792819B2 (en) | Pattern cutting and recognition method and its system | |
| JP2675303B2 (en) | Character recognition method | |
| JP2550012B2 (en) | Pattern cutting and recognition method | |
| JPH0581474A (en) | Character string extracting method and character area detecting method | |
| JPH0728935A (en) | Document image processor | |
| JP4580520B2 (en) | Character recognition method and character recognition apparatus | |
| JP2746345B2 (en) | Post-processing method for character recognition | |
| JPS61220081A (en) | Segmentation and recognition system for pattern | |
| JPH0785221A (en) | Method for separating and recognizing character and symbol in automatic drawing recognizing device | |
| JP2000207491A (en) | Character string reading method and apparatus | |
| JP3199033B2 (en) | Optical character reading method and optical character reading device | |
| Hashemi et al. | The effects of image enhancement in OCR systems: a prototype | |
| JPH02166583A (en) | Character recognizing device | |
| JP3377719B2 (en) | Character recognition device and computer-readable recording medium | |
| JP3030814B2 (en) | Noise component removal method and recording medium recording noise component removal program |