JPS5822779B2 - Character pattern classification method - Google Patents
Character pattern classification methodInfo
- Publication number
- JPS5822779B2 JPS5822779B2 JP52100855A JP10085577A JPS5822779B2 JP S5822779 B2 JPS5822779 B2 JP S5822779B2 JP 52100855 A JP52100855 A JP 52100855A JP 10085577 A JP10085577 A JP 10085577A JP S5822779 B2 JPS5822779 B2 JP S5822779B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- classification
- character pattern
- area
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
Landscapes
- Character Discrimination (AREA)
Description
【発明の詳細な説明】
本発明は文字パターンの分類方式、特に光電変換によっ
て得られた印刷漢字パターンにおいて。DETAILED DESCRIPTION OF THE INVENTION The present invention relates to a classification method for character patterns, particularly for printed kanji patterns obtained by photoelectric conversion.
フォントの違いによる字形の変化に対処するため、文字
パターンをその外接領域で規格化し、パターンのもつい
くつかの特徴によって分類を行なうようにした文字パタ
ーンの分類方式に関するものである。This invention relates to a character pattern classification method in which character patterns are standardized by their circumscribed areas and classified based on several characteristics of the patterns, in order to cope with changes in character shapes due to differences in fonts.
従来、漢字を含めた文字パターンの分類方式としては、
単一フォントの字形を対象とし、外接矩形領域で切り出
した文字パターンの周囲の情報による分類、文字パター
ンの複雑さの情報による分類などが知られている。Traditionally, the classification method for character patterns including kanji is
For example, classification based on information surrounding a character pattern cut out in a circumscribed rectangular area, classification based on information on the complexity of a character pattern, etc., is known for targeting character shapes of a single font.
このうち、前者の方式による分類では、文字枠から内側
に一定幅の領域をとシ出し、そこに含まれる文字線の情
報や文字を太めたときのその情報の変化などが用いられ
ている。Of these, the former classification method extracts an area of a certain width inside the character frame, and uses information about the character lines contained therein and changes in that information when the characters are made thicker.
しかし、一定幅の領域に含まれる文字線の情報による分
類では、フォントの異なる印刷漢字パターンにおいて生
じる字形の変化、たとえば文字線の伸縮による影響をう
けやすいという欠点があり、また、文字を太めたときの
文字枠部分の情報の変化による分類では、安定な白領域
情報の抽出は可能であるが、処理が複雑になり、必要と
するメモリ量も増大するという問題点がある。However, classification based on information on character lines included in an area of a certain width has the disadvantage that it is easily affected by changes in character shape that occur in printed kanji patterns with different fonts, such as expansion and contraction of character lines. Although it is possible to stably extract white area information by classifying based on changes in information in character frame portions, there are problems in that the processing becomes complicated and the amount of memory required increases.
一方、後者の方式つまり文字パターンにおける縦および
横方向の文字の拡がシ量と文字線の長さの和から定義さ
れる複雑さの指数による分類では、処理が一様でなくか
つ複雑なものとなること、印刷漢字パターンに存在する
「セリフ」や「ウロコ」などの本質的には漢字の認識に
関係ない部分のパターンの変形の影響をうけやすいとい
う欠点がある。On the other hand, in the latter method, that is, classification using a complexity index defined from the sum of the amount of vertical and horizontal character spread in a character pattern and the length of character lines, the processing is uneven and complicated. This has the drawback that it is easily affected by pattern deformation in parts that are essentially unrelated to kanji recognition, such as ``serifs'' and ``scales'' that exist in printed kanji patterns.
本発明はこれらの問題点を解決するため、印刷漢字パタ
ーンのもつ大まかな複雑さの情報と外郭形状の大まかな
情報とを用いて文字パターンを分類するようにしたもの
で、簡単な処理でかつ必要メモリ量の少ない分類方式を
提供することを目的としたものである。In order to solve these problems, the present invention classifies character patterns using rough complexity information and rough outline shape information of printed kanji patterns, which is a simple process. The purpose is to provide a classification method that requires less memory.
以下、図面によシ本発明の内容を詳細に説明する。Hereinafter, the contents of the present invention will be explained in detail with reference to the drawings.
第1図は本発明による文字パターン分類方式の一実施例
のブロック図を示す。FIG. 1 shows a block diagram of an embodiment of a character pattern classification method according to the present invention.
図において、1は入力文字パターンであり、これを走査
・光電変換器2によって走査し、文字パターン1の濃淡
に比例した信号を得る。In the figure, 1 is an input character pattern, which is scanned by a scanning/photoelectric converter 2 to obtain a signal proportional to the shading of the character pattern 1.
この光電変換された信号は2値化回路3において基準値
と比較して、白領域はIT Ojj黒領域は°1″の2
値の量子化文字パターンに変換される。This photoelectrically converted signal is compared with a reference value in the binarization circuit 3, and the white area is IT Ojj and the black area is 2°1''.
The value is converted to a quantized character pattern.
4は文字パターンの外接枠検出回路で、第2図Aおよび
Bにその動作例を示す。4 is a character pattern circumscribing frame detection circuit, and an example of its operation is shown in FIGS. 2A and 2B.
すなわち、第2図Aに示すように2値化された文字パタ
ーンの枠11よシ中心方向に触手12をのばし、最初に
文字部分に出合ったところでその辺の枠どり13を行な
う。That is, as shown in FIG. 2A, the tentacle 12 is extended toward the center of the frame 11 of the binarized character pattern, and when it first encounters a character part, the frame 13 of that side is performed.
他の辺についても同様の処理を行ない、第2図Bに示す
ような文字パターンの外接枠14を検出する。Similar processing is performed on the other sides to detect the circumscribing frame 14 of the character pattern as shown in FIG. 2B.
検出された外接枠内の文字パターンの情報は記憶装置(
メモリ)5に記憶される。Information on the detected character pattern within the circumscribed frame is stored in the storage device (
memory) 5.
記憶装置5に記憶された文字パターンは次の2つの形式
で分類される。The character patterns stored in the storage device 5 are classified into the following two formats.
1つは粗いメツシュパターン作成装置6で特徴を抽出し
、この特徴を分類装置7によって分類するもので、その
動作例を第3図に示す。One method is to extract features using a coarse mesh pattern creation device 6 and classify the features using a classification device 7. An example of this operation is shown in FIG.
第3図Aは外接枠14で切り出された文字パターンで、
この文字パターン領域を同図Bに示すように、粗いメツ
シュパターン作成装置6で粗い矩形のメツシュ領域15
−1 、15−2.・・・・・・。FIG. 3A shows a character pattern cut out using the circumscribing frame 14.
As shown in FIG.
-1, 15-2. .......
15−nに分割し、各メツシュ領域に存在する文字部の
面積を計数し、これを文字全体の面積で規格化し、分類
のための特徴を作成する。15-n, the area of the character part existing in each mesh area is counted, and this is normalized by the area of the entire character to create a feature for classification.
同図Cはこのようにして抽出した特徴テーブルの一例で
あり、規格化して求めた値を一定倍し、整数で示したも
のである。Figure C is an example of a feature table extracted in this manner, in which the normalized value is multiplied by a constant value and is expressed as an integer.
分類装置7は、このようにして作成した特徴テーブルを
もとに、すでにたくわえておいた各文字の特徴テーブル
とのマツチングをとり、文字パターンの分類を行なう。Based on the feature table created in this manner, the classification device 7 performs matching with the previously stored feature tables for each character to classify character patterns.
もう1つは粗い周辺パターン作成装置8で文字外郭の特
徴を求め、それをもとに分類装置9で分類するもので、
その動作例を第4図に示す。The other method is to use a coarse peripheral pattern creation device 8 to determine the characteristics of the outer contours of characters, and based on these characteristics, a classification device 9 is used to classify them.
An example of its operation is shown in FIG.
第4図Aは外接枠14で切り出された文字パターンで、
この文字パターン領域を同図BおよびCに示すように、
粗い周辺パターン作成装置8でまずその外接枠を粗く分
割する。FIG. 4A shows a character pattern cut out using the circumscribing frame 14.
As shown in B and C of the same figure, this character pattern area is
First, the circumscribed frame is roughly divided by the coarse peripheral pattern creation device 8.
第4図Bは横方向の外接枠を粗く分割したもの、同図C
は縦方向の外接枠を粗く分割したものである。Figure 4B is a rough division of the horizontal circumscribing frame, Figure 4C
is roughly divided into vertical circumscribed frames.
次に、分割された外接枠の各部分16−1,16−2.
・・・・・・、16−nよシ反対側の文字枠方向に文字
部に出合うまでの白領域の面積(図で斜線をほどこした
面積)を計数し、これを文字パターン領域全体の面積で
規格化して分類のための特徴を作成する。Next, each portion 16-1, 16-2 of the divided circumscribed frame.
......, count the area of the white area (shaded area in the figure) in the direction of the character frame on the opposite side from 16-n until it meets the character part, and calculate this as the area of the entire character pattern area. to create features for classification.
同図りはこのようにして、4つの外接枠について求めた
特徴テーブルの一例である。The figure is an example of a feature table obtained for the four circumscribed frames in this way.
この特徴テーブルをもとに、分類装置9ではすでにだく
わえておいた各文字の特徴テーブルとマツチングをとり
、文字パターンを分類する。Based on this feature table, the classification device 9 performs matching with the previously stored feature tables for each character to classify the character pattern.
第5図に分類装置7,9による文字パターンの分類結果
の一例を示す。FIG. 5 shows an example of the classification results of character patterns by the classification devices 7 and 9.
すなわち、未知入力文字ハ/)−ン「水」に対して、粗
いメツシュパターンによる分類の結果、マツチングにお
ける整合度の順に、「水」、「氷」、「木」、「永」、
「本」が分類される。In other words, for the unknown input character ``mizu'', as a result of classification using a coarse mesh pattern, in order of consistency in matching, ``water'', ``ice'', ``ki'', ``ei'',
"Books" are classified.
同様に、粗い周辺パターンによる分類によって、「水」
、「木」、「氷」、「本」。Similarly, by classification based on coarse peripheral patterns, "water"
, "tree", "ice", "book".
「永」が選び出される。"English" is selected.
分類装置10は、これら2つの方法で分類された複数個
のカテゴリから、その和集合を選び出し、文字パターン
の大分類を行なうものである。The classification device 10 selects the union of a plurality of categories classified using these two methods, and performs general classification of character patterns.
なお、実施例では分類装置7,9.10をそれぞれ分け
て示したが、これらの一部あるいは全部を1つの分類装
置で置き換えることも可能である。In the embodiment, the classification devices 7, 9, and 10 are shown separately, but it is also possible to replace some or all of them with one classification device.
以上説明したように、本発明による文字パターンの分類
方式においては、文字パターン全体の大まかな複雑さの
情報と文字パター7の外郭形状の大まかな情報とを並用
して文字パターンを分類するため、文字形状の変形、特
にマルチフォント印刷漢字のようにフォントが異なるこ
とによって文字パターンの形状に差を生じる′ようなパ
ターンに対して効率のよい分類が行なえるという利点が
ある。As explained above, in the character pattern classification method according to the present invention, character patterns are classified using information on the rough complexity of the entire character pattern and rough information on the outline shape of the character pattern 7. This method has the advantage that it is possible to efficiently classify patterns such as character shape deformations, especially patterns in which the shape of the character pattern differs due to different fonts, such as multi-font printed Chinese characters.
また、2つの分類形式において作成される特徴は、その
個数、性質などを同じにすることができるため、分類装
置を共通にすることもできる。Further, since the features created in the two classification formats can have the same number, properties, etc., a classification device can also be used in common.
さらに、入力文字パターンによっては、分類装置によっ
て選び出された整合度の大きな共通カテゴリを求めるこ
とにより、文字パターンの識別も可能である。Furthermore, depending on the input character pattern, it is possible to identify the character pattern by finding a common category with a high degree of consistency selected by the classification device.
第1図は本発明による文字パターン分類方式の一実施例
を示す図、第2図は第1図の外接枠検出回路の動作を説
明する図、第3図は第1図の粗いメツシュパターンによ
る分類について説明するための図、第4図は第1図の粗
い周辺パターンによる分類について説明するための図、
第5図は本発明による文字パターンの分類結果の一例を
示した図である。
1・・・・・・入力文字パターン、2・・・・・・走査
・光電変換器、3・・・・・・2値化回路、4・・・・
・・外接枠検出回路、5・・・・・・記憶装置、6・・
・・・・粗いメツシュパターン作成装置、7・・・・・
・分類装置、8・・・・・・粗い周辺パターン作成装置
、9・・・・・・分類装置、10・・・・・・分類装置
。FIG. 1 is a diagram showing an embodiment of the character pattern classification method according to the present invention, FIG. 2 is a diagram explaining the operation of the circumscribing frame detection circuit of FIG. 1, and FIG. 3 is a diagram showing the coarse mesh pattern of FIG. 1. Figure 4 is a diagram for explaining classification based on coarse peripheral patterns in Figure 1;
FIG. 5 is a diagram showing an example of the classification results of character patterns according to the present invention. 1... Input character pattern, 2... Scanning/photoelectric converter, 3... Binarization circuit, 4...
...Circumscribing frame detection circuit, 5...Storage device, 6...
...Coarse mesh pattern creation device, 7...
- Classification device, 8... Coarse peripheral pattern creation device, 9... Classification device, 10... Classification device.
Claims (1)
域で枠とりする第1手段と、該第1手段、′によって得
られた文字領域を粗いメツシュの矩形領域に分割し、そ
の各領域に存在する文字部分の面積を計数し、この情報
をもとにして文字パターンを分類する第2手段と、前記
第1手段によって得られた文字領域の外接枠を粗く分割
し、この分。 割された各部分から反対側の文字枠方向に文字部分に出
合うまでの白領域の面積を計数し、この情報をもとにし
て文字パターンを分類する第3手段と、前記第2および
第3手段によって得られた分類結果を組み合せ、未知入
力文字パターンを分類、する第4手段とを具備すること
を特徴とする文字パターンの分類方式。[Claims] A first means for framing a binary character pattern using a circumscribed rectangular area of the character, and dividing the character area obtained by the first means into rectangular areas with a coarse mesh. a second means for counting the area of the character portion existing in each region and classifying the character pattern based on this information; and a second means for roughly dividing the circumscribing frame of the character region obtained by the first means. , this minute. a third means for counting the area of a white region from each divided portion in the direction of the character frame on the opposite side until it meets a character portion, and classifying character patterns based on this information; and a fourth means for classifying an unknown input character pattern by combining the classification results obtained by the means.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP52100855A JPS5822779B2 (en) | 1977-08-23 | 1977-08-23 | Character pattern classification method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP52100855A JPS5822779B2 (en) | 1977-08-23 | 1977-08-23 | Character pattern classification method |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS5434638A JPS5434638A (en) | 1979-03-14 |
| JPS5822779B2 true JPS5822779B2 (en) | 1983-05-11 |
Family
ID=14284914
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP52100855A Expired JPS5822779B2 (en) | 1977-08-23 | 1977-08-23 | Character pattern classification method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS5822779B2 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4415880A (en) * | 1980-01-28 | 1983-11-15 | Texas Instruments Incorporated | Character recognition method and apparatus |
-
1977
- 1977-08-23 JP JP52100855A patent/JPS5822779B2/en not_active Expired
Also Published As
| Publication number | Publication date |
|---|---|
| JPS5434638A (en) | 1979-03-14 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP1052593A2 (en) | Form search apparatus and method | |
| JP2002024836A (en) | How to extract titles from digital images | |
| JPS5837779A (en) | Document processor | |
| JPH05225378A (en) | Area dividing system for document image | |
| JPH0452510B2 (en) | ||
| JPS5822779B2 (en) | Character pattern classification method | |
| JP2006338578A (en) | Character recognition device | |
| JPS5822780B2 (en) | Hierarchical identification processing method for character patterns | |
| JPS61296481A (en) | Document reader | |
| JPH0548510B2 (en) | ||
| KR940004476A (en) | Image Control | |
| JPS6238752B2 (en) | ||
| JP2789622B2 (en) | Character / graphic area determination device | |
| JPS5822781B2 (en) | Character pattern recognition processing method | |
| JP2671533B2 (en) | Character string recognition method and apparatus thereof | |
| JP3127413B2 (en) | Character recognition device | |
| JPS6038755B2 (en) | Feature extraction method | |
| JPS6334682A (en) | Character recognition system | |
| JPH11110485A (en) | Character reading device and character reading method | |
| JPS59106084A (en) | Character reader | |
| JPS603076A (en) | Character recognition system | |
| JPS59149569A (en) | Optical character reader | |
| JPH02166583A (en) | Character recognizing device | |
| JPH03160582A (en) | Method for separating ruled line and character in document picture data | |
| JPS62194590A (en) | Character recognizing system |