JPS5814710B2 - pattern classification device - Google Patents
pattern classification deviceInfo
- Publication number
- JPS5814710B2 JPS5814710B2 JP53131661A JP13166178A JPS5814710B2 JP S5814710 B2 JPS5814710 B2 JP S5814710B2 JP 53131661 A JP53131661 A JP 53131661A JP 13166178 A JP13166178 A JP 13166178A JP S5814710 B2 JPS5814710 B2 JP S5814710B2
- Authority
- JP
- Japan
- Prior art keywords
- code
- character
- dictionary
- input
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000010586 diagram Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 238000000034 method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
Landscapes
- Character Discrimination (AREA)
Description
【発明の詳細な説明】
本発明は、パターン分類装置に係り、特に文字の周囲の
情報を利用して文字パターンの分類を行なうようにした
パターン分類装置に関するものである。DETAILED DESCRIPTION OF THE INVENTION The present invention relates to a pattern classification device, and more particularly to a pattern classification device that classifies character patterns using information surrounding the characters.
漢文かな混り文を日常言語とする我国における漢字読増
装置の開発は必襞不可欠である。It is essential to develop a kanji reading device in Japan, where the daily language is kanbun and kana mixed sentences.
従来、文字読取用として種々の装置が知られているが、
認識対称が数字やカタカナなどパターンが比較的簡単で
文字の種類の少ないものに限られていた。Conventionally, various devices have been known for reading characters, but
Recognition was limited to relatively simple patterns and few types of characters, such as numbers and katakana.
漢字読取りのむずかしさは文字の種類が多いこと、複雑
な文字が多いこと、1字当りの情報量が英数字の場合の
数倍にもなるなどにある。The difficulty in reading kanji is that there are many types of characters, many characters are complex, and the amount of information per character is several times that of alphanumeric characters.
従って、従来の文字読取の方法をそのまま使ったのでは
、辞書パターンの記憶容量の増大や認識速度の低下など
をきたし、実用的な認識装置の実現が困難であった。Therefore, if conventional character reading methods were used as they were, the storage capacity of dictionary patterns would increase and the recognition speed would decrease, making it difficult to realize a practical recognition device.
これらの問題点を解決するために認識対象文字をそのパ
ターンの特徴によりあらかじめ複数の文字群に分類して
おき、入力文字パターンがどの文字群に属するかを判定
する。In order to solve these problems, characters to be recognized are classified in advance into a plurality of character groups based on the characteristics of their patterns, and it is determined which character group the input character pattern belongs to.
しかる後その文字群内の個々の候補文字と入力文字パタ
ーンとの類似の程度を求めて認識する装置が開発されて
いる。Thereafter, devices have been developed that determine and recognize the degree of similarity between each candidate character within the character group and the input character pattern.
このような複数の文字群に分類する一方法は,文字の上
下左右の四辺に存在する文字線の量を0,1,2の3段
階に量子化し、各桁が3値から成る4桁のコード(全8
1種)としてコード化するものである。One method for classifying characters into multiple character groups is to quantize the amount of character lines that exist on the four sides (top, bottom, left, and right) into three levels of 0, 1, and 2, and then quantize the amount of character lines that exist on the four sides of the character into four digits, each digit consisting of three values. Code (all 8
Type 1).
以下これを四辺コードと呼ぶ。例えば第1図に示す文字
の場合文字コードは枠1〜4内の文字線の量に応じて左
辺から右回りにコード化して“2010”となる。Hereinafter, this will be referred to as a four-sided code. For example, in the case of the character shown in FIG. 1, the character code is coded clockwise from the left side according to the amount of character lines in frames 1 to 4, and becomes "2010".
しかしながら雑音(例えば位置ずれ)などによって入力
文字パターンのコードは変化するので、このような場合
であっても正しく分類するためには文字毎に予想される
コードの変化の数だけを標準のコードとして辞書に用意
しておかなければならないという欠点があった。However, the code of the input character pattern changes due to noise (for example, positional shift), so even in such cases, in order to classify correctly, only the number of expected code changes for each character is used as a standard code. The drawback was that it had to be prepared in a dictionary.
このために辞書の記憶容量がはう大なものとなっていた
。For this reason, the storage capacity of dictionaries has become enormous.
本発明の目的は、簡単な装置で正確な分類を行なうこと
のできるパターン分類装置を提供することにある。An object of the present invention is to provide a pattern classification device that can perform accurate classification with a simple device.
第2図は、この発明の一実施例としての文字読取り装置
の全体構成を示すブロック図である。FIG. 2 is a block diagram showing the overall configuration of a character reading device as an embodiment of the present invention.
10は被読取り文字が印刷された文書であり、各文字は
光電変換部11を介して電気信号に変化される。Reference numeral 10 denotes a document on which characters to be read are printed, and each character is converted into an electrical signal via a photoelectric conversion unit 11.
この電気信号は前処理部12へ供給され、量イ化処理が
施される。This electrical signal is supplied to the preprocessing section 12 and subjected to a quantity equalization process.
この量子化信号は大分類部13に供給され、人力文字の
4辺コードを検知してその属する文字群が決定される。This quantized signal is supplied to the major classification section 13, which detects the four-sided code of the human-written character and determines the character group to which it belongs.
認識部1,4は入力文字が属する文字群内の各候補文字
と入力文字との類似の程度を求め、入力文字として最も
類似する候補文字のコードを認識結果として出力する。The recognition units 1 and 4 determine the degree of similarity between each candidate character in the character group to which the input character belongs and the input character, and output the code of the candidate character that is most similar to the input character as a recognition result.
第3図は」一記大分類部13の一構成図である。FIG. 3 is a configuration diagram of the major classification section 13.
前処理部12によって得られた量子化信号はパターンメ
モリ20に収容される。The quantized signal obtained by the preprocessing section 12 is stored in the pattern memory 20.
以下メモリ20内の量子化信号を入力文字と呼ぶ。Hereinafter, the quantized signal in the memory 20 will be referred to as an input character.
この入力文字は人力文字コード化回路21へ供給され,
その四辺コードが求められる。This input character is supplied to the manual character encoding circuit 21,
The four-sided code is found.
入力文字コード化回路21は,第1図に関連して説明し
たように文字の四辺の各領域における文字線の量に応じ
て4桁のコードを発生する。The input character encoding circuit 21 generates a four-digit code depending on the amount of character lines in each area on the four sides of the character, as described in connection with FIG.
前述のようにして各桁は3値からなるので全体としては
8ビットのコードで表わされる。As mentioned above, since each digit consists of three values, the whole is represented by an 8-bit code.
この回路21によって得られた入力文字のコードは不一
致検出回路22の一方の入力となっている。The input character code obtained by this circuit 21 serves as one input to a mismatch detection circuit 22.
不一致検出回路22の他方の入力は辞書コードであり、
これは辞書コードメモリ23に収容されている。The other input of the mismatch detection circuit 22 is a dictionary code,
This is stored in the dictionary code memory 23.
第4図は辞書コードメモリ23に収容されている情報の
フォーマットを示している。FIG. 4 shows the format of the information stored in the dictionary code memory 23.
メモリ23のアドレスAの内容についてみると、Cフィ
ールドには便宜上“上″と記したが,文字“上″に対応
する文字コードを表わしている。Looking at the contents of address A in the memory 23, for convenience, the C field is written as "upper", which represents the character code corresponding to the character "upper".
またそれぞれ8ビットのF1,F2,F3及びF4の各
フィールドは文字“上″が位置ずれ等により変動した場
合に得られる四辺コードを表わしている。Further, each of the 8-bit fields F1, F2, F3, and F4 represents a four-sided code obtained when the character "upper" changes due to positional displacement or the like.
更に各フィールドFl,F2,F3及びF4に対応して
1ビットのフィールドS1,S2,S3及びS4が設け
られている。Further, 1-bit fields S1, S2, S3, and S4 are provided corresponding to each field Fl, F2, F3, and F4.
以下これを制御ビットと呼ぶ。Hereinafter, this will be referred to as a control bit.
この制御ビットはこれに対応するフィールドの四辺コー
ドがハミング距離1以内の不一致を許容する不一致許容
モードであることを指示する。This control bit indicates that the four-sided code of the corresponding field is in a mismatch tolerance mode that allows mismatches within a Hamming distance of 1.
第3図において,コントローラ24の動作によりメモリ
23の内容がレジスタ25及び26にセットされる。In FIG. 3, the contents of memory 23 are set in registers 25 and 26 by the operation of controller 24.
レジスク26にはフィールドCの内容が収容され、その
他のフィールドがレジスタ25に収容される。The contents of field C are stored in the register 26, and the other fields are stored in the register 25.
コントローラ24の制御により、まずF1フィールドが
不一致検出回路22へ供給される。Under the control of the controller 24, the F1 field is first supplied to the mismatch detection circuit 22.
不一致検出回路22は人力文字の四辺コードとフィール
ドF1の内容とを比較し、一致ずれば線27に一致信号
を出力し不一致の場合線28に不一致信号を出力する。The mismatch detection circuit 22 compares the four-sided code of the human-written character with the contents of the field F1, and outputs a match signal on line 27 if they do not match, and outputs a mismatch signal on line 28 if they do not match.
このとき制御ビットS1がセットされていればゲート2
9が選択されセットされていなければゲート30が選択
される。At this time, if control bit S1 is set, gate 2
If 9 is selected and not set, gate 30 is selected.
いまゲ゛−ト29,30のいずれも出力信号を発生しな
い場合には、コントローラ24はレジスタ25からフィ
ールドF2の内容を不一致検出回路22へ供給する。If neither gate 29 or 30 currently generates an output signal, controller 24 supplies the contents of field F2 from register 25 to mismatch detection circuit 22.
このとき制御ビツト32の内容に応じてゲート29又は
30が選択される。At this time, gate 29 or 30 is selected depending on the content of control bit 32.
いまゲート29又は30の一方が出力信号を発生したと
すればゲート31.32を介してレジスタ26の内容が
文字コードバツファ33に収容される。If one of gates 29 and 30 now generates an output signal, the contents of register 26 are stored in character code buffer 33 via gates 31 and 32.
同時にゲート31の出力によってコントローラ24はメ
モリ23の次の番地の内容をレジスタ25 .26に収
容する。At the same time, the output of the gate 31 causes the controller 24 to transfer the contents of the next address in the memory 23 to the register 25 . It is accommodated in 26.
このように各番地のF1〜F4フィールドの内容のいず
れかと入力文字コードとが一致すれば、その一致した文
字コードを文字コードバツファ33へ順次収容していく
。In this way, if any of the contents of the F1 to F4 fields of each address matches the input character code, the matched character code is sequentially stored in the character code buffer 33.
すべての辞書コードと入力文字コードと比較終了したと
き、文字コードバツファ33には人力文字が属する可能
性のある小数の文字に対応ずるコードが収容されている
。When all dictionary codes and input character codes are compared, the character code buffer 33 stores codes corresponding to decimal characters to which human characters may belong.
しかして、第1図に14で示す認識部では,パターンメ
モリ20の内容と文字コードバツファ33の文字コード
で指示される各文字とのマッチングをとることによって
入力文字がいずれの文字に属するかが決定される。The recognition unit shown at 14 in FIG. 1 determines which character the input character belongs to by matching the contents of the pattern memory 20 with each character indicated by the character code of the character code buffer 33. be done.
次にこの発明の効果を具体例を用いて説明する。Next, the effects of this invention will be explained using a specific example.
第5図aは゛上″という文字の正常パターンを示したも
のである。FIG. 5a shows a normal pattern for the character "upper".
この場合の四辺コードは゛’0011”で表イつされる
。The four-sided code in this case is represented by ``0011''.
この文字が、第5図bに示すように上力にずれた場合に
は四辺コードは゛’0010”となり、また第5図Cに
示すように下方にずれた場合には“0012”となる。When this character shifts upward as shown in FIG. 5B, the four-side code becomes ``0010'', and when it shifts downward as shown in FIG. 5C, it becomes ``0012''.
しかしながら、この“上″という文字は,左右にずれた
場合には四辺コードが変化しない。However, when the character "upper" is shifted left or right, the four-side code does not change.
従ってこの文字については、位置ずれによるコードの変
化は4桁目に限定されている。Therefore, for this character, the change in code due to positional shift is limited to the fourth digit.
そこで、第4図に示す番地AのF1フィールドには代表
コードとして“0011”を収容し、かつ制御ビットS
1をセットしておく。Therefore, the F1 field at address A shown in FIG. 4 contains "0011" as the representative code, and the control bit S
Set it to 1.
またF2フィールドには線幅に関する雑音に固有な変形
コードを調べ同様にその代表コードを収容する。Further, in the F2 field, a modified code specific to noise related to line width is checked and its representative code is similarly stored.
このようにして辞書コードメモリ28は、全読取対象文
字について,予め各種の雑音についてその文字の固有の
変形コードを調べ,その代表コードを収容してなる。In this way, the dictionary code memory 28 stores the representative codes of all the characters to be read by checking in advance the unique deformation codes of the characters for various types of noise.
第3図における、いま入力文字コード化回路21が入力
文字゛上″をコード化し“0012”を出力したとする
。Assume that the input character encoding circuit 21 in FIG. 3 encodes the input character "upper" and outputs "0012".
この値は辞書コードメモリ23の出力する辞書コードと
比較される。This value is compared with the dictionary code output from the dictionary code memory 23.
このとき辞書コードに付随する制御ビットが完全一致モ
ードであるか不一致許容モードであるかを指示する。At this time, a control bit attached to the dictionary code indicates whether the mode is a complete match mode or a mismatch tolerance mode.
第3図における不一致回路22の詳細構成は省略するが
この回路22は入力2信号が完全に一致する場合に線2
7に出力信号を与え、入力2信号のハミング距離が1以
内の相違であれば線28に出力信号を与える比較回路か
らなる。Although the detailed configuration of the mismatch circuit 22 in FIG. 3 is omitted, when the two input signals completely match, the line 2
The comparison circuit provides an output signal to line 7 and provides an output signal to line 28 if the Hamming distance of the two input signals differs within 1.
すなイつち,入力文字のコードの各桁の値をPi (
i=1〜4),辞書コードの各桁の値をAi(i=1〜
4)としたとき, K= l A −P l−4.−
I A2−P21 +l A3−P31 + IA4−
P41≦1 であるとき、線28には出力信号が発生さ
れる。In other words, the value of each digit of the input character code is Pi (
i=1 to 4), and the value of each digit of the dictionary code to Ai (i=1 to 4)
4), then K=lA-Pl-4. −
I A2-P21 +l A3-P31 + IA4-
When P41≦1, an output signal is generated on line 28.
いま入力文字コード化回路21が入力文字゛上″をコー
ド化し、”0012”を出力したとする。Assume that the input character encoding circuit 21 encodes the input character "upper" and outputs "0012".
この値は辞書コードメモリ23内の辞書コードと順次比
較される。This value is sequentially compared with the dictionary code in the dictionary code memory 23.
この辞書コードの制御ビットがリセット状態であれば、
“0012”なる変形コードを持つ文字の文字コードが
文字コードバツファ33に収容される。If the control bit of this dictionary code is in the reset state,
The character code of the character having the modified code “0012” is stored in the character code buffer 33.
(完全一致モード)。また辞書コードの制御ビットがセ
ツ1・状態であれば、” 0 0 1 2 ”でないも
のでもハミング距離が1以内の場合には不一致許可モー
ドさして対応ずる文字コードを文字コードバツファ33
に収容する。(exact match mode). In addition, if the control bit of the dictionary code is in the set 1 state, even if it is not "0 0 1 2", if the Hamming distance is within 1, the corresponding character code is sent to the character code buffer 33 in the mismatch permission mode.
to be accommodated.
例えば査地A−のF1フィールドが不一致回路22へ供
給されたとする。For example, assume that the F1 field of field A- is supplied to the mismatch circuit 22.
前述のようにこのフィールドの内容は.”0011”で
あり、入力文字の四辺コードとは一致しないがK=1で
あるので線28に出力信号が得られる。As mentioned above, the contents of this field are: Although it is "0011" and does not match the four-sided code of the input character, since K=1, an output signal is obtained on line 28.
一方、制御ビットS1はセット状態であるので、不一致
許可モードであるから゛上″の文字コードがバツファ2
3に収容される。On the other hand, since the control bit S1 is set, it is the mismatch permission mode, so the character code of "top" is buffer 2.
It is accommodated in 3.
以上のようにこの発明によれば辞書コード記憶部の容量
を小さくすることができ,また位置すれ等の雑音を充分
加味した入力文字の大分類を行なうことができる。As described above, according to the present invention, the capacity of the dictionary code storage section can be reduced, and input characters can be roughly classified while taking into account noise such as misalignment.
更に辞書コードの検索回数を減少できるので高速なパタ
ーンの大分類が可能である。Furthermore, since the number of searches for dictionary codes can be reduced, it is possible to classify patterns at high speed.
第1図は入力文字のコード化の一例を示す図、第2図は
この発明の一実施例の全体フ宅ツク図、第3図はこの発
明の一実施例の主要部の一構成図、第4図はこの発明の
一実施例で用いられる辞書コードのフォーマットの一例
を示す図、第5図a,b,cはこの発明の効果を説明す
るための図である。
21・・・・・・入力文字コード化回路、22・・・・
・・不一致検出回路,23・・・・・・辞書コードメモ
リ。FIG. 1 is a diagram showing an example of encoding input characters, FIG. 2 is an overall layout diagram of an embodiment of this invention, and FIG. 3 is a configuration diagram of the main part of an embodiment of this invention. FIG. 4 is a diagram showing an example of the format of a dictionary code used in one embodiment of the present invention, and FIGS. 5 a, b, and c are diagrams for explaining the effects of the present invention. 21... Input character encoding circuit, 22...
. . . Mismatch detection circuit, 23 . . . Dictionary code memory.
Claims (1)
した多数の辞書コード及びこの辞書コード毎に設けられ
対応する辞書コードの照合モードを指定する制御ビット
とを収容した辞書コード記憶部と、入力パターンをその
特徴によりコード化する手段と、この手段によって得ら
れた前記入力パターンに対応する入力コードと前記辞書
コード記憶部から順次読出された辞書コードとの完全一
致を検出する第1の照合手段と、前記入力コードと前記
辞書コードのハミング距離が1以内であることを検出す
る第2の照合手段と、前記読出された辞書コードに対応
する制御ビットが完全一致モードを指示しているときに
第2の照合手段の出力を選択し、該制御ビットが不一致
許容モードを指示しているときに第1の照合手段の出力
を選択する手段とを備えたことを特徴とするパターン分
類装置。1. A dictionary code storage unit that stores a large number of dictionary codes in which a large number of character patterns are encoded in advance according to their characteristics, and a control bit that is provided for each dictionary code and specifies the matching mode of the corresponding dictionary code; means for encoding based on the characteristics thereof; and first matching means for detecting a complete match between the input code corresponding to the input pattern obtained by this means and the dictionary code sequentially read from the dictionary code storage unit; a second matching means for detecting that the Hamming distance between the input code and the dictionary code is within 1; and a second matching means for detecting that the Hamming distance between the input code and the dictionary code is within 1; A pattern classification device comprising: means for selecting the output of the first matching means; and means for selecting the output of the first matching means when the control bit indicates a mismatch tolerance mode.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP53131661A JPS5814710B2 (en) | 1978-10-27 | 1978-10-27 | pattern classification device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP53131661A JPS5814710B2 (en) | 1978-10-27 | 1978-10-27 | pattern classification device |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS5559585A JPS5559585A (en) | 1980-05-06 |
| JPS5814710B2 true JPS5814710B2 (en) | 1983-03-22 |
Family
ID=15063262
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP53131661A Expired JPS5814710B2 (en) | 1978-10-27 | 1978-10-27 | pattern classification device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS5814710B2 (en) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0721818B2 (en) * | 1986-02-12 | 1995-03-08 | ソニー株式会社 | Character identification method |
| JPS6358589A (en) * | 1986-08-29 | 1988-03-14 | Sony Corp | Main classification method in character recognition |
| JP4845715B2 (en) | 2006-12-22 | 2011-12-28 | キヤノン株式会社 | Image processing method, image processing apparatus, program, and storage medium |
-
1978
- 1978-10-27 JP JP53131661A patent/JPS5814710B2/en not_active Expired
Also Published As
| Publication number | Publication date |
|---|---|
| JPS5559585A (en) | 1980-05-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5020117A (en) | Handwritten character string recognition system | |
| US3643069A (en) | Recognition apparatus with readout mode selection capability | |
| US4523331A (en) | Automated image input, storage and output system | |
| JPS5814710B2 (en) | pattern classification device | |
| CN112182337B (en) | Method for identifying similar news from massive short news and related equipment | |
| EP0178651A2 (en) | Data retrieving apparatus | |
| JPH0375890A (en) | Character recognition device | |
| JPH0795337B2 (en) | Word recognition method | |
| KR100495874B1 (en) | Method for encoding and decoding document | |
| JPH02114390A (en) | Symbol input system for drawing | |
| JPS6214545U (en) | ||
| JP2784004B2 (en) | Character recognition device | |
| JPH0554148B2 (en) | ||
| Springer | Agisar: a system for classifying digitized pictorial data | |
| JPS636634A (en) | Data processor | |
| JPS61232724A (en) | Compressing system for character code data | |
| JPS59188783A (en) | Character discriminating and processing system | |
| JPS6195443A (en) | Matching device of code string | |
| JPH0527150B2 (en) | ||
| JPS63208182A (en) | Pattern recognizing device | |
| JPS6227883A (en) | Pattern recognizing device | |
| JPH0252312B2 (en) | ||
| JPS63236185A (en) | Knowledge processing mechanism for character reader | |
| JPH03196284A (en) | Character recognizing device | |
| JPH02299085A (en) | Character recognizing method |