Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7526692B2 - Recognition method and device - Google Patents
[go: Go Back, main page]

JP7526692B2 - Recognition method and device - Google Patents

Recognition method and device Download PDF

Info

Publication number
JP7526692B2
JP7526692B2 JP2021026818A JP2021026818A JP7526692B2 JP 7526692 B2 JP7526692 B2 JP 7526692B2 JP 2021026818 A JP2021026818 A JP 2021026818A JP 2021026818 A JP2021026818 A JP 2021026818A JP 7526692 B2 JP7526692 B2 JP 7526692B2
Authority
JP
Japan
Prior art keywords
area
recognition
unit
region
handwritten
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021026818A
Other languages
Japanese (ja)
Other versions
JP2022128348A (en
Inventor
武志 馬路
将平 長谷川
昌利 鴻田
修一 伊澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Frontech Ltd
Original Assignee
Fujitsu Frontech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Frontech Ltd filed Critical Fujitsu Frontech Ltd
Priority to JP2021026818A priority Critical patent/JP7526692B2/en
Publication of JP2022128348A publication Critical patent/JP2022128348A/en
Application granted granted Critical
Publication of JP7526692B2 publication Critical patent/JP7526692B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Description

本発明は、認識方法及び認識装置に関する。 The present invention relates to a recognition method and a recognition device.

従来、光学的に読み取った帳票の画像から所定の項目の文字認識を行う技術が知られている。 Conventionally, technology is known that performs character recognition for specific items from an optically read image of a form.

例えば、あらかじめ選択式項目に印字される文字列の候補を登録しておき、丸印やチェック印が記入された領域にある当該登録済みの文字列を認識する技術が知られている。 For example, a technology is known that preregisters candidate strings of characters to be printed in multiple-choice items and then recognizes the registered strings in areas marked with a circle or check mark.

また、例えば、文字列の選択に使われる二重線等の図形をあらかじめ登録しておき、当該登録済みの図形を読み取ることで選択された文字列を特定する技術が知られている。 In addition, there is known a technique in which a shape such as a double line used to select a character string is registered in advance, and the selected character string is identified by reading the registered shape.

特開平11-345281号公報Japanese Patent Application Publication No. 11-345281 特開2005-173673号公報JP 2005-173673 A

しかしながら、従来の技術には、事前に文字列及び図形等の登録が必要になるため、帳票の選択された文字列の認識を容易かつ汎用的に行うことができない場合があるという問題がある。 However, conventional techniques require the advance registration of character strings and figures, which means that it is sometimes not possible to easily and universally recognize selected character strings on a form.

例えば、銀行において、口座開設申し込み及び入金依頼等の際に、口座の科目を帳票上で選択する場面を考える。ここでは、認識対象の文字列として「普通」と「当座」が事前に登録されているものとする。 For example, consider a situation in which an account subject is selected on a form at a bank when applying to open an account or making a deposit. In this case, the characters to be recognized are assumed to be "regular" and "current."

このとき、科目の選択肢として「普通」と「当座」に加えて「納税準備」という文字列が用意されており、「納税準備」に手書きで丸が付けられた場合、従来技術では選択された文字列を認識することができない場合がある。 In this case, in addition to "regular" and "current," the character string "tax preparation" is provided as an option for the subject, and if "tax preparation" is circled by hand, conventional technology may not be able to recognize the selected character string.

1つの側面では、帳票の選択された文字列の認識を容易かつ汎用的に行うことを目的とする。 In one aspect, the aim is to make it easy and versatile to recognize selected character strings on a form.

1つの態様では、認識方法は、帳票から手書きで記入がされた第1の領域を抽出し、帳票から活字が印字された第2の領域を抽出し、第2の領域のうち、第1の領域との重複の度合いが所定の条件を満たす領域を選択する処理をコンピュータが実行する。 In one aspect, the recognition method involves a computer executing a process to extract a first area from a form that is filled in by hand, extract a second area from the form that is printed with type, and select from the second area an area whose degree of overlap with the first area satisfies a predetermined condition.

1つの側面では、帳票の選択された文字列の認識を容易かつ汎用的に行うことができる。 In one aspect, it allows for easy and versatile recognition of selected character strings on a form.

図1は、認識システムの構成例を示す図である。FIG. 1 is a diagram illustrating an example of the configuration of a recognition system. 図2は、認識装置の構成例を示す図である。FIG. 2 is a diagram illustrating an example of the configuration of a recognition device. 図3は、選択文字列情報の例を示す図である。FIG. 3 is a diagram showing an example of selected character string information. 図4は、手書き領域の抽出を説明する図である。FIG. 4 is a diagram for explaining extraction of a handwritten region. 図5は、活字領域の抽出を説明する図である。FIG. 5 is a diagram for explaining extraction of a print region. 図6は、帳票の項目の例を示す図である。FIG. 6 is a diagram showing examples of items on a form. 図7は、重複領域の例を示す図である。FIG. 7 is a diagram showing an example of an overlapping region. 図8は、認識処理の流れを示すフローチャートである。FIG. 8 is a flowchart showing the flow of the recognition process. 図9は、ハードウェア構成例を説明する図である。FIG. 9 is a diagram illustrating an example of a hardware configuration.

以下に、本発明に係る認識方法及び認識装置を図面に基づいて詳細に説明する。なお、この実施例により本発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。 The following describes in detail the recognition method and recognition device according to the present invention with reference to the drawings. Note that the present invention is not limited to these examples. Furthermore, the examples can be combined as appropriate within a range that does not cause inconsistencies.

図1を用いて、実施例に係る認識システムの構成を説明する。図1は、認識システムの構成例を示す図である。図1に示すように、認識システム1は、認識装置10及びスキャナ20を有する。 The configuration of a recognition system according to an embodiment will be described with reference to FIG. 1. FIG. 1 is a diagram showing an example of the configuration of a recognition system. As shown in FIG. 1, the recognition system 1 includes a recognition device 10 and a scanner 20.

認識装置10は、スキャナ20によって生成された帳票の画像の入力を受け付け、認識結果を出力する。図1の例では、認識装置10は、「性別:男」という認識結果を出力する。図1の認識結果は、帳票の「性別」という項目の選択肢のうち、「男」という選択肢が選択されていたことを意味している。 The recognition device 10 accepts input of an image of a form generated by the scanner 20 and outputs a recognition result. In the example of FIG. 1, the recognition device 10 outputs the recognition result "Gender: Male". The recognition result in FIG. 1 means that the option "Male" was selected from among the options for the "Gender" item on the form.

本実施形態における帳票は、紙等の媒体に項目及び選択肢が印字され、記入者が手書きで各項目の選択肢を選択するものである。例えば、帳票は、銀行の口座開設の申し込み用紙、入金依頼の用紙、マークシート等の選択式試験の解答用紙、アンケート用紙等である。 In this embodiment, the form is a medium such as paper on which items and options are printed, and the person filling out the form handwrites the option for each item. For example, the form is a bank account opening application form, a deposit request form, an answer sheet for a multiple-choice test such as a mark sheet, a questionnaire, etc.

なお、認識装置10は、パーソナルコンピュータ、現金自動預払機(ATM:automatic teller machine)、スマートフォン等によって実現されてもよい。 The recognition device 10 may be realized by a personal computer, an automatic teller machine (ATM), a smartphone, etc.

また、認識装置10は、端末とサーバとを組み合わせて実現されてもよい。その場合、端末はスキャナ20から受け取った画像をサーバに送信する。そして、サーバは画像を基にした認識結果を端末に返す。 The recognition device 10 may also be realized by combining a terminal and a server. In that case, the terminal transmits the image received from the scanner 20 to the server. The server then returns the recognition result based on the image to the terminal.

スキャナ20は、紙等の媒体を光学的に読み取り、画像を生成する装置である。例えば、スキャナ20は、複合機及び手書きの帳票を受け付け可能なATM等の機能の一部であってもよい。また、スキャナ20は、スマートフォン等のカメラ付きの携帯型端末であってもよい。 The scanner 20 is a device that optically reads media such as paper and generates an image. For example, the scanner 20 may be part of the functions of a multifunction device or an ATM that can accept handwritten forms. The scanner 20 may also be a mobile terminal with a camera, such as a smartphone.

スキャナ20は、帳票30を読み取る。帳票30には、「性別」という項目名が印字されており、その下に「(1)男」及び「(2)女」という選択肢が印字されている。また、選択肢「(1)男」の付近には、手書きの丸印が記入されている。 The scanner 20 reads the form 30. On the form 30, the item name "Gender" is printed, and the options "(1) Male" and "(2) Female" are printed below it. In addition, a handwritten circle is written near the option "(1) Male."

以降の説明で、手書きは、文字を書くこと(write)に限られず、人間が手であらゆる図形を書くこと(write)及び描くこと(draw)を意味するものとする。 In the following explanation, handwriting is not limited to writing characters, but also refers to writing and drawing any shape by human hand.

また、ここでの図形には、円及び四角形といった幾何学的な図形に限られず、文字、チェックマーク、塗りつぶしといったあらゆる態様の図形を含むものとする。 The shapes referred to here are not limited to geometric shapes such as circles and rectangles, but include any type of shape such as letters, check marks, and fills.

一方、活字は、ワードプロセッサ等によって生成され、プリンタ等によって帳票に印字される文字である。 On the other hand, type is the characters that are generated by a word processor or the like and printed onto a form by a printer or the like.

図1の例では、帳票30の丸印は手書きで記入されたものである。一方、帳票30に印字された「性別」、「(1)男」及び「(2)女」は活字である。 In the example of FIG. 1, the circles on form 30 are handwritten. On the other hand, "Gender," "(1) Male," and "(2) Female" are printed on form 30 in type.

図2は、認識装置の構成例を示す図である。図2に示すように、認識装置10は、IF(インタフェース)部11、記憶部12及び制御部13を有する。 Figure 2 is a diagram showing an example of the configuration of a recognition device. As shown in Figure 2, the recognition device 10 has an IF (interface) unit 11, a storage unit 12, and a control unit 13.

IF部11は、データの入力及び出力のためのインタフェースである。例えば、IF部11はNIC(Network Interface Card)である。IF部11はスキャナ20を含む他の装置との間でデータの送受信を行うことができる。 The IF unit 11 is an interface for inputting and outputting data. For example, the IF unit 11 is a NIC (Network Interface Card). The IF unit 11 can send and receive data to and from other devices including the scanner 20.

また、IF部11は、マウスやキーボード等の入力装置と接続されていてもよい。また、IF部11は、ディスプレイ及びスピーカ等の出力装置と接続されていてもよい。 The IF unit 11 may also be connected to input devices such as a mouse and a keyboard. The IF unit 11 may also be connected to output devices such as a display and a speaker.

記憶部12は、データや制御部13が実行するプログラム等を記憶する記憶装置の一例であり、例えばハードディスクやメモリ等である。記憶部12は、手書き領域抽出モデル情報121、活字領域抽出モデル情報122、辞書情報123及び選択文字列情報124を記憶する。 The memory unit 12 is an example of a storage device that stores data, programs executed by the control unit 13, etc., and is, for example, a hard disk or memory. The memory unit 12 stores handwritten area extraction model information 121, printed character area extraction model information 122, dictionary information 123, and selected character string information 124.

手書き領域抽出モデル情報121は、手書き領域抽出モデルを構築するためのパラメータ等である。例えば、手書き領域抽出モデルは、ニューラルネットワーク等を用いた画像認識モデルであって、後述する抽出部133によって使用される。例えば、手書き領域抽出モデル情報121は、ニューラルネットワークの重み行列及びバイアス値である。 The handwritten area extraction model information 121 is parameters for constructing a handwritten area extraction model. For example, the handwritten area extraction model is an image recognition model that uses a neural network or the like, and is used by the extraction unit 133 described below. For example, the handwritten area extraction model information 121 is a weight matrix and bias value of a neural network.

活字領域抽出モデル情報122は、活字領域抽出モデルを構築するためのパラメータ等である。例えば、活字領域抽出モデルは、ニューラルネットワーク等を用いた画像認識モデルであって、後述する抽出部133によって使用される。例えば、活字領域抽出モデル情報122は、ニューラルネットワークの重み行列及びバイアス値である。 The typed character area extraction model information 122 is parameters for constructing a typed character area extraction model. For example, the typed character area extraction model is an image recognition model that uses a neural network or the like, and is used by the extraction unit 133 described below. For example, the typed character area extraction model information 122 is a weight matrix and bias value of a neural network.

辞書情報123は、文字認識のための文字の集合である。辞書情報123は、既存のOCR(Optical Character Recognition)ソフト等で用いられる辞書であって、アルファベット、漢字、ひらがな、算用数字、記号といった文字の特徴を含むものであってもよい。 Dictionary information 123 is a set of characters for character recognition. Dictionary information 123 is a dictionary used in existing OCR (Optical Character Recognition) software, etc., and may include the characteristics of characters such as alphabets, kanji, hiragana, Arabic numerals, and symbols.

選択文字列情報124は、項目名及び選択肢として使用される文字列の組み合わせである。図3は、選択文字列情報の例を示す図である。図3に示すように、例えば、選択文字列情報124は、項目「性別」と選択肢「男、女、男性、女性、Male、Female、…」の組み合わせを含む。 The selection string information 124 is a combination of item names and strings used as options. FIG. 3 is a diagram showing an example of selection string information. As shown in FIG. 3, for example, the selection string information 124 includes a combination of the item "Gender" and the options "Male, Female, Male, Female, ...".

選択文字列情報124の項目名及び選択肢に含まれる文字列は、それぞれ項目名及び選択肢として使用される頻度が高い文字列としてあらかじめ指定されたものである。選択文字列情報124は、後述する文字認識処理を補助するために用いられる。 The character strings included in the item names and options of the selected character string information 124 are designated in advance as character strings that are frequently used as item names and options, respectively. The selected character string information 124 is used to assist in the character recognition process described below.

図2に戻り、制御部13は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)等によって、内部の記憶装置に記憶されているプログラムがRAM(Random Access Memory)を作業領域として実行されることにより実現される。また、制御部13は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されるようにしてもよい。 Returning to FIG. 2, the control unit 13 is realized, for example, by a CPU (Central Processing Unit), MPU (Micro Processing Unit), GPU (Graphics Processing Unit), etc., which executes a program stored in an internal storage device using RAM (Random Access Memory) as a working area. The control unit 13 may also be realized, for example, by an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or FPGA (Field Programmable Gate Array).

制御部13は、スキャナ制御部131と、解析部132と、抽出部133と、選択部134と、認識部135と、補正部136と、出力制御部137と、を有する。 The control unit 13 includes a scanner control unit 131, an analysis unit 132, an extraction unit 133, a selection unit 134, a recognition unit 135, a correction unit 136, and an output control unit 137.

スキャナ制御部131は、スキャナ20を制御する。スキャナ制御部131は、スキャナ20に、帳票の読み取り、画像の生成及び画像の受け渡しを指示する。 The scanner control unit 131 controls the scanner 20. The scanner control unit 131 instructs the scanner 20 to read the document, generate an image, and transfer the image.

解析部132は、スキャナ20から受け取った画像を解析し、帳票上の選択項目の位置を特定する。例えば、解析部132は、参考文献1(特開2010-3155号公報)に記載された方法を用いて項目を抽出することができる。 The analysis unit 132 analyzes the image received from the scanner 20 and identifies the position of the selected item on the form. For example, the analysis unit 132 can extract the items using the method described in Reference 1 (JP Patent Publication 2010-3155A).

抽出部133は、解析部132によって特定された位置において、手書き領域及び活字領域の抽出を行う。抽出部133は、帳票から手書きで記入がされた手書き領域を抽出する。なお、手書き領域は第1の領域の一例である。また、抽出部133は、帳票から活字が印字された活字領域を抽出する。なお、活字領域は第2の領域の一例である。 The extraction unit 133 extracts handwritten areas and typed areas at the positions identified by the analysis unit 132. The extraction unit 133 extracts handwritten areas from the form where entries have been made by hand. The handwritten areas are an example of a first area. The extraction unit 133 also extracts typed areas from the form where type is printed. The typed areas are an example of a second area.

抽出部133は、手書きの図形の特徴を学習した画像認識モデルを用いて手書き領域を抽出する。抽出部133は、手書き領域抽出モデル情報121を基に構築した画像認識モデルである手書き領域抽出モデルを用いる。 The extraction unit 133 extracts the handwritten area using an image recognition model that has learned the characteristics of handwritten figures. The extraction unit 133 uses a handwritten area extraction model, which is an image recognition model constructed based on the handwritten area extraction model information 121.

手書き領域抽出モデルは、丸印及びチェックマークといった特定の図形を教師データとして訓練されたものであってもよいし、特定の図形に限られずあらゆる手書きの図形を教師データとして訓練されたものであってもよい。 The handwritten region extraction model may be trained using specific shapes such as circles and check marks as training data, or it may be trained using any handwritten shape as training data, not limited to specific shapes.

図4は、手書き領域の抽出を説明する図である。図4の例では、抽出部133は、手書きの丸印が記入された領域51を手書き領域として抽出する。 Figure 4 is a diagram illustrating the extraction of a handwritten region. In the example of Figure 4, the extraction unit 133 extracts an area 51 in which a handwritten circle is written as a handwritten region.

抽出部133は、活字の特徴を学習した画像認識モデルを用いて活字領域を抽出する。抽出部133は、活字領域抽出モデル情報122を基に構築した画像認識モデルである活字領域抽出モデルを用いる。 The extraction unit 133 extracts the type region using an image recognition model that has learned the characteristics of type. The extraction unit 133 uses a type region extraction model, which is an image recognition model constructed based on the type region extraction model information 122.

図5は、活字領域の抽出を説明する図である。図5の例では、抽出部133は、「(1)男」と活字で印字された領域52、及び「(2)女」と活字で印字された領域53を活字領域として抽出する。 Figure 5 is a diagram illustrating the extraction of a type region. In the example of Figure 5, the extraction unit 133 extracts the region 52 in which "(1) Male" is printed in type, and the region 53 in which "(2) Female" is printed in type, as type regions.

選択部134は、活字領域のうち、手書き領域との重複の度合いが所定の条件を満たす領域を選択する。例えば、選択部134は、活字領域のうち、手書き領域と少なくとも一部が手書き領域と重なり合う領域を選択する。 The selection unit 134 selects an area from the type region where the degree of overlap with the handwritten region satisfies a predetermined condition. For example, the selection unit 134 selects an area from the type region where at least a portion of the area overlaps with the handwritten region.

例えば、図5の例では、手書き領域である領域51と活字領域である領域52は一部が重複している。一方、手書き領域である領域51と活字領域である領域53は重複していない。このため、選択部134は、領域51に対応する活字領域として領域52を選択する。 For example, in the example of FIG. 5, region 51, which is a handwritten region, and region 52, which is a type region, partially overlap. On the other hand, region 51, which is a handwritten region, and region 53, which is a type region, do not overlap. Therefore, the selection unit 134 selects region 52 as the type region corresponding to region 51.

また、例えば複数の活字領域が手書き領域と重なり合う場合がある。その場合、選択部134は、活字領域のうち、手書き領域と重なり合う部分の面積が最大である領域を選択することができる。 In addition, for example, multiple type regions may overlap with a handwritten region. In such a case, the selection unit 134 can select the type region that has the largest area of overlap with the handwritten region.

図6は、帳票の項目の例を示す図である。図6の例では、選択肢として「1 普通」、「2 当座」及び「3 納税準備」が印字されている。 Figure 6 shows an example of the items on the form. In the example in Figure 6, the options "1. Regular," "2. Current," and "3. Tax Preparation" are printed.

図6に示す帳票に手書きで丸印が記入された場合を考える。ここでは、図7に示す位置に丸印が記入されたものとする。図7は、重複領域の例を示す図である。 Consider the case where a circle is handwritten on the form shown in Figure 6. In this case, the circle is written in the position shown in Figure 7. Figure 7 shows an example of an overlapping area.

抽出部133は、領域54を手書き領域として抽出し、領域55、領域56及び領域57を活字領域として抽出する。 The extraction unit 133 extracts area 54 as a handwritten area, and areas 55, 56, and 57 as typed areas.

領域58は、領域54と領域56が重なり合う領域である。また、領域59は、領域54と領域57が重なり合う領域である。ここで、領域59の面積は領域58の面積より大きいため、選択部134は領域59に対応する手書き領域である領域57を選択する。 Area 58 is an area where area 54 and area 56 overlap. Area 59 is an area where area 54 and area 57 overlap. Here, since the area of area 59 is larger than the area of area 58, the selection unit 134 selects area 57, which is a handwritten area that corresponds to area 59.

認識部135は、選択部134によって選択された領域に印字された文字列を認識する。認識部135は、活字領域の文字列を認識する。図5の例では、認識部135は文字列「(1)男」を認識する。また、図7の例では、認識部135は文字列「3 納税準備」を認識する。 The recognition unit 135 recognizes the character string printed in the area selected by the selection unit 134. The recognition unit 135 recognizes the character string in the typed area. In the example of FIG. 5, the recognition unit 135 recognizes the character string "(1) Man." In the example of FIG. 7, the recognition unit 135 recognizes the character string "3 Preparation for paying taxes."

認識部135は、辞書情報123を参照して文字認識を行う。さらに、認識部135は、選択文字列情報124に選択肢として含まれる文字列を優先して認識するようにしてもよい。 The recognition unit 135 performs character recognition by referring to the dictionary information 123. Furthermore, the recognition unit 135 may preferentially recognize character strings included as options in the selection character string information 124.

例えば、認識部135が、項目名が「職業」である項目の選択肢の文字列に対して「会社員」と「会仕員」について同等の認識確度(確率)を算出したものとする。 For example, assume that the recognition unit 135 calculates the same recognition accuracy (probability) for the string of options for an item named "occupation" for "company employee" and "company employee."

一方で、図3に示す選択文字列情報124を参照すると、「会社員」は項目名「職業」に対する選択肢に含まれているが、「会仕員」は項目名「職業」に対する選択肢に含まれていない。この場合、認識部135は、当該文字列を「会社員」と認識する。 On the other hand, when referring to the selected character string information 124 shown in FIG. 3, "company employee" is included in the options for the item name "occupation", but "company employee" is not included in the options for the item name "occupation". In this case, the recognition unit 135 recognizes the character string as "company employee".

このように、認識部135は、あらかじめ対応付けられた項目名と選択肢の組み合わせを認識する。 In this way, the recognition unit 135 recognizes combinations of item names and options that are associated in advance.

補正部136は、認識部135によって認識された文字列からあらかじめ指定された文字列を除外する。例えば、補正部136は、「(1)男」から「(1)」を除外する。例えば、補正部136は、項番等のあらかじめ指定された情報を削除する。 The correction unit 136 removes pre-specified character strings from the character strings recognized by the recognition unit 135. For example, the correction unit 136 removes "(1)" from "(1) male." For example, the correction unit 136 deletes pre-specified information such as item numbers.

なお、補正部136による補正機能は、有効及び無効を管理者が任意に切り替えられるものとする。 The correction function of the correction unit 136 can be enabled or disabled at the administrator's discretion.

出力制御部137は、認識部135による認識結果を所定の形式で認識結果を出力する。例えば、出力制御部137は、「性別:男性」のように、項目名と認識した選択肢を組み合わせて出力してもよい。 The output control unit 137 outputs the recognition result by the recognition unit 135 in a predetermined format. For example, the output control unit 137 may output a combination of the item name and the recognized option, such as "Gender: Male."

図8は、認識処理の流れを示すフローチャートである。図8に示すように、まず、認識装置10は、帳票を読み取る(ステップS101)。次に、認識装置10は、帳票上の項目の位置を特定する(ステップS102)。 Figure 8 is a flowchart showing the flow of the recognition process. As shown in Figure 8, first, the recognition device 10 reads the form (step S101). Next, the recognition device 10 identifies the position of the item on the form (step S102).

そして、認識装置10は、手書き領域抽出モデルを用いて、項目周辺の手書き領域を抽出する(ステップS103)。また、認識装置10は、活字領域抽出モデルを用いて、項目周辺の活字領域を抽出する(ステップS104)。 Then, the recognition device 10 uses the handwritten area extraction model to extract the handwritten area around the item (step S103). The recognition device 10 also uses the typed area extraction model to extract the typed area around the item (step S104).

ここで、認識装置10は、手書き領域と対応する活字領域を選択する(ステップS105)。例えば、認識装置10は、活字領域のうち、手書き領域と重なり合う部分の面積が最大である領域を選択する。 Here, the recognition device 10 selects a typed region that corresponds to the handwritten region (step S105). For example, the recognition device 10 selects the typed region that has the largest area of overlap with the handwritten region.

続いて、認識装置10は、選択した活字領域に書かれた文字列を認識(ステップS106)。さらに、認識装置10は、文字列を補正する(ステップS107)。なお、ステップS107は設定により省略されてもよい。そして、認識装置10は、認識した文字列を出力する(ステップS108)。 Then, the recognition device 10 recognizes the character string written in the selected type area (step S106). Furthermore, the recognition device 10 corrects the character string (step S107). Note that step S107 may be omitted depending on the settings. Then, the recognition device 10 outputs the recognized character string (step S108).

上述したように、抽出部133は、帳票から手書きで記入がされた手書き領域を抽出する。抽出部133は、帳票から活字が印字された活字領域を抽出する。選択部134は、活字領域のうち、手書き領域との重複の度合いが所定の条件を満たす領域を選択する。このように、認識装置10は、認識対象の文字列及び図形を事前に指定しておくことなく、手書き領域と活字領域を対応付けて選択することができる。その結果、本実施形態によれば、帳票の選択された文字列の認識を容易かつ汎用的に行うことができる。 As described above, the extraction unit 133 extracts handwritten areas from the form where text has been written by hand. The extraction unit 133 extracts typed areas from the form where type characters are printed. The selection unit 134 selects from the typed areas an area whose degree of overlap with the handwritten area satisfies a predetermined condition. In this way, the recognition device 10 can select handwritten areas and typed areas in association with each other without specifying the character strings and figures to be recognized in advance. As a result, according to this embodiment, it is possible to easily and generally recognize selected character strings on a form.

抽出部133は、手書きの図形の特徴を学習した画像認識モデルを用いて手書き領域を抽出する。このように、画像認識モデルに手書きの特徴を学習させておくことで、不完全な形状の手書き図形等も含めて領域を抽出することが可能になる。 The extraction unit 133 extracts handwritten regions using an image recognition model that has learned the characteristics of handwritten figures. In this way, by having the image recognition model learn the characteristics of handwriting, it becomes possible to extract regions that include handwritten figures with incomplete shapes.

選択部134は、活字領域のうち、手書き領域と重なり合う部分の面積が最大である領域を選択する。これにより、認識装置10は、選択された選択肢を定量的に特定することが可能になる。 The selection unit 134 selects the region of the type that has the largest area of overlap with the handwritten region. This allows the recognition device 10 to quantitatively identify the selected option.

認識部135は、選択部134によって選択された領域に印字された文字列を認識する。補正部136は、認識部135によって認識された文字列からあらかじめ指定された文字列を除外する。これにより、認識装置10は、認識結果から不要な情報を除外し、重要な情報のみを残すことができる。 The recognition unit 135 recognizes the character string printed in the area selected by the selection unit 134. The correction unit 136 removes pre-specified character strings from the character string recognized by the recognition unit 135. This allows the recognition device 10 to remove unnecessary information from the recognition result and leave only important information.

認識部135は、あらかじめ対応付けられた項目名と選択肢の組み合わせを認識する。これにより、認識装置10は、項目の選択肢として意図された文字列を優先的に認識することができる。 The recognition unit 135 recognizes combinations of item names and options that are associated in advance. This allows the recognition device 10 to preferentially recognize character strings intended as options for an item.

上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。また、実施例で説明した具体例、分布、数値等は、あくまで一例であり、任意に変更することができる。 The information, including the processing procedures, control procedures, specific names, various data and parameters shown in the above documents and drawings, may be changed as desired unless otherwise specified. Furthermore, the specific examples, distributions, numerical values, etc. described in the embodiments are merely examples and may be changed as desired.

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。 In addition, each component of each device shown in the figure is a functional concept, and does not necessarily have to be physically configured as shown in the figure. In other words, the specific form of distribution and integration of each device is not limited to that shown in the figure. In other words, all or part of them can be functionally or physically distributed and integrated in any unit depending on various loads, usage conditions, etc. Furthermore, each processing function performed by each device can be realized in whole or in any part by a CPU and a program analyzed and executed by the CPU, or can be realized as hardware using wired logic.

図9は、ハードウェア構成例を説明する図である。図9に示すように、認識装置10は、通信インタフェース10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。また、図9に示した各部は、バス等で相互に接続される。 Figure 9 is a diagram illustrating an example of a hardware configuration. As shown in Figure 9, the recognition device 10 has a communication interface 10a, a HDD (Hard Disk Drive) 10b, a memory 10c, and a processor 10d. In addition, each part shown in Figure 9 is connected to each other via a bus or the like.

通信インタフェース10aは、ネットワークインタフェースカード等であり、他のサーバとの通信を行う。HDD10bは、図2に示した機能を動作させるプログラムやDBを記憶する。 The communication interface 10a is a network interface card or the like, and communicates with other servers. The HDD 10b stores the programs and DBs that operate the functions shown in FIG. 2.

プロセッサ10dは、図2に示した各処理部と同様の処理を実行するプログラムをHDD10b等から読み出してメモリ10cに展開することで、図2等で説明した各機能を実行するプロセスを動作させるハードウェア回路である。すなわち、このプロセスは、認識装置10が有する各処理部と同様の機能を実行する。 The processor 10d is a hardware circuit that operates a process that executes each function described in FIG. 2 and the like by reading a program that executes the same processes as the respective processing units shown in FIG. 2 from the HDD 10b and the like and expanding it in the memory 10c. In other words, this process executes the same functions as the respective processing units of the recognition device 10.

具体的には、プロセッサ10dは、スキャナ制御部131、解析部132、抽出部133、選択部134、認識部135、補正部136及び出力制御部137と同様の機能を有するプログラムをHDD10b等から読み出す。そして、プロセッサ10dは、スキャナ制御部131、解析部132、抽出部133、選択部134、認識部135、補正部136及び出力制御部137等と同様の処理を実行するプロセスを実行する。 Specifically, processor 10d reads out from HDD 10b or the like a program having the same functions as scanner control unit 131, analysis unit 132, extraction unit 133, selection unit 134, recognition unit 135, correction unit 136, and output control unit 137. Then, processor 10d executes a process that executes the same processing as scanner control unit 131, analysis unit 132, extraction unit 133, selection unit 134, recognition unit 135, correction unit 136, and output control unit 137, etc.

このように認識装置10は、プログラムを読み出して実行することで学習類方法を実行する情報処理装置として動作する。また、認識装置10は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、認識装置10によって実行されることに限定されるものではない。例えば、他のコンピュータ又はサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。 In this way, the recognition device 10 operates as an information processing device that executes a learning method by reading and executing a program. The recognition device 10 can also realize functions similar to those of the above-mentioned embodiment by reading the program from a recording medium using a media reading device and executing the read program. Note that the program in these other embodiments is not limited to being executed by the recognition device 10. For example, the present invention can be similarly applied to cases where another computer or server executes a program, or where these cooperate to execute a program.

このプログラムは、インターネット等のネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD-ROM、MO(Magneto-Optical disk)、DVD(Digital Versatile Disc)等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することができる。 This program can be distributed via a network such as the Internet. In addition, this program can be recorded on a computer-readable recording medium such as a hard disk, a flexible disk (FD), a CD-ROM, an MO (Magneto-Optical disk), or a DVD (Digital Versatile Disc), and can be executed by being read from the recording medium by a computer.

10 認識装置
11 IF部
12 記憶部
13 制御部
51、52、53、54、55、56、57、58、59 領域
121 手書き領域抽出モデル情報
122 活字領域抽出モデル情報
123 辞書情報
124 選択文字列情報
131 スキャナ制御部
132 解析部
133 抽出部
134 選択部
135 認識部
136 補正部
137 出力制御部
REFERENCE SIGNS LIST 10 Recognition device 11 IF section 12 Storage section 13 Control section 51, 52, 53, 54, 55, 56, 57, 58, 59 Area 121 Handwritten area extraction model information 122 Printed area extraction model information 123 Dictionary information 124 Selected character string information 131 Scanner control section 132 Analysis section 133 Extraction section 134 Selection section 135 Recognition section 136 Correction section 137 Output control section

Claims (5)

帳票から手書きで記入がされた第1の領域を抽出し、
前記帳票から活字が印字された第2の領域を抽出し、
前記第2の領域のうち、前記第1の領域との重複の度合いが所定の条件を満たす領域を選択し、
前記選択する処理によって選択された領域に印字された文字列であって、あらかじめ項目名と対応付けられた選択肢に含まれる文字列を認識する
処理をコンピュータが実行することを特徴とする認識方法。
Extracting a first area where a handwritten entry is made from the form;
Extracting a second area in which type is printed from the document;
selecting an area from the second area whose degree of overlap with the first area satisfies a predetermined condition ;
Recognizing a character string printed in the area selected by the selection process and included in a choice that is previously associated with an item name
A recognition method characterized in that the processing is executed by a computer.
前記第1の領域を抽出する処理は、手書きの図形の特徴を学習した画像認識モデルを用いて前記第1の領域を抽出することを特徴とする請求項1に記載の認識方法。 The recognition method according to claim 1, characterized in that the process of extracting the first region extracts the first region using an image recognition model that has learned the characteristics of handwritten figures. 前記選択する処理は、前記第2の領域のうち、前記第1の領域と重なり合う部分の面積が最大である領域を選択することを特徴とする請求項1又は2に記載の認識方法。 The recognition method according to claim 1 or 2, characterized in that the selection process selects the second region that has the largest area of overlap with the first region. 記認識する処理によって認識された文字列からあらかじめ指定された文字列を除外する
処理をさらにコンピュータが実行することを特徴とする請求項1から3のいずれか1項に記載の認識方法。
4. The method according to claim 1, further comprising the step of: excluding a character string designated in advance from the character string recognized by the recognition process.
帳票から手書きで記入がされた第1の領域を抽出する手書き領域抽出部と、
前記帳票から活字が印字された第2の領域を抽出する活字領域抽出部と、
前記第2の領域のうち、前記第1の領域との重複の度合いが所定の条件を満たす領域を選択する選択部と、
前記選択部によって選択された領域に印字された文字列であって、あらかじめ項目名と対応付けられた選択肢に含まれる文字列を認識する認識部と、
を有することを特徴とする認識装置。
a handwritten area extraction unit that extracts a first area that is handwritten from a form;
a typed character area extraction unit that extracts a second area in which typed characters are printed from the document;
a selection unit that selects, from the second region, a region whose degree of overlap with the first region satisfies a predetermined condition;
a recognition unit that recognizes a character string printed in the area selected by the selection unit and that is included in an option that is previously associated with an item name;
A recognition device comprising:
JP2021026818A 2021-02-22 2021-02-22 Recognition method and device Active JP7526692B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021026818A JP7526692B2 (en) 2021-02-22 2021-02-22 Recognition method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021026818A JP7526692B2 (en) 2021-02-22 2021-02-22 Recognition method and device

Publications (2)

Publication Number Publication Date
JP2022128348A JP2022128348A (en) 2022-09-01
JP7526692B2 true JP7526692B2 (en) 2024-08-01

Family

ID=83060955

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021026818A Active JP7526692B2 (en) 2021-02-22 2021-02-22 Recognition method and device

Country Status (1)

Country Link
JP (1) JP7526692B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4572482A4 (en) 2022-08-10 2025-12-10 Panasonic Ip Corp America COMMUNICATION DEVICE AND COMMUNICATION METHOD
CN116740733B (en) * 2023-05-22 2026-04-10 常州大学 Method and apparatus for identifying marked menus based on indentation detection
JP7821448B2 (en) * 2024-06-03 2026-02-27 AI inside株式会社 Program, method, information processing device, and system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007058485A (en) 2005-08-24 2007-03-08 Fuji Xerox Co Ltd Image recognition apparatus, image recognition method, and image recognition program
JP2011076390A (en) 2009-09-30 2011-04-14 Fujitsu Frontech Ltd Device, method and program for recognizing mark item

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007058485A (en) 2005-08-24 2007-03-08 Fuji Xerox Co Ltd Image recognition apparatus, image recognition method, and image recognition program
JP2011076390A (en) 2009-09-30 2011-04-14 Fujitsu Frontech Ltd Device, method and program for recognizing mark item

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Oleksii Gorokhovatskyi et al,Neocognitron as a tool for optical marks recognition,2016 IEEE First International Conference on Data Stream Mining & Processing (DSMP),2016年08月27日,https://ieeexplore.ieee.org/document/7583533

Also Published As

Publication number Publication date
JP2022128348A (en) 2022-09-01

Similar Documents

Publication Publication Date Title
US11188713B2 (en) Extracting structured information from a document containing filled form images
JP7526692B2 (en) Recognition method and device
CN108229463A (en) Character recognition method based on image
US20210357674A1 (en) Image processing system, image processing method, and storage medium each for obtaining pixels of object using neural network
JP2020184109A (en) Learning model generation device, character recognition device, learning model generation method, character recognition method, and program
JP7074170B2 (en) Scoring support device, scoring support system, scoring support method and scoring support program
US12014561B2 (en) Image reading systems, methods and storage medium for performing geometric extraction
WO2022145343A1 (en) Architecture for digitalizing documents using multi-model deep learning, and document image processing program
CN101326518B (en) Method and apparatus for handwriting recognition of ink notes
Sueiras Continuous offline handwriting recognition using deep learning models
US20060285748A1 (en) Document processing device
Choudhary et al. A neural approach to cursive handwritten character recognition using features extracted from binarization technique
US12111887B2 (en) Digital pen writer verification device
US11100356B2 (en) Information processing apparatus and non-transitory computer readable medium storing program
Magotra et al. A Comparative analysis for identification and classification of text segmentation challenges in Takri Script
JP2024003769A (en) Character recognition systems, computer recognition methods, and character search systems
Perez et al. Recognition of Japanese handwritten characters with Machine learning techniques
KR102136999B1 (en) Unrecogized character reading system and authentication method using the same
KR102673900B1 (en) Table data extraction system and the method of thereof
Sanjrani et al. Multilingual OCR systems for the regional languages in Balochistan
Punia Recognition of Handwritten Character using Recognition Model based on SVM
Tomás Pérez Recognition of Japanese handwritten characters with Machine learning techniques
Nancy Deborah et al. Efficient Information Retrieval: AWS Textract in Action
Philip et al. A novel bilingual OCR system based on column-stochastic features and SVM classifier for the specially enabled
KR20250158962A (en) Apparatus and method for generating document images used in machine-learning of text detection and recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230313

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240405

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240716

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240722

R150 Certificate of patent or registration of utility model

Ref document number: 7526692

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350