JP7761130B2 - Character recognition system, character recognition method, and character recognition program - Google Patents
Character recognition system, character recognition method, and character recognition programInfo
- Publication number
- JP7761130B2 JP7761130B2 JP2024508871A JP2024508871A JP7761130B2 JP 7761130 B2 JP7761130 B2 JP 7761130B2 JP 2024508871 A JP2024508871 A JP 2024508871A JP 2024508871 A JP2024508871 A JP 2024508871A JP 7761130 B2 JP7761130 B2 JP 7761130B2
- Authority
- JP
- Japan
- Prior art keywords
- preprint
- image
- characters written
- recognition
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/192—Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
- G06V30/194—References adjustable by an adaptive method, e.g. learning
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
Description
本発明は、文字認識システム等に関する。 The present invention relates to a character recognition system, etc.
帳票に記載された手書きの文字をスキャナーで画像として読み取り、画像中の文字を認識することでテキストデータに変換するOCR(Optical Character Recognition)が広く用いられている。OCRによる文字の認識は、例えば、機械学習によって生成された学習モデルを用いて、帳票のプレプリント上に記載された文字を認識することによって行われる。しかし、同一の文字が記載されている場合でも、帳票のプレプリント上に記載された文字の形状、およびプレプリント上において文字が記載される位置は、文字を記載する人物によって多様である。また、プレプリント上に記載された文字を読み取った画像では、画像中にプレプリントと、文字が混在する。よって、帳票上の手書きの文字を認識する学習モデルは、多様な形状で記載され、記載されている位置も多様なプレプリント上に記載されている文字を、プレプリントと、文字が混在して写っている画像から正確に認識できることが要求され得る。このため、帳票のプレプリント上の文字を正確に認識できる技術があることが望ましい。Optical Character Recognition (OCR) is widely used. OCR scans handwritten characters written on forms as images and converts them into text data by recognizing the characters in the image. Character recognition using OCR is performed, for example, by recognizing characters written on preprinted forms using a learning model generated by machine learning. However, even when the same characters are written, the shape of the characters written on preprinted forms and the position of the characters on the preprint vary depending on the person who wrote the characters. Furthermore, images obtained by scanning characters written on preprinted forms contain a mixture of preprinted and unprinted characters. Therefore, a learning model for recognizing handwritten characters on forms may be required to accurately recognize characters written on preprinted forms, which come in a variety of shapes and positions, from images that contain a mixture of preprinted and unprinted characters. Therefore, a technology capable of accurately recognizing characters on preprinted forms is desirable.
特許文献1の画像処理システムは、プレプリントの枠内に記載された手書きの文字の抽出を、学習モデルを用いて行う。特許文献1の画像処理システムは、プレプリントの枠内に記載された手書きの文字を写した画像から、プレプリントの枠を画像処理によって消去することで、手書きの文字を抽出する。The image processing system in Patent Document 1 uses a learning model to extract handwritten characters written within a preprint frame. The image processing system in Patent Document 1 extracts handwritten characters by erasing the preprint frame from an image of the handwritten characters written within the preprint frame using image processing.
特許文献1の情報処理装置では、プレプリント上に記載された文字の正確な認識が難しい場合がある。 The information processing device in Patent Document 1 may have difficulty accurately recognizing characters written on a preprint.
上記の課題を解決するため、本発明は、プレプリント上に記載された文字の認識精度を向上することができる文字認識システム等を提供することを主たる目的とする。 In order to solve the above problems, the main objective of the present invention is to provide a character recognition system, etc. that can improve the recognition accuracy of characters written on preprints.
上記の課題を解決するため、本発明の文字認識システムは、プレプリントを含む帳票のプレプリント上に記載された文字を写した画像を取得する取得手段と、プレプリント上に記載された文字を写した画像と、プレプリントを写したプレプリント画像とからプレプリント上に記載された文字を認識する認識モデルを用いて、取得した画像と、プレプリント画像とから、取得した画像のプレプリント上に記載された文字を認識する認識手段と、認識の結果を出力する出力手段とを備える。 To solve the above problem, the character recognition system of the present invention comprises an acquisition means for acquiring an image of characters written on a preprint of a document including the preprint, a recognition means for recognizing characters written on the preprint of the acquired image from the acquired image and the preprint image using a recognition model that recognizes characters written on the preprint from the image of the characters written on the preprint and the preprint image of the preprint, and an output means for outputting the recognition results.
本発明の文字認識方法は、プレプリントを含む帳票のプレプリント上に記載された文字を写した画像を取得し、プレプリント上に記載された文字を写した画像と、プレプリントを写したプレプリント画像とからプレプリント上に記載された文字を認識する認識モデルを用いて、取得した画像と、プレプリント画像とから、取得した画像のプレプリント上に記載された文字を認識し、認識の結果を出力する。 The character recognition method of the present invention acquires an image of characters written on a preprint of a document including the preprint, and uses a recognition model that recognizes characters written on the preprint from the image of the characters written on the preprint and a preprint image of the preprint, recognizes the characters written on the preprint in the acquired image from the acquired image and the preprint image, and outputs the recognition results.
本発明の記録媒体は、プレプリントを含む帳票のプレプリント上に記載された文字がを写した画像を取得する処理と、プレプリント上に記載された文字を写した画像と、プレプリントを写したプレプリント画像とからプレプリント上に記載された文字を認識する認識モデルを用いて、取得した画像と、プレプリント画像とから、取得した画像のプレプリント上に記載された文字を認識する処理と、認識の結果を出力する処理とをコンピュータに実行させる文字認識プログラムを非一時的に記録する。 The recording medium of the present invention non-temporarily records a character recognition program that causes a computer to execute the following processes: acquiring an image of characters written on a preprint of a document including the preprint; recognizing characters written on the preprint of the acquired image from the acquired image and the preprint image using a recognition model that recognizes characters written on the preprint from the image of the characters written on the preprint and the preprint image of the preprint; and outputting the recognition results.
本発明によると、プレプリント上に記載された文字の認識精度を向上することができる。 This invention makes it possible to improve the recognition accuracy of characters written on preprints.
(第1の実施形態)
本発明の第1の実施形態について、図を参照して詳細に説明する。図1は、本実施形態の帳票処理システムの構成の例を示す図である。帳票処理システムは、一例として、文字認識システム10と、スキャナー20と、情報処理サーバ30を備える。文字認識システム10は、例えば、ネットワークを介して、スキャナー20と接続する。また、文字認識システム10は、ネットワークを介して、情報処理サーバ30と接続する。スキャナー20および情報処理サーバ30は、複数であってもよい。スキャナー20および情報処理サーバ30の数は、特に限定されない。
(First embodiment)
A first embodiment of the present invention will be described in detail with reference to the drawings. FIG. 1 is a diagram showing an example of the configuration of a form processing system according to this embodiment. The form processing system includes, as an example, a character recognition system 10, a scanner 20, and an information processing server 30. The character recognition system 10 is connected to the scanner 20 via a network, for example. The character recognition system 10 is also connected to the information processing server 30 via the network. There may be a plurality of scanners 20 and information processing servers 30. The number of scanners 20 and information processing servers 30 is not particularly limited.
文字認識システム10は、例えば、スキャナー20が帳票を読み取った画像を取得する。帳票の用紙には、文字を記載するプレプリントが印刷されている。プレプリントは、例えば、帳票上において、文字を記載する位置を示す枠または線である。文字認識システム10は、例えば、プレプリント上に記載された手書きで文字が書かれた画像を取得する。プレプリント上に記載された文字は、印刷によるものであってもよい。プレプリント上に記載された文字は、上記の例に限られない。 The character recognition system 10 acquires, for example, an image of a form scanned by the scanner 20. A preprint on which characters are written is printed on the form paper. The preprint is, for example, a frame or line on the form that indicates the position where characters are to be written. The character recognition system 10 acquires, for example, an image of handwritten characters written on the preprint. The characters written on the preprint may be printed. The characters written on the preprint are not limited to the above examples.
文字認識システム10は、認識モデルを用いて、スキャナー20から取得したプレプリント上に記載された文字を写した画像と、プレプリントを写したプレプリント画像とから、プレプリント上に記載された文字を認識する。認識モデルは、プレプリント上に記載された文字を写した画像と、プレプリント画像から、プレプリント上に記載された文字を認識する学習モデルである。文字認識システム10は、例えば、情報処理サーバ30に、プレプリント上に記載された文字の認識結果を出力する。情報処理サーバ30は、プレプリント上に記載された文字の認識結果の用途に応じた処理を行うサーバである。 The character recognition system 10 uses a recognition model to recognize characters written on a preprint from an image of the characters written on the preprint acquired from the scanner 20 and a preprint image of the preprint. The recognition model is a learning model that recognizes characters written on the preprint from an image of the characters written on the preprint and the preprint image. The character recognition system 10 outputs the recognition results of the characters written on the preprint to, for example, the information processing server 30. The information processing server 30 is a server that performs processing according to the purpose of the recognition results of the characters written on the preprint.
文字認識システム10は、認識対象となるプレプリント上に記載された文字が写った画像に加え、プレプリント画像をさらに用いて、プレプリント上に記載された文字を認識することで、文字の認識にプレプリントが与える影響を抑制することができる。 The character recognition system 10 uses the preprint image in addition to the image of the characters written on the preprint to be recognized to recognize the characters written on the preprint, thereby reducing the impact of the preprint on character recognition.
図2は、帳票の例を示す図である。図2の帳票の例では、上部に帳票の名称が「払込票」として記載されている。図2の帳票の例は、例えば、金融機関の口座に入金する際に金融機関に提出する書類である。図2の帳票の例では、「口座番号」と、「金額」の記入欄が設定されている。図2の帳票の例では、「口座番号」と、「金額」の記入欄における数字を記入する枠がプレプリントである。 Figure 2 is a diagram showing an example of a form. In the example of the form in Figure 2, the name of the form is written at the top as "Payment Slip." The example of the form in Figure 2 is, for example, a document that is submitted to a financial institution when depositing money into an account at the financial institution. In the example of the form in Figure 2, entry fields for "Account Number" and "Amount" are set. In the example of the form in Figure 2, the boxes for entering numbers in the "Account Number" and "Amount" entry fields are preprinted.
プレプリント上に記載された文字は、例えば、プレプリントの枠内に記載された文字である。プレプリント上に記載された文字は、プレプリントの枠内と重なるように記載されていてもよい。プレプリント上に文字が記載された画像は、プレプリントとプレプリント上に記載された文字の両方が含まれる画像である。また、プレプリント画像は、文字が書かれていないプレプリントのみを写した画像である。図2の帳票の例では、プレプリント上に数字が記載されているが、プレプリント上に記載される文字は、数字に限られない。また、プレプリント上に記載される文字は、記号を含んでいてもよい。 The characters written on the preprint are, for example, the characters written within the frame of the preprint. The characters written on the preprint may be written so that they overlap the frame of the preprint. An image with characters written on the preprint is an image that includes both the preprint and the characters written on the preprint. A preprint image is an image that shows only the preprint with no characters written on it. In the example form in Figure 2, numbers are written on the preprint, but the characters written on the preprint are not limited to numbers. The characters written on the preprint may also include symbols.
図3は、プレプリント上に記載された文字を写した画像の例を示す図である。図3は、図2の帳票の例において、「口座番号」の記入欄を抽出した画像である。また、図4は、図2の帳票の例における、「口座番号」の記入欄のプレプリント画像である。図3のプレプリント上に記載された文字を写した画像の例では、図4に示すプレプリント上に、手書きで「01778543」の文字が記載されている。 Figure 3 is a diagram showing an example of an image in which characters written on a preprint have been copied. Figure 3 is an image in which the "Account Number" entry field has been extracted from the example form in Figure 2. Figure 4 is a preprint image of the "Account Number" entry field in the example form in Figure 2. In the example of an image in which characters written on a preprint in Figure 3 have been copied, the characters "01778543" have been handwritten on the preprint shown in Figure 4.
プレプリントのみの画像は、プレプリントとしての文字が含まれていてもよい。プレプリントとしての文字は、例えば、金額の桁を示す文字、項目を示す文字または単位を示す文字である。プレプリントとしての文字は、プレプリントとして用紙に印刷されているものであれば、上記に限られない。 Images that are preprinted only may contain preprinted characters. Preprinted characters may be, for example, characters indicating monetary digits, characters indicating items, or characters indicating units. Preprinted characters are not limited to the above, as long as they are printed on paper as preprints.
図5は、プレプリント上に記載された文字を写した画像の例を示す図である。図5は、図2の帳票の例において、「金額」の記入欄を抽出した画像である。また、図6は、図2の帳票の例における。「金額」の記入欄のプレプリント画像である。図6のプレプリント画像の例では、右側の枠内の下部に金額の単位を示す「円」がプレプリントの一部として印刷されている。図5のプレプリント上に記載された文字を写した画像の例では、図6に示すプレプリント上に、手書きで「40000」の文字が記載されている。 Figure 5 is a diagram showing an example of an image in which characters written on a preprint have been copied. Figure 5 is an image in which the "Amount" entry field has been extracted from the example form in Figure 2. Figure 6 is a preprint image of the "Amount" entry field in the example form in Figure 2. In the example preprint image in Figure 6, "yen" indicating the unit of amount is printed as part of the preprint at the bottom of the right-hand frame. In the example image in which characters written on a preprint in Figure 5 have been copied, the characters "40000" have been handwritten on the preprint shown in Figure 6.
帳票は、例えば、金融機関、官公庁、教育機関、病院、交通機関または企業において、手続きに用いる書類である。また、帳票は、管理対象の物品に張り付けられた書類であってもよい。帳票の例は、上記に限られない。プレプリントは、例えば、帳票上において、日付、氏名、所属、住所、電話番号、メールアドレス、年齢、性別、職業または金額を記入する位置を示す。プレプリントは、例えば、記入する項目と、文字を記入する枠によって構成される。1つの項目において複数の文字が記入される場合において、プレプリントは、複数の枠が連なったものであってもよい。また、1つの帳票に複数の項目についてのプレプリントが印刷されていてもよい。文字認識システム10は、例えば、プレプリントが複数の枠が連なった記入欄として用紙に印刷されている場合に、認識した文字を枠の順番に従った文字列のデータとして出力する。 Forms are documents used for procedures at, for example, financial institutions, government agencies, educational institutions, hospitals, transportation facilities, or companies. Forms may also be documents attached to managed items. Examples of forms are not limited to the above. A preprint indicates, for example, the location on a form where the date, name, affiliation, address, telephone number, email address, age, gender, occupation, or amount should be entered. A preprint is composed of, for example, fields to be filled in and boxes into which characters should be entered. When multiple characters are entered in one field, the preprint may be a series of multiple boxes. Also, preprints for multiple fields may be printed on a single form. For example, when a preprint is printed on paper as a fill-in field consisting of multiple boxes, the character recognition system 10 outputs the recognized characters as string data in the order of the boxes.
文字認識システム10の構成について説明する。図7は、文字認識システム10の構成の例を示す図である。文字認識システム10は、取得部11と、認識部13と、出力部14とを基本構成として備える。また、文字認識システム10は、さらに、画像抽出部12と、生成部15と、記憶部16を備える。取得部11と、画像抽出部12と、認識部13と、出力部14と、記憶部16は、例えば、プレプリント上に記載された文字を写した画像から、プレプリント上に記載された文字を認識する。また、取得部11と、生成部15と、記憶部16は、例えば、認識モデルを生成する。 The configuration of the character recognition system 10 will be described. Figure 7 is a diagram showing an example of the configuration of the character recognition system 10. The character recognition system 10 basically comprises an acquisition unit 11, a recognition unit 13, and an output unit 14. The character recognition system 10 further comprises an image extraction unit 12, a generation unit 15, and a memory unit 16. The acquisition unit 11, image extraction unit 12, recognition unit 13, output unit 14, and memory unit 16 recognize characters written on a preprint, for example, from an image of the characters written on the preprint. The acquisition unit 11, generation unit 15, and memory unit 16 also generate, for example, a recognition model.
取得部11は、プレプリント上に記載された文字を写した画像を取得する。取得部11は、例えば、スキャナー20から、プレプリント上に文字が記載された帳票を写した画像を取得する。取得部11は、プレプリント上に文字の記載された部分が帳票から抽出済みの画像を取得してもよい。プレプリント上に文字の記載された部分の画像は、例えば、図3および図5の例に示す画像である。プレプリント画像を帳票から抽出する場合に、取得部11は、プレプリント上に文字が記載されていない状態の帳票の画像を取得してもよい。取得部11は、例えば、スキャナー20から、プレプリント上に文字が記載されていない状態の帳票の画像を取得する。 The acquisition unit 11 acquires an image of the characters written on the preprint. The acquisition unit 11 acquires, for example, from the scanner 20, an image of a form with characters written on the preprint. The acquisition unit 11 may also acquire an image in which the portion of the form with characters written on the preprint has been extracted. The image of the portion of the preprint with characters written is, for example, the image shown in the examples of Figures 3 and 5. When extracting a preprint image from a form, the acquisition unit 11 may also acquire an image of the form in which no characters are written on the preprint. The acquisition unit 11 acquires, for example, from the scanner 20, an image of the form in which no characters are written on the preprint.
文字認識システム10が認識モデルを生成する場合に、取得部11は、認識モデルの生成に用いる学習データを取得してもよい。生成部15は、例えば、プレプリント上に記載された文字を写した画像、およびプレプリント画像と、プレプリント上に記載されている文字とを関連付けたデータを学習データとして取得する。学習データは、例えば、作業者の操作によって文字認識システム10、または文字認識システム10と接続している他の端末装置に入力される。 When the character recognition system 10 generates a recognition model, the acquisition unit 11 may acquire training data to be used in generating the recognition model. The generation unit 15 acquires, for example, an image of characters written on a preprint and data associating the preprint image with the characters written on the preprint as training data. The training data is input, for example, by an operator's operation, into the character recognition system 10 or another terminal device connected to the character recognition system 10.
画像抽出部12は、取得部11が取得する、プレプリント上に記載された文字を写した画像に対応するプレプリント画像を抽出する。画像抽出部12は、例えば、記憶部16に保存された帳票データから、プレプリント画像を抽出する。帳票データには、例えば、帳票の画像と、定義データが含まれる。定義データは、例えば、帳票に記載される項目と、記載される項目に対応するプレプリントの帳票上における位置の情報が含まれる。プレプリントの位置の情報、例えば、帳票上において、プレプリントが印刷されている範囲を示す情報である。まtが、記載される項目は、例えば、名前、郵便番号、住所、電話番号、年齢、個人識別番号、口座番号、金額、および日付のうち1つ以上である。記載される項目は、上記の例に限られない。 The image extraction unit 12 extracts a preprint image corresponding to an image of the characters written on the preprint acquired by the acquisition unit 11. The image extraction unit 12 extracts the preprint image from, for example, form data stored in the memory unit 16. The form data includes, for example, an image of the form and definition data. The definition data includes, for example, information about the items to be written on the form and the position on the form of the preprint corresponding to the items to be written. Information about the position of the preprint is, for example, information indicating the area on the form where the preprint is printed. The items to be written are, for example, one or more of name, postal code, address, telephone number, age, personal identification number, account number, amount, and date. The items to be written are not limited to the above examples.
画像抽出部12は、例えば、定義データに含まれるプレプリントの位置の情報を基に、帳票上におけるプレプリントの位置を特定する。そして、画像抽出部12は、記憶部16に保存された画像から、特定したプレプリントの位置の画像を切り出すことでプレプリント画像を抽出する。画像抽出部12は、取得部11が取得する、プレプリント上に文字が記載されていない状態の帳票の画像から、プレプリント画像を抽出してもよい。 The image extraction unit 12 identifies the position of the preprint on the form, for example, based on information about the preprint position included in the definition data. The image extraction unit 12 then extracts the preprint image by cutting out the image at the identified preprint position from the image stored in the memory unit 16. The image extraction unit 12 may also extract the preprint image from an image of the form acquired by the acquisition unit 11 in which no text is written on the preprint.
認識部13は、認識モデルを用いて、取得部11が取得したプレプリント上に記載された文字を写した画像と、プレプリント画像から、画像中の文字を認識する。認識モデルは、プレプリント上に記載された文字を写した画像と、プレプリント画像からプレプリント上に記載された文字を認識する学習モデルである。認識部13は、例えば、取得部11が取得した、プレプリント上に記載された文字を写した画像と、プレプリント画像とを認識モデルに入力する。そして、認識部13は、認識モデルを用いて、プレプリント上に記載された文字を認識する。認識部13は、あらかじめ抽出されているプレプリント画像を用いて、プレプリント上に記載された文字を認識してもよい。また、認識部13は、あらかじめプレプリント部分の画像として生成されたプレプリント画像を用いて、プレプリント上に記載された文字を認識してもよい。認識部13は、例えば、記憶部16に保存されているプレプリント画像を用いて、プレプリント上に記載された文字を認識する。The recognition unit 13 uses a recognition model to recognize characters in an image of characters written on a preprint acquired by the acquisition unit 11 from the preprint image. The recognition model is a learning model that recognizes characters written on a preprint from an image of characters written on a preprint and the preprint image. For example, the recognition unit 13 inputs the image of characters written on a preprint acquired by the acquisition unit 11 and the preprint image into the recognition model. The recognition unit 13 then recognizes characters written on the preprint using the recognition model. The recognition unit 13 may recognize characters written on a preprint using a preprint image that has been extracted in advance. The recognition unit 13 may also recognize characters written on a preprint using a preprint image that has been generated in advance as an image of the preprint portion. The recognition unit 13 recognizes characters written on a preprint using, for example, a preprint image stored in the memory unit 16.
認識部13は、例えば、定義データに含まれるプレプリントの位置の情報を基に、プレプリントの位置を特定することによって、プレプリント上に記載された文字が写った画像を抽出する。そして、認識部13は、認識モデルを用いて、抽出したプレプリント上に記載された文字が写った画像と、画像抽出部12が抽出したプレプリント画像から、プレプリント上に記載された文字を認識する。The recognition unit 13 extracts an image showing the characters written on the preprint by identifying the position of the preprint, for example, based on information about the position of the preprint included in the definition data. Then, using a recognition model, the recognition unit 13 recognizes the characters written on the preprint from the extracted image showing the characters written on the preprint and the preprint image extracted by the image extraction unit 12.
認識部13は、例えば、認識モデルに、プレプリント上に記載された文字を写した画像と、プレプリント画像とを1つのデータに結合しデータを入力する。プレプリント上に記載された文字を写した画像と、プレプリント画像を結合するとは、2つの画像を重ね合わせた画像データを生成することをいう。プレプリント上に文字が記載された画像と、プレプリント画像がそれぞれ、1画素あたりRGBの3チャンネルの画像である場合に、認識部13は、例えば、2つの画像のデータを結合して、1画素あたり6チャンネルの画像データとする。そして、認識部13は、認識モデルに、結合した6チャンネルの画像データを入力する。 The recognition unit 13, for example, combines an image of characters written on a preprint with the preprint image to create a single piece of data and inputs the data into the recognition model. Combining an image of characters written on a preprint with the preprint image means generating image data by overlaying the two images. If the image of characters written on a preprint and the preprint image each have three channels (RGB) per pixel, the recognition unit 13, for example, combines the data of the two images to create image data with six channels per pixel. The recognition unit 13 then inputs the combined six-channel image data into the recognition model.
認識部13は、例えば、プレプリント上に記載された文字が写った画像と、プレプリント画像をあらかじめ設定された条件に基づいて結合する。認識部13は、例えば、同一のサイズで抽出されたプレプリント上に記載された文字が写った画像と、プレプリント画像の外周部を基準に、プレプリント上に文字に記載された文字が写った画像と、プレプリント画像を重ね合わせることで2つの画像を結合する。認識部13は、例えば、2つの画像を重ね合わせた際に、対応する画素どうしの画像データを結合する。そして、認識部13は、結合したデータを認識モデルに入力し、プレプリント上に記載された文字を認識する。 The recognition unit 13, for example, combines an image of characters written on a preprint with a preprint image based on preset conditions. For example, the recognition unit 13 combines two images by overlaying an image of characters written on a preprint extracted at the same size with an image of characters written on a preprint and a preprint image based on the outer periphery of the preprint image. For example, when the two images are overlaid, the recognition unit 13 combines image data of corresponding pixels. Then, the recognition unit 13 inputs the combined data into a recognition model to recognize the characters written on the preprint.
認識部13は、帳票を写した画像において、プレプリント上に記載された文字以外の文字の認識を行ってもよい。認識部13は、例えば、取得部11が取得した帳票の画像から、帳票の種類を特定してもよい。そして、認識部13は、特定した帳票の種類に対応する帳票データに含まれる定義データを基に、プレプリントの位置を特定することによって、プレプリント上に記載された文字を認識する。認識部13は、例えば、帳票の画像において、帳票に印刷されている帳票の名称または帳票番号を認識することによって、帳票の種類を特定する。帳票に印刷されている帳票の名称または帳票番号と、帳票の種類の関係は、あらかじめ設定されている。また、認識部13が用いる認識モデルは、文字認識システム10の外部で生成された学習モデルであってもよい。The recognition unit 13 may recognize characters other than those written on the preprint in an image of the form. The recognition unit 13 may, for example, identify the type of form from the image of the form acquired by the acquisition unit 11. The recognition unit 13 then identifies the position of the preprint based on definition data included in the form data corresponding to the identified type of form, thereby recognizing the characters written on the preprint. The recognition unit 13 may, for example, identify the type of form by recognizing the form name or form number printed on the form in the image of the form. The relationship between the form name or form number printed on the form and the form type is preset. The recognition model used by the recognition unit 13 may also be a learning model generated outside the character recognition system 10.
図8は、プレプリント上に記載された文字を写した画像の例を示す図である。図8は、図3の画像の例とプレプリントの態様が異なる。図8の画像の例のプレプリントは、例えば、図3の画像の例とプレプリントと線の太さおよび種類が異なる。図9は、図8の画像の例におけるプレプリント画像である。図8のプレプリント上に記載された文字を写した画像の例では、図9に示すプレプリント上に、手書きで「13758047」の文字が記載されている。認識モデルは、図8の画像の例と、図9の画像の例とを入力とした場合に、「13758047」を認識結果として出力する。認識モデルは、例えば、図4の画像の例のプレプリントを学習データとして用いて生成された学習モデルであっても、図9の画像の例のプレプリント上に記載された文字を認識することができる。すなわち、プレプリント上に記載された文字が写った画像と、プレプリント画像を入力とすることで、認識モデルは、学習を行っていないプレプリント上に記載された文字を認識することができる。 Figure 8 is a diagram showing an example image of characters written on a preprint. The preprint in Figure 8 differs from the example image in Figure 3 in terms of the preprint configuration. The preprint in the example image in Figure 8 differs, for example, from the example image in Figure 3 in terms of line thickness and type. Figure 9 is a preprint image for the example image in Figure 8. In the example image of characters written on a preprint in Figure 8, the characters "13758047" are handwritten on the preprint shown in Figure 9. When the example image in Figure 8 and the example image in Figure 9 are input, a recognition model outputs "13758047" as the recognition result. Even a recognition model generated using, for example, the preprint in the example image in Figure 4 as training data can recognize characters written on the preprint in the example image in Figure 9. In other words, by inputting an image of characters written on a preprint and a preprint image, the recognition model can recognize characters written on an untrained preprint.
図10は、プレプリント上に、西暦表記における年を記載した文字を写した画像の例を示す図である。図10の画像の例では、プレプリントとして、「西暦」と、「年」の文字がプレプリントの枠内にあらかじめ印刷されている。図10の画像の例では、プレプリント画像上に、手書きで「2022」の文字が記載されている。また、図11は、図10の画像の例におけるプレプリント画像である。認識モデルは、図10の画像の例と、図11の画像の例とを入力とした場合に、「2022」を認識結果として出力する。 Figure 10 is a diagram showing an example of an image in which characters indicating a year in the Gregorian calendar are copied onto a preprint. In the example image of Figure 10, the characters "Gregorian calendar" and "year" are pre-printed within the preprint frame. In the example image of Figure 10, the characters "2022" are handwritten on the preprint image. Figure 11 is a preprint image of the example image of Figure 10. When the example image of Figure 10 and the example image of Figure 11 are input, the recognition model outputs "2022" as the recognition result.
図12は、図10の画像の例において、西暦表記での年を示す上位の2桁の「20」がプレプリントとしてあらかじめ印刷されている画像の例を示す。すなわち、図12の画像の例では、プレプリントとして「西暦」、「20」および「年」があらかじめ印刷されている。図12の画像の例では、プレプリント上に、「2022」のうち、「22」が手書きで記載されている。また、図13は、図12の画像の例におけるプレプリント画像である。認識モデルは、図12の画像の例と、図13の画像の例とを入力とした場合に、「22」を認識結果として出力する。認識モデルは、例えば、図11および図13の画像の例のプレプリントを学習データとして用いていない学習モデルであっても、入力された画像から、プレプリント上に記載された画像を認識することができる。このように、認識モデルは、プレプリント上に記載された文字が写った画像と、プレプリント画像を入力とすることで、様々な態様のプレプリント上に記載された文字を認識することができる。また、上記の例では、線の太さ、線の種類およびあらかじめ印刷された文字が異なるプレプリントの例を示したが、認識モデルは、枠の形状および色が異なるプレプリントの場合においても、すべての態様のプレプリントを学習データとして用いて学習していなくても同様に認識を行うことができる。 Figure 12 shows an example of an image similar to the example image of Figure 10, in which the first two digits, "20," indicating the year in the Gregorian calendar are preprinted. That is, in the example image of Figure 12, the "year," "20," and "year" are preprinted as preprints. In the example image of Figure 12, the "22" of "2022" is handwritten on the preprint. Figure 13 shows a preprint image of the example image of Figure 12. When the example image of Figure 12 and the example image of Figure 13 are input, the recognition model outputs "22" as the recognition result. Even a learning model that does not use the preprints of the example images of Figures 11 and 13 as training data can recognize the image written on the preprint from the input image. In this way, the recognition model can recognize characters written on various types of preprints by inputting an image containing characters written on the preprint and the preprint image. Furthermore, in the above example, examples of preprints with different line thicknesses, line types, and preprinted characters were shown, but the recognition model can also perform recognition in the case of preprints with different frame shapes and colors, even if it is not trained using all types of preprints as training data.
出力部14は、認識部13による認識結果を出力する。出力部14は、例えば、情報処理サーバ30に、認識部13が認識した文字を出力する。出力部14は、例えば、プレプリントに対応する項目と、認識した文字を関連付けて出力する。認識の対象が図3の画像の例に示すような口座番号の場合に、出力部14は、例えば、口座番号であることを示す情報と、認識した文字列を関連付けて出力する。出力部14は、文字認識システム10に接続されている図示しない表示装置に、認識結果を出力してもよい。 The output unit 14 outputs the recognition results obtained by the recognition unit 13. The output unit 14 outputs the characters recognized by the recognition unit 13 to, for example, the information processing server 30. The output unit 14 outputs, for example, the items corresponding to the preprint and the recognized characters in association with each other. When the target of recognition is an account number as shown in the example image of Figure 3, the output unit 14 outputs, for example, information indicating that it is an account number in association with the recognized character string. The output unit 14 may output the recognition results to a display device (not shown) connected to the character recognition system 10.
文字認識システム10において認識モデルを生成する場合に、生成部15は、認識モデルの生成に関する処理を行う。生成部15は、プレプリント上に記載された文字を写した画像、およびプレプリント画像と、プレプリント上に記載されている文字との関係を学習する。そして、生成部15は、プレプリント上に記載された文字が写った画像と、プレプリント画像とから、画像中の文字を認識する認識モデルを生成する。 When generating a recognition model in the character recognition system 10, the generation unit 15 performs processing related to the generation of the recognition model. The generation unit 15 learns images of characters written on a preprint, and the relationship between the preprint image and the characters written on the preprint. The generation unit 15 then generates a recognition model that recognizes characters in an image from the image of the characters written on the preprint and the preprint image.
生成部15は、例えば、プレプリント上に記載された文字が写った画像と、プレプリント画像を結合したデータと、プレプリント上に記載されている文字との関係を学習することで認識モデルを生成する。プレプリント上に記載された文字が写った画像と、プレプリント画像がそれぞれ、1画素あたりRGBの3チャンネルの画像である場合に、生成部15は、2つの画像のデータを結合して、1画素あたり6チャンネルの画像データとする。そして、生成部15は、結合した6チャンネルの画像データと、プレプリント上に記載されている文字との関係を学習することで認識モデルを生成する。 The generation unit 15 generates a recognition model by learning the relationship between, for example, an image showing characters written on a preprint, data obtained by combining the preprint image, and the characters written on the preprint. If the image showing characters written on a preprint and the preprint image each have three channels (RGB) per pixel, the generation unit 15 combines the data of the two images to create image data with six channels per pixel. The generation unit 15 then generates a recognition model by learning the relationship between the combined six-channel image data and the characters written on the preprint.
生成部15が学習データとして用いる、プレプリント上に記載された文字が写った画像と、プレプリント画像に含まれるプレプリントは、実際に用いるプレプリントの画像でなくてもよい。認識モデルを生成する際に、生成部15は、ランダムな形状の図形をプレプリントとして用いて、学習を行ってもよい。ランダムな形状の図形をプレプリントとして用いる場合に、生成部15は、例えば、ランダムな形状の図形の上に書かれた文字が写った画像と、上に文字が書かれた図形と同一の図形の画像とを学習データとして用いて認識モデルを生成する。 The image of the characters written on the preprint and the preprint included in the preprint image that the generation unit 15 uses as training data do not have to be the actual preprint image used. When generating a recognition model, the generation unit 15 may perform training using a randomly shaped figure as the preprint. When a randomly shaped figure is used as the preprint, the generation unit 15 generates a recognition model using, for example, an image of the characters written on the randomly shaped figure and an image of the same figure as the figure with the characters written on top as training data.
生成部15は、例えば、DNN(Deep Neural Network)を用いたディープラーニングによって認識モデルを生成する。認識モデルを生成する機械学習アルゴリズムは、DNNを用いたディープラーニングに限られない。 The generation unit 15 generates a recognition model by deep learning using, for example, a DNN (Deep Neural Network). The machine learning algorithm for generating the recognition model is not limited to deep learning using a DNN.
記憶部16は、例えば、認識部13が画像中の文字の認識に用いる認識モデルを保存する。記憶部16は、例えば、プレプリント画像を保存する。記憶部16は、例えば、帳票データを保存する。帳票データは、例えば、帳票の画像データと、定義データを含む。帳票データには、あらかじめ抽出されたプレプリント画像が含まれていてもよい。記憶部16は、例えば、学習データとして、プレプリント上に文字が記載された画像と、プレプリント画像と、プレプリント上に記載されている文字とを保存する。なお、認識部13が用いる認識モデルは、記憶部16以外の記憶手段に保存されていてもよい。 The memory unit 16 stores, for example, a recognition model used by the recognition unit 13 to recognize characters in an image. The memory unit 16 stores, for example, a preprint image. The memory unit 16 stores, for example, form data. The form data includes, for example, image data of the form and definition data. The form data may include a preprint image extracted in advance. The memory unit 16 stores, for example, an image of characters written on a preprint, the preprint image, and the characters written on the preprint as learning data. Note that the recognition model used by the recognition unit 13 may be stored in a storage means other than the memory unit 16.
スキャナー20は、例えば、帳票を光学的に読み取り、帳票の画像を生成する。そして、スキャナー20は、文字認識システム10に、帳票の画像を出力する。スキャナー20は、帳票の画像のうち、プレプリント部分の画像を抽出してもよい。プレプリント部分の画像を抽出する場合に、スキャナー20は、文字認識システム10に、抽出したプレプリント画像を出力する。また、帳票が管理対象の物品に張り付けられた書類である場合に、スキャナー20は、帳票を撮影することで、帳票の画像を生成してもよい。 The scanner 20, for example, optically reads the form and generates an image of the form. The scanner 20 then outputs the image of the form to the character recognition system 10. The scanner 20 may extract an image of a preprinted portion from the image of the form. When extracting an image of a preprinted portion, the scanner 20 outputs the extracted preprinted image to the character recognition system 10. Furthermore, if the form is a document attached to an item to be managed, the scanner 20 may generate an image of the form by photographing the form.
情報処理サーバ30は、例えば、文字認識システム10から、帳票に記載された文字の認識結果を取得する。情報処理サーバ30は、認識結果を用いて、用途に応じた処理を行う。情報処理サーバ30は、例えば、認識結果を、金融機関における口座の管理に関する申請および入出金に関する処理に用いる。情報処理サーバ30は、例えば、認識結果を、官公庁、教育機関、病院、または交通機関における申請書類の処理に用いてもよい。情報処理サーバ30は、認識結果を、企業における伝票処理に用いてもよい。また、情報処理サーバ30は、識別結果を、流通における物品の管理に用いてもよい。識別結果の用の例は、上記に限られない。 The information processing server 30 obtains, for example, from the character recognition system 10, the recognition results of characters written on a form. The information processing server 30 uses the recognition results to perform processing according to the application. For example, the information processing server 30 uses the recognition results to process applications related to account management and deposits and withdrawals at financial institutions. For example, the information processing server 30 may use the recognition results to process application documents at government agencies, educational institutions, hospitals, or transportation facilities. The information processing server 30 may use the recognition results to process invoices at companies. The information processing server 30 may also use the identification results to manage goods in distribution. Examples of uses for the identification results are not limited to those mentioned above.
文字認識システム10が、プレプリント上に記載された文字を認識する際の動作について説明する。図14は、文字認識システム10が、プレプリント上に記載された文字を認識する際の動作フローの例を示す図である。 The following describes the operation of the character recognition system 10 when recognizing characters written on a preprint. Figure 14 is a diagram showing an example of the operation flow when the character recognition system 10 recognizes characters written on a preprint.
取得部11は、プレプリント上に記載された文字が写った画像を取得する(ステップS11)。取得部11は、例えば、スキャナー20から、プレプリント上に記載された文字が写った帳票の画像を取得する。The acquisition unit 11 acquires an image showing the characters written on the preprint (step S11). The acquisition unit 11 acquires, for example, from the scanner 20, an image of the form showing the characters written on the preprint.
また、画像抽出部12は、取得部11が取得した画像に対応するプレプリント画像を抽出する(ステップS12)。画像抽出部12は、例えば、記憶部16に保存されたデータから、取得部11が取得した画像に対応するプレプリント画像を抽出する。 The image extraction unit 12 also extracts a preprint image corresponding to the image acquired by the acquisition unit 11 (step S12). The image extraction unit 12 extracts a preprint image corresponding to the image acquired by the acquisition unit 11, for example, from data stored in the memory unit 16.
プレプリント画像が抽出されると、認識部13は、認識モデルを用いて、取得部11が取得した画像と、プレプリント画像とから、画像中の文字を認識する(ステップS13)。認識モデルは、プレプリント上に記載された文字が写った画像と、プレプリント画像とから、プレプリント上に記載された文字を認識する。Once the preprint image is extracted, the recognition unit 13 uses a recognition model to recognize characters in the image from the image acquired by the acquisition unit 11 and the preprint image (step S13). The recognition model recognizes characters written on the preprint from an image showing the characters written on the preprint and the preprint image.
画像中の文字が認識されると、出力部14は、認識結果を出力する(ステップS14)。出力部14は、例えば、情報処理サーバ30に、認識結果を出力する。 Once the characters in the image are recognized, the output unit 14 outputs the recognition result (step S14). The output unit 14 outputs the recognition result to, for example, the information processing server 30.
文字認識システム10が、認識モデルを生成する際の動作について説明する。図15は、文字認識システム10が、認識モデルを生成する際の動作フローの例を示す図である。 The following describes the operation of the character recognition system 10 when generating a recognition model. Figure 15 is a diagram showing an example of the operation flow when the character recognition system 10 generates a recognition model.
取得部11は、学習データとして、プレプリント上に記載された文字が写った画像と、プレプリント画像と、プレプリント上に記載された文字とを取得する(ステップS21)。 The acquisition unit 11 acquires, as learning data, an image of characters written on a preprint, a preprint image, and the characters written on the preprint (step S21).
学習データを取得すると、生成部15は、プレプリント上に記載された文字が写った画像、およびプレプリント画像と、プレプリント上に記載された文字の関係を学習し、認識モデルを生成する(ステップS22)。生成部15は、例えば、プレプリント上に記載された文字が写った画像と、プレプリント画像とを結合する。そして、生成部15は、結合したデータと、学習データに正解データとして含まれる、プレプリント上に記載された文字の関係を学習し、認識モデルを生成する。 After acquiring the training data, the generation unit 15 learns the image of the characters written on the preprint and the relationship between the preprint image and the characters written on the preprint, and generates a recognition model (step S22). The generation unit 15, for example, combines the image of the characters written on the preprint with the preprint image. The generation unit 15 then learns the relationship between the combined data and the characters written on the preprint that are included as correct answer data in the training data, and generates a recognition model.
認識モデルを生成すると、生成部15は、生成した認識モデルを保存する(ステップS23)。生成部15は、例えば、記憶部16に、生成した認識モデルを保存する。 Once the recognition model is generated, the generation unit 15 stores the generated recognition model (step S23). The generation unit 15 stores the generated recognition model, for example, in the storage unit 16.
本実施形態の帳票処理システムの文字認識システム10は、認識モデルを用いて、プレプリント上に記載された文字が写った画像と、プレプリント画像から、プレプリント上に記載された文字を認識する。文字認識システム10は、認識対象となるプレプリント上に記載された文字が写った記載された画像に加え、プレプリント画像をさらに用いてプレプリント上に記載された文字を認識することで、文字の認識にプレプリントが与える影響を抑制することができる。その結果、文字認識システム10は、プレプリント上に記載された文字の認識の精度を向上させることができる。 The character recognition system 10 of the form processing system of this embodiment uses a recognition model to recognize characters written on a preprint from an image of the characters written on the preprint and the preprint image. The character recognition system 10 recognizes characters written on a preprint using the preprint image in addition to the image of the characters written on the preprint to be recognized, thereby reducing the impact of the preprint on character recognition. As a result, the character recognition system 10 can improve the accuracy of recognizing characters written on a preprint.
また、文字認識システム10が用いる認識モデルは、プレプリント上に記載された文字が写った画像と、プレプリント画像とを入力として、プレプリント上に記載された文字の認識を行うことで、学習を行っていない態様のプレプリント上に記載された文字を認識することができる。よって、プレプリント上に記載された文字が写った画像と、プレプリント画像とを入力として、プレプリント上に記載された文字の認識を行うことで、文字認識システム10は、様々な態様のプレプリント上に記載された文字を認識することができる。また、文字認識システム10では、認識モデルを生成する際に、実際に認識に用いられるプレプリントの態様ごとに学習データを用意することが不要となる。また、文字認識システム10では、認識モデルを生成する際に、実際に認識に用いられるプレプリントの態様ごとに学習データを学習する必要がないため、認識モデルの生成する際の学習量を抑制することができる。このため、文字認識システム10では、認識モデルの生成に必要なコンピュータのリソースを抑制することができる。よって、文字認識システム10は、認識モデルを効率的に生成することができる。 Furthermore, the recognition model used by character recognition system 10 can recognize characters written on preprints in untrained forms by taking an image of characters written on a preprint and the preprint image as input and recognizing the characters written on the preprint. Therefore, by taking an image of characters written on a preprint and the preprint image as input and recognizing the characters written on the preprint, character recognition system 10 can recognize characters written on various forms of preprints. Furthermore, when generating a recognition model, character recognition system 10 does not need to prepare training data for each form of preprint actually used for recognition. Furthermore, when generating a recognition model, character recognition system 10 does not need to train training data for each form of preprint actually used for recognition, which reduces the amount of training required when generating a recognition model. Therefore, character recognition system 10 can reduce the computer resources required for generating a recognition model. Therefore, character recognition system 10 can efficiently generate recognition models.
また、認識モデルを生成する際に、プレプリントとしてランダムな形状の図形を用いることで、文字認識システム10は、様々なプレプリント画像上に記載された文字を認識可能な認識モデルを生成することができる。すなわち、プレプリントとしてランダムな形状の図形を用いて生成した認識モデルを用いることで、文字認識システム10は、帳票ごとにプレプリント画像の形状が異なっている場合でも、プレプリント上に記載された文字を正確に認識することができる。 Furthermore, by using randomly shaped figures as preprints when generating a recognition model, the character recognition system 10 can generate a recognition model that can recognize characters written on various preprint images. In other words, by using a recognition model generated using randomly shaped figures as preprints, the character recognition system 10 can accurately recognize characters written on preprints even if the shape of the preprint images differs for each form.
また、本実施形態と異なる文字認識手法として、例えば、プレプリント上に記載された文字が写った画像から、プレプリントを消去してから文字認識を行う手法を用いた場合には、プレプリントを消去するために、コンピュータのリソースを多く必要とし得る。また、プレプリントを消去する際に、文字の一部が消える恐れがある。一方で、本実施形態の文字認識システム10は、プレプリント上に記載された文字が写った画像と、プレプリント画像を結合したデータとを認識モデルに入力して文字を認識することで、文字を認識する前処理としてプレプリントの消去の処理を必要としない。また、プレプリントの消去の処理を行わないため、プレプリントの消去に関する処理が文字認識に与える影響を抑制することができる。このため、本実施形態の文字認識システム10は、プレプリント上に記載された文字の認識のために必要なリソースを抑制しつつ、認識の精度を向上することができる。 Furthermore, if a character recognition method different from that of the present embodiment is used, for example, a method in which characters written on a preprint are erased from an image containing the characters before character recognition is performed, erasing the preprint may require significant computer resources. Furthermore, there is a risk that some of the characters may be lost when erasing the preprint. On the other hand, the character recognition system 10 of the present embodiment recognizes characters by inputting an image containing characters written on a preprint and data combining the preprint image into a recognition model, thereby eliminating the need to erase the preprint as a preprocessing step for character recognition. Furthermore, because the preprint erasure process is not performed, the impact of the process related to erasing the preprint on character recognition can be reduced. Therefore, the character recognition system 10 of the present embodiment can improve recognition accuracy while reducing the resources required for recognizing characters written on a preprint.
(第2の実施形態)
本発明の第2の実施形態について図を参照して詳細に説明する。図16は、本実施形態の帳票処理システムの構成の例を示す図である。帳票処理システムは、一例として、文字認識システム40と、スキャナー20と、情報処理サーバ30を備える。文字認識システム40は、例えば、ネットワークを介して、スキャナー20と接続する。また、文字認識システム40は、ネットワークを介して、情報処理サーバ30と接続する。スキャナー20および情報処理サーバ30は、複数であってもよい。スキャナー20および情報処理サーバ30の数は、特に限定されない。また、本実施形態のスキャナー20と、情報処理サーバ30の機能は、第1の実施形態のスキャナー20と、情報処理サーバ30と同様である。
Second Embodiment
A second embodiment of the present invention will be described in detail with reference to the drawings. FIG. 16 is a diagram showing an example of the configuration of a form processing system of this embodiment. The form processing system includes, as an example, a character recognition system 40, a scanner 20, and an information processing server 30. The character recognition system 40 is connected to the scanner 20, for example, via a network. The character recognition system 40 is also connected to the information processing server 30 via the network. There may be multiple scanners 20 and multiple information processing servers 30. The number of scanners 20 and multiple information processing servers 30 is not particularly limited. The functions of the scanner 20 and the information processing server 30 of this embodiment are similar to those of the scanner 20 and the information processing server 30 of the first embodiment.
第1の実施形態の文字認識システム10は、例えば、認識モデルを用いて、プレプリント上に文字が記載された画像と、プレプリント画像とを結合したデータを入力とし、プレプリント上の文字を認識する。そして、文字認識システム10は、認識結果を出力する。このような構成に加え、本実施形態の文字認識システム40は、例えば、プレプリント上に文字が記載された画像と、プレプリント画像とを結合する際に、2つの画像の重ね合わせの精度を向上させるため、変換モデルを用いてプレプリント画像に変換処理を行った後に結合する。変換モデルは、プレプリント画像に変換処理を行う際に用いる変換パラメータを推定する学習モデルである。 The character recognition system 10 of the first embodiment uses, for example, a recognition model to input data that combines an image of characters written on a preprint with the preprint image, and recognizes the characters on the preprint. The character recognition system 10 then outputs the recognition results. In addition to this configuration, the character recognition system 40 of the present embodiment, for example, when combining an image of characters written on a preprint with the preprint image, combines the two images after performing a conversion process on the preprint image using a conversion model in order to improve the accuracy of overlaying the two images. The conversion model is a learning model that estimates conversion parameters used when performing a conversion process on the preprint image.
文字認識システム40の構成について説明する。図17は、文字認識システム40の構成の例を示す図である。文字認識システム40は、取得部11と、画像抽出部12と、認識部41と、出力部14と、生成部42と、記憶部16を備える。また、認識部41は、変換部51と、画像認識部52を備える。文字認識システム40の取得部11、画像抽出部12、出力部14および記憶部16の構成と機能は、第1の実施形態の文字認識システム10の取得部11、画像抽出部12、出力部14および記憶部16とそれぞれ同様である。 The configuration of the character recognition system 40 will be described. Figure 17 is a diagram showing an example of the configuration of the character recognition system 40. The character recognition system 40 includes an acquisition unit 11, an image extraction unit 12, a recognition unit 41, an output unit 14, a generation unit 42, and a memory unit 16. The recognition unit 41 also includes a conversion unit 51 and an image recognition unit 52. The configurations and functions of the acquisition unit 11, image extraction unit 12, output unit 14, and memory unit 16 of the character recognition system 40 are similar to those of the acquisition unit 11, image extraction unit 12, output unit 14, and memory unit 16 of the character recognition system 10 of the first embodiment, respectively.
認識部41の変換部51は、例えば、変換モデルを用いて、プレプリント画像を変換する。変換モデルは、例えば、プレプリント画像にアフィン変換を行う。認識部41は、例えば、プレプリント画像について、回転、大きさの調整および平行移動を行うことで、結合先の画像と重なり合うようにプレプリント画像を変換する。変換モデルは、例えば、プレプリント画像について、回転、大きさの調整および平行移動を行う際に用いる変換パラメータを推定する。 The transformation unit 51 of the recognition unit 41 transforms the preprint image using, for example, a transformation model. The transformation model, for example, performs an affine transformation on the preprint image. The recognition unit 41 transforms the preprint image so that it overlaps with the image to be combined, for example, by rotating, adjusting the size, and translating the preprint image. The transformation model, for example, estimates transformation parameters to be used when rotating, adjusting the size, and translating the preprint image.
変換部51は、例えば、変換モデルを用いて、プレプリント上に記載された文字が写った画像と、プレプリント画像とをあらかじめ設定された条件によって結合したデータから、アフィン変換パラメータを推定する。そして、変換部51は、推定したパラメータを用いて、プレプリント画像をアフィン変換する。変換部51は、例えば、あらかじめ設定された条件として、プレプリント上に記載された文字が写った画像と、プレプリント画像のそれぞれの外周部を合わせることで2つの画像が重なるようにして結合する。そして、変換部51は、変換モデルを用いて、あらかじめ設定された条件で結合されたデータから変換パラメータを推定する。変換パラメータは、あらかじめ設定された条件で結合した場合よりも、重ね合わせの精度が向上するようにプレプリント画像を変換するためのパラメータである。変換パラメータを推定すると、変換部51は、プレプリント画像に対して変換パラメータを用いてアフィン変換を行うことで、重ね合わせの精度がより高くなるようにする。 The transformation unit 51, for example, uses a transformation model to estimate affine transformation parameters from data obtained by combining an image containing text written on the preprint with the preprint image under preset conditions. The transformation unit 51 then uses the estimated parameters to perform affine transformation on the preprint image. For example, the transformation unit 51 combines the image containing text written on the preprint with the preprint image by aligning their respective peripheries under preset conditions, thereby overlapping the two images. The transformation unit 51 then uses the transformation model to estimate transformation parameters from the data combined under preset conditions. The transformation parameters are parameters for transforming the preprint image to improve the accuracy of the overlay compared to when the images are combined under preset conditions. After estimating the transformation parameters, the transformation unit 51 performs an affine transformation on the preprint image using the transformation parameters, thereby improving the accuracy of the overlay.
変換モデルは、例えば、STN(Spatial Transformer Networks)と呼ばれるDNNを用いる学習モデルである。STNを用いる画像の変換方法は、例えば、Max Jaderberg et al. "Spatial Transformer Networks", NIPS'15: Proceedings of the 28th International Conference on Neural Information Processing Systems, Volume 2, December 2015, p. 2017-2025に記載されている。 The transformation model is, for example, a learning model that uses a DNN known as an STN (Spatial Transformer Network). An image transformation method using an STN is described, for example, in Max Jaderberg et al. "Spatial Transformer Networks," NIPS'15: Proceedings of the 28th International Conference on Neural Information Processing Systems, Volume 2, December 2015, pp. 2017-2025.
認識部41の画像認識部52は、認識モデルを用いて、プレプリント上に記載された文字が写った画像と、プレプリント画像とから、プレプリント上に記載された文字を認識する。画像認識部52は、プレプリント上に記載された文字が写った画像と、変換部51がアフィン変換を行ったプレプリント画像とを結合する。そして、画像認識部52は、識別モデルを用いて、結合したデータからプレプリント上に記載された文字を認識する。変換モデルおよび認識モデルは、文字認識システム40の外部で生成された学習モデルであってもよい。 The image recognition unit 52 of the recognition unit 41 uses a recognition model to recognize characters written on the preprint from an image showing the characters written on the preprint and the preprint image. The image recognition unit 52 combines the image showing the characters written on the preprint with the preprint image on which the transformation unit 51 has performed an affine transformation. The image recognition unit 52 then uses a discriminative model to recognize the characters written on the preprint from the combined data. The transformation model and the recognition model may be learning models generated outside the character recognition system 40.
図18は、認識部41においてプレプリント上に記載された文字を認識する際の処理のフローを模式的に示す図である。図18の例において、プレプリント上に記載された文字が写った画像と、プレプリント画像が認識部41に入力されたとする。変換部51は、例えば、プレプリント上に記載された文字が写った画像と、プレプリント画像とを、例えば、あらかじめ設定された条件によって結合する。あらかじめ設定された条件は、例えば、2つの画像の外周部を合わせるように設定される。画像を結合すると、変換部51は、変換モデルを用いて、アフィン変換パラメータを推定する。そして、変換部51は、推定したアフィン変換パラメータを用いて、プレプリント画像にアフィン変換を行う。変換部51は、アフィン変換を行ったプレプリント画像を画像認識部52に出力する。アフィン変換を行ったプレプリント画像が入力されると、画像認識部52は、プレプリント上に文字が記載された画像と、アフィン変換された画像とを結合する。画像を結合すると、画像認識部52は、認識モデルを用いて、結合されたデータからプレプリント上に記載された文字を認識する。 Figure 18 is a diagram schematically illustrating the processing flow when the recognition unit 41 recognizes characters written on a preprint. In the example of Figure 18, assume that an image showing characters written on a preprint and a preprint image are input to the recognition unit 41. The conversion unit 51 combines the image showing characters written on the preprint and the preprint image, for example, according to preset conditions. The preset conditions are, for example, set so that the peripheries of the two images are aligned. After combining the images, the conversion unit 51 estimates affine transformation parameters using a transformation model. Then, the conversion unit 51 performs an affine transformation on the preprint image using the estimated affine transformation parameters. The conversion unit 51 outputs the affine-transformed preprint image to the image recognition unit 52. When the affine-transformed preprint image is input, the image recognition unit 52 combines the image showing characters written on the preprint with the affine-transformed image. Once the images are combined, the image recognition unit 52 uses a recognition model to recognize characters written on the preprint from the combined data.
文字認識システム40は、例えば、変換モデルと、認識モデルのうち、認識モデルのみを生成する。認識モデルのみを生成する場合には、変換モデルには、例えば、文字認識システム40の外部で生成された学習モデルが用いられる。変換モデルと、認識モデルのうち、認識モデルのみを生成する場合に、生成部42は、例えば、学習データに含まれる、プレプリント上に記載された文字が写った画像と、プレプリント画像とを、変換モデルを用いて結合する。そして、生成部42は、結合したデータと、学習データに正解データとして含まれる、プレプリント上に記載された文字の関係を学習し、認識モデルを生成する。生成部42は、記憶部16に、生成した変換モデルと、認識モデルを保存する。 The character recognition system 40 generates, for example, only the recognition model out of the conversion model and the recognition model. When generating only the recognition model, for example, a training model generated outside the character recognition system 40 is used as the conversion model. When generating only the recognition model out of the conversion model and the recognition model, the generation unit 42 combines, for example, an image of characters written on a preprint included in the training data with the preprint image using the conversion model. The generation unit 42 then learns the relationship between the combined data and the characters written on the preprint included as correct data in the training data, and generates a recognition model. The generation unit 42 saves the generated conversion model and recognition model in the memory unit 16.
文字認識システム40が変換モデルと、認識モデルの両方を生成してもよい。変換モデルと、認識モデルの両方を生成する場合に、生成部42は、変換モデルを用いて、プレプリント上に記載された文字が写った画像とプレプリント画像とをあらかじめ設定された条件によって結合したデータから変換パラメータを推定する。また、生成部42は、認識モデルを用いて、結合したデータからプレプリント上に記載された文字を認識する。生成部42は、変換モデルが推定するアフィン変換パラメータと、学習データに含まれるアフィン変換パラメータの差が小さくなるように変換モデルのパラメータを更新する。また、生成部42は、識別結果と、正解データの差が小さくなるよう認識モデルのパラメータを更新する。 The character recognition system 40 may generate both a transformation model and a recognition model. When generating both a transformation model and a recognition model, the generation unit 42 uses the transformation model to estimate transformation parameters from data obtained by combining an image of characters written on a preprint with the preprint image under preset conditions. The generation unit 42 also uses the recognition model to recognize the characters written on the preprint from the combined data. The generation unit 42 updates the parameters of the transformation model so that the difference between the affine transformation parameters estimated by the transformation model and the affine transformation parameters included in the training data becomes smaller. The generation unit 42 also updates the parameters of the recognition model so that the difference between the identification result and the correct data becomes smaller.
変換モデルの変換パラメータと、認識モデルのパラメータを更新すると、生成部42は、更新したモデルを用いて上記の処理を繰り返す。生成部42は、例えば、変換モデルの変換パラメータの推定結果と、認識モデルの認識結果の精度があらかじめ設定された基準を満たすまで上記の処理を繰り返すことで変換モデルと、認識モデルを生成する。また、生成部42は、例えば、識別結果と、正解データの差が小さくなるよう認識モデルのパラメータを更新することで識別モデルを生成する。生成部42は、例えば、記憶部16に、生成した変換モデルと、認識モデルを保存する。 After updating the conversion parameters of the conversion model and the parameters of the recognition model, the generation unit 42 repeats the above process using the updated models. The generation unit 42 generates a conversion model and a recognition model by repeating the above process, for example, until the estimated results of the conversion parameters of the conversion model and the accuracy of the recognition results of the recognition model satisfy a preset standard. The generation unit 42 also generates an identification model by, for example, updating the parameters of the recognition model so that the difference between the identification result and the correct data is reduced. The generation unit 42 stores the generated conversion model and recognition model in, for example, the storage unit 16.
文字認識システム40が、プレプリント上に記載された文字を認識する際の動作について説明する。図19は、文字認識システム40が、プレプリント上に記載された文字を認識する際の動作フローの例を示す図である。 The following describes the operation of the character recognition system 40 when recognizing characters written on a preprint. Figure 19 is a diagram showing an example of the operation flow when the character recognition system 40 recognizes characters written on a preprint.
取得部11は、プレプリント上に記載された文字が写った画像を取得する(ステップS31)。取得部11は、例えば、スキャナー20から、プレプリント上に記載された文字が写った帳票の画像を取得する。The acquisition unit 11 acquires an image showing the characters written on the preprint (step S31). The acquisition unit 11 acquires, for example, from the scanner 20, an image of the form showing the characters written on the preprint.
また、画像抽出部12は、取得部11が取得した画像に対応するプレプリント画像を抽出する(ステップS32)。画像抽出部12は、例えば、記憶部16に保存されたデータから、取得部11が取得した画像に対応するプレプリント画像を抽出する。 The image extraction unit 12 also extracts a preprint image corresponding to the image acquired by the acquisition unit 11 (step S32). The image extraction unit 12 extracts a preprint image corresponding to the image acquired by the acquisition unit 11, for example, from data stored in the memory unit 16.
プレプリント画像が取得されると、認識部41の変換部51は、変換モデルを用いて、プレプリント画像を変換する際に用いる変換パラメータを推定する。そして、変換部51は、推定した変換パラメータを用いて、プレプリント画像を変換する(ステップS33)。プレプリント画像が変換されると、画像認識部52は、プレプリント上に文字が記載された画像と、変換されたプレプリント画像を結合する。そして、画像認識部52は、認識モデルを用いて、結合したデータから画像中の文字を認識する(ステップS34)。 When the preprint image is acquired, the conversion unit 51 of the recognition unit 41 uses a conversion model to estimate conversion parameters to be used when converting the preprint image. The conversion unit 51 then converts the preprint image using the estimated conversion parameters (step S33). Once the preprint image has been converted, the image recognition unit 52 combines the image of the preprint with text written on it and the converted preprint image. The image recognition unit 52 then uses the recognition model to recognize the text in the image from the combined data (step S34).
画像中の文字が認識されると、出力部14は、認識の結果を出力する(ステップS35)。出力部14は、例えば、情報処理サーバ30に、認識の結果を出力する。 Once the characters in the image are recognized, the output unit 14 outputs the recognition results (step S35). The output unit 14 outputs the recognition results to, for example, the information processing server 30.
文字認識システム40が、変換モデルと、認識モデルのうち、認識モデルのみを生成する際の動作について説明する。図20は、文字認識システム40が、認識モデルのみを生成する際の動作フローの例を示す図である。 This section explains the operation of the character recognition system 40 when it generates only the recognition model out of the conversion model and the recognition model. Figure 20 is a diagram showing an example of the operation flow when the character recognition system 40 generates only the recognition model.
取得部11は、学習データとして、プレプリント上に記載された文字が写った画像と、プレプリント画像と、プレプリント上に記載された文字を取得する(ステップS41)。 The acquisition unit 11 acquires, as learning data, an image of characters written on a preprint, a preprint image, and the characters written on the preprint (step S41).
学習データが取得されると、生成部42は、変換モデルを用いて、プレプリント画像を変換する際に用いる変換パラメータを推定する。そして、生成部42は、推定した変換パラメータを用いて、変換モデルを用いて、プレプリント画像を変換する(ステップS42)。Once the learning data is acquired, the generation unit 42 uses the conversion model to estimate the conversion parameters to be used when converting the preprint image. Then, the generation unit 42 uses the estimated conversion parameters and the conversion model to convert the preprint image (step S42).
プレプリント画像を変換すると、生成部42は、プレプリント上に記載された文字が写った画像と、変換したプレプリント画像を結合する。そして、生成部42は、結合したデータと、プレプリント上に記載された文字の関係を学習し、認識モデルを生成する(ステップS43)。After converting the preprint image, the generation unit 42 combines the image containing the characters written on the preprint with the converted preprint image. The generation unit 42 then learns the relationship between the combined data and the characters written on the preprint, and generates a recognition model (step S43).
認識モデルを生成すると、生成部42は、生成した認識モデルを保存する(ステップS44)。生成部42は、例えば、記憶部16に、生成した認識モデルを保存する。 Once the recognition model is generated, the generation unit 42 stores the generated recognition model (step S44). The generation unit 42 stores the generated recognition model, for example, in the storage unit 16.
文字認識システム40が、変換モデルと、認識モデルを生成する際の動作について説明する。図21は、文字認識システム40が、変換モデルと、認識モデルを生成する際の動作フローの例を示す図である。 This section explains the operation of the character recognition system 40 when it generates a conversion model and a recognition model. Figure 21 is a diagram showing an example of the operation flow when the character recognition system 40 generates a conversion model and a recognition model.
取得部11は、学習データとして、プレプリント上に記載された文字が写った画像とプレプリント画像とを結合したデータと、変換パラメータと、プレプリント上に記載された文字を取得する(ステップS51)。 The acquisition unit 11 acquires, as learning data, data combining an image of characters written on the preprint with the preprint image, conversion parameters, and the characters written on the preprint (step S51).
学習データが取得されると、生成部42は、学習モデルに含まれる、プレプリント上に記載された文字が写った画像とプレプリント画像とを結合したデータと、学習モデルに含まれるパラメータとの関係を学習することによって、変換モデルを生成する。また、生成部42は、プレプリント上に記載された文字が写った画像とプレプリント画像を結合したデータと、プレプリント上に記載された文字の関係を学習することによって認識モデルを生成する(ステップS52)。Once the training data is acquired, the generation unit 42 generates a conversion model by learning the relationship between the data, which is a combination of an image of characters written on a preprint and the preprint image, included in the training model, and the parameters included in the training model. The generation unit 42 also generates a recognition model by learning the relationship between the data, which is a combination of an image of characters written on a preprint and the preprint image, and the characters written on the preprint (step S52).
変換モデルと、認識モデルを生成すると、生成部42は、生成した変換モデルと、認識モデルを保存する(ステップS53)。生成部42は、例えば、記憶部16に、生成した変換モデルと、認識モデルを保存する。 After generating the conversion model and the recognition model, the generation unit 42 stores the generated conversion model and the recognition model (step S53). The generation unit 42 stores the generated conversion model and the recognition model, for example, in the storage unit 16.
本実施形態の文字認識システム40は、変換モデルを用いて、プレプリント上に記載された文字が写った画像と、プレプリント画像とを結合する。そして、文字認識システム40は、認識モデルを用いて、結合したデータから、プレプリント上に記載された文字を認識する。変換モデルを用いて変換したプレプリント画像を用いることで、文字認識システム40は、プレプリント上に記載された文字が写った画像と、プレプリント画像とを結合する際の、重ね合わせの精度を向上することができる。このように結合したデータを用いることで、文字認識システム40は、プレプリント上に記載された文字が写った画像と、プレプリント画像とのずれの変動が抑制された状態で、認識モデルによって、プレプリント上の文字を認識することができる。2つの画像のずれの変動が抑制された状態で、認識モデルによってプレプリント上に記載された文字を認識することで、文字認識システム40は、プレプリント上に記載された文字の認識精度を向上することができる。 The character recognition system 40 of this embodiment uses a transformation model to combine an image showing characters written on a preprint with the preprint image. Then, the character recognition system 40 uses the recognition model to recognize the characters written on the preprint from the combined data. By using the preprint image converted using the transformation model, the character recognition system 40 can improve the accuracy of overlay when combining the image showing characters written on the preprint with the preprint image. By using the combined data in this manner, the character recognition system 40 can recognize the characters on the preprint using the recognition model while suppressing variations in the misalignment between the image showing characters written on the preprint and the preprint image. By recognizing the characters written on the preprint using the recognition model while suppressing variations in the misalignment between the two images, the character recognition system 40 can improve the accuracy of recognizing characters written on the preprint.
また、学習データを用いて変換モデルを生成する場合には、文字認識システム40は、実際の使用状況において生じ得る、プレプリント上に記載された文字を写した画像と、プレプリント画像との重ね合わせのずれを抑制する変換モデルを生成することができる。よって、文字認識システム40は、実際の使用状況に応じて、プレプリント上に文字が記載された画像と、プレプリント画像とのずれの変動を抑制することができる。このため、学習データを用いて変換モデルを生成する場合には、文字認識システム40は、プレプリント上に記載された文字の認識精度をより向上することができる。 Furthermore, when generating a conversion model using training data, the character recognition system 40 can generate a conversion model that suppresses misalignment between an image of characters written on a preprint and the preprint image, which may occur in actual usage situations. Therefore, the character recognition system 40 can suppress fluctuations in misalignment between an image of characters written on a preprint and the preprint image, depending on actual usage situations. Therefore, when generating a conversion model using training data, the character recognition system 40 can further improve the recognition accuracy of characters written on a preprint.
第1の実施形態の文字認識システム10および第2の実施形態の文字認識システム40における各処理は、コンピュータプログラムをコンピュータで実行することによって実現することができる。図22は、第1の実施形態の文字認識システム10および第2の実施形態の文字認識システム40における各処理を行うコンピュータプログラムを実行するコンピュータ200の構成の例を示したものである。コンピュータ200は、CPU(Central Processing Unit)201と、メモリ202と、記憶装置203と、入出力I/F(Interface)204と、通信I/F205を備える。 The processes in the character recognition system 10 of the first embodiment and the character recognition system 40 of the second embodiment can be realized by executing a computer program on a computer. Figure 22 shows an example of the configuration of a computer 200 that executes a computer program that performs the processes in the character recognition system 10 of the first embodiment and the character recognition system 40 of the second embodiment. The computer 200 includes a CPU (Central Processing Unit) 201, memory 202, a storage device 203, an input/output I/F (Interface) 204, and a communication I/F 205.
CPU201は、記憶装置203から各処理を行うコンピュータプログラムを読み出して実行する。CPU201は、複数のCPUの組み合わせによって構成されていてもよい。また、CPU201は、CPUと他の種類のプロセッサの組み合わせによって構成されていてもよい。例えば、CPU201は、CPUとGPU(Graphics Processing Unit)の組み合わせによって構成されていてもよい。メモリ202は、DRAM(Dynamic Random Access Memory)等によって構成され、CPU201が実行するコンピュータプログラムや処理中のデータが一時記憶される。記憶装置203は、CPU201が実行するコンピュータプログラムを記憶している。記憶装置203は、例えば、不揮発性の半導体記憶装置によって構成されている。記憶装置203には、ハードディスクドライブ等の他の記憶装置が用いられてもよい。入出力I/F204は、作業者からの入力の受付および表示データ等の出力を行うインタフェースである。通信I/F205は、スキャナー20および情報処理サーバ30との間でデータの送受信を行うインタフェースである。また、情報処理サーバ30も同様の構成としてもよい。The CPU 201 reads and executes computer programs for each process from the storage device 203. The CPU 201 may be configured as a combination of multiple CPUs. The CPU 201 may also be configured as a combination of a CPU and another type of processor. For example, the CPU 201 may be configured as a combination of a CPU and a GPU (Graphics Processing Unit). The memory 202 is configured with a DRAM (Dynamic Random Access Memory) or the like, and temporarily stores computer programs executed by the CPU 201 and data being processed. The storage device 203 stores computer programs executed by the CPU 201. The storage device 203 is configured with, for example, a non-volatile semiconductor storage device. Other storage devices such as a hard disk drive may also be used for the storage device 203. The input/output I/F 204 is an interface that accepts input from an operator and outputs display data, etc. The communication I/F 205 is an interface that transmits and receives data between the scanner 20 and the information processing server 30. The information processing server 30 may also have a similar configuration.
各処理の実行に用いられるコンピュータプログラムは、データを非一時的に記録するコンピュータ読み取り可能な記録媒体に格納して頒布することもできる。記録媒体としては、例えば、データ記録用磁気テープや、ハードディスクなどの磁気ディスクを用いることができる。また、記録媒体としては、CD-ROM(Compact Disc Read Only Memory)等の光ディスクを用いることもできる。不揮発性の半導体記憶装置を記録媒体として用いてもよい。 The computer programs used to execute each process can also be distributed by storing them on a computer-readable recording medium that non-temporarily stores data. Examples of recording media that can be used include magnetic tape for recording data and magnetic disks such as hard disks. Optical disks such as CD-ROMs (Compact Disc Read Only Memory) can also be used as recording media. Non-volatile semiconductor storage devices can also be used as recording media.
以上、上述した実施形態を例として本発明を説明した。しかしながら、本発明は、上述した実施形態には限定されない。即ち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。 The present invention has been described above using the above-mentioned embodiment as an example. However, the present invention is not limited to the above-mentioned embodiment. In other words, the present invention can be applied in various aspects that are understandable to those skilled in the art within the scope of the present invention.
10 文字認識システム
11 取得部
12 画像抽出部
13 認識部
14 出力部
15 生成部
16 記憶部
20 スキャナー
30 情報処理サーバ
40 文字認識システム
41 認識部
42 生成部
51 変換部
52 画像認識部
100 コンピュータ
101 CPU
102 メモリ
103 記憶装置
104 入出力I/F
105 通信I/F
REFERENCE SIGNS LIST 10 Character recognition system 11 Acquisition unit 12 Image extraction unit 13 Recognition unit 14 Output unit 15 Generation unit 16 Storage unit 20 Scanner 30 Information processing server 40 Character recognition system 41 Recognition unit 42 Generation unit 51 Conversion unit 52 Image recognition unit 100 Computer 101 CPU
102 Memory 103 Storage device 104 Input/output I/F
105 Communication I/F
Claims (9)
プレプリント上に記載された文字を写した画像の画素データおよびプレプリントを写したプレプリント画像の画素データを画素ごとに結合したデータから前記プレプリント上に記載された文字を認識する認識モデルを用いて、取得した前記画像の画素データおよび前記プレプリント画像の画素データを画素ごとに結合したデータから、取得した前記画像のプレプリント上に記載された文字を認識する認識手段と、
前記認識の結果を出力する出力手段と
を備える文字認識システム。 An acquisition means for acquiring an image of characters written on a preprint of a form including the preprint;
a recognition means for recognizing characters written on a preprint of an acquired image from pixel data of the acquired image and data obtained by combining pixel data of the preprint image for each pixel , using a recognition model for recognizing characters written on the preprint from data obtained by combining pixel data of an image of characters written on the preprint and pixel data of a preprint image of the preprint for each pixel;
and an output means for outputting the result of the recognition.
前記認識手段は、取得した前記画像の画素データおよび変換された前記プレプリント画像の画素データを画素ごとに結合したデータから、取得した前記画像のプレプリント上に記載された文字を認識する、
請求項1に記載の文字認識システム。 further comprising a transforming means for transforming the preprint image using a transformation parameter;
the recognition means recognizes characters written on the preprint of the acquired image from data obtained by combining pixel data of the acquired image and pixel data of the converted preprint image for each pixel;
The character recognition system of claim 1 .
請求項2に記載の文字認識システム。 the conversion means converts the preprint image using a conversion model that estimates conversion parameters from data obtained by combining, for each pixel, pixel data of the image and pixel data of the converted preprint image;
The character recognition system of claim 2 .
請求項1から3いずれかに記載の文字認識システム。 the recognition means identifies a type of form for which characters written on the preprint are to be recognized from the image, and recognizes the characters written on the preprint based on definition data corresponding to the identified type of form.
4. A character recognition system according to claim 1.
請求項1から4いずれかに記載の文字認識システム。 the recognition means recognizes characters written on the preprint based on definition data that defines the position of the preprint on the form;
5. A character recognition system according to claim 1.
請求項1から5いずれかに記載の文字認識システム。 The apparatus further comprises a generating means for learning the relationship between pixel data of an image of characters written on a preprint and data obtained by combining pixel data of the preprint image on a pixel- by-pixel basis, and the characters written on the preprint, and for generating a recognition model for recognizing characters written on the preprint in the image from the pixel data of the image of characters written on the preprint and data obtained by combining pixel data of the preprint image on a pixel-by-pixel basis.
6. A character recognition system according to claim 1.
請求項6に記載の文字認識システム。 the generating means learns the relationship between pixel data of an image of characters written on a preprint, data obtained by combining pixel-by-pixel pixel data of the preprint image, and transformation parameters, and generates a transformation model for estimating transformation parameters to be used in transforming the preprint image.
7. The character recognition system of claim 6 .
プレプリント上に記載された文字を写した画像の画素データおよびプレプリントを写したプレプリント画像の画素データを画素ごとに結合したデータから前記プレプリント上に記載された文字を認識する認識モデルを用いて、取得した前記画像の画素データおよび前記プレプリント画像の画素データを画素ごとに結合したデータから、取得した前記画像のプレプリント上に記載された文字を認識し、
前記認識の結果を出力する、
文字認識方法。 An image of the characters written on the preprint of the document containing the preprint is acquired,
using a recognition model that recognizes characters written on the preprint from pixel data of an image in which characters written on the preprint are copied and data obtained by combining pixel data of a preprint image in which the preprint is copied, the characters written on the preprint of the acquired image are recognized from pixel data of the acquired image and data obtained by combining pixel data of the preprint image,
outputting the results of the recognition;
Character recognition method.
プレプリント上に記載された文字を写した画像の画素データおよびプレプリントを写したプレプリント画像の画素データを画素ごとに結合したデータから前記プレプリント上に記載された文字を認識する認識モデルを用いて、取得した前記画像の画素データおよび前記プレプリント画像の画素データを画素ごとに結合したデータから、取得した前記画像のプレプリント上に記載された文字を認識する処理と、
前記認識の結果を出力する処理と
をコンピュータに実行させる文字認識プログラム。 A process of acquiring an image of characters written on a preprint of a form including the preprint;
a process of recognizing characters written on a preprint of the acquired image from pixel data of the acquired image and data obtained by combining pixel data of the preprint image, using a recognition model that recognizes characters written on the preprint from data obtained by combining pixel data of an image of characters written on the preprint and pixel data of a preprint image of the preprint;
and a process of outputting the results of the recognition.
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2022/013389 WO2023181149A1 (en) | 2022-03-23 | 2022-03-23 | Character recognition system, character recognition method, and recording medium |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JPWO2023181149A1 JPWO2023181149A1 (en) | 2023-09-28 |
| JPWO2023181149A5 JPWO2023181149A5 (en) | 2024-11-07 |
| JP7761130B2 true JP7761130B2 (en) | 2025-10-28 |
Family
ID=88100226
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2024508871A Active JP7761130B2 (en) | 2022-03-23 | 2022-03-23 | Character recognition system, character recognition method, and character recognition program |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP7761130B2 (en) |
| WO (1) | WO2023181149A1 (en) |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007148846A (en) | 2005-11-29 | 2007-06-14 | Nec Corp | Ocr device, form out method, and form out program |
| JP2020123272A (en) | 2019-01-31 | 2020-08-13 | 富士ゼロックス株式会社 | Information processing device and information processing program |
| JP2021043650A (en) | 2019-09-10 | 2021-03-18 | キヤノン株式会社 | Image processing equipment, image processing system, image processing method, and program |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH05266247A (en) * | 1992-03-19 | 1993-10-15 | Toshiba Corp | Image data processing system |
-
2022
- 2022-03-23 JP JP2024508871A patent/JP7761130B2/en active Active
- 2022-03-23 WO PCT/JP2022/013389 patent/WO2023181149A1/en not_active Ceased
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007148846A (en) | 2005-11-29 | 2007-06-14 | Nec Corp | Ocr device, form out method, and form out program |
| JP2020123272A (en) | 2019-01-31 | 2020-08-13 | 富士ゼロックス株式会社 | Information processing device and information processing program |
| JP2021043650A (en) | 2019-09-10 | 2021-03-18 | キヤノン株式会社 | Image processing equipment, image processing system, image processing method, and program |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2023181149A1 (en) | 2023-09-28 |
| JPWO2023181149A1 (en) | 2023-09-28 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US12354396B2 (en) | System for information extraction from form-like documents | |
| US11461552B2 (en) | Automated document review system combining deterministic and machine learning algorithms for legal document review | |
| US20190279170A1 (en) | Dynamic resource management associated with payment instrument exceptions processing | |
| US8897563B1 (en) | Systems and methods for automatically processing electronic documents | |
| CN109902271B (en) | Text data labeling method, device, terminal and medium based on transfer learning | |
| CN101276412A (en) | Information processing device, information processing system and information processing method | |
| US20190340429A1 (en) | System and Method for Processing and Identifying Content in Form Documents | |
| US12175786B2 (en) | Systems, methods, and devices for automatically converting explanation of benefits (EOB) printable documents into electronic format using artificial intelligence techniques | |
| US11699297B2 (en) | Image analysis based document processing for inference of key-value pairs in non-fixed digital documents | |
| Tornés et al. | Receipt dataset for document forgery detection | |
| CN117831052A (en) | Identification method and device for financial form, electronic equipment and storage medium | |
| CN111881880A (en) | Bill text recognition method based on novel network | |
| JP7761130B2 (en) | Character recognition system, character recognition method, and character recognition program | |
| US10922537B2 (en) | System and method for processing and identifying content in form documents | |
| Lerouge et al. | DocXPand-25k: a large and diverse benchmark dataset for identity documents analysis | |
| JP2020140706A (en) | Information processing method, information processing device and scanner | |
| CN117542054A (en) | Information identification method and device, storage medium and electronic equipment | |
| JP2024021728A (en) | Character recognition model learning method, character recognition method, character recognition model learning device, learning model, character recognition device | |
| CN102648474B (en) | Method of Classifying Documents to Be Associated with the Services, and Related Scanners | |
| Reed et al. | Hybrid CNN–LSTM Framework for OCR-Based Text Extraction from Receipts | |
| CN118366175B (en) | Document image classification method based on word frequency | |
| US12230047B2 (en) | Systems and methods for reading flat cards | |
| TWI807467B (en) | Key-item detection model building method, business-oriented key-value identification system and method | |
| US20250292227A1 (en) | Document remembrance and counterfeit detection | |
| KR20240157344A (en) | AI financial document information extraction system and method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240902 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240902 |
|
| RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20250203 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20250217 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20250708 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20250828 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250916 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250929 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7761130 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |