Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7447482B2 - Image processing device, system, method, and program - Google Patents
[go: Go Back, main page]

JP7447482B2 - Image processing device, system, method, and program - Google Patents

Image processing device, system, method, and program Download PDF

Info

Publication number
JP7447482B2
JP7447482B2 JP2019232975A JP2019232975A JP7447482B2 JP 7447482 B2 JP7447482 B2 JP 7447482B2 JP 2019232975 A JP2019232975 A JP 2019232975A JP 2019232975 A JP2019232975 A JP 2019232975A JP 7447482 B2 JP7447482 B2 JP 7447482B2
Authority
JP
Japan
Prior art keywords
feature
individual
document form
feature amount
recorded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019232975A
Other languages
Japanese (ja)
Other versions
JP2021101304A (en
Inventor
駿平 下村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2019232975A priority Critical patent/JP7447482B2/en
Publication of JP2021101304A publication Critical patent/JP2021101304A/en
Application granted granted Critical
Publication of JP7447482B2 publication Critical patent/JP7447482B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

本開示は、画像処理装置、システム、方法、及びプログラムに関し、特に、記録対象ではない文字列が少ない文書帳票やエンブレム画像がない文書帳票であっても、文書帳票の書式を判別することが可能な画像処理装置、システム、方法、及びプログラムに関する。 The present disclosure relates to an image processing device, a system, a method, and a program, and in particular, it is possible to determine the format of a document form even if the document form has few character strings that are not to be recorded or the document form does not have an emblem image. The present invention relates to an image processing device, system, method, and program.

スキャナ等を用いて取得した文書帳票の画像データをOCR(Optical Character Recognition)処理して文書を読み取る画像処理装置がある。特許文献1の画像処理装置は、ОCR処理の結果を記録し、記録したОCR処理の結果から、文書帳票の書式ごとに学習データを生成する。そして、特許文献1の画像処理装置は、記録対象ではない文字列(非記録文字列)の一致度、エンブレム画像の一致度、記録対象ではない文字列の座標範囲の一致度などを使用して、新たな文書帳票の書式を判別(判定)する。しかしながら、記録対象ではない文字列がない、あるいは少ない文書帳票やエンブレム画像がない文書帳票など(表形式の帳票)の書式を判別することが難しいという課題があった。 2. Description of the Related Art There is an image processing apparatus that performs OCR (Optical Character Recognition) processing on image data of a document form obtained using a scanner or the like to read a document. The image processing device disclosed in Patent Document 1 records the results of OCR processing, and generates learning data for each document form format from the recorded OCR processing results. The image processing device of Patent Document 1 uses the degree of matching of character strings that are not to be recorded (non-recorded character strings), the degree of matching of emblem images, the degree of matching of coordinate ranges of character strings that are not to be recorded, etc. , determines (determines) the format of the new document form. However, there is a problem in that it is difficult to distinguish the format of document forms that do not have or have few character strings that are not to be recorded, or document forms that do not have an emblem image (table form forms).

特開2019-8775号公報JP 2019-8775 Publication

上記のとおり、記録対象ではない文字列がない、あるいは少ない文書帳票やエンブレム画像がない文書帳票などの書式を判別することが難しいという課題があった。 As mentioned above, there is a problem in that it is difficult to distinguish the formats of document forms that do not have or have few character strings that are not to be recorded, or document forms that do not have an emblem image.

本開示の目的は、上述した課題を解決する画像処理装置、システム、方法、及びプログラムを提供することにある。 An object of the present disclosure is to provide an image processing device, system, method, and program that solve the above-mentioned problems.

本開示に係る画像処理装置は、
文書帳票に含まれる記録文字列の特徴を示す個別第一特徴量と、前記文書帳票に含まれる非記録文字列の認識情報を示す個別第二特徴量と、を抽出する特徴量抽出生成部と、
前記文書帳票を、複数の前記個別第一特徴量を含むグループ第一特徴量と、複数の前記個別第二特徴量を含むグループ第二特徴量と、にグループ分けするグループ分類部と、
新たな文書帳票の前記個別第二特徴量が予め記録された前記グループ第二特徴量内のいずれにも一致しない場合、予め記録された前記グループ第一特徴量内から、前記新たな文書帳票の前記個別第一特徴量と一致する特定第一特徴量を特定し、前記特定第一特徴量が示す書式を前記新たな文書帳票の書式とする制御部と、
を備える。
The image processing device according to the present disclosure includes:
a feature quantity extraction generation unit that extracts an individual first feature quantity indicating a feature of a recorded character string included in a document form, and an individual second feature quantity indicating recognition information of a non-recorded character string included in the document form; ,
a group classification unit that groups the document form into a group first feature including a plurality of the individual first features and a group second feature including the plurality of the individual second features;
If the individual second feature of the new document form does not match any of the group second features recorded in advance, the new document form's individual second feature is selected from among the group first features recorded in advance. a control unit that identifies a specific first feature amount that matches the individual first feature amount, and sets a format indicated by the specific first feature amount as a format of the new document form;
Equipped with

本開示に係るシステムは、
画像処理装置と画像読取装置と記録装置とデータベースとを備え、
前記画像読取装置は、
光学的に文書帳票の画像データを取得し、前記画像データを前記画像処理装置へ出力する読取出力部を有し、
前記画像処理装置は、
前記文書帳票の前記画像データを文字認識し、前記文書帳票に含まれる記録文字列の特徴を示す個別第一特徴量と、前記文書帳票に含まれる非記録文字列の認識情報を示す個別第二特徴量と、を抽出する特徴量抽出部と、
前記文字認識した文字認識結果を前記記録装置に出力する処理出力部と、
前記文書帳票を、複数の前記個別第一特徴量を含むグループ第一特徴量と、複数の前記個別第二特徴量を含むグループ第二特徴量と、にグループ分けするグループ分類部と、
新たな文書帳票の前記個別第二特徴量が予め記録された前記グループ第二特徴量内のいずれにも一致しない場合、予め記録された前記グループ第一特徴量内から、前記新たな文書帳票の前記個別第一特徴量と一致する特定第一特徴量を特定し、前記特定第一特徴量が示す書式を前記新たな文書帳票の書式とする制御部と、を有し、
前記記録装置は、
前記画像処理装置から前記文字認識結果を取得する文字認識取得部と、
前記文字認識結果を前記データベースに記録する文字認識記録部と、を有し、
前記データベースは、
前記記録装置から取得した前記文字認識結果を記録する記録テーブルを有する。
The system according to the present disclosure is
Equipped with an image processing device, an image reading device, a recording device, and a database,
The image reading device includes:
a reading output unit that optically acquires image data of a document form and outputs the image data to the image processing device;
The image processing device includes:
The image data of the document form is character-recognized, and an individual first feature amount indicating a feature of a recorded character string included in the document form and an individual second feature amount indicating recognition information of a non-recorded character string included in the document form are provided. a feature amount extraction unit that extracts the feature amount;
a processing output unit that outputs the character recognition result of the character recognition to the recording device;
a group classification unit that groups the document form into a group first feature amount including a plurality of the individual first feature amounts and a group second feature amount including a plurality of the individual second feature amounts;
If the individual second feature of the new document form does not match any of the pre-recorded group second features, the new document form is selected from among the pre-recorded group first features. a control unit that specifies a specific first feature amount that matches the individual first feature amount, and sets a format indicated by the specific first feature amount as a format of the new document form;
The recording device includes:
a character recognition acquisition unit that acquires the character recognition result from the image processing device;
a character recognition recording unit that records the character recognition results in the database;
The database is
It has a recording table that records the character recognition results obtained from the recording device.

本開示に係る方法は、
文書帳票に含まれる記録文字列の特徴を示す個別第一特徴量と、前記文書帳票に含まれる非記録文字列の認識情報を示す個別第二特徴量と、を抽出することと、
前記文書帳票を、複数の前記個別第一特徴量を含むグループ第一特徴量と、複数の前記個別第二特徴量を含むグループ第二特徴量と、にグループ分けすることと、
新たな文書帳票の前記個別第二特徴量が予め記録された前記グループ第二特徴量内のいずれにも一致しない場合、予め記録された前記グループ第一特徴量内から、前記新たな文書帳票の前記個別第一特徴量と一致する特定第一特徴量を特定し、前記特定第一特徴量が示す書式を前記新たな文書帳票の書式とすることと、
を備える。
The method according to the present disclosure includes:
extracting an individual first feature amount indicating a feature of a recorded character string included in a document form, and an individual second feature amount indicating recognition information of a non-recorded character string included in the document form;
Grouping the document form into a group first feature amount including a plurality of the individual first feature amounts and a group second feature amount including a plurality of the individual second feature amounts;
If the individual second feature of the new document form does not match any of the group second features recorded in advance, the new document form's individual second feature is selected from among the group first features recorded in advance. identifying a specific first feature amount that matches the individual first feature amount, and setting a format indicated by the specific first feature amount as a format of the new document form;
Equipped with

本開示に係るプログラムは、
文書帳票に含まれる記録文字列の特徴を示す個別第一特徴量と、前記文書帳票に含まれる非記録文字列の認識情報を示す個別第二特徴量と、を抽出することと、
前記文書帳票を、複数の前記個別第一特徴量を含むグループ第一特徴量と、複数の前記個別第二特徴量を含むグループ第二特徴量と、にグループ分けすることと、
新たな文書帳票の前記個別第二特徴量が予め記録された前記グループ第二特徴量内のいずれにも一致しない場合、予め記録された前記グループ第一特徴量内から、前記新たな文書帳票の前記個別第一特徴量と一致する特定第一特徴量を特定し、前記特定第一特徴量が示す書式を前記新たな文書帳票の書式とすることと、
をコンピュータに実行させる。
The program related to this disclosure is
extracting an individual first feature amount indicating a feature of a recorded character string included in a document form, and an individual second feature amount indicating recognition information of a non-recorded character string included in the document form;
Grouping the document form into a group first feature amount including a plurality of the individual first feature amounts and a group second feature amount including a plurality of the individual second feature amounts;
If the individual second feature of the new document form does not match any of the group second features recorded in advance, the new document form's individual second feature is selected from among the group first features recorded in advance. identifying a specific first feature amount that matches the individual first feature amount, and setting a format indicated by the specific first feature amount as a format of the new document form;
have the computer execute it.

本開示によれば、記録対象ではない文字列が少ない文書帳票やエンブレム画像がない文書帳票であっても、文書帳票の書式を判別することが可能な画像処理装置、システム、方法、及びプログラムを提供することができる。 According to the present disclosure, there is provided an image processing device, a system, a method, and a program capable of determining the format of a document form even if the document form has few character strings that are not to be recorded or the document form does not have an emblem image. can be provided.

実施の形態に係るシステムを例示するブロック図である。FIG. 1 is a block diagram illustrating a system according to an embodiment. 実施の形態に係る画像処理装置を例示するブロック図である。FIG. 1 is a block diagram illustrating an image processing device according to an embodiment. 実施の形態に係る画像処理装置を例示するブロック図である。FIG. 1 is a block diagram illustrating an image processing device according to an embodiment. 文書帳票を例示する模式図である。FIG. 2 is a schematic diagram illustrating a document form. データベースが記録する記録テーブルの概要を例示する図である。FIG. 2 is a diagram illustrating an overview of a record table recorded by a database. 実施の形態に係る画像処理装置の動作を例示するフローチャートである。3 is a flowchart illustrating the operation of the image processing apparatus according to the embodiment. 実施の形態に係る画像処理装置の動作を例示するフローチャートである。3 is a flowchart illustrating the operation of the image processing apparatus according to the embodiment. 実施の形態に係る画像処理装置の動作を例示するフローチャートである。3 is a flowchart illustrating the operation of the image processing apparatus according to the embodiment.

以下、図面を参照して本発明の実施の形態について説明する。各図面において、同一又は対応する要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明を省略する。 Embodiments of the present invention will be described below with reference to the drawings. In each drawing, the same or corresponding elements are denoted by the same reference numerals, and for clarity of explanation, redundant explanation will be omitted as necessary.

[実施の形態]
<システム>
実施の形態に係るシステムを説明する。
図1は、実施の形態に係るシステムを例示するブロック図である。
[Embodiment]
<System>
A system according to an embodiment will be described.
FIG. 1 is a block diagram illustrating a system according to an embodiment.

図1に示すように、システム10は、画像処理装置1、画像読取装置2、記録装置3、及びデータベース4を備える。画像処理装置1は、画像読取装置2と通信ケーブルにより接続される。画像処理装置1は、記録装置3と接続される。画像読取装置2は、記録装置3と接続される。データベース4は、画像処理装置1と記録装置3とに接続される。 As shown in FIG. 1, the system 10 includes an image processing device 1, an image reading device 2, a recording device 3, and a database 4. The image processing device 1 is connected to the image reading device 2 by a communication cable. The image processing device 1 is connected to the recording device 3. The image reading device 2 is connected to the recording device 3. The database 4 is connected to the image processing device 1 and the recording device 3.

画像読取装置2は、光学的に文書帳票などの画像データを取得して画像処理装置1へ出力する読取出力部(図示せず)を有する。 The image reading device 2 has a reading output section (not shown) that optically acquires image data such as a document form and outputs it to the image processing device 1.

画像処理装置1は、文書帳票の画像データをOCR処理し文字認識する特徴量抽出生成部と、文字認識した文字認識結果を記録装置3に出力する処理出力部(図示せず)と、を有する。画像処理装置1の詳細については、後述する。 The image processing device 1 includes a feature amount extraction generation unit that performs OCR processing on image data of a document form to recognize characters, and a processing output unit (not shown) that outputs the character recognition result of character recognition to the recording device 3. . Details of the image processing device 1 will be described later.

記録装置3は、文字認識取得部(図示せず)と、文字認識記録部(図示せず)とを有する。文字認識取得部は、画像処理装置1から文字認識結果を取得する。文字認識記録部は、取得した文字認識結果をデータベース4に記録する。 The recording device 3 includes a character recognition acquisition section (not shown) and a character recognition recording section (not shown). The character recognition acquisition unit acquires character recognition results from the image processing device 1 . The character recognition recording unit records the acquired character recognition results in the database 4.

データベース4は、記録テーブル(図示せず)を有する。記録テーブルは、記録装置3から取得した文字認識結果を記録する。具体的には、データベース4は、記録装置3から過去に登録された複数の文書帳票の画像データとその画像データに含まれる文字列のうち、記録対象となる文字列を示す記録文字列の対応関係を記録する。記録文字列が示す文字列は、文書帳票に記載される文字列のうちデータベース4に記録、保存しておくべき重要な文字列である。すなわち、記録文字列とは、記録対象となる文字列を示す。なお、非記録文字列とは、表形式の書式帳票などの、記録対称とならない文字列を示す。 Database 4 has a record table (not shown). The recording table records the character recognition results obtained from the recording device 3. Specifically, the database 4 stores the correspondence between image data of a plurality of document forms registered in the past from the recording device 3 and recorded character strings indicating character strings to be recorded among character strings included in the image data. Record relationships. The character string indicated by the recorded character string is an important character string that should be recorded and saved in the database 4 among the character strings written in the document form. That is, the recorded character string indicates a character string to be recorded. Note that the non-recorded character string refers to a character string that is not to be recorded, such as a tabular form form.

システム10を使用する作業者は、予め、記録装置3を用いて過去に登録された複数の文書帳票の画像データと、その画像データに含まれる文字列のうちの記録文字列と、をデータベース4の記録テーブルに登録する。記録装置3には、文書帳票の画像データと、その画像データに含まれる文字列の情報のうち記録対象となる文字列を示す記録文字列の情報と、の対応関係が、複数の文書帳票について十分に記録されているものとする。記録テーブルについては、後述する。 An operator using the system 10 uses the recording device 3 to store in advance image data of a plurality of document forms registered in the past and recorded character strings among the character strings included in the image data in the database 4. Register in the record table. The recording device 3 stores the correspondence relationship between the image data of a document form and the recorded character string information indicating the character string to be recorded among the character string information included in the image data, for a plurality of document forms. shall be adequately recorded. The recording table will be described later.

<画像処理装置>
実施の形態に係る画像処理装置を説明する。
図2は、実施の形態に係る画像処理装置を例示するブロック図である。
図2は、実施の形態に係る画像処理装置の最小構成を例示するブロック図である。
図3は、実施の形態に係る画像処理装置を例示するブロック図である。
<Image processing device>
An image processing device according to an embodiment will be described.
FIG. 2 is a block diagram illustrating an image processing apparatus according to an embodiment.
FIG. 2 is a block diagram illustrating the minimum configuration of the image processing device according to the embodiment.
FIG. 3 is a block diagram illustrating an image processing apparatus according to an embodiment.

図2に示すように、実施の形態に係る画像処理装置1は、制御部101、特徴量抽出生成部100、読取対象特徴量生成部104、及びグループ分類部106を備える。特徴量抽出生成部100は、特徴量抽出部103と、読取対象特徴量生成部104と、を有する。また、図3に示すように、実施の形態に係る画像処理装置1は、取得部102、記録部105、及びグループ特定部107をさらに備える。 As shown in FIG. 2, the image processing device 1 according to the embodiment includes a control section 101, a feature extraction generation section 100, a reading target feature generation section 104, and a group classification section 106. The feature extraction generation unit 100 includes a feature extraction unit 103 and a reading target feature generation unit 104. Further, as shown in FIG. 3, the image processing apparatus 1 according to the embodiment further includes an acquisition section 102, a recording section 105, and a group identification section 107.

制御部101は、取得部102、特徴量抽出部103、読取対象特徴量生成部104、記録部105、グループ分類部106、及びグループ特定部107を制御する。 The control unit 101 controls the acquisition unit 102 , the feature extraction unit 103 , the reading target feature generation unit 104 , the recording unit 105 , the group classification unit 106 , and the group identification unit 107 .

取得部102は、文書帳票の画像データと、文書帳票に含まれる記録文字列と、をデータベース4から取得する。また、取得部102は、新たな文書帳票の画像データを画像読取装置2から取得する。 The acquisition unit 102 acquires image data of a document form and recorded character strings included in the document form from the database 4. The acquisition unit 102 also acquires image data of a new document form from the image reading device 2.

特徴量抽出部103は、文書帳票に含まれる文字列の特徴を示す特徴量を抽出する。読取対象特徴量生成部104は、特徴量抽出部103が抽出した特徴量に基づいて、文書帳票に含まれる記録文字列の特徴を示す個別第一特徴量と、非記録文字列の特徴を示す個別第二特徴量と、を生成する。 The feature amount extraction unit 103 extracts feature amounts indicating characteristics of character strings included in a document form. The reading target feature generating unit 104 generates an individual first feature indicating the feature of the recorded character string included in the document form and a feature of the non-recorded character string based on the feature extracted by the feature extracting unit 103. Generate an individual second feature quantity.

すなわち、特徴量抽出生成部100は、文書帳票の画像データをOCR処理し、文書帳票の画像データの文字認識処理結果(OCR処理結果)に基づいて、文書帳票に含まれる記録文字列の特徴を示す個別第一特徴量を抽出する。特徴量抽出生成部100は、文書帳票に含まれる非記録文字列の認識情報を示す個別第二特徴量を抽出する。 That is, the feature amount extraction generation unit 100 performs OCR processing on the image data of the document form, and extracts the characteristics of the recorded character string included in the document form based on the character recognition processing result (OCR processing result) of the image data of the document form. Extract the individual first feature shown. The feature quantity extraction generation unit 100 extracts an individual second feature quantity indicating recognition information of a non-recorded character string included in a document form.

また、特徴量抽出生成部100は、複数の文書帳票の画像データに対応する個別第一特徴量と、個別第二特徴量と、を文書帳票毎かつ文字列毎に抽出する。特徴量抽出生成部100による個別第一特徴量と個別第二特徴量の具体的な抽出方法は、後述する。 Further, the feature quantity extraction generation unit 100 extracts an individual first feature quantity and an individual second feature quantity corresponding to image data of a plurality of document forms for each document form and for each character string. A specific method for extracting the individual first feature amount and the individual second feature amount by the feature amount extraction generation unit 100 will be described later.

グループ分類部106は、文書帳票を、複数の個別第一特徴量を含むグループ第一特徴量と、複数の個別第二特徴量を含むグループ第二特徴量と、にグループ分けする。 The group classification unit 106 groups the document form into a group first feature amount that includes a plurality of individual first feature amounts and a group second feature amount that includes a plurality of individual second feature amounts.

制御部101は、取得部102が取得した新たな文書帳票の個別第二特徴量が予め記録されたグループ第二特徴量内の複数の個別第二特徴量のいずれかに一致するかを確認する。制御部101は、確認した結果、いずれにも一致しない場合、予め記録されたグループ第一特徴量内の複数の個別第一特徴量から、新たな文書帳票の個別第一特徴量と一致する特定第一特徴量を特定する。制御部101は、特定した特定第一特徴量が示す書式を新たな文書帳票の書式とする。 The control unit 101 checks whether the individual second feature of the new document form acquired by the acquisition unit 102 matches any of the plurality of individual second features in the group second feature recorded in advance. . As a result of the confirmation, if there is no match, the control unit 101 selects a specific first feature that matches the individual first feature of the new document form from a plurality of individual first features in the group first feature recorded in advance. Identify the first feature. The control unit 101 sets the format indicated by the identified specific first feature amount as the format of a new document form.

グループ特定部107は、新たな文書帳票の個別第一特徴量が含まれるグループを特定する。グループ特定部107は、新たな文書帳票の個別第二特徴量が含まれるグループを特定する。 The group specifying unit 107 specifies a group that includes the individual first feature amount of the new document form. The group identifying unit 107 identifies a group that includes the individual second feature amount of the new document form.

記録部105は、文書帳票と、文書帳票の個別第一特徴量と、を対応付けて記録し、文書帳票と、文書帳票の個別第二特徴量と、を対応付けて記録する。記録部105は、新たな文書帳票についても同様に、新たな文書帳票とその個別第一特徴量とを対応付けて記録し、新たな文書帳票とその個別第二特徴量とを対応付けて記録する。 The recording unit 105 records the document form and the individual first feature amount of the document form in association with each other, and records the document form and the individual second feature amount of the document form in association with each other. Similarly, for the new document form, the recording unit 105 records the new document form and its individual first feature amount in association with each other, and records the new document form and its individual second feature amount in association with each other. do.

実施の形態に係る画像処理装置1は、新たな文書帳票の個別第二特徴量が予め記録されたグループ第二特徴量内のいずれにも一致しない場合、予め記録されたグループ第一特徴量内から、新たな文書帳票の個別第一特徴量と一致する特定第一特徴量を特定し、特定第一特徴量が示す書式を新たな文書帳票の書式とする。 If the individual second feature of a new document form does not match any of the pre-recorded group second features, the image processing device 1 according to the embodiment selects the pre-recorded group first feature. , a specific first feature amount that matches the individual first feature amount of the new document form is specified, and the format indicated by the specific first feature amount is set as the format of the new document form.

これにより、実施の形態によれば、記録対象ではない文字列が少ない文書帳票やエンブレム画像がない文書帳票であっても、文書帳票の書式を判別することが可能な画像処理装置、システム、方法、及びプログラムを提供することができる。 As a result, according to the embodiment, an image processing device, system, and method are capable of determining the format of a document form even if the document form has only a few character strings that are not to be recorded or the document form does not have an emblem image. , and programs can be provided.

<文書帳票とデータベース>
文書帳票とデータベースとの関係を説明する。
図4は、文書帳票を例示する模式図である。
図5は、データベースが記録する記録テーブルの概要を例示する図である。
<Document forms and database>
The relationship between document forms and databases will be explained.
FIG. 4 is a schematic diagram illustrating a document form.
FIG. 5 is a diagram illustrating an outline of a record table recorded by the database.

図4に示すように、文書帳票5には、その文書を作成した企業のマーク、作成日、作成担当者、文書内容が、その文書帳票5に特有のフォーマットで記載されている。文書帳票5に記載された文書内容は、例えば、文書帳票5が発注票であれば、1つまたは複数の発注した商品名やその発注個数などの情報の組である。記録文字列(記録対象である文字列)とは、例えば、図4に示す日付51、発注先52、商品名53、数量54、金額55である。非記録文字列(記録対象ではない文字列)とは、例えば、図4に示す発注者の名称501、発注者のエンブレム画像502、文書帳票のタイトル503、挨拶文504である。 As shown in FIG. 4, the document form 5 includes the mark of the company that created the document, the date of creation, the person in charge of creation, and the content of the document in a format specific to the document form 5. For example, if the document form 5 is an order form, the document content written in the document form 5 is a set of information such as the name of one or more ordered products and the number of items ordered. The recorded character string (character string to be recorded) is, for example, a date 51, a supplier 52, a product name 53, a quantity 54, and an amount 55 shown in FIG. Non-recorded character strings (character strings that are not to be recorded) include, for example, the name 501 of the orderer, the emblem image 502 of the orderer, the title 503 of the document form, and the greeting 504 shown in FIG.

図5に示すように、データベース4の記録テーブルには、異なる複数の文書帳票についての画像データと、各文書帳票に記載されている特定の記録文字列の対応関係(組み合わせ)が、その文書帳票ごとに予め多数記録されている。具体的には、データベース4の記録テーブルには、異なる複数の文書帳票のそれぞれについての特定の記録文字列情報が複数枚分記録されている。データベース4の記録テーブルには、文書帳票を識別する帳票IDと、文書帳票の画像データと、その文書帳票に記載されている文字列のうち記録すべき特定の記録文字列と、が対応付けられて記録されている。1つの文書帳票に対応する記録文字列は、複数個あってもよい。このように、記録テーブルには、文書帳票に対応する帳票IDと、文書帳票に対応する画像データと、文書帳票に対応する1つ以上の記録文字列と、が、文書帳票ごとに記録されている。 As shown in FIG. 5, in the record table of the database 4, the correspondence relationship (combination) between image data for a plurality of different document forms and specific record character strings written in each document form is stored in the record table of the database 4. A large number of data are recorded in advance. Specifically, in the record table of the database 4, specific recorded character string information for each of a plurality of different document forms is recorded for a plurality of sheets. In the record table of the database 4, a form ID for identifying a document form, image data of the document form, and a specific record character string to be recorded among the character strings written in the document form are associated with each other. recorded. There may be a plurality of recorded character strings corresponding to one document form. In this way, in the recording table, a form ID corresponding to a document form, image data corresponding to a document form, and one or more record character strings corresponding to a document form are recorded for each document form. There is.

<画像処理装置の動作>
実施の形態に係る画像処理装置の動作を説明する。
図6は、実施の形態に係る画像処理装置の動作を例示するフローチャートである。
図7Aは、実施の形態に係る画像処理装置の動作を例示するフローチャートである。
図7Bは、実施の形態に係る画像処理装置の動作を例示するフローチャートである。
<Operation of image processing device>
The operation of the image processing device according to the embodiment will be described.
FIG. 6 is a flowchart illustrating the operation of the image processing apparatus according to the embodiment.
FIG. 7A is a flowchart illustrating the operation of the image processing apparatus according to the embodiment.
FIG. 7B is a flowchart illustrating the operation of the image processing apparatus according to the embodiment.

作業者は、データベース4に予め文書帳票(図4参照)ごとに、画像データ及び記録文字列等が記録された状態で(図5参照)、画像処理装置1を起動し、画像処理装置1へ処理開始を指示する。 The operator starts up the image processing device 1, with image data and recorded character strings etc. recorded in advance for each document form (see FIG. 4) in the database 4 (see FIG. 5), and transfers data to the image processing device 1. Instructs to start processing.

作業者が処理開始を指示すると、図6に示すように、画像処理装置1の取得部102は、データベース4から文書帳票5の画像データと、その画像データに対応する記録文字列の情報と、を全て読み込んだかを判定する(ステップS101)。 When the operator instructs to start processing, as shown in FIG. 6, the acquisition unit 102 of the image processing device 1 obtains the image data of the document form 5 from the database 4, information on the recorded character string corresponding to the image data, and It is determined whether all have been read (step S101).

ステップS101においてNOの場合、取得部102は、データベース4から文書帳票5の画像データと、その画像データに対応する記録文字列の情報と、を読み取る(ステップS102)。取得部102は、画像データと記録文字列とを特徴量抽出部103へ出力する。 If NO in step S101, the acquisition unit 102 reads the image data of the document form 5 and the recorded character string information corresponding to the image data from the database 4 (step S102). The acquisition unit 102 outputs the image data and the recorded character string to the feature amount extraction unit 103.

特徴量抽出部103は、画像データをOCR処理して画像データ中の全ての文字列と、当該文字列の範囲を示す画像データ内の座標を検出する(ステップS103)。なお、文字列とは、複数の文字によって構成される文字の纏まりのことである。特徴量抽出部103は、他の文字との間隔などによって、その1つの纏まりの範囲を解析し、その範囲に含まれる1つまたは複数の文字を文字列として抽出すると共に、その画像データ内の文字列の範囲を示す座標を検出する。文字列に含まれる文字には、表意文字、表音文字などの記号、マーク、アイコン画像などを含んでよい。 The feature extraction unit 103 performs OCR processing on the image data to detect all character strings in the image data and coordinates in the image data indicating the range of the character strings (step S103). Note that a character string is a group of characters composed of a plurality of characters. The feature extracting unit 103 analyzes the range of one group based on the spacing with other characters, extracts one or more characters included in the range as a character string, and extracts the characters in the image data. Detects coordinates that indicate the range of a string. The characters included in the character string may include symbols such as ideograms and phonetic characters, marks, icon images, and the like.

特徴量抽出部103は、OCR処理により画像データから抽出した文字列と、画像データと共にデータベース4から読み取った記録文字列と、を比較する。特徴量抽出部103は、OCR処理により画像データから抽出した文字列のうち、記録文字列の文字情報と一致した画像データ中の文字列と、その文字列に含まれる文字の属性と、その範囲の座標とを特定する(ステップS104)。 The feature extraction unit 103 compares the character string extracted from the image data by OCR processing and the recorded character string read from the database 4 together with the image data. The feature extraction unit 103 extracts character strings in the image data that match the character information of the recorded character strings, the attributes of the characters included in the character strings, and the ranges thereof, among the character strings extracted from the image data by OCR processing. (step S104).

文字の属性は、数字、アルファベット、ひらがな、漢字、文字数、文字高さ、フォントなどにより表される情報である。また、文字列の範囲の座標は、文字列に含まれる先頭文字の座標、終了文字の座標などを示す情報である。文字の属性を記録文字列の属性情報と称し、文字列の範囲の座標を記録文字列の座標情報と称することもある。 Character attributes are information expressed by numbers, alphabets, hiragana, kanji, number of characters, character height, font, etc. Further, the coordinates of the range of a character string are information indicating the coordinates of the first character, the coordinates of the end character, etc. included in the character string. The attributes of a character may be referred to as attribute information of a recorded character string, and the coordinates of the range of a character string may be referred to as coordinate information of a recorded character string.

特徴量抽出部103は、それら特定した情報を含む特徴量を1つの文書帳票5について生成する(ステップS105)。特徴量は、特徴量抽出部103によって、文書帳票5における記録文字列ごとに生成される。すなわち、特徴量抽出部103は、文書帳票毎かつ記録文字列毎に特徴量を生成する。この文書帳票毎かつ記録文字列毎の特徴量を、個別第一特徴量と称する。個別第一特徴量は、文字の属性、文字列の範囲を示す座標の何れか一方または両方を含んでいてもよい。 The feature amount extraction unit 103 generates a feature amount including the identified information for one document form 5 (step S105). The feature amount is generated for each recorded character string in the document form 5 by the feature amount extraction unit 103. That is, the feature amount extraction unit 103 generates a feature amount for each document form and each recorded character string. This feature amount for each document form and each recorded character string is referred to as an individual first feature amount. The individual first feature amount may include one or both of character attributes and coordinates indicating a range of character strings.

特徴量抽出部103は、個々の文書帳票5における1つ又は複数の記録文字列それぞれの個別第一特徴量を、文書帳票5の識別子(帳票ID)および記録文字列の識別子に対応付けてデータベース4に記録する(ステップS106)。 The feature amount extraction unit 103 associates the individual first feature amounts of one or more recorded character strings in each document form 5 with the identifier (form ID) of the document form 5 and the identifier of the recorded character string, and stores them in a database. 4 (step S106).

記録文字列の識別子として、例えば、その記録文字列の位置を示す座標値を用いることができる。特徴量抽出部103は、図4に示す文書帳票5に含まれる記録文字列である日付51、発注先52、商品名53、数量54、金額55それぞれの、文字属性、文字列の範囲を示す座標などを示す各個別第一特徴量を、文書帳票5の識別子および記録文字列の識別子に対応付けてデータベース4に記録する。 As the identifier of the recorded character string, for example, coordinate values indicating the position of the recorded character string can be used. The feature extraction unit 103 indicates the character attributes and character string ranges of the date 51, supplier 52, product name 53, quantity 54, and amount 55, which are recorded character strings included in the document form 5 shown in FIG. Each individual first feature indicating coordinates etc. is recorded in the database 4 in association with the identifier of the document form 5 and the identifier of the recorded character string.

また、特徴量抽出部103は、記録文字列に含まれる文字情報と一致しない画像データ中の非記録文字列と、その非記録文字列に含まれる文字の属性と、その範囲の座標と、を特定する(ステップS107)。 In addition, the feature extraction unit 103 extracts non-recorded character strings in the image data that do not match the character information included in the recorded character strings, the attributes of the characters included in the non-recorded character strings, and the coordinates of the range. Specify (step S107).

特徴量抽出部103は、それら特定した情報を含む特徴量を1つの文書帳票5について生成する(ステップS108)。特徴量は、特徴量抽出部103によって、文書帳票5における非記録文字列ごとに生成される。すなわち、特徴量抽出部103は、文書帳票毎かつ非記録文字列毎に特徴量を生成する。この文書帳票毎かつ非記録文字列毎の特徴量を、個別第二特徴量と称する。個別第二特徴量は、文字の属性、文字列の範囲を示す座標の何れか一方または両方を含んでいてもよい。 The feature amount extraction unit 103 generates a feature amount including the identified information for one document form 5 (step S108). The feature amount is generated for each non-recorded character string in the document form 5 by the feature amount extraction unit 103. That is, the feature extraction unit 103 generates a feature for each document form and for each non-recorded character string. This feature quantity for each document form and for each non-recorded character string is referred to as an individual second feature quantity. The individual second feature amount may include either or both of character attributes and coordinates indicating a range of character strings.

特徴量抽出部103は、個々の文書帳票5における1つ又は複数の非記録文字列それぞれの個別第二特徴量を、文書帳票5の識別子および非記録文字列の識別子に対応付けてデータベース4に記録する(ステップS109)。 The feature amount extraction unit 103 associates the individual second feature amounts of one or more non-recorded character strings in each document form 5 with the identifier of the document form 5 and the identifier of the non-recorded character string, and stores them in the database 4. Record (step S109).

非記録文字列の識別子として、例えば、その非記録文字列の位置を示す座標値を用いることができる。特徴量抽出部103は、図4に示す文書帳票5に含まれる非記録文字列である発注者の名称501、発注者のエンブレム画像502、文書帳票のタイトル503、挨拶文504などを示す各個別第二特徴量を、文書帳票5の識別子および非記録文字列の識別子に対応付けてデータベース4に記録する。 As the identifier of the non-recorded character string, for example, coordinate values indicating the position of the non-recorded character string can be used. The feature amount extraction unit 103 extracts each individual character string that is included in the document form 5 shown in FIG. The second feature quantity is recorded in the database 4 in association with the identifier of the document form 5 and the identifier of the non-recorded character string.

データベース4には、異なる複数の文書帳票5の画像データと、その画像データに対応する記録文字列の情報と、が記録されている。画像処理装置1の取得部102は、全ての文書帳票5についての画像データと記録文字列の情報を読み込むまでステップS101からステップS109の処理を繰り返す。 The database 4 records image data of a plurality of different document forms 5 and information on recorded character strings corresponding to the image data. The acquisition unit 102 of the image processing device 1 repeats the processing from step S101 to step S109 until the image data and recorded character string information for all document forms 5 are read.

ステップS101において、取得部102が文書帳票5についての画像データと記録文字列の情報を全て読み込んだと判定した場合(ステップS101:YES)、グループ分類部106は、文書帳票5の画像データに含まれる個別第二特徴量と個別第一特徴量に基づいて、文書帳票5をグループ分けする(ステップS112)。 In step S101, if the acquisition unit 102 determines that all of the image data and recorded character string information regarding the document form 5 have been read (step S101: YES), the group classification unit 106 determines whether the information contained in the image data of the document form 5 includes The document form 5 is divided into groups based on the individual second feature amount and the individual first feature amount (step S112).

グループ分類部106は、例えば、各文書帳票5を、個別第二特徴量が示す非記録文字列の一致度や、エンブレム画像の一致度、非記録文字列の座標範囲の一致度などに基づいてグループ分けする。また、グループ分類部106は、個別第一特徴量が示す記録文字列の特徴(文字の属性、文字数、文字高さ、フォント)の類似度などに基づいて、グループ分けをする。このように、グループ分類部106は、個別第二特徴量だけでなく、個別第一特徴量にも基づいて、文書帳票5をグループ分けする。グループ分類部106は、このグループ分けの処理において文書帳票5のグループ識別子を決定する。 For example, the group classification unit 106 classifies each document form 5 based on the degree of matching of non-recorded character strings indicated by the individual second feature amount, the degree of matching of emblem images, the degree of matching of coordinate ranges of non-recorded character strings, etc. Divide into groups. Furthermore, the group classification unit 106 groups the recorded character strings based on the similarity of the characteristics (character attributes, number of characters, character height, font) of the recorded character strings indicated by the individual first feature amounts. In this way, the group classification unit 106 groups the document form 5 based not only on the individual second feature amount but also on the individual first feature amount. The group classification unit 106 determines the group identifier of the document form 5 in this grouping process.

グループ分類部106は、全ての文書帳票5についてグループ分けが終了したかを判定する(ステップS113)。グループ分類部106は、全ての文書帳票5のグループ分けが完了していない場合には(ステップS113:NО)、ステップS112の処理を繰り返す。 The group classification unit 106 determines whether grouping has been completed for all document forms 5 (step S113). If grouping of all document forms 5 is not completed (step S113: NO), the group classification unit 106 repeats the process of step S112.

グループ分類部106は、全ての文書帳票5のグループ分けが完了した場合には(ステップS113:YES)、文書帳票5の識別子とその文書帳票5に付与されたグループ識別子とを対応付けてデータベース4の記録テーブルに記録する(ステップS114)。 When the grouping of all the document forms 5 is completed (step S113: YES), the group classification unit 106 associates the identifier of the document form 5 with the group identifier assigned to the document form 5 and stores it in the database. is recorded in the recording table (step S114).

読取対象特徴量生成部104は、あるグループに属する1つまたは複数の文書帳票5の各個別第一特徴量および各個別第二特徴量をデータベース4から読み取る。読取対象特徴量生成部104は、グループに属する文書帳票5の各個別第一特徴量および各個別第二特徴量に対応する各グループ第一特徴量、各グループ第二特徴量を生成する(ステップS115)。 The reading target feature generating unit 104 reads each individual first feature and each individual second feature of one or more document forms 5 belonging to a certain group from the database 4 . The reading target feature amount generation unit 104 generates each group first feature amount and each group second feature amount corresponding to each individual first feature amount and each individual second feature amount of the document forms 5 belonging to the group (step S115).

読取対象特徴量生成部104は、グループそれぞれについて各グループ第一特徴量、各グループ第二特徴量を算出し、グループの識別子に対応付けてデータベース4に記録する(ステップS116)。 The reading target feature amount generation unit 104 calculates a first feature amount for each group and a second feature amount for each group for each group, and records them in the database 4 in association with the group identifier (step S116).

次に、図7Aに示すように、作業者は、新たな文書帳票を画像読取装置2に読み取らせる操作を行う。これにより、画像読取装置2は、新たな文書帳票の画像データを生成して画像処理装置1へ出力する。画像処理装置1の取得部102は、新たな文書帳票の画像データを画像読取装置2から取得する(ステップS201)。 Next, as shown in FIG. 7A, the operator performs an operation to cause the image reading device 2 to read a new document form. Thereby, the image reading device 2 generates image data of a new document form and outputs it to the image processing device 1. The acquisition unit 102 of the image processing device 1 acquires image data of a new document form from the image reading device 2 (step S201).

取得部102は、新たな文書帳票の画像データを特徴量抽出部103へ出力する。特徴量抽出部103は、新たな文書帳票の画像データをOCR処理して、文字列と、文字列に含まれる文字の特徴と、その文字列の範囲の画像データ中の座標と、を検出する(ステップS202)。 The acquisition unit 102 outputs the image data of the new document form to the feature amount extraction unit 103. The feature amount extraction unit 103 performs OCR processing on the image data of the new document form to detect a character string, the characteristics of the characters included in the character string, and the coordinates in the image data of the range of the character string. (Step S202).

特徴量抽出部103は、それら検出した情報を含む第三特徴量を、新たな文書帳票の画像データ中の文字列ごとに生成する(ステップS203)。新たに読み込んだ画像データの文書帳票に含まれる文字列の特徴を示す情報を、第三特徴量と称する。 The feature extraction unit 103 generates a third feature including the detected information for each character string in the image data of the new document form (step S203). Information indicating the characteristics of the character string included in the document form of the newly read image data is referred to as a third feature amount.

グループ特定部107は、データベース4から、ある複数のグループ第二特徴量のうち、新たな文書帳票のグループを特定するために使用するグループ第二特徴量を読み取る(ステップS2031)。当該グループ第二特徴量は、例えば、文書帳票の画像データに表示される発注者のエンブレム画像502(図4参照)に対応する個別第二特徴量であってよい。 The group identifying unit 107 reads, from the database 4, a group second feature used to identify a new group of document forms from among a plurality of group second features (step S2031). The group second feature amount may be, for example, an individual second feature amount corresponding to the orderer's emblem image 502 (see FIG. 4) displayed in the image data of the document form.

グループ特定部107は、グループ第二特徴量に示す情報が、ステップS201で取得した新たな文書帳票の画像データから特定できるかどうかを判定する(ステップS2032)。グループ特定部107は、全てのグループについてのグループ第二特徴量を用いて同様の処理を行う。 The group identifying unit 107 determines whether the information indicated by the group second feature amount can be identified from the image data of the new document form acquired in step S201 (step S2032). The group specifying unit 107 performs similar processing using the group second feature amounts for all groups.

グループ特定部107は、データベース4から読み取ったグループ第二特徴量に一致する情報が、新たに読み込んだ文書帳票の画像データから特定できた場合(ステップS2032:YES)、そのグループ第二特徴量を有するグループを、新たに読み込んだ文書帳票の画像データのグループと特定する(ステップS2033)。特定したグループの第二特徴量が示す書式を新たな文書帳票の書式とする。 If information matching the group second feature read from the database 4 can be identified from the image data of the newly read document form (step S2032: YES), the group identifying unit 107 selects the group second feature. This group is identified as the group of image data of the newly read document form (step S2033). The format indicated by the second feature amount of the identified group is set as the format of the new document form.

しかしながら、非記録文字列の情報から作成される第二特徴量のグループを示すグループ第二特徴量については、表形式の書式帳票などの非記録文字列がない、あるいは、少ない場合に、正しくグループを判定することができない。 However, for the group second feature indicating a group of second features created from information on non-recorded character strings, if there are no or few non-recorded character strings such as in a tabular format form, the group cannot be correctly grouped. cannot be determined.

そこで、実施の形態に係る画像処理装置1は、全てのグループについてのグループ第二特徴量について、一致する情報が新たに読み込んだ文書帳票から特定できなかった場合(ステップS2032:NО)、グループ第一特徴量を用いてグループの特定を行う。 Therefore, in the image processing device 1 according to the embodiment, when matching information cannot be identified from the newly read document form for the group second feature amounts for all groups (step S2032: NO), the image processing device 1 Groups are identified using one feature.

具体的には、第二特徴量と同様に、あるグループの全ての記録文字列に関する第一特徴量の示す情報が、ステップS201で取得した新たな文書帳票の画像データから特定できるかどうかを判定する(ステップS2034)。 Specifically, similarly to the second feature amount, it is determined whether the information indicated by the first feature amount regarding all recorded character strings in a certain group can be specified from the image data of the new document form acquired in step S201. (Step S2034).

記録文字列の全ての種類でグループ第一特徴量と第三特徴量が一致する場合に(ステップS2034:YES)、同一のグループとして判定する。そして、そのグループ第一特徴量を有するグループを、新たに読み込んだ文書帳票の画像データのグループと特定する(ステップS204)。 If the group first feature amount and third feature amount match for all types of recorded character strings (step S2034: YES), it is determined that they are the same group. Then, the group having the first group feature amount is identified as the group of image data of the newly read document form (step S204).

一致する条件として、グループ第一特徴量のy座標(縦方向)の値は含まないようにする。すなわち、一致する条件として、y座標(縦方向)の値は比較せず、x座標(横方向)の値だけを比較する。これにより、表形式の文書帳票のように、y方向に表の長さが変化する場合でも、表の長さに影響されることなく判定することができる。 As a matching condition, the value of the y-coordinate (vertical direction) of the group first feature quantity is not included. That is, as a matching condition, only the x-coordinate (horizontal direction) value is compared without comparing the y-coordinate (vertical direction) value. Thereby, even if the length of the table changes in the y direction, such as in a tabular document form, determination can be made without being affected by the length of the table.

図4を用いて判定方法を説明すると、日付51から金額55までの記録文字列の全てと一致するグループ第一特徴量を、同一のグループとして判定する。そして、商品名53のように複数の候補がある場合、1つでも一致する候補があれば良いとする。 The determination method will be explained using FIG. 4. Group first feature amounts that match all of the recorded character strings from date 51 to amount 55 are determined to be the same group. If there are multiple candidates like the product name 53, it is sufficient that there is at least one matching candidate.

また、文書帳票の画像データと一致するグループ第一特徴量が、複数個存在する場合、一致する文字列が多いグループを、同一のグループとして判定する。 Furthermore, if there are a plurality of group first feature amounts that match the image data of the document form, the group that has the most matching character strings is determined to be the same group.

すなわち、画像処理装置1は、新たな文書帳票の個別第二特徴量が予め記録されたグループ第二特徴量内のいずれにも一致しない場合、予め記録されたグループ第一特徴量内から、新たな文書帳票の個別第一特徴量と一致する記録文字列の数が最も多い第一特徴量を、特定第一特徴量として特定してもよい。 That is, if the individual second feature of a new document form does not match any of the group second features recorded in advance, the image processing device 1 selects a new feature from among the group first features recorded in advance. The first feature amount that has the largest number of recorded character strings that match the individual first feature amount of the document form may be specified as the specific first feature amount.

ステップS204の後、図7Bに示すように、グループ特定部107は、データベース4からそのグループについての1つまたは複数のグループ第一特徴量を読み出す(ステップS205)。グループ特定部107は、記録部105へ第三特徴量と1つまたは複数のグループ第一特徴量を出力する。グループ第一特徴量は、そのグループに属する文書帳票内の1つまたは複数の記録文字列を特定するための特徴量である。 After step S204, as shown in FIG. 7B, the group identifying unit 107 reads one or more group first feature amounts for the group from the database 4 (step S205). The group specifying unit 107 outputs the third feature amount and one or more group first feature amounts to the recording unit 105. The group first feature amount is a feature amount for specifying one or more recorded character strings in the document form belonging to the group.

記録部105は、画像データ中の1つまたは複数の文字列についての第三特徴量と、1つまたは複数のグループ第一特徴量とを取得する。記録部105は各グループ第一特徴量に含まれる文字列の範囲を示す座標を用いて、各グループ第一特徴量が示す当該座標に対応する座標を有する第三特徴量が全て存在するかを判定する(ステップS206)。 The recording unit 105 acquires a third feature amount and one or more group first feature amounts for one or more character strings in the image data. The recording unit 105 uses the coordinates indicating the range of the character string included in each group first feature to determine whether all third features having coordinates corresponding to the coordinates indicated by each group first feature exist. Determination is made (step S206).

各グループ第一特徴量の座標に対応する座標を有する第三特徴量が全て存在する場合には、記録文字列に対応する文書帳票内の全ての記載事項に文字の記載が存在する。一方、各グループ第一特徴量の座標に対応する座標を有する第三特徴量が全て存在しない場合には、文書帳票内の何れかの記載事項に文字の記載が無い状態である。 If all the third feature amounts having coordinates corresponding to the coordinates of the first feature amount of each group are present, there are descriptions of characters in all entries in the document form corresponding to the recorded character string. On the other hand, if all the third feature amounts having coordinates corresponding to the coordinates of the first feature amount of each group do not exist, there is no character entry in any entry in the document form.

ステップS206でYESの場合、記録部105は、グループ第一特徴量に含まれる文字属性と、座標に基づいて特定された対応する第三特徴量に含まれる文字属性がそれぞれ一致するかどうかを判定する(ステップS207)。 If YES in step S206, the recording unit 105 determines whether the character attribute included in the group first feature amount and the character attribute included in the corresponding third feature amount specified based on the coordinates match each other. (Step S207).

記録部105は、ステップS207の判定結果がYESとなり文字属性が一致する場合、現在処理している画像データにおいて1つまたは複数の第三特徴量が示す座標に基づく記録文字列の範囲に矩形枠を表示した確認画面を生成する。記録部105は、その確認画面をモニタに出力する(ステップS208)。 If the determination result in step S207 is YES and the character attributes match, the recording unit 105 creates a rectangular frame in the range of the recorded character string based on the coordinates indicated by one or more third feature amounts in the image data currently being processed. Generates a confirmation screen that displays . The recording unit 105 outputs the confirmation screen to the monitor (step S208).

作業者は、この確認画面に表示された矩形領域を確認して、画像処理装置1が記録しようとする記録文字列を確認することができる。これにより、作業者は、記録文字列に不足が無いかを確認することができる。確認画面にはOKまたはNGの何れかのボタンのアイコン画像が表示されている。このボタンのアイコン画像のうちOKのボタンを選択することにより、作業者は、記録文字列としての選択に不足がないことを指示することができる。 The operator can check the rectangular area displayed on this confirmation screen and check the recording character string that the image processing device 1 is going to record. This allows the operator to check whether there is any shortage of recorded character strings. An icon image of either an OK or NG button is displayed on the confirmation screen. By selecting the OK button from among the icon images of the buttons, the operator can indicate that there is no shortage of selections for the recorded character strings.

他方、ボタンのアイコン画像のうちNGのボタンを選択することにより、作業者は、記録文字列としての選択に不足があることを指示することができる。記録部105は、作業者のボタンのアイコン画像の押下に応じて、記録文字列の選択に不足が無いかを判定する(ステップS209)。 On the other hand, by selecting an NG button from among the button icon images, the operator can indicate that the selection as a recorded character string is insufficient. The recording unit 105 determines whether the selection of recording character strings is sufficient in response to the button icon image pressed by the operator (step S209).

記録部105は、不足が無い場合には、第三特徴量に含まれる文字列を、文書帳票の識別情報に対応付けて記録テーブルに記録する(ステップS210)。 If there is no shortage, the recording unit 105 records the character string included in the third feature amount in the recording table in association with the identification information of the document form (step S210).

ステップS206でNOの場合、ステップS207でNOの場合、ステップS209でNOの場合、記録部105は、画像データ中の対応する座標の第三特徴量が存在しなかったグループ第一特徴量の座標の範囲に入力欄を設けた帳票画像の入力用画像データを生成してモニタに出力する(ステップS211)。 In the case of NO in step S206, in the case of NO in step S207, in the case of NO in step S209, the recording unit 105 stores the coordinates of the first feature of the group for which the third feature of the corresponding coordinate in the image data does not exist. Input image data of a form image with input fields provided in the range is generated and output to the monitor (step S211).

作業者は、この入力用画像データを見ながら、画像処理装置1のキーボード等の入力装置を操作して、モニタに表示されている入力用画像データ内の入力欄に記録文字列を入力する。当該入力用画像データには保存ボタン(記録ボタン)が表示されており、保存ボタンの押下操作をすると、記録部105は、既に文書帳票について取得した第三特徴量の他、新たに入力用画像データの入力欄に入力された文字列を含む第三特徴量を生成する(ステップS212)。記録部105は、帳票画像データの識別子と入力欄に入力された文字列とを対応付けてデータベース4に記録する。 While looking at this input image data, the operator operates an input device such as a keyboard of the image processing device 1 to input a recorded character string into an input field within the input image data displayed on the monitor. A save button (record button) is displayed on the input image data, and when the save button is pressed, the recording unit 105 records a new input image in addition to the third feature amount already acquired for the document form. A third feature amount including the character string input in the data input field is generated (step S212). The recording unit 105 records the identifier of the form image data and the character string input in the input field in the database 4 in association with each other.

画像処理装置1は、図6で示した処理フローを再度実施することにより、グループ第一特徴量およびグループ第二特徴量を更新し、記録できる文字列の範囲を拡張する。これにより、次に同じ文書帳票を処理したときには、自動的に文字列を記録でき、作業者が文字列を入力する手間を省くことができる。記録部105は、全ての第三特徴量それぞれに含まれる文字列を、文書帳票の記録テーブルに記録する(ステップS213)。 The image processing device 1 updates the group first feature amount and the group second feature amount and expands the range of recordable character strings by executing the processing flow shown in FIG. 6 again. As a result, the next time the same document form is processed, the character string can be automatically recorded, saving the operator the trouble of inputting the character string. The recording unit 105 records the character strings included in each of all the third feature amounts in the document form recording table (step S213).

画像処理装置1は、ステップS2031からステップS204に示したように、グループ分類部106に、グループ第一特徴量を用いた判定を加えることで、第二特徴量(非記録文字列)がない、あるいは、少ない表形式の文書帳票のような場合でも、文書帳票の書式を正しく判別することが可能になる。 As shown in steps S2031 to S204, the image processing device 1 adds determination using the group first feature amount to the group classification unit 106, thereby determining whether there is no second feature amount (non-recorded character string). Alternatively, even in the case of a document form with a small number of tabular forms, it is possible to correctly determine the format of the document form.

また、画像処理装置1は、予め作業者が記録しておいた複数の異なる文書帳票の画像データと記録文字列によって、新たに入力した文書帳票の種別によらずにその文書帳票の画像データにおける記録文字列を記録することができる。これにより、画像処理装置1は、文書帳票における記録文字列の記録の作業者の労力を軽減することができる。 In addition, the image processing device 1 uses the image data and recorded character strings of a plurality of different document forms recorded by the operator in advance, and uses the image data of the document form, regardless of the type of the newly input document form. Record strings can be recorded. Thereby, the image processing apparatus 1 can reduce the labor of the operator in recording the recorded character string in the document form.

<特徴>
以下に、実施の形態の特徴を記載する。
画像処理装置1は、文書帳票の書式の特定(判別)において、非記録文字列がない、あるいは、少ない表形式の文書帳票のような場合でも、記録文字列の属性(数字、アルファベット、ひらがな、漢字、文字数、文字高さ、フォントなど)、記録文字列の座標(文字列に含まれる先頭文字の座標、終了文字の座標など)に基づいて文書帳票毎に生成されたグループ個別第一特徴量を利用することで、文書帳票の書式を判別する。
<Features>
Features of the embodiment will be described below.
When specifying (discriminating) the format of a document form, the image processing device 1 uses the attributes of recorded character strings (numbers, alphabets, hiragana, Group individual first feature quantity generated for each document form based on the coordinates of the recorded character string (coordinates of the first character included in the character string, coordinates of the end character, etc.) By using , the format of the document form is determined.

尚、上記の実施の形態では、本発明をハードウェアの構成として説明したが、本発明はこれに限定されるものではない。本発明は、各構成要素の処理を、CPU(Central Processing Unit)にコンピュータプログラムを実行させることにより実現することも可能である。 Although the present invention has been described as a hardware configuration in the above embodiment, the present invention is not limited to this. The present invention can also be realized by causing a CPU (Central Processing Unit) to execute a computer program to execute the processing of each component.

上記の実施の形態において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実態のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(具体的にはフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(具体的には光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(具体的には、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM))、フラッシュROM、RAM(Random Access Memory)を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。 In the embodiments described above, the program can be stored and delivered to the computer using various types of non-transitory computer readable media. Non-transitory computer-readable media includes various types of tangible storage media. Examples of non-transitory computer-readable media include magnetic recording media (specifically, flexible disks, magnetic tapes, hard disk drives), magneto-optical recording media (specifically, magneto-optical disks), and CD-ROMs (Read Only Memory ), CD-R, CD-R/W, semiconductor memory (specifically, mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM)), flash ROM, and RAM (Random Access Memory). The program may also be provided to the computer on various types of transitory computer readable media. Examples of transitory computer-readable media include electrical signals, optical signals, and electromagnetic waves. The temporary computer-readable medium can provide the program to the computer via wired communication channels, such as electrical wires and fiber optics, or wireless communication channels.

なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。 Note that the present invention is not limited to the above embodiments, and can be modified as appropriate without departing from the spirit.

1…画像処理装置
2…画像読取装置
3…記録装置
4…データベース
5…文書帳票
10…システム
100…特徴量抽出生成部
101…制御部
102…取得部
103…特徴量抽出部
104…読取対象特徴量生成部
105…記録部
106…グループ分類部
107…グループ特定部
1... Image processing device 2... Image reading device 3... Recording device 4... Database 5... Document form 10... System 100... Feature extraction generation section 101... Control section 102... Acquisition section 103... Feature amount extraction section 104... Feature to be read Quantity generation section 105...Recording section 106...Group classification section 107...Group identification section

Claims (9)

文書帳票に含まれる記録文字列の特徴を示す個別第一特徴量と、前記文書帳票に含まれる非記録文字列の認識情報を示す個別第二特徴量と、を抽出する特徴量抽出生成部と、
前記文書帳票を、前記個別第一特徴量と前記個別第二特徴量に基づいてグループ分けし、複数の前記個別第一特徴量を含むグループ第一特徴量と、複数の前記個別第二特徴量を含むグループ第二特徴量と、を生成するグループ分類部と、
新たな文書帳票の前記個別第二特徴量が予め記録された前記グループ第二特徴量内のいずれにも一致しない場合、予め記録された前記グループ第一特徴量内から、前記新たな文書帳票の前記個別第一特徴量と一致する特定第一特徴量を特定し、前記特定第一特徴量が示す書式を前記新たな文書帳票の書式とする制御部と、
を備え
前記制御部は、前記新たな文書帳票の前記個別第二特徴量が前記予め記録された前記グループ第二特徴量内のいずれにも一致しない場合、前記予め記録された前記グループ第一特徴量内から、前記新たな文書帳票の前記個別第一特徴量と一致する前記記録文字列の数が最も多い第一特徴量を、前記特定第一特徴量として特定する、
画像処理装置。
a feature quantity extraction generation unit that extracts an individual first feature quantity indicating a feature of a recorded character string included in a document form, and an individual second feature quantity indicating recognition information of a non-recorded character string included in the document form; ,
The document form is divided into groups based on the individual first feature amount and the individual second feature amount, and a group first feature amount includes a plurality of the individual first feature amounts, and a plurality of the individual second feature amounts. a group second feature quantity including; a group classification unit that generates ;
If the individual second feature of the new document form does not match any of the group second features recorded in advance, the new document form's individual second feature is selected from among the group first features recorded in advance. a control unit that identifies a specific first feature amount that matches the individual first feature amount, and sets a format indicated by the specific first feature amount as a format of the new document form;
Equipped with
When the individual second feature of the new document form does not match any of the pre-recorded group second feature, the control unit may match the individual second feature of the new document form to any of the pre-recorded group first feature. from, specifying the first feature amount having the largest number of recorded character strings that match the individual first feature amount of the new document form as the specific first feature amount;
Image processing device.
前記グループ分類部は、前記文書帳票を、前記個別第二特徴量が示す前記非記録文字列の一致度、エンブレム画像の一致度、前記非記録文字列の座標範囲の一致度のうち少なくとも1つ、及び、前記個別第一特徴量が示す前記記録文字列の特徴の類似度に基づいて前記グループ分けを行う、
請求項1に記載の画像処理装置。
The group classification unit classifies the document form according to at least one of the degree of correspondence of the non-recorded character string, the degree of correspondence of the emblem image, and the degree of correspondence of the coordinate range of the non-recorded character string indicated by the individual second feature amount. , and performing the grouping based on the similarity of the features of the recorded character strings indicated by the individual first feature amounts.
The image processing device according to claim 1.
前記新たな文書帳票の前記個別第一特徴量が含まれる前記グループを特定し、前記新たな文書帳票の前記個別第二特徴量が含まれる前記グループを特定するグループ特定部をさらに備える、
請求項1又は2に記載の画像処理装置。
further comprising a group identifying unit that identifies the group in which the individual first feature of the new document form is included, and identifies the group in which the individual second feature of the new document form is included;
The image processing device according to claim 1 or 2.
前記文書帳票と、前記文書帳票の前記個別第一特徴量と、を対応付けて記録し、前記文書帳票と、前記文書帳票の前記個別第二特徴量と、を対応付けて記録する記憶部をさらに備える、
請求項1から3のいずれか1つに記載の画像処理装置。
a storage unit that records the document form and the individual first feature amount of the document form in association with each other, and records the document form and the individual second feature amount of the document form in association with each other; Further prepare,
The image processing device according to any one of claims 1 to 3.
前記文書帳票と、前記文書帳票に含まれる前記記録文字列と、をデータベースから取得し、前記新たな文書帳票を画像読取装置から取得する取得部をさらに備える、
請求項1から4のいずれか1つに記載の画像処理装置。
further comprising an acquisition unit that acquires the document form and the recorded character string included in the document form from a database, and acquires the new document form from an image reading device;
The image processing device according to any one of claims 1 to 4.
前記文書帳票の前記個別第一特徴量は、前記記録文字列の属性情報及び前記記録文字列の座標情報の少なくともいずれかを含み、
前記記録文字列の前記属性情報は、数字、アルファベット、ひらがな、漢字、文字数、文字高さ、フォントの情報のうち少なくとも1つを含み、
前記記録文字列の座標情報は、前記記録文字列の先頭文字の座標及び終了文字の座標の少なくともいずれかを含む、
請求項1から5のいずれか1つに記載の画像処理装置。
The individual first feature amount of the document form includes at least one of attribute information of the recorded character string and coordinate information of the recorded character string,
The attribute information of the recorded character string includes at least one of numbers, alphabets, hiragana, kanji, number of characters, character height, and font information,
The coordinate information of the recorded character string includes at least one of the coordinates of the first character and the coordinate of the end character of the recorded character string.
The image processing device according to any one of claims 1 to 5.
画像処理装置と画像読取装置と記録装置とデータベースとを備え、
前記画像読取装置は、
光学的に文書帳票の画像データを取得し、前記画像データを前記画像処理装置へ出力する読取出力部を有し、
前記画像処理装置は、
前記文書帳票の前記画像データを文字認識し、前記文書帳票に含まれる記録文字列の特徴を示す個別第一特徴量と、前記文書帳票に含まれる非記録文字列の認識情報を示す個別第二特徴量と、を抽出する特徴量抽出部と、
前記文字認識した文字認識結果を前記記録装置に出力する処理出力部と、
前記文書帳票を、前記個別第一特徴量と前記個別第二特徴量に基づいてグループ分けし、複数の前記個別第一特徴量を含むグループ第一特徴量と、複数の前記個別第二特徴量を含むグループ第二特徴量と、を生成するグループ分類部と、
新たな文書帳票の前記個別第二特徴量が予め記録された前記グループ第二特徴量内のいずれにも一致しない場合、予め記録された前記グループ第一特徴量内から、前記新たな文書帳票の前記個別第一特徴量と一致する特定第一特徴量を特定し、前記特定第一特徴量が示す書式を前記新たな文書帳票の書式とする制御部と、を有し、
前記制御部は、前記新たな文書帳票の前記個別第二特徴量が前記予め記録された前記グループ第二特徴量内のいずれにも一致しない場合、前記予め記録された前記グループ第一特徴量内から、前記新たな文書帳票の前記個別第一特徴量と一致する前記記録文字列の数が最も多い第一特徴量を、前記特定第一特徴量として特定し、
前記記録装置は、
前記画像処理装置から前記文字認識結果を取得する文字認識取得部と、
前記文字認識結果を前記データベースに記録する文字認識記録部と、を有し、
前記データベースは、
前記記録装置から取得した前記文字認識結果を記録する記録テーブルを有する、
システム。
Equipped with an image processing device, an image reading device, a recording device, and a database,
The image reading device includes:
a reading output unit that optically acquires image data of a document form and outputs the image data to the image processing device;
The image processing device includes:
The image data of the document form is character-recognized, and an individual first feature amount indicating a feature of a recorded character string included in the document form and an individual second feature amount indicating recognition information of a non-recorded character string included in the document form are provided. a feature amount extraction unit that extracts the feature amount;
a processing output unit that outputs the character recognition result of the character recognition to the recording device;
The document form is divided into groups based on the individual first feature amount and the individual second feature amount, and a group first feature amount includes a plurality of the individual first feature amounts, and a plurality of the individual second feature amounts. a group second feature quantity including; a group classification unit that generates ;
If the individual second feature of the new document form does not match any of the pre-recorded group second features, the new document form is selected from among the pre-recorded group first features. a control unit that specifies a specific first feature amount that matches the individual first feature amount, and sets a format indicated by the specific first feature amount as a format of the new document form;
If the individual second feature of the new document form does not match any of the pre-recorded group second feature, the control unit may match the individual second feature of the new document form to any of the pre-recorded group first feature. from, specifying the first feature amount having the largest number of recorded character strings that match the individual first feature amount of the new document form as the specific first feature amount;
The recording device includes:
a character recognition acquisition unit that acquires the character recognition result from the image processing device;
a character recognition recording unit that records the character recognition results in the database;
The database includes:
comprising a recording table for recording the character recognition results obtained from the recording device;
system.
文書帳票に含まれる記録文字列の特徴を示す個別第一特徴量と、前記文書帳票に含まれる非記録文字列の認識情報を示す個別第二特徴量と、を抽出することと、
前記文書帳票を、前記個別第一特徴量と前記個別第二特徴量に基づいてグループ分けし、複数の前記個別第一特徴量を含むグループ第一特徴量と、複数の前記個別第二特徴量を含むグループ第二特徴量と、を生成することと、
新たな文書帳票の前記個別第二特徴量が予め記録された前記グループ第二特徴量内のいずれにも一致しない場合、予め記録された前記グループ第一特徴量内から、前記新たな文書帳票の前記個別第一特徴量と一致する特定第一特徴量を特定し、前記特定第一特徴量が示す書式を前記新たな文書帳票の書式とすることと、
前記新たな文書帳票の前記個別第二特徴量が前記予め記録された前記グループ第二特徴量内のいずれにも一致しない場合、前記予め記録された前記グループ第一特徴量内から、前記新たな文書帳票の前記個別第一特徴量と一致する前記記録文字列の数が最も多い第一特徴量を、前記特定第一特徴量として特定することと、
を備える方法。
extracting an individual first feature amount indicating a feature of a recorded character string included in a document form, and an individual second feature amount indicating recognition information of a non-recorded character string included in the document form;
The document form is divided into groups based on the individual first feature amount and the individual second feature amount, and a group first feature amount includes a plurality of the individual first feature amounts, and a plurality of the individual second feature amounts. and generating a group second feature including;
If the individual second feature of the new document form does not match any of the group second features recorded in advance, the new document form's individual second feature is selected from among the group first features recorded in advance. identifying a specific first feature amount that matches the individual first feature amount, and setting a format indicated by the specific first feature amount as a format of the new document form;
If the individual second feature of the new document form does not match any of the group second features recorded in advance, the new specifying a first feature amount having the largest number of recorded character strings that match the individual first feature amount of the document form as the specific first feature amount;
How to prepare.
文書帳票に含まれる記録文字列の特徴を示す個別第一特徴量と、前記文書帳票に含まれる非記録文字列の認識情報を示す個別第二特徴量と、を抽出することと、
前記文書帳票を、前記個別第一特徴量と前記個別第二特徴量に基づいてグループ分けし、複数の前記個別第一特徴量を含むグループ第一特徴量と、複数の前記個別第二特徴量を含むグループ第二特徴量と、を生成することと、
新たな文書帳票の前記個別第二特徴量が予め記録された前記グループ第二特徴量内のいずれにも一致しない場合、予め記録された前記グループ第一特徴量内から、前記新たな文書帳票の前記個別第一特徴量と一致する特定第一特徴量を特定し、前記特定第一特徴量が示す書式を前記新たな文書帳票の書式とすることと、
前記新たな文書帳票の前記個別第二特徴量が前記予め記録された前記グループ第二特徴量内のいずれにも一致しない場合、前記予め記録された前記グループ第一特徴量内から、前記新たな文書帳票の前記個別第一特徴量と一致する前記記録文字列の数が最も多い第一特徴量を、前記特定第一特徴量として特定することと、
をコンピュータに実行させるプログラム。
extracting an individual first feature amount indicating a feature of a recorded character string included in a document form, and an individual second feature amount indicating recognition information of a non-recorded character string included in the document form;
The document form is divided into groups based on the individual first feature amount and the individual second feature amount, and a group first feature amount includes a plurality of the individual first feature amounts, and a plurality of the individual second feature amounts. and generating a group second feature including;
If the individual second feature of the new document form does not match any of the group second features recorded in advance, the new document form's individual second feature is selected from among the group first features recorded in advance. identifying a specific first feature amount that matches the individual first feature amount, and setting a format indicated by the specific first feature amount as a format of the new document form;
If the individual second feature of the new document form does not match any of the group second features recorded in advance, the new specifying a first feature amount having the largest number of recorded character strings that match the individual first feature amount of the document form as the specific first feature amount;
A program that causes a computer to execute.
JP2019232975A 2019-12-24 2019-12-24 Image processing device, system, method, and program Active JP7447482B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019232975A JP7447482B2 (en) 2019-12-24 2019-12-24 Image processing device, system, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019232975A JP7447482B2 (en) 2019-12-24 2019-12-24 Image processing device, system, method, and program

Publications (2)

Publication Number Publication Date
JP2021101304A JP2021101304A (en) 2021-07-08
JP7447482B2 true JP7447482B2 (en) 2024-03-12

Family

ID=76651332

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019232975A Active JP7447482B2 (en) 2019-12-24 2019-12-24 Image processing device, system, method, and program

Country Status (1)

Country Link
JP (1) JP7447482B2 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018055255A (en) 2016-09-27 2018-04-05 キヤノン株式会社 Information processing apparatus, information processing method, and program
JP2019008775A (en) 2017-06-22 2019-01-17 日本電気株式会社 Image processing device, image processing system, image processing method, program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018055255A (en) 2016-09-27 2018-04-05 キヤノン株式会社 Information processing apparatus, information processing method, and program
JP2019008775A (en) 2017-06-22 2019-01-17 日本電気株式会社 Image processing device, image processing system, image processing method, program

Also Published As

Publication number Publication date
JP2021101304A (en) 2021-07-08

Similar Documents

Publication Publication Date Title
JP4347677B2 (en) Form OCR program, method and apparatus
JP6859977B2 (en) Image processing equipment, image processing systems, image processing methods and programs
JP6874729B2 (en) Image processing equipment, image processing methods and programs
WO2000052645A1 (en) Document image processor, method for extracting document title, and method for imparting document tag information
US11514700B2 (en) Image-processing device, image-processing method, and storage medium on which program is stored
JP6100532B2 (en) Receipt definition data creation device and program thereof
JP2000067065A (en) Document image identification method and recording medium
US11315351B2 (en) Information processing device, information processing method, and information processing program
JP6784273B2 (en) Image processing equipment, image processing methods and programs
JP7111143B2 (en) Image processing device, image processing method and program
JP2012190434A (en) Form defining device, form defining method, program and recording medium
JP6856916B1 (en) Information processing equipment, information processing methods and information processing programs
JP7447482B2 (en) Image processing device, system, method, and program
JP6784274B2 (en) Image processing equipment, image processing methods and programs
JP7160432B2 (en) Image processing device, image processing method, program
JP4347675B2 (en) Form OCR program, method and apparatus
JPH08221510A (en) Form document processing apparatus and form document processing method
JP7377565B2 (en) Drawing search device, drawing database construction device, drawing search system, drawing search method, and program
JP7699773B2 (en) Document image processing system, document image processing method, and document image processing program
CN110727820B (en) Method and system for obtaining label for picture
JP4517822B2 (en) Image processing apparatus and program
JP2009223391A (en) Image processor and image processing program
US20250061265A1 (en) Information processing apparatus, layout assistance method, and recording medium
JP2020144754A (en) Information processing device and program
JP2019204341A (en) Data analysis system and data analysis method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230912

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230926

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240212

R151 Written notification of patent or utility model registration

Ref document number: 7447482

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151