Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP6913320B2 - Data processing equipment, methods and programs - Google Patents
[go: Go Back, main page]

JP6913320B2 - Data processing equipment, methods and programs - Google Patents

Data processing equipment, methods and programs Download PDF

Info

Publication number
JP6913320B2
JP6913320B2 JP2017154962A JP2017154962A JP6913320B2 JP 6913320 B2 JP6913320 B2 JP 6913320B2 JP 2017154962 A JP2017154962 A JP 2017154962A JP 2017154962 A JP2017154962 A JP 2017154962A JP 6913320 B2 JP6913320 B2 JP 6913320B2
Authority
JP
Japan
Prior art keywords
image data
data
unit
processing
rotation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017154962A
Other languages
Japanese (ja)
Other versions
JP2019033462A (en
Inventor
択 渡久地
択 渡久地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ai Inside
AI Inside Inc
Original Assignee
Ai Inside
AI Inside Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ai Inside, AI Inside Inc filed Critical Ai Inside
Priority to JP2017154962A priority Critical patent/JP6913320B2/en
Publication of JP2019033462A publication Critical patent/JP2019033462A/en
Priority to JP2021110066A priority patent/JP2021153347A/en
Application granted granted Critical
Publication of JP6913320B2 publication Critical patent/JP6913320B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression Of Band Width Or Redundancy In Fax (AREA)
  • Editing Of Facsimile Originals (AREA)

Description

本発明は、データの処理を行うデータ処理装置、方法およびプログラムに関する。 The present invention relates to a data processing apparatus, method and program for processing data.

手書きで文字が記入された書類をイメージスキャナなどで読み取り、OCR(Optical Character Recognition)処理を行うことにより、入力情報を所定の文字コードに変換したデジタルデータを生成する技術が普及している。 A technique for generating digital data in which input information is converted into a predetermined character code by reading a document in which characters are written by hand with an image scanner or the like and performing OCR (Optical Character Recognition) processing is widespread.

例えば、特許文献1によれば、機械学習により文字認識を行う文字識別システムが開示されている。文字認識システムは、見本文字画像の入力を受け付ける文字画像入力受付部と、見本文字画像に基づいて文字部品を抽出する文字部品抽出と、文字部品に基づいて擬似文字モデルを生成する擬似文字モデル生成部と、擬似文字モデルに基づいて文字識別パターンを生成して識別辞書を生成する識別辞書生成と、により構成されるシステムが提案されている。 For example, according to Patent Document 1, a character identification system that recognizes characters by machine learning is disclosed. The character recognition system has a character image input receiving unit that accepts input of a sample character image, character component extraction that extracts character parts based on the sample character image, and pseudo character model generation that generates a pseudo character model based on the character parts. A system consisting of a unit and an identification dictionary generation that generates a character identification pattern based on a pseudo-character model to generate an identification dictionary has been proposed.

また、文字認識をクラウドサーバで行う場合には、イメージスキャナで読み取ったデジタルデータをネットワークを介してサーバへ送信するため、データの圧縮技術を利用することが考えられる。 Further, when character recognition is performed by a cloud server, it is conceivable to use a data compression technique in order to transmit the digital data read by the image scanner to the server via the network.

例えば、特許文献2によれば、圧縮対象データを圧縮して圧縮データを生成する圧縮データ生成部と、原画像データを変形処理した変形画像データを変形量を異ならせて複数種類生成する変形画像データ生成部と、該変形画像データの各々と原画像データとの差分を示す差分データを圧縮データ生成部の圧縮対象データとして算出する差分算出部と、各差分データの圧縮データの各々を、変形画像データ生成部における変形量に対応づけて圧縮データ記憶部に記憶する制御部と、により構成される画像処理装置が提案されている。 For example, according to Patent Document 2, a compressed data generation unit that compresses compression target data to generate compressed data and a deformed image that generates a plurality of types of deformed image data obtained by deforming the original image data with different amounts of deformation. The data generation unit, the difference calculation unit that calculates the difference data indicating the difference between each of the deformed image data and the original image data as the compression target data of the compression data generation unit, and each of the compressed data of each difference data are deformed. An image processing device including a control unit that stores in a compressed data storage unit in association with the amount of deformation in the image data generation unit has been proposed.

特開2015−069256号公報Japanese Unexamined Patent Publication No. 2015-069256 特開2008−236202号公報Japanese Unexamined Patent Publication No. 2008-236202

しかしながら、特許文献2では、ランレングス符号化にハフマンテーブルを利用する例が開示されているが、圧縮率を更に高めたい要望がある。 However, although Patent Document 2 discloses an example of using a Huffman table for run-length coding, there is a desire to further increase the compression ratio.

本発明では、様々な手書き文字が含まれている書類を高い圧縮率のデジタルデータに変換することができるデータ処理装置、方法およびプログラムを提供することを目的とする。 An object of the present invention is to provide a data processing apparatus, method and program capable of converting a document containing various handwritten characters into digital data having a high compression ratio.

上記目的を達成するために、本発明の一態様におけるデータ処理装置は、画像データを回転させる回転処理部と、前記回転処理部により回転された画像データの圧縮処理を行う圧縮部とを備え、前記圧縮部は、画像データの圧縮処理において、画像データを同一の値が連続する二値化データに変換し、変換後の二値化データを符号化する。 In order to achieve the above object, the data processing device according to one aspect of the present invention includes a rotation processing unit that rotates the image data and a compression unit that compresses the image data rotated by the rotation processing unit. In the image data compression process, the compression unit converts the image data into binarized data having the same continuous value, and encodes the converted binarized data.

また、本発明の一態様におけるデータ処理方法は、回転処理部によって、画像データを所定角度回転させる回転処理工程と、圧縮部によって、前記回転処理部により回転された画像データの圧縮処理を行う圧縮工程とを備え、前記圧縮工程は、画像データの圧縮処理において、画像データを同一の値が連続する二値化データに変換し、変換後の二値化データを符号化する。 Further, the data processing method according to one aspect of the present invention includes a rotation processing step of rotating the image data by a predetermined angle by the rotation processing unit and a compression process of compressing the image data rotated by the rotation processing unit by the compression unit. The compression step includes a step, and in the image data compression process, the image data is converted into binarized data in which the same value is continuous, and the converted binarized data is encoded.

また、本発明の一態様におけるデータ処理プログラムは、画像データを所定角度回転させる回転処理工程と、前記回転処理工程により回転された画像データの圧縮処理を行う圧縮工程と、をコンピュータによって実現するためのデータ処理プログラムであって、前記圧縮工程は、画像データの圧縮処理において、画像データを同一の値が連続する二値化データに変換し、変換後の二値化データを符号化するプログラムである。 Further, the data processing program according to one aspect of the present invention is for realizing a rotation processing step of rotating the image data by a predetermined angle and a compression process of compressing the image data rotated by the rotation processing step by a computer. In the image data compression process, the data processing program is a program that converts image data into binarized data in which the same value is continuous, and encodes the converted binarized data. be.

本発明によれば、様々な手書き文字が含まれている書類を高い圧縮率のデジタルデータに変換することができる。 According to the present invention, a document containing various handwritten characters can be converted into digital data having a high compression rate.

データ処理装置の構成を示すブロック図である。It is a block diagram which shows the structure of a data processing apparatus. 抽出部により画像データから項目画像データを抽出する手順についての説明に供する図である。It is a figure which provides the explanation of the procedure of extracting the item image data from the image data by the extraction unit. 圧縮部の動作についての説明に供する図である。It is a figure which provides the explanation about the operation of the compression part. 項目画像データの二値化データから生成したヒストグラムと、項目画像データの回転角度の関係についての説明に供する第1の図である。FIG. 1 is a first diagram for explaining the relationship between the histogram generated from the binarized data of the item image data and the rotation angle of the item image data. 項目画像データの二値化データから生成したヒストグラムと、項目画像データの回転角度の関係についての説明に供する第2の図である。FIG. 2 is a second diagram for explaining the relationship between the histogram generated from the binarized data of the item image data and the rotation angle of the item image data. 回転角度の決定手順についての説明に供する図である。It is a figure which provides the explanation about the procedure of determining a rotation angle. 第1処理部の動作についての説明に供するフローチャートである。It is a flowchart which provides the explanation about the operation of the 1st processing part. 第2処理部の動作についての説明に供するフローチャートである。It is a flowchart which provides the explanation about the operation of the 2nd processing part.

以下、本発明の実施形態に係るデータ処理装置、方法およびプログラムについて図面を参照しながら説明する。なお、実施形態を説明する全図において、共通の構成要素には同一の符号を付し、繰り返しの説明を省略する。 Hereinafter, the data processing apparatus, method, and program according to the embodiment of the present invention will be described with reference to the drawings. In all the drawings for explaining the embodiments, the common components are designated by the same reference numerals, and the repeated description will be omitted.

以下では、一例として、手書き文字が含まれた帳票やアンケート用紙などの書類をスキャナ等で画像データに変換し、変換した画像データを圧縮するデータ処理装置の構成と動作について説明する。なお、手書き文字が含まれていない書類、いわゆる、書体データを利用してプリンタによって文字が印刷された書類などを対象にしてもよい。 In the following, as an example, the configuration and operation of a data processing device that converts documents such as forms and questionnaires containing handwritten characters into image data with a scanner or the like and compresses the converted image data will be described. It should be noted that a document that does not include handwritten characters, that is, a document in which characters are printed by a printer using typeface data, or the like may be targeted.

データ処理装置1は、図1に示すように、画像データ変換部10と、抽出部11と、回転処理部12と、圧縮部13と、出力部14とを備える。 As shown in FIG. 1, the data processing device 1 includes an image data conversion unit 10, an extraction unit 11, a rotation processing unit 12, a compression unit 13, and an output unit 14.

画像データ変換部10は、複数の項目から構成される原稿を画像データに変換する。例えば、画像データ変換部10は、スキャナ装置によって構成されており、書類を画像化して画像データを生成し、生成した画像データを画像データ記憶部21に入力する。 The image data conversion unit 10 converts a document composed of a plurality of items into image data. For example, the image data conversion unit 10 is configured by a scanner device, images a document to generate image data, and inputs the generated image data to the image data storage unit 21.

抽出部11は、画像データ記憶部21から画像データ変換部10により変換された画像データを読み出し、画像データを項目単位で抽出する。具体的には、抽出部11は、画像データに基づいて、例えば、罫線抽出、枠構造解析、読取対象枠の位置推定などの文書構造解析を行って、画像データを項目単位で抽出する。図2は、抽出部11により、画像データAから4つのデータ(図2中の項目データa1〜a4)が抽出された様子を模式的に示す例である。抽出部11は、カタカナの項目として画像データAから項目画像データa1を抽出し、氏名の項目として画像データAから項目画像データa2を抽出し、住所の項目として画像データAから項目画像データa3を抽出し、電話の項目として画像データAから項目画像データa4を抽出する。 The extraction unit 11 reads the image data converted by the image data conversion unit 10 from the image data storage unit 21 and extracts the image data in item units. Specifically, the extraction unit 11 performs document structure analysis such as ruled line extraction, frame structure analysis, and position estimation of the reading target frame based on the image data, and extracts the image data in item units. FIG. 2 is an example schematically showing how four data (item data a1 to a4 in FIG. 2) are extracted from the image data A by the extraction unit 11. The extraction unit 11 extracts the item image data a1 from the image data A as a katakana item, extracts the item image data a2 from the image data A as a name item, and extracts the item image data a3 from the image data A as an address item. The item image data a4 is extracted from the image data A as a telephone item.

回転処理部12は、抽出部11で抽出された画像データを回転させる。具体的には、回転処理部12は、第1処理部15と第2処理部16とから構成される。
第1処理部15は、画像データを予め定められている角度で回転させる。なお、第1処理部15は、画像データが複数の項目から構成されている場合には、抽出部11により抽出された項目画像データを回転処理する。
The rotation processing unit 12 rotates the image data extracted by the extraction unit 11. Specifically, the rotation processing unit 12 is composed of a first processing unit 15 and a second processing unit 16.
The first processing unit 15 rotates the image data at a predetermined angle. When the image data is composed of a plurality of items, the first processing unit 15 rotates the item image data extracted by the extraction unit 11.

第1処理部15によれば、予め定められている角度で画像データを回転し、その後圧縮部13で圧縮処理を行うので、圧縮率を向上させつつ、一連の処理速度を高速化することができる。また、詳細は後述するが、第2処理部16によれば、画像データの圧縮率をさらに向上させることができる。 According to the first processing unit 15, the image data is rotated at a predetermined angle, and then the compression processing is performed by the compression unit 13. Therefore, it is possible to increase the series processing speed while improving the compression rate. can. Further, although the details will be described later, according to the second processing unit 16, the compression rate of the image data can be further improved.

例えば、データ処理装置1は、最初は、第1処理部15によって画像データの回転処理を行い、圧縮率が所定以下の場合には、第2処理部16によって画像データを回転処理する構成でもよい。また、データ処理装置1は、処理速度を優先させる場合には、第1処理部15によって画像データの回転処理を行い、圧縮率を高めたい場合には、第2処理部16によって画像データを回転処理する構成でもよい。 For example, the data processing device 1 may be configured such that the first processing unit 15 initially performs rotation processing of the image data, and when the compression rate is equal to or less than a predetermined value, the second processing unit 16 rotates the image data. .. Further, the data processing device 1 rotates the image data by the first processing unit 15 when the processing speed is prioritized, and rotates the image data by the second processing unit 16 when it is desired to increase the compression rate. It may be configured to be processed.

<回転処理部の構成と動作について>
第2処理部16は、図1に示すように、二値化データ変換部17と、統計処理部18と、画像データ回転部19と、回転角度決定部20とを備える。
<About the configuration and operation of the rotation processing unit>
As shown in FIG. 1, the second processing unit 16 includes a binarized data conversion unit 17, a statistical processing unit 18, an image data rotation unit 19, and a rotation angle determination unit 20.

二値化データ変換部17は、画像データを二値化データに変換する。なお、二値化データ変換部17は、画像データが複数の項目から構成されている場合には、抽出部11により抽出された項目画像データを二値化データに変換する構成でもよい。なお、以下では、一例として、項目画像データの処理について説明する。項目画像データは、二値化により、背景と文字を分離される。項目画像データは、背景と文字からなる濃淡画像である。二値化データ変換部17は、項目画像データを黒色(例えば、「1」)と白色(例えば、「0」)の2種類の濃度値からなるデータに変換することにより、背景と文字を分離する。なお、本実施例では、黒色を「1」とし、白色を「0」として説明するが、黒色を「0」とし、白色を「1」としてもよい。 The binarized data conversion unit 17 converts the image data into the binarized data. When the image data is composed of a plurality of items, the binarized data conversion unit 17 may be configured to convert the item image data extracted by the extraction unit 11 into the binarized data. In the following, processing of item image data will be described as an example. In the item image data, the background and the characters are separated by binarization. The item image data is a shade image composed of a background and characters. The binarized data conversion unit 17 separates the background and characters by converting the item image data into data consisting of two types of density values, black (for example, “1”) and white (for example, “0”). do. In this embodiment, black is set to "1" and white is set to "0", but black may be set to "0" and white may be set to "1".

統計処理部18は、二値化データ変換部17により変換された二値化データに対して統計処理を行う。統計処理とは、詳細は後述するが、例えば、ヒストグラムを生成することである。 The statistical processing unit 18 performs statistical processing on the binarized data converted by the binarized data conversion unit 17. Statistical processing is, for example, generating a histogram, which will be described in detail later.

画像データ回転部19は、統計処理部18により統計処理を行った後、項目画像データを所定角度回転させる。所定角度とは、例えば、0.1度である。 The image data rotation unit 19 rotates the item image data by a predetermined angle after performing statistical processing by the statistical processing unit 18. The predetermined angle is, for example, 0.1 degrees.

回転角度決定部20は、二値化データ変換部17および統計処理部18による処理を画像データ回転部19により項目画像データを回転するごとに行い、回転角度ごとの統計処理結果の比較に基づいて、項目画像データの回転角度を決定する。 The rotation angle determination unit 20 performs processing by the binarization data conversion unit 17 and the statistical processing unit 18 every time the item image data is rotated by the image data rotation unit 19, and is based on the comparison of the statistical processing results for each rotation angle. , Determine the rotation angle of the item image data.

圧縮部13は、回転角度決定部20により決定された回転角度で項目画像データを回転し、回転後の項目画像データの圧縮処理を行う。 The compression unit 13 rotates the item image data at a rotation angle determined by the rotation angle determination unit 20, and performs compression processing of the rotated item image data.

また、圧縮部13は、項目画像データの圧縮処理において、項目画像データを同一の値が連続する二値化データに変換し、変換後の二値化データを符号化する。詳細は後述するが、項目画像データは、黒色および白色が連続する角度で圧縮処理が行われる。よって、二値化データは、同一の値が連続する、すなわち、「1」(例えば、黒色)が複数個連続し、また、「0」(例えば、白色)が複数個連続するようなデータになっている。 Further, in the compression process of the item image data, the compression unit 13 converts the item image data into binarized data in which the same value is continuous, and encodes the converted binarized data. Although the details will be described later, the item image data is compressed at an angle in which black and white are continuous. Therefore, the binarized data is data in which the same value is continuous, that is, a plurality of "1" (for example, black) are continuous, and a plurality of "0" (for example, white) are continuous. It has become.

また、符号化は、例えば、ランレングス符号化などが考えられるが、他の符号化を用いてもよい。さらに、圧縮部13は、符号化したデータを変換テーブルに基づいて変換する構成でもよい。 Further, as the coding, for example, run-length coding or the like can be considered, but other coding may be used. Further, the compression unit 13 may be configured to convert the encoded data based on the conversion table.

<圧縮部の動作について>
ここで、圧縮部13の動作について、図3を用いて説明する。なお、以下では、二値化データが図3(a)に示すように、白色(すなわち「0」)が5個連続し、その後、黒色(すなわち「1」)が5個連続し、その後、白色(すなわち「0」)が5個連続した場合を一例とする。
<About the operation of the compression unit>
Here, the operation of the compression unit 13 will be described with reference to FIG. In the following, as shown in FIG. 3A, the binarized data has five consecutive whites (that is, "0"), then five consecutive blacks (that is, "1"), and then. An example is the case where five white colors (that is, "0") are consecutive.

圧縮部13は、ランレングス符号化により、「000001111100000」を符号化する。符号化したデータは、図3(b)に示すように、「W5B5W5」になる。つまり、この時点で、15ビットの情報を6ビットに圧縮することができる。また、圧縮部13は、図3(d)に示すような変換テーブルに基づいて、符号化したデータを変換する。具体的には、「W5」は、図3(d)に基づいて、「E」に変換でき、「B5」は、図3(d)に基づいて、「e」に変換できる。よって、変換後のデータは、図3(c)に示すように、「EeE」になる。よって、本実施例によれば、15ビットの二値化データを3ビットのデータに圧縮(1/5に圧縮)することができる。 The compression unit 13 encodes "000000111100000" by run-length coding. The encoded data becomes "W5B5W5" as shown in FIG. 3 (b). That is, at this point, the 15-bit information can be compressed to 6 bits. Further, the compression unit 13 converts the encoded data based on the conversion table as shown in FIG. 3D. Specifically, "W5" can be converted to "E" based on FIG. 3 (d), and "B5" can be converted to "e" based on FIG. 3 (d). Therefore, the converted data becomes "EeE" as shown in FIG. 3 (c). Therefore, according to this embodiment, the 15-bit binarized data can be compressed (compressed to 1/5) into 3-bit data.

このようにして、文字情報を中心とする書類は、特に黒の連続や白の連続が多く、上述したような圧縮手法が有効である。また、後述するように、黒や白の連続がさらに増えるような事前処理(項目画像データの回転処理)を行うことで顕著な効果が得られる。 In this way, documents centered on character information often have a series of blacks and a series of whites, and the compression method as described above is effective. Further, as will be described later, a remarkable effect can be obtained by performing pre-processing (rotation processing of item image data) so that the continuity of black and white is further increased.

<圧縮データについて>
圧縮部13により圧縮されるデータは、項目を示す記号が挿入されてもよい。例えば、カタカナの項目を示す記号は、「$1」、氏名の項目を示す記号は、「$2」、住所の項目を示す記号は、「$3」、電話の項目を示す記号は、「$4」であるとする。圧縮部13は、データを圧縮しながら、対応する項目の記号を挿入する。
<Compressed data>
A symbol indicating an item may be inserted into the data compressed by the compression unit 13. For example, the symbol for katakana items is "$ 1", the symbol for name items is "$ 2", the symbol for address items is "$ 3", and the symbol for telephone items is "$ 3". It is assumed to be "$ 4". The compression unit 13 inserts a symbol of a corresponding item while compressing the data.

例えば、圧縮部13は、「FtVe・・・Rt$1jTpX・・・YuOp・・・W$2gHnM・・・uR$3WqVm・・・Pg$4」などとデータを圧縮する。当該圧縮方式に対応できる受信側では、「FtVe・・・Rt」がカタカナの項目($1)であり、「jTpX・・・YuOp・・・W」が氏名の項目($2)であり、「gHnM・・・uR」が住所の項目($3)であり、「WqVm・・・Pg」が電話の項目($4)であることが分かる。このようにして、データ処理装置1は、情報のさらなる圧縮と暗号化を図ることができ、圧縮データのセキュアー度を向上させることができる。 For example, the compression unit 13 compresses data such as "FtVe ... Rt $ 1jTpX ... YuOp ... W $ 2gHnM ... uR $ 3WqVm ... Pg $ 4". On the receiving side that can support the compression method, "FtVe ... Rt" is a katakana item ($ 1), and "jTpX ... YuOp ... W" is a name item ($ 2). It can be seen that "gHnM ... uR" is an address item ($ 3) and "WqVm ... Pg" is a telephone item ($ 4). In this way, the data processing device 1 can further compress and encrypt the information, and can improve the security of the compressed data.

<ヒストグラムと項目画像データの回転角度の関係について>
統計処理部18は、二値化データ変換部17により変換された二値化データのヒストグラムを生成する。
<Relationship between histogram and rotation angle of item image data>
The statistical processing unit 18 generates a histogram of the binarized data converted by the binarized data conversion unit 17.

ここで、手書きの漢数字である「二」の項目画像データの二値化データから生成したヒストグラムと、項目画像データの回転角度の関係について図4を用いて説明する。なお、ヒストグラムを生成する方向は、図4(a)に示すように、X方向である。例えば、項目画像データから生成した二値化データにおいて、行ごとに黒色を積算し、積算した値に基づいてグラフ化することによりヒストグラムを生成する。 Here, the relationship between the histogram generated from the binarized data of the item image data of "two", which is a handwritten Chinese numeral, and the rotation angle of the item image data will be described with reference to FIG. The direction in which the histogram is generated is the X direction as shown in FIG. 4A. For example, in the binarized data generated from the item image data, black is integrated for each row, and a histogram is generated by graphing based on the integrated value.

項目画像データがX方向に対して図4(a)に示すように配置されている場合には、統計処理部18は、図4(b)に示すように、行ごとに黒色を積算し、積算した値に基づいてヒストグラムを生成する。また、項目画像データがX方向に対して図4(c)に示すように配置されている場合には、統計処理部18は、図4(d)に示すように、行ごとに黒色を積算し、積算した値に基づいてヒストグラムを生成する。また、項目画像データがX方向に対して図4(e)に示すように配置されている場合には、統計処理部18は、図4(f)に示すように、行ごとに黒色を積算し、積算した値に基づいてヒストグラムを生成する。 When the item image data is arranged in the X direction as shown in FIG. 4A, the statistical processing unit 18 integrates black for each row as shown in FIG. 4B. Generate a histogram based on the integrated values. When the item image data is arranged in the X direction as shown in FIG. 4 (c), the statistical processing unit 18 integrates black for each row as shown in FIG. 4 (d). Then, a histogram is generated based on the integrated value. When the item image data is arranged in the X direction as shown in FIG. 4 (e), the statistical processing unit 18 integrates black for each row as shown in FIG. 4 (f). Then, a histogram is generated based on the integrated value.

また、回転角度決定部20は、ヒストグラムのピークが最大又は極大となる角度を項目画像データの回転角度に決定する。図4(b),(d),(f)を比較すると、図4(b)に示すヒストグラムのパターンが最も白が連続し、かつ、黒が連続している。よって、回転角度決定部20は、項目画像データが図4(a)の角度になるように回転角度を決定する。 Further, the rotation angle determination unit 20 determines the angle at which the peak of the histogram becomes the maximum or the maximum as the rotation angle of the item image data. Comparing FIGS. 4 (b), (d), and (f), the histogram pattern shown in FIG. 4 (b) has the most continuous white and continuous black. Therefore, the rotation angle determination unit 20 determines the rotation angle so that the item image data has the angle shown in FIG. 4A.

ここで、書類に書かれている文字の向きと圧縮率の関係について説明する。通常行われる回転補正では、書類が真横を向く方向に補正される。しかし、本実施形態に係る方法によれば、書類の向きではなく、書類に書かれている文字の向きが、書き手の癖なども踏まえて真横になるように回転補正が行われる。これによって、黒と白の連続回数が増え、上述した圧縮処理により、圧縮率がさらに向上する。 Here, the relationship between the orientation of characters written on a document and the compression ratio will be described. In the rotation correction that is usually performed, the document is corrected so that it faces sideways. However, according to the method according to the present embodiment, the rotation correction is performed so that the orientation of the characters written on the document, not the orientation of the document, is right beside the writer in consideration of the habit of the writer. This increases the number of consecutive blacks and whites, and the compression process described above further improves the compression ratio.

<ヒストグラムを作成する方向について>
また、統計処理部18は、項目画像データに含まれている文字の記載方向に直交する向きでヒストグラムを作成する構成とすることが好適である。例えば、書類における文字の記載方向が、図5(a)に示すように、横書きの場合には、図5(b)に示すように、縦方向が直交する向きになる。また、書類における文字の記載方向が縦書きの場合には、横方向が直交する向きになる。
<Direction to create a histogram>
Further, it is preferable that the statistical processing unit 18 creates a histogram in a direction orthogonal to the description direction of the characters included in the item image data. For example, as shown in FIG. 5A, the writing direction of the characters in the document is the direction in which the vertical directions are orthogonal to each other as shown in FIG. 5B in the case of horizontal writing. In addition, when the writing direction of characters in a document is vertical writing, the horizontal direction is orthogonal.

ここで、手書きの漢字である「特許」の項目画像データの二値化データから生成したヒストグラムと、項目画像データの回転角度の関係について図5を用いて説明する。 Here, the relationship between the histogram generated from the binarized data of the item image data of "patent", which is a handwritten kanji, and the rotation angle of the item image data will be described with reference to FIG.

項目画像データが図5(a)に示すように配置(文字の記載方向に平行する向き)されている場合には、統計処理部18は、図5(b)に示すように、行ごとに黒色を積算し、積算した値に基づいて、ヒストグラムを生成する。また、項目画像データが図5(c)に示すように配置(文字の記載方向に直交する向き)されている場合には、統計処理部18は、図5(d)に示すように、行ごとに黒色を積算し、積算した値に基づいて、ヒストグラムを生成する。 When the item image data is arranged as shown in FIG. 5 (a) (direction parallel to the writing direction of the characters), the statistical processing unit 18 performs line by line as shown in FIG. 5 (b). Black is integrated and a histogram is generated based on the integrated value. Further, when the item image data is arranged as shown in FIG. 5 (c) (direction orthogonal to the writing direction of the characters), the statistical processing unit 18 performs a line as shown in FIG. 5 (d). Black is integrated for each, and a histogram is generated based on the integrated value.

図5(a)における白色部分は、「A1+A2」であり、図5(b)における白色部分は、「B1+B2+B3」である。よって、白色部分の連続が多いのは図5(b)であることが分かる。つまり、同じ大きさの項目画像データを圧縮する場合において、図5(c)に示すように、項目画像データに含まれている文字の記載方向に直交する向きでヒストグラムを作成する方が、圧縮率が高くなる。 The white portion in FIG. 5 (a) is “A1 + A2”, and the white portion in FIG. 5 (b) is “B1 + B2 + B3”. Therefore, it can be seen in FIG. 5 (b) that there are many continuous white portions. That is, when compressing item image data of the same size, as shown in FIG. 5C, it is better to create a histogram in a direction orthogonal to the writing direction of the characters included in the item image data. The rate is high.

<回転角度の決定手順について>
つぎに、回転角度の決定手順について図6を用いて説明する。画像データ回転部19は、上述したように、例えば、統計処理部18により統計処理を行った後、項目画像データを0.1度ずつ回転させる。
<Procedure for determining the rotation angle>
Next, the procedure for determining the rotation angle will be described with reference to FIG. As described above, the image data rotation unit 19 rotates the item image data by 0.1 degrees after performing statistical processing by, for example, the statistical processing unit 18.

二値化データ変換部17は、回転後の項目画像データを二値化データに変換する。つぎに、統計処理部18は、二値化データ変換部17により変換された二値化データのヒストグラムを生成する。 The binarized data conversion unit 17 converts the rotated item image data into binarized data. Next, the statistical processing unit 18 generates a histogram of the binarized data converted by the binarized data conversion unit 17.

その後、画像データ回転部19による回転処理、二値化データ変換部17による二値化処理、統計処理部18による二値化データのヒストグラムの生成を繰り返す。 After that, the rotation process by the image data rotation unit 19, the binarization process by the binarization data conversion unit 17, and the generation of the histogram of the binarized data by the statistical processing unit 18 are repeated.

回転角度決定部20は、図6に示すように、回転角度ごとのヒストグラムを比較して、ヒストグラムのピークが最大又は極大となる角度を項目画像データの回転角度に決定する。図6に示す例では、X1の回転角度に決定される。 As shown in FIG. 6, the rotation angle determining unit 20 compares the histograms for each rotation angle and determines the angle at which the peak of the histogram becomes the maximum or the maximum as the rotation angle of the item image data. In the example shown in FIG. 6, the rotation angle of X1 is determined.

<第1方法>
つぎに、第1処理部15を利用した場合における画像データの圧縮手順について、図7に示すフローチャートを用いて説明する。
<First method>
Next, the procedure for compressing the image data when the first processing unit 15 is used will be described with reference to the flowchart shown in FIG. 7.

ステップS1において、回転処理部12は、画像データを予め定められている所定の角度で回転させる。 In step S1, the rotation processing unit 12 rotates the image data at a predetermined angle.

ステップS2において、圧縮部13は、回転処理部12により回転された画像データの圧縮処理を行う。 In step S2, the compression unit 13 compresses the image data rotated by the rotation processing unit 12.

よって、データ処理装置1は、第1処理部15を利用することにより、様々な手書き文字が含まれている書類に対して、高い圧縮率により画像データを圧縮しつつ、処理速度を高速化することができる。 Therefore, the data processing device 1 uses the first processing unit 15 to increase the processing speed of a document containing various handwritten characters while compressing the image data with a high compression rate. be able to.

<第2方法>
つぎに、第2処理部16を利用した場合における画像データの圧縮手順について、図8に示すフローチャートを用いて説明する。
<Second method>
Next, the procedure for compressing the image data when the second processing unit 16 is used will be described with reference to the flowchart shown in FIG.

ステップS11において、二値化データ変換部17は、画像データを二値化データに変換する。 In step S11, the binarized data conversion unit 17 converts the image data into the binarized data.

ステップS12において、統計処理部18は、二値化データ変換部17により変換された二値化データに対して統計処理を行う。 In step S12, the statistical processing unit 18 performs statistical processing on the binarized data converted by the binarized data conversion unit 17.

ステップS13において、画像データ回転部19は、統計処理部18により統計処理を行った後、画像データを所定角度回転させる。 In step S13, the image data rotation unit 19 rotates the image data by a predetermined angle after performing statistical processing by the statistical processing unit 18.

ステップS14において、回転角度決定部20は、画像データの回転角度を決定(確定)するかどうかを判断する。回転角度が決定した場合には、ステップS15に進み、回転角度が決定しない場合には、ステップS11に戻る。具体的には、回転角度決定部20は、二値化データ変換部17および統計処理部18による処理を画像データ回転部19により画像データを回転するごとに行い、回転角度ごとの統計処理結果の比較に基づいて、画像データの回転角度を決定する。 In step S14, the rotation angle determination unit 20 determines whether or not to determine (determine) the rotation angle of the image data. If the rotation angle is determined, the process proceeds to step S15, and if the rotation angle is not determined, the process returns to step S11. Specifically, the rotation angle determination unit 20 performs processing by the binarization data conversion unit 17 and the statistical processing unit 18 every time the image data is rotated by the image data rotation unit 19, and the statistical processing result for each rotation angle is obtained. Based on the comparison, the rotation angle of the image data is determined.

ステップS15において、圧縮部13は、回転角度決定部20により決定された回転角度で画像データを回転し、回転後の画像データの圧縮処理を行う。 In step S15, the compression unit 13 rotates the image data at a rotation angle determined by the rotation angle determination unit 20, and performs compression processing of the rotated image data.

よって、データ処理装置1は、第2処理部16を利用することにより、様々な手書き文字が含まれている書類をより高い圧縮率のデジタルデータに変換することができる。 Therefore, the data processing device 1 can convert a document containing various handwritten characters into digital data having a higher compression rate by using the second processing unit 16.

<プログラム>
また、本実施例では、主に、様々な手書き文字が含まれている書類を高い圧縮率のデジタルデータに変換するデータ処理装置1の構成と動作について説明したが、これに限られず、各構成要素を備え、様々な手書き文字が含まれている書類を高い圧縮率のデジタルデータに変換するための方法、およびプログラムとして構成されてもよい。
<Program>
Further, in this embodiment, the configuration and operation of the data processing device 1 for converting a document containing various handwritten characters into digital data having a high compression rate have been mainly described, but the present invention is not limited to this, and each configuration is not limited to this. It may be configured as a method and program for converting a document having elements and containing various handwritten characters into digital data with a high compression ratio.

また、データ処理装置1を構成する各機能を実現するためのプログラムをコンピュータで読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。 Further, it is realized by recording a program for realizing each function constituting the data processing device 1 on a computer-readable recording medium, reading the program recorded on the recording medium into a computer system, and executing the program. You may.

具体的には、当該プログラムは、画像データを所定角度回転させる回転処理工程と、回転処理工程により回転された画像データの圧縮処理を行う圧縮工程と、をコンピュータによって実現するためのデータ処理プログラムである。また、圧縮工程は、画像データの圧縮処理において、画像データを同一の値が連続する二値化データに変換し、変換後の二値化データを符号化する。 Specifically, the program is a data processing program for realizing a rotation processing step of rotating image data by a predetermined angle and a compression process of compressing image data rotated by the rotation processing step by a computer. be. Further, in the compression step, in the image data compression process, the image data is converted into binarized data in which the same value is continuous, and the converted binarized data is encoded.

さらに、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータで読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。 Further, the term "computer system" as used herein includes hardware such as an OS and peripheral devices. Further, the "computer-readable recording medium" refers to a portable medium such as a flexible disk, a magneto-optical disk, a ROM, or a CD-ROM, or a storage device such as a hard disk built in a computer system.

さらに「コンピュータで読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短期間で動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。 Furthermore, a "computer-readable recording medium" is a medium that dynamically holds a program in a short period of time, such as a communication line when a program is transmitted via a network such as the Internet or a communication line such as a telephone line. , In that case, a program that holds a program for a certain period of time, such as a volatile memory inside a computer system that serves as a server or a client, may be included. Further, the above-mentioned program may be a program for realizing a part of the above-mentioned functions, and may be a program for realizing the above-mentioned functions in combination with a program already recorded in the computer system. ..

1 データ処理装置、10 画像データ変換部、11 抽出部、12 回転処理部、13 圧縮部、14 出力部、15 第1処理部、16 第2処理部、17 二値化データ変換部、18 統計処理部、19 画像データ回転部、20 回転角度決定部、21 画像データ記憶部、22 圧縮データ記憶部 1 data processing device, 10 image data conversion unit, 11 extraction unit, 12 rotation processing unit, 13 compression unit, 14 output unit, 15 first processing unit, 16 second processing unit, 17 binarized data conversion unit, 18 statistics Processing unit, 19 image data rotation unit, 20 rotation angle determination unit, 21 image data storage unit, 22 compressed data storage unit

Claims (8)

画像データを回転させる回転処理部と、
前記回転処理部により回転された画像データの圧縮処理を行う圧縮部とを備え、
前記回転処理部は、画像データを二値化データに変換した二値化データに対して統計処理を行い、前記画像データを所定角度回転させるごとに統計処理結果を比較し、画像データの回転角度を決定し、
前記圧縮部は、画像データの圧縮処理において、前記決定された回転角度で画像データを回転し、回転後の画像データを同一の値が連続する二値化データに変換し、変換後の二値化データを符号化するデータ処理装置。
A rotation processing unit that rotates image data,
A compression unit that performs compression processing of image data rotated by the rotation processing unit is provided.
The rotation processing unit performs statistical processing on the binarized data obtained by converting the image data into binarized data, compares the statistical processing results each time the image data is rotated by a predetermined angle, and rotates the image data. Decide and
In the image data compression process, the compression unit rotates the image data at the determined rotation angle , converts the rotated image data into binarized data in which the same value is continuous, and the converted binary data. A data processing device that encodes compressed data.
前記回転処理部は、第1処理部と第2処理部とから構成され、
前記第1処理部は、画像データを予め定められている角度で回転させ、
前記第2処理部は、
画像データを二値化データに変換する二値化データ変換部と、
前記二値化データ変換部により変換された二値化データに対して統計処理を行う統計処理部と、
前記統計処理部により統計処理を行った後、前記画像データを所定角度回転させる画像データ回転部と、
前記二値化データ変換部および前記統計処理部による処理を前記画像データ回転部により画像データを回転するごとに行い、回転角度ごとの統計処理結果の比較に基づいて、画像データの回転角度を決定する回転角度決定部とを備え、
前記圧縮部は、前記回転角度決定部により決定された回転角度で画像データを回転し、回転後の画像データの圧縮処理を行う請求項1記載のデータ処理装置。
The rotation processing unit is composed of a first processing unit and a second processing unit.
The first processing unit rotates the image data at a predetermined angle to rotate the image data.
The second processing unit
A binarized data conversion unit that converts image data into binarized data,
A statistical processing unit that performs statistical processing on the binarized data converted by the binarized data conversion unit, and
An image data rotating unit that rotates the image data by a predetermined angle after performing statistical processing by the statistical processing unit.
The processing by the binarization data conversion unit and the statistical processing unit is performed every time the image data is rotated by the image data rotation unit, and the rotation angle of the image data is determined based on the comparison of the statistical processing results for each rotation angle. Equipped with a rotation angle determination unit
The data processing device according to claim 1, wherein the compression unit rotates image data at a rotation angle determined by the rotation angle determination unit, and performs compression processing of the rotated image data.
前記統計処理部は、前記二値化データ変換部により変換された二値化データのヒストグラムを生成し、
前記回転角度決定部は、前記ヒストグラムのピークが最大又は極大となる角度を画像データの回転角度に決定する請求項2記載のデータ処理装置。
The statistical processing unit generates a histogram of the binarized data converted by the binarized data conversion unit.
The data processing device according to claim 2, wherein the rotation angle determining unit determines an angle at which the peak of the histogram becomes the maximum or the maximum as the rotation angle of the image data.
前記統計処理部は、画像データに含まれている文字の記載方向に直交する向きでヒストグラムを作成する請求項2または3に記載のデータ処理装置。 The data processing apparatus according to claim 2 or 3, wherein the statistical processing unit creates a histogram in a direction orthogonal to the writing direction of characters included in the image data. 複数の項目から構成される原稿を画像データに変換する画像データ変換部と、
画像データを項目単位で抽出する抽出部とを備え、
前記抽出部は、前記画像データ変換部により変換された画像データを項目単位で抽出する請求項2から4のいずれか一項に記載のデータ処理装置。
An image data conversion unit that converts a manuscript composed of multiple items into image data,
Equipped with an extraction unit that extracts image data item by item
The data processing device according to any one of claims 2 to 4, wherein the extraction unit extracts image data converted by the image data conversion unit on an item-by-item basis.
前記圧縮部は、符号化したデータを変換テーブルに基づいて変換する請求項1記載のデータ処理装置。 The data processing device according to claim 1, wherein the compression unit converts encoded data based on a conversion table. 回転処理部によって、画像データを所定角度回転させる回転処理工程と、
圧縮部によって、前記回転処理部により回転された画像データの圧縮処理を行う圧縮工程とを備え、
前記回転処理部は、画像データを二値化データに変換した二値化データに対して統計処理を行い、前記画像データを所定角度回転させるごとに統計処理結果を比較し、画像データの回転角度を決定し、
前記圧縮工程は、画像データの圧縮処理において、前記決定された回転角度で画像データを回転し、回転後の画像データを同一の値が連続する二値化データに変換し、変換後の二値化データを符号化するデータ処理方法。
A rotation processing process in which the image data is rotated by a predetermined angle by the rotation processing unit, and
The compression unit includes a compression step of performing compression processing of the image data rotated by the rotation processing unit.
The rotation processing unit performs statistical processing on the binarized data obtained by converting the image data into binarized data, compares the statistical processing results each time the image data is rotated by a predetermined angle, and rotates the image data. Decide and
In the compression step, in the image data compression process, the image data is rotated at the determined rotation angle, the rotated image data is converted into binarized data in which the same value is continuous, and the converted binary data is converted. A data processing method that encodes compressed data.
画像データを所定角度回転させる回転処理工程と、
前記回転処理工程により回転された画像データの圧縮処理を行う圧縮工程と、をコンピュータによって実現するためのデータ処理プログラムであって、
前記回転処理工程は、画像データを二値化データに変換した二値化データに対して統計処理を行い、前記画像データを所定角度回転させるごとに統計処理結果を比較し、画像データの回転角度を決定し、
前記圧縮工程は、画像データの圧縮処理において、前記決定された回転角度で画像データを回転し、回転後の画像データを同一の値が連続する二値化データに変換し、変換後の二値化データを符号化するデータ処理プログラム。
A rotation processing process that rotates the image data by a predetermined angle,
A data processing program for realizing a compression process of compressing image data rotated by the rotation processing process by a computer.
In the rotation processing step, statistical processing is performed on the binarized data obtained by converting the image data into binarized data, the statistical processing results are compared each time the image data is rotated by a predetermined angle, and the rotation angle of the image data is compared. Decide and
In the compression step, in the image data compression process, the image data is rotated at the determined rotation angle, the rotated image data is converted into binarized data in which the same value is continuous, and the converted binary data is converted. A data processing program that encodes compressed data.
JP2017154962A 2017-08-10 2017-08-10 Data processing equipment, methods and programs Active JP6913320B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017154962A JP6913320B2 (en) 2017-08-10 2017-08-10 Data processing equipment, methods and programs
JP2021110066A JP2021153347A (en) 2017-08-10 2021-07-01 Data processing device, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017154962A JP6913320B2 (en) 2017-08-10 2017-08-10 Data processing equipment, methods and programs

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2021110066A Division JP2021153347A (en) 2017-08-10 2021-07-01 Data processing device, method and program

Publications (2)

Publication Number Publication Date
JP2019033462A JP2019033462A (en) 2019-02-28
JP6913320B2 true JP6913320B2 (en) 2021-08-04

Family

ID=65523754

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2017154962A Active JP6913320B2 (en) 2017-08-10 2017-08-10 Data processing equipment, methods and programs
JP2021110066A Pending JP2021153347A (en) 2017-08-10 2021-07-01 Data processing device, method and program

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2021110066A Pending JP2021153347A (en) 2017-08-10 2021-07-01 Data processing device, method and program

Country Status (1)

Country Link
JP (2) JP6913320B2 (en)

Also Published As

Publication number Publication date
JP2021153347A (en) 2021-09-30
JP2019033462A (en) 2019-02-28

Similar Documents

Publication Publication Date Title
US11663817B2 (en) Automated signature extraction and verification
JP3345350B2 (en) Document image recognition apparatus, method thereof, and recording medium
EP1999688B1 (en) Converting digital images containing text to token-based files for rendering
US8595503B2 (en) Method of self-authenticating a document while preserving critical content in authentication data
US9230383B2 (en) Document image compression method and its application in document authentication
EP3477578B1 (en) Watermark embedding and extracting method for protecting documents
Daraee et al. Watermarking in binary document images using fractal codes
JP4904175B2 (en) Method and apparatus for creating high fidelity glyph prototypes from low resolution glyph images
TW200403578A (en) Clustering
KR20190113578A (en) Machine readable security mark and process for generating
US7400768B1 (en) Enhanced optical recognition of digitized images through selective bit insertion
US8195626B1 (en) Compressing token-based files for transfer and reconstruction
US9117132B2 (en) System and method facilitating designing of classifier while recognizing characters in a video
JP6354253B2 (en) Image processing apparatus, image processing system, image processing method, and image processing program
JP6913320B2 (en) Data processing equipment, methods and programs
KR101498546B1 (en) System and method for restoring digital documents
AU2006223761B2 (en) Method and system for adaptive recognition of distorted text in computer images
US10931852B2 (en) Image processing apparatus, image processing method, and storage medium, with determining whether or not character clipping rectangle determined to be non-character region is character region
US12332978B2 (en) Methods and systems for watermarking documents
US9053359B2 (en) Method and system for document authentication using Krawtchouk decomposition of image patches for image comparison
JP2007226803A (en) System and method for creating synthetic ligature as quality prototype for sparse multi-character cluster
CN114118075B (en) Text recognition method and device, electronic equipment and storage medium
JP2019021085A (en) Image processing program, image processing method, and image processing apparatus
JP6481301B2 (en) Image processing apparatus and image processing program
JP4766451B2 (en) Encoding apparatus, image processing apparatus, encoding method, and encoding program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200623

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20200623

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210609

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210628

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210701

R150 Certificate of patent or registration of utility model

Ref document number: 6913320

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350