Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7707705B2 - Character recognition system and character recognition method - Google Patents
[go: Go Back, main page]

JP7707705B2 - Character recognition system and character recognition method - Google Patents

Character recognition system and character recognition method

Info

Publication number
JP7707705B2
JP7707705B2 JP2021115057A JP2021115057A JP7707705B2 JP 7707705 B2 JP7707705 B2 JP 7707705B2 JP 2021115057 A JP2021115057 A JP 2021115057A JP 2021115057 A JP2021115057 A JP 2021115057A JP 7707705 B2 JP7707705 B2 JP 7707705B2
Authority
JP
Japan
Prior art keywords
character
characters
character recognition
unrecognized
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021115057A
Other languages
Japanese (ja)
Other versions
JP2023011288A (en
Inventor
正樹 中田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2021115057A priority Critical patent/JP7707705B2/en
Publication of JP2023011288A publication Critical patent/JP2023011288A/en
Application granted granted Critical
Publication of JP7707705B2 publication Critical patent/JP7707705B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Discrimination (AREA)

Description

本発明は、文字認識システム及び文字認識方法に関する。 The present invention relates to a character recognition system and a character recognition method.

従来、文字認識システムにおいて、原稿画像に含まれる文字画像を文字データに変換して保存することにより、文字による検索、分類等ができ、原稿の保存性、再利用性が向上する。それゆえ、従来、様々な文字認識技術が提案されている(例えば、特許文献1参照)。 Conventionally, in character recognition systems, character images contained in an original image are converted into character data and stored, allowing for character-based search and classification, improving the storability and reusability of the original. For this reason, various character recognition technologies have been proposed (see, for example, Patent Document 1).

特許文献1には、画像データに対して光学文字認識(OCR:Optical Character Recognition)処理を施し、文書データに変換する情報処理装置が開示されている。特許文献1に開示の情報処理装置では、例えば企業のロゴ等の特殊形状の文字列を特定パターンとして予め登録する。そして、当該情報処理装置は、予め登録された特定パターンと、特定パターンを含む画像とのマッチングを行うことにより、企業のロゴ等の特殊形状の文字列の誤検知をなくし、OCR解析結果の精度を向上させる。 Patent Document 1 discloses an information processing device that performs optical character recognition (OCR) processing on image data and converts it into document data. In the information processing device disclosed in Patent Document 1, a character string with a special shape, such as a company logo, is pre-registered as a specific pattern. The information processing device then matches the pre-registered specific pattern with an image containing the specific pattern, thereby eliminating false detection of character strings with a special shape, such as a company logo, and improving the accuracy of OCR analysis results.

特開2019-149073号公報JP 2019-149073 A

ところで、原稿が例えばメモ等である場合には、メモに手書きで記載された特殊記号や特殊文字などの画像が原稿画像に含まれることがある。このような手書きの特殊記号や特殊文字などは、通常、文字認識システムにおいて登録されていないので、文字認識システムにより認識できない、又は、別の文字として認識される。この場合、手書きの特殊記号や特殊文字などの認識不可の文字に対して、文字による検索や分類を行うことができず、それらをデジタルデータとして活用できないといった問題が発生する。また、手書きの特殊記号や特殊文字などは、書き手によってその書き方や形状が異なるので、これらの手書きの記号や文字を予め文字認識システムに登録しておくことは難しい。なお、上述した特許文献1に開示の技術は、予め登録された企業のロゴ等の特殊形状の文字列を特定パターンと、特定パターンを含む画像とのマッチングを行う文字認識技術であるので、上記問題を解消することはできない。そこで、従来、原稿画像に手書きの特殊記号や特殊文字などが含まれていても、手書きの特殊記号や特殊文字などの抽出及びデータ化を可能にする文字認識システムの開発が求められている。 However, when the manuscript is, for example, a memo, images of special symbols and special characters handwritten on the memo may be included in the manuscript image. Such handwritten special symbols and special characters are usually not registered in a character recognition system, so they cannot be recognized by the character recognition system or are recognized as different characters. In this case, problems occur in that unrecognizable characters such as handwritten special symbols and special characters cannot be searched or classified by character, and they cannot be used as digital data. In addition, since the writing style and shape of handwritten special symbols and special characters vary depending on the writer, it is difficult to register these handwritten symbols and characters in a character recognition system in advance. Note that the technology disclosed in the above-mentioned Patent Document 1 is a character recognition technology that matches a character string of a special shape such as a company logo registered in advance with a specific pattern and an image containing the specific pattern, so it cannot solve the above problem. Therefore, there has been a demand for the development of a character recognition system that enables the extraction and digitization of handwritten special symbols and special characters even if the manuscript image contains handwritten special symbols and special characters.

本発明は上記課題を解決するためになされたものである。本発明の目的は、原稿画像に手書きの特殊記号や特殊文字などが含まれていても、それらの記号や文字の抽出及びデータ化を可能にし、それらの記号や文字に対しても、検索、分類等を効率よく行うことができる文字認識システム及び文字認識方法を提供することである。 The present invention has been made to solve the above problems. The object of the present invention is to provide a character recognition system and a character recognition method that can extract and digitize handwritten special symbols and characters even if they are included in an original image, and can efficiently search, classify, and otherwise process such symbols and characters.

本発明の文字認識システムは、原稿の画像を読み取る画像読取部と、画像読取部により読み取られた原稿の画像に含まれる文字を抽出して、抽出した文字に対して文字認識を行う文字認識部と、原稿の画像に対する文字認識の結果を記憶する記憶部と、を備え、文字認識部は、文字認識により認識できない未認識文字を抽出し、当該未認識文字に対して類似文字を紐付け、複数の未認識文字の間において、各未認識文字に紐付けられた類似文字を比較し、その比較結果に基づいて、複数の未認識文字のうちの少なくとも一部をグループ化し、グループ化された各未認識文字に対して同じ所定の文字コードを割り当て、グループ化された各未認識文字に対して同じ所定の文字コードを割り当てたデータを記憶部に出力して保存する。
また、本発明の文字認識システムは、原稿の画像を読み取る画像読取部と、画像読取部により読み取られた原稿の画像に含まれる文字を抽出して、抽出した文字に対して文字認識を行う文字認識部と、原稿の画像に対する文字認識の結果を記憶する記憶部と、を備え、画像読取部により読み取られる原稿の画像が複数ある場合、文字認識部は、一つの原稿の画像毎に文字認識を行い、文字認識により認識できない未認識文字を抽出し、複数の原稿の画像のうちの所定の原稿の画像で抽出された未認識文字と、複数の原稿の画像のうちの所定の原稿の画像とは異なる原稿の画像で抽出された未認識文字とをグループ化して、グループ化された各未認識文字に対して同じ所定の文字コードを割り当て、グループ化された各未認識文字に対して同じ所定の文字コードを割り当てたデータを記憶部に出力して保存する。
The character recognition system of the present invention comprises an image reading unit that reads an image of a document, a character recognition unit that extracts characters contained in the image of the document read by the image reading unit and performs character recognition on the extracted characters, and a memory unit that stores the results of character recognition on the image of the document, wherein the character recognition unit extracts unrecognized characters that cannot be recognized by character recognition, links similar characters to the unrecognized characters, compares the similar characters linked to each unrecognized character among the multiple unrecognized characters, groups at least a portion of the multiple unrecognized characters based on the comparison results, assigns the same predetermined character code to each of the grouped unrecognized characters, and outputs and stores data in which the same predetermined character code is assigned to each of the grouped unrecognized characters in the memory unit.
In addition, the character recognition system of the present invention includes an image reading unit that reads an image of a document, a character recognition unit that extracts characters contained in the image of the document read by the image reading unit and performs character recognition on the extracted characters, and a memory unit that stores the results of the character recognition on the image of the document, and when there are multiple images of the document read by the image reading unit, the character recognition unit performs character recognition on each image of the document, extracts unrecognized characters that cannot be recognized by character recognition, groups the unrecognized characters extracted in a specified image of the document among the multiple images of the document and the unrecognized characters extracted in an image of a document other than the specified image of the document among the multiple images of the document, assigns the same specified character code to each of the grouped unrecognized characters, and outputs and stores the data in which the same specified character code is assigned to each of the grouped unrecognized characters in the memory unit.

また、本発明の文字認識方法は、原稿の画像を読み取る画像読取部と、画像読取部により読み取られた原稿の画像に含まれる文字を抽出して、抽出した文字に対して文字認識を行う文字認識部と、原稿の画像に対する文字認識の結果を記憶する記憶部と、を備える文字認識システムでの文字認識方法であって、文字認識部は、文字認識により認識できない未認識文字を抽出し、当該未認識文字に対して類似文字を紐付け、複数の未認識文字の間において、各未認識文字に紐付けられた類似文字を比較し、その比較結果に基づいて、複数の未認識文字のうちの少なくとも一部をグループ化し、グループ化された各未認識文字に対して同じ所定の文字コードを割り当て、グループ化された各未認識文字に対して同じ所定の文字コードを割り当てたデータを記憶部に出力して保存する。
また、本発明の文字認識方法は、原稿の画像を読み取る画像読取部と、画像読取部により読み取られた原稿の画像に含まれる文字を抽出して、抽出した文字に対して文字認識を行う文字認識部と、原稿の画像に対する文字認識の結果を記憶する記憶部と、を備える文字認識システムでの文字認識方法であって、画像読取部により読み取られる原稿の画像が複数ある場合、文字認識部は、一つの原稿の画像毎に文字認識を行い、文字認識により認識できない未認識文字を抽出し、複数の原稿の画像のうちの所定の原稿の画像で抽出された未認識文字と、複数の原稿の画像のうちの所定の原稿の画像とは異なる原稿の画像で抽出された未認識文字とをグループ化して、グループ化された各未認識文字に対して同じ所定の文字コードを割り当て、グループ化された各未認識文字に対して同じ所定の文字コードを割り当てたデータを記憶部に出力して保存する。
In addition, the character recognition method of the present invention is a character recognition method in a character recognition system that includes an image reading unit that reads an image of a document, a character recognition unit that extracts characters included in the image of the document read by the image reading unit and performs character recognition on the extracted characters, and a memory unit that stores the results of the character recognition on the image of the document, in which the character recognition unit extracts unrecognized characters that cannot be recognized by character recognition, links similar characters to the unrecognized characters, compares the similar characters linked to each unrecognized character among the multiple unrecognized characters, groups at least a portion of the multiple unrecognized characters based on the comparison results, assigns the same predetermined character code to each of the grouped unrecognized characters, and outputs and stores data in which the same predetermined character code is assigned to each of the grouped unrecognized characters in the memory unit.
In addition, the character recognition method of the present invention is a character recognition method in a character recognition system that includes an image reading unit that reads an image of a document, a character recognition unit that extracts characters contained in the image of the document read by the image reading unit and performs character recognition on the extracted characters, and a memory unit that stores the results of the character recognition for the image of the document, in which when there are multiple images of the document read by the image reading unit, the character recognition unit performs character recognition on each image of the document, extracts unrecognized characters that cannot be recognized by character recognition, groups the unrecognized characters extracted in a specified image of the document among the multiple images of the document and the unrecognized characters extracted in an image of a document other than the specified image of the document among the multiple images of the document, assigns the same specified character code to each of the grouped unrecognized characters, and outputs and stores the data in which the same specified character code is assigned to each of the grouped unrecognized characters to the memory unit.

上記構成の本発明によれば、原稿画像に手書きの特殊記号や特殊文字などが含まれていても、それらの記号や文字の抽出及びデータ化を可能にし、それらの記号や文字に対しても、検索、分類等を効率よく行うことができる。 According to the present invention configured as above, even if the document image contains special handwritten symbols or characters, it is possible to extract and digitize these symbols and characters, and to efficiently search, classify, etc. these symbols and characters.

手書きの特殊記号を含む原稿の画像の一例を示す図である。FIG. 1 is a diagram showing an example of an image of a document including handwritten special symbols. 本発明の一実施形態に係る文字認識システムの構成を示すブロック図である。1 is a block diagram showing a configuration of a character recognition system according to an embodiment of the present invention. 本発明の一実施形態に係る文字認識システムにおいて読み取られる原稿画像の一例を示す図である。1 is a diagram showing an example of an original image read by a character recognition system according to an embodiment of the present invention; 本発明の一実施形態に係る文字認識システムにおいて解析された原稿画像のレイアウトの一例を示す図である。FIG. 2 is a diagram showing an example of the layout of a document image analyzed in a character recognition system according to an embodiment of the present invention. 本発明の一実施形態に係る文字認識システムにおいて行われる文字列の切り出し処理を説明するための図である。4A to 4C are diagrams for explaining a character string segmentation process performed in a character recognition system according to an embodiment of the present invention. 本発明の一実施形態に係る文字認識システムにおいて行われる文字の切り出し処理を説明するための図である。4A to 4C are diagrams for explaining a character segmentation process performed in a character recognition system according to an embodiment of the present invention. 本発明の一実施形態に係る文字認識システムにおいて行われる文字の正規化処理を説明するための図である。4A and 4B are diagrams for explaining character normalization processing performed in a character recognition system according to an embodiment of the present invention. 本発明の一実施形態に係る文字認識システムにおいて、未認識文字と、その類似文字と、両者の一致度との関係を示す図である。1 is a diagram showing a relationship between an unrecognized character, a similar character, and the degree of match between the two in a character recognition system according to an embodiment of the present invention; 本発明の一実施形態に係る文字認識システムにおいて出力される、文字認識処理の認識結果(テキストデータ)の一例を示す図である。3 is a diagram showing an example of a recognition result (text data) of a character recognition process output in the character recognition system according to the embodiment of the present invention. FIG. 本発明の一実施形態に係る文字認識システムにおいて出力される、特殊記号とそれに割り当てられた文字コードとの対応関係を示す出力データの一例(出力例1)を示す図である。1 is a diagram showing an example (output example 1) of output data showing the correspondence between special symbols and character codes assigned thereto, outputted in a character recognition system according to one embodiment of the present invention; FIG. 本発明の一実施形態に係る文字認識システムにおいて出力される、特殊記号とそれに割り当てられた文字コードとの対応関係を示す別の出力データの一例(出力例3)を示す図である。A figure showing an example (output example 3) of another output data showing the correspondence between special symbols and character codes assigned thereto, output in a character recognition system according to one embodiment of the present invention. 本発明の一実施形態に係る文字認識システムにおいて出力される、特殊記号とそれに割り当てられた文字コードとの対応関係を示す別の出力データの一例(出力例3)を説明するための図である。FIG. 11 is a diagram for explaining an example (output example 3) of another output data showing the correspondence between special symbols and character codes assigned thereto, output in a character recognition system according to one embodiment of the present invention. 本発明の一実施形態に係る文字認識システムにおいて行われる、1枚の原稿画像に対する文字認識処理の手順を示すフローチャートである。4 is a flowchart showing the procedure of character recognition processing for one document image, which is performed in the character recognition system according to the embodiment of the present invention. 本発明の一実施形態に係る文字認識システムにおいて行われる、複数枚の原稿画像に対する文字認識処理の手順を示すフローチャートである。4 is a flowchart showing a procedure of character recognition processing for a plurality of document images, which is performed in the character recognition system according to the embodiment of the present invention.

以下、本発明の一実施形態に係る文字認識システムの構成及び文字認識方法について、図面を参照しながら具体的に説明する。なお、本発明は以下の例に限定されるものではない。 The configuration of a character recognition system and a character recognition method according to one embodiment of the present invention will be specifically described below with reference to the drawings. Note that the present invention is not limited to the following example.

[文字認識の対象となる特殊記号を含む原稿画像の一例]
まず、本実施形態の文字認識システムの構成及び文字認識方法を説明する前に、本実施形態の文字認識システムにおいて、認識対象とする、手書きの特殊記号を含む原稿の画像の一例を説明する。図1は、手書きの特殊記号を含む原稿(メモ)の画像の一例を示す図である。
[An example of a document image containing special symbols that can be subject to character recognition]
First, before describing the configuration of the character recognition system and the character recognition method of the present embodiment, an example of an image of a document including handwritten special symbols to be recognized in the character recognition system of the present embodiment will be described. Fig. 1 is a diagram showing an example of an image of a document (memo) including handwritten special symbols.

図1に示す例では、1枚の原稿画像Nには、4枚のメモN1~N4のそれぞれの画像が含まれる。また、図1に示す例では、メモN1~N4の各画像内の中央には、それぞれ、メモの内容を示すテキスト情報TX1~TX4が示され、テキスト情報TX1~TX4の上部には、それぞれ、手書きの特殊記号SC1~SC4が示される。メモN1~N3のそれぞれに示された特殊記号SC1~SC3は、それぞれ、手書きの「重」という文字を丸印で囲む特殊記号であり、メモN4に示された特殊記号SC4は、月の形を模した特殊記号である。 In the example shown in FIG. 1, one original image N includes images of four memos N1 to N4. Also, in the example shown in FIG. 1, text information TX1 to TX4 indicating the contents of the memo is shown in the center of each image of memos N1 to N4, and handwritten special symbols SC1 to SC4 are shown above the text information TX1 to TX4. The special symbols SC1 to SC3 shown in each of memos N1 to N3 are special symbols that enclose the handwritten character "重" in a circle, and the special symbol SC4 shown in memo N4 is a special symbol that resembles the shape of a moon.

特殊記号SC1~SC4のような手書きの特殊記号は、メモを作成した人の記憶の整理や、後の分類などに活用するために書かれた記号であり、通常、予め文字認識システムに登録することは難しい。しかしながら、本実施形態の文字認識システムは、特殊記号SC1~SC4を文字認識処理で未認識文字として抽出(特定)し、当該未認識文字に対して所定の文字コードを割り当て(紐付け)、これにより、未認識文字をデジタルデータ化する。 Handwritten special symbols such as special symbols SC1 to SC4 are symbols written to help organize the memory of the person who created the note or for later classification, and are usually difficult to register in a character recognition system in advance. However, the character recognition system of this embodiment extracts (identifies) special symbols SC1 to SC4 as unrecognized characters in the character recognition process, and assigns (links) a specific character code to the unrecognized characters, thereby converting the unrecognized characters into digital data.

また、例えば、特殊記号SC1~SC3は、記号の形状が互いに異なるが、各記号の意味は同じである。それゆえ、このような同じ意味を有する複数の特殊記号がそれぞれ異なる特殊記号(文字コード)として認識されると、これらの複数の特殊記号をまとめて管理することができない。本実施形態の文字認識システムは、同じ意味を有する複数の特殊記号に対して、同じ文字コードを割り当てて管理する。 For example, the special symbols SC1 to SC3 have different symbol shapes, but the meanings of the symbols are the same. Therefore, if multiple special symbols with the same meaning are recognized as different special symbols (character codes), these multiple special symbols cannot be managed together. The character recognition system of this embodiment assigns the same character code to multiple special symbols with the same meaning and manages them.

[文字認識システムの構成]
図2は、本実施形態の文字認識システムの構成を示すブロック図である。文字認識システム1は、図2に示すように、画像形成装置10と、情報処理装置20とを備える。画像形成装置10及び情報処理装置20は、ネットワーク30を介して互いに情報データの送受信を行うことが可能である。なお、図2には、文字認識システム1が1つの画像形成装置10を備える例を示すが、本発明はこれに限定されず、文字認識システム1が、複数の画像形成装置を含んでいてもよい。
[Character Recognition System Configuration]
Fig. 2 is a block diagram showing the configuration of the character recognition system of this embodiment. As shown in Fig. 2, the character recognition system 1 includes an image forming device 10 and an information processing device 20. The image forming device 10 and the information processing device 20 are capable of transmitting and receiving information data to and from each other via a network 30. Note that Fig. 2 shows an example in which the character recognition system 1 includes one image forming device 10, but the present invention is not limited to this, and the character recognition system 1 may include a plurality of image forming devices.

文字認識システム1で文字認識を行う場合には、まず、画像形成装置10は、文字認識の対象となる原稿の画像を読み取り、原稿の画像データを生成する。次に、画像形成装置10は、生成した原稿の画像データ(以下、「原稿画像」と称する)を、ネットワーク30を介して情報処理装置20に送信する。次に、情報処理装置20は、ネットワーク30を介して受信した原稿画像に対して、文字認識処理を行い、文字認識処理の結果を出力する。 When character recognition is performed by the character recognition system 1, the image forming device 10 first reads an image of the original document that is to be subjected to character recognition, and generates image data of the original document. Next, the image forming device 10 transmits the generated image data of the original document (hereinafter referred to as the "original image") to the information processing device 20 via the network 30. Next, the information processing device 20 performs character recognition processing on the original document image received via the network 30, and outputs the results of the character recognition processing.

なお、本実施形態では、文字認識処理の機能部(後述の文字認識装置部22)を情報処理装置20に設ける例を説明するが、本発明はこれに限定されない。例えば、文字認識処理の機能部を画像形成装置10の内部に設けてもよい。この場合、文字認識システム1は、画像形成装置10のみで構成される。 In this embodiment, an example is described in which the character recognition processing functional unit (character recognition device unit 22 described below) is provided in the information processing device 20, but the present invention is not limited to this. For example, the character recognition processing functional unit may be provided inside the image forming device 10. In this case, the character recognition system 1 is composed of only the image forming device 10.

[画像形成装置の構成]
画像形成装置10は、スキャナー機能、コピー機能、ファクシミリ機能、ネットワーク機能、データのボックス機能等の複数の機能が搭載された複合機(MFP:Multi-Function Peripheral)である。画像形成装置10は、操作表示部11と、自動原稿給送装置(ADF:Auto Document Feeder)12と、画像読取部13と、プリンタ部14と、CPU(Central Processing Unit)15と、ROM(Read Only Memory)16と、RAM(Random Access Memory)17と、記憶部18と、通信部19、バス101とを有する。バス101は、各構成部間を電気的に接続し、各構成部間における信号の入出力が行われる信号経路である。
[Configuration of Image Forming Apparatus]
The image forming apparatus 10 is a multi-function peripheral (MFP) equipped with multiple functions such as a scanner function, a copy function, a facsimile function, a network function, a data box function, etc. The image forming apparatus 10 includes an operation display unit 11, an auto document feeder (ADF) 12, an image reading unit 13, a printer unit 14, a central processing unit (CPU) 15, a read only memory (ROM) 16, a random access memory (RAM) 17, a storage unit 18, a communication unit 19, and a bus 101. The bus 101 electrically connects the components together and is a signal path through which signals are input and output between the components.

操作表示部11は、LCD(Liquid Crystal Display)や有機EL(Electro-luminescence)ディスプレイなどの表示デバイス等からなる表示部、及び、タッチセンサー等からなる操作部で構成される。表示部及び操作部は、例えばタッチパネルとして一体に形成される。操作表示部11は、操作部に入力されたオペレーターからの操作内容を表す操作信号を生成し、該操作信号をCPU15に供給する。また、操作表示部11は、CPU15から供給される表示信号に基づいて、表示部に、オペレーターによる操作内容や設定情報等を表示する。なお、操作部をマウスやタブレットなどで構成し、表示部とは別体で構成することも可能である。 The operation display unit 11 is composed of a display unit consisting of a display device such as an LCD (Liquid Crystal Display) or an organic EL (Electro-luminescence) display, and an operation unit consisting of a touch sensor. The display unit and operation unit are integrally formed, for example, as a touch panel. The operation display unit 11 generates an operation signal representing the operation content input by the operator to the operation unit, and supplies the operation signal to the CPU 15. The operation display unit 11 also displays the operation content by the operator, setting information, etc. on the display unit based on the display signal supplied from the CPU 15. It is also possible to configure the operation unit as a mouse, tablet, etc., and to configure it separately from the display unit.

自動原稿給送装置12は、記録媒体を載置する載置トレイ、記録媒体を搬送する機構及び搬送ローラー等で構成され、記録媒体を所定の搬送路に搬送する。 The automatic document feeder 12 is composed of a loading tray on which the recording medium is placed, a mechanism for transporting the recording medium, transport rollers, etc., and transports the recording medium to a specified transport path.

画像読取部13は、自動原稿給送装置12により給送された原稿の画像を光学的に読み取り、読み取った画像をA/D(Analog to Digital)変換して画像データ(原稿画像)を生成する。画像読取部13により読み取られた原稿画像は、通信部19及びネットワーク30を介して、情報処理装置20に送信される。なお、画像読取部13は、プラテンガラス上で原稿から画像を読み込むこともできる。 The image reading unit 13 optically reads the image of the document fed by the automatic document feeder 12, and performs A/D (Analog to Digital) conversion of the read image to generate image data (document image). The document image read by the image reading unit 13 is transmitted to the information processing device 20 via the communication unit 19 and the network 30. The image reading unit 13 can also read an image from the document on the platen glass.

プリンタ部14は、画像形成に必要な構成要素で構成され、印刷ジョブの指定情報に基づき、所定の画像を記録媒体に印刷する。具体的には、プリンタ部14は、記録媒体に対して、帯電装置により帯電された感光体ドラムに露光装置から画像に応じた光を照射して静電潜像を形成し、現像装置で帯電したトナーを付着させて現像する。そして、プリンタ部14は、現像したトナー像を転写ベルトに1次転写し、転写ベルトから記録媒体に2次転写し、更に定着装置で記録媒体上のトナー像を定着させる処理を行う。 The printer unit 14 is composed of components necessary for image formation, and prints a specified image on a recording medium based on the specified information of a print job. Specifically, the printer unit 14 forms an electrostatic latent image on the recording medium by irradiating a photosensitive drum charged by a charging device with light corresponding to the image from an exposure device, and develops the image by attaching charged toner in a developing device. The printer unit 14 then performs a process of primarily transferring the developed toner image to a transfer belt, secondary transferring the toner image from the transfer belt to the recording medium, and further fixing the toner image on the recording medium with a fixing device.

CPU15は、画像形成装置10内の各部の動作を制御する。例えば、CPU15は、画像読取部13の原稿画像読取処理、操作表示部11を介して行われるユーザーの印刷指示に基づいたプリンタ部14の画像形成処理、通信部19による情報処理装置20との間のデータ情報の送受信処理等の制御を行う。 The CPU 15 controls the operation of each section within the image forming device 10. For example, the CPU 15 controls the document image reading process of the image reading section 13, the image forming process of the printer section 14 based on a print instruction from the user via the operation display section 11, and the transmission and reception process of data information between the information processing device 20 and the communication section 19.

ROM16は、例えば不揮発性メモリ等の記憶媒体で構成され、CPU15が実行及び参照するプログラムやデータ等を記憶する。 The ROM 16 is composed of a storage medium such as a non-volatile memory, and stores programs and data that are executed and referenced by the CPU 15.

RAM17は、例えば揮発性メモリ等の記憶媒体で構成され、CPU15が行う各処理に必要な情報(データ)を一時的に記憶する。 RAM 17 is composed of a storage medium such as a volatile memory, and temporarily stores information (data) required for each process performed by CPU 15.

記憶部18は、CPU15によって実行されるプログラムを格納したコンピューター読取可能な非一過性の記録媒体で構成され、例えばHDD(Hard Disk Drive)等の記憶装置で構成される。記憶部18は、CPU15が各部を制御するためのプログラム、OS(Operating System)、コントローラー等のプログラム、データを記憶する。なお、記憶部18に記憶されるプログラム、データの一部は、ROM16に記憶しされてもよい。また、CPU15によって実行されるプログラムを格納したコンピューター読取可能な非一過性の記録媒体は、HDDに限定されず、例えば、SSD(Solid State Drive)、CD(Compact Disc)-ROM、DVD(Digital Versatile Disc)-ROM等の記録媒体であってもよい。 The storage unit 18 is composed of a computer-readable non-transient recording medium that stores the program executed by the CPU 15, and is composed of a storage device such as an HDD (Hard Disk Drive). The storage unit 18 stores programs and data, such as the program for the CPU 15 to control each part, the OS (Operating System), and the controller. Note that some of the programs and data stored in the storage unit 18 may be stored in the ROM 16. In addition, the computer-readable non-transient recording medium that stores the program executed by the CPU 15 is not limited to an HDD, and may be, for example, a recording medium such as an SSD (Solid State Drive), a CD (Compact Disc)-ROM, or a DVD (Digital Versatile Disc)-ROM.

通信部19は、ネットワーク30を介して接続されている外部装置と各種データ情報の送受信を行う。通信部19は、例えば、通信用IC(Integrated Circuit)及び通信コネクタ等を有する通信インターフェイスであり、CPU15の制御の下、所定の通信プロトコルを用いてネットワーク30を介して接続されている情報処理装置20と各種データ情報の送受信を行うことが可能である。また、通信部19は、例えば、アンテナ、復調回路、信号処理回路等の構成を有し、Wi-Fi(登録商標)等の無線通信方式により、ネットワーク30を介して接続されている情報処理装置20との間で無線通信による各種データ情報の送受信を行うことが可能である。 The communication unit 19 transmits and receives various data information to and from an external device connected via the network 30. The communication unit 19 is, for example, a communication interface having a communication IC (Integrated Circuit) and a communication connector, and is capable of transmitting and receiving various data information to and from the information processing device 20 connected via the network 30 using a predetermined communication protocol under the control of the CPU 15. The communication unit 19 also has, for example, an antenna, a demodulation circuit, a signal processing circuit, and the like, and is capable of transmitting and receiving various data information wirelessly to and from the information processing device 20 connected via the network 30 using a wireless communication method such as Wi-Fi (registered trademark).

[情報処理装置の構成]
情報処理装置20は、画像形成装置10の画像読取部13により読み取られた原稿画像を、ネットワーク30を介して受信し、受信した原稿画像に対して文字認識処理を行う。情報処理装置20は、図2に示すように、操作表示部21と、文字認識装置部22と、CPU23と、ROM24と、RAM25と、記憶部26と、通信部27と、バス201とを有する。バス201は、各構成部間を電気的に接続して、各構成部間における信号の入出力が行われる信号経路である。
[Configuration of information processing device]
The information processing device 20 receives an original image read by the image reading unit 13 of the image forming device 10 via the network 30, and performs character recognition processing on the received original image. As shown in Fig. 2, the information processing device 20 has an operation display unit 21, a character recognition device unit 22, a CPU 23, a ROM 24, a RAM 25, a storage unit 26, a communication unit 27, and a bus 201. The bus 201 is a signal path that electrically connects each component unit and inputs and outputs signals between the components.

操作表示部21は、LCDや有機ELディスプレイなどの表示デバイス等からなる表示部、及び、タッチセンサー等からなる操作部で構成される。表示部及び操作部は、例えばタッチパネルとして一体に形成される。操作表示部21は、操作部に入力されたオペレーターからの操作内容を表す操作信号を生成し、該操作信号をCPU23に供給する。また、操作表示部21は、CPU23から供給される表示信号に基づいて、表示部に、オペレーターによる操作内容や設定情報等を表示する。また、表示部は、文字認識装置部22から出力される、原稿画像に対する後述の文字認識処理の認識結果(後述の図11に示すテキスト情報等)を表示可能である。なお、操作部をマウスやタブレットなどで構成し、表示部とは別体で構成することも可能である。 The operation display unit 21 is composed of a display unit consisting of a display device such as an LCD or an organic EL display, and an operation unit consisting of a touch sensor. The display unit and the operation unit are integrally formed, for example, as a touch panel. The operation display unit 21 generates an operation signal representing the operation content input by the operator to the operation unit, and supplies the operation signal to the CPU 23. The operation display unit 21 also displays the operation content by the operator and setting information on the display unit based on the display signal supplied from the CPU 23. The display unit can also display the recognition results of the character recognition process (such as text information shown in FIG. 11) for the document image, which is output from the character recognition device unit 22 and will be described later. It is also possible to configure the operation unit as a mouse, tablet, or the like, and to configure it separately from the display unit.

文字認識装置部22(文字認識部)は、CPU23の制御の下で、画像形成装置10からネットワーク30を介して受信した文字認識の対象となる原稿画像に対して所定の文字認識処理を行う。本実施形態の文字認識処理は、OCRで用いられる処理手法、すなわち、原稿画像に対して、レイアウト解析、行の切り出し、文字の切り出し、文字認識及び結果出力をこの順で行う手法を採用する。しかしながら、本発明はこれに限定されず、文字認識処理の手法は、図1で説明した手書きの各種特殊記号等も原稿画像から抽出可能な手法であれば、任意の手法を採用することができる。なお、本実施形態では、文字認識装置部22の機能をソフトウェアで構成するものとするが、文字認識装置部22を文字認識専用の演算処理装置(ハードウェア)で構成してもよく、この場合には、文字認識専用の演算処理装置内で文字認識処理が制御される。文字認識装置部22の構成及び機能については、後で詳述する。 The character recognition device 22 (character recognition unit) performs a predetermined character recognition process on the document image to be subjected to character recognition, received from the image forming device 10 via the network 30, under the control of the CPU 23. The character recognition process of this embodiment employs a processing method used in OCR, that is, a method in which the document image is subjected to layout analysis, line segmentation, character segmentation, character recognition, and result output in this order. However, the present invention is not limited to this, and any method can be employed for the character recognition process as long as it is a method capable of extracting various handwritten special symbols, etc., as described in FIG. 1, from the document image. Note that, in this embodiment, the function of the character recognition device 22 is configured by software, but the character recognition device 22 may be configured by a processing device (hardware) dedicated to character recognition, in which case the character recognition process is controlled within the processing device dedicated to character recognition. The configuration and function of the character recognition device 22 will be described in detail later.

CPU23は、情報処理装置20内の各部の動作を制御する。それゆえ、CPU23は、文字認識装置部22で行われる文字認識処理の動作を制御する。具体的には、CPU23は、後述のレイアウト解析部221による原稿画像のレイアウトを解析する処理、後述の文字切り出し部222による文字切り出し処理、及び、後述の文字認識処理部223によるグループ化及び文字コード割り当て処理等の制御を行う。 The CPU 23 controls the operation of each unit in the information processing device 20. Therefore, the CPU 23 controls the operation of the character recognition processing performed by the character recognition device unit 22. Specifically, the CPU 23 controls the processing of analyzing the layout of the document image by the layout analysis unit 221 described below, the character segmentation processing by the character segmentation unit 222 described below, and the grouping and character code assignment processing by the character recognition processing unit 223 described below.

ROM24は、例えば不揮発性メモリ等の記憶媒体で構成され、CPU23が実行及び参照するプログラムやデータ等を記憶する。 The ROM 24 is composed of a storage medium such as a non-volatile memory, and stores programs and data that are executed and referenced by the CPU 23.

RAM25は、例えば揮発性メモリ等の記憶媒体で構成され、CPU23が行う各処理に必要な情報(データ)を一時的に記憶する。また、RAM25は、例えば、文字認識処理部223により抽出された未認識文字(後述の図8参照)等を一時的に記憶する。 The RAM 25 is composed of a storage medium such as a volatile memory, and temporarily stores information (data) necessary for each process performed by the CPU 23. The RAM 25 also temporarily stores, for example, unrecognized characters extracted by the character recognition processing unit 223 (see FIG. 8 described below).

記憶部26は、CPU23によって実行されるプログラムを格納したコンピューター読取可能な非一過性の記録媒体で構成され、例えばHDD等の記憶装置で構成される。記憶部26は、CPU23が各部を制御するためのプログラム、OS(Operating System)、コントローラー等のプログラム、データを記憶する。また、記憶部26は、文字認識装置部22で行われる文字認識に関する各種処理で生成される各種データを保存する。具体的には、記憶部26は、文字認識装置部22で行われた文字認識処理の認識結果として得られた、テキストデータ(後述の図11参照)及び特殊記号に関する出力データ(後述の図9,10,12及び13参照)を保存する。なお、記憶部26に記憶されるプログラム、データの一部は、ROM24に記憶されてもよい。また、CPU23によって実行されるプログラムを格納したコンピューター読取可能な非一過性の記録媒体は、HDDに限定されず、例えば、SSD、CD-ROM、DVD-ROM等の記録媒体であってもよい。 The storage unit 26 is composed of a computer-readable non-transient recording medium storing the program executed by the CPU 23, and is composed of a storage device such as an HDD. The storage unit 26 stores programs and data for the CPU 23 to control each part, an OS (Operating System), a controller, etc. The storage unit 26 also stores various data generated by various processes related to character recognition performed by the character recognition device unit 22. Specifically, the storage unit 26 stores text data (see FIG. 11 described later) and output data related to special symbols (see FIGS. 9, 10, 12, and 13 described later) obtained as the recognition result of the character recognition process performed by the character recognition device unit 22. Note that some of the programs and data stored in the storage unit 26 may be stored in the ROM 24. The computer-readable non-transient recording medium storing the program executed by the CPU 23 is not limited to an HDD, and may be, for example, an SSD, a CD-ROM, a DVD-ROM, or other recording medium.

通信部27は、ネットワーク30を介して接続されている外部装置と各種データ情報の送受信を行う。通信部27は、例えば、通信用IC及び通信コネクタ等を有する通信インターフェイスであり、CPU23の制御の下、所定の通信プロトコルを用いてネットワーク30を介して接続されている画像形成装置10と各種データ情報の送受信を行うことが可能である。また、通信部27は、例えば、アンテナ、復調回路、信号処理回路等の構成を有し、Wi-Fi(登録商標)等の無線通信方式により、ネットワーク30を介して接続されている画像形成装置10との間で無線通信による各種データ情報の送受信を行うことも可能である。 The communication unit 27 transmits and receives various data information to and from external devices connected via the network 30. The communication unit 27 is, for example, a communication interface having a communication IC and a communication connector, and is capable of transmitting and receiving various data information to and from the image forming device 10 connected via the network 30 using a predetermined communication protocol under the control of the CPU 23. The communication unit 27 also has components such as an antenna, a demodulation circuit, and a signal processing circuit, and is also capable of transmitting and receiving various data information wirelessly to and from the image forming device 10 connected via the network 30 using a wireless communication method such as Wi-Fi (registered trademark).

[文字認識装置部の構成及び機能]
文字認識装置部22(文字認識部)は、図2に示すように、レイアウト解析部221と、文字切り出し部222と、文字認識処理部223とを有する。
[Configuration and Functions of Character Recognition Device]
As shown in FIG. 2, the character recognition device unit 22 (character recognition unit) has a layout analysis unit 221, a character segmentation unit 222, and a character recognition processing unit 223.

(1)レイアウト解析部
レイアウト解析部221は、画像形成装置10から入力される原稿画像に基づいて、原稿画像内における画像群や文字群などの領域のレイアウト(配置)を解析する。具体的には、レイアウト解析部221は、まず、原稿画像内の各構成要素を分離して、分離された各構成要素を、その内容の種類(文字、図面、表、写真、線等)に応じて分類し、原稿画像内における文字の領域や図の領域などの各領域のレイアウトを解析する。
(1) Layout Analysis Unit The layout analysis unit 221 analyzes the layout (arrangement) of areas such as image groups and character groups in the original image based on the original image input from the image forming apparatus 10. Specifically, the layout analysis unit 221 first separates each component in the original image, classifies each separated component according to the type of content (characters, drawings, tables, photographs, lines, etc.), and analyzes the layout of each area such as the character area and the figure area in the original image.

図3は、文字認識システム1の画像形成装置10において読み取られた原稿画像100の一例を示す図である。図3に示す例では、原稿画像100は、構成要素として、原稿画像100内の左側半分の領域に配置されたグラフの図面部分110と、原稿画像100内の右側上部及び右側下部にそれぞれ配置されたテキスト部分120及び文字部分130とを有する。さらに、原稿画像100は、構成要素として、テキスト部分120及び文字部分130の間の罫線140も有する。なお、原稿画像100の構成要素は、これらに限定されず、表や写真などからなる他の構成要素を含んでいてもよい。 Figure 3 is a diagram showing an example of an original image 100 read by the image forming device 10 of the character recognition system 1. In the example shown in Figure 3, the original image 100 has, as its components, a graph drawing portion 110 arranged in the left half area of the original image 100, and a text portion 120 and a character portion 130 arranged in the upper right and lower right areas of the original image 100, respectively. Furthermore, the original image 100 also has, as its components, a ruled line 140 between the text portion 120 and the character portion 130. Note that the components of the original image 100 are not limited to these, and may include other components such as tables and photographs.

図4は、レイアウト解析部221により行われた原稿画像100のレイアウトの解析結果の一例を示す図である。なお、図4では、説明の便宜上、原稿画像100を構成する図面部分110、テキスト部分120、文字部分130及び罫線140の配置領域のみを一点鎖線で示し、図3に示す各構成部分の内容の記載を省略している。図4では、レイアウト解析部221により解析された図面部分110、テキスト部分120及び文字部分130の配置領域(図面領域210、文字領域220及び文字領域230)がそれぞれ矩形状の枠で示される。また、図4では、レイアウト解析部221により解析された罫線140の配置領域(線領域240)は直線で示される。 Figure 4 is a diagram showing an example of the results of the layout analysis of the original image 100 performed by the layout analysis unit 221. For ease of explanation, in Figure 4, only the layout areas of the drawing portion 110, text portion 120, character portion 130, and ruled lines 140 constituting the original image 100 are shown by dashed lines, and the contents of each component shown in Figure 3 are omitted. In Figure 4, the layout areas (drawing area 210, character area 220, and character area 230) of the drawing portion 110, text portion 120, and character portion 130 analyzed by the layout analysis unit 221 are each shown by a rectangular frame. Also, in Figure 4, the layout area (line area 240) of the ruled lines 140 analyzed by the layout analysis unit 221 is shown by a straight line.

次に、レイアウト解析部221は、解析(分類)した原稿画像100内の各構成要素の配置領域(図面領域210、文字領域220、文字領域230及び線領域240)から、文字領域を抽出する。図4に示す例では、文字領域220及び文字領域230が抽出される。そして、レイアウト解析部221により抽出された文字領域(文字領域220及び文字領域230)のデータは、文字切り出し部222に出力される。 Next, the layout analysis unit 221 extracts character areas from the layout areas (drawing area 210, character area 220, character area 230, and line area 240) of each component in the analyzed (classified) original image 100. In the example shown in FIG. 4, character area 220 and character area 230 are extracted. Then, data of the character areas (character area 220 and character area 230) extracted by the layout analysis unit 221 is output to the character extraction unit 222.

(2)文字切り出し部
文字切り出し部222は、レイアウト解析部221から入力される原稿画像100内の文字領域のデータから、文字領域を1行(横書きの場合)又は1列(縦書きの場合)ごとに分解する。すなわち、文字切り出し部222は、文字領域から文字領域を構成する各行又は各列の文字列のデータを切り出す。
(2) Character Segmentation Unit The character segmentation unit 222 separates the character region into lines (in the case of horizontal writing) or columns (in the case of vertical writing) from the data of the character region in the original image 100 input from the layout analysis unit 221. In other words, the character segmentation unit 222 segments data of character strings of each line or column constituting the character region from the character region.

図5は、文字切り出し部222により行われる文字列の切り出し動作(分解動作)の一例を示す図である。図5に示す例は、図4に示す文字領域230の記載内容、すなわち、図3に示す文字部分130から、文字部分130を構成する各文字列を切り出した場合の結果である。図5中の破線で囲まれた領域が、切り出される各行の文字列の領域を示す。例えば、文字部分130の右から3行目では、「て決まった日に取引先企業」という文字列231が、文字切り出し部222により切り出される。 Figure 5 is a diagram showing an example of a character string extraction operation (decomposition operation) performed by the character extraction unit 222. The example shown in Figure 5 is the result when each character string constituting the character portion 130 is extracted from the contents of the character area 230 shown in Figure 4, i.e., the character portion 130 shown in Figure 3. The area surrounded by a dashed line in Figure 5 indicates the area of the character string of each line to be extracted. For example, in the third line from the right of the character portion 130, the character string 231 "Business partner company on a specified date" is extracted by the character extraction unit 222.

また、文字切り出し部222は、切り出された各行又は各列の文字列を、1文字単位で分解する。すなわち、文字切り出し部222は、切り出された各行又は各列の文字列から文字列を構成する各文字のデータを切り出す。 The character extraction unit 222 also breaks down the extracted character strings of each row or column into individual characters. That is, the character extraction unit 222 extracts data of each character constituting the character string from the extracted character strings of each row or column.

図6は、文字切り出し部222により行われる各文字の切り出し処理(分解処理)の手法及び切り出し結果の一例を示す図である。なお、図6に示す例では、図5に示す文字部分130から切り出された「て決まった日に取引先企業」という文字列231に対して行われる各文字の切り出し処理が示されている。 Figure 6 is a diagram showing an example of the method of extraction (decomposition) of each character performed by the character extraction unit 222 and the extraction results. Note that the example shown in Figure 6 shows the extraction process of each character performed on the character string 231 "business partner company on a fixed date" extracted from the character portion 130 shown in Figure 5.

各文字の切り出し処理では、文字切り出し部222は、まず、処理対象の文字列231の先頭から後尾に向かう方向(図6中の矢印L2の方向)に沿って、走査線L1を移動させる。この際、文字切り出し部222は、走査線L1と各文字の構成部分との交差数(交差ドット数)をカウントする。図6(a)は、走査線L1の走査方向に対する交差数の変化を示す図である。図6(a)に示すように、隣り合う文字の間の区間では、交差数が連続して「0」になる。 In the process of extracting each character, the character extraction unit 222 first moves the scanning line L1 in the direction from the beginning to the end of the character string 231 to be processed (the direction of the arrow L2 in FIG. 6). At this time, the character extraction unit 222 counts the number of intersections (number of intersection dots) between the scanning line L1 and the constituent parts of each character. FIG. 6(a) is a diagram showing the change in the number of intersections with respect to the scanning direction of the scanning line L1. As shown in FIG. 6(a), in the section between adjacent characters, the number of intersections is "0" consecutively.

文字切り出し部222は、交差数が連続して「0」になる区間が所定の閾値を超える場合に、その交差数が連続して「0」になる区間が文字間であると判定し、文字列を各文字間で分解し、各文字を切り出す。その結果、図6(b)に示すように、「て決まった日に取引先企業」という文字列231が、「て」、「決」、「ま」、「っ」、「た」、「日」、「に」、「取」、「引」、「先」、「企」及び「業」という12個の文字(図中の破線で囲まれた領域)に分解される。 When the interval where the intersection number is "0" consecutively exceeds a predetermined threshold, the character extraction unit 222 determines that the interval where the intersection number is "0" consecutively is a character interval, breaks down the character string into each character interval, and extracts each character. As a result, as shown in FIG. 6(b), the character string 231 "te kette na hi tou tsu na hi tou tsu na hi" is broken down into 12 characters (area surrounded by dashed lines in the figure) "te", "kette", "ma", "tsu", "ta", "hi", "ni", "tori", "biki", "saki", "ki" and "gyo".

文字切り出し部222は、原稿画像100を構成する全ての文字領域に対して、上述した1行又は1列の文字列の切り出し処理及び文字列からの各文字の切り出し処理を行う。そして、文字切り出し部222により切り出された各文字画像データは、文字認識処理部223に出力される。 The character extraction unit 222 performs the above-mentioned process of extracting a character string of one row or one column and extracting each character from the character string for all character regions constituting the original image 100. Then, each character image data extracted by the character extraction unit 222 is output to the character recognition processing unit 223.

(3)文字認識処理部
文字認識処理部223は、まず、文字切り出し部222から入力された各文字画像の大きさを、文字認識システム1に登録されている照合用の文字のサイズ(所定の大きさ)に正規化する。そして、文字認識処理部223は、正規化された各文字画像と、文字認識システム1に登録済みの文字(以下、「登録文字」と称する)とを照合することにより文字認識を行う。
(3) Character Recognition Processing Unit The character recognition processing unit 223 first normalizes the size of each character image input from the character segmentation unit 222 to the size (predetermined size) of a character for matching registered in the character recognition system 1. Then, the character recognition processing unit 223 performs character recognition by matching each normalized character image with characters already registered in the character recognition system 1 (hereinafter referred to as "registered characters").

図7は、文字認識処理部223において行われる文字の正規化処理を説明するための図である。図7に示す文字画像T1は、例えば、文字切り出し部222から入力された正規化前の「業」という文字の画像であり、文字画像T2は、正規化後の「業」という文字の画像である。図7には、文字切り出し部222から入力された文字画像T1が、高さ「a」及び幅「a」のサイズの文字画像T2に正規化される例が示される。なお、正規化後の文字画像T2のサイズ(所定の大きさ)は、文字認識システム1に登録されている文字のサイズであるので、文字認識システム1の例えば仕様等に応じて変化する。 Figure 7 is a diagram for explaining the character normalization process performed in the character recognition processing unit 223. Character image T1 shown in Figure 7 is, for example, an image of the character "業" before normalization input from the character segmentation unit 222, and character image T2 is an image of the character "業" after normalization. Figure 7 shows an example in which character image T1 input from the character segmentation unit 222 is normalized to character image T2 with a height of "a" and a width of "a". Note that the size (predetermined size) of character image T2 after normalization is the size of the character registered in character recognition system 1, and therefore changes depending on, for example, the specifications of character recognition system 1.

文字の正規化処理後、文字認識処理部223は、正規化後の文字画像を登録文字と照合する。当該照合の結果において、正規化後の文字画像と特定の登録文字との一致度が所定の閾値を超える場合、文字認識処理部223は、文字認識が成功であると判断し、当該正規化後の文字画像を当該特定の登録文字に変換する。すなわち、文字認識処理部223は、原稿画像100から切り出した文字画像をデジタルデータ化する。なお、正規化後の文字画像と登録文字との照合手法、すなわち、両者の一致度の算出手法には、例えば、従来のOCRで使用されているマッチング手法を採用することができる。 After character normalization, the character recognition processing unit 223 compares the normalized character image with registered characters. If the result of the comparison shows that the degree of match between the normalized character image and a specific registered character exceeds a predetermined threshold, the character recognition processing unit 223 determines that character recognition is successful and converts the normalized character image into the specific registered character. In other words, the character recognition processing unit 223 converts the character image extracted from the original image 100 into digital data. Note that the method of comparing the normalized character image with a registered character, i.e., the method of calculating the degree of match between the two, can be, for example, a matching method used in conventional OCR.

一方、文字の照合結果において、正規化後の文字画像が、全ての登録文字に対して一致度が所定の閾値以下となる場合、又は、複数の登録文字に対して一致度が所定の閾値を超える場合、文字認識処理部223は、当該正規化後の文字画像を未認識文字として確定する。なお、本実施形態の文字認識システム1では、図1に示す原稿画像N中の手書きの特殊記号SC1~SC4が、通常、それらとの一致度が所定の閾値を超える登録文字、すなわち、同一と認識される登録文字はないので、文字認識処理部223による文字認識では、未認識文字として認識され、確定される。そして、未認識文字は、RAM25に一時保存される。 On the other hand, if the character matching result shows that the normalized character image matches all registered characters at or below a predetermined threshold, or matches multiple registered characters at or above a predetermined threshold, the character recognition processing unit 223 determines the normalized character image as an unrecognized character. Note that in the character recognition system 1 of this embodiment, the handwritten special symbols SC1 to SC4 in the document image N shown in FIG. 1 do not normally match any registered characters that exceed a predetermined threshold, i.e., there are no registered characters that are recognized as identical, so in character recognition by the character recognition processing unit 223, the symbols are recognized as unrecognized characters and determined as such. The unrecognized characters are then temporarily stored in RAM 25.

文字認識処理部223は、未認識文字をRAM25に一時保存した後、未認識文字と登録文字との照合処理において得られた一致度に基づいて、未認識文字と類似する登録文字(以下、「類似文字」と称する)を検索する。そして、文字認識処理部223は、例えば、上述した所定の閾値を超える一致度を有する類似文字を当該未認識文字に紐付ける。この際、1つの類似文字のみを未認識文字に紐付けてもよいし、複数の類似文字を未認識文字に紐付けてもよい。前者の場合には、最も高い一致度を有する類似文字のみを未認識文字に紐付ける。一方、後者の場合には、一致度の高い順に特定数の類似文字を未認識文字に紐付けてもよいし、特定の閾値超える全ての類似文字を未認識文字に紐付けてもよい。さらに、特定の閾値を超えない一致度の文字を未認識文字に紐付けてもよい。 After temporarily storing the unrecognized character in the RAM 25, the character recognition processing unit 223 searches for registered characters similar to the unrecognized character (hereinafter referred to as "similar characters") based on the degree of match obtained in the matching process between the unrecognized character and the registered character. The character recognition processing unit 223 then links a similar character having a degree of match exceeding the above-mentioned predetermined threshold to the unrecognized character, for example. At this time, only one similar character may be linked to the unrecognized character, or multiple similar characters may be linked to the unrecognized character. In the former case, only the similar character having the highest degree of match is linked to the unrecognized character. On the other hand, in the latter case, a specific number of similar characters may be linked to the unrecognized character in descending order of degree of match, or all similar characters exceeding a specific threshold may be linked to the unrecognized character. Furthermore, characters having a degree of match that does not exceed a specific threshold may be linked to the unrecognized character.

また、文字認識処理部223は、未認識文字と、当該未認識文字に紐付けられた類似文字又は類似文字群と、各類似文字の一致度とを一つにまとめたデータセット(以下、「類似文字データセット」と称する。)を生成する。なお、生成された類似文字データセットは、記憶部26に保存される。図8は、図1に示す原稿画像N中の手書きの特殊記号SC1~SC4(未認識文字)のそれぞれに対して生成された類似文字データセットの一例を示す図である。なお、図8には、未認識文字である各特殊記号に対して3つの類似文字を紐付けた場合の類似文字データセットの構成例が示されている。例えば、特殊記号SC1の類似文字データセットにおいて、特殊記号SC1に紐付けられた「重」、「動」及び「働」という3つの類似文字と、それらの類似文字の一致度(「0.75」、「0.61」及び「0.55」)とが対応付けられている。なお、特殊記号SC2~SC4に対しても同様の態様で類似文字データセットが構成されているので、ここでは、特殊記号SC2~SC4の構成については、説明を省略する。また、図8に示す類似文字データセットの構成では、一致度の高い順に類似文字を並べる例を示すが、類似文字の並び順は任意である。 In addition, the character recognition processing unit 223 generates a data set (hereinafter referred to as a "similar character data set") that combines unrecognized characters, similar characters or similar character groups associated with the unrecognized characters, and the degree of match of each similar character. The generated similar character data set is stored in the storage unit 26. FIG. 8 is a diagram showing an example of a similar character data set generated for each of the handwritten special symbols SC1 to SC4 (unrecognized characters) in the document image N shown in FIG. 1. FIG. 8 shows an example of the configuration of a similar character data set when three similar characters are associated with each special symbol that is an unrecognized character. For example, in the similar character data set for the special symbol SC1, three similar characters, "重", "動" and "動", associated with the special symbol SC1, are associated with the degrees of match of the similar characters ("0.75", "0.61" and "0.55"). Note that similar character data sets are configured in a similar manner for the special symbols SC2 to SC4, so the configuration of the special symbols SC2 to SC4 will not be described here. In addition, the configuration of the similar character data set shown in FIG. 8 shows an example in which similar characters are arranged in order of the degree of match, but the order in which similar characters are arranged can be arbitrary.

文字認識処理部223は、上述した文字認識処理において未認識文字を抽出した場合には、抽出した未認識文字に特定の文字コードを割り当てる処理を行う。そして、文字認識処理部223は、後述の文字認識の結果の出力処理において、抽出した未認識文字と、割り当てられた文字コードとを紐付けたデータセットを記憶部26に出力する。すなわち、未認識文字と、それに割り当てられた文字コードとを紐付けたデータセットは、記憶部26に記憶され、登録される。これにより、文字認識により抽出された未認識文字がデジタルデータ化される。 When the character recognition processing unit 223 extracts an unrecognized character in the character recognition processing described above, it performs a process of assigning a specific character code to the extracted unrecognized character. Then, in the process of outputting the character recognition results described below, the character recognition processing unit 223 outputs a data set linking the extracted unrecognized character with the assigned character code to the storage unit 26. In other words, the data set linking the unrecognized character with the assigned character code is stored and registered in the storage unit 26. As a result, the unrecognized character extracted by character recognition is converted into digital data.

文字コードの割り当て処理では、文字認識処理部223は、まず、今回抽出された未認識文字(未認識文字群)と同様の意味を有する未認識文字(未認識文字群)に対応する文字コードが既に文字認識システム1に登録されているか否かを判定する。そして、今回抽出された未認識文字(未認識文字群)と同様の意味を有する未認識文字(未認識文字群)に対応する文字コードが既に文字認識システム1に登録されている場合には、文字認識処理部223は、当該登録されている特定の文字コードを、今回抽出された未認識文字(未認識文字群)に割り当てる。すなわち、今回抽出された未認識文字(未認識文字群)と、以前に登録されている未認識文字とがグループ化される。 In the character code assignment process, the character recognition processing unit 223 first determines whether a character code corresponding to an unrecognized character (unrecognized character group) having a similar meaning to the currently extracted unrecognized character (unrecognized character group) has already been registered in the character recognition system 1. If a character code corresponding to an unrecognized character (unrecognized character group) having a similar meaning to the currently extracted unrecognized character (unrecognized character group) has already been registered in the character recognition system 1, the character recognition processing unit 223 assigns the specific registered character code to the currently extracted unrecognized character (unrecognized character group). In other words, the currently extracted unrecognized character (unrecognized character group) and previously registered unrecognized characters are grouped together.

一方、今回抽出された未認識文字群の中に、登録済みの未認識文字に対応しない未認識文字が1つ存在する場合、文字認識処理部223は、今回抽出された当該未認識文字に対して、新規の文字コードを割り当てる。また、今回抽出された未認識文字群の中に、登録済みの未認識文字に対応しない未認識文字が複数存在する場合、文字認識処理部223は、今回抽出された当該複数の未認識文字に対して、グループ化処理を行う。そして、当該複数の未認識文字の中の少なくとも一部の未認識文字がグループ化された場合には、文字認識処理部223は、当該グループ化された未認識文字に対して同じ新規の文字コードを割り当てる。また、このグループ化処理によりグループ化されない未認識文字が存在した場合には、文字認識処理部223は、当該未認識文字に対して別の新規の文字コードを割り当てる。 On the other hand, if the group of unrecognized characters extracted this time contains one unrecognized character that does not correspond to a registered unrecognized character, the character recognition processing unit 223 assigns a new character code to the unrecognized character extracted this time. If the group of unrecognized characters extracted this time contains multiple unrecognized characters that do not correspond to a registered unrecognized character, the character recognition processing unit 223 performs a grouping process on the multiple unrecognized characters extracted this time. Then, if at least some of the unrecognized characters among the multiple unrecognized characters are grouped, the character recognition processing unit 223 assigns the same new character code to the grouped unrecognized characters. If there is an unrecognized character that is not grouped by this grouping process, the character recognition processing unit 223 assigns a different new character code to the unrecognized character.

本実施形態では、未認識文字に対する文字コードの割り当て処理において、上述のように、同じ意味(内容)を有する複数の未認識文字に対して同じ文字コードを割り当て、複数の未認識文字をグループ化し、未認識文字群を生成する。そして、複数の未認識文字に対するグループ化処理では、各未認識文字に紐付けられた類似文字同士を比較して、互いに重複する類似文字が存在する未認識文字同士を一つのグループにする。 In this embodiment, in the process of assigning character codes to unrecognized characters, as described above, the same character code is assigned to multiple unrecognized characters having the same meaning (content), and the multiple unrecognized characters are grouped to generate a group of unrecognized characters. Then, in the grouping process for the multiple unrecognized characters, similar characters associated with each unrecognized character are compared, and unrecognized characters that have overlapping similar characters are grouped together.

それゆえ、例えば、図8に示す例では、原稿画像Nに含まれる特殊記号SC1~SC4が未認識文字として抽出されるが、各未認識文字の文字コードの割り当て処理では、「重」及び「働」という類似文字が重複する特殊記号SC1~SC3が同じ意味を有する未認識文字としてグループ化され、当該グループ化された未認識文字群に対して特定の文字コードが割り当てられる。一方、特殊記号SC4に紐付けられた3つの類似文字には、特殊記号SC1~SC3に紐付けられた類似文字と重複するものが含まれないので、特殊記号SC4に対しては、特殊記号SC1~SC3に割り当てられた特定の文字コードとは異なる新規の文字コードが割り当てられる。そして、複数の未認識文字がグループ化された場合には、グループ化された未認識文字群と、それに割り当てられた文字コードとを紐付けたデータセットが、後述の文字認識の結果の出力処理において、記憶部26に出力されて記憶される。なお、複数の未認識文字に対するグループ化処理の方法は、任意である。 Therefore, for example, in the example shown in FIG. 8, the special symbols SC1 to SC4 included in the document image N are extracted as unrecognized characters, but in the process of assigning character codes to each unrecognized character, the special symbols SC1 to SC3, which overlap similar characters "重" and "動", are grouped as unrecognized characters having the same meaning, and a specific character code is assigned to the group of unrecognized characters. On the other hand, the three similar characters linked to the special symbol SC4 do not include any characters that overlap with the similar characters linked to the special symbols SC1 to SC3, so a new character code different from the specific character code assigned to the special symbols SC1 to SC3 is assigned to the special symbol SC4. When multiple unrecognized characters are grouped, a data set linking the group of unrecognized characters to the character codes assigned thereto is output to and stored in the memory unit 26 in the process of outputting the results of character recognition described later. Note that the method of grouping multiple unrecognized characters is arbitrary.

文字認識処理部223は、上述した文字認識処理により、特殊記号を含め、原稿画像の文字領域中の全ての文字画像を文字コードに変換した後、文字認識処理の結果を出力する。この出力処理では、文字認識処理部223は、原稿画像の文字認識の結果のデータは、記憶部26に出力して保存する。また、この出力処理では、文字認識処理部223は、原稿画像の文字認識の結果のデータを、記憶部26に出力するとともに、操作表示部21に出力し、操作表示部21の表示部において文字認識の結果が表示されるようにしてもよい。また、文字認識処理部223は、原稿画像の文字認識の結果のデータを、記憶部26に出力するとともに、図示しない印刷部に出力して、文字認識の結果が印刷シートにプリントするようにしてもよい。 The character recognition processing unit 223 converts all character images in the character area of the document image, including special symbols, into character codes by the character recognition processing described above, and then outputs the results of the character recognition processing. In this output processing, the character recognition processing unit 223 outputs the data of the result of the character recognition of the document image to the memory unit 26 and stores it. In addition, in this output processing, the character recognition processing unit 223 may output the data of the result of the character recognition of the document image to the memory unit 26 and also to the operation display unit 21, so that the result of the character recognition is displayed on the display unit of the operation display unit 21. In addition, the character recognition processing unit 223 may output the data of the result of the character recognition of the document image to the memory unit 26 and also to a printing unit (not shown) so that the result of the character recognition is printed on a printing sheet.

図9は、文字認識処理部223から出力される文字認識の結果のデータであるテキストデータの一例を示す図である。図9には、図1に示す原稿画像Nに対して文字認識を行った場合に出力される文字認識の結果のデータが示される。文字認識処理部223から出力される文字認識の結果のデータは、図9に示すように、テキストデータである。また、図9に示す例では、原稿画像N内において、メモN1、メモN2、メモN3及びメモN4の順で文字認識が行われたものとする。 Figure 9 is a diagram showing an example of text data, which is data resulting from character recognition output from the character recognition processing unit 223. Figure 9 shows data resulting from character recognition output when character recognition is performed on the original image N shown in Figure 1. As shown in Figure 9, the data resulting from character recognition output from the character recognition processing unit 223 is text data. In the example shown in Figure 9, character recognition is performed in the following order in the original image N: memo N1, memo N2, memo N3, and memo N4.

図9中の<Block 1>という名称で始まるテキスト群は、図1に示す原稿画像N中のメモN1の文字認識の結果に対応する。そして、<Block 1>内の<Paragraph 1>には、メモN1内の特殊記号SC1の認識結果が示され、<Paragraph 2>には、メモN1内のテキスト情報TX1の認識結果が示される。この例では、未認識文字として抽出されたメモN1内の特殊記号SC1に対して、「コードa」という文字コードが割り当てられているものとする。それゆえ、<Block 1>内の<Paragraph 1>には、特殊記号SC1に対して割り当てられた「コードa」という文字コードが認識結果として示される。また、<Block 1>内の<Paragraph 2>には、メモN1内のテキスト情報TX1(図1参照)の内容と同じ文章(文字列)が認識結果として示される。 The text group beginning with the name <Block 1> in FIG. 9 corresponds to the result of character recognition of memo N1 in the document image N shown in FIG. 1. In addition, <Paragraph 1> in <Block 1> shows the recognition result of the special symbol SC1 in memo N1, and <Paragraph 2> shows the recognition result of the text information TX1 in memo N1. In this example, it is assumed that the character code "code a" is assigned to the special symbol SC1 in memo N1, which is extracted as an unrecognized character. Therefore, in <Paragraph 1> in <Block 1>, the character code "code a" assigned to the special symbol SC1 is shown as the recognition result. In addition, in <Paragraph 2> in <Block 1>, the same sentence (character string) as the content of the text information TX1 in memo N1 (see FIG. 1) is shown as the recognition result.

図9中の<Block 2>という名称で始まるテキスト群は、図1に示す原稿画像N中のメモN2の文字認識の結果に対応する。そして、<Block 2>内の<Paragraph 1>には、メモN2内の特殊記号SC2の認識結果が示され、<Paragraph 2>には、メモN2内のテキスト情報TX2の認識結果が示される。この例では、未認識文字として抽出されたメモN2内の特殊記号SC2は、メモN1内の特殊記号SC1と同じ意味を持つので両者はグループ化され、同じ文字コードが割り当てられる。それゆえ、<Block 2>内の<Paragraph 1>には、「コードa」という文字コードが認識結果として示される。また、<Block 2>内の<Paragraph 2>には、メモN2内のテキスト情報TX2(図1参照)の内容と同じ文章(文字列)が認識結果として示される。 The text group beginning with the name <Block 2> in FIG. 9 corresponds to the result of character recognition of memo N2 in the document image N shown in FIG. 1. In addition, <Paragraph 1> in <Block 2> shows the result of recognition of the special symbol SC2 in memo N2, and <Paragraph 2> shows the result of recognition of the text information TX2 in memo N2. In this example, the special symbol SC2 in memo N2 extracted as an unrecognized character has the same meaning as the special symbol SC1 in memo N1, so the two are grouped together and assigned the same character code. Therefore, in <Paragraph 1> in <Block 2>, the character code "Code a" is shown as the recognition result. In addition, in <Paragraph 2> in <Block 2>, the same sentence (character string) as the content of the text information TX2 in memo N2 (see FIG. 1) is shown as the recognition result.

図9中の<Block 3>という名称で始まるテキスト群は、図1に示す原稿画像N中のメモN3の文字認識の結果に対応する。そして、<Block 3>内の<Paragraph 1>には、メモN3内の特殊記号SC3の認識結果が示され、<Paragraph 2>には、メモN3内のテキスト情報TX3の認識結果が示される。この例では、未認識文字として抽出されたメモN3内の特殊記号SC3は、メモN1内の特殊記号SC1及びメモN2内の特殊記号SC2と同じ意味を持つので、これらの特殊記号はグループ化され、同じ文字コードが割り当てられる。それゆえ、<Block 3>内の<Paragraph 1>には、「コードa」という文字コードが認識結果として示される。また、<Block 3>内の<Paragraph 2>には、メモN3内のテキスト情報TX3(図1参照)の内容と同じである文字列が認識結果として示される。 The text group beginning with the name <Block 3> in FIG. 9 corresponds to the result of character recognition of memo N3 in the original image N shown in FIG. 1. Then, in <Paragraph 1> in <Block 3>, the recognition result of the special symbol SC3 in memo N3 is shown, and in <Paragraph 2>, the recognition result of the text information TX3 in memo N3 is shown. In this example, the special symbol SC3 in memo N3 extracted as an unrecognized character has the same meaning as the special symbol SC1 in memo N1 and the special symbol SC2 in memo N2, so these special symbols are grouped and assigned the same character code. Therefore, in <Paragraph 1> in <Block 3>, the character code "Code a" is shown as the recognition result. Additionally, in <Paragraph 2> in <Block 3>, a character string that is the same as the content of text information TX3 in memo N3 (see Figure 1) is displayed as the recognition result.

図9中の<Block 4>という名称で始まるテキスト群は、図1に示す原稿画像N中のメモN4の文字認識の結果に対応する。そして、<Block 4>内の<Paragraph 1>には、メモN4内の特殊記号SC4の認識結果が示され、<Paragraph 2>には、メモN4内のテキスト情報TX4の認識結果が示される。この例では、未認識文字として抽出されたメモN4内の特殊記号SC4は、メモN1~N3内の特殊記号SC1~SC3とは異なる特殊記号として認識される。それゆえ、<Block 4>内の<Paragraph 1>には、特殊記号SC1~SC3に割り当てられた「コードa」とは異なる「コードb」という文字コードが認識結果として示される。また、<Block 4>内の<Paragraph 2>には、メモN4内のテキスト情報TX4(図1参照)の内容と同じ文章(文字列)が認識結果として示される。 The text group beginning with the name <Block 4> in Figure 9 corresponds to the result of character recognition of memo N4 in the original image N shown in Figure 1. <Paragraph 1> in <Block 4> shows the recognition result of special symbol SC4 in memo N4, and <Paragraph 2> shows the recognition result of text information TX4 in memo N4. In this example, special symbol SC4 in memo N4, extracted as an unrecognized character, is recognized as a special symbol different from special symbols SC1 to SC3 in notes N1 to N3. Therefore, <Paragraph 1> in <Block 4> shows the character code "Code b" as the recognition result, which is different from "Code a" assigned to special symbols SC1 to SC3. Additionally, in <Paragraph 2> in <Block 4>, the same sentence (character string) as the content of text information TX4 (see Figure 1) in memo N4 is displayed as the recognition result.

また、文字認識処理部223は、文字認識処理において未認識文字が抽出された場合には、未認識文字の画像データと、それに割り当てられた文字コードとを紐付けたデータ、すなわち、未認識文字と文字コードとの対応データを記憶部26に出力して保存する。これにより、文字認識システム1において、未認識文字も管理可能となる。また、この出力処理では、文字認識処理部223は、未認識文字と文字コードとの対応データを、記憶部26に出力するとともに、操作表示部21に出力し、操作表示部21の表示部において未認識文字と文字コードとの対応関係が表示されるようにしてもよい。また、文字認識処理部223は、未認識文字と文字コードとの対応データを、記憶部26に出力するとともに、図示しない印刷部に出力して、当該対応データが印刷シートにプリントされるようにしてもよい。 Furthermore, when an unrecognized character is extracted in the character recognition process, the character recognition processing unit 223 outputs and stores data linking the image data of the unrecognized character with the character code assigned thereto, that is, the correspondence data between the unrecognized character and the character code, to the storage unit 26. This allows the character recognition system 1 to manage unrecognized characters as well. Furthermore, in this output process, the character recognition processing unit 223 may output the correspondence data between the unrecognized character and the character code to the storage unit 26 and also to the operation display unit 21, so that the correspondence relationship between the unrecognized character and the character code is displayed on the display unit of the operation display unit 21. Furthermore, the character recognition processing unit 223 may output the correspondence data between the unrecognized character and the character code to the storage unit 26 and also to a printing unit (not shown) so that the correspondence data is printed on a printing sheet.

文字認識処理部223から出力される未認識文字と文字コードとの対応データの構成(態様)は、任意である。ここで、図10~図12を参照して、未認識文字と文字コードとの対応データの各種態様(出力例1~出力例2)を説明する。なお、図10~図12は、未認識文字と文字コードとの対応データの各種態様(出力例)を示す図であり、図1に示す原稿画像Nに対して文字認識を行った場合に出力される未認識文字と文字コードとの対応データの構成例を示す図である。 The configuration (mode) of the correspondence data between unrecognized characters and character codes output from the character recognition processing unit 223 is arbitrary. Various modes (output example 1 to output example 2) of the correspondence data between unrecognized characters and character codes will now be described with reference to Figs. 10 to 12. Figs. 10 to 12 are diagrams showing various modes (output examples) of the correspondence data between unrecognized characters and character codes, and are diagrams showing configuration examples of the correspondence data between unrecognized characters and character codes output when character recognition is performed on the document image N shown in Fig. 1.

図10に示す出力例1の対応データは、原稿画像N内の特殊記号SC1~SC4のそれぞれに対して別個に文字コードが紐付けられた構成を有する。すなわち、図10に示す出力例1の対応データは、各特殊記号とそれに紐付けられた文字コードとのデータセットを、特殊記号毎に列挙したテーブル状の対応データである。それゆえ、図10に示す例では、文字認識処理部223から出力される未認識文字と文字コードとの対応データには、特殊記号SC1とそれに紐付けられた文字コード(「コードa」)とのデータセットと、特殊記号SC2とそれに紐付けられた文字コード(「コードa」)とのデータセットと、特殊記号SC3とそれに紐付けられた文字コード(「コードa」)とのデータセットと、特殊記号SC4とそれに紐付けられた文字コード(「コードb」)とのデータセットとが含まれる。なお、図10に示す例では、原稿画像N内において、特殊記号SC1~SC4が、この順で未認識文字として抽出(確定)されているので、対応テーブル内では、特殊記号SC1のデータが最上位に配置され、特殊記号SC4のデータが最下位に配置される。 The correspondence data of output example 1 shown in FIG. 10 has a configuration in which a character code is linked separately to each of the special symbols SC1 to SC4 in the document image N. In other words, the correspondence data of output example 1 shown in FIG. 10 is table-like correspondence data that lists, for each special symbol, a data set of each special symbol and its associated character code. Therefore, in the example shown in FIG. 10, the correspondence data of unrecognized characters and character codes output from the character recognition processing unit 223 includes a data set of special symbol SC1 and its associated character code ("code a"), a data set of special symbol SC2 and its associated character code ("code a"), a data set of special symbol SC3 and its associated character code ("code a"), and a data set of special symbol SC4 and its associated character code ("code b"). In the example shown in FIG. 10, special symbols SC1 to SC4 are extracted (confirmed) as unrecognized characters in the document image N in that order, so in the correspondence table, the data for special symbol SC1 is placed at the top and the data for special symbol SC4 is placed at the bottom.

図11に示す出力例2の対応データは、図10に示す出力例1の対応データにおいて、グループ化された特殊記号群(グループI)を考慮した対応データである。図11に示す出力例2の対応データでは、グループ化されている複数の特殊記号に対しては、複数の特殊記号の中から1つの特殊記号を選択し、当該選択された特殊記号とそれに紐付けられた文字コードとのデータセットのみを対応データに含ませる。なお、複数の特殊記号の中から1つの特殊記号を選択する手法は、任意であるが、例えば、複数の特殊記号のうち最初に未認識文字として認識された特殊文字を選択してもよいし、最後に未認識文字として認識された特殊文字を選択してもよい。図11に示す例では、グループ化されている特殊記号SC1~SC3(グループI)のうち、最初に未認識文字として認識された特殊記号SC1を選択した場合の例を示す。それゆえ、図11に示す例では、文字認識処理部223から出力される未認識文字と文字コードとの対応データには、特殊記号SC1とそれに紐付けられた文字コード(「コードa」)とのデータセットと、特殊記号SC4とそれに紐付けられた文字コード(「コードb」)とのデータセットとが含まれる。 The correspondence data of the output example 2 shown in FIG. 11 is the correspondence data in which the grouped special symbol group (group I) in the correspondence data of the output example 1 shown in FIG. 10 is taken into consideration. In the correspondence data of the output example 2 shown in FIG. 11, for the grouped special symbols, one special symbol is selected from the multiple special symbols, and only the data set of the selected special symbol and the character code associated with it is included in the correspondence data. Note that the method of selecting one special symbol from the multiple special symbols is arbitrary, but for example, the special character that is first recognized as an unrecognized character among the multiple special symbols may be selected, or the special character that is last recognized as an unrecognized character may be selected. In the example shown in FIG. 11, an example is shown in which the special symbol SC1 that is first recognized as an unrecognized character is selected from the grouped special symbols SC1 to SC3 (group I). Therefore, in the example shown in FIG. 11, the correspondence data between unrecognized characters and character codes output from the character recognition processing unit 223 includes a data set of the special symbol SC1 and its associated character code ("code a"), and a data set of the special symbol SC4 and its associated character code ("code b").

図10及び図11に示す対応データの出力例としては、原稿画像内において未認識文字と認定された領域を特定するための情報(例えば、配置領域等)と、それに紐付けられた文字コードとをデータセットにして対応データに含ませてもよい。図12は、原稿画像100内において未認識文字として抽出される特殊記号SC1~SC4の配置領域と、各特殊記号に紐付けられた文字コードとの対応関係(出力例3)示す図である。図12では、特殊記号の配置領域とそれに紐付けられた文字コードとを一点鎖線で繋げて示している。図12には示さないが、記憶部26に実際に記憶される出力例3の対応データの構成は、未認識文字と、その配置領域を特定するための情報と、それに紐付けられた文字コードとのデータセットを、図10に示すように、特殊記号毎に列挙したテーブル状の対応データとなる。しかし、例えば、この出力例3の対応データを、操作表示部21の表示部に表示する場合や印刷シートにプリントする場合には、図12に示す表示態様で表示又はプリントされるように制御する。なお、記憶部26に実際に記憶される出力例3の対応データの構成としては、未認識文字とそれの配置領域を特定するための情報と、それに紐付けられた文字コードと、未認識文字の画像データとのデータセットを、テーブル状に列挙した構成にしてもよい。 As an example of the output of the corresponding data shown in FIG. 10 and FIG. 11, information for identifying an area in the document image that is recognized as an unrecognized character (e.g., a placement area, etc.) and a character code associated therewith may be included in the corresponding data as a data set. FIG. 12 is a diagram showing the correspondence relationship (output example 3) between the placement areas of special symbols SC1 to SC4 extracted as unrecognized characters in the document image 100 and the character codes associated with each special symbol. In FIG. 12, the placement areas of the special symbols and the character codes associated therewith are shown connected by a dashed line. Although not shown in FIG. 12, the configuration of the corresponding data of output example 3 actually stored in the storage unit 26 is table-like correspondence data that lists the data set of the unrecognized character, the information for identifying the placement area, and the character code associated therewith for each special symbol, as shown in FIG. 10. However, for example, when the corresponding data of output example 3 is displayed on the display unit of the operation display unit 21 or printed on a print sheet, it is controlled to be displayed or printed in the display mode shown in FIG. 12. The corresponding data of output example 3 that is actually stored in storage unit 26 may be configured as a table listing a data set of information for identifying the unrecognized character and its placement area, the character code associated with the unrecognized character, and image data of the unrecognized character.

なお、特殊記号とそれに割り当てられた文字コードとの対応関係を示す対応データの出力態様は、図10~図12で説明した出力態様に限定されず、特殊記号とそれに割り当てられた文字コードとの対応関係を明確に表せる態様であれば、任意の態様を適用可能である。 The output mode of the correspondence data showing the correspondence between the special symbols and the character codes assigned thereto is not limited to the output mode described in Figures 10 to 12, and any mode can be applied as long as it can clearly show the correspondence between the special symbols and the character codes assigned thereto.

[1枚の原稿画像に対する文字認識処理の手順]
次に、文字認識システム1において行われる、1枚の原稿画像に対する文字認識処理について説明する。図13は、本実施形態の文字認識システム1において行われる、1枚の原稿画像に対する文字認識処理の手順を示すフローチャートである。以下に説明する処理は、文字認識の対象となる1枚の原稿が画像形成装置10の画像読取部13に給送されると開始される。
[Procedure for character recognition processing for one document image]
Next, a description will be given of the character recognition process for one document image performed in the character recognition system 1. Fig. 13 is a flowchart showing the procedure of the character recognition process for one document image performed in the character recognition system 1 of this embodiment. The process described below is started when one document to be subjected to character recognition is fed to the image reading unit 13 of the image forming apparatus 10.

まず、画像形成装置10の画像読取部13は、文字認識の対象となる1枚の原稿の画像を読み取る(ステップS101)。この処理では、画像読取部13は、1枚の原稿の画像を読み取り、読み取った原稿の画像データ(原稿画像)を生成する。また、生成された原稿画像は、ネットワーク30を介して情報処理装置20に送信される。 First, the image reading unit 13 of the image forming device 10 reads an image of one document that is to be subjected to character recognition (step S101). In this process, the image reading unit 13 reads the image of the one document and generates image data (document image) of the read document. The generated document image is then transmitted to the information processing device 20 via the network 30.

次いで、情報処理装置20の文字認識装置部22のレイアウト解析部221は、画像形成装置10から受信した原稿画像に対してレイアウト解析処理を行う(ステップS102:図3及び図4参照)。この処理では、レイアウト解析部221は、原稿画像内に含まれる文字領域のデータを抽出する。また、この処理では、レイアウト解析部221は、抽出した文字領域を文字認識装置部22の文字切り出し部222に出力する。 Next, the layout analysis unit 221 of the character recognition device unit 22 of the information processing device 20 performs a layout analysis process on the original image received from the image forming device 10 (step S102: see Figures 3 and 4). In this process, the layout analysis unit 221 extracts data of character areas contained in the original image. Also, in this process, the layout analysis unit 221 outputs the extracted character areas to the character extraction unit 222 of the character recognition device unit 22.

次いで、文字切り出し部222は、レイアウト解析部221から入力された文字領域に対して、文字領域に含まれる文字群を1行又は1列ごとに切り出す(ステップS103:図5参照)。 Next, the character extraction unit 222 extracts the characters contained in the character area input from the layout analysis unit 221 by row or column (step S103: see Figure 5).

次いで、文字切り出し部222は、文字領域から切り出された各行又は各列の文字列に対して、各文字の切り出し処理を行う(ステップS104:図6参照)。また、この処理では、文字切り出し部222は、切り出した各文字の画像を文字認識処理部223に出力する。 Next, the character segmentation unit 222 performs a process of segmenting each character for each row or column of character strings segmented from the character region (step S104: see FIG. 6). In this process, the character segmentation unit 222 also outputs an image of each segmented character to the character recognition processing unit 223.

次いで、文字認識処理部223は、文字切り出し部222から入力された文字の画像のサイズを所定サイズに正規化する(ステップS105:図7参照)。なお、ステップS105~後述のステップS111の処理は、1文字毎に行われる。 Next, the character recognition processing unit 223 normalizes the size of the character image input from the character segmentation unit 222 to a predetermined size (step S105: see FIG. 7). Note that the processes from step S105 to step S111 described below are performed for each character.

次いで、文字認識処理部223は、正規化後の文字画像を、記憶部26に保存されている登録文字と照合する(ステップS106)。この処理では、文字認識処理部223は、正規化後の文字画像と登録文字との一致度を算出する。 Next, the character recognition processing unit 223 compares the normalized character image with the registered characters stored in the memory unit 26 (step S106). In this process, the character recognition processing unit 223 calculates the degree of match between the normalized character image and the registered characters.

次いで、文字認識処理部223は、正規化後の文字画像と、登録文字との照合結果(一致度)に基づいて、正規化後の文字画像と特定(一つ)の登録文字との一致度が所定の閾値を超えているか否かを判定する(ステップS107)。 Next, the character recognition processing unit 223 determines whether the degree of match between the normalized character image and a specific (one) registered character exceeds a predetermined threshold based on the comparison result (degree of match) between the normalized character image and the registered character (step S107).

ステップS107の処理において、文字認識処理部223が、正規化後の文字画像と特定の文字との一致度が所定の閾値を超えていると判定した場合(ステップS107がYES判定である場合)、文字認識処理部223は、当該正規化後の文字画像を当該特定の文字に変換して、データ化する(ステップS108)。そして、ステップS108の処理後、文字認識処理部223は、後述のステップS111の処理を行う。 If the character recognition processing unit 223 determines in the process of step S107 that the degree of match between the normalized character image and the specific character exceeds a predetermined threshold (if step S107 is determined to be YES), the character recognition processing unit 223 converts the normalized character image into the specific character and converts it into data (step S108). Then, after the process of step S108, the character recognition processing unit 223 performs the process of step S111 described below.

一方、ステップS107の処理において、文字認識処理部223が、正規化後の文字画像と特定の文字との一致度が所定の閾値を超えないと判定して場合(ステップS107がNO判定である場合)、文字認識処理部223は、当該正規化後の文字画像を未認識文字として確定する(ステップS109)。また、この処理では、文字認識処理部223は、確定した未認識文字をRAM25に保存する。 On the other hand, in the process of step S107, if the character recognition processing unit 223 determines that the degree of match between the normalized character image and the specific character does not exceed a predetermined threshold (if step S107 returns a NO determination), the character recognition processing unit 223 determines the normalized character image as an unrecognized character (step S109). Also, in this process, the character recognition processing unit 223 stores the determined unrecognized character in the RAM 25.

次いで、文字認識処理部223は、確定された未認識文字と、その類似文字とを紐付ける(ステップS110)。この処理では、文字認識処理部223は、ステップS106で行われた未認識文字に対する照合処理で得られた登録文字との一致度に基づいて、当該未認識文字に類似した登録文字を類似文字として未認識文字に紐付ける。図8に示す例では、一つの未認識文字に対して一致度の高い3個の類似文字が紐付けられる。また、この処理では、文字認識処理部223は、未認識文字と、その類似文字とを紐付けたデータセット(図8参照)を記憶部26に出力して保存する。 Next, the character recognition processing unit 223 links the confirmed unrecognized character to its similar characters (step S110). In this process, the character recognition processing unit 223 links the registered characters similar to the unrecognized character as similar characters to the unrecognized character based on the degree of match with the registered characters obtained in the matching process for the unrecognized character performed in step S106. In the example shown in FIG. 8, three similar characters with high degrees of match are linked to one unrecognized character. In this process, the character recognition processing unit 223 also outputs a data set (see FIG. 8) in which the unrecognized character is linked to its similar characters to the storage unit 26 for storage.

ステップS108の処理後、又は、ステップS110の処理後、文字認識処理部223は、原稿画像の文字領域に含まれる全ての文字画像に対する文字認識が完了したか否かを判定する(ステップS111)。 After processing of step S108 or after processing of step S110, the character recognition processing unit 223 determines whether character recognition has been completed for all character images contained in the character area of the document image (step S111).

ステップS111の処理において、文字認識処理部223が、原稿画像の文字領域に含まれる全ての文字画像に対する文字認識が完了していないと判定した場合(ステップS111がNO判定である場合)、文字認識処理部223は、処理をステップS105の処理に戻し、ステップS105~S111の処理を繰り返す。 If, in the process of step S111, the character recognition processing unit 223 determines that character recognition has not been completed for all character images contained in the character area of the document image (if the determination in step S111 is NO), the character recognition processing unit 223 returns the process to the process of step S105 and repeats the processes of steps S105 to S111.

一方、ステップS111の処理において、文字認識処理部223が、原稿画像の文字領域に含まれる全ての文字画像に対する文字認識が完了したと判定した場合(ステップS111がYES判定である場合)、文字認識処理部223は、文字認識を行った文字群の中に未認識文字が存在するか否かを判定する(ステップS112)。この処理の段階でRAM25に未認識文字が保存されている場合には、ステップS112はYES判定となり、それ以外の場合には、ステップS112はNO判定となる。 On the other hand, in the process of step S111, if the character recognition processing unit 223 determines that character recognition has been completed for all character images contained in the character area of the document image (if step S111 is a YES judgment), the character recognition processing unit 223 determines whether or not there are unrecognized characters in the group of characters that have been character recognized (step S112). If unrecognized characters are stored in the RAM 25 at this stage of the process, step S112 will be a YES judgment, and otherwise step S112 will be a NO judgment.

ステップS112の処理において、文字認識処理部223が、文字認識を行った文字群の中に未認識文字が存在しないと判定した場合(ステップS112がNO判定である場合)、文字認識処理部223は、後述のステップS117の処理を行う。 If, in the process of step S112, the character recognition processing unit 223 determines that there are no unrecognized characters in the group of characters that have been subjected to character recognition (if the determination in step S112 is NO), the character recognition processing unit 223 performs the process of step S117 described below.

一方、ステップS112の処理において、文字認識処理部223が、文字認識を行った文字群の中に未認識文字が存在すると判定した場合(ステップS112がYES判定である場合)、文字認識処理部223は、記憶部26に保存されている登録済みの特殊記号の取得及び照合処理を行う(ステップS113)。 On the other hand, in the process of step S112, if the character recognition processing unit 223 determines that an unrecognized character exists among the group of characters that have been subjected to character recognition (if step S112 is determined to be YES), the character recognition processing unit 223 performs an acquisition and comparison process of the registered special symbols stored in the memory unit 26 (step S113).

この処理では、まず、文字認識処理部223は、既に文字コードが割り当てられた未認識文字であって、記憶部26に保存されている登録済みの特殊記号を取得する。次いで、文字認識処理部223は、RAM25に保存されている未認識文字と登録済みの特殊記号とを照合し、登録済みの特殊記号群の中に当該未認識文字と同じ意味を有する特殊記号が存在するか否か判定する。なお、この判定処理としては、任意の手法を採用することができる。例えば、上述したステップS106の処理と同様に、未認識文字に紐付けられた類似文字と、登録済みの特殊記号との一致度を算出して判定してもよいし、未認識文字に紐付けられた類似文字と、登録済みの特殊記号に紐付けられた類似文字とを比較して行ってもよい。後者の場合には、例えば、未認識文字に紐付けられた最も一致度が高い類似文字と、登録済みの特殊記号に紐付けられた最も一致度が高い類似文字とを比較し、両者が一致する場合には、当該登録済みの特殊記号が未認識文字と同じ意味を有する特殊記号であると判定してもよい。 In this process, the character recognition processing unit 223 first acquires a registered special symbol that is an unrecognized character to which a character code has already been assigned and is stored in the storage unit 26. Next, the character recognition processing unit 223 compares the unrecognized character stored in the RAM 25 with the registered special symbol, and determines whether or not a special symbol having the same meaning as the unrecognized character exists in the registered special symbol group. Any method can be adopted for this determination process. For example, as in the process of step S106 described above, the determination may be made by calculating the degree of match between a similar character linked to the unrecognized character and a registered special symbol, or the similar character linked to the unrecognized character and the similar character linked to the registered special symbol may be compared. In the latter case, for example, the most similar character linked to the unrecognized character and the most similar character linked to the registered special symbol may be compared, and if the two match, it may be determined that the registered special symbol is a special symbol having the same meaning as the unrecognized character.

また、ステップS113の処理では、上記照合処理により、登録済みの特殊記号群の中に当該未認識文字と同じ意味を有する特殊記号が存在すると判定された場合、文字認識処理部223は、当該未認識文字を、同じ意味を有すると判定された登録済みの特殊記号と同様の特殊記号として確定する。 In addition, in the processing of step S113, if the above-mentioned comparison process determines that a special symbol having the same meaning as the unrecognized character exists in the group of registered special symbols, the character recognition processing unit 223 determines that the unrecognized character is a special symbol similar to the registered special symbol determined to have the same meaning.

次いで、文字認識処理部223は、ステップS113の上記照合処理により、登録済みの特殊記号群の中に同じ意味を有する特殊記号が存在しないと判定された未認識文字に対して、グループ化及び特殊記号確定処理を行う(ステップS114)。なお、ステップS113の上記照合処理により、登録済みの特殊記号群の中に同じ意味を有する特殊記号が存在しないと判定された未認識文字が存在しない場合にはステップS114の処理は省略される。 Then, the character recognition processing unit 223 performs grouping and special symbol determination processing on unrecognized characters for which it has been determined by the above-mentioned comparison processing in step S113 that there is no special symbol with the same meaning in the group of registered special symbols (step S114). Note that if there is no unrecognized character for which it has been determined by the above-mentioned comparison processing in step S113 that there is no special symbol with the same meaning in the group of registered special symbols, the processing in step S114 is omitted.

ステップS114の処理の段階において、登録済みの特殊記号群の中に同じ意味を有する特殊記号が存在しないと判定された未認識文字が1つしかない場合、文字認識処理部223は、当該未認識文字を新たな特殊記号として確定する。また、ステップS114の処理の段階において、登録済みの特殊記号群の中に同じ意味を有する特殊記号が存在しないと判定された未認識文字が複数ある場合には、文字認識処理部223は、まず、当該複数の未認識文字に対してグループ化処理を行う。このグループ化処理では、複数の未認識文字の間において同じ意味を有する未認識文字が同じ特殊記号として確定される。 If there is only one unrecognized character for which it is determined that there is no special symbol with the same meaning in the group of registered special symbols at the processing stage of step S114, the character recognition processing unit 223 determines the unrecognized character as a new special symbol. Also, if there are multiple unrecognized characters for which it is determined that there is no special symbol with the same meaning in the group of registered special symbols at the processing stage of step S114, the character recognition processing unit 223 first performs a grouping process on the multiple unrecognized characters. In this grouping process, unrecognized characters with the same meaning among multiple unrecognized characters are determined to be the same special symbol.

なお、複数の未認識文字に対するグループ化処理は、各未認識文字に紐付けられた類似文字及びその一致度に基づいて行われる。具体的には、文字認識処理部223は、まず、各未認識文字に紐付けられた最も一致度が高い類似文字を互いに比較し、最も一致度が高い類似文字が同じである複数の未認識文字を同じ特殊記号であると判定してグループ化する。次いで、文字認識処理部223は、グループ化されていない未認識文字に紐付けられた、次に一致度が高い類似文字と、グループ化済みの各未認識文字である特殊記号に紐付けられた類似文字とを比較する。次いで、当該比較処理において、グループ化されていない未認識文字に紐付けられた、次に一致度が高い類似文字と同じ類似文字が紐付けられたグループ化済みの特殊記号が存在する場合には、文字認識処理部223は、当該未認識文字を当該グループ化済みの特殊記号と同様の特殊記号であると判定してグループ化する。その後、文字認識処理部223は、上記比較処理を、比較対象となるグループ化されていない未認識文字に紐付けられた類似文字がなくなるまで行い、最終的にグループ化されない未認識文字が残った場合には、当該未認識文字を新たな特殊記号として確定する。 The grouping process for the multiple unrecognized characters is performed based on the similar characters associated with each unrecognized character and their degree of matching. Specifically, the character recognition processing unit 223 first compares the most similar characters associated with each unrecognized character with each other, and determines that the multiple unrecognized characters having the same most similar characters are the same special symbol and group them. Next, the character recognition processing unit 223 compares the similar characters associated with the unrecognized characters not grouped with the next most similar characters associated with the special symbols that are the grouped unrecognized characters. Next, in the comparison process, if there is a grouped special symbol associated with the same similar character as the next most similar character associated with the unrecognized characters not grouped, the character recognition processing unit 223 determines that the unrecognized character is a special symbol similar to the grouped special symbol and groups it. The character recognition processing unit 223 then performs the above comparison process until there are no more similar characters associated with the ungrouped unrecognized character to be compared, and if any unrecognized characters remain that are not grouped, the unrecognized character is determined to be a new special symbol.

例えば、図1に示す原稿画像Nに対して、上記グループ化処理を適用した場合、文字認識処理部223による1回目の類似文字の比較処理により、最も一致度が高い類似文字が同じ「重」という文字である特殊記号SC1と特殊記号SC2とがグループ化される。次いで、文字認識処理部223による2回目の類似文字の比較処理において、特殊記号SC3の次に一致度が高い類似文字「働」が特殊記号SC1及び特殊記号SC2に紐付けられた類似文字に含まれるので、特殊記号SC3は、特殊記号SC1及び特殊記号SC2とグループ化される。そして、最終的には、特殊記号SC1~特殊記号SC3のそれぞれに紐付けられた類似文字と一致しない類似文字が、紐付けられている特殊記号SC4がグループ化されずに残る。 For example, when the above grouping process is applied to the document image N shown in FIG. 1, the first similar character comparison process by the character recognition processing unit 223 groups the special symbols SC1 and SC2, which are the same character "重" that has the highest degree of similarity. Then, in the second similar character comparison process by the character recognition processing unit 223, the similar character "動" that has the second highest degree of similarity after the special symbol SC3 is included in the similar characters linked to the special symbols SC1 and SC2, so the special symbol SC3 is grouped with the special symbols SC1 and SC2. Finally, the similar characters that do not match the similar characters linked to each of the special symbols SC1 to SC3, and the linked special symbol SC4, remain ungrouped.

ここで、ステップS115の処理の説明に戻って、文字認識処理部223は、ステップS113及び/又はステップS114で確定された各特殊記号に対して文字コードを割り当てる(ステップS115)。なお、ステップS113の処理で確定した特殊記号は登録済みの特殊記号であるので、文字認識処理部223は、ステップS113の処理で確定した特殊記号に対して当該登録済みの特殊記号に紐付けられた文字コードを割り当てる。これにより、S113の処理で確定した特殊記号とそれに対応する登録済みの特殊記号とがグループ化される。また、ステップS114の処理で確定した特殊記号は文字認識システム1に登録されていない特殊記号であるので、文字認識処理部223は、ステップS114の処理で確定した特殊記号に対しては、登録済みの特殊記号に紐付けられた文字コードとは異なる文字コードを割り当てる。 Returning to the explanation of the processing of step S115, the character recognition processing unit 223 assigns a character code to each special symbol determined in step S113 and/or step S114 (step S115). Since the special symbol determined in the processing of step S113 is a registered special symbol, the character recognition processing unit 223 assigns the character code associated with the registered special symbol to the special symbol determined in the processing of step S113. As a result, the special symbol determined in the processing of S113 and the corresponding registered special symbol are grouped. Furthermore, since the special symbol determined in the processing of step S114 is a special symbol that is not registered in the character recognition system 1, the character recognition processing unit 223 assigns a character code different from the character code associated with the registered special symbol to the special symbol determined in the processing of step S114.

なお、本実施形態では、特殊記号に割り当てられる文字コードとして、特殊記号用に予め決められた文字の組合せ、例えば、図10中の「コードa」、「コードb」等の文字列を使用するが、本発明はこれに限定されない。例えば、ステップS106での照合処理で使用される登録文字以外の文字を特殊記号用の文字コードとして使用してもよい。また、例えば、ステップS106での照合処理において正常に認識された文字列(図1中のテキスト情報TX1~TX4等)に含まれない文字を特殊記号用の文字コードとして使用してもよい。また、例えば、ステップS106での照合処理において正常に認識された文字列(図1中のテキスト情報TX1~TX4等)に含まれない文字を組み合わせた文字列を特殊記号用の文字コードとして使用してもよい。 In this embodiment, a combination of characters predetermined for special symbols, such as character strings "code a" and "code b" in FIG. 10, is used as the character code assigned to the special symbol, but the present invention is not limited to this. For example, characters other than the registered characters used in the matching process in step S106 may be used as the character code for the special symbol. Also, for example, characters not included in the character strings correctly recognized in the matching process in step S106 (such as text information TX1-TX4 in FIG. 1) may be used as the character code for the special symbol. Also, for example, a character string combining characters not included in the character strings correctly recognized in the matching process in step S106 (such as text information TX1-TX4 in FIG. 1) may be used as the character code for the special symbol.

次いで、文字認識処理部223は、確定した特殊記号と、それに割り当てられた文字コードとを紐付けたデータセットを記憶部26に出力して保存する(ステップS116)。 Next, the character recognition processing unit 223 outputs and stores in the memory unit 26 a data set linking the confirmed special symbol with the character code assigned to it (step S116).

ステップS112の処理がNO判定である場合(未認識文字が存在しない場合)、又は、ステップS116の処理後、文字認識処理部223は、原稿画像に対する文字認識処理の結果のデータであるテキストデータ(図9参照)を記憶部26に出力して保存する(ステップS117)。そして、ステップS117の処理後、1枚の原稿画像に対する文字認識処理は終了する。 If the result of step S112 is NO (if there are no unrecognized characters), or after step S116, the character recognition processing unit 223 outputs and stores text data (see FIG. 9), which is the result of the character recognition processing on the document image, in the storage unit 26 (step S117). After step S117, the character recognition processing on one document image ends.

[複数枚の原稿画像に対する文字認識処理の手順]
次に、文字認識システム1における複数枚の原稿画像に対する文字認識処理について説明する。図14は、本実施形態の文字認識システム1における複数枚の原稿画像に対する文字認識処理の手順を示すフローチャートである。以下に説明する処理は、文字認識したい複数枚の原稿が画像形成装置10の画像読取部13に給送されると開始される。
[Procedure for character recognition processing on multiple document images]
Next, a description will be given of character recognition processing for a plurality of document images in the character recognition system 1. Fig. 14 is a flowchart showing the procedure of character recognition processing for a plurality of document images in the character recognition system 1 of this embodiment. The processing described below is started when a plurality of documents to be character-recognized are fed to the image reading unit 13 of the image forming apparatus 10.

なお、複数枚の原稿画像に対する文字認識処理では、図13で説明した1枚の原稿画像に対する文字認識処理を、原稿画像の枚数分に対応する回数で、繰り返し行う。それゆえ、図14に示す複数枚の原稿画像に対する文字認識処理中のステップS201~ステップS217の処理内容は、図13で説明した1枚の原稿画像に対する文字認識処理中のステップS101~ステップS117の処理内容と同じである。したがって、ここでは、図14に示す複数枚の原稿画像に対する文字認識処理中のステップS201~ステップS217の処理の説明を省略し、ステップS217の次の処理から説明する。 Note that in character recognition processing for multiple original images, the character recognition processing for one original image described in FIG. 13 is repeated a number of times corresponding to the number of original images. Therefore, the processing contents of steps S201 to S217 during the character recognition processing for multiple original images shown in FIG. 14 are the same as the processing contents of steps S101 to S117 during the character recognition processing for one original image described in FIG. 13. Therefore, here, the description of the processing of steps S201 to S217 during the character recognition processing for multiple original images shown in FIG. 14 will be omitted, and the description will start from the processing following step S217.

ステップS217の処理後、文字認識処理部223は、全ての原稿画像の読み取りが完了しているか否かを判定する(ステップS218)。 After processing in step S217, the character recognition processing unit 223 determines whether reading of all document images has been completed (step S218).

ステップS218の処理において、文字認識処理部223が、全ての原稿画像の読み取りが完了していないと判定した場合(ステップS218がNO判定である場合)、文字認識処理部223は、処理をステップS201の処理に戻し、ステップS201以降の処理を繰り返す。一方、ステップS218の処理において、文字認識処理部223が、全ての原稿画像の読み取りが完了していると判定した場合(ステップS218がYES判定である場合)、文字認識処理部223は、複数枚の原稿画像に対する文字認識処理を終了する。 If, in the process of step S218, the character recognition processing unit 223 determines that reading of all document images has not been completed (if step S218 is a NO judgment), the character recognition processing unit 223 returns the process to the process of step S201 and repeats the processes from step S201 onwards. On the other hand, in the process of step S218, if the character recognition processing unit 223 determines that reading of all document images has been completed (if step S218 is a YES judgment), the character recognition processing unit 223 ends the character recognition process for the multiple document images.

上述した複数枚の原稿画像に対する文字認識処理では、複数枚の原稿画像のうちの所定の原稿画像で抽出された未認識文字と、複数の原稿画像のうちの所定の原稿画像とは異なる原稿画像で抽出された未認識文字とがグループ化され、グループ化された各未認識文字に対して同じ文字コードを割り当てることが可能である。 In the character recognition process for multiple original images described above, unrecognized characters extracted from a specific original image among the multiple original images are grouped together with unrecognized characters extracted from an original image other than the specific original image among the multiple original images, and it is possible to assign the same character code to each of the grouped unrecognized characters.

[効果]
本実施形態の文字認識システム1では、上述のように、原稿画像に手書きの特殊記号のような、文字認識処理で正常に認識できない特殊記号が含まれていても、当該特殊記号に対して文字コードを割り当ててデータ化し、当該データ化された特殊記号を記憶部26に保存する。また、本実施形態の文字認識システム1では、抽出された特殊文字に対して類似文字を紐付け、当該類似文字に基づいて、同じ意味を有する複数の特殊記号をグループ化する。それゆえ、本実施形態の文字認識システム1では、原稿画像に手書きの特殊記号のような未認識文字が含まれていても、当該特殊記号の検索、分類等を効率よく行うことができる。
[effect]
As described above, in the character recognition system 1 of the present embodiment, even if the document image contains a special symbol that cannot be properly recognized by the character recognition process, such as a handwritten special symbol, a character code is assigned to the special symbol, the special symbol is converted into data, and the digitized special symbol is stored in the storage unit 26. In addition, in the character recognition system 1 of the present embodiment, similar characters are linked to the extracted special character, and multiple special symbols having the same meaning are grouped based on the similar characters. Therefore, in the character recognition system 1 of the present embodiment, even if the document image contains unrecognized characters such as handwritten special symbols, the special symbols can be efficiently searched for, classified, and the like.

また、従来、文字認識した各文字に対して、最も一致度(認識度)が最も高い候補文字と、その他の候補文字を同時に表示することにより、誤認識があった場合にも利用者に元の文字を推測するための手掛かりを与える文字認識システムも提案されている。しかしながら、このような文字認識システムでは、文字認識の対象となるテキスト中に同じ文字が複数ある場合にも各文字に対して個別に候補文字が表示される。それゆえ、この場合には、複数の同じ文字をまとめて管理することができない。それに対して、本実施形態では、手書きの特殊記号のような未認識文字に対しても、同じ意味を有する未認識文字同士をグループ化して管理することができるので、上記課題を解消することができる。 In addition, a character recognition system has been proposed that simultaneously displays the candidate character with the highest degree of match (degree of recognition) for each recognized character and other candidate characters, thereby giving the user a clue to guess the original character even if a recognition error occurs. However, in such a character recognition system, even if there are multiple identical characters in the text to be recognized, candidate characters are displayed individually for each character. Therefore, in this case, multiple identical characters cannot be managed together. In contrast, in this embodiment, unrecognized characters having the same meaning, such as handwritten special symbols, can be grouped and managed, thereby solving the above problem.

<各種変形例>
以上では、本実施形態に係る文字認識システム1の構成、及び、文字認識方法について説明した。しかしながら、本発明はこれらに限定されるものではなく、特許請求の範囲に記載した本発明の要旨を逸脱しない限り、その他種々の変形例の態様を取ることができる。
<Various modified examples>
The configuration of the character recognition system 1 and the character recognition method according to the present embodiment have been described above. However, the present invention is not limited to these, and various other modified embodiments can be adopted without departing from the gist of the present invention described in the claims.

上記実施形態の文字認識システム1では、原稿画像の文字認識の結果は、情報処理装置20の記憶部26に出力されて保存される例を説明したが、本発明はこれに限定されない。例えば、原稿画像の文字認識の結果を、情報処理装置20の通信部27及びネットワーク30を介して、画像形成装置10に送信し、画像形成装置10の記憶部18にも保存するようにしてもよい。この場合、原稿画像の文字認識の結果を画像形成装置10の操作表示部11の表示部に表示することも可能である。 In the character recognition system 1 of the above embodiment, an example has been described in which the results of character recognition of the document image are output to and stored in the memory unit 26 of the information processing device 20, but the present invention is not limited to this. For example, the results of character recognition of the document image may be transmitted to the image forming device 10 via the communication unit 27 and network 30 of the information processing device 20 and also stored in the memory unit 18 of the image forming device 10. In this case, it is also possible to display the results of character recognition of the document image on the display unit of the operation display unit 11 of the image forming device 10.

上記実施形態の文字認識システム1では、画像形成装置10により読み取られた原稿画像に対して文字認識処理を行う例を説明したが、本発明はこれに限定されない。例えば、デジタルカメラや、スマートフォンなどにより撮影された画像を、原稿画像として情報処理装置20の文字認識装置部22に取り込んで文字認識処理を行うことも可能である。 In the character recognition system 1 of the above embodiment, an example has been described in which character recognition processing is performed on an original image read by the image forming device 10, but the present invention is not limited to this. For example, it is also possible to import an image captured by a digital camera, a smartphone, or the like as an original image into the character recognition device unit 22 of the information processing device 20 and perform character recognition processing thereon.

1…文字認識システム、10…画像形成装置、11,21…操作表示部、12…自動原稿給送装置、13…画像読取部、14…プリンタ部、15,23…CPU、16,24…ROM、17,25…RAM、18,26…記憶部、19,27…通信部、20…情報処理装置、22…文字認識装置部、30…ネットワーク、101,201…バス、221…レイアウト解析部、222…文字切り出し部、223…文字認識処理部 1...character recognition system, 10...image forming device, 11, 21...operation display unit, 12...automatic document feeder, 13...image reading unit, 14...printer unit, 15, 23...CPU, 16, 24...ROM, 17, 25...RAM, 18, 26...storage unit, 19, 27...communication unit, 20...information processing device, 22...character recognition device unit, 30...network, 101, 201...bus, 221...layout analysis unit, 222...character extraction unit, 223...character recognition processing unit

Claims (13)

原稿の画像を読み取る画像読取部と、
前記画像読取部により読み取られた前記原稿の画像に含まれる文字を抽出して、抽出した文字に対して文字認識を行う文字認識部と、
前記原稿の画像に対する文字認識の結果を記憶する記憶部と、を備え、
前記文字認識部は、文字認識により認識できない未認識文字を抽出し、当該未認識文字に対して類似文字を紐付け、前記複数の未認識文字の間において、各未認識文字に紐付けられた前記類似文字を比較し、その比較結果に基づいて、前記複数の未認識文字のうちの少なくとも一部をグループ化し、グループ化された各未認識文字に対して同じ所定の文字コードを割り当て、グループ化された各未認識文字に対して同じ前記所定の文字コードを割り当てたデータを前記記憶部に出力して保存する
ことを特徴とする文字認識システム。
an image reading unit that reads an image of a document;
a character recognition unit that extracts characters included in the image of the document read by the image reading unit and performs character recognition on the extracted characters;
a storage unit that stores a result of character recognition performed on the image of the document;
the character recognition unit extracts unrecognized characters that cannot be recognized by character recognition, links similar characters to the unrecognized characters, compares the similar characters linked to each unrecognized character among the plurality of unrecognized characters, groups at least a portion of the plurality of unrecognized characters based on a comparison result, assigns the same predetermined character code to each of the grouped unrecognized characters, and outputs and stores data in which the same predetermined character code is assigned to each of the grouped unrecognized characters to the memory unit.
前記文字認識部は、グループ化された複数の未認識文字の中から所定の未認識文字を選択し、当該選択された前記所定の未認識文字と、前記所定の文字コードとを紐付けたデータを前記記憶部に出力して保存する
請求項に記載の文字認識システム。
2. The character recognition system according to claim 1, wherein the character recognition unit selects a predetermined unrecognized character from the grouped plurality of unrecognized characters, and outputs and stores data linking the selected predetermined unrecognized character with the predetermined character code to the storage unit.
前記文字認識部は、前記未認識文字と、当該未認識文字に対して紐付けられた複数の類似文字と、当該未認識文字と各類似文字との間の一致度とを対応付けたデータを前記記憶部に出力して保存し、
前記文字認識部による文字認識で複数の未認識文字が抽出された場合には、前記文字認識部は、前記複数の未認識文字の間において、各未認識文字に紐付けられた前記複数の類似文字を比較し、前記複数の未認識文字のうち、同じ類似文字を有する未認識文字に対して同じ前記所定の文字コードを割り当てる
ことを特徴とする請求項又はに記載の文字認識システム。
the character recognition unit outputs data associating the unrecognized character with a plurality of similar characters associated with the unrecognized character, and a degree of match between the unrecognized character and each of the similar characters to the storage unit, and stores the data;
3. The character recognition system according to claim 1, wherein when a plurality of unrecognized characters are extracted by the character recognition unit, the character recognition unit compares the plurality of similar characters associated with each of the plurality of unrecognized characters among the plurality of unrecognized characters, and assigns the same predetermined character code to unrecognized characters having the same similar character among the plurality of unrecognized characters.
前記文字認識部による文字認識で複数の未認識文字が抽出された場合、
前記文字認識部は、
前記複数の未認識文字の間において、各未認識文字に紐付けられた前記複数の類似文字を比較し、前記複数の未認識文字のうち、最も一致度が高い類似文字が同じである未認識文字に対して同じ前記所定の文字コードを割り当て、
前記複数の未認識文字のうち、前記所定の文字コードが割り当てられている第1の未認識文字のそれぞれに紐付けられた前記複数の類似文字と、前記所定の文字コードが割り当てられていない残りの第2の未認識文字のそれぞれに紐付けられた2番目に一致度が高い類似文字とを比較し、前記2番目に一致度が高い類似文字が前記第1の未認識文字のそれぞれに紐付けられた前記複数の類似文字に含まれる、前記第2の未認識文字に対して前記所定のコードを割り当て、
前記第1の未認識文字のそれぞれに紐付けられた前記複数の類似文字と、前記第2の未認識文字のそれぞれに紐付けられた類似文字との比較処理を、比較対象となる前記第2の未認識文字に紐付けられた類似文字がなくなるまで繰り返し行う
ことを特徴とする請求項に記載の文字認識システム。
When a plurality of unrecognized characters are extracted by the character recognition unit,
The character recognition unit is
comparing the plurality of similar characters associated with each of the plurality of unrecognized characters, and assigning the same predetermined character code to unrecognized characters having the same similar character that has the highest degree of matching among the plurality of unrecognized characters;
comparing the plurality of similar characters associated with each of the first unrecognized characters to which the predetermined character code is assigned among the plurality of unrecognized characters with a second most similar character that is associated with each of the remaining second unrecognized characters to which the predetermined character code is not assigned, and assigning the predetermined code to the second unrecognized character that is included in the plurality of similar characters associated with each of the first unrecognized characters and that has the second most similar character that is included in the plurality of similar characters that are associated with each of the first unrecognized characters;
The character recognition system according to claim 3, characterized in that a comparison process between the plurality of similar characters associated with each of the first unrecognized characters and the similar characters associated with each of the second unrecognized characters is repeatedly performed until there are no more similar characters associated with the second unrecognized characters to be compared.
前記画像読取部により読み取られる前記原稿の画像が複数ある場合、
前記文字認識部は、
一つの前記原稿の画像毎に文字認識を行い、
複数の前記原稿の画像のうちの所定の原稿の画像で抽出された未認識文字と、複数の前記原稿の画像のうちの前記所定の原稿の画像とは異なる原稿の画像で抽出された未認識文字とをグループ化して、グループ化された各未認識文字に対して同じ前記所定の文字コードを割り当てることが可能である
ことを特徴とする請求項1~のいずれか一項に記載の文字認識システム。
When there are a plurality of images of the document to be read by the image reading unit,
The character recognition unit is
Performing character recognition on each image of the document;
The character recognition system according to any one of claims 1 to 4, characterized in that it is possible to group unrecognized characters extracted from a specified document image among the plurality of document images and unrecognized characters extracted from a document image other than the specified document image among the plurality of document images, and to assign the same specified character code to each of the grouped unrecognized characters.
原稿の画像を読み取る画像読取部と、an image reading unit that reads an image of a document;
前記画像読取部により読み取られた前記原稿の画像に含まれる文字を抽出して、抽出した文字に対して文字認識を行う文字認識部と、a character recognition unit that extracts characters included in the image of the document read by the image reading unit and performs character recognition on the extracted characters;
前記原稿の画像に対する文字認識の結果を記憶する記憶部と、を備え、a storage unit that stores a result of character recognition performed on the image of the document;
前記画像読取部により読み取られる前記原稿の画像が複数ある場合、前記文字認識部は、一つの前記原稿の画像毎に文字認識を行い、文字認識により認識できない未認識文字を抽出し、複数の前記原稿の画像のうちの所定の原稿の画像で抽出された前記未認識文字と、複数の前記原稿の画像のうちの前記所定の原稿の画像とは異なる原稿の画像で抽出された前記未認識文字とをグループ化して、グループ化された各未認識文字に対して同じ所定の文字コードを割り当て、グループ化された各未認識文字に対して同じ前記所定の文字コードを割り当てたデータを前記記憶部に出力して保存するWhen there are a plurality of images of the document to be read by the image reading unit, the character recognition unit performs character recognition for each image of the document, extracts unrecognized characters that cannot be recognized by character recognition, groups the unrecognized characters extracted in a predetermined document image among the plurality of images of the document and the unrecognized characters extracted in a document image different from the predetermined document image among the plurality of images of the document, assigns the same predetermined character code to each of the grouped unrecognized characters, and outputs and stores data in which the same predetermined character code is assigned to each of the grouped unrecognized characters to the storage unit.
ことを特徴とする文字認識システム。A character recognition system comprising:
前記文字認識部は、前記原稿の画像に対する前記文字認識の結果を前記記憶部に出力して記憶する際に、前記未認識文字と前記所定の文字コードとを紐付けたデータを前記記憶部に出力して保存するWhen outputting and storing a result of the character recognition for the image of the document to the storage unit, the character recognition unit outputs data linking the unrecognized character with the predetermined character code to the storage unit and stores the data.
ことを特徴とする請求項1~6のいずれか一項に記載の文字認識システム。7. The character recognition system according to claim 1,
前記未認識文字と前記所定の文字コードとを紐付けたデータでは、前記原稿の画像内における前記未認識文字の配置領域を特定する情報と、前記所定の文字コードとが紐付けられているIn the data in which the unrecognized character is associated with the predetermined character code, information specifying an area in the image of the document in which the unrecognized character is located is associated with the predetermined character code.
ことを特徴とする請求項1~7のいずれか一項に記載の文字認識システム。8. The character recognition system according to claim 1,
前記未認識文字と前記所定の文字コードとを紐付けたデータは、テーブルデータであるThe data linking the unrecognized characters with the predetermined character codes is table data.
ことを特徴とする請求項1~8のいずれか一項に記載の文字認識システム。9. The character recognition system according to claim 1,
前記所定の文字コードは、前記文字認識部により認識できた文字以外の文字である
ことを特徴とする請求項1~9のいずれか一項に記載の文字認識システム。
10. The character recognition system according to claim 1, wherein the predetermined character code is a character other than a character that has been recognized by the character recognition unit.
前記所定の文字コードは、前記文字認識部により認識できた文字以外の文字を組み合わせた文字列である
ことを特徴とする請求項1~9のいずれか一項に記載の文字認識システム。
10. The character recognition system according to claim 1, wherein the predetermined character code is a character string that combines characters other than those that can be recognized by the character recognition unit.
原稿の画像を読み取る画像読取部と、前記画像読取部により読み取られた前記原稿の画像に含まれる文字を抽出して、抽出した文字に対して文字認識を行う文字認識部と、前記原稿の画像に対する文字認識の結果を記憶する記憶部と、を備える文字認識システムでの文字認識方法であって、
前記文字認識部は、文字認識により認識できない未認識文字を抽出し、当該未認識文字に対して類似文字を紐付け、前記複数の未認識文字の間において、各未認識文字に紐付けられた前記類似文字を比較し、その比較結果に基づいて、前記複数の未認識文字のうちの少なくとも一部をグループ化し、グループ化された各未認識文字に対して同じ所定の文字コードを割り当て、グループ化された各未認識文字に対して同じ前記所定の文字コードを割り当てたデータを前記記憶部に出力して保存する
ことを特徴とする文字認識方法。
A character recognition method for a character recognition system including an image reading unit that reads an image of a document, a character recognition unit that extracts characters included in the image of the document read by the image reading unit and performs character recognition on the extracted characters, and a storage unit that stores a result of the character recognition on the image of the document, comprising:
the character recognition unit extracts unrecognized characters that cannot be recognized by character recognition, links similar characters to the unrecognized characters, compares the similar characters linked to each unrecognized character among the plurality of unrecognized characters, groups at least a portion of the plurality of unrecognized characters based on a comparison result, assigns the same predetermined character code to each of the grouped unrecognized characters, and outputs and stores data in which the same predetermined character code is assigned to each of the grouped unrecognized characters to the memory unit.
原稿の画像を読み取る画像読取部と、前記画像読取部により読み取られた前記原稿の画像に含まれる文字を抽出して、抽出した文字に対して文字認識を行う文字認識部と、前記原稿の画像に対する文字認識の結果を記憶する記憶部と、を備える文字認識システムでの文字認識方法であって、A character recognition method for a character recognition system including an image reading unit that reads an image of a document, a character recognition unit that extracts characters included in the image of the document read by the image reading unit and performs character recognition on the extracted characters, and a storage unit that stores a result of the character recognition on the image of the document, comprising:
前記画像読取部により読み取られる前記原稿の画像が複数ある場合、前記文字認識部は、一つの前記原稿の画像毎に文字認識を行い、文字認識により認識できない未認識文字を抽出し、複数の前記原稿の画像のうちの所定の原稿の画像で抽出された前記未認識文字と、複数の前記原稿の画像のうちの前記所定の原稿の画像とは異なる原稿の画像で抽出された前記未認識文字とをグループ化して、グループ化された各未認識文字に対して同じ所定の文字コードを割り当て、グループ化された各未認識文字に対して同じ前記所定の文字コードを割り当てたデータを前記記憶部に出力して保存するWhen there are a plurality of images of the document to be read by the image reading unit, the character recognition unit performs character recognition for each image of the document, extracts unrecognized characters that cannot be recognized by character recognition, groups the unrecognized characters extracted in a predetermined document image among the plurality of images of the document and the unrecognized characters extracted in a document image different from the predetermined document image among the plurality of images of the document, assigns the same predetermined character code to each of the grouped unrecognized characters, and outputs and stores data in which the same predetermined character code is assigned to each of the grouped unrecognized characters to the storage unit.
ことを特徴とする文字認識方法。A character recognition method comprising:
JP2021115057A 2021-07-12 2021-07-12 Character recognition system and character recognition method Active JP7707705B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021115057A JP7707705B2 (en) 2021-07-12 2021-07-12 Character recognition system and character recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021115057A JP7707705B2 (en) 2021-07-12 2021-07-12 Character recognition system and character recognition method

Publications (2)

Publication Number Publication Date
JP2023011288A JP2023011288A (en) 2023-01-24
JP7707705B2 true JP7707705B2 (en) 2025-07-15

Family

ID=85120250

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021115057A Active JP7707705B2 (en) 2021-07-12 2021-07-12 Character recognition system and character recognition method

Country Status (1)

Country Link
JP (1) JP7707705B2 (en)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05217018A (en) * 1992-02-07 1993-08-27 Ricoh Co Ltd Automatic character recognizing device
JPH0612522A (en) * 1992-06-24 1994-01-21 Ricoh Co Ltd Character recognition device
JPH07334611A (en) * 1994-06-07 1995-12-22 Hitachi Ltd How to display unrecognized characters

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
日下部清文; 木村義政,ニューラルネットを用いた特徴修正によるフィードバック型文字認識,信学技報 IEICE Technical Report,日本,電子情報通信学会,2006年10月13日,PRMU2006-109,pp.29-34

Also Published As

Publication number Publication date
JP2023011288A (en) 2023-01-24

Similar Documents

Publication Publication Date Title
US8126270B2 (en) Image processing apparatus and image processing method for performing region segmentation processing
JP5223284B2 (en) Information retrieval apparatus, method and program
US9454696B2 (en) Dynamically generating table of contents for printable or scanned content
US20080115080A1 (en) Device, method, and computer program product for information retrieval
US9659018B2 (en) File name producing apparatus that produces file name of image
US20170124390A1 (en) Image processing apparatus, image processing method, and non-transitory computer readable medium
JP2022074466A (en) Image processing apparatus and image forming apparatus
US8934147B2 (en) Digitizing apparatus for generating portable data file by compiling image data of pages into single file, having page number conversion unit for converting page numbers into electronic document page numbers
CN106557775B (en) Image processing device and image processing method
US10503993B2 (en) Image processing apparatus
US12033012B2 (en) Image processing apparatus and image processing method capable of generating 2D barcode using words constituting text in document image, input identification information, and predetermined sign and assigning generated 2D barcode to document image
US20180032809A1 (en) Information extraction device, image forming apparatus including information extraction device and method of controlling information extraction device
US12266204B2 (en) Information processing apparatus, image forming apparatus, and information processing method for automatically ordering page
US10638001B2 (en) Information processing apparatus for performing optical character recognition (OCR) processing on image data and converting image data to document data
JP7707705B2 (en) Character recognition system and character recognition method
US12456320B2 (en) Information processing apparatus, image forming apparatus, and information processing method for automatically dividing page data
US12505692B2 (en) Information processing apparatus, image forming apparatus, and information processing method for easily setting rules for ordering page data
JP2020146969A (en) Variable printing image inspection system
KR20200010777A (en) Character recognition using previous recognition result of similar character
US11849086B2 (en) Image processing apparatus capable of extracting portion of document image specified by preset index and subjecting character string in extracted portion to processing associated with index
US12387516B2 (en) Information processing apparatus, image forming apparatus, and information processing method for automatically dividing page data based on the history
US11659106B2 (en) Information processing apparatus, non-transitory computer readable medium, and character recognition system
US20250238970A1 (en) Image processing apparatus capable of properly providing instruction for image generation to generative artificial intelligence, method of controlling image processing apparatus, and storage medium
JP2013254393A (en) Data processing apparatus and data processing method using the same
JP2024124216A (en) Manuscript page order editing device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240617

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20250317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20250325

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250603

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250616

R150 Certificate of patent or registration of utility model

Ref document number: 7707705

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150