Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7599861B2 - Information processing device, information processing method, and program - Google Patents
[go: Go Back, main page]

JP7599861B2 - Information processing device, information processing method, and program - Google Patents

Information processing device, information processing method, and program Download PDF

Info

Publication number
JP7599861B2
JP7599861B2 JP2020123679A JP2020123679A JP7599861B2 JP 7599861 B2 JP7599861 B2 JP 7599861B2 JP 2020123679 A JP2020123679 A JP 2020123679A JP 2020123679 A JP2020123679 A JP 2020123679A JP 7599861 B2 JP7599861 B2 JP 7599861B2
Authority
JP
Japan
Prior art keywords
character
name
characters
recognized
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020123679A
Other languages
Japanese (ja)
Other versions
JP2022020277A (en
Inventor
航平 戸田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2020123679A priority Critical patent/JP7599861B2/en
Publication of JP2022020277A publication Critical patent/JP2022020277A/en
Application granted granted Critical
Publication of JP7599861B2 publication Critical patent/JP7599861B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

本発明は、文書画像に含まれる文字の認識技術に関する。 The present invention relates to a technology for recognizing characters contained in document images.

従来、文書をスキャンして得られた文書画像内の文字を読み取って認識する技術がある。この技術は一般にOCR(Optical Character Recognition)と呼ばれる。OCR処理には通常、文書画像をOCRに適した画像に修正する画像前処理、文書画像から文字の記載領域(文字列領域)を特定する文字列検出処理、検出された文字列領域に含まれる各文字を識別する文字認識処理とで構成される。このようなOCR処理に関し、取得した文字列領域を分類する規則や分類項目を予め定めておき、文字列領域毎に最適な文字認識を行う技術が知られている。例えば、特許文献1は、予め定めた文字列領域同士の位置関係(レイアウト情報)や分類項目の特徴を基に、文書画像から取得した文字列領域を分類し、各分類項目に対応した単語辞書とマッチングさせることで認識精度の向上を図る技術を開示している。 Conventionally, there is a technology for reading and recognizing characters in a document image obtained by scanning a document. This technology is generally called OCR (Optical Character Recognition). OCR processing is usually composed of image preprocessing for modifying a document image into an image suitable for OCR, character string detection processing for identifying an area in which characters are written (character string area) from the document image, and character recognition processing for identifying each character included in the detected character string area. Regarding such OCR processing, a technology is known in which rules and classification items for classifying acquired character string areas are determined in advance, and optimal character recognition is performed for each character string area. For example, Patent Document 1 discloses a technology for classifying character string areas obtained from a document image based on the positional relationship between predetermined character string areas (layout information) and characteristics of classification items, and for improving recognition accuracy by matching the character string areas with a word dictionary corresponding to each classification item.

特開平5―20505号公報Japanese Patent Application Publication No. 5-20505

上記特許文献1の技術では、文字列領域のレイアウト情報や、分類項目の特徴といった分類に関する規則を予め定めておく必要があるところ、規則に当て嵌まらない文書については適切に文字列領域を分類できず、結果として正しく文字認識できない。例えば、縦長タイプや横長タイプ、さらには縦書きや横書きなどの組み合わせがある名刺における氏名の部分については、その文字数が少なく、かつ、文字間隔も広いことから、適切な文字列領域を取得して高精度に文字認識することが困難である。 The technology of Patent Document 1 requires that rules for classification, such as layout information of character string areas and characteristics of classification items, be determined in advance, but for documents that do not fit the rules, character string areas cannot be properly classified, and as a result, characters cannot be recognized correctly. For example, in the name section of a business card, which may be vertical or horizontal, or may have a combination of vertical and horizontal writing, the number of characters is small and the spacing between characters is wide, making it difficult to obtain an appropriate character string area and perform character recognition with high accuracy.

本開示の技術は、上記の問題に鑑みてなされたものであり、文書画像内の文字列領域の取得に失敗しやすい個所に対する文字認識精度を向上させることを目的とする。 The technology disclosed herein has been developed in consideration of the above problems, and aims to improve character recognition accuracy in areas of a document image where character string regions are likely to fail to be acquired.

発明を解決するための手段Means for solving the invention

本開示に係る情報処理装置は、文書を読み取って得られた文書画像に対して文字列検出処理を行うことにより得られた文字列領域に対して第1の文字認識処理を行う第1処理手段と、前記第1の文字認識処理の結果に基づいて、前記文書内の人の名前を構成する名前文字を特定する特定手段と、前記特定手段で特定された前記名前文字に対応する領域及び当該名前文字と同じ行に属する1または複数の文字に対応する領域を統合して、前記名前を表す文字行に対応する文字列領域を取得する取得手段と、前記名前を表す文字行に対応する文字列領域に対して第2の文字認識処理を行う第2処理手段と、前記名前を表す文字行を構成する文字に対する文字コードを、前記第1の文字認識処理の結果と前記第2の文字認識処理の結果とに基づいて決定する決定手段と、を備えたことを特徴とする。 The information processing device according to the present disclosure is characterized by comprising: a first processing means for performing a first character recognition process on a character string area obtained by performing a character string detection process on a document image obtained by reading a document; a specifying means for specifying name characters constituting a person's name in the document based on the result of the first character recognition process; an acquiring means for acquiring a character string area corresponding to a character line representing the name by integrating an area corresponding to the name characters specified by the specifying means and an area corresponding to one or more characters belonging to the same line as the name characters; a second processing means for performing a second character recognition process on the character string area corresponding to the character line representing the name; and a determining means for determining a character code for the characters constituting the character line representing the name based on the result of the first character recognition process and the result of the second character recognition process.

本開示の技術によれば、例えば名刺における氏名の文字のように適切にその文字列領域を取得することが困難な場合でも文字認識精度を向上させることができる。 The technology disclosed herein can improve character recognition accuracy even in cases where it is difficult to properly obtain a character string area, such as the characters of a name on a business card.

情報処理システムのハードウェア構成を示す図。FIG. 1 is a diagram showing a hardware configuration of an information processing system. システム全体の処理の流れを示すフローチャート。4 is a flowchart showing the flow of processing in the entire system. 認識結果改善処理の詳細を示すフローチャート。11 is a flowchart showing details of a recognition result improvement process. 名前行取得処理の詳細を示すフローチャート。11 is a flowchart showing details of a name line acquisition process. 名前文字特定処理の詳細を示すフローチャート。11 is a flowchart showing details of a name character identification process. 文字コード置換処理の詳細を示すフローチャート。11 is a flowchart showing details of a character code replacement process. 名前行再評価処理の詳細を示すフローチャート。11 is a flowchart showing details of a name row reevaluation process. ブロブ統合処理の詳細を示すフローチャート。11 is a flowchart showing details of a blob integration process. ブロブ属性判定処理の詳細を示すフローチャート。11 is a flowchart showing details of a blob attribute determination process. 認識結果比較処理の詳細を示すフローチャート。10 is a flowchart showing details of a recognition result comparison process. (a)は名刺画像の一例を示す図、(b)は認識結果改善処理を実施前の文字列領域の一例を示す図。5A is a diagram showing an example of a business card image, and FIG. 5B is a diagram showing an example of a character string region before a recognition result improvement process is performed. 認識結果改善処理を実施前の認識結果の一例を示す図。FIG. 11 is a diagram showing an example of a recognition result before a recognition result improvement process is performed. 名刺画像から取得された名前行に対応する文字列領域の一例を示す図。11 is a diagram showing an example of a character string area corresponding to a name line acquired from a business card image. 図13の文字列領域に対する認識結果の一例を示す図。FIG. 14 is a diagram showing an example of a recognition result for the character string region in FIG. 13 . 名前文字特定処理を行った結果の一例を示す図。FIG. 11 is a diagram showing an example of a result of a name character identification process. (a)は横書きの場合の文字間距離が正になる状態を示す図、同(b)は縦書きの場合の文字間距離が正になる状態を示す図。FIG. 1A is a diagram showing a state in which the inter-character distance is positive in the case of horizontal writing, and FIG. 1B is a diagram showing a state in which the inter-character distance is positive in the case of vertical writing. 矩形領域の重なり判定を説明する図。11A and 11B are diagrams for explaining overlap determination of rectangular areas. オリジナルブロブ同士の重なり判定を説明する図。11A and 11B are diagrams for explaining overlap determination between original blobs. 認識結果改善処理を実施後の文字列領域を示す図。FIG. 11 is a diagram showing a character string region after a recognition result improvement process is performed. 認識結果改善処理を実施後の認識結果の一例を示す図。FIG. 11 is a diagram showing an example of a recognition result after a recognition result improvement process is performed.

以下、本発明の実施形態について図面に基づいて説明する。なお、実施形態は本発明を限定するものではなく、また、実施形態で説明されている全ての構成が本発明の課題を解決するため必須の手段であるとは限らない。 The following describes an embodiment of the present invention with reference to the drawings. Note that the embodiment does not limit the present invention, and all of the configurations described in the embodiment are not necessarily essential means for solving the problems of the present invention.

[実施形態1]
[ハードウェア構成]
図1は、本実施形態に係る情報処理システムのハードウェア構成を示す図である。情報処理システムは、複写機100と、情報処理装置110とを有する。
[Embodiment 1]
[Hardware configuration]
1 is a diagram showing the hardware configuration of an information processing system according to this embodiment. The information processing system includes a copying machine 100 and an information processing device 110.

複写機100は、スキャナ101と、複写機側通信部102とを有する。スキャナ101は、文書のスキャンを行い、文書画像を生成する。複写機側通信部102は、ネットワークを介して、情報処理装置110を含む外部装置と通信を行う。 The copier 100 has a scanner 101 and a copier-side communication unit 102. The scanner 101 scans a document and generates a document image. The copier-side communication unit 102 communicates with external devices, including an information processing device 110, via a network.

情報処理装置110は、システム制御部111と、ROM112と、RAM113と、HDD114と、表示部115と、入力部116と、情報処理装置側通信部117とを有する。システム制御部111は、CPUなどの演算装置で構成され、ROM112に記憶された制御プログラムを読み出して各種処理を実行する。RAM113は、システム制御部111の主メモリ、ワークエリア等の一時記憶領域として用いられる。HDD114は、各種データや各種プログラム等を記憶する。なお、後述する情報処理装置110の機能や処理は、システム制御部111がROM112又はHDD114に格納されているプログラムを読み出し、このプログラムを実行することにより実現される。情報処理装置側通信部117は、ネットワークを介して、複写機100を含む外部装置との通信処理を行う。表示部115は、各種情報を表示する。入力部116は、キーボードやマウスを有し、ユーザによる各種操作を受け付ける。なお、表示部115と入力部116は、タッチパネルのように一体に設けられてもよい。また、表示部115は、プロジェクタによる投影を行うものであってもよく、入力部116は、投影された画像に対する指先の位置を、カメラで認識するものであってもよい。 The information processing device 110 has a system control unit 111, a ROM 112, a RAM 113, a HDD 114, a display unit 115, an input unit 116, and an information processing device side communication unit 117. The system control unit 111 is composed of a calculation device such as a CPU, and reads out a control program stored in the ROM 112 to execute various processes. The RAM 113 is used as a temporary storage area such as the main memory and work area of the system control unit 111. The HDD 114 stores various data and various programs. The functions and processes of the information processing device 110 described later are realized by the system control unit 111 reading out a program stored in the ROM 112 or the HDD 114 and executing this program. The information processing device side communication unit 117 performs communication processing with external devices including the copier 100 via a network. The display unit 115 displays various information. The input unit 116 has a keyboard and a mouse, and accepts various operations by the user. The display unit 115 and the input unit 116 may be integrated into one unit, such as a touch panel. The display unit 115 may project an image using a projector, and the input unit 116 may use a camera to recognize the position of a fingertip relative to the projected image.

本実施形態においては、複写機100のスキャナ101が名刺等の紙文書をスキャンし、文書画像を生成する。文書画像は、複写機側通信部102により情報処理装置110に送信される。情報処理装置110においては、情報処理装置側通信部117が文書画像を受信し、これをHDD114などの記憶装置に記憶する。 In this embodiment, the scanner 101 of the copier 100 scans a paper document such as a business card to generate a document image. The document image is transmitted to the information processing device 110 by the copier side communication unit 102. In the information processing device 110, the information processing device side communication unit 117 receives the document image and stores it in a storage device such as the HDD 114.

なお、図1のハードウェア構成は本実施形態を実現する構成の一例であり、例えば表示部115と入力部116の一部機能は、複写機100にあってもよい。また複写機100と情報処理装置110を一体化した構成であってもよい。 The hardware configuration in FIG. 1 is an example of a configuration for realizing this embodiment, and for example, some functions of the display unit 115 and the input unit 116 may be included in the copier 100. Also, the copier 100 and the information processing device 110 may be integrated into one configuration.

[全体処理フロー]
次に、本実施形態に係る情報処理システムにおける、文書画像に対するOCR処理を実現するソフトウェアの動作フローについて、図2を用いて説明する。図2のフローチャートに示す一連の処理は、システム制御部111が所定のプログラムをROM112等から読み出して実行することで実現される。なお、以下の説明において記号「S」はステップを意味する。
[Overall processing flow]
Next, the operation flow of software for implementing OCR processing on document images in the information processing system according to this embodiment will be described with reference to Fig. 2. The series of processes shown in the flowchart in Fig. 2 are implemented by the system control unit 111 reading out a predetermined program from the ROM 112 or the like and executing it. In the following description, the symbol "S" means a step.

まず、S201では、文書画像のデータがHDD114から取得される。次に、S202では、取得した文書画像に対してその原稿の種類を判定する処理が実行される。本実施形態では、原稿種類が名刺か非名刺かを判定するものとする。この判定は、スキャン解像度と文書画像サイズに基づき行う。例えば、スキャン解像度が300DPIの場合には、スキャンによって得られた文書画像の長辺が1040ピクセル±5%、短辺が615ピクセル±5%の範囲であれば名刺と判定し、範囲外であれば非名刺と判定する。なお、原稿種類の判定方法は画像サイズに基づく方法に限らない。例えば原稿種類を特定する情報を入力部116から受け付けてもよいし、或いは文書画像から特徴量を算出して予め学習された識別モデルにより判定してもよい。 First, in S201, document image data is acquired from HDD 114. Next, in S202, a process is executed to determine the type of document for the acquired document image. In this embodiment, it is determined whether the document type is a business card or non-business card. This determination is made based on the scan resolution and document image size. For example, when the scan resolution is 300 DPI, if the long side of the document image obtained by scanning is within the range of 1040 pixels ± 5% and the short side is within the range of 615 pixels ± 5%, it is determined to be a business card, and if it is outside the range, it is determined to be a non-business card. Note that the method of determining the document type is not limited to the method based on the image size. For example, information specifying the document type may be received from input unit 116, or a feature amount may be calculated from the document image and the determination may be made using a discrimination model that has been learned in advance.

S202における判定結果に基づき、S203では処理フローが分岐する。非名刺と判定された場合にはS204へ遷移し、名刺と判定された場合にはS205へ遷移する。 Based on the result of the determination in S202, the process flow branches in S203. If it is determined to be a non-business card, the process proceeds to S204, and if it is determined to be a business card, the process proceeds to S205.

S204では、原稿種類に依らない汎用的な文字認識処理が実行される。文字認識処理が完了すると、本処理を終了する。 In S204, a general-purpose character recognition process is performed that is not dependent on the document type. When the character recognition process is complete, this process ends.

S205では、文書画像に対して傾斜を補正する処理が実行される。スキャナ101により生成される文書画像は、原稿台への原稿の置き方により傾きが生じる。そこで、傾斜補正処理を行って傾きのない文書画像を得る。傾斜補正処理は、特許第4114959号などに開示される公知の方法を適用すればよい。 In S205, a process for correcting the skew of the document image is executed. The document image generated by the scanner 101 is skewed depending on how the document is placed on the platen. Therefore, a skew correction process is performed to obtain a document image without skew. The skew correction process may be performed using a known method disclosed in, for example, Japanese Patent No. 4114959.

次に、S206では、文書画像中の文字方向を判別する処理が実行される。ここで、文字方向は、文書画像中の文字が正立する方向を0度とした時の文字の方向と定義する。上記S205で傾斜補正処理が施された文書画像は、原稿が90度単位で回転している場合がある。そこで、特許第3727971号などに開示される公知の方法を適用して、文書画像の文字方向を取得する。 Next, in S206, a process is performed to determine the character direction in the document image. Here, the character direction is defined as the direction of the characters in the document image when the direction in which the characters are upright is set to 0 degrees. In the document image that has undergone the tilt correction process in S205 above, the original may be rotated in 90 degree increments. Therefore, the character direction of the document image is obtained by applying a known method disclosed in Patent No. 3727971, etc.

次に、S207では、S206で判別された文字方向に基づき文書画像を回転させる処理が実行される。これにより、文字が正立した文書画像が得られる。 Next, in S207, a process is performed to rotate the document image based on the character direction determined in S206. This results in a document image with upright characters.

次に、S208では、文書画像から文字画素を抽出する処理が実行される。本実施形態では、各画素の輝度値に対して閾値処理を行う二値化により文字画素を抽出する。二値化には、例えば大津の二値化など公知の方法を適用すればよい。原稿中の文字は背景に比べて濃い色で印刷されるのが通常であるため、輝度値が閾値よりも小さい方の画素を文字画素とする。なお、文字画素の抽出方法は閾値処理による方法に限らない。例えば、任意の注目画素を中心にその近傍領域から画像特徴量を抽出し、該特徴量に基づき事前に学習された識別モデルに基づき注目画素が文字画素か否かを推論する方法で実現してもよい。 Next, in S208, a process is performed to extract character pixels from the document image. In this embodiment, character pixels are extracted by binarization, which involves threshold processing of the luminance value of each pixel. For binarization, a known method such as Otsu's binarization may be applied. Since characters in a document are usually printed in a darker color than the background, pixels with a luminance value smaller than the threshold value are considered to be character pixels. Note that the method of extracting character pixels is not limited to the method using threshold processing. For example, it may be realized by a method in which image features are extracted from the surrounding area centered on an arbitrary pixel of interest, and whether or not the pixel of interest is a character pixel is inferred based on the features and a discrimination model that has been previously trained.

次に、S209では、S208にて抽出された文字画素に基づき、行方向を判別する処理が実行される。ここで行方向とは、文書画像中の文字が並ぶ方向であり、本実施形態では横(水平)方向、あるいは縦(垂直)方向の何れかとする。判別手法としては、例えば文書画像の全体に対し縦方向と横方向それぞれに射影ヒストグラムを生成し、分散が小さい方向を行方向として決定する手法などがある。この行方向判別処理により、例えば図11(a)に示す名刺画像であれば行方向は縦(垂直)方向と判別される。 Next, in S209, a process is performed to determine the line direction based on the character pixels extracted in S208. The line direction here refers to the direction in which characters are lined up in the document image, and in this embodiment, is either the horizontal or vertical direction. One method of determination is, for example, to generate a projection histogram for the entire document image in both the vertical and horizontal directions, and determine the direction with the smallest variance as the line direction. With this line direction determination process, for example, the line direction of the business card image shown in Figure 11 (a) is determined to be vertical.

次のS210では、S209における判別結果に基づき処理フローが分岐する。判別の結果、行方向が横方向の場合にはS211へ遷移し、行方向が縦方向の場合にはS212へ遷移する。 In the next step S210, the process flow branches based on the result of the determination in S209. If the result of the determination is that the row direction is horizontal, the process transitions to S211, and if the row direction is vertical, the process transitions to S212.

行方向が横方向である場合のS211では、横書きの文字行を特定するのに適した文字列検出処理が実行される。文書画像内の文字の並び方向が横方向の場合、文字間の隙間(黒画素塊同士の間隔=白画素の数)は、垂直方向(上下方向)よりも水平方向(左右方向)の方が狭くなるのが通常である。そこで、横書きのひとまとまりの文字群の特定に適するよう処理パラメータを調整した領域解析を行うことによって、文書画像から文字列領域を検出する。具体的な文字列検出の方法としては、特開平7-200733号などに開示される公知の方法を適用すればよい。 In S211, when the line direction is horizontal, a character string detection process suitable for identifying horizontally written character lines is executed. When the characters in a document image are arranged horizontally, the gap between characters (the distance between black pixel clusters = the number of white pixels) is usually narrower in the horizontal direction (left-right direction) than in the vertical direction (up-down direction). Therefore, character string regions are detected from the document image by performing region analysis with processing parameters adjusted to be suitable for identifying a group of horizontally written characters. A specific method for detecting character strings is a publicly known method disclosed in JP-A-7-200733, etc.

行方向が縦方向である場合のS212では、文書画像を90度回転させる回転処理が、文字列検出処理に先立って実行される。例えば、行方向が縦方向である図11(a)の名刺画像を90度回転させ、名刺の上下が左右になるようにした名刺画像を生成する。これにより、原稿(名刺)上では縦方向に並んでいる文字が回転後の画像中では横方向に並ぶことになる。 In S212, when the line direction is vertical, a rotation process is performed to rotate the document image by 90 degrees prior to the character string detection process. For example, the business card image in FIG. 11(a), which has a vertical line direction, is rotated by 90 degrees to generate a business card image in which the top and bottom of the business card are aligned horizontally. As a result, characters that are aligned vertically on the original (business card) are aligned horizontally in the rotated image.

続くS213では、上述のS211と同様、横書きの文字行を特定するのに適した文字列検出処理が実行される。処理対象が縦長タイプかつ縦書きの名刺の場合、本実施形態のように画像を90度回転させてから文字列検出処理を行うことで、氏名のように文字間隔が広く離散的に配置されている文字部分の文字列領域をより適切に検出できる。 In the next step S213, similar to S211 described above, a character string detection process suitable for identifying horizontally written lines is executed. When the processing target is a vertically long business card with vertical writing, the image is rotated 90 degrees as in this embodiment before the character string detection process is executed, so that character string areas in the character portion where the characters are widely spaced and discretely arranged, such as a name, can be more appropriately detected.

次に、S214では、S213で検出された文字列領域を-90度回転させる処理、すなわち、S212で回転させた方向とは逆の方向に同じ角度だけ回転させる処理が実行される。これにより、文字列領域内の文字が正立した状態に戻る。この際、検出された文字列領域に対応する部分画像を-90度回転させてもよいし、検出された文字列領域の座標情報を-90度回転させ当該回転後の座標情報をS207で取得した文字が成立する方向の文書画像に適用してもよい。 Next, in S214, the character string area detected in S213 is rotated by -90 degrees, that is, the same angle as the rotation in S212 is rotated in the opposite direction. This causes the characters in the character string area to return to an upright state. At this time, the partial image corresponding to the detected character string area may be rotated by -90 degrees, or the coordinate information of the detected character string area may be rotated by -90 degrees and the coordinate information after the rotation may be applied to the document image obtained in S207 in the orientation in which the characters are formed.

S215では、S211で検出した或いはS214で取得した各文字列領域に対して文字認識処理が実行される。文字認識処理としては、例えば、文字列領域に対応する部分画像に含まれる文字の文字コードを、学習済みモデルを用いて推論する手法がある。学習済みモデルとは、文字画像を入力としてその文字コードを出力するよう学習された識別モデルである。さらに、本実施形態の文字認識処理では、認識結果としての文字(以下、「認識文字」と呼ぶ。)に対する信頼度を取得する処理も併せて行われる。信頼度は、認識文字の確からしさを表す数値である。数値が高いほど認識文字の確度が高いことを意味する。認識文字に対応する画像部分の状態が良く(ノイズが少ない等)、他の文字との重なりがない場合に高い数値の信頼度が得られる傾向にある。逆に、認識文字に対応する画像部分の状態が悪く(ノイズが多い等)、他の文字と重なりがある場合に信頼度の数値は低くなる傾向がある。またフォントサイズによっても数値に影響がある。このように、本実施形態の文字認識処理においては、認識文字の文字コード、認識文字単位の外接矩形を示す領域情報(サイズ情報)及び認識文字に対する信頼度が取得される。 In S215, character recognition processing is performed on each character string area detected in S211 or acquired in S214. As an example of character recognition processing, there is a method of inferring the character code of a character included in a partial image corresponding to a character string area using a trained model. The trained model is an identification model trained to input a character image and output its character code. Furthermore, in the character recognition processing of this embodiment, a process of acquiring the reliability of the character as the recognition result (hereinafter referred to as "recognized character") is also performed. The reliability is a numerical value that indicates the likelihood of the recognized character. The higher the numerical value, the higher the accuracy of the recognized character. When the image part corresponding to the recognized character is in good condition (low noise, etc.) and there is no overlap with other characters, a high numerical reliability tends to be obtained. Conversely, when the image part corresponding to the recognized character is in poor condition (high noise, etc.) and there is overlap with other characters, the numerical reliability tends to be low. The numerical value is also affected by the font size. In this way, in the character recognition process of this embodiment, the character code of the recognized character, area information (size information) indicating the circumscribing rectangle of the recognized character unit, and the reliability of the recognized character are obtained.

次にS216では、S215にて得られた文字認識結果を改善する処理(認識結果改善処理)が実行される。前述のとおり、文字認識の精度はS211やS213の文字列検出処理の結果が適切でないと低下する。図11(b)は、前述の図11(a)の名刺画像から氏名の部分の文字列領域が適切に抽出できなかった一例を示す図であり、図12はその文字列領域に対応する部分画像(文字列矩形画像)に対する文字認識処理の結果を示している。検出された文字列領域が適切でない結果、苗字の一部である「新」の漢字が正しく認識できていないことが分かる。そこで本実施形態では、文字列検出処理において適切な文字列領域が検出できていない可能性の高い部分について文字列領域の再取得を行って、改めて文字認識処理を行うことで、認識結果の改善を図ることとしている。認識結果改善処理の詳細は後述する。認識結果改善処理が完了すると、本処理を終了する。 Next, in S216, a process (recognition result improvement process) is performed to improve the character recognition result obtained in S215. As described above, the accuracy of character recognition decreases if the results of the character string detection process in S211 or S213 are inappropriate. FIG. 11(b) is a diagram showing an example in which the character string area of the name portion could not be properly extracted from the business card image in FIG. 11(a) described above, and FIG. 12 shows the result of character recognition process for a partial image (character string rectangular image) corresponding to that character string area. As a result of the detected character string area being inappropriate, it can be seen that the kanji character "新", which is part of the family name, was not correctly recognized. Therefore, in this embodiment, the character string area is reacquired for the part where it is highly likely that an appropriate character string area was not detected in the character string detection process, and character recognition process is performed again, thereby improving the recognition result. Details of the recognition result improvement process will be described later. When the recognition result improvement process is completed, this process ends.

以上が、文書画像に対するOCR処理を実現するソフトウェアの動作フローである。 The above is the operational flow of the software that realizes OCR processing of document images.

<認識結果改善処理の概要>
続いて、S216の認識結果改善処理について、図3のフローチャートを参照しつつその概要を説明する。本処理は、文書画像内から抽出された文字列領域の単位で実行される。
<Outline of recognition result improvement process>
Next, the recognition result improvement process of S216 will be outlined with reference to the flowchart of Fig. 3. This process is executed for each character string region extracted from the document image.

S301では、S216で実行された文字認識処理が日本語による文字認識処理であったか否かが判定される。文字認識処理の対象言語は予め設定されており、その設定情報を参照して判定がなされる。日本語による文字認識処理であった場合はS302へ遷移し、その他の言語による文字認識処理であった場合はS303へ遷移する。 In S301, it is determined whether the character recognition process executed in S216 was character recognition process in Japanese. The target language for the character recognition process is set in advance, and the determination is made by referring to the setting information. If it was character recognition process in Japanese, the process transitions to S302, and if it was character recognition process in another language, the process transitions to S303.

S302では、認識結果に基づき、再度の文字認識処理の対象となる特定の文字行に対応する文字列領域を文書画像から取得する処理が実行される。ここで、特定の文字行とは、名刺内の人の名前を構成する文字行(以下、「名前行」と表記)である。名前行取得処理の詳細は後述する。 In S302, a process is executed to obtain, based on the recognition result, a character string area corresponding to a specific character line to be subjected to character recognition processing again from the document image. Here, the specific character line is a character line constituting the name of a person on a business card (hereinafter, referred to as a "name line"). The name line obtaining process will be described in detail later.

次に、S303では、名前行取得処理の結果に基づき処理フローが分岐する。名前行に対応する文字列領域が取得できた場合にはS304へ遷移し、取得できなかった場合には本処理を抜ける。S304では、S302にて取得された名前行の文字列領域に対し、S215で行ったのと同じ文字認識処理が改めて実行される。ただし、完全に同じ文字認識処理である必要は必ずしもなく、例えば認識対象の文字種を漢字、片仮名、平仮名など人名で用いられ得る文字種に絞った学習済みモデルを用いた異なる文字認識処理を行ってもよい。 Next, in S303, the process flow branches based on the result of the name line acquisition process. If the character string area corresponding to the name line can be acquired, the process proceeds to S304, and if not, the process exits. In S304, the same character recognition process as that performed in S215 is executed again on the character string area of the name line acquired in S302. However, it does not necessarily have to be exactly the same character recognition process, and for example, a different character recognition process may be performed using a trained model that limits the character types to be recognized to those that can be used in personal names, such as kanji, katakana, and hiragana.

次に、S305では、S304における再度の文字認識処理で得られた認識文字の文字コードを、一定の条件下、最初の文字認識処理で得られた文字コードと置き換える処理(文字コード置換処理)が実行される。文字コード置換処理の詳細については後述する。文字コード置換処理が完了すると、本処理を終了する。 Next, in S305, a process (character code replacement process) is executed to replace the character code of the recognized character obtained in the second character recognition process in S304 with the character code obtained in the first character recognition process under certain conditions. Details of the character code replacement process will be described later. When the character code replacement process is completed, this process ends.

以上が、認識結果改善処理の概要である。 This concludes the overview of the recognition result improvement process.

<名前行取得処理>
続いて、S302の名前行取得処理について、図4のフローチャートを参照しつつ説明する。
<Name line acquisition process>
Next, the name line acquisition process in S302 will be described with reference to the flowchart in FIG.

S401では、S215で得られた認識結果のうち、人の名前らしい文字(以下、「名前文字」と表記)を特定する処理(名前文字特定処理)が実行される。この名前文字特定処理によって名前文字として特定された認識文字それぞれは、以降「ブロブ」と呼ばれる単位で扱われる。この「ブロブ」には、その対応する文字または文字列領域を囲む外接矩形の座標情報(矩形情報)とその文字コードを含む。名前文字特定処理の詳細については後述する。以下の表1は、後続の説明において登場する様々な種類のブロブについてまとめたものである。 In S401, a process (name character identification process) is executed to identify characters that appear to be a person's name (hereinafter referred to as "name characters") from the recognition results obtained in S215. Each recognized character identified as a name character by this name character identification process is treated as a unit called a "blob" hereafter. This "blob" includes the coordinate information (rectangle information) of the circumscribing rectangle that surrounds the corresponding character or character string area and its character code. The name character identification process will be described in detail later. Table 1 below summarizes the various types of blobs that will appear in the following explanation.

Figure 0007599861000001
Figure 0007599861000001

S402では、名前文字特定処理で得られた名前文字同士の間で行揃いが成り立つものを結合することにより、名前行(複数の名前文字で構成される文字列)の候補が生成される。なお、行揃いが成り立つかどうかは各名前文字のブロブで判断され、また、結合された場合には名前行候補に対応するブロブが生成される。 In S402, candidates for name lines (character strings consisting of multiple name characters) are generated by combining name characters obtained in the name character identification process that are aligned in lines. Note that whether or not line alignment is possible is determined by the blob of each name character, and when they are combined, a blob corresponding to the name line candidate is generated.

S403では、S402で得られた名前行候補の前後の範囲に存在する文字が、名前行候補の一部として結合され名前行候補に組み込まれる。 In S403, the characters existing in the range before and after the name line candidate obtained in S402 are combined as part of the name line candidate and incorporated into the name line candidate.

S404では、S403で得られた名前行候補の前後の範囲に存在する画素塊が文書画像から抽出され、名前行候補の中にさらに加えられる。 In S404, pixel blocks existing in the range before and after the name line candidate obtained in S403 are extracted from the document image and further added to the name line candidates.

S405では、ここまでで得られたすべての名前行候補のうち、不要な名前行候補を削除する処理がなされ、残った名前行候補が名前行と決定される。不要な名前行候補であるかどうかは、ブロブ内の矩形情報や、認識結果に対する信頼度の情報を用いて行う。これらの情報を組み合わせた判定条件を満たしていない場合、不要な名前行候補と判定する。条件の一例としては、名前文字のブロブが2つ以上である場合、または名前文字のブロブは存在しないが複数行からなる場合、等である。 In S405, unnecessary name line candidates are deleted from all the name line candidates obtained up to this point, and the remaining name line candidates are determined to be name lines. Whether or not a name line candidate is unnecessary is determined using rectangular information within the blob and information on the reliability of the recognition result. If a judgment condition that combines this information is not met, it is determined to be an unnecessary name line candidate. One example of the condition is when there are two or more blobs of name characters, or when there are no name character blobs but the name line consists of multiple lines, etc.

以上が、名前行取得処理の内容である。図13は、本処理によって図11(a)の名刺画像から取得された名前行に対応する文字列領域の一例を示す図である。図11(a)の名刺画像における肩書と氏名を包含する領域(図中の実線の枠)が、名前行に対応する文字列領域として取得されている。また、図14は、図13に示す文字列領域に対応する部分画像(文字列矩形画像)に対し文字認識処理を行った場合の認識結果を示している。この場合、氏名の部分(「新」「野」「康」「介」の4つの漢字)は正しく認識されているが、2行に亘る肩書の部分は正しく認識できていないことが分かる。 The above is the content of the name line acquisition process. FIG. 13 is a diagram showing an example of a character string area corresponding to the name line acquired from the business card image of FIG. 11(a) by this process. The area including the title and name in the business card image of FIG. 11(a) (solid line frame in the figure) is acquired as the character string area corresponding to the name line. FIG. 14 shows the recognition result when character recognition processing is performed on a partial image (character string rectangular image) corresponding to the character string area shown in FIG. 13. In this case, it can be seen that the name portion (the four kanji characters "Arata", "No", "Yasu", and "Suke") is correctly recognized, but the title portion spanning two lines is not correctly recognized.

<名前文字特定処理>
続いて、S401の名前文字特定処理について、図5のフローチャートを参照しつつ説明する。なお、以下に示す一連の処理は、S215における文字認識処理で得られた認識文字の単位で実行される。また、本フローにおいて参照する文字認識処理の結果には、認識文字の文字コード、サイズ、信頼度の各情報に加え、各認識文字についての第一候補の文字数の情報も含まれるものとする。
<Name character identification processing>
Next, the name character specification process of S401 will be described with reference to the flowchart of Fig. 5. The series of processes shown below are executed for each recognized character obtained in the character recognition process of S215. The results of the character recognition process referred to in this flow include information on the number of first candidate characters for each recognized character, in addition to information on the character code, size, and reliability of the recognized characters.

S501では、注目する認識文字に対し、その行高さ方向のサイズが予め決められた閾値未満か否かが判定される。この場合の閾値は、有効な認識結果として利用可能な文字のサイズ毎の出現頻度を文書画像全体に対する文字認識の結果から集計し、最も頻度が高いサイズを閾値とする、といった方法で決めればよい。この場合において、有効な認識結果となるための条件は以下のとおりである。
・文字幅とアスペクト比が所定値以上である。(バーコードのようなサイズのものは文字とみなさない)
・認識結果に対する信頼度が所定値以上である。
・行高さ方向の文字サイズ(縦書きなら幅、横書きなら高さ)が所定値以上である。
In S501, it is determined whether the size in the line height direction of the recognized character of interest is less than a predetermined threshold. In this case, the threshold may be determined by tallying up the frequency of occurrence of each character size that can be used as a valid recognition result from the character recognition results for the entire document image, and setting the most frequent size as the threshold. In this case, the conditions for a valid recognition result are as follows:
- The character width and aspect ratio are equal to or greater than the specified value. (Barcode-sized characters are not considered characters.)
The reliability of the recognition result is equal to or higher than a predetermined value.
- The character size in the line height direction (width for vertical writing, height for horizontal writing) is equal to or greater than a specified value.

なお、上記各条件における所定値は経験則に基づいて決まる値である。判定の結果、注目する認識文字の行高さ方向のサイズが閾値未満であればS508へ遷移し、閾値以上であればS502へ遷移する。 Note that the predetermined values for each of the above conditions are values determined empirically. If the result of the determination is that the size of the recognized character in the line height direction of the target character is less than the threshold, the process transitions to S508, and if it is equal to or greater than the threshold, the process transitions to S502.

S502では、注目する認識文字について、その認識結果の第一候補として得られた文字数が複数(すなわち1以外)であったか否かが判定される。ここで、“第一候補”とは、その文字に対する複数の認識候補のうち最も確度が高いものという意味である。そして、“得られた文字数が複数”とは、1つの文字に対して2つ以上の認識候補が出力された場合であり、例えば漢字「誠」が、「言」と「成」に分離して認識されたようなケースが該当する。認識結果の第一候補として得られた文字数が1以外の場合はS508へ遷移し、文字数が1であった場合はS503へ遷移する。 In S502, it is determined whether the number of characters obtained as the first candidate in the recognition result for the recognized character of interest is multiple (i.e., other than one). Here, "first candidate" means the one with the highest accuracy among the multiple recognition candidates for that character. "Multiple characters obtained" means that two or more recognition candidates are output for one character, such as when the kanji character "誠" is recognized as being separated into "言" and "成". If the number of characters obtained as the first candidate in the recognition result is other than one, the process transitions to S508, and if the number of characters is one, the process transitions to S503.

S503では、注目する認識文字についての第一候補の文字コードが、漢字または仮名以外の文字コード(具体的には、英数字や記号などの文字コード)であるかどうかが判定される。第一候補の文字コードが漢字又は仮名以外の文字コードであった場合はS508へ遷移し、漢字又は仮名の文字コードであった場合はS504ヘ遷移する。 In S503, it is determined whether the first candidate character code for the recognized character of interest is a character code other than kanji or kana (specifically, a character code for alphanumeric characters, symbols, etc.). If the first candidate character code is a character code other than kanji or kana, the process transitions to S508, and if it is a kanji or kana character code, the process transitions to S504.

S504では、注目する認識文字の文字コードが、除外対象の文字コードであるかどうかが判定される。除外対象の文字コードは、例えば「ぁ」や「ァ」といった小文字の文字コードなどが該当し予め指定しておく。除外対象の文字コードである場合はS508へ遷移し、除外対象の文字コード以外の文字コードである場合はS505へ遷移する。 In S504, it is determined whether the character code of the recognized character of interest is a character code to be excluded. Character codes to be excluded include, for example, character codes for lowercase letters such as "ぁ" and "ア" and are specified in advance. If the character code is to be excluded, the process proceeds to S508, and if the character code is not to be excluded, the process proceeds to S505.

S505では、注目する認識文字に対する信頼度が閾値より低いか否かが判定される。ここでの閾値は、ある値以上なら凡そ信頼できるという値を経験則に基づき設定しておけばよい。信頼度が閾値より低い場合はS508へ遷移し、閾値以上の場合はS506へ遷移する。 In S505, it is determined whether the reliability of the recognized character in question is lower than a threshold value. The threshold value here may be set based on experience, such that a certain value or higher indicates that the character is generally reliable. If the reliability is lower than the threshold value, the process transitions to S508, and if it is equal to or higher than the threshold, the process transitions to S506.

S506では、注目する認識文字の外接矩形のアスペクト比が略1か否かが判定される。認識結果には誤差を含み得るので、アスペクト比が1±閾値(例えば0~0.6程度)以内であれば“略1”と判定すればよい。アスペクト比が略1以外の場合はS508へ遷移し、略1である場合はS507へ遷移する。 In S506, it is determined whether the aspect ratio of the circumscribing rectangle of the recognized character of interest is approximately 1. Since the recognition result may contain errors, if the aspect ratio is within 1 ± a threshold value (e.g., approximately 0 to 0.6), it is determined to be "approximately 1." If the aspect ratio is other than approximately 1, the process transitions to S508, and if it is approximately 1, the process transitions to S507.

上記S501~S506の各条件に当て嵌まらなかった場合のS507では、注目する認識文字は名前文字であると判定される。また、上記S501~S506のいずれかの条件に当て嵌まった場合のS508では、注目する認識文字は名前文字ではないと判定される。判定が完了すると、本処理を終了する。図15は、図11(a)の名刺画像に対する文字認識の結果に対し、本処理を行った結果の一例を示す図であり、「株」「式」「会」「社」「野」「康」「介」の各文字が名前文字として判定されたことを示している。 If none of the conditions in S501 to S506 above are met, then in S507 the recognized characters of interest are determined to be name characters. If any of the conditions in S501 to S506 above are met, then in S508 the recognized characters of interest are determined to not be name characters. Once the determination is complete, this process ends. Figure 15 is a diagram showing an example of the results of this process performed on the character recognition results for the business card image in Figure 11(a), and shows that the characters "株", "式", "会", "社", "野", "幸", and "輔" have been determined to be name characters.

<文字コード置換処理>
続いて、S305の文字コード置換処理について、図6のフローチャートを参照しつつ説明する。
<Character code replacement process>
Next, the character code replacement process in S305 will be described with reference to the flowchart in FIG.

S601では、再度の文字認識処理(S304)における認識結果の中に有効な認識文字があったか否かが判定される。具体的には、再度の文字認識処理によって取得された認識文字が、スペース以外の文字であれば、当該認識文字を有効な認識文字であると判定する。スペース以外の文字である場合は、最初の文字認識処理における認識結果の置き換えに使用可能な文字となり得る。そのため、有効な認識文字であると判定された場合には、そのブロブを有効認識ブロブ(前述の表1を参照)として収集し、S602へ遷移する。有効な認識文字がなかった場合は、本処理を抜ける。なお、スペース以外の文字であっても、その文字高さが閾値未満かつ文字長さが閾値未満の場合は、有効認識ブロブとして収集しつつ、ノイズ文字としてもカウントする。この場合の閾値としては、行高さ(縦書きなら幅、横書きなら高さ)の4分の1程度が適当である。 In S601, it is determined whether or not there is a valid recognized character in the recognition result of the second character recognition process (S304). Specifically, if the recognized character obtained by the second character recognition process is a character other than a space, the recognized character is determined to be a valid recognized character. If the recognized character is a character other than a space, it may be a character that can be used to replace the recognition result of the first character recognition process. Therefore, if it is determined to be a valid recognized character, the blob is collected as a valid recognized blob (see Table 1 above) and the process proceeds to S602. If there is no valid recognized character, the process is terminated. Note that even if the character is not a space, if its character height is less than the threshold and its character length is less than the threshold, it is collected as a valid recognized blob and also counted as a noise character. In this case, the threshold value is appropriately about one-fourth of the line height (width if written vertically, height if written horizontally).

S602では、再度の文字認識処理(S304)の結果と最初の文字認識処理(S215)の結果とに基づき、名前行を再評価する処理(名前行再評価処理)が実行される。名前行再評価処理の詳細については後述する。 In S602, a process of reevaluating the name line (name line reevaluation process) is executed based on the results of the second character recognition process (S304) and the results of the initial character recognition process (S215). The details of the name line reevaluation process will be described later.

S603では、名前行再評価処理の結果に基づき処理フローが分岐する。再評価の結果、置換が有効な名前文字を含む名前行が存在した場合はS604に遷移し、存在しなかった場合は本処理を抜ける。 In S603, the process flow branches based on the result of the name line reevaluation process. If the reevaluation result indicates that a name line containing name characters for which replacement is valid exists, the process proceeds to S604; if not, the process exits.

S604では、名前行の中の置換が有効な名前文字の文字コードが、再度の文字認識処理で得られた文字コードによって置換される。文字コードの置換が完了すると、本処理を終了する。 In S604, the character codes of the name characters in the name line for which replacement is valid are replaced with the character codes obtained by the second character recognition process. When the character code replacement is complete, this process ends.

以上が、文字コード置換処理の内容である。 The above is the content of the character code replacement process.

<名前行再評価処理>
続いて、S602の名前行再評価処理について、図7のフローチャートを参照しつつ説明する。
<Name row reevaluation process>
Next, the name line reevaluation process of S602 will be described with reference to the flowchart of FIG.

S701では、S601にて収集された有効認識ブロブに対し、行方向に重複するブロブ同士を統合する処理(ブロブ統合処理)が実行される。この際、統合後の有効認識ブロブには属性フラグが設定される。ブロブ統合処理の詳細については後述する。 In S701, a process (blob integration process) is executed for integrating blobs that overlap in the row direction for the valid recognition blobs collected in S601. At this time, an attribute flag is set for the valid recognition blobs after integration. The blob integration process will be described in detail later.

S702では、ブロブ統合処理後の有効認識ブロブについてその属性を判定し、属性フラグを設定する処理(ブロブ属性判定処理)が実行される。ブロブ属性判定処理の詳細は後述する。 In S702, the attributes of the valid recognized blobs after the blob integration process are determined, and a process (blob attribute determination process) is executed to set an attribute flag. The details of the blob attribute determination process will be described later.

S703では、S701及びS702にていずれの属性フラグも設定されなかった有効認識ブロブに対応する認識文字に対して、名前文字であるかどうかを判定する処理が実行される。この場合において、属性フラグの種類としては、ノイズフラグ、統合フラグ、高信頼度オリジナルマルチラインフラグ、高信頼度オリジナルシングルラインフラグの4つがある。これら4種類のフラグのいずれかが設定された有効認識ブロブの認識文字については、名前文字であるかどうかの判定を行わない。なお、この判定には、前述の名前文字特定処理と同じ処理を行えばよい。 In S703, a process is performed to determine whether or not a recognized character corresponding to a valid recognition blob for which no attribute flag was set in S701 or S702 is a name character. In this case, there are four types of attribute flags: noise flag, integration flag, high-reliability original multi-line flag, and high-reliability original single-line flag. For a recognized character of a valid recognition blob for which any of these four types of flags is set, a determination is not made as to whether or not it is a name character. Note that this determination can be made by performing the same process as the name character identification process described above.

S704では、S703にて名前文字と判定された認識文字同士を統合して名前行が生成される。これは、名前文字と判定された認識文字同士のブロブに基づき双方の矩形情報をまとめ、1つの文字列領域として扱うことを意味する。 In S704, the recognized characters determined to be name characters in S703 are integrated to generate a name row. This means that the rectangular information of both recognized characters determined to be name characters is combined based on the blobs of the recognized characters and treated as a single character string area.

S705では、S703にて名前文字と判定された認識文字の前後に位置する認識文字のうち所定条件を満たす文字が、S704で生成した名前行に加えられる。これは、名前文字と判定された認識文字のブロブの矩形情報と、その前後にある文字のブログの矩形情報とを統合して一つの文字列領域にすることを意味する。例えば、“あい”という文字の並びがある場合において、“い”の認識文字が名前文字と判定された場合、“い”の前に位置する“あ”の認識文字が所定条件を満たしていれば、名前行として取り込まれて“あい”という2つの文字を含む文字列領域が得られる。ここで、所定条件は、文字認識処理で得られた文字コード、認識結果に対する信頼度、名前文字と判定された文字との距離等の情報を組み合わせたものである。例えば、文字の大きさが閾値以上、認識結果の信頼度が閾値以上などの条件を設けておき、すべての条件を満たしている文字を名前行に取り込むようにする。これにより、およそ人名らしい認識文字から成る文字行の文字列領域が得られることになる。 In S705, among the recognized characters located before and after the recognized characters determined to be name characters in S703, characters that satisfy a predetermined condition are added to the name row generated in S704. This means that the rectangular information of the blob of the recognized characters determined to be name characters and the rectangular information of the blog of the characters before and after it are integrated into one character string area. For example, in the case of a sequence of characters "ai", if the recognized character "ai" is determined to be a name character, if the recognized character "a" located before "ai" satisfies a predetermined condition, it is taken in as a name row and a character string area including the two characters "ai" is obtained. Here, the predetermined condition is a combination of information such as the character code obtained by the character recognition process, the reliability of the recognition result, and the distance between the character determined to be a name character. For example, conditions such as the size of the character being equal to or larger than a threshold and the reliability of the recognition result being equal to or larger than a threshold are set, and characters that satisfy all the conditions are taken in to the name row. This results in a character string area of a character row consisting of recognized characters that are approximately like a person's name.

以上が、名前行再評価処理の内容である。 The above is the content of the name line reevaluation process.

<ブロブ統合処理>
続いて、S701のブロブ統合処理について、図8のフローチャートを参照しつつ説明する。なお、以下に示す一連の処理は、すべての有効認識ブロブに対して順に実行される。
<Blob integration processing>
Next, the blob integration process in S701 will be described with reference to the flowchart in Fig. 8. Note that the series of processes shown below are executed in order for all valid recognition blobs.

S801では、注目する有効認識ブロブ(以下「注目ブロブ」と表記)に対応する認識文字の終端と、次の有効認識ブロブ(以下「次ブロブ」と表記)に対応する認識文字の先端との距離を示す値が正なのか負なのかが判定される。ここで、処理開始時に各有効認識ブロブは行頭からの距離でソートされている。よって、“次ブロブ”とは、同一行における未処理の有効認識ブロブのうち最も距離が近い有効認識ブロブを意味する。図16(a)は横書きの場合における注目ブロブの文字の終端と次ブロブの文字の先端との距離(文字間距離)が正になる状態を示す図であり、同(b)は縦書きの場合における文字間距離が正になる状態を示す図である。つまり、文字間距離が負になるときは、注目ブロブの認識文字と次ブロブの認識文字とが重なっていることを意味する。以降、文字間距離が負である場合のその絶対値を「文字間の重複サイズ」と呼ぶこととする。文字間距離の値が正であった場合はS805へ遷移し、負であった場合はS802へ遷移する。 In S801, it is determined whether the value indicating the distance between the end of the recognized character corresponding to the valid recognition blob of interest (hereinafter referred to as the "blob of interest") and the beginning of the recognized character corresponding to the next valid recognition blob (hereinafter referred to as the "next blob") is positive or negative. Here, at the start of processing, each valid recognition blob is sorted by distance from the beginning of the line. Therefore, the "next blob" means the valid recognition blob that is closest among the unprocessed valid recognition blobs in the same line. FIG. 16(a) is a diagram showing a state in which the distance (inter-character distance) between the end of the character of the blob of interest and the beginning of the character of the next blob is positive in the case of horizontal writing, and FIG. 16(b) is a diagram showing a state in which the inter-character distance is positive in the case of vertical writing. In other words, when the inter-character distance is negative, it means that the recognized character of the blob of interest and the recognized character of the next blob overlap. Hereinafter, the absolute value of the inter-character distance when it is negative will be called the "inter-character overlap size". If the inter-character distance value is positive, the process transitions to S805; if it is negative, the process transitions to S802.

S802では、文字間の重複サイズが閾値以下であるか否かが判定される。この際の閾値は、行高さ(縦書きなら文字幅、横書きなら文字高さ)を基準に決定される。例えば、行高さの1倍未満の値が閾値として設定される。閾値以下であればS804へ遷移し、閾値より大きかった場合はS803へ遷移する。 In S802, it is determined whether the overlap size between characters is equal to or smaller than a threshold value. The threshold value is determined based on the line height (character width for vertical writing, character height for horizontal writing). For example, a value less than one time the line height is set as the threshold value. If it is equal to or smaller than the threshold value, the process proceeds to S804, and if it is greater than the threshold value, the process proceeds to S803.

S803では、注目ブロブに対し重複文字統合フラグが設定される。設定後は、S809へ遷移する。 In S803, a duplicate character merge flag is set for the blob of interest. After setting, the process proceeds to S809.

S804では、注目ブロブに対応する認識文字及び次ブロブに対応する認識文字のサイズが閾値より大きいか否かが判定される。この際の閾値も、S802における閾値と同様、行高さ(縦書きなら文字幅、横書きなら文字高さ)を基準に決定される。例えば、行高さの1倍未満の値が閾値として設定される。両認識文字のサイズが閾値より大きい場合は、注目ブロブの認識文字及び次ブロブの認識文字を共に名前文字のサイズと判定し、注目ブロブについての処理は完了する。一方、両認識文字のサイズが閾値以下の場合は上記S803へ遷移し、注目ブロブに対し重複文字統合フラグが設定される。 In S804, it is determined whether the size of the recognized characters corresponding to the focus blob and the next blob is greater than a threshold. The threshold is determined based on the line height (character width for vertical writing, character height for horizontal writing), similar to the threshold in S802. For example, a value less than one time the line height is set as the threshold. If the size of both recognized characters is greater than the threshold, the recognized characters of the focus blob and the next blob are both determined to be the size of name characters, and processing for the focus blob is completed. On the other hand, if the size of both recognized characters is equal to or less than the threshold, the process proceeds to S803 above, and an overlapping character integration flag is set for the focus blob.

文字間距離が正である場合のS805では、文字間距離が閾値より大きいか否かが判定される。この際の閾値も、S802及びS804における閾値と同様、行高さ(縦書きなら文字幅、横書きなら文字高さ)を基準に決定される。例えば、行高さの1倍未満の値が閾値として設定される。文字間距離が閾値より大きい場合は、名前文字が分離していると判定し、次ブロブの認識文字との統合(S809)を行うことなく、注目ブロブについての処理は完了する。一方、文字間距離が閾値以下の場合は、S806へ遷移する。 In S805, if the inter-character distance is positive, it is determined whether the inter-character distance is greater than a threshold. The threshold in this case is also determined based on the line height (character width for vertical writing, character height for horizontal writing) as with the threshold in S802 and S804. For example, a value less than one time the line height is set as the threshold. If the inter-character distance is greater than the threshold, it is determined that the name characters are separated, and processing of the target blob is completed without merging with the recognized characters of the next blob (S809). On the other hand, if the inter-character distance is equal to or less than the threshold, the process transitions to S806.

S806では、注目ブロブの1つ前の有効認識ブロブ(以下「前ブロブ」と表記)に対応する認識文字が、注目ブロブの認識文字と前ブロブの認識文字との距離の二倍よりも近接しているか否かが判定される。近接している場合は、前ブロブの認識文字との統合(S809)を行うことなく、注目ブロブについての処理は終了する。一方、近接していない場合はS807へ遷移する。なお、注目ブロブに対して前ブロブが存在しない場合は、注目ブロブの行高さ(縦書きの場合は文字幅、横書きの場合は文字高さ)を両文字間の距離として扱い、判定を行えばよい。 In S806, it is determined whether the recognized characters corresponding to the valid recognized blob immediately preceding the target blob (hereinafter referred to as the "previous blob") are closer than twice the distance between the recognized characters of the target blob and the previous blob. If they are close, processing for the target blob ends without merging with the recognized characters of the previous blob (S809). On the other hand, if they are not close, the process transitions to S807. Note that if there is no previous blob for the target blob, the line height of the target blob (character width if written vertically, character height if written horizontally) can be treated as the distance between the two characters and a determination can be made.

S807では、注目ブロブの認識文字と次ブロブの認識文字とを統合した際の文字の長さが閾値より大きいか否かが判定される。ここで、“統合した際の文字の長さ”は、縦書きの場合は文字の高さ、横書きの場合は文字の幅を用いる。また、この際の閾値は、行高さ(縦書きなら文字幅、横書きなら文字高さ)を基準に決定される。例えば、行高さの1倍を超える値が閾値として設定される。統合した際の文字の長さが閾値より大きい場合には、次ブロブの認識文字との統合を行うことなく、注目ブロブについての処理を完了する。一方、統合した際の文字の長さが閾値以下の場合は、S808へ遷移する。 In S807, it is determined whether the length of the characters when the recognized characters of the target blob and the recognized characters of the next blob are combined is greater than a threshold. Here, the "character length when combined" is the character height in the case of vertical writing, and the character width in the case of horizontal writing. The threshold is determined based on the line height (character width in the case of vertical writing, character height in the case of horizontal writing). For example, a value that is more than one time the line height is set as the threshold. If the length of the characters when combined is greater than the threshold, processing of the target blob is completed without combining with the recognized characters of the next blob. On the other hand, if the length of the characters when combined is equal to or less than the threshold, the process transitions to S808.

S808では、注目ブロブに対し分離文字統合フラグが設定される。設定後は、S809へ遷移する。 In S808, a separated character integration flag is set for the blob of interest. After setting, the process proceeds to S809.

S809では、注目ブロブと次ブロブとが統合され、新たに統合された有効認識ブロブが生成されることになる。統合後は注目ブロブについての処理を完了する。そして、上記の処理がすべての有効認識ブロブに対して完了すると、S810へ遷移する。 In S809, the focus blob and the next blob are integrated to generate a new integrated valid recognition blob. After the integration, processing for the focus blob is completed. Then, when the above processing is completed for all valid recognition blobs, the process transitions to S810.

S810では、S809にて生成された統合後の有効認識ブロブに対して、属性フラグが設定される。具体的には、以下の判定条件に従い、属性フラグとしてノイズフラグと統合フラグのいずかが設定される。 In S810, an attribute flag is set for the valid recognition blob after integration generated in S809. Specifically, either a noise flag or an integration flag is set as the attribute flag according to the following determination conditions:

<判定条件>
・統合後のブロブにノイズ文字が一定以上含まれている場合は、ノイズフラグを設定
・統合後のブロブに重複文字統合フラグ又は分離文字統合フラグが存在する場合は、統合フラグを設定
<Judgment conditions>
・If the integrated blob contains a certain amount of noise characters or more, set the noise flag. ・If the integrated blob contains the overlapping character integration flag or the separated character integration flag, set the integration flag.

上記判定条件に従って、すべての統合後の有効認識ブロブに対して属性フラグが設定されると、本処理を終了する。 When attribute flags have been set for all valid recognition blobs after integration according to the above criteria, this process ends.

以上が、ブロブ統合処理の内容である。 The above is the content of the blob integration process.

<ブロブ属性判定処理>
続いて、S702のブロブ属性判定処理について、図9のフローチャートを参照しつつ説明する。なお、以下に示す一連の処理は、すべての有効認識ブロブに対して順に実行される。また、本処理の対象となる有効認識ブロブには、上述のブロブ統合処理において統合された後の有効認識ブロブ及び統合されずに残った有効認識ブロブとが含まれる。
<Blob attribute determination process>
Next, the blob attribute determination process of S702 will be described with reference to the flowchart of Fig. 9. The series of processes described below are executed for all valid recognition blobs in order. The valid recognition blobs that are the subject of this process include the valid recognition blobs that have been integrated in the above-mentioned blob integration process and the valid recognition blobs that remain unintegrated.

S901では、注目する有効認識ブロブ(以下、「注目ブロブ」と表記)について、最初の文字認識処理(S215)の認識結果と再度の文字認識処理(S304)の認識結果とを比較する処理(認識結果比較処理)が実行される。認識結果比較処理の詳細は後述する。 In S901, a process (recognition result comparison process) is executed to compare the recognition result of the first character recognition process (S215) with the recognition result of the second character recognition process (S304) for the valid recognition blob of interest (hereinafter referred to as the "blob of interest"). The details of the recognition result comparison process will be described later.

S902では、S901での比較結果を基に、注目ブロブがマルチラインを構成するブロブであるかどうかが判定される。ここで、マルチラインとは、前述の図13における破線の枠1301で囲まれた文字列のように、複数の文字行から成る文字列を表している。注目ブロブがマルチラインを構成するブロブであると判定された場合はS903へと遷移し、マルチラインを構成しないブロブであると判定された場合はS904へと遷移する。 In S902, based on the comparison result in S901, it is determined whether the blob of interest is a blob that constitutes a multiline. Here, a multiline refers to a character string consisting of multiple character lines, such as the character string enclosed in the dashed frame 1301 in FIG. 13 described above. If it is determined that the blob of interest is a blob that constitutes a multiline, the process transitions to S903, and if it is determined that the blob of interest is a blob that does not constitute a multiline, the process transitions to S904.

S903では、注目ブロブに対し、高信頼度オリジナルマルチラインフラグが設定される。設定後は、注目ブロブに対する処理を終了する。 In S903, a high-reliability original multi-line flag is set for the blob of interest. After setting, processing for the blob of interest is terminated.

S904では、S901での比較結果を基に、高信頼度オリジナル文字の数が閾値以上であるか(文字列領域の形状が帯状になっているか)が判定される。ここで、“高信頼度オリジナル文字の数”は、次に説明する認識結果比較処理において、再度の文字認識処理のときよりも最初の文字認識処理のときの方が、認識文字に対する信頼度が高いと判定された文字の数を表している。高信頼度オリジナル文字の数が閾値以上である場合はS905へ遷移し、閾値未満である場合は注目ブロブに対する処理を終了する。 In S904, based on the comparison result in S901, it is determined whether the number of highly reliable original characters is equal to or greater than a threshold value (whether the character string region is strip-shaped). Here, the "number of highly reliable original characters" represents the number of characters determined to have a higher reliability for the recognized characters in the first character recognition process than in the second character recognition process in the recognition result comparison process described next. If the number of highly reliable original characters is equal to or greater than the threshold value, the process proceeds to S905, and if it is less than the threshold, the process for the blob of interest is terminated.

S905では、注目ブロブに対し、高信頼度オリジナルシングルラインフラグが設定される。設定後は、注目ブロブに対する処理を終了する。 In S905, a high-reliability original single-line flag is set for the blob of interest. After this is set, processing for the blob of interest is terminated.

上記の処理がすべての有効認識ブロブに対して実施されると、本処理を終了する。 When the above process has been performed on all valid recognition blobs, this process ends.

以上が、ブロブ属性判定処理の内容である。 The above is the content of the blob attribute determination process.

<認識結果比較処理>
続いて、S703の認識結果比較処理について、図10のフローチャートを参照しつつ説明する。なお、以下に示す一連の処理は、すべてのオリジナルブロブに対して順に実行される。
<Recognition result comparison process>
Next, the recognition result comparison process of S703 will be described with reference to the flowchart of Fig. 10. Note that the series of processes shown below are executed for all original blobs in order.

S1001では、注目する有効認識ブロブの矩形情報が示す領域と、処理対象のオリジナルブロブ(前述の表1を参照)の矩形情報が示す領域とが重なるか否かが判定される。図17は、矩形領域の重なり判定を説明する図である。図17において、縦長の2つの枠が処理対象のオリジナルブロブの矩形領域をそれぞれ示し、略正方形の枠が注目する有効認識ブロブの矩形領域を示している。図17に示す例の場合は、縦長の矩形領域のいずれも、略正方形の矩形領域と重なっていると判定されることになる。このように双方の矩形領域が重なる場合はS1002へ遷移する。一方、双方の矩形領域が重ならない場合は、当該オリジナルブロブに対する処理を終了する。 In S1001, it is determined whether the area indicated by the rectangular information of the valid recognition blob of interest overlaps with the area indicated by the rectangular information of the original blob to be processed (see Table 1 above). Figure 17 is a diagram for explaining overlap determination of rectangular areas. In Figure 17, two vertically long frames indicate rectangular areas of the original blob to be processed, and a substantially square frame indicates a rectangular area of the valid recognition blob of interest. In the example shown in Figure 17, both of the vertically long rectangular areas are determined to overlap with the substantially square rectangular area. In this way, if both rectangular areas overlap, the process proceeds to S1002. On the other hand, if both rectangular areas do not overlap, the process for the original blob is terminated.

S1002では、処理対象のオリジナルブロブに対応する認識文字があるかどうかが判定される。これは、文字列領域に対して文字認識の結果が返ってこなかった場合にはそのことを示す情報がブロブ内に保持されているため、当該情報を用いて何らかの認識文字が対応付けられているかどうかを判定する処理である。認識文字がある場合は、S1003へ遷移する。認識文字がない場合は、当該オリジナルブロブに対する処理を終了する。 In S1002, it is determined whether there are recognized characters that correspond to the original blob being processed. In cases where no character recognition results are returned for a character string region, information indicating this is stored in the blob, so this information is used in the process to determine whether any recognized characters correspond. If there are recognized characters, the process proceeds to S1003. If there are no recognized characters, the process for the original blob ends.

S1003では、注目する有効認識ブロブにおける信頼度と、処理対象のオリジナルブロブにおける信頼度とが比較される。有効認識ブロブの信頼度よりもオリジナルブロブの信頼度の方が高い場合、すなわち、処理対象のオリジナルブロブが“高信頼度オリジナルブロブ(前述の表1を参照)”である場合は、S1004へ遷移する。一方、処理対象のオリジナルブロブの信頼度が有効認識ブロブの信頼度よりも低い場合は、当該オリジナルブロブに対する処理を終了する。 In S1003, the reliability of the valid recognition blob of interest is compared with the reliability of the original blob to be processed. If the reliability of the original blob is higher than that of the valid recognition blob, i.e., if the original blob to be processed is a "high reliability original blob (see Table 1 above)", the process proceeds to S1004. On the other hand, if the reliability of the original blob to be processed is lower than that of the valid recognition blob, the process for that original blob is terminated.

S1004では、処理対象のオリジナルブロブと別の高信頼度オリジナルブロブとが、高さ方向に離れた状態で、かつ、行方向に重なるか否かが判定される。高さ方向に離れた状態で、かつ、行方向に重なる場合はS905へ遷移する。図18は、この重なり判定を説明する図であり、図中に示す例の場合は、高さ方向に離れており、かつ行方向には重なっているので、S1005へと遷移することになる。一方、高さ方向に離れていない又は行方向に重ならない場合は、当該オリジナルブロブに対する処理を終了する。 In S1004, it is determined whether the original blob to be processed and another high-confidence original blob are separated in the height direction and overlap in the row direction. If they are separated in the height direction and overlap in the row direction, the process transitions to S905. Figure 18 is a diagram explaining this overlap determination, and in the example shown in the figure, they are separated in the height direction and overlap in the row direction, so the process transitions to S1005. On the other hand, if they are not separated in the height direction or do not overlap in the row direction, the process for that original blob is terminated.

S1005では、処理対象のオリジナルブロブに対応する認識文字が、複数行からなるマルチラインを構成する文字であると決定される。続くS1006では、処理対象の当該ブロブを高信頼度オリジナルブロブとしてカウントし、当該オリジナルブロブに対する処理を終了する。 In S1005, it is determined that the recognized character corresponding to the original blob being processed is a character that constitutes a multiline consisting of multiple lines. In the following S1006, the blob being processed is counted as a high-confidence original blob, and processing for the original blob is terminated.

上記の処理が、すべてのオリジナルブロブに対し実施されると、本処理を終了する。 When the above process has been performed for all original blobs, this process ends.

以上が、認識結果比較処理の内容である。 The above is the content of the recognition result comparison process.

<認識結果改善処理の効果>
最後に、図3~図10のフローチャートを使って説明した認識結果改善処理の効果について説明する。図19は、前述の図11(a)に示す名刺画像に対して、認識結果改善処理を実施した場合の文字列領域を示す図である。図11(b)と比べると明らかなように、氏名の部分の文字列領域が適切に抽出できているのが分かる。また、図20は、図19に示す各文字列領域に対する文字認識処理の結果を示している。図12と比べると明らかなように、文字列領域が適切に抽出できている結果、正しく文字認識できていることが分かる。
<Effects of the recognition result improvement process>
Finally, the effect of the recognition result improvement process explained using the flowcharts of Figures 3 to 10 will be described. Figure 19 is a diagram showing character string areas when the recognition result improvement process is performed on the business card image shown in Figure 11(a) described above. As is clear from a comparison with Figure 11(b), it can be seen that the character string areas of the name portion have been properly extracted. Also, Figure 20 shows the results of character recognition processing for each character string area shown in Figure 19. As is clear from a comparison with Figure 12, it can be seen that the character string areas have been properly extracted, resulting in correct character recognition.

以上のとおり本実施形態によれば、名刺画像から名刺内の人の名前を構成する文字行(名前行)を特定してその文字列領域に対し再度文字認識処理を行う。そして、最初の文字認識処理の結果と再度の文字認識処理の結果とを比較し、より確からしい結果を最終的な認識結果とする。これにより、名刺における名前領域の認識結果をより確からしいものにすることができ、文字認識処理の精度が向上することになる。 As described above, according to this embodiment, the lines of characters (name lines) that make up the name of a person on a business card are identified from the business card image, and character recognition processing is performed again on that character string area. The result of the initial character recognition processing is then compared with the result of the second character recognition processing, and the more likely result is determined to be the final recognition result. This makes it possible to make the recognition result of the name area on the business card more likely, improving the accuracy of the character recognition processing.

<その他の実施形態>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
<Other embodiments>
The present invention can also be realized by a process in which a program for implementing one or more of the functions of the above-described embodiments is supplied to a system or device via a network or a storage medium, and one or more processors in a computer of the system or device read and execute the program. The present invention can also be realized by a circuit (e.g., ASIC) that implements one or more of the functions.

Claims (16)

文書を読み取って得られた文書画像に対して文字列検出処理を行うことにより得られた文字列領域に対して第1の文字認識処理を行う第1処理手段と、
前記第1の文字認識処理の結果に基づいて、前記文書内の人の名前を構成する名前文字を特定する特定手段と、
前記特定手段で特定された前記名前文字に対応する領域及び当該名前文字と同じ行に属する1または複数の文字に対応する領域を統合して、前記名前を表す文字行に対応する文字列領域を取得する取得手段と、
前記名前を表す文字行に対応する文字列領域に対して第2の文字認識処理を行う第2処理手段と、
前記名前を表す文字行を構成する文字に対する文字コードを、前記第1の文字認識処理の結果と前記第2の文字認識処理の結果とに基づいて決定する決定手段と、
を備えたことを特徴とする情報処理装置。
a first processing means for performing a first character recognition process on a character string area obtained by performing a character string detection process on a document image obtained by reading a document;
an identifying means for identifying name characters constituting a person's name in the document based on a result of the first character recognition process;
an acquiring means for acquiring a character string area corresponding to a character line representing the name by integrating an area corresponding to the name characters identified by the identifying means and an area corresponding to one or more characters belonging to the same line as the name characters;
a second processing means for performing a second character recognition process on a character string area corresponding to the character line representing the name;
a determination means for determining character codes for characters constituting the character line representing the name based on a result of the first character recognition process and a result of the second character recognition process;
An information processing device comprising:
前記第2の文字認識処理は、認識対象の文字種が人の名前で使用され得る文字種に限定された文字認識処理である、ことを特徴とする請求項に記載の情報処理装置。 2 . The information processing apparatus according to claim 1 , wherein the second character recognition process is a character recognition process in which a character type to be recognized is limited to a character type that can be used in a person's name. 前記人の名前で使用され得る文字種には、漢字及び仮名を少なくとも含むことを特徴とする請求項に記載の情報処理装置。 3. The information processing apparatus according to claim 2 , wherein the types of characters that can be used in the person's name include at least kanji and kana. 前記決定手段は、
前記第2の文字認識処理の結果のうちスペース以外の認識文字を用いて前記名前を表す文字行を生成し、
生成した前記名前を表す文字行に含まれる認識文字が有効な名前文字である場合、前記第1の文字認識処理で得られた文字コードを、当該有効な名前文字である認識文字の文字コードに置き換える、
ことを特徴とする請求項1乃至のいずれか1項に記載の情報処理装置。
The determining means is
generating a line of characters representing the name using recognized characters other than spaces from the result of the second character recognition process;
if a recognized character included in the generated character line representing the name is a valid name character, the character code obtained by the first character recognition process is replaced with the character code of the recognized character that is the valid name character;
4. The information processing apparatus according to claim 1, wherein the information processing apparatus is a computer .
前記決定手段は、前記スペース以外の認識文字のうち、文字間距離が負の値である認識文字同士を統合して1つの認識文字として扱うことで、前記名前を表す文字行を生成することを特徴とする請求項に記載の情報処理装置。 The information processing apparatus according to claim 4, characterized in that the determining means generates the character line representing the name by integrating recognized characters other than the space, the recognized characters having a negative inter-character distance, and treating them as a single recognized character. 前記特定手段は、前記第1の文字認識処理の結果に含まれる認識文字の行高さ方向のサイズが閾値以上である場合、当該認識文字を前記名前文字と特定することを特徴とする請求項1乃至のいずれか1項に記載の情報処理装置。 The information processing device according to any one of claims 1 to 5, characterized in that the identification means identifies a recognized character as the name character when the size in the line height direction of the recognized character included in the result of the first character recognition process is equal to or larger than a threshold value . 前記特定手段は、前記第1の文字認識処理の結果に含まれる認識文字の第一候補の文字数が1の場合、当該認識文字を前記名前文字と特定することを特徴とする請求項1乃至5のいずれか1項に記載の情報処理装置。 The information processing device according to any one of claims 1 to 5, characterized in that, when the number of first candidate characters of the recognized character included in the result of the first character recognition process is one, the identification means identifies the recognized character as the name character. 前記特定手段は、前記第1の文字認識処理の結果に含まれる認識文字の第一候補の文字コードが漢字又は仮名の場合、当該認識文字を前記名前文字と特定することを特徴とする請求項1乃至のいずれか1項に記載の情報処理装置。 The information processing device according to any one of claims 1 to 5, characterized in that when a character code of a first candidate for a recognized character included in the result of the first character recognition process is kanji or kana, the identification means identifies the recognized character as the name character. 前記特定手段は、前記第1の文字認識処理の結果に含まれる認識文字の文字コードが、除外対象として指定した文字コード以外の文字コードである場合、当該認識文字を前記名前文字と特定することを特徴とする請求項1乃至のいずれか1項に記載の情報処理装置。 The information processing device according to any one of claims 1 to 5, characterized in that the identification means identifies the recognized character as the name character when the character code of the recognized character included in the result of the first character recognition process is a character code other than a character code specified as an exclusion target. 前記特定手段は、前記第1の文字認識処理の結果に含まれる認識文字の信頼度が閾値以上である場合、当該認識文字を前記名前文字と特定することを特徴とする請求項1乃至のいずれか1項に記載の情報処理装置。 6. The information processing apparatus according to claim 1, wherein the identifying means identifies a recognized character included in the result of the first character recognition process as the name character when the reliability of the recognized character is equal to or higher than a threshold value. 前記取得手段は、前記特定手段で特定された複数の名前文字について、行揃いが成り立つ名前文字同士を結合して、前記名前を表す文字行に対応する文字列領域を取得することを特徴とする請求項1に記載の情報処理装置。 The information processing device according to claim 1, characterized in that the acquiring means acquires a character string area corresponding to the character line representing the name by combining name characters that are aligned with each other for the plurality of name characters identified by the identifying means. 前記取得手段は、前記結合により得られた文字列領域に対し、その前後にある文字をさらに結合して、前記名前を表す文字行に対応する文字列領域を取得することを特徴とする請求項11に記載の情報処理装置。 12. The information processing apparatus according to claim 11 , wherein the acquiring means acquires a character string area corresponding to the character line representing the name by further combining characters before and after the character string area obtained by the combining. 前記取得手段は、前記前後にある文字が結合されることで得られた文字列領域に対し、その前後にある画素塊を加えて、前記名前を表す文字行に対応する文字列領域を取得することを特徴とする請求項12に記載の情報処理装置。 The information processing device according to claim 12, characterized in that the acquiring means acquires a character string area corresponding to the line of characters representing the name by adding pixel chunks before and after the character string area obtained by combining the characters before and after the character string area. 前記取得手段は、取得した前記名前を表す文字行に対応する文字列領域のうち、一定の条件を満たす文字列領域を削除する手段を有することを特徴とする請求項11乃至13のいずれか1項に記載の情報処理装置。 14. The information processing apparatus according to claim 11, wherein the acquiring means comprises a means for deleting a character string area that satisfies a certain condition from among the acquired character string areas corresponding to the character line representing the name. 文書を読み取って得られた文書画像に対して文字列検出処理を行うことにより得られた文字列領域に対して第1の文字認識処理を行う処理ステップと、
前記第1の文字認識処理の結果に基づいて、前記文書内の人の名前を構成する名前文字を特定する特定ステップと、
前記特定ステップにて特定された前記名前文字に対応する領域及び当該名前文字と同じ行に属する1または複数の文字に対応する領域を統合して、前記名前を表す文字行に対応する文字列領域を取得する取得ステップと、
前記名前を表す文字行に対応する文字列領域に対して第2の文字認識処理を行う処理ステップと、
前記名前を表す文字行を構成する文字に対する文字コードを、前記第1の文字認識処理の結果と前記第2の文字認識処理の結果とに基づいて決定する決定ステップと、
を含むことを特徴とする情報処理方法。
a processing step of performing a first character recognition process on a character string area obtained by performing a character string detection process on a document image obtained by reading the document;
identifying name characters constituting a person's name in the document based on a result of the first character recognition process;
an acquiring step of acquiring a character string area corresponding to a character line representing the name by integrating an area corresponding to the name characters identified in the identifying step and an area corresponding to one or more characters belonging to the same line as the name characters;
a processing step of performing a second character recognition process on a character string area corresponding to the character line representing the name;
a determining step of determining character codes for characters constituting the character line representing the name based on a result of the first character recognition process and a result of the second character recognition process;
13. An information processing method comprising:
コンピュータを、請求項1乃至14のいずれか1項に記載の情報処理装置として機能させるためのプログラム。 A program for causing a computer to function as the information processing device according to any one of claims 1 to 14 .
JP2020123679A 2020-07-20 2020-07-20 Information processing device, information processing method, and program Active JP7599861B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020123679A JP7599861B2 (en) 2020-07-20 2020-07-20 Information processing device, information processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020123679A JP7599861B2 (en) 2020-07-20 2020-07-20 Information processing device, information processing method, and program

Publications (2)

Publication Number Publication Date
JP2022020277A JP2022020277A (en) 2022-02-01
JP7599861B2 true JP7599861B2 (en) 2024-12-16

Family

ID=80216002

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020123679A Active JP7599861B2 (en) 2020-07-20 2020-07-20 Information processing device, information processing method, and program

Country Status (1)

Country Link
JP (1) JP7599861B2 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001052112A (en) 1999-08-11 2001-02-23 Fujitsu Ltd Recognition processing method, information processing device and recording medium

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001052112A (en) 1999-08-11 2001-02-23 Fujitsu Ltd Recognition processing method, information processing device and recording medium

Also Published As

Publication number Publication date
JP2022020277A (en) 2022-02-01

Similar Documents

Publication Publication Date Title
CN102982330B (en) Character identifying method and identification device in character image
US5410611A (en) Method for identifying word bounding boxes in text
US8462394B2 (en) Document type classification for scanned bitmaps
JPH0652354A (en) Skew correcting method, skew angle detecting method, document segmentation system and skew angle detector
US10169650B1 (en) Identification of emphasized text in electronic documents
CN110598566A (en) Image processing method, device, terminal and computer readable storage medium
US10423851B2 (en) Method, apparatus, and computer-readable medium for processing an image with horizontal and vertical text
Akinbade et al. An adaptive thresholding algorithm-based optical character recognition system for information extraction in complex images
CN114495141B (en) Document paragraph position extraction method, electronic device and storage medium
JPH01253077A (en) Detection of string
US20190057276A1 (en) Image analysis apparatus, image analysis method, and non-transitory computer readable medium
CN102782705A (en) Resolution adjustment of an image that includes text undergoing an OCR process
JP7599861B2 (en) Information processing device, information processing method, and program
Kumar et al. Line based robust script identification for indianlanguages
JPH0721817B2 (en) Document image processing method
JP7705468B2 (en) Information processing system, document type identification method, model generation method and program
JP2020119291A (en) Information processing device and program
JP4117648B2 (en) Form, form processing method, form processing program, recording medium recording form processing program, and form processing apparatus
JP5298830B2 (en) Image processing program, image processing apparatus, and image processing system
JP7532124B2 (en) Information processing device, information processing method, and program
JP7543014B2 (en) Information processing device, information processing method, and program
JP2008028716A (en) Image processing method and apparatus
JP5277750B2 (en) Image processing program, image processing apparatus, and image processing system
JPH0916713A (en) Image area division method
Pun et al. A Survey on Change Detection Techniques in Document Images

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230706

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240701

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20241105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20241204

R150 Certificate of patent or registration of utility model

Ref document number: 7599861

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150