Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP4943501B2 - Image processing apparatus and method, and optical character identification apparatus and method - Google Patents
[go: Go Back, main page]

JP4943501B2 - Image processing apparatus and method, and optical character identification apparatus and method - Google Patents

Image processing apparatus and method, and optical character identification apparatus and method Download PDF

Info

Publication number
JP4943501B2
JP4943501B2 JP2009507367A JP2009507367A JP4943501B2 JP 4943501 B2 JP4943501 B2 JP 4943501B2 JP 2009507367 A JP2009507367 A JP 2009507367A JP 2009507367 A JP2009507367 A JP 2009507367A JP 4943501 B2 JP4943501 B2 JP 4943501B2
Authority
JP
Japan
Prior art keywords
character
pixel
image
line segment
width
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009507367A
Other languages
Japanese (ja)
Other versions
JPWO2008120376A1 (en
Inventor
肇 宮里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Original Assignee
Pioneer Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Corp filed Critical Pioneer Corp
Publication of JPWO2008120376A1 publication Critical patent/JPWO2008120376A1/en
Application granted granted Critical
Publication of JP4943501B2 publication Critical patent/JP4943501B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Description

本発明は、例えばカラー画像等の画像に含まれる文字部分を抽出し、認識することが可能な画像処理装置及び方法、並びに、光学式の文字識別装置及び方法の技術分野に関する。   The present invention relates to a technical field of an image processing apparatus and method capable of extracting and recognizing a character portion included in an image such as a color image, and an optical character identification apparatus and method.

近年、放送の多チャンネル化や高速インターネットの普及などに伴い、我々が扱うことのできる画像および映像コンテンツは膨大なものとなっている。このような画像には文字が含まれているものが多く、例えばTV放送におけるテロップ、写真における看板文字などが挙げられる。画像を効率的に管理したいとき、画像に含まれているこれらの文字を認識して文字コード化し、画像のメタデータとして活用することは一つの有効な方法である。   In recent years, with the spread of multi-channel broadcasting and the spread of the high-speed Internet, the image and video content that we can handle has become enormous. Such images often include characters, such as telops in TV broadcasts, signboard characters in photographs, and the like. When it is desired to manage an image efficiently, it is an effective method to recognize these characters included in the image, convert them into character codes, and use them as image metadata.

画像内の文字を認識する技術として、光学的文字認識(以下、適宜「OCR」(Optical Character Recognition)と記す)がある。これは白黒の二色画像を入力とし、黒を文字画素、白を背景画素として文字認識を行うものである。そのため、一般的なカラー画像内の文字をOCRで認識するには、文字部分のみを抽出して白黒画像に変換する工程が必要である。ところが扱う画像の量が膨大になると、この変換作業を全て人手で行うのは困難であり、自動化が望まれる。   As a technique for recognizing characters in an image, there is optical character recognition (hereinafter referred to as “OCR” (Optical Character Recognition) as appropriate). In this method, a black and white two-color image is input and character recognition is performed using black as a character pixel and white as a background pixel. Therefore, in order to recognize characters in a general color image by OCR, it is necessary to extract only the character portion and convert it into a monochrome image. However, when the amount of images handled is enormous, it is difficult to perform all of this conversion work manually, and automation is desired.

特許文献1等では、次のような手法について開示されている。先ず、色成分によりクラスタリングされたクラス画像において、画素が連結された画素連結領域を抽出し、その画素連結領域に外接する矩形のうち面積や大きさが最小となる矩形(以下、適宜、「最小外接矩形」と称す)を取得する。次に、取得された最小外接矩形の位置関係から、文字らしさ(文字とみなすことができる度合い)を判断する。何故ならば、画像中の文字部分は、略同じ大きさであると共に、略同じ高さに並ぶ傾向が高いので、文字部分を囲みつつ外接する最小外接矩形にも同様の性質が見られると考えられるからである。   Patent Document 1 and the like disclose the following method. First, in a class image clustered by color components, a pixel connection region in which pixels are connected is extracted, and a rectangle that has the smallest area and size among rectangles circumscribing the pixel connection region (hereinafter referred to as “minimum” as appropriate). (Referred to as a circumscribed rectangle). Next, characterity (a degree that can be regarded as a character) is determined from the positional relationship of the acquired minimum circumscribed rectangle. This is because the character parts in the image are almost the same size and tend to line up at almost the same height, so the same characteristic can be seen in the minimum circumscribed rectangle that circumscribes the character part. Because it is.

或いは特許文献2等では、画像に含まれる文字部分は、細長い線分で構成される性質を利用し、数学モルフォロジィを用いて幅の細い同色の画素領域を抽出し、これを文字部分の候補として抽出する手法について開示されている。   Alternatively, in Patent Document 2 or the like, a character portion included in an image is extracted from a pixel region of the same color having a narrow width using a mathematical morphology by using the property that the character portion is composed of elongated line segments. The method of extracting as is disclosed.

特開2002−42055号公報JP 2002-42055 A 「情景画像からの文字領域抽出に関する研究」(顧、信学技報PRU95-221(1996-03), pp.39-46)"Study on character region extraction from scene image" (Rep., IEICE Technical Report PRU95-221 (1996-03), pp.39-46)

上述したように、特許文献1等では、画素連結領域の最小外接矩形の集合が略同じ高さで並ぶ場合、その画素連結領域は文字らしい、言い換えると、文字とみなすことができる度合いが高いと判断している。しかしながら、これは英語など1文字がほぼ1つの画素連結領域で構成される場合は有効である。他方で、日本語のように、1文字が複数の画素連結領域で構成される場合には、最小外接矩形の位置関係による文字らしさの判定は困難であるという技術的な問題点が生じる。   As described above, in Patent Document 1 and the like, when a set of minimum circumscribed rectangles of pixel connection areas are arranged at substantially the same height, the pixel connection areas are likely to be characters, in other words, the degree that can be regarded as characters is high. Deciding. However, this is effective when one character such as English is composed of almost one pixel connection region. On the other hand, when one character is composed of a plurality of pixel connection regions as in Japanese, there is a technical problem that it is difficult to determine the character likeness based on the positional relationship of the minimum circumscribed rectangle.

また、上述したように特許文献2等では、基本的に細長い線分を、文字パーツとして判断するので、同様の性質や形状を持つ背景パーツから影響されるノイズを、文字パーツと区別することが技術的に困難となってしまう。また、文字の線分幅の最大値を予め設定しておく必要があるため、最大値の設定の仕方によっては、真の文字パーツの抽出率を低下させてしまう可能性がある。   Further, as described above, in Patent Document 2 and the like, basically, a long and narrow line segment is determined as a character part. Therefore, noise affected by a background part having the same property and shape can be distinguished from a character part. It becomes technically difficult. Further, since it is necessary to set the maximum value of the line segment width of the character in advance, there is a possibility that the extraction ratio of the true character parts may be lowered depending on how the maximum value is set.

本発明は、例えば上述した従来の問題点に鑑みなされたものであり、例えばカラー画像等の画像から文字部分を適切に抽出することを可能とする画像処理装置及び方法、並びに、光学式の文字識別装置及び方法を提供することを課題とする。   The present invention has been made in view of the above-described conventional problems, for example, an image processing apparatus and method capable of appropriately extracting a character portion from an image such as a color image, and an optical character. It is an object to provide an identification apparatus and method.

上記課題を解決するために、請求項1に記載の画像処理装置は、画像の平面上で、文字を示す文字部分を含む複数の画素が連結される画素連結部分の線分幅を検出する検出手段と、前記検出された線分幅の統計的な分布に基づいて、前記文字部分を識別する識別手段とを備える。   In order to solve the above-described problem, the image processing apparatus according to claim 1 detects a line segment width of a pixel connection portion where a plurality of pixels including a character portion indicating a character are connected on a plane of an image. Means and identification means for identifying the character portion based on a statistical distribution of the detected line segment width.

上記課題を解決するために、請求項14に記載の光学式の文字識別装置は、画像の平面上で、文字を示す文字部分を含む複数の画素が連結される画素連結部分の線分幅を光学的に検出する検出手段と、前記検出された線分幅の統計的な分布に基づいて、前記文字部分を識別する識別手段とを備える。   In order to solve the above-described problem, an optical character identification device according to claim 14 has a line segment width of a pixel connection portion where a plurality of pixels including a character portion indicating a character are connected on a plane of an image. Detection means for optical detection, and identification means for identifying the character portion based on a statistical distribution of the detected line segment width.

上記課題を解決するために、請求項15に記載の画像処理方法は、画像の平面上で、文字を示す文字部分を含む複数の画素が連結される画素連結部分の線分幅を検出する検出工程と、前記検出された線分幅の統計的な分布に基づいて、前記文字部分を識別する識別工程とを備える。   In order to solve the above-described problem, the image processing method according to claim 15 is a detection for detecting a line segment width of a pixel connection portion where a plurality of pixels including a character portion indicating a character are connected on a plane of the image. A step of identifying the character portion based on a statistical distribution of the detected line segment width.

上記課題を解決するために、請求項16に記載の光学式の文字識別方法は、画像の平面上で、文字を示す文字部分を含む複数の画素が連結される画素連結部分の線分幅を光学的に検出する検出工程と、前記検出された線分幅の統計的な分布に基づいて、前記文字部分を識別する識別工程とを備える。   In order to solve the above-mentioned problem, an optical character identification method according to claim 16, wherein a line segment width of a pixel connection portion where a plurality of pixels including a character portion indicating a character are connected on a plane of an image is determined. A detection step for optical detection; and an identification step for identifying the character portion based on a statistical distribution of the detected line segment width.

本発明の作用及び他の利得は次に説明する実施の形態から明らかにされよう。   The operation and other advantages of the present invention will become apparent from the embodiments described below.

以下、発明を実施するための最良の形態としての本発明の実施形態に係る画像処理装置及び方法について順に説明する。   Hereinafter, an image processing apparatus and method according to an embodiment of the present invention as the best mode for carrying out the invention will be described in order.

(画像処理装置の実施形態)
以下、本発明の実施形態に係る画像処理装置について説明する。
(Embodiment of Image Processing Device)
Hereinafter, an image processing apparatus according to an embodiment of the present invention will be described.

本発明の画像処理装置に係る実施形態は、画像の平面上で、文字を示す文字部分を含む複数の画素が連結される画素連結部分の線分幅を検出する検出手段と、前記検出された線分幅の統計的な分布に基づいて、前記文字部分を識別する識別手段とを備える。   An embodiment according to the image processing apparatus of the present invention includes: a detecting unit configured to detect a line width of a pixel connection portion in which a plurality of pixels including a character portion indicating a character are connected on a plane of the image; Identification means for identifying the character portion based on a statistical distribution of line segment widths.

本発明の画像処理装置に係る実施形態によれば、対象となる画像は、文字を示す文字部分(所謂、文字パーツ)を含む、例えばカラー画像でよい。又は、文字部分を含む白黒画像でよい。或いは、対象となる画像は、文字部分を含む静止画でよい。又は、文字部分を含む動画でよい。或いは、これらの文字部分を含む一の画像が、輝度成分や色度などの属性や性質によって、複数の画像(所謂、クラス画像や、クラスタや、クラスタ画像)にグループ分けされていてよい。また、画像は、文字を示す文字部分を含むことに加えて、背景画像を示す背景部分(所謂、背景パーツ)を含むようにしてよい。   According to the embodiment of the image processing apparatus of the present invention, the target image may be, for example, a color image including a character portion indicating a character (so-called character part). Alternatively, it may be a black and white image including a character portion. Alternatively, the target image may be a still image including a character part. Alternatively, it may be a moving image including a character part. Alternatively, one image including these character portions may be grouped into a plurality of images (so-called class images, clusters, and cluster images) depending on attributes and properties such as luminance components and chromaticity. The image may include a background portion (so-called background part) indicating the background image in addition to the character portion indicating the character.

先ず、検出手段によって、画像の平面上で、文字を示す文字部分を含む複数の画素が連結される画素連結部分(所謂、パーツ)の線分幅が検出される。ここに、本実施例に係る画素連結部分とは、例えば「0b(但し、「b」はbinaryを意味する)」と「1b」等のニ値の識別情報によって画素が規定されたニ値画像において、一の画素に隣接している他の画素の識別情報が、例えば黒色(1b)であるなど同一であれば連結し、識別情報が異なれば連結しないことによって形成される、連結された画素の集合となる画像領域を意味する。また、本発明に係る「検出」とは、典型的には、画素連結部分の線分幅を示す統計量やパラメータを、直接的に「検出」、「測定」、「計測」等することを意味する。更に、画素連結部分の線分幅を示す統計量やパラメータを、間接的に「算出」、「演算」、「推定」等することを含んでいてもよい。   First, the line width of a pixel connection portion (so-called part) in which a plurality of pixels including a character portion indicating a character are connected is detected by the detection means on the plane of the image. Here, the pixel connection part according to the present embodiment is a binary image in which pixels are defined by binary identification information such as “0b (where“ b ”means binary”) and “1b”, for example. Connected pixels formed by being connected if the identification information of other pixels adjacent to one pixel is the same, such as black (1b), for example, and not connected if the identification information is different Means an image area to be a set of In addition, “detection” according to the present invention typically means directly performing “detection”, “measurement”, “measurement”, or the like on a statistic or parameter indicating the line segment width of a pixel connection portion. means. Furthermore, it may include indirectly performing “calculation”, “calculation”, “estimation”, and the like on the statistics and parameters indicating the line segment width of the pixel connection portion.

次に、識別手段によって、検出された線分幅の統計的な分布に基づいて、文字部分が画像から識別される。ここに、本発明に係る「識別」とは、典型的には、画像中の文字部分を、直接的に「識別」、「選別」、「区別」、「抽出」、「認識」、「選択」、「取捨選択」等することを意味する。更に、画像中の文字部分を、間接的に「識別」、「選別」、「区別」、「抽出」、「認識」、「選択」、「取捨選択」等することを意味することを含んでいてもよい。従って、例えば、線分幅の出現頻度を示す度数分布などの線分幅の統計的な分布に基づいて、文字らしさを判断することが可能である。ここに、本発明に係る「文字らしさ」とは、文字とみなすことができる度合いを意味する。文字らしさを判断することができる理由は、画像中に示される文字においては、文字の幅は、略一定の線分幅で構成される可能性が顕著に高いからである。   Next, the character portion is identified from the image by the identifying means based on the statistical distribution of the detected line segment width. Here, “identification” according to the present invention typically means directly “identification”, “selection”, “distinguishment”, “extraction”, “recognition”, “selection” of a character part in an image. "," Selection "and so on. In addition, it means that the character part in the image means indirectly “identification”, “selection”, “distinguishment”, “extraction”, “recognition”, “selection”, “selection” May be. Therefore, for example, it is possible to determine the character likelihood based on a statistical distribution of line widths such as a frequency distribution indicating the frequency of appearance of the line width. Here, the “characteristic” according to the present invention means a degree that can be regarded as a character. The reason why the character-likeness can be determined is that, in the character shown in the image, it is highly likely that the character width is constituted by a substantially constant line segment width.

この結果、例えば、文字の色や、文字の大きさが、事前に分からない場合でも、線分幅の統計的な分布に基づいて、画像中の文字部分を適切に識別することができる。   As a result, for example, even when the character color or the character size is not known in advance, the character part in the image can be appropriately identified based on the statistical distribution of the line segment width.

詳細には、上述したように、画像中に示される文字においては、文字の幅は、略一定の線分幅で構成される可能性が顕著に高いことに基づいているので、1つの文字部分が、複数の画素連結部分によって構成される文字部分を識別することが可能である。更に、文字部分を識別する際に、文字サイズを予め設定しておく必要を殆ど又は完全に無くすことが可能である。更に、背景部分から影響されるノイズの割合が大きくても、文字部分を適切に識別することが可能である。具体的には、例えば濁点など面積の小さな文字部分は、全ての画素連結部分を構成する画素の線分幅の出現頻度において、背景部分から影響されるノイズの割合が大きくても、文字部分を適切に識別することが可能である。   Specifically, as described above, in the characters shown in the image, the character width is based on the fact that the possibility of being configured with a substantially constant line segment width is remarkably high. However, it is possible to identify a character part constituted by a plurality of pixel connection parts. Furthermore, it is possible to eliminate almost or completely the need to preset the character size when identifying the character portion. Furthermore, even if the proportion of noise affected by the background portion is large, the character portion can be appropriately identified. Specifically, for example, a character portion with a small area such as a muddy point is displayed even if the ratio of noise affected by the background portion is large in the appearance frequency of the line segment width of the pixels constituting all the pixel connection portions. It is possible to identify appropriately.

本発明の画像処理装置に係る実施形態の一の態様では、前記識別手段は、前記統計的な分布として、前記検出された線分幅と、前記検出された線分幅の出現頻度との相関関係に基づいて、前記文字部分と、背景画像を示す背景部分とを識別する。   In one aspect of the embodiment of the image processing apparatus according to the present invention, the identification unit correlates the detected line segment width and the appearance frequency of the detected line segment width as the statistical distribution. Based on the relationship, the character portion and the background portion indicating the background image are identified.

この態様によれば、例えば、文字の色や、文字の大きさが、事前に分からない場合でも、線分幅と、線分幅の出現頻度との相関関係に基づいて、画像中の文字部分を高精度且つ適切に識別することができる。   According to this aspect, for example, even when the character color or the character size is not known in advance, the character portion in the image is based on the correlation between the line width and the appearance frequency of the line width. Can be accurately identified with high accuracy.

本発明の画像処理装置に係る実施形態の他の態様では、前記統計的な分布としての、前記線分幅の出現頻度を示す度数分布に基づいて、真の文字部分の線分幅である真線分幅を予測する予測手段を更に備え、前記識別手段は、前記予測された真線分幅と、複数の画素連結部分のうち一の画素連結部分における線分幅の出現頻度と、の比較に基づいて前記文字部分を識別する。   In another aspect of the embodiment of the image processing apparatus of the present invention, the true line segment width of the true character portion based on the frequency distribution indicating the appearance frequency of the line segment width as the statistical distribution. A predicting unit for predicting a line segment width, wherein the identifying unit compares the predicted true line segment width with the appearance frequency of the line segment width in one pixel connection part among a plurality of pixel connection parts; The character portion is identified based on

この態様によれば、例えば、文字の色や、文字の大きさが、事前に分からない場合でも、予測された真線分幅と、各画素連結部分における線分幅の出現頻度と、の比較に基づいて、画像中の文字部分を高精度且つ適切に識別することができる。   According to this aspect, for example, even when the character color or the character size is not known in advance, the predicted true line segment width is compared with the appearance frequency of the line segment width in each pixel connection portion. Based on the above, the character portion in the image can be accurately identified with high accuracy.

上述した予測手段に係る態様では、前記予測手段は、前記真線分幅として、複数の予測値を予測するようにしてよい。   In the aspect according to the prediction means described above, the prediction means may predict a plurality of prediction values as the true line segment width.

このように構成すれば、線分幅の予測値を複数個、持つことにより、例えば明朝体など縦線と横線の文字幅が大きく異なるような特殊な文字フォントに対しても、文字部分を精度良く識別することができる。この結果、文字の言語や、フォントを事前に予測できない場合であっても、文字部分を高精度且つ適切に識別することができる。   By configuring in this way, by having a plurality of predicted line segment widths, the character portion can be reduced even for special character fonts in which the vertical and horizontal character widths are significantly different, such as Mincho. It can be identified with high accuracy. As a result, even if the language of the character or the font cannot be predicted in advance, the character portion can be accurately identified with high accuracy.

上述した予測手段に係る態様では、前記識別手段は、前記一の画素連結部分における線分幅の出現頻度において、前記予測値の出現頻度の割合が所定閾値より大きい場合、前記一の画素連結部分を前記文字部分として識別するようにしてよい。   In the aspect which concerns on the prediction means mentioned above, the said identification means WHEREIN: When the ratio of the appearance frequency of the said predicted value is larger than a predetermined threshold in the appearance frequency of the line segment width in the said one pixel connection part, the said one pixel connection part May be identified as the character portion.

このように構成すれば、予測値の出現頻度の割合と、所定閾値との比較に基づいて、文字部分をより高精度に且つ適切に識別することができる。ここに、本発明に係る「所定閾値」とは、予測値の出現頻度の割合を把握可能な、例えば出現頻度や、出現頻度の分散や、数の多少や、規則性の度合い等の統計的な分布において、所望の文字部分が識別できるように、実験的、理論的、経験的、又はシミュレーション等によって、個別具体的に規定されてよい。   If comprised in this way, a character part can be identified more accurately and appropriately based on the comparison with the ratio of the appearance frequency of a predicted value, and a predetermined threshold value. Here, the “predetermined threshold value” according to the present invention is a statistical value such as the appearance frequency, the distribution of the appearance frequency, the number, the degree of regularity, etc. In such a distribution, it may be specifically defined by experiment, theoretical, empirical, simulation, or the like so that a desired character portion can be identified.

本発明の画像処理装置に係る実施形態の他の態様では、前記検出手段は、前記画素連結部分の縁の形状パターンによって規定される複数の輪郭パターンのうちいずれか一つと一致する画素である境界画素を始点又は終点として、前記線分幅を算出する算出手段を有する。   In another aspect of the embodiment of the image processing apparatus of the present invention, the detection means is a boundary that is a pixel that matches one of a plurality of contour patterns defined by a shape pattern of an edge of the pixel connection portion. Calculation means for calculating the line segment width using a pixel as a start point or an end point is provided.

この態様によれば、算出手段によって、境界画素を始点又は終点として、画素の数を単位として線分幅を計測しつつ、線分幅を高精度に算出することが可能である。   According to this aspect, the line width can be calculated with high accuracy by the calculation means while measuring the line width in units of the number of pixels with the boundary pixel as the start point or the end point.

上述した算出手段に係る態様では、前記算出手段は、前記複数の輪郭パターンの夫々に対応して規定された方向に沿って、前記線分幅を算出するようにしてよい。   In the aspect according to the calculation means described above, the calculation means may calculate the line segment width along a direction defined corresponding to each of the plurality of contour patterns.

このように構成すれば、算出手段によって、各輪郭パターンに対応して規定された各方向に沿って、画素の数を単位として線分幅を計測しつつ、線分幅をより高精度に算出することが可能である。   According to this configuration, the line width is calculated with higher accuracy while the line width is measured in units of the number of pixels along each direction defined corresponding to each contour pattern by the calculation means. Is possible.

本発明の画像処理装置に係る実施形態の他の態様では、前記画像を予め複数のクラスタに分割するクラスタ分割手段と、前記分割された複数のクラスタを、二値で表現可能な二値画像に夫々変換する変換手段とを更に備える。   In another aspect of the embodiment of the image processing apparatus of the present invention, a cluster dividing means for dividing the image into a plurality of clusters in advance, and the divided plurality of clusters into a binary image that can be expressed in binary. Conversion means for converting each is further provided.

この態様によれば、クラスタ分割手段によって、文字部分を含む一の画像が、輝度成分や色度などの属性や性質によって、複数のクラスタ(所謂、クラス画像や、クラスタ画像)に分割される。次に、変換手段によって、複数のクラスタが、二値で表現可能な二値画像に夫々変換される。従って、文字の色が事前に分からない場合でも、変換されたニ値画像によって、画像中の文字部分を高精度且つ適切に識別することができる。   According to this aspect, one image including a character portion is divided into a plurality of clusters (so-called class images and cluster images) by the cluster dividing means according to attributes and properties such as luminance components and chromaticity. Next, the plurality of clusters are converted into binary images that can be expressed in binary by the conversion means. Therefore, even when the color of the character is not known in advance, the character portion in the image can be accurately and appropriately identified by the converted binary image.

本発明の画像処理装置に係る実施形態の他の態様では、前記識別手段は、前記画素連結部分の縁の形状パターンによって規定される複数の輪郭パターンの出現頻度又は前記輪郭パターンの出現頻度の分散に基づいて、前記文字部分を識別する。   In another aspect of the embodiment of the image processing apparatus according to the present invention, the identification unit includes the appearance frequency of a plurality of contour patterns defined by the shape pattern of the edge of the pixel connection portion, or the distribution of the appearance frequencies of the contour patterns. The character portion is identified based on

この態様によれば、例えば、文字の色や、文字の大きさが、事前に分からない場合でも、輪郭パターンの出現頻度又は輪郭パターンの出現頻度の分散に基づいて、画像中の文字部分を高精度且つ適切に識別することができる。特に、出現頻度の分散と、所定閾値との比較によって、画像中の文字部分を識別してよい。ここに、本発明に係る「所定閾値」とは、例えば出現頻度等の統計的な分布において、所望の文字部分が識別できるように、実験的、理論的、経験的、又はシミュレーション等によって、個別具体的に規定されてよい。   According to this aspect, for example, even when the character color or the character size is not known in advance, the character portion in the image is increased based on the appearance frequency of the contour pattern or the distribution of the appearance frequency of the contour pattern. Accurate and appropriate identification is possible. In particular, the character portion in the image may be identified by comparing the appearance frequency variance with a predetermined threshold. Here, the “predetermined threshold value” according to the present invention is an individual value obtained by experimental, theoretical, empirical, simulation, or the like so that a desired character portion can be identified in a statistical distribution such as the appearance frequency. It may be specifically defined.

本発明の画像処理装置に係る実施形態の他の態様では、前記識別手段は、複数の画素連結部分における形状の規則性の度合いに基づいて、前記文字部分を識別する。   In another aspect of the embodiment of the image processing apparatus of the present invention, the identification unit identifies the character portion based on the degree of regularity of the shape in a plurality of pixel connection portions.

この態様によれば、例えば、文字の色や、文字の大きさが、事前に分からない場合でも、複数の画素連結部分における形状の規則性の度合いに基づいて、画像中の文字部分を高精度且つ適切に識別することができる。特に、複数の画素連結部分における形状の規則性の度合いと、所定閾値との比較によって、画像中の文字部分を識別してよい。ここに、本発明に係る「所定閾値」とは、例えば、複数の画素連結部分における形状の規則性の度合いを示す各種の統計的な分布において、所望の文字部分が識別できるように、実験的、理論的、経験的、又はシミュレーション等によって、個別具体的に規定されてよい。   According to this aspect, for example, even when the color of the character or the size of the character is not known in advance, the character portion in the image is highly accurate based on the degree of regularity of the shape in the plurality of pixel connection portions. And can be properly identified. In particular, the character portion in the image may be identified by comparing the degree of regularity of the shape in the plurality of pixel connection portions with a predetermined threshold value. Here, the “predetermined threshold value” according to the present invention is, for example, experimental so that a desired character portion can be identified in various statistical distributions indicating the degree of regularity of shapes in a plurality of pixel connection portions. It may be specified individually, theoretically, empirically, or by simulation.

本発明の画像処理装置に係る実施形態の他の態様では、前記識別手段は、複数の画素連結部分の数の多少に基づいて、前記文字部分を識別する。   In another aspect of the embodiment of the image processing apparatus of the present invention, the identifying means identifies the character portion based on the number of pixel connection portions.

この態様によれば、例えば、文字の色や、文字の大きさが、事前に分からない場合でも、複数の画素連結部分の数の多少に基づいて、画像中の文字部分を高精度且つ適切に識別することができる。特に、複数の画素連結部分の数と、所定閾値との比較によって、画像中の文字部分を識別してよい。ここに、本発明に係る「所定閾値」とは、複数の画素連結部分の数を示す各種の統計的な分布において、所望の文字部分が識別できるように、実験的、理論的、経験的、又はシミュレーション等によって、個別具体的に規定されてよい。   According to this aspect, for example, even when the color of the character or the size of the character is not known in advance, the character portion in the image is accurately and appropriately based on the number of the plurality of pixel connection portions. Can be identified. In particular, the character portion in the image may be identified by comparing the number of pixel connection portions with a predetermined threshold value. Here, the “predetermined threshold value” according to the present invention is an experimental, theoretical, empirical, or the like so that a desired character portion can be identified in various statistical distributions indicating the number of pixel connection portions. Alternatively, it may be specifically defined by simulation or the like.

本発明の画像処理装置に係る実施形態の他の態様では、前記識別手段は、複数の画素連結部分のうち一の画素連結部分の重心と、他の画素連結部分の重心との間における距離の大きさに基づいて、前記文字部分を識別する。   In another aspect of the embodiment of the image processing apparatus of the present invention, the identification unit is configured to calculate the distance between the center of gravity of one pixel connection portion and the center of gravity of another pixel connection portion among a plurality of pixel connection portions. The character portion is identified based on the size.

この態様によれば、例えば、文字の色や、文字の大きさが、事前に分からない場合でも、一の画素連結部分の重心と、他の画素連結部分の重心との間における距離の大きさに基づいて、画像中の文字部分を高精度且つ適切に識別することができる。特に、一の画素連結部分の重心と、他の画素連結部分の重心との間における距離と、所定閾値との比較によって、画像中の文字部分を識別してよい。ここに、本発明に係る「所定閾値」とは、一の画素連結部分の重心と、他の画素連結部分の重心との間における距離を示す各種の統計的な分布において、所望の文字部分が識別できるように、実験的、理論的、経験的、又はシミュレーション等によって、個別具体的に規定されてよい。   According to this aspect, for example, even when the character color or the character size is not known in advance, the size of the distance between the centroid of one pixel connection portion and the centroid of another pixel connection portion. Based on the above, the character portion in the image can be accurately identified with high accuracy. In particular, the character portion in the image may be identified by comparing the distance between the center of gravity of one pixel connection portion and the center of gravity of another pixel connection portion with a predetermined threshold. Here, the “predetermined threshold” according to the present invention refers to a desired character portion in various statistical distributions indicating the distance between the center of gravity of one pixel connection portion and the center of gravity of another pixel connection portion. In order to be able to be identified, it may be specifically defined by experiment, theoretical, empirical, simulation or the like.

本発明の画像処理装置に係る実施形態の他の態様では、前記識別手段は、前記文字部分として、複数の画素連結部分のうち1次的に1次的文字部分を識別すると共に、前記識別された1次的文字部分との属性又は性質の類似性に基づいて、2次的に2次的文字部分を更に識別する。   In another aspect of the embodiment of the image processing apparatus of the present invention, the identifying means primarily identifies a primary character portion among a plurality of pixel connection portions as the character portion, and identifies the character portion. The secondary character portion is further identified secondarily based on the similarity of the attribute or property with the primary character portion.

この態様によれば、文字部分の識別を、異なる識別手法である2段階の手法によって行なうことで、画像中の文字部分を高精度且つ適切に識別することができる。   According to this aspect, the character portion can be identified with high accuracy and appropriately by identifying the character portion by a two-stage method which is a different identification method.

(光学式の文字識別装置の実施形態)
以下、本発明の実施形態に係る光学式の文字識別装置について説明する。
(Embodiment of optical character recognition device)
Hereinafter, an optical character identification device according to an embodiment of the present invention will be described.

本発明の光学式の文字識別装置に係る実施形態は、画像の平面上で、文字を示す文字部分を含む複数の画素が連結される画素連結部分の線分幅を光学的に検出する検出手段と、前記検出された線分幅の統計的な分布に基づいて、前記文字部分を識別する識別手段とを備える。   An embodiment of the optical character identification device according to the present invention is a detection means for optically detecting a line segment width of a pixel connection portion where a plurality of pixels including a character portion indicating a character are connected on a plane of an image. And identification means for identifying the character portion based on a statistical distribution of the detected line segment width.

本発明の光学式の文字識別装置に係る実施形態によれば、先ず、検出手段によって、画像の平面上で、文字を示す文字部分を含む複数の画素が連結される画素連結部分の線分幅が光学的に検出される。   According to the embodiment of the optical character identification device of the present invention, first, the line width of the pixel connection portion where a plurality of pixels including the character portion indicating the character are connected on the plane of the image by the detection means. Are detected optically.

次に、識別手段によって、検出された線分幅の統計的な分布に基づいて、文字部分が画像から識別される。   Next, the character portion is identified from the image by the identifying means based on the statistical distribution of the detected line segment width.

この結果、光学式の文字識別装置において、例えば、文字の色や、文字の大きさが、事前に分からない場合でも、線分幅の統計的な分布に基づいて、画像中の文字部分を適切に識別することができる。   As a result, in the optical character identification device, for example, even if the character color or the character size is not known in advance, the character part in the image is appropriately determined based on the statistical distribution of the line segment width. Can be identified.

(画像処理方法の実施形態)
以下、本発明の実施形態に係る画像処理方法について説明する。
(Embodiment of Image Processing Method)
Hereinafter, an image processing method according to an embodiment of the present invention will be described.

本発明の画像処理方法に係る実施形態は、画像の平面上で、文字を示す文字部分を含む複数の画素が連結される画素連結部分の線分幅を検出する検出工程と、前記検出された線分幅の統計的な分布に基づいて、前記文字部分を識別する識別工程とを備える。   According to an embodiment of the image processing method of the present invention, a detection step of detecting a line segment width of a pixel connection portion where a plurality of pixels including a character portion indicating a character are connected on the plane of the image, and the detected An identification step of identifying the character portion based on a statistical distribution of line segment widths.

本発明の画像処理方法に係る実施形態によれば、上述した本発明の画像処理装置に係る実施形態が有する各種利益を享受することが可能となる。   According to the embodiment of the image processing method of the present invention, it is possible to receive various benefits of the above-described embodiment of the image processing apparatus of the present invention.

尚、上述した本発明の画像処理装置に係る実施形態が有する各種態様に対応して、本発明の画像処理方法に係る実施形態も各種態様を採ることが可能である。   Incidentally, in response to the various aspects of the embodiment of the image processing apparatus of the present invention described above, the embodiment of the image processing method of the present invention can also adopt various aspects.

(光学式の文字識別方法の実施形態)
以下、本発明の実施形態に係る光学式の文字識別方法について説明する。
(Embodiment of optical character identification method)
Hereinafter, an optical character identification method according to an embodiment of the present invention will be described.

本発明の光学式の文字識別方法に係る実施形態は、画像の平面上で、文字を示す文字部分を含む複数の画素が連結される画素連結部分の線分幅を光学的に検出する検出工程と、前記検出された線分幅の統計的な分布に基づいて、前記文字部分を識別する識別工程とを備える。   An embodiment of the optical character identification method according to the present invention includes a detection step of optically detecting a line width of a pixel connection portion where a plurality of pixels including a character portion indicating a character are connected on a plane of an image. And an identification step for identifying the character portion based on a statistical distribution of the detected line segment width.

本発明の光学式の文字識別方法に係る実施形態によれば、上述した本発明の光学式の文字識別装置に係る実施形態が有する各種利益を享受することが可能となる。   According to the embodiment of the optical character identification method of the present invention, it is possible to receive various benefits of the above-described embodiment of the optical character identification device of the present invention.

尚、上述した本発明の光学式の文字識別装置に係る実施形態が有する各種態様に対応して、本発明の光学式の文字識別方法に係る実施形態も各種態様を採ることが可能である。   Incidentally, in response to the various aspects of the embodiment of the optical character identification device of the present invention described above, the embodiment of the optical character identification method of the present invention can also adopt various aspects.

本実施形態のこのような作用及び他の利得は次に説明する実施例から明らかにされる。   Such an operation and other advantages of the present embodiment will be clarified from examples described below.

以上説明したように、本発明の画像処理装置及び方法に係る実施形態によれば、検出手段及び工程、並びに識別手段及び工程を備える。この結果、例えば、文字の色や、文字の大きさが、事前に分からない場合でも、線分幅の統計的な分布に基づいて、画像中の文字部分を適切に識別することができる。   As described above, according to the embodiment of the image processing apparatus and method of the present invention, the detection unit and the process, and the identification unit and the process are provided. As a result, for example, even when the character color or the character size is not known in advance, the character part in the image can be appropriately identified based on the statistical distribution of the line segment width.

以上説明したように、本発明の光学式の文字識別装置及び方法に係る実施形態によれば、検出手段及び工程、並びに識別手段及び工程を備える。この結果、光学式の文字識別装置において、例えば、文字の色や、文字の大きさが、事前に分からない場合でも、線分幅の統計的な分布に基づいて、画像中の文字部分を適切に識別することができる。   As described above, according to the embodiment of the optical character identification device and method of the present invention, the detection unit and the process, and the identification unit and the process are provided. As a result, in the optical character identification device, for example, even if the character color or the character size is not known in advance, the character part in the image is appropriately determined based on the statistical distribution of the line segment width. Can be identified.

本実施例に係る、画像処理装置100の基本構成を示したブロック図である。It is the block diagram which showed the basic composition of the image processing apparatus 100 based on a present Example. 本実施例に係る、画像処理の対象となる画像内で示された文字の幅を図式的に示した模式図である。It is the schematic diagram which showed typically the width | variety of the character shown in the image used as the object of an image processing based on a present Example. 本実施例に係る、画像処理装置による、全体的な画像処理の一連の流れを示したフローチャートである。3 is a flowchart illustrating a series of overall image processing performed by the image processing apparatus according to the present exemplary embodiment. 本実施例に係る、画像処理の対象となる画像がクラスタリングされた後、生成された複数のクラス画像を図式的に示した模式図である。It is the schematic diagram which showed typically the several class image produced | generated after clustering the image used as the object of an image processing based on a present Example. 本実施例に係る画素と、パーツIDとの関係を図式的に示した模式図である。It is the schematic diagram which showed typically the relationship between the pixel which concerns on a present Example, and part ID. 本実施例に係る、輪郭ユニットにおける黒画素の位置、及び白画素の位置を図式的に示した模式図である。It is the schematic diagram which showed typically the position of the black pixel in the outline unit, and the position of a white pixel based on a present Example. 本実施例に係る、輪郭ユニットIDが付与された境界画素を開始点とし、そのエッジ方向に連続する黒画素の数を計測する様子を、図式的に示した模式図である。It is the schematic diagram which showed typically a mode that the boundary pixel to which the outline unit ID was provided based on a present Example was started, and the number of the black pixels continuous in the edge direction was measured. 本実施例に係る、出現頻度が高いヒストグラムの要素を選択する場合における、全パーツを対象とした線分幅の出現頻度を示す度数分布を示した一及び他のグラフ(図8(a)及び図8(b))である。One and other graphs (FIG. 8 (a) and FIG. 8A) showing the frequency distribution indicating the frequency of appearance of the line segment width for all parts when selecting an element of a histogram having a high frequency of appearance according to the present embodiment. FIG. 8B). 本実施例に係る、元のクラス画像から抽出された全パーツを構成する画素群の線分幅の出現頻度を示す度数分布(図9(a))、真の文字パーツを構成する画素群の線分幅の出現頻度を示す度数分布(図9(b))、及び、背景パーツを構成する線分幅の出現頻度を示す度数分布(図9(c))である。According to the present embodiment, a frequency distribution (FIG. 9A) showing the frequency of appearance of the line width of the pixel group constituting all parts extracted from the original class image, the pixel group constituting the true character part The frequency distribution (FIG. 9B) showing the appearance frequency of the line width and the frequency distribution (FIG. 9C) showing the appearance frequency of the line width constituting the background part. 本実施例に係る、背景パーツから文字パーツ候補への変更を図式的に示した模式図である。It is the schematic diagram which showed typically the change from a background part to a character part candidate based on a present Example. 本実施例に係る、全てのクラス画像から文字画像が生成される様子を図式的に示した模式図である。It is the schematic diagram which showed typically a mode that the character image was produced | generated from all the class images based on a present Example. 比較例に係る、文字部分が抽出される様子を図式的に示した一及び他の模式図(図12(a)及び図12(b))である。It is the one and other schematic diagram (Drawing 12 (a) and Drawing 12 (b)) which showed a mode that a character portion concerning a comparative example was extracted. 第2実施例に係る、全てのクラス画像から文字画像が生成される様子を図式的に示した模式図である。It is the schematic diagram which showed typically a mode that the character image was produced | generated from all the class images based on 2nd Example. 第3実施例に係る、全てのクラス画像から文字画像が生成される様子を図式的に示した模式図である。It is the schematic diagram which showed typically a mode that the character image was produced | generated from all the class images based on 3rd Example.

符号の説明Explanation of symbols

100 画像処理装置
110 文字領域抽出手段
120 画素クラスタリング手段
130 クラス画像作成手段
140 文字選別手段
141 パーツ抽出手段
142 パーツ線分幅算出手段
143 文字パーツ線分幅予測手段
144 文字パーツ候補選別手段
145 文字パーツ決定手段
150 文字画像生成手段
160 文字認識手段
DESCRIPTION OF SYMBOLS 100 Image processing apparatus 110 Character area extraction means 120 Pixel clustering means 130 Class image creation means 140 Character selection means 141 Parts extraction means 142 Parts line segment width calculation means 143 Character parts line segment width prediction means 144 Character parts candidate selection means 145 Character parts Determination means 150 Character image generation means 160 Character recognition means

以下、本発明の実施例を図面に基づいて説明する。   Embodiments of the present invention will be described below with reference to the drawings.

(画像処理装置の実施例)
図1から図11を参照して、本発明に係る画像処理装置の実施例について説明する。
(Example of image processing apparatus)
An embodiment of an image processing apparatus according to the present invention will be described with reference to FIGS.

(1) 基本構成
先ず、図1を参照して、本実施例に係る画像処理装置100の基本構成について説明する。ここに、図1は、本実施例に係る、画像処理装置100の基本構成を示したブロック図である。
(1) Basic Configuration First, the basic configuration of the image processing apparatus 100 according to the present embodiment will be described with reference to FIG. FIG. 1 is a block diagram illustrating the basic configuration of the image processing apparatus 100 according to the present embodiment.

図1に示されるように、本実施例に係る画像処理装置100は、文字領域抽出手段110、画素クラスタリング手段120、クラス画像作成手段130、文字選別手段140、文字画像生成手段150、及び、文字認識手段160を備えて構成されている。また、文字選別手段140は、パーツ抽出手段141、パーツ線分幅算出手段142、文字パーツ線分幅予測手段143、文字パーツ候補選別手段144、及び、文字パーツ決定手段145を備えて構成されている。尚、本発明に係る「検出手段」の一具体例が、パーツ線分幅算出手段142によって構成されている。また、本発明に係る「識別手段」の一具体例が、文字パーツ候補選別手段144によって構成されている。また、本発明に係る「クラスタ分割手段」の一具体例が、画素クラスタリング手段120によって構成されている。また、本発明に係る「変換手段」の一具体例が、クラス画像作成手段130によって構成されている。   As shown in FIG. 1, the image processing apparatus 100 according to the present embodiment includes a character area extraction unit 110, a pixel clustering unit 120, a class image creation unit 130, a character selection unit 140, a character image generation unit 150, and a character. Recognizing means 160 is provided. The character selection unit 140 includes a part extraction unit 141, a part line segment width calculation unit 142, a character part line segment width prediction unit 143, a character part candidate selection unit 144, and a character part determination unit 145. Yes. A specific example of the “detecting means” according to the present invention is constituted by the part line segment width calculating means 142. A specific example of the “identifying means” according to the present invention is configured by the character part candidate selecting means 144. A specific example of the “cluster dividing unit” according to the present invention is configured by the pixel clustering unit 120. A specific example of the “conversion unit” according to the present invention is configured by the class image creation unit 130.

(2) 動作原理 − 全体的な画像処理 −
次に、図2及び図3を参照して、本実施例に係る、画像処理装置100の動作原理として、例えばカラー画像等の画像から文字部分(即ち、文字パーツ)を抽出し、画像から文字部分(即ち、文字パーツ)を認識するための画像処理の一連の流れについて説明する。ここに、図2は、本実施例に係る、画像処理の対象となる画像内で示された文字の幅を図式的に示した模式図である。図3は、本実施例に係る、画像処理装置による、全体的な画像処理の一連の流れを示したフローチャートである。
(2) Operating principle-Overall image processing-
Next, referring to FIG. 2 and FIG. 3, as an operation principle of the image processing apparatus 100 according to the present embodiment, for example, a character portion (that is, a character part) is extracted from an image such as a color image, and the character is extracted from the image. A series of flow of image processing for recognizing a part (that is, a character part) will be described. FIG. 2 is a schematic diagram schematically showing the width of characters shown in an image to be subjected to image processing according to the present embodiment. FIG. 3 is a flowchart illustrating a series of overall image processing performed by the image processing apparatus according to the present exemplary embodiment.

本実施例に係る画像処理の概要としては、先ず、文字を示す文字部分(即ち、文字パーツ)を含む、例えばカラー画像等の画像を構成する画素を輝度成分などの属性によって、グループ分けし、グループ毎に、画素連結領域、即ち、パーツが抽出される。ここに、本実施例に係る「画素連結領域」とは、例えば「0b(但し、「b」はbinaryを意味する)」と「1b」等のニ値の識別情報によって画素が規定されたニ値画像において、一の画素に隣接している他の画素の識別情報が、例えば黒色(1b)であるなど同一であれば連結し、識別情報が異なれば連結しないことによって形成される、連結された画素の集合となる画像領域を意味する。次に、抽出されたパーツの線分幅を検出し、その線分幅の出現頻度を示す度数分布に基づいて、文字らしさ(即ち、文字とみなすことができる度合い)を判断することが可能である。何故ならば、図2に示されるように、画像中に示される文字においては、文字の幅は、略一定の線分幅で構成される可能性が顕著に高いからである。これにより、文字の色や、文字の大きさが、事前に分からない場合でも、線分幅の出現頻度を示す度数分布に基づいて、画像から文字部分を適切に抽出することができる。   As an overview of the image processing according to the present embodiment, first, the pixels constituting the image such as a color image including a character portion (that is, a character part) indicating a character are grouped according to an attribute such as a luminance component, and the like. For each group, a pixel connection area, that is, a part is extracted. Here, the “pixel connection region” according to the present embodiment is, for example, a pixel in which pixels are defined by binary identification information such as “0b (where“ b ”means binary”) and “1b”. In the value image, connected if the identification information of other pixels adjacent to one pixel is the same, such as black (1b), for example, and connected if the identification information is different. This means an image area that is a set of pixels. Next, it is possible to detect the line width of the extracted part and determine the characterity (that is, the degree that can be regarded as a character) based on the frequency distribution indicating the appearance frequency of the line width. is there. This is because, as shown in FIG. 2, in the character shown in the image, the possibility that the character width is constituted by a substantially constant line segment width is remarkably high. Thereby, even when the character color or the character size is not known in advance, the character part can be appropriately extracted from the image based on the frequency distribution indicating the appearance frequency of the line segment width.

次に、図3を参照して、画像から文字部分を抽出し、画像から文字部分を認識するための全体的な画像処理の一連の流れについて概観する。   Next, referring to FIG. 3, an outline of a series of overall image processing steps for extracting a character part from an image and recognizing the character part from the image will be outlined.

図3に示されるように、先ず、画像処理装置100に、文字部分を含むカラー画像等の画像が入力される(ステップS10)。尚、カラー画像の属性や性質については各種の態様をとってよい。具体的には、カラー画像の大きさや、カラー画像を構成するためのフォーマットや、例えばJPEG、GIF等の圧縮形式などは、各種の態様をとってよい。また入力されるカラー画像は静止画に限らず、テレビ映像のような動画であっても良い。   As shown in FIG. 3, first, an image such as a color image including a character portion is input to the image processing apparatus 100 (step S10). The color image attributes and properties may take various forms. Specifically, the size of the color image, the format for constructing the color image, and the compression format such as JPEG and GIF may take various forms. The input color image is not limited to a still image, and may be a moving image such as a television image.

次に、文字領域抽出手段110によって、入力されたカラー画像から、大まかな文字領域が抽出される(ステップS20)。ここに、本実施例に係る「文字領域」とは、画像において文字部分を包含することが可能な画像領域の一部分を意味する。尚、特に明記しない限り、この「文字領域」を単に画像と称し、後段の処理ステップはこの「文字領域」のみに対して行うものとする。   Next, a rough character region is extracted from the input color image by the character region extracting means 110 (step S20). Here, the “character area” according to the present embodiment means a part of an image area that can include a character part in an image. Unless otherwise specified, this “character area” is simply referred to as an image, and the subsequent processing steps are performed only on this “character area”.

次に、画素クラスタリング手段120によって、画像を構成する画素を、その輝度成分によりグループ(即ち、クラス又はクラスタ)にグループ分けする(所謂、クラスタリングする)(ステップ30)。ここでクラスの数は2つ以上とし、上限は無い。尚、クラスタリングは画素の輝度成分に限らず、例えば色成分で行って良い。   Next, the pixels constituting the image are grouped into groups (that is, classes or clusters) by the luminance component by the pixel clustering means 120 (so-called clustering) (step 30). Here, the number of classes is two or more, and there is no upper limit. Note that the clustering is not limited to the luminance component of the pixel, and may be performed using, for example, a color component.

クラスタリングが行われた後、クラス画像作成手段130によって、元の画像処理前の画像をクラス毎に分解して、クラス毎に二値画像(以下、適宜「クラス画像」と称す)が生成される。ここに、本実施例に係る「二値画像」とは、画像を構成する画素が、例えば白色(例えば「0b」:但し「b」はビットを示す添え字を意味する)及び黒色(例えば「1b」)などの2つの識別情報のうちいずれか一方で示される画像を意味する。尚、以降のステップS40からステップS80までの画像処理は、このクラス画像ごとに独立して行われてよい。   After the clustering is performed, the class image creation means 130 decomposes the original unprocessed image for each class and generates a binary image (hereinafter referred to as “class image” as appropriate) for each class. . Here, the “binary image” according to the present embodiment means that the pixels constituting the image are, for example, white (for example, “0b”: where “b” means a subscript indicating a bit) and black (for example, “ 1b ") means an image shown in one of two pieces of identification information. The subsequent image processing from step S40 to step S80 may be performed independently for each class image.

次に、文字選別手段140に有されるパーツ抽出手段141によって、クラス画像から、画素連結領域(以下、適宜「パーツ」と称す)が抽出される(ステップS40)。   Next, a pixel connection area (hereinafter referred to as “parts” as appropriate) is extracted from the class image by the part extraction unit 141 included in the character selection unit 140 (step S40).

次に、パーツ線分幅算出手段142によって、抽出された、複数のパーツの線分幅が夫々算出される(ステップS50)。尚、このステップS50は、後述されるようにステップS51、ステップS52、及びステップS53によって構成されている。   Next, the extracted line segment widths of the parts are calculated by the part line segment width calculating unit 142 (step S50). In addition, this step S50 is comprised by step S51, step S52, and step S53 so that it may mention later.

次に、文字パーツ線分幅予測手段143によって、算出された複数のパーツにおける、全ての線分幅によって、当該線分幅の出現頻度を示す度数分布(所謂、ヒストグラム)が生成され、画像に含まれる文字部分である文字パーツの線分幅が予測される(ステップS60)。   Next, the frequency distribution (so-called histogram) indicating the frequency of appearance of the line segment width is generated by the character part line segment width predicting unit 143 based on all the line segment widths in the calculated plurality of parts, and is displayed on the image. The line width of the character part that is the included character part is predicted (step S60).

次に、文字パーツ候補選別手段144によって、この予測された文字パーツの線分幅と、各パーツ毎に生成された、各パーツ毎の線分幅の出現頻度を示す度数分布とを比較し、複数のパーツを、候補となる文字パーツと、真の背景パーツとして相対的に高い確率で推定可能である、候補となる背景パーツとに選別する(ステップS70)。尚、ここに、本実施例に係る「候補となる文字パーツ」とは、真の文字パーツとして相対的に高い確率で推定可能である、文字パーツを意味し、以下、適宜「文字パーツ候補」と称する。また、本実施例に係る「候補となる背景パーツ」とは、真の背景パーツとして相対的に高い確率で推定可能である、背景パーツを意味し、以下、適宜「背景パーツ候補」と称す。   Next, the character part candidate selecting means 144 compares the predicted line width of the character part with the frequency distribution generated for each part and indicating the frequency of appearance of the line width for each part, A plurality of parts are selected as candidate character parts and candidate background parts that can be estimated with a relatively high probability as true background parts (step S70). Here, “candidate character parts” according to the present embodiment means character parts that can be estimated with a relatively high probability as true character parts. Called. Further, the “candidate background part” according to the present embodiment means a background part that can be estimated with a relatively high probability as a true background part, and is hereinafter referred to as a “background part candidate” as appropriate.

次に、文字パーツ決定手段145によって、複数の背景パーツ候補のうち、文字パーツ候補に変更した方が好ましいもの(言い換えると「格上げ」すべきもの)が再度選ばれ、真の文字パーツとして相対的により高い確率で推定可能なパーツが最終的に決定される(ステップS80)。特に、背景パーツ候補から文字パーツ候補への変更は、背景パーツ候補の輝度と、文字パーツ候補の輝度との類似性の度合いに基づいて行われてよい。或いは、各パーツ毎における重心の位置を比較して、各パーツ毎の重心の位置の距離が大きさに基づいて行われてよい。   Next, the character part determining unit 145 again selects a plurality of background part candidates that are preferably changed to the character part candidates (in other words, those that should be “upgraded”), and the relative character is selected as a true character part. Parts that can be estimated with high probability are finally determined (step S80). In particular, the change from the background part candidate to the character part candidate may be performed based on the degree of similarity between the brightness of the background part candidate and the brightness of the character part candidate. Alternatively, the position of the center of gravity for each part may be compared, and the distance of the position of the center of gravity for each part may be determined based on the size.

次に、文字画像生成手段150によって、各クラス画像で決定された文字パーツを全て重ね合わせ、文字画像が生成される(ステップS90)。ここに、本実施例に係る「文字画像」とは、文字パーツを構成する画素を黒色で表示し、文字パーツを構成しない画素を白色で表示した二値画像を意味してよい。   Next, the character image generator 150 generates a character image by superimposing all the character parts determined in each class image (step S90). Here, the “character image” according to the present embodiment may mean a binary image in which pixels constituting the character part are displayed in black and pixels not constituting the character part are displayed in white.

次に、文字認識手段160によって、生成された文字画像がOCR(Optical Character Recognition)装置に入力され、文字認識が行われる(ステップS100)。   Next, the character recognition unit 160 inputs the generated character image into an OCR (Optical Character Recognition) device, and character recognition is performed (step S100).

(3) 動作原理 − 画像処理の詳細 −
次に、図4から図11に加えて、上述した図3を適宜参照して、本実施例に係る、画像処理装置100の動作原理として、カラー画像から文字部分(即ち、文字パーツ)を抽出し、画像から文字部分(即ち、文字パーツ)を認識するための画像処理を構成する各処理の詳細について説明する。
(3) Principle of operation-Details of image processing-
Next, referring to FIG. 3 described above as appropriate in addition to FIGS. 4 to 11, a character portion (that is, a character part) is extracted from a color image as an operation principle of the image processing apparatus 100 according to the present embodiment. The details of each process constituting the image process for recognizing the character portion (ie, the character part) from the image will be described.

(3a) 第1処理群(ステップS10からS30まで)
先ず、図4に加えて、上述した図3を適宜参照して、本実施例に係る、画像処理装置100における、元のカラー画像の入力から、グループ分け(所謂、クラスタリング)までの画像処理であるステップS10からS30までの前半処理について説明する。ここに、図4は、本実施例に係る、画像処理の対象となる画像がクラスタリングされた後、生成された複数のクラス画像を図式的に示した模式図である。
(3a) 1st process group (from step S10 to S30)
First, referring to FIG. 3 described above as appropriate in addition to FIG. 4, the image processing apparatus 100 according to the present embodiment performs image processing from input of an original color image to grouping (so-called clustering). The first half process from a certain step S10 to S30 will be described. FIG. 4 is a schematic diagram schematically showing a plurality of class images generated after the images to be subjected to image processing are clustered according to the present embodiment.

(ステップS10:画像の入力)
上述した図3に示されるように、先ず、画像処理装置100に、文字部分を含むカラー画像等の画像が入力される(ステップ10)。詳細には、画像処理装置100に、一般的なカラー画像が入力され、入力されたカラー画像が、例えばメモリ等の記憶手段や蓄積手段(図示せず)に保存してよい。カラー画像の大きさや圧縮形式は特に問わないが、JPEGなどの圧縮画像であればデコード後、以下のステップS20からS100までの各種の処理を行なう。また入力された画像は静止画に限らず、テレビ映像のような動画像であっても良い。
(Step S10: Image input)
As shown in FIG. 3 described above, first, an image such as a color image including a character portion is input to the image processing apparatus 100 (step 10). Specifically, a general color image may be input to the image processing apparatus 100, and the input color image may be stored in storage means such as a memory or storage means (not shown), for example. The size and compression format of the color image are not particularly limited. If the image is a compressed image such as JPEG, the following various processes from step S20 to S100 are performed after decoding. The input image is not limited to a still image, and may be a moving image such as a television image.

(ステップS20:文字領域の抽出)
次に、文字領域抽出手段110によって、入力されたカラー画像から、大まかな(おおよその)文字領域が抽出される(ステップ20)。詳細には、画像内の文字部分は、通常エッジ(即ち、画像の高周波成分)が多く含まれているため、エッジ分布度に基づいて、大まかな文字領域を抽出してよい。また文字は、単色または数色で構成されることも多いため、類似している輝度の画素が密集している度合いに基づいて、大まかな文字領域を抽出しても良い。これらの抽出の手法は公知の技術として知られている。対象が静止画ではなくTV映像などの動画像である場合、文字部分は画面内の同じ位置に数秒間表示され続ける性質があるため、先行技術「放送番組内容メニュー作成装置及び方法」(特開2004-364234)のように、各フレームのエッジ抽出結果を時間方向に観測して文字領域を抽出して良い。尚、特に明記しない限り、この「文字領域」を単に画像と称し、後段の処理ステップはこの「文字領域」のみに対して行うものとする。
(Step S20: Extraction of character area)
Next, a rough (approximate) character region is extracted from the input color image by the character region extraction means 110 (step 20). Specifically, since a character portion in an image usually includes many edges (that is, high-frequency components of the image), a rough character region may be extracted based on the edge distribution degree. In addition, since a character is often composed of a single color or several colors, a rough character region may be extracted based on the degree of density of pixels having similar luminance. These extraction methods are known as known techniques. When the target is not a still image but a moving image such as a TV video, the character portion has the property of being continuously displayed for several seconds at the same position in the screen. As in 2004-364234), the character region may be extracted by observing the edge extraction result of each frame in the time direction. Unless otherwise specified, this “character area” is simply referred to as an image, and the subsequent processing steps are performed only on this “character area”.

(ステップS30:輝度成分による画素のクラスタリング)
次に、画素クラスタリング手段120によって、画像を構成する画素を、その輝度成分によりグループ(クラス)にグループ分けする(所謂、クラスタリングする)(ステップ30)。詳細には、画像を構成する画素を輝度成分によりクラスタリングし、複数のクラスに分類する。分類するクラス数は最低で2クラスとし、上限は特に規定しない。しかしながら、あまりクラス数が多い場合、画像処理の負荷が大きくなるので、好ましくは3〜5クラスに設定してよい。画素のクラスタリングの手法は公知であり、判別分析法(大津、”判別および最小2乗基準に基づく自動しきい値選定法”, 信学論, vol.63-D, no.4, pp.349-356, 1980)によるものや、周囲画素に応じて動的に行うもの(塩、”情景中文字の検出のための動的2値化処理法”, 信学論D, vol.J71-D, no.5, pp.863-873, 1988)などを参照されたし。画素のクラスタリングは、輝度成分に加えて又は代えて、例えば色成分に基づいて行って良い。クラスタリングの後は、図4に示されるように、各クラスに属する複数の画素のうち一部の画素を黒色(例えば「1b」)として表示させ、複数の画素のうち他部の画素を白色(例えば「0b」)として表示した二値画像を、クラスの数だけ作成してよい。尚、以降は説明を簡略化させるため、クラスID(クラス識別番号)が「N(但し「N」は自然数)」である二値画像を、「クラスN画像」と称する。またクラスIDを明記する必要が無い場合、単に「クラス画像」と称す。具体的には、図4の上側部に示される、例えば黒色、白色、及び灰色によって構成される元の画像から3つのクラス画像が作成される。即ち、3つのクラス画像とは、図4の下左側部に示されたクラスIDが「1」である「クラス1画像」、図4の下中央部に示されたクラスIDが「2」であると共に、白抜きの文字部分を有する「クラス2画像」、及び、図4の下右側部に示されたクラスIDが「3」であると共に、黒塗りの文字部分を有する「クラス3画像」である。
(Step S30: Pixel Clustering by Luminance Component)
Next, the pixel clustering means 120 groups the pixels constituting the image into groups (classes) based on the luminance components (so-called clustering) (step 30). Specifically, the pixels constituting the image are clustered by luminance components and classified into a plurality of classes. The number of classes to be classified is at least 2 classes, and no upper limit is specified. However, when the number of classes is too large, the load of image processing increases, so 3 to 5 classes may be preferably set. The pixel clustering method is well known, and the discriminant analysis method (Otsu, “Automatic threshold selection method based on discriminant and least square criterion”, Theory of Science, vol.63-D, no.4, pp.349 -356, 1980) or dynamically depending on surrounding pixels (salt, “dynamic binarization method for detecting characters in a scene”, IEICE D, vol.J71-D , no.5, pp.863-873, 1988). Pixel clustering may be performed based on, for example, color components in addition to or instead of luminance components. After clustering, as shown in FIG. 4, some of the plurality of pixels belonging to each class are displayed as black (for example, “1b”), and the other pixels among the plurality of pixels are white ( For example, binary images displayed as “0b”) may be created for the number of classes. Hereinafter, in order to simplify the description, a binary image whose class ID (class identification number) is “N (where“ N ”is a natural number)” is referred to as a “class N image”. When there is no need to specify the class ID, it is simply referred to as “class image”. Specifically, three class images are created from the original image shown in the upper part of FIG. 4, for example, composed of black, white, and gray. That is, the three class images are a “class 1 image” whose class ID is “1” shown in the lower left part of FIG. 4 and a class ID which is “2” in the lower center part of FIG. In addition, a “class 2 image” having a white character portion, and a “class 3 image” having a class ID “3” shown in the lower right part of FIG. 4 and a black character portion. It is.

尚、以降のステップS40からステップS80までの画像処理は、これらニ値画像であるクラス画像ごとに独立して行われてよい。   The subsequent image processing from step S40 to step S80 may be performed independently for each class image that is a binary image.

(3b) 第2処理群 (ステップS40及びS50)
次に、図5から図7に加えて、上述した図3を適宜参照して、本実施例に係る、画像処理装置100における、パーツの抽出から、パーツの線分幅の算出までの画像処理であるステップS40及びS50の中盤処理について説明する。ここに、図5は、本実施例に係る画素と、パーツIDとの関係を図式的に示した模式図である。図6は、本実施例に係る、輪郭ユニットにおける黒画素の位置、及び白画素の位置を図式的に示した模式図である。
(3b) Second processing group (Steps S40 and S50)
Next, referring to FIG. 3 described above as appropriate in addition to FIG. 5 to FIG. 7, image processing from part extraction to part line width calculation in the image processing apparatus 100 according to the present embodiment. The middle process of steps S40 and S50 will be described. FIG. 5 is a schematic diagram schematically showing the relationship between the pixel according to the present embodiment and the part ID. FIG. 6 is a schematic diagram schematically showing the positions of black pixels and white pixels in the contour unit according to the present embodiment.

(3b−1: パーツの抽出 : ステップS40)
先ず、上述の図3に示されるように、文字選別手段140に有されるパーツ抽出手段141によって、クラス画像から、画素連結領域(以下、適宜「パーツ」と称す)が抽出される(ステップS40)。詳細には、クラス画像における黒色を示す画素(以下、適宜「黒画素」と称す)のパーツが抽出される。例えば図5に示したクラス画像においては、11個のパーツが抽出される。具体的には、図5中のクラス画像において示された文字である「森林公園」から、漢字の部首又は部首の一部に対応して11個のパーツが抽出される。黒画素の連結条件は、例えば基準となる黒画素に隣接する上下左右に位置する黒画素を連結させる4連結方式であってよい。或いは、黒画素の連結条件は、基準となる黒画素に隣接する上下左右に加えて斜めに位置する黒画素を連結させる8連結方式であってよい。パーツが抽出されたら、各画素毎にパーツIDが付与される、このデータを記憶手段(図示せず)に保存する。ここに、本実施例に係る「パーツID」とは、各画素に対して、各画素が属するパーツを一意に対応付けることが可能な識別番号を意味する。
(3b-1: Part extraction: Step S40)
First, as shown in FIG. 3 described above, the part extraction unit 141 included in the character selection unit 140 extracts a pixel connection region (hereinafter referred to as “part” as appropriate) from the class image (step S40). ). Specifically, a part of a pixel indicating black in the class image (hereinafter referred to as “black pixel” as appropriate) is extracted. For example, in the class image shown in FIG. 5, 11 parts are extracted. Specifically, eleven parts corresponding to the radical or part of the radical of the Chinese character are extracted from the “forest park” which is the character shown in the class image in FIG. The black pixel connection condition may be, for example, a four-connection method in which black pixels located on the top, bottom, left, and right adjacent to a reference black pixel are connected. Alternatively, the black pixel connection condition may be an eight connection method in which black pixels located obliquely in addition to the upper, lower, left, and right adjacent to the reference black pixel are connected. When a part is extracted, a part ID is assigned to each pixel, and this data is stored in a storage means (not shown). Here, “part ID” according to the present embodiment means an identification number that can uniquely associate each pixel with a part to which each pixel belongs.

具体的には、図5を参照して、例えばクラス画像において、「森林公園」という文字が示されている場合において、「森」の文字部分に着目して、画素とパーツIDとの関係について説明する。図5の上側部分に示された、文字部分である「森」に含まれる、3つの文字部分である「木」の周辺の画素を拡大すると、図5の下側部分に示された「8×8」の画素に示されるように、パーツIDが付与される。即ち、「8×8」の画素中において、左下隅に位置する画素をX軸及びY軸において、画素(1、1)として定義すると、画素(4、7)、画素(4、8)、画素(5、7)、及び画素(5、8)である4つの画素は、文字部分「森」中の上側の文字部分「木」のパーツIDである「1」が夫々付与される。概ね同様にして、画素(1、2)、画素(2、2)、画素(3、2)、画素(1、3)、画素(2、3)、画素(3、3)、である6つの画素は、文字部分「森」中の左下側の文字部分「木」のパーツIDである「2」が夫々付与される。概ね同様にして、画素(6、2)、画素(7、2)、画素(8、2)、画素(6、3)、画素(7、3)、画素(8、3)、である6つの画素は、文字部分「森」中の右下側の文字部分「木」のパーツIDである「3」が夫々付与される。   Specifically, referring to FIG. 5, for example, in the case where a character “Forest Park” is shown in the class image, the relationship between the pixel and the part ID is focused on the character portion “Forest”. explain. When the pixels around the “tree” that is the three character parts included in the “forest” that is the character part shown in the upper part of FIG. 5 are enlarged, “8” shown in the lower part of FIG. As indicated by the pixel “× 8”, a part ID is given. That is, in the pixel of “8 × 8”, when the pixel located at the lower left corner is defined as the pixel (1, 1) on the X axis and the Y axis, the pixel (4, 7), the pixel (4, 8), The four pixels that are the pixel (5, 7) and the pixel (5, 8) are assigned “1” that is the part ID of the upper character portion “tree” in the character portion “forest”, respectively. In substantially the same manner, pixel (1, 2), pixel (2, 2), pixel (3, 2), pixel (1, 3), pixel (2, 3), pixel (3, 3) are 6 Each pixel is assigned “2”, which is the part ID of the lower left character portion “tree” in the character portion “forest”. In substantially the same manner, pixel (6, 2), pixel (7, 2), pixel (8, 2), pixel (6, 3), pixel (7, 3), pixel (8, 3) 6 Each pixel is assigned “3”, which is the part ID of the character portion “tree” on the lower right side in the character portion “forest”.

(3b−2 パーツの線分幅の算出: ステップS50)
次に、上述の図3に示されるように、パーツ線分幅算出手段142によって、抽出された、複数のパーツの線分幅が夫々算出される(ステップS50)。詳細には、上述のステップS40のように抽出されたパーツは、文字(またはその一部分)を構成する文字パーツと、それ以外のパーツ(以下、適宜「背景パーツ」と称す)とに大別できる。文字パーツに見られる特徴として、上述の図2に示すように、パーツを構成する線分幅は、同じ文字(あるいは文字列)を示す場合、ほぼ同じ値の線分幅の出現頻度が顕著に高くなる。
(3b-2 Calculation of part line width: part S50)
Next, as shown in FIG. 3 described above, the extracted line segment widths of the plurality of parts are calculated by the part line segment width calculating unit 142 (step S50). Specifically, the parts extracted as in step S40 described above can be broadly classified into character parts that constitute characters (or a part thereof) and other parts (hereinafter referred to as “background parts” as appropriate). . As shown in FIG. 2 above, as the characteristics seen in the character part, when the line width constituting the part indicates the same character (or character string), the appearance frequency of the line width having almost the same value is remarkable. Get higher.

本実施例では、この基本的な特徴に注目し、パーツを構成する線分幅の出現頻度を示す度数分布に基づいて、抽出された各パーツが、文字パーツであるか否かを判断し、抽出された全パーツから文字パーツだけを選別し、識別する。   In the present embodiment, paying attention to this basic feature, based on the frequency distribution indicating the frequency of appearance of the line segment width constituting the part, it is determined whether each extracted part is a character part, Only character parts are selected and identified from all the extracted parts.

(3b−2−1 パーツの線分幅の測定: ステップS51)
このステップS50では、最初に、パーツの線分幅を測定する。この測定には図6に示されるような8種類の画素フィルタ(以下、適宜、「輪郭ユニット」と称す)を用いる。尚、本発明に係る「輪郭パターン」の一具体例が、この輪郭ユニットによって構成されている。
(3b-2-1 Measurement of part line width: step S51)
In this step S50, first, the line segment width of the part is measured. For this measurement, eight types of pixel filters as shown in FIG. 6 (hereinafter referred to as “contour unit” as appropriate) are used. A specific example of the “contour pattern” according to the present invention is constituted by the contour unit.

輪郭ユニットには8種類の輪郭ユニットIDが割り当てられており、各画素は白画素又は黒画素で構成されている。具体的には、図6に示されるように、輪郭ユニットIDが「1」である輪郭ユニットにおいては、X軸方向に3つの画素、及び、Y軸方向に3つの画素の3×3の画素範囲において、左下隅の画素を基準位置となる画素を、画素(1、1)とした場合、画素(1、1)、画素(2、1)、画素(3、1)、画素(1、2)、画素(2、2)、及び、画素(3、2)が黒画素であり、画素(1、3)、画素(2、3)、及び、画素(3、3)が白画素である。概ね同様にして、輪郭ユニットIDが「2」である輪郭ユニットにおいては、画素(1、1)、画素(2、1)、画素(3、1)、画素(2、2)、画素(3、2)及び画素(3、3)が黒画素であり、画素(1、2)、画素(1、3)、及び、画素(2、3)が白画素である。概ね同様にして、輪郭ユニットIDが「3」である輪郭ユニットにおいては、画素(2、1)、画素(3、1)、画素(2、2)、画素(3、2)、画素(2、3)、及び、画素(3、3)が黒画素であり、画素(1、1)、画素(1、2)、及び画素(1、3)が白画素である。概ね同様にして、輪郭ユニットIDが「4」である輪郭ユニットにおいては、画素(3、1)、画素(2、2)、画素(3、2)、画素(1、3)、画素(2、3)、及び、画素(3、3)が黒画素であり、画素(1、1)、画素(1、2)、及び画素(2、1)が白画素である。概ね同様にして、輪郭ユニットIDが「5」である輪郭ユニットにおいては、画素(1、2)、画素(2、2)、画素(3、2)、画素(1、3)、画素(2、3)、及び、画素(3、3)が黒画素であり、画素(1、1)、画素(1、2)、及び画素(1、3)が白画素である。概ね同様にして、輪郭ユニットIDが「6」である輪郭ユニットにおいては、画素(1、1)、画素(1、2)、画素(2、2)、画素(1、3)、画素(2、3)、及び、画素(3、3)が黒画素であり、画素(2、1)、画素(3、1)、及び画素(3、2)が白画素である。概ね同様にして、輪郭ユニットIDが「7」である輪郭ユニットにおいては、画素(1、1)、画素(2、1)、画素(1、2)、画素(2、2)、画素(1、3)、及び、画素(2、3)が黒画素であり、画素(3、1)、画素(3、2)、及び画素(3、3)が白画素である。概ね同様にして、輪郭ユニットIDが「8」である輪郭ユニットにおいては、画素(1、1)、画素(2、1)、画素(3、1)、画素(1、2)、画素(2、2)、及び、画素(1、3)が黒画素であり、画素(3、2)、画素(2、3)、及び画素(3、3)が白画素である。   Eight types of contour unit IDs are assigned to the contour unit, and each pixel is composed of a white pixel or a black pixel. Specifically, as shown in FIG. 6, in the contour unit whose contour unit ID is “1”, 3 × 3 pixels of three pixels in the X-axis direction and three pixels in the Y-axis direction. When the pixel whose reference position is the pixel in the lower left corner in the range is the pixel (1, 1), the pixel (1, 1), the pixel (2, 1), the pixel (3, 1), the pixel (1, 2), the pixel (2, 2), and the pixel (3, 2) are black pixels, and the pixel (1, 3), the pixel (2, 3), and the pixel (3, 3) are white pixels. is there. In a similar manner, in the contour unit whose contour unit ID is “2”, pixel (1, 1), pixel (2, 1), pixel (3, 1), pixel (2, 2), pixel (3 2) and the pixel (3, 3) are black pixels, and the pixel (1, 2), the pixel (1, 3), and the pixel (2, 3) are white pixels. In a similar manner, in the contour unit whose contour unit ID is “3”, pixel (2, 1), pixel (3, 1), pixel (2, 2), pixel (3, 2), pixel (2 3) and the pixel (3, 3) are black pixels, and the pixel (1, 1), the pixel (1, 2), and the pixel (1, 3) are white pixels. In a similar manner, in the contour unit whose contour unit ID is “4”, pixel (3, 1), pixel (2, 2), pixel (3, 2), pixel (1, 3), pixel (2 3) and the pixel (3, 3) are black pixels, and the pixel (1, 1), the pixel (1, 2), and the pixel (2, 1) are white pixels. In a similar manner, in the contour unit whose contour unit ID is “5”, pixel (1, 2), pixel (2, 2), pixel (3, 2), pixel (1, 3), pixel (2 3) and the pixel (3, 3) are black pixels, and the pixel (1, 1), the pixel (1, 2), and the pixel (1, 3) are white pixels. In a similar manner, in the contour unit whose contour unit ID is “6”, pixel (1, 1), pixel (1, 2), pixel (2, 2), pixel (1, 3), pixel (2 3) and the pixel (3, 3) are black pixels, and the pixel (2, 1), the pixel (3, 1), and the pixel (3, 2) are white pixels. In a similar manner, in the contour unit whose contour unit ID is “7”, pixel (1, 1), pixel (2, 1), pixel (1, 2), pixel (2, 2), pixel (1 3) and the pixel (2, 3) are black pixels, and the pixel (3, 1), the pixel (3, 2), and the pixel (3, 3) are white pixels. In a similar manner, in the contour unit whose contour unit ID is “8”, pixel (1, 1), pixel (2, 1), pixel (3, 1), pixel (1, 2), pixel (2 2) and the pixel (1, 3) are black pixels, and the pixel (3, 2), the pixel (2, 3), and the pixel (3, 3) are white pixels.

(3b−2−2 輪郭ユニットによる線分幅の測定)
次に、図7を参照して、輪郭ユニットによる線分幅の測定方法を説明する。ここに、図7は、本実施例に係る、輪郭ユニットIDが付与された境界画素を開始点とし、そのエッジ方向に連続する黒画素の数を計測する様子を、図式的に示した模式図である。
(Measurement of line width by 3b-2-2 contour unit)
Next, with reference to FIG. 7, a method for measuring the line segment width by the contour unit will be described. FIG. 7 is a schematic diagram schematically showing a state in which the number of black pixels continuous in the edge direction is measured starting from the boundary pixel to which the contour unit ID is assigned according to the present embodiment. It is.

(3b−2−2−1 輪郭ユニットIDの境界画素への付与: ステップS52)
先ず、抽出された各パーツを構成する黒画素を、内部画素と境界画素とに区別する。内部画素とは、自身を含め自身の周囲に隣接する3×3の画素範囲が全て黒画素となる画素を意味する。或いは、内部画素は、周囲3×3の画素が同じパーツIDとなる画素を意味してよい。他方、境界画素とは、内部画素として定義できない画素を意味する。
(3b-2-2-1 Assigning of contour unit ID to boundary pixel: step S52)
First, the black pixels constituting each extracted part are distinguished into internal pixels and boundary pixels. An internal pixel means a pixel in which the 3 × 3 pixel range adjacent to itself including itself is a black pixel. Alternatively, the internal pixel may mean a pixel in which surrounding 3 × 3 pixels have the same part ID. On the other hand, a boundary pixel means a pixel that cannot be defined as an internal pixel.

次に、境界画素を中心とした3×3の画素配置と、各輪郭ユニットの画素配置とを比較し、完全に一致する画素配置がある場合、その一致した画素配置に対応される輪郭ユニットIDが、境界画素に付与される。   Next, the 3 × 3 pixel arrangement centering on the boundary pixel is compared with the pixel arrangement of each contour unit, and if there is a completely identical pixel arrangement, the outline unit ID corresponding to the coincident pixel arrangement Is added to the boundary pixel.

仮に、境界画素を中心とした3×3の画素配置が、いずれの輪郭ユニットの画素配置にも一致しない場合、「0」が付与される。言い換えると、境界画素に対して「0」が付与された場合、当該境界画素に対応する輪郭ユニットが存在しない事を意味するといえる。これを全ての境界画素について行う。   If the 3 × 3 pixel arrangement centering on the boundary pixel does not match the pixel arrangement of any contour unit, “0” is given. In other words, when “0” is given to a boundary pixel, it can be said that there is no contour unit corresponding to the boundary pixel. This is performed for all boundary pixels.

(3b−2−2−2 境界画素からのカウント: ステップS53)
次に「0」以外のいずれかの輪郭ユニットIDが付与された境界画素を開始点とし、その輪郭ユニットのエッジ方向に連続する黒画素の数をカウントする。ここに、本実施例に係る「エッジ方向」とは輪郭ユニットの白と黒との境界線に直交する方向であると共に、白側から黒側へ向かう方向を意味する。具体的には、例えば輪郭ユニットIDが「1」である輪郭ユニットのエッジ方向は、白側から黒側へ向かう方向である真下方向である。輪郭ユニットIDが「2」である輪郭ユニットのエッジ方向は、右下45度の方向である。輪郭ユニットIDが「3」である輪郭ユニットのエッジ方向は、右90度の方向である。輪郭ユニットIDが「4」である輪郭ユニットのエッジ方向は、右上45度の方向である。輪郭ユニットIDが「5」である輪郭ユニットのエッジ方向は、上0度の方向である。輪郭ユニットIDが「6」である輪郭ユニットのエッジ方向は、左上45度の方向である。輪郭ユニットIDが「7」である輪郭ユニットのエッジ方向は、左90度の方向である。輪郭ユニットIDが「8」である輪郭ユニットのエッジ方向は、左下45度の方向である。
(3b-2-2-2 Counting from boundary pixels: Step S53)
Next, the boundary pixel to which any contour unit ID other than “0” is assigned is used as the starting point, and the number of black pixels continuous in the edge direction of the contour unit is counted. Here, the “edge direction” according to the present embodiment means a direction perpendicular to the boundary line between white and black of the contour unit and a direction from the white side to the black side. Specifically, for example, the edge direction of the contour unit whose contour unit ID is “1” is a downward direction that is a direction from the white side to the black side. The edge direction of the contour unit whose contour unit ID is “2” is the direction of 45 degrees on the lower right. The edge direction of the contour unit whose contour unit ID is “3” is the direction of 90 degrees to the right. The edge direction of the contour unit whose contour unit ID is “4” is the direction of 45 degrees on the upper right. The edge direction of the contour unit whose contour unit ID is “5” is the direction of 0 degrees above. The edge direction of the contour unit whose contour unit ID is “6” is the direction of 45 degrees on the upper left. The edge direction of the contour unit whose contour unit ID is “7” is the direction of 90 degrees to the left. The edge direction of the contour unit whose contour unit ID is “8” is the direction of 45 degrees on the lower left.

カウント(計測)は、黒画素が無くなった時点でストップ(停止)し、開始点から連続して配置された黒画素の数を計測する。この計測された値を線分幅とし、開始点である境界画素に付与する。この計測処理を、全ての境界画素を対象として行う。但し、「0」以外の輪郭ユニットIDが付与された境界画素を対象にして計測処理を行う。具体例を図7に示す。これはパーツ(「イ」の形状)の文字部分の一部を拡大したものである。図7の中央部に位置する「輪郭ユニットID」が付与された画素の拡大図では、「・」で表されたものが内部画素であり、輪郭ユニットIDの数字で表されたものが境界画素である。このうち、「0」を除く輪郭ユニットIDが付与された境界画素を開始点とし、そのエッジ方向に連続する黒画素の数を計測する。その計測値を開始点である境界画素に付与した様子が、図7の右側部に位置する「線分幅」の拡大図である。図7に示された具体例では、横方向と斜め方向とにおいて、連続する黒画素の数を、概ね同様の手法で、計測してよい。或いは、図7に示された具体例における、正方形をした各画素では、斜め方向での画素間の距離は、横(又は縦)の画素間の距離の「ルート2倍」(言い換えると、横(又は縦)の画素間の距離と、2の平方根との積、所謂、ルート(root)2倍)となるので、斜め方向での黒画素を計測する場合、計測値(カウント値)を「ルート2倍」したものを線分幅として良い。   The count (measurement) is stopped (stopped) when there are no black pixels, and the number of black pixels continuously arranged from the start point is measured. This measured value is used as the line segment width, and is given to the boundary pixel that is the starting point. This measurement process is performed for all boundary pixels. However, the measurement process is performed on the boundary pixel to which the contour unit ID other than “0” is assigned. A specific example is shown in FIG. This is an enlargement of a part of the character part of the part ("I" shape). In the enlarged view of the pixel with the “contour unit ID” located in the center of FIG. 7, the pixel represented by “•” is the internal pixel and the pixel represented by the number of the contour unit ID is the boundary pixel. It is. Among these, the boundary pixel to which the contour unit ID other than “0” is assigned is used as a start point, and the number of black pixels continuous in the edge direction is measured. A state in which the measurement value is given to the boundary pixel that is the start point is an enlarged view of the “line segment width” located on the right side of FIG. In the specific example shown in FIG. 7, the number of continuous black pixels in the horizontal direction and the oblique direction may be measured by a substantially similar method. Alternatively, in each of the square pixels in the specific example shown in FIG. 7, the distance between the pixels in the diagonal direction is “root twice” the distance between the horizontal (or vertical) pixels (in other words, the horizontal Since the product of the distance between the (or vertical) pixels and the square root of 2 (so-called twice the root), when measuring black pixels in an oblique direction, the measurement value (count value) is “ The line width can be obtained by multiplying the route twice.

より具体的には、図7の上側中央部において、文字部分「イ」の上側部の画素を拡大した8×8の画素範囲が示されており、輪郭ユニットIDとして「2」が付与された境界画素が5つ示されている。と共に、輪郭ユニットIDとして「6」が付与された境界画素が5つ示されている。と共に、輪郭ユニットIDとして「0」が付与された境界画素が12個、示されている。と共に、「・」で表された内部画素が22個、示されている。ここで、X軸方向に8つの画素、及び、Y軸方向に8つの画素の8×8の画素範囲において、左下隅の画素を基準位置となる画素を、画素(1、1)とした場合、境界画素である画素(4、7)を開始点として、線分幅となる黒画素の数を計測する。先ず、境界画素である画素(4、7)には、図7の上側中央部に示されるように、輪郭ユニットIDとして「2」が付与されているので、エッジ方向は、右下45度の方向である。この右下45度の方向に、黒画素がいくつあるかを計測すると、画素自身である画素(4、7)、画素(5、6)、画素(6、5)、画素(7、4)の合計4つであることが分かる。従って、図7の上側右側部に示された境界画素に線分幅に対応される計測値を付与するための、X軸方向に8つの画素、及び、Y軸方向に8つの画素の8×8の画素範囲においては、概ね同様にして、左下隅の画素を基準位置となる画素を、画素(1、1)とした場合、境界画素である画素(4、7)には、計測値として「4」が付与されている。尚、この場合、斜め方向での黒画素を計測するので、計測値(カウント値)を、「ルート2倍」した計測値を線分幅として付与しても良い。   More specifically, in the upper center portion of FIG. 7, an 8 × 8 pixel range obtained by enlarging the pixels on the upper side of the character portion “A” is shown, and “2” is given as the contour unit ID. Five boundary pixels are shown. In addition, five boundary pixels assigned “6” as the contour unit ID are shown. In addition, twelve boundary pixels assigned “0” as the contour unit ID are shown. In addition, 22 internal pixels represented by “·” are shown. Here, in the 8 × 8 pixel range of 8 pixels in the X-axis direction and 8 pixels in the Y-axis direction, the pixel whose reference position is the pixel in the lower left corner is the pixel (1, 1). Then, the number of black pixels having the line segment width is measured using the pixel (4, 7) as the boundary pixel as a starting point. First, since the pixel (4, 7) as the boundary pixel is given “2” as the contour unit ID as shown in the upper center part of FIG. 7, the edge direction is 45 degrees on the lower right. Direction. When the number of black pixels is measured in the direction of 45 degrees on the lower right, the pixel itself (4, 7), pixel (5, 6), pixel (6, 5), pixel (7, 4) It can be seen that there are a total of four. Accordingly, 8 × 8 pixels in the X-axis direction and 8 × 8 pixels in the Y-axis direction are used to give a measurement value corresponding to the line width to the boundary pixel shown in the upper right side of FIG. In the pixel range of 8, in substantially the same manner, when the pixel whose reference position is the pixel in the lower left corner is the pixel (1, 1), the pixel (4, 7) as the boundary pixel has a measurement value as “4” is assigned. In this case, since black pixels in an oblique direction are measured, a measurement value (count value) obtained by “double the route” may be added as a line segment width.

概ね同様にして、図7の下側中央部において、文字部分「イ」の下側部の画素を拡大した8×8の画素範囲が示されており、輪郭ユニットIDとして「3」が付与された境界画素が8つ示されている。と共に、輪郭ユニットIDとして「7」が付与された境界画素が8つ示されている。と共に、「・」で表された内部画素が16個、示されている。ここで、8×8の画素範囲において、左下隅の画素を基準位置となる画素を、画素(1、1)とした場合、境界画素である画素(6、2)を開始点として、線分幅となる黒画素の数を計測する。先ず、境界画素である画素(6、2)には、図7の下側中央部に示されるように、輪郭ユニットIDとして「7」が付与されているので、エッジ方向は、左90度の方向である。この左90度の方向に、黒画素がいくつあるかを計測すると、画素自身である画素(6、2)、画素(5、2)、画素(4、2)、画素(3、2)の合計4つであることが分かる。従って、図7の下側右側部に示された境界画素に線分幅に対応される計測値を付与するための、8×8の画素範囲においては、概ね同様にして、左下隅の画素を基準位置となる画素を、画素(1、1)とした場合、境界画素である画素(6、2)には、計測値として「4」が付与されている。   In substantially the same manner, an 8 × 8 pixel range obtained by enlarging the lower pixel of the character portion “I” is shown in the lower center portion of FIG. 7, and “3” is assigned as the contour unit ID. Eight boundary pixels are shown. In addition, eight boundary pixels assigned “7” as the contour unit ID are shown. In addition, 16 internal pixels represented by “·” are shown. Here, in the 8 × 8 pixel range, when the pixel whose reference position is the pixel in the lower left corner is the pixel (1, 1), the line segment with the pixel (6, 2) as the boundary pixel as the starting point Measure the number of black pixels that will be the width. First, the pixel (6, 2), which is a boundary pixel, is given “7” as the contour unit ID as shown in the lower center part of FIG. 7, so the edge direction is 90 degrees to the left. Direction. When the number of black pixels in the direction of 90 degrees to the left is measured, the pixel itself (6, 2), pixel (5, 2), pixel (4, 2), pixel (3, 2), which is the pixel itself, is measured. It can be seen that there are a total of four. Accordingly, in the 8 × 8 pixel range for giving the measurement value corresponding to the line width to the boundary pixel shown in the lower right portion of FIG. When the pixel serving as the reference position is the pixel (1, 1), the pixel (6, 2) that is the boundary pixel is given “4” as the measurement value.

(3c) 第3処理群(ステップS60からS70)
次に、図8及び図9に加えて、上述した図3を適宜参照して、本実施例に係る、画像処理装置100における、文字パーツの線分幅の予測から、文字パーツ候補の選別までの画像処理であるステップS60からS70の第3処理群について説明する。ここに、図8は、本実施例に係る、出現頻度が高いヒストグラムの要素を選択する場合における、全パーツを対象とした線分幅の出現頻度を示す度数分布を示した一及び他のグラフ(図8(a)及び図8(b))である。図9は、本実施例に係る、元のクラス画像から抽出された全パーツを構成する画素群の線分幅の出現頻度を示す度数分布(図9(a))、真の文字パーツを構成する画素群の線分幅の出現頻度を示す度数分布(図9(b))、及び、背景パーツを構成する線分幅の出現頻度を示す度数分布(図9(c))である。
(3c) Third processing group (steps S60 to S70)
Next, in addition to FIG. 8 and FIG. 9, with reference to FIG. 3 described above as appropriate, from prediction of line widths of character parts to selection of character part candidates in the image processing apparatus 100 according to the present embodiment. The third processing group of steps S60 to S70, which is the image processing of FIG. Here, FIG. 8 shows one and other graphs showing the frequency distribution indicating the frequency of appearance of the line segment width for all parts when selecting an element of a histogram having a high frequency of appearance according to the present embodiment. (FIG. 8A and FIG. 8B). FIG. 9 shows a frequency distribution (FIG. 9 (a)) indicating the frequency of appearance of the line width of the pixel group constituting all parts extracted from the original class image according to the present embodiment, constituting a true character part. The frequency distribution (FIG. 9B) showing the appearance frequency of the line width of the pixel group to be performed and the frequency distribution (FIG. 9C) showing the appearance frequency of the line width constituting the background part.

(3c−1) (ステップS60:文字パーツの線分幅の予測)
文字パーツに見られる特徴として、上述の図2に示すように、パーツを構成する線分幅は、同じ文字(あるいは文字列)を示す場合、ほぼ同じ値の線分幅の出現頻度が顕著に高くなる。
(3c-1) (Step S60: Prediction of line width of character part)
As shown in FIG. 2 above, as the characteristics seen in the character part, when the line width constituting the part indicates the same character (or character string), the appearance frequency of the line width having almost the same value is remarkable. Get higher.

本実施例では、この基本的な特徴に注目し、パーツを構成する線分幅の出現頻度を示す度数分布に基づいて、抽出された各パーツが、文字パーツであるか否かを判断し、抽出された全パーツから文字パーツだけを選別し、識別する。その前段階として、本ステップS60では、文字パーツの線分幅を予測する。   In the present embodiment, paying attention to this basic feature, based on the frequency distribution indicating the frequency of appearance of the line segment width constituting the part, it is determined whether each extracted part is a character part, Only character parts are selected and identified from all the extracted parts. As the previous stage, in this step S60, the line segment width of the character part is predicted.

(全パーツの線分幅のヒストグラム)
先ず、抽出された全パーツから測定された線分幅から、全パーツを対象とした線分幅の出現頻度を示す度数分布(ヒストグラム)を作成し、その度数分布のうち出現頻度が顕著に高い、ピーク点となる、ヒストグラムの要素(即ち、線分幅)を「s」個だけ選択する。具体的な選択の手法は、図8(a)に示されるように、個数「s」の要素を選択するために、出現頻度の度数の上位「s」番目までの要素(即ち、線分幅)を選択する手法であってよい。或いは、図8(b)に示されるように、出現頻度の度数の1番の要素(即ち、線分幅)を中心とした所定範囲内の全ての要素を選択する手法であってよい。或いは、基本的には出現頻度の度数が相対的に多い要素を、優先して選択する他の手法であってよい。また、図8(a)では「s」番目を「3」個に設定しているが、これに限定されるものではない。但し、「s」番目を、あまり大きくすると、後半の処理である、文字パーツを選別する際の精度に影響を与えるので、好ましくは「s」番目を、数点程度に抑制することが好ましい。こうして選ばれた要素、即ち、線分幅を、WDk(1≦k≦s)とし、文字パーツの線分幅の予測値として用いる。また、選択する個数「s」を、数個にすることで、例えば明朝体フォントの文字のように、縦方向と横方向との線分幅が、大きく異なる文字フォントに対しても、文字パーツの線分幅の予測値を、適切に設定できる効果がある。
(Histogram of line width of all parts)
First, a frequency distribution (histogram) indicating the frequency of appearance of line widths for all parts is created from the line widths measured from all the extracted parts, and the frequency of occurrence is significantly higher in the frequency distribution. Select only “s” histogram elements (that is, line segment widths) to be peak points. As shown in FIG. 8 (a), the specific selection method is to select the number “s” elements, and to select the upper “s” -th element of the frequency of appearance frequency (that is, the line segment width). ) May be used. Alternatively, as shown in FIG. 8B, a technique may be used in which all elements within a predetermined range centered on the first element (that is, the line segment width) of the frequency of appearance frequency may be selected. Or, basically, another method of preferentially selecting an element having a relatively high frequency of appearance may be used. In FIG. 8A, “s” is set to “3”, but the present invention is not limited to this. However, if the “s” -th is too large, the accuracy in sorting the character parts, which is the latter half of the process, is affected, so it is preferable to suppress the “s” -th to about several points. The element thus selected, that is, the line segment width is set to WDk (1 ≦ k ≦ s) and used as a predicted value of the line segment width of the character part. In addition, by selecting several “s” to select, even for character fonts with greatly different line widths in the vertical and horizontal directions, such as characters in Mincho font, for example, There is an effect that the predicted value of the line width of the part can be set appropriately.

(3c−2) ステップS70 文字パーツ候補の選別
次にパーツ毎に線分幅ヒストグラムを作る。
(3c-2) Step S70 Selection of character part candidates
Next, a line width histogram is created for each part.

(各パーツ毎の線分幅のヒストグラム)
上述したように、図9(a)は、元のクラス画像から抽出された全パーツを構成する画素群の線分幅の出現頻度を示す度数分布を示し、図9(b)は、真の文字パーツを構成する画素群の線分幅の出現頻度を示す度数分布を示し、図9(c)は、背景パーツを構成する線分幅の出現頻度を示す度数分布を示す。
(Histogram of line width for each part)
As described above, FIG. 9A shows a frequency distribution indicating the frequency of appearance of the line widths of the pixel groups constituting all parts extracted from the original class image, and FIG. FIG. 9C shows a frequency distribution indicating the frequency of appearance of the line width of the pixel group constituting the character part, and FIG. 9C shows the frequency distribution indicating the frequency of appearance of the line width constituting the background part.

(定性的な傾向)
図9(b)に示される、真の文字パーツを構成する画素群の線分幅の出現頻度を示す度数分布においては、図9(a)に示される、全パーツを構成する画素群の線分幅の出現頻度に基づいて決定可能な線分幅の範囲であるWDk(1≦k≦s)の線分幅の範囲において、出現頻度の度数が顕著に高くなる傾向にある。
(Qualitative trend)
In the frequency distribution indicating the appearance frequency of the line segment width of the pixel group constituting the true character part shown in FIG. 9B, the line of the pixel group constituting all the parts shown in FIG. 9A. In the range of the line width of WDk (1 ≦ k ≦ s), which is the range of the line width that can be determined based on the frequency of appearance of the width, the frequency of the appearance frequency tends to be remarkably increased.

他方で、図9(c)に示される背景パーツの場合、出現頻度の度数は、平均的に分散され、上述した、WD1からWD3までの線分幅の範囲において、出現頻度の度数が顕著に高くなる傾向を読み取ることはできない。このWD1からWD3までの線分幅の範囲において、出現頻度の度数が顕著に高くなる傾向に基づいて真の文字パーツとして相対的に高い確率で推定可能である、候補となる文字パーツ(以下、適宜「文字パーツ候補」と称す)の選別を行う。と共に、このWD1からWD3までの線分幅の範囲において、出現頻度の度数が顕著に高くなる傾向に基づいて真の背景パーツとして相対的に高い確率で推定可能である、候補となる背景パーツ(以下、適宜「背景パーツ候補」と称す)の選別を行う。   On the other hand, in the case of the background part shown in FIG. 9C, the frequency of appearance frequency is dispersed on average, and the frequency of appearance frequency is noticeable in the above-described range of the line segment width from WD1 to WD3. We cannot read the tendency to increase. In the range of the line segment width from WD1 to WD3, candidate character parts (hereinafter referred to as the following) that can be estimated with a relatively high probability as true character parts based on the tendency that the frequency of appearance frequency is remarkably increased. If necessary, this is called “character part candidate”). In addition, in the range of the line segment width from WD1 to WD3, candidate background parts that can be estimated with a relatively high probability as true background parts based on the tendency that the frequency of appearance frequency is remarkably increased ( Hereinafter, the “background part candidate” is appropriately selected.

具体的には、パーツpを構成する画素の線分幅の出現頻度において、全度数に対するWDk(1≦k≦s)までの出現頻度の度数の割合を算出し、それが予め設定された所定閾値Tより大きいか否かによって、文字パーツ候補と、背景パーツ候補との選別を行ってよい。   Specifically, in the appearance frequency of the line segment width of the pixels constituting the part p, the ratio of the frequency of the appearance frequency up to WDk (1 ≦ k ≦ s) to the total frequency is calculated, and this is set to a predetermined value. The character part candidate and the background part candidate may be selected depending on whether or not the threshold value T is greater.

(文字パーツ及び背景パーツの判定)
次の条件式(1)を満たす場合、パーツpを文字パーツ候補と判断する。
(Determination of character parts and background parts)
When the following conditional expression (1) is satisfied, the part p is determined as a character part candidate.

Figure 0004943501
…… (1)
他方、次の条件式(2)を満たす場合、パーツpを背景パーツ候補と判断する。
Figure 0004943501
(1)
On the other hand, when the following conditional expression (2) is satisfied, the part p is determined as a background part candidate.

Figure 0004943501
…… (2)
ここでFp(W)はパーツpの線分幅ヒストグラムにおける要素Wの度数を指し、Npは全度数の合計を指す。
Figure 0004943501
(2)
Here, Fp (W) indicates the frequency of the element W in the line segment width histogram of the part p, and Np indicates the sum of all frequencies.

(3d) 第4処理群(ステップS80からS100)
次に、図10及び図11に加えて、上述した図3を適宜参照して、本実施例に係る、画像処理装置100における、文字パーツの確定から、文字認識までの画像処理であるステップS80からS100の第4処理群について説明する。ここに、図10は、本実施例に係る、背景パーツから文字パーツ候補への変更を図式的に示した模式図である。図11は、本実施例に係る、全てのクラス画像から文字画像が生成される様子を図式的に示した模式図である。
(3d) Fourth processing group (steps S80 to S100)
Next, referring to FIG. 3 described above as appropriate in addition to FIG. 10 and FIG. 11, step S80 which is image processing from the determination of the character parts to the character recognition in the image processing apparatus 100 according to the present embodiment. To S100 will be described. FIG. 10 is a schematic diagram schematically showing the change from the background part to the character part candidate according to the present embodiment. FIG. 11 is a schematic diagram schematically illustrating how character images are generated from all class images according to the present embodiment.

(3d−1) ステップS80 文字パーツの確定
上述の図3に示されたように、ステップS70では、パーツの線分幅に基づいて、文字パーツ候補の選別を行う。このことに加えて又は代えて、ステップS80では、ステップS70で選別された文字パーツ候補と、背景パーツ候補とを比較して、背景パーツ候補の中から文字パーツ候補として改めて判断することが好ましい(言い換えると「復活」することが好ましい)パーツを識別してよい。
(3d-1) Step S80 Determination of character parts
As shown in FIG. 3 described above, in step S70, character part candidates are selected based on the line segment width of the parts. In addition to or instead of this, in step S80, it is preferable to compare the character part candidate selected in step S70 with the background part candidate, and make a new determination as a character part candidate from the background part candidates ( In other words, it is preferable to identify parts.

具体的には、文字パーツ候補との重心間の距離(例えばユークリッド距離)が小さい背景パーツ候補を、文字パーツ候補として改めて判断し、この背景パーツ候補を文字パーツ候補として変更させてよい。このことに加えて又は代えて、輝度又は色度などの各種の属性や性質や特性の類似性が相対的に高い背景パーツ候補を、文字パーツ候補として改めて判断し、この背景パーツ候補を文字パーツ候補として変更させてよい。   Specifically, a background part candidate having a small distance (for example, Euclidean distance) between the center of gravity with the character part candidate may be determined again as a character part candidate, and the background part candidate may be changed as a character part candidate. In addition to or instead of this, a background part candidate having a relatively high similarity in various attributes, properties, and characteristics such as luminance or chromaticity is newly determined as a character part candidate, and the background part candidate is determined as a character part. You may change as a candidate.

この様子を図10に示す。具体的には、図10中の一番上に示された、文字パーツと、背景パーツとを含む元の画像が、ステップS70において、パーツの線分幅に基づいて、文字パーツ候補の選別が行なわれ、図10中の中央部に示された、文字パーツ「林」などが、文字パーツ候補として選別される。次に、ステップS80において、上述したように、この文字パーツ候補との重心間の距離や、輝度又は色度などの各種の属性や性質や特性の類似性に基づいて、図10中の下側部に示された、例えば「森」の右下部である「木」や、「公」の一部や、「園」の一部などの、背景パーツ候補であったパーツが、文字パーツ候補として変更される。こうして、ステップS70にて選別された文字パーツ候補と、ステップS80にて、背景パーツ候補から変更された文字パーツ候補とを最終的な真の文字パーツとして確定する。   This is shown in FIG. Specifically, the original image including the character part and the background part shown at the top in FIG. 10 is selected in step S70 based on the line width of the part. The character part “Hayashi” shown in the center of FIG. 10 is selected as a character part candidate. Next, in step S80, as described above, based on the distance between the centers of gravity of the character part candidates and the similarity of various attributes such as luminance or chromaticity, properties, and characteristics, the lower side in FIG. Parts that were background part candidates, such as “Tree” in the lower right part of “Forest”, part of “Public”, part of “Gion”, etc. Be changed. In this way, the character part candidate selected in step S70 and the character part candidate changed from the background part candidate in step S80 are determined as the final true character parts.

この結果、真の文字パーツを殆ど又は完全に抽出することが可能である。具体的には、例えば濁点など面積の小さな文字パーツは、全パーツを構成する画素群の線分幅の出現頻度において、背景パーツから影響されるノイズの割合が大きくても、文字パーツ候補として的確に判断することが可能である。
(3d−2) ステップS90 文字画像の生成
上述の図3に示されたように、ステップS40からステップS80までは、ステップS30で分類されたクラス画像(即ち、二値画像)に対して独立して夫々行われる。そして、これらのクラス画像に対して夫々行なわれた処理において、選別された全ての文字パーツを用いて、文字画像を生成する。
As a result, it is possible to extract a true character part almost or completely. Specifically, for example, a character part with a small area, such as a muddy point, is an accurate character part candidate even if the proportion of noise affected by the background part is large in the appearance frequency of the line width of the pixel group constituting all parts. It is possible to judge.
(3d-2) Step S90 Generation of Character Image As shown in FIG. 3 described above, steps S40 to S80 are independent of the class image (ie, binary image) classified in step S30. Are performed respectively. Then, in the processing performed for each of these class images, a character image is generated using all the selected character parts.

図11に例を示す。図11に示されるように、元の画像を、輝度によりN個にクラスタリングし、各クラス画像において文字パーツを選別したら、それらの文字パーツを1つに統合した文字画像が生成される。   An example is shown in FIG. As shown in FIG. 11, when the original image is clustered into N by luminance and character parts are selected in each class image, a character image in which those character parts are integrated into one is generated.

この結果、複数の文字色で構成された文字列を有する画像であっても、全ての真の文字パーツを含む文字画像を生成することができる。文字画像は、後述される光学式文字認識(OCR)装置へ入力するために、真の文字パーツを黒色、この真の文字パーツ以外のパーツを白色とした二値画像としてよい。或いは、文字認識(OCR)装置による、文字認識を必要としない場合、真の文字パーツの色と、この真の文字パーツ以外のパーツの色とは、この限りではなく、他の画像形式に準拠するようにしてよい。
(3d−3) ステップS100 文字認識
次に、上述の図3に示されたように、ステップS100において、生成した文字画像を、OCR(光学的文字認識)装置によって認識し、文字コードを得る。OCRの技術自体は既存の手法を用いて良い。識別された文字コードは、元の画像に、例えばメタデータとして付与しておき、画像検索などに応用してよい。
As a result, a character image including all true character parts can be generated even for an image having a character string composed of a plurality of character colors. The character image may be a binary image in which a true character part is black and a part other than the true character part is white for input to an optical character recognition (OCR) device described later. Or, when character recognition by the character recognition (OCR) device is not required, the color of the true character part and the color of the part other than the true character part are not limited to this, and conform to other image formats. You may do it.
(3d-3) Step S100 Character recognition
Next, as shown in FIG. 3 described above, in step S100, the generated character image is recognized by an OCR (optical character recognition) device to obtain a character code. Existing techniques may be used for the OCR technology itself. The identified character code may be assigned to the original image as metadata, for example, and applied to image search or the like.

(4) 本実施例の作用と効果との検討
次に、図12を参照して、本発明に係る画像処理装置の実施例の作用と効果とについて検討する。ここに、図12は、比較例に係る、文字部分が抽出される様子を図式的に示した一及び他の模式図(図12(a)及び図12(b))である。
(4) Examination of operation and effect of this embodiment Next, the operation and effect of the embodiment of the image processing apparatus according to the present invention will be examined with reference to FIG. FIG. 12 is one and other schematic diagrams (FIGS. 12A and 12B) schematically showing how the character portion is extracted according to the comparative example.

一の比較例では、次のような方法によって、文字部分が抽出されている。先ず、色成分によりクラスタリングされたクラス画像において、画素が連結された画素連結領域を抽出し、その画素連結領域に外接する矩形のうち面積や大きさが最小となる矩形(以下、適宜、「最小外接矩形」と称す)を取得する。次に、取得された矩形の位置関係から、文字らしさ(文字とみなすことができる度合い)を判断する。何故ならば、画像中の文字部分は、略同じ大きさであると共に、略同じ高さに並ぶ傾向が高いので、文字部分を囲みつつ外接する最小外接矩形にも同様の性質が見られると考えられるからである。   In one comparative example, the character portion is extracted by the following method. First, in a class image clustered by color components, a pixel connection region in which pixels are connected is extracted, and a rectangle that has the smallest area and size among rectangles circumscribing the pixel connection region (hereinafter referred to as “minimum” as appropriate). (Referred to as a circumscribed rectangle). Next, character-likeness (degree that can be regarded as a character) is determined from the positional relationship of the acquired rectangles. This is because the character parts in the image are almost the same size and tend to line up at almost the same height, so the same characteristic can be seen in the minimum circumscribed rectangle that circumscribes the character part. Because it is.

確かに一の比較例では、画素連結領域の最小外接矩形の集合が略同じ高さで並ぶ場合、その画素連結領域は文字らしい、言い換えると、文字とみなすことができる度合いが高いと判断している。しかしながら、これは英語など1文字がほぼ1つの画素連結領域で構成される場合は有効である。これに対して、日本語のように、1文字が複数の画素連結領域で構成される場合には、最小外接矩形の位置関係による文字らしさの判定は困難であるという技術的な問題点が生じる。具体的には、図12(a)で示される英語文字では、「P」、「A」、「R」、及び「K」は、高さが略等しい。しかしながら、図12(b)で示される日本語文字では、「森」に有される3つの「木」のうち、上側部の「木」と、下側部の「木」とは、高さが異なる。   Certainly, in one comparative example, when the set of minimum circumscribed rectangles of the pixel connection area is arranged at substantially the same height, it is determined that the pixel connection area seems to be a character, in other words, it can be regarded as a character. Yes. However, this is effective when one character such as English is composed of almost one pixel connection region. On the other hand, when one character is composed of a plurality of pixel connection regions as in Japanese, there is a technical problem that it is difficult to determine the character likeness based on the positional relationship of the minimum circumscribed rectangle. . Specifically, in the English characters shown in FIG. 12A, “P”, “A”, “R”, and “K” have substantially the same height. However, in the Japanese characters shown in FIG. 12B, of the three “trees” in “forest”, the upper “tree” and the lower “tree” have a height. Is different.

或いは他の比較例では、画像に含まれる文字部分は、細長い線分で構成される性質を利用し、数学モルフォロジィを用いて幅の細い同色の画素領域を抽出し、これを文字部分の候補として抽出している。   Alternatively, in another comparative example, the character portion included in the image is extracted from a pixel region of the same color having a narrow width using a mathematical morphology by using the property that the character portion is composed of elongated line segments. As extracted.

しかしながら、この他の比較例では、基本的に細長い線分を、文字パーツとして判断するので、同様の性質や形状を持つ背景パーツから影響されるノイズを、文字パーツと区別することが技術的に困難となってしまう。また、文字の線分幅の最大値を予め設定しておく必要があるため、最大値の設定の仕方によっては、真の文字パーツの抽出率を低下させてしまう可能性がある。   However, in this other comparative example, basically, a long and narrow line segment is determined as a character part. Therefore, it is technically possible to distinguish noise influenced by a background part having the same properties and shape from a character part. It becomes difficult. Further, since it is necessary to set the maximum value of the line segment width of the character in advance, there is a possibility that the extraction ratio of the true character parts may be lowered depending on how the maximum value is set.

これに対して、本実施例では、上述したステップS10からS30で説明したように、画像処理装置に入力された画像を構成する画素を、その輝度成分や色度などの各種の属性や性質によってクラスタリングし、クラス毎に画素を分解したクラス画像を作成する。そして、上述したステップS40やS50で説明したように、このクラス画像ごとに、パーツ(即ち、画素連結領域)を抽出し、それらパーツの線分幅を測定した後、全パーツにおける線分幅の出現頻度を示すヒストグラムを作成する。   On the other hand, in the present embodiment, as described in steps S10 to S30 described above, the pixels constituting the image input to the image processing apparatus are classified according to various attributes and properties such as luminance components and chromaticity. Clustering is performed to create a class image in which pixels are decomposed for each class. Then, as described in steps S40 and S50 described above, for each class image, parts (that is, pixel connection regions) are extracted and the line widths of these parts are measured. Create a histogram showing the frequency of appearance.

次に、画像中に示される文字においては、文字の幅は、略一定の線分幅で構成される可能性が顕著に高いので、クラス画像に文字パーツが多く含まれる場合、この全パーツにおける出現頻度が顕著に高い線分幅(即ち、ヒストグラムの要素)は、真の文字パーツの線分幅に近似していると考えられる。そこで、上述のステップS60で説明したように、この出現頻度が顕著に高い線分幅を、文字パーツの線分幅の予測値とする。そして、上述のステップS70で説明したように、この予測値と、各パーツにおける線分幅の出現頻度と、を比較することで、文字パーツ候補を選別する。   Next, in the characters shown in the image, it is highly likely that the character width is composed of a substantially constant line segment width. Therefore, if the class image contains many character parts, It is considered that the line segment width (that is, the element of the histogram) having a remarkably high appearance frequency approximates the line segment width of the true character part. Therefore, as described in step S60 described above, the line width having a remarkably high appearance frequency is set as the predicted value of the line width of the character part. Then, as described in step S70 described above, the character part candidates are selected by comparing the predicted value with the appearance frequency of the line segment width in each part.

以上の結果、文字の言語や、フォントを事前に予測できない場合であっても、文字パーツを精度よく抽出することができる。また線分幅の予測値を複数個、持つことにより、例えば明朝体など縦線と横線の文字幅が大きく異なるような特殊な文字フォントに対しても、文字パーツを精度良く抽出できる効果がある。   As a result, the character parts can be accurately extracted even when the language of the character and the font cannot be predicted in advance. Also, by having multiple predicted line segment widths, it is possible to extract character parts with high accuracy even for special character fonts where the vertical and horizontal character widths are very different, such as Mincho. is there.

続いて、上述のステップS80からS100までで説明したように、クラス毎に文字パーツを抽出したら、それらの文字パーツを1つに合わせた文字画像を生成する。   Subsequently, as described in steps S80 to S100 described above, when character parts are extracted for each class, a character image in which these character parts are combined into one is generated.

この結果、複数の文字色で構成された文字列を有する画像であっても、全ての文字パーツを適切且つ高精度に抽出することが可能である。   As a result, even for an image having a character string composed of a plurality of character colors, all character parts can be extracted appropriately and with high accuracy.

(5) 画像処理装置の第2実施例
次に、図13を参照して、本発明に係る画像処理装置の第2実施例について説明する。ここに、図13は、第2実施例に係る、全てのクラス画像から文字画像が生成される様子を図式的に示した模式図である。
(5) Second embodiment of image processing apparatus
Next, a second embodiment of the image processing apparatus according to the present invention will be described with reference to FIG. FIG. 13 is a schematic diagram schematically showing how character images are generated from all class images according to the second embodiment.

第2実施例においては、クラス毎に文字パーツを抽出する際に、パーツに付与された輪郭ユニットIDの分散(ばらつき)を考慮して良い。言い換えると、パーツに付与された輪郭ユニットIDの分散度を算出することで、文字らしさ(即ち、文字とみなすことができる度合い)の判別を行っても良い。何故ならば、このような背景パーツは、類似した形状(模様)が、規則正しく配置されていることが多いため、上述した図3中のステップS40において、各パーツに対して、輪郭ユニットIDがほぼ同じように付与される傾向が高いためである。   In the second embodiment, when character parts are extracted for each class, dispersion (variation) of contour unit IDs assigned to the parts may be taken into consideration. In other words, by calculating the degree of dispersion of the contour unit ID assigned to the part, the character likelihood (that is, the degree that can be regarded as a character) may be determined. This is because, in such background parts, similar shapes (patterns) are often regularly arranged. Therefore, in step S40 in FIG. 3 described above, the contour unit ID is almost equal to each part. This is because the tendency to be given in the same way is high.

詳細には、画像中で文字列の部分は、形状がそれぞれ異なるパーツで構成される傾向が相対的に高い。一方、背景パーツは、個別のパーツの形状だけでは文字と区別しづらい場合であっても、類似した形状(模様)のパーツが複数ある場合が多い。そのため、輪郭ユニットIDの分散度を考慮することにより、個別の形状だけでは、文字パーツと見分けづらい背景パーツを文字パーツと区別し、文字画像を生成する段階で棄却することが可能である。   Specifically, the character string portion in the image has a relatively high tendency to be composed of parts having different shapes. On the other hand, the background part often has a plurality of parts having similar shapes (patterns) even if it is difficult to distinguish the characters from characters only by the shape of the individual parts. Therefore, by considering the degree of dispersion of the contour unit ID, it is possible to distinguish a background part that is difficult to distinguish from a character part by using only individual shapes, and reject it at the stage of generating a character image.

図13で具体的に説明する。図13中の中央部に示された、クラス2画像においては、真の文字パーツ以外にも、背景パーツが文字パーツとして抽出されている。これはパーツを構成する画素の線分幅の出現頻度が、1、2個などの数個の要素(即ち、線分幅)の出現頻度が顕著に高くなっており、文字らしさ(即ち、文字とみなすことができる度合い)が偶然にも高いレベルであるという特徴を有するためである。   This will be specifically described with reference to FIG. In the class 2 image shown at the center in FIG. 13, in addition to the true character part, the background part is extracted as the character part. This is because the appearance frequency of the line segment width of the pixels constituting the part is remarkably high in the appearance frequency of several elements (ie, line segment width) such as 1, 2, etc. This is because there is a characteristic that the level that can be regarded as being accidentally is at a high level.

次に、数式を利用して、一般化させる。例えばクラスCにおいて、N個の文字パーツが抽出されたとする。ここでパーツ、i(1≦i≦N)に付与されている輪郭ユニットk(1≦k≦8)の数をUikとすると、輪郭ユニットkの出現頻度の平均Mkは、次の式(3)ようになる。   Next, generalize using mathematical formulas. For example, in class C, N character parts are extracted. Here, if the number of contour units k (1 ≦ k ≦ 8) given to the part i (1 ≦ i ≦ N) is Uik, the average Mk of appearance frequencies of the contour unit k is expressed by the following equation (3 )

Figure 0004943501
…… (3)
次に、輪郭ユニットkの出現頻度の分散を、次の変数(4)で示した場合、次の式(5)によって算出される。
Figure 0004943501
(3)
Next, when the variance of the appearance frequency of the contour unit k is indicated by the following variable (4), it is calculated by the following equation (5).

Figure 0004943501
…… (4)
Figure 0004943501
(4)

Figure 0004943501
…… (5)
上述の式(5)で示された輪郭ユニットkの出現頻度の分散を、全ての輪郭ユニット k(1≦k≦8) で算出し、それを加算したものを、次の変数(6)で示した場合、次の式(7)によって求められる。
Figure 0004943501
(5)
The variance of the appearance frequency of the contour unit k shown in the above equation (5) is calculated for all the contour units k (1 ≦ k ≦ 8), and the sum is added to the following variable (6). In the case shown, it is obtained by the following equation (7).

Figure 0004943501
…… (6)
Figure 0004943501
(6)

Figure 0004943501
…… (7)
と求められる。この尚、以下、上述の変数(6)で示された変数を、Daと称す。このDaをクラスCにおける輪郭ユニットIDが出現する出現頻度の分散とする。文字のようにパーツ形状が様々に変化するものであれば、Daは相対的に大きくなる。他方、パーツ形状の変化量が相対的に小さければ、Da相対的に小さくなる。よって輪郭ユニットIDが出現する出現頻度の分散Daが、例えば所定閾値より小さい場合、背景パーツである可能性が高いので、文字画像を生成する段階で棄却する。具体的には、図13中ではクラス2で抽出された文字パーツ候補の輪郭ユニットIDの分散度が、相対的に小さいため、文字画像の生成段階で棄却されている。
Figure 0004943501
(7)
Is required. Hereinafter, the variable indicated by the variable (6) is referred to as Da. This Da is defined as a distribution of appearance frequencies in which contour unit IDs in class C appear. If the part shape changes variously like characters, Da becomes relatively large. On the other hand, if the amount of change in the part shape is relatively small, Da is relatively small. Therefore, when the appearance frequency variance Da at which the contour unit ID appears is smaller than a predetermined threshold, for example, it is highly possible that the contour unit ID is a background part. Specifically, in FIG. 13, since the degree of dispersion of the contour unit IDs of the character part candidates extracted in class 2 is relatively small, it is rejected at the character image generation stage.

この例では、文字パーツの分散具合として、輪郭ユニットIDの分散度を元に文字パーツの選別を行っている。このことに加えて又は代えて、単にパーツ間の形状の類似度を算出した結果、文字パーツの選別を行って良い。   In this example, the character parts are selected based on the degree of dispersion of the contour unit IDs as the degree of distribution of the character parts. In addition to or instead of this, the character parts may be selected as a result of simply calculating the similarity of the shapes between the parts.

(6) 画像処理装置の第3実施例
次に、図14を参照して、本発明に係る画像処理装置の第3実施例について説明する。ここに、図14は、第3実施例に係る、全てのクラス画像から文字画像が生成される様子を図式的に示した模式図である。
(6) Third embodiment of image processing apparatus
Next, a third embodiment of the image processing apparatus according to the present invention will be described with reference to FIG. FIG. 14 is a schematic diagram schematically showing how character images are generated from all class images according to the third embodiment.

第3実施例においては、クラス毎に文字パーツを抽出する際、そのパーツ数を考慮しても良い。言い換えると、クラス画像から抽出された文字パーツ数が極端に少ない場合、背景パーツである可能性が高いので、文字画像生成段階で棄却してよい。何故ならば、本来の文字列の部分は、複数のパーツで構成されることが多いため、文字パーツの数も多くなる可能性が顕著に高いためでる。   In the third embodiment, when extracting character parts for each class, the number of parts may be taken into consideration. In other words, when the number of character parts extracted from the class image is extremely small, there is a high possibility that it is a background part, and therefore it may be rejected at the character image generation stage. This is because the original character string portion is often composed of a plurality of parts, and the possibility of an increase in the number of character parts is remarkably high.

詳細には、画像中の文字列の部分は、基本的に複数の文字で構成されるため、文字パーツの数が相対的に多くなる傾向にある。そのため、クラス毎に抽出された文字パーツの数を計測し、その多少の度合いに応じて、背景パーツと、文字パーツとを区別し、文字画像を生成する段階で棄却することができる。特に、個別の形状に基づくだけでは、文字パーツとして誤認識してしまう可能性が高い背景パーツと、文字パーツとを、より的確に区別することが可能である。   Specifically, since the character string portion in the image is basically composed of a plurality of characters, the number of character parts tends to be relatively large. Therefore, the number of character parts extracted for each class can be measured, and according to the degree, the background parts and the character parts can be distinguished and rejected at the stage of generating the character image. In particular, it is possible to more accurately distinguish a background part and a character part that are likely to be erroneously recognized as a character part only based on an individual shape.

図14で具体的に説明する。この例では文字以外にも、クラス2画像での背景パーツが文字パーツとして抽出されている。これはパーツを構成する画素の線分幅の出現頻度が、1個などの数個の要素(即ち、線分幅)の出現頻度が顕著に高くなっており、文字らしさ(即ち、文字とみなすことができる度合い)が偶然にも高いレベルであるという特徴を有するためである。以上の結果、図14中のクラス2画像では、抽出された文字パーツ候補の数が少ないため、文字画像を生成する段階で棄却することができる。   This will be specifically described with reference to FIG. In this example, in addition to characters, background parts in the class 2 image are extracted as character parts. This is because the appearance frequency of the line segment width of the pixels constituting the part is remarkably high in the appearance frequency of several elements (ie, line segment width) such as one, and it is regarded as a character (ie, a character) This is because there is a characteristic that the degree of the possibility is accidentally at a high level. As a result, the class 2 image in FIG. 14 has a small number of extracted character part candidates, and therefore can be rejected when the character image is generated.

本実施例では、線分幅を検出するために、輪郭ユニットによる手法を用いたが、輪郭ユニットの代わりに、数学的アルモロフォジによる手法を用いてよい。   In the present embodiment, the method using the contour unit is used to detect the line segment width. However, a method using a mathematical algorithm may be used instead of the contour unit.

本実施例では、画像処理装置について説明したが、例えばDVDレコーダーや、HDD(Hard Disc Drive)レコーダーや、デジタルカメラや、カーナビゲーションや、TV(Television)の録画に対応したPC(Personal Computer)、携帯電話などの、画像を蓄積(記憶)し且つ管理し、視聴することが可能な全ての電子機器に適用することが可能である。   In this embodiment, the image processing apparatus has been described. For example, a DVD recorder, an HDD (Hard Disc Drive) recorder, a digital camera, a car navigation system, a PC (Personal Computer) compatible with TV (Television) recording, The present invention can be applied to all electronic devices that can store (store), manage, and view images such as mobile phones.

本発明は、上述した実施例に限られるものではなく、請求の範囲及び明細書全体から読み取れる発明の要旨或いは思想に反しない範囲で適宜変更可能であり、そのような変更を伴う画像処理装置及び方法、並びに、光学式の文字識別装置及び方法もまた本発明の技術的範囲に含まれるものである。   The present invention is not limited to the above-described embodiments, and can be appropriately changed without departing from the gist or concept of the invention that can be read from the claims and the entire specification. The method and the optical character recognition apparatus and method are also included in the technical scope of the present invention.

本発明に係る画像処理装置及び方法は、例えばカラー画像等の画像に含まれる文字部分を抽出し、認識することが可能な画像処理装置に利用可能である。また、本発明に係る光学式の文字識別装置及び方法は、例えばカラー画像等の画像に含まれる文字部分を抽出し、認識することが可能な光学式の文字識別装置に利用可能である。   The image processing apparatus and method according to the present invention can be used in an image processing apparatus that can extract and recognize a character portion included in an image such as a color image. The optical character identification device and method according to the present invention can be used for an optical character identification device that can extract and recognize a character portion included in an image such as a color image.

Claims (14)

画像の平面上で、文字を示す文字部分を含む複数の画素が連結される画素連結部分の線分幅を検出する検出手段と、
前記検出された線分幅の統計的な分布に基づいて、前記文字部分を識別する識別手段と
を備え
前記検出手段は、前記画素連結部分の縁の形状パターンによって規定される複数の輪郭パターンのうちいずれか一つと一致する画素である境界画素を始点又は終点として、前記線分幅を算出する算出手段を有し、
前記識別手段は、前記算出された線分幅の統計的な分布に加えて、前記複数の輪郭パターンの出現頻度又は前記輪郭パターンの出現頻度の分散に基づいて、前記文字部分を識別することを特徴とする画像処理装置。
Detecting means for detecting a line segment width of a pixel connection part in which a plurality of pixels including a character part indicating a character are connected on a plane of an image;
Identification means for identifying the character portion based on a statistical distribution of the detected line segment width ,
The detecting means is a calculating means for calculating the line segment width using a boundary pixel that is a pixel that coincides with any one of a plurality of contour patterns defined by a shape pattern of an edge of the pixel connection portion as a start point or an end point. Have
Said identifying means, in addition to the statistical distribution of the calculated line width, based on the variance of the frequency of appearance frequency or the contour pattern of said plurality of contour patterns, Rukoto identifies the character portion An image processing apparatus.
前記識別手段は、前記統計的な分布として、前記検出された線分幅と、前記検出された線分幅の出現頻度との相関関係に基づいて、前記文字部分と、背景画像を示す背景部分とを識別することを特徴とする請求項1に記載の画像処理装置。The identification means, as the statistical distribution, based on the correlation between the detected line width and the appearance frequency of the detected line width, the character portion and a background portion indicating a background image The image processing apparatus according to claim 1 , wherein: 前記統計的な分布としての、前記線分幅の出現頻度を示す度数分布に基づいて、真の文字部分の線分幅である真線分幅を予測する予測手段を更に備え、
前記識別手段は、前記予測された真線分幅と、複数の画素連結部分のうち一の画素連結部分における線分幅の出現頻度と、の比較に基づいて前記文字部分を識別することを特徴とする請求項1に記載の画像処理装置。
Based on a frequency distribution indicating the frequency of occurrence of the line segment width as the statistical distribution, further comprising a predicting unit that predicts a true line segment width that is a line segment width of a true character part,
The identifying means identifies the character portion based on a comparison between the predicted true line segment width and the frequency of appearance of a line segment width in one pixel connection portion among a plurality of pixel connection portions. The image processing apparatus according to claim 1 .
前記予測手段は、前記真線分幅として、複数の予測値を予測することを特徴とする請求項3に記載の画像処理装置。The image processing apparatus according to claim 3 , wherein the prediction unit predicts a plurality of predicted values as the line width. 前記識別手段は、前記一の画素連結部分における線分幅の出現頻度において、前記予測値の出現頻度の割合が所定閾値より大きい場合、前記一の画素連結部分を前記文字部分として識別することを特徴とする請求項3に記載の画像処理装置。The identifying means identifies the one pixel connection portion as the character portion when the ratio of the appearance frequency of the predicted value is greater than a predetermined threshold in the line segment width appearance frequency in the one pixel connection portion. The image processing apparatus according to claim 3 . 前記算出手段は、前記複数の輪郭パターンの夫々に対応して規定された方向に沿って、前記線分幅を算出することを特徴とする請求項1に記載の画像処理装置。The image processing apparatus according to claim 1 , wherein the calculation unit calculates the line segment width along a direction defined corresponding to each of the plurality of contour patterns. 前記画像を予め複数のクラスタに分割するクラスタ分割手段と、
前記分割された複数のクラスタを、二値で表現可能な二値画像に夫々変換する変換手段とを更に備えることを特徴とする請求項1に記載の画像処理装置。
Cluster dividing means for dividing the image into a plurality of clusters in advance;
The image processing apparatus according to claim 1 , further comprising conversion means for converting each of the plurality of divided clusters into a binary image that can be expressed in binary .
前記識別手段は、前記算出された線分幅の統計的な分布に加えて、複数の画素連結部分における形状の規則性の度合いに基づいて、前記文字部分を識別することを特徴とする請求項1に記載の画像処理装置。 Claim wherein the identification means, in addition to the statistical distribution of the calculated line width, based on the degree of shape regularity in a plurality of pixels connecting portion, and wherein the identifying the character portion the image processing apparatus according to 1. 前記識別手段は、前記算出された線分幅の統計的な分布に加えて、複数の画素連結部分の数の多少に基づいて、前記文字部分を識別することを特徴とする請求項1に記載の画像処理装置。Said identifying means, in addition to the statistical distribution of the calculated line width, based on some number of the plurality of pixels connecting portion, according to claim 1, characterized in that identifying said character portion Image processing apparatus. 前記識別手段は、前記算出された線分幅の統計的な分布に加えて、複数の画素連結部分のうち一の画素連結部分の重心と、他の画素連結部分の重心との間における距離の大きさに基づいて、前記文字部分を識別することを特徴とする請求項1に記載の画像処理装置。In addition to the statistical distribution of the calculated line segment width , the identification unit is configured to calculate a distance between a centroid of one pixel connection portion and a centroid of another pixel connection portion among a plurality of pixel connection portions. The image processing apparatus according to claim 1 , wherein the character portion is identified based on a size. 前記識別手段は、前記文字部分として、前記算出された線分幅の統計的な分布に基づいて、複数の画素連結部分のうち一の文字部分を候補として識別すると共に、前記候補として識別された一の文字部分との重心間の距離、前記一の文字部分の輝度、又は前記一の文字部分の色度に対する、類似性に基づいて、前記複数の画素連結部分のうち真の文字部分を識別することを特徴とする請求項1に記載の画像処理装置。The identifying means identifies, as the character portion, one character portion of a plurality of pixel connection portions as a candidate based on a statistical distribution of the calculated line segment width, and is identified as the candidate . the distance between the centers of gravity of the one character portion, with respect to the chromaticity of the one of the character portion luminance, or the one character portion, based on the similarity, identify the true character portion of the plurality of pixels connecting portion The image processing apparatus according to claim 1 , wherein: 画像の平面上で、文字を示す文字部分を含む複数の画素が連結される画素連結部分の線分幅を光学的に検出する検出手段と、
前記検出された線分幅の統計的な分布に基づいて、前記文字部分を識別する識別手段と
を備え
前記検出手段は、前記画素連結部分の縁の形状パターンによって規定される複数の輪郭パターンのうちいずれか一つと一致する画素である境界画素を始点又は終点として、前記線分幅を算出する算出手段を有し、
前記識別手段は、前記算出された線分幅の統計的な分布に加えて、前記複数の輪郭パターンの出現頻度又は前記輪郭パターンの出現頻度の分散に基づいて、前記文字部分を識別することを特徴とする光学式の文字識別装置。
Detecting means for optically detecting a line segment width of a pixel connection portion in which a plurality of pixels including a character portion indicating a character are connected on a plane of an image;
Identification means for identifying the character portion based on a statistical distribution of the detected line segment width ,
The detecting means is a calculating means for calculating the line segment width using a boundary pixel that is a pixel that coincides with any one of a plurality of contour patterns defined by a shape pattern of an edge of the pixel connection portion as a start point or an end point. Have
Said identifying means, in addition to the statistical distribution of the calculated line width, based on the variance of the frequency of appearance frequency or the contour pattern of said plurality of contour patterns, Rukoto identifies the character portion An optical character recognition device.
画像の平面上で、文字を示す文字部分を含む複数の画素が連結される画素連結部分の線分幅を検出する検出工程と、
前記検出された線分幅の統計的な分布に基づいて、前記文字部分を識別する識別工程と
を備え
前記検出工程は、前記画素連結部分の縁の形状パターンによって規定される複数の輪郭パターンのうちいずれか一つと一致する画素である境界画素を始点又は終点として、前記線分幅を算出する算出工程を有し、
前記識別工程は、前記算出された線分幅の統計的な分布に加えて、前記複数の輪郭パターンの出現頻度又は前記輪郭パターンの出現頻度の分散に基づいて、前記文字部分を識別することを特徴とする画像処理方法。
A detection step of detecting a line segment width of a pixel connection portion where a plurality of pixels including a character portion indicating a character are connected on a plane of an image;
An identification step of identifying the character portion based on a statistical distribution of the detected line segment width ,
The calculation step of calculating the line segment width using a boundary pixel that is a pixel matching one of a plurality of contour patterns defined by a shape pattern of an edge of the pixel connection portion as a start point or an end point. Have
The identification step, in addition to the statistical distribution of the calculated line width, based on the variance of the frequency of appearance frequency or the contour pattern of said plurality of contour patterns, Rukoto identifies the character portion An image processing method characterized by the above.
画像の平面上で、文字を示す文字部分を含む複数の画素が連結される画素連結部分の線分幅を光学的に検出する検出工程と、
前記検出された線分幅の統計的な分布に基づいて、前記文字部分を識別する識別工程と
を備え
前記検出工程は、前記画素連結部分の縁の形状パターンによって規定される複数の輪郭パターンのうちいずれか一つと一致する画素である境界画素を始点又は終点として、前記線分幅を算出する算出工程を有し、
前記識別工程は、前記算出された線分幅の統計的な分布に加えて、前記複数の輪郭パターンの出現頻度又は前記輪郭パターンの出現頻度の分散に基づいて、前記文字部分を識別することを特徴とする光学式の文字識別方法。
A detection step for optically detecting a line width of a pixel connection portion where a plurality of pixels including a character portion indicating a character are connected on a plane of an image;
An identification step of identifying the character portion based on a statistical distribution of the detected line segment width ,
The calculation step of calculating the line segment width using a boundary pixel that is a pixel matching one of a plurality of contour patterns defined by a shape pattern of an edge of the pixel connection portion as a start point or an end point. Have
The identification step, in addition to the statistical distribution of the calculated line width, based on the variance of the frequency of appearance frequency or the contour pattern of said plurality of contour patterns, Rukoto identifies the character portion An optical character identification method characterized by the above.
JP2009507367A 2007-03-29 2007-03-29 Image processing apparatus and method, and optical character identification apparatus and method Expired - Fee Related JP4943501B2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2007/056937 WO2008120376A1 (en) 2007-03-29 2007-03-29 Image processing device and method, and optical character identification device and method

Publications (2)

Publication Number Publication Date
JPWO2008120376A1 JPWO2008120376A1 (en) 2010-07-15
JP4943501B2 true JP4943501B2 (en) 2012-05-30

Family

ID=39807969

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009507367A Expired - Fee Related JP4943501B2 (en) 2007-03-29 2007-03-29 Image processing apparatus and method, and optical character identification apparatus and method

Country Status (2)

Country Link
JP (1) JP4943501B2 (en)
WO (1) WO2008120376A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023204265A1 (en) * 2022-04-20 2023-10-26 京セラ株式会社 Signal processing system and signal processing method

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6135673A (en) * 1984-07-27 1986-02-20 Konishiroku Photo Ind Co Ltd Area extracting method
JPH0951434A (en) * 1995-08-08 1997-02-18 Canon Inc Image forming apparatus and method
JP3960756B2 (en) * 2000-04-26 2007-08-15 富士通株式会社 Document image layout identification method and apparatus
JP2002025323A (en) * 2000-07-04 2002-01-25 Nidec Copal Corp Light guide plate and surface light emitting device using the same

Also Published As

Publication number Publication date
WO2008120376A1 (en) 2008-10-09
JPWO2008120376A1 (en) 2010-07-15

Similar Documents

Publication Publication Date Title
JP4861845B2 (en) Telop character extraction program, recording medium, method and apparatus
Shivakumara et al. A laplacian approach to multi-oriented text detection in video
CN101453575B (en) A method for extracting video subtitle information
KR101452562B1 (en) A method of text detection in a video image
JP5337563B2 (en) Form recognition method and apparatus
JP5786495B2 (en) Image recognition apparatus, image recognition method, and computer program for image recognition
JP6188976B2 (en) Method, apparatus and computer-readable recording medium for detecting text contained in an image
JP2002024836A (en) How to extract titles from digital images
JP2008527525A (en) Method and electronic device for detecting graphical objects
CN116862913B (en) Machine vision-based defect detection method and system for composite nickel-copper heat dissipation bottom plate
JP4893861B1 (en) Character string detection apparatus, image processing apparatus, character string detection method, control program, and recording medium
WO2007055359A1 (en) Clustering system and image processing system having same
JP3851742B2 (en) Form processing method and apparatus
JP4943501B2 (en) Image processing apparatus and method, and optical character identification apparatus and method
KR101571681B1 (en) Method for analysing structure of document using homogeneous region
US8971669B2 (en) Method and apparatus for image processing
KR20030027953A (en) Automatic natural content detection in video information
JP2006338578A (en) Character recognition device
JP2012003358A (en) Background determination device, method, and program
Zhang et al. A novel approach for binarization of overlay text
JP3544324B2 (en) CHARACTER STRING INFORMATION EXTRACTION DEVICE AND METHOD, AND RECORDING MEDIUM CONTAINING THE METHOD
JP3529036B2 (en) Classification method of images with documents
CN117011855A (en) Character string image cutting and identifying method, system and readable storage medium
JP3607753B2 (en) Document image region dividing method and apparatus, and column type discrimination method and apparatus
JP2004046528A (en) Document direction estimation method and document direction estimation program

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120228

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120229

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150309

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees