JP7618458B2 - Character recognition device, character recognition method, and program - Google Patents
Character recognition device, character recognition method, and program Download PDFInfo
- Publication number
- JP7618458B2 JP7618458B2 JP2021018142A JP2021018142A JP7618458B2 JP 7618458 B2 JP7618458 B2 JP 7618458B2 JP 2021018142 A JP2021018142 A JP 2021018142A JP 2021018142 A JP2021018142 A JP 2021018142A JP 7618458 B2 JP7618458 B2 JP 7618458B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- score
- candidate
- input image
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Character Discrimination (AREA)
Description
本発明の実施形態は、文字認識装置、文字認識方法、及びプログラムに関する。 Embodiments of the present invention relate to a character recognition device, a character recognition method, and a program.
従来、入力された画像に含まれる文字を認識する文字認識技術が知られていた。このような従来技術によれば、明示的にそれぞれの文字の境界を区切ることなく認識することにより、認識精度を向上させられることが知られている。しかしながら、文字の境界を区切ることなく認識する場合には、1つの文字を重複して認識してしまう場合があった。また、入力画像によっては、文字を読み飛ばして認識してしまう場合があった。すなわち、従来技術によれば、入力画像に含まれる文字を正しく認識できないといった問題があった。 Conventionally, character recognition technology has been known that recognizes characters contained in an input image. It is known that such conventional technology can improve recognition accuracy by recognizing characters without explicitly separating the boundaries of each character. However, when recognizing characters without separating their boundaries, there are cases where a character is recognized as being duplicated. Also, depending on the input image, there are cases where a character is recognized without being read through. In other words, conventional technology has a problem in that it is not possible to correctly recognize characters contained in an input image.
本発明が解決しようとする課題は、入力画像に含まれる文字を正しく文字認識することができる文字認識装置、文字認識方法、及びプログラムを提供することである。 The problem that the present invention aims to solve is to provide a character recognition device, a character recognition method, and a program that can correctly recognize characters contained in an input image.
実施形態の文字認識装置は、第1スコア算出部と、文字領域推定部と、第2スコア算出部と、選択部とを持つ。第1スコア算出部は、文字列の尤もらしさを示す第1スコアであって、入力画像に含まれる文字列の候補である複数の候補文字列それぞれの前記第1スコアを算出する。文字領域推定部は、前記入力画像の領域のうち、前記候補文字列に含まれる文字それぞれに対応する領域を推定する。第2スコア算出部は、推定された領域に基づいて、前記候補文字列に含まれる文字の整合性を示す第2スコアを算出する。選択部は、算出された前記第1スコアと前記第2スコアとに基づいて、複数の前記候補文字列のうち1以上の文字列を選択する。前記入力画像は、複数の文字入力領域を含み、前記第2スコア算出部は、前記候補文字列に含まれる文字それぞれに対応する領域と、前記文字入力領域とに基づいて、前記第2スコアを算出する。
A character recognition device according to an embodiment includes a first score calculation unit, a character region estimation unit, a second score calculation unit, and a selection unit. The first score calculation unit is a first score indicating the likelihood of a character string, and calculates the first score for each of a plurality of candidate character strings that are candidates for character strings included in an input image. The character region estimation unit estimates an area of the input image corresponding to each character included in the candidate character string. The second score calculation unit calculates a second score indicating consistency of characters included in the candidate character string based on the estimated area. The selection unit selects one or more character strings from the plurality of candidate character strings based on the calculated first score and second score. The input image includes a plurality of character input areas, and the second score calculation unit calculates the second score based on an area corresponding to each character included in the candidate character string and the character input area.
以下、実施形態の文字認識装置、文字認識方法、及びプログラムを、図面を参照して説明する。 The character recognition device, character recognition method, and program of the embodiment will be described below with reference to the drawings.
[従来技術]
図21を参照しながら、従来技術による文字認識方法を用いた場合において発生する問題点について説明する。図11は、従来技術による重複読み及び読み飛ばしについて説明するための図である。列90には重複読みの一例を、列95には読み飛ばしの一例をそれぞれ示す。
[Prior Art]
Problems that arise when using a character recognition method according to the prior art will be described with reference to Fig. 21. Fig. 11 is a diagram for explaining overlapping reading and skipping reading according to the prior art.
重複読みの一例において、入力画像91が入力された場合について説明する。入力画像91に記載された文字列を正しく文字認識する場合、文字が記載されている位置として、領域92と領域93とを推定する。領域92には“川”が、領域93には“崎”がそれぞれ記載されているため、従来技術による文字認識方法によれば、入力画像91には“川崎”が記載されていることが認識できる。一方、入力画像91に記載された文字列を誤って文字認識してしまう場合、文字が記載されている位置として、領域92と領域93と領域94とを推定する。領域92には“川”が、領域93には“崎”が、領域94には“山”がそれぞれ記載されているため、従来技術による文字認識方法によれば、入力画像91には“川山崎”が記載されていると誤認識してしまう。このように、重複読みの一例においては、“崎”の偏を“山”と認識した後、再度“崎”を認識しているため、“山”の文字を重複して認識してしまう問題があった。
In an example of overlapping reading, a case where an
次に、読み飛ばしの一例において、入力画像96が入力された場合について説明する。入力画像96に記載された文字列を正しく文字認識する場合、文字が記載されている位置として、領域97と領域98と領域99とを推定する。領域97には“長”が、領域98には“谷”が、領域99には“川”がそれぞれ記載されているため、従来技術による文字認識方法によれば、入力画像96には“長谷川”が記載されていることが認識できる。一方、入力画像96に記載された文字列を誤って文字認識してしまう場合、文字が記載されている位置として、領域97と領域98とを推定する。領域97には“長”が、領域99には“川”がそれぞれ記載されているため、従来技術による文字認識方法によれば、入力画像96には“長川”が記載されていると誤認識してしまう。このように、読み飛ばしの一例においては、領域98に記載された“谷”の文字を読み飛ばして認識してしまう問題があった。
Next, an example of skipping will be described in which
[第1の実施形態]
本実施形態に係る文字認識装置は、上述したような従来技術による問題点を抑止する。本実施形態に係る文字認識装置は、入力画像に記載された文字列について、文字列認識を行う。文字列認識とは、文字列を含む画像を入力として、画像中の文字列を認識するタスクである。本実施形態では左から右に読まれる横書きの文字列について説明する。なお、本実施形態においては、左から右に読まれる横書きの文字列に限定されず、縦書きの文字列についても同様である。なお、文字列を含む画像とは、手書きされた文字の画像や、写真撮影された看板、道路標識等を広く含む。なお、本実施形態において、文字列に含まれる文字数は、0文字以上である場合について説明する。
[First embodiment]
The character recognition device according to this embodiment suppresses the problems of the conventional technology as described above. The character recognition device according to this embodiment performs character string recognition on a character string written in an input image. Character string recognition is a task of recognizing a character string in an image by inputting an image including the character string. In this embodiment, a horizontally written character string read from left to right will be described. Note that this embodiment is not limited to a horizontally written character string read from left to right, and the same applies to a vertically written character string. Note that an image including a character string broadly includes an image of handwritten characters, a photographed signboard, a road sign, and the like. Note that in this embodiment, a case will be described in which the number of characters included in the character string is 0 or more.
図1は、第1の実施形態に係る文字認識システムの機能構成の一例を示す概略図である。同図を参照しながら、文字認識システム1の機能構成について説明する。文字認識システム1は、入力画像取得部21と、候補文字列算出部22と、文字認識装置10と、出力部23とを備える。
FIG. 1 is a schematic diagram showing an example of the functional configuration of a character recognition system according to a first embodiment. The functional configuration of the
入力画像取得部21は、入力画像IMを取得する。図2は、第1の実施形態に係る入力画像IMの一例を示す図である。入力画像IMには、文字列Sが記載されている。具体的には、入力画像IMには、“川崎”の手書き文字である文字列Sが記載されている。本実施形態においては、入力画像IMには、手書きされた文字列Sが記載されている場合の一例について説明する。
The input
図1に戻り、候補文字列算出部22は、入力画像取得部21が取得した入力画像IMに記載された文字列Sの候補である候補文字列CSを算出する。候補文字列算出部22は、公知の文字認識技術(例えば、パターンマッチングや特徴検出等)を用い、候補文字列CSを算出する。候補文字列算出部22は複数の文字列Sを候補文字列CSとして出力する。
Returning to FIG. 1, the candidate character
文字認識装置10は、入力画像取得部21が取得した入力画像IMと、候補文字列算出部22により算出された複数の候補文字列CSとに基づき、候補文字列算出部22により算出された複数の候補文字列CSのうち、尤もらしい文字列を選択文字列SSとして選択する。文字認識装置10は、第1スコア算出部(文字認識部)110と、文字領域推定部120と、第2スコア算出部(領域整合性スコア算出部)130と、選択部140とを備える。
Based on the input image IM acquired by the input
出力部23は、文字認識装置10により選択された選択文字列SSを出力する。出力部23は、例えば、選択文字列SSを不図示の表示部に表示させるための情報を出力し、不図示の音声出力部から音声出力させるための情報を出力し、又は不図示の情報処理装置に無線出力することにより選択文字列SSを出力する。
The
第1スコア算出部110は、候補文字列算出部22が算出した複数の候補文字列CSのそれぞれについて、第1スコアS1を算出する。候補文字列CSとは、入力画像IMに含まれる文字列Sの候補である。第1スコアS1は、文字列の尤もらしさを示す。すなわち、第1スコア算出部110は、文字列の尤もらしさを示す第1スコアS1であって、入力画像IMに含まれる文字列Sの候補である複数の候補文字列CSそれぞれの第1スコアS1を算出する。
The first
図3は、第1の実施形態に係る第1スコアについて説明するための図である。同図を参照しながら、第1スコア算出部110が算出する第1スコアS1の具体例について説明する。同図には、入力画像IMに文字列“川崎”が含まれる場合の一例を示す。この一例において、候補文字列算出部22は、候補文字列CS-1として“川山崎”と、候補文字列CS-2として“川崎”と、候補文字列CS-3として“川山奇”とを算出する。第1スコア算出部110は、候補文字列CS-1、候補文字列CS-2及び候補文字列CS-3それぞれについて第1スコアS1を算出する。この一例において、候補文字列CS-1の第1スコアS1-1は“0.5”であり、候補文字列CS-2の第1スコアS1-2は“0.5”であり、候補文字列CS-3の第1スコアS1-3は“0.1”である。
FIG. 3 is a diagram for explaining the first score according to the first embodiment. A specific example of the first score S1 calculated by the first
図1に戻り、文字領域推定部120は、候補文字列CSと、入力画像IMとに基づき、文字領域CAを推定する。文字領域CAとは、候補文字列CSに含まれる文字Cそれぞれに対応する領域である。すなわち、文字領域推定部120は、入力画像IMの領域のうち、候補文字列CSに含まれる文字Cそれぞれに対応する領域である文字領域CAを推定する。
Returning to FIG. 1, the character
第2スコア算出部130は、文字領域推定部120により推定された領域である文字領域CAに基づいて、候補文字列CSに含まれる文字の整合性を示す第2スコアS2を算出する。ここで、候補文字列CSに含まれる文字の整合性とは、空間的な整合性をいう。空間的な整合性がない場合、各文字が重複したり、文字を読み飛ばしてしまったりする場合がある。
The second
図4は、第1の実施形態に係る第2スコアについて説明するための図である。同図を参照しながら、文字領域推定部120が行う文字領域CAの推定と、第2スコア算出部130が算出する第2スコアS2の具体例とについて説明する。同図には、入力画像IMに文字列“川崎”が含まれる場合の一例を示す。この一例において、文字領域推定部120は、候補文字列CSに含まれる文字Cそれぞれに対応する領域である文字領域CAを推定する。例えば、文字領域推定部120は、候補文字列CS-1である“川山崎”に含まれる文字Cに対応する領域を文字領域CA1-1、文字領域CA2-1及び文字領域CA3-1として推定する。また、文字領域推定部120は、候補文字列CS-2である“川崎”に含まれる文字Cに対応する領域を文字領域CA1-2及び文字領域CA2-2として推定する。また、文字領域推定部120は、候補文字列CS-3である“川山奇”に含まれる文字Cに対応する領域を文字領域CA1-3、文字領域CA2-3及び文字領域CA3-3として推定する。
FIG. 4 is a diagram for explaining the second score according to the first embodiment. With reference to the figure, the estimation of the character area CA performed by the character
第2スコア算出部130は、複数の候補文字列CSそれぞれについて第2スコアS2を算出する。この一例において、候補文字列CS-1の第2スコアS2-1は“0.1”であり、候補文字列CS-2の第2スコアS2-2は“1.0”であり、候補文字列CS-3の第2スコアS2-3は“1.0”である。
The second
図1に戻り、選択部140は、算出された第1スコアS1と第2スコアS2とに基づいて、複数の候補文字列CSのうち1以上の文字列Sを、選択文字列SSとして選択する。例えば、選択部140は、第1スコアS1と第2スコアS2とを乗じた結果、最も大きい値となる候補文字列CSを、選択文字列SSとして選択する。
Returning to FIG. 1, the
図5は、第1の実施形態に係る文字認識システムの一連の動作を示すフローチャートである。以下、同図に示すフローチャートに沿って文字認識装置10の一連の動作について説明する。
Figure 5 is a flowchart showing a series of operations of the character recognition system according to the first embodiment. Below, the series of operations of the
(ステップS110)入力画像取得部21は、入力画像IMを取得する。候補文字列算出部22は、入力画像IMに記載された文字列Sの候補となる候補文字列CSを算出する。本フローチャートにおいては、候補文字列算出部22が、n個(nは1以上の整数)の候補文字列CSを算出した場合について説明する。
(Step S110) The input
(ステップS120)第1スコア算出部110は、算出された複数の候補文字列CSのうち、それぞれの候補文字列CSについて、第1スコアS1を算出する。すなわち、候補文字列CSをyn、第1スコアS1をαnとした場合、第1スコア算出部110は、(y1,α1)…(yn,αn)を算出する。
(Step S120) The first
(ステップS130)第2スコア算出部130は、カウンタiに1をセットする。
(Step S130) The second
(ステップS140)文字領域推定部120は、入力画像IMのうち、候補文字列CSに含まれる複数の文字Cにそれぞれ対応する領域を推定する。本フローチャートにおいては、候補文字列CSにm文字含まれる場合(mは1以上の整数)について説明する。すなわち、候補文字列CSであるyiには、yi,1,…,yi,mの文字Cが含まれる。この場合、文字領域推定部120は、それぞれの文字Cに対応する文字領域CAであるs1,…,smを推定する。
(Step S140) Character
(ステップS150)第2スコア算出部130は、候補文字列CSであるyiについての第2スコアS2を算出する。第2スコアS2をβnとも記載する。第2スコアS2であるβnは、s1,…,smに基づき、算出される。
(Step S150) The second
(ステップS160)選択部140は、第1スコアS1であるαiと、第2スコアS2であるβiとに基づき、γiを算出する。
(Step S160) The
(ステップS170)第2スコア算出部130は、i<nである場合、処理をステップS190に進める。すなわち、第2スコア算出部130は、カウンタiが、候補文字列算出部22により算出された候補文字列CSの数であるn個に達するまで、ステップS140からステップS160までの工程を繰り返す。第2スコア算出部130は、i<nでない場合、すなわち、カウンタiが、候補文字列算出部22により算出された候補文字列CSの数であるn個に達した場合、処理をステップS180に進める。
(Step S170) If i<n, the second
(ステップS190)第2スコア算出部130は、カウンタiをインクリメントし、処理をステップS140に進める。
(Step S190) The second
(ステップS180)選択部140は、γnが最大となる候補文字列CSを、選択文字列SSとして選択する。本フローチャートにおいて、選択部140は、最大点集合により選択文字列SSを選択する。なお、選択部140は、αnと、βnの算出方法に応じて、最小点集合により選択文字列SSを選択してもよい。
(Step S180) The
[第1の実施形態の変形例]
図6は、第1の実施形態に係る第2スコア算出部の機能構成の変形例を示す図である。同図を参照しながら、第2スコア算出部130の変形例である第2スコア算出部130Aについて説明する。第2スコア算出部130Aは、重複読みスコア算出部131と、読み飛ばしスコア算出部132と、第2スコア統合部133とを備える。
[Modification of the first embodiment]
6 is a diagram showing a modified example of the functional configuration of the second score calculation unit according to the first embodiment. With reference to the figure, a second
重複読みスコア算出部131は、候補文字列CSの重複量を示すスコアである重複読みスコアS21を算出する。候補文字列CSの重複量とは、具体的には、候補文字列CSに含まれる文字Cそれぞれに対応する領域が互いに重なり合う量である。第2スコア算出部130Aは、算出された重複読みスコアS21に基づいて第2スコアS2を算出する。すなわち、本実施形態において、第2スコア算出部130Aは、候補文字列CSに含まれる文字Cそれぞれに対応する領域が互いに重なり合う量に基づいて、第2スコアS2を算出する。
The overlapping reading
図7は、第1の実施形態に係る重複読みについて説明するための図である。同図を参照しながら、重複読みスコア算出部131が算出する重複量について説明する。この一例において、入力画像IMには、“川崎”との文字が記載され、文字領域推定部120は、文字領域CAとして、文字領域CA1、文字領域CA2及び文字領域CA3を推定する。ここで、文字領域CA2と文字領域CA3とが互いに重なり合った領域である重複領域CA-DPが重複量である。具体的には、重複読みスコア算出部131は、重複量がm(y)である場合に、下の式(1)を重複の整合性スコアPovlpとして算出する。
FIG. 7 is a diagram for explaining overlapping reading according to the first embodiment. With reference to the same figure, the overlapping amount calculated by the overlapping reading
ここで、COPは0から1の定数であり、小さいほど重複の整合性スコアPovlpは小さくなる。COPの値は実験的に求められてもよい。 Here, C OP is a constant between 0 and 1, and the smaller the C OP is, the smaller the overlap consistency score P ovlp becomes. The value of C OP may be determined experimentally.
図6に戻り、読み飛ばしスコア算出部132は、候補文字列CSに含まれる文字Cと、文字領域推定部120により推定された領域とに基づいて、読み飛ばしが発生しているか否かを示すスコアである読み飛ばしスコアS22を算出する。第2スコア算出部130は算出された読み飛ばしスコアS22に基づいて、第2スコアS2を算出する。すなわち、第2スコア算出部130は、候補文字列CSに含まれる文字Cと、文字領域推定部120により推定された領域とに基づいて、第2スコアS2を算出する。
Returning to FIG. 6, the skipping
図8は、第1の実施形態に係る読み飛ばしスコア算出部の機能構成の一例を示す図である。読み飛ばしスコア算出部132の機能構成の一例について、図を参照しながら説明する。読み飛ばしスコア算出部132は、文字らしさマップ生成部1321と、読み飛ばしスコア統合部1322とを備える。本実施形態において、読み飛ばしスコア算出部132は、入力画像IMの領域に何らかの文字Cが存在する尤もらしさに基づいて、第2スコアS2を算出する。
FIG. 8 is a diagram showing an example of the functional configuration of the skip score calculation unit according to the first embodiment. An example of the functional configuration of the skip
文字らしさマップ生成部1321は、文字らしさマップCLMを生成する。文字らしさマップCLMとは、入力画像IMの画像領域に何らかの文字Cが存在する尤もらしさを示す。
The character-
読み飛ばしスコア統合部1322は、文字領域推定部120により推定された文字領域CAと、文字らしさマップ生成部1321により生成された文字らしさマップCLMとに基づき、読み飛ばしスコアS22を算出する。
The skip
図9は、第1の実施形態に係る文字らしさマップについて説明するための図である。同図を参照しながら、文字らしさマップCLMと、読み飛ばしスコア統合部1322が行う処理の概要について説明する。
FIG. 9 is a diagram for explaining the character-likeness map according to the first embodiment. With reference to the figure, an overview of the character-likeness map CLM and the processing performed by the skip
図9(A)は、読み飛ばしの誤認識をしている候補文字列CSについて、文字領域推定部120が文字領域CAを推定した場合における文字領域CAについて示す図である。同図において、入力画像IMに含まれる文字列Sである“長谷川”のうち“長”との文字については文字領域CA1として、“川”との文字については文字領域CA2として、推定されている。“谷”との文字については文字領域CAとして推定されていない。すなわち、読み飛ばしが発生している。
Figure 9 (A) is a diagram showing character area CA when the character
図9(B)は、文字らしさマップCLMの一例について示す図である。同図に示す一例において、領域AR1、領域AR2及び領域AR3には文字が存在する確率が高い。すなわち、文字らしさマップ生成部1321は、入力画像IMの画像領域に何らかの文字Cが存在する尤もらしさを文字らしさマップCLMとして生成するため、読み飛ばしが発生している文字も含めた文字列Sについて、文字Cが存在する尤もらしさを推定する。
Figure 9 (B) is a diagram showing an example of a character likelihood map CLM. In the example shown in the figure, there is a high probability that characters exist in areas AR1, AR2, and AR3. In other words, the character likelihood
図9(C)は、マスクMSKの一例を示す図である。読み飛ばしスコア統合部1322は、文字領域推定部120により推定された文字領域CAに基づき、マスクMSKを生成する。マスクMSKは、候補文字列CSに含まれる文字が存在する領域又は存在しない領域を示す。読み飛ばしスコア統合部1322は、生成したマスクMSKにより文字らしさマップCLMをフィルタリングする。読み飛ばしスコア統合部1322は、文字らしさマップCLMをフィルタリングすることにより、候補文字列CSに含まれていないにもかかわらず、文字が存在する確率が高い領域について推定する。
Figure 9 (C) is a diagram showing an example of the mask MSK. The skip
図9(D)は、読み飛ばしスコア統合部1322によりフィルタリングされた後の文字らしさマップCLMを示す図である。領域AR2は、文字が存在する確率が高いが、候補文字列CSには含まれていない領域である。すなわち、領域AR2が大きいほど、読み飛ばしが発生している可能性が高いといえる。
Figure 9 (D) shows the character-likeness map CLM after filtering by the skip
ここで、入力画像IMの画像領域に何らかの文字Cが存在する確率が高く、フィルタリングされた後の文字らしさマップCLMに含まれる領域を、Uj(y)とする。入力画像IMの画像領域を、幅W、高さHに区切った場合、読み飛ばしスコア統合部1322は、下の式(2)を、読み飛ばしの整合性スコアPSKIP(y)として算出する。なお、入力画像IMの画像領域は、入力画像IMのピクセル単位で区切られてもよいし、複数のピクセルから構成される所定の範囲を単位として区切られてもよい。
Here, an image region of the input image IM in which there is a high probability that some character C exists and which is included in the character-likeliness map CLM after filtering is defined as U j (y). When the image region of the input image IM is divided into a region with a width W and a height H, the skipping
ここで、CSPは0以上の定数であり、CSPが大きいほど読み飛ばしの整合性スコアPSKIPは小さくなる。CSPの値は実験的に求められてもよい。なお、読み飛ばしペナルティを課さない場合は、CSPを0としてもよい。 Here, CSP is a constant equal to or greater than 0, and the larger CSP is, the smaller the skipping consistency score PSKIP is. The value of CSP may be obtained experimentally. If no skipping penalty is imposed, CSP may be set to 0.
図6に戻り、第2スコア統合部133は、重複読みスコア算出部131により算出された重複読みスコアS21と、読み飛ばしスコア算出部132により算出された読み飛ばしスコアS22とに基づき、第2スコアS2を算出する。例えば、第2スコア統合部133は、重複読みスコアS21と読み飛ばしスコアS22を乗じた値を第2スコアS2として算出する。
Returning to FIG. 6, the second
図10は、第1の実施形態に係る第1スコア算出部の機能構成の変形例を示す図である。同図を参照しながら、第1スコア算出部110の変形例である第1スコア算出部110Aについて説明する。第1スコア算出部110Aは、文字認識スコア算出部111と、知識処理スコア算出部112と、第1スコア統合部113とを備える。
Fig. 10 is a diagram showing a modified functional configuration of the first score calculation unit according to the first embodiment. With reference to the figure, a first
文字認識スコア算出部111は、候補文字列CSごとに文字認識スコアS11を算出する。文字認識スコアS11は、文字列の尤もらしさを示す。
The character recognition
知識処理スコア算出部112は、候補文字列CSごとに知識処理スコアS12を算出する。知識処理スコア算出部112は、入力画像IMに記載されるべき候補文字列CSが限られる場合に用いられる。入力画像IMに記載されるべき候補文字列CSが限られる場合とは、例えば、入力画像IMが郵便番号、住所、氏名等である情報を事前に得ている場合である。入力画像IMが郵便番号であることが分かっている場合、候補文字列CSが数字でない場合には、知識処理スコアS12は低く算出される。また、入力画像IMが住所であることが分かっている場合、“川崎”よりも“川山奇”である場合の方が知識処理スコアS12は低く算出される。
The knowledge processing
第1スコア統合部113は、文字認識スコア算出部111により算出された文字認識スコアS11と、知識処理スコア算出部112により算出された知識処理スコアS12とに基づき、第1スコアS1を算出する。選択部140は、算出された第1スコアS1と、第2スコアS2とに基づき、選択文字列SSを選択する。
The first
ここで、選択部140が、文字認識スコアS11と、知識処理スコアS12と、重複読みスコアS21と、読み飛ばしスコアS22とに基づき、選択文字列SSを選択する場合の一例について説明する。この場合、選択部140は、下の式(3)に基づき、選択文字列SSを選択する。
Here, an example will be described in which the
具体的には、選択部140は、文字認識スコアS11であるPOCRと、知識処理スコアS12であるPLMと、重複読みスコアS21であるPovlpと、読み飛ばしスコアS22であるPskipとを乗じた値が最大となる候補文字列CSを選択文字列SSとして選択する。
Specifically, the
[第1の実施形態のまとめ]
上述した実施形態によれば、文字認識装置10は、第1スコア算出部110を備えることにより文字列Sの尤もらしさを示す第1スコアS1を候補文字列CSごとに算出し、文字領域推定部120を備えることにより文字列Sに含まれる文字Cごとの領域を推定し、第2スコア算出部130を備えることにより文字Cの整合性を示す第2スコアS2を算出し、選択部140を備えることにより第1スコアS1と第2スコアS2に基づいて選択文字列SSを選択する。すなわち、上述した実施形態によれば、文字Cが存在する領域の整合性を考慮して最尤文字列を選択する。したがって、文字認識装置10は、入力画像IMに含まれる文字Cを正しく文字認識することができる。
[Summary of the first embodiment]
According to the above-described embodiment, the
また、上述した実施形態によれば、第2スコア算出部130は、重複読みスコアS21に基づいて、第2スコアS2を算出する。重複読みスコアS21とは、補文字列CSに含まれる文字Cそれぞれに対応する領域が互いに重なり合う量に応じたスコアである。したがって、本実施形態によれば、文字認識装置10は、重複読みを抑止することができるため、入力画像IMに含まれる文字Cを正しく文字認識することができる。
Furthermore, according to the above-described embodiment, the second
また、上述した実施形態によれば、第2スコア算出部130は、読み飛ばしスコアS22に基づいて、第2スコアS2を算出する。読み飛ばしスコアS22とは、候補文字列CSに含まれる文字Cと、文字領域推定部120により推定された文字領域CAとに基づいたスコアであり、読み飛ばしが発生している場合には、与えられるペナルティが大きくなる。したがって、本実施形態によれば、文字認識装置10は、読み飛ばしを抑止することができるため、入力画像IMに含まれる文字Cを正しく文字認識することができる。
Furthermore, according to the embodiment described above, the second
ここで、従来技術によれば、重複読みの改善と、読み飛ばしの改善とは二律背反の関係にあり、一方を改善すると他方の問題が生じやすくなってしまっていた。上述した実施形態によれば、重複読みスコアS21と、読み飛ばしスコアS22とを分けて算出し、総合的に選択文字列SSを選択するため、重複読み及び読み飛ばしのいずれの問題についても改善することができる。 Here, according to the conventional technology, the improvement of duplicate reading and the improvement of skipping are in a trade-off relationship, and improving one makes the other problem more likely to occur. According to the above-mentioned embodiment, the duplicate reading score S21 and the skipping score S22 are calculated separately, and the selected character string SS is selected comprehensively, so that both the duplicate reading and skipping problems can be improved.
また、上述した実施形態によれば、第2スコア算出部130は、文字らしさマップCLMを用いることにより、読み飛ばしスコアS22を算出する。文字らしさマップCLMとは、入力画像IMの領域に何らかの文字Cが存在する尤もらしさを示す。本実施形態によれば、読み飛ばしを容易に抑止することができる。
In addition, according to the embodiment described above, the second
[第2の実施形態]
図11から図13を参照しながら、第2の実施形態に係る文字認識装置10Aの一例について説明する。第2の実施形態に係る文字認識装置10Aは、ビームサーチアルゴリズムを用いて、入力画像IMに含まれる文字列Sの文字認識を行う。ここで、文字列Sに含まれる複数の文字Cそれぞれについて、候補となる文字Cを算出し、それぞれの文字Cの候補となる組み合わせを候補文字列CSとする場合、文字列Sに含まれる文字Cの量が多くなるほど、候補文字列CSが多くなってしまうという問題があった。候補文字列CSが多くなると、選択文字列SSを選択するのに時間とリソースがかかってしまう。そこで、本実施形態においては、ビームサーチアルゴリズムを用いることにより、少ない時間とリソースで文字認識することを目的とする。
Second Embodiment
An example of a character recognition device 10A according to the second embodiment will be described with reference to Figs. 11 to 13. The character recognition device 10A according to the second embodiment performs character recognition of a character string S included in an input image IM using a beam search algorithm. Here, when candidate characters C are calculated for each of a plurality of characters C included in the character string S and a combination of the candidates for each character C is set as a candidate character string CS, there is a problem that the more characters C included in the character string S, the more candidate character strings CS there are. When the number of candidate character strings CS increases, it takes time and resources to select a selection character string SS. Therefore, in this embodiment, the beam search algorithm is used to perform character recognition with less time and resources.
図11は、第2の実施形態に係るビームサーチについて説明するための図である。同図を参照しながら、第2の実施形態に係るビームサーチについて説明する。本実施形態において、文字認識装置10Aは、入力画像IMを複数の部分入力画像IMPに区切り、文字認識を行う。同図に示す一例では、入力画像IMは、部分入力画像IMP-1と、部分入力画像IMP-2と、部分入力画像IMP-3とに区切られる。部分入力画像IMPは、例えば所定のピクセル数に応じて区切られていてもよい。所定のピクセル数は、文字Cが記載されるであろう幅に応じて定められていてもよい。 FIG. 11 is a diagram for explaining beam search according to the second embodiment. Beam search according to the second embodiment will be explained with reference to the same figure. In this embodiment, the character recognition device 10A divides the input image IM into a plurality of partial input images IMP and performs character recognition. In the example shown in the same figure, the input image IM is divided into partial input images IMP-1, IMP-2, and IMP-3. The partial input images IMP may be divided according to, for example, a predetermined number of pixels. The predetermined number of pixels may be determined according to the width in which the letter C is likely to be written.
具体的には、まず、文字認識装置10Aは、入力画像IMのうち、部分入力画像IMP-1について、1以上の選択文字列SSを選択する。次に、文字認識装置10Aは、部分入力画像IMP-1と、部分入力画像IMP-2とについて、1以上の選択文字列SSを選択する。このとき、部分入力画像IMP-1については、すでに1以上の選択文字列SSが選択されているため、部分入力画像IMP-1と、部分入力画像IMP-2とについての候補文字列CSは少なくなる。更に、文字認識装置10Aは、部分入力画像IMP-1と、部分入力画像IMP-2と、部分入力画像IMP-3とについて、最終的な選択文字列SSを選択する。このとき、部分入力画像IMP-1と、部分入力画像IMP-2とについては、すでに1以上の選択文字列SSが選択されているため、部分入力画像IMP-1と、部分入力画像IMP-2、部分入力画像IMP-3とについての候補文字列CSは少なくなる。このように、本実施形態においては、部分入力画像IMPごとに候補となる文字列Sを絞っていくことにより、全体の処理時間を短くする。 Specifically, first, character recognition device 10A selects one or more selected character strings SS for partial input image IMP-1 of input image IM. Next, character recognition device 10A selects one or more selected character strings SS for partial input image IMP-1 and partial input image IMP-2. At this time, one or more selected character strings SS have already been selected for partial input image IMP-1, so the number of candidate character strings CS for partial input image IMP-1 and partial input image IMP-2 is reduced. Furthermore, character recognition device 10A selects final selected character strings SS for partial input image IMP-1, partial input image IMP-2, and partial input image IMP-3. At this time, one or more selected character strings SS have already been selected for partial input image IMP-1 and partial input image IMP-2, so the number of candidate character strings CS for partial input image IMP-1, partial input image IMP-2, and partial input image IMP-3 is reduced. In this way, in this embodiment, the overall processing time is shortened by narrowing down the candidate character strings S for each partial input image IMP.
図12は、第2の実施形態に係るビームサーチにおいて、部分入力画像毎の整合性スコアについて説明するための図である。同図を参照しながら、入力画像IMに“川崎市”と記載されている場合における、部分入力画像IMP毎の整合性スコアについて説明する。図12(A)は、文字認識装置10Aが、部分入力画像IMP-1について文字認識を行った場合における候補文字列CSと整合性スコアの対応関係を示し、図12(B)は、文字認識装置10Aが、部分入力画像IMP-1と、部分入力画像IMP-2とについて文字認識を行った場合における候補文字列CSと整合性スコアの対応関係を示す。ここで、整合性スコアとは、選択部140が選択文字列SSを選択する際に用いるスコアであって、例えば、第1スコアS1と第2スコアS2とを乗じたスコアである。
Figure 12 is a diagram for explaining the consistency score for each partial input image in the beam search according to the second embodiment. With reference to the figure, the consistency score for each partial input image IMP in the case where the input image IM contains "Kawasaki City" will be explained. Figure 12 (A) shows the correspondence between the candidate character strings CS and the consistency scores when the character recognition device 10A performs character recognition on the partial input image IMP-1, and Figure 12 (B) shows the correspondence between the candidate character strings CS and the consistency scores when the character recognition device 10A performs character recognition on the partial input images IMP-1 and IMP-2. Here, the consistency score is a score used by the
図12(A)において、文字認識装置10Aは、候補文字列CS-11として“川”を、候補文字列CS-12として“川1”を、候補文字列CS-13として“ノリ”を算出する。それぞれの候補文字列CSの整合性スコアは、それぞれ“1.0”、“0.3”、“1.0”である。文字認識装置10Aは、尤もらしい文字列である候補文字列CS-11と、候補文字列CS-13とを選択文字列SSとして選択する。換言すれば、文字認識装置10Aは、候補文字列C-12を、候補から除外する。 In FIG. 12(A), character recognition device 10A calculates "川" as candidate string CS-11, "川1" as candidate string CS-12, and "ノリ" as candidate string CS-13. The consistency scores of each candidate string CS are "1.0", "0.3", and "1.0", respectively. Character recognition device 10A selects candidate string CS-11, which is the most likely string, and candidate string CS-13 as selected strings SS. In other words, character recognition device 10A excludes candidate string CS-12 from the candidates.
図12(B)において、文字認識装置10Aは、候補文字列CS-21として“川山崎”を、候補文字列CS-22として“川崎”を、候補文字列CS-23として“ノリ山崎”を、候補文字列CS-24として“ノリ崎”を、候補文字列CS-25として“川山奇”を、候補文字列CS-26として“ノリ山奇”を算出する。それぞれの候補文字列CSの整合性スコアは、それぞれ“0.1”、“1.0”、“0.1”、“1.0”、“1.0”、“1.0”である。文字認識装置10Aは、尤もらしい文字列である候補文字列CS-22と、候補文字列CS-24と、候補文字列CS-25と、候補文字列CS-26とを選択文字列SSとして選択する。換言すれば、文字認識装置10Aは、候補文字列C-21と、候補文字列CS-23とを、候補から除外する。ここで、部分入力画像IMP-1の検討において、候補文字列CS-12である“川1”が候補から除外されているため、部分入力画像IMP-1と部分入力画像IMP-2との検討において、候補となる文字列Sを少なくすることができる。 12B, character recognition device 10A calculates "Kawayamazaki" as candidate character string CS-21, "Kawasaki" as candidate character string CS-22, "Noriyamazaki" as candidate character string CS-23, "Norizaki" as candidate character string CS-24, "Kawayamaki" as candidate character string CS-25, and "Noriyamaki" as candidate character string CS-26. The consistency scores of each candidate character string CS are "0.1", "1.0", "0.1", "1.0", "1.0", and "1.0", respectively. Character recognition device 10A selects candidate character strings CS-22, CS-24, CS-25, and CS-26, which are likely character strings, as the selected character string SS. In other words, character recognition device 10A excludes candidate character strings C-21 and CS-23 from the candidates. Here, because candidate character string CS-12, "川1", has been excluded from the candidates when examining partial input image IMP-1, the number of candidate character strings S can be reduced when examining partial input image IMP-1 and partial input image IMP-2.
図13は、第2の実施形態に係る文字認識システムの一連の動作を示すフローチャートである。同図を参照しながら、第2の実施形態に係る文字認識システム1Aの一連の動作について説明する。ステップS100は、図5において説明した第1の実施形態に係る文字認識システムの動作と同様であるため、説明を省略する。 FIG. 13 is a flowchart showing a series of operations of the character recognition system according to the second embodiment. With reference to the same figure, a series of operations of the character recognition system 1A according to the second embodiment will be described. Step S100 is similar to the operation of the character recognition system according to the first embodiment described in FIG. 5, and therefore description thereof will be omitted.
(ステップS210)文字認識装置10Aは、xをδとする。δは、部分入力画像IMPの範囲を示す所定の整数である。xは、文字認識装置10Aが文字認識する範囲を示す。本フローチャートにおいて、文字認識装置10Aは、まず0からxまでの範囲について候補文字列CSを算出する。ここで、文字認識装置10Aが文字認識する範囲であるxは、図11を参照しながら説明した一例における部分入力画像IMPに相当する。 (Step S210) Character recognition device 10A sets x to δ. δ is a predetermined integer indicating the range of the partial input image IMP. x indicates the range of characters recognized by character recognition device 10A. In this flowchart, character recognition device 10A first calculates candidate character string CS for the range from 0 to x. Here, x, which is the range of characters recognized by character recognition device 10A, corresponds to the partial input image IMP in the example described with reference to FIG. 11.
(ステップS220)文字認識装置10Aは、候補集合Φに、から集合(空集合)を設定する。 (Step S220) The character recognition device 10A sets the candidate set Φ to an empty set (empty set).
(ステップS230)文字認識装置10Aが備える第1スコア算出部110は、部分入力画像IMPに含まれる複数の候補文字列CSのうち、それぞれの候補文字列CSについて、第1スコアS1を算出する。すなわち、候補文字列CSをyn、第1スコアS1をαnとした場合、第1スコア算出部110は、(y1,α1)…(yn,αn)を算出する。
(Step S230) First
(ステップS240)文字認識装置10Aは、部分入力画像IMPにおける選択文字列SSを選択する。文字認識装置10Aは、具体的には、γiの大きいR個のyiとγiの組を選択し、候補集合Φとする。Rは、次の部分入力画像IMPについて文字認識をする場合に候補とする文字列の数である。Rを小さくすれば処理時間を短くすることができるが、小さすぎると誤認識の可能性が高まる場合がある。 (Step S240) The character recognition device 10A selects a selection character string SS in the partial input image IMP. Specifically, the character recognition device 10A selects R pairs of y i and γ i with large γ i , and sets them as a candidate set Φ. R is the number of character strings to be candidates when performing character recognition on the next partial input image IMP. By making R smaller, the processing time can be shortened, but if R is too small, the possibility of erroneous recognition may increase.
(ステップS250)文字認識装置10Aは、入力画像IMの全部について文字認識を行ったか否かを判定する。具体的には、文字認識装置10Aは、xがWより小さい場合には、処理をステップS270に進める。文字認識装置10Aは、xがWより小さくない場合には、処理をステップS260に進める。 (Step S250) Character recognition device 10A determines whether character recognition has been performed on the entire input image IM. Specifically, if x is smaller than W, character recognition device 10A proceeds to step S270. If x is not smaller than W, character recognition device 10A proceeds to step S260.
(ステップS270)文字認識装置10Aは、文字認識を行う範囲を、広げる。具体的には、文字認識装置10Aは、xにδを足した値をxとし、処理をステップS230に進める。 (Step S270) Character recognition device 10A expands the range in which character recognition is performed. Specifically, character recognition device 10A sets the value obtained by adding δ to x as x, and proceeds to step S230.
(ステップS260)文字認識装置10Aは、γkが最大となる文字列ykを、選択文字列SSとして出力する。 (Step S260) The character recognition device 10A outputs the character string y k with the maximum γ k as a selected character string SS.
[第2の実施形態のまとめ]
上述した実施形態によれば、文字認識装置10Aに備えられる第1スコア算出部110は、入力画像IMの一部である部分入力画像IMPについて、第1スコアS1を算出する。換言すれば、第1スコア算出部110は、入力画像IMに含まれる文字列Sを構成する複数の文字Cのうち、一部の文字を含む文字列Sの候補である候補文字列CSの第1スコアS1を算出する。また、文字認識装置10Aに備えられる第2スコア算出部130は、入力画像IMの一部である部分入力画像IMPについて、第2スコアS2を算出する。換言すれば、第2スコア算出部130は、入力画像IMに含まれる文字列Sを構成する複数の文字Cのうち、一部の文字を含む文字列Sの候補である候補文字列CSの第2スコアS2を算出する。文字認識装置10Aは、入力画像IMの部分ごとに候補文字列CSを算出するため、入力画像IMに含まれる文字列全体の候補の数を少なくすることができる。よって、本実施形態によれば、ビームサーチアルゴリズムを用いることにより、少ない時間とリソースで文字認識することができる。
[Summary of the second embodiment]
According to the above-described embodiment, the first
[第3の実施形態]
図14及び図15を参照しながら、第3の実施形態に係る文字認識装置10Bの一例について説明する。第3の実施形態においては、入力画像IMに、基準となる文字の間隔又は記載すべき文字の領域が定められている点において、他の実施形態と異なる。本実施形態においては、基準となる文字の間隔又は記載すべき文字の領域に基づいて文字認識を行うことにより、入力画像IMに含まれる文字Cを、より正しく文字認識することを目的とする。
[Third embodiment]
An example of a character recognition device 10B according to the third embodiment will be described with reference to Figures 14 and 15. The third embodiment differs from the other embodiments in that a reference character spacing or a character area to be written is defined in the input image IM. The present embodiment aims to perform character recognition based on the reference character spacing or the character area to be written, thereby more accurately recognizing the character C included in the input image IM.
図14は、第3の実施形態に係る入力画像IMの一例を示す図である。同図を参照しながら、入力画像IMに定められた、基準となる文字の間隔又は記載すべき文字の領域について説明する。図14(A)は、本実施形態における入力画像IMの一例である。図14(B)は、本実施形態における入力画像IMに文字が記載された場合の一例である。 Figure 14 is a diagram showing an example of an input image IM according to the third embodiment. With reference to the figure, the reference character spacing or the area of the character to be written, which is determined in the input image IM, will be described. Figure 14 (A) is an example of an input image IM in this embodiment. Figure 14 (B) is an example of an input image IM in this embodiment in which characters are written.
図14(A)に示す入力画像IMは、複数の文字入力領域IARを含む。具体的には、入力画像IMは、文字入力領域IAR1と、文字入力領域IAR2と、文字入力領域IAR3とを含む。文字入力領域IARは、例えば、入力画像IMに文字列Sを記載するユーザに対し、文字を記載する際の基準として与えられる。すなわち、文字入力領域IARにより、基準となる文字の間隔又は記載すべき文字の領域が定められる。以後の説明において、文字入力領域IARを、“枠”と記載する場合がある。 The input image IM shown in FIG. 14(A) includes multiple character input areas IAR. Specifically, the input image IM includes character input area IAR1, character input area IAR2, and character input area IAR3. The character input area IAR is provided, for example, to a user who writes a character string S in the input image IM as a reference for writing characters. In other words, the character input area IAR determines the reference character spacing or the area of the characters to be written. In the following explanation, the character input area IAR may be referred to as a "frame."
図14(B)に示す入力画像IMには、文字Cが記載されている。具体的には、文字入力領域IAR1には文字C-1が記載され、文字入力領域IAR2には文字C-2が記載され、文字入力領域IAR3には文字C-3が記載されている。文字C-1は“川”であり、文字C-2は“崎”であり、文字C-3は“市”である。 The character C is written in the input image IM shown in FIG. 14(B). Specifically, the character C-1 is written in the character input area IAR1, the character C-2 is written in the character input area IAR2, and the character C-3 is written in the character input area IAR3. The character C-1 is "川", the character C-2 is "崎", and the character C-3 is "市".
図15は、第3の実施形態に係る第2スコアの一例を示す図である。同図を参照しながら、第2スコア算出部130が算出する第2スコアS2について説明する。同図に示す一例において、候補文字列算出部22は、“川山奇市”と、“川崎市”との候補文字列CSを算出する。
FIG. 15 is a diagram showing an example of the second score according to the third embodiment. The second score S2 calculated by the second
候補文字列CSが“川山奇市”である場合、文字入力領域IAR1には文字領域CA1-1が含まれ、文字入力領域IAR2には文字領域CA2-1及び文字領域CA3-1が含まれ、文字入力領域IAR3には文字領域CA4-1が含まれる。この場合、文字入力領域IAR2には文字領域CA2-1及び文字領域CA3-1が含まれるため、1つの枠(文字入力領域IAR)に、2つの文字領域CAが存在する。この場合、第2スコア算出部130は、1つの枠に複数の文字領域CAが存在する場合、小さい方の文字領域CAと枠領域との重複量をm(y)とし、下の式(4)に基づき、整合性スコアPBOXを算出する。
When the candidate character string CS is "川山奇市", character input area IAR1 includes character area CA1-1, character input area IAR2 includes character area CA2-1 and character area CA3-1, and character input area IAR3 includes character area CA4-1. In this case, character input area IAR2 includes character area CA2-1 and character area CA3-1, so two character areas CA exist in one frame (character input area IAR). In this case, when multiple character areas CA exist in one frame, second
ここでCBPは0から1の定数であり、小さいほど整合性スコアPBOXは小さくなる。CBPの値は実験的に求められてもよい。 Here, CBP is a constant between 0 and 1, and the smaller CBP is, the smaller the match score PBOX becomes. The value of CBP may be determined experimentally.
ここで、選択部140が、更に整合性スコアPBOXに基づき、選択文字列SSを選択する場合の一例について説明する。この場合、選択部140は、下の式(5)に基づき、選択文字列SSを選択する。
Here, an example will be described in which the
すなわち、本実施形態において、第2スコア算出部130は、候補文字列CSに含まれる文字Cそれぞれに対応する領域である文字領域CAと、文字入力領域IARとに基づいて、第2スコアS2を算出する。
That is, in this embodiment, the second
[第3の実施形態のまとめ]
上述した実施形態によれば、文字認識装置10Bは、第2スコア算出部130を備えることにより、文字領域CAと、文字入力領域IARとに基づいて、第2スコアS2を算出する。例えば、第2スコア算出部130は、1つの枠に複数文字が含まれるような場合は、第2スコアS2の値を低く算出する。第2スコア算出部130は、1つの枠に複数文字が含まれるような場合に第2スコアS2の値を低く算出することにより、漢字の偏や旁等に分けて文字認識してしまうような誤認識を抑止することができる。したがって、本実施形態によれば、入力画像IMに含まれる文字Cを、より正しく文字認識することができる。
[Summary of the third embodiment]
According to the above-described embodiment, the character recognition device 10B includes the second
[第4の実施形態]
図16及び図17を参照しながら、第4の実施形態について説明する。第4の実施形態では、文字領域推定部120の具体例について説明する。図16を参照しながら文字領域推定部120の一例について説明し、図17を参照しながら文字領域推定部120の変形例について説明する。
[Fourth embodiment]
A fourth embodiment will be described with reference to Fig. 16 and Fig. 17. In the fourth embodiment, a specific example of character
図16は、第4の実施形態に係る文字領域推定部の動作の一例を説明するための図である。同図を参照しながら文字領域推定部120の一例について説明する。まず、入力データDIがニューラルネットワークNN1に入力される。この一例において、入力データDIが文字列の画像である場合の一例について説明する。具体的には、入力データDIが、“川崎市”と左から右に横方向に手書きされた文字列画像である場合の一例について説明する。
Figure 16 is a diagram for explaining an example of the operation of the character region estimation unit according to the fourth embodiment. An example of the character
ニューラルネットワークNN1は、入力された文字列の特徴量Fの系列を算出する。入力データDIが左から右に横方向に手書きされた文字列画像である場合、ニューラルネットワークNN1は、左方向から右方向に特徴量Fの系列を、判定範囲の幅分だけ認識していく。この一例において、ニューラルネットワークNN1は、特徴量F1から特徴量F6までの特徴量を算出する。ここで、ニューラルネットワークNN1は、入力データDIの行の長さに応じた数の特徴量Fを算出する。 The neural network NN1 calculates a series of feature values F for the input character string. When the input data DI is a character string image handwritten horizontally from left to right, the neural network NN1 recognizes the series of feature values F from left to right for the width of the judgment range. In this example, the neural network NN1 calculates feature values F1 to F6. Here, the neural network NN1 calculates a number of feature values F according to the length of the line of the input data DI.
ニューラルネットワークNN2は、ニューラルネットワークNN1により算出された特徴量Fごとに確率分布Pを算出する。この一例において、ニューラルネットワークNN1は、特徴量F1から特徴量F6までの特徴量を算出するため、ニューラルネットワークNN2は、特徴量F1に対応する確率分布P1から、特徴量F6に対応する確率分布P6までを算出する。 The neural network NN2 calculates a probability distribution P for each feature F calculated by the neural network NN1. In this example, the neural network NN1 calculates features F1 to F6, so the neural network NN2 calculates probability distributions P1 corresponding to feature F1 to P6 corresponding to feature F6.
CTC(Connectionist Temporal Classification)80は、算出されたそれぞれの確率分布を統合し、入力データDIに対応する文字列の確率分布Pを算出し、算出された確率分布Pから認識される文字列を出力データDOとして出力する。 CTC (Connectionist Temporal Classification) 80 integrates each of the calculated probability distributions, calculates a probability distribution P of the character string corresponding to the input data DI, and outputs the character string recognized from the calculated probability distribution P as output data DO.
推定部85は、ニューラルネットワークNN1により算出された特徴量Fを取得する。推定部85は、ニューラルネットワークNN3により、取得した特徴量Fから、所定のラベルが付与されるべき要素が存在しうる範囲を推定する。
The
推定部85は、CTC80により認識された出力データDOのそれぞれのラベルと、それぞれの特徴量Fとを対応付ける。推定部85は、出力データDOのラベル列のうち一のラベルが複数の特徴量Fに対応づけられる場合、当該一のラベルに対応付けられた複数の特徴量Fから推定された範囲を統合し、出力する。推定部85により出力された出力結果は、入力データDIのうち、それぞれのラベルの範囲が特定されている。同図に示す一例では、範囲A1は“川”の範囲を特定し、範囲A2は“崎”の範囲を特定し、範囲A3は“市”の範囲を特定する。
The
図17は、第4の実施形態に係る文字領域推定部の動作の変形例を説明するための図である。同図を参照しながら、文字領域推定部120の動作の変形例について説明する。文字領域推定部120の動作の変形例では、物体検出を応用して文字領域の推定を行う。
Figure 17 is a diagram for explaining a modified example of the operation of the character region estimation unit according to the fourth embodiment. With reference to the figure, a modified example of the operation of the character
まず、入力データDIがニューラルネットワークNN4に入力される。この一例において、入力データDIが文字列の画像である場合の一例について説明する。具体的には、入力データDIが、“川崎”と左から右に横方向に手書きされた文字列画像である場合の一例について説明する。ニューラルネットワークNN4は、検出DNN(Deep Neural Network)である。ニューラルネットワークNN4は、画像を入力として、複数の候補矩形Rと、それぞれの候補矩形Rに対応する文字のスコアとを出力する。 First, input data DI is input to neural network NN4. In this example, an example will be described in which the input data DI is an image of a character string. Specifically, an example will be described in which the input data DI is an image of a character string "Kawasaki" handwritten horizontally from left to right. The neural network NN4 is a detection DNN (Deep Neural Network). The neural network NN4 receives an image as input, and outputs multiple candidate rectangles R and the scores of the characters corresponding to each candidate rectangle R.
具体的には、ニューラルネットワークNN4は、候補矩形R1と、候補矩形R2と、候補矩形R3と、候補矩形R4と、候補矩形R5と、候補矩形R6と、それぞれの候補矩形Rに対応する文字のスコアとを出力する。より具体的には、候補矩形R1に対応する文字“川”であるスコア“0.8”、及び文字“州”であるスコア“0.1”と、候補矩形R2に対応する文字“り”であるスコア“0.5”、及び文字“い”であるスコア“0.2”と、候補矩形R3に対応する文字“1”であるスコア“0.3”、及び文字“ノ”であるスコア“0.1”と、候補矩形R4に対応する文字“崎”であるスコア“0.8”、及び文字“埼”であるスコア“0.1”と、候補矩形R5に対応する文字“山”であるスコア“0.5”、及び文字“凸”であるスコア“0.1”と、候補矩形R6に対応する文字“奇”であるスコア“0.7”、及び文字“嵜”であるスコア“0.1”とを出力する。 Specifically, the neural network NN4 outputs candidate rectangle R1, candidate rectangle R2, candidate rectangle R3, candidate rectangle R4, candidate rectangle R5, candidate rectangle R6, and character scores corresponding to each candidate rectangle R. More specifically, the character "川" corresponding to candidate rectangle R1 has a score of "0.8" and the character "周" has a score of "0.1", the character "り" corresponding to candidate rectangle R2 has a score of "0.5" and the character "い" has a score of "0.2", the character "1" corresponding to candidate rectangle R3 has a score of "0.3" and the character "ノ" has a score of "0.1", the character "崎" corresponding to candidate rectangle R4 has a score of "0.8" and the character "崎" has a score of "0.1", the character "山" corresponding to candidate rectangle R5 has a score of "0.5" and the character "凸" has a score of "0.1", and the character "奇" corresponding to candidate rectangle R6 has a score of "0.7" and the character "嵜" has a score of "0.1".
[第4の実施形態のまとめ]
上述した実施形態によれば、文字領域推定部120は、推定部85を備えることにより、入力データDIから取得した特徴量Fに基づき、文字Cが存在しうる領域を推定し、文字Cを複数の特徴量Fのうち少なくとも1つと対応づけ、一のラベルに対応づけられた、複数の範囲を統合することにより、それぞれの文字Cに対応する領域を特定する。本実施形態を用いることにより、ビームサーチアルゴリズムによる効率的な探索をすることができる。また、本実施形態による文字領域の推定は、容易に実装することができる。
[Summary of the Fourth Embodiment]
According to the above-described embodiment, the character
また、上述した実施形態によれば、文字領域推定部120は、画像を入力として、複数の候補矩形Rと、それぞれの候補矩形Rに対応する文字のスコアとを出力する。本実施形態を用いることにより、少ないリソースで文字領域の推定をすることができる。
Furthermore, according to the above-described embodiment, the character
[第5の実施形態]
図18から図20を参照しながら、第5の実施形態について説明する。第5の実施形態では、文字らしさマップ生成部1321が生成する文字らしさマップCLMの変形例について説明する。図18は、第5の実施形態に係る文字らしさマップの変形例について説明するための図である。図18(A)は、第1の実施形態において説明した文字らしさマップCLMである。
[Fifth embodiment]
The fifth embodiment will be described with reference to Fig. 18 to Fig. 20. In the fifth embodiment, a modified example of the character-likeliness map CLM generated by the character-likeliness
図18(B)は、第5の実施形態に係る文字らしさマップCLMの第1の変形例である文字らしさマップCLM1である。文字らしさマップCLM1は、複数のピクセルから構成される領域ごとに文字らしさが階調表現されている点において、文字らしさマップCLMとは異なる。このように、文字らしさマップCLM1は、入力画像IMのうち、所定の範囲ごとに文字らしさが算出されていてもよい。 Fig. 18(B) shows a character-likeness map CLM1, which is a first modified example of the character-likeness map CLM according to the fifth embodiment. The character-likeness map CLM1 differs from the character-likeness map CLM in that the character-likeness is expressed in gradations for each region made up of multiple pixels. In this way, the character-likeness map CLM1 may be calculated for each predetermined range of the input image IM.
図18(C)は、第5の実施形態に係る文字らしさマップCLMの第2の変形例である文字らしさマップCLM2である。文字らしさマップCLM2は、入力画像IMのx座標と、各x座標における黒画素数との対応関係を含む。すなわち、文字らしさマップCLM2は、輝度ヒストグラムであってもよい。本実施形態において、入力画像IMは、横書きされた文字であるため、文字が記載された方向であるX座標を用いる。入力画像IMが縦書きされた文字である場合はY座標を用いてもよい。文字らしさマップCLM2は、各X座標における黒画素数の情報を用いるため、容易に文字らしさマップCLM2を作成することができる。 Fig. 18C shows a character-likeness map CLM2, which is a second modified example of the character-likeness map CLM according to the fifth embodiment. The character-likeness map CLM2 includes a correspondence between the x-coordinate of the input image IM and the number of black pixels at each x-coordinate. That is, the character-likeness map CLM2 may be a luminance histogram. In this embodiment, the input image IM is a character written horizontally, so the X-coordinate, which is the direction in which the character is written, is used. If the input image IM is a character written vertically, the Y-coordinate may be used. The character-likeness map CLM2 uses information on the number of black pixels at each X-coordinate, so the character-likeness map CLM2 can be easily created.
図18(D)は、第5の実施形態に係る文字らしさマップCLMの第3の変形例である文字らしさマップCLM3である。文字らしさマップCLM3は、文字らしさマップCLM2を、0から1の値をとるよう正規化したものである。 Fig. 18(D) shows a character-likeliness map CLM3, which is a third modified example of the character-likeliness map CLM according to the fifth embodiment. The character-likeliness map CLM3 is obtained by normalizing the character-likeliness map CLM2 so that it takes values between 0 and 1.
その他、文字らしさマップCLMは、入力画像IMをグリッド状の小領域に分割したものであって、各小領域ごとの黒画素の総数に基づいていてもよい。 Alternatively, the character-likeness map CLM may be obtained by dividing the input image IM into small grid-like regions, and may be based on the total number of black pixels in each small region.
図19は、第5の実施形態に係る文字らしさマップ生成部の変形例の機能構成の一例を示す図である。同図を参照しながら、文字らしさマップ生成部1321の変形例である文字らしさマップ生成部1321Aについて説明する。文字らしさマップ生成部1321Aは、文字らしさ算出ニューラルネットワークDNNを備える点において、文字らしさマップ生成部1321とは異なる。
Fig. 19 is a diagram showing an example of the functional configuration of a modified example of the character-likeliness map generating unit according to the fifth embodiment. With reference to the figure, the character-likeliness
文字らしさ算出ニューラルネットワークDNNは、予め文字らしさを予測できるよう学習されたニューラルネットワークである。図20は、第5の実施形態に係る入力データDIと教師データDTの一例を示す図である。入力データDIの一例と、教師データDTの一例について、図を参照しながら説明する。 The character-likeness calculation neural network DNN is a neural network that has been trained in advance to predict character-likeness. FIG. 20 is a diagram showing an example of input data DI and teacher data DT according to the fifth embodiment. An example of input data DI and an example of teacher data DT will be described with reference to the diagram.
図20に示す一例において、入力データDI1は教師データDT1に対応し、入力データDI2は教師データDT2に対応する。入力データDI1には、文字C-11と、文字C-12とが含まれ、教師データDT1には、文字C-11に対応する領域AR11と、文字C-12に対応する領域AR12とが含まれる。入力データDI2には、文字C-21と、文字C-22と、文字C-23とが含まれ、教師データDT2には、文字C-21に対応する領域AR21と、文字C-22に対応する領域AR22と、文字C-23に対応する領域AR23とが含まれる。 In the example shown in FIG. 20, input data DI1 corresponds to teacher data DT1, and input data DI2 corresponds to teacher data DT2. Input data DI1 includes characters C-11 and C-12, and teacher data DT1 includes area AR11 corresponding to character C-11 and area AR12 corresponding to character C-12. Input data DI2 includes characters C-21, C-22, and C-23, and teacher data DT2 includes area AR21 corresponding to character C-21, area AR22 corresponding to character C-22, and area AR23 corresponding to character C-23.
[第5の実施形態のまとめ]
上述した実施形態によれば、文字らしさマップCLM1、文字らしさマップCLM2、又は文字らしさマップCLM3を用いることにより、文字らしさマップ生成部1321は、容易に文字らしさマップCLMを生成することができる。
[Summary of the Fifth Embodiment]
According to the embodiment described above, the character-likeliness
また、上述した実施形態によれば、文字らしさマップ生成部1321は、文字らしさ算出ニューラルネットワークDNNを備えることにより、機械学習により文字らしさマップCLMを生成することができる。上述した実施形態によれば、機械学習を用いるため、ノイズに強く、誤認識することを抑止することができる。また、上述した実施形態によれば、機械学習を用いるため、異なる背景の入力画像IMについても、正しく認識することができる。
Furthermore, according to the above-described embodiment, the character-likeness
以上説明してきたように、実施形態では、複数の変形例を記載した。ここで、組み合わせることが可能な限りにおいて、複数の実施形態及び複数の変形例を組み合わせて実施するようにしてもよい。 As explained above, multiple modified examples are described in the embodiment. Here, multiple embodiments and multiple modified examples may be combined to the extent that they are possible to combine.
なお、上述した実施形態における情報処理装置の機能をコンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM、DVD-ROM、USBメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。 The functions of the information processing device in the above-mentioned embodiment may be realized by a computer. In that case, a program for realizing the functions may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read into a computer system and executed to realize the functions. The term "computer system" here includes hardware such as an OS and peripheral devices. The term "computer-readable recording medium" refers to portable media such as flexible disks, optical magnetic disks, ROMs, CD-ROMs, DVD-ROMs, and USB memories, and storage devices such as hard disks built into computer systems. The term "computer-readable recording medium" may also include devices that dynamically hold a program for a short period of time, such as a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line, and devices that hold a program for a certain period of time, such as a volatile memory inside a computer system that is a server or client in such a case. The above-mentioned program may be for realizing part of the above-mentioned functions, or may be capable of realizing the above-mentioned functions in combination with a program already recorded in the computer system.
以上説明した少なくともひとつの実施形態によれば、第1スコア算出部と、文字領域推定部と、第2スコア算出部と、選択部とを持つことにより、入力画像に含まれる文字を正しく文字認識することができる。 According to at least one of the embodiments described above, by having a first score calculation unit, a character area estimation unit, a second score calculation unit, and a selection unit, it is possible to correctly recognize characters contained in an input image.
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。 Although several embodiments of the present invention have been described, these embodiments are presented as examples and are not intended to limit the scope of the invention. These embodiments can be implemented in various other forms, and various omissions, substitutions, and modifications can be made without departing from the gist of the invention. These embodiments and their modifications are within the scope of the invention and its equivalents as set forth in the claims, as well as the scope and gist of the invention.
1…文字認識システム、10…文字認識装置、21…入力画像取得部、22…候補文字列算出部、23…出力部、24…入力規則情報記憶部、110…第1スコア算出部、120…文字領域推定部、130…第2スコア算出部、140…選択部、111…文字認識スコア算出部、112…知識処理スコア算出部、113…第1スコア統合部、131…重複読みスコア算出部、132…読み飛ばしスコア算出部、133…第2スコア統合部、1321…文字らしさマップ生成部、1322…読み飛ばしスコア統合部、IM…入力画像、S…文字列、C…文字、CS…候補文字列、CA…文字領域、S1…第1スコア、S2…第2スコア、S11…文字認識スコア、S12…知識処理スコア、S21…重複読みスコア、S22…読み飛ばしスコア、SS…選択文字列、IR…入力規則、IAR…文字入力領域、CLM…文字らしさマップ、MSK…マスク、IMP…部分入力画像 1...character recognition system, 10...character recognition device, 21...input image acquisition unit, 22...candidate character string calculation unit, 23...output unit, 24...input rule information storage unit, 110...first score calculation unit, 120...character area estimation unit, 130...second score calculation unit, 140...selection unit, 111...character recognition score calculation unit, 112...knowledge processing score calculation unit, 113...first score integration unit, 131...overlapping reading score calculation unit, 132...skipping score calculation unit, 133...second score integration unit , 1321...character-likeness map generation unit, 1322...skipping score integration unit, IM...input image, S...character string, C...character, CS...candidate character string, CA...character area, S1...first score, S2...second score, S11...character recognition score, S12...knowledge processing score, S21...overlapping reading score, S22...skipping score, SS...selected character string, IR...input rule, IAR...character input area, CLM...character-likeness map, MSK...mask, IMP...partial input image
Claims (7)
前記入力画像の領域のうち、前記候補文字列に含まれる文字それぞれに対応する領域を推定する文字領域推定部と、
前記文字領域推定部により推定された領域に基づいて、前記候補文字列に含まれる文字の整合性を示す第2スコアを算出する第2スコア算出部と、
算出された前記第1スコアと前記第2スコアとに基づいて、複数の前記候補文字列のうち1以上の文字列を選択する選択部とを備え、
前記入力画像は、複数の文字入力領域を含み、
前記第2スコア算出部は、前記候補文字列に含まれる文字それぞれに対応する領域と、前記文字入力領域とに基づいて、前記第2スコアを算出する
文字認識装置。 a first score calculation unit that calculates a first score indicating a likelihood of a character string, the first score being a candidate for a character string included in an input image;
a character region estimation unit that estimates regions of the input image corresponding to each of the characters included in the candidate character string;
a second score calculation unit that calculates a second score indicating consistency of characters included in the candidate character string based on the region estimated by the character region estimation unit;
a selection unit that selects one or more character strings from among the plurality of candidate character strings based on the calculated first score and the calculated second score ,
the input image includes a plurality of character input areas;
The second score calculation unit calculates the second score based on an area corresponding to each character included in the candidate character string and the character input area.
Character recognition device.
請求項1に記載の文字認識装置。 The character recognition device according to claim 1 , wherein the first score calculation unit calculates the first score of the candidate character string included in a partial input image that is a part of the input image.
前記候補文字列に含まれる文字それぞれに対応する領域が互いに重なり合う量に基づいて、前記第2スコアを算出する
請求項1又は請求項2に記載の文字認識装置。 The second score calculation unit,
The character recognition device according to claim 1 or 2, wherein the second score is calculated based on an amount of overlap between regions corresponding to the characters included in the candidate character string.
前記候補文字列に含まれる文字と、前記文字領域推定部により推定された領域とに基づいて、前記第2スコアを算出する
請求項1から請求項3のいずれか一項に記載の文字認識装置。 The second score calculation unit,
The character recognition device according to claim 1 , wherein the second score is calculated based on characters included in the candidate character string and a region estimated by the character region estimation unit.
前記入力画像の領域に何らかの文字が存在する尤もらしさに基づいて、前記第2スコアを算出する
請求項4に記載の文字認識装置。 The second score calculation unit,
The character recognition device according to claim 4 , wherein the second score is calculated based on the likelihood that a character exists in the region of the input image.
コンピュータが、前記入力画像の領域のうち、前記候補文字列に含まれる文字それぞれに対応する領域を推定する文字領域推定工程と、
コンピュータが、推定された領域に基づいて、前記候補文字列に含まれる文字の整合性を示す第2スコアを算出する第2スコア算出工程と、
コンピュータが、算出された前記第1スコアと前記第2スコアとに基づいて、複数の前記候補文字列のうち1以上の文字列を選択する選択工程とを有し、
前記入力画像は、複数の文字入力領域を含み、
前記第2スコア算出工程は、前記候補文字列に含まれる文字それぞれに対応する領域と、前記文字入力領域とに基づいて、前記第2スコアを算出する
文字認識方法。 a first score calculation step in which the computer calculates a first score indicating a likelihood of a character string, the first score being a candidate for a character string included in the input image for each of a plurality of candidate character strings;
a character region estimation step of estimating , by a computer, regions of the input image corresponding to each of the characters included in the candidate character string;
a second score calculation step of calculating a second score indicating consistency of characters included in the candidate character string based on the estimated region by the computer ;
a selection step of selecting one or more character strings from among the plurality of candidate character strings based on the calculated first score and the calculated second score ,
the input image includes a plurality of character input areas;
The second score calculation step calculates the second score based on an area corresponding to each character included in the candidate character string and the character input area.
Character recognition methods.
文字列の尤もらしさを示す第1スコアであって、入力画像に含まれる文字列の候補である複数の候補文字列それぞれの前記第1スコアを算出する第1スコア算出ステップと、
前記入力画像の領域のうち、前記候補文字列に含まれる文字それぞれに対応する領域を推定する文字領域推定ステップと、
推定された領域に基づいて、前記候補文字列に含まれる文字の整合性を示す第2スコアを算出する第2スコア算出ステップと、
算出された前記第1スコアと前記第2スコアとに基づいて、複数の前記候補文字列のうち1以上の文字列を選択する選択ステップとを実行させ、
前記入力画像は、複数の文字入力領域を含み、
前記第2スコア算出ステップは、前記候補文字列に含まれる文字それぞれに対応する領域と、前記文字入力領域とに基づいて、前記第2スコアを算出する
プログラム。 On the computer,
a first score calculation step of calculating a first score indicating a likelihood of a character string, the first score being a candidate for a character string included in the input image for each of a plurality of candidate character strings;
a character region estimation step of estimating regions of the input image corresponding to each of the characters included in the candidate character string;
a second score calculation step of calculating a second score indicating consistency of characters included in the candidate character string based on the estimated region;
a selection step of selecting one or more character strings from among the plurality of candidate character strings based on the calculated first score and the calculated second score;
the input image includes a plurality of character input areas;
The second score calculation step calculates the second score based on an area corresponding to each character included in the candidate character string and the character input area.
program.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021018142A JP7618458B2 (en) | 2021-02-08 | 2021-02-08 | Character recognition device, character recognition method, and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021018142A JP7618458B2 (en) | 2021-02-08 | 2021-02-08 | Character recognition device, character recognition method, and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2022121020A JP2022121020A (en) | 2022-08-19 |
| JP7618458B2 true JP7618458B2 (en) | 2025-01-21 |
Family
ID=82849580
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021018142A Active JP7618458B2 (en) | 2021-02-08 | 2021-02-08 | Character recognition device, character recognition method, and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7618458B2 (en) |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007188512A (en) | 2000-09-29 | 2007-07-26 | Japan Science & Technology Agency | Character recognition method, character recognition program, and computer-readable recording medium on which character recognition program is recorded |
| JP2013140487A (en) | 2012-01-04 | 2013-07-18 | Fuji Xerox Co Ltd | Information processing device and information processing program |
| JP2017049911A (en) | 2015-09-04 | 2017-03-09 | 株式会社東芝 | Character recognition apparatus, character recognition method, and program |
| WO2020175806A1 (en) | 2019-02-25 | 2020-09-03 | 네이버 주식회사 | Device for recognizing characters and method for recognizing characters by means of same |
-
2021
- 2021-02-08 JP JP2021018142A patent/JP7618458B2/en active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007188512A (en) | 2000-09-29 | 2007-07-26 | Japan Science & Technology Agency | Character recognition method, character recognition program, and computer-readable recording medium on which character recognition program is recorded |
| JP2013140487A (en) | 2012-01-04 | 2013-07-18 | Fuji Xerox Co Ltd | Information processing device and information processing program |
| JP2017049911A (en) | 2015-09-04 | 2017-03-09 | 株式会社東芝 | Character recognition apparatus, character recognition method, and program |
| WO2020175806A1 (en) | 2019-02-25 | 2020-09-03 | 네이버 주식회사 | Device for recognizing characters and method for recognizing characters by means of same |
Non-Patent Citations (1)
| Title |
|---|
| 梁 建娟、外3名,"文字位置自由オンライン手書き文字列認識方式",電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2015年06月11日,Vol.115, No.100,pp.53-58 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2022121020A (en) | 2022-08-19 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN113128271B (en) | Forgery Detection in Facial Images | |
| US10958869B1 (en) | System, device and method for video frame interpolation using a structured neural network | |
| Bai et al. | Finding tiny faces in the wild with generative adversarial network | |
| JP7026165B2 (en) | Text recognition method and text recognition device, electronic equipment, storage medium | |
| US10037610B1 (en) | Method for tracking and segmenting a target object in an image using Markov Chain, and device using the same | |
| JP7244223B2 (en) | Identifying emphasized text in electronic documents | |
| JP2021527263A5 (en) | ||
| JP5600723B2 (en) | Method and system for splitting characters in a text line having various character widths | |
| CN114550062A (en) | Method and device for determining moving object in image, electronic equipment and storage medium | |
| Dong et al. | Feature-aware transferable adversarial attacks on visual object tracking | |
| Dalal et al. | Constructive distortion: Improving mllms with attention-guided image warping | |
| JP2020017156A (en) | Character recognition device, character recognition program, and character recognition method | |
| JP7618458B2 (en) | Character recognition device, character recognition method, and program | |
| WO2021130995A1 (en) | Data generation device, learning system, data expansion method, and program recording medium | |
| US11100355B1 (en) | Document image content protection in the context of noise reduction | |
| JP5291387B2 (en) | Number recognition apparatus and number recognition method | |
| US12505687B2 (en) | Line removal from an image | |
| WO2024013864A1 (en) | Character recognition device, character recognition method, and program | |
| Chen et al. | Defending adversarial patches via joint region localizing and inpainting | |
| JP2023051732A (en) | Method, computer-readable program, and system | |
| Kim et al. | Locator-checker-scaler object tracking using spatially ordered and weighted patch descriptor | |
| KR20180082680A (en) | Method for learning classifier and prediction classification apparatus using the same | |
| CN119399666B (en) | A colonoscopy video key frame extraction method, device, equipment and storage medium | |
| CN115965561B (en) | Image restoration method and device, readable medium and electronic equipment | |
| CN117197249B (en) | Target location determination method, device, electronic equipment and storage medium |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231122 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240806 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240813 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20241010 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20241126 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20241210 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250108 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7618458 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |