JP5636766B2 - 画像処理装置及び画像処理プログラム - Google Patents
画像処理装置及び画像処理プログラム Download PDFInfo
- Publication number
- JP5636766B2 JP5636766B2 JP2010146014A JP2010146014A JP5636766B2 JP 5636766 B2 JP5636766 B2 JP 5636766B2 JP 2010146014 A JP2010146014 A JP 2010146014A JP 2010146014 A JP2010146014 A JP 2010146014A JP 5636766 B2 JP5636766 B2 JP 5636766B2
- Authority
- JP
- Japan
- Prior art keywords
- calculating
- calculation means
- character
- image
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 title claims description 43
- 238000011156 evaluation Methods 0.000 claims description 288
- 238000004364 calculation method Methods 0.000 claims description 237
- 238000005520 cutting process Methods 0.000 claims description 56
- 230000008859 change Effects 0.000 claims description 49
- 230000006870 function Effects 0.000 description 132
- 238000000034 method Methods 0.000 description 59
- 238000000605 extraction Methods 0.000 description 51
- 239000013598 vector Substances 0.000 description 27
- 238000010586 diagram Methods 0.000 description 15
- 230000011218 segmentation Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 11
- 238000009826 distribution Methods 0.000 description 11
- 238000012886 linear function Methods 0.000 description 9
- 238000003860 storage Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 230000007423 decrease Effects 0.000 description 5
- 238000000926 separation method Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000010410 layer Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
Images
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Description
これに関連する技術として、例えば、特許文献1には、文字認識において文字の大きさや形、ピッチ等が文書毎に異なっていても精度のよい認識を行うことを目的とし、言語的に正しいと思われる部分の文字を確定文字検出部が確定文字として検出し、認識結果出力部が認識結果として出力する一方、文字矩形情報検出部が確定文字の矩形情報を検出し、矩形評価関数の最適化を行い、矩形分割統合部は最適化された矩形評価関数に基づいてまだ確定されていない部分の基本矩形の分割・統合を行うことによって新たな基本矩形を求め、再び候補文字選出部以下の処理を行い、また筆記者推定部が確定文字から得た情報を用いて候補文字選出部で用いる辞書を最適化することが開示されている。
請求項1の発明は、画像内に存在する1つの文字画像を切り出す位置の候補に関する複数の特徴量に対して、重み付き線形和を計算する第1の計算手段と、前記第1の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第2の計算手段と、前記第2の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定する切出位置決定手段と、文字画像の切り出し位置の教師データを受け付ける受付手段と、前記切出位置決定手段によって決定された切り出し位置と前記受付手段によって受け付けられた教師データを比較して、切り出し位置の正解個数又は誤り個数を算出する個数算出手段と、前記個数算出手段によって算出された切り出し位置の正解個数又は誤り個数に基づいて、1文字分の文字切り出し位置における前記第1の計算手段で用いる重みを変更する重み変更手段を具備し、前記重み変更手段は、現在の重みでの場合の正解個数又は誤り個数に基づいた値から変更後の重みでの正解個数又は誤り個数に基づいた値への変更量から次の重みを決定することを特徴とする画像処理装置である。
請求項6の発明は、コンピュータを、画像内に存在する1つの文字画像を切り出す位置の候補に関する複数の特徴量に対して、重み付き線形和を計算する第1の計算手段と、前記第1の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第2の計算手段と、前記第2の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定する切出位置決定手段と、前記第1の計算手段と前記第2の計算手段による組を複数有し、前記複数の第2の計算手段によって計算された評価値に対して、重み付き線形和を計算する第3の計算手段と、前記第3の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第4の計算手段として機能させ、前記切出位置決定手段は、前記第4の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定し、文字画像の切り出し位置の教師データを受け付ける受付手段と、前記切出位置決定手段によって決定された切り出し位置と前記受付手段によって受け付けられた教師データを比較して、切り出し位置の正解個数又は誤り個数を算出する個数算出手段と、前記個数算出手段によって算出された切り出し位置の正解個数又は誤り個数に基づいて、1文字分の文字切り出し位置における前記第1の計算手段、又は前記第3の計算手段で用いる重みを変更する重み変更手段として機能させ、前記重み変更手段は、現在の重みでの場合の正解個数又は誤り個数に基づいた値から変更後の重みでの正解個数又は誤り個数に基づいた値への変更量から次の重みを決定することを特徴とする画像処理プログラムである。
請求項7の発明は、コンピュータを、画像内に存在する1つの文字画像を切り出す位置の候補に関する複数の特徴量に対して、重み付き線形和を計算する第1の計算手段と、前記第1の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第2の計算手段と、前記第2の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定する切出位置決定手段と、前記第1の計算手段と前記第2の計算手段による組を複数有し、前記複数の第2の計算手段によって計算された評価値の和を計算する第5の計算手段として機能させ、前記切出位置決定手段は、前記第5の計算手段によって計算された評価値の和に基づいて、前記画像内に存在する文字画像を切り出す位置を決定し、文字画像の切り出し位置の教師データを受け付ける受付手段と、前記切出位置決定手段によって決定された切り出し位置と前記受付手段によって受け付けられた教師データを比較して、切り出し位置の正解個数又は誤り個数を算出する個数算出手段と、前記個数算出手段によって算出された切り出し位置の正解個数又は誤り個数に基づいて、1文字分の文字切り出し位置における前記第1の計算手段で用いる重みを変更する重み変更手段として機能させ、前記重み変更手段は、現在の重みでの場合の正解個数又は誤り個数に基づいた値から変更後の重みでの正解個数又は誤り個数に基づいた値への変更量から次の重みを決定することを特徴とする画像処理プログラムである。
請求項8の発明は、コンピュータを、画像内に存在する1つの文字画像を切り出す位置の候補に関する複数の特徴量に対して、重み付き線形和を計算する第1の計算手段と、前記第1の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第2の計算手段と、前記第2の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定する切出位置決定手段と、前記第1の計算手段と前記第2の計算手段による組を複数有し、前記複数の第2の計算手段によって計算された評価値に対して、重み付き線形和を計算する第3の計算手段と、前記第3の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第4の計算手段として機能させ、前記切出位置決定手段は、前記第4の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定し、前記第1の計算手段と前記第2の計算手段による複数の組と、前記第3の計算手段と前記第4の計算手段による組を複数有し、前記複数の第4の計算手段によって計算された評価値の和を計算する第6の計算手段として機能させ、前記切出位置決定手段は、前記第6の計算手段によって計算された評価値の和に基づいて、前記画像内に存在する文字画像を切り出す位置を決定し、文字画像の切り出し位置の教師データを受け付ける受付手段と、前記切出位置決定手段によって決定された切り出し位置と前記受付手段によって受け付けられた教師データを比較して、切り出し位置の正解個数又は誤り個数を算出する個数算出手段と、前記個数算出手段によって算出された切り出し位置の正解個数又は誤り個数に基づいて、1文字分の文字切り出し位置における前記第1の計算手段、又は前記第3の計算手段で用いる重みを変更する重み変更手段として機能させ、前記重み変更手段は、現在の重みでの場合の正解個数又は誤り個数に基づいた値から変更後の重みでの正解個数又は誤り個数に基づいた値への変更量から次の重みを決定することを特徴とする画像処理プログラムである。
請求項6の画像処理プログラムによれば、本構成を有していない場合に比較して、画像内に存在する文字画像を切り出す位置を精度よく決定することができる。また、画像内に存在する文字画像を切り出す位置を決定する場合にあって、評価値を計算するために利用する重みを決定することができる。
請求項7の画像処理プログラムによれば、本構成を有していない場合に比較して、画像内に存在する文字画像を切り出す位置を精度よく決定することができる。また、画像内に存在する文字画像を切り出す位置を決定する場合にあって、評価値を計算するために利用する重みを決定することができる。
請求項8の画像処理プログラムによれば、本構成を有していない場合に比較して、画像内に存在する文字画像を切り出す位置を精度よく決定することができる。また、画像内に存在する文字画像を切り出す位置を決定する場合にあって、評価値を計算するために利用する重みを決定することができる。
まず、本実施の形態を説明する前に、その前提又は本実施の形態を利用する画像処理装置について説明する。なお、この説明は、本実施の形態の理解を容易にすることを目的とするものである。
以下、特許文献3に記載されている技術内容を例にして説明する。なお、以下の説明で用いる用語は、特許文献3で用いる用語とは異なっている場合がある。
前述の文字セグメントを統合して、文字画像を決定する。複数の文字セグメントを統合して1つの文字画像を形成する場合もあれば、1つの文字セグメントが1つの文字となる場合もある。文字画像を決定するとは、文字の切り出し位置を決定することと同値であるから、以下では文字切り出し位置の決定という場合もある。
文字セグメントの統合のパターンは複数存在する。複数存在するパターンの中で、最も文字画像として評価の高いものを選択することによって、最終的な文字切り出し位置を決定する。
図13の例に対しては、全ての文字切り出しパターンは、図14に示す例のようになる。つまり、図14(a)の例では、パターン1として3つの文字画像(外接矩形1310、1320、1330)、図14(b)の例では、パターン2として2つの文字画像(外接矩形1310と1320、1330)、図14(c)の例では、パターン3として1つの文字画像(外接矩形1310と1320と1330)、図14(d)の例では、パターン4として2つの文字画像(外接矩形1310、外接矩形1320と1330)を示している。
ここで、どれか1つのアークには、1つの文字画像の候補が対応している。例えば、始点ノード1500と中間ノード1520(ノード2)を結ぶアークには、「化」という文字画像(文字切り出しパターン1504)が対応している。1つのアークに対応する文字に対して、その文字の評価値を決定することができる。これを「アーク評価値」と呼ぶこととする。
アーク評価値は、文字の形状情報や、文字認識における認識確度などから算出する。この詳細に関しては後述する。
この画像処理装置は、画像受付モジュール110、文字列抽出モジュール120、文字境界候補抽出モジュール130、アーク特徴量抽出モジュール140、線形重み付け加算モジュール1710、文字切り出しモジュール160、文字認識モジュール170を有している。
文字認識モジュール170は、文字切り出しモジュール160と接続されており、文字切り出しモジュール160から文字画像を受け取り、その文字画像を文字認識して、認識結果としての文字コードを出力する。
1つのパスは、複数のアークから構成されている。複数のアーク評価値を用いて、そのアークから構成されるパスの評価値を計算することができる。これを「パス評価値」と呼ぶこととする。
パス評価値としては、例えば、アーク評価値の重み付け和などが相当する。特許文献3に記載されている技術では、アーク内の文字セグメント数で重み付けを行う。
文字切り出し位置を決定するため、複数のパスの中で、最もパス評価値の高いパスを選択する。パスが選択できれば、文字切り出し位置が確定して、さらに、文字認識結果も確定することになる。
図16の例では、太線のパスが選択されたとする。この場合、文字切り出し位置は、始点ノード1500と、中間ノード1520(ノード2)と、終点ノード1590の3点となる。また、文字認識結果は、「化」、「学」となる。
特許文献3に記載の技術では、文字形状情報と、文字認識確度情報の重み付き線形和を用いて、文字評価値を算出する。さらに具体的には、特許文献3に記載の技術では、下記のようにアーク評価値の算出を行う。
まず、各アークに対応する文字の外接矩形を作る。これは、図14の例に示す各パターン内の各文字の外接矩形に相当する。以下、各アークに対応する文字の外接矩形を、アークの外接矩形と呼ぶ。
次に、下記のように、アークの特徴量(複数)を計算する。
f1 : 該当アークの外接矩形の高さ
f2 : 該当アークの外接矩形の幅
f3 : 該当アークの外接矩形と、左側アークの外接矩形の間隔
f4 : 該当アークの外接矩形と、右側アークの外接矩形の間隔
f5 : 該当アーク内の文字セグメントの外接矩形間の最大の間隔
f6 : 該当アーク内の連結成分数
さらに、文字類似度を、f7とする。
特許文献3に記載の技術では、アーク評価値Vを式(1)で決定する。ただし、この場合、(1)式でN=7とする。
線形重み付け加算モジュール1710は、特徴量ベクトルとして、特徴量である前述のf1〜f7の値を受け付ける。ここでは特徴数をNとしている。線形重み付け加算モジュール1710の内部動作は、式(1)で示されるものである。そして、アーク評価値Vを文字切り出しモジュール160へ渡す。
<現象1>
特許文献3に記載の技術では、特徴量の線形和をアーク評価値としていた。線形和であるため、特徴量の内容によっては、アーク評価値の値域はマイナス無限大〜プラス無限大の値を取り得る。
このように線形和を用いてアーク評価値を算出すると、アーク評価値が非常に高い値や非常に低い値になってしまう場合がある。
アーク評価値が非常に高い値や非常に低い値になってしまう場合、全体のパス評価値がその非常に高い、あるいは、非常に低い値に引きずられてしまう場合がある。例えば、ここではパス評価値をアーク評価値の重み付き和で評価するとする。重みは適当に定める。ここでは従来技術のようにアーク内の文字セグメント数で重み付けを行うとする。
図15の例において、図18の例に示すような評価値となっているとする。
このようなアーク評価値となっている場合、例えば、アーク内の文字セグメント数で重み付けを行うとすると、
・文字切り出しパターン1504「化」、文字切り出しパターン1522「学」の場合のパス評価値は、10×2+10=30 である。
・文字切り出しパターン1506「イ」、文字切り出しパターン1512「ヒ」、文字切り出しパターン1522「学」の場合のパス評価値は、1+100+10=111 である。
すなわち、「ヒ」のアーク評価値が他の評価値と比べて高すぎるために、他の評価値が小さい場合(すなわち、文字らしくない場合、例えば、文字切り出しパターン1506「イ」のアーク評価値は1)でも、その値に引きずられて、「ヒ」を含むパスが選択されてしまうこととなる。
ここで、アーク特徴量ベクトルf=(f1, …, fN)、重みベクトルをw=(w1, …, wN)とする。また、アーク評価値関数をV(f)とする。式(1)は、式(2)のようになる。
アーク評価値関数が妥当であるためには、式(3)のような関係になることが望ましい。つまり、正解切り出し位置の場合のアーク評価値は、不正解切り出し位置の場合のアーク評価値よりも大きな値であることが望ましい。
簡単のため、特徴量空間が2次元の場合を図示する。2次元の場合には、超平面は直線となる。図19の例に示す破線1930のように、正解特徴量分布1920と不正解特徴量分布1910が直線で分離できる場合は問題がない。
例えば、図20の例に示すような正解特徴量分布2020と不正解特徴量分布2010の分布の場合、もはや直線で分離することは不可能である。このような場合、特許文献3に記載の技術では、妥当なアーク評価値を求めることができなくなる。つまり、式(7)で示されるような現象が起こってしまう。この現象が起きると、間違った文字切り出し位置であるにも関わらず、高いアーク評価値を得ることになってしまう。結果として、文字切り出し位置を誤ることになる。
<第1の実施の形態>
図1は、第1の実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
文字列抽出モジュール120は、対象としている画像から横書き又は縦書きである1列の文字列画像を抽出する。ここで、列とは、横書きの場合は、横に並ぶ列であり、縦書きの場合は縦に並ぶ列である。
画像として、複数の文字列が存在するものがある。このような複数文字列を単一の文字列になるように分離する手法としては、従来よりさまざまなものが提案されているため、それらを用いればよい。
単一の文字列となるように分離する例として、特開平4−311283号公報、特開平3−233789号公報、特開平5−73718号公報、特開2000−90194号公報等に記載の技術がある。これらの手法や、その他の手法を用いればよい。
文字境界候補抽出モジュール130は、1列の文字列画像を受け取り、複数の文字セグメントに分割する。この文字セグメント分割方式としてもさまざまな方式があるため、そのうちのどれかを用いればよい。例えば、特開平5−114047号公報、特開平4−100189号公報、特開平4−92992号公報、特開平4−68481号公報、特開平9−54814号公報等に記載の技術、特許文献3の特に0021段落に記載の文字の境界候補抽出方式、特開平5−128308号公報の特に0005段落に記載の文字切り出し位置決定方式等を用いればよい。これ以外の方法でももちろん構わない。
アーク特徴量抽出モジュール140が抽出するアークの特徴量ベクトルの内容としては、特に限定しない。例えば、前述したf1〜f7の特徴量を用いてもよい。その他の特徴量を用いてもよい。特徴量ベクトルの次元数(すなわち、特徴量の種類数)に関しても、さまざまであって、何次元でも構わない。
文字認識確度としては、文字認識時に出力した文字コードの確信度合いあるいは尤度のようなものを得ることができればよい。このような文字認識確度を得る手法としても、従来よりさまざまな手法が提案されているため、そのうちのいずれかを用いればよい。例えば、特許文献3の0024段落に記載の方式、特許文献2の0051段落に記載の認識評価値取得方式等を用いてもよい。その他の手法を用いてもよい。
アーク評価値決定モジュール150は、他のアーク評価値と比べた場合に非常に大きなアーク評価値、他のアーク評価値と比べた場合に非常に小さなアーク評価値による影響が大きくなることを防ぐものである。つまり、他のアーク評価値と比べた場合に大きなアーク評価値の場合にはその大きさによる影響を小さくし、小さなアーク評価値の場合にはその小ささによる影響を小さくする。手法としては、特徴量の重み付け加算結果に対して、さらに、以下の特徴を持った非線形関数を付与する。非線形関数としては、(1)単調関数であって、(2)入力がプラス無限大のときや、マイナス無限大のとき、所定の値に収束すること、又は、ある中心位置から外れれば外れるほど、その傾きの絶対値が小さくなる関数である。
線形重み付け加算モジュール210は、アーク特徴量抽出モジュール140から特徴ベクトルとして、特徴量1〜N(画像内に存在する1つの文字画像を切り出す位置の候補に関する複数の特徴量)を受け取り、前述の図17の例の線形重み付け加算モジュール1710と同等の重み付き線形和の計算処理を行う。その結果を非線形関数モジュール220へ渡す。
非線形関数モジュール220は、線形重み付け加算モジュール210から計算結果を引数として受け取り、その引数が極限の値の場合に予め定められた値に収束するようになる、又はその引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又はその非線形単調関数に近似する関数によって、1つの文字画像を切り出す位置の候補の評価値(アーク評価値)を計算する。つまり、アーク評価関数によって計算する。
図18に示した例で、非線形関数(線形重み付け加算モジュール210)の入出力を、例えば、下記のような場合について説明する。
入力:1 出力:1
入力:10 出力:2
入力:100 出力:3
このようにすると、
パス1:「化」「学」の場合のパス評価値は、2×2+2=6
パス2:「イ」「ヒ」「学」の場合のパス評価値は、1+3+2=6
となって、値100の影響を小さくすることができて、パス1とパス2の評価値が同程度の値となる。
教師用データテーブル300は、データ番号欄310、特徴量1欄320、特徴量2欄330、特徴量N欄380、正解/非正解欄390等を有している。データ番号欄310は、アークを一意に識別するデータ番号を記憶する。例えば、各アークに対して個別のデータ番号を1から順に与えることにする。特徴量1欄320から特徴量N欄380は、アーク特徴量抽出モジュール140が抽出した特徴量を記憶する。つまり、あるアークの特徴量をアーク特徴量抽出モジュール140が抽出し、それを教師用データテーブル300の表の横に並べて入力する。さらに、そのアークが正解の文字の切れ目を表している場合には正解/非正解欄390に例えば1と入力する。そのアークが正解の文字の切れ目を表していない場合には正解/非正解欄390に例えば0と入力する。
できるだけ近い値の評価方法としては、以下のような手法がある。まず、各アークに番号を与えるデータ番号をkとする。データ番号kのアークに対して、アーク評価値決定モジュール150を用いて算出したアーク評価値をVkとする。また、番号kのアークの教師データをtkとする。ここでは、例えば、
・正解のとき tk=1
・不正解のとき tk=0
とする。
このとき、(9)式を最小とするように重みを決定すればよい。
重み決定方式としては、一般的なロジスティック回帰の回帰係数決定方式や、単層パーセプトロンの重み決定方式を利用すればよい。
第1の実施の形態では、非線形関数を単調関数としたため、出力のアーク評価値の大きさは変わるが、その相対的な順番を変えることはない。つまり、前述の<現象2>は起こり得る。
第2の実施の形態は、図1の例に示した構成を有しており、アーク評価値決定モジュール150が線形重み付け加算と非線形関数の組による処理を2度繰り返す構成を採る。
アーク評価値決定モジュール150は、線形重み付け加算モジュール1−1:411、線形重み付け加算モジュール1−2:412、・・・、線形重み付け加算モジュール1−M:41M、非線形関数σ1−1モジュール421、非線形関数σ1−2モジュール422、・・・、非線形関数σ1−Mモジュール42M、線形重み付け加算モジュール2:430、非線形関数σ2モジュール440を有している。図4において、複数の特徴量(特徴量1〜特徴量N)を特徴量ベクトルとして1本の線で記述している。
線形重み付け加算モジュール1−1:411は、非線形関数σ1−1モジュール421と接続されている。
線形重み付け加算モジュール1−2:412は、非線形関数σ1−2モジュール422と接続されている。
線形重み付け加算モジュール1−M:41Mは、非線形関数σ1−Mモジュール42Mと接続されている。
非線形関数σ1−1モジュール421は、線形重み付け加算モジュール1−1:411、線形重み付け加算モジュール2:430と接続されている。
非線形関数σ1−2モジュール422は、線形重み付け加算モジュール1−2:412、線形重み付け加算モジュール2:430と接続されている。
非線形関数σ1−Mモジュール42Mは、線形重み付け加算モジュール1−M:41M、線形重み付け加算モジュール2:430と接続されている。
線形重み付け加算モジュール1−1:411と非線形関数σ1−1モジュール421の組み合わせ、線形重み付け加算モジュール1−2:412と非線形関数σ1−2モジュール422の組み合わせ、線形重み付け加算モジュール1−M:41Mと非線形関数σ1−Mモジュール42Mの組み合わせは、第1の実施の形態における線形重み付け加算モジュール210と非線形関数モジュール220の組み合わせに該当する。
線形重み付け加算モジュール2:430は、非線形関数σ1−1モジュール421、非線形関数σ1−2モジュール422、非線形関数σ1−Mモジュール42M、非線形関数σ2モジュール440と接続されている。
非線形関数σ2モジュール440は、線形重み付け加算モジュール2:430と接続されている。
線形重み付け加算モジュール2:430は第1の実施の形態における線形重み付け加算モジュール210に該当し、非線形関数σ2モジュール440は第1の実施の形態における非線形関数モジュール220に該当する。
第2の実施の形態においては、その構成が3層のパーセプトロンと同等となる。そのため、正解アークと非正解アークが非線形な分離面を持っていても対応が可能となる。また、通常の誤差逆伝播方式を用いて重み係数を決定するようにしてもよい。その際の教師データとしては、図13の例に示した教師用データテーブル300を用いればよい。第2の実施の形態のアーク評価値決定モジュール150を用いて算出したアーク評価値yiと教師データtiの値の差が小さいとき小さくなるような評価値の例も、第1の実施と同等である。
第3の実施の形態は、図1の例に示した構成を有しており、さらに、アーク評価値決定モジュール150内で、第2の実施の形態のアーク評価値決定モジュール150を複数用いて、その和を取るものである。
1つの推定器であるアーク評価値決定モジュール150の性能が悪くても、複数の推定器を用いることによって、性能を上げることが可能である。例えば、3つの推定器があるとする。そのうち、1つの推定器が不正解で、残り2つの推定器が正解であるとする。この3つの多数決を取って、正解のほうを採用することによって、正解の推定を行うことが可能となる。
本実施の形態の例では、多数決の演算を加算によって行う。
アーク評価値決定モジュール150は、アーク評価値算出モジュール1:511、アーク評価値算出モジュール2:512、アーク評価値算出モジュールK:51K、アーク評価値加算モジュール520を有している。
アーク評価値算出モジュール1:511、アーク評価値算出モジュール2:512、アーク評価値算出モジュールK:51Kは、それぞれアーク評価値加算モジュール520と接続されている。
第3の実施の形態では、複数のアーク評価値算出モジュール(アーク評価値算出モジュール1〜アーク評価値算出モジュールK)を用いる。アーク評価値算出モジュールjの出力は、Vjとする。
図6は、第3の実施の形態のアーク評価値算出モジュール内の構成例についての概念的なモジュール構成図である。
線形重み付け加算モジュールj−1−1:611、線形重み付け加算モジュールj−1−2:612、線形重み付け加算モジュールj−1−Mj:61M、非線形関数σj−1−1モジュール621、非線形関数σj−1−2モジュール622、非線形関数σj−1−Mjモジュール62M、線形重み付け加算モジュールj−2:630、非線形関数σj−2モジュール640を有している。
線形重み付け加算モジュールj−1−1:611は、非線形関数σj−1−1モジュール621と接続されている。
線形重み付け加算モジュールj−1−2:612は、非線形関数σj−1−2モジュール622と接続されている。
線形重み付け加算モジュールj−1−Mj:61Mは、非線形関数σj−1−Mjモジュール62Mと接続されている。
非線形関数σj−1−1モジュール621は、線形重み付け加算モジュールj−1−1:611、線形重み付け加算モジュールj−2:630と接続されている。
非線形関数σj−1−2モジュール622は、線形重み付け加算モジュールj−1−2:612、線形重み付け加算モジュールj−2:630と接続されている。
非線形関数σj−1−Mjモジュール62Mは、線形重み付け加算モジュールj−1−Mj:61M、線形重み付け加算モジュールj−2:630と接続されている。
線形重み付け加算モジュールj−2:630は、非線形関数σj−1−1モジュール621、非線形関数σj−1−2モジュール622、非線形関数σj−1−Mjモジュール62M、非線形関数σj−2モジュール640と接続されている。
非線形関数σj−2モジュール640は、線形重み付け加算モジュールj−2:630と接続されている。
アーク評価値算出モジュールjは、各構成要素に添え字jが付与されていることを除いて、第2の実施の形態と動作は同等である。以下、動作を示す。線形重み付け加算器j−1−iと非線形関数σj−1−iの組み合わせでは(ただし、i=1,2,…,Mj)、(15)式による演算を行って、出力値Uj−iを得る。wj−1−i及びcj−1−iは、線形重み付け加算モジュールj−1−iが用いる重みである。Mjは、1段目の線形重み付け加算モジュールの数である。
前記の重み決定方法としては、文献「J. Friedman, T. Hastie, R. Tibshirani著 “Additive Logistic Regression: a Statistical View of Boosting”、Annals of Statistics、Vol. 28, No. 2, pp. 337−407, 2000」に記載のジェントルアダブースト方式と呼ばれる方式を用いるようにしてもよい。
以下、ここでは、説明の都合上、非線形関数σとして、例えば、入力がマイナス無限大で0、プラス無限大で1になる関数を用いることとする。実際にはマイナス無限大やプラス無限大で収束する値に応じて線形変換を行えば、入力がマイナス無限大で−1、プラス無限大で1になる関数などに変更してもよい。
次に、教師用データとして、図7の例に示す教師用データテーブル700を用意する。教師用データテーブル700は、データ番号欄710、特徴量1欄720、特徴量2欄730、特徴量N欄770、正解/非正解欄780、ウエイト欄790等を有している。これは、図3の例に示す教師用データテーブル300にウエイト欄790を追加したものである。ここで、「ウエイト」と「重み」は、意味的には同じである。しかし、これまで、線形重み付け加算モジュールにおける係数に対して「重み」という用語を用いていたため、その用語と区別をするため、教師データの重みに関しては「ウエイト」という用語を用いることとする。また、データの量をGとする。
ここで、データ番号kに対して、正解/非正解を表す記号をykとする。第3の実施の形態においては、例えば、
・正解のとき yk=+1
・不正解のとき yk=−1
とする。
さらに、非線形関数σとして、ロジスティックシグモイド関数を採用する。このとき、Vjは0〜1までの値を取る。
1.まず、図7の例に示した教師用データテーブル700内のデータのウエイトを全て等しく1/Gとする。
2.j=1とする。
(ア)各教師データのウエイトを用いて、その重み付け2乗誤差を最小とするように、アーク評価値算出モジュールjの重みを決定する。決定方法は、第2の実施の形態の説明で記載したものと同等である。通常は単なる2乗誤差を最小化するように重みを決定するのに対して、ウエイトで重み付けした重み付け2乗誤差を最小とするように重みを決定する点が異なる。
つまり、第1の実施の形態又は第2の実施の形態では、(19)式を最小とするように重みを決定していたのに対し、ここでは、(20)式を最小とするように重みを決定する。ただし、ここで、tk=(yk+1)/2の関係がある。
(イ−1)k番目のデータに対するアーク評価値をVjkとする。
(イ−2)ウエイトを(21)式で更新する。これは、アーク評価値の推定が間違ったデータのウエイトを大きくして、合っていたデータのウエイトを小さくする操作を示している。
(エ)jを1増大させて、(ア)に戻る。
すなわち、
・アーク評価値算出モジュール1の入力を、文字セグメント外接矩形の高さのみとする。
・アーク評価値算出モジュール2の入力を、全ての特徴量とする。
・アーク評価値算出モジュール3の入力を、文字セグメント外接矩形の幅のみとする。
・ …
等としてもよい。
・アーク評価値算出器1が第2の実施の形態のアーク評価値決定モジュール150の構成
・アーク評価値算出器2が第1の実施の形態のアーク評価値決定モジュール150の構成
・アーク評価値算出器3が第2の実施の形態のアーク評価値決定モジュール150の構成
・ …
としてもよいし、
・アーク評価値算出器1が第1の実施の形態のアーク評価値決定モジュール150の構成
・アーク評価値算出器2が第1の実施の形態のアーク評価値決定モジュール150の構成
・アーク評価値算出器3が第1の実施の形態のアーク評価値決定モジュール150の構成
・ …
としてもよいし、
・アーク評価値算出器1が第2の実施の形態のアーク評価値決定モジュール150の構成
・アーク評価値算出器2が第2の実施の形態のアーク評価値決定モジュール150の構成
・アーク評価値算出器3が第2の実施の形態のアーク評価値決定モジュール150の構成
・ …
としてもよい。
前述の実施の形態では、アーク評価値決定モジュール150において、アーク評価値を推定していることになる。
推定するアーク評価値の教師データとしては、例えば、そのアークが文字の正解切り出し位置に相当している場合は1として、不正解切り出し位置に相当している場合は0としていた。
その場合、以下の2通りの最適化(重み決定)となっていることになる。
・クラス0とクラス1の2クラス分類問題として、クラス分類の誤りができるだけ小さくなるように重みを決定する。
・0〜1の間に存在する推定値と、教師データ(0又は1)との2乗誤差(絶対値誤差、クロスエントロピー等の誤差を示すような評価値であってもよい)を最小化するように重みを決定する。
アーク評価値と、文字切り出し位置の正確さは、複雑な関係になっており、単調な関係ではない。図8に、アーク候補決定モジュール810、アーク評価値決定モジュール820、文字切り出し位置決定モジュール830の関係例を示す。
アーク候補決定モジュール810は、アーク評価値決定モジュール820と接続されている。
アーク評価値決定モジュール820は、アーク候補決定モジュール810、文字切り出し位置決定モジュール830と接続されている。
文字切り出し位置決定モジュール830は、アーク評価値決定モジュール820と接続されている。
文字認識の処理において、まずアーク候補決定モジュール810において、画像を受け付け、前述したように複数のアーク候補が抽出される。さらに、アーク評価値決定モジュール820において、アークの評価値が決定され、文字切り出し位置決定モジュール830において、複数のアーク候補の集合としての複数のパスの中から、最適なパスを選択されることによって、文字切り出し位置が確定する。なお、図1の例に示したモジュール構成と比較すると、アーク候補決定モジュール810は画像受付モジュール110〜アーク特徴量抽出モジュール140に該当し、アーク評価値決定モジュール820はアーク評価値決定モジュール150に該当し、文字切り出し位置決定モジュール830は文字切り出しモジュール160に該当する。
第1の実施の形態〜第3の実施の形態では、アーク評価値決定モジュール150におけるアーク評価値決定を、アークの中だけを参照して行っていたが、第4の実施の形態では上図全体を考えて、アーク評価値決定モジュール820で用いられる重みを決定する例を示す。
以下、アーク評価値決定モジュール820の構成は、第1の実施の形態〜第3の実施の形態の説明で述べたもののいずれかであるとする。
図9は、第4の実施の形態の構成例についての概念的なモジュール構成図である。
第4の実施の形態の画像処理装置は、図9の例に示すように、アーク候補決定モジュール910、重み変更モジュール920、アーク評価値決定モジュール930、文字切り出し位置決定モジュール940、切り出し位置正解個数算出モジュール950を有している。なお、アーク候補決定モジュール910は図8の例に示したアーク候補決定モジュール810に該当し、アーク評価値決定モジュール930は図8の例に示したアーク評価値決定モジュール820に該当し、文字切り出し位置決定モジュール940は図8の例に示した文字切り出し位置決定モジュール830に該当する。
重み変更モジュール920は、アーク評価値決定モジュール930、切り出し位置正解個数算出モジュール950と接続されており、切り出し位置正解個数算出モジュール950によって算出された切り出し位置の正解個数に基づいて、1文字分の文字切り出し位置におけるアーク評価値決定モジュール930で用いる重みを変更する。そして、現在の重みでの場合の正解個数から変更後の重みでの正解個数への変更量から次の重みを決定する。
文字切り出し位置決定モジュール940は、アーク評価値決定モジュール930、切り出し位置正解個数算出モジュール950と接続されており、アーク評価値決定モジュール930からのアーク評価値に基づいて、画像内に存在する文字画像を切り出す位置を決定し、その決定された切り出し位置を切り出し位置正解個数算出モジュール950へ渡す。
切り出し位置正解個数算出モジュール950は、重み変更モジュール920、文字切り出し位置決定モジュール940と接続されており、文字切り出し位置決定モジュール940から切り出し位置と文字画像を切り出す位置の教師データを受け付け、文字切り出し位置決定モジュール940からの切り出し位置と教師データを比較して、切り出し位置の正解個数を算出する。
まず、アーク候補決定モジュール910は画像を受け付け、アーク候補を決定する。
アーク評価値決定モジュール930が用いる初期の重みは、乱数であってもよいし、第1の実施の形態〜第3の実施の形態の説明に記載した手法で定めた重みであってもよい。いずれにせよ、重み変更モジュール920では、初期の重みを保持する。
次に、アーク評価値決定モジュール930はアーク評価値を決定する。そして、文字切り出し位置決定モジュール940が、そのアーク評価値を用いて、文字切り出し位置を決定する。
決定後の文字切り出し位置は、切り出し位置正解個数算出モジュール950に渡される。それとは別に、文字切り出し教師データが切り出し位置正解個数算出モジュール950に入力される。
ここで、文字切り出し結果とは、例えば、画像中の文字の外接矩形の位置、サイズと、文字コードのペアからなっている。文字切り出し教師データも同様である。
切り出し位置正解個数算出モジュール950では、
・教師文字:文字切り出し教師データ内に存在する、複数の文字(外接矩形の位置、サイズと、文字コードを持っている)
と、
・推定文字:文字切り出し位置決定モジュール940で決定した文字
との比較を行う。
教師文字と推定文字の文字切り出し位置、サイズと文字コードが一致した個数を、切り出し位置正解個数算出モジュール950では算出する。ここで、文字切り出し位置、サイズの一致の判定に関しては、微小なずれを許容するようにしてもよい。なお、文字コードの一致を判定せずに、文字切り出し位置、サイズの一致だけを判定してもよい。
重み変更モジュール920では、正解個数と、重み変更モジュール920内で保持している過去の重みを用いて、次の重みを決定する。
ここで、アーク評価値決定モジュール930で用いる重み(すなわち全てのwやc)を並べた重みベクトルをWとする。Wの要素を(W1,W2,…)とする。
また、初期重みをW0とする。次の重みをW1とする。このように次々に重みを更新していく。正解個数が増加しなくなった時点や、正解個数の増加率が所定の値以下になった時点、又は、繰り返し回数が予め定められた回数となった時点で重み変更の処理を終了して、その時点の重みをアーク評価値決定モジュール930に出力する。
まず、文字切り出し正解個数をAとする。Aは、Wの関数である。すなわち、A(W)と記すことができる。Aを最大化するようにWを決定すればよい。さて、現在の重みをWmとする。また、変更後の重みをWm+1とする。
重みの更新式は、(24)式となる。
なお、数式を用いて説明したが、数式には、その数式と同等のものが含まれる。同等のものとは、その数式そのものの他に、最終的な結果に影響を及ぼさない程度の数式の変形、又は数式をアルゴリズミックな解法で解くこと等が含まれる。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray Disc(登録商標))、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM)、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
42M…非線形関数σ1−Mモジュール
51K…アーク評価値算出モジュールK
61M…線形重み付け加算モジュールj−1−Mj
62M…非線形関数σj−1−Mjモジュール
110…画像受付モジュール
120…文字列抽出モジュール
130…文字境界候補抽出モジュール
140…アーク特徴量抽出モジュール
150…アーク評価値決定モジュール
160…文字切り出しモジュール
170…文字認識モジュール
210…線形重み付け加算モジュール
220…非線形関数モジュール
411…線形重み付け加算モジュール1−1
412…線形重み付け加算モジュール1−2
421…非線形関数σ1−1モジュール
422…非線形関数σ1−2モジュール
430…線形重み付け加算モジュール2
440…非線形関数σ2モジュール
511…アーク評価値算出モジュール1
512…アーク評価値算出モジュール2
520…アーク評価値加算モジュール
611…線形重み付け加算モジュールj−1−1
612…線形重み付け加算モジュールj−1−2
621…非線形関数σj−1−1モジュール
622…非線形関数σj−1−2モジュール
630…線形重み付け加算モジュールj−2
640…非線形関数σj−2モジュール
810…アーク候補決定モジュール
820…アーク評価値決定モジュール
830…文字切り出し位置決定モジュール
910…アーク候補決定モジュール
920…重み変更モジュール
930…アーク評価値決定モジュール
940…文字切り出し位置決定モジュール
950…切り出し位置正解個数算出モジュール
1710…線形重み付け加算モジュール
Claims (8)
- 画像内に存在する1つの文字画像を切り出す位置の候補に関する複数の特徴量に対して、重み付き線形和を計算する第1の計算手段と、
前記第1の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第2の計算手段と、
前記第2の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定する切出位置決定手段と、
文字画像の切り出し位置の教師データを受け付ける受付手段と、
前記切出位置決定手段によって決定された切り出し位置と前記受付手段によって受け付けられた教師データを比較して、切り出し位置の正解個数又は誤り個数を算出する個数算出手段と、
前記個数算出手段によって算出された切り出し位置の正解個数又は誤り個数に基づいて、1文字分の文字切り出し位置における前記第1の計算手段で用いる重みを変更する重み変更手段
を具備し、
前記重み変更手段は、現在の重みでの場合の正解個数又は誤り個数に基づいた値から変更後の重みでの正解個数又は誤り個数に基づいた値への変更量から次の重みを決定する
ことを特徴とする画像処理装置。 - 画像内に存在する1つの文字画像を切り出す位置の候補に関する複数の特徴量に対して、重み付き線形和を計算する第1の計算手段と、
前記第1の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第2の計算手段と、
前記第2の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定する切出位置決定手段と、
前記第1の計算手段と前記第2の計算手段による組を複数有し、
前記複数の第2の計算手段によって計算された評価値に対して、重み付き線形和を計算する第3の計算手段と、
前記第3の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第4の計算手段
を具備し、
前記切出位置決定手段は、前記第4の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定し、
文字画像の切り出し位置の教師データを受け付ける受付手段と、
前記切出位置決定手段によって決定された切り出し位置と前記受付手段によって受け付けられた教師データを比較して、切り出し位置の正解個数又は誤り個数を算出する個数算出手段と、
前記個数算出手段によって算出された切り出し位置の正解個数又は誤り個数に基づいて、1文字分の文字切り出し位置における前記第1の計算手段、又は前記第3の計算手段で用いる重みを変更する重み変更手段
を具備し、
前記重み変更手段は、現在の重みでの場合の正解個数又は誤り個数に基づいた値から変更後の重みでの正解個数又は誤り個数に基づいた値への変更量から次の重みを決定する
ことを特徴とする画像処理装置。 - 画像内に存在する1つの文字画像を切り出す位置の候補に関する複数の特徴量に対して、重み付き線形和を計算する第1の計算手段と、
前記第1の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第2の計算手段と、
前記第2の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定する切出位置決定手段と、
前記第1の計算手段と前記第2の計算手段による組を複数有し、
前記複数の第2の計算手段によって計算された評価値の和を計算する第5の計算手段
を具備し、
前記切出位置決定手段は、前記第5の計算手段によって計算された評価値の和に基づいて、前記画像内に存在する文字画像を切り出す位置を決定し、
文字画像の切り出し位置の教師データを受け付ける受付手段と、
前記切出位置決定手段によって決定された切り出し位置と前記受付手段によって受け付けられた教師データを比較して、切り出し位置の正解個数又は誤り個数を算出する個数算出手段と、
前記個数算出手段によって算出された切り出し位置の正解個数又は誤り個数に基づいて、1文字分の文字切り出し位置における前記第1の計算手段で用いる重みを変更する重み変更手段
を具備し、
前記重み変更手段は、現在の重みでの場合の正解個数又は誤り個数に基づいた値から変更後の重みでの正解個数又は誤り個数に基づいた値への変更量から次の重みを決定する
ことを特徴とする画像処理装置。 - 画像内に存在する1つの文字画像を切り出す位置の候補に関する複数の特徴量に対して、重み付き線形和を計算する第1の計算手段と、
前記第1の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第2の計算手段と、
前記第2の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定する切出位置決定手段と、
前記第1の計算手段と前記第2の計算手段による組を複数有し、
前記複数の第2の計算手段によって計算された評価値に対して、重み付き線形和を計算する第3の計算手段と、
前記第3の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第4の計算手段
を具備し、
前記切出位置決定手段は、前記第4の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定し、
前記第1の計算手段と前記第2の計算手段による複数の組と、前記第3の計算手段と前記第4の計算手段による組を複数有し、
前記複数の第4の計算手段によって計算された評価値の和を計算する第6の計算手段
を具備し、
前記切出位置決定手段は、前記第6の計算手段によって計算された評価値の和に基づいて、前記画像内に存在する文字画像を切り出す位置を決定し、
文字画像の切り出し位置の教師データを受け付ける受付手段と、
前記切出位置決定手段によって決定された切り出し位置と前記受付手段によって受け付けられた教師データを比較して、切り出し位置の正解個数又は誤り個数を算出する個数算出手段と、
前記個数算出手段によって算出された切り出し位置の正解個数又は誤り個数に基づいて、1文字分の文字切り出し位置における前記第1の計算手段、又は前記第3の計算手段で用いる重みを変更する重み変更手段
を具備し、
前記重み変更手段は、現在の重みでの場合の正解個数又は誤り個数に基づいた値から変更後の重みでの正解個数又は誤り個数に基づいた値への変更量から次の重みを決定する
ことを特徴とする画像処理装置。 - コンピュータを、
画像内に存在する1つの文字画像を切り出す位置の候補に関する複数の特徴量に対して、重み付き線形和を計算する第1の計算手段と、
前記第1の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第2の計算手段と、
前記第2の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定する切出位置決定手段と、
文字画像の切り出し位置の教師データを受け付ける受付手段と、
前記切出位置決定手段によって決定された切り出し位置と前記受付手段によって受け付けられた教師データを比較して、切り出し位置の正解個数又は誤り個数を算出する個数算出手段と、
前記個数算出手段によって算出された切り出し位置の正解個数又は誤り個数に基づいて、1文字分の文字切り出し位置における前記第1の計算手段で用いる重みを変更する重み変更手段
として機能させ、
前記重み変更手段は、現在の重みでの場合の正解個数又は誤り個数に基づいた値から変更後の重みでの正解個数又は誤り個数に基づいた値への変更量から次の重みを決定する
ことを特徴とする画像処理プログラム。 - コンピュータを、
画像内に存在する1つの文字画像を切り出す位置の候補に関する複数の特徴量に対して、重み付き線形和を計算する第1の計算手段と、
前記第1の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第2の計算手段と、
前記第2の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定する切出位置決定手段と、
前記第1の計算手段と前記第2の計算手段による組を複数有し、
前記複数の第2の計算手段によって計算された評価値に対して、重み付き線形和を計算する第3の計算手段と、
前記第3の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第4の計算手段
として機能させ、
前記切出位置決定手段は、前記第4の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定し、
文字画像の切り出し位置の教師データを受け付ける受付手段と、
前記切出位置決定手段によって決定された切り出し位置と前記受付手段によって受け付けられた教師データを比較して、切り出し位置の正解個数又は誤り個数を算出する個数算出手段と、
前記個数算出手段によって算出された切り出し位置の正解個数又は誤り個数に基づいて、1文字分の文字切り出し位置における前記第1の計算手段、又は前記第3の計算手段で用いる重みを変更する重み変更手段
として機能させ、
前記重み変更手段は、現在の重みでの場合の正解個数又は誤り個数に基づいた値から変更後の重みでの正解個数又は誤り個数に基づいた値への変更量から次の重みを決定する
ことを特徴とする画像処理プログラム。 - コンピュータを、
画像内に存在する1つの文字画像を切り出す位置の候補に関する複数の特徴量に対して、重み付き線形和を計算する第1の計算手段と、
前記第1の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第2の計算手段と、
前記第2の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定する切出位置決定手段と、
前記第1の計算手段と前記第2の計算手段による組を複数有し、
前記複数の第2の計算手段によって計算された評価値の和を計算する第5の計算手段
として機能させ、
前記切出位置決定手段は、前記第5の計算手段によって計算された評価値の和に基づいて、前記画像内に存在する文字画像を切り出す位置を決定し、
文字画像の切り出し位置の教師データを受け付ける受付手段と、
前記切出位置決定手段によって決定された切り出し位置と前記受付手段によって受け付けられた教師データを比較して、切り出し位置の正解個数又は誤り個数を算出する個数算出手段と、
前記個数算出手段によって算出された切り出し位置の正解個数又は誤り個数に基づいて、1文字分の文字切り出し位置における前記第1の計算手段で用いる重みを変更する重み変更手段
として機能させ、
前記重み変更手段は、現在の重みでの場合の正解個数又は誤り個数に基づいた値から変更後の重みでの正解個数又は誤り個数に基づいた値への変更量から次の重みを決定する
ことを特徴とする画像処理プログラム。 - コンピュータを、
画像内に存在する1つの文字画像を切り出す位置の候補に関する複数の特徴量に対して、重み付き線形和を計算する第1の計算手段と、
前記第1の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第2の計算手段と、
前記第2の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定する切出位置決定手段と、
前記第1の計算手段と前記第2の計算手段による組を複数有し、
前記複数の第2の計算手段によって計算された評価値に対して、重み付き線形和を計算する第3の計算手段と、
前記第3の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第4の計算手段
として機能させ、
前記切出位置決定手段は、前記第4の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定し、
前記第1の計算手段と前記第2の計算手段による複数の組と、前記第3の計算手段と前記第4の計算手段による組を複数有し、
前記複数の第4の計算手段によって計算された評価値の和を計算する第6の計算手段
として機能させ、
前記切出位置決定手段は、前記第6の計算手段によって計算された評価値の和に基づいて、前記画像内に存在する文字画像を切り出す位置を決定し、
文字画像の切り出し位置の教師データを受け付ける受付手段と、
前記切出位置決定手段によって決定された切り出し位置と前記受付手段によって受け付けられた教師データを比較して、切り出し位置の正解個数又は誤り個数を算出する個数算出手段と、
前記個数算出手段によって算出された切り出し位置の正解個数又は誤り個数に基づいて、1文字分の文字切り出し位置における前記第1の計算手段、又は前記第3の計算手段で用いる重みを変更する重み変更手段
として機能させ、
前記重み変更手段は、現在の重みでの場合の正解個数又は誤り個数に基づいた値から変更後の重みでの正解個数又は誤り個数に基づいた値への変更量から次の重みを決定する
ことを特徴とする画像処理プログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2010146014A JP5636766B2 (ja) | 2010-06-28 | 2010-06-28 | 画像処理装置及び画像処理プログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2010146014A JP5636766B2 (ja) | 2010-06-28 | 2010-06-28 | 画像処理装置及び画像処理プログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2012008909A JP2012008909A (ja) | 2012-01-12 |
| JP5636766B2 true JP5636766B2 (ja) | 2014-12-10 |
Family
ID=45539349
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2010146014A Expired - Fee Related JP5636766B2 (ja) | 2010-06-28 | 2010-06-28 | 画像処理装置及び画像処理プログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5636766B2 (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN113591858A (zh) * | 2021-02-20 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 一种文本识别方法、装置、电子设备和存储介质 |
Family Cites Families (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0343877A (ja) * | 1989-07-12 | 1991-02-25 | Omron Corp | 画像照合装置 |
| JP3009078B2 (ja) * | 1992-01-06 | 2000-02-14 | オムロン株式会社 | 文字認識装置 |
| JP3264961B2 (ja) * | 1992-01-30 | 2002-03-11 | 松下電器産業株式会社 | 文字認識装置 |
| JP3180477B2 (ja) * | 1992-12-10 | 2001-06-25 | 松下電器産業株式会社 | パターン認識装置 |
| JP2576080B2 (ja) * | 1992-10-28 | 1997-01-29 | エヌ・ティ・ティ・データ通信株式会社 | 文字切出し方法 |
| JP3313272B2 (ja) * | 1996-01-08 | 2002-08-12 | 株式会社日立製作所 | 住所読み取り方法および識別関数重みベクトル生成方法 |
| JP4741019B2 (ja) * | 2009-07-06 | 2011-08-03 | セコム株式会社 | インターホン装置 |
-
2010
- 2010-06-28 JP JP2010146014A patent/JP5636766B2/ja not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2012008909A (ja) | 2012-01-12 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8131087B2 (en) | Program and apparatus for forms processing | |
| US8045800B2 (en) | Active segmentation for groups of images | |
| US8224090B2 (en) | Apparatus and method for analyzing and determining correlation of information in a document | |
| JP5699570B2 (ja) | 画像処理装置及び画像処理プログラム | |
| US8233726B1 (en) | Image-domain script and language identification | |
| US12072957B2 (en) | Data classification system, data classification method, and recording medium | |
| JP6003705B2 (ja) | 情報処理装置及び情報処理プログラム | |
| CN101866418B (zh) | 确定文档阅读顺序的方法和设备 | |
| JP6892606B2 (ja) | 位置特定装置、位置特定方法及びコンピュータプログラム | |
| JP7623868B2 (ja) | データ処理装置及び方法 | |
| RU2613847C2 (ru) | Выявление китайской, японской и корейской письменности | |
| US8787676B2 (en) | Image processing apparatus, computer readable medium storing program, and image processing method | |
| JP2013047887A (ja) | 画像処理装置及び画像処理プログラム | |
| JP5636766B2 (ja) | 画像処理装置及び画像処理プログラム | |
| JP5888222B2 (ja) | 情報処理装置及び情報処理プログラム | |
| JP5673033B2 (ja) | 画像処理装置及び画像処理プログラム | |
| JP6260350B2 (ja) | 画像処理装置及び画像処理プログラム | |
| JP7504314B2 (ja) | 表画像認識装置、プログラム及び表画像認識方法 | |
| JP6511942B2 (ja) | 情報処理装置および情報処理プログラム | |
| JP5821648B2 (ja) | 情報処理装置及び情報処理プログラム | |
| JP5935324B2 (ja) | 情報処理装置及び情報処理プログラム | |
| CN115439729B (zh) | 一种基于交替迭代优化的场景图生成装置和方法 | |
| KR20080104425A (ko) | 스팸문서 판단 시스템 및 방법 | |
| JP7228542B2 (ja) | 学習プログラム、学習装置および学習方法 | |
| JP2016053797A (ja) | 画像処理装置及び画像処理プログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130522 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140124 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140212 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140404 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140924 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141007 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5636766 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| LAPS | Cancellation because of no payment of annual fees |