JP4733859B2 - 所在情報認識装置および区分装置 - Google Patents
所在情報認識装置および区分装置 Download PDFInfo
- Publication number
- JP4733859B2 JP4733859B2 JP2001172796A JP2001172796A JP4733859B2 JP 4733859 B2 JP4733859 B2 JP 4733859B2 JP 2001172796 A JP2001172796 A JP 2001172796A JP 2001172796 A JP2001172796 A JP 2001172796A JP 4733859 B2 JP4733859 B2 JP 4733859B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- output
- reading
- characters
- appearance rate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Sorting Of Articles (AREA)
- Character Discrimination (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
【発明の属する技術分野】
この発明は、紙葉類上の数字列からなる所在情報を読取り、この読取った数字列の1文字ずつを認識する所在情報認識装置、および、この所在情報認識装置の認識結果を用いて区分処理を実行する区分装置に関する。
【0002】
【従来の技術】
紙葉類としての郵便物上の宛名情報を光学的に読み取って郵便物を区分する郵便物宛名自動読取区分機においては、2種類の文字認識手法(複合類似度法、構造特徴マッチング法)が使用されている。
【0003】
2種類の認識手法によって得られた認識結果から、郵便番号(数字列からなる所在情報)の出現率によって予め設定されたパラメータを用いて評価値を求め、認識結果の総合評価を行っている。例えば、各桁において、出現率の高い数字の評価値は高く設定し、出現率の低い数字はその値を低く設定する、等といったことをパラメータで設定している。
【0004】
このような処理を行うことによって、出現率の多い数字は認識しやすく、出現率の低い数字は認識し難くすることができ、各地域での区分機の処理効率を向上させることができる。
【0005】
例えば、川崎付近の郵便局においては、「21*」などという郵便物の割合が多い。従って、1桁目の数字「2」や2桁目の数字「1」をその他の数字と比べて認識しやすく設定しておくことによって、区分率の向上、誤区分率の低減を行っている。
【0006】
従来、このパラメータは、現地保守員などが経験的に捉えた、各地域での郵便番号の出現率を基に調整されていた。
上記したとおり、パラメータの調整は地域ごとに人手で行っていたため、調整する手間が非常にかかる上、人の経験や勘に頼るところが多いのでかえって性能が悪化する(調整不良)場合もあり、問題となっていた。
【0007】
【発明が解決しようとする課題】
この発明は、区分装置で収集される数字列からなる所在情報の統計情報を利用してパラメータ調整を自動化することによって、大幅な省力化が図れる所在情報認識装置および区分装置を提供することを目的としている。
【0008】
【課題を解決するための手段】
この発明の所在情報認識装置は、紙葉類上の数字列からなる所在情報を読取る読取手段と、この読取手段により読取った数字列の1文字ずつを参照用の各文字ごとに複数の文字パターンとの複合類似度法により認識候補文字と前記参照用の文字パターンの種別と信頼度とを出力する第1の出力手段と、前記読取手段により読取った数字列の1文字ずつを参照用の各文字ごとに複数の構造特徴との構造特徴マッチング法により認識候補文字と前記参照用の構造特徴の種別とを出力する第2の出力手段と、前記数字列の各桁ごとの文字の出現率を記憶するもので、前記出現率は前記数字列の手前の桁の数字に関連づけられている第1の記憶手段と、前記第1の出力手段の出力結果と前記第2の出力手段の出力結果とに基づく、誤読される可能性高い文字と、この誤読文字の出現率と、認識文字の出現率とに対する、調整用のパラメータ番号を記憶する第2の記憶手段と、前記第2の出力手段の出力結果に基づく、認識候補文字の出現率に対する、複数段階の頻度レベルを決定する種々の基準値を記憶する第3の記憶手段と、前記調整用のパラメータ番号に対する各頻度レベルごとかつ信頼度ごとの評価値を記憶する第4の記憶手段と、前記第1、第2の出力手段による各認識候補文字に対する出現率を前記第1の記憶手段から読出す第1の読出手段と、前記第1の出力手段による認識候補文字と前記参照用の文字パターンの種別と前記第2の出力手段による認識候補文字と前記参照用の構造特徴の種別と、前記第1の読出手段により読出された各認識候補文字に対する出現率とに基づく、調整用のパラメータ番号を前記第2の記憶手段から読出す第2の読出手段と、前記第2の出力手段による認識候補文字に対する前記出現率と、前記第2の出力手段による認識候補文字と参照用の構造特徴の種別とに対して前記第3の記憶手段に記憶されている各基準値とを比較することにより、頻度レベルを判断する第1の判断手段と、前記第2の読出手段による調整用のパラメータ番号と前記第1の判断手段により判断された頻度レベルとにより、前記第4の記憶手段に記憶されている評価値を読出す第3の読出手段と、前記第1、第2の出力手段による各認識候補文字に対する前記第3の読出手段により読出される評価値により、前記数字列の文字を判断する第2の判断手段と、この第2の判断手段により判断した前記数字列の文字を収集する収集手段と、この収集手段により収集した前記数字列の文字の収集内容に基づいて、前記第1の記憶手段に記憶されている前記数字列の各桁ごとの文字の出現率を変更する変更手段とを具備している。
【0009】
【発明の実施の形態】
この発明の実施の形態を図面に基いて詳細に説明する。
図1は、この発明に係わる区分機1を示す外観図であり、図2は区分機1の概略構成を示す図である。この区分機1は、大型の箱型状の区分機本体1aを有している。この区分機1は、郵便物P上の宛名、郵便番号を読取り、その読取内容から宛名、郵便番号を認識し、この認識した宛名、郵便番号に対応する区分先に郵便物Pを区分するものである。
上記区分機本体1aには、供給部2と、スキャナ部3と、搬送部4と、区分部5と、収納部6とが設けられている。この供給部2からの郵便物Pが搬送路Rによって搬送されることにより、搬送部4、区分部5を順次介して収納部6に導かれる。
【0010】
上記供給部2は、郵便物Pを載置する載置台7と、この載置台7から郵便物Pを一通ずつ取り出して搬送路Rに送る取出し部8とを有している。上記スキャナ部3は、搬送路Rによって搬送される1通ずつの郵便物P上の全体の画像を光学的に読取って画像情報を生成する。上記搬送部4は、スキャナ部3を通過してきた郵便物Pを区分部5へ搬送する。上記収納部6は、郵便物Pを区分収納する多数の収納ポケット6aを有している。上記区分部5は、搬送部4から送られてくる郵便物Pをスキャナ部3からの画像情報に対する後述する認識結果に基いて収納ポケット6a、…のいずれかに振り分ける。
【0011】
上記スキャナ部3は、郵便物P上を光学的に走査して光電変換することによりパターン信号を得るものであり、たとえば郵便物P上に光を照射する光源、およびその反射光を受けて電気信号に変換する自己走査形のCCDイメージセンサ等によって構成される。上記スキャナ部3の出力は認識部10に供給される。この認識部10は、スキャナ部3の出力に応じて文字パターンの認識を行うことにより郵便番号、住所等からなるあて名を認識するものである。
【0012】
上記区分機1において、上記供給部2、スキャナ部3、搬送部4、区分部5、認識部10は、制御部11に接続されている。この制御部11は、区分機1の全体の動作を制御する。たとえば、制御部11は図示しないメモリに記憶されている区分指定テーブルを用いて、上記認識部10の認識結果に対応する区分指定データを読出し、この読出した区分指定データ(収納ポケット6a、…のアドレス)に対応する収納ポケット6a、…に上記郵便物Pを搬送せしめるものである。
【0013】
さらに、上記制御部11はドライバ(図示しない)により上記搬送路R等の搬送機構部(図示しない)を駆動することにより、搬送系全体の制御を行うようになっている。
上記認識部10は、図3に示すように、領域検出部12と、文字行検出部13と、文字検出部14と、郵便番号認識部15と、文字認識部16と、街区文字認識部17と、宛名認識部18と、文字辞書部19と、住所辞書部20とで構成されている。
【0014】
上記領域検出部12は、スキャナ部3から供給される画像から、領域の形、位置等で、宛名、郵便番号が記載されている領域を検出する。
上記文字行検出部13は、領域検出部12により検出された領域内の宛名、郵便番号が記載されている文字行を検出する。領域検出部12により検出された領域内の画像データからあて名行を検出するものである。
【0015】
この文字行検出部13は、領域検出部12により検出された領域内の画像より、スタンプ、郵便番号枠、広告文などを検出し、それらを除去した後、文字の配置などから行を検出し、その行の大きさ、配置などから住所もしくは郵便番号行らしい行に優先度をつけ、その優先度の高い候補から順々に検出結果として出力するものである。
【0016】
上記文字検出部14は、文字行検出部13により検出された文字行の文字を1文字ずつ検出切出しする、つまり住所(郵便番号)に対応する文字情報を検出切出しする。
上記郵便番号認識部15は、文字検出部14から供給されるつまり検出切出された文字(郵便番号)を文字辞書部19に記憶されている文字データ(数字データ:数字に対応する標準パターン)と照合して郵便番号を認識する。上記郵便番号認識部15における郵便番号の認識方法および認識手段は、後で詳細に説明する。
【0017】
上記文字認識部16は、文字検出部14から供給されるつまり検出切出された文字を文字辞書部19に記憶されている文字データと照合して文字を認識する。同様に、街区文字認識部17も、文字検出部14から供給されるつまり検出切出された文字を文字辞書部19に記憶されている文字データと照合して街区の文字を認識する。宛名認識部18は、文字検出部14から供給されるつまり検出切出された文字を住所辞書部20に記憶されている住所データと照合して宛名を認識する。
【0018】
上記郵便番号認識部15からの郵便番号の認識結果、文字認識部16からの文字の認識結果、街区文字認識部17からの街区文字の認識結果、宛名認識部18からの宛名の認識結果は、制御部11に供給されている。この制御部11は、供給されている各認識結果により宛名を判別し、この判別した宛名に対する区分指定データつまり区分部5における収納ポケット6a、…を示すデータを出力するものである。
【0019】
図4は、上記郵便番号認識部15の構成を詳細に示すものである。すなわち、文字検出部14から供給される文字検出切り出し候補の文字パターンは、複合類似度認識部31および構造特徴マッチング認識部32にそれぞれ送られる。複合類似度認識部31は、供給される文字パターンと複合類似度辞書31aの標準パターンとの比較演算により複合類似度演算を行うことにより認識処理を行い、その認識結果は上位候補の複合類似度のみを残し、複合類似度評価部33に送られる。複合類似度辞書31aは1つの文字種に対し複数のエントリ文字が存在するので、エントリ文字毎に異なった類似度を持つ。複合類似度評価部33では、類似度の分布により、予め統計的に予測されたしきい値によって、類似度信頼度と呼ばれる評価値を算出し、この算出した評価値の上位3候補までを認識結果として決定する。
【0020】
構造特徴マッチング認識部32は、供給される文字パターンの輪郭構造を演算し、その輪郭構造特徴をセグメントと呼ばれる文字構成要素に分解する。構造特徴マッチング認識部32は、セグメントは方向コードや長さの情報からなり、そのセグメントの接続条件から、構造の認識を行う。構造特徴マッチング認識部32は、構造特徴マッチング辞書32aの遷移を行い、構造特徴がマッチしたものが構造特徴マッチング評価部34に送られる。構造特徴マッチング辞書32aは1つの文字種に対し複数のエントリ文字が存在し、そのそれぞれが文字の形状を反映している。どのエントリ文字に対して構造特徴がマッチしたかという情報も同時に構造特徴マッチング評価部34に送られる。構造特徴マッチング評価部34は、文字の詳細な特徴を再評価し、認識結果を3候補まで決定する。
【0021】
複合類似度評価部33および構造特徴マッチング評価部34の各認識結果は、それぞれ総合評価部35に送られ、この総合評価部35で供給される文字パターンに対する答えと総合評価値を決定する。総合評価部35では、図5に示す、出現率評価テーブル(第1の記憶手段)41を用いて、各桁ごとの出現率を求め、図6に示す、結合テーブル(第2の記憶手段)42を用いて、調整パターン番号を選択し、図7に示す、レベル選択テーブル(第3の記憶手段)43を用いて、頻度レベルを選択し、図8に示す、レベルテーブル(第4の記憶手段)44を用いて、評価値の算出をする。(統計情報を利用したこのような評価値出力の方法を、以下、自動調整処理と記述する。)
総合評価部35の評価結果は、郵便番号編集部36に送られ、ここで7桁の最終的な郵便番号候補が出力される。
【0022】
出現率評価テーブル41は、図5に示すように、各桁ごとの各文字の出現率からなり、たとえば、1桁目の出現率として、1の出現率が89%、2の出現率が11%、他の数字の出現率が0%となっている。また、1桁目が1の際の2桁目の出現率として、0の出現率が67%、1の出現率が18%、2の出現率が15%、他の数字の出現率が0%となっている。また、1桁目が2の際の2桁目の出現率として、0の出現率が100%、他の数字の出現率が0%となっている。
【0023】
出現率評価テーブル41は、後述するように、あらかじめ収集された郵便番号データの統計情報により作成される。
結合テーブル42は、図6に示すように、構造特徴マッチングの文字(認識結果)とエントリ(マッチング用の比較する文字の形状の違いにより区別されている)と複合類似度の文字(認識結果)とエントリ(複合類似度用の比較する文字パターンの違いにより区別されている)との組合わせと、誤読される可能性の高い文字(相手文字)、相手の文字の条件(相手文字の出現率)、自分の条件(認識文字の出現率−相手文字の出現率=出現率差)に対する調整パターン番号が登録されている。
【0024】
たとえば、構造特徴マッチングの文字が「0」でエントリが「1」、複合類似度の文字が「0」でエントリが「1」、相手文字が「6」の場合、相手の条件として出現率が「5」よりも大きく、自分の条件として出現率差が「6」よりも大きい際に、調整パターン番号「5」が選択されるようになっている。
【0025】
また、構造特徴マッチングの文字が「0」でエントリが「1」、複合類似度の文字が「0」でエントリが「1」、相手文字が「8」の場合、相手の条件として出現率が「5」よりも大きい際に、調整パターン番号「2」が選択されるようになっている。
【0026】
また、構造特徴マッチングの文字が「0」でエントリが「1」、複合類似度の文字が「0」でエントリが「1」、相手文字が「8」の場合、相手の条件として出現率が「6」よりも小さく、自分の条件として出現率差が「20」よりも大きい際に、調整パターン番号「3」が選択されるようになっている。
【0027】
また、構造特徴マッチングの文字が「0」でエントリが「1」、複合類似度の文字が「0」でエントリが「1」で、相手文字、相手の条件、自分の条件が上記以外の際に、調整パターン番号「10」が選択されるようになっている。
また、構造特徴マッチングの文字が「0」でエントリが「2」、複合類似度の文字が「0」でエントリが「*:1以外」、相手文字が「6」の場合、相手の条件として出現率が「6」よりも小さく、自分の条件として出現率差が「10」よりも小さい際に、調整パターン番号「1」が選択されるようになっている。
【0028】
レベル選択テーブル43は、図7に示すように、構造特徴マッチングの認識結果の出現率によって、強強化、強化、標準、弱化、弱弱化の5段階の頻度レベルを定めている。このレベル選択テーブル43では、構造特徴マッチングの文字(認識結果)のエントリ(マッチング用の比較する文字の形状の違いにより区別されている)ごとに、各レベルの間の閾値を設定している。
【0029】
たとえば、構造特徴マッチングの文字が「0」でエントリが「0」の場合、強強化と強化を区別する閾値が「20」で、強化と標準を区別する閾値が「10」で、標準と弱化を区別する閾値が「5」で、弱化と弱弱化を区別する閾値が「2」である。
【0030】
また、構造特徴マッチングの文字が「0」でエントリが「1」の場合、強強化と強化を区別する閾値が「25」で、強化と標準を区別する閾値が「15」で、標準と弱化を区別する閾値が「10」で、弱化と弱弱化を区別する閾値が「5」である。
レベルテーブル44は、図8に示すように、調整パターン番号と頻度レベルと複合類似度の信頼度とに基づいて、評価値が登録されている。
【0031】
たとえば、調整パターン番号「1」の、頻度レベルが強強化で複合類似度の信頼度が「0」、「1」、「2」、「3」に対して、それぞれ評価値「2」、「4」、「4」、「5」が対応して記憶され、調整パターン番号「1」の、頻度レベルが強化で複合類似度の信頼度が「0」、「1」、「2」、「3」に対して、それぞれ評価値「2」、「3」、「4」、「5」が対応して記憶され、調整パターン番号「1」の、頻度レベルが標準で複合類似度の信頼度が「0」、「1」、「2」、「3」に対して、それぞれ評価値「1」、「3」、「4」、「5」が対応して記憶され、調整パターン番号「1」の、頻度レベルが弱化で複合類似度の信頼度が「0」、「1」、「2」、「3」に対して、それぞれ評価値「1」、「3」、「4」、「4」が対応して記憶され、調整パターン番号「1」の、頻度レベルが弱弱化で複合類似度の信頼度が「0」、「1」、「2」、「3」に対して、それぞれ評価値「1」、「2」、「3」、「4」が対応して記憶される。
【0032】
また、調整パターン番号「2」の、頻度レベルが強強化で複合類似度の信頼度が「0」、「1」、「2」、「3」に対して、それぞれ評価値「2」、「4」、「4」、「5」が対応して記憶され、調整パターン番号「2」の、頻度レベルが強化で複合類似度の信頼度が「0」、「1」、「2」、「3」に対して、それぞれ評価値「2」、「3」、「5」、「5」が対応して記憶され、調整パターン番号「2」の、頻度レベルが標準で複合類似度の信頼度が「0」、「1」、「2」、「3」に対して、それぞれ評価値「2」、「3」、「4」、「5」が対応して記憶され、調整パターン番号「2」の、頻度レベルが弱化で複合類似度の信頼度が「0」、「1」、「2」、「3」に対して、それぞれ評価値「1」、「3」、「4」、「5」が対応して記憶され、調整パターン番号「2」の、頻度レベルが弱弱化で複合類似度の信頼度が「0」、「1」、「2」、「3」に対して、それぞれ評価値「1」、「3」、「4」、「4」が対応して記憶される。
【0033】
また、調整パターン番号「3」の、頻度レベルが強強化で複合類似度の信頼度が「0」、「1」、「2」、「3」に対して、それぞれ評価値「3」、「5」、「6」、「6」が対応して記憶され、調整パターン番号「3」の、頻度レベルが強化で複合類似度の信頼度が「0」、「1」、「2」、「3」に対して、それぞれ評価値「3」、「4」、「6」、「6」が対応して記憶され、調整パターン番号「3」の、頻度レベルが標準で複合類似度の信頼度が「0」、「1」、「2」、「3」に対して、それぞれ評価値「3」、「4」、「5」、「6」が対応して記憶され、調整パターン番号「3」の、頻度レベルが弱化で複合類似度の信頼度が「0」、「1」、「2」、「3」に対して、それぞれ評価値「2」、「4」、「5」、「6」が対応して記憶され、調整パターン番号「3」の、頻度レベルが弱弱化で複合類似度の信頼度が「0」、「1」、「2」、「3」に対して、それぞれ評価値「2」、「4」、「5」、「5」が対応して記憶される。
【0034】
次に、上記構成において、図9に示すフローチャートを参照しつつ、自動調整処理を説明する。
たとえば、具体例として、郵便番号「100−0001」の2桁目「0」の評価値を自動調整処理により求める手順を示す。入力データとして、以下のデータが与えられたとする。簡単のため、以下では、複合類似度の認識結果、構造特徴マッチングの認識結果が共に、例えば文字が「0」でエントリ1の場合、“0−1”と記述する。
【0035】
総合評価では、複合類似度の認識結果と構造特徴マッチングの認識結果の全組み合わせについてそれぞれ評価値を算出し、その上位2候補を、それまでの前文字列に対する答えとする。具体的には、(例1)の場合、前文字列が「1」「2」の場合についてそれぞれ
(複合類似度の認識結果、構造特徴マッチングの認識結果)
=(0−1,0−1)、(0−1,8−1)、(6−2,0−1)、
(6−2,8−1)、(0−1,×)、(6−1,×)、(×,0−1)、
(×,8−1)
の全組み合わせ(×は、候補がない状態)について、以下で示す第22〜第25のステップの操作を行ってそれぞれの総合評価値を算出し、評価値の高い方から1候補または2候補(候補数の選択の詳細は、第26のステップを参照)を、その前文字列候補に対する答えとして採用する。
【0036】
尚、第22〜第25のステップでは、前文字列が「1」で、(複合類似度の認識結果、構造特徴マッチングの認識結果)=(0−1,0−1)の場合を例に挙げて説明する。
【0037】
第22のステップでは、文字の出現率を求める。図5を用いて説明する。出現率評価テーブル41には、各桁での文字の出現率が、前文字列候補に依存する形で設定されている。図5は、1桁目と2桁目の出現率評価テーブル41の例である。この場合、2桁目に「0」が出る確率は、1桁目の文字が「1」のときは67%であるが、1桁目の文字が「2」の時は100%となることを示す。同様に、1桁目の文字が「1」のとき、2桁目で「1」が出る確率は18%、「2」が出る確率は15%、その他は0%であることが求められる。自動調整処理では、ある桁の出現率を求める場合、前文字列と現在評価する桁の構造特徴マッチングの認識結果とを用いて出現率評価表としての出現率評価テーブル41を探索する。
【0038】
(例1)の場合、1桁目候補が「1」で、2桁目の構造特徴マッチング候補は「0」「8」である。よって、「0」の出現率67%が得られる。
次に、処理する桁をN桁目(1≦N≦7)、構造特徴マッチングの認識結果をCN、前文字列C1、C2…CN−1=Cnとした場合の出現率の求め方について、図10に示すフローチャートを参照しつつ説明する。
【0039】
すなわち、N桁目の出現率を求める場合、nを1に設定し(ST31)、nがNと一致するかチェックし(ST32)、一致する場合、1桁目の出現率評価テーブル41から構造特徴マッチングの認識結果CNの出現率(A1)を得る(ST35)。
【0040】
上記ステップ32のチェックの結果、一致しない場合、1桁目の出現率評価値により次桁へのポインタを求め(ST33)、nに1を加算し(n++)(ST34)、ステップ32に戻る。
このステップ32のチェックの結果、一致する場合、上記ステップ35に進み、N桁目の出現率評価テーブル41から構造特徴マッチングの認識結果CNの出現率(A1)を得、一致しない場合、上記ステップ33に進む。
【0041】
第23のステップでは、図11のフローチャートに示すように、調整パターン番号を求める。
結合テーブル42から、構造特徴マッチングの認識結果、複合類似度の認識結果が一致する行を探し(ST41、42、50)、更に、「相手の条件」および「自分の条件」を満たす(ST43〜47)最初の行(I)のパターン番号を調整パターン番号(A2)として出力する(ST48)。
【0042】
最終行まで達した際、最終行のパターン番号を調整パターン番号(A2)として出力する(ST49)。
「相手文字」とは、誤読しやすいと想定される相手の数字のことであり、これはシミュレーションや過去の調整経験から得られる既知の情報から設定されている。たとえば、構造特徴マッチングの認識結果で0−1の結果が得られたパターンは「6」に誤読することが多い、等といった情報が、結合テーブル42に盛り込まれている。
【0043】
例の場合、構造特徴マッチングの認識結果が0−1、複合類似度の認識結果が0−1であり、この時点では、図6の1行目から4行目が該当し、1行目から順に条件が一致するかを検索する。
1行目:
出現率評価表としての出現率評価テーブル41より、現在の桁では「6」の出現率が0%であり、これは「相手の条件」に一致しない。
【0044】
2行目:
同様に、「8」の出現率は0%で、「相手の条件」が一致しない。
3行目:
相手の条件が(0<6)で一致し、自分の条件が((67−0)>20)で一致し、この行が選ばれる。以上の結果、この例の場合、調整パターン番号3が選ばれる。
【0045】
第24のステップでは、頻度レベルを選択する。
構造特徴マッチングの認識結果の出現率によって、強強化、強化、標準、弱化、弱弱化の5段階の頻度レベルを定める。レベル選択テーブル43では、構造特徴マッチングの認識結果のエントリ毎に、各レベルの間の閾値を設定している。構造特徴マッチング法のエントリが文字の特性を反映しているので、エントリの信頼性の高低によって頻度レベルの出方をかえることが可能となる。
【0046】
今、図7に示すレベル選択テーブル43が与えられたとき、(例1)の場合では、第23のステップで構造特徴マッチングの認識結果が0−1、出現率が67%(>25%)が得られており、この頻度レベルは強強化となる。
【0047】
次に、頻度レベルの選択について、図12に示すフローチャートを参照しつつ説明する。
すなわち、構造特徴マッチングの認識結果としての文字とエントリと一致するものをレベル選択テーブル43の1行目から順次チェックし(ST51、52、54、55)、一致した場合に、出現率が強強化と強化の頻度レベルを区別する閾値よりも大きい場合に(ST56)頻度レベル(A3)を強強化と判別し(ST57)、出現率が強化と標準の頻度レベルを区別する閾値よりも大きい場合に(ST58)頻度レベル(A3)を強化と判別し(ST59)、出現率が標準と弱化を区別する閾値よりも大きい場合に(ST60)頻度レベル(A3)を標準と判別し(ST61)、出現率が弱化と弱弱化を区別する閾値よりも大きい場合に(ST62)頻度レベル(A3)を弱化と判別し(ST63)、出現率が弱化と弱弱化を区別する閾値よりも小さい場合に(ST62)頻度レベル(A3)を弱弱化と判別する(ST64)。
【0048】
また、ステップ52により最後の行までチェックしても不一致の際、例外処理として頻度レベル(A3)を標準とする(ST53)
第25のステップでは、総合評価値を算出する。
【0049】
第23、第24のステップで求められた調整パターン番号と頻度レベル、および、複合類似度の信頼度を用いて、レベルテーブル44から評価値を選択する。
図8に示すレベルテーブル44を用いた場合、(例1)の場合では、複合類似度の認識結果が0−1(3)、パターン番号3、頻度レベルが強強化であるから、総合評価値は「6」となる。
【0050】
次に、総合評価値の算出について、図13に示すフローチャートを参照しつつ説明する。
すなわち、第23のステップで求められた調整パターン番号(A2)と一致するものをレベルテーブル44の1行目から順次チェックし(ST71、72、73、76)、一致した場合に、第24のステップで求められた頻度レベル(A3)と複合類似度の信頼度から総合評価値(A4)を選択し、出力する(ST74)。
【0051】
また、ステップ72により最後の行(I)までチェックしても不一致の際、例外処理として総合評価値「0」(A4=0)を出力する(ST75)。
【0052】
第26のステップでは全ての前文字列に対して総合評価処理を行う。同じ複合類似度の認識結果と構造特徴マッチングの認識結果が入力されても、前文字列候補によって総合評価値は変化する可能性がある。
(例1)の場合、前文字列「1」について全ての複合類似度の認識結果、構造特徴マッチングの認識結果の組み合わせで評価を行った後、前文字列「2」の場合について、同様に総合評価を行う(ST27からST29、ST22からST26)。
【0053】
結果的に、7桁目まで上記総合評価を行うと(ST27)、複数の郵便番号候補が得られる。各桁で求められた総合評価値を候補ごとにそれぞれ加算し、それを郵便番号候補の総合評価点とする(ST13)。この総合評価点の高いものを上位2候補選択し、最終結果とする(ST14)。
【0054】
以上のような総合評価算出操作を単純に行い、存在する前文字列に対して各桁で総合評価点の高いほうから第2位までを選んで処理すると、例えば3桁目までで、図14に示すような2分木の形となる(括弧内の数字は総合評価点)。この結果、4桁目の総合評価では、8種の前文字列候補が存在する。
【0055】
以上の操作を7桁まで行った場合、得られる候補は128通りであり、各桁ごとでの総合評価を行う回数の総和は127回、しかも、その127回のそれぞれで複合類似度の認識結果と構造特徴マッチングの認識結果の全ての組み合わせを評価することになり、計算量が膨大なものとなる。そこで、以下のようなルールで計算量を削減することもできる。
【0056】
1.1桁目は2候補までを選択。
2.2桁目以降では、図14に示した2分木のうち、総合評価点の高い方のノードに接続するものだけ2候補選択し、他ノードでは1候補のみ選択する。
この操作で第3桁目まで総合評価を行った場合、図15のようになり、4桁目では、前文字列候補4個に対して総合評価を行う。この方法で7桁目まで処理した場合、最終的な候補は8候補まで絞られる。この8候補の中で、各桁毎の評価点の総和が最も高いものを順に2位まで選択し、最終的な郵便番号候補とする。
【0057】
なお、上記実施例では、文字認識の手法について複合類似度法と構造特徴マッチング法の2つの認識手法に適用した場合について説明したが、本発明はこれに限定されるものでなく、たとえば、一方もしくは両方の認識手法を別の手法に置き換えた場合にも同様に適用できる。また、認識手法が1種類である場合にも同様に適用できる。
【0058】
さらに、使用するテーブル類もこれに限定されるものでない。上記実施例では、経験やシミュレーションなどによって得られた既知の誤読情報を、テーブルに反映させるための方法について説明したが、より単純に頻度を反映させるためには、たとえば、認識結果から得られた類似度に出現率をかけたものを総合評価値とする、などといった方法も考えられる。
【0059】
次に、出現率の求め方について説明する。
出現率評価表としての出現率評価テーブル41は、各桁での0〜9の出現頻度が、前文序列に依存した形で設定されたファイルであり、図16に示すような、稼働情報ファイル11aから作成する。この上記制御部11内に存在し、実際に区分機1で処理した(認識した)郵便番号とその通数を集計して保存したものである。
【0060】
上記稼働情報ファイル11aは郵便局毎の複数台の区分機を管理する機器に存在し、実際に各区分機で処理した(認識した)郵便番号とその通数を集計して保存したものであっても良い。
従来は作業者が経験的に捉えていた文字の出現率が、実際の機械から得られた統計的な情報に置き換えられ、より正確に文字認識処理に反映することができる。
【0061】
以下、作成手順を示す。
(1)1桁目の文字毎の数と総数を求める。(総数が少ない場合は、*で代用する。)
(2)文字種毎の数を総数で割り、割合を求める。(1桁目の場合、「1」が89%、「2」が11%)
(3)1桁目が同じ文字のグループに関して、2桁目の文字毎の数と総数を求め、割合を求める。(1桁目「1」の場合、図16の1〜5行目を集計し割合「0」67%、「1」18%、「2」15%を得る)
(4)(3)の処理を2〜7桁まで繰り返す。(n桁目の処理をするときには、n−1桁目までの前文字列が等しいグループ毎に集計を行う。)
この結果、図17に示すような、1〜7桁目までの出現率を得ることができる。
【0062】
これにより、たとえば1、2桁目に対する、図5に示すような、出現率評価テーブル41が総合評価部35に登録される。
尚、出現率評価テーブル41は、区分機1が安定稼働し稼働情報データが十分に畜積(通常1ヶ月程度)できた段階で作成する。
【0063】
上記したように、区分機設置局で収集された郵便番号データの統計情報を利用して、文字の頻度(出現率)を反映した文字評価値を決定する。今まで人手で行っていた文字評価値決定のパラメータ調整を統計情報によって自動的に行う。
【0064】
すなわち、複合類似度認識および構造特徴マッチング認識の各結果は、それぞれ総合評価部に送られ、ここで入力文字に対する答えと総合評価値を決定する。総合評価部では、郵便局にて収集された郵便番号データの統計情報により自動的に作成された出現率評価テーブル(出現率評価表)を用いて評価値の算出をする。すなわち、出現頻度の高い数字は評価値を高く、出現頻度の低い数字は評価値を低く出力するように、パラメータが設定されている。総合評価部の認識結果は、郵便番号編集部に送られ、ここで7桁の最終的な郵便番号候補が出力される。
【0065】
これにより、複合類似度認識法と構造特徴マッチング法の2種類の文字認識結果から最終的な文字評価値を算出するときに使用するパラメータを人手によらず自動的に調整することができる。
【0066】
また、区分機設置局で収集された郵便番号データの統計情報を利用してパラメータ調整を自動化することによって、大幅な省力化が図れる。
さらに、シミュレーションや過去の調整経験から得られる既知の情報をテーブルに反映させることによって、文字や辞書の特性を利用した細かい調整も可能となる。
【0067】
複数の郵便番号候補を編集する処理において、全ての前文字列に対して総合評価処理(ステップ26の処理)を行うことによって、全桁認識処理の計算量を削減することができる。
【0068】
【発明の効果】
以上詳述したように、この発明によれば、区分装置で収集される数字列からなる所在情報の統計情報を利用してパラメータ調整を自動化することによって、大幅な省力化が図れる所在情報認識装置および区分装置を提供できる。
【図面の簡単な説明】
【図1】この発明の実施形態を説明するための区分機の概略構成を示す外観図。
【図2】区分機の概略構成を示す図。
【図3】区分機の概略構成を示すブロック図。
【図4】郵便番号認識部の概略構成を示すブロック図。
【図5】出現率評価テーブルの構成例を示す図。
【図6】結合テーブルの構成例を示す図。
【図7】レベル選択テーブルの構成例を示す図。
【図8】レベルテーブルの構成例を示す図。
【図9】自動調整処理を説明するためのフローチャート。
【図10】出現率を求める際の処理を説明するためのフローチャート。
【図11】調整パターン番号を求める際の処理を説明するためのフローチャート。
【図12】頻度レベルを選択する際の処理を説明するためのフローチャート。
【図13】総合評価値を算出する際の処理を説明するためのフローチャート。
【図14】3桁目までの各桁ごとの総合評価点を説明するための図。
【図15】3桁目までの各桁ごとの総合評価点(候補削減)を説明するための図。
【図16】稼働情報ファイルの保存内容を説明するための図。
【図17】1〜7桁目までの出現率を説明するための図。
【符号の説明】
1…区分機、P…郵便物、15…郵便番号認識部、31…複合類似度認識部、31a…複合類似度辞書、32…構造特徴マッチング認識部、32a…構造特徴マッチング辞書、33…複合類似度評価部、34…構造特徴マッチング評価部、35…総合評価部、41…出現率評価テーブル、42…結合テーブル、43…レベル選択テーブル、44…レベルテーブル。
Claims (3)
- 紙葉類上の数字列からなる所在情報を読取る読取手段と、
この読取手段により読取った数字列の1文字ずつを参照用の各文字ごとに複数の文字パターンとの複合類似度法により認識候補文字と前記参照用の文字パターンの種別と信頼度とを出力する第1の出力手段と、
前記読取手段により読取った数字列の1文字ずつを参照用の各文字ごとに複数の構造特徴との構造特徴マッチング法により認識候補文字と前記参照用の構造特徴の種別とを出力する第2の出力手段と、
前記数字列の各桁ごとの文字の出現率を記憶するもので、前記出現率は前記数字列の手前の桁の数字に関連づけられている第1の記憶手段と、
前記第1の出力手段の出力結果と前記第2の出力手段の出力結果とに基づく、誤読される可能性高い文字と、この誤読文字の出現率と、認識文字の出現率とに対する、調整用のパラメータ番号を記憶する第2の記憶手段と、
前記第2の出力手段の出力結果に基づく、認識候補文字の出現率に対する、複数段階の頻度レベルを決定する種々の基準値を記憶する第3の記憶手段と、
前記調整用のパラメータ番号に対する各頻度レベルごとかつ信頼度ごとの評価値を記憶する第4の記憶手段と、
前記第1、第2の出力手段による各認識候補文字に対する出現率を前記第1の記憶手段から読出す第1の読出手段と、
前記第1の出力手段による認識候補文字と前記参照用の文字パターンの種別と前記第2の出力手段による認識候補文字と前記参照用の構造特徴の種別と、前記第1の読出手段により読出された各認識候補文字に対する出現率とに基づく、調整用のパラメータ番号を前記第2の記憶手段から読出す第2の読出手段と、
前記第2の出力手段による認識候補文字に対する前記出現率と、前記第2の出力手段による認識候補文字と参照用の構造特徴の種別とに対して前記第3の記憶手段に記憶されている各基準値とを比較することにより、頻度レベルを判断する第1の判断手段と、
前記第2の読出手段による調整用のパラメータ番号と前記第1の判断手段により判断された頻度レベルとにより、前記第4の記憶手段に記憶されている評価値を読出す第3の読出手段と、
前記第1、第2の出力手段による各認識候補文字に対する前記第3の読出手段により読出される評価値により、前記数字列の文字を判断する第2の判断手段と、
この第2の判断手段により判断した前記数字列の文字を収集する収集手段と、
この収集手段により収集した前記数字列の文字の収集内容に基づいて、前記第1の記憶手段に記憶されている前記数字列の各桁ごとの文字の出現率を変更する変更手段と、
を具備したことを特徴とする所在情報認識装置。 - 紙葉類上の数字列からなる所在情報を読取る読取手段と、
この読取手段により読取った数字列の1文字ずつを参照用の各文字ごとに複数の文字パターンとの複合類似度法により認識候補文字と前記参照用の文字パターンの種別と信頼度とを出力する第1の出力手段と、
前記読取手段により読取った数字列の1文字ずつを参照用の各文字ごとに複数の構造特徴との構造特徴マッチング法により認識候補文字と前記参照用の構造特徴の種別とを出力する第2の出力手段と、
前記第1の出力手段の出力結果と前記第2の出力手段の出力結果とに基づいて、前記数字列の文字を判断する第1の判断手段と、
この第1の判断手段により判断した前記数字列の文字を収集する収集手段と、
この収集手段により収集した前記数字列の文字の収集内容に基づいて、前記数字列の各桁ごとの文字の出現率を記憶する第1の記憶手段と、
前記第1の出力手段の出力結果と前記第2の出力手段の出力結果とに基づく、誤読される可能性高い文字と、この誤読文字の出現率と、認識文字の出現率とに対する、調整用のパラメータ番号を記憶する第2の記憶手段と、
前記第2の出力手段の出力結果に基づく、認識候補文字の出現率に対する、複数段階の頻度レベルを決定する種々の基準値を記憶する第3の記憶手段と、
前記調整用のパラメータ番号に対する各頻度レベルごとの評価値を記憶する第4の記憶手段と、
前記第1、第2の出力手段による各認識候補文字に対する出現率を前記第1の記憶手段から読出す第1の読出手段と、
前記第1の出力手段による認識候補文字と前記参照用の文字パターンの種別と前記第2の出力手段による認識候補文字と前記参照用の構造特徴の種別と、前記第1の読出手段により読出された各認識候補文字に対する出現率とに基づく、調整用のパラメータ番号を前記第2の記憶手段から読出す第2の読出手段と、
前記第2の出力手段による認識候補文字に対する前記出現率と、前記第2の出力手段による認識候補文字と参照用の構造特徴の種別とに対して前記第3の記憶手段に記憶されている各基準値とを比較することにより、頻度レベルを判断する第2の判断手段と、
前記第2の読出手段による調整用のパラメータ番号と前記第2の判断手段により判断された頻度レベルとにより、前記第4の記憶手段に記憶されている評価値を読出す第3の読出手段と、
前記第1、第2の出力手段による各認識候補文字に対する前記第3の読出手段により読出される評価値により、前記数字列の文字を判断する第3の判断手段と、
を具備したことを特徴とする所在情報認識装置。 - 請求項1または請求項2に記載された所在情報認識装置を用いて紙葉類上の数字列からなる所在情報を認識し、その認識結果に基づき前記紙葉類を区分処理することを特徴とする区分装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001172796A JP4733859B2 (ja) | 2001-06-07 | 2001-06-07 | 所在情報認識装置および区分装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001172796A JP4733859B2 (ja) | 2001-06-07 | 2001-06-07 | 所在情報認識装置および区分装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2002366898A JP2002366898A (ja) | 2002-12-20 |
| JP4733859B2 true JP4733859B2 (ja) | 2011-07-27 |
Family
ID=19014360
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2001172796A Expired - Fee Related JP4733859B2 (ja) | 2001-06-07 | 2001-06-07 | 所在情報認識装置および区分装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4733859B2 (ja) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5390440B2 (ja) * | 2010-03-17 | 2014-01-15 | 株式会社東芝 | 集中情報処理装置及び集中情報処理システム |
| JP6335012B2 (ja) * | 2014-04-30 | 2018-05-30 | グローリー株式会社 | 文字有無判定システム及び文字有無判定方法 |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH05298489A (ja) * | 1992-04-20 | 1993-11-12 | N T T Data Tsushin Kk | 文字認識方式 |
| JP3243000B2 (ja) * | 1992-07-24 | 2001-12-25 | 株式会社東芝 | 郵便物処理装置および郵便物処理方法 |
| JPH07271899A (ja) * | 1994-03-31 | 1995-10-20 | Toshiba Corp | 文字認識装置 |
| JPH07271920A (ja) * | 1994-03-31 | 1995-10-20 | Toshiba Corp | 文字認識装置 |
| JPH0935006A (ja) * | 1995-07-18 | 1997-02-07 | Fujitsu Ltd | 文字認識装置 |
-
2001
- 2001-06-07 JP JP2001172796A patent/JP4733859B2/ja not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2002366898A (ja) | 2002-12-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPS61234481A (ja) | 情報認識方法 | |
| KR20120029351A (ko) | 문자 인식 장치, 구분 장치, 구분 제어 장치 및 문자 인식 방법 | |
| CN100419780C (zh) | 含有地址信息的图像的视频编码方法 | |
| EP1736913A1 (en) | Information processing apparatus having learning function for character dictionary | |
| JPS62221088A (ja) | 光学式文字読取装置 | |
| JP4733859B2 (ja) | 所在情報認識装置および区分装置 | |
| JPH0739820A (ja) | 街区認識装置および宛名読取区分機 | |
| JP3710866B2 (ja) | 郵便物区分装置、郵便物処理システム及び郵便物処理方法 | |
| JP3243000B2 (ja) | 郵便物処理装置および郵便物処理方法 | |
| JPH07271899A (ja) | 文字認識装置 | |
| JPH0957199A (ja) | 宛名読取装置及び郵便物区分装置 | |
| JP3788703B2 (ja) | 投票用紙計数仕分け装置および投票用紙計数仕分け装置のプリセット装置およびその方法並びに投票用紙計数仕分け装置のプリセットプログラムを記録した媒体 | |
| JP3160347B2 (ja) | 郵便物の宛名読取装置 | |
| JP3088038B2 (ja) | 郵便物区分装置と郵便物区分方法 | |
| JP3450608B2 (ja) | 住所認識装置、住所認識方法、区分装置、区分方法 | |
| JP2003141443A (ja) | 認識装置、区分機、認識方法、及び区分方法 | |
| JPH0484289A (ja) | パターン認識装置 | |
| JPH09245120A (ja) | 文字切出し方法 | |
| JP2002254037A (ja) | 郵便物の誤配防止方法および装置 | |
| JPH11253891A (ja) | 郵便物区分方法および装置 | |
| JPH07105321A (ja) | 単語認識装置、住所認識装置及び単語認識方法 | |
| JP2988784B2 (ja) | 郵便物処理装置 | |
| JPH0757058A (ja) | 文字認識装置および文字認識方法 | |
| JPH0739816A (ja) | 宛名読取装置 | |
| JPH1190338A (ja) | 住所読み取り装置及び住所読み取り方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080317 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101111 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101116 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110117 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110329 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110425 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140428 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140428 Year of fee payment: 3 |
|
| LAPS | Cancellation because of no payment of annual fees |