JP4733859B2

JP4733859B2 - 所在情報認識装置および区分装置

Info

Publication number: JP4733859B2
Application number: JP2001172796A
Authority: JP
Inventors: 美知子小島
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2001-06-07
Filing date: 2001-06-07
Publication date: 2011-07-27
Anticipated expiration: 2021-06-07
Also published as: JP2002366898A

Description

【０００１】
【発明の属する技術分野】
この発明は、紙葉類上の数字列からなる所在情報を読取り、この読取った数字列の１文字ずつを認識する所在情報認識装置、および、この所在情報認識装置の認識結果を用いて区分処理を実行する区分装置に関する。
【０００２】
【従来の技術】
紙葉類としての郵便物上の宛名情報を光学的に読み取って郵便物を区分する郵便物宛名自動読取区分機においては、２種類の文字認識手法（複合類似度法、構造特徴マッチング法）が使用されている。
【０００３】
２種類の認識手法によって得られた認識結果から、郵便番号（数字列からなる所在情報）の出現率によって予め設定されたパラメータを用いて評価値を求め、認識結果の総合評価を行っている。例えば、各桁において、出現率の高い数字の評価値は高く設定し、出現率の低い数字はその値を低く設定する、等といったことをパラメータで設定している。
【０００４】
このような処理を行うことによって、出現率の多い数字は認識しやすく、出現率の低い数字は認識し難くすることができ、各地域での区分機の処理効率を向上させることができる。
【０００５】
例えば、川崎付近の郵便局においては、「２１＊」などという郵便物の割合が多い。従って、１桁目の数字「２」や２桁目の数字「１」をその他の数字と比べて認識しやすく設定しておくことによって、区分率の向上、誤区分率の低減を行っている。
【０００６】
従来、このパラメータは、現地保守員などが経験的に捉えた、各地域での郵便番号の出現率を基に調整されていた。
上記したとおり、パラメータの調整は地域ごとに人手で行っていたため、調整する手間が非常にかかる上、人の経験や勘に頼るところが多いのでかえって性能が悪化する（調整不良）場合もあり、問題となっていた。
【０００７】
【発明が解決しようとする課題】
この発明は、区分装置で収集される数字列からなる所在情報の統計情報を利用してパラメータ調整を自動化することによって、大幅な省力化が図れる所在情報認識装置および区分装置を提供することを目的としている。
【０００８】
【課題を解決するための手段】
この発明の所在情報認識装置は、紙葉類上の数字列からなる所在情報を読取る読取手段と、この読取手段により読取った数字列の１文字ずつを参照用の各文字ごとに複数の文字パターンとの複合類似度法により認識候補文字と前記参照用の文字パターンの種別と信頼度とを出力する第１の出力手段と、前記読取手段により読取った数字列の１文字ずつを参照用の各文字ごとに複数の構造特徴との構造特徴マッチング法により認識候補文字と前記参照用の構造特徴の種別とを出力する第２の出力手段と、前記数字列の各桁ごとの文字の出現率を記憶するもので、前記出現率は前記数字列の手前の桁の数字に関連づけられている第１の記憶手段と、前記第１の出力手段の出力結果と前記第２の出力手段の出力結果とに基づく、誤読される可能性高い文字と、この誤読文字の出現率と、認識文字の出現率とに対する、調整用のパラメータ番号を記憶する第２の記憶手段と、前記第２の出力手段の出力結果に基づく、認識候補文字の出現率に対する、複数段階の頻度レベルを決定する種々の基準値を記憶する第３の記憶手段と、前記調整用のパラメータ番号に対する各頻度レベルごとかつ信頼度ごとの評価値を記憶する第４の記憶手段と、前記第１、第２の出力手段による各認識候補文字に対する出現率を前記第１の記憶手段から読出す第１の読出手段と、前記第１の出力手段による認識候補文字と前記参照用の文字パターンの種別と前記第２の出力手段による認識候補文字と前記参照用の構造特徴の種別と、前記第１の読出手段により読出された各認識候補文字に対する出現率とに基づく、調整用のパラメータ番号を前記第２の記憶手段から読出す第２の読出手段と、前記第２の出力手段による認識候補文字に対する前記出現率と、前記第２の出力手段による認識候補文字と参照用の構造特徴の種別とに対して前記第３の記憶手段に記憶されている各基準値とを比較することにより、頻度レベルを判断する第１の判断手段と、前記第２の読出手段による調整用のパラメータ番号と前記第１の判断手段により判断された頻度レベルとにより、前記第４の記憶手段に記憶されている評価値を読出す第３の読出手段と、前記第１、第２の出力手段による各認識候補文字に対する前記第３の読出手段により読出される評価値により、前記数字列の文字を判断する第２の判断手段と、この第２の判断手段により判断した前記数字列の文字を収集する収集手段と、この収集手段により収集した前記数字列の文字の収集内容に基づいて、前記第１の記憶手段に記憶されている前記数字列の各桁ごとの文字の出現率を変更する変更手段とを具備している。
【０００９】
【発明の実施の形態】
この発明の実施の形態を図面に基いて詳細に説明する。
図１は、この発明に係わる区分機１を示す外観図であり、図２は区分機１の概略構成を示す図である。この区分機１は、大型の箱型状の区分機本体１ａを有している。この区分機１は、郵便物Ｐ上の宛名、郵便番号を読取り、その読取内容から宛名、郵便番号を認識し、この認識した宛名、郵便番号に対応する区分先に郵便物Ｐを区分するものである。
上記区分機本体１ａには、供給部２と、スキャナ部３と、搬送部４と、区分部５と、収納部６とが設けられている。この供給部２からの郵便物Ｐが搬送路Ｒによって搬送されることにより、搬送部４、区分部５を順次介して収納部６に導かれる。
【００１０】
上記供給部２は、郵便物Ｐを載置する載置台７と、この載置台７から郵便物Ｐを一通ずつ取り出して搬送路Ｒに送る取出し部８とを有している。上記スキャナ部３は、搬送路Ｒによって搬送される１通ずつの郵便物Ｐ上の全体の画像を光学的に読取って画像情報を生成する。上記搬送部４は、スキャナ部３を通過してきた郵便物Ｐを区分部５へ搬送する。上記収納部６は、郵便物Ｐを区分収納する多数の収納ポケット６ａを有している。上記区分部５は、搬送部４から送られてくる郵便物Ｐをスキャナ部３からの画像情報に対する後述する認識結果に基いて収納ポケット６ａ、…のいずれかに振り分ける。
【００１１】
上記スキャナ部３は、郵便物Ｐ上を光学的に走査して光電変換することによりパターン信号を得るものであり、たとえば郵便物Ｐ上に光を照射する光源、およびその反射光を受けて電気信号に変換する自己走査形のＣＣＤイメージセンサ等によって構成される。上記スキャナ部３の出力は認識部１０に供給される。この認識部１０は、スキャナ部３の出力に応じて文字パターンの認識を行うことにより郵便番号、住所等からなるあて名を認識するものである。
【００１２】
上記区分機１において、上記供給部２、スキャナ部３、搬送部４、区分部５、認識部１０は、制御部１１に接続されている。この制御部１１は、区分機１の全体の動作を制御する。たとえば、制御部１１は図示しないメモリに記憶されている区分指定テーブルを用いて、上記認識部１０の認識結果に対応する区分指定データを読出し、この読出した区分指定データ（収納ポケット６ａ、…のアドレス）に対応する収納ポケット６ａ、…に上記郵便物Ｐを搬送せしめるものである。
【００１３】
さらに、上記制御部１１はドライバ（図示しない）により上記搬送路Ｒ等の搬送機構部（図示しない）を駆動することにより、搬送系全体の制御を行うようになっている。
上記認識部１０は、図３に示すように、領域検出部１２と、文字行検出部１３と、文字検出部１４と、郵便番号認識部１５と、文字認識部１６と、街区文字認識部１７と、宛名認識部１８と、文字辞書部１９と、住所辞書部２０とで構成されている。
【００１４】
上記領域検出部１２は、スキャナ部３から供給される画像から、領域の形、位置等で、宛名、郵便番号が記載されている領域を検出する。
上記文字行検出部１３は、領域検出部１２により検出された領域内の宛名、郵便番号が記載されている文字行を検出する。領域検出部１２により検出された領域内の画像データからあて名行を検出するものである。
【００１５】
この文字行検出部１３は、領域検出部１２により検出された領域内の画像より、スタンプ、郵便番号枠、広告文などを検出し、それらを除去した後、文字の配置などから行を検出し、その行の大きさ、配置などから住所もしくは郵便番号行らしい行に優先度をつけ、その優先度の高い候補から順々に検出結果として出力するものである。
【００１６】
上記文字検出部１４は、文字行検出部１３により検出された文字行の文字を１文字ずつ検出切出しする、つまり住所（郵便番号）に対応する文字情報を検出切出しする。
上記郵便番号認識部１５は、文字検出部１４から供給されるつまり検出切出された文字（郵便番号）を文字辞書部１９に記憶されている文字データ（数字データ：数字に対応する標準パターン）と照合して郵便番号を認識する。上記郵便番号認識部１５における郵便番号の認識方法および認識手段は、後で詳細に説明する。
【００１７】
上記文字認識部１６は、文字検出部１４から供給されるつまり検出切出された文字を文字辞書部１９に記憶されている文字データと照合して文字を認識する。同様に、街区文字認識部１７も、文字検出部１４から供給されるつまり検出切出された文字を文字辞書部１９に記憶されている文字データと照合して街区の文字を認識する。宛名認識部１８は、文字検出部１４から供給されるつまり検出切出された文字を住所辞書部２０に記憶されている住所データと照合して宛名を認識する。
【００１８】
上記郵便番号認識部１５からの郵便番号の認識結果、文字認識部１６からの文字の認識結果、街区文字認識部１７からの街区文字の認識結果、宛名認識部１８からの宛名の認識結果は、制御部１１に供給されている。この制御部１１は、供給されている各認識結果により宛名を判別し、この判別した宛名に対する区分指定データつまり区分部５における収納ポケット６ａ、…を示すデータを出力するものである。
【００１９】
図４は、上記郵便番号認識部１５の構成を詳細に示すものである。すなわち、文字検出部１４から供給される文字検出切り出し候補の文字パターンは、複合類似度認識部３１および構造特徴マッチング認識部３２にそれぞれ送られる。複合類似度認識部３１は、供給される文字パターンと複合類似度辞書３１ａの標準パターンとの比較演算により複合類似度演算を行うことにより認識処理を行い、その認識結果は上位候補の複合類似度のみを残し、複合類似度評価部３３に送られる。複合類似度辞書３１ａは１つの文字種に対し複数のエントリ文字が存在するので、エントリ文字毎に異なった類似度を持つ。複合類似度評価部３３では、類似度の分布により、予め統計的に予測されたしきい値によって、類似度信頼度と呼ばれる評価値を算出し、この算出した評価値の上位３候補までを認識結果として決定する。
【００２０】
構造特徴マッチング認識部３２は、供給される文字パターンの輪郭構造を演算し、その輪郭構造特徴をセグメントと呼ばれる文字構成要素に分解する。構造特徴マッチング認識部３２は、セグメントは方向コードや長さの情報からなり、そのセグメントの接続条件から、構造の認識を行う。構造特徴マッチング認識部３２は、構造特徴マッチング辞書３２ａの遷移を行い、構造特徴がマッチしたものが構造特徴マッチング評価部３４に送られる。構造特徴マッチング辞書３２ａは１つの文字種に対し複数のエントリ文字が存在し、そのそれぞれが文字の形状を反映している。どのエントリ文字に対して構造特徴がマッチしたかという情報も同時に構造特徴マッチング評価部３４に送られる。構造特徴マッチング評価部３４は、文字の詳細な特徴を再評価し、認識結果を３候補まで決定する。
【００２１】
複合類似度評価部３３および構造特徴マッチング評価部３４の各認識結果は、それぞれ総合評価部３５に送られ、この総合評価部３５で供給される文字パターンに対する答えと総合評価値を決定する。総合評価部３５では、図５に示す、出現率評価テーブル（第１の記憶手段）４１を用いて、各桁ごとの出現率を求め、図６に示す、結合テーブル（第２の記憶手段）４２を用いて、調整パターン番号を選択し、図７に示す、レベル選択テーブル（第３の記憶手段）４３を用いて、頻度レベルを選択し、図８に示す、レベルテーブル（第４の記憶手段）４４を用いて、評価値の算出をする。（統計情報を利用したこのような評価値出力の方法を、以下、自動調整処理と記述する。）
総合評価部３５の評価結果は、郵便番号編集部３６に送られ、ここで７桁の最終的な郵便番号候補が出力される。
【００２２】
出現率評価テーブル４１は、図５に示すように、各桁ごとの各文字の出現率からなり、たとえば、１桁目の出現率として、１の出現率が８９％、２の出現率が１１％、他の数字の出現率が０％となっている。また、１桁目が１の際の２桁目の出現率として、０の出現率が６７％、１の出現率が１８％、２の出現率が１５％、他の数字の出現率が０％となっている。また、１桁目が２の際の２桁目の出現率として、０の出現率が１００％、他の数字の出現率が０％となっている。
【００２３】
出現率評価テーブル４１は、後述するように、あらかじめ収集された郵便番号データの統計情報により作成される。
結合テーブル４２は、図６に示すように、構造特徴マッチングの文字（認識結果）とエントリ（マッチング用の比較する文字の形状の違いにより区別されている）と複合類似度の文字（認識結果）とエントリ（複合類似度用の比較する文字パターンの違いにより区別されている）との組合わせと、誤読される可能性の高い文字（相手文字）、相手の文字の条件（相手文字の出現率）、自分の条件（認識文字の出現率−相手文字の出現率＝出現率差）に対する調整パターン番号が登録されている。
【００２４】
たとえば、構造特徴マッチングの文字が「０」でエントリが「１」、複合類似度の文字が「０」でエントリが「１」、相手文字が「６」の場合、相手の条件として出現率が「５」よりも大きく、自分の条件として出現率差が「６」よりも大きい際に、調整パターン番号「５」が選択されるようになっている。
【００２５】
また、構造特徴マッチングの文字が「０」でエントリが「１」、複合類似度の文字が「０」でエントリが「１」、相手文字が「８」の場合、相手の条件として出現率が「５」よりも大きい際に、調整パターン番号「２」が選択されるようになっている。
【００２６】
また、構造特徴マッチングの文字が「０」でエントリが「１」、複合類似度の文字が「０」でエントリが「１」、相手文字が「８」の場合、相手の条件として出現率が「６」よりも小さく、自分の条件として出現率差が「２０」よりも大きい際に、調整パターン番号「３」が選択されるようになっている。
【００２７】
また、構造特徴マッチングの文字が「０」でエントリが「１」、複合類似度の文字が「０」でエントリが「１」で、相手文字、相手の条件、自分の条件が上記以外の際に、調整パターン番号「１０」が選択されるようになっている。
また、構造特徴マッチングの文字が「０」でエントリが「２」、複合類似度の文字が「０」でエントリが「＊：１以外」、相手文字が「６」の場合、相手の条件として出現率が「６」よりも小さく、自分の条件として出現率差が「１０」よりも小さい際に、調整パターン番号「１」が選択されるようになっている。
【００２８】
レベル選択テーブル４３は、図７に示すように、構造特徴マッチングの認識結果の出現率によって、強強化、強化、標準、弱化、弱弱化の５段階の頻度レベルを定めている。このレベル選択テーブル４３では、構造特徴マッチングの文字（認識結果）のエントリ（マッチング用の比較する文字の形状の違いにより区別されている）ごとに、各レベルの間の閾値を設定している。
【００２９】
たとえば、構造特徴マッチングの文字が「０」でエントリが「０」の場合、強強化と強化を区別する閾値が「２０」で、強化と標準を区別する閾値が「１０」で、標準と弱化を区別する閾値が「５」で、弱化と弱弱化を区別する閾値が「２」である。
【００３０】
また、構造特徴マッチングの文字が「０」でエントリが「１」の場合、強強化と強化を区別する閾値が「２５」で、強化と標準を区別する閾値が「１５」で、標準と弱化を区別する閾値が「１０」で、弱化と弱弱化を区別する閾値が「５」である。
レベルテーブル４４は、図８に示すように、調整パターン番号と頻度レベルと複合類似度の信頼度とに基づいて、評価値が登録されている。
【００３１】
たとえば、調整パターン番号「１」の、頻度レベルが強強化で複合類似度の信頼度が「０」、「１」、「２」、「３」に対して、それぞれ評価値「２」、「４」、「４」、「５」が対応して記憶され、調整パターン番号「１」の、頻度レベルが強化で複合類似度の信頼度が「０」、「１」、「２」、「３」に対して、それぞれ評価値「２」、「３」、「４」、「５」が対応して記憶され、調整パターン番号「１」の、頻度レベルが標準で複合類似度の信頼度が「０」、「１」、「２」、「３」に対して、それぞれ評価値「１」、「３」、「４」、「５」が対応して記憶され、調整パターン番号「１」の、頻度レベルが弱化で複合類似度の信頼度が「０」、「１」、「２」、「３」に対して、それぞれ評価値「１」、「３」、「４」、「４」が対応して記憶され、調整パターン番号「１」の、頻度レベルが弱弱化で複合類似度の信頼度が「０」、「１」、「２」、「３」に対して、それぞれ評価値「１」、「２」、「３」、「４」が対応して記憶される。
【００３２】
また、調整パターン番号「２」の、頻度レベルが強強化で複合類似度の信頼度が「０」、「１」、「２」、「３」に対して、それぞれ評価値「２」、「４」、「４」、「５」が対応して記憶され、調整パターン番号「２」の、頻度レベルが強化で複合類似度の信頼度が「０」、「１」、「２」、「３」に対して、それぞれ評価値「２」、「３」、「５」、「５」が対応して記憶され、調整パターン番号「２」の、頻度レベルが標準で複合類似度の信頼度が「０」、「１」、「２」、「３」に対して、それぞれ評価値「２」、「３」、「４」、「５」が対応して記憶され、調整パターン番号「２」の、頻度レベルが弱化で複合類似度の信頼度が「０」、「１」、「２」、「３」に対して、それぞれ評価値「１」、「３」、「４」、「５」が対応して記憶され、調整パターン番号「２」の、頻度レベルが弱弱化で複合類似度の信頼度が「０」、「１」、「２」、「３」に対して、それぞれ評価値「１」、「３」、「４」、「４」が対応して記憶される。
【００３３】
また、調整パターン番号「３」の、頻度レベルが強強化で複合類似度の信頼度が「０」、「１」、「２」、「３」に対して、それぞれ評価値「３」、「５」、「６」、「６」が対応して記憶され、調整パターン番号「３」の、頻度レベルが強化で複合類似度の信頼度が「０」、「１」、「２」、「３」に対して、それぞれ評価値「３」、「４」、「６」、「６」が対応して記憶され、調整パターン番号「３」の、頻度レベルが標準で複合類似度の信頼度が「０」、「１」、「２」、「３」に対して、それぞれ評価値「３」、「４」、「５」、「６」が対応して記憶され、調整パターン番号「３」の、頻度レベルが弱化で複合類似度の信頼度が「０」、「１」、「２」、「３」に対して、それぞれ評価値「２」、「４」、「５」、「６」が対応して記憶され、調整パターン番号「３」の、頻度レベルが弱弱化で複合類似度の信頼度が「０」、「１」、「２」、「３」に対して、それぞれ評価値「２」、「４」、「５」、「５」が対応して記憶される。
【００３４】
次に、上記構成において、図９に示すフローチャートを参照しつつ、自動調整処理を説明する。
たとえば、具体例として、郵便番号「１００−０００１」の２桁目「０」の評価値を自動調整処理により求める手順を示す。入力データとして、以下のデータが与えられたとする。簡単のため、以下では、複合類似度の認識結果、構造特徴マッチングの認識結果が共に、例えば文字が「０」でエントリ１の場合、“０−１”と記述する。
【００３５】

総合評価では、複合類似度の認識結果と構造特徴マッチングの認識結果の全組み合わせについてそれぞれ評価値を算出し、その上位２候補を、それまでの前文字列に対する答えとする。具体的には、（例１）の場合、前文字列が「１」「２」の場合についてそれぞれ
（複合類似度の認識結果、構造特徴マッチングの認識結果）
＝（０−１，０−１）、（０−１，８−１）、（６−２，０−１）、
（６−２，８−１）、（０−１，×）、（６−１，×）、（×，０−１）、
（×，８−１）
の全組み合わせ（×は、候補がない状態）について、以下で示す第２２〜第２５のステップの操作を行ってそれぞれの総合評価値を算出し、評価値の高い方から１候補または２候補（候補数の選択の詳細は、第２６のステップを参照）を、その前文字列候補に対する答えとして採用する。
【００３６】
尚、第２２〜第２５のステップでは、前文字列が「１」で、（複合類似度の認識結果、構造特徴マッチングの認識結果）＝（０−１，０−１）の場合を例に挙げて説明する。
【００３７】
第２２のステップでは、文字の出現率を求める。図５を用いて説明する。出現率評価テーブル４１には、各桁での文字の出現率が、前文字列候補に依存する形で設定されている。図５は、１桁目と２桁目の出現率評価テーブル４１の例である。この場合、２桁目に「０」が出る確率は、１桁目の文字が「１」のときは６７％であるが、１桁目の文字が「２」の時は１００％となることを示す。同様に、１桁目の文字が「１」のとき、２桁目で「１」が出る確率は１８％、「２」が出る確率は１５％、その他は０％であることが求められる。自動調整処理では、ある桁の出現率を求める場合、前文字列と現在評価する桁の構造特徴マッチングの認識結果とを用いて出現率評価表としての出現率評価テーブル４１を探索する。
【００３８】
（例１）の場合、１桁目候補が「１」で、２桁目の構造特徴マッチング候補は「０」「８」である。よって、「０」の出現率６７％が得られる。
次に、処理する桁をＮ桁目（１≦Ｎ≦７）、構造特徴マッチングの認識結果をＣＮ、前文字列Ｃ１、Ｃ２…ＣＮ−１＝Ｃｎとした場合の出現率の求め方について、図１０に示すフローチャートを参照しつつ説明する。
【００３９】
すなわち、Ｎ桁目の出現率を求める場合、ｎを１に設定し（ＳＴ３１）、ｎがＮと一致するかチェックし（ＳＴ３２）、一致する場合、１桁目の出現率評価テーブル４１から構造特徴マッチングの認識結果ＣＮの出現率（Ａ１）を得る（ＳＴ３５）。
【００４０】
上記ステップ３２のチェックの結果、一致しない場合、１桁目の出現率評価値により次桁へのポインタを求め（ＳＴ３３）、ｎに１を加算し（ｎ＋＋）（ＳＴ３４）、ステップ３２に戻る。
このステップ３２のチェックの結果、一致する場合、上記ステップ３５に進み、Ｎ桁目の出現率評価テーブル４１から構造特徴マッチングの認識結果ＣＮの出現率（Ａ１）を得、一致しない場合、上記ステップ３３に進む。
【００４１】
第２３のステップでは、図１１のフローチャートに示すように、調整パターン番号を求める。
結合テーブル４２から、構造特徴マッチングの認識結果、複合類似度の認識結果が一致する行を探し（ＳＴ４１、４２、５０）、更に、「相手の条件」および「自分の条件」を満たす（ＳＴ４３〜４７）最初の行（Ｉ）のパターン番号を調整パターン番号（Ａ２）として出力する（ＳＴ４８）。
【００４２】
最終行まで達した際、最終行のパターン番号を調整パターン番号（Ａ２）として出力する（ＳＴ４９）。
「相手文字」とは、誤読しやすいと想定される相手の数字のことであり、これはシミュレーションや過去の調整経験から得られる既知の情報から設定されている。たとえば、構造特徴マッチングの認識結果で０−１の結果が得られたパターンは「６」に誤読することが多い、等といった情報が、結合テーブル４２に盛り込まれている。
【００４３】
例の場合、構造特徴マッチングの認識結果が０−１、複合類似度の認識結果が０−１であり、この時点では、図６の１行目から４行目が該当し、１行目から順に条件が一致するかを検索する。
１行目：
出現率評価表としての出現率評価テーブル４１より、現在の桁では「６」の出現率が０％であり、これは「相手の条件」に一致しない。
【００４４】
２行目：
同様に、「８」の出現率は０％で、「相手の条件」が一致しない。
３行目：
相手の条件が（０＜６）で一致し、自分の条件が（（６７−０）＞２０）で一致し、この行が選ばれる。以上の結果、この例の場合、調整パターン番号３が選ばれる。
【００４５】
第２４のステップでは、頻度レベルを選択する。
構造特徴マッチングの認識結果の出現率によって、強強化、強化、標準、弱化、弱弱化の５段階の頻度レベルを定める。レベル選択テーブル４３では、構造特徴マッチングの認識結果のエントリ毎に、各レベルの間の閾値を設定している。構造特徴マッチング法のエントリが文字の特性を反映しているので、エントリの信頼性の高低によって頻度レベルの出方をかえることが可能となる。
【００４６】
今、図７に示すレベル選択テーブル４３が与えられたとき、（例１）の場合では、第２３のステップで構造特徴マッチングの認識結果が０−１、出現率が６７％（＞２５％）が得られており、この頻度レベルは強強化となる。
【００４７】
次に、頻度レベルの選択について、図１２に示すフローチャートを参照しつつ説明する。
すなわち、構造特徴マッチングの認識結果としての文字とエントリと一致するものをレベル選択テーブル４３の１行目から順次チェックし（ＳＴ５１、５２、５４、５５）、一致した場合に、出現率が強強化と強化の頻度レベルを区別する閾値よりも大きい場合に（ＳＴ５６）頻度レベル（Ａ３）を強強化と判別し（ＳＴ５７）、出現率が強化と標準の頻度レベルを区別する閾値よりも大きい場合に（ＳＴ５８）頻度レベル（Ａ３）を強化と判別し（ＳＴ５９）、出現率が標準と弱化を区別する閾値よりも大きい場合に（ＳＴ６０）頻度レベル（Ａ３）を標準と判別し（ＳＴ６１）、出現率が弱化と弱弱化を区別する閾値よりも大きい場合に（ＳＴ６２）頻度レベル（Ａ３）を弱化と判別し（ＳＴ６３）、出現率が弱化と弱弱化を区別する閾値よりも小さい場合に（ＳＴ６２）頻度レベル（Ａ３）を弱弱化と判別する（ＳＴ６４）。
【００４８】
また、ステップ５２により最後の行までチェックしても不一致の際、例外処理として頻度レベル（Ａ３）を標準とする（ＳＴ５３）
第２５のステップでは、総合評価値を算出する。
【００４９】
第２３、第２４のステップで求められた調整パターン番号と頻度レベル、および、複合類似度の信頼度を用いて、レベルテーブル４４から評価値を選択する。
図８に示すレベルテーブル４４を用いた場合、（例１）の場合では、複合類似度の認識結果が０−１（３）、パターン番号３、頻度レベルが強強化であるから、総合評価値は「６」となる。
【００５０】
次に、総合評価値の算出について、図１３に示すフローチャートを参照しつつ説明する。
すなわち、第２３のステップで求められた調整パターン番号（Ａ２）と一致するものをレベルテーブル４４の１行目から順次チェックし（ＳＴ７１、７２、７３、７６）、一致した場合に、第２４のステップで求められた頻度レベル（Ａ３）と複合類似度の信頼度から総合評価値（Ａ４）を選択し、出力する（ＳＴ７４）。
【００５１】
また、ステップ７２により最後の行（Ｉ）までチェックしても不一致の際、例外処理として総合評価値「０」（Ａ４＝０）を出力する（ＳＴ７５）。
【００５２】
第２６のステップでは全ての前文字列に対して総合評価処理を行う。同じ複合類似度の認識結果と構造特徴マッチングの認識結果が入力されても、前文字列候補によって総合評価値は変化する可能性がある。
（例１）の場合、前文字列「１」について全ての複合類似度の認識結果、構造特徴マッチングの認識結果の組み合わせで評価を行った後、前文字列「２」の場合について、同様に総合評価を行う（ＳＴ２７からＳＴ２９、ＳＴ２２からＳＴ２６）。
【００５３】
結果的に、７桁目まで上記総合評価を行うと（ＳＴ２７）、複数の郵便番号候補が得られる。各桁で求められた総合評価値を候補ごとにそれぞれ加算し、それを郵便番号候補の総合評価点とする（ＳＴ１３）。この総合評価点の高いものを上位２候補選択し、最終結果とする（ＳＴ１４）。
【００５４】
以上のような総合評価算出操作を単純に行い、存在する前文字列に対して各桁で総合評価点の高いほうから第２位までを選んで処理すると、例えば３桁目までで、図１４に示すような２分木の形となる（括弧内の数字は総合評価点）。この結果、４桁目の総合評価では、８種の前文字列候補が存在する。
【００５５】
以上の操作を７桁まで行った場合、得られる候補は１２８通りであり、各桁ごとでの総合評価を行う回数の総和は１２７回、しかも、その１２７回のそれぞれで複合類似度の認識結果と構造特徴マッチングの認識結果の全ての組み合わせを評価することになり、計算量が膨大なものとなる。そこで、以下のようなルールで計算量を削減することもできる。
【００５６】
１．１桁目は２候補までを選択。
２．２桁目以降では、図１４に示した２分木のうち、総合評価点の高い方のノードに接続するものだけ２候補選択し、他ノードでは１候補のみ選択する。
この操作で第３桁目まで総合評価を行った場合、図１５のようになり、４桁目では、前文字列候補４個に対して総合評価を行う。この方法で７桁目まで処理した場合、最終的な候補は８候補まで絞られる。この８候補の中で、各桁毎の評価点の総和が最も高いものを順に２位まで選択し、最終的な郵便番号候補とする。
【００５７】
なお、上記実施例では、文字認識の手法について複合類似度法と構造特徴マッチング法の２つの認識手法に適用した場合について説明したが、本発明はこれに限定されるものでなく、たとえば、一方もしくは両方の認識手法を別の手法に置き換えた場合にも同様に適用できる。また、認識手法が１種類である場合にも同様に適用できる。
【００５８】
さらに、使用するテーブル類もこれに限定されるものでない。上記実施例では、経験やシミュレーションなどによって得られた既知の誤読情報を、テーブルに反映させるための方法について説明したが、より単純に頻度を反映させるためには、たとえば、認識結果から得られた類似度に出現率をかけたものを総合評価値とする、などといった方法も考えられる。
【００５９】
次に、出現率の求め方について説明する。
出現率評価表としての出現率評価テーブル４１は、各桁での０〜９の出現頻度が、前文序列に依存した形で設定されたファイルであり、図１６に示すような、稼働情報ファイル１１ａから作成する。この上記制御部１１内に存在し、実際に区分機１で処理した（認識した）郵便番号とその通数を集計して保存したものである。
【００６０】
上記稼働情報ファイル１１ａは郵便局毎の複数台の区分機を管理する機器に存在し、実際に各区分機で処理した（認識した）郵便番号とその通数を集計して保存したものであっても良い。
従来は作業者が経験的に捉えていた文字の出現率が、実際の機械から得られた統計的な情報に置き換えられ、より正確に文字認識処理に反映することができる。
【００６１】
以下、作成手順を示す。
（１）１桁目の文字毎の数と総数を求める。（総数が少ない場合は、＊で代用する。）
（２）文字種毎の数を総数で割り、割合を求める。（１桁目の場合、「１」が８９％、「２」が１１％）
（３）１桁目が同じ文字のグループに関して、２桁目の文字毎の数と総数を求め、割合を求める。（１桁目「１」の場合、図１６の１〜５行目を集計し割合「０」６７％、「１」１８％、「２」１５％を得る）
（４）（３）の処理を２〜７桁まで繰り返す。（ｎ桁目の処理をするときには、ｎ−１桁目までの前文字列が等しいグループ毎に集計を行う。）
この結果、図１７に示すような、１〜７桁目までの出現率を得ることができる。
【００６２】
これにより、たとえば１、２桁目に対する、図５に示すような、出現率評価テーブル４１が総合評価部３５に登録される。
尚、出現率評価テーブル４１は、区分機１が安定稼働し稼働情報データが十分に畜積（通常１ヶ月程度）できた段階で作成する。
【００６３】
上記したように、区分機設置局で収集された郵便番号データの統計情報を利用して、文字の頻度（出現率）を反映した文字評価値を決定する。今まで人手で行っていた文字評価値決定のパラメータ調整を統計情報によって自動的に行う。
【００６４】
すなわち、複合類似度認識および構造特徴マッチング認識の各結果は、それぞれ総合評価部に送られ、ここで入力文字に対する答えと総合評価値を決定する。総合評価部では、郵便局にて収集された郵便番号データの統計情報により自動的に作成された出現率評価テーブル（出現率評価表）を用いて評価値の算出をする。すなわち、出現頻度の高い数字は評価値を高く、出現頻度の低い数字は評価値を低く出力するように、パラメータが設定されている。総合評価部の認識結果は、郵便番号編集部に送られ、ここで７桁の最終的な郵便番号候補が出力される。
【００６５】
これにより、複合類似度認識法と構造特徴マッチング法の２種類の文字認識結果から最終的な文字評価値を算出するときに使用するパラメータを人手によらず自動的に調整することができる。
【００６６】
また、区分機設置局で収集された郵便番号データの統計情報を利用してパラメータ調整を自動化することによって、大幅な省力化が図れる。
さらに、シミュレーションや過去の調整経験から得られる既知の情報をテーブルに反映させることによって、文字や辞書の特性を利用した細かい調整も可能となる。
【００６７】
複数の郵便番号候補を編集する処理において、全ての前文字列に対して総合評価処理（ステップ２６の処理）を行うことによって、全桁認識処理の計算量を削減することができる。
【００６８】
【発明の効果】
以上詳述したように、この発明によれば、区分装置で収集される数字列からなる所在情報の統計情報を利用してパラメータ調整を自動化することによって、大幅な省力化が図れる所在情報認識装置および区分装置を提供できる。
【図面の簡単な説明】
【図１】この発明の実施形態を説明するための区分機の概略構成を示す外観図。
【図２】区分機の概略構成を示す図。
【図３】区分機の概略構成を示すブロック図。
【図４】郵便番号認識部の概略構成を示すブロック図。
【図５】出現率評価テーブルの構成例を示す図。
【図６】結合テーブルの構成例を示す図。
【図７】レベル選択テーブルの構成例を示す図。
【図８】レベルテーブルの構成例を示す図。
【図９】自動調整処理を説明するためのフローチャート。
【図１０】出現率を求める際の処理を説明するためのフローチャート。
【図１１】調整パターン番号を求める際の処理を説明するためのフローチャート。
【図１２】頻度レベルを選択する際の処理を説明するためのフローチャート。
【図１３】総合評価値を算出する際の処理を説明するためのフローチャート。
【図１４】３桁目までの各桁ごとの総合評価点を説明するための図。
【図１５】３桁目までの各桁ごとの総合評価点（候補削減）を説明するための図。
【図１６】稼働情報ファイルの保存内容を説明するための図。
【図１７】１〜７桁目までの出現率を説明するための図。
【符号の説明】
１…区分機、Ｐ…郵便物、１５…郵便番号認識部、３１…複合類似度認識部、３１ａ…複合類似度辞書、３２…構造特徴マッチング認識部、３２ａ…構造特徴マッチング辞書、３３…複合類似度評価部、３４…構造特徴マッチング評価部、３５…総合評価部、４１…出現率評価テーブル、４２…結合テーブル、４３…レベル選択テーブル、４４…レベルテーブル。

Claims

紙葉類上の数字列からなる所在情報を読取る読取手段と、
この読取手段により読取った数字列の１文字ずつを参照用の各文字ごとに複数の文字パターンとの複合類似度法により認識候補文字と前記参照用の文字パターンの種別と信頼度とを出力する第１の出力手段と、
前記読取手段により読取った数字列の１文字ずつを参照用の各文字ごとに複数の構造特徴との構造特徴マッチング法により認識候補文字と前記参照用の構造特徴の種別とを出力する第２の出力手段と、
前記数字列の各桁ごとの文字の出現率を記憶するもので、前記出現率は前記数字列の手前の桁の数字に関連づけられている第１の記憶手段と、
前記第１の出力手段の出力結果と前記第２の出力手段の出力結果とに基づく、誤読される可能性高い文字と、この誤読文字の出現率と、認識文字の出現率とに対する、調整用のパラメータ番号を記憶する第２の記憶手段と、
前記第２の出力手段の出力結果に基づく、認識候補文字の出現率に対する、複数段階の頻度レベルを決定する種々の基準値を記憶する第３の記憶手段と、
前記調整用のパラメータ番号に対する各頻度レベルごとかつ信頼度ごとの評価値を記憶する第４の記憶手段と、
前記第１、第２の出力手段による各認識候補文字に対する出現率を前記第１の記憶手段から読出す第１の読出手段と、
前記第１の出力手段による認識候補文字と前記参照用の文字パターンの種別と前記第２の出力手段による認識候補文字と前記参照用の構造特徴の種別と、前記第１の読出手段により読出された各認識候補文字に対する出現率とに基づく、調整用のパラメータ番号を前記第２の記憶手段から読出す第２の読出手段と、
前記第２の出力手段による認識候補文字に対する前記出現率と、前記第２の出力手段による認識候補文字と参照用の構造特徴の種別とに対して前記第３の記憶手段に記憶されている各基準値とを比較することにより、頻度レベルを判断する第１の判断手段と、
前記第２の読出手段による調整用のパラメータ番号と前記第１の判断手段により判断された頻度レベルとにより、前記第４の記憶手段に記憶されている評価値を読出す第３の読出手段と、
前記第１、第２の出力手段による各認識候補文字に対する前記第３の読出手段により読出される評価値により、前記数字列の文字を判断する第２の判断手段と、
この第２の判断手段により判断した前記数字列の文字を収集する収集手段と、
この収集手段により収集した前記数字列の文字の収集内容に基づいて、前記第１の記憶手段に記憶されている前記数字列の各桁ごとの文字の出現率を変更する変更手段と、
を具備したことを特徴とする所在情報認識装置。
紙葉類上の数字列からなる所在情報を読取る読取手段と、
この読取手段により読取った数字列の１文字ずつを参照用の各文字ごとに複数の文字パターンとの複合類似度法により認識候補文字と前記参照用の文字パターンの種別と信頼度とを出力する第１の出力手段と、
前記読取手段により読取った数字列の１文字ずつを参照用の各文字ごとに複数の構造特徴との構造特徴マッチング法により認識候補文字と前記参照用の構造特徴の種別とを出力する第２の出力手段と、
前記第１の出力手段の出力結果と前記第２の出力手段の出力結果とに基づいて、前記数字列の文字を判断する第１の判断手段と、
この第１の判断手段により判断した前記数字列の文字を収集する収集手段と、
この収集手段により収集した前記数字列の文字の収集内容に基づいて、前記数字列の各桁ごとの文字の出現率を記憶する第１の記憶手段と、
前記第１の出力手段の出力結果と前記第２の出力手段の出力結果とに基づく、誤読される可能性高い文字と、この誤読文字の出現率と、認識文字の出現率とに対する、調整用のパラメータ番号を記憶する第２の記憶手段と、
前記第２の出力手段の出力結果に基づく、認識候補文字の出現率に対する、複数段階の頻度レベルを決定する種々の基準値を記憶する第３の記憶手段と、
前記調整用のパラメータ番号に対する各頻度レベルごとの評価値を記憶する第４の記憶手段と、
前記第１、第２の出力手段による各認識候補文字に対する出現率を前記第１の記憶手段から読出す第１の読出手段と、
前記第１の出力手段による認識候補文字と前記参照用の文字パターンの種別と前記第２の出力手段による認識候補文字と前記参照用の構造特徴の種別と、前記第１の読出手段により読出された各認識候補文字に対する出現率とに基づく、調整用のパラメータ番号を前記第２の記憶手段から読出す第２の読出手段と、
前記第２の出力手段による認識候補文字に対する前記出現率と、前記第２の出力手段による認識候補文字と参照用の構造特徴の種別とに対して前記第３の記憶手段に記憶されている各基準値とを比較することにより、頻度レベルを判断する第２の判断手段と、
前記第２の読出手段による調整用のパラメータ番号と前記第２の判断手段により判断された頻度レベルとにより、前記第４の記憶手段に記憶されている評価値を読出す第３の読出手段と、
前記第１、第２の出力手段による各認識候補文字に対する前記第３の読出手段により読出される評価値により、前記数字列の文字を判断する第３の判断手段と、
を具備したことを特徴とする所在情報認識装置。
請求項１または請求項２に記載された所在情報認識装置を用いて紙葉類上の数字列からなる所在情報を認識し、その認識結果に基づき前記紙葉類を区分処理することを特徴とする区分装置。