JPH0664624B2

JPH0664624B2 - 光学文字読取方式

Info

Publication number: JPH0664624B2
Application number: JP59040015A
Authority: JP
Inventors: 廣洲石黒; 章夫深沢
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1984-03-02
Filing date: 1984-03-02
Publication date: 1994-08-22
Anticipated expiration: 2009-08-22
Also published as: JPS60183688A

Description

【発明の詳細な説明】＜技術分野＞本発明は光学文字読取方式、特に光学文字読取装置（以
下OCRと称す）により文字記入フォーマットを自動的に
検出して読取結果を出力する文字読取方式に関するもの
である。

＜従来技術＞近年、OCRの普及によりコンピュータのデータ入力効率
は大幅に改善されて来た。しかし、従来OCRが読み取れ
る帳票は記入フォーマット、すなわち、文字の記入位
置、桁数等をあらかじめ細部に亘りOCR読取プログラ
ム、あるいはパラメータして与えておく必要があった。
このため、記入フォーマットが変わる毎にパラメータを
設定し直す必要があり、当然帳票もその都度変更するこ
とから、多様性への対応が問題になって来た。

すなわち、OCRの普及と共にOCRを使用する人の範囲が拡
がり、当初専門家によって利用若しくは管理されていた
状況から、非専門家も扱う状況へと変化して来た。この
ため、前記のような帳票や読取プログラムの多様性への
対応が増々大きな問題となって来た。

このようなことから望ましいのは出来るだけ簡便に帳票
が準備出来、且つ読取プログラムが作成出来ることであ
り、具体的対応例としてPPC用紙の利用とか、読取プロ
グラムを実帳票を読ませるだけで作成する方法等が出現
している。しかし、これらの改善策も帳票と読取プログ
ラムの両面を併せて改善するものではないため、依然と
して非専問家にとって必ずしもOCRが便利なものとはい
えない状況であった。

一般的に、帳票のフォーマットを規定せず何でも自由に
読み取るOCRが理想であるが、技術的にはこのレベルは
当面不可能と考えられている。

一歩譲って考えると、汎用帳票に出来るだけ自由に記入
した文字群をOCRが自動的に読み取ることが、前記問題
点を緩和し、理想に近づける具体的方策といえる。ここ
でいう出来るだけ自由にとは、極く簡単な制約、あるい
はルールを設定し、その上で自由に記入するということ
である。しかし、そのルールは日常生活の習慣に基づく
ものであれば、一般に容易に受け入れられるものになる
と考えられ、実用性が増すことになる。しかし、ここで
いうルールは、OCRにとって論理的に解読可能でなけれ
ばならない。

ルールの程度とOCRによる自動読取の難易度は当然相関
があることになるが、OCRが論理的に解読可能な範囲に
おいては、単に処理の複雑さの程度として扱うことが可
能である。ここで、OCRが論理的に解読可能なルールの
限界の証明が問題であるように考えられるが、OCRの利
用者がルールを理解して協力的に対応する範囲におい
て、現実的に限界を設定出来るので、厳密な証明は必要
なく、結果としての利用価値の評価において、ルールの
適性が試されるのみである。

さて、出来るだけ自由に記入出来るよう提供する汎用帳
票は、記入枠を縦，横一様に設定したものでよく、装置
や利用者の便宜の上において設計してあらかじめ用意す
ることが出来、この汎用帳票全体の読取プログラムは、
OCRの中にあらかじめ組み込める従来型のものでよい。

＜発明の目的＞本発明の目的は、記入ルールに従って記入された汎用帳
票を読み取らせる際、帳票上の全文字をブランクを含め
て読み取った後、全文字情報を一時記憶し、該全文字配
列を用いて帳票上に出現した文字記入者の意図するとこ
ろの記入レイアウト情報を抽出，処理し、帳票上の文字
データ群と記入方法の情報をルールに照して自動的に得
ることによりあらかじめ詳細フォーマットプログラムを
用意することなく、汎用フォーマット上文字配列から記
入フォーマットを検出して不要データを除去し、記入者
が意図するところの必要な読取結果を出力する光学文字
読取方式を提供することにある。

＜発明の構成＞本発明によれば、記入すべき文字等の相対的な配置のみ
を規定する記入ルールが予め設定され、その記入ルール
にしたがって汎用帳票に記入された文字等をブランクも
含めて読み取って得た全文字情報を前記汎用帳票のフォ
ーマットに合致した文字配列で一時記憶する記憶手段
と、前記記憶手段から読み出した全文字情報中から前記
汎用帳票上の文字配列を示す記入レイアウト情報を前記
記入ルールに基づき抽出し出力するレイアウト情報抽出
手段と、前記レイアウト情報抽出手段から入力した記入
レイアウト情報に含まれる文字配列に対して、前記汎用
帳票上に記入された同一グループに属する文字データフ
ィールドの抽出データと前記文字データフィールドの記
入方法とを示すフォーマット情報を前記記入ルールに基
づき抽出し出力するフォーマット情報抽出手段と、前記
記憶手段に記憶されている全文字情報を読み出し前記フ
ォーマット情報抽出手段から入力したフォーマット情報
に基づいて所要データのみ出力する読取結果出力手段と
を含むことを特徴とする光学文字読取装置が得られる。

＜実施例＞次に本発明の実施例について、図面を用いて説明する。
第１図は本発明の一実施例のブロック構成図で、１はOC
R、２は一時記憶装置、３はレイアウト情報抽出部、４
はフォーマット情報抽出部、５は読取結果出力部であ
る。

一般的なOCR1で読み取られた汎用帳票の読取結果11はブ
ランクを含めて、汎用帳票のフォーマットに合致した文
字配列で一時記憶装置２に格納される。一時記憶装置２
の出力21はレイアウト情報抽出部３に与えられる。レイ
アウト情報抽出部３において帳票上の文字配列、すなわ
ち、上記一時記憶２の内容から記入レイアウト情報が抽
出され、出力31としてフォーマット情報抽出部４に与え
られる。次にフォーマット情報抽出部４において、文字
配列に対して、同一グループに属するデータ群の分類、
記入位置の確認、右づめと左づめのチェックを行い、結
果をフォーマット情報41として読取結果出力部５に与え
る。最終的に読取結果出力部５において、一時記憶の内
容21を読み出しながら、フォーマット情報41を用いて不
要なデータを除去し、記入者の意図する必要なデータの
みを最終出力51として出力することにより、汎用帳票上
に記入ルールに基づいて記入されたデータを読み取る。

第２図は本発明による読取方式の一実施例における汎用
帳票と文字記入例を示すものである。同図に示す如く、
まず汎用帳票ＳはA5版横置きで、１行当り20文字、全体
で12行の汎用フォーマットになっている。この20文字×
12行の汎用帳票Ｓは、第１図で示した一般的なOCR1で読
み取るよう、OCR1においてプログラムされている。この
ような汎用帳票は、市販のOCRで十分読み取れるので詳
細説明は省略する。

第２図において、帳票上部に示す１〜20の数字はカラム
番号を表わし、同じく左部に示す〜の数字は行番号
を表わす。四角で示す各ます目は文字記入枠を表わし、
記入枠内の各数字等は文字記入例を表わす。記入される
文字は数字に限らなく、OCRで読み取り可能な範囲で何
でもよい。

さて、同図における文字記入は、実施例において以下の
ような記入ルールでなされている。

ルール：行単位でフォーマットが変わったときブランク
行を入れる。（例；行，，）ルール2:1行中、ブランクでフィールドの切れ目とす
る。但し、左右端カラムはブランクがなくても切れ目と
する。

ルール3:左づめ、右づめについて、Ａ）各フィールドの左端がそろっていれば左づめとするＢ）各フィールドの左端がそろっていなく、右端がそろ
っていれば右づめとするこのようなルール１〜ルール３は日常使用するデータの
記入方法とほぼ同じもので、人間同志の間でも使用され
得る一般的なもので、OCR向きに限定したことが日常業
務活動に与える影響は少ない。尚、上記ルール１〜ルー
ル３の説明中、フィールドとは１組のデータを表わすも
ので、例えば第２図行のカラム18〜20の「100」は１
つのフィールドであるという如くである。

またルール３について、若干の補則がある。これは例え
ば業務上５桁のフィールドであるが、ある帳票に記入す
る時、たまたま右づめで３桁しかデータがないというよ
うな場合の記入方法について、ルール３を意識して左右
づめが間違われないようにする必要がある。つまり、第
２図〜行のカラム16〜20のフィールドについて、こ
のフィールドは５桁であるが、データが右づめの「10
0」，「210」，「350」であっても、そのまま３桁記入
したままだと、ルール3A）により左づめになってしま
う。このとき「100」について図の如く、「00100」と記
入しておけば５桁のデータになり、結果として右づめに
なる。これを補則とする。

補則：右づめデータについて、フィールド長より記入デ
ータが少ない時、ルール３に照して必要な桁数だけ左側
に「０」を付加しておく。

（但し一番上の行のみでよい）次に第３図を用いて、記入データとルールの関係及びデ
ータ群の定義を詳しく説明する。第３図は第２図の記入
例をより詳細に示すものである。第３図において、行
目，行目，行目は全行ブランクの行であり、前記ル
ール１に従って、データは３つのデータグループD₁,D₂,
D₃に分かれる。つまり、，行目はグループD₁、〜
行目はグループD₂、〜行目はグループD₃である。
尚、行目は余白である。

前記ルール２に従ってグループD₁は３つのデータフィー
ルドD₁₁,D₁₂,D₁₃から成り、ルール３に従ってD₁₁,D₁₂は
４桁の右づめデータ、D₁₃は３桁の左づめデータであ
る。ここで、D₁₁,D₁₂中の△はブランクを示す。例え
ば、D₁₁において「△△13」，「1658」は共に４桁で同
質の２つのデータであり、「△△13」は「13」と同じで
あり、説明のため△（ブランク）を付加してある。D₁₂,
D₁₃も同様である。また、データグループD₂,D₃において
も同様に図の如く成っている。

従って、第３図のデータは、まず４桁の右づめデータが
２フィールドおよび３桁の左づめデータが１フィールド
から成る２行分のデータと、３桁の右づめデータが１フ
ィールドおよび５桁の右づめデータが１フィールドから
成る３行分のデータと、13桁の左づめデータが１フィー
ルドおよび３桁の左づめデータが１フィールドから成る
３行分のデータが記入されていることになる。

次に、第４図を用いて処理の流れを説明する。第４図の
処理は、一般にOCRにより全文字を読み取って一時記憶
した後の処理を示すもので、レイアウト情報抽出処理は
第１図のレイアウト情報抽出部３においてなされるもの
で一時記憶装置２の記憶の内容から行単位で各ブロック
の左右端検出をした後、ブランク行の検出を併せて行
い、その後データグループを検出する。

次に第４図のフォーマット情報抽出処理は、第１図のフ
ォーマット情報抽出部４においてなされるもので、デー
タグループ毎に各フィールドの左右端を検出し、左づ
め，右づめのチェックを行う。更に、第４図の読取結果
出力処理は、第１図の読取結果出力処理部５においてな
されるもので、一時記憶装置２に記憶された内容からフ
ォーマット情報に従って必要データのみ抽出して出力さ
れる。これらの一連の処理の詳細を次に説明する。

第５図は第４図のレイアウト情報抽出の過程で作成され
るレイアウトテーブルの例を示す説明図であ、第３図の
帳票について各行のフィールド1,2,3のブランクを除い
た文字のみのブロックの左右端のカラム数を検出した結
果を全頁に亘って示す。例えば第５図中行のブロック
１の情報「５−６」は「５」が左端カラム、「６」が右
端カラムを示す。つまり第３図のD₁₁中「△△13」のフ
ィールドのうちブランクを除いたブロック「13」の左端
つまり「１」はカラム５にありこれがこのブロックの左
端を示し、右端「３」はカラム６にありこれがこのブロ
ックの右端を示す。以下同様であるがここでブロックと
は各フィールドのうちブランクを除いた部分をいう。ま
た、レイアウトテーブル中△は全カラムブランクすなわ
ちブランク行を示す。

第５図に示したテーブルは、第７図にフローチャートを
示すところの各ブロックの左右端検出処理によって抽出
されるもので、各処理中のリードとは一時記憶処理２の
内容を読み出すことを示し、カラムとは各桁を示す。ま
た、セットとは第５図のテーブル作成のための行番号，
ブロック番号の登録を、記憶とはテーブルへの書き込み
を示す。

第８図で示す処理は第７図の処理に続くもので第８図の
処理は、第７図に示す処理によって作成される第５図に
示すところのレイアウトテーブルを用いてなされるもの
である。第８図の処理は、レイアウトテーブルの各行の
情報を読み出してチェックし、ブランク行を分離情報と
しながら各データグループの登録と、各グループに属す
る対象行番号を抽出し、第６図に示すようなフォーマッ
トテーブルの左側T₁部分を作成する。つまり、ここでは
ブランク行検出とデータグループ検出を行っている。

第９図は、第４図で示すフォーマット情報抽出処理の詳
細を示すフローチャートであり、第８図で示した処理に
引続いてなされ、第６図に例として示すようなフォーマ
ットテーブルの右側T₂を作成するものである。第６図中
T₂の部分について、各データグループ内においてフィー
ルド1,2,3は第５図のレイアウトテーブルのブロック1,
2,3の左端最少値と右端最大値から抽出された結果であ
り、左右端値（左−右）と左づめ、右づめの判別結果
（左／右）から成る。例えばテーブルグループD₁のフィ
ールド１は行，において左右端値「３−６」且つ
「右づめ」となっている。これは第５図のレイアウトテ
ーブル中，行についてブロック１のデータ「５−
６」及び「３−６」から左端最少値「３」、右端最大値
「６」となり、且つ右がそろった右づめつまり右端が同
一値となっているのに基づき、第９図に示す処理によっ
て抽出されている。尚、第９図における「記入エラー」
とは体前記ルール１〜ルール３に違反したものを検出し
ているもので実用上あった方がよく、操作者に表示等で
通報できるようにしてある。

第９図の処理の次には、第４図の読取結果出力処理がな
される。この処理では、第６図のフォーマットテーブル
の対象行番号と、各フィールドのフォーマット情報、特
に左右端値で示されるカラム番号を用いて、一時記憶装
置２の内容を取り出して出力する。すなわち、第３図に
示した帳票では例えばデータグループD₁の，行目に
ついてはカラム３〜６を４桁から成るフィールド１の情
報とし、カラム10〜13を４桁から成るフィールド２の情
報とし、カラム18〜20を３桁から成るフィールド３の情
報として取り出して出力する。以下データグループD₂,D
₃についても同様に行うことで、一頁分につき記入者が
意図するところの必要データのみを出力出来る。

尚、この場合例えば行目のフィールド１のデータは
「△△13」となるが、これは２行目と桁をそろえるため
にブランクを自動的に出力するものであり、他も同様で
ある。

以上の説明では、各種処理の過程で抽出される情報のテ
ーブル類については帳票例に合せた例として表現した
が、各処理のフローチャートからもわかるように、処理
そのものは汎用フローになっているので、当然帳票例に
示したもの以外も処理可能なことは明白である。

また、前述した如く、記入ルールは処理としてアルゴリ
ズム化できるものなら特に実施例に示したものでなくて
もよいが、データ記入の自然さを保存することが望まし
い。

＜発明の効果＞本発明文字読取方式は帳票を用途に合せて個別に設計す
る必要がないので、OCRを簡便に使用するに際して極め
て有用である。

【図面の簡単な説明】

第１図は本発明による文字読取方式の一実施例のブロッ
ク図、第２図は汎用帳票と文字記入の例を示す図、第３
図は第２図に示すものの読取結果の一次記憶内容を示す
模式図、第４図は本発明における処理フローの概略を示
す図、第５図は抽出されたレイアウト情報の例をテーブ
ル化して示す図、第６図は検出されたフォーマット情報
の例をテーブル化して示す図、第７図はレイアウト情報
を抽出する処理のフローチャート、第８図，第９図はフ
ォーマット情報検出処理のフローチャートを分割して示
す。１はOCR、２は一時記憶装置、３はレイアウト情報抽出
部、４はフォーマット情報抽出部、５は読取結果出力部
である。

Claims

【特許請求の範囲】

【請求項１】記入すべき文字等の相対的な配置のみを規
定する記入ルールが予め設定され、その記入ルールにし
たがって汎用帳票に記入された文字等をブランクも含め
て読み取って得た全文字情報を前記汎用帳票のフォーマ
ットに合致した文字配列で一時記憶する記憶手段と、前記記憶手段から読み出した全文字情報中から前記汎用
帳票上の文字配列を示す記入レイアウト情報を前記記入
ルールに基づき抽出し出力するレイアウト情報抽出手段
と、前記レイアウト情報抽出手段から入力した記入レイアウ
ト情報に含まれる文字配列に対して、前記汎用帳票上に
記入された同一グループに属する文字データフィールド
の抽出データと前記文字データフィールドの記入方法と
を示すフォーマット情報を前記記入ルールに基づき抽出
し出力するフォーマット情報抽出手段と、前記記憶手段に記憶されている全文字情報を読み出し前
記フォーマット情報抽出手段から入力したフォーマット
情報に基づいて所要データのみ出力する読取結果出力手
段とを含むことを特徴とする光学文字読取装置。