JPH0664624B2 - 光学文字読取方式 - Google Patents
光学文字読取方式Info
- Publication number
- JPH0664624B2 JPH0664624B2 JP59040015A JP4001584A JPH0664624B2 JP H0664624 B2 JPH0664624 B2 JP H0664624B2 JP 59040015 A JP59040015 A JP 59040015A JP 4001584 A JP4001584 A JP 4001584A JP H0664624 B2 JPH0664624 B2 JP H0664624B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- data
- format
- general
- entry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title description 26
- 230000003287 optical effect Effects 0.000 title description 4
- 238000000605 extraction Methods 0.000 claims description 19
- 238000012015 optical character recognition Methods 0.000 description 23
- 238000012545 processing Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 101100027898 Homo sapiens OCR1 gene Proteins 0.000 description 2
- 102100026725 Ovarian cancer-related protein 1 Human genes 0.000 description 2
- 230000002354 daily effect Effects 0.000 description 2
- 238000013479 data entry Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Landscapes
- Character Input (AREA)
Description
【発明の詳細な説明】 <技術分野> 本発明は光学文字読取方式、特に光学文字読取装置(以
下OCRと称す)により文字記入フォーマットを自動的に
検出して読取結果を出力する文字読取方式に関するもの
である。
下OCRと称す)により文字記入フォーマットを自動的に
検出して読取結果を出力する文字読取方式に関するもの
である。
<従来技術> 近年、OCRの普及によりコンピュータのデータ入力効率
は大幅に改善されて来た。しかし、従来OCRが読み取れ
る帳票は記入フォーマット、すなわち、文字の記入位
置、桁数等をあらかじめ細部に亘りOCR読取プログラ
ム、あるいはパラメータして与えておく必要があった。
このため、記入フォーマットが変わる毎にパラメータを
設定し直す必要があり、当然帳票もその都度変更するこ
とから、多様性への対応が問題になって来た。
は大幅に改善されて来た。しかし、従来OCRが読み取れ
る帳票は記入フォーマット、すなわち、文字の記入位
置、桁数等をあらかじめ細部に亘りOCR読取プログラ
ム、あるいはパラメータして与えておく必要があった。
このため、記入フォーマットが変わる毎にパラメータを
設定し直す必要があり、当然帳票もその都度変更するこ
とから、多様性への対応が問題になって来た。
すなわち、OCRの普及と共にOCRを使用する人の範囲が拡
がり、当初専門家によって利用若しくは管理されていた
状況から、非専門家も扱う状況へと変化して来た。この
ため、前記のような帳票や読取プログラムの多様性への
対応が増々大きな問題となって来た。
がり、当初専門家によって利用若しくは管理されていた
状況から、非専門家も扱う状況へと変化して来た。この
ため、前記のような帳票や読取プログラムの多様性への
対応が増々大きな問題となって来た。
このようなことから望ましいのは出来るだけ簡便に帳票
が準備出来、且つ読取プログラムが作成出来ることであ
り、具体的対応例としてPPC用紙の利用とか、読取プロ
グラムを実帳票を読ませるだけで作成する方法等が出現
している。しかし、これらの改善策も帳票と読取プログ
ラムの両面を併せて改善するものではないため、依然と
して非専問家にとって必ずしもOCRが便利なものとはい
えない状況であった。
が準備出来、且つ読取プログラムが作成出来ることであ
り、具体的対応例としてPPC用紙の利用とか、読取プロ
グラムを実帳票を読ませるだけで作成する方法等が出現
している。しかし、これらの改善策も帳票と読取プログ
ラムの両面を併せて改善するものではないため、依然と
して非専問家にとって必ずしもOCRが便利なものとはい
えない状況であった。
一般的に、帳票のフォーマットを規定せず何でも自由に
読み取るOCRが理想であるが、技術的にはこのレベルは
当面不可能と考えられている。
読み取るOCRが理想であるが、技術的にはこのレベルは
当面不可能と考えられている。
一歩譲って考えると、汎用帳票に出来るだけ自由に記入
した文字群をOCRが自動的に読み取ることが、前記問題
点を緩和し、理想に近づける具体的方策といえる。ここ
でいう出来るだけ自由にとは、極く簡単な制約、あるい
はルールを設定し、その上で自由に記入するということ
である。しかし、そのルールは日常生活の習慣に基づく
ものであれば、一般に容易に受け入れられるものになる
と考えられ、実用性が増すことになる。しかし、ここで
いうルールは、OCRにとって論理的に解読可能でなけれ
ばならない。
した文字群をOCRが自動的に読み取ることが、前記問題
点を緩和し、理想に近づける具体的方策といえる。ここ
でいう出来るだけ自由にとは、極く簡単な制約、あるい
はルールを設定し、その上で自由に記入するということ
である。しかし、そのルールは日常生活の習慣に基づく
ものであれば、一般に容易に受け入れられるものになる
と考えられ、実用性が増すことになる。しかし、ここで
いうルールは、OCRにとって論理的に解読可能でなけれ
ばならない。
ルールの程度とOCRによる自動読取の難易度は当然相関
があることになるが、OCRが論理的に解読可能な範囲に
おいては、単に処理の複雑さの程度として扱うことが可
能である。ここで、OCRが論理的に解読可能なルールの
限界の証明が問題であるように考えられるが、OCRの利
用者がルールを理解して協力的に対応する範囲におい
て、現実的に限界を設定出来るので、厳密な証明は必要
なく、結果としての利用価値の評価において、ルールの
適性が試されるのみである。
があることになるが、OCRが論理的に解読可能な範囲に
おいては、単に処理の複雑さの程度として扱うことが可
能である。ここで、OCRが論理的に解読可能なルールの
限界の証明が問題であるように考えられるが、OCRの利
用者がルールを理解して協力的に対応する範囲におい
て、現実的に限界を設定出来るので、厳密な証明は必要
なく、結果としての利用価値の評価において、ルールの
適性が試されるのみである。
さて、出来るだけ自由に記入出来るよう提供する汎用帳
票は、記入枠を縦,横一様に設定したものでよく、装置
や利用者の便宜の上において設計してあらかじめ用意す
ることが出来、この汎用帳票全体の読取プログラムは、
OCRの中にあらかじめ組み込める従来型のものでよい。
票は、記入枠を縦,横一様に設定したものでよく、装置
や利用者の便宜の上において設計してあらかじめ用意す
ることが出来、この汎用帳票全体の読取プログラムは、
OCRの中にあらかじめ組み込める従来型のものでよい。
<発明の目的> 本発明の目的は、記入ルールに従って記入された汎用帳
票を読み取らせる際、帳票上の全文字をブランクを含め
て読み取った後、全文字情報を一時記憶し、該全文字配
列を用いて帳票上に出現した文字記入者の意図するとこ
ろの記入レイアウト情報を抽出,処理し、帳票上の文字
データ群と記入方法の情報をルールに照して自動的に得
ることによりあらかじめ詳細フォーマットプログラムを
用意することなく、汎用フォーマット上文字配列から記
入フォーマットを検出して不要データを除去し、記入者
が意図するところの必要な読取結果を出力する光学文字
読取方式を提供することにある。
票を読み取らせる際、帳票上の全文字をブランクを含め
て読み取った後、全文字情報を一時記憶し、該全文字配
列を用いて帳票上に出現した文字記入者の意図するとこ
ろの記入レイアウト情報を抽出,処理し、帳票上の文字
データ群と記入方法の情報をルールに照して自動的に得
ることによりあらかじめ詳細フォーマットプログラムを
用意することなく、汎用フォーマット上文字配列から記
入フォーマットを検出して不要データを除去し、記入者
が意図するところの必要な読取結果を出力する光学文字
読取方式を提供することにある。
<発明の構成> 本発明によれば、記入すべき文字等の相対的な配置のみ
を規定する記入ルールが予め設定され、その記入ルール
にしたがって汎用帳票に記入された文字等をブランクも
含めて読み取って得た全文字情報を前記汎用帳票のフォ
ーマットに合致した文字配列で一時記憶する記憶手段
と、前記記憶手段から読み出した全文字情報中から前記
汎用帳票上の文字配列を示す記入レイアウト情報を前記
記入ルールに基づき抽出し出力するレイアウト情報抽出
手段と、前記レイアウト情報抽出手段から入力した記入
レイアウト情報に含まれる文字配列に対して、前記汎用
帳票上に記入された同一グループに属する文字データフ
ィールドの抽出データと前記文字データフィールドの記
入方法とを示すフォーマット情報を前記記入ルールに基
づき抽出し出力するフォーマット情報抽出手段と、前記
記憶手段に記憶されている全文字情報を読み出し前記フ
ォーマット情報抽出手段から入力したフォーマット情報
に基づいて所要データのみ出力する読取結果出力手段と
を含むことを特徴とする光学文字読取装置が得られる。
を規定する記入ルールが予め設定され、その記入ルール
にしたがって汎用帳票に記入された文字等をブランクも
含めて読み取って得た全文字情報を前記汎用帳票のフォ
ーマットに合致した文字配列で一時記憶する記憶手段
と、前記記憶手段から読み出した全文字情報中から前記
汎用帳票上の文字配列を示す記入レイアウト情報を前記
記入ルールに基づき抽出し出力するレイアウト情報抽出
手段と、前記レイアウト情報抽出手段から入力した記入
レイアウト情報に含まれる文字配列に対して、前記汎用
帳票上に記入された同一グループに属する文字データフ
ィールドの抽出データと前記文字データフィールドの記
入方法とを示すフォーマット情報を前記記入ルールに基
づき抽出し出力するフォーマット情報抽出手段と、前記
記憶手段に記憶されている全文字情報を読み出し前記フ
ォーマット情報抽出手段から入力したフォーマット情報
に基づいて所要データのみ出力する読取結果出力手段と
を含むことを特徴とする光学文字読取装置が得られる。
<実施例> 次に本発明の実施例について、図面を用いて説明する。
第1図は本発明の一実施例のブロック構成図で、1はOC
R、2は一時記憶装置、3はレイアウト情報抽出部、4
はフォーマット情報抽出部、5は読取結果出力部であ
る。
第1図は本発明の一実施例のブロック構成図で、1はOC
R、2は一時記憶装置、3はレイアウト情報抽出部、4
はフォーマット情報抽出部、5は読取結果出力部であ
る。
一般的なOCR1で読み取られた汎用帳票の読取結果11はブ
ランクを含めて、汎用帳票のフォーマットに合致した文
字配列で一時記憶装置2に格納される。一時記憶装置2
の出力21はレイアウト情報抽出部3に与えられる。レイ
アウト情報抽出部3において帳票上の文字配列、すなわ
ち、上記一時記憶2の内容から記入レイアウト情報が抽
出され、出力31としてフォーマット情報抽出部4に与え
られる。次にフォーマット情報抽出部4において、文字
配列に対して、同一グループに属するデータ群の分類、
記入位置の確認、右づめと左づめのチェックを行い、結
果をフォーマット情報41として読取結果出力部5に与え
る。最終的に読取結果出力部5において、一時記憶の内
容21を読み出しながら、フォーマット情報41を用いて不
要なデータを除去し、記入者の意図する必要なデータの
みを最終出力51として出力することにより、汎用帳票上
に記入ルールに基づいて記入されたデータを読み取る。
ランクを含めて、汎用帳票のフォーマットに合致した文
字配列で一時記憶装置2に格納される。一時記憶装置2
の出力21はレイアウト情報抽出部3に与えられる。レイ
アウト情報抽出部3において帳票上の文字配列、すなわ
ち、上記一時記憶2の内容から記入レイアウト情報が抽
出され、出力31としてフォーマット情報抽出部4に与え
られる。次にフォーマット情報抽出部4において、文字
配列に対して、同一グループに属するデータ群の分類、
記入位置の確認、右づめと左づめのチェックを行い、結
果をフォーマット情報41として読取結果出力部5に与え
る。最終的に読取結果出力部5において、一時記憶の内
容21を読み出しながら、フォーマット情報41を用いて不
要なデータを除去し、記入者の意図する必要なデータの
みを最終出力51として出力することにより、汎用帳票上
に記入ルールに基づいて記入されたデータを読み取る。
第2図は本発明による読取方式の一実施例における汎用
帳票と文字記入例を示すものである。同図に示す如く、
まず汎用帳票SはA5版横置きで、1行当り20文字、全体
で12行の汎用フォーマットになっている。この20文字×
12行の汎用帳票Sは、第1図で示した一般的なOCR1で読
み取るよう、OCR1においてプログラムされている。この
ような汎用帳票は、市販のOCRで十分読み取れるので詳
細説明は省略する。
帳票と文字記入例を示すものである。同図に示す如く、
まず汎用帳票SはA5版横置きで、1行当り20文字、全体
で12行の汎用フォーマットになっている。この20文字×
12行の汎用帳票Sは、第1図で示した一般的なOCR1で読
み取るよう、OCR1においてプログラムされている。この
ような汎用帳票は、市販のOCRで十分読み取れるので詳
細説明は省略する。
第2図において、帳票上部に示す1〜20の数字はカラム
番号を表わし、同じく左部に示す〜の数字は行番号
を表わす。四角で示す各ます目は文字記入枠を表わし、
記入枠内の各数字等は文字記入例を表わす。記入される
文字は数字に限らなく、OCRで読み取り可能な範囲で何
でもよい。
番号を表わし、同じく左部に示す〜の数字は行番号
を表わす。四角で示す各ます目は文字記入枠を表わし、
記入枠内の各数字等は文字記入例を表わす。記入される
文字は数字に限らなく、OCRで読み取り可能な範囲で何
でもよい。
さて、同図における文字記入は、実施例において以下の
ような記入ルールでなされている。
ような記入ルールでなされている。
ルール:行単位でフォーマットが変わったときブランク
行を入れる。(例;行,,) ルール2:1行中、ブランクでフィールドの切れ目とす
る。但し、左右端カラムはブランクがなくても切れ目と
する。
行を入れる。(例;行,,) ルール2:1行中、ブランクでフィールドの切れ目とす
る。但し、左右端カラムはブランクがなくても切れ目と
する。
ルール3:左づめ、右づめについて、 A)各フィールドの左端がそろっていれば左づめとする B)各フィールドの左端がそろっていなく、右端がそろ
っていれば右づめとする このようなルール1〜ルール3は日常使用するデータの
記入方法とほぼ同じもので、人間同志の間でも使用され
得る一般的なもので、OCR向きに限定したことが日常業
務活動に与える影響は少ない。尚、上記ルール1〜ルー
ル3の説明中、フィールドとは1組のデータを表わすも
ので、例えば第2図行のカラム18〜20の「100」は1
つのフィールドであるという如くである。
っていれば右づめとする このようなルール1〜ルール3は日常使用するデータの
記入方法とほぼ同じもので、人間同志の間でも使用され
得る一般的なもので、OCR向きに限定したことが日常業
務活動に与える影響は少ない。尚、上記ルール1〜ルー
ル3の説明中、フィールドとは1組のデータを表わすも
ので、例えば第2図行のカラム18〜20の「100」は1
つのフィールドであるという如くである。
またルール3について、若干の補則がある。これは例え
ば業務上5桁のフィールドであるが、ある帳票に記入す
る時、たまたま右づめで3桁しかデータがないというよ
うな場合の記入方法について、ルール3を意識して左右
づめが間違われないようにする必要がある。つまり、第
2図〜行のカラム16〜20のフィールドについて、こ
のフィールドは5桁であるが、データが右づめの「10
0」,「210」,「350」であっても、そのまま3桁記入
したままだと、ルール3A)により左づめになってしま
う。このとき「100」について図の如く、「00100」と記
入しておけば5桁のデータになり、結果として右づめに
なる。これを補則とする。
ば業務上5桁のフィールドであるが、ある帳票に記入す
る時、たまたま右づめで3桁しかデータがないというよ
うな場合の記入方法について、ルール3を意識して左右
づめが間違われないようにする必要がある。つまり、第
2図〜行のカラム16〜20のフィールドについて、こ
のフィールドは5桁であるが、データが右づめの「10
0」,「210」,「350」であっても、そのまま3桁記入
したままだと、ルール3A)により左づめになってしま
う。このとき「100」について図の如く、「00100」と記
入しておけば5桁のデータになり、結果として右づめに
なる。これを補則とする。
補則:右づめデータについて、フィールド長より記入デ
ータが少ない時、ルール3に照して必要な桁数だけ左側
に「0」を付加しておく。
ータが少ない時、ルール3に照して必要な桁数だけ左側
に「0」を付加しておく。
(但し一番上の行のみでよい) 次に第3図を用いて、記入データとルールの関係及びデ
ータ群の定義を詳しく説明する。第3図は第2図の記入
例をより詳細に示すものである。第3図において、行
目,行目,行目は全行ブランクの行であり、前記ル
ール1に従って、データは3つのデータグループD1,D2,
D3に分かれる。つまり、,行目はグループD1、〜
行目はグループD2、〜行目はグループD3である。
尚、行目は余白である。
ータ群の定義を詳しく説明する。第3図は第2図の記入
例をより詳細に示すものである。第3図において、行
目,行目,行目は全行ブランクの行であり、前記ル
ール1に従って、データは3つのデータグループD1,D2,
D3に分かれる。つまり、,行目はグループD1、〜
行目はグループD2、〜行目はグループD3である。
尚、行目は余白である。
前記ルール2に従ってグループD1は3つのデータフィー
ルドD11,D12,D13から成り、ルール3に従ってD11,D12は
4桁の右づめデータ、D13は3桁の左づめデータであ
る。ここで、D11,D12中の△はブランクを示す。例え
ば、D11において「△△13」,「1658」は共に4桁で同
質の2つのデータであり、「△△13」は「13」と同じで
あり、説明のため△(ブランク)を付加してある。D12,
D13も同様である。また、データグループD2,D3において
も同様に図の如く成っている。
ルドD11,D12,D13から成り、ルール3に従ってD11,D12は
4桁の右づめデータ、D13は3桁の左づめデータであ
る。ここで、D11,D12中の△はブランクを示す。例え
ば、D11において「△△13」,「1658」は共に4桁で同
質の2つのデータであり、「△△13」は「13」と同じで
あり、説明のため△(ブランク)を付加してある。D12,
D13も同様である。また、データグループD2,D3において
も同様に図の如く成っている。
従って、第3図のデータは、まず4桁の右づめデータが
2フィールドおよび3桁の左づめデータが1フィールド
から成る2行分のデータと、3桁の右づめデータが1フ
ィールドおよび5桁の右づめデータが1フィールドから
成る3行分のデータと、13桁の左づめデータが1フィー
ルドおよび3桁の左づめデータが1フィールドから成る
3行分のデータが記入されていることになる。
2フィールドおよび3桁の左づめデータが1フィールド
から成る2行分のデータと、3桁の右づめデータが1フ
ィールドおよび5桁の右づめデータが1フィールドから
成る3行分のデータと、13桁の左づめデータが1フィー
ルドおよび3桁の左づめデータが1フィールドから成る
3行分のデータが記入されていることになる。
次に、第4図を用いて処理の流れを説明する。第4図の
処理は、一般にOCRにより全文字を読み取って一時記憶
した後の処理を示すもので、レイアウト情報抽出処理は
第1図のレイアウト情報抽出部3においてなされるもの
で一時記憶装置2の記憶の内容から行単位で各ブロック
の左右端検出をした後、ブランク行の検出を併せて行
い、その後データグループを検出する。
処理は、一般にOCRにより全文字を読み取って一時記憶
した後の処理を示すもので、レイアウト情報抽出処理は
第1図のレイアウト情報抽出部3においてなされるもの
で一時記憶装置2の記憶の内容から行単位で各ブロック
の左右端検出をした後、ブランク行の検出を併せて行
い、その後データグループを検出する。
次に第4図のフォーマット情報抽出処理は、第1図のフ
ォーマット情報抽出部4においてなされるもので、デー
タグループ毎に各フィールドの左右端を検出し、左づ
め,右づめのチェックを行う。更に、第4図の読取結果
出力処理は、第1図の読取結果出力処理部5においてな
されるもので、一時記憶装置2に記憶された内容からフ
ォーマット情報に従って必要データのみ抽出して出力さ
れる。これらの一連の処理の詳細を次に説明する。
ォーマット情報抽出部4においてなされるもので、デー
タグループ毎に各フィールドの左右端を検出し、左づ
め,右づめのチェックを行う。更に、第4図の読取結果
出力処理は、第1図の読取結果出力処理部5においてな
されるもので、一時記憶装置2に記憶された内容からフ
ォーマット情報に従って必要データのみ抽出して出力さ
れる。これらの一連の処理の詳細を次に説明する。
第5図は第4図のレイアウト情報抽出の過程で作成され
るレイアウトテーブルの例を示す説明図であ、第3図の
帳票について各行のフィールド1,2,3のブランクを除い
た文字のみのブロックの左右端のカラム数を検出した結
果を全頁に亘って示す。例えば第5図中行のブロック
1の情報「5−6」は「5」が左端カラム、「6」が右
端カラムを示す。つまり第3図のD11中「△△13」のフ
ィールドのうちブランクを除いたブロック「13」の左端
つまり「1」はカラム5にありこれがこのブロックの左
端を示し、右端「3」はカラム6にありこれがこのブロ
ックの右端を示す。以下同様であるがここでブロックと
は各フィールドのうちブランクを除いた部分をいう。ま
た、レイアウトテーブル中△は全カラムブランクすなわ
ちブランク行を示す。
るレイアウトテーブルの例を示す説明図であ、第3図の
帳票について各行のフィールド1,2,3のブランクを除い
た文字のみのブロックの左右端のカラム数を検出した結
果を全頁に亘って示す。例えば第5図中行のブロック
1の情報「5−6」は「5」が左端カラム、「6」が右
端カラムを示す。つまり第3図のD11中「△△13」のフ
ィールドのうちブランクを除いたブロック「13」の左端
つまり「1」はカラム5にありこれがこのブロックの左
端を示し、右端「3」はカラム6にありこれがこのブロ
ックの右端を示す。以下同様であるがここでブロックと
は各フィールドのうちブランクを除いた部分をいう。ま
た、レイアウトテーブル中△は全カラムブランクすなわ
ちブランク行を示す。
第5図に示したテーブルは、第7図にフローチャートを
示すところの各ブロックの左右端検出処理によって抽出
されるもので、各処理中のリードとは一時記憶処理2の
内容を読み出すことを示し、カラムとは各桁を示す。ま
た、セットとは第5図のテーブル作成のための行番号,
ブロック番号の登録を、記憶とはテーブルへの書き込み
を示す。
示すところの各ブロックの左右端検出処理によって抽出
されるもので、各処理中のリードとは一時記憶処理2の
内容を読み出すことを示し、カラムとは各桁を示す。ま
た、セットとは第5図のテーブル作成のための行番号,
ブロック番号の登録を、記憶とはテーブルへの書き込み
を示す。
第8図で示す処理は第7図の処理に続くもので第8図の
処理は、第7図に示す処理によって作成される第5図に
示すところのレイアウトテーブルを用いてなされるもの
である。第8図の処理は、レイアウトテーブルの各行の
情報を読み出してチェックし、ブランク行を分離情報と
しながら各データグループの登録と、各グループに属す
る対象行番号を抽出し、第6図に示すようなフォーマッ
トテーブルの左側T1部分を作成する。つまり、ここでは
ブランク行検出とデータグループ検出を行っている。
処理は、第7図に示す処理によって作成される第5図に
示すところのレイアウトテーブルを用いてなされるもの
である。第8図の処理は、レイアウトテーブルの各行の
情報を読み出してチェックし、ブランク行を分離情報と
しながら各データグループの登録と、各グループに属す
る対象行番号を抽出し、第6図に示すようなフォーマッ
トテーブルの左側T1部分を作成する。つまり、ここでは
ブランク行検出とデータグループ検出を行っている。
第9図は、第4図で示すフォーマット情報抽出処理の詳
細を示すフローチャートであり、第8図で示した処理に
引続いてなされ、第6図に例として示すようなフォーマ
ットテーブルの右側T2を作成するものである。第6図中
T2の部分について、各データグループ内においてフィー
ルド1,2,3は第5図のレイアウトテーブルのブロック1,
2,3の左端最少値と右端最大値から抽出された結果であ
り、左右端値(左−右)と左づめ、右づめの判別結果
(左/右)から成る。例えばテーブルグループD1のフィ
ールド1は行,において左右端値「3−6」且つ
「右づめ」となっている。これは第5図のレイアウトテ
ーブル中,行についてブロック1のデータ「5−
6」及び「3−6」から左端最少値「3」、右端最大値
「6」となり、且つ右がそろった右づめつまり右端が同
一値となっているのに基づき、第9図に示す処理によっ
て抽出されている。尚、第9図における「記入エラー」
とは体前記ルール1〜ルール3に違反したものを検出し
ているもので実用上あった方がよく、操作者に表示等で
通報できるようにしてある。
細を示すフローチャートであり、第8図で示した処理に
引続いてなされ、第6図に例として示すようなフォーマ
ットテーブルの右側T2を作成するものである。第6図中
T2の部分について、各データグループ内においてフィー
ルド1,2,3は第5図のレイアウトテーブルのブロック1,
2,3の左端最少値と右端最大値から抽出された結果であ
り、左右端値(左−右)と左づめ、右づめの判別結果
(左/右)から成る。例えばテーブルグループD1のフィ
ールド1は行,において左右端値「3−6」且つ
「右づめ」となっている。これは第5図のレイアウトテ
ーブル中,行についてブロック1のデータ「5−
6」及び「3−6」から左端最少値「3」、右端最大値
「6」となり、且つ右がそろった右づめつまり右端が同
一値となっているのに基づき、第9図に示す処理によっ
て抽出されている。尚、第9図における「記入エラー」
とは体前記ルール1〜ルール3に違反したものを検出し
ているもので実用上あった方がよく、操作者に表示等で
通報できるようにしてある。
第9図の処理の次には、第4図の読取結果出力処理がな
される。この処理では、第6図のフォーマットテーブル
の対象行番号と、各フィールドのフォーマット情報、特
に左右端値で示されるカラム番号を用いて、一時記憶装
置2の内容を取り出して出力する。すなわち、第3図に
示した帳票では例えばデータグループD1の,行目に
ついてはカラム3〜6を4桁から成るフィールド1の情
報とし、カラム10〜13を4桁から成るフィールド2の情
報とし、カラム18〜20を3桁から成るフィールド3の情
報として取り出して出力する。以下データグループD2,D
3についても同様に行うことで、一頁分につき記入者が
意図するところの必要データのみを出力出来る。
される。この処理では、第6図のフォーマットテーブル
の対象行番号と、各フィールドのフォーマット情報、特
に左右端値で示されるカラム番号を用いて、一時記憶装
置2の内容を取り出して出力する。すなわち、第3図に
示した帳票では例えばデータグループD1の,行目に
ついてはカラム3〜6を4桁から成るフィールド1の情
報とし、カラム10〜13を4桁から成るフィールド2の情
報とし、カラム18〜20を3桁から成るフィールド3の情
報として取り出して出力する。以下データグループD2,D
3についても同様に行うことで、一頁分につき記入者が
意図するところの必要データのみを出力出来る。
尚、この場合例えば行目のフィールド1のデータは
「△△13」となるが、これは2行目と桁をそろえるため
にブランクを自動的に出力するものであり、他も同様で
ある。
「△△13」となるが、これは2行目と桁をそろえるため
にブランクを自動的に出力するものであり、他も同様で
ある。
以上の説明では、各種処理の過程で抽出される情報のテ
ーブル類については帳票例に合せた例として表現した
が、各処理のフローチャートからもわかるように、処理
そのものは汎用フローになっているので、当然帳票例に
示したもの以外も処理可能なことは明白である。
ーブル類については帳票例に合せた例として表現した
が、各処理のフローチャートからもわかるように、処理
そのものは汎用フローになっているので、当然帳票例に
示したもの以外も処理可能なことは明白である。
また、前述した如く、記入ルールは処理としてアルゴリ
ズム化できるものなら特に実施例に示したものでなくて
もよいが、データ記入の自然さを保存することが望まし
い。
ズム化できるものなら特に実施例に示したものでなくて
もよいが、データ記入の自然さを保存することが望まし
い。
<発明の効果> 本発明文字読取方式は帳票を用途に合せて個別に設計す
る必要がないので、OCRを簡便に使用するに際して極め
て有用である。
る必要がないので、OCRを簡便に使用するに際して極め
て有用である。
第1図は本発明による文字読取方式の一実施例のブロッ
ク図、第2図は汎用帳票と文字記入の例を示す図、第3
図は第2図に示すものの読取結果の一次記憶内容を示す
模式図、第4図は本発明における処理フローの概略を示
す図、第5図は抽出されたレイアウト情報の例をテーブ
ル化して示す図、第6図は検出されたフォーマット情報
の例をテーブル化して示す図、第7図はレイアウト情報
を抽出する処理のフローチャート、第8図,第9図はフ
ォーマット情報検出処理のフローチャートを分割して示
す。 1はOCR、2は一時記憶装置、3はレイアウト情報抽出
部、4はフォーマット情報抽出部、5は読取結果出力部
である。
ク図、第2図は汎用帳票と文字記入の例を示す図、第3
図は第2図に示すものの読取結果の一次記憶内容を示す
模式図、第4図は本発明における処理フローの概略を示
す図、第5図は抽出されたレイアウト情報の例をテーブ
ル化して示す図、第6図は検出されたフォーマット情報
の例をテーブル化して示す図、第7図はレイアウト情報
を抽出する処理のフローチャート、第8図,第9図はフ
ォーマット情報検出処理のフローチャートを分割して示
す。 1はOCR、2は一時記憶装置、3はレイアウト情報抽出
部、4はフォーマット情報抽出部、5は読取結果出力部
である。
Claims (1)
- 【請求項1】記入すべき文字等の相対的な配置のみを規
定する記入ルールが予め設定され、その記入ルールにし
たがって汎用帳票に記入された文字等をブランクも含め
て読み取って得た全文字情報を前記汎用帳票のフォーマ
ットに合致した文字配列で一時記憶する記憶手段と、 前記記憶手段から読み出した全文字情報中から前記汎用
帳票上の文字配列を示す記入レイアウト情報を前記記入
ルールに基づき抽出し出力するレイアウト情報抽出手段
と、 前記レイアウト情報抽出手段から入力した記入レイアウ
ト情報に含まれる文字配列に対して、前記汎用帳票上に
記入された同一グループに属する文字データフィールド
の抽出データと前記文字データフィールドの記入方法と
を示すフォーマット情報を前記記入ルールに基づき抽出
し出力するフォーマット情報抽出手段と、 前記記憶手段に記憶されている全文字情報を読み出し前
記フォーマット情報抽出手段から入力したフォーマット
情報に基づいて所要データのみ出力する読取結果出力手
段と を含むことを特徴とする光学文字読取装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59040015A JPH0664624B2 (ja) | 1984-03-02 | 1984-03-02 | 光学文字読取方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59040015A JPH0664624B2 (ja) | 1984-03-02 | 1984-03-02 | 光学文字読取方式 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS60183688A JPS60183688A (ja) | 1985-09-19 |
| JPH0664624B2 true JPH0664624B2 (ja) | 1994-08-22 |
Family
ID=12569077
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP59040015A Expired - Lifetime JPH0664624B2 (ja) | 1984-03-02 | 1984-03-02 | 光学文字読取方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0664624B2 (ja) |
Families Citing this family (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH083828B2 (ja) * | 1985-06-07 | 1996-01-17 | 株式会社日立製作所 | 文書画像理解装置 |
| JP2575408B2 (ja) * | 1987-09-04 | 1997-01-22 | 株式会社東芝 | 郵便物の宛先住所読取装置 |
| JPH01130293A (ja) * | 1987-11-16 | 1989-05-23 | Nec Corp | 文書画像解析方式 |
| JPH07111729B2 (ja) * | 1988-01-27 | 1995-11-29 | 株式会社東芝 | 読取装置 |
| JP2794042B2 (ja) * | 1989-08-23 | 1998-09-03 | 富士電機株式会社 | 表形式文書の認識装置 |
| JPH03134784A (ja) * | 1989-10-20 | 1991-06-07 | Hitachi Ltd | 光学読取装置 |
| JP3090070B2 (ja) * | 1996-11-26 | 2000-09-18 | 日本電気株式会社 | 帳票識別方法及び装置 |
| JPH10291143A (ja) * | 1997-04-21 | 1998-11-04 | Calsonic Corp | 生産計画の最適化システム |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS57114974A (en) * | 1981-01-09 | 1982-07-17 | Toshiba Corp | Optical character reader |
| JPH0661112B2 (ja) * | 1984-01-11 | 1994-08-10 | 株式会社日立製作所 | パタ−ン認識方式 |
-
1984
- 1984-03-02 JP JP59040015A patent/JPH0664624B2/ja not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| JPS60183688A (ja) | 1985-09-19 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CA1229894A (en) | Cryptographic analysis system | |
| US5761686A (en) | Embedding encoded information in an iconic version of a text image | |
| CN110210470B (zh) | 商品信息图像识别系统 | |
| US5933833A (en) | Data table structure and calculation method for mathematical calculations of irregular cells | |
| JP2004139484A (ja) | 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム | |
| JPH04343190A (ja) | 文字データ入力方式 | |
| CN108536683A (zh) | 一种基于机器学习的论文碎片化信息抽取方法 | |
| JPH0664624B2 (ja) | 光学文字読取方式 | |
| US6374242B1 (en) | Natural-language information processor with association searches limited within blocks | |
| CN109726369A (zh) | 一种基于标准文献的智能模板化题录技术实现方法 | |
| TW402706B (en) | Three-dimensional image creation devices | |
| JPH0423185A (ja) | 自動セル属性判定機能を有する表読取装置 | |
| US20030108243A1 (en) | Adaptive technology for automatic document analysis | |
| JP4445895B2 (ja) | データ検索装置及びデータ検索プログラム | |
| JPS59123084A (ja) | 2次元像の標準化方法 | |
| Lawrie et al. | Building OCR/NER test collections | |
| JPH0991385A (ja) | 文字認識辞書追加方法及びこれを用いた端末ocr装置 | |
| JP2009087378A (ja) | 帳票処理装置 | |
| JPS5936881A (ja) | 個人用文字読取り装置 | |
| TW294804B (en) | Print/hand-written Chinese/English form recognition method | |
| JPH0789361B2 (ja) | 帳票登録装置 | |
| CN121354142A (zh) | 面向报关单随附单证的版面分析方法、装置、计算机设备及计算机程序产品 | |
| JP3037888B2 (ja) | 情報処理装置 | |
| JPS63220383A (ja) | 文字入力装置 | |
| JPS6057889A (ja) | 枠指定付き連字フォント作成システム |