Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7761130B2 - 文字認識システム、文字認識方法および文字認識プログラム - Google Patents
[go: Go Back, main page]

JP7761130B2 - 文字認識システム、文字認識方法および文字認識プログラム - Google Patents

文字認識システム、文字認識方法および文字認識プログラム

Info

Publication number
JP7761130B2
JP7761130B2 JP2024508871A JP2024508871A JP7761130B2 JP 7761130 B2 JP7761130 B2 JP 7761130B2 JP 2024508871 A JP2024508871 A JP 2024508871A JP 2024508871 A JP2024508871 A JP 2024508871A JP 7761130 B2 JP7761130 B2 JP 7761130B2
Authority
JP
Japan
Prior art keywords
preprint
image
characters written
recognition
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2024508871A
Other languages
English (en)
Other versions
JPWO2023181149A5 (ja
JPWO2023181149A1 (ja
Inventor
裕一 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2023181149A1 publication Critical patent/JPWO2023181149A1/ja
Publication of JPWO2023181149A5 publication Critical patent/JPWO2023181149A5/ja
Application granted granted Critical
Publication of JP7761130B2 publication Critical patent/JP7761130B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Description

本発明は、文字認識システム等に関する。
帳票に記載された手書きの文字をスキャナーで画像として読み取り、画像中の文字を認識することでテキストデータに変換するOCR(Optical Character Recognition)が広く用いられている。OCRによる文字の認識は、例えば、機械学習によって生成された学習モデルを用いて、帳票のプレプリント上に記載された文字を認識することによって行われる。しかし、同一の文字が記載されている場合でも、帳票のプレプリント上に記載された文字の形状、およびプレプリント上において文字が記載される位置は、文字を記載する人物によって多様である。また、プレプリント上に記載された文字を読み取った画像では、画像中にプレプリントと、文字が混在する。よって、帳票上の手書きの文字を認識する学習モデルは、多様な形状で記載され、記載されている位置も多様なプレプリント上に記載されている文字を、プレプリントと、文字が混在して写っている画像から正確に認識できることが要求され得る。このため、帳票のプレプリント上の文字を正確に認識できる技術があることが望ましい。
特許文献1の画像処理システムは、プレプリントの枠内に記載された手書きの文字の抽出を、学習モデルを用いて行う。特許文献1の画像処理システムは、プレプリントの枠内に記載された手書きの文字を写した画像から、プレプリントの枠を画像処理によって消去することで、手書きの文字を抽出する。
特開2021-39424号公報
特許文献1の情報処理装置では、プレプリント上に記載された文字の正確な認識が難しい場合がある。
上記の課題を解決するため、本発明は、プレプリント上に記載された文字の認識精度を向上することができる文字認識システム等を提供することを主たる目的とする。
上記の課題を解決するため、本発明の文字認識システムは、プレプリントを含む帳票のプレプリント上に記載された文字を写した画像を取得する取得手段と、プレプリント上に記載された文字を写した画像と、プレプリントを写したプレプリント画像とからプレプリント上に記載された文字を認識する認識モデルを用いて、取得した画像と、プレプリント画像とから、取得した画像のプレプリント上に記載された文字を認識する認識手段と、認識の結果を出力する出力手段とを備える。
本発明の文字認識方法は、プレプリントを含む帳票のプレプリント上に記載された文字を写した画像を取得し、プレプリント上に記載された文字を写した画像と、プレプリントを写したプレプリント画像とからプレプリント上に記載された文字を認識する認識モデルを用いて、取得した画像と、プレプリント画像とから、取得した画像のプレプリント上に記載された文字を認識し、認識の結果を出力する。
本発明の記録媒体は、プレプリントを含む帳票のプレプリント上に記載された文字がを写した画像を取得する処理と、プレプリント上に記載された文字を写した画像と、プレプリントを写したプレプリント画像とからプレプリント上に記載された文字を認識する認識モデルを用いて、取得した画像と、プレプリント画像とから、取得した画像のプレプリント上に記載された文字を認識する処理と、認識の結果を出力する処理とをコンピュータに実行させる文字認識プログラムを非一時的に記録する。
本発明によると、プレプリント上に記載された文字の認識精度を向上することができる。
本発明の第1の実施形態の構成の一例を示す図である。 本発明の第1の実施形態における帳票の例を示す図である。 本発明の第1の実施形態の文字が記載された画像の例を示す図である。 本発明の第1の実施形態のプレプリント画像の例を示す図である。 本発明の第1の実施形態の文字が記載された画像の例を示す図である。 本発明の第1の実施形態のプレプリント画像の例を示す図である。 本発明の第1の実施形態の文字認識システムの構成の例を示す図である。 本発明の第1の実施形態の文字が記載された画像の例を示す図である。 本発明の第1の実施形態のプレプリント画像の例を示す図である。 本発明の第1の実施形態の文字が記載された画像の例を示す図である。 本発明の第1の実施形態のプレプリント画像の例を示す図である。 本発明の第1の実施形態の文字が記載された画像の例を示す図である。 本発明の第1の実施形態のプレプリント画像の例を示す図である。 本発明の第1の実施形態の文字認識システムの動作フローの例を示す図である。 本発明の第1の実施形態の文字認識システムの動作フローの例を示す図である。 本発明の第2の実施形態の構成の一例を示す図である。 本発明の第2の実施形態の文字認識システムの構成の例を示す図である。 本発明の第2の実施形態におけるデータ処理のフローを模式的に示す図である。 本発明の第2の実施形態の文字認識システムの動作フローの例を示す図である。 本発明の第2の実施形態の文字認識システムの動作フローの例を示す図である。 本発明の第2の実施形態の文字認識システムの動作フローの例を示す図である。 本発明の他の実施形態の構成の例を示す図である。
(第1の実施形態)
本発明の第1の実施形態について、図を参照して詳細に説明する。図1は、本実施形態の帳票処理システムの構成の例を示す図である。帳票処理システムは、一例として、文字認識システム10と、スキャナー20と、情報処理サーバ30を備える。文字認識システム10は、例えば、ネットワークを介して、スキャナー20と接続する。また、文字認識システム10は、ネットワークを介して、情報処理サーバ30と接続する。スキャナー20および情報処理サーバ30は、複数であってもよい。スキャナー20および情報処理サーバ30の数は、特に限定されない。
文字認識システム10は、例えば、スキャナー20が帳票を読み取った画像を取得する。帳票の用紙には、文字を記載するプレプリントが印刷されている。プレプリントは、例えば、帳票上において、文字を記載する位置を示す枠または線である。文字認識システム10は、例えば、プレプリント上に記載された手書きで文字が書かれた画像を取得する。プレプリント上に記載された文字は、印刷によるものであってもよい。プレプリント上に記載された文字は、上記の例に限られない。
文字認識システム10は、認識モデルを用いて、スキャナー20から取得したプレプリント上に記載された文字を写した画像と、プレプリントを写したプレプリント画像とから、プレプリント上に記載された文字を認識する。認識モデルは、プレプリント上に記載された文字を写した画像と、プレプリント画像から、プレプリント上に記載された文字を認識する学習モデルである。文字認識システム10は、例えば、情報処理サーバ30に、プレプリント上に記載された文字の認識結果を出力する。情報処理サーバ30は、プレプリント上に記載された文字の認識結果の用途に応じた処理を行うサーバである。
文字認識システム10は、認識対象となるプレプリント上に記載された文字が写った画像に加え、プレプリント画像をさらに用いて、プレプリント上に記載された文字を認識することで、文字の認識にプレプリントが与える影響を抑制することができる。
図2は、帳票の例を示す図である。図2の帳票の例では、上部に帳票の名称が「払込票」として記載されている。図2の帳票の例は、例えば、金融機関の口座に入金する際に金融機関に提出する書類である。図2の帳票の例では、「口座番号」と、「金額」の記入欄が設定されている。図2の帳票の例では、「口座番号」と、「金額」の記入欄における数字を記入する枠がプレプリントである。
プレプリント上に記載された文字は、例えば、プレプリントの枠内に記載された文字である。プレプリント上に記載された文字は、プレプリントの枠内と重なるように記載されていてもよい。プレプリント上に文字が記載された画像は、プレプリントとプレプリント上に記載された文字の両方が含まれる画像である。また、プレプリント画像は、文字が書かれていないプレプリントのみを写した画像である。図2の帳票の例では、プレプリント上に数字が記載されているが、プレプリント上に記載される文字は、数字に限られない。また、プレプリント上に記載される文字は、記号を含んでいてもよい。
図3は、プレプリント上に記載された文字を写した画像の例を示す図である。図3は、図2の帳票の例において、「口座番号」の記入欄を抽出した画像である。また、図4は、図2の帳票の例における、「口座番号」の記入欄のプレプリント画像である。図3のプレプリント上に記載された文字を写した画像の例では、図4に示すプレプリント上に、手書きで「01778543」の文字が記載されている。
プレプリントのみの画像は、プレプリントとしての文字が含まれていてもよい。プレプリントとしての文字は、例えば、金額の桁を示す文字、項目を示す文字または単位を示す文字である。プレプリントとしての文字は、プレプリントとして用紙に印刷されているものであれば、上記に限られない。
図5は、プレプリント上に記載された文字を写した画像の例を示す図である。図5は、図2の帳票の例において、「金額」の記入欄を抽出した画像である。また、図6は、図2の帳票の例における。「金額」の記入欄のプレプリント画像である。図6のプレプリント画像の例では、右側の枠内の下部に金額の単位を示す「円」がプレプリントの一部として印刷されている。図5のプレプリント上に記載された文字を写した画像の例では、図6に示すプレプリント上に、手書きで「40000」の文字が記載されている。
帳票は、例えば、金融機関、官公庁、教育機関、病院、交通機関または企業において、手続きに用いる書類である。また、帳票は、管理対象の物品に張り付けられた書類であってもよい。帳票の例は、上記に限られない。プレプリントは、例えば、帳票上において、日付、氏名、所属、住所、電話番号、メールアドレス、年齢、性別、職業または金額を記入する位置を示す。プレプリントは、例えば、記入する項目と、文字を記入する枠によって構成される。1つの項目において複数の文字が記入される場合において、プレプリントは、複数の枠が連なったものであってもよい。また、1つの帳票に複数の項目についてのプレプリントが印刷されていてもよい。文字認識システム10は、例えば、プレプリントが複数の枠が連なった記入欄として用紙に印刷されている場合に、認識した文字を枠の順番に従った文字列のデータとして出力する。
文字認識システム10の構成について説明する。図7は、文字認識システム10の構成の例を示す図である。文字認識システム10は、取得部11と、認識部13と、出力部14とを基本構成として備える。また、文字認識システム10は、さらに、画像抽出部12と、生成部15と、記憶部16を備える。取得部11と、画像抽出部12と、認識部13と、出力部14と、記憶部16は、例えば、プレプリント上に記載された文字を写した画像から、プレプリント上に記載された文字を認識する。また、取得部11と、生成部15と、記憶部16は、例えば、認識モデルを生成する。
取得部11は、プレプリント上に記載された文字を写した画像を取得する。取得部11は、例えば、スキャナー20から、プレプリント上に文字が記載された帳票を写した画像を取得する。取得部11は、プレプリント上に文字の記載された部分が帳票から抽出済みの画像を取得してもよい。プレプリント上に文字の記載された部分の画像は、例えば、図3および図5の例に示す画像である。プレプリント画像を帳票から抽出する場合に、取得部11は、プレプリント上に文字が記載されていない状態の帳票の画像を取得してもよい。取得部11は、例えば、スキャナー20から、プレプリント上に文字が記載されていない状態の帳票の画像を取得する。
文字認識システム10が認識モデルを生成する場合に、取得部11は、認識モデルの生成に用いる学習データを取得してもよい。生成部15は、例えば、プレプリント上に記載された文字を写した画像、およびプレプリント画像と、プレプリント上に記載されている文字とを関連付けたデータを学習データとして取得する。学習データは、例えば、作業者の操作によって文字認識システム10、または文字認識システム10と接続している他の端末装置に入力される。
画像抽出部12は、取得部11が取得する、プレプリント上に記載された文字を写した画像に対応するプレプリント画像を抽出する。画像抽出部12は、例えば、記憶部16に保存された帳票データから、プレプリント画像を抽出する。帳票データには、例えば、帳票の画像と、定義データが含まれる。定義データは、例えば、帳票に記載される項目と、記載される項目に対応するプレプリントの帳票上における位置の情報が含まれる。プレプリントの位置の情報、例えば、帳票上において、プレプリントが印刷されている範囲を示す情報である。まtが、記載される項目は、例えば、名前、郵便番号、住所、電話番号、年齢、個人識別番号、口座番号、金額、および日付のうち1つ以上である。記載される項目は、上記の例に限られない。
画像抽出部12は、例えば、定義データに含まれるプレプリントの位置の情報を基に、帳票上におけるプレプリントの位置を特定する。そして、画像抽出部12は、記憶部16に保存された画像から、特定したプレプリントの位置の画像を切り出すことでプレプリント画像を抽出する。画像抽出部12は、取得部11が取得する、プレプリント上に文字が記載されていない状態の帳票の画像から、プレプリント画像を抽出してもよい。
認識部13は、認識モデルを用いて、取得部11が取得したプレプリント上に記載された文字を写した画像と、プレプリント画像から、画像中の文字を認識する。認識モデルは、プレプリント上に記載された文字を写した画像と、プレプリント画像からプレプリント上に記載された文字を認識する学習モデルである。認識部13は、例えば、取得部11が取得した、プレプリント上に記載された文字を写した画像と、プレプリント画像とを認識モデルに入力する。そして、認識部13は、認識モデルを用いて、プレプリント上に記載された文字を認識する。認識部13は、あらかじめ抽出されているプレプリント画像を用いて、プレプリント上に記載された文字を認識してもよい。また、認識部13は、あらかじめプレプリント部分の画像として生成されたプレプリント画像を用いて、プレプリント上に記載された文字を認識してもよい。認識部13は、例えば、記憶部16に保存されているプレプリント画像を用いて、プレプリント上に記載された文字を認識する。
認識部13は、例えば、定義データに含まれるプレプリントの位置の情報を基に、プレプリントの位置を特定することによって、プレプリント上に記載された文字が写った画像を抽出する。そして、認識部13は、認識モデルを用いて、抽出したプレプリント上に記載された文字が写った画像と、画像抽出部12が抽出したプレプリント画像から、プレプリント上に記載された文字を認識する。
認識部13は、例えば、認識モデルに、プレプリント上に記載された文字を写した画像と、プレプリント画像とを1つのデータに結合しデータを入力する。プレプリント上に記載された文字を写した画像と、プレプリント画像を結合するとは、2つの画像を重ね合わせた画像データを生成することをいう。プレプリント上に文字が記載された画像と、プレプリント画像がそれぞれ、1画素あたりRGBの3チャンネルの画像である場合に、認識部13は、例えば、2つの画像のデータを結合して、1画素あたり6チャンネルの画像データとする。そして、認識部13は、認識モデルに、結合した6チャンネルの画像データを入力する。
認識部13は、例えば、プレプリント上に記載された文字が写った画像と、プレプリント画像をあらかじめ設定された条件に基づいて結合する。認識部13は、例えば、同一のサイズで抽出されたプレプリント上に記載された文字が写った画像と、プレプリント画像の外周部を基準に、プレプリント上に文字に記載された文字が写った画像と、プレプリント画像を重ね合わせることで2つの画像を結合する。認識部13は、例えば、2つの画像を重ね合わせた際に、対応する画素どうしの画像データを結合する。そして、認識部13は、結合したデータを認識モデルに入力し、プレプリント上に記載された文字を認識する。
認識部13は、帳票を写した画像において、プレプリント上に記載された文字以外の文字の認識を行ってもよい。認識部13は、例えば、取得部11が取得した帳票の画像から、帳票の種類を特定してもよい。そして、認識部13は、特定した帳票の種類に対応する帳票データに含まれる定義データを基に、プレプリントの位置を特定することによって、プレプリント上に記載された文字を認識する。認識部13は、例えば、帳票の画像において、帳票に印刷されている帳票の名称または帳票番号を認識することによって、帳票の種類を特定する。帳票に印刷されている帳票の名称または帳票番号と、帳票の種類の関係は、あらかじめ設定されている。また、認識部13が用いる認識モデルは、文字認識システム10の外部で生成された学習モデルであってもよい。
図8は、プレプリント上に記載された文字を写した画像の例を示す図である。図8は、図3の画像の例とプレプリントの態様が異なる。図8の画像の例のプレプリントは、例えば、図3の画像の例とプレプリントと線の太さおよび種類が異なる。図9は、図8の画像の例におけるプレプリント画像である。図8のプレプリント上に記載された文字を写した画像の例では、図9に示すプレプリント上に、手書きで「13758047」の文字が記載されている。認識モデルは、図8の画像の例と、図9の画像の例とを入力とした場合に、「13758047」を認識結果として出力する。認識モデルは、例えば、図4の画像の例のプレプリントを学習データとして用いて生成された学習モデルであっても、図9の画像の例のプレプリント上に記載された文字を認識することができる。すなわち、プレプリント上に記載された文字が写った画像と、プレプリント画像を入力とすることで、認識モデルは、学習を行っていないプレプリント上に記載された文字を認識することができる。
図10は、プレプリント上に、西暦表記における年を記載した文字を写した画像の例を示す図である。図10の画像の例では、プレプリントとして、「西暦」と、「年」の文字がプレプリントの枠内にあらかじめ印刷されている。図10の画像の例では、プレプリント画像上に、手書きで「2022」の文字が記載されている。また、図11は、図10の画像の例におけるプレプリント画像である。認識モデルは、図10の画像の例と、図11の画像の例とを入力とした場合に、「2022」を認識結果として出力する。
図12は、図10の画像の例において、西暦表記での年を示す上位の2桁の「20」がプレプリントとしてあらかじめ印刷されている画像の例を示す。すなわち、図12の画像の例では、プレプリントとして「西暦」、「20」および「年」があらかじめ印刷されている。図12の画像の例では、プレプリント上に、「2022」のうち、「22」が手書きで記載されている。また、図13は、図12の画像の例におけるプレプリント画像である。認識モデルは、図12の画像の例と、図13の画像の例とを入力とした場合に、「22」を認識結果として出力する。認識モデルは、例えば、図11および図13の画像の例のプレプリントを学習データとして用いていない学習モデルであっても、入力された画像から、プレプリント上に記載された画像を認識することができる。このように、認識モデルは、プレプリント上に記載された文字が写った画像と、プレプリント画像を入力とすることで、様々な態様のプレプリント上に記載された文字を認識することができる。また、上記の例では、線の太さ、線の種類およびあらかじめ印刷された文字が異なるプレプリントの例を示したが、認識モデルは、枠の形状および色が異なるプレプリントの場合においても、すべての態様のプレプリントを学習データとして用いて学習していなくても同様に認識を行うことができる。
出力部14は、認識部13による認識結果を出力する。出力部14は、例えば、情報処理サーバ30に、認識部13が認識した文字を出力する。出力部14は、例えば、プレプリントに対応する項目と、認識した文字を関連付けて出力する。認識の対象が図3の画像の例に示すような口座番号の場合に、出力部14は、例えば、口座番号であることを示す情報と、認識した文字列を関連付けて出力する。出力部14は、文字認識システム10に接続されている図示しない表示装置に、認識結果を出力してもよい。
文字認識システム10において認識モデルを生成する場合に、生成部15は、認識モデルの生成に関する処理を行う。生成部15は、プレプリント上に記載された文字を写した画像、およびプレプリント画像と、プレプリント上に記載されている文字との関係を学習する。そして、生成部15は、プレプリント上に記載された文字が写った画像と、プレプリント画像とから、画像中の文字を認識する認識モデルを生成する。
生成部15は、例えば、プレプリント上に記載された文字が写った画像と、プレプリント画像を結合したデータと、プレプリント上に記載されている文字との関係を学習することで認識モデルを生成する。プレプリント上に記載された文字が写った画像と、プレプリント画像がそれぞれ、1画素あたりRGBの3チャンネルの画像である場合に、生成部15は、2つの画像のデータを結合して、1画素あたり6チャンネルの画像データとする。そして、生成部15は、結合した6チャンネルの画像データと、プレプリント上に記載されている文字との関係を学習することで認識モデルを生成する。
生成部15が学習データとして用いる、プレプリント上に記載された文字が写った画像と、プレプリント画像に含まれるプレプリントは、実際に用いるプレプリントの画像でなくてもよい。認識モデルを生成する際に、生成部15は、ランダムな形状の図形をプレプリントとして用いて、学習を行ってもよい。ランダムな形状の図形をプレプリントとして用いる場合に、生成部15は、例えば、ランダムな形状の図形の上に書かれた文字が写った画像と、上に文字が書かれた図形と同一の図形の画像とを学習データとして用いて認識モデルを生成する。
生成部15は、例えば、DNN(Deep Neural Network)を用いたディープラーニングによって認識モデルを生成する。認識モデルを生成する機械学習アルゴリズムは、DNNを用いたディープラーニングに限られない。
記憶部16は、例えば、認識部13が画像中の文字の認識に用いる認識モデルを保存する。記憶部16は、例えば、プレプリント画像を保存する。記憶部16は、例えば、帳票データを保存する。帳票データは、例えば、帳票の画像データと、定義データを含む。帳票データには、あらかじめ抽出されたプレプリント画像が含まれていてもよい。記憶部16は、例えば、学習データとして、プレプリント上に文字が記載された画像と、プレプリント画像と、プレプリント上に記載されている文字とを保存する。なお、認識部13が用いる認識モデルは、記憶部16以外の記憶手段に保存されていてもよい。
スキャナー20は、例えば、帳票を光学的に読み取り、帳票の画像を生成する。そして、スキャナー20は、文字認識システム10に、帳票の画像を出力する。スキャナー20は、帳票の画像のうち、プレプリント部分の画像を抽出してもよい。プレプリント部分の画像を抽出する場合に、スキャナー20は、文字認識システム10に、抽出したプレプリント画像を出力する。また、帳票が管理対象の物品に張り付けられた書類である場合に、スキャナー20は、帳票を撮影することで、帳票の画像を生成してもよい。
情報処理サーバ30は、例えば、文字認識システム10から、帳票に記載された文字の認識結果を取得する。情報処理サーバ30は、認識結果を用いて、用途に応じた処理を行う。情報処理サーバ30は、例えば、認識結果を、金融機関における口座の管理に関する申請および入出金に関する処理に用いる。情報処理サーバ30は、例えば、認識結果を、官公庁、教育機関、病院、または交通機関における申請書類の処理に用いてもよい。情報処理サーバ30は、認識結果を、企業における伝票処理に用いてもよい。また、情報処理サーバ30は、識別結果を、流通における物品の管理に用いてもよい。識別結果の用の例は、上記に限られない。
文字認識システム10が、プレプリント上に記載された文字を認識する際の動作について説明する。図14は、文字認識システム10が、プレプリント上に記載された文字を認識する際の動作フローの例を示す図である。
取得部11は、プレプリント上に記載された文字が写った画像を取得する(ステップS11)。取得部11は、例えば、スキャナー20から、プレプリント上に記載された文字が写った帳票の画像を取得する。
また、画像抽出部12は、取得部11が取得した画像に対応するプレプリント画像を抽出する(ステップS12)。画像抽出部12は、例えば、記憶部16に保存されたデータから、取得部11が取得した画像に対応するプレプリント画像を抽出する。
プレプリント画像が抽出されると、認識部13は、認識モデルを用いて、取得部11が取得した画像と、プレプリント画像とから、画像中の文字を認識する(ステップS13)。認識モデルは、プレプリント上に記載された文字が写った画像と、プレプリント画像とから、プレプリント上に記載された文字を認識する。
画像中の文字が認識されると、出力部14は、認識結果を出力する(ステップS14)。出力部14は、例えば、情報処理サーバ30に、認識結果を出力する。
文字認識システム10が、認識モデルを生成する際の動作について説明する。図15は、文字認識システム10が、認識モデルを生成する際の動作フローの例を示す図である。
取得部11は、学習データとして、プレプリント上に記載された文字が写った画像と、プレプリント画像と、プレプリント上に記載された文字とを取得する(ステップS21)。
学習データを取得すると、生成部15は、プレプリント上に記載された文字が写った画像、およびプレプリント画像と、プレプリント上に記載された文字の関係を学習し、認識モデルを生成する(ステップS22)。生成部15は、例えば、プレプリント上に記載された文字が写った画像と、プレプリント画像とを結合する。そして、生成部15は、結合したデータと、学習データに正解データとして含まれる、プレプリント上に記載された文字の関係を学習し、認識モデルを生成する。
認識モデルを生成すると、生成部15は、生成した認識モデルを保存する(ステップS23)。生成部15は、例えば、記憶部16に、生成した認識モデルを保存する。
本実施形態の帳票処理システムの文字認識システム10は、認識モデルを用いて、プレプリント上に記載された文字が写った画像と、プレプリント画像から、プレプリント上に記載された文字を認識する。文字認識システム10は、認識対象となるプレプリント上に記載された文字が写った記載された画像に加え、プレプリント画像をさらに用いてプレプリント上に記載された文字を認識することで、文字の認識にプレプリントが与える影響を抑制することができる。その結果、文字認識システム10は、プレプリント上に記載された文字の認識の精度を向上させることができる。
また、文字認識システム10が用いる認識モデルは、プレプリント上に記載された文字が写った画像と、プレプリント画像とを入力として、プレプリント上に記載された文字の認識を行うことで、学習を行っていない態様のプレプリント上に記載された文字を認識することができる。よって、プレプリント上に記載された文字が写った画像と、プレプリント画像とを入力として、プレプリント上に記載された文字の認識を行うことで、文字認識システム10は、様々な態様のプレプリント上に記載された文字を認識することができる。また、文字認識システム10では、認識モデルを生成する際に、実際に認識に用いられるプレプリントの態様ごとに学習データを用意することが不要となる。また、文字認識システム10では、認識モデルを生成する際に、実際に認識に用いられるプレプリントの態様ごとに学習データを学習する必要がないため、認識モデルの生成する際の学習量を抑制することができる。このため、文字認識システム10では、認識モデルの生成に必要なコンピュータのリソースを抑制することができる。よって、文字認識システム10は、認識モデルを効率的に生成することができる。
また、認識モデルを生成する際に、プレプリントとしてランダムな形状の図形を用いることで、文字認識システム10は、様々なプレプリント画像上に記載された文字を認識可能な認識モデルを生成することができる。すなわち、プレプリントとしてランダムな形状の図形を用いて生成した認識モデルを用いることで、文字認識システム10は、帳票ごとにプレプリント画像の形状が異なっている場合でも、プレプリント上に記載された文字を正確に認識することができる。
また、本実施形態と異なる文字認識手法として、例えば、プレプリント上に記載された文字が写った画像から、プレプリントを消去してから文字認識を行う手法を用いた場合には、プレプリントを消去するために、コンピュータのリソースを多く必要とし得る。また、プレプリントを消去する際に、文字の一部が消える恐れがある。一方で、本実施形態の文字認識システム10は、プレプリント上に記載された文字が写った画像と、プレプリント画像を結合したデータとを認識モデルに入力して文字を認識することで、文字を認識する前処理としてプレプリントの消去の処理を必要としない。また、プレプリントの消去の処理を行わないため、プレプリントの消去に関する処理が文字認識に与える影響を抑制することができる。このため、本実施形態の文字認識システム10は、プレプリント上に記載された文字の認識のために必要なリソースを抑制しつつ、認識の精度を向上することができる。
(第2の実施形態)
本発明の第2の実施形態について図を参照して詳細に説明する。図16は、本実施形態の帳票処理システムの構成の例を示す図である。帳票処理システムは、一例として、文字認識システム40と、スキャナー20と、情報処理サーバ30を備える。文字認識システム40は、例えば、ネットワークを介して、スキャナー20と接続する。また、文字認識システム40は、ネットワークを介して、情報処理サーバ30と接続する。スキャナー20および情報処理サーバ30は、複数であってもよい。スキャナー20および情報処理サーバ30の数は、特に限定されない。また、本実施形態のスキャナー20と、情報処理サーバ30の機能は、第1の実施形態のスキャナー20と、情報処理サーバ30と同様である。
第1の実施形態の文字認識システム10は、例えば、認識モデルを用いて、プレプリント上に文字が記載された画像と、プレプリント画像とを結合したデータを入力とし、プレプリント上の文字を認識する。そして、文字認識システム10は、認識結果を出力する。このような構成に加え、本実施形態の文字認識システム40は、例えば、プレプリント上に文字が記載された画像と、プレプリント画像とを結合する際に、2つの画像の重ね合わせの精度を向上させるため、変換モデルを用いてプレプリント画像に変換処理を行った後に結合する。変換モデルは、プレプリント画像に変換処理を行う際に用いる変換パラメータを推定する学習モデルである。
文字認識システム40の構成について説明する。図17は、文字認識システム40の構成の例を示す図である。文字認識システム40は、取得部11と、画像抽出部12と、認識部41と、出力部14と、生成部42と、記憶部16を備える。また、認識部41は、変換部51と、画像認識部52を備える。文字認識システム40の取得部11、画像抽出部12、出力部14および記憶部16の構成と機能は、第1の実施形態の文字認識システム10の取得部11、画像抽出部12、出力部14および記憶部16とそれぞれ同様である。
認識部41の変換部51は、例えば、変換モデルを用いて、プレプリント画像を変換する。変換モデルは、例えば、プレプリント画像にアフィン変換を行う。認識部41は、例えば、プレプリント画像について、回転、大きさの調整および平行移動を行うことで、結合先の画像と重なり合うようにプレプリント画像を変換する。変換モデルは、例えば、プレプリント画像について、回転、大きさの調整および平行移動を行う際に用いる変換パラメータを推定する。
変換部51は、例えば、変換モデルを用いて、プレプリント上に記載された文字が写った画像と、プレプリント画像とをあらかじめ設定された条件によって結合したデータから、アフィン変換パラメータを推定する。そして、変換部51は、推定したパラメータを用いて、プレプリント画像をアフィン変換する。変換部51は、例えば、あらかじめ設定された条件として、プレプリント上に記載された文字が写った画像と、プレプリント画像のそれぞれの外周部を合わせることで2つの画像が重なるようにして結合する。そして、変換部51は、変換モデルを用いて、あらかじめ設定された条件で結合されたデータから変換パラメータを推定する。変換パラメータは、あらかじめ設定された条件で結合した場合よりも、重ね合わせの精度が向上するようにプレプリント画像を変換するためのパラメータである。変換パラメータを推定すると、変換部51は、プレプリント画像に対して変換パラメータを用いてアフィン変換を行うことで、重ね合わせの精度がより高くなるようにする。
変換モデルは、例えば、STN(Spatial Transformer Networks)と呼ばれるDNNを用いる学習モデルである。STNを用いる画像の変換方法は、例えば、Max Jaderberg et al. "Spatial Transformer Networks", NIPS'15: Proceedings of the 28th International Conference on Neural Information Processing Systems, Volume 2, December 2015, p. 2017-2025に記載されている。
認識部41の画像認識部52は、認識モデルを用いて、プレプリント上に記載された文字が写った画像と、プレプリント画像とから、プレプリント上に記載された文字を認識する。画像認識部52は、プレプリント上に記載された文字が写った画像と、変換部51がアフィン変換を行ったプレプリント画像とを結合する。そして、画像認識部52は、識別モデルを用いて、結合したデータからプレプリント上に記載された文字を認識する。変換モデルおよび認識モデルは、文字認識システム40の外部で生成された学習モデルであってもよい。
図18は、認識部41においてプレプリント上に記載された文字を認識する際の処理のフローを模式的に示す図である。図18の例において、プレプリント上に記載された文字が写った画像と、プレプリント画像が認識部41に入力されたとする。変換部51は、例えば、プレプリント上に記載された文字が写った画像と、プレプリント画像とを、例えば、あらかじめ設定された条件によって結合する。あらかじめ設定された条件は、例えば、2つの画像の外周部を合わせるように設定される。画像を結合すると、変換部51は、変換モデルを用いて、アフィン変換パラメータを推定する。そして、変換部51は、推定したアフィン変換パラメータを用いて、プレプリント画像にアフィン変換を行う。変換部51は、アフィン変換を行ったプレプリント画像を画像認識部52に出力する。アフィン変換を行ったプレプリント画像が入力されると、画像認識部52は、プレプリント上に文字が記載された画像と、アフィン変換された画像とを結合する。画像を結合すると、画像認識部52は、認識モデルを用いて、結合されたデータからプレプリント上に記載された文字を認識する。
文字認識システム40は、例えば、変換モデルと、認識モデルのうち、認識モデルのみを生成する。認識モデルのみを生成する場合には、変換モデルには、例えば、文字認識システム40の外部で生成された学習モデルが用いられる。変換モデルと、認識モデルのうち、認識モデルのみを生成する場合に、生成部42は、例えば、学習データに含まれる、プレプリント上に記載された文字が写った画像と、プレプリント画像とを、変換モデルを用いて結合する。そして、生成部42は、結合したデータと、学習データに正解データとして含まれる、プレプリント上に記載された文字の関係を学習し、認識モデルを生成する。生成部42は、記憶部16に、生成した変換モデルと、認識モデルを保存する。
文字認識システム40が変換モデルと、認識モデルの両方を生成してもよい。変換モデルと、認識モデルの両方を生成する場合に、生成部42は、変換モデルを用いて、プレプリント上に記載された文字が写った画像とプレプリント画像とをあらかじめ設定された条件によって結合したデータから変換パラメータを推定する。また、生成部42は、認識モデルを用いて、結合したデータからプレプリント上に記載された文字を認識する。生成部42は、変換モデルが推定するアフィン変換パラメータと、学習データに含まれるアフィン変換パラメータの差が小さくなるように変換モデルのパラメータを更新する。また、生成部42は、識別結果と、正解データの差が小さくなるよう認識モデルのパラメータを更新する。
変換モデルの変換パラメータと、認識モデルのパラメータを更新すると、生成部42は、更新したモデルを用いて上記の処理を繰り返す。生成部42は、例えば、変換モデルの変換パラメータの推定結果と、認識モデルの認識結果の精度があらかじめ設定された基準を満たすまで上記の処理を繰り返すことで変換モデルと、認識モデルを生成する。また、生成部42は、例えば、識別結果と、正解データの差が小さくなるよう認識モデルのパラメータを更新することで識別モデルを生成する。生成部42は、例えば、記憶部16に、生成した変換モデルと、認識モデルを保存する。
文字認識システム40が、プレプリント上に記載された文字を認識する際の動作について説明する。図19は、文字認識システム40が、プレプリント上に記載された文字を認識する際の動作フローの例を示す図である。
取得部11は、プレプリント上に記載された文字が写った画像を取得する(ステップS31)。取得部11は、例えば、スキャナー20から、プレプリント上に記載された文字が写った帳票の画像を取得する。
また、画像抽出部12は、取得部11が取得した画像に対応するプレプリント画像を抽出する(ステップS32)。画像抽出部12は、例えば、記憶部16に保存されたデータから、取得部11が取得した画像に対応するプレプリント画像を抽出する。
プレプリント画像が取得されると、認識部41の変換部51は、変換モデルを用いて、プレプリント画像を変換する際に用いる変換パラメータを推定する。そして、変換部51は、推定した変換パラメータを用いて、プレプリント画像を変換する(ステップS33)。プレプリント画像が変換されると、画像認識部52は、プレプリント上に文字が記載された画像と、変換されたプレプリント画像を結合する。そして、画像認識部52は、認識モデルを用いて、結合したデータから画像中の文字を認識する(ステップS34)。
画像中の文字が認識されると、出力部14は、認識の結果を出力する(ステップS35)。出力部14は、例えば、情報処理サーバ30に、認識の結果を出力する。
文字認識システム40が、変換モデルと、認識モデルのうち、認識モデルのみを生成する際の動作について説明する。図20は、文字認識システム40が、認識モデルのみを生成する際の動作フローの例を示す図である。
取得部11は、学習データとして、プレプリント上に記載された文字が写った画像と、プレプリント画像と、プレプリント上に記載された文字を取得する(ステップS41)。
学習データが取得されると、生成部42は、変換モデルを用いて、プレプリント画像を変換する際に用いる変換パラメータを推定する。そして、生成部42は、推定した変換パラメータを用いて、変換モデルを用いて、プレプリント画像を変換する(ステップS42)。
プレプリント画像を変換すると、生成部42は、プレプリント上に記載された文字が写った画像と、変換したプレプリント画像を結合する。そして、生成部42は、結合したデータと、プレプリント上に記載された文字の関係を学習し、認識モデルを生成する(ステップS43)。
認識モデルを生成すると、生成部42は、生成した認識モデルを保存する(ステップS44)。生成部42は、例えば、記憶部16に、生成した認識モデルを保存する。
文字認識システム40が、変換モデルと、認識モデルを生成する際の動作について説明する。図21は、文字認識システム40が、変換モデルと、認識モデルを生成する際の動作フローの例を示す図である。
取得部11は、学習データとして、プレプリント上に記載された文字が写った画像とプレプリント画像とを結合したデータと、変換パラメータと、プレプリント上に記載された文字を取得する(ステップS51)。
学習データが取得されると、生成部42は、学習モデルに含まれる、プレプリント上に記載された文字が写った画像とプレプリント画像とを結合したデータと、学習モデルに含まれるパラメータとの関係を学習することによって、変換モデルを生成する。また、生成部42は、プレプリント上に記載された文字が写った画像とプレプリント画像を結合したデータと、プレプリント上に記載された文字の関係を学習することによって認識モデルを生成する(ステップS52)。
変換モデルと、認識モデルを生成すると、生成部42は、生成した変換モデルと、認識モデルを保存する(ステップS53)。生成部42は、例えば、記憶部16に、生成した変換モデルと、認識モデルを保存する。
本実施形態の文字認識システム40は、変換モデルを用いて、プレプリント上に記載された文字が写った画像と、プレプリント画像とを結合する。そして、文字認識システム40は、認識モデルを用いて、結合したデータから、プレプリント上に記載された文字を認識する。変換モデルを用いて変換したプレプリント画像を用いることで、文字認識システム40は、プレプリント上に記載された文字が写った画像と、プレプリント画像とを結合する際の、重ね合わせの精度を向上することができる。このように結合したデータを用いることで、文字認識システム40は、プレプリント上に記載された文字が写った画像と、プレプリント画像とのずれの変動が抑制された状態で、認識モデルによって、プレプリント上の文字を認識することができる。2つの画像のずれの変動が抑制された状態で、認識モデルによってプレプリント上に記載された文字を認識することで、文字認識システム40は、プレプリント上に記載された文字の認識精度を向上することができる。
また、学習データを用いて変換モデルを生成する場合には、文字認識システム40は、実際の使用状況において生じ得る、プレプリント上に記載された文字を写した画像と、プレプリント画像との重ね合わせのずれを抑制する変換モデルを生成することができる。よって、文字認識システム40は、実際の使用状況に応じて、プレプリント上に文字が記載された画像と、プレプリント画像とのずれの変動を抑制することができる。このため、学習データを用いて変換モデルを生成する場合には、文字認識システム40は、プレプリント上に記載された文字の認識精度をより向上することができる。
第1の実施形態の文字認識システム10および第2の実施形態の文字認識システム40における各処理は、コンピュータプログラムをコンピュータで実行することによって実現することができる。図22は、第1の実施形態の文字認識システム10および第2の実施形態の文字認識システム40における各処理を行うコンピュータプログラムを実行するコンピュータ200の構成の例を示したものである。コンピュータ200は、CPU(Central Processing Unit)201と、メモリ202と、記憶装置203と、入出力I/F(Interface)204と、通信I/F205を備える。
CPU201は、記憶装置203から各処理を行うコンピュータプログラムを読み出して実行する。CPU201は、複数のCPUの組み合わせによって構成されていてもよい。また、CPU201は、CPUと他の種類のプロセッサの組み合わせによって構成されていてもよい。例えば、CPU201は、CPUとGPU(Graphics Processing Unit)の組み合わせによって構成されていてもよい。メモリ202は、DRAM(Dynamic Random Access Memory)等によって構成され、CPU201が実行するコンピュータプログラムや処理中のデータが一時記憶される。記憶装置203は、CPU201が実行するコンピュータプログラムを記憶している。記憶装置203は、例えば、不揮発性の半導体記憶装置によって構成されている。記憶装置203には、ハードディスクドライブ等の他の記憶装置が用いられてもよい。入出力I/F204は、作業者からの入力の受付および表示データ等の出力を行うインタフェースである。通信I/F205は、スキャナー20および情報処理サーバ30との間でデータの送受信を行うインタフェースである。また、情報処理サーバ30も同様の構成としてもよい。
各処理の実行に用いられるコンピュータプログラムは、データを非一時的に記録するコンピュータ読み取り可能な記録媒体に格納して頒布することもできる。記録媒体としては、例えば、データ記録用磁気テープや、ハードディスクなどの磁気ディスクを用いることができる。また、記録媒体としては、CD-ROM(Compact Disc Read Only Memory)等の光ディスクを用いることもできる。不揮発性の半導体記憶装置を記録媒体として用いてもよい。
以上、上述した実施形態を例として本発明を説明した。しかしながら、本発明は、上述した実施形態には限定されない。即ち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。
10 文字認識システム
11 取得部
12 画像抽出部
13 認識部
14 出力部
15 生成部
16 記憶部
20 スキャナー
30 情報処理サーバ
40 文字認識システム
41 認識部
42 生成部
51 変換部
52 画像認識部
100 コンピュータ
101 CPU
102 メモリ
103 記憶装置
104 入出力I/F
105 通信I/F

Claims (9)

  1. プレプリントを含む帳票のプレプリント上に記載された文字を写した画像を取得する取得手段と、
    プレプリント上に記載された文字を写した画像の画素データおよびプレプリントを写したプレプリント画像の画素データを画素ごとに結合したデータから前記プレプリント上に記載された文字を認識する認識モデルを用いて、取得した前記画像の画素データおよび前記プレプリント画像の画素データを画素ごとに結合したデータから、取得した前記画像のプレプリント上に記載された文字を認識する認識手段と、
    前記認識の結果を出力する出力手段と
    を備える文字認識システム。
  2. 変換パラメータを用いて、前記プレプリント画像を変換する変換手段をさらに備え、
    前記認識手段は、取得した前記画像の画素データおよび変換された前記プレプリント画像の画素データを画素ごとに結合したデータから、取得した前記画像のプレプリント上に記載された文字を認識する、
    請求項に記載の文字認識システム。
  3. 前記変換手段は、前記画像の画素データおよび変換された前記プレプリント画像の画素データを画素ごとに結合したデータから変換パラメータを推定する変換モデルを用いて、前記プレプリント画像を変換する、
    請求項に記載の文字認識システム。
  4. 前記認識手段は、前記画像から前記プレプリント上に記載された文字を認識する対象の帳票の種類を特定し、特定した帳票の種類に対応する定義データを基に、プレプリント上に記載された文字を認識する、
    請求項1からいずれかに記載の文字認識システム。
  5. 前記認識手段は、帳票上におけるプレプリントの位置が定義された定義データを基に、プレプリント上に記載された文字を認識する、
    請求項1からいずれかに記載の文字認識システム。
  6. プレプリント上に記載された文字を写した画像の画素データおよび前記プレプリント画像の画素データを画素ごとに結合したデータと、プレプリント上に記載されている文字との関係を学習し、プレプリント上に記載された文字を写した画像の画素データおよび前記プレプリント画像の画素データを画素ごとに結合したデータから、前記画像のプレプリント上に記載された文字を認識する認識モデルを生成する生成手段をさらに備える、
    請求項1から5いずれかに記載の文字認識システム。
  7. 前記生成手段は、プレプリント上に記載された文字を写した画像の画素データおよび前記プレプリント画像の画素データを画素ごとに結合したデータと、変換パラメータとの関係を学習し、前記プレプリント画像の変換に用いる変換パラメータを推定する変換モデルを生成する、
    請求項に記載の文字認識システム。
  8. プレプリントを含む帳票のプレプリント上に記載された文字を写した画像を取得し、
    プレプリント上に記載された文字を写した画像の画素データおよびプレプリントを写したプレプリント画像の画素データを画素ごとに結合したデータから前記プレプリント上に記載された文字を認識する認識モデルを用いて、取得した前記画像の画素データおよび前記プレプリント画像の画素データを画素ごとに結合したデータから、取得した前記画像のプレプリント上に記載された文字を認識し、
    前記認識の結果を出力する、
    文字認識方法。
  9. プレプリントを含む帳票のプレプリント上に記載された文字を写した画像を取得する処理と、
    プレプリント上に記載された文字を写した画像の画素データおよびプレプリントを写したプレプリント画像の画素データを画素ごとに結合したデータから前記プレプリント上に記載された文字を認識する認識モデルを用いて、取得した前記画像の画素データおよび前記プレプリント画像の画素データを画素ごとに結合したデータから、取得した前記画像のプレプリント上に記載された文字を認識する処理と、
    前記認識の結果を出力する処理と
    をコンピュータに実行させる文字認識プログラム。
JP2024508871A 2022-03-23 2022-03-23 文字認識システム、文字認識方法および文字認識プログラム Active JP7761130B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/013389 WO2023181149A1 (ja) 2022-03-23 2022-03-23 文字認識システム、文字認識方法および記録媒体

Publications (3)

Publication Number Publication Date
JPWO2023181149A1 JPWO2023181149A1 (ja) 2023-09-28
JPWO2023181149A5 JPWO2023181149A5 (ja) 2024-11-07
JP7761130B2 true JP7761130B2 (ja) 2025-10-28

Family

ID=88100226

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2024508871A Active JP7761130B2 (ja) 2022-03-23 2022-03-23 文字認識システム、文字認識方法および文字認識プログラム

Country Status (2)

Country Link
JP (1) JP7761130B2 (ja)
WO (1) WO2023181149A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007148846A (ja) 2005-11-29 2007-06-14 Nec Corp Ocr装置、フォームアウト方法及びフォームアウトプログラム
JP2020123272A (ja) 2019-01-31 2020-08-13 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP2021043650A (ja) 2019-09-10 2021-03-18 キヤノン株式会社 画像処理装置、画像処理システム、画像処理方法、及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05266247A (ja) * 1992-03-19 1993-10-15 Toshiba Corp 画像データ処理システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007148846A (ja) 2005-11-29 2007-06-14 Nec Corp Ocr装置、フォームアウト方法及びフォームアウトプログラム
JP2020123272A (ja) 2019-01-31 2020-08-13 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP2021043650A (ja) 2019-09-10 2021-03-18 キヤノン株式会社 画像処理装置、画像処理システム、画像処理方法、及びプログラム

Also Published As

Publication number Publication date
WO2023181149A1 (ja) 2023-09-28
JPWO2023181149A1 (ja) 2023-09-28

Similar Documents

Publication Publication Date Title
US12354396B2 (en) System for information extraction from form-like documents
US11461552B2 (en) Automated document review system combining deterministic and machine learning algorithms for legal document review
US20190279170A1 (en) Dynamic resource management associated with payment instrument exceptions processing
US8897563B1 (en) Systems and methods for automatically processing electronic documents
CN109902271B (zh) 基于迁移学习的文本数据标注方法、装置、终端及介质
CN101276412A (zh) 信息处理装置、信息处理系统和信息处理方法
US20190340429A1 (en) System and Method for Processing and Identifying Content in Form Documents
US12175786B2 (en) Systems, methods, and devices for automatically converting explanation of benefits (EOB) printable documents into electronic format using artificial intelligence techniques
US11699297B2 (en) Image analysis based document processing for inference of key-value pairs in non-fixed digital documents
Tornés et al. Receipt dataset for document forgery detection
CN117831052A (zh) 金融表单的识别方法及其装置、电子设备及存储介质
CN111881880A (zh) 一种基于新型网络的票据文本识别方法
JP7761130B2 (ja) 文字認識システム、文字認識方法および文字認識プログラム
US10922537B2 (en) System and method for processing and identifying content in form documents
Lerouge et al. DocXPand-25k: a large and diverse benchmark dataset for identity documents analysis
JP2020140706A (ja) 情報処理方法、情報処理装置及びスキャナ
CN117542054A (zh) 一种信息识别方法、装置、存储介质及电子设备
JP2024021728A (ja) 文字認識モデルの学習方法、文字認識方法、文字認識モデル学習装置、学習モデル、文字認識装置
CN102648474B (zh) 对待与服务关联的文档进行分类的方法、以及相关的扫描仪
Reed et al. Hybrid CNN–LSTM Framework for OCR-Based Text Extraction from Receipts
CN118366175B (zh) 一种基于字频的文档图像分类方法
US12230047B2 (en) Systems and methods for reading flat cards
TWI807467B (zh) 要項偵測模型建立方法、業務導向要項鍵值辨識系統及方法
US20250292227A1 (en) Document remembrance and counterfeit detection
KR20240157344A (ko) 인공지능 금융문서 정보 추출 시스템 및 방법

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240902

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240902

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20250203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20250708

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250828

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250916

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250929

R150 Certificate of patent or registration of utility model

Ref document number: 7761130

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150