JP7761130B2

JP7761130B2 - 文字認識システム、文字認識方法および文字認識プログラム

Info

Publication number: JP7761130B2
Application number: JP2024508871A
Authority: JP
Inventors: 裕一中谷
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2022-03-23
Filing date: 2022-03-23
Publication date: 2025-10-28
Anticipated expiration: 2042-03-23
Also published as: WO2023181149A1; JPWO2023181149A1

Description

本発明は、文字認識システム等に関する。

帳票に記載された手書きの文字をスキャナーで画像として読み取り、画像中の文字を認識することでテキストデータに変換するＯＣＲ（Optical Character Recognition）が広く用いられている。ＯＣＲによる文字の認識は、例えば、機械学習によって生成された学習モデルを用いて、帳票のプレプリント上に記載された文字を認識することによって行われる。しかし、同一の文字が記載されている場合でも、帳票のプレプリント上に記載された文字の形状、およびプレプリント上において文字が記載される位置は、文字を記載する人物によって多様である。また、プレプリント上に記載された文字を読み取った画像では、画像中にプレプリントと、文字が混在する。よって、帳票上の手書きの文字を認識する学習モデルは、多様な形状で記載され、記載されている位置も多様なプレプリント上に記載されている文字を、プレプリントと、文字が混在して写っている画像から正確に認識できることが要求され得る。このため、帳票のプレプリント上の文字を正確に認識できる技術があることが望ましい。

特許文献１の画像処理システムは、プレプリントの枠内に記載された手書きの文字の抽出を、学習モデルを用いて行う。特許文献１の画像処理システムは、プレプリントの枠内に記載された手書きの文字を写した画像から、プレプリントの枠を画像処理によって消去することで、手書きの文字を抽出する。

特開２０２１－３９４２４号公報

特許文献１の情報処理装置では、プレプリント上に記載された文字の正確な認識が難しい場合がある。

上記の課題を解決するため、本発明は、プレプリント上に記載された文字の認識精度を向上することができる文字認識システム等を提供することを主たる目的とする。

上記の課題を解決するため、本発明の文字認識システムは、プレプリントを含む帳票のプレプリント上に記載された文字を写した画像を取得する取得手段と、プレプリント上に記載された文字を写した画像と、プレプリントを写したプレプリント画像とからプレプリント上に記載された文字を認識する認識モデルを用いて、取得した画像と、プレプリント画像とから、取得した画像のプレプリント上に記載された文字を認識する認識手段と、認識の結果を出力する出力手段とを備える。

本発明の文字認識方法は、プレプリントを含む帳票のプレプリント上に記載された文字を写した画像を取得し、プレプリント上に記載された文字を写した画像と、プレプリントを写したプレプリント画像とからプレプリント上に記載された文字を認識する認識モデルを用いて、取得した画像と、プレプリント画像とから、取得した画像のプレプリント上に記載された文字を認識し、認識の結果を出力する。

本発明の記録媒体は、プレプリントを含む帳票のプレプリント上に記載された文字がを写した画像を取得する処理と、プレプリント上に記載された文字を写した画像と、プレプリントを写したプレプリント画像とからプレプリント上に記載された文字を認識する認識モデルを用いて、取得した画像と、プレプリント画像とから、取得した画像のプレプリント上に記載された文字を認識する処理と、認識の結果を出力する処理とをコンピュータに実行させる文字認識プログラムを非一時的に記録する。

本発明によると、プレプリント上に記載された文字の認識精度を向上することができる。

本発明の第１の実施形態の構成の一例を示す図である。本発明の第１の実施形態における帳票の例を示す図である。本発明の第１の実施形態の文字が記載された画像の例を示す図である。本発明の第１の実施形態のプレプリント画像の例を示す図である。本発明の第１の実施形態の文字が記載された画像の例を示す図である。本発明の第１の実施形態のプレプリント画像の例を示す図である。本発明の第１の実施形態の文字認識システムの構成の例を示す図である。本発明の第１の実施形態の文字が記載された画像の例を示す図である。本発明の第１の実施形態のプレプリント画像の例を示す図である。本発明の第１の実施形態の文字が記載された画像の例を示す図である。本発明の第１の実施形態のプレプリント画像の例を示す図である。本発明の第１の実施形態の文字が記載された画像の例を示す図である。本発明の第１の実施形態のプレプリント画像の例を示す図である。本発明の第１の実施形態の文字認識システムの動作フローの例を示す図である。本発明の第１の実施形態の文字認識システムの動作フローの例を示す図である。本発明の第２の実施形態の構成の一例を示す図である。本発明の第２の実施形態の文字認識システムの構成の例を示す図である。本発明の第２の実施形態におけるデータ処理のフローを模式的に示す図である。本発明の第２の実施形態の文字認識システムの動作フローの例を示す図である。本発明の第２の実施形態の文字認識システムの動作フローの例を示す図である。本発明の第２の実施形態の文字認識システムの動作フローの例を示す図である。本発明の他の実施形態の構成の例を示す図である。

（第1の実施形態）
本発明の第１の実施形態について、図を参照して詳細に説明する。図１は、本実施形態の帳票処理システムの構成の例を示す図である。帳票処理システムは、一例として、文字認識システム１０と、スキャナー２０と、情報処理サーバ３０を備える。文字認識システム１０は、例えば、ネットワークを介して、スキャナー２０と接続する。また、文字認識システム１０は、ネットワークを介して、情報処理サーバ３０と接続する。スキャナー２０および情報処理サーバ３０は、複数であってもよい。スキャナー２０および情報処理サーバ３０の数は、特に限定されない。

文字認識システム１０は、例えば、スキャナー２０が帳票を読み取った画像を取得する。帳票の用紙には、文字を記載するプレプリントが印刷されている。プレプリントは、例えば、帳票上において、文字を記載する位置を示す枠または線である。文字認識システム１０は、例えば、プレプリント上に記載された手書きで文字が書かれた画像を取得する。プレプリント上に記載された文字は、印刷によるものであってもよい。プレプリント上に記載された文字は、上記の例に限られない。

文字認識システム１０は、認識モデルを用いて、スキャナー２０から取得したプレプリント上に記載された文字を写した画像と、プレプリントを写したプレプリント画像とから、プレプリント上に記載された文字を認識する。認識モデルは、プレプリント上に記載された文字を写した画像と、プレプリント画像から、プレプリント上に記載された文字を認識する学習モデルである。文字認識システム１０は、例えば、情報処理サーバ３０に、プレプリント上に記載された文字の認識結果を出力する。情報処理サーバ３０は、プレプリント上に記載された文字の認識結果の用途に応じた処理を行うサーバである。

文字認識システム１０は、認識対象となるプレプリント上に記載された文字が写った画像に加え、プレプリント画像をさらに用いて、プレプリント上に記載された文字を認識することで、文字の認識にプレプリントが与える影響を抑制することができる。

図２は、帳票の例を示す図である。図２の帳票の例では、上部に帳票の名称が「払込票」として記載されている。図２の帳票の例は、例えば、金融機関の口座に入金する際に金融機関に提出する書類である。図２の帳票の例では、「口座番号」と、「金額」の記入欄が設定されている。図２の帳票の例では、「口座番号」と、「金額」の記入欄における数字を記入する枠がプレプリントである。

プレプリント上に記載された文字は、例えば、プレプリントの枠内に記載された文字である。プレプリント上に記載された文字は、プレプリントの枠内と重なるように記載されていてもよい。プレプリント上に文字が記載された画像は、プレプリントとプレプリント上に記載された文字の両方が含まれる画像である。また、プレプリント画像は、文字が書かれていないプレプリントのみを写した画像である。図２の帳票の例では、プレプリント上に数字が記載されているが、プレプリント上に記載される文字は、数字に限られない。また、プレプリント上に記載される文字は、記号を含んでいてもよい。

図３は、プレプリント上に記載された文字を写した画像の例を示す図である。図３は、図２の帳票の例において、「口座番号」の記入欄を抽出した画像である。また、図４は、図２の帳票の例における、「口座番号」の記入欄のプレプリント画像である。図３のプレプリント上に記載された文字を写した画像の例では、図４に示すプレプリント上に、手書きで「０１７７８５４３」の文字が記載されている。

プレプリントのみの画像は、プレプリントとしての文字が含まれていてもよい。プレプリントとしての文字は、例えば、金額の桁を示す文字、項目を示す文字または単位を示す文字である。プレプリントとしての文字は、プレプリントとして用紙に印刷されているものであれば、上記に限られない。

図５は、プレプリント上に記載された文字を写した画像の例を示す図である。図５は、図２の帳票の例において、「金額」の記入欄を抽出した画像である。また、図６は、図２の帳票の例における。「金額」の記入欄のプレプリント画像である。図６のプレプリント画像の例では、右側の枠内の下部に金額の単位を示す「円」がプレプリントの一部として印刷されている。図５のプレプリント上に記載された文字を写した画像の例では、図６に示すプレプリント上に、手書きで「４００００」の文字が記載されている。

帳票は、例えば、金融機関、官公庁、教育機関、病院、交通機関または企業において、手続きに用いる書類である。また、帳票は、管理対象の物品に張り付けられた書類であってもよい。帳票の例は、上記に限られない。プレプリントは、例えば、帳票上において、日付、氏名、所属、住所、電話番号、メールアドレス、年齢、性別、職業または金額を記入する位置を示す。プレプリントは、例えば、記入する項目と、文字を記入する枠によって構成される。１つの項目において複数の文字が記入される場合において、プレプリントは、複数の枠が連なったものであってもよい。また、１つの帳票に複数の項目についてのプレプリントが印刷されていてもよい。文字認識システム１０は、例えば、プレプリントが複数の枠が連なった記入欄として用紙に印刷されている場合に、認識した文字を枠の順番に従った文字列のデータとして出力する。

文字認識システム１０の構成について説明する。図７は、文字認識システム１０の構成の例を示す図である。文字認識システム１０は、取得部１１と、認識部１３と、出力部１４とを基本構成として備える。また、文字認識システム１０は、さらに、画像抽出部１２と、生成部１５と、記憶部１６を備える。取得部１１と、画像抽出部１２と、認識部１３と、出力部１４と、記憶部１６は、例えば、プレプリント上に記載された文字を写した画像から、プレプリント上に記載された文字を認識する。また、取得部１１と、生成部１５と、記憶部１６は、例えば、認識モデルを生成する。

取得部１１は、プレプリント上に記載された文字を写した画像を取得する。取得部１１は、例えば、スキャナー２０から、プレプリント上に文字が記載された帳票を写した画像を取得する。取得部１１は、プレプリント上に文字の記載された部分が帳票から抽出済みの画像を取得してもよい。プレプリント上に文字の記載された部分の画像は、例えば、図３および図５の例に示す画像である。プレプリント画像を帳票から抽出する場合に、取得部１１は、プレプリント上に文字が記載されていない状態の帳票の画像を取得してもよい。取得部１１は、例えば、スキャナー２０から、プレプリント上に文字が記載されていない状態の帳票の画像を取得する。

文字認識システム１０が認識モデルを生成する場合に、取得部１１は、認識モデルの生成に用いる学習データを取得してもよい。生成部１５は、例えば、プレプリント上に記載された文字を写した画像、およびプレプリント画像と、プレプリント上に記載されている文字とを関連付けたデータを学習データとして取得する。学習データは、例えば、作業者の操作によって文字認識システム１０、または文字認識システム１０と接続している他の端末装置に入力される。

画像抽出部１２は、取得部１１が取得する、プレプリント上に記載された文字を写した画像に対応するプレプリント画像を抽出する。画像抽出部１２は、例えば、記憶部１６に保存された帳票データから、プレプリント画像を抽出する。帳票データには、例えば、帳票の画像と、定義データが含まれる。定義データは、例えば、帳票に記載される項目と、記載される項目に対応するプレプリントの帳票上における位置の情報が含まれる。プレプリントの位置の情報、例えば、帳票上において、プレプリントが印刷されている範囲を示す情報である。まｔが、記載される項目は、例えば、名前、郵便番号、住所、電話番号、年齢、個人識別番号、口座番号、金額、および日付のうち１つ以上である。記載される項目は、上記の例に限られない。

画像抽出部１２は、例えば、定義データに含まれるプレプリントの位置の情報を基に、帳票上におけるプレプリントの位置を特定する。そして、画像抽出部１２は、記憶部１６に保存された画像から、特定したプレプリントの位置の画像を切り出すことでプレプリント画像を抽出する。画像抽出部１２は、取得部１１が取得する、プレプリント上に文字が記載されていない状態の帳票の画像から、プレプリント画像を抽出してもよい。

認識部１３は、認識モデルを用いて、取得部１１が取得したプレプリント上に記載された文字を写した画像と、プレプリント画像から、画像中の文字を認識する。認識モデルは、プレプリント上に記載された文字を写した画像と、プレプリント画像からプレプリント上に記載された文字を認識する学習モデルである。認識部１３は、例えば、取得部１１が取得した、プレプリント上に記載された文字を写した画像と、プレプリント画像とを認識モデルに入力する。そして、認識部１３は、認識モデルを用いて、プレプリント上に記載された文字を認識する。認識部１３は、あらかじめ抽出されているプレプリント画像を用いて、プレプリント上に記載された文字を認識してもよい。また、認識部１３は、あらかじめプレプリント部分の画像として生成されたプレプリント画像を用いて、プレプリント上に記載された文字を認識してもよい。認識部１３は、例えば、記憶部１６に保存されているプレプリント画像を用いて、プレプリント上に記載された文字を認識する。

認識部１３は、例えば、定義データに含まれるプレプリントの位置の情報を基に、プレプリントの位置を特定することによって、プレプリント上に記載された文字が写った画像を抽出する。そして、認識部１３は、認識モデルを用いて、抽出したプレプリント上に記載された文字が写った画像と、画像抽出部１２が抽出したプレプリント画像から、プレプリント上に記載された文字を認識する。

認識部１３は、例えば、認識モデルに、プレプリント上に記載された文字を写した画像と、プレプリント画像とを１つのデータに結合しデータを入力する。プレプリント上に記載された文字を写した画像と、プレプリント画像を結合するとは、２つの画像を重ね合わせた画像データを生成することをいう。プレプリント上に文字が記載された画像と、プレプリント画像がそれぞれ、１画素あたりＲＧＢの３チャンネルの画像である場合に、認識部１３は、例えば、２つの画像のデータを結合して、１画素あたり６チャンネルの画像データとする。そして、認識部１３は、認識モデルに、結合した６チャンネルの画像データを入力する。

認識部１３は、例えば、プレプリント上に記載された文字が写った画像と、プレプリント画像をあらかじめ設定された条件に基づいて結合する。認識部１３は、例えば、同一のサイズで抽出されたプレプリント上に記載された文字が写った画像と、プレプリント画像の外周部を基準に、プレプリント上に文字に記載された文字が写った画像と、プレプリント画像を重ね合わせることで２つの画像を結合する。認識部１３は、例えば、２つの画像を重ね合わせた際に、対応する画素どうしの画像データを結合する。そして、認識部１３は、結合したデータを認識モデルに入力し、プレプリント上に記載された文字を認識する。

認識部１３は、帳票を写した画像において、プレプリント上に記載された文字以外の文字の認識を行ってもよい。認識部１３は、例えば、取得部１１が取得した帳票の画像から、帳票の種類を特定してもよい。そして、認識部１３は、特定した帳票の種類に対応する帳票データに含まれる定義データを基に、プレプリントの位置を特定することによって、プレプリント上に記載された文字を認識する。認識部１３は、例えば、帳票の画像において、帳票に印刷されている帳票の名称または帳票番号を認識することによって、帳票の種類を特定する。帳票に印刷されている帳票の名称または帳票番号と、帳票の種類の関係は、あらかじめ設定されている。また、認識部１３が用いる認識モデルは、文字認識システム１０の外部で生成された学習モデルであってもよい。

図８は、プレプリント上に記載された文字を写した画像の例を示す図である。図８は、図３の画像の例とプレプリントの態様が異なる。図８の画像の例のプレプリントは、例えば、図３の画像の例とプレプリントと線の太さおよび種類が異なる。図９は、図８の画像の例におけるプレプリント画像である。図８のプレプリント上に記載された文字を写した画像の例では、図９に示すプレプリント上に、手書きで「１３７５８０４７」の文字が記載されている。認識モデルは、図８の画像の例と、図９の画像の例とを入力とした場合に、「１３７５８０４７」を認識結果として出力する。認識モデルは、例えば、図４の画像の例のプレプリントを学習データとして用いて生成された学習モデルであっても、図９の画像の例のプレプリント上に記載された文字を認識することができる。すなわち、プレプリント上に記載された文字が写った画像と、プレプリント画像を入力とすることで、認識モデルは、学習を行っていないプレプリント上に記載された文字を認識することができる。

図１０は、プレプリント上に、西暦表記における年を記載した文字を写した画像の例を示す図である。図１０の画像の例では、プレプリントとして、「西暦」と、「年」の文字がプレプリントの枠内にあらかじめ印刷されている。図１０の画像の例では、プレプリント画像上に、手書きで「２０２２」の文字が記載されている。また、図１１は、図１０の画像の例におけるプレプリント画像である。認識モデルは、図１０の画像の例と、図１１の画像の例とを入力とした場合に、「２０２２」を認識結果として出力する。

図１２は、図１０の画像の例において、西暦表記での年を示す上位の２桁の「２０」がプレプリントとしてあらかじめ印刷されている画像の例を示す。すなわち、図１２の画像の例では、プレプリントとして「西暦」、「２０」および「年」があらかじめ印刷されている。図１２の画像の例では、プレプリント上に、「２０２２」のうち、「２２」が手書きで記載されている。また、図１３は、図１２の画像の例におけるプレプリント画像である。認識モデルは、図１２の画像の例と、図１３の画像の例とを入力とした場合に、「２２」を認識結果として出力する。認識モデルは、例えば、図１１および図１３の画像の例のプレプリントを学習データとして用いていない学習モデルであっても、入力された画像から、プレプリント上に記載された画像を認識することができる。このように、認識モデルは、プレプリント上に記載された文字が写った画像と、プレプリント画像を入力とすることで、様々な態様のプレプリント上に記載された文字を認識することができる。また、上記の例では、線の太さ、線の種類およびあらかじめ印刷された文字が異なるプレプリントの例を示したが、認識モデルは、枠の形状および色が異なるプレプリントの場合においても、すべての態様のプレプリントを学習データとして用いて学習していなくても同様に認識を行うことができる。

出力部１４は、認識部１３による認識結果を出力する。出力部１４は、例えば、情報処理サーバ３０に、認識部１３が認識した文字を出力する。出力部１４は、例えば、プレプリントに対応する項目と、認識した文字を関連付けて出力する。認識の対象が図３の画像の例に示すような口座番号の場合に、出力部１４は、例えば、口座番号であることを示す情報と、認識した文字列を関連付けて出力する。出力部１４は、文字認識システム１０に接続されている図示しない表示装置に、認識結果を出力してもよい。

文字認識システム１０において認識モデルを生成する場合に、生成部１５は、認識モデルの生成に関する処理を行う。生成部１５は、プレプリント上に記載された文字を写した画像、およびプレプリント画像と、プレプリント上に記載されている文字との関係を学習する。そして、生成部１５は、プレプリント上に記載された文字が写った画像と、プレプリント画像とから、画像中の文字を認識する認識モデルを生成する。

生成部１５は、例えば、プレプリント上に記載された文字が写った画像と、プレプリント画像を結合したデータと、プレプリント上に記載されている文字との関係を学習することで認識モデルを生成する。プレプリント上に記載された文字が写った画像と、プレプリント画像がそれぞれ、１画素あたりＲＧＢの３チャンネルの画像である場合に、生成部１５は、２つの画像のデータを結合して、１画素あたり６チャンネルの画像データとする。そして、生成部１５は、結合した６チャンネルの画像データと、プレプリント上に記載されている文字との関係を学習することで認識モデルを生成する。

生成部１５が学習データとして用いる、プレプリント上に記載された文字が写った画像と、プレプリント画像に含まれるプレプリントは、実際に用いるプレプリントの画像でなくてもよい。認識モデルを生成する際に、生成部１５は、ランダムな形状の図形をプレプリントとして用いて、学習を行ってもよい。ランダムな形状の図形をプレプリントとして用いる場合に、生成部１５は、例えば、ランダムな形状の図形の上に書かれた文字が写った画像と、上に文字が書かれた図形と同一の図形の画像とを学習データとして用いて認識モデルを生成する。

生成部１５は、例えば、ＤＮＮ（Deep Neural Network）を用いたディープラーニングによって認識モデルを生成する。認識モデルを生成する機械学習アルゴリズムは、ＤＮＮを用いたディープラーニングに限られない。

記憶部１６は、例えば、認識部１３が画像中の文字の認識に用いる認識モデルを保存する。記憶部１６は、例えば、プレプリント画像を保存する。記憶部１６は、例えば、帳票データを保存する。帳票データは、例えば、帳票の画像データと、定義データを含む。帳票データには、あらかじめ抽出されたプレプリント画像が含まれていてもよい。記憶部１６は、例えば、学習データとして、プレプリント上に文字が記載された画像と、プレプリント画像と、プレプリント上に記載されている文字とを保存する。なお、認識部１３が用いる認識モデルは、記憶部１６以外の記憶手段に保存されていてもよい。

スキャナー２０は、例えば、帳票を光学的に読み取り、帳票の画像を生成する。そして、スキャナー２０は、文字認識システム１０に、帳票の画像を出力する。スキャナー２０は、帳票の画像のうち、プレプリント部分の画像を抽出してもよい。プレプリント部分の画像を抽出する場合に、スキャナー２０は、文字認識システム１０に、抽出したプレプリント画像を出力する。また、帳票が管理対象の物品に張り付けられた書類である場合に、スキャナー２０は、帳票を撮影することで、帳票の画像を生成してもよい。

情報処理サーバ３０は、例えば、文字認識システム１０から、帳票に記載された文字の認識結果を取得する。情報処理サーバ３０は、認識結果を用いて、用途に応じた処理を行う。情報処理サーバ３０は、例えば、認識結果を、金融機関における口座の管理に関する申請および入出金に関する処理に用いる。情報処理サーバ３０は、例えば、認識結果を、官公庁、教育機関、病院、または交通機関における申請書類の処理に用いてもよい。情報処理サーバ３０は、認識結果を、企業における伝票処理に用いてもよい。また、情報処理サーバ３０は、識別結果を、流通における物品の管理に用いてもよい。識別結果の用の例は、上記に限られない。

文字認識システム１０が、プレプリント上に記載された文字を認識する際の動作について説明する。図１４は、文字認識システム１０が、プレプリント上に記載された文字を認識する際の動作フローの例を示す図である。

取得部１１は、プレプリント上に記載された文字が写った画像を取得する（ステップＳ１１）。取得部１１は、例えば、スキャナー２０から、プレプリント上に記載された文字が写った帳票の画像を取得する。

また、画像抽出部１２は、取得部１１が取得した画像に対応するプレプリント画像を抽出する（ステップＳ１２）。画像抽出部１２は、例えば、記憶部１６に保存されたデータから、取得部１１が取得した画像に対応するプレプリント画像を抽出する。

プレプリント画像が抽出されると、認識部１３は、認識モデルを用いて、取得部１１が取得した画像と、プレプリント画像とから、画像中の文字を認識する（ステップＳ１３）。認識モデルは、プレプリント上に記載された文字が写った画像と、プレプリント画像とから、プレプリント上に記載された文字を認識する。

画像中の文字が認識されると、出力部１４は、認識結果を出力する（ステップＳ１４）。出力部１４は、例えば、情報処理サーバ３０に、認識結果を出力する。

文字認識システム１０が、認識モデルを生成する際の動作について説明する。図１５は、文字認識システム１０が、認識モデルを生成する際の動作フローの例を示す図である。

取得部１１は、学習データとして、プレプリント上に記載された文字が写った画像と、プレプリント画像と、プレプリント上に記載された文字とを取得する（ステップＳ２１）。

学習データを取得すると、生成部１５は、プレプリント上に記載された文字が写った画像、およびプレプリント画像と、プレプリント上に記載された文字の関係を学習し、認識モデルを生成する（ステップＳ２２）。生成部１５は、例えば、プレプリント上に記載された文字が写った画像と、プレプリント画像とを結合する。そして、生成部１５は、結合したデータと、学習データに正解データとして含まれる、プレプリント上に記載された文字の関係を学習し、認識モデルを生成する。

認識モデルを生成すると、生成部１５は、生成した認識モデルを保存する（ステップＳ２３）。生成部１５は、例えば、記憶部１６に、生成した認識モデルを保存する。

本実施形態の帳票処理システムの文字認識システム１０は、認識モデルを用いて、プレプリント上に記載された文字が写った画像と、プレプリント画像から、プレプリント上に記載された文字を認識する。文字認識システム１０は、認識対象となるプレプリント上に記載された文字が写った記載された画像に加え、プレプリント画像をさらに用いてプレプリント上に記載された文字を認識することで、文字の認識にプレプリントが与える影響を抑制することができる。その結果、文字認識システム１０は、プレプリント上に記載された文字の認識の精度を向上させることができる。

また、文字認識システム１０が用いる認識モデルは、プレプリント上に記載された文字が写った画像と、プレプリント画像とを入力として、プレプリント上に記載された文字の認識を行うことで、学習を行っていない態様のプレプリント上に記載された文字を認識することができる。よって、プレプリント上に記載された文字が写った画像と、プレプリント画像とを入力として、プレプリント上に記載された文字の認識を行うことで、文字認識システム１０は、様々な態様のプレプリント上に記載された文字を認識することができる。また、文字認識システム１０では、認識モデルを生成する際に、実際に認識に用いられるプレプリントの態様ごとに学習データを用意することが不要となる。また、文字認識システム１０では、認識モデルを生成する際に、実際に認識に用いられるプレプリントの態様ごとに学習データを学習する必要がないため、認識モデルの生成する際の学習量を抑制することができる。このため、文字認識システム１０では、認識モデルの生成に必要なコンピュータのリソースを抑制することができる。よって、文字認識システム１０は、認識モデルを効率的に生成することができる。

また、認識モデルを生成する際に、プレプリントとしてランダムな形状の図形を用いることで、文字認識システム１０は、様々なプレプリント画像上に記載された文字を認識可能な認識モデルを生成することができる。すなわち、プレプリントとしてランダムな形状の図形を用いて生成した認識モデルを用いることで、文字認識システム１０は、帳票ごとにプレプリント画像の形状が異なっている場合でも、プレプリント上に記載された文字を正確に認識することができる。

また、本実施形態と異なる文字認識手法として、例えば、プレプリント上に記載された文字が写った画像から、プレプリントを消去してから文字認識を行う手法を用いた場合には、プレプリントを消去するために、コンピュータのリソースを多く必要とし得る。また、プレプリントを消去する際に、文字の一部が消える恐れがある。一方で、本実施形態の文字認識システム１０は、プレプリント上に記載された文字が写った画像と、プレプリント画像を結合したデータとを認識モデルに入力して文字を認識することで、文字を認識する前処理としてプレプリントの消去の処理を必要としない。また、プレプリントの消去の処理を行わないため、プレプリントの消去に関する処理が文字認識に与える影響を抑制することができる。このため、本実施形態の文字認識システム１０は、プレプリント上に記載された文字の認識のために必要なリソースを抑制しつつ、認識の精度を向上することができる。

（第２の実施形態）
本発明の第２の実施形態について図を参照して詳細に説明する。図１６は、本実施形態の帳票処理システムの構成の例を示す図である。帳票処理システムは、一例として、文字認識システム４０と、スキャナー２０と、情報処理サーバ３０を備える。文字認識システム４０は、例えば、ネットワークを介して、スキャナー２０と接続する。また、文字認識システム４０は、ネットワークを介して、情報処理サーバ３０と接続する。スキャナー２０および情報処理サーバ３０は、複数であってもよい。スキャナー２０および情報処理サーバ３０の数は、特に限定されない。また、本実施形態のスキャナー２０と、情報処理サーバ３０の機能は、第１の実施形態のスキャナー２０と、情報処理サーバ３０と同様である。

第１の実施形態の文字認識システム１０は、例えば、認識モデルを用いて、プレプリント上に文字が記載された画像と、プレプリント画像とを結合したデータを入力とし、プレプリント上の文字を認識する。そして、文字認識システム１０は、認識結果を出力する。このような構成に加え、本実施形態の文字認識システム４０は、例えば、プレプリント上に文字が記載された画像と、プレプリント画像とを結合する際に、２つの画像の重ね合わせの精度を向上させるため、変換モデルを用いてプレプリント画像に変換処理を行った後に結合する。変換モデルは、プレプリント画像に変換処理を行う際に用いる変換パラメータを推定する学習モデルである。

文字認識システム４０の構成について説明する。図１７は、文字認識システム４０の構成の例を示す図である。文字認識システム４０は、取得部１１と、画像抽出部１２と、認識部４１と、出力部１４と、生成部４２と、記憶部１６を備える。また、認識部４１は、変換部５１と、画像認識部５２を備える。文字認識システム４０の取得部１１、画像抽出部１２、出力部１４および記憶部１６の構成と機能は、第１の実施形態の文字認識システム１０の取得部１１、画像抽出部１２、出力部１４および記憶部１６とそれぞれ同様である。

認識部４１の変換部５１は、例えば、変換モデルを用いて、プレプリント画像を変換する。変換モデルは、例えば、プレプリント画像にアフィン変換を行う。認識部４１は、例えば、プレプリント画像について、回転、大きさの調整および平行移動を行うことで、結合先の画像と重なり合うようにプレプリント画像を変換する。変換モデルは、例えば、プレプリント画像について、回転、大きさの調整および平行移動を行う際に用いる変換パラメータを推定する。

変換部５１は、例えば、変換モデルを用いて、プレプリント上に記載された文字が写った画像と、プレプリント画像とをあらかじめ設定された条件によって結合したデータから、アフィン変換パラメータを推定する。そして、変換部５１は、推定したパラメータを用いて、プレプリント画像をアフィン変換する。変換部５１は、例えば、あらかじめ設定された条件として、プレプリント上に記載された文字が写った画像と、プレプリント画像のそれぞれの外周部を合わせることで２つの画像が重なるようにして結合する。そして、変換部５１は、変換モデルを用いて、あらかじめ設定された条件で結合されたデータから変換パラメータを推定する。変換パラメータは、あらかじめ設定された条件で結合した場合よりも、重ね合わせの精度が向上するようにプレプリント画像を変換するためのパラメータである。変換パラメータを推定すると、変換部５１は、プレプリント画像に対して変換パラメータを用いてアフィン変換を行うことで、重ね合わせの精度がより高くなるようにする。

変換モデルは、例えば、ＳＴＮ（Spatial Transformer Networks）と呼ばれるＤＮＮを用いる学習モデルである。ＳＴＮを用いる画像の変換方法は、例えば、Max Jaderberg et al. "Spatial Transformer Networks", NIPS'15: Proceedings of the 28th International Conference on Neural Information Processing Systems, Volume 2, December 2015, p. 2017-2025に記載されている。

認識部４１の画像認識部５２は、認識モデルを用いて、プレプリント上に記載された文字が写った画像と、プレプリント画像とから、プレプリント上に記載された文字を認識する。画像認識部５２は、プレプリント上に記載された文字が写った画像と、変換部５１がアフィン変換を行ったプレプリント画像とを結合する。そして、画像認識部５２は、識別モデルを用いて、結合したデータからプレプリント上に記載された文字を認識する。変換モデルおよび認識モデルは、文字認識システム４０の外部で生成された学習モデルであってもよい。

図１８は、認識部４１においてプレプリント上に記載された文字を認識する際の処理のフローを模式的に示す図である。図１８の例において、プレプリント上に記載された文字が写った画像と、プレプリント画像が認識部４１に入力されたとする。変換部５１は、例えば、プレプリント上に記載された文字が写った画像と、プレプリント画像とを、例えば、あらかじめ設定された条件によって結合する。あらかじめ設定された条件は、例えば、２つの画像の外周部を合わせるように設定される。画像を結合すると、変換部５１は、変換モデルを用いて、アフィン変換パラメータを推定する。そして、変換部５１は、推定したアフィン変換パラメータを用いて、プレプリント画像にアフィン変換を行う。変換部５１は、アフィン変換を行ったプレプリント画像を画像認識部５２に出力する。アフィン変換を行ったプレプリント画像が入力されると、画像認識部５２は、プレプリント上に文字が記載された画像と、アフィン変換された画像とを結合する。画像を結合すると、画像認識部５２は、認識モデルを用いて、結合されたデータからプレプリント上に記載された文字を認識する。

文字認識システム４０は、例えば、変換モデルと、認識モデルのうち、認識モデルのみを生成する。認識モデルのみを生成する場合には、変換モデルには、例えば、文字認識システム４０の外部で生成された学習モデルが用いられる。変換モデルと、認識モデルのうち、認識モデルのみを生成する場合に、生成部４２は、例えば、学習データに含まれる、プレプリント上に記載された文字が写った画像と、プレプリント画像とを、変換モデルを用いて結合する。そして、生成部４２は、結合したデータと、学習データに正解データとして含まれる、プレプリント上に記載された文字の関係を学習し、認識モデルを生成する。生成部４２は、記憶部１６に、生成した変換モデルと、認識モデルを保存する。

文字認識システム４０が変換モデルと、認識モデルの両方を生成してもよい。変換モデルと、認識モデルの両方を生成する場合に、生成部４２は、変換モデルを用いて、プレプリント上に記載された文字が写った画像とプレプリント画像とをあらかじめ設定された条件によって結合したデータから変換パラメータを推定する。また、生成部４２は、認識モデルを用いて、結合したデータからプレプリント上に記載された文字を認識する。生成部４２は、変換モデルが推定するアフィン変換パラメータと、学習データに含まれるアフィン変換パラメータの差が小さくなるように変換モデルのパラメータを更新する。また、生成部４２は、識別結果と、正解データの差が小さくなるよう認識モデルのパラメータを更新する。

変換モデルの変換パラメータと、認識モデルのパラメータを更新すると、生成部４２は、更新したモデルを用いて上記の処理を繰り返す。生成部４２は、例えば、変換モデルの変換パラメータの推定結果と、認識モデルの認識結果の精度があらかじめ設定された基準を満たすまで上記の処理を繰り返すことで変換モデルと、認識モデルを生成する。また、生成部４２は、例えば、識別結果と、正解データの差が小さくなるよう認識モデルのパラメータを更新することで識別モデルを生成する。生成部４２は、例えば、記憶部１６に、生成した変換モデルと、認識モデルを保存する。

文字認識システム４０が、プレプリント上に記載された文字を認識する際の動作について説明する。図１９は、文字認識システム４０が、プレプリント上に記載された文字を認識する際の動作フローの例を示す図である。

取得部１１は、プレプリント上に記載された文字が写った画像を取得する（ステップＳ３１）。取得部１１は、例えば、スキャナー２０から、プレプリント上に記載された文字が写った帳票の画像を取得する。

また、画像抽出部１２は、取得部１１が取得した画像に対応するプレプリント画像を抽出する（ステップＳ３２）。画像抽出部１２は、例えば、記憶部１６に保存されたデータから、取得部１１が取得した画像に対応するプレプリント画像を抽出する。

プレプリント画像が取得されると、認識部４１の変換部５１は、変換モデルを用いて、プレプリント画像を変換する際に用いる変換パラメータを推定する。そして、変換部５１は、推定した変換パラメータを用いて、プレプリント画像を変換する（ステップＳ３３）。プレプリント画像が変換されると、画像認識部５２は、プレプリント上に文字が記載された画像と、変換されたプレプリント画像を結合する。そして、画像認識部５２は、認識モデルを用いて、結合したデータから画像中の文字を認識する（ステップＳ３４）。

画像中の文字が認識されると、出力部１４は、認識の結果を出力する（ステップＳ３５）。出力部１４は、例えば、情報処理サーバ３０に、認識の結果を出力する。

文字認識システム４０が、変換モデルと、認識モデルのうち、認識モデルのみを生成する際の動作について説明する。図２０は、文字認識システム４０が、認識モデルのみを生成する際の動作フローの例を示す図である。

取得部１１は、学習データとして、プレプリント上に記載された文字が写った画像と、プレプリント画像と、プレプリント上に記載された文字を取得する（ステップＳ４１）。

学習データが取得されると、生成部４２は、変換モデルを用いて、プレプリント画像を変換する際に用いる変換パラメータを推定する。そして、生成部４２は、推定した変換パラメータを用いて、変換モデルを用いて、プレプリント画像を変換する（ステップＳ４２）。

プレプリント画像を変換すると、生成部４２は、プレプリント上に記載された文字が写った画像と、変換したプレプリント画像を結合する。そして、生成部４２は、結合したデータと、プレプリント上に記載された文字の関係を学習し、認識モデルを生成する（ステップＳ４３）。

認識モデルを生成すると、生成部４２は、生成した認識モデルを保存する（ステップＳ４４）。生成部４２は、例えば、記憶部１６に、生成した認識モデルを保存する。

文字認識システム４０が、変換モデルと、認識モデルを生成する際の動作について説明する。図２１は、文字認識システム４０が、変換モデルと、認識モデルを生成する際の動作フローの例を示す図である。

取得部１１は、学習データとして、プレプリント上に記載された文字が写った画像とプレプリント画像とを結合したデータと、変換パラメータと、プレプリント上に記載された文字を取得する（ステップＳ５１）。

学習データが取得されると、生成部４２は、学習モデルに含まれる、プレプリント上に記載された文字が写った画像とプレプリント画像とを結合したデータと、学習モデルに含まれるパラメータとの関係を学習することによって、変換モデルを生成する。また、生成部４２は、プレプリント上に記載された文字が写った画像とプレプリント画像を結合したデータと、プレプリント上に記載された文字の関係を学習することによって認識モデルを生成する（ステップＳ５２）。

変換モデルと、認識モデルを生成すると、生成部４２は、生成した変換モデルと、認識モデルを保存する（ステップＳ５３）。生成部４２は、例えば、記憶部１６に、生成した変換モデルと、認識モデルを保存する。

本実施形態の文字認識システム４０は、変換モデルを用いて、プレプリント上に記載された文字が写った画像と、プレプリント画像とを結合する。そして、文字認識システム４０は、認識モデルを用いて、結合したデータから、プレプリント上に記載された文字を認識する。変換モデルを用いて変換したプレプリント画像を用いることで、文字認識システム４０は、プレプリント上に記載された文字が写った画像と、プレプリント画像とを結合する際の、重ね合わせの精度を向上することができる。このように結合したデータを用いることで、文字認識システム４０は、プレプリント上に記載された文字が写った画像と、プレプリント画像とのずれの変動が抑制された状態で、認識モデルによって、プレプリント上の文字を認識することができる。２つの画像のずれの変動が抑制された状態で、認識モデルによってプレプリント上に記載された文字を認識することで、文字認識システム４０は、プレプリント上に記載された文字の認識精度を向上することができる。

また、学習データを用いて変換モデルを生成する場合には、文字認識システム４０は、実際の使用状況において生じ得る、プレプリント上に記載された文字を写した画像と、プレプリント画像との重ね合わせのずれを抑制する変換モデルを生成することができる。よって、文字認識システム４０は、実際の使用状況に応じて、プレプリント上に文字が記載された画像と、プレプリント画像とのずれの変動を抑制することができる。このため、学習データを用いて変換モデルを生成する場合には、文字認識システム４０は、プレプリント上に記載された文字の認識精度をより向上することができる。

第１の実施形態の文字認識システム１０および第２の実施形態の文字認識システム４０における各処理は、コンピュータプログラムをコンピュータで実行することによって実現することができる。図２２は、第１の実施形態の文字認識システム１０および第２の実施形態の文字認識システム４０における各処理を行うコンピュータプログラムを実行するコンピュータ２００の構成の例を示したものである。コンピュータ２００は、ＣＰＵ（Central Processing Unit）２０１と、メモリ２０２と、記憶装置２０３と、入出力Ｉ／Ｆ（Interface）２０４と、通信Ｉ／Ｆ２０５を備える。

ＣＰＵ２０１は、記憶装置２０３から各処理を行うコンピュータプログラムを読み出して実行する。ＣＰＵ２０１は、複数のＣＰＵの組み合わせによって構成されていてもよい。また、ＣＰＵ２０１は、ＣＰＵと他の種類のプロセッサの組み合わせによって構成されていてもよい。例えば、ＣＰＵ２０１は、ＣＰＵとＧＰＵ（Graphics Processing Unit）の組み合わせによって構成されていてもよい。メモリ２０２は、ＤＲＡＭ（Dynamic Random Access Memory）等によって構成され、ＣＰＵ２０１が実行するコンピュータプログラムや処理中のデータが一時記憶される。記憶装置２０３は、ＣＰＵ２０１が実行するコンピュータプログラムを記憶している。記憶装置２０３は、例えば、不揮発性の半導体記憶装置によって構成されている。記憶装置２０３には、ハードディスクドライブ等の他の記憶装置が用いられてもよい。入出力Ｉ／Ｆ２０４は、作業者からの入力の受付および表示データ等の出力を行うインタフェースである。通信Ｉ／Ｆ２０５は、スキャナー２０および情報処理サーバ３０との間でデータの送受信を行うインタフェースである。また、情報処理サーバ３０も同様の構成としてもよい。

各処理の実行に用いられるコンピュータプログラムは、データを非一時的に記録するコンピュータ読み取り可能な記録媒体に格納して頒布することもできる。記録媒体としては、例えば、データ記録用磁気テープや、ハードディスクなどの磁気ディスクを用いることができる。また、記録媒体としては、ＣＤ-ＲＯＭ（Compact Disc Read Only Memory）等の光ディスクを用いることもできる。不揮発性の半導体記憶装置を記録媒体として用いてもよい。

以上、上述した実施形態を例として本発明を説明した。しかしながら、本発明は、上述した実施形態には限定されない。即ち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。

１０文字認識システム
１１取得部
１２画像抽出部
１３認識部
１４出力部
１５生成部
１６記憶部
２０スキャナー
３０情報処理サーバ
４０文字認識システム
４１認識部
４２生成部
５１変換部
５２画像認識部
１００コンピュータ
１０１ＣＰＵ
１０２メモリ
１０３記憶装置
１０４入出力Ｉ／Ｆ
１０５通信Ｉ／Ｆ

Claims

プレプリントを含む帳票のプレプリント上に記載された文字を写した画像を取得する取得手段と、
プレプリント上に記載された文字を写した画像の画素データおよびプレプリントを写したプレプリント画像の画素データを画素ごとに結合したデータから前記プレプリント上に記載された文字を認識する認識モデルを用いて、取得した前記画像の画素データおよび前記プレプリント画像の画素データを画素ごとに結合したデータから、取得した前記画像のプレプリント上に記載された文字を認識する認識手段と、
前記認識の結果を出力する出力手段と
を備える文字認識システム。
変換パラメータを用いて、前記プレプリント画像を変換する変換手段をさらに備え、
前記認識手段は、取得した前記画像の画素データおよび変換された前記プレプリント画像の画素データを画素ごとに結合したデータから、取得した前記画像のプレプリント上に記載された文字を認識する、
請求項１に記載の文字認識システム。
前記変換手段は、前記画像の画素データおよび変換された前記プレプリント画像の画素データを画素ごとに結合したデータから変換パラメータを推定する変換モデルを用いて、前記プレプリント画像を変換する、
請求項２に記載の文字認識システム。
前記認識手段は、前記画像から前記プレプリント上に記載された文字を認識する対象の帳票の種類を特定し、特定した帳票の種類に対応する定義データを基に、プレプリント上に記載された文字を認識する、
請求項１から３いずれかに記載の文字認識システム。
前記認識手段は、帳票上におけるプレプリントの位置が定義された定義データを基に、プレプリント上に記載された文字を認識する、
請求項１から４いずれかに記載の文字認識システム。
プレプリント上に記載された文字を写した画像の画素データおよび前記プレプリント画像の画素データを画素ごとに結合したデータと、プレプリント上に記載されている文字との関係を学習し、プレプリント上に記載された文字を写した画像の画素データおよび前記プレプリント画像の画素データを画素ごとに結合したデータから、前記画像のプレプリント上に記載された文字を認識する認識モデルを生成する生成手段をさらに備える、
請求項１から５いずれかに記載の文字認識システム。
前記生成手段は、プレプリント上に記載された文字を写した画像の画素データおよび前記プレプリント画像の画素データを画素ごとに結合したデータと、変換パラメータとの関係を学習し、前記プレプリント画像の変換に用いる変換パラメータを推定する変換モデルを生成する、
請求項６に記載の文字認識システム。
プレプリントを含む帳票のプレプリント上に記載された文字を写した画像を取得し、
プレプリント上に記載された文字を写した画像の画素データおよびプレプリントを写したプレプリント画像の画素データを画素ごとに結合したデータから前記プレプリント上に記載された文字を認識する認識モデルを用いて、取得した前記画像の画素データおよび前記プレプリント画像の画素データを画素ごとに結合したデータから、取得した前記画像のプレプリント上に記載された文字を認識し、
前記認識の結果を出力する、
文字認識方法。
プレプリントを含む帳票のプレプリント上に記載された文字を写した画像を取得する処理と、
プレプリント上に記載された文字を写した画像の画素データおよびプレプリントを写したプレプリント画像の画素データを画素ごとに結合したデータから前記プレプリント上に記載された文字を認識する認識モデルを用いて、取得した前記画像の画素データおよび前記プレプリント画像の画素データを画素ごとに結合したデータから、取得した前記画像のプレプリント上に記載された文字を認識する処理と、
前記認識の結果を出力する処理と
をコンピュータに実行させる文字認識プログラム。