JP4147014B2 - Document processing system, method, program, and storage medium - Google Patents
Document processing system, method, program, and storage medium Download PDFInfo
- Publication number
- JP4147014B2 JP4147014B2 JP2001275065A JP2001275065A JP4147014B2 JP 4147014 B2 JP4147014 B2 JP 4147014B2 JP 2001275065 A JP2001275065 A JP 2001275065A JP 2001275065 A JP2001275065 A JP 2001275065A JP 4147014 B2 JP4147014 B2 JP 4147014B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- registration
- area
- worksheet
- document image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
- Image Processing (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、スキャナ等から読み取った文書(帳票)画像と予め登録されている画像(登録フォーム)とを比較し、画像間の位置ズレやサイズの違い等を補正する文書処理システム、方法、プログラム及び記憶媒体に関するものである。
【0002】
【従来の技術】
スキャナから読み取った入力帳票画像を、あらかじめデータベースに登録されている複数の登録帳票(登録フォーム)と比較して、該帳票画像のフォーマットを特定するものがある。
【0003】
【発明が解決しようとする課題】
しかしながら、スキャナから読み取られた入力帳票画像と予めデータベースに登録された登録フォームとを比較し、データベースから類似した登録フォームを特定することは、スキャナから読み取った入力帳票画像に傾きなどがあると、一致精度が悪くなるという課題があった。
【0004】
また、読み取った入力帳票画像に位置ズレ、傾き、スキャン時の解像度の違いなどがあると、該入力帳票画像の所定のエリアに含まれる文字の文字認識処理を行った場合、文字の認識精度が悪くなるといった課題があった。
【0005】
【課題を解決するための手段】
上記課題を解決するために、本発明の文書処理システムは、文書画像データを管理する文書管理部に、該文書画像データとインデックスとを登録する文書処理システムであって、前記文書管理部のデータベースのインデックス構造を取得し、当該取得したインデックス構造と前記文書管理部のデータベースへの接続情報とに基づいてテンプレートを作成し、当該作成したテンプレートを保存するテンプレート作成手段と、前記テンプレートに基づいて、インデックスの登録に用いるための項目を有するワークシートを作成するワークシート作成手段と、複数の登録フォームを格納する格納手段と、前記登録フォーム上でエリアを設定し、当該設定したエリアを前記ワークシートの項目と対応付けるエリア登録手段と、入力された文書画像データから、特徴情報を抽出する特徴抽出手段と、前記抽出された該文書画像の特徴情報と、前記格納されている複数の登録フォームそれぞれの特徴情報とを比較して、該比較結果が一致すると判断される登録フォームを識別するフォーム識別手段と、前記識別された登録フォームの特徴情報と、前記文書画像の特徴情報とに基づいて、前記登録フォームと前記文書画像との差を抽出する差抽出手段と、前記抽出された差に基づいて、前記文書画像を補正する画像補正手段と、前記識別された登録フォームに設定されているエリアに基づいて、前記補正された文書画像の対応するエリアを抽出するエリア抽出手段と、前記抽出されたエリアの画像を認識処理する認識手段と、前記認識手段による認識結果を、当該エリアに対応する項目のインデックスとして、前記ワークシートに登録するワークシート登録手段と、他の文書画像データの入力を継続するか否か判断する判断手段と、前記判断手段で入力を継続すると判断した場合は、当該他の文書画像データを対象として、前記特徴抽出手段と前記フォーム識別手段と前記差抽出手段と前記画像補正手段と前記エリア抽出手段と前記認識手段と前記ワークシート登録手段と前記判断手段とによる処理を実行する一方、前記判断手段で入力を継続しないと判断した場合は、前記ワークシートに登録されたインデックスを、前記文書画像データとともに前記文書管理部に登録する登録手段とを有することを特徴とする。
【0006】
上記課題を解決するために、本発明の文書処理方法は、文書画像データを管理する文書管理部に、該文書画像データとインデックスとを登録する文書処理方法であって、テンプレート作成手段が、前記文書管理部のデータベースのインデックス構造を取得し、当該取得したインデックス構造と前記文書管理部のデータベースへの接続情報とに基づいてテンプレートを作成し、当該作成したテンプレートを保存するテンプレート作成ステップと、ワークシート作成手段が、前記テンプレートに基づいて、インデックスの登録に用いるための項目を有するワークシートを作成するワークシート作成ステップと、エリア登録手段が、格納手段に格納されている登録フォーム上でエリアを設定し、当該設定したエリアを前記ワークシートの項目と対応付けるエリア登録ステップと、特徴抽出手段が、入力された文書画像データから、特徴情報を抽出する特徴抽出ステップと、フォーム識別手段が、前記抽出された該文書画像の特徴情報と、前記格納手段に格納されている複数の登録フォームそれぞれの特徴情報とを比較して、該比較結果が一致すると判断される登録フォームを識別するフォーム識別ステップと、差抽出手段が、前記識別された登録フォームの特徴情報と、前記文書画像の特徴情報とに基づいて、前記登録フォームと前記文書画像との差を抽出する差抽出ステップと、画像補正手段が、前記抽出された差に基づいて、前記文書画像を補正する画像補正ステップと、エリア抽出手段が、前記識別された登録フォームに設定されているエリアに基づいて、前記補正された文書画像の対応するエリアを抽出するエリア抽出ステップと、認識手段が、前記抽出されたエリアの画像を認識処理する認識ステップと、ワークシート登録手段が、前記認識ステップでの認識結果を、当該エリアに対応する項目のインデックスとして、前記ワークシートに登録するワークシート登録ステップと、判断手段が、他の文書画像データの入力を継続するか否か判断する判断ステップと、前記判断ステップで入力を継続すると判断した場合は、当該他の文書画像データを対象として、前記特徴抽出ステップと前記フォーム識別ステップと前記差抽出ステップと前記画像補正ステップと前記エリア抽出ステップと前記認識ステップと前記ワークシート登録ステップと前記判断ステップとを繰りかえす一方、前記判断手段で入力を継続しないと判断した場合は、登録手段が、前記ワークシートに登録されたインデックスを、前記文書画像データとともに前記文書管理部に登録する登録ステップとを有することを特徴とする。
【0007】
【発明の実施の形態】
図1は、本実施形態におけるシステム構成図を示す。
【0008】
ここでは、ネットワーク上に、ユーザ端末(100、101、102)、ファックス・スキャナ・プリンタ・コピー機能を有するMFP(マルチファンクションペリフェラル)(110)、文書登録システム(120)、ファイルサーバ(130)、文書管理システム(140)が接続されている。
【0009】
各ユーザ端末は、ファイルサーバ130、文書管理システム140を用いて、各種文書の共有を図っている。文書の種類としては、一般的な文書作成アプリケーションによって作成される文書、スキャナで読みこまれた文書、ファクス受信された文書等各種混在している。
【0010】
また、本実施形態では、文書入力デバイスとして、複数の機能を有するMFP110を用いることとしたが、MFPの代わりにスキャナ装置やファクシミリ装置など、単機能のデバイスであってもよい。
【0011】
ファイルサーバ130は、一時的に格納される文書を中心に管理する。例えば、MFP110のスキャナ部で読み取った文書画像を一時的に格納して、ユーザ端末や文書登録システム120が該文書画像を取得することができる。
【0012】
文書管理システム140では、長期に渡って保存が必要な文書を中心に管理するもので、文書登録システムから送信された文書をインデックスとともに格納し、ユーザ端末から所望の文書を送信するよう依頼された場合、インデックス等に基いて該文書を検索して送信できるようになっている。また、文書管理システムでは、1つの文書に対して複数のインデックスをつけることができ、また、これら複数のインデックスは、インデックス項目毎に分類されて管理されている。なお、本実施形態では、文書管理システム140は1台の文書管理装置で構成されるものとするが、複数の機器の組合せで構成されるようにしても良い。また、文書管理システム140が複数存在するようにしてもよい。
【0013】
文書登録システム120は、MFP110やユーザ端末で生成される文書(ファックス受信文書画像、スキャナ読取文書画像等)や、ファイルサーバに格納されている文書を、自動的もしくは手動で指定して取得し、該文書を取得した時の情報や該文書を解析して得られる情報をもとに該文書のインデックス(属性情報・検索情報)を自動的に作成して、該文書とインデックスとを一緒にして文書管理システム140(の所望のディレクトリ)に登録する機能を有する。また、ユーザが手入力した各種インデックスを付加して文書管理システムに文書を登録させる機能や、すでに文書管理システムに登録された文書の属性情報等を再編集できる機能等も有している。なお、本実施形態では、文書登録システム120は1台の文書登録装置で構成されるものとするが、複数の機器の組合せで構成されるようにしてもよい。また、複数人のユーザでインデックス付けや確認などの作業が行えるように、複数台の文書登録装置を用い、各装置毎に処理を行う権限を与えて、複数台の文書登録装置で協調処理を行うことで文書登録システムを構成するようにしてもよい。
【0014】
なお、本実施形態では、文書登録装置は、実際の処理演算を行うCPU、プログラムを読み込んでワークエリアとして用いるRAM、後述するフローチャートに対応する処理を実行するためのプログラムや各種データを格納するための記憶媒体(ハードディスク、ROM、リムーバブルディスク(フロッピーディスク、CD−ROM等)など)、各種操作を行うためのキーボードやポインティングデバイス、処理対象の文書等を表示するためのディスプレイ、ネットワークと接続するためのネットワークインターフェースなどで構成されるコンピュータである。CPUに実行させるための該プログラムは、前記記憶媒体から供給されるものであってもよいし、ネットワークを介して外部装置から読み込むものであってもよい。なお、本実施形態はコンピュータがプログラムを実行することにより実現するものとするが、その一部又は全てをハードウェアで構成するようにしても構わない。
【0015】
図2は、文書登録システム120の構造を示すブロック図である。
【0016】
<文書登録システムへの文書入力処理>
まず、文書登録システム120への文書入力処理(文書登録システムによる文書取得処理)について説明する。
【0017】
デバイス制御部210は、ファックス機能やスキャナ機能などを有するデバイス(MFP)110から文書データを得て後段の処理に入力する。なお、デバイス制御部210では、デバイスを定期的に監視するなどして文書データを吸い上げたり、デバイス側からプッシュ式で送信される文書データを受信したりする処理がなされる。
【0018】
130はファイルサーバ等における文書が格納されたフォルダ(記憶装置)であり、フォルダ制御部212は該ファイルサーバのフォルダ内の文書データを取得する。例えば、フォルダ制御部212は、ファイルサーバの所定のフォルダを定期的に監視して、新しい文書がある場合に該文書の取得処理などを行う。
【0019】
201は本システムにおける操作部となっており、各種システムの設定、操作を行えるようになっており、さらに、文書登録システムを操作するユーザが文書を指定することにより、ユーザ端末やファイルサーバなどから文書データをインポート(取得)して、ファイル制御部214を介して、該手動指定で取得した文書データの入力処理をすることができるようになっている。
【0020】
220は入力制御部であり、デバイス制御部210、フォルダ制御部212、ファイル制御部214などからの入力を統括制御できるようになっている。
【0021】
<文書登録システムの内部処理>
次に、文書登録システム内の処理について説明する。
【0022】
221は、ジョブ制御部であり、後述するジョブに関する制御を行う。
【0023】
222は、文書データ処理部であり、画像フォーマット変換処理等を行う。
【0024】
223は、インデックス処理部であり、後述するインデックス処理に関する制御を行う。
【0025】
224は、データ管理部であり、後述するテンプレート、ワークシート、ジョブ等に関するデータを250のデータ記憶エリアに保存、管理する。
【0026】
225は、OCR制御部であり、辞書データ251を用いて文字認識を行う。
【0027】
226は、フォーム(帳票)解析部であり、登録フォームデータ252を用いて、各種フォーム、例えば帳票ファーマットを自動的に識別できるようになっている。
【0028】
240は、メール処理部であり、主に、自動的に文書を取得して登録処理を行うようにしている場合に、該自動処理が行われると、あらかじめ登録された宛て先にその結果を通知するために使用される。
【0029】
<文書登録システムにおける文書管理システムへのアクセス処理>
続いて、文書登録システムにおける文書管理システムとのインターフェースについて説明する。
【0030】
227は、文書管理システム制御部であり、文書管理システム140の種類に応じて提供されているアクセス制御部230を介して、文書及びインデックスの登録や、すでに文書管理システムに登録されている文書のインデックス変更などの処理を行う。
【0031】
253は、文書管理システムにアクセスするにあたって必要なアクセスデータを格納するデータベースであり、254は、文書管理システムへ登録するデータを一時的に保存するデータエリアであり、文書登録時に、所定の画像変換等の文書データ処理が必要な場合、このエリアをバッファとして使用する。
【0032】
<<文書登録システムの基本フロー(図3)>>
図3は、文書登録システム120における基本フロー図である。
【0033】
まず、手動で文書(画像)を取得し、その後、インデックス(属性情報)の入力を行い、その文書とインデックスを文書管理システムに登録する際の処理フローを説明する。
【0034】
ステップS100で、文書管理システムのデータベースのインデックス構造を取得して、該インデックス構造からワークシートを作成するためのテンプレート(雛型)を作成する。このテンプレートには、該文書管理システムへのアクセス情報と、インデックス構造から作成されたスキーマ情報(インデックスとして用いることができる項目情報)とが含まれている。テンプレート作成処理の詳細は、図4を用いて後述する。
【0035】
ステップS101では、テンプレートからワークシートを作成する。この作成処理は図5に詳述する。このワークシートにおいて、実際にインデックス情報の登録を行うフィールド(項目)等を設定する。また、本実施形態においては、取得した文書の管理、文書に対して付加するインデックス情報等は、このワークシート単位で(管理テーブルとして)一連の処理が実行、管理されるようになっている。なお、ここではステップS100で作成されたテンプレートからワークシートを作成することとするが、ステップS100を省略して予め作成・保存されているテンプレートを選択し、選択されたテンプレートからワークシートを作成するようにしてもよい。
【0036】
また、既に作成・登録されているワークシートを選択して、そのワークシートに文書情報とインデックス情報とを入力することも可能である。この場合、ステップS110で、データエリア250に格納されているワークシートの中からユーザによって選択されたワークシートを取り出し、ステップS102に進む。
【0037】
ステップS102では、ステップS101で作成されたワークシート、もしくはステップS110で選択されたワークシートをディスプレイに表示させる。
【0038】
ステップS103で、デバイスから取得した文書を入力する。
【0039】
ステップS104で、ワークシートにその文書情報が登録される。具体的には、ワークシートの文書名(文書ID)の項目(スキーマ情報)に、入力された文書名(文書ID)が登録され、そのワークシートに登録される文書の識別が可能になる。
【0040】
ステップS105で、該ワークシートの各項目に、必要なインデックス(属性)情報の入力、管理を行う。このインデックス情報の入力は、ユーザの手入力で行われても良いし、文書に対して自動的にOCRなどを行って得た情報が入力されるようにしてもよい。インデックス情報入力の詳細は、図10で後述する。
【0041】
ステップS106で、更に他の文書の入力を行う必要がある場合は、ステップS103に戻る。
【0042】
ステップS107で、以上の処理で取得・設定したワークシート内のデータを、文書管理システムへリリース処理(登録処理)する。リリース処理の詳細は、図11を用いて後述する。
【0043】
次に、文書入力処理をGUI(グラフィカル・ユーザ・インターフェース)上の入力起動ボタンに予め設定(図8)しておき、該入力起動ボタンが押下されると該処理が実行されるようにした場合の処理を説明する。
【0044】
ステップS120で、入力起動ボタンが押下されたことを検知すると、該ボタンに予め設定されている処理を判断し、ステップS121で、該設定されている条件に応じた文書取得処理(例えば、予め指定されているフォルダに新たに格納されている文書を取得する処理や、予め指定されているスキャナに原稿を読み取らせて文書画像を取得する処理)を実行し、予め設定されているワークシートに登録する。入力起動ボタン処理の実行は図9で後述する。
【0045】
ステップS122で、該ワークシートにインデックスを入力する。インデックス入力処理の詳細は図10で後述する。
【0046】
ステップS123で、以上の処理で取得・設定したワークシート内のデータを、文書管理システムへリリース処理(登録処理)する。リリース処理の詳細は、図11を用いて後述する。
【0047】
また、予め、文書取得設定、インデックス設定、リリース設定を指定してジョブとして作成・保存しておき、保存されている複数のジョブの中からユーザに選択(ステップS130)されたジョブを実行する(ステップS131)こともできる。ジョブの選択・実行処理の詳細は、図13を用いて後述する。
【0048】
また、詳細は後述するが、ステップS105及びS122でのインデックス入力の際に、フォームを用いて自動的にインデックス入力を行うことも可能である。ステップS140で、このフォームを登録する処理を行い、ステップS141で、フォームにエリアを設定する。フォーム登録処理の詳細は図6を用いて、エリア登録処理の詳細は図7を用いて後述する。
【0049】
ステップS150では、以上のような処理を実行するための各種設定処理(ジョブ設定処理(図12)、入力起動ボタン設定処理(図8)など)を行う。
【0050】
以上述べた処理を以下に詳述する。
【0051】
<テンプレート作成処理(図4)>
図4を用いて、テンプレート作成処理(ステップS100)を詳述する。
【0052】
ステップS200で、まず文書登録先の文書管理システムへ接続する。
【0053】
ステップS201で、文書管理システム内のデータベースのインデックス構造(文書を格納させるフォルダ等に設定されているスキーマ情報(検索用インデックスとして運用可能な情報)など)を取得する。
【0054】
ステップS202で、文書管理システムへの接続情報と、スキーマ情報とを一括管理するテンプレートを作成し、作成したテンプレートを識別するための識別情報(テンプレート名)を付加して保存する。
【0055】
<ワークシート作成処理(図5)>
図5を用いて、保存されているテンプレートからワークシートを作成するワークシート作成処理(ステップS101)を詳述する。
【0056】
ステップS300において、まず、文書登録先の文書管理システムに対応するテンプレートをユーザに選択させる。なお、図4で作成されたテンプレートから直接ワークシートを作成する場合は、この選択ステップは省略してもよい。
【0057】
ステップS301で、テンプレートに保存されている文書管理システムのスキーマ情報に対して、インデックス入力する必要のないものがあれば、そのスキーマ情報に対応するフィールドを入力対象として選択する等の編集を行なうかどうかの指示がされたか判断する。
【0058】
フィールド編集を行うと判断された場合は、ステップS302で、そのフィールド編集作業を行う。基本的には、スキーマ情報として用いることのできるテンプレートの項目領域(フィールド)の中から、必要なフィールドを選択する操作であるが、場合によっては、領域(フィールド)の拡張を指示できる。
【0059】
ステップS303で、フィールドの編集など、所定の設定を確認して、該選択されたテンプレートからワークシートを作成する。
【0060】
ステップS304で、作成したワークシートを識別するための識別情報(ワークシート名)を付加して保存する。
【0061】
<フォーム登録処理(図6)>
図6を用いて、入力された文書を識別するための処理や、インデックスとして画像から情報を抽出する処理などで用いるためのフォームを登録するフォーム登録処理(ステップS140)について詳述する。
【0062】
ステップS400で、フォーム解析時の基準とするイメージデータを取得する。
【0063】
ステップS401で、各種フォームを管理するフォーム管理シートに、先に入手したイメージデータを登録する。
【0064】
ステップS402で、フォーム解析処理(フォームを構成する枠・表に関する位置及び大きさの情報や、記載されている文字情報などを解析)をするフォーム解析部226に該イメージデータを渡して、該イメージデータのフォーム解析処理を行い、該フォーム解析結果を該イメージデータと対応づけてフォーム管理シートに登録し、登録フォームデータ252として管理する。
【0065】
ステップS403で、新規追加された登録フォームデータを識別情報(フォーム登録名)を付加して保存する。
【0066】
<エリア登録処理(図7)>
図7を用いて、登録フォーム上に、文字認識やバーコード認識などを行うエリアを設定するエリア登録処理(ステップS141)について詳述する。このエリアは、文書にインデックスをつける際に、登録フォームに設定されているエリアに対応する文書の領域内を認識処理して、認識結果をインデックスとしてワークシートに登録するために用いられるものである。
【0067】
ステップS500では、まずエリアを設定するフォームをユーザに選択させる。
【0068】
ステップS501では、フォーム解析対象エリアとする領域をユーザに指定させる。
【0069】
ステップS502では、そのエリアの解析モードを指定する。解析モードとして、認識率を向上させるための詳細な条件を設定する。例えば、英数字文字認識、仮名漢字文字認識の指定や、バーコード認識等の解析エンジンの指定等も、エリア毎に指定可能である。また、ここでエリアとテンプレートの項目(ワークシートの項目)との対応づけ設定を行っておくことができ、文書画像を解析・登録する際には、各エリアの認識結果を対応するワークシートの項目にインデックスとして入力される。なお、エリアとワークシートの項目(テンプレートの項目)との対応付けは、インデックス入力処理を行う際に変更できるようにしてもよい。
【0070】
ステップS503では、他にエリアを設定する指示がなされたか判断し、更に他のエリアを設定する場合はステップS501に戻り、エリア設定が終了ならばステップS504に進む。
【0071】
ステップS504では、設定されたエリアに関する設定情報を、登録フォームデータに対する付加情報として登録する。
【0072】
<入力起動ボタン設定(図8)>
図8を用いて、入力起動ボタンの設定処理(ステップS150)を詳述する。入力起動ボタンは、押下されると、各種データソース(フォルダやスキャナなど)からの入力処理を一括処理させるためのものである。
【0073】
ステップS600では、入力起動ボタンが押下された場合に設定されたデータソースから取得した文書を登録するためのワークシートをユーザに選択させる。
【0074】
ステップS601では、文書データの取得先となるデータソース(フォルダやスキャナなど)をユーザに選択させる。
【0075】
ステップS602では、スキャナがデータソースとして指定されているか判断し、スキャナが指定されている場合は、ステップS603でスキャナの読み取りモード(読み取り解像度、読み取り領域など)を設定する。
【0076】
ステップS604では、フォルダがデータソースとして指定されているか判断し、フォルダが指定されている場合は、ステップS605でフォルダのアクセス設定(アクセス権の設定などのアクセス条件)を行う。
【0077】
ステップS610では、設定された条件を入力起動ボタンに対応付けて登録し、該入力起動ボタンをGUIとして表示する。また、設定条件に応じて、ボタン名や形状を変えるなどして、複数の入力起動ボタンを登録・表示させることができる。
【0078】
<入力起動ボタン実行処理(図9)>
図9を用いて、入力起動ボタンが押下されたときの実行処理(ステップS121)を詳述する。
【0079】
ステップS700では、押下された入力起動ボタンに設定されている条件(設定モード)を読み出す。
【0080】
ステップS710で、スキャナ指定されているか判断し、スキャナが設定されている場合は、ステップS711に進んで設定モードとして設定されているスキャナ読み取り条件に従ったスキャンを行って文書画像を取得し、ステップS712で該文書をワークシートに保存する。
【0081】
ステップS720で、フォルダからの文書取得が設定されているかどうか判断し、フォルダからの取得が設定されている場合、ステップ721へ進み、フォルダからの文書取得の条件(例えば、新たに入力された文書を取得するような条件や、所定のフォーマットの文書を取得するような条件)に従って、フォルダの内容のチェックを行い、ステップS722で該条件を満たす文書が存在するかどうか判断し、存在する場合は、ステップS723で該文書の取得を行い、ステップS724でワークシートへ該文書を保存する。一方、ステップS722で条件を満たす文書が存在しないと判断した場合は、ステップS725へ進む。
【0082】
ステップS725は、定期的にフォルダの確認(ポーリング)を行って文書を取得するような条件が設定されているときに用いられる判断処理であり、定期的フォルダ確認の中止が指示された場合もしくは元々定期的フォルダ確認の設定条件が為されていなかった場合は、処理を終了し、そうでなければ、再度ステップS721に戻り、定期的に指定フォルダの内容を確認処理する。
【0083】
<インデックス入力処理(図10)>
図10を用いて、ワークシートに文書のインデックスを入力するインデックス入力処理(S105、S122、S1121など)を詳述する。
【0084】
ステップS800では、ジョブなどの自動処理を実行するように指定されたか判断し、自動処理の場合は、ステップS815へ処理を遷移させ、そうでない場合は、順次ワークシート、フォームの選択をする。
【0085】
自動処理でない場合、ステップS801で、ユーザがワークシートを指定することにより、該ワークシートを選択する。
【0086】
ステップS802で、インデックスの入力をユーザの手入力で行うか、登録フォームを用いてインデックスの入力を行うかを判断する。ユーザにより手動でインデックス情報を入力すると指示された場合、ステップS803で手動でのインデックス入力を行い、その後、ステップS804でまだ処理すべき文書が他にあるかどうか判断し、他の文書がある場合はステップS800に戻り、なければ処理を終了する。
【0087】
一方、ステップS802で登録フォームを用いてインデックス入力を行うよう指示されたと判断された場合、ステップS810に進み、自動フォーム検出機能を利用するか否かの判断を行う。自動フォーム検出機能を利用が指示されたと判断した場合、ステップS811で、登録されている複数の登録フォームの中から、入力された文書と一致するフォームを検出するフォーム検出処理を行う。フォーム検出処理により一致するフォームが検出された場合はステップS812からステップS820に進み、一致するフォームが検出されなかった場合はステップS812からステップS813に進む。一方、ステップS810で自動フォーム検出機能の利用が指示されずに手動でのフォーム選択が指示されたと判断した場合、ステップS813に進む。ステップS813では、複数の登録フォームの中からユーザの指示によって手動で所望のフォームを選択する。
【0088】
ステップS820で、自動検出又は手動で選択された登録フォームに設定されているエリアを検索する。
【0089】
ステップS821で、当該文書において、登録フォームに設定された全てのエリアに対応する領域内の情報を用いたインデックス付け処理が終了したか判断し、終了している場合はステップS804に進んで次文書があるかの判断を行い、一方、終了していない場合はステップS822に進む。
【0090】
ステップS822で、登録フォームに設定されているエリアの解析条件に従ってエリア解析する。なお、ここで、エリアの解析条件として設定された領域範囲を、ユーザが能動的に領域範囲を調整することも可能である。この領域範囲の調整は、入力された文書画像を表示している状態で、設定されているエリアの解析条件として設定されている領域範囲を所定の色の矩形を重ねて表示し、ユーザはこの矩形を調整することで該領域範囲を調整することができる。更に、領域範囲に従って切り出された画像データに対して文字画像のスムージング処理(黒画素塊のエッジのスムージング処理)を施す。ここでいう文字画像には、バーコードデータ、絵文字等ビットマップのビット配列の形状で意味を伝達するもの全てが含まれる。なお、この文字画像のスムージング処理は、OCR制御部225にライブラリソフトウェアという形態で包括される。このスムージング処理を施すことにより、傾き補正、ずれ補正、変倍補正などの画像処理をおこなった際に生じるジャギー(ドットばらつき)が低減され、文字認識処理の認識率の向上が図れる。
【0091】
ステップS823では、エリア解析処理に異常が発生することなく成功したかどうか判断する。異常終了した場合は、ステップS824に進み、自動処理モードかを判断して、自動処理モードでなければステップS825でユーザにインデックスの手動入力をさせ、自動処理モードの場合はステップS826で暫定処理を行う。ここで、暫定処理とは、例えばエリア解析が不成功であったことを示すNGマークをつけたり、その他のデフォルトとして規定した値をインデックスとして出力したりする処理である。
【0092】
ステップS830では、エリアの解析処理した結果をワークシートへ保存し、ステップS820に戻って他の未処理のエリアを検索する。
【0093】
一方、ステップS800でジョブなどの自動処理が指定されたと判断された場合、ステップS815において、該自動処理に対応付けられているワークシートを選択して、自動インデクス付け処理の前処理を行う。ここで、該自動処理には、ワークシートがあらかじめ設定されていることを前提としている。該自動処理に登録フォームもあらかじめ指定されている場合は、そのままステップS816でフォームが検出されているとしてステップS820に進む。また、該自動処理に登録フォームを自動的に検出して選択させる設定になっている場合は、この前処理において、ステップS811と同様のフォーム検出処理を行い、一致する登録フォームが検出された場合は、ステップS816でフォームが検出されたとしてステップS820に進み、一方、登録フォームが定まらなかった場合は、ステップS817の後処理に進み、処理ができなかった文書として、ワークシート上に当該文書が管理されて、ステップS804に進んで次文書の処理を行うか判断される。
【0094】
<リリース(データ登録)処理(図11)>
図11を用いて、ワークシートで管理されているデータ(文書情報及びインデックス情報)を、文書管理システムにリリース(登録)する処理(S107、S123、S1131等)を詳述する。
【0095】
ステップS900で、自動リリースが指定されているか判断し、自動リリースであると判断された場合はステップS901に進み、自動リリースでないと判断された場合はステップS910に進む。
【0096】
自動リリースの場合、ステップS901で、まず自動リリースの設定情報(登録先の文書管理システムへの接続情報や登録先のフォルダ情報など)をワークシートから取得し、ステップS902で、該文書管理システムの格納フォルダへ接続処理を行い、ステップS920に進んでリリースするデータの準備を行う。
【0097】
自動リリースでない場合、ステップS910で、まずワークシートで管理されている文書から、登録対象の文書の選択や、文書管理システムへ登録後に文書登録システムに格納されている文書の扱い(削除など)の設定ができるようになっている。登録対象の文書の選択は、ワークシートで管理されている複数の登録対象の文書IDとそれぞれの文書に対応するインデックスとを、ワークシートの表形式で表示し、ユーザにその中から登録処理する文書を選択させることができる。なお、選択処理時には、ワークシート上で選択された文書ID及びインデックスをハイライト表示し、選択されていることが分かりやすいようにする。
【0098】
ステップS911で、登録先とする文書管理システムへログイン処理し、文書を格納するフォルダを指定する。
【0099】
ステップS912で、文書登録時のオプション設定ができるようになっており、文書登録処理に関する実行ログをとる設定をしたり、文書登録時の文書フォーマットの変換設定をしたりできるようになっている。
【0100】
ステップS920では、文書管理システムへ登録する文書情報等を一旦内部の出力用データエリア254に保存して登録準備を行う。
【0101】
ステップS930では、登録する文書画像のフォーマット変換、もしくは、文書画像をOCR解析した結果を付加する処理等が指示されているか判断し、指示されていると判断した場合はステップS931で、該指示に従って画像処理を行う。
【0102】
ステップS940で、準備された文書データ等を、登録先の文書管理システムのフォルダへ登録処理を行う。
【0103】
ステップS950において、文書管理システムへの文書登録後に、文書登録システム内に格納されている該文書の削除が指示されているか判断し、削除指示が為されている場合はステップS951で該文書の削除処理を行い、リリース処理を終了する。
【0104】
<ジョブ作成処理(図12)>
図12を用いて、文書取得処理、インデックス処理、リリース処理の各設定を定めて、1つのジョブとして作成する処理(S150)を詳述する。
【0105】
ステップS1000で、自動文書取得のジョブ設定が指定されたか判断し、設定する場合は、ステップS1001に進み、使用するワークシートの設定、ならびにソースデバイスとしてのスキャナやフォルダの指定などを行って、文書取得のための設定を行う。
【0106】
ステップS1010で、インデックス入力の自動処理の設定が指示されたか判断し、設定する場合は、ステップS1011において、使用するワークシートの設定、登録フォームの指定又は登録フォームの自動検索の指定など、インデックス処理を自動的に処理するために必要な項目を設定する。
【0107】
ステップS1020で、自動リリース(文書登録)の設定が指示されたか判断し、設定する場合は、ステップS1021において、処理の対象となるワークシート、文書登録先(文書管理システム、フォルダ)、登録後の文書の扱いなど、自動リリース処理するために必要な情報を設定する。
【0108】
ステップS1030では、ステップS1001、S1011、S1021で設定された設定情報を、識別情報(ジョブ名)を付加して保存する。
【0109】
なお、各種設定を組み合わせたジョブを複数登録・保存することが可能である。
【0110】
<ジョブ実行処理(図13)>
図13を用いて、ジョブ実行処理(S130,131)を詳述する。
【0111】
ステップS1100で、まず登録保存されている複数のジョブの中から、ユーザが所望するジョブを選択する。
【0112】
ステップS1101で、その選択されたジョブに設定されている条件を読出してジョブ実行処理を開始する。
【0113】
ステップS1110で、自動文書取得のジョブが設定されているかどうか判断し、設定されていると判断した場合、ステップS1111で設定に従ってデバイスから文書取得処理を行い、ステップS1112で、取得した文書をワークシートで管理し、保存する。
【0114】
ステップS1120で、インデックス入力の自動処理が設定されているかどうか判断し、設定されていると判断した場合、ステップS1121において、設定された条件に従って自動インデクス処理を実行する。この自動インデックス処理において、自動フォーム検出を行う場合、各種変倍、位置ズレ補正等の画像処理を施し、さらにエリア(領域)の設定に従い、画像上に記載されている情報を取得する。さらにその画像情報にスムージング処理を施した上で文字認識(OCR)処理を行うことでテキストデータによるインデックスデータが自動作成できる。
【0115】
ステップS1130で、自動リリース(文書登録)処理が設定されているかどうか判断し、設定されていると判断した場合、ステップS1131において、設定された条件に従って文書管理システムへ自動リリース処理をする。
【0116】
文書取得から、文書登録までをジョブに設定することで、一連の処理を一括処理させることが可能になっている。
【0117】
<拡張されたデバイス制御部(図14)>
本実施形態では、更に図2のデバイス制御を行って、デバイスから文書を取得する方式として、複数の形態に対応できるように拡張することが可能である。図14を用いて、この拡張したデバイス制御を説明する。
【0118】
デバイス制御部A(210)は、文書登録システムからデバイス側にアクセスして、文書を取得する。この制御部Aを用いて、同等のアクセス取得方式に対応した複数デバイス(110、111)から文書データを取得することが可能である。
【0119】
デバイス制御部B(211)は、文書登録システムからのアクセスではなく、デバイス側からアクセスされて、送信されてきた文書を取得する。この場合も、同等のアクセス方式に対応した、複数のデバイス(112、113)から、文書を取得することが可能である。
【0120】
また、デバイス制御部Bには、独自にデータフォルダ300を設けて、複数のデバイスからの同時の文書転送処理に対応している。更には、このデータフォルダを、階層を有するフォルダとして構成することを可能としておき、デバイス側からフォルダパスを指定しての文書転送処理も可能とする。なお、この場合のアクセスプロトコルとして、汎用的なファイル転送プロトコルを採用することにより、デバイス側の対応を容易にし、一般のコンピュータから文書転送させることも可能になる。
【0121】
更には、文書データを取得する際に、文書画像以外にも、当該文書データに関連した付加(属性)情報(例えば、各文書のオーナー情報、ファクス受信文書なら送信元情報、接続デバイスに関する情報等)を取得し、そのデータをシステム内で利用できる手段も有する。
【0122】
入力制御部220は、各デバイス制御部で取得された文書データを混同しないよう、統括してハンドリングできるようになっている。
【0123】
<拡張された文書管理システム制御部(図15)>
本実施形態では、様々な異なる形式で文書を管理する複数の文書管理システムに対して、デバイス等から取得される文書データならびにそのインデックス(付加情報)を登録できるように拡張できる。図15は、ネットワーク上に、異なる形式で文書を管理する文書管理システムAと文書管理システムBとが混在した場合の対応を説明する図である。
【0124】
ここでは、文書管理システムの種類によって、そのアクセス手段や、扱える文書のファイル形式が異なっているのが一般的なので、文書管理システムA(140)に対しては、アクセス制御部A(230)、文書管理システムB(141)に対しては、アクセス制御部B(231)を提供する。そして、文書登録システム120は、登録先の文書管理システムに応じて、利用するアクセス制御部を変えることにより、異なる形式で文書を管理する複数の文書管理システムが混在する場合に対応できる。
【0125】
なお、各文書管理システムへアクセスなど行う際に必要な情報を、管理データ253として保持し、必要に応じて取り出して使用する。
【0126】
<図11のリリース処理の補足(図16)>
図16を用いて、文書管理システムへのリリース(登録)処理(ステップS940)に関する補足を述べる。
【0127】
ステップS1200で、リリース処理を開始するにあたっての設定処理であり、終了通知の要否の確認、終了通知先の情報取得処理等を行う。
【0128】
ステップS1210では、文書管理システムへ登録すべき残りのデータの有無の確認処理であり、登録すべき全てのデータが送信されていなければステップS1211へ進み、残りが無ければステップS1220へ進む。
【0129】
ステップS1211で、文書管理システムへ登録すべきデータを送信して登録する登録処理である。
【0130】
ステップS1212で、該送信したデータが登録されたかどうか判断し、登録されたのが確認されたならばステップS1210へ戻り、登録に失敗した場合はステップS1213へ進む。
【0131】
ステップS1213は、文書管理システムへのデータ登録がエラーした場合の処理であり、所定のワークシートに、登録エラーを起こした文書に関するデータを登録エラー文書データとして登録し、その後、手動による再登録処理ができるようになっている。
【0132】
ステップS1220では、S1200での設定に基き、ユーザに登録終了通知を行う必要があるか判断し、必要なければ処理を終了する。
【0133】
終了通知を行う必要があると判断した場合、ステップS1221で、データ登録処理の結果にエラーがあるか判断し、エラーがなければステップS1222で、あらかじめ登録された登録通知のメールアドレスへ新規文書が登録された旨のメール通知処理を行い、一方、エラーが発生していると判断された場合は、ステップSS1223で、あらかじめ登録されたエラー通知のメールアドレスへ、エラー情報をメール通知処理されるようになっている。
【0134】
<デバイスから送信された文書の自動文書登録処理(図17)>
図17は、デバイスから送られてくる文書データを、自動的に文書登録までの処理をさせるフローに関して説明する。なお、この図17では、文書管理システムへの文書登録自動処理および、登録フォームとして文書登録システムへのフォーム登録自動処理を記載している。
【0135】
ステップS1300で、自動文書処理を実行するにあたって必要となる各種項目の設定を事前に行い、この設定された自動文書処理の起動を行う。
【0136】
ここで行う設定項目には、文書入力処理に関する設定、フォーム登録処理用に運用されるフォルダ、使用する属性情報の設定、ならびに各属性に対応した処理を行うためのワークシートの設定、自動インデックス入力を行うために使用されるフォームの設定等がある。
【0137】
なお、属性情報の例としては、以下のものがある。属性情報は自動処理の判別、およびインデックス入力などに使用される。
【0138】
・デバイスの種類
・フォルダパス(ファイルサーバ130、デバイス制御部用データフォルダ300)
・文書のオーナー情報
・FAX受信文書における送信元情報
・エリア解析結果、など
ステップS1301では、文書入力されたかどうか検知し、文書入力があるとステップS1302に進む。本実施形態では、デバイスからデバイス制御部経由で入力される文書データ、デバイスからフォルダ制御部経由で入力される文書データを統括して扱えるようになっている。本実施形態では、デバイスからプッシュ式で送信されてきた文書はデバイス制御部のデータフォルダを介して入力されるものとする。なお、フォルダに新たな文書が入力されたかどうかの検知は、図9のS721〜S725と同様に定期的にフォルダをチェックすることによって為される。
【0139】
ステップS1302で、入力された文書が、どのルートで入ってきたかを確認する。
【0140】
ステップS1310で、フォーム登録用フォルダを経由して入力された文書であるか判断し、該フォーム登録用フォルダを経由して入力されたと判断されれば、ステップS1311で、自動的にフォーム登録用処理部を起動し、入力された文書をフォームとして登録する。
【0141】
ステップS1320では、各種属性情報の解析をし、得られた属性情報に対応した処理が定義されているか否かを確認する。例えば、所定のフォルダAを介して入力された文書や、所定のデバイスから入力された文書が、所定の文書管理システムのフォルダXへ登録する自動処理を行うと定義されているものとする。
【0142】
なお、属性情報としては、入力制御部220で得られるデバイスやフォルダなどに関する情報と、この段階で自動インデックス処理に相当する処理を呼んで、フォーム解析してターゲットとする所定のエリアから得られる情報などがある。
【0143】
ステップS1321では、当該入力された文書の属性情報に対応する自動処理が検出されたかどうか判断し、検出されなかった場合は、ステップS1323に進んで当該入力された文書を一時保存し、後でユーザが手動で処理できるようになっている。
【0144】
一方、対応する処理が検出された場合(例えば所定の文書管理システムのフォルダXへの登録処理が検出された場合)は、ステップS1324に進み、自動インデックス処理および自動リリース処理に必要な情報を読出し、ステップS1330で、必要に応じてフォームに対応するエリア情報等を用いて自動インデックス入力を行い、ステップS1340で、該文書とインデックスとを文書管理システムに登録する自動リリース処理を行う。
【0145】
ステップS1350で、自動文書処理の終了要求がなされたか判断し、なされていれば処理を終了させ、そうでなければ、ステップS1301に戻り、処理を継続する。
【0146】
<フォーム解析部の構成(図18)>
図18は、フォーム解析部(帳票処理部)の詳細構成図を示す。
【0147】
フォーム解析部は、画像処理エンジン1801、画像特徴抽出エンジン1802、画像特徴比較エンジン1803、画像処理設定1804、画像特徴登録エンジン1805、画像特徴処理エンジン1806、画像特徴差分抽出エンジン1807、画像特徴登録管理1808、データ登録データベース1809の各モジュールで構成される。
【0148】
読み込まれた画像に基いてフォーム(雛型)を作成登録する場合は、まず、画像処理エンジン1801で、画像に対して傾き補正などの画像処理がされた後、画像特徴抽出エンジン1802により該画像の特徴(例えば、枠・表形状の大きさや位置など)が抽出され、画像特徴登録管理1808によりデータ登録DB1809に該特徴を登録フォームとして格納する。
【0149】
複数の登録フォームの中で、入力された画像に一致する登録フォームを検索する処理は、まず、画像処理エンジンで、入力された文書画像に対して傾き補正などの画像処理がされた後、画像特徴抽出エンジン1802で該文書画像の特徴データ(枠・表形状など)を抽出する。抽出された特徴データと、データ登録DB1809に登録されている登録フォームの特徴データとを、画像特徴比較エンジン1803にて比較して入力された文書画像に一致する登録フォームを求める。画像特徴差分抽出エンジン1807により、文書画像と登録フォームの原点位置の差分や変倍率などを求め、画像特徴処理エンジン1805にて、該文書画像の差分や変倍率を補正するように画像処理を実行する。
【0150】
そして、このように画像処理が実行された文書画像と、識別された登録フォームの情報とをOCR制御部へ送り、OCR制御部では、登録フォームに設定されたエリア情報に基づいて、該画像処理が実行された文書画像から領域画像を抽出し、その抽出した領域画像にスムージング処理を施した後、文字認識処理を行って、該文字認識処理結果をインデックスとしてワークシートに格納する。
【0151】
<画像処理例(図19)>
図19は、画像処理エンジン1801で画像データを処理する際の一例である。
【0152】
1911は、用紙に印刷された文書をスキャナなどから読み取った場合の画像データであり、文書が傾いて読み取られてしまっている。画像処理エンジンで傾き補正を行い、原点位置も補正することで、1901のような傾きのない文書画像が得られる。なお、1902及び1912は、登録フォームに設定されているエリア領域が対応する文書画像上の位置を示しており、1911のような傾いた画像では所望の情報が得られないが、1901のような画像処理が行われた画像では所望の情報が得られることになる。なお、1913は画像処理された画像1901のエリア1902を、補正前の画像で相対的な位置を示したものであり、1912と1913の位置が大きく違うことが分かる。
【0153】
<画像特徴比較エンジンの構成図(図20)>
図20は、登録フォームを識別する際に用いる画像特徴比較エンジンの構成図を示す。
【0154】
画像特徴比較エンジン2000は、文書画像に記載されている文字を文字認識して登録フォームに記載されている文字と比較することで登録フォームを検出するOCRエンジン2002と、文書画像の表枠の構成・大きさなどを登録フォームの表枠情報と比較して登録フォームを検出する帳票認識エンジン2003と、文書画像に記載されているバーコードを認識して登録フォームのバーコード情報と比較して登録フォームを検出するバーコードエンジン2004などを組み合わせて、画像特徴の比較を行って、一致する登録フォームを求める。画像特徴比較エンジン管理部2001は、これらのエンジンを制御する。
【0155】
なお、本実施形態では、OCR、帳票、バーコードのエンジンを用いることとするが、その中のいくつかの組合せであってもよいし、その他のエンジン2005を追加してもよい。
【0156】
<フォーム登録処理の詳細(図21)>
図21は、画像を登録フォームとして登録する処理において、フォーム解析処理をおこなってフォーム情報を抽出して登録する処理(S402)の詳細を示す。
【0157】
ステップS2100から、画像をフォームとして解析して登録する処理を開始する。ステップS2101で画像データをデバイス又は所定のフォルダから、自動的もしくは手動で取得する。
【0158】
ステップS2102では、取り込んだ画像データの色深度を調べ、多値画像(カラー画像)であればステップS2103に進み、色深度の分布に基づいて2値化閾値を最適な値に設定し、ステップS2104で画像データを減色処理して白黒2値画像に変換してステップS2105に進む。一方、取り込んだ画像が多値画像でなく、2値画像であれば、ステップS2105に進む。
【0159】
ステップS2105では、文書画像データに傾きやよれなどがあるかどうか調べ、これらを修正するかどうか判断する。スキャナから読み取られた画像など大抵のデバイスから入力された画像の場合は、傾いて読み取られている場合が多いので、ステップS2106へ進む。一方、入力した画像データに傾きが無い場合にはステップS2109へ進む。なお、ステップS2105で画像処理を行うか否かの判断は、画像取得先のデバイスの種類(スキャナ、FAX、フォルダなど)毎に予め決めておいてもよいし、取得した画像に含まれる罫線方向や文字画像の向きを判断して傾き補正が必要かどうかを判断するようにしてもよい。
【0160】
ステップS2106では、取り込んだ文書画像データの外側の縁に黒色の部分があるかどうか判断する。スキャナでスキャンする面の背景が黒色の場合、原稿が傾いている場合、もしくは原稿サイズがスキャン面より小さい場合には、図19の1911のように、読み取った画像の外側の縁に背景の黒色が含まれる。黒色部分がある場合は、ステップS2108へ進み、黒色部分と原稿の境界が分かるので、その境界線に基づいて原稿の傾きを求め、この傾き角度により文書画像の傾きを補正する。一方、黒色部分がない場合は、ステップS2107へ進み、文書画像中の文字列の並び具合、もしくは表枠の罫線方向に基づいて、傾き角度を求めて、文書画像データの文字が正立するように傾き補正をする。
【0161】
ステップS2109では、補正された文書画像データから特徴を抽出する方法と、所定の処理を実行するエリアの指定を行う。また、ここで該文書画像データから特徴データを抽出する。ここで指定できる画像の特徴情報の抽出エンジンは、図20で示したように、OCRエンジン2002、帳票認識エンジン2003、バーコードエンジン2004、その他2005などである。
【0162】
ステップS2110では、ステップS2109で指定されたエンジン設定と、エリアと、そのエリア(又は文書全体)に対する処理(スムージング処理など)と、指定されたエンジンで該文書画像データから特徴抽出して得た画像特徴データとを、登録フォームとして保存する。
【0163】
<比較検索処理と登録処理実行の詳細(図22)>
図22は、取得した文書データと登録フォームとを比較して、一致する登録フォームを検索する比較検索処理(S811)の詳細と、設定された登録処理(S822)の実行を示すフローチャートである。
【0164】
ステップS2201で、文書画像データをデバイスなどから、手動もしくは自動で取得する。
【0165】
ステップS2202では、取得した画像データの色深度を調べ、2値画像の場合にはステップS2203に進み、多値画像(カラー画像)の場合にはステップS2202に進んで、2値化閾値を最適な値に設定し、ステップS2203にて画像データを減色処理し白黒2値画像に変換する。
【0166】
ステップS2204では、画像データの文書に傾きやよれなどがあるかどうか調べ、これらを修正するかどうか判断する。スキャナから読み取られた画像など大抵のデバイスから入力された画像の場合は、傾いて読み取られている場合が多いのでステップS2205へ進む。一方、入力した画像データに傾きが無い場合にはステップS2208へ進む。
【0167】
ステップS2205では、取り込んだ文書画像データの外側の縁に黒色の部分があるかどうか判断する。スキャナでスキャンする面の背景が黒色の場合、原稿が傾いている場合、もしくは原稿サイズがスキャン面より小さい場合には、図19の1911のように、読み取った画像の外側の縁に背景の黒色が含まれる。黒色部分がある場合は、ステップS2207へ進み、黒色部分と原稿の境界が分かるので、その境界線に基づいて原稿の傾きを求め、この傾き角度により文書画像の傾きを補正する。一方、黒色部分がない場合は、ステップS2206へ進み、文書画像中の文字列の並び具合、もしくは表枠の罫線方向に基づいて、傾き角度を求めて、文書画像データの文字が正立するように傾き補正をする。
【0168】
ステップS2208では、登録フォームの特徴抽出方法と同じ方法(ステップS2109で指定した方法)で、画像特徴を抽出する。
【0169】
ステップS2209では、ステップS2208で抽出した画像特徴と、登録フォームの画像特徴の情報とを比較し、その結果、画像特徴情報が一致する(または似通っている)登録フォームを識別する。
【0170】
ステップS2210で、該文書画像に対して、該文書画像の原点と識別された登録フォームの原点との間のズレや、変倍などを補正する。
【0171】
ステップS2211では、補正された画像から、エリアの領域画像を抽出し、該エリアに登録されている処理を実行させる。例えば、該エリアに対しOCRを行ってインデックスとして用いるよう処理が登録されていた場合は、OCR制御部に該エリアの領域画像を渡し、スムージング処理を施して文字認識処理(バーコード認識処理でもよい)を実行して、認識結果をインデックスとして用いるように制御する。
【0172】
<比較検索・画像補正の詳細処理(図23)>
図23は、ステップS2209〜S2210の比較検索・画像補正処理の詳細を示す図である。
【0173】
ステップS2301では、登録フォームの画像特徴情報と、デバイスなどから送られてきた文書画像より画像特徴を抽出(S2208)した情報とを比較する。
【0174】
ステップS2302では、ステップS2301で比較した結果、同じ画像特徴をもつと判断した場合、ステップS2303に進み、同じであると判断された登録フォームと文書画像との一致度をそれぞれの画像特徴から計算し、該登録フォームのIDと一致度とをデータベースに一時保存する。一方、同じと判断されなかった場合は、ステップS2304に進む。(なお、本実施形態(図23)では、それぞれの特徴として枠表罫線の構成を用い、枠表罫線の構成が相似の構成を有するならば一致したと判断するものとする。)
ステップS2304では、予め全ての登録フォームと比較検索したかどうかを調べ、全ての比較が終わった場合には、ステップS2305に進み、全ての比較が終了していない場合には、ステップS2302に戻って次の登録フォームとの比較を行う。
【0175】
ステップS2305では、ステップS2303でデータベースに保存された結果に基づいて、一番一致度が高い登録フォームに関するデータを取り出す。
【0176】
ステップS2306で、文書画像の原点と、登録フォームの原点をそれぞれ求める。
【0177】
ステップS2307では、ステップS2306で求めた原点を比較し、原点がX座標、Y座標ともに同じと判断された場合は、ステップS2310に進み、異なると判断された場合は、ステップS2308に進む。
【0178】
ステップS2308では、それぞれの原点位置から差分を求める。
【0179】
ステップS2309では、該差分に基づいて、文書画像のズレを補正する。
【0180】
ステップS2310では、ステップS2305で取り出した登録フォームの画像特徴と、文書画像の特徴とに基づいて、それぞれの画像の大きさを比較し、どのくらいの比率で拡大縮小されているかを求める。
【0181】
ステップS2311では、ステップS2310にて求められた結果を元に、拡大縮小があるか判断し、あると判断した場合はステップS2312に進み、そうでない場合には、ステップS2313に進む。
【0182】
ステップS2312では、ステップS2311で求めた比率に従って、ステップS2309で補正した情報を更に補正する。
【0183】
【発明の効果】
以上説明したように、本実施形態によれば、識別された登録フォームに基づいて、文書画像の補正処理を行ってから、エリア画像を抽出して認識処理し、その認識結果をインデックスとして用いるので、認識精度が高くなる。また、認識精度が高くなるので効率よくインデックス入力を行うことができる。
【0184】
また、補正後の画像をスムージングすることにより、更に認識精度を高めることができる。
【図面の簡単な説明】
【図1】本発明の実施形態のシステム構成図
【図2】文書登録システム120の構造を示すブロック図
【図3】文書登録システムの基本フロー
【図4】テンプレート作成処理
【図5】ワークシート作成処理
【図6】フォーム登録処理
【図7】エリア登録処理
【図8】入力起動ボタン設定
【図9】入力起動ボタン実行処理
【図10】インデックス入力処理
【図11】リリース(データ登録)処理
【図12】ジョブ作成処理
【図13】ジョブ実行処理
【図14】拡張されたデバイス制御部
【図15】拡張された文書管理システム制御部
【図16】リリース処理の補足
【図17】デバイスから送信された文書の自動文書登録処理
【図18】フォーム解析部の構成
【図19】画像処理例
【図20】画像特徴比較エンジンの構成図
【図21】フォーム登録処理の詳細
【図22】比較検索処理と登録処理実行の詳細
【図23】比較検索・画像補正の詳細処理
【符号の説明】
100〜102 ユーザ端末
110 MFP
120 文書登録システム
130 ファイルサーバ
140 文書管理システム[0001]
BACKGROUND OF THE INVENTION
The present invention compares a document (form) image read from a scanner or the like with a pre-registered image (registration form) and corrects a positional deviation or a size difference between the images, a method, and a program And a storage medium.
[0002]
[Prior art]
An input form image read from a scanner is compared with a plurality of registered forms (registration forms) registered in a database in advance to specify the format of the form image.
[0003]
[Problems to be solved by the invention]
However, comparing the input form image read from the scanner with the registration form registered in the database in advance and specifying a similar registration form from the database means that the input form image read from the scanner has a tilt or the like, There was a problem that the matching accuracy deteriorated.
[0004]
In addition, if the read input form image has a positional deviation, inclination, or difference in resolution at the time of scanning, the character recognition accuracy is improved when character recognition processing of characters included in a predetermined area of the input form image is performed. There was a problem of getting worse.
[0005]
[Means for Solving the Problems]
In order to solve the above problems, a document processing system of the present invention is a document processing system that registers document image data and an index in a document management unit that manages document image data. A template creation unit for obtaining an index structure of the database of the document management unit, creating a template based on the obtained index structure and connection information to the database of the document management unit, and storing the created template; Based on the template, a worksheet creation means for creating a worksheet having items for use in index registration; Storage means for storing a plurality of registration forms; An area registration means for setting an area on the registration form and associating the set area with an item of the worksheet; Feature extraction means for extracting feature information from the input document image data, comparing the feature information of the extracted document image with the feature information of each of the stored registration forms, A difference between the registration form and the document image based on the form identification means for identifying the registration form determined to match the comparison result, the feature information of the identified registration form, and the feature information of the document image A difference extracting means for extracting the image, an image correcting means for correcting the document image based on the extracted difference, and the corrected document image based on an area set in the identified registration form. Area extracting means for extracting the corresponding area, recognition means for recognizing the image of the extracted area, and the recognition result by the recognition means , The item corresponding to the area As an index, Worksheet registration means for registering in the worksheet, determination means for determining whether or not to continue to input other document image data, and if the determination means determines to continue input, the other document image data While performing processing by the feature extraction unit, the form identification unit, the difference extraction unit, the image correction unit, the area extraction unit, the recognition unit, the worksheet registration unit, and the determination unit, If the determination means determines that the input is not continued, the index registered in the worksheet is Registration means for registering with the document image data together with the document image data.
[0006]
In order to solve the above problems, a document processing method of the present invention is a document processing method for registering document image data and an index in a document management unit that manages document image data, A template creation unit obtains an index structure of the database of the document management unit, creates a template based on the obtained index structure and connection information to the database of the document management unit, and stores the created template A template creation step, a worksheet creation step in which the worksheet creation means creates a worksheet having items to be used for index registration based on the template, and an area registration means are stored in the storage means. An area registration step of setting an area on the registration form, associating the set area with the item of the worksheet, and a feature extraction unit, A feature extraction step for extracting feature information from the input document image data; Form identification means Feature information of the extracted document image; Above A form identification step for comparing the feature information of each of the plurality of registered forms stored in the storage means and identifying the registered form determined to match the comparison results; The difference extraction means A difference extracting step of extracting a difference between the registered form and the document image based on the identified registration form feature information and the document image feature information; Image correction means An image correcting step for correcting the document image based on the extracted difference; Area extraction means An area extraction step of extracting a corresponding area of the corrected document image based on an area set in the identified registration form; Recognition means A recognition step for recognizing the image of the extracted area; Worksheet registration means The recognition result in the recognition step , The item corresponding to the area As an index, If the worksheet registration step to be registered in the worksheet, the determination unit determines whether to continue inputting other document image data, and the determination step determines to continue the input, One of repeating the feature extraction step, the form identification step, the difference extraction step, the image correction step, the area extraction step, the recognition step, the worksheet registration step, and the determination step for the document image data of When the determination unit determines that the input is not continued, the registration unit displays the index registered in the worksheet, And a registration step of registering in the document management unit together with the document image data.
[0007]
DETAILED DESCRIPTION OF THE INVENTION
FIG. 1 shows a system configuration diagram in the present embodiment.
[0008]
Here, on a network, a user terminal (100, 101, 102), an MFP (multifunction peripheral) (110) having a fax / scanner / printer / copy function, a document registration system (120), a file server (130), A document management system (140) is connected.
[0009]
Each user terminal uses the
[0010]
In this embodiment, the MFP 110 having a plurality of functions is used as the document input device. However, a single-function device such as a scanner device or a facsimile device may be used instead of the MFP.
[0011]
The
[0012]
The
[0013]
The document registration system 120 automatically or manually specifies and acquires a document (fax received document image, scanner-read document image, etc.) generated by the
[0014]
In the present embodiment, the document registration apparatus stores a CPU that performs actual processing operations, a RAM that reads a program and uses it as a work area, a program for executing processing corresponding to a flowchart to be described later, and various data. Storage media (hard disk, ROM, removable disk (floppy disk, CD-ROM, etc.)), keyboard and pointing device for various operations, display for displaying documents to be processed, and network connection It is a computer configured with a network interface. The program to be executed by the CPU may be supplied from the storage medium or may be read from an external device via a network. In addition, although this embodiment shall be implement | achieved when a computer runs a program, you may make it comprise the one part or all by hardware.
[0015]
FIG. 2 is a block diagram showing the structure of the document registration system 120.
[0016]
<Document input processing to the document registration system>
First, document input processing to the document registration system 120 (document acquisition processing by the document registration system) will be described.
[0017]
The
[0018]
[0019]
[0020]
An
[0021]
<Internal processing of document registration system>
Next, processing in the document registration system will be described.
[0022]
Reference numeral 221 denotes a job control unit that performs control related to a job to be described later.
[0023]
A document data processing unit 222 performs an image format conversion process and the like.
[0024]
[0025]
A data management unit 224 saves and manages data on templates, worksheets, jobs, and the like, which will be described later, in a
[0026]
[0027]
A form (form) analysis unit 226 can automatically identify various forms such as a form format using the registered
[0028]
[0029]
<Access processing to the document management system in the document registration system>
Next, an interface with the document management system in the document registration system will be described.
[0030]
[0031]
A
[0032]
<< Basic Flow of Document Registration System (Fig. 3) >>
FIG. 3 is a basic flowchart in the document registration system 120.
[0033]
First, a processing flow when a document (image) is manually acquired, an index (attribute information) is input, and the document and the index are registered in the document management system will be described.
[0034]
In step S100, the index structure of the database of the document management system is acquired, and a template (model) for creating a worksheet is created from the index structure. This template includes access information to the document management system and schema information (item information that can be used as an index) created from the index structure. Details of the template creation processing will be described later with reference to FIG.
[0035]
In step S101, a worksheet is created from the template. This creation process is described in detail in FIG. In this worksheet, fields (items) and the like for actually registering index information are set. In this embodiment, management of acquired documents, index information added to the documents, and the like are performed and managed in a series of processes (as a management table) in units of the worksheets. In this example, a worksheet is created from the template created in step S100. However, step S100 is omitted, a template created and saved in advance is selected, and a worksheet is created from the selected template. You may do it.
[0036]
It is also possible to select a worksheet that has already been created / registered and input document information and index information to the worksheet. In this case, in step S110, the worksheet selected by the user is extracted from the worksheets stored in the
[0037]
In step S102, the worksheet created in step S101 or the worksheet selected in step S110 is displayed on the display.
[0038]
In step S103, the document acquired from the device is input.
[0039]
In step S104, the document information is registered in the worksheet. Specifically, the input document name (document ID) is registered in the item (schema information) of the document name (document ID) of the worksheet, and the document registered in the worksheet can be identified.
[0040]
In step S105, necessary index (attribute) information is input and managed for each item of the worksheet. The index information may be input manually by the user, or information obtained by automatically performing OCR or the like on the document may be input. Details of the index information input will be described later with reference to FIG.
[0041]
If it is necessary to input another document in step S106, the process returns to step S103.
[0042]
In step S107, the data in the worksheet acquired / set by the above processing is released (registered) to the document management system. Details of the release process will be described later with reference to FIG.
[0043]
Next, when a document input process is set in advance on an input activation button on a GUI (graphical user interface) (FIG. 8) and the input activation button is pressed, the process is executed. The process will be described.
[0044]
When it is detected in step S120 that the input activation button has been pressed, a process preset for the button is determined. In step S121, a document acquisition process corresponding to the set condition (for example, designated in advance) is determined. Process to acquire a document newly stored in the specified folder, or to acquire a document image by reading a document with a scanner specified in advance, and register it in a preset worksheet To do. The execution of the input activation button process will be described later with reference to FIG.
[0045]
In step S122, an index is input to the worksheet. Details of the index input process will be described later with reference to FIG.
[0046]
In step S123, the data in the worksheet acquired / set by the above process is released (registered) to the document management system. Details of the release process will be described later with reference to FIG.
[0047]
In addition, a document acquisition setting, index setting, and release setting are designated and created and saved as a job in advance, and the job selected by the user from the plurality of saved jobs (step S130) is executed (step S130). Step S131) can also be performed. Details of the job selection / execution process will be described later with reference to FIG.
[0048]
Although details will be described later, it is also possible to automatically input an index using a form when inputting an index in steps S105 and S122. In step S140, processing for registering the form is performed, and in step S141, an area is set in the form. Details of the form registration process will be described later with reference to FIG. 6, and details of the area registration process will be described later with reference to FIG.
[0049]
In step S150, various setting processes (job setting process (FIG. 12), input activation button setting process (FIG. 8), etc.) for executing the above processes are performed.
[0050]
The processing described above will be described in detail below.
[0051]
<Template creation process (FIG. 4)>
The template creation process (step S100) will be described in detail with reference to FIG.
[0052]
In step S200, a connection is first made to the document management system of the document registration destination.
[0053]
In step S201, an index structure of a database in the document management system (schema information (information that can be used as a search index) set in a folder in which a document is stored) is acquired.
[0054]
In step S202, a template that collectively manages connection information to the document management system and schema information is created, and identification information (template name) for identifying the created template is added and saved.
[0055]
<Worksheet creation process (FIG. 5)>
The worksheet creation process (step S101) for creating a worksheet from a saved template will be described in detail with reference to FIG.
[0056]
In step S300, first, the user is allowed to select a template corresponding to the document management system of the document registration destination. Note that this selection step may be omitted when a worksheet is created directly from the template created in FIG.
[0057]
In step S301, if the schema information of the document management system stored in the template does not need to be indexed, is editing such as selecting a field corresponding to the schema information as an input target? Judge whether the instruction was given.
[0058]
If it is determined that field editing is to be performed, the field editing operation is performed in step S302. Basically, this is an operation for selecting a necessary field from item areas (fields) of a template that can be used as schema information. In some cases, an extension of the area (field) can be instructed.
[0059]
In step S303, a predetermined setting such as field editing is confirmed, and a worksheet is created from the selected template.
[0060]
In step S304, identification information (worksheet name) for identifying the created worksheet is added and saved.
[0061]
<Form registration process (Fig. 6)>
A form registration process (step S140) for registering a form for use in a process for identifying an input document and a process for extracting information from an image as an index will be described in detail with reference to FIG.
[0062]
In step S400, image data used as a reference at the time of form analysis is acquired.
[0063]
In step S401, the previously obtained image data is registered in a form management sheet for managing various forms.
[0064]
In step S402, the image data is passed to the form analysis unit 226 that performs form analysis processing (analyzes position and size information about the frames and tables constituting the form, written character information, etc.) Data form analysis processing is performed, the form analysis result is registered in the form management sheet in association with the image data, and managed as registered
[0065]
In step S403, the newly added registration form data is added with identification information (form registration name) and saved.
[0066]
<Area registration processing (FIG. 7)>
The area registration process (step S141) for setting an area for performing character recognition, barcode recognition, etc. on the registration form will be described in detail with reference to FIG. This area is used for recognizing the document area corresponding to the area set in the registration form and registering the recognition result as an index in the worksheet when indexing the document. .
[0067]
In step S500, the user first selects a form for setting an area.
[0068]
In step S501, the user is allowed to specify an area to be a form analysis target area.
[0069]
In step S502, the analysis mode of the area is designated. Detailed conditions for improving the recognition rate are set as the analysis mode. For example, designation of alphanumeric character recognition, kana / kanji character recognition, analysis engine such as barcode recognition, and the like can be designated for each area. You can also set the correspondence between areas and template items (worksheet items) here. When analyzing and registering document images, the recognition results for each area are displayed in the corresponding worksheet. The item is entered as an index. The association between the area and the worksheet item (template item) may be changed when the index input process is performed.
[0070]
In step S503, it is determined whether another area setting instruction has been issued. If another area is set, the process returns to step S501. If the area setting is completed, the process proceeds to step S504.
[0071]
In step S504, the setting information regarding the set area is registered as additional information for the registration form data.
[0072]
<Input activation button setting (FIG. 8)>
The input activation button setting process (step S150) will be described in detail with reference to FIG. When the input activation button is pressed, input processing from various data sources (folders, scanners, etc.) is performed at once.
[0073]
In step S600, the user is allowed to select a worksheet for registering a document acquired from the set data source when the input activation button is pressed.
[0074]
In step S601, the user is made to select a data source (folder, scanner, etc.) from which document data is acquired.
[0075]
In step S602, it is determined whether the scanner is designated as the data source. If the scanner is designated, the scanner reading mode (reading resolution, reading area, etc.) is set in step S603.
[0076]
In step S604, it is determined whether the folder is designated as a data source. If a folder is designated, folder access settings (access conditions such as access right settings) are performed in step S605.
[0077]
In step S610, the set condition is registered in association with the input activation button, and the input activation button is displayed as a GUI. Also, a plurality of input activation buttons can be registered and displayed by changing the button name and shape according to the setting conditions.
[0078]
<Input activation button execution processing (FIG. 9)>
The execution process (step S121) when the input activation button is pressed will be described in detail with reference to FIG.
[0079]
In step S700, the condition (setting mode) set for the pressed input activation button is read.
[0080]
In step S710, it is determined whether the scanner is designated. If the scanner is set, the process proceeds to step S711 to perform scanning according to the scanner reading condition set as the setting mode to obtain a document image. In step S712, the document is saved in the worksheet.
[0081]
In step S720, it is determined whether or not document acquisition from a folder is set. If acquisition from a folder is set, the process proceeds to step 721, and a condition for acquiring a document from the folder (for example, a newly input document) In step S722, the content of the folder is checked. In step S722, whether there is a document satisfying the condition is determined. In step S723, the document is acquired, and in step S724, the document is stored in the worksheet. On the other hand, if it is determined in step S722 that no document satisfies the condition, the process proceeds to step S725.
[0082]
Step S725 is a determination process used when a condition for acquiring a document by periodically checking (polling) the folder is set, and when the cancellation of the periodic folder check is instructed or originally. If the setting conditions for periodic folder confirmation have not been made, the process ends. If not, the process returns to step S721 again to periodically confirm the contents of the designated folder.
[0083]
<Index input process (FIG. 10)>
The index input process (S105, S122, S1121, etc.) for inputting a document index to the worksheet will be described in detail with reference to FIG.
[0084]
In step S800, it is determined whether or not automatic processing such as a job has been specified. If automatic processing is selected, the processing proceeds to step S815. If not, worksheets and forms are sequentially selected.
[0085]
If it is not automatic processing, in step S801, the user selects the worksheet by designating the worksheet.
[0086]
In step S802, it is determined whether the index is input manually by the user or the index is input using a registration form. When it is instructed by the user to manually input index information, manual index input is performed in step S803, and then it is determined in step S804 whether there are other documents to be processed, and there are other documents. Returns to step S800, and if not, the process ends.
[0087]
On the other hand, if it is determined in step S802 that an instruction to input an index using the registered form has been given, the process proceeds to step S810 to determine whether to use the automatic form detection function. If it is determined that the use of the automatic form detection function has been instructed, in step S811, a form detection process for detecting a form that matches the input document from a plurality of registered forms is performed. If a matching form is detected by the form detection process, the process proceeds from step S812 to step S820. If a matching form is not detected, the process proceeds from step S812 to step S813. On the other hand, if it is determined in step S810 that use of the automatic form detection function is not instructed and manual form selection is instructed, the process proceeds to step S813. In step S813, a desired form is manually selected from a plurality of registered forms according to a user instruction.
[0088]
In step S820, an area set in the registration form selected automatically or manually is searched.
[0089]
In step S821, it is determined whether or not the indexing process using the information in the area corresponding to all areas set in the registration form has been completed in the document. If the indexing process has been completed, the process proceeds to step S804. On the other hand, if not completed, the process proceeds to step S822.
[0090]
In step S822, area analysis is performed according to the area analysis conditions set in the registration form. Here, it is also possible for the user to actively adjust the area range set as the area analysis condition. The adjustment of the area range is performed by displaying the area range set as the analysis condition of the set area in a state where the input document image is displayed, with a rectangle of a predetermined color superimposed. The area range can be adjusted by adjusting the rectangle. Further, the character image smoothing process (black pixel block edge smoothing process) is performed on the image data cut out in accordance with the region range. The character image here includes all of the meanings transmitted in the form of the bit arrangement of the bitmap such as barcode data and pictographs. The smoothing process of the character image is included in the
[0091]
In step S823, it is determined whether the area analysis process has succeeded without any abnormality. If the process ends abnormally, the process proceeds to step S824, where it is determined whether the process is in the automatic process mode. If the process is not in the automatic process mode, the user manually inputs an index in step S825. Do. Here, the provisional process is, for example, a process of adding an NG mark indicating that the area analysis is unsuccessful, or outputting a value defined as another default as an index.
[0092]
In step S830, the result of area analysis processing is saved in the worksheet, and the process returns to step S820 to search for another unprocessed area.
[0093]
On the other hand, if it is determined in step S800 that automatic processing such as a job has been designated, in step S815, a worksheet associated with the automatic processing is selected, and preprocessing for automatic indexing processing is performed. Here, the automatic processing is premised on that a worksheet is set in advance. If the registration form is also designated in advance in the automatic processing, the process proceeds to step S820 assuming that the form is detected in step S816. If the setting is such that the registration form is automatically detected and selected in the automatic process, the form detection process similar to step S811 is performed in this pre-process, and a matching registration form is detected. If the form is detected in step S816, the process proceeds to step S820. On the other hand, if the registered form cannot be determined, the process proceeds to post-processing in step S817, and the document is displayed on the worksheet as a document that could not be processed. In step S804, it is determined whether to process the next document.
[0094]
<Release (data registration) processing (FIG. 11)>
A process (S107, S123, S1131, etc.) for releasing (registering) data (document information and index information) managed in the worksheet in the document management system will be described in detail with reference to FIG.
[0095]
In step S900, it is determined whether automatic release is designated. If it is determined that the release is automatic release, the process proceeds to step S901. If it is determined that the automatic release is not performed, the process proceeds to step S910.
[0096]
In the case of automatic release, in step S901, automatic release setting information (connection information to the registration destination document management system, registration destination folder information, etc.) is first acquired from the worksheet, and in step S902, the document management system A connection process to the storage folder is performed, and the process proceeds to step S920 to prepare data to be released.
[0097]
If it is not automatic release, in step S910, first, from the document managed in the worksheet, the selection of the document to be registered and the handling (deletion) of the document stored in the document registration system after registration in the document management system are performed. It can be set. To select a document to be registered, a plurality of registration target document IDs managed in the worksheet and an index corresponding to each document are displayed in a table format of the worksheet, and a registration process is performed from the list. A document can be selected. During the selection process, the document ID and index selected on the worksheet are highlighted so that the user can easily understand that the document is selected.
[0098]
In step S911, login processing is performed to the document management system as a registration destination, and a folder for storing the document is designated.
[0099]
In step S912, options can be set at the time of document registration, and an execution log related to document registration processing can be set, and conversion settings for the document format at the time of document registration can be set.
[0100]
In step S920, document information to be registered in the document management system is temporarily stored in the internal
[0101]
In step S930, it is determined whether a format conversion of the document image to be registered or a process for adding a result of OCR analysis of the document image is instructed. If it is determined that the instruction is instructed, in step S931, according to the instruction. Perform image processing.
[0102]
In step S940, the prepared document data and the like are registered in the folder of the registration destination document management system.
[0103]
In step S950, it is determined whether deletion of the document stored in the document registration system is instructed after registration of the document in the document management system. If deletion is instructed, deletion of the document is performed in step S951. The process is performed and the release process is terminated.
[0104]
<Job creation processing (FIG. 12)>
With reference to FIG. 12, a process (S150) for defining each setting of the document acquisition process, the index process, and the release process and creating it as one job will be described in detail.
[0105]
In step S1000, it is determined whether automatic document acquisition job settings have been specified. If so, the process proceeds to step S1001 to set a worksheet to be used, specify a scanner or folder as a source device, and the like. Set for acquisition.
[0106]
In step S1010, it is determined whether setting of automatic processing for index input has been instructed. If setting is performed, index processing such as setting of a worksheet to be used, designation of a registered form or designation of automatic search for a registered form is performed in step S1011. Set the items required to automatically process
[0107]
In step S1020, it is determined whether an automatic release (document registration) setting has been instructed, and if so, in step S1021, the worksheet to be processed, the document registration destination (document management system, folder), and the post-registration are registered. Set information necessary for automatic release processing such as document handling.
[0108]
In step S1030, the setting information set in steps S1001, S1011, and S1021 is added with identification information (job name) and stored.
[0109]
It is possible to register and save a plurality of jobs combining various settings.
[0110]
<Job execution processing (FIG. 13)>
The job execution process (S130, 131) will be described in detail with reference to FIG.
[0111]
In step S1100, the user selects a desired job from a plurality of registered and stored jobs.
[0112]
In step S1101, the conditions set for the selected job are read and job execution processing is started.
[0113]
In step S1110, it is determined whether an automatic document acquisition job is set. If it is determined that a job is set, in step S1111, document acquisition processing is performed from the device according to the setting. In step S1112, the acquired document is converted into a worksheet. Manage and save with.
[0114]
In step S1120, it is determined whether or not automatic index input processing is set. If it is determined that index input is set, automatic index processing is executed in step S1121 according to the set conditions. In the automatic index processing, when automatic form detection is performed, image processing such as various zooming and misalignment correction is performed, and information described on the image is acquired according to area (region) settings. Further, by performing smoothing processing on the image information and performing character recognition (OCR) processing, index data based on text data can be automatically created.
[0115]
In step S1130, it is determined whether automatic release (document registration) processing is set. If it is determined that it is set, in step S1131, automatic release processing is performed to the document management system according to the set conditions.
[0116]
By setting a job from document acquisition to document registration as a job, a series of processing can be performed at once.
[0117]
<Extended device control unit (FIG. 14)>
In the present embodiment, the device control shown in FIG. 2 is further performed, and the method for acquiring a document from the device can be extended to support a plurality of forms. The extended device control will be described with reference to FIG.
[0118]
The device control unit A (210) accesses the device side from the document registration system and acquires a document. Using this control unit A, it is possible to acquire document data from a plurality of devices (110, 111) compatible with an equivalent access acquisition method.
[0119]
The device control unit B (211) obtains a transmitted document by accessing from the device side, not from the document registration system. Also in this case, it is possible to acquire a document from a plurality of devices (112, 113) corresponding to the equivalent access method.
[0120]
In addition, the device control unit B is provided with a
[0121]
Furthermore, when acquiring document data, in addition to the document image, additional (attribute) information related to the document data (for example, owner information of each document, transmission source information in the case of a fax reception document, information on a connected device, etc. ) And the data can be used in the system.
[0122]
The
[0123]
<Extended Document Management System Control Unit (FIG. 15)>
In the present embodiment, it is possible to expand so that document data acquired from a device or the like and its index (additional information) can be registered in a plurality of document management systems that manage documents in various different formats. FIG. 15 is a diagram for explaining the correspondence when the document management system A and the document management system B that manage documents in different formats coexist on the network.
[0124]
Here, the access means and the file format of a document that can be handled are generally different depending on the type of the document management system. Therefore, for the document management system A (140), the access control unit A (230), An access control unit B (231) is provided for the document management system B (141). The document registration system 120 can cope with a case where a plurality of document management systems that manage documents in different formats coexist by changing the access control unit to be used according to the document management system of the registration destination.
[0125]
Information necessary for accessing each document management system is stored as
[0126]
<Supplement to Release Process in FIG. 11 (FIG. 16)>
A supplement regarding the release (registration) processing (step S940) to the document management system will be described with reference to FIG.
[0127]
Step S1200 is a setting process for starting the release process, and confirms whether or not an end notification is necessary, and obtains an end notification destination information acquisition process.
[0128]
Step S1210 is a process for confirming whether there is any remaining data to be registered in the document management system. If all the data to be registered has not been transmitted, the process proceeds to step S1211, and if there is no remaining data, the process proceeds to step S1220.
[0129]
In step S1211, registration processing is performed for transmitting and registering data to be registered in the document management system.
[0130]
In step S1212, it is determined whether or not the transmitted data is registered. If it is confirmed that the data has been registered, the process returns to step S1210. If the registration fails, the process proceeds to step S1213.
[0131]
Step S1213 is processing in the case where an error occurs in data registration in the document management system. Data relating to a document in which a registration error has occurred is registered as a registration error document data in a predetermined worksheet, and then manual re-registration processing is performed. Can be done.
[0132]
In step S1220, based on the setting in S1200, it is determined whether it is necessary to notify the user of registration completion. If not, the process ends.
[0133]
If it is determined that it is necessary to notify the end, in step S1221, it is determined whether there is an error in the result of the data registration process. If there is no error, in step S1222, a new document is sent to the pre-registered registration notification mail address. If it is determined that an error has occurred, on the other hand, if it is determined that an error has occurred, in step SS1223, the error information is sent to the pre-registered error notification email address. It has become.
[0134]
<Automatic Document Registration Processing for Documents Sent from Device (FIG. 17)>
FIG. 17 describes a flow for automatically processing the document data sent from the device until the document registration. In FIG. 17, document registration automatic processing to the document management system and form registration automatic processing to the document registration system are described as registration forms.
[0135]
In step S1300, various items necessary for executing automatic document processing are set in advance, and the set automatic document processing is activated.
[0136]
The setting items here include settings related to document input processing, folders used for form registration processing, setting of attribute information to be used, setting of worksheets for processing corresponding to each attribute, automatic index input There is a setting of the form used for performing.
[0137]
Examples of attribute information include the following. The attribute information is used for automatic processing discrimination and index input.
[0138]
・ Device type
Folder path (
・ Document owner information
・ Sender information in FAX received documents
・ Area analysis results, etc.
In step S1301, it is detected whether or not a document is input. If there is a document input, the process proceeds to step S1302. In the present embodiment, document data input from a device via a device control unit and document data input from a device via a folder control unit can be collectively handled. In the present embodiment, it is assumed that a document transmitted by push from a device is input via a data folder of the device control unit. Whether or not a new document has been input to the folder is detected by periodically checking the folder in the same manner as in S721 to S725 in FIG.
[0139]
In step S1302, the route through which the input document has entered is confirmed.
[0140]
In step S1310, it is determined whether the document is input via the form registration folder. If it is determined that the document is input via the form registration folder, the form registration process is automatically performed in step S1311. The document entered is registered as a form.
[0141]
In step S1320, various attribute information is analyzed, and it is confirmed whether or not a process corresponding to the obtained attribute information is defined. For example, it is assumed that a document input via a predetermined folder A or a document input from a predetermined device is defined to perform automatic processing for registering in a folder X of a predetermined document management system.
[0142]
As attribute information, information on devices, folders, and the like obtained by the
[0143]
In step S1321, it is determined whether or not automatic processing corresponding to the attribute information of the input document has been detected. If not, the process proceeds to step S1323 to temporarily store the input document. Can be handled manually.
[0144]
On the other hand, when the corresponding process is detected (for example, when the registration process to the folder X of the predetermined document management system is detected), the process proceeds to step S1324, and information necessary for the automatic index process and the automatic release process is read. In step S1330, automatic index input is performed using area information corresponding to the form as necessary, and in step S1340, automatic release processing for registering the document and index in the document management system is performed.
[0145]
In step S1350, it is determined whether a request to end automatic document processing has been made. If so, the processing is terminated. If not, the processing returns to step S1301, and the processing is continued.
[0146]
<Configuration of form analysis unit (FIG. 18)>
FIG. 18 is a detailed configuration diagram of the form analysis unit (form processing unit).
[0147]
The form analysis unit includes an
[0148]
When creating and registering a form (model) based on the read image, first, the
[0149]
The process of searching for a registration form that matches the input image among a plurality of registration forms is performed by first performing image processing such as tilt correction on the input document image in the image processing engine, A
[0150]
Then, the document image that has been subjected to image processing in this way and the information of the identified registration form are sent to the OCR control unit, and the OCR control unit performs the image processing based on the area information set in the registration form. After the region image is extracted from the document image on which is executed, the extracted region image is subjected to the smoothing process, the character recognition process is performed, and the character recognition process result is stored in the worksheet as an index.
[0151]
<Example of image processing (FIG. 19)>
FIG. 19 shows an example when image data is processed by the
[0152]
[0153]
<Configuration of image feature comparison engine (FIG. 20)>
FIG. 20 shows a configuration diagram of an image feature comparison engine used when identifying a registration form.
[0154]
The image
[0155]
In this embodiment, an engine of OCR, a form, and a barcode is used. However, some combinations among them may be used, and
[0156]
<Details of form registration process (FIG. 21)>
FIG. 21 shows the details of the process of registering an image as a registration form (S402) in which a form analysis process is performed to extract and register form information.
[0157]
From step S2100, processing for analyzing and registering an image as a form is started. In step S2101, image data is automatically or manually acquired from the device or a predetermined folder.
[0158]
In step S2102, the color depth of the captured image data is checked, and if it is a multi-valued image (color image), the process proceeds to step S2103, the binarization threshold is set to an optimum value based on the color depth distribution, and step S2104 is performed. In step S2105, the image data is subjected to color reduction processing to be converted into a monochrome binary image. On the other hand, if the captured image is not a multi-valued image but a binary image, the process advances to step S2105.
[0159]
In step S2105, it is checked whether the document image data has an inclination or a twist, and it is determined whether to correct these. In the case of an image input from most devices, such as an image read from a scanner, the image is often read at an angle, so the process advances to step S2106. On the other hand, if the input image data has no inclination, the process advances to step S2109. Whether or not to perform image processing in step S2105 may be determined in advance for each type of image acquisition destination device (scanner, FAX, folder, etc.), and the ruled line direction included in the acquired image. Alternatively, the orientation of the character image may be determined to determine whether inclination correction is necessary.
[0160]
In step S2106, it is determined whether there is a black portion on the outer edge of the captured document image data. When the background of the surface to be scanned by the scanner is black, when the document is tilted, or when the document size is smaller than the scan surface, as shown in 1911 of FIG. Is included. If there is a black part, the process advances to step S2108, and the boundary between the black part and the original is known. Therefore, the inclination of the original is obtained based on the boundary line, and the inclination of the document image is corrected based on the inclination angle. On the other hand, if there is no black portion, the process advances to step S2107 to determine the inclination angle based on the arrangement of character strings in the document image or the ruled line direction of the table frame so that the characters of the document image data are upright. Correct the tilt.
[0161]
In step S2109, a method for extracting features from the corrected document image data and an area for executing a predetermined process are designated. Here, feature data is extracted from the document image data. The image feature information extraction engines that can be specified here are an
[0162]
In step S2110, the engine setting specified in step S2109, the area, processing for the area (or the entire document) (such as smoothing processing), and an image obtained by extracting features from the document image data using the specified engine. Save the feature data as a registration form.
[0163]
<Details of Comparison Search Processing and Registration Processing Execution (FIG. 22)>
FIG. 22 is a flowchart showing details of the comparison search process (S811) for comparing the acquired document data with the registration form and searching for a matching registration form, and the execution of the set registration process (S822).
[0164]
In step S2201, document image data is acquired manually or automatically from a device or the like.
[0165]
In step S2202, the color depth of the acquired image data is checked, and in the case of a binary image, the process proceeds to step S2203. In the case of a multi-valued image (color image), the process proceeds to step S2202, and the binarization threshold value is optimized. In step S2203, the image data is subjected to color reduction processing and converted into a monochrome binary image.
[0166]
In step S2204, it is checked whether or not the image data document is tilted or twisted, and it is determined whether or not to correct these. In the case of an image input from most devices, such as an image read from a scanner, in many cases, the image is read at an angle, so the process advances to step S2205. On the other hand, if the input image data has no inclination, the process advances to step S2208.
[0167]
In step S2205, it is determined whether there is a black portion on the outer edge of the captured document image data. When the background of the surface to be scanned by the scanner is black, when the document is tilted, or when the document size is smaller than the scan surface, as shown in 1911 of FIG. Is included. If there is a black part, the process proceeds to step S2207, where the boundary between the black part and the original is known. The inclination of the original is obtained based on the boundary line, and the inclination of the document image is corrected based on the inclination angle. On the other hand, if there is no black portion, the process advances to step S2206 to determine the inclination angle based on the arrangement of the character strings in the document image or the ruled line direction of the table frame so that the characters of the document image data stand upright. Correct the tilt.
[0168]
In step S2208, image features are extracted by the same method as the registered form feature extraction method (the method specified in step S2109).
[0169]
In step S2209, the image feature extracted in step S2208 is compared with the image feature information of the registration form, and as a result, a registration form that matches (or resembles) the image feature information is identified.
[0170]
In
[0171]
In step S2211, the area image of the area is extracted from the corrected image, and the process registered in the area is executed. For example, if processing is registered to perform OCR on the area and use it as an index, the area image of the area is transferred to the OCR control unit, and smoothing processing is performed to perform character recognition processing (barcode recognition processing may be used. ) And control to use the recognition result as an index.
[0172]
<Detailed processing of comparison search / image correction (FIG. 23)>
FIG. 23 is a diagram showing details of the comparison search / image correction processing in steps S2209 to S2210.
[0173]
In step S2301, image feature information on the registration form is compared with information obtained by extracting image features (S2208) from a document image sent from a device or the like.
[0174]
In step S2302, if it is determined in step S2301 that the image features have the same image characteristics, the process advances to step S2303, and the degree of coincidence between the registered form determined to be the same and the document image is calculated from each image feature. The registration form ID and the degree of coincidence are temporarily stored in the database. On the other hand, if it is not determined that they are the same, the process proceeds to step S2304. (In this embodiment (FIG. 23), the configuration of the frame table ruled line is used as each feature, and if the configuration of the frame table ruled line has a similar configuration, it is determined that they match.)
In step S2304, it is checked in advance whether or not all registered forms have been compared and searched. If all the comparisons have been completed, the process proceeds to step S2305. If all the comparisons have not been completed, the process returns to step S2302. Compare with the following registration form.
[0175]
In step S2305, based on the result stored in the database in step S2303, data relating to the registered form having the highest degree of matching is extracted.
[0176]
In step S2306, the origin of the document image and the origin of the registration form are obtained.
[0177]
In step S2307, the origins obtained in step S2306 are compared, and if it is determined that the origins are the same in both the X and Y coordinates, the process proceeds to step S2310, and if it is determined that they are different, the process proceeds to step S2308.
[0178]
In step S2308, a difference is obtained from each origin position.
[0179]
In step S2309, the deviation of the document image is corrected based on the difference.
[0180]
In step S2310, the size of each image is compared based on the image feature of the registration form extracted in step S2305 and the feature of the document image, and the ratio of enlargement / reduction is determined.
[0181]
In step S2311, it is determined whether there is enlargement / reduction based on the result obtained in step S2310. If it is determined that there is, the process proceeds to step S2312, and if not, the process proceeds to step S2313.
[0182]
In step S2312, the information corrected in step S2309 is further corrected according to the ratio obtained in step S2311.
[0183]
【The invention's effect】
As described above, according to the present embodiment, the document image is corrected based on the identified registration form, the area image is extracted and recognized, and the recognition result is used as an index. , Recognition accuracy is high. Further, since the recognition accuracy is increased, index input can be performed efficiently.
[0184]
Also, the recognition accuracy can be further improved by smoothing the corrected image.
[Brief description of the drawings]
FIG. 1 is a system configuration diagram of an embodiment of the present invention.
FIG. 2 is a block diagram showing the structure of the document registration system 120.
Fig. 3 Basic flow of document registration system
FIG. 4 Template creation processing
[Figure 5] Worksheet creation processing
[Figure 6] Form registration process
FIG. 7: Area registration process
[Figure 8] Input activation button setting
FIG. 9: Input activation button execution processing
FIG. 10: Index input processing
FIG. 11: Release (data registration) processing
FIG. 12 is a job creation process.
FIG. 13 is a job execution process.
FIG. 14 is an extended device controller.
FIG. 15 shows an extended document management system control unit.
FIG. 16: Supplement of release processing
FIG. 17 is an automatic document registration process for a document transmitted from a device.
FIG. 18 shows the configuration of the form analysis unit.
FIG. 19 is an image processing example.
FIG. 20 is a block diagram of an image feature comparison engine.
FIG. 21: Details of form registration processing
FIG. 22 shows details of comparison search processing and registration processing execution.
FIG. 23 shows detailed processing of comparison search and image correction.
[Explanation of symbols]
100 to 102 user terminals
110 MFP
120 Document registration system
130 File Server
140 Document Management System
Claims (10)
前記文書管理部のデータベースのインデックス構造を取得し、当該取得したインデックス構造と前記文書管理部のデータベースへの接続情報とに基づいてテンプレートを作成し、当該作成したテンプレートを保存するテンプレート作成手段と、
前記テンプレートに基づいて、インデックスの登録に用いるための項目を有するワークシートを作成するワークシート作成手段と、
複数の登録フォームを格納する格納手段と、
前記登録フォーム上でエリアを設定し、当該設定したエリアを前記ワークシートの項目と対応付けるエリア登録手段と、
入力された文書画像データから、特徴情報を抽出する特徴抽出手段と、
前記抽出された該文書画像の特徴情報と、前記格納されている複数の登録フォームそれぞれの特徴情報とを比較して、該比較結果が一致すると判断される登録フォームを識別するフォーム識別手段と、
前記識別された登録フォームの特徴情報と、前記文書画像の特徴情報とに基づいて、前記登録フォームと前記文書画像との差を抽出する差抽出手段と、
前記抽出された差に基づいて、前記文書画像を補正する画像補正手段と、
前記識別された登録フォームに設定されているエリアに基づいて、前記補正された文書画像の対応するエリアを抽出するエリア抽出手段と、
前記抽出されたエリアの画像を認識処理する認識手段と、
前記認識手段による認識結果を、当該エリアに対応する項目のインデックスとして、前記ワークシートに登録するワークシート登録手段と、
他の文書画像データの入力を継続するか否か判断する判断手段と、
前記判断手段で入力を継続すると判断した場合は、当該他の文書画像データを対象として、前記特徴抽出手段と前記フォーム識別手段と前記差抽出手段と前記画像補正手段と前記エリア抽出手段と前記認識手段と前記ワークシート登録手段と前記判断手段とによる処理を実行する一方、
前記判断手段で入力を継続しないと判断した場合は、前記ワークシートに登録されたインデックスを、前記文書画像データとともに前記文書管理部に登録する登録手段と
を有することを特徴とする文書処理システム。A document processing system that registers document image data and an index in a document management unit that manages document image data,
A template creation unit for obtaining an index structure of the database of the document management unit, creating a template based on the obtained index structure and connection information to the database of the document management unit, and storing the created template;
Based on the template, a worksheet creation means for creating a worksheet having items for use in index registration;
Storage means for storing a plurality of registration forms;
An area registration means for setting an area on the registration form and associating the set area with an item of the worksheet;
Feature extraction means for extracting feature information from the input document image data;
A form identifying means for comparing the extracted feature information of the document image with the feature information of each of the stored plurality of registered forms and identifying a registered form that is determined to match the comparison result;
Difference extraction means for extracting a difference between the registration form and the document image based on the feature information of the identified registration form and the feature information of the document image;
Image correcting means for correcting the document image based on the extracted difference;
Area extracting means for extracting a corresponding area of the corrected document image based on the area set in the identified registration form;
Recognizing means for recognizing the image of the extracted area;
Worksheet registration means for registering the recognition result by the recognition means in the worksheet as an index of items corresponding to the area ;
Determining means for determining whether or not to continue inputting other document image data;
When it is determined that the input is continued by the determination unit, the feature extraction unit, the form identification unit, the difference extraction unit, the image correction unit, the area extraction unit, and the recognition are performed on the other document image data. While executing the processing by the means, the worksheet registration means and the judgment means,
A document processing system comprising: a registration unit that registers an index registered in the worksheet together with the document image data in the document management unit when the determination unit determines that the input is not continued .
前記認識手段は、該スムージング処理されたエリア画像を認識処理することを特徴とする請求項1に記載の文書処理システム。Furthermore, it has smoothing means for smoothing the image of the area extracted by the area extraction means,
The document processing system according to claim 1, wherein the recognition unit performs a recognition process on the smoothed area image.
前記特徴抽出手段は、前記傾き補正された文書画像データから、特徴情報を抽出することを特徴とする請求項1乃至4のいずれかに記載の文書処理システム。Furthermore, it has an inclination correction means for correcting the inclination of the input document image data,
The feature extraction unit, a document processing system according to any of claims 1 to 4, characterized in that said from the slope corrected document image data, extracts the feature information.
テンプレート作成手段が、前記文書管理部のデータベースのインデックス構造を取得し、当該取得したインデックス構造と前記文書管理部のデータベースへの接続情報とに基づいてテンプレートを作成し、当該作成したテンプレートを保存するテンプレート作成ステップと、
ワークシート作成手段が、前記テンプレートに基づいて、インデックスの登録に用いるための項目を有するワークシートを作成するワークシート作成ステップと、
エリア登録手段が、格納手段に格納されている登録フォーム上でエリアを設定し、当該設定したエリアを前記ワークシートの項目と対応付けるエリア登録ステップと、
特徴抽出手段が、入力された文書画像データから、特徴情報を抽出する特徴抽出ステップと、
フォーム識別手段が、前記抽出された該文書画像の特徴情報と、前記格納手段に格納されている複数の登録フォームそれぞれの特徴情報とを比較して、該比較結果が一致すると判断される登録フォームを識別するフォーム識別ステップと、
差抽出手段が、前記識別された登録フォームの特徴情報と、前記文書画像の特徴情報とに基づいて、前記登録フォームと前記文書画像との差を抽出する差抽出ステップと、
画像補正手段が、前記抽出された差に基づいて、前記文書画像を補正する画像補正ステップと、
エリア抽出手段が、前記識別された登録フォームに設定されているエリアに基づいて、前記補正された文書画像の対応するエリアを抽出するエリア抽出ステップと、
認識手段が、前記抽出されたエリアの画像を認識処理する認識ステップと、
ワークシート登録手段が、前記認識ステップでの認識結果を、当該エリアに対応する項目のインデックスとして、前記ワークシートに登録するワークシート登録ステップと、
判断手段が、他の文書画像データの入力を継続するか否か判断する判断ステップと、
前記判断ステップで入力を継続すると判断した場合は、当該他の文書画像データを対象として、前記特徴抽出ステップと前記フォーム識別ステップと前記差抽出ステップと前記画像補正ステップと前記エリア抽出ステップと前記認識ステップと前記ワークシート登録ステップと前記判断ステップとを繰りかえす一方、前記判断手段で入力を継続しないと判断した場合は、登録手段が、前記ワークシートに登録されたインデックスを、前記文書画像データとともに前記文書管理部に登録する登録ステップと
を有することを特徴とする文書処理方法。A document processing method for registering document image data and an index in a document management unit that manages document image data,
A template creation unit obtains an index structure of the database of the document management unit, creates a template based on the obtained index structure and connection information to the database of the document management unit, and stores the created template A template creation step;
A worksheet creating step for creating a worksheet having items to be used for index registration based on the template;
An area registration unit that sets an area on a registration form stored in the storage unit and associates the set area with an item of the worksheet;
A feature extraction step in which feature extraction means extracts feature information from the input document image data;
Registration form is form identification means, wherein the feature information of the extracted the document image is compared with the plurality of registration form each feature information stored in the storage means, it is determined that the comparison result matches A form identification step to identify
Difference extracting means, wherein the feature information of the identified registration form, on the basis of the characteristic information of the document image, the difference extracting a difference between the registration form and the document image,
Image correction means, based on the extracted difference, the image correcting step of correcting the document image,
Area extraction means, on the basis of the area set in the identified registration form, the area extracting step of extracting the corresponding area of the corrected document image,
Recognizing means, a recognition step of recognizing processing the image of the extracted area,
Worksheet registration means for registering the recognition result in the recognition step as an index of an item corresponding to the area in the worksheet,
A determining step for determining whether or not to continue inputting other document image data;
If it is determined that the input is continued in the determination step, the feature extraction step, the form identification step, the difference extraction step, the image correction step, the area extraction step, and the recognition are performed on the other document image data. While repeating the step, the worksheet registration step, and the determination step, if the determination unit determines that the input is not continued, the registration unit displays the index registered in the worksheet together with the document image data. A document processing method comprising: a registration step of registering in a document management unit.
前記文書管理部のデータベースのインデックス構造を取得し、当該取得したインデックス構造と前記文書管理部のデータベースへの接続情報とに基づいてテンプレートを作成し、当該作成したテンプレートを保存するテンプレート作成手段、
前記テンプレートに基づいて、インデックスの登録に用いるための項目を有するワークシートを作成するワークシート作成手段、
複数の登録フォームを格納する格納手段、
前記登録フォーム上でエリアを設定し、当該設定したエリアを前記ワークシートの項目と対応付けるエリア登録手段、
入力された文書画像データから、特徴情報を抽出する特徴抽出手段、
前記抽出された該文書画像の特徴情報と、前記格納されている複数の登録フォームそれぞれの特徴情報とを比較して、該比較結果が一致すると判断される登録フォームを識別するフォーム識別手段、
前記識別された登録フォームの特徴情報と、前記文書画像の特徴情報とに基づいて、前記登録フォームと前記文書画像との差を抽出する差抽出手段、
前記抽出された差に基づいて、前記文書画像を補正する画像補正手段、
前記識別された登録フォームに設定されているエリアに基づいて、前記補正された文書画像の対応するエリアを抽出するエリア抽出手段、
前記抽出されたエリアの画像を認識処理する認識手段、
前記認識手段による認識結果を、当該エリアに対応する項目のインデックスとして、前記ワークシートに登録するワークシート登録手段、
他の文書画像データの入力を継続するか否か判断する判断手段、
前記判断手段で入力を継続すると判断した場合は、当該他の文書画像データを対象として、前記特徴抽出手段と前記フォーム識別手段と前記差抽出手段と前記画像補正手段と前記エリア抽出手段と前記認識手段と前記ワークシート登録手段と前記判断手段とによる処理を実行する一方、
前記判断手段で入力を継続しないと判断した場合は、前記ワークシートに登録されたインデックスを、前記文書画像データとともに前記文書管理部に登録する登録手段、
として機能させるためのコンピュータ実行可能なプログラム。 A computer of a document processing system for registering the document image data and an index in a document management unit that manages document image data,
A template creation unit for obtaining an index structure of the database of the document management unit, creating a template based on the obtained index structure and connection information to the database of the document management unit, and storing the created template;
Worksheet creation means for creating a worksheet having items for use in index registration based on the template,
Storage means for storing multiple registration forms;
Area registration means for setting an area on the registration form and associating the set area with the item of the worksheet;
Feature extraction means for extracting feature information from the input document image data;
Form identification means for comparing the extracted feature information of the document image with the feature information of each of the plurality of stored registration forms, and identifying a registration form that is determined to match the comparison result;
Difference extraction means for extracting a difference between the registration form and the document image based on the feature information of the identified registration form and the feature information of the document image;
Image correcting means for correcting the document image based on the extracted difference;
Area extracting means for extracting a corresponding area of the corrected document image based on the area set in the identified registration form;
Recognition means for recognizing the image of the extracted area;
Worksheet registration means for registering the recognition result by the recognition means in the worksheet as an index of items corresponding to the area,
Determining means for determining whether or not to continue to input other document image data;
When it is determined that the input is continued by the determination unit, the feature extraction unit, the form identification unit, the difference extraction unit, the image correction unit, the area extraction unit, and the recognition are performed on the other document image data. While executing the processing by the means, the worksheet registration means and the judgment means,
A registration unit that registers the index registered in the worksheet together with the document image data in the document management unit when the determination unit determines that the input is not continued;
A computer-executable program that functions as a computer.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001275065A JP4147014B2 (en) | 2001-09-11 | 2001-09-11 | Document processing system, method, program, and storage medium |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001275065A JP4147014B2 (en) | 2001-09-11 | 2001-09-11 | Document processing system, method, program, and storage medium |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2003085529A JP2003085529A (en) | 2003-03-20 |
| JP4147014B2 true JP4147014B2 (en) | 2008-09-10 |
Family
ID=19099995
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2001275065A Expired - Fee Related JP4147014B2 (en) | 2001-09-11 | 2001-09-11 | Document processing system, method, program, and storage medium |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4147014B2 (en) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005196659A (en) * | 2004-01-09 | 2005-07-21 | Fuji Xerox Co Ltd | Program, recording medium and apparatus for processing image |
| JP2006157758A (en) * | 2004-12-01 | 2006-06-15 | Hitachi Ltd | Video playback device and video detection / use method |
| JP4645186B2 (en) * | 2004-12-22 | 2011-03-09 | 富士ゼロックス株式会社 | Image processing device |
-
2001
- 2001-09-11 JP JP2001275065A patent/JP4147014B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2003085529A (en) | 2003-03-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4235411B2 (en) | Document registration system, method, program, and storage medium | |
| JP5020781B2 (en) | Setting takeover system and setting takeover method | |
| JP6849387B2 (en) | Image processing device, image processing system, control method of image processing device, and program | |
| US8751519B2 (en) | Image processing apparatus and method for controlling image processing apparatus | |
| JP4261783B2 (en) | Document registration system, method, program, and storage medium | |
| JP7730875B2 (en) | System, device and processing program | |
| US8477352B2 (en) | Image forming apparatus, control method thereof, image forming system, and program | |
| EP0940970B1 (en) | Scanning documents | |
| US20060062453A1 (en) | Color highlighting document image processing | |
| KR102745056B1 (en) | Server, information processing method, and storage medium | |
| US20060050297A1 (en) | Data control device, method for controlling the same, image output device, and computer program product | |
| JP6762722B2 (en) | Information processing equipment, control methods, and programs | |
| US8730543B2 (en) | Detecting common errors in repeated scan workflows by use of job profile metrics | |
| US20060050292A1 (en) | Data management device and method, image output device, and computer program product | |
| JP2008217715A (en) | Search device, search system, search device control method, search device control program, and computer-readable recording medium | |
| JP4147014B2 (en) | Document processing system, method, program, and storage medium | |
| JP4261655B2 (en) | Image reading system | |
| US10291805B1 (en) | Image processing apparatus | |
| JP2023124515A (en) | Image processing apparatus, image processing method, and program | |
| JP2008301502A (en) | Image processing apparatus and image processing method | |
| EP3143491A1 (en) | Information processing system, information processing apparatus and information processing method | |
| US8736929B2 (en) | Recording and recalling of scan build job and scan batch job settings | |
| JP2005268906A (en) | Image-forming device, method, and program | |
| JP2021047517A (en) | Image processing device, control method thereof, and program | |
| JP2009094597A (en) | Document managing device, document managing program, device for creating document with bookmark image, and program for creating document with bookmark image |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050610 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080207 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080219 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080421 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080617 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080623 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110627 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120627 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120627 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130627 Year of fee payment: 5 |
|
| LAPS | Cancellation because of no payment of annual fees |