JP4208566B2 - Document image search apparatus and method, document image search system, and program - Google Patents
Document image search apparatus and method, document image search system, and program Download PDFInfo
- Publication number
- JP4208566B2 JP4208566B2 JP2002378481A JP2002378481A JP4208566B2 JP 4208566 B2 JP4208566 B2 JP 4208566B2 JP 2002378481 A JP2002378481 A JP 2002378481A JP 2002378481 A JP2002378481 A JP 2002378481A JP 4208566 B2 JP4208566 B2 JP 4208566B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- character string
- character
- document image
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
- Character Discrimination (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、文書画像のOCR結果を管理し、入力された検索条件に基づいて該検索条件に合致するOCR結果を検索する文書画像検索装置及びその方法、文書画像検索システム、プログラムに関するものである。
【0002】
【従来の技術】
文書の電子データ化として、従来より文書画像を入力して、その文書画像に対してOCR(Optical Character Recognition:光学的文字認識)を行う技術が知られている。また、この応用技術として、OCR対象の文書画像と、そのOCR結果として得られるOCR結果(文字コードデータ)を対応づけて管理し、そのOCR結果を利用して対応する文書画像を検索する文書管理装置が実現されている。
【0003】
この文書管理装置では、検索対象の文書画像に含まれる検索条件となる文字コードデータを入力することで、その文字コードデータからなるOCR結果を検索し、検索されたOCR結果を表示したり、対応する文書画像を表示する。この際、OCR結果中に含まれる検索条件として入力した文字コードデータは、他の文字コードデータと区別して表示することで、ユーザに検索状況を報知することが可能である。
【0004】
また、特開平9−237320号公報には、読取文書のフォーマットが文字コードで表示されるキャラクタの範囲で復元されて違和感なく視認できる読取文書の表示が可能なファイルを生成する技術が開示されている。
【0005】
更に、特開平10−134141号公報には、シート上に記載された文字を光学的に読み取って認識結果を取得し、予め記憶媒体に格納された前記シート上に記載された文字に対応して電子データと認識結果とを照合して、照合結果を取得し、その電子データの文字を照合結果に応じて表示方法を切り替えて表示し、照合結果を目視により確認する技術が開示されている。
【0006】
【発明が解決しようとする課題】
しかしながら、上記従来技術で説明されるOCRは、100%認識可能とはいかず、そのOCR結果には少なからず誤認識が含まれる。そのため、例えば、OCR結果中に含まれるとされる文字コードデータを検索条件として、OCR結果や対応する文書画像を検索する場合でも、満足のいく検索結果を得られないことがあった。
【0007】
また、OCR結果から対応する文書画像中の所望の文字画像を検索するような場合は、一旦、OCR結果から所望の文字画像のOCR結果とされる文字コードデータを検索条件として入力し、その検索条件を含むOCR結果上で他の文字コードデータと区別して表示される検索条件の文字コードデータの表示位置に基づいて、対応する文書画像中の所望の文字画像を目視で検索する必要があり、手間がかかっていた。
【0008】
本発明は上記の課題を解決するためになされたものであり、所望のOCR結果を効率的に検索することができ、かつそのOCR結果に対応する文書画像中の所望の文字画像を容易に視認することができる文書画像検索装置及びその方法、文書画像検索システム、プログラムを提供することを目的とする。
【0009】
【課題を解決するための手段】
上記の目的を達成するための本発明による文書画像検索装置は以下の構成を備える。即ち、
文書画像のOCR結果を管理し、入力された検索条件に基づいて該検索条件に合致するOCR結果を検索する文書画像検索装置であって、
前記入力された検索条件を構成する第1検索文字列による検索を実行する第1検索手段と、
前記第1検索手段の検索の結果、前記OCR結果に前記第1検索文字列がない場合に、該第1検索文字列の1文字をワイルドカードに置き換えた第2検索文字列による再検索を実行する第2検索手段と、
誤認識され易い文字群を対応づけて管理する誤認識文字リストを記憶する記憶手段と、
前記第2検索手段の検索の結果、前記OCR結果に前記第2検索文字列がない場合に、前記第1検索文字列中の前記誤認識文字リストで管理されている第1文字を該第1文字に対応づけられている第2文字に置き換えた第3検索文字列を生成し、当該生成した第3検索文字列の1文字をワイルドカードに置き換えた第4検索文字列による検索を実行する第3検索手段と、
前記第1検索手段乃至前記第3検索手段の少なくともいずれかで検索されたOCR結果と対応する前記文書画像との対比表示画像をそれぞれ生成する生成手段と
を備える。
【0010】
また、好ましくは、前記OCR結果をイメージに展開した展開イメージデータと対応する前記文書画像とを比較し、前記展開イメージデータにスペースを挿入して、前記展開イメージデータのレイアウトと前記文書画像のレイアウトとが同じになるように調整するレイアウト調整手段と、
前記展開イメージデータの文字画像の位置情報を抽出して、前記OCR結果をページ情報及び余白データを含む書式付テキストデータにフォーマット変換する変換手段と、
前記第1検索手段と前記第2検索手段と前記第3検索手段とがそれぞれ前記第1検索文字列と前記第2検索文字列と前記第4検索文字列とを検索した場合に、前記第1検索手段と前記第2検索手段と前記第3検索手段とがそれぞれ検索した前記第1検索文字列と前記第2検索文字列と前記第4検索文字列との位置を検出する検出手段と、
前記検出した前記第1検索文字列と前記第2検索文字列と前記第4検索文字列との位置に基づいて、前記文字画像のそれぞれ前記第1検索文字列と前記第2検索文字列と前記第4検索文字列との位置に対応する位置の表示属性を変更する変更手段とを更に備え、
前記対比表示画像は、前記変更手段により変更された前記文書画像中の前記第1検索文字列と前記第2検索文字列と前記第4検索文字列とに対応する文字画像の表示属性とそれ以外の他の文字画像の表示属性とが異なるようそれぞれ表示される。
【0012】
また、好ましくは、前記第2検索手段は、前記第2検索文字列による検索結果が得られない場合、前記第1検索文字列の別の1文字をワイルドカードに置き換えた検索文字列による再検索を実行する。
【0013】
また、好ましくは、前記第2検索手段は、前記第1検索文字列中の所定画数以上の1文字をワイルドカードに置き換える。
【0014】
上記の目的を達成するための本発明による文書画像検索システムは以下の構成を備える。即ち、
文書画像のOCR結果を管理し、入力された検索条件に基づいて該検索条件に合致するOCR結果を検索する文書画像検索サーバと、前記検索条件を入力する検索用端末とがネットワークを介して相互に接続されて構成される文書画像検索システムであって、
前記検索用端末は、
検索条件を入力する入力手段と、
前記検索条件を前記文書画像検索サーバへ送信する第1送信手段と、
前記検索条件に対応する検索結果を前記文書画像検索サーバより受信する第1受信手段と、
前記検索結果を表示する表示手段とを備え、
前記文書画像検索サーバは、
前記検索用端末より検索条件を受信する第2受信手段と、
前記検索条件を構成する第1検索文字列による検索を実行する第1検索手段と、
前記第1検索手段の検索の結果、前記OCR結果に前記第1検索文字列がない場合に、該第1検索文字列の1文字をワイルドカードに置き換えた第2検索文字列による再検索を実行する第2検索手段と、
誤認識され易い文字群を対応づけて管理する誤認識文字リストを記憶する記憶手段と、
前記第2検索手段の検索の結果、前記OCR結果に前記第2検索文字列がない場合に、前記第1検索文字列中の前記誤認識文字リストで管理されている第1文字を該第1文字に対応づけられている第2文字に置き換えた第3検索文字列を生成し、当該生成した第3検索文字列の1文字をワイルドカードに置き換えた第4検索文字列による検索を実行する第3検索手段と、
前記第1検索手段乃至第3検索手段の少なくともいずれかで検索されたOCR結果と対応する前記文書画像との対比表示画像をそれぞれ生成する生成手段と
前記対比表示画像を前記検索用端末へ送信する第2送信手段と
を備える。
【0015】
上記の目的を達成するための本発明による文書画像検索方法は以下の構成を備える。即ち、
文書画像のOCR結果を管理し、入力された検索条件に基づいて該検索条件に合致するOCR結果を検索する文書画像検索装置における文書画像検索方法であって、
前記文書画像検索装置の第1検索手段が、前記入力された検索条件を構成する第1検索文字列による検索を実行する第1検索工程と、
前記第1検索手段の検索の結果、前記OCR結果に前記第1検索文字列がない場合に、前記文書画像検索装置の第2検索手段が、該第1検索文字列の1文字をワイルドカードに置き換えた第2検索文字列による再検索を実行する第2検索工程と、
前記第2検索工程の検索の結果、前記OCR結果に前記第2検索文字列がない場合に、前記文書画像検索装置の第3検索手段が、前記第1検索文字列中の前記誤認識文字リストで管理されている第1文字を該第1文字に対応づけられている第2文字に置き換えた第3検索文字列を生成し、当該生成した第3検索文字列の1文字をワイルドカードに置き換えた第4検索文字列による検索を実行する第3検索工程と、
前記文書画像検索装置の生成手段が、前記第1検索手段乃至前記第3検索手段の少なくともいずれかで検索されたOCR結果と対応する前記文書画像との対比表示画像をそれぞれ生成する生成工程と
を備える。
【0016】
上記の目的を達成するための本発明による文書画像検索システムの制御方法は以下の構成を備える。即ち、
文書画像のOCR結果を管理し、入力された検索条件に基づいて該検索条件に合致するOCR結果を検索する文書画像検索サーバと、前記検索条件を入力する検索用端末とがネットワークを介して相互に接続されて構成される文書画像検索システムの制御方法であって、
前記文書画像検索サーバは、誤認識され易い文字群を対応づけて管理する誤認識文字リストを記憶する記憶手段を備え、
前記文書画像検索サーバの受信手段が、前記検索用端末で入力された前記検索条件を、前記検索用端末から受信する受信工程と、
前記文書画像検索サーバの第1検索手段が、前記検索条件を構成する第1検索文字列による検索を実行する第1検索工程と、
前記第1検索手段の検索の結果、前記OCR結果に前記第1検索文字列がない場合に、前記文書画像検索サーバの第2検索手段が、該第1検索文字列の1文字をワイルドカードに置き換えた第2検索文字列による再検索を実行する第2検索工程と、
前記第2検索工程の検索の結果、前記OCR結果に前記第2検索文字列がない場合に、前記文書画像検索サーバの第3検索手段が、前記第1検索文字列中の前記誤認識文字リストで管理されている第1文字を該第1文字に対応づけられている第2文字に置き換えた第3検索文字列を生成し、当該生成した第3検索文字列の1文字をワイルドカードに置き換えた第4検索文字列による検索を実行する第3検索工程と、
前記文書画像検索サーバの生成手段が、前記第1検索手段乃至前記第3検索手段の少なくともいずれかで検索されたOCR結果と対応する前記文書画像との対比表示画像をそれぞれ生成する生成工程と、
前記文書画像検索サーバの送信手段が、前記対比表示画像を前記検索用端末へ送信する送信工程と
を備える。
【0017】
上記の目的を達成するための本発明による制御プログラムは以下の構成を備える。即ち、
文書画像のOCR結果を管理し、入力された検索条件に基づいて該検索条件に合致するOCR結果を検索する文書画像検索装置の制御プログラムであって、
前記文書画像検索装置を、
前記入力された検索条件を構成する第1検索文字列による検索を実行する第1検索手段と、
前記第1検索手段の検索の結果、前記OCR結果に前記第1検索文字列がない場合に、該第1検索文字列の1文字をワイルドカードに置き換えた第2検索文字列による再検索を実行する第2検索手段と、
誤認識され易い文字群を対応づけて管理する誤認識文字リストを記憶する記憶手段と、
前記第2検索手段の検索の結果、前記OCR結果に前記第2検索文字列がない場合に、前記第1検索文字列中の前記誤認識文字リストで管理されている第1文字を該第1文字に対応づけられている第2文字に置き換えた第3検索文字列を生成し、当該生成した第3検索文字列の1文字をワイルドカードに置き換えた第4検索文字列による検索を実行する第3検索手段と、
前記第1検索手段乃至前記第3検索手段の少なくともいずれかで検索されたOCR結果と対応する前記文書画像との対比表示画像をそれぞれ生成する生成手段と
して機能させる。
【0019】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態を詳細に説明する。
【0020】
図1は本実施形態の文書画像検索システムの構成を示す図である。
【0021】
100はスキャナ用PC(パーソナルコンピュータ)であり、スキャナ102の入力動作を含む各種動作を制御し、スキャナ102より入力した文書画像を保存フォルダ101に保存する。また、OCRサーバ300の指示に基づいて、保存フォルダ101に保存されている文書画像をOCRサーバ300へ送信して、OCRサーバ300で文書画像を一元管理するようにしても良い。
【0022】
200はイメージ管理サーバであり、例えば、ネットワーク600上に接続されているネットワークスキャナ500の入力動作を含む各種動作を制御し、ネットワークスキャナ500より入力した文書画像を保存フォルダ201に保存する。また、OCRサーバ300の指示に基づいて、保存フォルダ201に保存されている文書画像をOCRサーバ300へ送信する。
【0023】
尚、イメージ管理サーバ200は、ネットワークスキャナ500で入力した文書画像を保存フォルダ201に保存するのではなく、ネットワーク600上に接続されている記憶装置や他のPC上に保存するように構成しても良い。この場合、保存フォルダ201には、文書画像の保存先を示す位置情報(例えば、アドレスやURL、IPアドレス等)を管理している。
【0024】
300はOCRサーバであり、ネットワーク600を介して受信する文書画像をイメージデータとしてデータベース301に保存すると共に、その文書画像のOCRを実行し、そのOCR結果を書式付テキストデータとして、データベース302に保存する。この際、OCR対象の文書画像とそのOCR結果である書式付テキストデータは対応づけて管理される。303は誤認識文字リストであり、OCRにおいて、誤認識され易い文字である誤認識文字群を管理している。誤認識文字としては、例えば、「算」と「鼻」、「籠」と「蘢」等が挙げられる。
【0025】
尚、データベース301及び302は別々に構成されているが、1つの記憶媒体上の異なる記憶領域にそれぞれのデータベースが構成されていても、もちろん構わない。
【0026】
また、書式付テキストデータとしては、例えば、マイクロソフト社のWord(登録商標)やジャストシステム社の一太郎(登録商標)等の各種ワープロソフトで実現されるフォーマットが挙げられる。
【0027】
400は検索用PCであり、検索条件として、例えば、文字コードを入力して、OCRサーバ300に管理される書式付テキストデータとそれに対応する文書画像を検索結果として表示可能である。
【0028】
500はネットワークスキャナであり、ネットワーク600上に接続されるサーバやPCによってリモート操作が可能なスキャナである。
【0029】
600はネットワークであり、本実施形態の文書画像検索システムを構成する各種構成要素を相互に接続する。
【0030】
尚、本実施形態の文書画像検索システムを構成する各種サーバはWEBサーバ機能を有し、それらのサーバにアクセスするPCはWEBブラウザを用いて、各種サーバが提供するWEBサイトにアクセスして、各種処理を行う。これ以外にも、各種サーバが専用のGUI(グラフィックユーザインタフェース)を含むクライアントプログラムと提供して、PCがそのクライアントプログラムを使用して、各種処理を行うようにしても良い。
【0031】
また、図1では、スキャナ用PC100、ネットワークスキャナ500はそれぞれ1台で構成されているが、複数台で構成されている場合もあることは言うまでもない。
【0032】
次に、本実施形態の文書画像検索システムを構成する各種端末、サーバのハードウェア構成について、図2を用いて説明する。
【0033】
図2は本実施形態の文書画像検索システムを構成する各種端末、サーバそれぞれのハードウェア構成を示す図である。
【0034】
図2において、CPU21、RAM22、ROM23、LANアダプタ24、ビデオアダプタ25、入力部(キーボード)26、入力部(マウス)27、ハードディスク28、CD−ROMドライブ29はそれぞれシステムバス20を介して互いに接続されている。システムバス20は、例えば、PCIバス、AGPバス、メモリバス等を意味する。また、図2では、各バス間の接続用チップやキーボードインタフェースや、いわゆるSCSIやATAPIのような入出力用インタフェースは省略されている。
【0035】
CPU21は四則演算や比較演算等の各種の演算や、ハードウェアやソフトウェアの制御を行う。RAM22には、ハードディスク28やCD−ROMドライブ29に装着されたCD−ROMやCD−R等の記憶媒体から読み出されたオペレーションシステムのプログラムやアプリケーションプログラム(後述する各端末やサーバで実行されるフローチャートを実行する各プログラム)等が記憶され、これらはCPU21の制御の元に実行される。
【0036】
ROM23は、オペレーションシステムと協働してハードディスク等への入出力を司るいわゆるBIOS等が記憶される。LANアダプタ24は、CPU21によって制御されるオペレーションシステムの通信プログラムと協働してネットワークを介した外部との通信を行う。ビデオアダプタ25は、ディスプレイ装置(不図示)に出力する画像信号を生成し、入力部(キーボード)26や入力部(マウス)27は端末への指示を入力するために用いられる。
【0037】
ハードディスク28は、オペレーションシステムや上述のアプリケーションプログラムを記憶しており、端末の起動時に、または必要に応じてRAM22にロードされる。
【0038】
CD−ROMドライブ29は、CD−ROMやCD−RやCD−R/W等の記憶媒体を装着してアプリケーションプログラムをハードディスク28にインストールするのに用いる。
【0039】
尚、CD−ROMドライブ29の代わりにCD−RドライブやCD−R/WドライブやMOドライブ等を用いても良いのは言うまでもない。
【0040】
次に、本実施形態の文書画像検索システムで実行される処理について説明する。
【0041】
本実施形態の文書画像検索システムで実行される処理は、大きく分けて2つの処理からなる。1つは、文書画像を入力し、その文書画像のOCRを行い、その文書画像とOCR結果を管理する文書画像管理処理、もう1つは、その管理されたOCR結果を利用して、所望のOCR結果と対応する文書画像を検索する文書画像検索処理である。
【0042】
まず、文書画像管理処理について、図3を用いて説明する。
【0043】
図3は本実施形態の文書画像管理処理を示すフローチャートである。
【0044】
尚、図3では、スキャナ用PC100に接続されるスキャナ102から入力された文書画像をOCRサーバ300でOCRを行い、そのOCR結果と文書画像を管理する場合を例に挙げる。また、文書画像管理処理は、OCRサーバ300のRAM22に記憶されている文書画像管理処理を実現する文書画像管理処理プログラムをCPU21が実行することで実現される。
【0045】
まず、ステップS201で、スキャナ用PC100は、イメージデータとして文書画像をスキャナ102より入力する。ステップS102で、スキャナ用PC100は、入力した文書画像を保存フォルダ101に保存する。あるいは、この保存フォルダ101に保存された文書画像群は、所定のタイミングでイメージ管理サーバ200へ送信され、イメージ管理サーバ200の保存フォルダ201に保存される場合もある。
【0046】
一方、ステップ201で、OCRサーバ300は、一定時間毎にスキャナ用PC100の保存フォルダ101内のイメージデータ(文書画像)の有無をチェックする。イメージデータがない場合(ステップS202でNO)、一定時間待機して、再度、チェックを実行する。一方、イメージデータがある場合(ステップS201でYES)、イメージデータがある場合(ステップS201でYES)、ステップS202に進む。
【0047】
ステップS202で、OCRサーバ300は、イメージデータをスキャナ用PC100より受信し、そのイメージデータをデータベース301に保存する。この際、スキャナ用PC100は、OCRサーバ300へイメージデータの転送後に、保存フォルダ101のイメージデータを削除する。
【0048】
ステップS203で、OCRサーバ300は、文書画像中の空白をスペースデータとして認識する認識を含むOCRを実行する。ステップS204で、OCRサーバ300は、レイアウト修正処理を行う。このレイアウト修正処理は、具体的には、OCR結果であるテキストデータをイメージに展開した展開イメージデータとOCR対象のオリジナルイメージデータを比較し、空白のずれをスペースを挿入して、展開イメージデータのレイアウトがオリジナルイメージデータのレイアウトと同じになるように微調整する。
【0049】
そして、ステップS205で、OCRサーバ300は、レイアウト修正処理後、展開イメージデータを解析して、オリジナルイメージデータ中の文字画像の位置情報を抽出し、OCR結果にその位置情報(例えば、ページ区切データや余白データ等)を反映した書式付テキストデータにフォーマット変換する。
【0050】
次に、文書画像検索処理について、図4を用いて説明する。
【0051】
図4は本実施形態の文書画像検索処理を示すフローチャートである。
【0052】
尚、この図4の文書画像検索処理は、OCRサーバ300のRAM22に記憶されている文書画像検索処理を実現する文書画像検索処理プログラムをCPU21が実行することで実現される。
【0053】
まず、OCRサーバ300は、検索用PC400から入力される検索条件に合致する文書画像を検索するための前処理として、ステップS301〜ステップS303の処理を行う。
【0054】
具体的には、ステップS301で、データベース301に保存されているイメージデータ群(文書画像)をRAM22に読み込む。次に、ステップ302で、データベース302に保存されているイメージデータ群それぞれに対応する書式付テキストデータをRAM22に読み込む。次に、ステップS303で、検索用PC400に検索結果としてイメージデータと対応する書式付テキストデータを対比表示するための対比表示画像を生成する。
【0055】
尚、この対比表示画像は、この時点で、検索用PC400に送信して表示しても良いし、検索条件を受信した後に、検索条件に合致する対比表示画像だけを検索用PC400に送信して表示するようにしても良い。
【0056】
次に、ステップS304で、検索用PC400から入力された検索条件である検索文字列を受信する。ステップS305で、検索文字列中の一部をワイルドカードとする文字位置を示すワイルドカード文字位置カウンタnを0に設定する。
【0057】
次に、ステップS306で、検索文字列を含む書式付テキストデータを検索する。ステップS307で、検索文字列を含む書式付テキストデータの有無を判定する。検索文字列を含む書式付テキストデータがある場合(ステップS307でYES)、ステップS311に進み、検索された書式付テキストデータ中に含まれる検索文字列の位置を含む位置情報(ページ数、行数、文字位置)を検出する。
【0058】
尚、この位置情報の検出は、書式付テキストデータ中に含まれるすべての検索文字列を検出しても良いし、書式付テキストデータ中の先頭から初めて最初に検出される検索文字列を検出しても良い。
【0059】
ステップS312で、検出された位置情報に基づいて、その書式付テキストデータの対応するイメージデータ中の対応する位置の文字画像の表示属性を変更して対比表示画像を更新して、検索用PC400へ送信する。これにより、検索用PC400には、入力した検索文字列による検索結果である対比表示画像が表示されることになる。
【0060】
尚、この表示属性の変更は、例えば、反転表示や色付表示等の表示形態を変更することを意味し、イメージデータ中の検索文字列に対応する文字画像とその他の文字画像を区別するためのものである。
【0061】
ここで、検索結果として、検索用PC400に表示される対比表示画像の一例を図5に示す。図5の例では、左にイメージデータ、右に対応する書式付テキストデータが同一画面上に表示されている。そして、図5では、検索条件である検索文字列が「対予算比」で、その「対予算比」を含む書式付テキストデータが検索され、その検索結果として、その書式付テキストデータと対応するイメージデータを対比表示している状態である。図5に示されるように、書式付テキストデータ中の「対予算比」に対応するイメージデータ中の文字画像が矩形で囲まれて表示されている。これにより、ユーザは、検索文字列に対応するイメージデータ中の文字画像を容易に視認することができる。
【0062】
一方、ステップS307において、検索文字列を含む書式付テキストデータがない場合(ステップS307でNO)、ステップS308に進み、ワイルドカード文字位置カウンタnを1インクリメントする。
【0063】
ステップS309で、検索文字列数/X(例えば、X=3:このXの値は、ワイルドカードを含む検索文字列による検索を行う回数に応じて適宜決定される)がn未満であるか否かを判定する。検索文字列数がn未満である場合(ステップS309でNO)、ステップS310に進み、現在の検索文字列から、ワイルドカード文字位置カウンタnが示す数の位置のワイルドカードを含む検索文字列を生成する。例えば、検索文字列が「対予算比」であり、ワイルドカード文字位置カウンタn=1である場合は、ワイルドカード(例えば、「?」、「*」)を含む検索文字列として、「?予算比」、ワイルドカード文字位置カウンタn=2である場合は「対?算比」、ワイルドカード文字位置カウンタn=3である場合は「対予?比」、ワイルドカード文字位置カウンタn=4である場合は「対予算?」が生成される。このようにして生成されたワイルドカードを含む検索文字列を検索条件として、ステップS306で、検索文字列を含む書式付テキストデータを検索する。
【0064】
ここで、ワイルドカードを含む検索文字列を変更して生成した検索文字列による検索結果として、検索用PC400に表示される対比表示画像の一例を図6に示す。図6の例では、図5と同様に、左にイメージデータ、右に対応する書式付テキストデータが同一画面上に表示されている。そして、図6では、検索条件である検索文字列が「対予算比」からワイルドカードを含む検索文字列として「対予?比」を生成し、その「対予?比」を含む書式付テキストデータを検索した場合の検索結果として、その書式付テキストデータと対応するイメージデータを対比表示している状態である。図6に示されるように、書式付テキストデータ中の「対予鼻比」中の「鼻」は検索文字列「対予?比」のワイルドカードに対応するので、この「対予鼻比」に対応するイメージデータ中の文字画像が矩形で囲まれて表示されている。これにより、ユーザは、検索文字列に対応するイメージデータ中の文字画像を容易に視認することができる。
【0065】
但し、検索結果がワイルドカードを含む検索文字列による検索結果であることを示すために、検索文字列中のワイルドカードに対応する文字画像の表示属性とそれ以外の文字画像の表示属性は異なるものとなる。
【0066】
一方、ステップS309で、検索文字列数/Xがn以上である場合(ステップS309でYES)、ステップS313に進み、誤認識文字リストの文字群と検索文字列中の1文字分をマッチングする。
【0067】
尚、このマッチングは、検索文字列の各文字と誤認識文字リストの誤認識文字群とのマッチングを行っても良いし、検索文字列の先頭から所定数分までの各文字と誤認識文字リストの誤認識文字群とのマッチングを行っても良く、このマッチングの方法は、用途や目的に応じて適宜変更することができる。
【0068】
次に、ステップS314で、マッチングによって、検索文字列中のマッチング対象の文字が誤認識文字リストに存在する誤認識文字であるか否かを判定する。誤認識文字である場合(ステップS314でYES)、ステップS315に進み、そのマッチング対象の文字を対応する別の誤認識文字に置き換えた検索文字列を生成する。例えば、検索文字列が「対予算比」で、マッチング対象の文字が「算」で、その「算」の誤認識文字として「鼻」がある場合は、検索文字列は「対予算比」から「対予鼻比」に変更されることになる。また、検索文字列中の文字を誤認識文字に置き換えて新たな検索文字列を生成し、その検索文字列による検索結果は、図6に示したような対比表画像の表示形態に準ずる。但し、この場合には、誤認識文字に対応する文字画像の表示属性とそれ以外の文字画像の表示属性が異なるものとなる。
【0069】
尚、ステップS314で、検索文字列を生成した場合には、検索文字列が変更されて再度、検索を実行する状態であることを示す文字列更新フラグがオンになる。この文字列更新フラグは、OCRサーバ300で管理され、処理終了時か、又は別の検索のためにOCRサーバ300が検索用PC400から新たな検索条件とする検索文字列を受信した場合にオフになる。その後、ステップS305に進み、以降の処理が実行されることになる。この場合は、誤認識文字とワイルドカードを含む検索文字列による検索を実行することができる。
【0070】
一方、ステップS314において、誤認識文字でない場合(ステップS314でNO)、検索条件に合致する書式付テキストデータがないとして、処理を終了する。
【0071】
以上説明したように、本実施形態によれば、検索用PC400から入力された検索文字列による検索結果が得られない場合、入力された検索文字列の一部をワイルドカードにして再検索を行うことで、誤認識があることが前提とされるOCR結果(書式付テキストデータ)から所望のOCR結果を効率的に検索することができる。加えて、ワイルドカードを含む検索文字列による検索結果が得られない場合には、検索文字列中の一部の文字を別の誤認識文字に置き換えて再検索を行うことで、誤認識があることが前提とされるOCR結果から所望のOCR結果を効率的に検索することができる。
【0072】
また、検索結果として、OCR結果(書式付テキストデータ)と対応するイメージデータを対比表示し、かつ検索文字列に合致するイメージデータ上の文字画像を他の文字画像と区別して表示することで、ユーザは容易にOCR対象の文字画像を視認することができ、従来に比べて、OCR対象の文書画像中の所望の文字画像の確認工数を低減することができる。
【0073】
上記実施形態では、OCRサーバ300は、イメージデータとそのOCR結果である書式付テキストデータをそれぞれデータベース301、302に保存し、文書画像管理処理プログラム及び文書画像検索処理プログラムをRAM22に記憶しているが、これに限定されない。例えば、OCRサーバ300は、イメージデータの保存と文書画像管理処理プログラムだけを備え、そのイメージデータのOCR結果である書式付テキストデータと文書画像検索処理プログラムを別途構成された検索用サーバに備えるような構成にしても良い。
【0074】
また、ワイルドカードは、検索文字列の先頭から順次切り替える構成としたが、これに限定されない。例えば、検索文字列中の誤認識されやすい画数の多い文字だけを、つまり、所定画数以上の文字をワイルドカードの対象とするようにしても良い。この場合、処理の高速化を図ることができる。
【0075】
更に、対比表示画像では、検索結果が得られた時点でその検索結果である対比表示画像を検索用PC400に提示するような構成としたが、例えば、ワイルドカードの位置が異なる各検索文字列によるそれぞれの検索結果をまとめて表示するようにしても良い。この場合の対比表示画像は、各検索文字列に対応する文書画像中の文字画像を他の文字画像と区別して表示しても良いし、これに加えて、各検索文字列中ワイルドカードの位置それぞれが区別できるように表示しても良い。
【0076】
尚、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
【0077】
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0078】
プログラムコードを供給するための記憶媒体としては、例えば、フロッピディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
【0079】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0080】
更に、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0081】
本発明を上記記憶媒体に適用する場合、その記憶媒体には、先に説明したフローチャートに対応するプログラムコードが格納されることになる。
【0082】
【発明の効果】
以上説明したように、本発明によれば、所望のOCR結果を効率的に検索することができ、かつそのOCR結果に対応する文書画像中の所望の文字画像を容易に視認することができる文書画像検索装置及びその方法、文書画像検索システム、プログラムを提供できる。
【図面の簡単な説明】
【図1】本実施形態の文書画像検索システムの構成を示す図である。
【図2】本実施形態の文書画像検索システムを構成する各種端末、サーバそれぞれのハードウェア構成を示す図である。
【図3】本実施形態で実行される文書画像管理処理を示すフローチャートである。
【図4】本実施形態の文書画像検索処理を示すフローチャートである。
【図5】本実施形態の対比表示画像の一例を示す図である。
【図6】本実施形態の対比表示画像の一例を示す図である。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a document image search apparatus and method, document image search system, and program for managing OCR results of document images and searching for OCR results that match the search conditions based on input search conditions. .
[0002]
[Prior art]
2. Description of the Related Art Conventionally, a technique for inputting a document image and performing OCR (Optical Character Recognition) on the document image has been known as digitization of a document. Further, as this applied technology, a document management for managing an OCR target document image and an OCR result (character code data) obtained as an OCR result in association with each other, and retrieving the corresponding document image using the OCR result. The device is realized.
[0003]
In this document management apparatus, by inputting character code data as a search condition included in a document image to be searched, an OCR result made up of the character code data is searched, and the searched OCR result is displayed or The document image to be displayed is displayed. At this time, the character code data input as a search condition included in the OCR result is displayed separately from other character code data, so that the user can be notified of the search status.
[0004]
Japanese Patent Laid-Open No. 9-237320 discloses a technique for generating a file that can display a read document that can be viewed without a sense of incongruity by restoring the format of the read document within the range of characters displayed in character codes. Yes.
[0005]
Furthermore, Japanese Patent Laid-Open No. 10-134141 discloses a recognition result obtained by optically reading a character written on a sheet, and corresponding to the character written on the sheet previously stored in a storage medium. A technique is disclosed in which electronic data and a recognition result are collated, a collation result is obtained, characters of the electronic data are displayed by switching a display method according to the collation result, and the collation result is visually confirmed.
[0006]
[Problems to be solved by the invention]
However, the OCR described in the above prior art is not 100% recognizable, and the OCR result includes not a few misrecognitions. Therefore, for example, even when searching for an OCR result or a corresponding document image using character code data included in the OCR result as a search condition, a satisfactory search result may not be obtained.
[0007]
When searching for a desired character image in the corresponding document image from the OCR result, the character code data that is the OCR result of the desired character image is once input as a search condition from the OCR result, and the search is performed. It is necessary to visually search for a desired character image in the corresponding document image based on the display position of the character code data of the search condition displayed separately from other character code data on the OCR result including the condition, It took time and effort.
[0008]
The present invention has been made to solve the above-described problem, and can efficiently search for a desired OCR result, and easily recognize a desired character image in a document image corresponding to the OCR result. An object of the present invention is to provide a document image search apparatus and method, document image search system, and program that can be used.
[0009]
[Means for Solving the Problems]
In order to achieve the above object, a document image retrieval apparatus according to the present invention comprises the following arrangement. That is,
A document image search device that manages OCR results of document images and searches for OCR results that match the search conditions based on the input search conditions,
First search means for executing a search by a first search character string constituting the input search condition;
Search by the first search meansofresultWhen the first search character string is not included in the OCR result, Of the first search string1 characterSecond search means for performing a re-search by a second search character string in which is replaced with a wild card;
Storage means for storing a misrecognized character list for managing a group of characters that are easily misrecognized in association with each other;
If there is no second search character string in the OCR result as a result of the search by the second search means, the first character managed in the misrecognized character list in the first search character string is the first character. A third search character string replaced with the second character associated with the character is generated, and a search is performed using the fourth search character string in which one character of the generated third search character string is replaced with a wild card. 3 search means;
The firstSearch means through the aboveFirst3Search meansAt least one ofCorresponds to the OCR result retrieved inSaidDocument imageWhenThe contrast display image ofRespectivelyGeneration means to generate and
Is provided.
[0010]
Also preferably,The developed image data obtained by developing the OCR result into an image is compared with the corresponding document image, and a space is inserted into the developed image data, so that the layout of the developed image data and the layout of the document image become the same. Layout adjustment means to adjust,
Conversion means for extracting character image position information of the developed image data and converting the OCR result into formatted text data including page information and margin data;
When the first search means, the second search means, and the third search means search the first search character string, the second search character string, and the fourth search character string, respectively, Detecting means for detecting positions of the first search character string, the second search character string, and the fourth search character string searched by the search means, the second search means, and the third search means, respectively;
Based on the positions of the detected first search character string, the second search character string, and the fourth search character string, the first search character string, the second search character string, and the Change means for changing the display attribute of the position corresponding to the position of the fourth search character string;
The contrast display image is:Changed by the changing meansThe first search character string in the document imageAnd saidSecond search stringAnd the fourth search stringCharacter image display attribute corresponding to, and other character image display attributesWhenIs differentEach is displayed.
[0012]
Preferably, when the second search means cannot obtain a search result based on the second search character string, the second search meansAnother characterPerform a re-search using a search string in which is replaced with a wildcard.
[0013]
Preferably, the second search means has a predetermined number of strokes or more in the first search character string.1Replace characters with wildcards.
[0014]
In order to achieve the above object, a document image retrieval system according to the present invention comprises the following arrangement. That is,
A document image search server that manages OCR results of document images and searches for OCR results that match the search conditions based on the input search conditions and a search terminal that inputs the search conditions are mutually connected via a network. A document image retrieval system configured to be connected to
The search terminal is
An input means for entering search conditions;
First transmission means for transmitting the search condition to the document image search server;
First receiving means for receiving a search result corresponding to the search condition from the document image search server;
Display means for displaying the search results,
The document image search server
Second receiving means for receiving a search condition from the search terminal;
First search means for executing a search using a first search character string constituting the search condition;
Search by the first search meansofresultWhen the first search character string is not included in the OCR result, Of the first search string1 characterSecond search means for performing a re-search by a second search character string in which is replaced with a wild card;
Storage means for storing a misrecognized character list for managing a group of characters that are easily misrecognized in association with each other;
If there is no second search character string in the OCR result as a result of the search by the second search means, the first character managed in the misrecognized character list in the first search character string is the first character. A third search character string replaced with the second character associated with the character is generated, and a search is performed using the fourth search character string in which one character of the generated third search character string is replaced with a wild card. 3 search means;
The first searchMeansFirst3Search meansAt least one ofCorresponds to the OCR result retrieved inSaidDocument imageWhenThe contrast display image ofRespectivelyGeneration means to generate and
Second transmission means for transmitting the contrast display image to the search terminal;
Is provided.
[0015]
In order to achieve the above object, a document image search method according to the present invention comprises the following arrangement. That is,
Manages OCR results of document images, and searches for OCR results that match the search conditions based on the input search conditions.In document image retrieval deviceA document image search method comprising:
A first search means of the document image search device;A first search step of performing a search by a first search character string constituting the input search condition;
Search by the first search meansofresultWhen the first search character string is not included in the OCR result,A second search means of the document image search device;Of the first search string1 characterA second search step of performing a re-search by a second search character string in which is replaced with a wild card;
When the second search character string is not included in the OCR result as a result of the search in the second search step, the third search means of the document image search device uses the misrecognized character list in the first search character string. A third search character string is generated by replacing the first character managed in step 2 with the second character associated with the first character, and one character of the generated third search character string is replaced with a wild card. A third search step for performing a search by the fourth search character string;
The generation unit of the document image search device includes:The firstSearch means through the aboveFirst3Search meansAt least one ofCorresponds to the OCR result retrieved inSaidDocument imageWhenThe contrast display image ofRespectivelyGeneration process to generate
Is provided.
[0016]
In order to achieve the above object, a method for controlling a document image retrieval system according to the present invention comprises the following arrangement. That is,
A document image search server that manages OCR results of document images and searches for OCR results that match the search conditions based on the input search conditions and a search terminal that inputs the search conditions are mutually connected via a network. A method for controlling a document image search system configured to be connected to
The document image search server includes storage means for storing a misrecognized character list for managing a character group that is easily misrecognized.
A receiving step in which the receiving means of the document image search server receives the search condition input from the search terminal from the search terminal;
A first search means of the document image search server;A first search step of performing a search using a first search character string constituting the search condition;
Search by the first search meansofresultWhen the first search character string is not included in the OCR result,A second search means of the document image search server;Of the first search string1 characterA second search step of performing a re-search by a second search character string in which is replaced with a wild card;
If the second search character string is not included in the OCR result as a result of the search in the second search step, the third search means of the document image search server causes the misrecognized character list in the first search character string. A third search character string is generated by replacing the first character managed in step 2 with the second character associated with the first character, and one character of the generated third search character string is replaced with a wild card. A third search step for performing a search by the fourth search character string;
The generation unit of the document image search server includes:The firstSearch means through the aboveFirst3Search meansAt least one ofCorresponds to the OCR result retrieved inSaidDocument imageWhenThe contrast display image ofRespectivelyA generation process to generate;
The transmission means of the document image search server includes:A transmission step of transmitting the contrast display image to the search terminal;
Is provided.
[0017]
According to the invention to achieve the above objectcontrolThe program has the following configuration. That is,
Control of a document image search apparatus that manages OCR results of document images and searches for OCR results that match the search conditions based on the input search conditionsA program,
The document image search device
First search means for executing a search by a first search character string constituting the input search condition;
If the first search character string is not found in the OCR result as a result of the search by the first search means, a re-search is performed using the second search character string in which one character of the first search character string is replaced with a wild card. Second search means for performing,
Storage means for storing a misrecognized character list for managing a group of characters that are easily misrecognized in association with each other;
If there is no second search character string in the OCR result as a result of the search by the second search means, the first character managed in the misrecognized character list in the first search character string is the first character. A third search character string replaced with the second character associated with the character is generated, and a search is performed using the fourth search character string in which one character of the generated third search character string is replaced with a wild card. 3 search means;
Generating means for respectively generating a comparison display image of the OCR result searched by at least one of the first search means to the third search means and the corresponding document image;
Make it work.
[0019]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
[0020]
FIG. 1 is a diagram showing a configuration of a document image search system according to this embodiment.
[0021]
A scanner PC (personal computer) 100 controls various operations including an input operation of the
[0022]
An
[0023]
Note that the
[0024]
[0025]
Although the
[0026]
Examples of the text data with formatting include a format realized by various word processing software such as Word (registered trademark) of Microsoft Corporation and Ichitaro (registered trademark) of Just System Corporation.
[0027]
[0028]
A
[0029]
[0030]
Note that various servers constituting the document image search system of the present embodiment have a WEB server function, and a PC accessing these servers uses a WEB browser to access WEB sites provided by various servers, and Process. In addition to this, various servers may be provided with a client program including a dedicated GUI (graphic user interface), and the PC may perform various processes using the client program.
[0031]
In FIG. 1, the
[0032]
Next, the hardware configuration of various terminals and servers constituting the document image search system of the present embodiment will be described with reference to FIG.
[0033]
FIG. 2 is a diagram showing the hardware configuration of each of the various terminals and servers that make up the document image search system of this embodiment.
[0034]
In FIG. 2, a
[0035]
The
[0036]
The
[0037]
The
[0038]
The CD-
[0039]
Needless to say, a CD-R drive, a CD-R / W drive, an MO drive, or the like may be used instead of the CD-
[0040]
Next, processing executed in the document image search system of this embodiment will be described.
[0041]
The process executed in the document image search system of this embodiment is roughly divided into two processes. One is a document image management process for inputting a document image, performing OCR of the document image, and managing the document image and the OCR result, and the other is using the managed OCR result to obtain a desired image. This is a document image search process for searching for a document image corresponding to an OCR result.
[0042]
First, the document image management process will be described with reference to FIG.
[0043]
FIG. 3 is a flowchart showing the document image management process of the present embodiment.
[0044]
FIG. 3 shows an example in which a document image input from the
[0045]
First, in step S201, the
[0046]
On the other hand, in
[0047]
In step S202, the
[0048]
In step S203, the
[0049]
In step S205, the
[0050]
Next, the document image search process will be described with reference to FIG.
[0051]
FIG. 4 is a flowchart showing the document image search process of the present embodiment.
[0052]
The document image search process of FIG. 4 is realized by the
[0053]
First, the
[0054]
Specifically, step S301.so,The image data group (document image) stored in the
[0055]
At this time, the comparison display image may be transmitted to the
[0056]
In step S304, a search character string that is a search condition input from the
[0057]
Next, in step S306, the formatted text data including the search character string is searched. In step S307, the presence / absence of formatted text data including a search character string is determined. If there is formatted text data including the search character string (YES in step S307), the process proceeds to step S311 and the position information including the position of the search character string included in the searched formatted text data (number of pages, number of lines) , Character position).
[0058]
The position information may be detected by detecting all search character strings included in the formatted text data or by detecting the first search character string detected from the beginning of the formatted text data. May be.
[0059]
In step S312, based on the detected position information, the display attribute of the character image at the corresponding position in the corresponding image data of the formatted text data is changed to update the comparison display image, and to the
[0060]
Note that this change in display attribute means, for example, changing the display form such as reverse display or colored display, in order to distinguish the character image corresponding to the search character string in the image data from other character images. belongs to.
[0061]
Here, FIG. 5 shows an example of a comparison display image displayed on the
[0062]
On the other hand, if there is no formatted text data including the search character string in step S307 (NO in step S307), the process proceeds to step S308, and the wildcard character position counter n is incremented by one.
[0063]
In step S309, whether the number of search character strings / X (for example, X = 3: the value of X is appropriately determined according to the number of times of search using a search character string including a wild card) is less than n. Determine whether. If the number of search character strings is less than n (NO in step S309), the process proceeds to step S310, and a search character string including wildcards at the positions indicated by the wildcard character position counter n is generated from the current search character string. To do. For example, when the search character string is “budget ratio” and the wild card character position counter n = 1, the search character string including the wild card (for example, “?”, “*”) Is used as “? Ratio ”, when the wild card character position counter n = 2,“ comparison ratio ”, when the wild card character position counter n = 3,“ comparison ratio ”, and the wild card character position counter n = 4 In some cases, “for budget?” Is generated. Using the search character string including the wild card generated as described above as a search condition, the formatted text data including the search character string is searched in step S306.
[0064]
Here, FIG. 6 shows an example of a comparison display image displayed on the
[0065]
However, the display attribute of the character image corresponding to the wild card in the search character string is different from the display attribute of the other character image in order to indicate that the search result is the search result by the search character string including the wild card. It becomes.
[0066]
On the other hand, if the number of search character strings / X is n or more in step S309 (YES in step S309), the process proceeds to step S313, and the character group in the misrecognized character list is matched with one character in the search character string.
[0067]
This matching may be performed by matching each character of the search character string with the misrecognized character group of the misrecognized character list, or each character and the misrecognized character list from the beginning of the search character string to a predetermined number. It is also possible to perform matching with the misrecognized character group, and this matching method can be appropriately changed according to the use and purpose.
[0068]
Next, in step S314, it is determined by matching whether or not the character to be matched in the search character string is a misrecognized character existing in the misrecognized character list. If the character is a misrecognized character (YES in step S314), the process advances to step S315 to generate a search character string in which the matching target character is replaced with another corresponding misrecognized character. For example, if the search string is “Budget Ratio”, the matching target character is “Calculation”, and “Nose” is the misrecognized character of that “Calculation”, then the search string is “Budget Ratio” It will be changed to “Noisy ratio”. In addition, a new search character string is generated by replacing characters in the search character string with misrecognized characters, and the search result by the search character string conforms to the display form of the comparison table image as shown in FIG. However, in this case, the display attribute of the character image corresponding to the misrecognized character is different from the display attribute of the other character image.
[0069]
If a search character string is generated in step S314, the character string update flag indicating that the search character string is changed and the search is executed is turned on again. This character string update flag is managed by the
[0070]
On the other hand, if it is not a misrecognized character in step S314 (NO in step S314), it is determined that there is no formatted text data that matches the search condition, and the process ends.
[0071]
As described above, according to the present embodiment, when a search result based on the search character string input from the
[0072]
Further, as a search result, image data corresponding to the OCR result (formatted text data) is displayed in comparison, and a character image on the image data matching the search character string is displayed separately from other character images. The user can easily visually recognize the character image to be subjected to the OCR, and can reduce the man-hour for confirming the desired character image in the document image to be subjected to the OCR as compared with the conventional case.
[0073]
In the above embodiment, the
[0074]
In addition, the wild card is configured to be sequentially switched from the beginning of the search character string, but is not limited thereto. For example, only characters with a large number of strokes that are easily misrecognized in the search character string, that is, characters with a predetermined number of strokes or more may be set as wildcard targets. In this case, the processing speed can be increased.
[0075]
Further, the comparison display image is configured such that when the search result is obtained, the comparison display image as the search result is presented to the
[0076]
An object of the present invention is to supply a storage medium storing a program code of software that implements the functions of the above-described embodiments to a system or apparatus, and the computer (or CPU or MPU) of the system or apparatus stores the storage medium. Needless to say, this can also be achieved by reading and executing the program code stored in the.
[0077]
In this case, the program code itself read from the storage medium realizes the functions of the above-described embodiments, and the storage medium storing the program code constitutes the present invention.
[0078]
As a storage medium for supplying the program code, for example, a floppy disk, a hard disk, an optical disk, a magneto-optical disk, a CD-ROM, a CD-R, a magnetic tape, a nonvolatile memory card, a ROM, or the like can be used.
[0079]
Further, by executing the program code read by the computer, not only the functions of the above-described embodiments are realized, but also an OS (operating system) operating on the computer based on the instruction of the program code. It goes without saying that a case where the function of the above-described embodiment is realized by performing part or all of the actual processing and the processing is included.
[0080]
Further, after the program code read from the storage medium is written into a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer, the function expansion is performed based on the instruction of the program code. It goes without saying that the CPU or the like provided in the board or the function expansion unit performs part or all of the actual processing, and the functions of the above-described embodiments are realized by the processing.
[0081]
When the present invention is applied to the storage medium, the storage medium stores program codes corresponding to the flowcharts described above.
[0082]
【The invention's effect】
As described above, according to the present invention, a desired OCR result can be efficiently searched, and a desired character image in a document image corresponding to the OCR result can be easily visually recognized. An image search apparatus and method, a document image search system, and a program can be provided.
[Brief description of the drawings]
FIG. 1 is a diagram illustrating a configuration of a document image search system according to an embodiment.
FIG. 2 is a diagram showing a hardware configuration of each of various terminals and servers constituting the document image search system of the present embodiment.
FIG. 3 is a flowchart showing document image management processing executed in the present embodiment.
FIG. 4 is a flowchart showing document image search processing of the present embodiment.
FIG. 5 is a diagram showing an example of a comparison display image of the present embodiment.
FIG. 6 is a diagram illustrating an example of a comparison display image according to the present embodiment.
Claims (14)
前記入力された検索条件を構成する第1検索文字列による検索を実行する第1検索手段と、
前記第1検索手段の検索の結果、前記OCR結果に前記第1検索文字列がない場合に、該第1検索文字列の1文字をワイルドカードに置き換えた第2検索文字列による再検索を実行する第2検索手段と、
誤認識され易い文字群を対応づけて管理する誤認識文字リストを記憶する記憶手段と、
前記第2検索手段の検索の結果、前記OCR結果に前記第2検索文字列がない場合に、前記第1検索文字列中の前記誤認識文字リストで管理されている第1文字を該第1文字に対応づけられている第2文字に置き換えた第3検索文字列を生成し、当該生成した第3検索文字列の1文字をワイルドカードに置き換えた第4検索文字列による検索を実行する第3検索手段と、
前記第1検索手段乃至前記第3検索手段の少なくともいずれかで検索されたOCR結果と対応する前記文書画像との対比表示画像をそれぞれ生成する生成手段と
を備えることを特徴とする文書画像検索装置。A document image search device that manages OCR results of document images and searches for OCR results that match the search conditions based on the input search conditions,
First search means for executing a search by a first search character string constituting the input search condition;
If the first search character string is not found in the OCR result as a result of the search by the first search means, a re-search is performed using the second search character string in which one character of the first search character string is replaced with a wild card. Second search means for performing,
Storage means for storing a misrecognized character list for managing a group of characters that are easily misrecognized in association with each other;
If there is no second search character string in the OCR result as a result of the search by the second search means, the first character managed in the misrecognized character list in the first search character string is the first character. A third search character string replaced with the second character associated with the character is generated, and a search is performed using the fourth search character string in which one character of the generated third search character string is replaced with a wild card. 3 search means;
Document image retrieval apparatus comprising: a generating means for generating respective comparison display image of the document image and the corresponding been OCR search results in at least one of said first search means to said third searching means .
前記展開イメージデータの文字画像の位置情報を抽出して、前記OCR結果をページ情報及び余白データを含む書式付テキストデータにフォーマット変換する変換手段と、
前記第1検索手段と前記第2検索手段と前記第3検索手段とがそれぞれ前記第1検索文字列と前記第2検索文字列と前記第4検索文字列とを検索した場合に、前記第1検索手段と前記第2検索手段と前記第3検索手段とがそれぞれ検索した前記第1検索文字列と前記第2検索文字列と前記第4検索文字列との位置を検出する検出手段と、
前記検出した前記第1検索文字列と前記第2検索文字列と前記第4検索文字列との位置に基づいて、前記文字画像のそれぞれ前記第1検索文字列と前記第2検索文字列と前記第4検索文字列との位置に対応する位置の表示属性を変更する変更手段とを更に備え、
前記対比表示画像は、前記変更手段により変更された前記文書画像中の前記第1検索文字列と前記第2検索文字列と前記第4検索文字列とに対応する文字画像の表示属性とそれ以外の他の文字画像の表示属性とが異なるようそれぞれ表示される
ことを特徴とする請求項1に記載の文書画像検索装置。 The developed image data obtained by developing the OCR result into an image is compared with the corresponding document image, and a space is inserted into the developed image data, so that the layout of the developed image data and the layout of the document image become the same. Layout adjustment means to adjust,
Conversion means for extracting character image position information of the developed image data and converting the OCR result into formatted text data including page information and margin data;
When the first search means, the second search means, and the third search means search the first search character string, the second search character string, and the fourth search character string, respectively, Detecting means for detecting positions of the first search character string, the second search character string, and the fourth search character string searched by the search means, the second search means, and the third search means, respectively;
Based on the positions of the detected first search character string, the second search character string, and the fourth search character string, the first search character string, the second search character string, and the Change means for changing the display attribute of the position corresponding to the position of the fourth search character string;
The contrast display image includes a display attribute of a character image corresponding to the first search character string , the second search character string, and the fourth search character string in the document image changed by the changing unit, and the others. other document image retrieval apparatus according to claim 1 in which the display attribute of the character image, characterized in that it is displayed different from each other.
ことを特徴とする請求項1又は請求項2に記載の文書画像検索装置。The second search means executes a re-search by a search character string in which another character of the first search character string is replaced with a wild card when a search result by the second search character string is not obtained. The document image search apparatus according to claim 1 , wherein the document image search apparatus is a document image search apparatus.
ことを特徴とする請求項1乃至請求項3のいずれか1項に記載の文書画像検索装置。The second searching means, a document image retrieval apparatus according to any one of claims 1 to 3, characterized in that to replace the predetermined number of strokes or more one letter in the first search string in a wildcard .
前記検索用端末は、
検索条件を入力する入力手段と、
前記検索条件を前記文書画像検索サーバへ送信する第1送信手段と、
前記検索条件に対応する検索結果を前記文書画像検索サーバより受信する第1受信手段と、
前記検索結果を表示する表示手段とを備え、
前記文書画像検索サーバは、
前記検索用端末より検索条件を受信する第2受信手段と、
前記検索条件を構成する第1検索文字列による検索を実行する第1検索手段と、
前記第1検索手段の検索の結果、前記OCR結果に前記第1検索文字列がない場合に、該第1検索文字列の1文字をワイルドカードに置き換えた第2検索文字列による再検索を実行する第2検索手段と、
誤認識され易い文字群を対応づけて管理する誤認識文字リストを記憶する記憶手段と、
前記第2検索手段の検索の結果、前記OCR結果に前記第2検索文字列がない場合に、前記第1検索文字列中の前記誤認識文字リストで管理されている第1文字を該第1文字に対応づけられている第2文字に置き換えた第3検索文字列を生成し、当該生成した第3検索文字列の1文字をワイルドカードに置き換えた第4検索文字列による検索を実行する第3検索手段と、
前記第1検索手段乃至第3検索手段の少なくともいずれかで検索されたOCR結果と対応する前記文書画像との対比表示画像をそれぞれ生成する生成手段と
前記対比表示画像を前記検索用端末へ送信する第2送信手段と
を備えることを特徴とする文書画像検索システム。A document image search server that manages OCR results of document images and searches for OCR results that match the search conditions based on the input search conditions and a search terminal that inputs the search conditions are mutually connected via a network. A document image retrieval system configured to be connected to
The search terminal is
An input means for entering search conditions;
First transmission means for transmitting the search condition to the document image search server;
First receiving means for receiving a search result corresponding to the search condition from the document image search server;
Display means for displaying the search results,
The document image search server
Second receiving means for receiving a search condition from the search terminal;
First search means for executing a search using a first search character string constituting the search condition;
If the first search character string is not found in the OCR result as a result of the search by the first search means, a re-search is performed using the second search character string in which one character of the first search character string is replaced with a wild card. Second search means for performing,
Storage means for storing a misrecognized character list for managing a group of characters that are easily misrecognized in association with each other;
If there is no second search character string in the OCR result as a result of the search by the second search means, the first character managed in the misrecognized character list in the first search character string is the first character. A third search character string replaced with the second character associated with the character is generated, and a search is performed using the fourth search character string in which one character of the generated third search character string is replaced with a wild card. 3 search means;
Transmitting said comparison displayed image and generating means for generating respective comparison display image of the document image corresponding to at least have been OCR search results in either the first search means to third search means to said search terminal A document image retrieval system comprising: a second transmission unit.
前記展開イメージデータの文字画像の位置情報を抽出して、前記OCR結果をページ情報及び余白データを含む書式付テキストデータにフォーマット変換する変換手段と、Conversion means for extracting character image position information of the developed image data and converting the OCR result into formatted text data including page information and margin data;
前記第1検索手段と前記第2検索手段と前記第3検索手段とがそれぞれ前記第1検索文字列と前記第2検索文字列と前記第4検索文字列とを検索した場合に、前記第1検索手段と前記第2検索手段と前記第3検索手段とがそれぞれ検索した前記第1検索文字列と前記第2検索文字列と前記第4検索文字列との位置を検出する検出手段と、When the first search means, the second search means, and the third search means search the first search character string, the second search character string, and the fourth search character string, respectively, Detecting means for detecting positions of the first search character string, the second search character string, and the fourth search character string searched by the search means, the second search means, and the third search means, respectively;
前記検出した前記第1検索文字列と前記第2検索文字列と前記第4検索文字列との位置に基づいて、それぞれ前記文字画像の前記第1検索文字列と前記第2検索文字列と前記第4検索文字列との位置に対応する位置の表示属性を変更する変更手段とを更に備え、Based on the positions of the detected first search character string, the second search character string, and the fourth search character string, the first search character string, the second search character string, and the Change means for changing the display attribute of the position corresponding to the position of the fourth search character string;
前記対比表示画像は、前記変更手段により変更された前記文書画像中の前記第1検索文字列と前記第2検索文字列と前記第4検索文字列とに対応する文字画像の表示属性とそれ以外の他の文字画像の表示属性とが異なるようそれぞれ表示されるThe contrast display image includes a display attribute of a character image corresponding to the first search character string, the second search character string, and the fourth search character string in the document image changed by the changing unit, and the others. Are displayed differently from the display attributes of other character images
ことを特徴とする請求項5に記載の文書画像検索システム。The document image retrieval system according to claim 5, wherein
前記文書画像検索装置の第1検索手段が、前記入力された検索条件を構成する第1検索文字列による検索を実行する第1検索工程と、
前記第1検索手段の検索の結果、前記OCR結果に前記第1検索文字列がない場合に、前記文書画像検索装置の第2検索手段が、該第1検索文字列の1文字をワイルドカードに置き換えた第2検索文字列による再検索を実行する第2検索工程と、
前記第2検索工程の検索の結果、前記OCR結果に前記第2検索文字列がない場合に、前記文書画像検索装置の第3検索手段が、前記第1検索文字列中の前記誤認識文字リストで管理されている第1文字を該第1文字に対応づけられている第2文字に置き換えた第3検索文字列を生成し、当該生成した第3検索文字列の1文字をワイルドカードに置き換えた第4検索文字列による検索を実行する第3検索工程と、
前記文書画像検索装置の生成手段が、前記第1検索手段乃至前記第3検索手段の少なくともいずれかで検索されたOCR結果と対応する前記文書画像との対比表示画像をそれぞ れ生成する生成工程と
を備えることを特徴とする文書画像検索方法。 A document image search method in a document image search apparatus that manages OCR results of document images and searches for OCR results that match the search conditions based on an input search condition,
A first search step in which a first search means of the document image search device executes a search using a first search character string constituting the input search condition;
Results of the search of the first search means, when there is no the first search string in the OCR result, the second search unit of the document image retrieval apparatus, the one character of the first search string to a wildcard A second search step of performing a re-search with the replaced second search character string;
When the second search character string is not included in the OCR result as a result of the search in the second search step, the third search means of the document image search device uses the misrecognized character list in the first search character string. A third search character string is generated by replacing the first character managed in step 2 with the second character associated with the first character, and one character of the generated third search character string is replaced with a wild card. A third search step for performing a search by the fourth search character string;
Generating step of generating means of the document image retrieval apparatus, the contrast display image of the document image corresponding to at least have been OCR search results in either the first search means to said third searching means for generating, respectively it A document image search method comprising:
前記文書画像検索装置の変換手段が、前記展開イメージデータの文字画像の位置情報を抽出して、前記OCR結果をページ情報及び余白データを含む書式付テキストデータにフォーマット変換する変換工程と、
前記第1検索工程と前記第2検索工程と前記第3検索工程とでそれぞれ前記第1検索文字列と前記第2検索文字列と前記第4検索文字列とを検索した場合に、前記文書画像検索装置の検出手段が、前記第1検索工程と前記第2検索工程と前記第3検索工程とでそれぞれ検索した前記第1検索文字列と前記第2検索文字列と前記第4検索文字列との位置を検出する検出工程と、
前記文書画像検索装置の変更手段が、前記検出した前記第1検索文字列と前記第2検索文字列と前記第4検索文字列との位置に基づいて、前記文字画像のそれぞれ前記第1検索文字列と前記第2検索文字列と前記第4検索文字列との位置に対応する位置の表示属性を変更する変更工程とを更に備え、
前記対比表示画像は、前記変更工程により変更された前記文書画像中の前記第1検索文字列と前記第2検索文字列と前記第4検索文字列とに対応する文字画像の表示属性とそれ以外の他の文字画像の表示属性とが異なるようそれぞれ表示される
ことを特徴とする請求項7に記載の文書画像検索方法。 A layout adjustment unit of the document image search device compares the developed image data obtained by developing the OCR result into an image and the corresponding document image, inserts a space in the developed image data, and layout of the developed image data. And a layout adjustment step for adjusting the document image layout to be the same,
A conversion step in which the conversion means of the document image search apparatus extracts position information of the character image of the expanded image data, and converts the format of the OCR result into formatted text data including page information and margin data;
When the first search character string, the second search character string, and the fourth search character string are searched in the first search step, the second search step, and the third search step, respectively, the document image The first search character string, the second search character string, and the fourth search character string searched by the detection means of the search device in the first search step, the second search step, and the third search step, respectively. A detection step of detecting the position of
The changing means of the document image search device is configured such that the first search character of each of the character images is based on the detected positions of the first search character string, the second search character string, and the fourth search character string. A change step of changing a display attribute of a position corresponding to the position of the column, the second search character string, and the fourth search character string;
The comparison display image, display attributes and others of the corresponding character image to the first search character string of the document in the image that has been changed by said changing step and said second search character string and the fourth search string document image retrieval method according to claim 7, the display attributes of another character image, characterized in that it is displayed different from each other.
ことを特徴とする請求項7又は請求項8に記載の文書画像検索方法。In the second search step, when a search result by the second search character string is not obtained, a search by the search character string in which another character in the first search character string is replaced with a wild card is executed. document image retrieval method according to claim 7 or claim 8, characterized.
ことを特徴とする請求項7乃至請求項9のいずれか1項に記載の文書画像検索方法。10. The document image search method according to claim 7, wherein in the second search step, one character having a predetermined number of strokes or more in the first search character string is replaced with a wild card. 11 . .
前記文書画像検索サーバは、誤認識され易い文字群を対応づけて管理する誤認識文字リストを記憶する記憶手段を備え、
前記文書画像検索サーバの受信手段が、前記検索用端末で入力された前記検索条件を、前記検索用端末から受信する受信工程と、
前記文書画像検索サーバの第1検索手段が、前記検索条件を構成する第1検索文字列による検索を実行する第1検索工程と、
前記第1検索手段の検索の結果、前記OCR結果に前記第1検索文字列がない場合に、前記文書画像検索サーバの第2検索手段が、該第1検索文字列の1文字をワイルドカードに置き換えた第2検索文字列による再検索を実行する第2検索工程と、
前記第2検索工程の検索の結果、前記OCR結果に前記第2検索文字列がない場合に、前記文書画像検索サーバの第3検索手段が、前記第1検索文字列中の前記誤認識文字リストで管理されている第1文字を該第1文字に対応づけられている第2文字に置き換えた第3検索文字列を生成し、当該生成した第3検索文字列の1文字をワイルドカードに置き換えた第4検索文字列による検索を実行する第3検索工程と、
前記文書画像検索サーバの生成手段が、前記第1検索手段乃至前記第3検索手段の少なくともいずれかで検索されたOCR結果と対応する前記文書画像との対比表示画像をそれぞれ生成する生成工程と、
前記文書画像検索サーバの送信手段が、前記対比表示画像を前記検索用端末へ送信する送信工程と
を備えることを特徴とする文書画像検索システムの制御方法。A document image search server that manages OCR results of document images and searches for OCR results that match the search conditions based on the input search conditions and a search terminal that inputs the search conditions are mutually connected via a network. A method for controlling a document image search system configured to be connected to
The document image search server includes storage means for storing a misrecognized character list for managing a character group that is easily misrecognized.
A receiving step in which the receiving means of the document image search server receives the search condition input from the search terminal from the search terminal;
A first search step in which a first search means of the document image search server executes a search using a first search character string constituting the search condition;
Results of the search of the first search means, when there is no the first search string in the OCR result, the second search unit of the document image retrieval server, one character of the first search string to a wildcard A second search step of performing a re-search with the replaced second search character string;
If the second search character string is not included in the OCR result as a result of the search in the second search step, the third search means of the document image search server causes the misrecognized character list in the first search character string. A third search character string is generated by replacing the first character managed in step 2 with the second character associated with the first character, and one character of the generated third search character string is replaced with a wild card. A third search step for performing a search by the fourth search character string;
A generation step of generating means of the document image search server generates the contrast display image of the document image corresponding to at least have been OCR search results in either the first search means to said third searching means respectively,
A transmission method of the document image search server, comprising: a transmission step of transmitting the comparison display image to the search terminal.
前記文書画像検索サーバの変換手段が、前記展開イメージデータの文字画像の位置情報を抽出して、前記OCR結果をページ情報及び余白データを含む書式付テキストデータにフォーマット変換する変換工程と、A conversion step in which conversion means of the document image search server extracts character image position information of the developed image data, and converts the format of the OCR result into formatted text data including page information and margin data;
前記第1検索工程と前記第2検索工程と前記第3検索工程とでそれぞれ前記第1検索文字列と前記第2検索文字列と前記第4検索文字列とを検索した場合に、前記文書画像検索サーバの検出手段が、前記第1検索工程と前記第2検索工程と前記第3検索工程とでそれぞれ検索した前記第1検索文字列と前記第2検索文字列と前記第4検索文字列との位置を検出する検出工程と、When the first search character string, the second search character string, and the fourth search character string are searched in the first search step, the second search step, and the third search step, respectively, the document image The first search character string, the second search character string, and the fourth search character string respectively detected by the detection means of the search server in the first search step, the second search step, and the third search step, A detection step of detecting the position of
前記文書画像検索サーバの変更手段が、前記検出した前記第1検索文字列と前記第2検索文字列と前記第4検索文字列との位置に基づいて、前記文字画像のそれぞれ前記第1検索文字列と前記第2検索文字列と前記第4検索文字列との位置に対応する位置の表示属性を変更する変更工程を更に備え、The changing means of the document image search server is configured such that the first search character of each of the character images is based on the detected positions of the first search character string, the second search character string, and the fourth search character string. A change step of changing a display attribute of a position corresponding to the position of the column, the second search character string, and the fourth search character string;
前記対比表示画像は、前記変更工程により変更された前記文書画像中の前記第1検索文字列と前記第2検索文字列と前記第4検索文字列とに対応する文字画像の表示属性とそれ以外の他の文字画像の表示属性とがそれぞれ異なるようそれぞれ表示される The comparison display image includes a display attribute of a character image corresponding to the first search character string, the second search character string, and the fourth search character string in the document image changed by the changing step, and the others. Are displayed differently from the display attributes of other character images
ことを特徴とする請求項11に記載の文書画像検索システムの制御方法。The method of controlling a document image search system according to claim 11.
前記文書画像検索装置を、
前記入力された検索条件を構成する第1検索文字列による検索を実行する第1検索手段と、
前記第1検索手段の検索の結果、前記OCR結果に前記第1検索文字列がない場合に、該第1検索文字列の1文字をワイルドカードに置き換えた第2検索文字列による再検索を実行する第2検索手段と、
誤認識され易い文字群を対応づけて管理する誤認識文字リストを記憶する記憶手段と、
前記第2検索手段の検索の結果、前記OCR結果に前記第2検索文字列がない場合に、前記第1検索文字列中の前記誤認識文字リストで管理されている第1文字を該第1文字に対応づけられている第2文字に置き換えた第3検索文字列を生成し、当該生成した第3検索文字列の1文字をワイルドカードに置き換えた第4検索文字列による検索を実行する第3検索手段と、
前記第1検索手段乃至前記第3検索手段の少なくともいずれかで検索されたOCR結果と対応する前記文書画像との対比表示画像をそれぞれ生成する生成手段と
して機能させるための文書画像検索装置の制御プログラム。 A control program for a document image search apparatus that manages OCR results of document images and searches for OCR results that match the search conditions based on an input search condition ,
The document image search device
First search means for executing a search by a first search character string constituting the input search condition;
If the first search character string is not found in the OCR result as a result of the search by the first search means, a re-search is performed using the second search character string in which one character of the first search character string is replaced with a wild card. Second search means for performing,
Storage means for storing a misrecognized character list for managing a group of characters that are easily misrecognized in association with each other;
If there is no second search character string in the OCR result as a result of the search by the second search means, the first character managed in the misrecognized character list in the first search character string is the first character. A third search character string replaced with the second character associated with the character is generated, and a search is performed using the fourth search character string in which one character of the generated third search character string is replaced with a wild card. 3 search means;
Generating means for respectively generating a comparison display image of the OCR result searched by at least one of the first search means to the third search means and the corresponding document image;
Control program for a document image retrieval apparatus for causing the function to function .
前記展開イメージデータの文字画像の位置情報を抽出して、前記OCR結果をページ情報及び余白データを含む書式付テキストデータにフォーマット変換する変換手段と、Conversion means for extracting character image position information of the developed image data and converting the OCR result into formatted text data including page information and margin data;
前記第1検索手段と前記第2検索手段と前記第3検索手段とがそれぞれ前記第1検索文字列と前記第2検索文字列と前記第4検索文字列とを検索した場合に、前記第1検索手段と前記第2検索手段と前記第3検索手段とがそれぞれ検索した前記第1検索文字列と前記When the first search means, the second search means, and the third search means search the first search character string, the second search character string, and the fourth search character string, respectively, The first search character string searched by the search means, the second search means, and the third search means, respectively, and the 第2検索文字列と前記第4検索文字列との位置を検出する検出手段と、Detecting means for detecting positions of the second search character string and the fourth search character string;
前記検出した前記第1検索文字列と前記第2検索文字列と前記第4検索文字列の位置に基づいて、前記文字画像のそれぞれ前記第1検索文字列と前記第2検索文字列と前記第4検索文字列との位置に対応する位置の表示属性を変更する変更手段として更に機能させ、Based on the positions of the detected first search character string, the second search character string, and the fourth search character string, the first search character string, the second search character string, and the first of the character images, respectively. 4 further function as a changing means for changing the display attribute of the position corresponding to the position with the search character string,
前記対比表示画像は、前記変更手段により変更された前記文書画像中の前記第1検索文字列と前記第2検索文字列と前記第4検索文字列とに対応する文字画像の表示属性とそれ以外の他の文字画像の表示属性とがそれぞれ異なるようそれぞれ表示されるThe contrast display image includes a display attribute of a character image corresponding to the first search character string, the second search character string, and the fourth search character string in the document image changed by the changing unit, and the others. Are displayed differently from the display attributes of other character images
ことを特徴とする請求項13に記載の文書画像検索装置の制御プログラム。14. The control program for a document image search apparatus according to claim 13, wherein the control program is a document image search apparatus.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002378481A JP4208566B2 (en) | 2002-12-26 | 2002-12-26 | Document image search apparatus and method, document image search system, and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002378481A JP4208566B2 (en) | 2002-12-26 | 2002-12-26 | Document image search apparatus and method, document image search system, and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2004213091A JP2004213091A (en) | 2004-07-29 |
| JP4208566B2 true JP4208566B2 (en) | 2009-01-14 |
Family
ID=32815318
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2002378481A Expired - Fee Related JP4208566B2 (en) | 2002-12-26 | 2002-12-26 | Document image search apparatus and method, document image search system, and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4208566B2 (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN103548036A (en) * | 2011-05-17 | 2014-01-29 | 松下电器产业株式会社 | Character string extraction method and character string extraction device |
Families Citing this family (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007058624A (en) * | 2005-08-25 | 2007-03-08 | Fuji Xerox Co Ltd | Information processor, information processing method, and computer program |
| JP2007280104A (en) * | 2006-04-07 | 2007-10-25 | Pioneer Electronic Corp | Information processor, information processing method, information processing program, and computer readable recording medium |
| JP5168706B2 (en) * | 2008-07-18 | 2013-03-27 | 株式会社日立ソリューションズ | Automatic definition system of data retrieval item information in electronic form system |
| JP6172565B2 (en) * | 2013-06-11 | 2017-08-02 | 富士ゼロックス株式会社 | Document processing apparatus and program |
| JP6884930B2 (en) | 2018-10-04 | 2021-06-09 | 昭和電工株式会社 | Document search device, document search program, document search method |
| CN111126370A (en) * | 2018-10-31 | 2020-05-08 | 上海迈弦网络科技有限公司 | OCR recognition result-based longest common substring automatic error correction method and system |
| JP7257204B2 (en) * | 2019-03-20 | 2023-04-13 | 株式会社Screenホールディングス | Character string search device, character string search method, and character string search program |
-
2002
- 2002-12-26 JP JP2002378481A patent/JP4208566B2/en not_active Expired - Fee Related
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN103548036A (en) * | 2011-05-17 | 2014-01-29 | 松下电器产业株式会社 | Character string extraction method and character string extraction device |
| CN103548036B (en) * | 2011-05-17 | 2014-10-22 | 松下电器产业株式会社 | Character string extraction method and character string extraction device |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2004213091A (en) | 2004-07-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| TWI475406B (en) | Contextual input method | |
| US8577882B2 (en) | Method and system for searching multilingual documents | |
| US20070098263A1 (en) | Data entry apparatus and program therefor | |
| US7359896B2 (en) | Information retrieving system, information retrieving method, and information retrieving program | |
| JP2023007268A (en) | Patent text generation device, patent text generation method, and patent text generation program | |
| JP4208566B2 (en) | Document image search apparatus and method, document image search system, and program | |
| CN109074355A (en) | method and system for ideographic character analysis | |
| JP4054428B2 (en) | Image search apparatus and method, and computer-readable memory | |
| US6760408B2 (en) | Systems and methods for providing a user-friendly computing environment for the hearing impaired | |
| CN113495874A (en) | Information processing apparatus and computer readable medium | |
| WO2020071252A1 (en) | Document search device, document search program, and document search method | |
| JP2006343870A (en) | Document retrieval apparatus and method, and storage medium | |
| JP2020047031A (en) | Document retrieval device, document retrieval system and program | |
| JPH0696288A (en) | Character recognizing device and machine translation device | |
| JP2932667B2 (en) | Information retrieval method and information storage device | |
| JP2000339310A (en) | Document classification method, document classification device, and recording medium for recording program | |
| JPH1063813A (en) | Method for managing image document and device therefor | |
| JP2986255B2 (en) | Character recognition device | |
| JP2001188640A (en) | Technology for translating non-text display generation data expressing indicator into text variables | |
| JP3193249B2 (en) | Keyword search method | |
| JP2007018158A (en) | Character processing apparatus, character processing method, and recording medium | |
| JPH05210635A (en) | Input device | |
| CN121617116A (en) | Document processing method, device and computer program product | |
| KR20240140230A (en) | Electronic device of providing search service for contents including stylus input | |
| JP2002245470A (en) | Language specifying device, translating device, and language specifying method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050613 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080623 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080819 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081006 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081021 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 4208566 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111031 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111031 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121031 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131031 Year of fee payment: 5 |
|
| LAPS | Cancellation because of no payment of annual fees |