JP4192457B2 - Database construction apparatus, database construction method, database construction program, recording medium - Google Patents
Database construction apparatus, database construction method, database construction program, recording medium Download PDFInfo
- Publication number
- JP4192457B2 JP4192457B2 JP2001328330A JP2001328330A JP4192457B2 JP 4192457 B2 JP4192457 B2 JP 4192457B2 JP 2001328330 A JP2001328330 A JP 2001328330A JP 2001328330 A JP2001328330 A JP 2001328330A JP 4192457 B2 JP4192457 B2 JP 4192457B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- database
- layout area
- electronic document
- elements
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
Description
【0001】
【発明の属する技術分野】
この発明は、データベースの構築および更新を簡単に行うことができるデータベース構築装置、データベース構築方法、データベース構築プログラム、記録媒体に関するものである。
【0002】
【従来の技術】
従来から、カタログ作成依頼者(以下、依頼者と称する)からカタログを作成依頼された場合に、印刷業者は、DTP(Desktop Publishing)が適用されたシステムを利用して、カタログを作成することが行われている。例えば、カタログに掲載するための商品の画像や、商品の名称、型式、寸法、製品紹介文などの文書等の商品情報が商品データベースに予め記憶されている。この商品データベースからDTP用コンピュータを利用して、商品情報を読み出し、画像や文書のレイアウトを決め、編集を行い、見本を印刷する。そして、印刷された見本を依頼者に確認(レイアウト、誤植の有無等)してもらい、訂正内容があれば、見本に訂正内容を記入してもらう。印刷業者は、見本に記入された訂正内容に応じて、DTP用コンピュータによってDTP上のデータを修正する。そして、修正後の見本の印刷物を依頼者に再度確認してもらい、変更がなければ、印刷し、カタログを作成する。
【0003】
一方、上述した商品データベースは、次回のカタログ制作時においては、新製品などの情報が追加され、引き続き利用される。従って、依頼者によって見本に記入された訂正内容に応じて、印刷業者は、DTP用コンピュータによってDTP上のデータが修正された場合、この修正内容を商品データベースに反映させ、商品データベースを更新する必要があるが、この商品データベースの更新作業は、印刷業者が見本に記入された訂正内容に基づいて、商品データベース用のコンピュータから商品データベースの更新作業を行っていた。
【0004】
【発明が解決しようとする課題】
しかしながら、従来技術によれば、印刷業者は、依頼者によって記入された見本の訂正内容に基づいて、DTP上のデータの更新作業を行うとともに、商品データベースの更新作業を行うすなわち、二重に入力作業を行う必要があり、これらの更新作業は、印刷業者にとって大きな負担であるとともに、更新作業に多大な時間がかかってしまっていた。
また、商品データベースに対しても、DTP上のデータの更新と同じ更新内容を反映させる必要があるが、作業者のミスなどにより、商品データベースに確実な更新作業を行うことができない場合もあった。
【0005】
本発明は、このような事情に鑑みてなされたもので、その目的は、レイアウト構造ファイルからデータ構造ファイルを生成してデータベースを構築することができるデータベース構築装置、データベース構築方法、データベース構築プログラム、記録媒体を提供することにある。
【0006】
【課題を解決するための手段】
上記目的を達成するために、本発明は、電子文書を構成する要素が予めレイアウトされた電子文書からデータベースを構築するデータベース構築システムであって、前記電子文書から抽出する要素を指定するためのルール情報を設定またはルール情報を予め記憶するルールデータベースから読み出す要素名規則性定義手段と、前記電子文書から抽出される要素にデータベースの項目となる項目情報を設定する要素名規則性特定手段と、前記要素名規則性定義手段によって指定されるルール情報に基づいて、前記電子文書から要素を抽出し、抽出した要素を前記要素名規則性特定手段によって設定される項目情報を対応付けてデータベース情報として出力する構成要素抽出手段と、を有することを特徴とする。
【0007】
また、本発明は、上述のデータベース構築装置において、前記要素のうち、複数の要素を1つのグループとして関連付けするリンク情報を生成する要素関係特定手段を有し、前記構成要素抽出手段は、前記要素関係特定手段によって生成されたリンク情報に基づいて前記電子文書から抽出される要素を関連付けるとともに、前記項目情報を対応付けてデータベース情報として出力することを特徴とする。
また、本発明は、上述のデータベース構築装置において、前記電子文書は、商品のカタログに関する情報を含むことを特徴とする。
【0008】
また、本発明は、電子文書を構成する要素が予めレイアウトされた電子文書からデータベースを構築するデータベース構築方法であって、前記電子文書から抽出する要素を指定するためのルール情報を設定し、前記電子文書から抽出される要素にデータベースの項目となる項目情報を設定し、前記ルール情報に基づいて、前記電子文書から要素を抽出し、抽出した要素を前記項目情報に基づき、前記要素と前記項目とを対応付けてデータベース情報として出力する、ことを特徴とする。
【0009】
また、本発明は、電子文書を構成する要素が予めレイアウトされた電子文書からデータベースを構築するデータベース構築プログラムであって、前記電子文書から抽出する要素を指定するためのルール情報を設定するステップと、前記電子文書から抽出される要素にデータベースの項目となる項目情報を設定するステップと、前記ルール情報に基づいて、前記電子文書から要素を抽出するステップと、抽出した要素を前記項目情報に基づき、前記要素と前記項目とを対応付けてデータベース情報として出力するステップと、をコンピュータに実行させることを特徴とする。
【0010】
また、本発明は、電子文書を構成する要素が予めレイアウトされた電子文書からデータベースを構築するデータベース構築プログラムを記録したコンピュータ読み取り可能な記録媒体であって、前記電子文書から抽出する要素を指定するためのルール情報を設定するステップと、前記電子文書から抽出される要素にデータベースの項目となる項目情報を設定するステップと、前記ルール情報に基づいて、前記電子文書から要素を抽出するステップと、抽出した要素を前記項目情報に基づき、前記要素と前記項目とを対応付けてデータベース情報として出力するステップと、をコンピュータに実行させるデータベース構築プログラムを記録したことを特徴とする。
【0011】
【発明の実施の形態】
以下、本発明の一実施形態によるデータベース構築装置を図面を参照して説明する。この実施形態においては、図2に示すような商品カタログのレイアウト構造ファイルである電子文書からデータ構造ファイルを生成し、データベースを構築する場合について説明する。ここでいうデータ構造ファイルとは、要素に意味を持たせ、その意味を指定し、表現することが可能なデータを記憶するファイルであり、例えば、DB、XML(eXtensible Markup Language)等がある。レイアウト構造ファイルとは、要素を表現する位置(レイアウト)を指定し表現することができるデータを記憶するためのファイルであり、例えば、DTPデータ、HTML(HyperText Markup Language)等がある。
図1は、この発明の一実施形態によるデータベース構築装置の構成を示す概略ブロック図である。
この図において、電子文書変換部1は、外部の装置から出力される電子ファイルをデータベース構築装置において処理可能なファイル形式のデータに変換し、変換されたデータを変換データ分析部2に出力する。例えば、電子文書変換部1は、外部から送信されるDTPドキュメントデータを中間ファイルに変換する。
【0012】
ここで、中間ファイルとは、レイアウト構造ファイルであり、文字や画像、図形などが紙や画面に出力される際の体裁情報をもつ、印刷用データ、ワープロデータ、マークアップ言語データ(HTML(Hypertext MarkupLanguage)、XML(Extensible Markup Language)、SGML(Standard Generalized Markup Language))等の形式のデータである。
【0013】
変換データ分析部2は、電子文書変換部1から出力される中間ファイルに基づく画像を変換データ表示部4の画面上に出力する。この変換データ表示部4の画面上には、例えば、図2に示すような書類をまとめる事務用ファイルのカタログに関する情報が表示される。
また、変換データ分析部2は、電子文書変換部1から出力される中間ファイルと要素名規則性定義部3から出力されるルール情報とを構成要素抽出部7に出力する。
【0014】
要素名規則性定義部3は、電子文書から抽出する要素を指定するためのルール情報を設定する。このルール情報の一例を図3に示す。この図に示すように、ルール情報のうち、文字に対するルール情報は、例えば、文字の書体名、サイズ、色、変形、字送りのうち少なくとも1つの条件を含む文字体裁に関する条件と、行頭と行末とのうち一方又は両方を含む文字が配置された文字位置に関する条件と、前後の文字または他の要素との関係を指定する関係前後関係に関する条件と、内部に含まれる文字列を指定する条件である包含文字に関する条件と、のうち、少なくともいずれか1つの条件を含む。
また、抽出する対象が文字である場合、画像に対するルール情報は、ファイル名とファイル種別との一方または両方の条件を含むファイル情報に関する条件と、画像の大きさと解像度との一方または両方の条件を含む画像属性に関する条件と、画像の回転と倍率との一方または両方の条件を含むレイアウト属性に関する条件と、のうち少なくとも1つの条件を含む。
また、文字と画像とに対する共通の条件となるルール情報は、レイアウト領域の大きさと枠線との一方または両方を含むレイアウト領域に関する条件を含む。
また、要素名規則性定義部3は、ルール情報を予め記憶するルールデータベースを有し、必要に応じて、ルールデータベースからルール情報を読み出す。
【0015】
また、ここでいう要素とは、ヘッダーやフッター、見出しや本文、挿絵など文書を構成している内容となる情報であり、商品カタログの場合は、商品の品番や価格などの商品スペックの他、写真や図形、ロゴマークなどが該当する。
なお、このルール情報は、データベース構築装置の外部に接続されるキーボードやマウス等の入力デバイスから、作業者によって入力される。
【0016】
変換データ表示部4は、表示装置であり、例えば、CRT(Cathode Ray Tube)や液晶表示装置等が用いられる。
【0017】
要素関係特定部5は、入力デバイスを介して入力される作業者からの指示に基づいて、各要素間を1つのグループとして関連付けするリンク情報を生成する。このリンク情報とは、例えば、図4の符号(a)、符号(b)、符号(c)、符号(d)に示す各レイアウト領域内の文字や画像の情報が1つの商品について説明するためのデータであることの関連づけを行う情報である。これにより、画像や文字がどの商品であるかが商品毎に関連づけされる。なお、ここでいうレイアウト領域とは、1つの画像または1つの文字列などが設定される領域である。
【0018】
要素名規則性特定部6は、電子文書から抽出される文字や画像などの要素にデータベースの項目となる項目情報を設定する。この項目には、例えば、「品番」、「型式」、「寸法」、「価格」等がある。
【0019】
構成要素抽出部7は、要素名規則性定義部3によって指定されるルール情報に基づいて、電子文書から要素を抽出し、抽出した要素を要素名規則性特定部6によって設定される項目情報を対応付けてデータベース情報として構成要素出力部8に出力する。
また、構成要素抽出部7は、要素関係特定部5によって生成されたリンク情報に基づいて、電子文書から抽出される要素を関連付けるとともに、項目情報を対応付けてデータベース情報として出力する。
【0020】
構成要素出力部8は、表示装置であり、構成要素抽出部7から出力されるデータベース情報を画面上に出力する。構成要素出力部8は、変換データ表示部4と共通の表示装置を利用するようにしてもよい。また、構成要素出力部8は、データ出力装置であってもよい。
【0021】
次に、図1に示すデータベース構築装置の動作について図5から図8のフローチャートを用いて説明する。まず、図5において、外部からDTPデータの電子文書が入力されると(ステップA1)、電子文書変換部1は、入力された電子文書を中間ファイルに変換し(ステップA2)、変換後の中間ファイルを変換データ分析部2に出力する(ステップA3)。
【0022】
次に、図6において、変換されたデータである中間ファイルが入力されると(ステップB1)、データベース構築装置は、構成要素の特定を行い(ステップB2)、特定された構成要素の抽出を行い(ステップB3)、抽出された構成要素をデータベース情報として構成要素出力部8から出力する(ステップB4)。
【0023】
次に、図7を用いて、図6におけるステップB2の構成要素の特定処理について説明する。変換データ分析部2は、電子文書変換部1から出力された中間ファイルを変換データ表示部4に出力し、画面上に表示させる(ステップB21)。このとき、変換データ表示部4の画面上には、例えば、図2のような表示がなされる。
【0024】
次に、要素名規則性定義部3は、作業者から入力デバイスを介して、ルール情報が入力されると、入力されたルール情報を設定する。
次に、要素関係特定部5は、作業者から入力デバイスを介して各レイアウト領域間の構成要素が選択され、要素関係の関連付けが指示されると、選択された構成要素間の関連付けを行う(ステップB23)。そして、要素名規則性特定部6は、作業者から入力デバイスを介して各レイアウト領域対して要素名が指定されると、指定された要素名が、各レイアウト領域にデータベース情報の項目として設定するとともに、作業者から入力デバイスを介して入力される指示に基づいて、要素名規則性定義部3から入力されたルール情報と項目の対応付けを行う(ステップB24)。この設定は、すべてのレイアウト領域に対して行われると、終了する(ステップB25)。
【0025】
次に、図8を用いて図7のステップB24について説明する。要素名規則性特定部6は、作業者から入力デバイスを介して、各レイアウト領域に対して要素名が定義されると(ステップB241)、要素名規則性定義部3から入力されたルール情報と項目の対応付けを行う。ここでは、構成要素名の定義対象が画像である場合(ステップB242)、画像情報を特定するルール情報が定義され(ステップB243)、定義対象が文字である場合、(ステップB242)、文字情報を特定するルール情報が定義される(ステップB244)。そして、抽出する対象のデータのルール情報が商品の画像、型式、寸法などの項目に対してすべて設定されると、構成要素名の定義が終了する(ステップB245)。
【0026】
そして、構成要素抽出部7は、変換データ分析部2から出力される中間ファイル内のデータから、要素関係特定部5からの指示に基づいて各レイアウト領域間の関連づけを行い、関連づけされた各レイアウト領域内のデータに対し、要素名規則性特定部6によって指定される要素名(項目)を設定し、要素名規則性定義部3によって設定されたルール情報に対応するデータをレイアウト領域内から抽出し、抽出されたデータを要素関係と要素名規則性に対応づけて、データベース情報として構成要素出力部8に出力する。
【0027】
以上説明した実施形態において、図5のステップA3において変換データ出力装置4の画面上には、例えば、図2に示すような商品カタログに関する情報が出力される。また、この商品カタログを構成する各要素をレイアウト領域として表示させる場合は、図9に示すように、各レイアウト領域が、矩形によって表示される。
【0028】
次に、要素関係特定部5において、図7ステップB23の構成要素関係特定処理により、各要素間の関連付けが行われると、例えば、図10符号(e)に示すように、関連付けされた各レイアウト領域が強調されて表示される。ここでは、1つのグループを説明するための画像と文字の情報が関連付けされている場合について図示されている。
【0029】
次に、要素名規則性特定部6において、図7ステップB24の要素名規則性特定処理により、要素名に対して項目が設定されると、例えば、図10符号(f)に示すように、項目名として設定され、表示される。
また、要素名規則性定義部3において、定義されたルール情報は、例えば、図10符号(g)に示すように、抽出する対象の文字のフォント、カラー、文字飾りなどについて表示される。さらに、図8のステップB241からステップB245によって構成要素名とルール情報の対応付けが行われると、例えば、図10符号(f)に示す項目に対して図10符号(h)に示すような設定がなされる。
【0030】
図11は、構成要素抽出部7によって抽出されたデータがデータベース化された一例を示す図面である。構成要素抽出部7によって抽出されたデータは、
関連づけされた各要素から抽出されたデータが1つの商品データとして符号(i)に示すように記憶される。また、符号(i)に示す商品データの各要素は、要素名規則性特定部6によって定義された項目名が設定され、データベースの対応する項目の欄に記憶される。
以上のようにして、商品カタログなどのレイアウト構造ファイルからデータ構造ファイルを生成し、データベースを構築することができる。なお、レイアウト領域内の要素が画像である場合、データベースには、画像のファイル名が記憶される。
【0031】
次に、第2の実施形態について説明する。ここでは、要素関係特定部5が行う各要素間の関連づけについての他の実施形態について説明する。
この実施形態において、要素関係特定部5は、基準となるレイアウト領域である基準レイアウト領域と、基準レイアウト領域に対して相対位置条件に該当するレイアウト領域とを関連づけを行う相対位置関連づけ機能を有する。相対位置条件は、上述した入力デバイスから、作業者によって入力される。また、この相対位置条件とは、基準レイアウト領域と関連づけする対象となるレイアウト領域との位置関係を指定するための条件であり、例えば、基準となるレイアウト領域の矩形の四隅の座標からリンクさせる対象となるレイアウト領域の四隅の座標までの距離及び方向を指定する情報である。
【0032】
次に、この実施形態において、要素関係特定部5が相対位置に基づいて各要素間の関連づけを行う動作について説明する。まず、作業者は、関連づけを行う基準となるレイアウト領域である基準レイアウト領域を指定し、さらに、この基準レイアウト領域に対する相対位置条件を入力デバイスを介して要素関係特定部5に設定する。要素関係特定部5は、設定された基準レイアウト領域に対して相対位置条件に該当するレイアウト領域を検索し、該当するレイアウト領域が検出された場合に、検出されたレイアウト領域と基準レイアウト領域とを関連づけする。
【0033】
次に、第3の実施形態について説明する。図12は、第3の実施形態における要素関係特定部5の構成を示す概略ブロック図である。
この図において、相対位置情報生成部51は、基準レイアウト領域を決定し、この基準レイアウト領域に対して他のレイアウト領域までの相対位置に関する情報である相対位置情報を基準レイアウト領域以外の各レイアウト領域に対して生成する。
【0034】
検出部52は、生成された相対位置情報に該当するレイアウト領域が他のレイアウト領域を基準にした場合においても存在するか否かを検出する。
リンク設定部53は、検出部52によって他のレイアウト領域を基準にした場合においても相対位置情報に該当するレイアウト領域があることが検出された場合に、基準とされたレイアウト領域と相対位置情報に該当するレイアウト領域との関連づけを行う。
【0035】
次に、この実施形態における要素関係特定部5の動作について説明する。ここでは、図13に示すような9種類の照明器具が掲載された商品カタログにおいて、商品毎に要素を関連付けする場合について説明する。
関連付け処理の開始が上述の入力デバイスから指示されると、要素関係特定部5の相対位置情報生成部51は、符号(j)に示すレイアウト領域を基準レイアウト領域として決定し、この符号(j)の基準レイアウト領域から他のレイアウト領域までの相対位置情報を、基準レイアウト領域以外の各レイアウト領域に対して生成する。この相対位置情報の生成は、例えば、符号(k)、符号(l)、符号(m)、符号(p)、符号(r)、…等の基準レイアウト以外のレイアウト領域すべてを対象に総当りで行われる。そして、相対位置情報生成部51は、生成した相対位置情報を一時保持する。
【0036】
相対位置情報が生成されると、検出部52は、生成された相対位置情報に該当するレイアウト領域が他のレイアウト領域を基準にした場合においても存在するか否かを検出する。この検出は、例えば、符号(j)の基準レイアウト領域に対して符号(k)、符号(l)の相対位置にあるレイアウト領域は、符号(m)に示す画像が設定されたレイアウト領域を基準レイアウト領域とした場合、符号(n)、符号(s)に示すレイアウト領域が相当するので、符号(j)の基準レイアウト領域に対して符号(k)、符号(l)の相対位置にあるレイアウト領域の相対位置情報が、引き続き保持される。
【0037】
一方、符号(j)の基準レイアウト領域に対して符号(r)の相対位置にあるレイアウト領域は、符号(m)に示す画像が設定されたレイアウト領域を基準レイアウト領域とした場合、相対位置が同じ場所にレイアウト領域が存在しないので、符号(j)の基準レイアウト領域に対して符号(r)の相対位置にあるレイアウト領域の相対位置情報が削除される。
【0038】
このようにして、他のレイアウト領域を基準レイアウト領域とした場合に、当初の基準レイアウト領域からの相対位置が同じ位置にレイアウト領域が存在しなければ相対位置情報が削除され、当初の基準レイアウト領域からの相対位置が同じ位置にレイアウト領域が存在する場合に、相対位置情報が保持される。
【0039】
そして、すべてのレイアウト領域に対して検出部52による検出処理が完了すると、リンク設定部53は、検出部52による検出処理が完了した時点において保持されている相対位置情報に基づいて、基準とされたレイアウト領域と相対位置情報に該当するレイアウト領域との関連づけを、すべてのレイアウト領域について行う。これにより、例えば、符号(j)、符号(k)、符号(l)のレイアウト領域が1つのグループとして関連付けされるとともに、符号(m)、符号(n)、符号(s)のレイアウト領域が1つのグループとして関連付けされる。さらに、他のレイアウト領域についても、符号(j)、符号(k)、符号(l)と相対位置が同じである各レイアウト領域を1つのグループとして関連付けが行われる。
【0040】
上述の処理により、図13に示す照明器具の画像と型式と価格などについて、9種類の商品毎に、グループとして関連付けがなされる。
なお、図14に示すように、符号(t)に示すレイアウト領域のみ他のレイアウト領域における関連付けが異なる場合、符号(t)に示す部分以外については、上述のグループとしての相対位置情報に基づく関連付け処理を行い、符号(t)に示す部分については、第1の実施形態において説明した、入力デバイスからの指示による関連付けを行うようにしても良い。
【0041】
次に、第4の実施形態について説明する。この実施形態において、要素関係特定部5は、各レイアウト領域間において既に関連付けされた情報をテンプレートリンク情報として生成し、生成されたテンプレートリンク情報を他のレイアウト領域間(あるいは他のページ)においても利用し、各レイアウト領域間において同様の関連付けを行う。
例えば、図13に示すようにレイアウト領域が配置されたページが複数ページにわたって存在する場合に、例えば、最初のページにおいて各商品について第3の実施形態の関連付け処理を利用して各レイアウト領域間の関連づけを行い、この関連付けされた各レイアウト領域間の相対位置に基づいて、テンプレートリンク情報として生成する。そして、次のページにおいても同じレイアウト領域が配置されていれば、生成されたテンプレートリンク情報を利用して、このページ内における各商品の画像や型式、価格などの文字を1つの商品として関連付けを行う。
【0042】
次に、第5の実施形態について説明する。図15は、第5の実施形態における要素関係特定部5の構成を示す概略ブロック図である。
この図において、リンク情報記憶部55は、既に関連付けされた各レイアウト領域間のリンク情報を記憶する。
比較部56は、対応するデータベース情報のリンク情報を読み出して、読み出されたデータの各要素と更新されたデータベース情報の各要素とを比較する。
【0043】
配色部57は、比較部56の比較結果に基づいて、読み出されたデータの要素と更新されたデータベース情報の要素とが一致する要素と、一致しない要素とを異なる表現方法によって出力する。この異なる表現方法とは、例えば、異なる色をレイアウト領域に設定して出力する。また、この異なる表現方法には、レイアウト領域を示す矩形の線の種類によって区別してもよく、また、レイアウト領域にハッチングを行うなどによって区別するようにしてもよい。
【0044】
リンク設定部58は、比較部56の比較結果に基づいて、読み出されたデータの要素と更新されたデータベース情報の要素とが一致する要素とを関連付けする。
【0045】
次に、この実施の形態における要素関連特定装置5の動作について説明する。リンク情報記憶部55は、データベースが構築時において、関連付けされた各レイアウト領域間のリンク情報を順次記憶する。そして、データベースが構築された後あるいは構築途中において、DTPドキュメントデータの修正が行われた後に、再度関連付けを行う指示が入力されると、要素関連特定装置5の比較部56は、再度関連付けを行う指示におうじて、修正が行われたデータベース情報のリンク情報を読み出して、読み出されたデータの各要素と更新されたデータベース情報の各要素とを比較し、比較結果を配色部57に出力する。
【0046】
配色部57は、比較部56の比較結果に基づいて、読み出されたデータの要素と更新されたデータベース情報の要素とが一致する要素と、一致しない要素とを異なる色をレイアウト領域に設定してリンク設定部58に出力する。リンク設定部58は、比較部56の比較結果を配色部57を介して受け取り、読み出されたデータの要素と更新されたデータベース情報の要素とが一致する要素とを関連付けする。
【0047】
例えば、図16符号(u)内のレイアウト領域のうち、符号(w)に示すレイアウト領域に対してDTP上でデータの修正が行われ、上述の配色処理が行われると、図16に示すように、符号(u)内のレイアウト領域のうち、符号(w)に示すレイアウト領域が異なる色によって画面上に出力される。
これにより、作業者にとって、DTP上でデータの修正が行われたレイアウト領域のデータが視覚的に確認しやすくなる。
【0048】
次に、第6の実施形態について説明する。図17は、第6の実施形態における要素関係特定部5の構成を示す概略ブロック図である。
この図において、矩形内レイアウト領域検出部510は、既に関連付けされている複数のレイアウト領域を包含する最小外接矩形内のレイアウト領域を検出する。ここでいう最小外接矩形とは、例えば、図18に示すように、符号(イ)に示す画像領域と文字領域とが既に関連付けされている場合において、既に関連付けされている符号(イ)に示す画像領域と文字領域とを包含して概説する最小の矩形(符号(ホ))である。
【0049】
リンク設定部520は、矩形内レイアウト領域検出部510が検出した最小外接矩形内のレイアウト領域をそれぞれ関連付けする。
【0050】
次に、この実施形態における要素関係特定部5の動作について説明する。符号(イ)に示す画像領域と文字領域とが既に関連付けされており、さらに、符号(ハ)に示す図形領域についても関連付けする場合、矩形内レイアウト領域検出部510は、作業者から入力デバイスを介して、最小外接矩形による関連付け処理の指示が入力されると、既に関連付けされている複数のレイアウト領域を包含する最小外接矩形内のレイアウト領域を検出する。ここでは、符号(ホ)に示す最小外接矩形内のレイアウト領域が検出される。
【0051】
最小外接矩形内のレイアウト領域が検出されると、リンク設定部520は、検出された最小外接矩形内のレイアウト領域をそれぞれ関連付けする。これにより、符号(イ)に示す画像領域と文字領域と符号(ハ)に示す図形領域が関連付けされる。
【0052】
符号(ホ)内の関連付けが終了すると、他のレイアウト領域においても最小外接矩形による関連付け処理が行われる。これにより、符号(ロ)に示す画像領域と文字領域とが既に関連付けされている場合、既に関連付けされている符号(ロ)の2つのレイアウト領域を包含する最小外接矩形内のレイアウト領域(符号(ヘ))が検出され、符号(ヘ)内に存在する図形領域(符号(ニ))についても、既に関連付けされている符号(ロ)の2つのレイアウト領域に対して関連付けされる。
【0053】
以上説明した実施形態によれば、印刷業者は、依頼者によって記入された見本の訂正内容に基づいて、二重に入力作業を行う必要がなくなり、作業の負担が軽減されるとともに、データベースの更新作業の時間を短縮することができる。
また、作業者のミスを無くし、商品データベースに確実な更新作業を行うことができる。
【0054】
また、図1における電子文書変換部1、変換データ分析部2、要素名規則性定義部3、要素関係特定部5、要素名規則性特定部6、構成要素抽出部7の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによりデータベース構築処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
【0055】
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0056】
以上、この発明の実施形態を図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【0057】
【発明の効果】
以上説明したように、この発明によれば、電子文書から抽出する要素を指定するためのルール情報を設定し、電子文書から抽出される要素にデータベースの項目となる項目情報を設定し、要素名規則性定義手段によって指定されるルール情報に基づいて、電子文書から要素を抽出し、抽出した要素を項目情報を対応付けてデータベース情報として出力するようにしたので、レイアウトの構造を示すファイルからデータ構造のファイルを生成してデータベースを簡単に構築することができ、作業者の負担を軽減させることが可能である。
【0058】
また、この発明によれば、各要素間を1つのグループとして関連付けするリンク情報を生成し、リンク情報に基づいて電子文書から抽出される要素を関連付けるとともに、項目情報を対応付けてデータベース情報として出力するようにしたので、各要素をグループ毎に分類してデータベースを構築することができる効果が得られる。
【0059】
また、この発明によれば、電子文書は、商品のカタログに関する情報を含むようにしたので、カタログを印刷するための要素がレイアウトされた印刷データからデータベース情報を生成することができ、これにより、カタログの情報を簡単にデータベース化することができる。
【図面の簡単な説明】
【図1】 この発明の一実施形態によるデータベース構築装置の構成を示す概略ブロック図である。
【図2】 変換データ表示部4に表示される画面の一例を示す図面である。
【図3】 ルール情報の一例を示す図面である。
【図4】 各要素間の関連づけについて説明するための図面である。
【図5】 図1に示すデータベース構築装置の動作について説明するためのフローチャートである。
【図6】 図1に示すデータベース構築装置の動作について説明するためのフローチャートである。
【図7】 図1に示すデータベース構築装置の動作について説明するためのフローチャートである。
【図8】 図1に示すデータベース構築装置の動作について説明するためのフローチャートである。
【図9】 商品カタログを構成する各要素をレイアウト領域として表示された場合の一例を示す図面である
【図10】 関連付けとルール情報の設定について説明するための図面である。
【図11】 構成要素抽出部7によって抽出されたデータがデータベース化された一例を示す図面である。
【図12】 第3の実施形態における要素関係特定部5の構成を示す概略ブロック図である。
【図13】 他の実施形態における関連付けについて説明するための図面である。
【図14】 他の実施形態における関連付けについて説明するための図面である。
【図15】 第5の実施形態における要素関係特定部5の構成を示す概略ブロック図である。
【図16】 第5の実施形態について説明するための図面である。
【図17】 第6の実施形態における要素関係特定部5の構成を示す概略ブロック図である。
【図18】 最小外接矩形による関連付け処理を説明するための図面である。
【符号の説明】
1 電子文書変換部 2 変換データ分析部
3 要素名規則性定義部 4 変換データ表示部
5 要素関係特定部 6 要素名規則性特定部
7 構成要素抽出部 8 構成要素出力部
51 相対位置情報生成部 52 検出部
53、58、520 リンク設定部 55 リンク情報記憶部
56 比較部 57 配色部
510 矩形内レイアウト領域検出部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a database construction device, a database construction method, a database construction program, and a recording medium that can easily construct and update a database.
[0002]
[Prior art]
Conventionally, when a catalog creation request is received from a catalog creation requester (hereinafter referred to as a requester), a printer can create a catalog using a system to which DTP (Desktop Publishing) is applied. Has been done. For example, product information such as images of products to be listed in a catalog, documents such as product names, models, dimensions, and product introductions are stored in advance in the product database. Product information is read from the product database using a DTP computer, the layout of images and documents is determined, edited, and a sample is printed. Then, the client confirms the printed sample (layout, typographical error, etc.), and if there is a correction content, the correction content is entered in the sample. The printer modifies the data on the DTP by the DTP computer in accordance with the correction content entered in the sample. Then, the client confirms the revised sample printed matter, and if there is no change, prints and creates a catalog.
[0003]
On the other hand, the above-described product database is continuously used with information such as new products added at the next catalog production. Therefore, when the data on the DTP is corrected by the DTP computer, the printer needs to update the product database by reflecting the corrected content in the product database according to the correction content entered in the sample by the client. However, this product database update operation was performed by the printer to update the product database from the computer for the product database based on the correction contents entered in the sample.
[0004]
[Problems to be solved by the invention]
However, according to the prior art, the printer performs the update operation of the data on the DTP and the update operation of the product database based on the correction contents of the sample entered by the client, that is, double input. It is necessary to perform work, and these update operations are a heavy burden on the printer, and the update operation takes a lot of time.
In addition, it is necessary to reflect the same update contents as the data update on the DTP for the product database, but there are cases where the product database cannot be reliably updated due to an operator error or the like. .
[0005]
The present invention has been made in view of such circumstances, the purpose of which is to construct a database by creating a data structure file from a layout structure file, a database construction method, a database construction program, It is to provide a recording medium.
[0006]
[Means for Solving the Problems]
In order to achieve the above object, the present invention provides a database construction system for constructing a database from an electronic document in which elements constituting an electronic document are laid out in advance, and a rule for designating elements to be extracted from the electronic document Element name regularity defining means for reading information from a rule database for setting information or storing rule information in advance, Element name regularity specifying means for setting item information to be an item of a database for elements extracted from the electronic document, Based on the rule information specified by the element name regularity defining means, an element is extracted from the electronic document, and the extracted element is output as database information in association with item information set by the element name regularity specifying means. And a component extraction means.
[0007]
Further, the present invention is the above-described database construction device, further comprising element relation specifying means for generating link information for associating a plurality of elements as one group among the elements, wherein the constituent element extracting means includes the element The elements extracted from the electronic document are associated based on the link information generated by the relationship specifying means, and the item information is output in association with the item information.
According to the present invention, in the above-described database construction device, the electronic document includes information relating to a product catalog.
[0008]
Further, the present invention is a database construction method for constructing a database from an electronic document in which elements constituting an electronic document are laid out in advance, setting rule information for designating elements to be extracted from the electronic document, Item information to be database items is set in the elements extracted from the electronic document, the elements are extracted from the electronic document based on the rule information, and the extracted elements are extracted from the electronic document based on the item information. Are output as database information in association with each other.
[0009]
Further, the present invention is a database construction program for constructing a database from an electronic document in which elements constituting the electronic document are laid out in advance, and setting rule information for designating elements to be extracted from the electronic document; A step of setting item information to be an item of a database in an element extracted from the electronic document, a step of extracting an element from the electronic document based on the rule information, and an extracted element based on the item information And causing the computer to execute the step of associating the elements with the items and outputting them as database information.
[0010]
The present invention is also a computer-readable recording medium that records a database construction program for constructing a database from an electronic document in which elements constituting the electronic document are laid out in advance, and specifies an element to be extracted from the electronic document Setting rule information for the step, setting item information as items of a database in an element extracted from the electronic document, extracting an element from the electronic document based on the rule information, A database construction program for causing a computer to execute the step of outputting the extracted elements as database information in association with the elements based on the item information is recorded.
[0011]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, a database construction device according to an embodiment of the present invention will be described with reference to the drawings. In this embodiment, a case where a data structure file is generated from an electronic document that is a layout structure file of a product catalog as shown in FIG. 2 and a database is constructed will be described. The data structure file here is a file that stores data that can be expressed by giving meaning to the element, designating the meaning, and includes DB, XML (extensible Markup Language), and the like. The layout structure file is a file for storing data that can designate and represent a position (layout) that represents an element, and includes DTP data, HTML (HyperText Markup Language), and the like.
FIG. 1 is a schematic block diagram showing a configuration of a database construction device according to an embodiment of the present invention.
In this figure, an electronic
[0012]
Here, the intermediate file is a layout structure file, and includes printing data, word processing data, markup language data (HTML (Hypertext) having appearance information when characters, images, graphics, etc. are output on paper or a screen. Markup Language), XML (Extensible Markup Language), and SGML (Standard Generalized Markup Language)).
[0013]
The conversion
Also, the conversion
[0014]
The element name
In addition, when the object to be extracted is a character, the rule information for the image includes the condition regarding the file information including the condition of one or both of the file name and the file type, and the condition of one or both of the size and resolution of the image. It includes at least one of a condition regarding an image attribute including the condition and a condition regarding a layout attribute including one or both of the image rotation and magnification conditions.
Further, the rule information that is a common condition for characters and images includes a condition regarding a layout area including one or both of the size of the layout area and the frame line.
The element name
[0015]
Also, the elements here are the information that makes up the document such as headers and footers, headings and texts, and illustrations. In the case of product catalogs, in addition to product specifications such as product numbers and prices, Applicable to photographs, figures, logo marks, etc.
The rule information is input by an operator from an input device such as a keyboard or a mouse connected to the outside of the database construction device.
[0016]
The conversion
[0017]
The element
[0018]
The element name
[0019]
The
In addition, the
[0020]
The
[0021]
Next, the operation of the database construction apparatus shown in FIG. 1 will be described using the flowcharts of FIGS. First, in FIG. 5, when an electronic document of DTP data is input from the outside (step A1), the electronic
[0022]
Next, in FIG. 6, when an intermediate file, which is converted data, is input (step B1), the database construction device identifies the component (step B2) and extracts the identified component. (Step B3), the extracted component is output as database information from the component output unit 8 (step B4).
[0023]
Next, the component specifying process of step B2 in FIG. 6 will be described with reference to FIG. The conversion
[0024]
Next, the element name
Next, the element
[0025]
Next, step B24 in FIG. 7 will be described with reference to FIG. When the element name is defined for each layout area from the operator via the input device (step B241), the element name
[0026]
The
[0027]
In the embodiment described above, on the screen of the converted
[0028]
Next, in the element
[0029]
Next, in the element name
Further, the rule information defined in the element name
[0030]
FIG. 11 is a diagram showing an example in which the data extracted by the
Data extracted from each associated element is stored as one product data as indicated by reference numeral (i). In addition, the item name defined by the element name
As described above, a data structure file can be generated from a layout structure file such as a product catalog, and a database can be constructed. If the element in the layout area is an image, the file name of the image is stored in the database.
[0031]
Next, a second embodiment will be described. Here, another embodiment of the association between the elements performed by the element
In this embodiment, the element
[0032]
Next, in this embodiment, an operation in which the element
[0033]
Next, a third embodiment will be described. FIG. 12 is a schematic block diagram illustrating the configuration of the element
In this figure, a relative position
[0034]
The
When the
[0035]
Next, the operation of the element
When the start of the association process is instructed from the above-described input device, the relative position
[0036]
When the relative position information is generated, the
[0037]
On the other hand, the layout area at the relative position of the reference (r) with respect to the reference layout area of the reference (j) has a relative position when the layout area in which the image indicated by the reference (m) is set as the reference layout area. Since there is no layout area at the same location, the relative position information of the layout area at the relative position of the reference (r) with respect to the reference layout area of the reference (j) is deleted.
[0038]
In this way, when another layout area is set as the reference layout area, if the layout area does not exist at the same relative position from the original reference layout area, the relative position information is deleted, and the original reference layout area is deleted. The relative position information is held when the layout area exists at the same relative position from.
[0039]
When the detection processing by the
[0040]
Through the above-described processing, the nine types of products are associated as a group with respect to the image, model, price, and the like of the lighting fixture shown in FIG.
In addition, as shown in FIG. 14, when only the layout area indicated by the symbol (t) has different associations in other layout areas, the portions other than the portion indicated by the reference numeral (t) are associated based on the relative position information as the group described above. Processing may be performed, and the portion indicated by reference numeral (t) may be associated by an instruction from the input device described in the first embodiment.
[0041]
Next, a fourth embodiment will be described. In this embodiment, the element
For example, when there are a plurality of pages where layout areas are arranged as shown in FIG. 13, for example, the first page uses the association process of the third embodiment for each product. Association is performed, and template link information is generated based on the relative position between the associated layout regions. If the same layout area is also arranged on the next page, the generated template link information is used to associate the characters such as the image, model, and price of each product on this page as one product. Do.
[0042]
Next, a fifth embodiment will be described. FIG. 15 is a schematic block diagram illustrating the configuration of the element
In this figure, the link
The
[0043]
Based on the comparison result of the
[0044]
Based on the comparison result of the
[0045]
Next, the operation of the element
[0046]
Based on the comparison result of the
[0047]
For example, among the layout areas in FIG. 16 code (u), when the layout area indicated by code (w) is corrected for data on the DTP and the above-described color arrangement processing is performed, as shown in FIG. In addition, among the layout areas in the code (u), the layout area shown in the code (w) is output on the screen with a different color.
This makes it easier for the operator to visually confirm the data in the layout area where the data has been corrected on the DTP.
[0048]
Next, a sixth embodiment will be described. FIG. 17 is a schematic block diagram illustrating the configuration of the element
In this figure, an in-rectangular layout
[0049]
The
[0050]
Next, the operation of the element
[0051]
When the layout area in the minimum circumscribed rectangle is detected, the
[0052]
When the association in the code (e) is completed, the association process using the minimum circumscribed rectangle is performed also in the other layout areas. As a result, when the image area and the character area indicated by the symbol (b) are already associated with each other, the layout region (the symbol (( F)) is detected, and the graphic area (symbol (d)) existing in the code (f) is also associated with the two layout areas of the already associated code (b).
[0053]
According to the embodiment described above, the printing company is not required to perform the input work twice based on the correction contents of the sample entered by the client, the work load is reduced, and the database is updated. Work time can be reduced.
In addition, it is possible to eliminate an operator's mistake and perform a reliable update operation on the product database.
[0054]
In order to realize the functions of the electronic
[0055]
Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.
The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory in a computer system serving as a server or a client in that case, and a program that holds a program for a certain period of time are also included. The program may be a program for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in a computer system.
[0056]
The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes design and the like within a scope not departing from the gist of the present invention.
[0057]
【The invention's effect】
As described above, according to the present invention, rule information for designating an element to be extracted from an electronic document is set, item information to be a database item is set to an element extracted from the electronic document, and an element name Based on the rule information specified by the regularity definition means, elements are extracted from the electronic document, and the extracted elements are associated with item information and output as database information. It is possible to easily construct a database by generating a structured file, and to reduce the burden on the operator.
[0058]
Further, according to the present invention, link information that associates each element as one group is generated, the elements extracted from the electronic document are associated based on the link information, and the item information is associated and output as database information Since it was made to do, the effect which can classify each element for every group and can construct | assemble a database is acquired.
[0059]
Further, according to the present invention, since the electronic document includes information related to the catalog of products, the database information can be generated from the print data in which elements for printing the catalog are laid out. Catalog information can be easily converted into a database.
[Brief description of the drawings]
FIG. 1 is a schematic block diagram showing a configuration of a database construction device according to an embodiment of the present invention.
FIG. 2 is a diagram illustrating an example of a screen displayed on a conversion
FIG. 3 is a diagram illustrating an example of rule information.
FIG. 4 is a diagram for explaining association between elements;
FIG. 5 is a flowchart for explaining the operation of the database construction device shown in FIG. 1;
6 is a flowchart for explaining the operation of the database construction device shown in FIG. 1;
7 is a flowchart for explaining the operation of the database construction device shown in FIG. 1; FIG.
FIG. 8 is a flowchart for explaining the operation of the database construction device shown in FIG. 1;
FIG. 9 is a diagram showing an example when each element constituting the product catalog is displayed as a layout region. FIG. 10 is a diagram for explaining setting of association and rule information.
FIG. 11 is a diagram showing an example in which data extracted by the
FIG. 12 is a schematic block diagram showing a configuration of an element
FIG. 13 is a diagram for explaining association in another embodiment;
FIG. 14 is a diagram for explaining association in another embodiment;
FIG. 15 is a schematic block diagram showing a configuration of an element
FIG. 16 is a diagram for explaining a fifth embodiment;
FIG. 17 is a schematic block diagram showing a configuration of an element
FIG. 18 is a diagram for explaining an association process using a minimum circumscribed rectangle;
[Explanation of symbols]
DESCRIPTION OF
Claims (5)
前記電子文書から抽出する要素を指定するためのルール情報を記憶するデータベースを有し、このデータベースからルール情報を読み出す要素名規則性定義手段と、
入力デバイスを介して各レイアウト領域に対して要素名が指定されると、当該入力デバイスから各レイアウト領域に対して指定された要素名を、指定された当該各レイアウト領域のそれぞれについて、前記電子文書から抽出される要素に対してデータベースの項目となる項目情報として前記要素名規則性定義手段によって指定されるルール情報と関連付けすることにより設定する要素名規則性特定手段と、
前記要素名規則性定義手段によって指定されるルール情報に基づいて、前記電子文書から要素を抽出し、抽出した要素を前記要素名規則性特定手段によって設定される項目情報を対応付けてデータベース情報として出力する構成要素抽出手段と、
前記要素のうち、複数の要素を1つのグループとして関連付けするリンク情報を生成する要素関係特定手段を有し、
前記構成要素抽出手段は、前記要素関係特定手段によって生成されたリンク情報に基づいて前記電子文書から要素を抽出し、当該抽出した要素を関連付けるとともに、前記項目情報を対応付けてデータベース情報として出力する機能を有し、
前記データベース構築装置は、
前記データベース情報の構築時において関連付けされた各レイアウト領域間のリンク情報を記憶するリンク情報記憶手段と、
前記データベース情報の構築された後あるいは構築途中において、ユーザからの指示に応じて電子文書が更新されて関連づけを行う指示が入力されると、この指示に応じて、修正が行われたデータベース情報のリンク情報を前記リンク情報記憶手段から読み出して、読み出されたデータの各要素と前記ユーザからの指示に応じて前記構成要素抽出手段によって出力されたデータベースの情報の各要素とを比較する比較手段と、
前記比較手段の比較結果に基づいて、読み出されたデータの要素と更新されたデータベース情報の要素とが一致する要素と、一致しない要素とを異なる表現方法によって出力する配色手段と、
を有するとともに、
既に関連付けされている複数のレイアウト領域を包含する最小外接矩形内のレイアウト領域を検出する矩形内レイアウト領域検出手段と、
前記矩形内レイアウト領域検出手段が検出した最小外接矩形内のレイアウト領域をそれぞれ関連付けするリンク設定手段と、を有し、
前記構成要素抽出手段は、前記リンク設定手段によって関連づけされるレイアウト領域の要素を抽出し、抽出した要素と項目情報とを対応付けるとともに、前記リンク設定手段によって関連づけられたレイアウト領域内の要素を関連づけて前記データベース情報を生成する
ことを特徴とするデータベース構築装置。A database construction device for constructing a database from an electronic document in which elements constituting the electronic document are laid out in advance,
An element name regularity defining means for storing rule information for designating elements to be extracted from the electronic document, and reading the rule information from the database;
When an element name is specified for each layout area via the input device, the element name specified for each layout area from the input device is assigned to the electronic document for each specified layout area. An element name regularity specifying unit that is set by associating with the rule information specified by the element name regularity defining unit as item information that is an item in the database for the element extracted from
Based on the rule information specified by the element name regularity defining means, an element is extracted from the electronic document, and the extracted element is associated with item information set by the element name regularity specifying means as database information. Component extraction means for outputting;
Among the elements, element relation specifying means for generating link information that associates a plurality of elements as one group,
The component extraction unit extracts an element from the electronic document based on the link information generated by the element relation specifying unit, associates the extracted element, and associates the item information and outputs it as database information. Has function,
The database construction device
Link information storage means for storing link information between layout areas associated at the time of construction of the database information;
After the database information is constructed or in the middle of construction, when an electronic document is updated in accordance with an instruction from the user and an instruction to perform association is input, the database information modified in accordance with the instruction is input. Comparison means for reading link information from the link information storage means and comparing each element of the read data with each element of the database information output by the component extraction means in response to an instruction from the user When,
Based on the comparison result of the comparison means, a color arrangement means for outputting an element in which the element of the read data matches the element of the updated database information and an element that does not match by different expression methods;
And having
An in-rectangular layout area detecting means for detecting a layout area in a minimum circumscribed rectangle including a plurality of layout areas already associated;
Link setting means for associating each layout area in the minimum circumscribed rectangle detected by the in-rectangular layout area detecting means,
The component extraction means extracts the elements in the layout area associated by the link setting means, associates the extracted elements with item information, and associates the elements in the layout area associated by the link setting means. A database construction device generating the database information.
前記データベース構築装置の要素名規則性定義手段が、
前記電子文書から抽出する要素を指定するためのルール情報を記憶するデータベースを有し、このデータベースからルール情報を読み出し、
前記データベース構築装置の要素名規則性特定手段が、
入力デバイスを介して各レイアウト領域に対して要素名が指定されると、当該入力デバイスから各レイアウト領域に対して指定された要素名を、指定された当該各レイアウト領域のそれぞれについて、前記電子文書から抽出される要素に対してデータベースの項目となる項目情報として前記要素名規則性定義手段によって指定されるルール情報と関連付けすることにより設定し、
前記データベース構築装置の要素関係特定手段が、
前記要素のうち、複数の要素を1つのグループとして関連付けするリンク情報を生成し、
前記データベース構築装置の構成要素抽出手段が、
前記要素名規則性定義手段によって指定されるルール情報に基づいて、前記電子文書から要素を抽出し、抽出した要素を前記要素名規則性特定手段によって設定される項目情報を対応付けてデータベース情報として出力し、前記要素関係特定手段によって生成されたリンク情報に基づいて前記電子文書から要素を抽出し、当該抽出した要素を関連付けるとともに、前記項目情報を対応付けてデータベース情報として出力し、
前記データベース構築装置の比較手段が、
前記データベース情報の構築時において関連付けされた各レイアウト領域間のリンク情報を記憶するリンク情報記憶手段を参照し、リンクされているか否かを検出する対象となる電子文書に対応するデータベース情報のリンク情報を当該リンク情報記憶手段から読み出し、読み出したデータの各要素と更新されたデータベース情報の各要素とを比較し、
前記データベース構築装置の配色手段が、
前記比較手段の比較結果に基づいて、読み出されたデータの要素と更新されたデータベース情報の要素とが一致する要素と、一致しない要素とを異なる表現方法によって出力し、
前記データベース構築装置の矩形内レイアウト領域検出手段が、
既に関連付けされている複数のレイアウト領域を包含する最小外接矩形内のレイアウト領域を検出し、
前記データベース構築装置のリンク設定手段が、
前記矩形内レイアウト領域検出手段が検出した最小外接矩形内のレイアウト領域をそれぞれ関連付けし、
前記構成要素抽出手段が、前記リンク設定手段によって関連づけされるレイアウト領域の要素を抽出し、抽出した要素と項目情報とを対応付けるとともに、前記リンク設定手段によって関連づけられたレイアウト領域内の要素を関連づけて前記データベース情報を生成する
ことを特徴とするデータベース構築方法。A database construction method in a database construction device for constructing a database from an electronic document in which elements constituting the electronic document are laid out in advance,
The element name regularity defining means of the database construction device,
Having a database for storing rule information for designating elements to be extracted from the electronic document, and reading the rule information from this database;
The element name regularity specifying means of the database construction device,
When an element name is specified for each layout area via the input device, the element name specified for each layout area from the input device is assigned to the electronic document for each specified layout area. Set by associating with the rule information specified by the element name regularity defining means as item information that becomes the item of the database for the element extracted from
Element relation specifying means of the database construction device,
Generating link information associating a plurality of elements as one group among the elements;
The component extraction means of the database construction device,
Based on the rule information specified by the element name regularity defining means, an element is extracted from the electronic document, and the extracted element is associated with item information set by the element name regularity specifying means as database information. and outputs, to extract elements from the electronic document based on the link information generated by the element relation specifying means, with associating the extracted element, and outputs it as database information in association with the item information,
The comparison means of the database construction device is
Link information of database information corresponding to an electronic document to be detected by referring to link information storage means for storing link information between layout areas associated at the time of construction of the database information. Is read from the link information storage means, each element of the read data is compared with each element of the updated database information,
The color arrangement means of the database construction device is
Based on the comparison result of the comparison means, the element of the read data and the element of the updated database information match and the element that does not match are output by different expression methods,
The in-rectangular layout area detecting means of the database construction device,
Find the layout area within the smallest bounding rectangle that contains multiple layout areas already associated,
The link setting means of the database construction device,
Each of the layout regions in the minimum circumscribed rectangle detected by the in-rectangular layout region detecting means is associated with each other,
The component extraction means extracts the elements in the layout area associated by the link setting means, associates the extracted elements with item information, and associates the elements in the layout area associated by the link setting means. A database construction method characterized by generating the database information .
前記電子文書から抽出する要素を指定するためのルール情報を記憶するデータベースを有し、このデータベースからルール情報を読み出す要素名規則性定義手段、
入力デバイスを介して各レイアウト領域に対して要素名が指定されると、当該入力デバイスから各レイアウト領域に対して指定された要素名を、指定された当該各レイアウト領域のそれぞれについて、前記電子文書から抽出される要素に対してデータベースの項目となる項目情報として前記要素名規則性定義手段によって指定されるルール情報と関連付けすることにより設定する要素名規則性特定手段、
前記要素名規則性定義手段によって指定されるルール情報に基づいて、前記電子文書から要素を抽出し、抽出した要素を前記要素名規則性特定手段によって設定される項目情報を対応付けてデータベース情報として出力し、前記要素関係特定手段によって生成されたリンク情報に基づいて前記電子文書から要素を抽出し、当該抽出した要素を関連付けるとともに、前記項目情報を対応付けてデータベース情報として出力する構成要素抽出手段、
前記要素のうち、複数の要素を1つのグループとして関連付けするリンク情報を生成する要素関係特定手段、
前記データベース情報の構築時において関連付けされた各レイアウト領域間のリンク情報を記憶するリンク情報記憶手段を参照して、リンクされているか否かを検出する対象となる電子文書に対応するデータベース情報のリンク情報を前記リンク情報記憶手段から読み出し、読み出したデータの各要素と更新されたデータベース情報の各要素とを比較する比較手段、
前記比較手段の比較結果に基づいて、読み出されたデータの要素と更新されたデータベース情報の要素とが一致する要素と、一致しない要素とを異なる表現方法によって出力する配色手段、
既に関連付けされている複数のレイアウト領域を包含する最小外接矩形内のレイアウト領域を検出する矩形内レイアウト領域検出手段、
前記矩形内レイアウト領域検出手段が検出した最小外接矩形内のレイアウト領域をそれぞれ関連付けするリンク設定手段として機能させるとともに、
前記構成要素抽出手段は、前記リンク設定手段によって関連づけされるレイアウト領域の要素を抽出し、抽出した要素と項目情報とを対応付けるとともに、前記リンク設定手段によって関連づけられたレイアウト領域内の要素を関連づけて前記データベース情報を生成するように
機能させるためのデータベース構築プログラム。A computer for constructing a database from an electronic document in which elements constituting the electronic document are laid out in advance,
An element name regularity defining means for storing rule information for designating elements to be extracted from the electronic document, and reading the rule information from the database;
When an element name is specified for each layout area via the input device, the element name specified for each layout area from the input device is assigned to the electronic document for each specified layout area. Element name regularity specifying means to be set by associating with the rule information specified by the element name regularity defining means as item information to be an item in the database for the element extracted from
Based on the rule information specified by the element name regularity defining means, an element is extracted from the electronic document, and the extracted element is associated with item information set by the element name regularity specifying means as database information. A component extraction unit that outputs and extracts an element from the electronic document based on the link information generated by the element relation specifying unit, associates the extracted element, and associates the item information and outputs the database information ,
Among the elements, element relation specifying means for generating link information that associates a plurality of elements as one group,
A link of database information corresponding to an electronic document to be detected by referring to link information storage means for storing link information between layout areas associated at the time of construction of the database information. Comparison means for reading information from the link information storage means and comparing each element of the read data with each element of the updated database information;
A color arrangement means for outputting, based on the comparison result of the comparison means, an element in which the element of the read data and the element of the updated database information match and an element that does not match by different expression methods;
Intra-rectangular layout area detecting means for detecting a layout area within a minimum circumscribed rectangle that includes a plurality of layout areas already associated,
While functioning as a link setting means for associating each layout area in the minimum circumscribed rectangle detected by the in-rectangular layout area detecting means,
The component extraction means extracts the elements in the layout area associated by the link setting means, associates the extracted elements with item information, and associates the elements in the layout area associated by the link setting means. A database construction program for functioning to generate the database information .
前記電子文書から抽出する要素を指定するためのルール情報を記憶するデータベースを有し、このデータベースからルール情報を読み出す要素名規則性定義手段、
入力デバイスを介して各レイアウト領域に対して要素名が指定されると、当該入力デバイスから各レイアウト領域に対して指定された要素名を、指定された当該各レイアウト領域のそれぞれについて、前記電子文書から抽出される要素に対してデータベースの項目となる項目情報として前記要素名規則性定義手段によって指定されるルール情報と関連付けすることにより設定する要素名規則性特定手段、
前記要素名規則性定義手段によって指定されるルール情報に基づいて、前記電子文書から要素を抽出し、抽出した要素を前記要素名規則性特定手段によって設定される項目情報を対応付けてデータベース情報として出力し、前記要素関係特定手段によって生成されたリンク情報に基づいて前記電子文書から要素を抽出し、当該抽出した要素を関連付けるとともに、前記項目情報を対応付けてデータベース情報として出力する構成要素抽出手段、
前記要素のうち、複数の要素を1つのグループとして関連付けするリンク情報を生成する要素関係特定手段、
前記データベース情報の構築時において関連付けされた各レイアウト領域間のリンク情報を記憶するリンク情報記憶手段を参照して、リンクされているか否かを検出する対象となる電子文書に対応するデータベース情報のリンク情報を前記リンク情報記憶手段から読み出し、読み出したデータの各要素と更新されたデータベース情報の各要素とを比較する比較手段、
前記比較手段の比較結果に基づいて、読み出されたデータの要素と更新されたデータベース情報の要素とが一致する要素と、一致しない要素とを異なる表現方法によって出力する配色手段、
既に関連付けされている複数のレイアウト領域を包含する最小外接矩形内のレイアウト領域を検出する矩形内レイアウト領域検出手段、
前記矩形内レイアウト領域検出手段が検出した最小外接矩形内のレイアウト領域をそれぞれ関連付けするリンク設定手段として機能させるとともに、
前記構成要素抽出手段は、前記リンク設定手段によって関連づけされるレイアウト領域の要素を抽出し、抽出した要素と項目情報とを対応付けるとともに、前記リンク設定手段によって関連づけられたレイアウト領域内の要素を関連づけて前記データベース情報を生成するように
機能させるためのデータベース構築プログラムを記録したコンピュータ読み取り可能は記録媒体。A computer for constructing a database from an electronic document in which elements constituting the electronic document are laid out in advance,
An element name regularity defining means for storing rule information for designating elements to be extracted from the electronic document, and reading the rule information from the database;
When an element name is specified for each layout area via the input device, the element name specified for each layout area from the input device is assigned to the electronic document for each specified layout area. Element name regularity specifying means to be set by associating with the rule information specified by the element name regularity defining means as item information to be an item in the database for the element extracted from
Based on the rule information specified by the element name regularity defining means, an element is extracted from the electronic document, and the extracted element is associated with item information set by the element name regularity specifying means as database information. A component extraction unit that outputs and extracts an element from the electronic document based on the link information generated by the element relation specifying unit, associates the extracted element, and associates the item information and outputs the database information ,
Among the elements, element relation specifying means for generating link information that associates a plurality of elements as one group,
A link of database information corresponding to an electronic document to be detected by referring to link information storage means for storing link information between layout areas associated at the time of construction of the database information. Comparison means for reading information from the link information storage means and comparing each element of the read data with each element of the updated database information;
A color arrangement means for outputting, based on the comparison result of the comparison means, an element in which the element of the read data and the element of the updated database information match and an element that does not match by different expression methods;
Intra-rectangular layout area detecting means for detecting a layout area within a minimum circumscribed rectangle that includes a plurality of layout areas already associated,
While functioning as a link setting means for associating each layout area in the minimum circumscribed rectangle detected by the in-rectangular layout area detecting means,
The component extraction means extracts the elements in the layout area associated by the link setting means, associates the extracted elements with item information, and associates the elements in the layout area associated by the link setting means. A computer readable recording medium storing a database construction program for causing the database information to function.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001328330A JP4192457B2 (en) | 2001-10-25 | 2001-10-25 | Database construction apparatus, database construction method, database construction program, recording medium |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001328330A JP4192457B2 (en) | 2001-10-25 | 2001-10-25 | Database construction apparatus, database construction method, database construction program, recording medium |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2008117896A Division JP4508264B2 (en) | 2008-04-28 | 2008-04-28 | Database construction apparatus, database construction method, database construction program, recording medium |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2003131910A JP2003131910A (en) | 2003-05-09 |
| JP4192457B2 true JP4192457B2 (en) | 2008-12-10 |
Family
ID=19144410
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2001328330A Expired - Fee Related JP4192457B2 (en) | 2001-10-25 | 2001-10-25 | Database construction apparatus, database construction method, database construction program, recording medium |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4192457B2 (en) |
-
2001
- 2001-10-25 JP JP2001328330A patent/JP4192457B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2003131910A (en) | 2003-05-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7020838B2 (en) | System and method for identifying line breaks | |
| US7651286B2 (en) | Method arrangement and computer software for the printing of a separator sheet by means of an electrophotographic printer or copier | |
| JPH07200786A (en) | Filing equipment | |
| EP0913779A2 (en) | Browser for documents with annotations | |
| JP2003132078A (en) | Database construction apparatus, database construction method, database construction program, recording medium | |
| JP4508264B2 (en) | Database construction apparatus, database construction method, database construction program, recording medium | |
| JP4192457B2 (en) | Database construction apparatus, database construction method, database construction program, recording medium | |
| JP4147763B2 (en) | Database construction apparatus, database construction method, database construction program, recording medium | |
| EP1079311A2 (en) | Method and system for creating web-quality online documentation from the same source file as printed documentation | |
| Gribomont | OCR with Google Vision API and Tesseract | |
| JP2002278727A (en) | Character extraction print program, print control device | |
| JP2008257739A (en) | Database construction apparatus, database construction method, database construction program, recording medium | |
| JP2003132077A (en) | Database construction apparatus, database construction method, database construction program, recording medium | |
| JP2011248421A (en) | Data creation method and data creation system | |
| JP5589396B2 (en) | Layout support device, layout support method, and program | |
| JP2000280435A (en) | Enrollment data check system | |
| JP3772062B2 (en) | Online registration system | |
| Gribomont | Programming Historian | |
| JP2002273943A (en) | Vertical writing conversion printing program, print control device | |
| JPH11203279A (en) | Kana-kanji conversion device, kana-kanji conversion method, and storage medium | |
| JP2889052B2 (en) | Character typeface processing method and apparatus | |
| JPH0754515B2 (en) | Japanese document processing system | |
| JPH10161827A (en) | How to output non-printable character information | |
| JP2005004785A (en) | Form information processing apparatus, form information processing system, and program | |
| JP2001307003A (en) | Data creation processing device and its program recording medium |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040916 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070417 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070618 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070717 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070918 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071106 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080107 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080226 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080428 |
|
| A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20080509 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080603 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080804 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080826 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080908 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111003 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111003 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121003 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131003 Year of fee payment: 5 |
|
| LAPS | Cancellation because of no payment of annual fees |