JP4397221B2 - Link setting device and information using information extracted from text sentence - Google Patents
Link setting device and information using information extracted from text sentence Download PDFInfo
- Publication number
- JP4397221B2 JP4397221B2 JP2003397196A JP2003397196A JP4397221B2 JP 4397221 B2 JP4397221 B2 JP 4397221B2 JP 2003397196 A JP2003397196 A JP 2003397196A JP 2003397196 A JP2003397196 A JP 2003397196A JP 4397221 B2 JP4397221 B2 JP 4397221B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- sentence
- document
- text
- numerical information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000605 extraction Methods 0.000 claims description 101
- 238000012545 processing Methods 0.000 claims description 97
- 238000004458 analytical method Methods 0.000 claims description 75
- 238000000034 method Methods 0.000 claims description 68
- 238000012795 verification Methods 0.000 claims description 35
- 238000013519 translation Methods 0.000 claims description 3
- 238000013499 data model Methods 0.000 claims 2
- 238000004590 computer program Methods 0.000 claims 1
- 238000013075 data extraction Methods 0.000 description 30
- 238000010586 diagram Methods 0.000 description 22
- 230000000877 morphologic effect Effects 0.000 description 18
- 150000001875 compounds Chemical class 0.000 description 13
- 239000000284 extract Substances 0.000 description 11
- 238000012986 modification Methods 0.000 description 11
- 230000004048 modification Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 239000000470 constituent Substances 0.000 description 5
- 239000002245 particle Substances 0.000 description 5
- 238000009434 installation Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 3
- 241001602876 Nata Species 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 101100113065 Mus musculus Cfi gene Proteins 0.000 description 1
- 241001122767 Theaceae Species 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
この発明は、文書中の数値情報データおよびその係り受け情報により生成した抽象化モデルデータを用いて、情報処理装置において効率的な処理を行うための装置およびその方法に関する。 The present invention relates to an apparatus and method for performing efficient processing in an information processing apparatus using abstract model data generated from numerical information data in a document and its dependency information.
電子文書において、閲覧者が文書内容を容易に理解するために、文書内に関連する記載がある場合にこれらを相互に関連付ける機能(いわゆる、リンク機能)が、一般的に利用されている。例えば、文書を閲覧していて意味が分からない単語があるような場合でも、その単語に関する説明文にリンクが設定されていれば、マウスでクリックなどすることによって説明文を容易に参照することができる。 In an electronic document, a function (so-called link function) that correlates a description when there is a description related to the document is generally used so that a viewer can easily understand the contents of the document. For example, even if there is a word that you do not understand when you are browsing a document, you can easily refer to the explanation by clicking with the mouse if the explanation is related to the word. it can.
このようなリンクを人間が設定するのは煩雑であるため、コンピュータにマッチング処理を行わせてリンク設定する技術が存在する。従来技術では、電子文書中のテキスト文を形態素解析して抽出したキーワードを索引文字列とマッチングすることによって、リンクを機械的に設定するようにしていた(例えば、特許文献1および特許文献2)。 Since it is cumbersome for a person to set such a link, there is a technique for setting a link by causing a computer to perform matching processing. In the prior art, a link is mechanically set by matching a keyword extracted by morphological analysis of a text sentence in an electronic document with an index character string (for example, Patent Document 1 and Patent Document 2). .
しかし、このような従来のリンク設定装置は、何れも数値情報データ(例えば、100、百など)にハイパーリンクを設定することを目的とするものではなかった。数詞は、それ自体で特定の意味内容を有していないため、マッチングによりリンクを設定するのには適さないためである。このような、テキスト文をマッチングするだけでは所望の数値情報データだけを抽出することができないという課題は、キーワード検索においても共通に存在していた。 However, none of these conventional link setting devices are intended to set hyperlinks in numerical information data (for example, 100, one hundred, etc.). This is because a numerical word does not have a specific meaning in itself, and is not suitable for setting a link by matching. Such a problem that only desired numerical information data cannot be extracted simply by matching text sentences also exists in keyword search.
この発明は、上記問題を解決すべく、数値情報データおよびその係り受け情報から抽象化したモデルを生成し、情報処理装置に有効な情報として提供することを目的とする。 In order to solve the above problem, an object of the present invention is to generate an abstract model from numerical information data and its dependency information, and to provide the information processing apparatus as effective information.
(1、2、14)この発明のリンク設定装置は、
文書データ中の関連する文要素データを含む対象データ間にリンクを設定するリンク設定装置であって、
与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析手段と、
記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出手段と、
数値情報抽出手段が抽出した数値情報データ、係り受け情報抽出手段が抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に記録する抽象化モデル記録手段と、
記録部に記録された複数の抽象化モデルデータのうち、同じ数値情報データおよび同じ係り受け情報データを有する抽象化モデルデータを選択する抽象化モデル選択手段、
前記選択された抽象化モデルデータの位置情報データに基づいて、前記抽象化モデルデータの対象データ間にリンクを設定するリンク設定手段、
を備えたことを特徴とする。
(1, 2, 14) The link setting device of this invention
A link setting device for setting a link between target data including related sentence element data in document data,
The text data in the given document data is divided into a plurality of text element data, the type of each text element is determined and recorded in the recording unit, and the numerical text data is included in the given text text data And if included, an extraction / analysis means for specifying numerical information data and recording it in the recording unit, and
Referring to the recording unit, the sentence element data including the numerical information data is identified, and at least one sentence element data having a dependency relation with the numerical information data is determined based on the type of the sentence element data. Dependency information extracting means for extracting dependency information data from the sentence element data,
Abstract model recording that records the numerical information data extracted by the numerical information extraction means and the dependency information data extracted by the dependency information extraction means as abstract model data together with position data indicating the position in the document data in the recording unit Means,
Abstraction model selection means for selecting abstract model data having the same numerical information data and the same dependency information data among a plurality of abstract model data recorded in the recording unit;
Link setting means for setting a link between target data of the abstraction model data based on the position information data of the selected abstraction model data;
It is provided with.
これにより、単なるマッチングだけではリンクを設定できない数値情報データについても正確にリンクを設定することができる。 Thereby, it is possible to accurately set a link even for numerical information data that cannot be set by simple matching alone.
(3)この発明のリンク設定装置は、前記リンク設定手段が、リンク先の対象データがテキスト文である場合に、当該リンク先のテキスト文から付加情報だけを抽出するようにリンクを設定する、ことを特徴とする。 (3) In the link setting device according to the present invention, when the link setting target data is a text sentence, the link setting means sets a link so as to extract only additional information from the link destination text sentence. It is characterized by that.
これにより、リンク先で自明な情報を省略することにより周辺情報(付加情報)を効果的に表示することができる。 Thereby, peripheral information (additional information) can be effectively displayed by omitting the obvious information at the link destination.
(4、5、15)この発明の文書検索装置は、
検索要素である対象データに基づいて文書データを検索する文書検索装置であって、
与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析手段と、
記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出手段と、
数値情報抽出手段が抽出した数値情報データ、係り受け情報抽出手段が抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に保持する抽象化モデル保持手段、
文書データから抽象化モデルデータを生成し記録した抽象化モデル記録手段を検索し、抽象化モデル保持手段から受けた抽象化モデルデータと比較することにより、同じ数値情報データおよび同じ係り受け情報データを有する抽象化モデルデータの位置情報データだけを抽出する抽象化モデル比較手段、
前記抽出された抽象化モデルデータの位置情報データに基づいて、抽象化モデルデータが同じ対象データを検索結果として表示する検索結果表示手段、
を備えたことを特徴とする。
(4, 5, 15) The document retrieval apparatus of the present invention
A document search device that searches document data based on target data that is a search element,
The text data in the given document data is divided into a plurality of text element data, the type of each text element is determined and recorded in the recording unit, and the numerical text data is included in the given text text data And if included, an extraction / analysis means for specifying numerical information data and recording it in the recording unit, and
Referring to the recording unit, the sentence element data including the numerical information data is identified, and at least one sentence element data having a dependency relation with the numerical information data is determined based on the type of the sentence element data. Dependency information extracting means for extracting dependency information data from the sentence element data,
Abstract model holding that holds the numerical information data extracted by the numerical information extraction means and the dependency information data extracted by the dependency information extraction means as abstract model data together with the position data indicating the position in the document data. means,
By retrieving the abstract model recording means that generated and recorded the abstract model data from the document data and comparing it with the abstract model data received from the abstract model holding means, the same numerical information data and the same dependency information data are obtained. Abstraction model comparison means for extracting only position information data of abstraction model data having,
Search result display means for displaying, as search results, target data having the same abstract model data, based on the positional information data of the extracted abstract model data;
It is provided with.
これにより、単なるマッチング検索だけでは検索ができない数値情報データに対しても所望の検索処理を行うことができる。 Thereby, a desired search process can be performed even for numerical information data that cannot be searched by a simple matching search.
(6)この発明の文書検索装置は、前記抽象化モデル記録手段には、予め検索対象となる文書データ全体について、検索前に抽象化モデルデータ生成されて記録されていることを特徴とする。 (6) The document search apparatus according to the present invention is characterized in that the abstract model recording means previously generates and records abstract model data before searching for the entire document data to be searched.
これにより、文書データの検索処理を効率的に行うことができる。 Thereby, the search processing of document data can be performed efficiently.
(7、8、16)この発明のこの発明の文書入力検証装置は、
検証要素の対象データに基づいて文書編集装置から入力される文書データを検証する文書入力検証装置であって、
文書編集装置から与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析手段と、
記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出手段と、
数値情報抽出手段が抽出した数値情報データ、係り受け情報抽出手段が抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に保持する抽象化モデル保持手段、
文書データから抽象化モデルデータを生成し記録した抽象化モデル記録手段を検索し、抽象化モデル保持手段から受けた抽象化モデルデータと係り受け情報が同じで、かつ、数値情報データが異なる抽象化モデルデータがあるか否かを判別する抽象化モデル判別手段、
前記抽象化モデル判別手段から取得した判別結果に基づいて、入力エラー情報を文書編集装置に出力する入力エラー出力手段、
を備えたことを特徴とする。
これにより、誤入力の生じやすい数値情報データに対して容易にチェックを行うことができる。
(7, 8, 16) The document input verification device of the present invention of the present invention is
A document input verification device for verifying document data input from a document editing device based on target data of a verification element,
Text text data in the document data given from the document editing device is divided into a plurality of text element data, the type of each text element is determined and recorded in the recording unit, and numerical information is included in the given text text data It is determined whether or not data is included, and if included, extraction / analysis means for identifying numerical information data and recording it in a recording unit,
Referring to the recording unit, the sentence element data including the numerical information data is identified, and at least one sentence element data having a dependency relation with the numerical information data is determined based on the type of the sentence element data. Dependency information extracting means for extracting dependency information data from the sentence element data,
Abstract model holding that holds the numerical information data extracted by the numerical information extraction means and the dependency information data extracted by the dependency information extraction means as abstract model data together with the position data indicating the position in the document data. means,
Abstraction model recording means that generates and records abstract model data from document data is retrieved, and the abstraction model data received from the abstract model holding means is the same as the dependency model, and the numerical information data is different. Abstraction model discrimination means for discriminating whether there is model data;
An input error output means for outputting input error information to the document editing device based on the determination result obtained from the abstract model determination means;
It is provided with.
Thereby, it is possible to easily check numerical information data that is likely to be erroneously input.
(9)この発明の文書検索装置は、抽象化モデル記録手段の抽象化モデルデータが、検証要素入力手段からの入力に基づいて随時生成され、常に更新されていることを特徴とする。 (9) The document search apparatus of the present invention is characterized in that the abstract model data of the abstract model recording means is generated as needed based on the input from the verification element input means and is constantly updated.
これにより、文書入力の検証処理を効率的に行うことができる。 This makes it possible to efficiently perform document input verification processing.
(10)この発明の各装置は、
前記文書データには、テキスト文データ以外の他の処理対象要素が含まれており、さらに、
抽象化モデルデータを抽出する前に、前記処理対象要素の表現形式を判断する表現形式判別手段、
対象データの表現形式がテキスト文である場合には、前記処理対象要素から、数値情報データと係り受け関係にある文要素を抽象化モデルデータとして、その位置情報データと共に抽出する抽象化モデル生成手段、
対象データの表現形式が他の要素である場合には、所定の規則に基づいて抽象化モデルデータを生成し、これらを位置情報データと共に抽象化モデル記録手段に与える抽象化モデル生成手段、
を備えたことを特徴とする。
(10) Each device of the present invention
The document data includes other elements to be processed other than text sentence data, and
Before extracting the abstraction model data, an expression format determination means for determining the expression format of the processing target element;
When the representation format of the target data is a text sentence, abstract model generation means for extracting, from the processing target element, a sentence element having a dependency relationship with the numerical information data as abstract model data together with the position information data ,
When the representation format of the target data is another element, an abstract model generation unit that generates abstract model data based on a predetermined rule and supplies them to the abstract model recording unit together with the position information data,
It is provided with.
これにより、抽象化モデルデータをテキスト文以外の要素から生成することが可能となる。 Thereby, the abstract model data can be generated from elements other than the text sentence.
(11)この発明の各装置は、前記他の対象データが、テーブルデータまたはイメージデータであることを特徴とする。 (11) Each device of the present invention is characterized in that the other target data is table data or image data.
これにより、抽象化モデルデータをテーブルやイメージから生成することが可能となる。 Thereby, abstract model data can be generated from a table or an image.
(12)この発明の各装置は、前記文書データはXML形式で記述されており、ファイル内容に含まれる各タグには、表現形式の属性が予め付されていることを特徴とする。 (12) Each device according to the present invention is characterized in that the document data is described in an XML format, and an attribute of an expression format is attached in advance to each tag included in the file content.
これにより、表現形式の判断や抽象化処理要素の特定が容易になる。 This facilitates the determination of the expression format and the specification of abstraction processing elements.
(13)この発明の各装置は、さらに、
前記文書データに含まれるテキスト文の言語が複数ある場合に、翻訳辞書を参照することにより、抽象化モデルデータを同じ言語に統一する抽象化モデル翻訳手段を備えた、ことを特徴とする。
(13) Each device of the present invention further includes:
When there are a plurality of languages of text sentences included in the document data, an abstract model translating unit that unifies the abstract model data into the same language by referring to a translation dictionary is provided.
これにより、複数の言語が含まれる場合でも、抽象化モデルデータを生成して利用することができる。 Thereby, even when a plurality of languages are included, the abstract model data can be generated and used.
なお、本明細書における「抽象化処理要素(対象データ)」とは、文書データを数値情報データを含むテキスト文、テーブル、イメージなどの表現形式で分割した、各装置による抽象化処理の対象となるデータをいう。 The “abstraction processing element (target data)” in this specification refers to a target of abstraction processing by each device, in which document data is divided in a representation format such as a text sentence including numerical information data, a table, and an image. Data.
なお、本明細書における「抽象化モデルデータ」とは、テキスト文などから抽出される数値情報データと係り受け情報を関連づけたデータをいう。 The “abstract model data” in this specification refers to data in which dependency information is associated with numerical information data extracted from a text sentence or the like.
1.第1の実施形態[抽象化モデル生成装置]
まず、抽象化モデルデータを生成するために数値情報データと係り受け情報を抽出する原理および抽象化モデルデータを生成するまでの処理について、図1〜図18を用いて以下に説明する。
1. First Embodiment [Abstract Model Generation Device]
First, the principle of extracting numerical information data and dependency information in order to generate abstract model data and the processing until the generation of abstract model data will be described below with reference to FIGS.
1−1−1.機能ブロック図
図1に、本実施形態にかかる抽象化モデル生成装置の機能ブロック図を示す。この図において、本発明にかかる抽象化モデル生成装置は、切出手段101、数値情報データ抽出手段103、テキスト文解析手段105、係り受け情報抽出手段107、抽象化モデル出力手段109を備えている。
1-1-1. Functional Block Diagram FIG. 1 shows a functional block diagram of the abstract model generation device according to this embodiment. In this figure, the abstract model generation apparatus according to the present invention includes a cutout means 101, numerical information data extraction means 103, text sentence analysis means 105, dependency information extraction means 107, and abstract model output means 109. .
切出手段101は、入力した文書からテキスト文データを一文ずつ切り出して記録部に記録する。例えば、テキスト文中に出現する句点「。」をデリミタとして、テキスト文データを切り出す処理を行う。
The
数値情報データ抽出手段103は、記録部から読み出したテキスト文データを、先頭から順に参照して所定の数値情報データが含まれているか否かを判断する。所定の数値情報データが含まれている場合には、数値情報データを抽出するとともに、前記テキスト文をテキスト文解析手段に与える。
The numerical information
テキスト文解析手段105は、記録部から読み出したテキスト文データを形態素解析した後、各形態素を所定の文法定義情報に基づいて解析し、テキスト文データを所定の文要素データに分割する。
The text
係り受け情報抽出手段107は、抽出された数値情報データが含まれる文要素データに基づいて、文要素データに分割されたテキスト文データから当該数値情報データと係り受け関係にある他の文要素データを抽出する。
The dependency
抽象化モデル出力手段109は、数値情報データ抽出手段103において抽出された数値情報データと係り受け情報抽出手段107において抽出された係り受け情報データとを関連付けて抽象化モデルデータとして出力する。例えば、ディスプレイやデータベース等に出力する。 The abstract model output means 109 associates the numerical information data extracted by the numerical information data extraction means 103 with the dependency information data extracted by the dependency information extraction means 107, and outputs them as abstract model data. For example, the data is output to a display or a database.
1−1−2.ハードウェア構成
図1に示す抽象化モデル生成装置をCPUを用いて実現したハードウェア構成の一例を図2に示す。抽象化モデル生成装置は、ディスプレイ201、CPU203、メモリ205、キーボード/マウス207、ハードディスク209、CD−ROMドライブ211および通信回路215を備えている。
1-1-2. Hardware Configuration FIG. 2 shows an example of a hardware configuration in which the abstract model generation device shown in FIG. 1 is realized using a CPU. The abstract model generation apparatus includes a
ハードディスク209には、本発明にかかる抽象化モデル抽出処理を行うための情報抽出プログラム2091、形態素解析処理を行うための形態素解析辞書2093、構文解析処理を行うための文法定義情報2094、所定の数値情報データを抽出するための数値単位マスタ2095、抽象化モデル抽出処理による抽象化モデルデータを記録する抽象化モデルDB2097等が記録されており、これらはCD−ROMドライブ211を介してCD−ROM212に記録されたデータを読み出してインストールしたものである。
The
なお、上記インストールは、通信回路215を用いてインターネット216等からダウンロードしたデータを使用して行うようにしてもよい。
The installation may be performed using data downloaded from the Internet 216 or the like using the
1−1−3.フローチャート
情報抽出プログラム2091に基づく処理について、図3〜6のフローチャートを用いて説明する。以下では、テキスト文「営業利益は前年度と同水準の32776百万円となった。」を含むテキスト文を切出手段101に入力した場合を例として説明する。
1-1-3. Flowchart Processing based on the
図3に示す抽象化モデル抽出処理のフローチャートにおいて、CPU203は、テキスト文を読み込みメモリ205に入力する(ステップS301)。
In the abstract model extraction process flowchart shown in FIG. 3, the
入力したテキスト文の先頭からテキスト文データを一文切り出す(ステップS303)。なお、本実施形態においては句点「。」をテキスト文のデリミタとする。例えば、前記テキスト文データが読み込まれた場合、先頭の文である「営業利益は前年度と同水準の32776百万円となった。」が切り出される。 Text sentence data is cut out from the head of the input text sentence (step S303). In the present embodiment, the punctuation mark “.” Is used as a text sentence delimiter. For example, when the text sentence data is read, the first sentence, “Operating income is 32,976 million yen, which is the same level as the previous year.” Is extracted.
CPU203は、切り出したテキスト文データに基づいて、数値情報データ抽出処理を行う(ステップS305)。
The
1−1−3−1.数値情報データ抽出処理
図4に示す数値情報データ抽出処理のフローチャートにおいて、CPU203は数値単位マスタ2095に基づいて数値情報データの単位文字を抽出する(ステップS401)。例えば、本実施形態において、数値単位マスタには「百万円」、「億円」等の金額に関する単位文字が記録されている。
1-1-3-1. Numerical Information Data Extraction Processing In the flowchart of the numerical information data extraction processing shown in FIG. 4, the
特に、数値単位マスタは、数値情報データを抽出するテキスト文の内容に応じて設定すればよい。例えば、有価証券報告書や財務諸表の場合は金額に関する単位文字である「円」、「億円」、「百万円」、「千円」等を設定し、歴史年表や新聞記事などの場合は日付に関する単位文字である「年」、「月」、「日」等を設定すればよい。これにより、文書の内容に応じて、必要な情報だけを取り出すことができる。 In particular, the numerical unit master may be set according to the contents of a text sentence from which numerical information data is extracted. For example, in the case of securities reports and financial statements, “Yen”, “Billions of yen”, “Millions of yen”, “Thousands of yen”, etc., which are unit characters relating to monetary amounts, are set, such as historical chronology and newspaper articles In this case, “year”, “month”, “day”, etc., which are unit characters relating to the date, may be set. Thereby, only necessary information can be extracted according to the contents of the document.
なお、上記の数値単位マスタを使わない場合は、情報抽出プログラム2091中に数値情報データにかかる所定の単位文字を設定しておけばよい。
If the numerical unit master is not used, a predetermined unit character for the numerical information data may be set in the
CPU203は、テキスト文データの先頭から、抽出した単位文字が存在するか否かを検索する(ステップS403)。例えば、テキスト文「営業利益は、前年度と同水準の32776百万円となった。」の先頭から、単位文字「百万円」または「億円」が存在するか否かを検索する。
The
テキスト文データの中に、所定の単位文字が存在すれば(ステップS405、YES)、当該単位文字の前方に連続する数字を数値情報データの構成要素として抽出する(ステップS407)。この場合、複数の数字が連続していれば、先頭方向から連続する数字をすべて連結した数字の文字列を数値情報データの構成要素として抽出する。なお、カンマ「,」や小数点「.」などの記号が連続していても、そこで区切ることなく一体として文字列が連結され、抽出される。さらに、CPU203は、抽出した数値情報データの構成要素と前記単位文字とを連結して数値情報データとする。
If a predetermined unit character exists in the text sentence data (step S405, YES), numbers consecutive in front of the unit character are extracted as constituent elements of the numerical information data (step S407). In this case, if a plurality of numbers are continuous, a character string of numbers obtained by concatenating all the continuous numbers from the head direction is extracted as a constituent element of the numerical information data. Note that even if symbols such as a comma “,” and a decimal point “.” Are consecutive, character strings are concatenated and extracted without being separated there. Further, the
例えば、上記テキスト文データの場合、「32776」が数値情報データの構成要素として抽出され、単位文字「百万円」と連結して、「32776百万円」が数値情報データとして抽出され、メモリ205またはハードディスク209の所定領域に記録される。
For example, in the case of the above text sentence data, “32776” is extracted as a constituent element of the numerical information data, concatenated with the unit character “million yen”, and “32776 million yen” is extracted as the numerical information data. 205 or a predetermined area of the
CPU203は、テキスト文データの中に、他に単位文字が存在すれば(ステップS409、NO)、ステップS407を繰り返す。他に単位文字が存在しなければ、当該処理を終了する(ステップS409、YES)。また、ステップS405において、単位文字が存在しない場合にも、当該処理を終了する(ステップS405、NO)。
If there is another unit character in the text sentence data (step S409, NO), the
1−1−3−2.テキスト文解析処理
数値情報データ抽出処理(図3、ステップS305)において、数値情報データが抽出されれば(ステップS307、YES)、CPU203はテキスト文解析処理(ステップS309)を行う。
1-1-3-2. Text sentence analysis processing If numerical information data is extracted in the numerical information data extraction process (FIG. 3, step S305) (step S307, YES), the
図5に示すテキスト文解析処理のフローチャートにおいて、CPU203は形態素解析辞書2093に基づいてテキスト文データを形態素解析する処理を行う(ステップS501)。例えば、形態素解析処理には、奈良先端科学技術大学院大学松本研究室の「茶筌」等を使用すればよい。
In the flowchart of the text sentence analysis process shown in FIG. 5, the
図7、図7aおよび図7bにテキスト文データ「営業利益は、前年度と同水準の32776百万円となった。」701に対して抽象化モデル抽出処理を行う場合の例を示す。 FIG. 7, FIG. 7a and FIG. 7b show an example in which the abstract model extraction processing is performed on the text sentence data “Operating profit was 32,976 million yen, which is the same level as the previous year” 701.
CPU203は、上記ステップS501の形態素解析処理によって、上記テキスト文データ701(図7)を、意味を有する最小の言語単位である形態素に分割する。
The
例えば、図7において、上記テキスト文データ701は、703に示すように「営業利益(名詞)/は(助詞)/前年度(名詞)/と(助詞)/同水準(名詞)/の(助詞)/32776百万円(名詞)/と(助詞)/なった(動詞)/。(文末)」のように形態素解析される。なお、上記および図7に示すテキスト文データ703においては、説明上テキスト文データを形態素ごとに「/」を挿入して表示しているが、実際には、図7aのAに示すように、形態素解析データとして、メモリ205またはハードディスク209の所定領域に記録される。
For example, in FIG. 7, the
CPU203は文法定義情報2094に基づいて、上記において形態素解析したテキスト文データを構文解析する処理を行う(ステップS503)。例えば、構文解析処理には、上昇型構文解析のLR文法パーザであるYACC等を使用すればよい。なお、パーザとは、構文解析プログラムを指し、入力文字列を解析して構文解析木などを作成するプログラムである。
上記LR文法パーザにおいては、予め設定した文法定義情報2094に基づいて構文解析が行われる。図8に、本実施形態において設定する文法定義情報2094の例を示す。なお、図8に示す文法定義情報2094においては、BNF表記によって文法情報を定義している。
Based on the
The LR grammar parser performs syntax analysis based on preset
CPU203は、上記ステップS503によって、形態素解析したテキスト文データを、LR文法パーザであるYACCに入力して構文解析を行う。例えば、上記YACCと文法定義情報2094を用いて、図7に示したテキスト文データ701を構文解析すると、705に示すようになる。
In step S503, the
705においては、文法定義情報2094に基づいて、レベル1〜8のように段階的に構文解析が行われる。これにより、各レベルにおいてテキスト文データ全体を所定の文要素データに分割することができる。例えば、レベル2においては、テキスト文データ701を「営業利益は(従属句)/前年度と(従属句)/同水準の(従属句)/32776百万円(従属句)と/なった(動詞句)」の各文要素データに分割することができる。
In 705, based on the
図7aのB〜Dおよび図7bのE〜Iに示すように、CPU203は、構文解析したデータを各レベル毎にメモリ205またはハードディスク209の所定領域に記録する。
As shown in B to D of FIG. 7a and E to I of FIG. 7b, the
CPU203は、構文解析したテキスト文データから「〜句」レベルの文要素データに分割されたテキスト文データを取得する(ステップS505)。
The
例えば、図7におけるテキスト文データ705のレベル2に分割されたテキスト文データ707、具体的には、図7aのCに示した構文解析データ(レベル2)を取得する。
For example, the
CPU203は、取得した構文解析データ(レベル2)に基づいて、主格句を決定する処理を行う(ステップS507)。ここで、主格句とは、主語を含む文要素データであり、文要素データの末尾の助詞によって主格句か否かの判定を行う。例えば、文要素データの末尾が「〜は」、「〜が」、「〜も」のいずれかである場合、当該文要素データは主格句であると判定する。
The
図9に主格句を決定する場合の例を示す。図9に示すテキスト文データ901において、文要素データ「営業利益は(従属句)」の末尾の助詞は、図7の形態素解析直後のテキスト文データ703より、「は」である。これにより、当該文要素データ「営業利益は(従属句)」の末尾が上記「〜は」に該当し、主格句であると決定することができる。
FIG. 9 shows an example in which a main phrase is determined. In the
なお、ここで主格句と決定される従属句の前に連体修飾の従属句が存在する場合には、それらを含めた従属句列を主格句と判断してもよく、また、かかる連体修飾の従属句を主格句に含めなくてもよい。例えば、「当連結会計年度の(従属句)」が「営業利益(従属句)」の前にある場合、「当連結会計年度の営業利益」(従属句列)が主格句であると判断するようにしてもよいし、「営業利益(従属句)」だけを主格句であると判断するようにしてもよい。 If there are subordinate clauses of the combination modification before the subordinate phrase determined to be the main phrase here, the subordinate phrase string including them may be determined as the main phrase, and such a subordination phrase may be determined. Dependent phrases need not be included in the main phrase. For example, if “(Subordinate clause) of the current fiscal year” precedes “Operating income (Subordinate clause)”, it is determined that “Operating income of the current fiscal year” (Subordinate clause column) is the main phrase. Alternatively, only “operating profit (subordinate phrase)” may be determined as the main phrase.
CPU203は、取得したテキスト文データ707において、述部を決定する処理を行う(ステップS509)。ここで、述部とは、述語を含む文要素データである。CPU203は、文要素データの末尾の品詞によって述部か否かの判定を行う。
The
例えば、文要素データの末尾の品詞が「名詞」、「形容詞」、「動詞」のいずれかである場合、当該文要素データは述部または述部の構成要素であると判定する。特に、「動詞」であっても意味の独立性の低い(非自立である)「補助動詞」および上記「名詞」、「形容詞」の場合は、直前の文要素データと連結して述部を構成するものとする。 For example, when the part of speech at the end of the sentence element data is “noun”, “adjective”, or “verb”, the sentence element data is determined to be a predicate or a component of the predicate. In particular, in the case of “auxiliary verbs” and the above “nouns” and “adjectives” whose meaning is low even if they are “verbs”, the predicates are connected with the immediately preceding sentence element data. Shall be composed.
本実施形態においては、文要素データの末尾が「〜である」、「〜となる」、「〜であった」、「〜となった」のいずれかである場合、当該分要素の末尾の品詞は「補助動詞」であると判定している。なお、文要素データの末尾の品詞が、「補助動詞」であるか否かの判定を形態素解析に基づいて行うようにしてもよい。この場合、形態素解析で動詞を本動詞(自立)か補助動詞(非自立)かの解析を行うようにすればよい。 In the present embodiment, when the end of sentence element data is any one of “to”, “becomes”, “was to”, and “becomes to”, The part of speech is determined to be an “auxiliary verb”. Note that the determination as to whether the part of speech at the end of the sentence element data is an “auxiliary verb” may be made based on morphological analysis. In this case, it is only necessary to analyze whether the verb is a main verb (independent) or an auxiliary verb (non-independent) by morphological analysis.
図9に、述部を決定する場合の例を示す。図9に示すテキスト文データ903において、文要素データ「なった(動詞句)」は、図7の形態素解析の結果により「動詞」である。これにより、当該文要素データ「なった(動詞句)」は、述部または述部の構成要素であると決定することができる。さらに、当該文要素データ「なった(動詞句)」は、「補助動詞」に分類されるため、直前の文要素データと連結されて述部を構成するものとされる。
FIG. 9 shows an example of determining a predicate. In the
これにより、当該文要素データ「なった(動詞句)」と直前の文要素データ「32776百万円と(従属句)」を連結して「32776百万円となった」が述部と決定される。 As a result, the sentence element data “Nata (verb phrase)” and the immediately preceding sentence element data “32776 million yen and (subordinate phrase)” are concatenated to become “32976 million yen” as a predicate. Is done.
すなわち、図9のテキスト文データ905に示すように、テキスト文データは「営業利益は(主格句)/前年度と(従属句)/同水準の(従属句)/32776百万円となった(述部)」の各文要素データに分割される。なお、実際には、CPU203は、メモリ205またはハードディスク209の所定領域に、図9aに示すような解析結果データ910を記録する。
That is, as shown in the
1−1−3−3.係り受け抽象化モデル抽出処理
テキスト文解析処理(図3、ステップS309)において、テキスト文データが所定の種類の文要素データに分割されると、さらにCPU203は係り受け抽象化モデル抽出処理(ステップS313)を行う。
1-1-3-3. Dependency abstraction model extraction processing
In the text sentence analysis process (FIG. 3, step S309), when the text sentence data is divided into predetermined types of sentence element data, the
図6に示すテキスト文解析処理のフローチャートにおいて、CPU203は前記数値情報データの属する文要素データを取得する(ステップS601)。例えば、上記数値情報データ抽出処理において抽出された数値情報データは「32776百万円」であるので、図9に示すテキスト文データ905により当該情報が含まれる文要素データとして、「32776百万円となった(述部)」を取得する。
In the flowchart of the text sentence analysis process shown in FIG. 6, the
CPU203は数値情報データが含まれる文要素データが、主格句であると判定すれば(ステップS603、YES)、後述するステップS609に進み、主格句でないと判定すれば(ステップS603、NO)、さらに述部であるか否かの判定を行う(ステップS605)。
If the
CPU203は数値情報データの属する文要素データが述部であると判定すれば(ステップS605、YES)、元のテキスト文データの主格句中の名詞を前記数値情報データの係り受け情報データとして抽出し(ステップS613)、述部でないと判定すれば(ステップS605、NO)、さらに、数値情報データの属する文要素データを従属句であると判断して、当該文要素データが連体修飾であるか否かの判定を行う(ステップS607)。
If the
CPU203は数値情報データが含まれる文要素データが、連体修飾であると判定すれば(ステップS607、YES)、当該文要素データの直後の文要素データ中の名詞を前記数値情報データの係り受け情報データとして抽出し(ステップS615)、連体修飾でないと判定すれば(ステップS607、NO)、数値情報データの属する文要素データ以外の文要素データを前記数値情報データの係り受け情報データとして抽出する(ステップS609)。
If the
以下、数値情報データの属する文要素データが「述部」、「主格句」、「従属句」の場合に分けて説明する。 In the following description, the sentence element data to which the numerical information data belongs are divided into “predicate”, “main phrase”, and “subordinate phrase”.
1−1−3−3−1.「述部」の場合
例えば、数値情報データの属する文要素データ「32776百万円となった(述部)」は述部であると判定されるので、図9に示すテキスト文データ905から「営業利益は(主格句)」に基づいて係り受け情報データが抽出される。すなわち、図7に示したテキスト文データ703を参照して「営業利益(名詞)」が係り受け情報データとして抽出される。
1-1-3-3-1. In the case of “predicate” For example, since the sentence element data “numerical information data that has become 32767 million yen (predicate)” is determined to be a predicate, the
これにより、数値情報データ「32776百万円」、係り受け情報データ「営業利益」が抽象化モデルデータとなる。 Accordingly, the numerical information data “32776 million yen” and the dependency information data “operating profit” become the abstract model data.
1−1−3−3−2.「主格句」の場合
例えば、テキスト文データとして「1603年には徳川家康が征夷大将軍に任じられた。」が入力された場合を考える。
1-1-3-3-3. In the case of “main phrase” For example, let us consider a case where “Ieyasu Tokugawa was entrusted to the great conqueror in 1603” as text data.
図3に示したステップS301〜S309にしたがって、上記テキスト文データは「1603年には(主格句)/徳川家康が(主格句)/征夷大将軍に(従属句)/任じられた(述部)」の文要素データに分割される。なお、この場合の単位文字には「年」を使用しており、数値情報データとして「1603年」が抽出されているものとする。 According to steps S301 to S309 shown in FIG. 3, the above text sentence data is “in the year 1603 (main phrase) / Ieyasu Tokugawa (main phrase) / conquered general (subordinate phrase) / assigned (predicate) ) "Sentence element data. In this case, “year” is used as a unit character, and “1603” is extracted as numerical information data.
この場合、数値情報データの属する文要素データは「1603年には(主格句)」であるので、CPU203は、テキスト文データから「1603年には(主格句)」以外の文要素データを係り受け情報データとして抽出する。すなわち、「徳川家康が(主格句)/征夷大将軍に(従属句)/任じられた(述部)」が係り受け情報データとして抽出される。
In this case, since the sentence element data to which the numerical information data belongs is “1603 (prominent phrase)”, the
これにより、数値情報データ「1603年」、係り受け情報データ「徳川家康が征夷大将軍に任じられた」が抽象化モデルデータとなる。 As a result, the numerical information data “1603” and the dependency information data “Ieyasu Tokugawa has been appointed as a great general of conquest” become the abstract model data.
1−1−3−3−3.「従属句」の場合
数値情報データが含まれる文要素データが従属句である場合、CPU203は当該文要素データが修飾形態が連体修飾であるか否かを判定する(ステップS607)。すなわち、後続する文要素データに体言が含まれているか否かを判定する。
1-1-3-3-3. In the case of “subordinate phrase” When the sentence element data including the numerical information data is a subordinate phrase, the
例えば、数値情報データが含まれる文要素データの末尾が「〜の」である場合(ステップS607、YES)、修飾する単語が体言であると判定し、当該文要素データは連体修飾であると判定する。 For example, if the end of sentence element data including numerical information data is “to” (step S607, YES), it is determined that the word to be modified is a body word, and the sentence element data is determined to be a combined modification. To do.
例えば、テキスト文データとして「私は昨日100円のノートを買った。」が入力された場合を考える。図3に示したステップS301〜S309にしたがって、上記テキスト文データは「私は(主格句)/昨日(従属句)/100円の(従属句)/ノートを(従属句)/買った(述部)」の文要素データに分割される。なお、この場合の単位文字には「円」を使用しており、数値情報データとして「100円」が抽出されているものとする。 For example, consider a case where “I bought a note of 100 yen yesterday” is input as text data. In accordance with steps S301 to S309 shown in FIG. 3, the text data is “I am (main phrase) / yesterday (subordinate phrase) / 100 yen (subordinate phrase) / note (subordinate phrase) / buy (description). Part) "sentence element data. Note that “yen” is used as the unit character in this case, and “100 yen” is extracted as numerical information data.
この場合、数値情報データの属する文要素データは「100円の(従属句)」であり、文要素データの末尾が「〜の」であるので、CPU203は、当該従属句は連体修飾であると判定する。すなわち、当該従属句が修飾する単語は体言であると判定し、テキスト文データにおける当該文要素データの直後の文要素データの名詞を係り受け情報データとして抽出する。
In this case, since the sentence element data to which the numerical information data belongs is “100 yen (subordinate phrase)” and the end of the sentence element data is “to”, the
例えば、直後の文要素データである「ノートを(従属句)」から「ノート(名詞)」が係り受け情報データとして抽出される。 For example, “note (noun)”, which is sentence element data immediately after, is extracted as dependency information data from “note (subordinate phrase)”.
これにより、数値情報データ「100円」、係り受け情報データ「ノート」が抽象化モデルデータとなる。 As a result, the numerical information data “100 yen” and the dependency information data “note” become the abstract model data.
一方、CPU203が連体修飾でないと判定した場合(ステップS607、NO)、すなわち、修飾する単語が用言であると判定し、数値情報データの属する文要素データ以外の文要素データを係り受け情報データとして抽出する(ステップS609)。
On the other hand, when the
例えば、テキスト文データとして「源頼朝は1192年に鎌倉幕府を開いた。」が入力された場合を考える。 For example, consider a case in which “Yori Yoromo opened the Kamakura Shogunate in 1192” is input as text data.
図3に示したステップS301〜S309にしたがって、上記テキスト文データは「源頼朝は(主格句)/1192年に(従属句)/鎌倉幕府を(従属句)/開いた(述部)」の文要素データに分割される。なお、この場合の単位文字には「年」を使用しており、数値情報データとして「1192年」が抽出されているものとする。 According to steps S301 to S309 shown in FIG. 3, the text sentence data is “Gen Yoromo (primary phrase) / 1192 (subordinate phrase) / Kamakura shogunate (subordinate phrase) / opened (predicate)”. Divided into sentence element data. In this case, “year” is used as a unit character, and “1192” is extracted as numerical information data.
この場合、数値情報データの属する文要素データは「1192年に(従属句)」であり、文要素データの末尾が「〜の」以外であるので、CPU203は、当該従属句は連体修飾でないと判定する。すなわち、当該従属句が修飾する単語は用言であると判定し、テキスト文データにおける数値情報データの属する文要素データ以外の文要素データを係り受け情報データとして抽出する。
In this case, since the sentence element data to which the numerical information data belongs is “in 1192 (subordinate phrase)” and the end of the sentence element data is other than “to”, the
例えば、文要素データ「1192年(従属句)」以外の文要素データである「源頼朝は(主格句)/鎌倉幕府を(従属句)/開いた(述部)」が係り受け情報データとして抽出される。 For example, sentence element data other than the sentence element data “1192 (subordinate phrase)” is “source Yoromo (main phrase) / kamakura shogunate (subordinate phrase) / opened (predicate)” as dependency information data Extracted.
これにより、数値情報データ「1192年」、係り受け情報データ「源頼朝は鎌倉幕府を開いた」が抽象化モデルデータとなる。 As a result, the numerical information data “1192” and the dependency information data “Gen Yoromo opened the Kamakura Shogunate” become the abstract model data.
CPU203は、上記の数値情報データ抽出処理(図4)によって抽出した数値情報データの数だけ上記処理ステップS601〜S609を繰り返し(ステップS611、YES)、他の数値情報データがなければ当該処理を終了する(ステップS611、NO)。
The
1−1−3−4.まとめ
係り受け抽象化モデル抽出処理を終えるとCPU203は、抽象化モデルデータを抽象化モデルDB2097に記録する(図3、ステップS315)。例えば、図7に示したテキスト文データ「営業利益は、前年度と同水準の32776百万円となった。」が入力された場合、抽象化モデルDB2097に、数値情報データ「32776百万円」、係り受け情報データ「営業利益」が記録される。
1-1-3-4. Conclusion When the dependency abstract model extraction process is completed, the
なお、本実施形態においては、抽象化モデル生成装置において抽出した抽象化モデルデータを抽象化モデルDB2097に記録するようにしているが、これに限定されることはなく、抽象化モデルデータを他のアプリケーションに引き渡すようにしてもよい。
In this embodiment, the abstract model data extracted by the abstract model generation device is recorded in the
また、テキスト文データから数値情報データと係り受け情報データを抽出する処理を行うために、他のアプリケーションに組み込んで使用するようにしてもよい。さらに、ユーザに提示するために、抽象化モデルデータを抽象化モデル生成装置のディスプレイ201に表示するようにしてもよい。
Further, in order to perform processing for extracting numerical information data and dependency information data from text sentence data, it may be used by being incorporated in another application. Furthermore, the abstract model data may be displayed on the
CPU203は、テキスト文から切り出されたテキスト文データの数だけ上記処理(図3、ステップS303〜315を繰り返し(ステップS317、NO)、処理対象となるテキスト文データがなくなれば、当該抽象化モデル抽出処理を終了する(ステップS317、YES)。
The
以上説明したように、この発明によれば、数値情報データに対応する名詞が近傍にない場合であっても、係り受け関係にある名詞を正確に抽出することができる。また、数値情報データに対応する情報として抽出する情報を、特定の名詞に限定することなく、係り受け関係にある名詞または文を正確に抽出することができる。 As described above, according to the present invention, nouns having a dependency relationship can be accurately extracted even when nouns corresponding to numerical information data are not in the vicinity. In addition, information extracted as information corresponding to numerical information data is not limited to a specific noun, and a noun or sentence having a dependency relationship can be accurately extracted.
1−2.第1−1の実施形態
上記実施形態においては、入力されるテキスト文データが単文であることを前提として説明した。本実施形態においては、特に、テキスト文データが2つの文を含む複文または重文である場合について説明する。
1-2. 1-1 embodiment In the said embodiment, it demonstrated on the assumption that the text-text data input is a single sentence. In the present embodiment, a case where the text sentence data is a compound sentence or a double sentence including two sentences will be described.
なお、複文とは、主語・述語の関係が成り立っている文で、さらにその構成部分に主語・述語の関係がみられるものである。また、重文とは、独立した二つ以上の文が、対等の資格で結合した文である。 Note that a compound sentence is a sentence in which a subject / predicate relationship is established, and a subject / predicate relationship is further found in its constituent parts. A heavy sentence is a sentence formed by combining two or more independent sentences with equal qualifications.
1−2−1.機能ブロック図
図10に、本実施形態にかかる抽象化モデル生成装置の機能ブロック図を示す。この図において、本発明にかかる抽象化モデル生成装置は、切出手段101、数値情報データ抽出手段103、テキスト文解析手段105、抽出対象文決定手段106、係り受け情報抽出手段107、抽象化モデル出力手段109を備えている。
1-2-1. Functional Block Diagram FIG. 10 is a functional block diagram of the abstract model generation device according to this embodiment. In this figure, the abstract model generation apparatus according to the present invention includes a cutout means 101, numerical information data extraction means 103, text sentence analysis means 105, extraction target sentence determination means 106, dependency information extraction means 107, abstract model. Output means 109 is provided.
抽出対象文決定手段106は、テキスト文解析手段によって文要素データに分割されたテキスト文データから数値情報データの抽出対象となる文を決定し、係り受け情報抽出手段107に与える。例えば、複文の場合は、主文と副文に分割した後、各文が抽出対象であるか否かを決定する。
The extraction target
なお、切出手段101、数値情報データ抽出手段103、テキスト文解析手段105、係り受け情報抽出手段107、抽象化モデル出力手段109は、第1の実施形態と同様である。
Note that the
1−2−2.ハードウェア構成
ハードウェア構成については、第1の実施形態と同様である。
1-2-2. Hardware configuration The hardware configuration is the same as in the first embodiment.
1−2−3.フローチャート
情報抽出プログラム2091に基づく処理について、図11のフローチャートを用いて説明する。以下では、テキスト文データ「今月の食費は、父が7000円のワインを買ったため、45400円になった。」を含むテキスト文を切出手段101に入力した場合を例として説明する。
1-2-3. Flowchart Processing based on the
図11に示す抽象化モデル抽出処理のフローチャートにおいて、CPU203が行うステップS301〜S309までの処理は基本的に第1の実施形態と同様である。
In the abstract model extraction process flowchart shown in FIG. 11, the processes of steps S301 to S309 performed by the
例えば、前記テキスト文データが読み込まれた場合、先頭の文である「今月の食費は、父が7000円のワインを買ったため、45400円になった。」がテキスト文データとして切り出される。 For example, when the text sentence data is read, the first sentence, “This month's food expense is 45400 yen because my father bought 7000 yen of wine” is cut out as text sentence data.
CPU203は、切り出したテキスト文データに基づいて、数値情報データ抽出処理を行う(ステップS305)。
The
1−2−3−1.数値情報データ抽出処理
例えば、本実施形態において、数値単位マスタには「円」が単位文字として記録されており、CPU203は、図4に示す数値情報データ抽出処理により、「7000円」、「45400円」をそれぞれ数値情報データとして抽出する。
1-2-3-1. Numerical Information Data Extraction Processing For example, in this embodiment, “Yen” is recorded as a unit character in the numerical value unit master, and the
1−2−3−2.テキスト文解析処理
数値情報データ抽出処理(図11、ステップS305)において、数値情報データが抽出されれば(ステップS307、YES)、CPU203はテキスト文解析処理(ステップS309)を行う。第1の実施形態に示したように、図5に示すテキスト文解析処理のフローチャートにしたがって、CPU203は上記テキスト文データを所定の文要素データに分割する。
1-2-3-2. Text sentence analysis processing If numerical information data is extracted in the numerical information data extraction process (FIG. 11, step S305) (YES in step S307), the
図13に、テキスト文解析処理を行った後のテキスト文データを示す。テキスト文データ1301に示すように、前記テキスト文データは「今月の食費は、(主格句)/父が(主格句)/7000円の(従属句)/ワインを(従属句)/買ったため、(述部)/45400円になった(述部)」の各文要素データに分割される。
FIG. 13 shows the text sentence data after the text sentence analysis processing is performed. As shown in the
1−2−3−3.抽出対象文決定処理
テキスト文解析処理を終えるとCPU203は、抽出対象文決定処理を行う(ステップS310)。図12に、抽出対象文決定処理におけるフローチャートを示す。
1-2-3-3. Extraction target sentence decision processing
When the text sentence analysis process is completed, the
CPU203は、構文解析処理されたテキスト文データに基づいて、文の種類を判定する。すなわち、CPU203は、主格句と述部の組合せの個数および並び方に基づいて、入力されたテキスト文データが、複文、重文、単文のいずれであるかを判定する(図12、ステップS1201)。
The
CPU203は、主格句と述部の組合せが1つであればテキスト文データは単文であると判定する(ステップS1201、単文)。また、主格句と述部の組合せが2つであり、並び方が「主格句−主格句−述部−述部」であればテキスト文データは複文であると判定する(ステップS1201、複文)。さらに、主格句と述部の組合せが2つであり、並び方が「主格句−述部−主格句−述部」であればテキスト文データは重文であると判定する(ステップS1201、重文)。
If the combination of the main phrase and the predicate is one, the
CPU203は、入力されたテキスト文データが複文であると判定すると、当該テキスト文データを主文と副文に分割する(ステップS1203)。例えば、図13に示すテキスト文データ1301の場合、文の構造が「主格句−主格句−述部−述部」であることにより、複文であると判定され、テキスト文データ1301は、主文としてのテキスト文データ1303「今月の食費は、(主格句)/45400円になった(述部)」および副文としてのテキスト文データ1305「父が(主格句)/7000円の(従属句)/ワインを(従属句)/買ったため(述部)」に分割される。
If the
一方、CPU203は、入力されたテキスト文データが重文であると判定すると、当該テキスト文データを前半文と後半文に分割する(ステップS1205)。例えば、図14に示すテキスト文データ1401の場合、文の構造が「主格句−述部−主格句−述部」であることにより、重文であると判定され、テキスト文データ1401は、前半文としてのテキスト文データ1403「今月の食費は、(主格句)/45400円になった(述部)」および副文としてのテキスト文データ1305「父が(主格句)/7000円の(従属句)/ワインを(従属句)/買ったため(述部)」に分割される。
On the other hand, if the
CPU203は、分割された単文または入力された単文を取得し(ステップS1207)、当該単文に数値情報データが含まれるか否かを判定する(ステップS1209)。 CPU203 acquires the divided simple sentence or input sentence (step S1207), determines whether or not contain numerical information data to the simple sentence (step S1209).
CPU203は、取得した単文に数値情報データが含まれていれば(ステップS1209、YES)、当該単文を抽出対象文として決定し、メモリ205に記憶する(ステップS1211)。なお、数値情報データが含まれていなければ、ステップS1211をスキップする。
If the acquired single sentence includes numerical information data (step S1209, YES), the
CPU203は、他の単文があれば(ステップS1213、YES)、ステップS1207に戻って、次の単文を取得して上記ステップS1209〜S1213と同様の処理を行う。なお、処理対象となる単文がなくなれば、当該処理を終了する(ステップS1213、NO)。
If there is another simple sentence (YES in step S1213), the
例えば、図13の主文としてのテキスト文データ1303が単文として取得されると、数値情報データ「45400円」が含まれるので、当該テキスト文データ1303を抽出対象文として決定する。さらに、副文としてのテキスト文データ1305が単文として取得されて、数値情報データ「7000円」が含まれることにより、当該テキスト文データ1305を抽出対象文として決定する。なお、図14に示した重文のテキスト文データ1401の場合も上記と同様に処理できる。
For example, when the
1−2−3−4.係り受け抽象化モデル抽出処理
抽出対象文決定処理(図11、ステップS310)において、入力されたテキスト文データが所定の種類の文要素データに分割され単文に分割されると、さらにCPU203は係り受け抽象化モデル抽出処理(ステップS313)を行う。なお、係り受け抽象化モデル抽出処理については、第1の実施形態において示した図6のフローチャートと同様である。
1-2-3-4. Dependency abstraction model extraction processing
In the extraction target sentence determination process (FIG. 11, step S310), when the input text sentence data is divided into predetermined types of sentence element data and divided into simple sentences, the
CPU203は、上記の抽出対象文決定処理(図12)によって決定した単文の数だけ上記処理ステップS313〜S315を繰り返し(ステップS316、YES)、他の単文がなければ当該処理を終了する(ステップS316、NO)。
The
例えば、図13に示すテキスト文データ1303から、数値情報データ「45400円」、係り受け情報データ「食費」が抽出され、抽象化モデルDB2097に記録される。同様に、図13に示すテキスト文データ1305から、数値情報データ「7000円」、係り受け情報データ「ワイン」が抽出され、抽象化モデルDB2097に記録される。
For example, numerical information data “45400 yen” and dependency information data “food expenses” are extracted from the
2−3−5.まとめ
以上説明したように、この発明によれば、テキスト文データが単文、複文、重文のいずれの場合であっても、数値情報データと係り受け関係にある名詞または文を正確に抽出することができる。
2-3-5. Summary As described above, according to the present invention, it is possible to accurately extract a noun or sentence that is dependent on numerical information data regardless of whether the text sentence data is a single sentence, a compound sentence, or a heavy sentence. it can.
なお、上記実施形態においては、テキスト文データが主格句と述部の組合せがの2つである複文または重文を前提として説明したが、2つ以上の組合せであってもよい。この場合、主格句と述部の並び方を予めパターン化しておき、いずれのパターンに属するかに基づいて、複文であるか重文であるかの判定を行い、単文に分割するように構成すればよい。 In the above embodiment, the text sentence data has been described on the premise of a compound sentence or a duplicate sentence in which the combination of the main phrase and the predicate is two, but a combination of two or more may be used. In this case, the arrangement of the main phrase and the predicate may be pre-patterned, and it may be configured to determine whether it is a compound sentence or a heavy sentence based on which pattern it belongs to, and to divide it into simple sentences. .
3.第1−2の実施形態
上記の実施形態においては、入力されたテキスト文データを文要素データに分割し、数値情報データの属する文要素データの種類に基づいて、数値情報データおよび当該数値情報データと係り受け関係にある係り受け情報データのみを抽出するように構成した。
3. 1-2 embodiment In the above embodiment, the input text sentence data is divided into sentence element data, and based on the type of sentence element data to which the numerical information data belongs, the numerical information data and the numerical information data It is configured to extract only dependency information data that is in a dependency relationship.
本実施形態においては、所定の文要素データに基づいて数値情報データおよび係り受け情報データを主情報として抽出し、さらにその他の文要素データに基づいて付加情報を抽出する場合について説明する。 In the present embodiment, a case will be described in which numerical information data and dependency information data are extracted as main information based on predetermined sentence element data, and additional information is extracted based on other sentence element data.
1−3−1.機能ブロック図
図15に、本実施形態にかかる抽象化モデル生成装置の機能ブロック図を示す。この図において、本発明にかかる抽象化モデル生成装置は、切出手段101、数値情報データ抽出手段103、テキスト文解析手段105、抽出対象文決定手段106、係り受け情報抽出手段107、付加情報抽出手段108、抽象化モデル出力手段109を備えている。
1-3-1. Functional Block Diagram FIG. 15 is a functional block diagram of the abstract model generation device according to this embodiment. In this figure, the abstract model generation apparatus according to the present invention includes a cutout means 101, numerical information data extraction means 103, text sentence analysis means 105, extraction target sentence determination means 106, dependency information extraction means 107, and additional information extraction.
付加情報抽出手段108は、文要素データに分割されたテキスト文データに基づいて、数値情報データおよび係り受け情報データを含む文要素データ以外の文要素データを抽出し、当該数値情報データおよび係り受け情報データに関する付加情報として抽象化モデル出力手段109に与える。
The additional
なお、切出手段101、数値情報データ抽出手段103、テキスト文解析手段105、係り受け情報抽出手段107、抽象化モデル出力手段109は、第1の実施形態と同様である。
Note that the
1−3−2.ハードウェア構成
ハードウェア構成については、第1の実施形態と同様である。
1-3-2. Hardware configuration The hardware configuration is the same as in the first embodiment.
1−3−3.フローチャート
情報抽出プログラム2091に基づく処理について、図16のフローチャートを用いて説明する。以下では、第1の実施形態と同様に、テキスト文データ「営業利益は、前年度と同水準の32776百万円となった。」を含むテキスト文を切出手段101に入力した場合を例として説明する。
1-3-3. Flowchart Processing based on the
図11に示す抽象化モデル抽出処理のフローチャートにおいて、CPU203が行うステップS301〜S315までの処理は基本的に第1の実施形態と同様である。
In the abstract model extraction process flowchart shown in FIG. 11, the processes of steps S301 to S315 performed by the
例えば、前記テキスト文データが読み込まれた場合、先頭の文である「営業利益は、前年度と同水準の32776百万円となった。」がテキスト文データとして切り出される。 For example, when the text sentence data is read, the first sentence “Operating profit was 32,976 million yen, the same level as the previous year” is extracted as the text sentence data.
CPU203は、切り出したテキスト文データに基づいて、数値情報データ抽出処理を行う(ステップS305)。
The
数値情報データ抽出処理(図16、ステップS305)において、数値情報データが抽出されれば(ステップS307、YES)、CPU203はテキスト文解析処理(ステップS309)を行う。第1の実施形態に示したように、図5に示すテキスト文解析処理のフローチャートにしたがって、CPU203は上記テキスト文データを所定の文要素データに分割する。
In the numerical information data extraction process (FIG. 16, step S305), if numerical information data is extracted (step S307, YES), the
図18に、テキスト文解析処理を行った後のテキスト文データを示す。テキスト文データ1801に示すように、前記テキスト文データは「営業利益は(主格句)/前年度と(従属句)/同水準の(従属句)/32776百万円となった(述部)」の各文要素データに分割される。
FIG. 18 shows the text sentence data after the text sentence analysis processing is performed. As shown in the
テキスト文解析処理(図16、ステップS309)において、入力されたテキスト文データが所定の種類の文要素データに分割されると、さらにCPU203は係り受け抽象化モデル抽出処理(ステップS313)を行う。なお、係り受け抽象化モデル抽出処理については、第1の実施形態において示した図6のフローチャートと同様である。
In the text sentence analysis process (FIG. 16, step S309), when the input text sentence data is divided into predetermined types of sentence element data, the
したがって、第1の実施形態と同様に、数値情報データ「32776百万円」、係り受け情報データ「営業利益」が抽象化モデルデータとなる。 Therefore, as in the first embodiment, the numerical information data “32776 million yen” and the dependency information data “operating profit” are the abstract model data.
1−3−3−1.付加抽象化モデル抽出処理
係り受け抽象化モデル抽出処理を終えると、CPU203は、付加抽象化モデル抽出処理を行う(ステップS331)。図17に、付加抽象化モデル抽出処理におけるフローチャートを示す。
1-3-3-1. Additional abstraction model extraction processing
When the dependency abstract model extraction process is completed, the
CPU203は、数値情報データ抽出処理において抽出された数値情報データおよび係り受け抽象化モデル抽出処理において抽出された係り受け情報データの属する文要素データを取得する(図17、ステップS1701)。
The
次に、CPU203は、テキスト文解析処理において文要素データに分割されたテキスト文データ1801を読み込み、上記において取得した数値情報データおよび係り受け情報データの属する文要素データ以外の文要素データを追加情報として抽出する(ステップS1703)。
Next, the
例えば、図18のテキスト文データ1801においては、数値情報データの属する文要素データは「32776百万円(述部)」であり、係り受け情報データの属する文要素データは「営業利益は(主格句)」である。したがって、数値情報データおよび係り受け情報データの属する文要素データ以外の文要素データとして、「前年度と(従属句)」および「同水準の(従属句)」が抽出される。
For example, in the
CPU203は、上記の数値情報データ抽出処理(図4)によって抽出した数値情報データの数だけ上記処理ステップS1701〜S1703を繰り返し(ステップS1705、YES)、他の数値情報データがなければ当該処理を終了する(ステップS1705、NO)。
The
付加抽象化モデル抽出処理を終えるとCPU203は、抽象化モデルデータを抽象化モデルDB2097に記録する(図16、ステップS333)。
When the additional abstract model extraction processing is completed, the
例えば、図18の1803に示すように、抽象化モデルDB2097には、数値情報データ「32776百万円」、係り受け情報データ「営業利益」に加えて、付加情報「前年度と/同水準の」が記録される。
For example, as shown by 1803 in FIG. 18, in the
CPU203は、テキスト文から切り出されたテキスト文データの数だけ上記処理(図11、ステップS303〜333を繰り返し(ステップS317、NO)、処理対象となるテキスト文データがなくなれば、当該抽象化モデル抽出処理を終了する(ステップS317、YES)。
The
1−3−4.まとめ
以上説明したように、この発明によれば、テキスト文データの主情報である数値情報データ・係り受け情報データに加えて、当該主情報にかかる付加情報を抽出することができる。
1-3-4. Summary As described above, according to the present invention, in addition to numerical information data and dependency information data that are main information of text sentence data, additional information related to the main information can be extracted.
これにより、数値情報データと直接的な係り受け関係にある係り受け情報データだけでなく、数値情報データまたは係り受け情報データと間接的な関係にある付加情報を抽出することができる。 As a result, not only the dependency information directly related to the numerical information data but also the additional information indirectly related to the numerical information data or the dependency information data can be extracted.
例えば、数値情報データ「32776百万円」および係り受け情報データ「営業利益」に関する付加情報「前年度と/同水準の」は、「営業利益」が「32776百万円」である状態に関する背景・状況としての付加情報として利用することができる。 For example, the additional information “same level as last year” regarding the numerical information data “32776 million yen” and the dependency information data “operating profit” is related to the situation where the “operating profit” is “32976 million yen”. -It can be used as additional information as a situation.
なお、上記実施形態においては、テキスト文データが単文である場合について説明したが、複文または重文を含む場合であってもよい。この場合、第1−1の実施形態において示したように、テキスト文解析処理(ステップS309)。と係り受け抽象化モデル抽出処理(ステップS313)の間に抽出対象文決定処理を挿入すればよい。 In the above embodiment, the case where the text sentence data is a single sentence has been described. However, the text sentence data may include a compound sentence or a duplicate sentence. In this case, as shown in the 1-1 embodiment, text sentence analysis processing (step S309). And an extraction target sentence determination process may be inserted between the dependency abstract model extraction process (step S313).
1−4.その他の実施形態
上記実施形態においては、数値情報データ抽出処理を行った後に分割処理を行うように構成したが、テキスト文解析処理中に数値情報データ抽出処理を行うように構成してもよい。具体的には、テキスト文解析処理においてテキスト文データを文要素データに分割した後に、各文要素データについて数値情報データが含まれるか否かを判断させ、含まれていればテキスト文データの構文解析を行うように構成すればよい。
1-4. Other Embodiments In the above-described embodiment, the division processing is performed after the numerical information data extraction processing. However, the numerical information data extraction processing may be performed during the text sentence analysis processing. Specifically, after the text sentence data is divided into sentence element data in the text sentence analysis process, it is determined whether or not numerical information data is included for each sentence element data, and if included, the syntax of the text sentence data What is necessary is just to comprise so that an analysis may be performed.
上記実施形態においては、数値情報データを抽出する場合に、テキスト文データの中に存在する所定の単位文字の前方に連続する数字を数値情報データとして抽出するように構成したが、単位文字によっては、後方に連続する数字を数値情報データとして抽出するようにしてもよい。例えば、「¥」や「$」などの通貨記号を単位文字とする場合がこれに該当する。 In the above embodiment, when the numerical information data is extracted, it is configured to extract, as the numerical information data, numbers consecutive in front of a predetermined unit character existing in the text sentence data. Alternatively, numbers that are continuous in the back may be extracted as numerical information data. For example, this is the case when a currency symbol such as “¥” or “$” is used as a unit character.
上記実施形態においては、構文解析処理において、上昇型構文解析のLR文法パーザであるYACCを例示したが、その他の種類のパーザであってもよい。例えば、下降型構文解析のLL文法パーザなどがこれに該当する。 In the above embodiment, YACC, which is an LR grammar parser for ascending syntax analysis, is exemplified in the syntax analysis processing, but other types of parsers may be used. For example, an LL grammar parser for descending parsing corresponds to this.
上記実施形態においては、日本語で記述されたテキスト文について説明したが、数値情報データが抽出可能であり、形態素解析処理および構文解析処理において文要素データに分割することができれば、他の言語で記述されたテキスト文であってもよい。例えば、英語の場合は、英文の数値単位に基づいて数値情報データを抽出し、英文用の形態素解析プログラムおよび構文解析プログラムを用いて構成すればよい。 In the above embodiment, a text sentence written in Japanese has been described. However, if numerical information data can be extracted and can be divided into sentence element data in morphological analysis processing and syntax analysis processing, It may be a written text. For example, in the case of English, numerical information data may be extracted based on English numeric units and configured using an English morphological analysis program and a syntax analysis program.
2.第2の実施形態[リンク設定装置]
上記第1の実施形態の抽象化モデル生成装置を利用して、数値情報データが含まれるテキスト文などの抽象化処理要素にリンクを設定する装置について、以下に図19〜図25を用いて説明する。
2. Second Embodiment [Link Setting Device]
An apparatus for setting a link to an abstraction processing element such as a text sentence including numerical information data using the abstraction model generation apparatus of the first embodiment will be described below with reference to FIGS. To do.
2−1.機能ブロック図
図19に、本実施形態にかかるリンク設定装置の機能ブロック図を示す。この図において、本発明にかかるリンク設定装置は、文書データ入力手段1201、要素分割手段1203、抽象化モデルデータ抽出手段1204、抽象化モデル記録手段1211、抽象化モデル選択手段1213、リンク設定手段1215を備えている。なお、抽象化モデルデータ抽出手段1204は、表現形式判別手段1205、抽象化モデル生成手段(テキスト文)1207、抽象化モデル生成手段(テーブル)1209を備える。
2-1. Functional Block Diagram FIG. 19 is a functional block diagram of the link setting device according to the present embodiment. In this figure, a link setting device according to the present invention includes a document data input means 1201, an element division means 1203, an abstract model data extraction means 1204, an abstract model recording means 1211, an abstract model selection means 1213, and a link setting means 1215. It has. The abstract model data extraction unit 1204 includes an expression
文書データ入力手段1201から文書データが入力され、要素分割手段により抽象化処理要素毎に分割される。分割された抽象化処理要素は、抽象化モデルデータ抽出手段1204に与えられる。
Document data is input from the document
抽象化モデルデータ抽出手段1204の表現形式判別手段1205は、取得した抽象化処理要素の表現形式を判断する。例えば、抽象化処理要素がテキスト文(文章)であるか、テーブル(表)であるかを判断する。これにより、当該要素は、抽象化処理要素の表現形式がテキスト文である場合には、抽象化モデル生成手段(テキスト文)1207に与えられ、要素の表現形式がテーブルである場合には、抽象化モデル生成手段(テーブル)1209に与えられる。なお、文書データにテキスト文のみが含まれる場合には、上記表現形式判別手段1205と抽象化モデル生成手段(テーブル)1209は不要になる。
The expression format discrimination means 1205 of the abstract model data extraction means 1204 determines the expression format of the acquired abstraction processing element. For example, it is determined whether the abstraction processing element is a text sentence (sentence) or a table (table). Thus, the element is given to the abstract model generation means (text sentence) 1207 when the abstract processing element expression format is a text sentence, and the element is abstract when the element expression form is a table. This is given to a modelized model generating means (table) 1209. When the document data includes only a text sentence, the above-described expression
抽象化モデル生成手段(テキスト文)1207は、第1の実施形態における抽象化モデル生成装置(図1に示す)と同じ機能を有している。すなわち、入力されたテキスト文から数値情報データと係り受け関係にある他の文要素を抽出し、これらを位置情報データと共に抽象化モデル記録手段1211に与える(具体的には、図3等のフローチャートのステップS301〜S317に示す処理を行う。)。抽象化モデル生成手段(テーブル)1209は、テーブルデータについて定められた所定規則(後述する)に基づいて、抽象化モデルデータを生成する処理を行い、これらを位置情報データと共に抽象化モデル記録手段1211に与える。 The abstract model generation means (text sentence) 1207 has the same function as the abstract model generation apparatus (shown in FIG. 1) in the first embodiment. That is, other sentence elements having a dependency relationship with the numerical information data are extracted from the input text sentence, and these are provided to the abstract model recording means 1211 together with the position information data (specifically, the flowchart of FIG. 3 and the like). The processing shown in steps S301 to S317 of FIG. The abstract model generation means (table) 1209 performs processing for generating abstract model data based on a predetermined rule (described later) defined for the table data, and abstract model recording means 1211 together with the position information data. To give.
抽象化モデル記録手段1211は、抽象化モデル生成手段(テキスト文)1207や抽象化モデル生成手段(テーブル)1209から与えられた抽象化モデルデータを記録する。抽象化モデル選択手段1213は、記録された当該抽象化モデル記録手段1211を検索して、同じ抽象化モデルデータを全て選択し各位置情報データをリンク設定手段1215に提供する。リンク設定手段1215は、当該位置情報データに基づいて、抽象化モデルデータが同じ抽象化処理要素に対してリンク(例えば、ハイパーリンク)を設定する。
The abstract
2−2.ハードウェア構成
図19に示すリンク設定装置をCPUを用いて実現したハードウェア構成の一例を、図20に示す。図20に示すリンク設定装置は、ディスプレイ201、CPU203、メモリ205、キーボード/マウス207、ハードディスク209、CD−ROMドライブ211および通信回路215を備えている。
2-2. Hardware Configuration FIG. 20 shows an example of a hardware configuration in which the link setting device shown in FIG. 19 is realized using a CPU. 20 includes a
ハードディスク209には、リンク設定プログラム221が記録されている。リンク設定プログラム221は、テキスト文について抽象化モデルデータ生成処理(図3に示す)を行うための抽象化モデルデータ生成スクリプト223を備えている。さらに、リンク設定プログラム221は、抽象化処理要素の表現形式(テキスト文、テーブルなど)を判別するための表現形式対応表225、および生成した抽象化モデルデータを記録するための抽象化モデルDB227も備えている。
A
これらのプログラム等は、CD−ROMドライブ211を介してCD−ROM212に記録されたデータを読み出してインストールしたものである。なお、上記インストールは、通信回路215を用いてインターネット216等からダウンロードしたデータを使用して行うようにしてもよい。
These programs and the like are installed by reading data recorded on the CD-
2−3.抽象化モデルデータに基づいてリンクを設定する処理の具体例
図21に示すフローチャートを用いて、数値情報データが含まれるテキスト文などから抽象化モデルデータを生成し、リンクを設定するまでの処理について説明する。なお、以下の処理は、XML形式のファイル(XMLファイル)中のテキスト文やテーブルなどについてリンクを設定する場合の例である。
2-3. Specific Example of Processing for Setting Link Based on Abstraction Model Data Processing for generating abstract model data from a text sentence including numerical information data and setting a link using the flowchart shown in FIG. explain. The following processing is an example in the case where a link is set for a text sentence or a table in an XML format file (XML file).
まず、リンク設定の対象となる文書データが入力される(ステップS2001)。例えば、図22Aに示すような有価証券報告書ファイルのデータが、CD−ROM212を介してCD−ROMドライブから読み出され、メモリ205に記録される。なお、図22Aに示す有価証券報告書ファイルのデータは、図22Bに示すようなXMLで記述されている。例えば、図22Aに示すファイルのテキスト文a1は、図22Bのα部分に対応する。
First, document data to be linked is input (step S2001). For example, the securities report file data as shown in FIG. 22A is read from the CD-ROM drive via the CD-
入力された文書データは、テキスト文やテーブルなどの各抽象化処理要素に分割される(ステップS2003)。具体的には、図22Bに示すXMLデータから、所定の開始タグと終了タグに囲まれた部分が抽出される。例えば、図23に示す表現形式対応表225のBusinessResultsおよびItemの欄には、表現形式(テキスト文またはテーブル)の列に抽象化処理の対象であることを示す記号「○」が入力されているため、これらの開始タグと終了タグに囲まれたα〜γ部分(図22Bに示す)がそれぞれ抽出される。なお、図23の表現形式対応表225において、「−」は抽象化処理要素として抽出しないことを示す。 The input document data is divided into each abstract processing element such as a text sentence and a table (step S2003). Specifically, a portion surrounded by a predetermined start tag and end tag is extracted from the XML data shown in FIG. 22B. For example, in the BusinessResults and Item fields of the representation format correspondence table 225 shown in FIG. 23, a symbol “◯” indicating that the subject is an abstraction process is entered in the column of the representation format (text sentence or table). Therefore, the α to γ portions (shown in FIG. 22B) surrounded by these start tags and end tags are extracted. In the expression format correspondence table 225 of FIG. 23, “-” indicates that the abstraction processing element is not extracted.
次に、図23に示す表現形式対応表225に基づいて、抽出した部分のコンテンツがテキスト文であるか、テーブルであるかが判断される(ステップS2005)。例えば、図23の表現形式対応表225から、図22のBusinessResultsタグであるα部分のコンテンツA1はテキスト文であると判断され、またItemタグであるβ部分およびγ部分のコンテンツB1〜B3およびコンテンツC1〜C3はテーブルであると判断される。 Next, based on the expression format correspondence table 225 shown in FIG. 23, it is determined whether the content of the extracted part is a text sentence or a table (step S2005). For example, from the expression format correspondence table 225 of FIG. 23, it is determined that the content A1 of the α portion that is the BusinessResults tag of FIG. 22 is a text sentence, and the content B1 to B3 and the content of the β portion and the γ portion that are the Item tag C1 to C3 are determined to be tables.
テキスト文またはテーブルであると判断された場合は、以下(i)(ii)に説明するように、その表現形式によって異なる方法で抽象化モデルデータの生成処理が行われる(ステップS2007、S2009)。 If it is determined that it is a text sentence or a table, as described in (i) and (ii) below, abstract model data generation processing is performed in a different manner depending on the expression format (steps S2007 and S2009).
(i)表現形式がテキスト文であると判断された場合、抽象化モデルデータ生成スクリプト223が、第1の実施形態において説明したテキスト文についての抽象化モデルデータ生成処理を行い、「数値情報データ=係り受け情報」となるデータを抽象化モデルデータとして抽出する(ステップS2007)。抽象化モデルデータ生成処理は、具体的には、図3のフローチャートにおけるステップS301〜S317に示す処理であり、かかる処理により数値情報データと係り受け関係にある文要素が抽出される。例えば、図22BのコンテンツAからは、抽象化モデルデータとして「売上高=8,191,752百万円」が抽出される。さらに、この抽象化モデルデータと共にその位置ID(例えば、図22に示す「br2003」A0)が抽象化モデルDB227に与えられる。
(I) When it is determined that the expression format is a text sentence, the abstract model
(ii)表現形式がテーブルであると判断された場合、テーブルについて予め定められた規則に基づいて、抽象化モデルデータが生成される(ステップS2009)。この実施形態では、テーブルと判断された各部分に属するコンテンツを組み合わせることにより、抽象化モデルデータとして「数値情報データ=係り受け情報」を満たすデータを生成するように規定している。例えば、図22Bに示すβ部分のコンテンツB1〜B3からは抽象化モデルデータとして「8,191,752百万円=売上高」、「100=売上高」が抽出され、γ部分のコンテンツC1〜C3からは抽象化モデルデータ「152,967百万円=営業利益」「1.9=営業利益」が抽出される。さらに、これらの抽象化モデルデータと共にその位置ID(例えば、β部分について「sales_2003」B0、γ部分について「ifo_2003」C0)が、抽象化モデルDB227に与えられる。
(Ii) When it is determined that the expression format is a table, abstract model data is generated based on a rule predetermined for the table (step S2009). In this embodiment, it is stipulated that data satisfying “numerical information data = dependency information” is generated as abstraction model data by combining contents belonging to each part determined as a table. For example, “8,191,752 million yen = sales” and “100 = sales” are extracted as abstract model data from the contents B1 to B3 of the β portion shown in FIG. 22B, and the contents C1 to C1 of the γ portion are extracted. From C3, abstract model data “152,967 million yen = operating profit” and “1.9 = operating profit” are extracted. Further, the position ID (for example, “sales_2003” B0 for the β portion and “ifo_2003” C0 for the γ portion) is given to the
抽象化モデルDB227では、抽象化モデルデータとその位置情報データを記録する(ステップS2011)。図24に、抽象化モデルDB227に記録されるデータの具体例を示す。
In the
つぎに、リンク設定プログラム221は、抽象化モデルDB227を検索することにより、抽象化モデルデータが同じものを全て選択し、各位置情報データのIDをリンク設定プログラム221に出力する(ステップS2013)。例えば、図24に示す同じ抽象化モデルデータが同じであるID「br2003」と「ifo_2003」がリンク設定プログラム221に与えられる。
Next, the
リンク設定プログラム221は、これら抽象化モデルデータの位置IDに基づいて、リンクを設定する(ステップS2015)。例えば、XLinkを用いて図22Bに示すα部分とβ部分の間に、ID「br2003」と「ifo_2003」に基づいてリンクが設定される。なお、XLinkとは、URIを使用することによりリンクを表現するリンク言語である。
The
これにより、図25に示すように、文書の閲覧中にテーブルの一部(斜線部X)がクリックされると、関連するテキスト文をポップアップウインドウYに表示するようなことが可能になる。 As a result, as shown in FIG. 25, when a part of the table (shaded portion X) is clicked while browsing a document, a related text sentence can be displayed in the pop-up window Y.
なお、図25において、ポップアップウィンドウYにテキスト文を表示する際(つまり、リンク先がテキスト文である場合)に、付加情報だけを抽出するようして「当連結会計年度」と「前連結会計年度に比べて2%だけ増加」の部分だけを表示することもできる。この付加情報を抽出する処理は、図17等に既述されている処理により実行できる。 In FIG. 25, when a text sentence is displayed in the pop-up window Y (that is, when the link destination is a text sentence), only “additional information” is extracted so that “current fiscal year” and “previous fiscal year” are displayed. Only the part of “increased by 2% compared to the year” can be displayed. The process of extracting the additional information can be executed by the process already described in FIG.
以上のように、数値情報データを含む文書から生成した抽象化モデルデータを利用して、文書データ中のテキスト文などの各部分についてリンクを簡単に設定することが可能になる。 As described above, using abstract model data generated from a document including numerical information data, it is possible to easily set a link for each part such as a text sentence in the document data.
なお、上記実施形態においては、テキスト文とテーブルの間にリンクを設定するようにしたが、テキスト文とイメージの間にリンクを設定するようにしてもよい。ただし、イメージについては、見出しなどの属性データに基づいて少なくとも抽象化モデルデータを生成できるようなデータ構造を有している必要がある。また、テキスト文同士にリンクを設定するようにしてもよい。 In the above embodiment, a link is set between the text sentence and the table, but a link may be set between the text sentence and the image. However, the image needs to have a data structure that can generate at least abstract model data based on attribute data such as headings. Moreover, you may make it set a link between text sentences.
なお、上記実施形態では抽象化モデルが2つの場合について説明したが、抽象化モデルが3以上見つかった場合には、それぞれの対象データについて1対多数のリンクを設定する。例えば、XLinkにより複数のリンク先を全て画面上に表示するように設定したり、複数のリンク先をリスト表示して、所望のリンク先を選択できるような機能をJAVA等の一般的な言語で記述してリンクを設定する。 In the above embodiment, a case where there are two abstract models has been described. However, when three or more abstract models are found, a one-to-many link is set for each target data. For example, it is possible to set a function to display a plurality of link destinations on the screen by using XLink, or display a list of a plurality of link destinations and select a desired link destination in a general language such as JAVA. Write and set the link.
なお、上記実施形態においては、XML文書(ファイル内容)に含まれるタグに表現形式の属性を付していないが、テキスト文、テーブルなどの表現形式の属性や抽象化処理要素であることを示す属性を予め付して記述しておくようにしてもよい。これにより、図23に示す表現形式対応表225がなくても、抽象化モデルデータの表現形式を判別したり、抽象化処理要素を抽出することが可能になる。 In the above embodiment, the expression format attribute is not attached to the tag included in the XML document (file contents), but it is an expression format attribute such as a text sentence or a table or an abstract processing element. Attributes may be added and described in advance. Accordingly, even if there is no representation format correspondence table 225 shown in FIG. 23, it is possible to determine the representation format of the abstract model data and extract the abstract processing element.
3.第3の実施形態[文書検索装置]
上記実施形態においては、数値情報データに基づいて生成した抽象化モデルデータをリンクを設定するために利用したが、文書検索装置において利用するようにしてもよい。上記第1の実施形態の抽象化モデル生成装置を利用して、数値情報データが含まれるテキスト文などの要素について文書ファイルの検索を行う装置について、以下に図26、図28を用いて説明する。なお、本実施形態では、文書データにテキスト文のみが含まれる場合について説明する。
3. Third Embodiment [Document Search Device]
In the above embodiment, the abstract model data generated based on the numerical information data is used for setting the link. However, the abstract model data may be used in the document search apparatus. An apparatus for searching a document file for an element such as a text sentence including numerical information data using the abstract model generation apparatus of the first embodiment will be described below with reference to FIGS. . In the present embodiment, a case where only text text is included in the document data will be described.
3−1.機能ブロック図
図26に、本実施形態にかかる文書検索装置の機能ブロック図を示す。この図において、本発明にかかる文献検索装置は、検索要素入力手段2501、抽象化モデルデータ抽出手段(テーブル)2503、抽象化モデル保持手段2505、抽象化モデル記録手段2507、抽象化モデル比較手段2509、検索結果出力手段2511を備えている。なお、抽象化モデル記録手段2507には、文書データ全体中の抽象化処理要素について、予め生成された各抽象化モデルデータが記録されている。
3-1. Functional Block Diagram FIG. 26 shows a functional block diagram of the document search apparatus according to this embodiment. In this figure, a document search apparatus according to the present invention includes a search element input means 2501, abstract model data extraction means (table) 2503, abstract model holding means 2505, abstract model recording means 2507, abstract model comparison means 2509. A search
検索要素入力手段に、検索要素(テキスト文)が抽象化処理要素毎に入力され、抽象化モデル生成手段(テキスト文)2503に与えられる。抽象化処理要素を受けた抽象化モデル生成手段(テキスト文)2503は、数値情報データと係り受け関係にある文要素を抽象化モデルデータとして抽出し、位置情報データと共に抽象化モデル保持手段2505に与える。なお、抽象化モデルデータの生成処理は、図3等の抽象化モデルデータ生成フローチャートに示す処理により行われる。 A search element (text sentence) is input to the search element input means for each abstract processing element, and is supplied to the abstract model generation means (text sentence) 2503. Upon receiving the abstraction processing element, the abstraction model generation means (text sentence) 2503 extracts the sentence element having a dependency relation with the numerical information data as abstraction model data, and stores it in the abstraction model holding means 2505 together with the position information data. give. The generation process of the abstract model data is performed by the process shown in the abstract model data generation flowchart of FIG.
抽象化モデル比較手段2509は、抽象化モデル記録手段2507を検索し、予め文書データ全体から生成しておいた抽象化モデルデータと、抽象化モデル生成手段(テキスト文)2503から受けた検索対象の抽象化モデルデータとを比較することにより、同じ抽象化モデルデータの位置情報データを取得して検索結果出力手段2511に提供する。
The abstract
検索結果出力手段2511は、当該位置情報データに基づいて、抽象化モデルデータが同じ抽象化処理要素を検索結果として出力する。
The search
3−2.ハードウェア構成
図26に示す文書検索装置をCPUを用いて実現したハードウェア構成の一例を、図27に示す。図27に示す文書検索装置は、ディスプレイ201、CPU203、メモリ205、キーボード/マウス207、ハードディスク209、CD−ROMドライブ211および通信回路215を備えている。
3-2. Hardware Configuration FIG. 27 shows an example of a hardware configuration in which the document search apparatus shown in FIG. 26 is realized using a CPU. 27 includes a
ハードディスク209には、文書検索プログラム231が記録されている。文書検索プログラム231は、数値情報データを含むテキスト文について抽象化モデルデータ生成処理(図3に示す)を行うための抽象化モデルデータ生成スクリプト223、および生成した抽象化モデルデータを記録するための抽象化モデルDB227を備えている。なお、この実施形態では、文書データにテキスト文だけが含まれることとしたので、抽象化処理要素の表現形式(テキスト文、テーブルなど)を判別するための表現形式対応表225(図20)は備えていないが、複数の表現形式がテキスト文データに存在する場合には備えるようにしてもよい。
A
これらのプログラム等は、CD−ROMドライブ211を介してCD−ROM212に記録されたデータを読み出してインストールしたものである。なお、上記インストールは、通信回路215を用いてインターネット216等からダウンロードしたデータを使用して行うようにしてもよい。
These programs and the like are installed by reading data recorded on the CD-
3−3.文書検索処理の具体例
図28に示すフローチャートを用いて、文書データから生成した抽象化モデルデータを利用してファイル検索を行う処理について説明する。なお、説明を簡単にするため、以下の例で検索対象となるXML形式のファイル(XMLファイル)には、テキスト文だけが含まれているものとするが、テーブルなどが含まれる場合でも実施できる。
3-3. Specific Example of Document Search Processing A file search processing using abstract model data generated from document data will be described using the flowchart shown in FIG. In order to simplify the explanation, it is assumed that the XML format file (XML file) to be searched in the following example includes only a text sentence. However, the present invention can be implemented even when a table or the like is included. .
文書検索処理を行う前に、抽象化モデルDB227には、検索しようとする文書データ全体について、抽象化モデルデータが全て記録されている。抽象化モデルDB227への記録のタイミングは、リアルタイムでもよく、文書検証時でもよい。具体的には、図3に示すステップS301〜S317と同じ処理により、検索対象となる文書データ(例えば、図22に示すXMLファイル)についての抽象化モデルデータが生成され、予め記録されている。
Before performing the document search process, the
まず、検索したいテキスト文の入力を受ける(ステップS2601)。さらに、検索開始入力(検索ボタンの押下など)を受けて、入力されたテキスト文のXMLデータが抽象化モデルデータ生成スクリプト223に出力される(ステップS2603)。 First, an input of a text sentence to be searched is received (step S2601). Further, in response to a search start input (such as pressing a search button), XML data of the input text sentence is output to the abstract model data generation script 223 (step S2603).
抽象化モデルデータ生成スクリプト223は、入力を受けたテキスト文から抽象化モデルデータを抽出し、抽象化モデルデータとその位置IDをメモリ205に出力する(ステップS2605)。メモリ205には、抽象化モデルデータとその位置IDが保持される(ステップS2607)。
The abstract model
文書検索プログラム231は、文書データから抽象化モデルデータを抽出して記録した抽象化モデルDB227を検索し、メモリ205から読み出した抽象化モデルデータと比較することにより、抽象化モデルデータが同じデータのIDを抽出する(ステップS2609)。
The
文書検索プログラムは、これら抽象化モデルデータのIDに対応するテキスト文を検索結果として表示する(ステップS2611)。例えば、検索結果として特定された部分についてハイライト表示を行う。 The document search program displays a text sentence corresponding to the ID of the abstract model data as a search result (step S2611). For example, the highlighting is performed for the part specified as the search result.
以上のように、検索の対象となる大量の文書から抽象化モデルデータを生成し、それらを入力テキスト文などから生成した抽象化モデルデータと比較することで、単純なマッチングとは異なる文書検索装置を実現することができる。 As described above, by generating abstract model data from a large amount of documents to be searched and comparing them with abstract model data generated from input text sentences, etc., a document search device that differs from simple matching Can be realized.
なお、上記実施形態においては、予め文書全体について抽象化モデルデータを生成し抽象化モデルDB227に記録しておくようにしたが、検索処理時にその都度抽出するようにしてもよい。
In the above embodiment, the abstract model data is generated in advance for the entire document and recorded in the
なお、上記実施形態においては、テキスト文のみが含まれる文書データを検索対象としたが、テーブルやイメージなどを含む文書データを検索するようにしてもよい。 In the above-described embodiment, document data including only a text sentence is set as a search target. However, document data including a table or an image may be searched.
4.第4の実施形態[検証機能付き文書編集装置]
また、前述の数値情報データに基づいて生成した抽象化モデルデータを、文書編集プログラムにおける検証装置として利用するようにしてもよい。上記第1の実施形態の抽象化モデル生成装置を利用して、数値情報データが含まれるテキスト文などの要素について文書の検証を行う装置について、以下に図29、図31を用いて説明する。なお、本実施形態では、文書データにテキスト文のみが含まれる場合について説明する。
4). Fourth Embodiment [Document Editing Device with Verification Function]
Further, the abstract model data generated based on the numerical information data described above may be used as a verification device in the document editing program. An apparatus for verifying a document for an element such as a text sentence including numerical information data using the abstract model generation apparatus according to the first embodiment will be described below with reference to FIGS. 29 and 31. FIG. In the present embodiment, a case where only text text is included in the document data will be described.
4−1.機能ブロック図
図29に、本実施形態にかかる文書入力検証装置の機能ブロック図を示す。この図において、本発明にかかる文書入力検証装置は、検証要素入力手段2701、要素抽出手段2702、抽象化モデル生成手段(テキスト文)2703、抽象化モデル保持手段2705、抽象化モデル記録手段2707、抽象化モデル判別手段2709、入力エラー出力手段2711を備えている。なお、抽象化モデル記録手段2707には、常に、文書編集装置に入力される文書データについて抽象化モデルデータが生成され蓄積されている。
4-1. Functional Block Diagram FIG. 29 is a functional block diagram of the document input verification apparatus according to this embodiment. In this figure, a document input verification apparatus according to the present invention includes verification element input means 2701, element extraction means 2702, abstract model generation means (text sentence) 2703, abstract model holding means 2705, abstract model recording means 2707, An abstract
検証要素入力手段2701は、ワープロ・エディタなどの文書編集装置から文書データ(テキスト文)の入力を受けており、これを要素抽出手段2703に与えている。要素抽出手段2703は、入力された文書データから抽象化処理要素を抽出する。抽象化モデル生成手段(テキスト文)2703は、抽象化処理要素を数値情報データと係り受け関係にある文要素を抽象化モデルデータとして抽出し、位置情報データと共に抽象化モデル保持手段2705に与える。なお、抽象化モデルデータの生成処理は、図3等の抽象化モデルデータ生成フローチャートに示す処理により行われる。
The verification
抽象化モデル判別手段2709は抽象化モデル記録手段2707を検索し、抽象化モデル保持手段2705から受けた抽象化モデルデータと係り受け情報が同じで、かつ、数値情報データが異なる抽象化モデルデータを持つ抽象化処理要素があるか否かを判別し、その判別結果を入力エラー出力手段2711に与える。 The abstract model discriminating means 2709 searches the abstract model recording means 2707 and extracts abstract model data having the same dependency information and different numerical information data from the abstract model data received from the abstract model holding means 2705. It is determined whether or not there is an abstraction processing element to have, and the determination result is given to the input error output means 2711.
入力エラー出力手段2711は、抽象化モデル判別手段2709から取得した判別結果に基づいて、文書編集装置に入力エラー情報を出力する。
The input
4−2.ハードウェア構成
図29に示す文書入力検証装置をCPUを用いて実現したハードウェア構成の一例を、図30に示す。図30に示す文書入力検証装置は、ディスプレイ201、CPU203、メモリ205、キーボード/マウス207、ハードディスク209、CD−ROMドライブ211および通信回路215を備えている。
4-2. Hardware Configuration FIG. 30 shows an example of a hardware configuration in which the document input verification apparatus shown in FIG. 29 is realized using a CPU. The document input verification apparatus shown in FIG. 30 includes a
ハードディスク209には、文書編集アプリケーション241と文書検証プログラム243が記録されている。文書検証プログラム231は、文書検証アプリケーション241からテキスト文データの入力を受け、その検証結果を出力する機能を有している。図30に示すように、文書検証プログラム231には、数値情報データを含むテキスト文について抽象化モデルデータ生成処理(図3に示す)を行うための抽象化モデルデータ生成スクリプト223、および生成した抽象化モデルデータを記録するための抽象化モデルDB227を備えている。なお、この実施形態では、文書データにテキスト文だけが含まれることとしたので、抽象化処理要素の表現形式(テキスト文、テーブルなど)を判別するための表現形式対応表225(図20)は備えていないが、複数の表現形式がテキスト文データに存在する場合には備えるようにしてもよい。
A
これらのプログラム等は、CD−ROMドライブ211を介してCD−ROM212に記録されたデータを読み出してインストールしたものである。なお、上記インストールは、通信回路215を用いてインターネット216等からダウンロードしたデータを使用して行うようにしてもよい。
These programs and the like are installed by reading data recorded on the CD-
4−3.文書検証処理の具体例
図31に示すフローチャートを用いて、文書の編集中に数値情報データを誤って入力した場合に、入力エラーを出力する処理について説明する。なお、説明を簡単にするため、以下の例で検証対象となるXML形式のファイル(XMLファイル)には、テキスト文だけが含まれているものとするが、テーブルなどが含まれる場合でも実施できる。
4-3. Specific examples of document verification processing
A process for outputting an input error when numerical information data is erroneously input while editing a document will be described using the flowchart shown in FIG. In order to simplify the explanation, it is assumed that the XML format file (XML file) to be verified in the following example includes only a text sentence. However, the present invention can be implemented even when a table or the like is included. .
文書検証処理を行う前に、抽象化モデルDB227には、文書編集装置に入力されている文書データについて、抽象化モデルデータが全て記録されている。抽象化モデルDB227への記録のタイミングは、リアルタイムでもよく、文書検証時でもよい。具体的には、図3に示すステップS301〜S317と同じ処理により、検索対象となる文書データ(例えば、図22に示すXMLファイル)についての抽象化モデルデータが生成され、常に更新されている。
Before performing the document verification process, the
まず、XML文書編集用のワープロなどの文書編集装置から入力される情報を取得する(ステップS2801)。さらに、検証開始入力(検索ボタンの押下など)を受けて、入力されたテキスト文群から抽象化処理要素が抽出され、抽象化モデルデータ生成スクリプト223に出力される(ステップS2803)。 First, information input from a document editing apparatus such as an XML document editing word processor is acquired (step S2801). Further, upon receiving a verification start input (such as pressing a search button), an abstract processing element is extracted from the input text sentence group and output to the abstract model data generation script 223 (step S2803).
抽象化モデルデータ生成スクリプト223は、入力を受けた抽象化処理要素から抽象化モデルデータを抽出し、抽象化モデルデータとその位置IDをメモリ205に出力する(ステップS2805)。メモリ205には、抽象化モデルデータとその位置IDが保持される(ステップS2807)。
The abstract model
抽象化モデルデータ判別プログラム241は、抽象化モデルDB227を検索することにより、メモリ205から読み出した抽象化モデルデータと係り受け情報が同じで、かつ、数値情報データが異なる抽象化モデルデータ(類似抽象化モデルデータ)があるか否かを判別し、その結果を文書検証プログラム241に出力する(ステップS2809)。
The abstract model
類似抽象化モデルデータがある場合には、文書検証プログラム241は、文書編集装置に入力絵エラー情報を出力する(ステップS2811)。これにより、例えば、ワープロなどの画面に誤入力であることを喚起する警告ウィンドウの表示が行われる。なお、類似抽象化モデルデータがあると判別した際に、抽象化モデルDB227から位置IDや数値情報データを取得しておけば、該当箇所や訂正すべき数値を同時に表示することも可能である。
If there is similar abstraction model data, the
以上のように、文書編集装置既に入力した文書の内容から抽象化モデルデータを生成して文書検証に利用することにより、数値情報データの誤入力を容易に認識することが可能になる。 As described above, it is possible to easily recognize erroneous input of numerical information data by generating abstract model data from the contents of a document already input and using it for document verification.
なお、上記実施形態においては、予め文書全体について抽象化モデルデータを抽出し、抽象化モデルDB227に記録するようにしたが、検索実行時に既に入力した文書から抽出するようにしてもよい。
In the above embodiment, the abstract model data is extracted in advance for the entire document and recorded in the
なお、上記実施形態においては、テキスト文のみが含まれる文書データを検証対象としたが、テーブルやイメージのような他の要素を含む文書データを検証するようにしてもよい。 In the above embodiment, document data including only a text sentence is set as a verification target. However, document data including other elements such as a table or an image may be verified.
5.その他の実施形態
なお、上記実施形態においては、文書ファイル含まれるテキスト文の言語が複数あるような場合でも、その言語にあった処理方法で抽象化モデルデータを生成し、係り受け情報を辞書などを用いて翻訳すれば、抽象化モデルデータの言語を統一することが可能である。
5). Other Embodiments In the above embodiment, even when there are a plurality of languages of text sentences included in the document file, abstract model data is generated by a processing method suitable for the language, and dependency information is stored in a dictionary or the like. It is possible to unify the language of the abstract model data by translating using.
なお、上記実施形態においては、抽象化処理要素を行う文書としてXML形式のファイルを用いるようにしたが、HTML形式のファイルなどその他の形式のファイルを用いてもよい。 In the above-described embodiment, an XML format file is used as a document for performing an abstraction processing element. However, other format files such as an HTML format file may be used.
上記実施形態においては、CPU203を用い、ソフトウェアによって処理を実現している。しかし、その一部もしくは全てを、ロジック回路等のハードウェアによって実現してもよい。なお、プログラムの一部の処理をさらに、オペレーティングシステム(OS)にさせるようにしてもよい。
In the above embodiment, the
101・・・・切出手段
103・・・・数値情報データ抽出手段
105・・・・テキスト文分割手段
106・・・・抽出対象文決定手段
107・・・・係り受け情報抽出手段
108・・・・付加情報抽出手段
109・・・・抽象化モデル出力手段
101 ... Extraction means 103 ... Numerical information data extraction means 105 ... Text sentence division means 106 ... Extraction target sentence determination means 107 ... Dependency information extraction means 108 ... ..Additional information extraction means 109... Abstraction model output means
Claims (16)
与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析手段と、
記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出手段と、
数値情報抽出手段が抽出した数値情報データ、係り受け情報抽出手段が抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に記録する抽象化モデル記録手段と、
記録部に記録された複数の抽象化モデルデータのうち、同じ数値情報データおよび同じ係り受け情報データを有する抽象化モデルデータを選択する抽象化モデル選択手段、
前記選択された抽象化モデルデータの位置情報データに基づいて、前記抽象化モデルデータの対象データ間にリンクを設定するリンク設定手段、
を備えたことを特徴とするリンク設定装置。 A link setting device for setting a link between target data including related sentence element data in document data,
The text data in the given document data is divided into a plurality of text element data, the type of each text element is determined and recorded in the recording unit, and the numerical text data is included in the given text text data And if included, an extraction / analysis means for specifying numerical information data and recording it in the recording unit, and
Referring to the recording unit, the sentence element data including the numerical information data is identified, and at least one sentence element data having a dependency relation with the numerical information data is determined based on the type of the sentence element data. Dependency information extracting means for extracting dependency information data from the sentence element data,
Abstract model recording that records the numerical information data extracted by the numerical information extraction means and the dependency information data extracted by the dependency information extraction means as abstract model data together with position data indicating the position in the document data in the recording unit Means,
Abstraction model selection means for selecting abstract model data having the same numerical information data and the same dependency information data among a plurality of abstract model data recorded in the recording unit;
Link setting means for setting a link between target data of the abstraction model data based on the position information data of the selected abstraction model data;
A link setting device comprising:
A)与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析手段、
B)記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出手段、
C)数値情報抽出手段が抽出した数値情報データ、係り受け情報抽出手段が抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に記録する抽象化モデル記録手段、
D)記録部に記録された複数の抽象化モデルデータのうち、同じ数値情報データおよび同じ係り受け情報データを有する抽象化モデルデータを選択する抽象化モデル選択手段、
E)前記選択された抽象化モデルデータの位置情報データに基づいて、前記抽象化モデルデータの対象データ間にリンクを設定するリンク設定手段。 A program for realizing, using a computer, a link setting device for setting a link between target data including related sentence element data in document data, the computer comprising the following means: :
A) The text sentence data in the given document data is divided into a plurality of sentence element data, the type of each sentence element is determined and recorded in the recording unit, and the numerical information data is included in the given text sentence data. Determining whether or not to include, if included, extraction / analysis means for identifying numerical information data and recording it in the recording unit;
B) Referring to the recording unit, the sentence element data including the numerical information data is specified, and at least one sentence element data having a dependency relationship with the numerical information data is determined based on the type of the sentence element data. Dependency information extraction means for extracting dependency information data from the determined sentence element data;
C) Abstraction in which the numerical information data extracted by the numerical information extraction means and the dependency information data extracted by the dependency information extraction means are recorded as abstract model data in the recording unit together with position data indicating the position in the document data. Model recording means,
D) Abstract model selection means for selecting abstract model data having the same numerical information data and the same dependency information data from among a plurality of abstract model data recorded in the recording unit;
E) Link setting means for setting a link between target data of the abstraction model data based on the position information data of the selected abstraction model data.
前記リンク設定手段が、リンク先の対象データがテキスト文である場合に、当該リンク先のテキスト文から付加情報だけを抽出するようにリンクを設定する、ことを特徴とするもの。 In the link setting device or the link setting program according to claim 1 or 2,
The link setting unit sets a link so that only additional information is extracted from the text text of the link destination when the target data of the link destination is a text sentence.
与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析手段と、
記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出手段と、
数値情報抽出手段が抽出した数値情報データ、係り受け情報抽出手段が抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に保持する抽象化モデル保持手段、
文書データから抽象化モデルデータを生成し記録した抽象化モデル記録手段を検索し、抽象化モデル保持手段から受けた抽象化モデルデータと比較することにより、同じ数値情報データおよび同じ係り受け情報データを有する抽象化モデルデータの位置情報データだけを抽出する抽象化モデル比較手段、
前記抽出された抽象化モデルデータの位置情報データに基づいて、抽象化モデルデータが同じ対象データを検索結果として表示する検索結果表示手段、
を備えたことを特徴とする文書検索装置。 A document search device that searches document data based on target data that is a search element,
The text data in the given document data is divided into a plurality of text element data, the type of each text element is determined and recorded in the recording unit, and the numerical text data is included in the given text text data And if included, an extraction / analysis means for specifying numerical information data and recording it in the recording unit, and
Referring to the recording unit, the sentence element data including the numerical information data is identified, and at least one sentence element data having a dependency relation with the numerical information data is determined based on the type of the sentence element data. Dependency information extracting means for extracting dependency information data from the sentence element data,
Abstract model holding that holds the numerical information data extracted by the numerical information extraction means and the dependency information data extracted by the dependency information extraction means as abstract model data together with the position data indicating the position in the document data. means,
By retrieving the abstract model recording means that generated and recorded the abstract model data from the document data and comparing it with the abstract model data received from the abstract model holding means, the same numerical information data and the same dependency information data are obtained. Abstraction model comparison means for extracting only position information data of abstraction model data having,
Search result display means for displaying, as search results, target data having the same abstract model data, based on the positional information data of the extracted abstract model data;
A document retrieval apparatus comprising:
A)与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析手段、
B)記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出手段、
C)数値情報抽出手段が抽出した数値情報データ、係り受け情報抽出手段が抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に保持する抽象化モデル保持手段、
D)文書データから抽象化モデルデータを生成し記録した抽象化モデル記録手段を検索し、抽象化モデル保持手段から受けた抽象化モデルデータと比較することにより、同じ数値情報データおよび同じ係り受け情報データを有する抽象化モデルデータの位置情報データだけを抽出する抽象化モデル比較手段、
E)前記抽出された抽象化モデルデータの位置情報データに基づいて、抽象化モデルデータが同じ対象データを検索結果として表示する検索結果表示手段。 A program for realizing, using a computer, a document search apparatus that searches for document data based on target data that is a search element, the computer having the following means:
A) The text sentence data in the given document data is divided into a plurality of sentence element data, the type of each sentence element is determined and recorded in the recording unit, and the numerical information data is included in the given text sentence data. Determining whether or not to include, if included, extraction / analysis means for identifying numerical information data and recording it in the recording unit;
B) Referring to the recording unit, the sentence element data including the numerical information data is specified, and at least one sentence element data having a dependency relationship with the numerical information data is determined based on the type of the sentence element data. Dependency information extraction means for extracting dependency information data from the determined sentence element data;
C) Abstraction in which numerical information data extracted by the numerical information extraction unit and dependency information data extracted by the dependency information extraction unit are stored as abstract model data in the recording unit together with position data indicating a position in the document data Model holding means,
D) The same numerical information data and the same dependency information are obtained by searching the abstract model recording means for generating and recording the abstract model data from the document data and comparing it with the abstract model data received from the abstract model holding means. Abstraction model comparison means for extracting only position information data of abstraction model data having data;
E) Search result display means for displaying target data having the same abstract model data as a search result based on the extracted position information data of the abstract model data.
前記抽象化モデル記録手段には、予め検索対象となる文書データ全体について、検索前に抽象化モデルデータ生成されて記録されていることを特徴とするもの。 In the document search device or document search program according to any one of claims 4 and 5,
In the abstract model recording means, the abstract model data is generated and recorded before searching for the entire document data to be searched.
文書編集装置から与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析手段と、
記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出手段と、
数値情報抽出手段が抽出した数値情報データ、係り受け情報抽出手段が抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に保持する抽象化モデル保持手段、
文書データから抽象化モデルデータを生成し記録した抽象化モデル記録手段を検索し、抽象化モデル保持手段から受けた抽象化モデルデータと係り受け情報が同じで、かつ、数値情報データが異なる抽象化モデルデータがあるか否かを判別する抽象化モデル判別手段、
前記抽象化モデル判別手段から取得した判別結果に基づいて、入力エラー情報を文書編集装置に出力する入力エラー出力手段、
を備えたことを特徴とする文書入力検証装置。 A document input verification device for verifying document data input from a document editing device based on target data of a verification element,
The text data in the document data given from the document editing device is divided into a plurality of text element data, the type of each text element is determined and recorded in the recording unit, and numerical information is included in the given text text data. It is determined whether or not data is included, and if included, extraction / analysis means for identifying numerical information data and recording it in a recording unit,
Referring to the recording unit, the sentence element data including the numerical information data is identified, and at least one sentence element data having a dependency relation with the numerical information data is determined based on the type of the sentence element data. Dependency information extracting means for extracting dependency information data from the sentence element data,
Abstract model holding that holds the numerical information data extracted by the numerical information extraction means and the dependency information data extracted by the dependency information extraction means as abstract model data together with the position data indicating the position in the document data. means,
Abstraction model recording means that generates and records abstract model data from document data is retrieved, and the abstraction model data received from the abstract model holding means is the same as the dependency model, and the numerical information data is different. Abstraction model discrimination means for discriminating whether there is model data;
An input error output means for outputting input error information to the document editing device based on the determination result obtained from the abstract model determination means;
A document input verification device comprising:
A)文書編集装置から与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析手段、
B)記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出手段、
C)数値情報抽出手段が抽出した数値情報データ、係り受け情報抽出手段が抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に保持する抽象化モデル保持手段、
D)文書データから抽象化モデルデータを生成し記録した抽象化モデル記録手段を検索し、抽象化モデル保持手段から受けた抽象化モデルデータと係り受け情報が同じで、かつ、数値情報データが異なる抽象化モデルデータがあるか否かを判別する抽象化モデル判別手段、
E)前記抽象化モデル判別手段から取得した判別結果に基づいて、入力エラー情報を文書編集装置に出力する入力エラー出力手段。 A program for realizing, using a computer, a document input verification device for verifying document data input from a document editing device based on target data of a verification element, and comprising the following means on a computer Program to:
A) The text sentence data in the document data given from the document editing device is divided into a plurality of sentence element data, the type of each sentence element is determined and recorded in the recording unit, and the given text sentence data is included in the given text sentence data It is determined whether or not numerical information data is included, and if included, extraction / analysis means for specifying the numerical information data and recording it in the recording unit,
B) Referring to the recording unit, the sentence element data including the numerical information data is specified, and at least one sentence element data having a dependency relationship with the numerical information data is determined based on the type of the sentence element data. Dependency information extraction means for extracting dependency information data from the determined sentence element data;
C) Abstraction in which numerical information data extracted by the numerical information extraction unit and dependency information data extracted by the dependency information extraction unit are stored as abstract model data in the recording unit together with position data indicating a position in the document data Model holding means,
D) The abstract model recording means that generates and records the abstract model data from the document data is searched, the dependency model information is the same as the abstract model data received from the abstract model holding means, and the numerical information data is different. Abstraction model discrimination means for discriminating whether or not there is abstraction model data;
E) Input error output means for outputting input error information to the document editing apparatus based on the determination result acquired from the abstract model determination means.
抽象化モデル記録手段の抽象化モデルデータは、検証要素入力手段からの入力に基づいて随時生成され、常に更新されていることを特徴とするもの。 In the document input verification device according to claim 7 or 8,
The abstract model data of the abstract model recording means is generated as needed based on the input from the verification element input means, and is always updated.
抽象化モデルデータを抽出する前に、前記処理対象要素の表現形式を判断する表現形式判別手段、
対象データの表現形式がテキスト文である場合には、前記処理対象要素から、数値情報データと係り受け関係にある文要素を抽象化モデルデータとして、その位置情報データと共に抽出する抽象化モデル生成手段、
対象データの表現形式が他の要素である場合には、所定の規則に基づいて抽象化モデルデータを生成し、これらを位置情報データと共に抽象化モデル記録手段に与える抽象化モデル生成手段、
を備えたことを特徴とするもの。 The apparatus or program according to any one of claims 1 to 9, wherein the document data includes an element to be processed other than text sentence data,
Before extracting the abstraction model data, an expression format determination means for determining the expression format of the processing target element;
When the representation format of the target data is a text sentence, abstract model generation means for extracting, from the processing target element, a sentence element having a dependency relationship with the numerical information data as abstract model data together with the position information data ,
When the representation format of the target data is another element, an abstract model generation unit that generates abstract model data based on a predetermined rule and supplies them to the abstract model recording unit together with the position information data,
Characterized by comprising.
前記文書データに含まれるテキスト文の言語が複数ある場合に、翻訳辞書を参照することにより、抽象化モデルデータを同じ言語に統一する抽象化モデル翻訳手段を備えた、ことを特徴とするもの The apparatus or program according to any one of claims 1 to 12, further comprising:
An abstract model translation means for unifying the abstract model data into the same language by referring to a translation dictionary when there are a plurality of languages of text sentences included in the document data is provided.
与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析ステップと、
記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出ステップと、
数値情報抽出ステップにおいて抽出した数値情報データ、係り受け情報抽出ステップにおいて抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に記録する抽象化モデルデータ記録ステップと、
記録部に記録された複数の抽象化モデルデータのうち、同じ数値情報データおよび同じ係り受け情報データを有する抽象化モデルデータを選択する抽象化モデルデータ選択ステップ、
前記選択された抽象化モデルデータの位置情報データに基づいて、前記抽象化モデルデータの対象データ間にリンクを設定するリンク設定ステップ、
を備えたことを特徴とするリンク設定方法。 A link setting method for setting a link between target data including related sentence element data in document data,
The text data in the given document data is divided into a plurality of text element data, the type of each text element is determined and recorded in the recording unit, and the numerical text data is included in the given text text data And if included, an extraction / analysis step for identifying numerical information data and recording it in the recording unit, and
Referring to the recording unit, the sentence element data including the numerical information data is identified, and at least one sentence element data having a dependency relation with the numerical information data is determined based on the type of the sentence element data. A dependency information extraction step of extracting dependency information data from the sentence element data,
Abstraction model data that is recorded in the recording unit together with position data indicating the position in the document data, using the numerical information data extracted in the numerical information extraction step and the dependency information data extracted in the dependency information extraction step as abstract model data Recording step;
An abstract model data selection step for selecting abstract model data having the same numerical information data and the same dependency information data from among a plurality of abstract model data recorded in the recording unit;
A link setting step for setting a link between target data of the abstraction model data based on the positional information data of the selected abstraction model data;
A link setting method characterized by comprising:
与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析ステップと、
記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出ステップと、
数値情報抽出ステップにおいて抽出した数値情報データ、係り受け情報抽出ステップにおいて抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に保持する抽象化モデルデータ保持ステップ、
文書データから抽象化モデルデータを生成し記録した抽象化モデル記録手段を検索し、抽象化モデルデータ保持ステップで保持した抽象化モデルデータと比較することにより、同じ数値情報データおよび同じ係り受け情報データを有する抽象化モデルデータの位置情報データだけを抽出する抽象化モデルデータ比較ステップ、
前記抽出された抽象化モデルデータの位置情報データに基づいて、抽象化モデルデータが同じ対象データを検索結果として表示する検索結果表示ステップ、
を備えたことを特徴とする文書検索方法。 A document search method for searching document data based on target data that is a search element,
The text data in the given document data is divided into a plurality of text element data, the type of each text element is determined and recorded in the recording unit, and the numerical text data is included in the given text text data And if included, an extraction / analysis step for identifying numerical information data and recording it in the recording unit, and
Referring to the recording unit, the sentence element data including the numerical information data is identified, and at least one sentence element data having a dependency relation with the numerical information data is determined based on the type of the sentence element data. A dependency information extraction step of extracting dependency information data from the sentence element data,
Abstraction model data that is stored in the recording unit together with position data indicating the position in the document data, using the numerical information data extracted in the numerical information extraction step and the dependency information data extracted in the dependency information extraction step as abstract model data Holding step,
The same numerical information data and the same dependency information data are obtained by searching the abstract model recording means that has generated and recorded the abstract model data from the document data and comparing it with the abstract model data held in the abstract model data holding step. Abstraction model data comparison step for extracting only position information data of abstraction model data having
A search result display step for displaying, as search results, target data having the same abstract model data, based on the positional information data of the extracted abstract model data;
A document search method characterized by comprising:
文書編集装置から与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析ステップと、
記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出ステップと、
数値情報抽出ステップにおいて抽出した数値情報データ、係り受け情報抽出ステップにおいて抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に保持する抽象化モデルデータ保持ステップ、
文書データから抽象化モデルデータを生成し記録した抽象化モデル記録手段を検索し、抽象化モデルデータ保持ステップで保持した抽象化モデルデータと係り受け情報が同じで、かつ、数値情報データが異なる抽象化モデルデータがあるか否かを判別する抽象化モデルデータ判別ステップ、
前記抽象化モデルデータ判別ステップで取得した判別結果に基づいて、入力エラー情報を文書編集装置に出力する入力エラー出力ステップ、
を備えたことを特徴とする文書入力検証方法。
A document input verification method for verifying document data input from a document editing device based on target data of a verification element,
The text data in the document data given from the document editing device is divided into a plurality of text element data, the type of each text element is determined and recorded in the recording unit, and numerical information is included in the given text text data. It is determined whether or not the data is included, and if included, the extraction / analysis step for identifying the numerical information data and recording it in the recording unit,
Referring to the recording unit, the sentence element data including the numerical information data is identified, and at least one sentence element data having a dependency relation with the numerical information data is determined based on the type of the sentence element data. A dependency information extraction step of extracting dependency information data from the sentence element data,
Abstraction model data that is stored in the recording unit together with position data indicating the position in the document data, using the numerical information data extracted in the numerical information extraction step and the dependency information data extracted in the dependency information extraction step as abstract model data Holding step,
Abstraction model recording means that generated and recorded abstraction model data from document data is retrieved, and the abstraction model data held in the abstraction model data holding step has the same dependency information and different numerical information data Abstraction model data determination step for determining whether there is abstraction model data;
An input error output step for outputting input error information to the document editing device based on the determination result obtained in the abstraction model data determination step;
A document input verification method characterized by comprising:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003397196A JP4397221B2 (en) | 2003-11-27 | 2003-11-27 | Link setting device and information using information extracted from text sentence |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003397196A JP4397221B2 (en) | 2003-11-27 | 2003-11-27 | Link setting device and information using information extracted from text sentence |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2005157853A JP2005157853A (en) | 2005-06-16 |
| JP4397221B2 true JP4397221B2 (en) | 2010-01-13 |
Family
ID=34722411
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2003397196A Expired - Fee Related JP4397221B2 (en) | 2003-11-27 | 2003-11-27 | Link setting device and information using information extracted from text sentence |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4397221B2 (en) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8073798B2 (en) * | 2007-05-24 | 2011-12-06 | Palo Alto Research Center Incorporated | Dynamic domain abstraction through meta-analysis |
| CN115238217B (en) * | 2022-09-23 | 2022-12-20 | 山东省齐鲁大数据研究院 | Method for extracting numerical information from bulletin text and terminal |
| JP2025180839A (en) * | 2024-05-30 | 2025-12-11 | 株式会社調和技研 | Information processing device, information processing method, and program |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH08329165A (en) * | 1995-05-31 | 1996-12-13 | Toshiba Corp | Text extraction processing device and text extraction processing method |
| JP2994336B1 (en) * | 1998-07-06 | 1999-12-27 | 株式会社ジャストシステム | Document analysis apparatus and method |
-
2003
- 2003-11-27 JP JP2003397196A patent/JP4397221B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2005157853A (en) | 2005-06-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR102158352B1 (en) | Providing method of key information in policy information document, Providing system of policy information, and computer program therefor | |
| McEnery et al. | Corpus linguistics: Method, theory and practice | |
| Rayson | Matrix: A statistical method and software tool for linguistic analysis through corpus comparison | |
| Atkins et al. | Corpus design criteria | |
| US7788084B2 (en) | Labeling of work of art titles in text for natural language processing | |
| JP2007287134A (en) | Information extraction apparatus and information extraction method | |
| US20070255694A1 (en) | Document-drafting system using document components | |
| US20090019362A1 (en) | Automatic Reusable Definitions Identification (Rdi) Method | |
| WO2008059111A2 (en) | Natural language processing | |
| Mosavi Miangah | FarsiSpell: A spell-checking system for Persian using a large monolingual corpus | |
| Gruszczyński et al. | The electronic corpus of 17th-and 18th-century Polish texts | |
| US20070179932A1 (en) | Method for finding data, research engine and microprocessor therefor | |
| Kazman | Structuring the text of the Oxford English Dictionary through finite state transduction | |
| JP4397221B2 (en) | Link setting device and information using information extracted from text sentence | |
| US20020129066A1 (en) | Computer implemented method for reformatting logically complex clauses in an electronic text-based document | |
| JP2004334382A (en) | Structured document summarizing apparatus, program, and recording medium | |
| JP4458517B2 (en) | Information extraction apparatus and method | |
| JP2000250908A (en) | Support device for production of electronic book | |
| KR101052004B1 (en) | Translation service provision method and system | |
| KR102390009B1 (en) | Ai-based syntax analysis research note system | |
| Krasselt et al. | A workbench for corpus linguistic discourse analysis | |
| Rundell et al. | Technology and English Dictionaries | |
| JP2006119697A (en) | Question answering system, question answering method, and question answering program | |
| JP2019200488A (en) | Natural language processing apparatus, search device, natural language processing method, search method and program | |
| Kuzgun et al. | From constituency to UD-style dependency: Building the first conversion tool of Turkish |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050331 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061114 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090924 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091020 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121030 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121030 Year of fee payment: 3 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121030 Year of fee payment: 3 |
|
| R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121030 Year of fee payment: 3 |
|
| R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
| R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121030 Year of fee payment: 3 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121030 Year of fee payment: 3 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| LAPS | Cancellation because of no payment of annual fees |