Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7621852B2 - Document information extraction system and document information extraction method - Google Patents
[go: Go Back, main page]

JP7621852B2 - Document information extraction system and document information extraction method - Google Patents

Document information extraction system and document information extraction method Download PDF

Info

Publication number
JP7621852B2
JP7621852B2 JP2021050108A JP2021050108A JP7621852B2 JP 7621852 B2 JP7621852 B2 JP 7621852B2 JP 2021050108 A JP2021050108 A JP 2021050108A JP 2021050108 A JP2021050108 A JP 2021050108A JP 7621852 B2 JP7621852 B2 JP 7621852B2
Authority
JP
Japan
Prior art keywords
feature
document
evaluation target
information extraction
extraction system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021050108A
Other languages
Japanese (ja)
Other versions
JP2022148430A (en
Inventor
絵理 照屋
理 竹内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2021050108A priority Critical patent/JP7621852B2/en
Priority to PCT/JP2021/029973 priority patent/WO2022201578A1/en
Publication of JP2022148430A publication Critical patent/JP2022148430A/en
Application granted granted Critical
Publication of JP7621852B2 publication Critical patent/JP7621852B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、文書情報抽出システム、および文書情報抽出方法に関する。 The present invention relates to a document information extraction system and a document information extraction method.

特許文献1には、入力データから抽出される複数の特徴量から、入力データの分類に用いる特徴量を選択する情報処理装置について記載されている。上記情報処理装置は、入力データから抽出される複数の特徴量の組み合わせを生成し、生成した組み合わせに対して、入力データの分類の判定に適しているか否かを評価する第一評価値を算出し、特徴量の組み合わせを評価する第二評価値を算出する際に使用するパラメータを複数生成し、複数のパラメータごとに第一評価値に基づき第二評価値を算出し、複数のパラメータごとに第二評価値に基づいて特徴量を選択し特徴量のサブセットを生成して、特徴量の組み合わせの選択において特徴量の選択を行えるようにする。 Patent Document 1 describes an information processing device that selects a feature to be used for classifying input data from a plurality of feature values extracted from the input data. The information processing device generates a combination of a plurality of feature values extracted from the input data, calculates a first evaluation value for evaluating whether the generated combination is suitable for determining the classification of the input data, generates a plurality of parameters to be used when calculating a second evaluation value for evaluating the combination of feature values, calculates a second evaluation value based on the first evaluation value for each of the plurality of parameters, selects a feature based on the second evaluation value for each of the plurality of parameters, generates a subset of the feature values, and enables selection of the feature when selecting a combination of feature values.

特許文献2には、音声認識や画像認識における特徴量の分類を行う特徴量分類システムに関して記載されている。特徴量分類システムは、与えられた特徴量を変換すると共に、教師データである正解クラスラベルを用いて特徴量変換を行うための識別基準の学習を行う特徴量変換器と、特徴量変換器で変換された変換特徴量を分類する分類器とを備え、特徴量変換器は、他の特徴量分類システムの分類器の誤り傾向を考慮すべく、上記学習に際して他の特徴量分類システムの分類器の事後確率を用い、他の特徴量変換器とは異なる特徴量変換を行う。 Patent Document 2 describes a feature classification system that classifies features in speech recognition and image recognition. The feature classification system includes a feature converter that converts given features and learns discrimination criteria for feature conversion using correct class labels, which are training data, and a classifier that classifies the converted features converted by the feature converter. In order to take into account the error tendency of classifiers in other feature classification systems, the feature converter uses the posterior probability of classifiers in other feature classification systems during the learning process and performs feature conversion different from that of other feature converters.

特開2017-10318号公報JP 2017-10318 A 国際公開第2016/021060号International Publication No. 2016/021060

膨大な文書の中から有用な情報を抽出する方法として、固有表現抽出等の機械学習の仕組みを用いて文書から単語や関連語を抽出する技術がある。しかし機械学習の仕組みによって質の高い情報を抽出するには、モデルの特徴量を適切に設定する必要がある。ここで文書からの情報の抽出に用いる特徴量とは、例えば、単語の最終語や単語の左右に出現する単語等の文の性質である。こうした特徴量の設定を適切に行うには、抽出対象となる情報についての知識(ドメイン知識)を有しているだけでなく、機械学習についての知識や経験も必要とされ、特徴量の設定にかかる人的負荷が高いことが課題となっている。 One method for extracting useful information from a huge amount of documents is to use machine learning mechanisms such as named entity extraction to extract words and related words from documents. However, to extract high-quality information using machine learning mechanisms, it is necessary to set the model's features appropriately. The features used to extract information from documents here are, for example, the properties of a sentence, such as the final word of a word or the words that appear to the left and right of a word. To set these features appropriately, not only is knowledge about the information to be extracted (domain knowledge), but knowledge and experience of machine learning are also required, and the high human burden involved in setting the features is an issue.

特許文献1には、入力データの分類に用いる特徴量を選択する技術に関して記載されている。しかし同文献に記載の技術は、検査対象物を撮影した画像から画素値の平均や分散等の特徴量群を抽出する技術に関するものであり、文書から有用な情報を抽出する技術に関するものではない。また、同文献では、入力データから抽出される複数の特徴量の組み合わせについて機械的な総当たり方式で特徴量を選択しており、抽出精度を得るために相当な数の学習データを準備する必要もある。 Patent Document 1 describes a technology for selecting features to be used in classifying input data. However, the technology described in this document is related to a technology for extracting a group of features, such as the average and variance of pixel values, from an image of an object to be inspected, and is not related to a technology for extracting useful information from a document. In addition, this document selects features from combinations of multiple features extracted from input data using a mechanical brute force method, and it is necessary to prepare a considerable amount of training data in order to achieve extraction accuracy.

特許文献2には、音声認識や画像認識における特徴量を分類する技術に関して記載されている。しかし同文献には、与えられた特徴量の分類に用いる分類器の調整に関する技術が記載されているに過ぎず、特徴量の設定に関する技術については記載されていない。 Patent Document 2 describes a technique for classifying features in speech recognition and image recognition. However, this document only describes a technique for adjusting a classifier used to classify given features, and does not describe a technique for setting the features.

本発明は、このような背景に鑑みてなされたものであり、機械学習の方法により文書から有用な情報を抽出する際に用いるモデルの特徴量の設定を支援する仕組みを備えた文書情報抽出システム、および文書情報抽出方法を提供することを目的とする。 The present invention has been made in view of the above background, and aims to provide a document information extraction system and a document information extraction method that are equipped with a mechanism for supporting the setting of model features used when extracting useful information from documents using machine learning methods.

上記目的を達成するための本発明の1つは、文書情報抽出システムであって、情報処理装置を用いて構成され、文書群を管理する文書管理部と、機械学習のモデルを用いて前記文書群の文書から情報を抽出する文書情報抽出部と、前記モデルのパラメータを構成する複数の特徴量と、前記特徴量の夫々について前記情報を抽出する際の作用の特性を示す情報である作用種別と、を記憶する記憶部と、前記複数の特徴量のうち評価の対象とする特徴量である評価対象特徴量と、前記評価対象特徴量の抽出元の1つ以上の文章と、前記評価対象特徴量に現在設定されている重みと、を表示しつつ、前記評価対象特徴量の前記作用種別または前記重みの設定を受け付けるパラメータ設定受付部と、受け付けた前記作用種別または前記重みに基づき前記パラメータを更新するパラメータ更新部と、前記評価対象特徴量の夫々について、前記文書群における前記評価対象特徴量と前記作用種別が共通する他の前記特徴量との類似度、前記文書群における前記他の特徴量との共起度、前記評価対象特徴量に現在設定されている重み、および前記評価対象特徴量の前記文書群における出現頻度、のうちの少なくともいずれかに基づき前記評価対象特徴量を表示する優先度である特徴量表示優先度を求める特徴量表示優先度設定部と、前記特徴量表示優先度に従って前記評価対象特徴量を表示しつつ前記評価対象特徴量の前記作用種別または前記重みの設定を受け付けるパラメータ設定受付部と、を備える。
One aspect of the present invention for achieving the above object is a document information extraction system, comprising: a document management unit for managing a document group; a document information extraction unit for extracting information from documents of the document group using a machine learning model; a storage unit for storing a plurality of feature amounts constituting parameters of the model and an action type which is information indicating characteristics of an action when extracting the information for each of the feature amounts; a parameter setting reception unit for receiving a setting of the action type or the weight of the evaluation target feature amount while displaying an evaluation target feature amount which is a feature amount to be evaluated among the plurality of feature amounts, one or more sentences from which the evaluation target feature amount is extracted, and a weight currently set for the evaluation target feature amount; the parameter updating unit updating the parameters based on the action type or the weight assigned to each of the features to be evaluated; a feature display priority setting unit determining, for each of the features to be evaluated, a feature display priority which is a priority for displaying the feature to be evaluated based on at least one of the similarity between the feature to be evaluated and other features having the same action type in the document group, the co-occurrence with the other features in the document group, the weight currently set for the feature to be evaluated, and the frequency of occurrence of the feature to be evaluated in the document group; and a parameter setting receiving unit receiving the setting of the action type or the weight for the feature to be evaluated while displaying the feature to be evaluated in accordance with the feature display priority .

その他、本願が開示する課題、およびその解決方法は、発明を実施するための形態の欄、および図面により明らかにされる。 Other problems and solutions disclosed in this application will be made clear in the detailed description of the invention and the drawings.

本発明によれば、機械学習の方法により文書から有用な情報を抽出する際に用いるモデルの特徴量の設定を支援することができる。 The present invention can assist in setting the features of a model used when extracting useful information from documents using machine learning methods.

文書情報抽出システムの主な構成を説明するシステムフロー図である。FIG. 1 is a system flow diagram illustrating a main configuration of a document information extraction system. 文書情報抽出システムの主な構成を説明するブロック図である。FIG. 1 is a block diagram illustrating a main configuration of a document information extraction system. 優先度の決定に用いる特徴量の正性らしさの評価方法を説明する図である。11 is a diagram illustrating a method for evaluating the likelihood of a feature being positive for use in determining a priority level. FIG. 特徴量評価テーブルの一例である。13 is an example of a feature amount evaluation table. 特徴量頻度テーブルの一例である。1 is an example of a feature amount frequency table. 特徴量類似度テーブルの一例である。1 is an example of a feature similarity table. 特徴量共起度テーブルの一例である。13 is an example of a feature co-occurrence table. 表示優先度算出テーブルの一例である。13 is an example of a display priority calculation table. 特徴量表示優先度テーブルの一例である。13 is an example of a feature amount display priority table. パラメータ設定画面の一例である。13 is an example of a parameter setting screen. 更新前後対比画面の一例である。13 is an example of a before-and-after update comparison screen. 特徴量抽出元情報テーブルの一例である。13 is an example of a feature extraction source information table. 文字飾りの一例である。This is an example of character decoration. マッピング対象特徴量テーブルの一例である。13 is an example of a mapping target feature table. 特徴量評価設定情報テーブルの一例である。13 is an example of a feature amount evaluation setting information table. 特徴量抽出状況表示テーブルの一例である。13 is an example of a feature extraction status display table. 特徴量評価設定情報テーブル生成処理を説明するフローチャートである。13 is a flowchart illustrating a feature amount evaluation setting information table generating process. 特徴量抽出状況表示テーブル生成処理を説明するフローチャートである。13 is a flowchart illustrating a feature extraction status display table generating process. 文書情報抽出システムの実現に用いる情報処理装置の一例である。1 is an example of an information processing device used to realize a document information extraction system.

以下、実施形態について図面を参照しつつ説明する。尚、以下の記載および図面は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略もしくは簡略化がなされている。本発明は、他の種々の形態でも実施することが可能である。とくに限定しない限り、各構成要素は単数でも複数でも構わない。 The following describes the embodiments with reference to the drawings. Note that the following description and drawings are examples for explaining the present invention, and some parts have been omitted or simplified as appropriate for clarity of explanation. The present invention can also be implemented in various other forms. Unless otherwise specified, each component may be singular or plural.

以下の説明において、同一または類似の構成について同一の符号を付して重複した説明
を省略することがある。また、以下の説明において、符号の前に付した「S」の文字は処理ステップを意味する。また、以下の説明では、「テーブル」、「情報」等の表現にて各種情報を説明することがあるが、各種情報は、これら以外のデータ構造で表現されていてもよい。
In the following description, the same or similar configurations may be assigned the same reference numerals, and duplicate descriptions may be omitted. In the following description, the letter "S" before a reference numeral denotes a processing step. In the following description, various types of information may be described using expressions such as "table" and "information", but the various types of information may be expressed using data structures other than these.

以下、本発明の一実施形態として、機械学習の方法を用いて、膨大な数の文書(文書群)から有用な情報を抽出してユーザに提供する情報処理システム(以下、「文書情報抽出システム1」と称する。)について説明する。文書情報抽出システム1は、例えば、膨大な文書群(特許文献、各種論文、ビジネスレポート、企業レポート、ニュース等)から、新材料の研究や開発の指針を立案する上で有用な情報、例えば、材料の構造と特性や機能との相関関係等を抽出し、抽出した結果をユーザに提供する、いわゆるMI(Materials Informatics、マテリアルズインフォマティクス)を用いたデータ駆動型の材料開発に利
用される。
Hereinafter, as one embodiment of the present invention, an information processing system (hereinafter referred to as "document information extraction system 1") that uses a machine learning method to extract useful information from a huge number of documents (a group of documents) and provides it to a user will be described. The document information extraction system 1 is used for data-driven material development using so-called MI (Materials Informatics), which extracts information useful for planning guidelines for research and development of new materials, such as correlations between the structure and properties or functions of materials, from a huge group of documents (patent documents, various papers, business reports, corporate reports, news, etc.), and provides the extracted results to a user.

図1は、文書情報抽出システム1の主な構成を説明するシステムフロー図である。また、図2は、文書情報抽出システム1の主な構成を説明するブロック図である。図1に示すように、文書情報抽出システム1は、文書情報抽出部170およびパラメータ設定部180の各機能を備える。このうち文書情報抽出部170は、蓄積された文書111から機械学習のモデル(学習モデル)を用いて情報を抽出してユーザに提示する。また、パラメータ設定部180は、上記モデルのパラメータ(特徴量、特徴量の重み)を、ユーザインタフェースを介したユーザとの対話形式により設定する。 Figure 1 is a system flow diagram explaining the main components of the document information extraction system 1. Figure 2 is a block diagram explaining the main components of the document information extraction system 1. As shown in Figure 1, the document information extraction system 1 has the functions of a document information extraction unit 170 and a parameter setting unit 180. Of these, the document information extraction unit 170 extracts information from accumulated documents 111 using a machine learning model (learning model) and presents it to the user. In addition, the parameter setting unit 180 sets the parameters of the model (feature amount, weight of feature amount) in an interactive format with the user via a user interface.

図1または図2に示すように、文書情報抽出部170は、単語/関連語抽出部171および文書情報提示部172を含む。単語/関連語抽出部171は、初期辞書112や単語/関連語辞書113を参照しつつ、機械学習の仕組みにより、単語、単語の関連語、単語の類義語等(以下、「単語/関連語114」と称する。)の情報を文書111から抽出する。上記機械学習の仕組みとして、例えば、RNN(Recurrent Neural Network)やLSTM(Long short-term memory)を用いて実現される固有表現抽出技術によるものがある。但し、上記機械学習の種類は必ずしも限定されない。 As shown in FIG. 1 or 2, the document information extraction unit 170 includes a word/related word extraction unit 171 and a document information presentation unit 172. The word/related word extraction unit 171 refers to the initial dictionary 112 and the word/related word dictionary 113, and extracts information on words, related words of words, synonyms of words, etc. (hereinafter referred to as "words/related words 114") from the document 111 using a machine learning mechanism. The machine learning mechanism may be, for example, a named entity extraction technology realized using a recurrent neural network (RNN) or a long short-term memory (LSTM). However, the type of machine learning is not necessarily limited.

上記モデルは、例えば、特徴量と各特徴量の重みの情報を含んだ行列やベクトルにより表現される。文書111からの情報を抽出する上記モデルの特徴量として、例えば、周辺単語の特徴(左右単語、左右単語の品詞、係り受け)、単語自身の特徴(始単語(prefix)、終単語(suffix)、文字数、大文字小文字、品詞、文字の種類(数字、漢字等))等がある。 The above model is expressed, for example, by a matrix or vector including information on features and the weight of each feature. Features of the above model that extract information from document 111 include, for example, features of surrounding words (left and right words, parts of speech of left and right words, dependencies), features of the word itself (starting word (prefix), ending word (suffix), number of characters, uppercase and lowercase letters, parts of speech, type of character (numbers, kanji, etc.)), etc.

文書111は、図2に示す文書管理部160によって管理される。文書111は、多数の文書(例えば、WebスクレイピングやWebクローリングによってインターネットを介して取得された文書やユーザによって登録された文書)を含む。尚、本実施形態では、所定のトピックについて記述された、1つ以上の文、1つ以上の文章、1つ以上の節、1つ以上の節や句、2つ以上の単語等が纏まったものを文書と称する。以下では、文書情報抽出システム1により行われる各種の情報処理が文書を単位として行われる場合を例として説明するが、処理の単位は必ずしも限定されない。また以下では、文書111はテキスト形式のデータ(テキストデータ)として管理されるものとするが、文書111の管理方法は必ずしも限定されない。以下に説明する各種情報処理の対象となる文書は、例えば、形態素解析技術によって適宜形態素に分解され、また、各形態素は、例えば、適宜分散表現(単語埋め込み)に変換されて取り扱われる。 The document 111 is managed by the document management unit 160 shown in FIG. 2. The document 111 includes a large number of documents (for example, documents acquired via the Internet by web scraping or web crawling, and documents registered by a user). In this embodiment, a document is a collection of one or more sentences, one or more paragraphs, one or more clauses or phrases, two or more words, etc., described on a specific topic. In the following, an example will be described in which various information processing performed by the document information extraction system 1 is performed on a document basis, but the processing unit is not necessarily limited. In the following, the document 111 is managed as text data (text data), but the management method of the document 111 is not necessarily limited. The document that is the subject of the various information processing described below is, for example, appropriately decomposed into morphemes by morphological analysis technology, and each morpheme is appropriately converted into a distributed representation (word embedding) and handled.

文書情報抽出部170が参照する初期辞書112や単語/関連語辞書113は、図2に示す辞書管理部161によって管理される。このうち初期辞書112には、例えば、上記
機械学習による抽出対象の方向性等を示す単語が設定される。例えば、熱化学に関する文書111から温度に関する情報を抽出する場合、初期辞書112には、例えば、「30度」、「10度」等の単語が設定される。尚、この場合、文書情報抽出部170は、例えば、「30℃」、「10℃」等を関連語として抽出する。単語/関連語辞書113には、単語にその関連語や類義語を対応づけた情報が管理される。初期辞書112や単語/関連語辞書113の内容は、例えば、ユーザが設定してもよいし、インターネット等から取得されるコーパスや辞書等を用いて設定してもよい。ユーザは、例えば、有用な情報を得たい技術分野や抽出しようとする情報の種類等に応じた内容の初期辞書112や単語/関連語辞書113を準備する。
The initial dictionary 112 and the word/related word dictionary 113 referred to by the document information extraction unit 170 are managed by the dictionary management unit 161 shown in FIG. 2. In the initial dictionary 112, for example, words indicating the directionality of the object to be extracted by the machine learning are set. For example, when information about temperature is extracted from the document 111 related to thermochemistry, words such as "30 degrees" and "10 degrees" are set in the initial dictionary 112. In this case, the document information extraction unit 170 extracts, for example, "30°C" and "10°C" as related words. The word/related word dictionary 113 manages information that associates words with related words and synonyms. The contents of the initial dictionary 112 and the word/related word dictionary 113 may be set by the user, for example, or may be set using a corpus, dictionary, etc. obtained from the Internet, etc. The user prepares the initial dictionary 112 and the word/related word dictionary 113 with contents corresponding to, for example, the technical field from which useful information is to be obtained and the type of information to be extracted.

文書情報提示部172は、単語/関連語抽出部171によって抽出された単語/関連語114や、抽出された単語/関連語114に基づき生成した情報(以下、「文書抽出情報115」と称する。)をユーザに提供する。ユーザは、例えば、文書情報抽出システム1が備えるユーザインタフェースや、文書情報抽出システム1と通信可能に接続する他の情報処理装置を介して、文書情報提示部172が提供する文書抽出情報115を利用する。 The document information presenting unit 172 provides the user with the words/related words 114 extracted by the word/related word extraction unit 171 and information generated based on the extracted words/related words 114 (hereinafter referred to as "document extraction information 115"). The user uses the document extraction information 115 provided by the document information presenting unit 172, for example, via a user interface provided in the document information extraction system 1 or another information processing device communicatively connected to the document information extraction system 1.

パラメータ設定部180は、特徴量情報生成部181、特徴量表示優先度設定部182、パラメータ設定画面生成部183、パラメータ設定受付部184、およびパラメータ更新部185の各機能を有する。 The parameter setting unit 180 has the functions of a feature information generation unit 181, a feature display priority setting unit 182, a parameter setting screen generation unit 183, a parameter setting reception unit 184, and a parameter update unit 185.

このうち特徴量情報生成部181は、単語/関連語抽出部171から現状のモデルのパラメータ(特徴量と各特徴量の重み)(以下、「現状パラメータ155」と称する。)を取得し、取得した現状パラメータ155に基づき、特徴量表示優先度設定部182等によって参照される情報である特徴量情報120(特徴量評価テーブル121、特徴量頻度テーブル122、特徴量類似度テーブル123、特徴量共起度テーブル124、および特徴量抽出元情報テーブル125)を生成する。特徴量情報120の詳細については後述する。 Of these, the feature information generation unit 181 acquires the parameters of the current model (features and weights of each feature) (hereinafter referred to as "current parameters 155") from the word/related word extraction unit 171, and generates feature information 120 (feature evaluation table 121, feature frequency table 122, feature similarity table 123, feature co-occurrence table 124, and feature extraction source information table 125), which is information referenced by the feature display priority setting unit 182 and the like, based on the acquired current parameters 155. Details of the feature information 120 will be described later.

特徴量表示優先度設定部182は、特徴量情報生成部181が生成した特徴量情報120に基づき、ユーザとの対話処理によりモデルのパラメータの設定を行う際の特徴量の表示優先度(以下、「特徴量表示優先度」と称する。)の算出に用いる表示優先度算出テーブル131を生成する。特徴量表示優先度設定部182は、表示優先度算出テーブル131に基づき特徴量表示優先度を求め、求めた特徴量表示優先度を特徴量表示優先度テーブル132に格納する。 The feature amount display priority setting unit 182 generates a display priority calculation table 131 used to calculate the display priority of features (hereinafter referred to as "feature amount display priority") when setting model parameters through interactive processing with the user, based on the feature amount information 120 generated by the feature amount information generating unit 181. The feature amount display priority setting unit 182 determines the feature amount display priority based on the display priority calculation table 131, and stores the determined feature amount display priority in the feature amount display priority table 132.

パラメータ設定画面生成部183は、特徴量表示優先度に従った順序で特徴量を表示し、表示した特徴量のパラメータの設定に関する情報をユーザから受け付ける画面(図10に示すパラメータ設定画面1000)を生成する。パラメータ設定画面生成部183は、パラメータ設定画面1000の生成に際し、パラメータ設定画面情報140(文字飾り定義テーブル141、マッピング対象特徴量テーブル142、特徴量評価設定情報テーブル143、および特徴量抽出状況表示テーブル144)を参照もしくは生成する。パラメータ設定画面情報140の詳細については後述する。 The parameter setting screen generating unit 183 displays features in an order according to the feature display priority, and generates a screen (parameter setting screen 1000 shown in FIG. 10) that accepts information related to the setting of parameters of the displayed features from the user. When generating the parameter setting screen 1000, the parameter setting screen generating unit 183 refers to or generates the parameter setting screen information 140 (character decoration definition table 141, mapping target feature table 142, feature evaluation setting information table 143, and feature extraction status display table 144). Details of the parameter setting screen information 140 will be described later.

パラメータ設定受付部184は、パラメータ設定画面1000を表示しつつユーザからパラメータの設定に関する情報を受け付ける。 The parameter setting reception unit 184 receives information regarding parameter settings from the user while displaying the parameter setting screen 1000.

パラメータ更新部185は、パラメータ設定受付部184がユーザから受け付けた情報に基づき特徴量評価テーブル121を更新する(記憶部110は、更新の前後における特徴量評価テーブル121の双方の内容を記憶する)。また、パラメータ更新部185は、更新前後の特徴量評価テーブル121の差分の情報(以下、「パラメータ更新情報152
」と称する。)を生成し、生成したパラメータ更新情報152に基づき、単語/関連語抽出部171が用いるモデルのパラメータを更新する。
The parameter update unit 185 updates the feature amount evaluation table 121 based on information received from the user by the parameter setting reception unit 184 (the storage unit 110 stores the contents of both the feature amount evaluation table 121 before and after the update). The parameter update unit 185 also stores information on the difference between the feature amount evaluation table 121 before and after the update (hereinafter, “parameter update information 152
"), and updates the parameters of the model used by the word/related word extraction unit 171 based on the generated parameter update information 152.

続いて、特徴量表示優先度設定部182によって行われる特徴量表示優先度の算出方法について説明する。特徴量表示優先度設定部182は、ユーザに優先的に確認してもらいたい特徴量(文書111からの有用な情報の抽出精度に対する影響が大きいと考えられる特徴量)がパラメータ設定画面1000に優先的に表示されるように、特徴量表示優先度を設定する。具体的には、特徴量表示優先度設定部182は、以下の(1)~(3)のいずれかに該当する特徴量に対して高い特徴量表示優先度を設定する。尚、以下において、文書111から抽出すべき情報を抽出するように作用する特徴量のことを「正性特徴量」と、また、文書111から有用でない情報を抽出しないように作用する特徴量のことを「負性特徴量」と、「正性特徴量」にも「負性特徴量」にも該当しない特徴量のことを「中性特徴量」と、夫々称する。
(1)正性特徴量だが、現状パラメータ155では、特徴量の重みがゼロ付近もしくはマイナスに設定されている特徴量(以下、「誤評価正性特徴量」と称する。)。
(2)負性特徴量だが、現状パラメータ155では、特徴量の重みが大きく(ゼロ付近もしくはプラス等)設定されている特徴量(以下、「誤評価負性特徴量」と称する。)。
(3)中性特徴量だが、現状パラメータ155では、特徴量の絶対値が大きく設定されている特徴量(以下、「誤評価中性特徴量」と称する。)。
Next, a method of calculating feature display priorities performed by the feature display priority setting unit 182 will be described. The feature display priority setting unit 182 sets feature display priorities so that feature amounts that the user is to check with priority (feature amounts that are considered to have a large effect on the accuracy of extraction of useful information from the document 111) are preferentially displayed on the parameter setting screen 1000. Specifically, the feature display priority setting unit 182 sets a high feature display priority for feature amounts that fall under any of the following (1) to (3). Note that, hereinafter, a feature amount that acts to extract information that should be extracted from the document 111 is referred to as a "positive feature amount", a feature amount that acts to prevent unuseful information from being extracted from the document 111 is referred to as a "negative feature amount", and a feature amount that does not fall under either the "positive feature amount" or the "negative feature amount" is referred to as a "neutral feature amount".
(1) A positive feature, in which the weight of the feature is set to near zero or a negative value in the current parameters 155 (hereinafter, referred to as an “erroneously evaluated positive feature”).
(2) A negative feature is a feature whose weight is set large (near zero or positive, etc.) in the current parameters 155 (hereinafter, referred to as an “erroneously evaluated negative feature”).
(3) A neutral feature is a feature whose absolute value is set to be large in the current parameters 155 (hereinafter, referred to as a “mis-evaluated neutral feature”).

例えば、特徴量表示優先度設定部182は、(1)の誤評価正性特徴量に該当する可能性を示す指標(以下、「正性らしさ」と称する。)を、評価対象の特徴量(以下、「当該特徴量」と称する。)と現在のモデルに用いられている他の正性特徴量(以下、「比較正性特徴量」と称する。)との類似度、当該特徴量と比較正性特徴量との共起度、現状パラメータ155における当該特徴量の重み、および文書111における当該特徴量の出現頻度に基づき評価する。 For example, the feature display priority setting unit 182 evaluates an index (hereinafter referred to as "likelihood of correctness") indicating the possibility that a feature falls under the category of (1) mis-evaluated correct feature, based on the similarity between the feature to be evaluated (hereinafter referred to as "the feature") and other correct features used in the current model (hereinafter referred to as "comparison correct features"), the degree of co-occurrence between the feature and the comparison correct features, the weight of the feature in the current parameters 155, and the frequency of occurrence of the feature in the document 111.

また、例えば、特徴量表示優先度設定部182は、上記(2)に該当する可能性を示す指標(以下、「負性らしさ」と称する。)を、評価対象の特徴量(以下、「当該特徴量」と称する。)と現在のモデルに用いられている他の負性特徴量(以下、「比較負性特徴量」と称する。)との類似度、当該特徴量と比較負性特徴量との共起度、現状パラメータ155における当該特徴量の重み、および文書111における当該特徴量の出現頻度に基づき評価する。 For example, the feature display priority setting unit 182 evaluates an index indicating the possibility of falling under (2) above (hereinafter referred to as "negative likelihood") based on the similarity between the feature to be evaluated (hereinafter referred to as "the feature") and other negative features used in the current model (hereinafter referred to as "comparative negative features"), the co-occurrence between the feature and the comparative negative features, the weight of the feature in the current parameters 155, and the frequency of occurrence of the feature in the document 111.

また、例えば、特徴量表示優先度設定部182は、上記(3)に該当する可能性を示す指標(以下、「中性らしさ」と称する。)を、評価対象の特徴量(以下、「当該特徴量」と称する。)と現在のモデルに用いられている他の中性特徴量(以下、「比較中性特徴量」と称する。)との類似度、当該特徴量と比較中性特徴量との共起度、現状パラメータ155における当該特徴量の重みの絶対値、および文書111における当該特徴量の出現頻度に基づき評価する。 For example, the feature display priority setting unit 182 evaluates an index (hereinafter referred to as "neutrality") indicating the possibility that the feature falls under (3) above, based on the similarity between the feature to be evaluated (hereinafter referred to as "the feature") and other neutral features used in the current model (hereinafter referred to as "comparison neutral features"), the co-occurrence of the feature and the comparison neutral features, the absolute value of the weight of the feature in the current parameters 155, and the frequency of occurrence of the feature in the document 111.

尚、上記のいずれの場合においても、評価対象の特徴量の文書111における出現頻度を評価に用いているのは、文書111における出現頻度が少ない特徴量は、文書111からの情報の抽出精度に与える影響も少ないと考えられるからである。 In addition, in both of the above cases, the frequency of occurrence in document 111 of the feature to be evaluated is used for the evaluation because a feature that occurs less frequently in document 111 is considered to have less impact on the accuracy of information extraction from document 111.

図3は、上記(1)への該当性の評価の概念を一例として示した図である。同図には、例示する文書111から、「温度」を表す単語を抽出する特徴量の「正性らしさ」を算出する場合を例示している。同図に示すように、初期辞書112には、温度を示す単語をモデルに学習させるための「30度」、「10度」等が設定され、また、比較正性特徴量として、「終単語:度」(末尾が「度」で終わる単語)、「左単語:温度は」(左側に「温
度は」の文字列が存在する単語)が存在するものとする。
3 is a diagram showing an example of the concept of evaluating applicability to (1) above. The diagram illustrates an example of a case where the "likelihood of positivity" of a feature for extracting a word representing "temperature" from an example document 111 is calculated. As shown in the diagram, "30 degrees", "10 degrees", etc. are set in the initial dictionary 112 to allow a model to learn words representing temperature, and "Final word: degree" (a word ending with "degree") and "Left word: temperature" (a word with the character string "temperature" on the left side) are included as comparative positive features.

同図に示す「終単語:回」(末尾が「回」で終わる単語)、「終単語:℃」(末尾が「℃」で終わる単語)、および「左単語:低下し」(左側に「低下し」の文字列が存在する単語)は、いずれも上記(1)への該当性の評価対象となる特徴量である。尚、本例では、評価対象の各特徴量は、いずれも文書111における出現頻度が十分に高いものとする。 The "Final word: kai" (a word ending in kai), "Final word: ℃" (a word ending in ℃), and "Left word: kajishi" (a word with the character string "kajishi" on the left side) shown in the figure are all feature quantities to be evaluated for applicability to (1) above. Note that in this example, it is assumed that each feature quantity to be evaluated has a sufficiently high frequency of occurrence in document 111.

本例の場合、評価対象の「終単語:回」という特徴量は、比較正性特徴量である「終単語:度」のみと類似性があり、評価対象の「左単語:低下し」という特徴量は、比較正性特徴量である「左単語:温度は」のみと共起性がある。また、評価対象の「終単語:℃」という特徴量は、比較正性特徴量である「終単語:度」と類似性があり、かつ、比較正性特徴量である「左単語:温度は」と共起性がある。このため、本例では、当該特徴量「終単語:℃」は、他の2つの特徴量(「終単語:回」、「左単語:低下し」)よりも上記(1)に該当する可能性、即ち「正性らしさ」が高く評価される。 In this example, the feature to be evaluated, "final word: times", is similar only to the comparative positive feature "final word: degree", and the feature to be evaluated, "left word: decreases", is co-occurring only with the comparative positive feature "left word: temperature is". In addition, the feature to be evaluated, "final word: °C", is similar to the comparative positive feature "final word: degree", and also co-occurs with the comparative positive feature "left word: temperature is". For this reason, in this example, the feature "final word: °C" is evaluated as more likely to fall under (1) above, i.e., more "likely to be positive", than the other two features ("final word: times", "left word: decreases").

特徴量表示優先度設定部182は、以上のようにして各特徴量について評価した「正性らしさ」、「負性らしさ」、「中性らしさ」に基づき、ユーザに提示する際に用いる特徴量表示優先度を求める。例えば、特徴量表示優先度設定部182は、「正性らしさ」が高い(予め設定した閾値を超えている)特徴量に高い特徴量表示優先度を設定する。また例えば、特徴量表示優先度設定部182は、「負性らしさ」が高い(予め設定した閾値を超えている)特徴量に高い特徴量表示優先度を設定する。また例えば、特徴量表示優先度設定部182は、「中性らしさ」が高い(予め設定した閾値を超えている)特徴量に高い特徴量表示優先度を設定する。尚、特徴量表示優先度設定部182が、例えば、「正性らしさ」、「負性らしさ」、「中性らしさ」のいずれか2つ以上を総合的に評価して各特徴量の特徴量表示優先度を設定するようにしてもよい。 The feature display priority setting unit 182 determines the feature display priority to be used when presenting to the user based on the "likelihood of positiveness," "likelihood of negativeness," and "likelihood of neutrality" evaluated for each feature as described above. For example, the feature display priority setting unit 182 sets a high feature display priority to a feature having a high "likelihood of positiveness" (exceeding a preset threshold). For another example, the feature display priority setting unit 182 sets a high feature display priority to a feature having a high "likelihood of negativeness" (exceeding a preset threshold). For another example, the feature display priority setting unit 182 sets a high feature display priority to a feature having a high "likelihood of neutrality" (exceeding a preset threshold). Note that the feature display priority setting unit 182 may set the feature display priority of each feature by comprehensively evaluating, for example, two or more of "likelihood of positiveness," "likelihood of negativeness," and "likelihood of neutrality."

続いて、特徴量表示優先度の算出方法について、具体的なテーブルを例示しつつ説明する。特徴量表示優先度設定部182は、特徴量表示優先度の算出に際し、特徴量情報120(特徴量評価テーブル121、特徴量頻度テーブル122、特徴量類似度テーブル123、特徴量共起度テーブル124)を参照もしくは生成(更新の意味を含む)する。 Next, a method for calculating the feature display priority will be described with reference to specific tables. When calculating the feature display priority, the feature display priority setting unit 182 refers to or generates (including the meaning of updating) the feature information 120 (feature evaluation table 121, feature frequency table 122, feature similarity table 123, feature co-occurrence table 124).

図4に、特徴量評価テーブル121の一例を示す。特徴量評価テーブル121には、モデルの現在のもしくはユーザにより変更された後における各特徴量の重みと評価に関する情報が管理される。同図に示すように、特徴量評価テーブル121は、特徴量1211、重み1212、および評価1213の各項目を有する複数のエントリ(レコード)で構成される。特徴量評価テーブル121の1つのエントリは1つの特徴量に対応している。 Figure 4 shows an example of the feature evaluation table 121. The feature evaluation table 121 manages information related to the weight and evaluation of each feature of the model, either currently or after it has been changed by the user. As shown in the figure, the feature evaluation table 121 is made up of multiple entries (records) each having the items of feature 1211, weight 1212, and evaluation 1213. One entry in the feature evaluation table 121 corresponds to one feature.

上記項目のうち、特徴量1211には、特徴量が格納される。重み1212には、当該特徴量の重みが格納される。評価1213には、当該特徴量の作用特性に応じた種別(以下、「作用種別」と称する。)を示す情報(正性特徴量であれば「正性」、負性特徴量であれば「負性」、中性特徴量であれば「中性」)が設定される。尚、作用種別が未設定の特徴量については、評価1213に「-」が設定される。 Of the above items, feature amount 1211 stores a feature amount. Weight 1212 stores the weight of the feature amount. Evaluation 1213 sets information indicating the type (hereinafter referred to as the "action type") according to the action characteristics of the feature amount ("positive" for a positive feature amount, "negative" for a negative feature amount, and "neutral" for a neutral feature amount). For features for which the action type has not been set, "-" is set in evaluation 1213.

図5に、特徴量頻度テーブル122の一例を示す。特徴量頻度テーブル122には、現在のモデルに用いられている各特徴量の文書111(文書群)における出現頻度が管理される。同図に示すように、特徴量頻度テーブル122は、特徴量1221および頻度1222の各項目を有する複数のエントリ(レコード)で構成される。特徴量頻度テーブル122の1つのエントリは1つの特徴量に対応している。上記項目のうち、特徴量1221には、特徴量が格納される。頻度1222には、文書111における当該特徴量の出現頻
度が格納される。
5 shows an example of the feature frequency table 122. In the feature frequency table 122, the frequency of occurrence in the document 111 (document group) of each feature used in the current model is managed. As shown in the figure, the feature frequency table 122 is made up of a plurality of entries (records) having items of feature 1221 and frequency 1222. One entry in the feature frequency table 122 corresponds to one feature. Of the above items, the feature 1221 stores the feature. The frequency 1222 stores the frequency of occurrence of the feature in the document 111.

図6に、特徴量類似度テーブル123の一例を示す。特徴量類似度テーブル123には、モデルを構成する異なる特徴量の間の類似度が管理される。同図に示すように、特徴量類似度テーブル123は、第1特徴量1231、第2特徴量1232、および類似度1233の各項目を有する複数のエントリ(レコード)で構成される。特徴量類似度テーブル123の1つのエントリは1つの特徴量の組に対応している。 Figure 6 shows an example of feature similarity table 123. In feature similarity table 123, similarities between different features that make up a model are managed. As shown in the figure, feature similarity table 123 is made up of multiple entries (records) each having a first feature 1231, a second feature 1232, and a similarity 1233. One entry in feature similarity table 123 corresponds to one set of features.

上記項目のうち、第1特徴量1231には、上記組の一方の特徴量(以下、「第1特徴量」と称する。)が格納される。第2特徴量1232には、上記組の他方の特徴量(以下、「第2特徴量」と称する。)が格納される。類似度1233には、第1特徴量と第2特徴量の類似度が格納される。尚、特徴量情報生成部181は、例えば、コサイン類似度やレーベンシュタイン(Levenshtein)距離に基づき類似度を求める。 Of the above items, the first feature 1231 stores one of the above pairs of features (hereinafter referred to as the "first feature"). The second feature 1232 stores the other of the above pairs of features (hereinafter referred to as the "second feature"). The similarity 1233 stores the similarity between the first feature and the second feature. The feature information generation unit 181 calculates the similarity based on, for example, cosine similarity or Levenshtein distance.

図7に、特徴量共起度テーブル124の一例を示す。特徴量共起度テーブル124には、モデルを構成する異なる特徴量の共起度が管理される。同図に示すように、特徴量共起度テーブル124は、第1特徴量1241、第2特徴量1242、および共起度1243の各項目を有する複数のエントリ(レコード)で構成される。特徴量共起度テーブル124の1つのエントリは1つの特徴量の組に対応している。 Figure 7 shows an example of the feature co-occurrence table 124. The feature co-occurrence table 124 manages the co-occurrence of different features that make up a model. As shown in the figure, the feature co-occurrence table 124 is made up of multiple entries (records) each having a first feature 1241, a second feature 1242, and a co-occurrence 1243. One entry in the feature co-occurrence table 124 corresponds to one set of features.

上記項目のうち、第1特徴量1241には、上記組の一方の特徴量(以下、「第1特徴量」と称する。)が格納される。第2特徴量1242には、上記組の他方の特徴量(以下、「第2特徴量」と称する。)が格納される。共起度1243には、第1特徴量と第2特徴量の共起度が格納される。尚、特徴量情報生成部181は、例えば、単語について単語分散表現(例えば、word2vec, BERT等により生成される分散表現)を生成し、生成した各単語の分散表現を用いて2つの単語の共起度を求める。 Of the above items, the first feature 1241 stores one feature of the above pair (hereinafter referred to as the "first feature"). The second feature 1242 stores the other feature of the above pair (hereinafter referred to as the "second feature"). The co-occurrence 1243 stores the co-occurrence of the first feature and the second feature. Note that the feature information generation unit 181 generates word embeddings (e.g., embeddings generated by word2vec, BERT, etc.) for words, for example, and calculates the co-occurrence of two words using the generated embeddings of each word.

図8に、表示優先度算出テーブル131の一例を示す。表示優先度算出テーブル131には、特徴量評価テーブル121、特徴量頻度テーブル122、特徴量類似度テーブル123、および特徴量共起度テーブル124の内容に基づく情報が管理される。同図に示すように、表示優先度算出テーブル131は、第1特徴量1311、第2特徴量1312、類似度1313、共起度1314、第1特徴量重み1315、第2特徴量重み1316、および第2特徴量頻度1317の各項目を有する複数のエントリ(レコード)で構成される。表示優先度算出テーブル131の1つのエントリは1つの特徴量の組に対応している。 Figure 8 shows an example of the display priority calculation table 131. The display priority calculation table 131 manages information based on the contents of the feature evaluation table 121, feature frequency table 122, feature similarity table 123, and feature co-occurrence table 124. As shown in the figure, the display priority calculation table 131 is composed of multiple entries (records) having each of the items of a first feature 1311, a second feature 1312, a similarity 1313, a co-occurrence 1314, a first feature weight 1315, a second feature weight 1316, and a second feature frequency 1317. One entry in the display priority calculation table 131 corresponds to one set of features.

上記項目のうち、第1特徴量1311には、上記組の一方の特徴量(以下、「第1特徴量」と称する。)が格納される。第2特徴量1312には、上記組の他方の特徴量(以下、「第2特徴量」と称する。)が格納される。類似度1313には、第1特徴量と第2特徴量の類似度が格納される。共起度1314には、第1特徴量と第2特徴量の共起度が格納される。第1特徴量重み1315には、第1特徴量の重みが格納される。第2特徴量重み1316には、第2特徴量の重みが格納される。第2特徴量頻度1317には、文書111における第2特徴量の出現頻度が格納される。 Of the above items, the first feature 1311 stores one of the above pairs of features (hereinafter referred to as the "first feature"). The second feature 1312 stores the other of the above pairs of features (hereinafter referred to as the "second feature"). The similarity 1313 stores the similarity between the first feature and the second feature. The co-occurrence 1314 stores the co-occurrence between the first feature and the second feature. The first feature weight 1315 stores the weight of the first feature. The second feature weight 1316 stores the weight of the second feature. The second feature frequency 1317 stores the frequency of occurrence of the second feature in the document 111.

図9に、特徴量表示優先度テーブル132の一例を示す。特徴量表示優先度テーブル132には、特徴量表示優先度設定部182が表示優先度算出テーブル131に基づき生成した、各特徴量の特徴量表示優先度の設定に用いる情報が管理される。同図に示すように、特徴量表示優先度テーブル132は、特徴量1321、正性らしさ1322、負性らしさ1323、および中性らしさ1324の各項目を有する複数のエントリ(レコード)で構成される。特徴量表示優先度テーブル132の1つのエントリは1つの特徴量に対応し
ている。
9 shows an example of the feature amount display priority table 132. The feature amount display priority table 132 manages information used to set the feature amount display priority of each feature amount, which is generated by the feature amount display priority setting unit 182 based on the display priority calculation table 131. As shown in the figure, the feature amount display priority table 132 is made up of a plurality of entries (records) having the items of feature amount 1321, positive likelihood 1322, negative likelihood 1323, and neutral likelihood 1324. One entry in the feature amount display priority table 132 corresponds to one feature amount.

上記項目のうち、特徴量1321には特徴量が格納される。 Of the above items, feature amount 1321 stores the feature amount.

正性らしさ1322には、表示優先度算出テーブル131に基づき次式から求めた値(正性らしさ)が格納される。尚、次式において、特徴量iは、表示優先度算出テーブル131における第2特徴量1312が対応し、特徴量jは、同テーブルにおける第1特徴量1311が対応する。次式におけるa、b、c、dは定数である。

Figure 0007621852000001
The likelihood of positiveness 1322 stores a value (likelihood of positiveness) calculated from the following formula based on the display priority calculation table 131. In the following formula, the feature amount i corresponds to the second feature amount 1312 in the display priority calculation table 131, and the feature amount j corresponds to the first feature amount 1311 in the same table. In the following formula, a, b, c, and d are constants.
Figure 0007621852000001

負性らしさ1322には、表示優先度算出テーブル131に基づき次式から求めた値(負性らしさ)が格納される。尚、次式において、特徴量iは、表示優先度算出テーブル131における第2特徴量1312が対応し、特徴量jは、同テーブルにおける第1特徴量1311が対応する。次式におけるa、b、c、dは定数である。

Figure 0007621852000002
The negative likelihood 1322 stores a value (negative likelihood) calculated from the following formula based on the display priority calculation table 131. In the following formula, the feature amount i corresponds to the second feature amount 1312 in the display priority calculation table 131, and the feature amount j corresponds to the first feature amount 1311 in the same table. In the following formula, a, b, c, and d are constants.
Figure 0007621852000002

中性らしさ1323には、表示優先度算出テーブル131に基づき次式から求めた値(中性らしさ)が格納される。尚、次式において、特徴量iは、表示優先度算出テーブル131における第2特徴量1312が対応し、特徴量jは、同テーブルにおける第1特徴量1311が対応する。次式におけるa、b、c、dは定数である。

Figure 0007621852000003
The neutrality likelihood 1323 stores a value (neutrality likelihood) calculated from the following formula based on the display priority calculation table 131. In the following formula, the feature amount i corresponds to the second feature amount 1312 in the display priority calculation table 131, and the feature amount j corresponds to the first feature amount 1311 in the same table. In the following formula, a, b, c, and d are constants.
Figure 0007621852000003

前述したように、パラメータ設定画面生成部183は、ユーザとの対話形式によりパラメータを設定する際、以上により求めた、正性らしさ1322、負性らしさ1323、および中性らしさ1324に基づき特徴量表示優先度を求める。 As described above, when the parameter setting screen generating unit 183 sets parameters interactively with the user, it determines the feature display priority based on the positive likelihood 1322, negative likelihood 1323, and neutral likelihood 1324 determined as described above.

以上のように、文書情報抽出システム1は、各特徴量について、正性らしさ、負性らしさ、中性らしさのうちの少なくともいずれかを求め、求めた値に基づき特徴量表示優先度を設定するので、調整することにより得られる効果の高い特徴量(文書111からより適切な単語や関連語を抽出できる可能性の高い特徴量)を優先してユーザに提示することができ、ユーザは効率よくパラメータを調整(チューニング)することができる。 As described above, the document information extraction system 1 determines at least one of the positive, negative, and neutral likelihoods for each feature, and sets the feature display priority based on the determined value, so that it can preferentially present to the user features that can be effectively obtained by adjustment (features that are likely to extract more appropriate words or related words from document 111), allowing the user to adjust (tune) parameters efficiently.

続いて、文書情報抽出システム1がユーザとの間の対話処理により行うパラメータの設定について説明する。尚、以下では、説明の簡単のため、文書111から単語を抽出する場合を例として説明する。 Next, we will explain how the document information extraction system 1 sets parameters through interactive processing with the user. For simplicity, we will use an example of extracting words from document 111.

図10は、パラメータ設定画面生成部183がユーザとの対話処理によりパラメータの設定を行う際に表示する画面(以下、「パラメータ設定画面1000」と称する。)の一例である。同図に示すように、パラメータ設定画面1000は、特徴量評価設定欄1010、特徴量抽出状況表示欄1020、更新前後比較ボタン1030、および確定ボタン1040を有する。 Figure 10 is an example of a screen (hereinafter referred to as "parameter setting screen 1000") that the parameter setting screen generating unit 183 displays when setting parameters through interactive processing with the user. As shown in the figure, the parameter setting screen 1000 has a feature evaluation setting field 1010, a feature extraction status display field 1020, a before-and-after update comparison button 1030, and a confirm button 1040.

特徴量評価設定欄1010には、ユーザに確認を促す特徴量が、特徴量表示優先度テーブル132の特徴量表示優先度の高いものから順に表示される。同図に示すように、特徴量評価設定欄1010は、特徴量1011、重み1012、文章1013、および評価1014の各項目を有する複数のエントリで構成される。特徴量評価設定欄1010の1つのエントリは1つの特徴量に対応している。 In the feature evaluation setting field 1010, features that the user is prompted to confirm are displayed in order of highest feature display priority in the feature display priority table 132. As shown in the figure, the feature evaluation setting field 1010 is made up of multiple entries having the following items: feature 1011, weight 1012, text 1013, and evaluation 1014. One entry in the feature evaluation setting field 1010 corresponds to one feature.

上記項目のうち、特徴量1011には、ユーザに確認を促す特徴量が表示される。重み1012には、当該特徴量に設定されている重みが表示される。ユーザは当該特徴量に設定されている重みを確認しながら、当該特徴量を評価することができる。重み1012の値は、ユーザが当該画面を利用して手動で変更することも可能である。 Of the above items, feature 1011 displays the feature that the user is prompted to confirm. Weight 1012 displays the weight set for that feature. The user can evaluate that feature while checking the weight set for that feature. The user can also manually change the value of weight 1012 using this screen.

文章1013には、当該特徴量による単語が抽出された1つ以上の文章(文書111の要素である文章)が表示される。文章1013の特徴量に相当する部分は強調表示(本例ではアンダーラインと斜体字)されており、ユーザは、文章における特徴量の位置を容易に把握することができる。 Sentence 1013 displays one or more sentences (sentences that are elements of document 111) from which words based on the feature have been extracted. The parts of sentence 1013 that correspond to the feature are highlighted (underlined and italicized in this example), allowing the user to easily grasp the position of the feature in the sentence.

評価1014には、当該特徴量について設定されている作用種別が表示される。過去に作用種別が設定されている特徴量については、評価1014に既に設定されている特徴量がデフォルト値として自動表示される。また、過去に作用種別が設定されていない特徴量については、例えば、評価1014に、パラメータ設定部180が特徴量表示優先度テーブル132の内容に基づき判定した作用種別がデフォルト値として表示される。例えば、正性らしさ1322が予め設定されている閾値を超える特徴量については「正性」が、負性らしさ1323が予め設定されている閾値を超える特徴量については「負性」が、中性らしさ1324が予め設定されている閾値を超える特徴量については「中性」が、デフォルト値として評価1014に表示される。尚、デフォルト値を自動的に判定する方法は必ずしも限定されない。評価1014の内容は、当該画面を利用してユーザが手動で変更することも可能である。ユーザは、例えば、プルダウンメニューとして表示される作用種別(「正性」、「負性」、「中性」)を操作して評価1014の内容を変更する。 In the evaluation 1014, the action type set for the feature is displayed. For features for which an action type has been set in the past, the feature already set in the evaluation 1014 is automatically displayed as a default value. For features for which an action type has not been set in the past, for example, the action type determined by the parameter setting unit 180 based on the contents of the feature display priority table 132 is displayed as a default value in the evaluation 1014. For example, for features for which the positive likelihood 1322 exceeds a preset threshold, "positive" is displayed as a default value in the evaluation 1014, for features for which the negative likelihood 1323 exceeds a preset threshold, "negative" is displayed as a default value in the evaluation 1014, and for features for which the neutral likelihood 1324 exceeds a preset threshold, "neutral" is displayed as a default value. Note that the method of automatically determining the default value is not necessarily limited. The content of the evaluation 1014 can also be manually changed by the user using the screen. For example, the user changes the content of the evaluation 1014 by operating the action type ("positive", "negative", "neutral") displayed as a pull-down menu.

特徴量抽出状況表示欄1020には、特徴量評価設定欄1010に表示されている各特徴量の抽出の状況(様子)を示した情報が表示される。同図に示すように、特徴量抽出状況表示欄1020は、文書ID1021、抽出単語1022、抽出元文章1023、およびマッピング外特徴量1024の各項目を有する複数のエントリで構成される。特徴量抽出状況表示欄1020の1つのエントリは文書111から抽出された1つの単語に対応している。 The feature extraction status display field 1020 displays information showing the status (state) of extraction of each feature displayed in the feature evaluation setting field 1010. As shown in the figure, the feature extraction status display field 1020 is composed of multiple entries having the following items: document ID 1021, extracted words 1022, source text 1023, and unmapped features 1024. One entry in the feature extraction status display field 1020 corresponds to one word extracted from document 111.

上記項目のうち、文書ID1021には、抽出元の文書の識別子である文書ID(本例では抽出元の文書のファイル名)が表示される。抽出単語1022には、特徴量評価設定欄1010に表示されている特徴量1011によって抽出された単語が表示される。 Of the above items, document ID 1021 displays the document ID (in this example, the file name of the document from which the extraction was made) that is the identifier of the document from which the extraction was made. Extracted words 1022 displays the words extracted based on the features 1011 displayed in the feature evaluation setting field 1010.

抽出元文章1023には、当該単語の抽出元の文章が表示される。同図に示すように、抽出元文章1023の特徴量に相当する部分には、特徴量の重みに応じた文字飾り(実線アンダーライン、枠囲み、斜体字、破線アンダーライン、飾り無し)が付されている。尚
、抽出元文章1023において文字飾りが付される特徴量は、後述するマッピング対象特徴量テーブル142に定義されている特徴量が対象となる。本例では、各特徴量に設定されている重み(効き方)の違いを文字飾りの種類を変えることで区別しているが、色分け等の他の方法で区別するようにしてもよい。
The source sentence 1023 displays the sentence from which the word was extracted. As shown in the figure, the parts of the source sentence 1023 that correspond to the features are decorated with character decoration (solid underline, frame, italics, dashed underline, no decoration) according to the weight of the feature. The features to which character decoration is applied in the source sentence 1023 are the features defined in a mapping target feature table 142, which will be described later. In this example, the weights (effects) set for each feature are differentiated by changing the type of character decoration, but other methods such as color coding may also be used to differentiate.

本例では、文字飾りのうち、実線アンダーラインは、温度を示す単語を抽出するのに大きく作用する特徴量(正性特徴量)に付され、また、枠囲みは、温度を示す単語を抽出するのに作用する特徴量(正性特徴量)に付され、また、斜体字は、温度でない単語を抽出しないように作用する特徴量(負性特徴量)に付され、また、破線アンダーラインは、温度でない単語を抽出しないように大きく作用する特徴量(負性特徴量)に付され、また、飾り無しは、正性特徴量および負性特徴量のいずれにも該当しない特徴量(中性特徴量)に付される。 In this example, among the character decorations, a solid underline is applied to features that have a large effect on extracting words that indicate temperature (positive features), a frame is applied to features that have a large effect on extracting words that indicate temperature (positive features), italics are applied to features that have a large effect on not extracting words that are not temperatures (negative features), dashed underlines are applied to features that have a large effect on not extracting words that are not temperatures (negative features), and no decoration is applied to features that are neither positive nor negative features (neutral features).

マッピング外特徴量1024には、当該単語を抽出に寄与した他の特徴量(本例では文字数)が表示される。マッピング外特徴量1024に表示される他の特徴量の例として、例えば、「数字か文字か」、「英語か日本語か」、「ローマ字か漢字か」、「大文字か小文字か」がある。 The non-mapping feature 1024 displays other features that contributed to the extraction of the word (in this example, the number of characters). Examples of other features displayed in the non-mapping feature 1024 include, for example, "number or letter," "English or Japanese," "Roman alphabet or kanji," and "uppercase or lowercase."

ユーザが更新前後比較ボタン1030を操作すると、パラメータ設定部180は、ユーザが変更操作を行う前の特徴量評価設定欄1010の内容と、ユーザが変更操作を行った後の特徴量評価設定欄1010の内容とを対比可能な状態で示した画面(以下、「更新前後対比画面1100」と称する。)を表示する。 When the user operates the before-and-after comparison button 1030, the parameter setting unit 180 displays a screen (hereinafter referred to as the "before-and-after comparison screen 1100") that shows a comparison between the contents of the feature evaluation setting field 1010 before the user performs the change operation and the contents of the feature evaluation setting field 1010 after the user performs the change operation.

図11に、更新前後対比画面1100の一例を示す。同図に示すように、例示する更新前後対比画面1100は、更新前の特徴量評価設定欄1010の内容が表示される特徴量評価設定欄(更新前)1111と、更新前の特徴量評価設定欄1010の内容が表示される特徴量評価設定欄(更新後)1112とを有する。ユーザは、更新前後対比画面1100を参照することで、自分がいずれの特徴量の評価や重みをどのように変更したのかを容易に確認することができる。尚、ユーザが特徴量の評価1014の内容を変更すると、特徴量表示優先度設定部182によって更新後の評価(作用種別)および重みに基づき特徴量表示優先度が再計算され、特徴量の表示順も更新される。 FIG. 11 shows an example of a before-and-after comparison screen 1100. As shown in the figure, the illustrated before-and-after comparison screen 1100 has a feature amount evaluation setting field (before update) 1111 in which the contents of the feature amount evaluation setting field 1010 before the update are displayed, and a feature amount evaluation setting field (after update) 1112 in which the contents of the feature amount evaluation setting field 1010 before the update are displayed. By referring to the before-and-after comparison screen 1100, the user can easily confirm how he or she changed the evaluation and weight of each feature amount. When the user changes the contents of the feature amount evaluation 1014, the feature amount display priority setting unit 182 recalculates the feature amount display priority based on the evaluation (action type) and weight after the update, and the display order of the feature amounts is also updated.

図10に戻り、ユーザが、確定ボタン1040を操作すると、パラメータ更新部185が、パラメータ設定画面1000の設定内容(重み1012、評価1014)に基づきパラメータ更新情報152を生成し、生成したパラメータ更新情報152に基づき、単語/関連語抽出部171が用いるモデルのパラメータを更新する。尚、パラメータ更新部185が、パラメータ設定画面1000の評価1014に基づき、対応する特徴量の重みを自動設定するようにしてもよい。その場合、各特徴量について自動設定する重みは、例えば、特徴量表示優先度テーブル132における夫々の正性らしさ1322、負性らしさ1323、中性らしさ1324に基づき設定する。 Returning to FIG. 10, when the user operates the confirm button 1040, the parameter update unit 185 generates parameter update information 152 based on the settings on the parameter setting screen 1000 (weight 1012, evaluation 1014), and updates the parameters of the model used by the word/related word extraction unit 171 based on the generated parameter update information 152. The parameter update unit 185 may automatically set the weight of the corresponding feature based on the evaluation 1014 on the parameter setting screen 1000. In this case, the weight automatically set for each feature is set based on, for example, the positive likelihood 1322, negative likelihood 1323, and neutral likelihood 1324 in the feature display priority table 132.

以上のように、パラメータ設定画面1000の特徴量評価設定欄1010には、特徴量1011とともに当該特徴量の抽出元の文章1013が表示されるので、ユーザは、特徴量について適切な評価1014を設定することができる。また、特徴量抽出状況表示欄1020には、特徴量評価設定欄1010に表示されている特徴量についての抽出状況に関する情報(抽出単語1022、抽出元文章1023、マッピング外特徴量1024)が表示されるので、ユーザは、単語の抽出に際し特徴量がどのように作用するのかを視覚的に確認することができ、機械学習についての知識や経験の少ないユーザであっても、これらの情報を参考にして特徴量を効率よく適切に設定することができる。そのため、例えば、機械学習については不慣れだが、対象とする情報分野に精通しているドメインユーザの豊
富な知識や経験を有効に活用することができる。
As described above, in the feature amount evaluation setting field 1010 of the parameter setting screen 1000, the feature amount 1011 and the original sentence 1013 from which the feature amount is extracted are displayed, so that the user can set an appropriate evaluation 1014 for the feature amount. In addition, the feature amount extraction status display field 1020 displays information on the extraction status of the feature amount displayed in the feature amount evaluation setting field 1010 (extracted words 1022, original sentence 1023, non-mapping feature amount 1024), so that the user can visually confirm how the feature amount works when extracting words. Even a user with little knowledge or experience of machine learning can efficiently and appropriately set the feature amount by referring to this information. Therefore, for example, it is possible to effectively utilize the abundant knowledge and experience of a domain user who is inexperienced in machine learning but is familiar with the target information field.

続いて、パラメータ設定画面1000および更新前後対比画面1100の生成に用いる各種テーブルの例を示す。 Next, examples of various tables used to generate the parameter setting screen 1000 and the pre- and post-update comparison screen 1100 are shown.

図12は、特徴量抽出元情報テーブル125の一例である。特徴量抽出元情報テーブル125には、特徴量の抽出元に関する情報が管理される。同図に示すように、特徴量抽出元情報テーブル125は、文書ID1251、単語1252、抽出元文章1253、単語始点1254、単語終点1255、特徴量1256、特徴量始点1257、および特徴量終点1258の各項目を有する複数のエントリ(レコード)で構成される。特徴量抽出元情報テーブル125の1つのエントリは1つの特徴量に対応している。 Figure 12 is an example of the feature extraction source information table 125. The feature extraction source information table 125 manages information related to the source from which features are extracted. As shown in the figure, the feature extraction source information table 125 is made up of multiple entries (records) having the following items: document ID 1251, word 1252, source sentence 1253, word start point 1254, word end point 1255, feature 1256, feature start point 1257, and feature end point 1258. One entry in the feature extraction source information table 125 corresponds to one feature.

上記項目のうち、文書ID1251には、当該特徴量の抽出元の文書の文書IDが格納される。単語1252には、当該特徴量によって抽出された単語が格納される。抽出元文章1253には、当該単語の抽出元の文章が格納される。単語始点1254および単語終点1255には夫々、当該単語の文書における位置(始点、終点)が格納される。特徴量1256には、当該特徴量が格納される。特徴量始点1257および特徴量終点1258には夫々、当該抽出元の文章における当該特徴量の出現する位置(始点、終点)が格納される。 Of the above items, document ID 1251 stores the document ID of the document from which the feature was extracted. Word 1252 stores the word extracted by the feature. Source sentence 1253 stores the sentence from which the word was extracted. Word start point 1254 and word end point 1255 store the position (start point, end point) of the word in the document. Feature 1256 stores the feature. Feature start point 1257 and feature end point 1258 store the position (start point, end point) at which the feature appears in the source sentence.

図13は、文字飾り定義テーブル141の一例である。文字飾り定義テーブル141には、特徴量の重みに応じた文字飾りを示す情報が管理される。文字飾り定義テーブル141の内容は、例えば、システム管理者やユーザが設定する。同図に示すように、文字飾り定義テーブル141は、重み1411と文字飾り1412の各項目を有する複数のレコードで構成される。重み1411には、重みの範囲を示す情報が格納される。また、文字飾り1412には文字飾りの種類を示す情報が格納される。 Figure 13 is an example of a character decoration definition table 141. The character decoration definition table 141 manages information indicating character decoration according to the weight of a feature. The contents of the character decoration definition table 141 are set, for example, by a system administrator or a user. As shown in the figure, the character decoration definition table 141 is made up of multiple records having items of weight 1411 and character decoration 1412. Information indicating the range of weights is stored in weight 1411. Furthermore, information indicating the type of character decoration is stored in character decoration 1412.

図14は、マッピング対象特徴量テーブル142の一例である。マッピング対象特徴量テーブル142には、パラメータ設定画面1000の特徴量抽出状況表示欄1020の抽出元文章1023やマッピング外特徴量1024に表示される特徴量のうち、文字飾りを付す対象とする特徴量(対象特徴量1421)が管理される。マッピング対象特徴量テーブル142の内容は、例えば、システム管理者やユーザが設定する。 Figure 14 is an example of a mapping target feature table 142. The mapping target feature table 142 manages features (target features 1421) to which character enhancement is to be applied, among the features displayed in the source text 1023 and non-mapping features 1024 in the feature extraction status display field 1020 of the parameter setting screen 1000. The contents of the mapping target feature table 142 are set, for example, by a system administrator or a user.

図15は、特徴量評価設定情報テーブル143の一例である。特徴量評価設定情報テーブル143には、パラメータ設定画面1000の特徴量評価設定欄1010に表示する情報が管理される。同図に示すように、特徴量評価設定情報テーブル143は、特徴量1431、重み1432、抽出元文章1433、特徴量始点1434、特徴量終点1435、および評価1436の各項目を有する複数のエントリ(レコード)で構成される。特徴量評価設定情報テーブル143の1つのエントリは1つの特徴量に対応している。 Figure 15 is an example of the feature amount evaluation setting information table 143. The feature amount evaluation setting information table 143 manages information to be displayed in the feature amount evaluation setting field 1010 of the parameter setting screen 1000. As shown in the figure, the feature amount evaluation setting information table 143 is made up of multiple entries (records) each having the following items: feature amount 1431, weight 1432, source sentence 1433, feature amount start point 1434, feature amount end point 1435, and evaluation 1436. One entry in the feature amount evaluation setting information table 143 corresponds to one feature amount.

上記項目のうち特徴量1431には、評価の対象となる特徴量が格納される。重み1432には、当該特徴量の重みが格納される。抽出元文章1433には、当該特徴量の抽出元の文章が格納される。特徴量始点1434および特徴量終点1435には夫々、抽出元文章1433における当該特徴量の位置を示す情報(始点、終点)が格納される。評価1436には、前述したデフォルト値またはユーザが設定した評価(「正性」、「負性」、「中性」のいずれか)が設定される。 Of the above items, feature 1431 stores the feature to be evaluated. Weight 1432 stores the weight of the feature. Source sentence 1433 stores the sentence from which the feature was extracted. Feature start point 1434 and feature end point 1435 each store information indicating the position of the feature in source sentence 1433 (start point, end point). Evaluation 1436 is set to the default value mentioned above or an evaluation set by the user (either "positive", "negative", or "neutral").

図16は、特徴量抽出状況表示テーブル144の一例である。特徴量抽出状況表示テーブル144には、パラメータ設定画面1000の特徴量抽出状況表示欄1020に表示する情報が管理される。同図に示すように、特徴量抽出状況表示テーブル144は、文書I
D1441、単語1442、抽出元文章1443、単語始点1444、単語終点1445、特徴量1446、特徴量始点1447、特徴量終点1448、重み1449、文字飾り1450、およびマッピング外特徴量1451の各項目を有する複数のレコードで構成される。特徴量抽出状況表示テーブル144の1つのエントリは文書111から抽出される1つの単語に対応している。
16 is an example of the feature extraction status display table 144. The feature extraction status display table 144 manages information to be displayed in the feature extraction status display field 1020 of the parameter setting screen 1000. As shown in the figure, the feature extraction status display table 144 manages information to be displayed in the feature extraction status display field 1020 of the parameter setting screen 1000.
The feature extraction status display table 144 is made up of a plurality of records having the following items: D 1441, word 1442, source sentence 1443, word start point 1444, word end point 1445, feature 1446, feature start point 1447, feature end point 1448, weight 1449, character decoration 1450, and unmapped feature 1451. One entry in the feature extraction status display table 144 corresponds to one word extracted from the document 111.

文書ID1441には、当該単語(単語1442)の抽出元の文書111の文書IDが格納される。単語1442には、当該特徴量(特徴量1446)によって抽出された単語が格納される。抽出元文章1443には、当該単語の抽出元の文章が格納される。単語始点1444および単語終点1445には、当該単語の抽出元文章1443における位置(始点、終点)が格納される。特徴量1446には、当該単語の抽出に用いた特徴量が格納される。特徴量始点1447および特徴量終点1448には夫々、抽出元文章1443における当該特徴量の位置を示す情報(始点、終点)が格納される。 Document ID 1441 stores the document ID of document 111 from which the word (word 1442) was extracted. Word 1442 stores the word extracted using the feature (feature 1446). Source sentence 1443 stores the sentence from which the word was extracted. Word start point 1444 and word end point 1445 store the position (start point, end point) of the word in source sentence 1443. Feature 1446 stores the feature used to extract the word. Feature start point 1447 and feature end point 1448 each store information (start point, end point) indicating the position of the feature in source sentence 1443.

重み1449には、当該特徴量(特徴量1446)に設定されている重みが格納される。文字飾り1450には、当該特徴量の表示に際して付する文字飾りを示す情報が格納される。マッピング外特徴量1451には、当該単語の抽出に寄与した、マッピング対象特徴量テーブル142に定義されていない他の特徴量が格納される。 Weight 1449 stores the weight set for the feature (feature 1446). Character decoration 1450 stores information indicating the character decoration to be applied when displaying the feature. Non-mapping feature 1451 stores other features that contributed to the extraction of the word and are not defined in the mapping target feature table 142.

続いて、特徴量評価設定情報テーブル143や特徴量抽出状況表示テーブル144の生成に際しパラメータ設定部180が行う処理について説明する。 Next, we will explain the processing performed by the parameter setting unit 180 when generating the feature evaluation setting information table 143 and the feature extraction status display table 144.

図17は、パラメータ設定部180が、特徴量評価設定情報テーブル143の生成に際し行う処理(以下、「特徴量評価設定情報テーブル生成処理S1700」と称する。)を説明するフローチャートである。以下、同図とともに特徴量評価設定情報テーブル生成処理S1700について説明する。 Figure 17 is a flowchart explaining the process performed by the parameter setting unit 180 when generating the feature evaluation setting information table 143 (hereinafter referred to as "feature evaluation setting information table generation process S1700"). Below, the feature evaluation setting information table generation process S1700 will be explained with reference to this figure.

まず、パラメータ設定部180は、特徴量抽出元情報テーブル125と特徴量評価テーブル121を読み込む(S1711~S1712)。 First, the parameter setting unit 180 reads the feature extraction source information table 125 and the feature evaluation table 121 (S1711 to S1712).

続いて、パラメータ設定部180は、特徴量評価テーブル121のエントリを1つ選択する(S1713)。 Next, the parameter setting unit 180 selects one entry from the feature evaluation table 121 (S1713).

続いて、パラメータ設定部180は、S1713で選択したエントリの特徴量に対応する特徴量抽出元情報テーブル125の抽出元文章1253を関連づけた内容を設定したエントリを特徴量評価設定情報テーブルに追加する(S1714)。 Next, the parameter setting unit 180 adds an entry to the feature evaluation setting information table, in which the content associated with the source text 1253 in the feature extraction source information table 125 corresponding to the feature of the entry selected in S1713 is set (S1714).

続いて、パラメータ設定部180は、S1713で特徴量評価テーブルS1713の全てのエントリを選択済か否かを判定する(S1715)。全てのエントリを選択済でなければ(S1715:NO)、処理はS1713に戻り、未選択のエントリを選択して以上と同様の処理を行う。一方、全てのエントリを選択済であれば(S1715:YES)、特徴量評価設定情報テーブル生成処理S1700は終了する。 The parameter setting unit 180 then determines whether or not all entries in the feature evaluation table S1713 have been selected in S1713 (S1715). If all entries have not been selected (S1715: NO), the process returns to S1713, where an unselected entry is selected and the same process as above is performed. On the other hand, if all entries have been selected (S1715: YES), the feature evaluation setting information table generation process S1700 ends.

図18は、パラメータ設定部180が、特徴量抽出状況表示テーブル144の生成に際し行う処理(以下、「特徴量抽出状況表示テーブル生成処理S1800」と称する。)を説明するフローチャートである。以下、同図とともに特徴量抽出状況表示テーブル生成処理S1800について説明する。 Figure 18 is a flowchart explaining the process performed by the parameter setting unit 180 when generating the feature extraction status display table 144 (hereinafter referred to as "feature extraction status display table generation process S1800"). Below, the feature extraction status display table generation process S1800 will be explained with reference to this figure.

まず、パラメータ設定部180は、特徴量抽出元情報テーブル125、特徴量評価テーブル121、文字飾り定義テーブル141、およびマッピング対象特徴量テーブル142
を読み込む(S1811~S1814)。
First, the parameter setting unit 180 extracts the feature extraction source information table 125, the feature evaluation table 121, the character decoration definition table 141, and the mapping target feature table 142.
is read (S1811 to S1814).

続いて、パラメータ設定部180は、特徴量抽出元情報テーブル125のエントリを1つ選択し、選択したエントリの内容を用いて特徴量抽出状況表示テーブル144にエントリを1つ追加する(S1815)。 Next, the parameter setting unit 180 selects one entry from the feature extraction source information table 125 and adds one entry to the feature extraction status display table 144 using the contents of the selected entry (S1815).

続いて、パラメータ設定部180は、追加したエントリの重み1449に、特徴量評価テーブル121の対応する特徴量の重みを格納する(S1816)。 Next, the parameter setting unit 180 stores the weight of the corresponding feature in the feature evaluation table 121 in the weight 1449 of the added entry (S1816).

続いて、パラメータ設定部180は、追加したエントリの文字飾り1450に、文字飾り定義テーブル141におけるS1816で格納した重みに対応する文字飾りを格納する(S1817)。 Next, the parameter setting unit 180 stores in the character decoration 1450 of the added entry a character decoration corresponding to the weight stored in S1816 in the character decoration definition table 141 (S1817).

続いて、パラメータ設定部180は、マッピング対象特徴量テーブル142に、S1815で追加したエントリの特徴量1446と同じ特徴量があるか否かを判定する(S1818)。同じ特徴量があれば(S1818:YES)、パラメータ設定部180は、追加したエントリのマッピング外特徴量1451に空白を設定し、その後、処理はS1820に進む。同じ特徴量がなければ(S1818:NO)、パラメータ設定部180は、追加したエントリのマッピング外特徴量1451に当該特徴量を格納し(S1819)、その後、処理はS1820に進む。 Then, the parameter setting unit 180 determines whether the mapping target feature table 142 contains a feature that is the same as the feature 1446 of the entry added in S1815 (S1818). If the same feature is present (S1818: YES), the parameter setting unit 180 sets the non-mapping feature 1451 of the added entry to blank, and then the process proceeds to S1820. If the same feature is not present (S1818: NO), the parameter setting unit 180 stores the feature in the non-mapping feature 1451 of the added entry (S1819), and then the process proceeds to S1820.

続いて、パラメータ設定部180は、S1815で特徴量抽出元情報テーブル125の全てのエントリを選択済か否かを判定する(S1820)。全てのエントリを選択済でなければ(S1820:NO)、処理はS1815に戻り、未選択のエントリを選択して以上と同様の処理を行う。一方、全てのエントリを選択済であれば(S1815:YES)、特徴量抽出状況表示テーブル生成処理S1800は終了する。 The parameter setting unit 180 then determines whether or not all entries in the feature extraction source information table 125 have been selected in S1815 (S1820). If all entries have not been selected (S1820: NO), the process returns to S1815, where an unselected entry is selected and the same process as above is performed. On the other hand, if all entries have been selected (S1815: YES), the feature extraction status display table generation process S1800 ends.

続いて、以上に説明した文書情報抽出システム1の構成に用いる情報処理装置(コンピュータ)について説明する。 Next, we will explain the information processing device (computer) used to configure the document information extraction system 1 described above.

図19は、文書情報抽出システム1の構成に用いる情報処理装置の一例である。同図に示すように、例示する情報処理装置10は、プロセッサ11、主記憶装置12、補助記憶装置13、入力装置14、出力装置15、および通信装置16を備える。 Figure 19 shows an example of an information processing device used in the configuration of the document information extraction system 1. As shown in the figure, the illustrated information processing device 10 includes a processor 11, a main memory device 12, an auxiliary memory device 13, an input device 14, an output device 15, and a communication device 16.

文書情報抽出システム1は、例えば、通信可能に接続された複数の情報処理装置10を用いて実現してもよい。また、情報処理装置10は、その全部または一部が、例えば、クラウドシステムによって提供される仮想サーバのように、仮想化技術やプロセス空間分離技術等を用いて提供される仮想的な情報処理資源を用いて実現されるものであってもよい。また、情報処理装置10によって提供される機能の全部または一部は、例えば、クラウドシステムがAPI(Application Programming Interface)等を介して提供するサービ
スによって実現してもよい。
The document information extraction system 1 may be realized, for example, by using a plurality of information processing devices 10 connected to each other so as to be able to communicate with each other. In addition, all or a part of the information processing device 10 may be realized by using virtual information processing resources provided by using a virtualization technology, a process space separation technology, or the like, such as a virtual server provided by a cloud system. In addition, all or a part of the functions provided by the information processing device 10 may be realized by a service provided by the cloud system via an API (Application Programming Interface), for example.

また、情報処理装置10によって提供される機能の全部または一部は、例えば、SaaS(Software as a Service)、PaaS(Platform as a Service)、IaaS(Infrastructure as a Service)等を利用して実現されるものであってもよい。 Furthermore, all or part of the functions provided by the information processing device 10 may be realized using, for example, SaaS (Software as a Service), PaaS (Platform as a Service), IaaS (Infrastructure as a Service), etc.

同図に示すプロセッサ11は、例えば、CPU(Central Processing Unit)、MPU
(Micro Processing Unit)、GPU(Graphics Processing Unit)、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)、
AI(Artificial Intelligence)チップ等を用いて構成されている。
The processor 11 shown in FIG. 1 is, for example, a CPU (Central Processing Unit), an MPU (Multi-Processing Unit),
(Micro Processing Unit), GPU (Graphics Processing Unit), FPGA (Field Programmable Gate Array), ASIC (Application Specific Integrated Circuit),
It is constructed using AI (Artificial Intelligence) chips, etc.

主記憶装置12は、プログラムやデータを記憶する装置であり、例えば、ROM(Read
Only Memory)、RAM(Random Access Memory)、不揮発性メモリ(NVRAM(Non Volatile RAM))等である。
The main memory device 12 is a device for storing programs and data, and is, for example, a ROM (Read Only Memory).
Only Memory), RAM (Random Access Memory), NVRAM (Non Volatile RAM), etc.

補助記憶装置13は、例えば、SSD(Solid State Drive)、ハードディスクドライ
ブ、光学式記憶装置(CD(Compact Disc)、DVD(Digital Versatile Disc)等)、ストレージシステム、ICカード、SDカードや光学式記録媒体等の記録媒体の読取/書込装置、クラウドサーバの記憶領域等である。補助記憶装置13には、記録媒体の読取装置や通信装置16を介してプログラムやデータを読み込むことができる。補助記憶装置13に格納(記憶)されているプログラムやデータは主記憶装置12に随時読み込まれる。
The auxiliary storage device 13 is, for example, a solid state drive (SSD), a hard disk drive, an optical storage device (CD (Compact Disc), DVD (Digital Versatile Disc), etc.), a storage system, an IC card, a read/write device for a recording medium such as an SD card or an optical recording medium, a storage area of a cloud server, etc. Programs and data can be read into the auxiliary storage device 13 via a recording medium reader or a communication device 16. The programs and data stored (memorized) in the auxiliary storage device 13 are read into the main storage device 12 as needed.

入力装置14は、外部からの入力を受け付けるインタフェースであり、例えば、キーボード、マウス、タッチパネル、カードリーダ、ペン入力方式のタブレット、音声入力装置等である。 The input device 14 is an interface that accepts input from the outside, and is, for example, a keyboard, a mouse, a touch panel, a card reader, a pen-input tablet, a voice input device, etc.

出力装置15は、処理経過や処理結果等の各種情報を出力するインタフェースである。出力装置15は、例えば、上記の各種情報を可視化する表示装置(液晶モニタ、LCD(Liquid Crystal Display)、グラフィックカード等)、上記の各種情報を音声化する装置(音声出力装置(スピーカ等))、上記の各種情報を文字化する装置(印字装置等)である。尚、例えば、情報処理装置10が通信装置16を介して他の装置との間で情報の入力や出力を行う構成としてもよい。 The output device 15 is an interface that outputs various information such as the progress of processing and the results of processing. The output device 15 is, for example, a display device (liquid crystal monitor, LCD (Liquid Crystal Display), graphic card, etc.) that visualizes the various information described above, a device that converts the various information described above into audio (audio output device (speaker, etc.)), or a device that converts the various information described above into text (printer, etc.). Note that, for example, the information processing device 10 may be configured to input and output information to and from other devices via the communication device 16.

入力装置14と出力装置15は、ユーザとの間での対話処理(情報の受け付け、情報の提示等)を実現するユーザインタフェースを構成する。 The input device 14 and the output device 15 constitute a user interface that realizes interactive processing with the user (accepting information, presenting information, etc.).

通信装置16は、他の装置との間の通信を実現する装置である。通信装置16は、通信ネットワーク5(LAN(Local Area Network)、WAN(Wide Area Network)、イン
ターネット、公衆通信網、専用線等)を介して他の装置との間の通信を実現する、有線方式または無線方式の通信インタフェースであり、例えば、NIC(Network Interface Card)、無線通信モジュール、USBモジュール等である。
The communication device 16 is a device that realizes communication with other devices. The communication device 16 is a wired or wireless communication interface that realizes communication with other devices via a communication network 5 (such as a local area network (LAN), a wide area network (WAN), the Internet, a public communication network, or a dedicated line), and is, for example, a network interface card (NIC), a wireless communication module, or a USB module.

情報処理装置10には、例えば、オペレーティングシステム、ファイルシステム、DBMS(DataBase Management System)(リレーショナルデータベース、NoSQL等)、KVS(Key-Value Store)等が導入されていてもよい。文書情報抽出システム1は、前
述した各種の情報(データ)を、例えば、データベースのテーブルやファイルシステムが管理するファイルとして記憶する。
For example, an operating system, a file system, a DBMS (DataBase Management System) (relational database, NoSQL, etc.), a KVS (Key-Value Store), etc. may be introduced into the information processing device 10. The document information extraction system 1 stores the various types of information (data) described above, for example, as a table of a database or a file managed by a file system.

文書情報抽出システム1が提供する各種の機能は、プロセッサ11が、主記憶装置12に格納されているプログラムを読み出して実行することにより、もしくは、文書情報抽出システム1を構成するハードウェア(FPGA、ASIC、AIチップ等)自体によって実現される。また、文書情報抽出システム1の各種の機能は、例えば、テキストデータマイニング等の公知の各種データマイニング手法、公知の各種自然言語処理手法(形態素解析、構文解析、意味解析、文脈解析、特徴量抽出、単語分散表現、固有表現抽出、テキスト分類、系列ラベリング)、公知の各種機械学習手法(深層学習(DNN(Deep Neural Network)、RNN(Recurrent Neural Network)等)を用いて実現される。 The various functions provided by the document information extraction system 1 are realized by the processor 11 reading and executing a program stored in the main memory device 12, or by the hardware (FPGA, ASIC, AI chip, etc.) that constitutes the document information extraction system 1. In addition, the various functions of the document information extraction system 1 are realized using, for example, various publicly known data mining methods such as text data mining, various publicly known natural language processing methods (morphological analysis, syntactic analysis, semantic analysis, context analysis, feature extraction, word distributed representation, named entity extraction, text classification, sequence labeling), and various publicly known machine learning methods (deep learning (DNN (Deep Neural Network), RNN (Recurrent Neural Network), etc.)).

以上詳細に説明したように、本実施形態の文書情報抽出システム1は、パラメータ(特徴量、重み)の設定に際し、評価対象特徴量と、評価対象特徴量の抽出元の1つ以上の文章と、評価対象特徴量に設定されている重みとを表示しつつ、作用種別または重みの設定
を受け付けるので、ユーザは、抽出元の文章や重みを確認しつつ(どのような特徴量にどのような設定がされているのかを確認しつつ)評価対象特徴量を効率よく適切に設定することができる。
As described above in detail, when setting parameters (feature quantities, weights), the document information extraction system 1 of this embodiment accepts the setting of an action type or weight while displaying the feature quantities to be evaluated, the one or more sentences from which the feature quantities to be evaluated are extracted, and the weights set for the feature quantities to be evaluated. This allows the user to efficiently and appropriately set the feature quantities to be evaluated while checking the original sentences and weights (while checking what settings have been made to what feature quantities).

また、パラメータ設定画面1000の特徴量評価設定欄1010の文章1013において評価対象特徴量の部分が強調表示されるので、ユーザは、評価対象特徴量が文書にどのように作用するのかを容易に確認することができる。 In addition, the portion of the feature to be evaluated is highlighted in the text 1013 in the feature evaluation setting field 1010 of the parameter setting screen 1000, so the user can easily check how the feature to be evaluated affects the document.

また、パラメータ設定画面1000の特徴量抽出状況表示欄1020の抽出元文章1023には、表示する文章の評価対象特徴量の部分が、作用種別ごとに区別した文字飾りや色等で強調表示されるので、ユーザは、作用種別ごとの評価対象特徴量の作用特性を認識しつつ、評価対象特徴量を効率よく適切に設定することができる。 In addition, in the source text 1023 of the feature extraction status display field 1020 of the parameter setting screen 1000, the part of the text to be evaluated that is displayed is highlighted with character decoration, colors, etc. that distinguish between different action types, so that the user can efficiently and appropriately set the feature to be evaluated while recognizing the action characteristics of the feature to be evaluated for each action type.

また、パラメータ設定画面1000の特徴量抽出状況表示欄1020には、文書から抽出した単語が表示されるので、ユーザは、どのように特徴量が作用してどのような単語が抽出されるのかを認識しつつ、評価対象特徴量を効率よく適切に設定することができる。 In addition, the feature extraction status display field 1020 on the parameter setting screen 1000 displays the words extracted from the document, allowing the user to efficiently and appropriately set the features to be evaluated while understanding how the features work and what words are extracted.

また、パラメータ設定画面1000の特徴量抽出状況表示欄1020には、評価対象特徴量により文書から抽出した情報の抽出に作用した他の特徴量(マッピング外特徴量1024)も表示されるので、ユーザは、他の特徴量も参考にしつつ、評価対象特徴量を効率よく適切に設定することができる。 In addition, the feature extraction status display field 1020 on the parameter setting screen 1000 also displays other features (non-mapping features 1024) that influenced the extraction of information from the document using the feature to be evaluated, so the user can efficiently and appropriately set the feature to be evaluated while also referring to the other features.

このように、本実施形態の文書情報抽出システム1によれば、機械学習の方法により文書から有用な情報を抽出する際に用いるモデルの特徴量に関する設定を支援することができる。そのため、例えば、抽出しようとする情報の分野についての知識(ドメイン知識)は有しているが機械学習についての知識や経験が無い者でも、特徴量を効率よく適切に行うことができ、ドメインユーザの知識を有効に活用して特徴量を適切に設定することができる。 In this way, the document information extraction system 1 of this embodiment can assist in setting the features of a model used when extracting useful information from a document using a machine learning method. Therefore, for example, even a person who has knowledge (domain knowledge) about the field of information to be extracted but has no knowledge or experience of machine learning can efficiently and appropriately set the features, and the knowledge of the domain user can be effectively utilized to appropriately set the features.

以上、本発明の一実施形態について説明したが、本発明は上記の実施形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。例えば、上記の実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、上記実施形態の構成の一部について、他の構成の追加や削除、置換をすることが可能である。 Although one embodiment of the present invention has been described above, it goes without saying that the present invention is not limited to the above embodiment and can be modified in various ways without departing from the spirit of the invention. For example, the above embodiment has been described in detail to clearly explain the present invention, and is not necessarily limited to having all of the configurations described. In addition, it is possible to add, delete, or replace part of the configuration of the above embodiment with other configurations.

例えば、以上では、各種の処理が文書を単位として行われる場合を例として説明したが、処理の単位は必ずしも限定されず、本実施形態の文書情報抽出システム1は、文書に代え文章(1つ以上の文からなる文章)を単位としても同様の処理を行うことができる。 For example, in the above, various types of processing are performed on a document basis, but the processing unit is not necessarily limited, and the document information extraction system 1 of this embodiment can perform similar processing on a sentence (a sentence consisting of one or more sentences) basis instead of a document.

また、以上では、文書情報抽出部170が、蓄積された文書111から機械学習のモデル(学習モデル)により情報を抽出し、抽出した情報をシステム管理者やユーザに提示する場合を示したが、例えば、システム管理者やユーザが定義した抽出ルールを用いて情報を抽出し、システム管理者やユーザに提示するようにしてもよい。その場合、例えば、図10に示したパラメータ設定画面1000において、マッピング外特徴量1024に、ルールにマッチしたか否かを示す情報を表示するようにしてもよい。 In the above, the document information extraction unit 170 extracts information from the accumulated documents 111 using a machine learning model (learning model) and presents the extracted information to a system administrator or a user. However, for example, information may be extracted using extraction rules defined by the system administrator or user and presented to the system administrator or user. In that case, for example, in the parameter setting screen 1000 shown in FIG. 10, the non-mapping feature 1024 may display information indicating whether or not the rule is matched.

また、上記の各構成、機能部、処理部、処理手段等は、それらの一部または全部を、例えば、集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイ
ル等の情報は、メモリやハードディスク、SSD(Solid State Drive)等の記録装置、
ICカード、SDカード、DVD等の記録媒体に置くことができる。
In addition, the above-mentioned configurations, functional units, processing units, processing means, etc. may be realized in part or in whole by hardware, for example, by designing them as integrated circuits. In addition, the above-mentioned configurations, functions, etc. may be realized in software by a processor interpreting and executing a program that realizes each function. Information such as the program, table, file, etc. that realizes each function can be stored in a storage device such as a memory, a hard disk, or an SSD (Solid State Drive),
It can be placed on a recording medium such as an IC card, an SD card, or a DVD.

また、以上に説明した各情報処理装置の各種機能部、各種処理部、各種データベースの配置形態は一例に過ぎない。各種機能部、各種処理部、各種データベースの配置形態は、これらの装置が備えるハードウェアやソフトウェアの性能、処理効率、通信効率等の観点から最適な配置形態に変更し得る。 Furthermore, the layout of the various functional units, various processing units, and various databases of each information processing device described above is merely an example. The layout of the various functional units, various processing units, and various databases can be changed to an optimal layout in terms of the performance, processing efficiency, communication efficiency, etc. of the hardware and software equipped in these devices.

また、前述した各種のデータを格納するデータベースの構成(スキーマ(Schema)等)は、リソースの効率的な利用、処理効率向上、アクセス効率向上、検索効率向上等の観点から柔軟に変更し得る。 In addition, the configuration (schema, etc.) of the database that stores the various types of data mentioned above can be flexibly changed from the perspective of efficient use of resources, improved processing efficiency, improved access efficiency, improved search efficiency, etc.

1 文書情報抽出システム、110 記憶部、111 文書、112 初期辞書、113
単語/関連語辞書、114 単語/関連語、115 文書抽出情報、120 特徴量情報、121 特徴量評価テーブル、122 特徴量頻度テーブル、123 特徴量類似度テーブル、124 特徴量共起度テーブル、125 特徴量抽出元情報テーブル、131
表示優先度算出テーブル、132 特徴量表示優先度テーブル、140 パラメータ設定画面情報、141 文字飾り定義テーブル、142 マッピング対象特徴量テーブル、143 特徴量評価設定情報テーブル、144 特徴量抽出状況表示テーブル、152 パラメータ更新情報、155 現状パラメータ、160 文書管理部、161 辞書管理部、170 文書情報抽出部、171 単語/関連語抽出部、172 文書情報提示部、180 パラメータ設定部、181 特徴量情報生成部、182 特徴量表示優先度設定部、183 パラメータ設定画面生成部、184 パラメータ設定受付部、185 パラメータ更新部、1000 パラメータ設定画面、1100 更新前後対比画面、S1700 特徴量評価設定情報テーブル生成処理、S1800 特徴量抽出状況表示テーブル生成処理
1 Document information extraction system, 110 Storage unit, 111 Document, 112 Initial dictionary, 113
Word/related word dictionary, 114 Word/related word, 115 Document extraction information, 120 Feature information, 121 Feature evaluation table, 122 Feature frequency table, 123 Feature similarity table, 124 Feature co-occurrence table, 125 Feature extraction source information table, 131
Display priority calculation table, 132 feature amount display priority table, 140 parameter setting screen information, 141 character decoration definition table, 142 mapping target feature amount table, 143 feature amount evaluation setting information table, 144 feature amount extraction status display table, 152 parameter update information, 155 current parameters, 160 document management unit, 161 dictionary management unit, 170 document information extraction unit, 171 word/related word extraction unit, 172 document information presentation unit, 180 parameter setting unit, 181 feature amount information generation unit, 182 feature amount display priority setting unit, 183 parameter setting screen generation unit, 184 parameter setting reception unit, 185 parameter update unit, 1000 parameter setting screen, 1100 before-and-after update comparison screen, S1700 feature amount evaluation setting information table generation process, S1800 feature amount extraction status display table generation process

Claims (13)

情報処理装置を用いて構成され、
文書群を管理する文書管理部と、
機械学習のモデルを用いて前記文書群の文書から情報を抽出する文書情報抽出部と、
前記モデルのパラメータを構成する複数の特徴量と、前記特徴量の夫々について前記情報を抽出する際の作用の特性を示す情報である作用種別と、を記憶する記憶部と、
前記複数の特徴量のうち評価の対象とする特徴量である評価対象特徴量と、前記評価対象特徴量の抽出元の1つ以上の文章と、前記評価対象特徴量に現在設定されている重みと、を表示しつつ、前記評価対象特徴量の前記作用種別または前記重みの設定を受け付けるパラメータ設定受付部と、
受け付けた前記作用種別または前記重みに基づき前記パラメータを更新するパラメータ更新部と、
前記評価対象特徴量の夫々について、前記文書群における前記評価対象特徴量と前記作用種別が共通する他の前記特徴量との類似度、前記文書群における前記他の特徴量との共起度、前記評価対象特徴量に現在設定されている重み、および前記評価対象特徴量の前記文書群における出現頻度、のうちの少なくともいずれかに基づき前記評価対象特徴量を表示する優先度である特徴量表示優先度を求める特徴量表示優先度設定部と、
前記特徴量表示優先度に従って前記評価対象特徴量を表示しつつ前記評価対象特徴量の前記作用種別または前記重みの設定を受け付けるパラメータ設定受付部と、
を備える、文書情報抽出システム。
The information processing device is configured to:
a document management unit for managing a group of documents;
a document information extraction unit that extracts information from documents of the document set using a machine learning model;
A storage unit that stores a plurality of feature amounts constituting parameters of the model and an action type that is information indicating the characteristics of an action when extracting the information for each of the feature amounts;
a parameter setting receiving unit that receives a setting of the action type or the weight of the evaluation target feature while displaying an evaluation target feature which is a feature to be evaluated among the plurality of feature amounts, one or more sentences from which the evaluation target feature is extracted, and a weight currently set for the evaluation target feature;
a parameter update unit that updates the parameters based on the received action type or weight;
a feature display priority setting unit that determines, for each of the evaluation target features, a feature display priority that is a priority for displaying the evaluation target feature based on at least one of a similarity between the evaluation target feature and other feature features having the same action type in the document set, a co-occurrence with the other feature features in the document set, a weight currently set for the evaluation target feature, and an appearance frequency of the evaluation target feature in the document set;
a parameter setting receiving unit that receives a setting of the action type or the weight of the evaluation target feature quantity while displaying the evaluation target feature quantity in accordance with the feature quantity display priority;
A document information extraction system comprising:
請求項1に記載の文書情報抽出システムであって、
前記作用種別は、前記特徴量が前記文書群から抽出すべき情報を抽出するように作用することを示す正性、前記特徴量が前記文書群から抽出すべきでない情報を抽出しないように作用することを示す負性、前記特徴量の作用が前記正性および前記負性のいずれにも該当しない中性、のうちの少なくともいずれかを含む、
文書情報抽出システム。
The document information extraction system according to claim 1,
The action type includes at least one of a positive type indicating that the feature quantity acts to extract information that should be extracted from the document group, a negative type indicating that the feature quantity acts to prevent information that should not be extracted from the document group from being extracted, and a neutral type indicating that the action of the feature quantity does not fall into either the positive type or the negative type.
Document information extraction system.
請求項1に記載の文書情報抽出システムであって、
前記パラメータ設定受付部は、表示する前記文章の前記評価対象特徴量の部分を強調表示する、
文書情報抽出システム。
The document information extraction system according to claim 1,
the parameter setting receiving unit highlights a portion of the evaluation target feature quantity in the text to be displayed.
Document information extraction system.
請求項3に記載の文書情報抽出システムであって、
前記パラメータ設定受付部は、表示する前記文章における前記評価対象特徴量の部分を、前記評価対象特徴量の前記作用種別ごとに区別して強調表示する、
文書情報抽出システム。
The document information extraction system according to claim 3,
the parameter setting receiving unit highlights the portion of the evaluation target feature in the sentence to be displayed, distinguishing the portion for each of the action types of the evaluation target feature.
Document information extraction system.
請求項4に記載の文書情報抽出システムであって、
前記パラメータ設定受付部は、表示する前記文章における前記評価対象特徴量の部分を、前記評価対象特徴量の前記作用種別ごとに異なる文字飾りもしくは異なる色を付すことにより区別して強調表示する、
文書情報抽出システム。
The document information extraction system according to claim 4,
the parameter setting receiving unit highlights the portion of the evaluation target feature in the text to be displayed by applying different character decoration or different colors for each of the action types of the evaluation target feature.
Document information extraction system.
請求項1に記載の文書情報抽出システムであって、
前記パラメータ設定受付部は、前記評価対象特徴量により前記文書から抽出した情報の抽出に作用した他の特徴量を更に表示する、
文書情報抽出システム。
The document information extraction system according to claim 1,
the parameter setting receiving unit further displays other feature quantities that have influenced the extraction of information extracted from the document by the evaluation target feature quantity.
Document information extraction system.
請求項1に記載の文書情報抽出システムであって、
前記パラメータ設定受付部は、前記評価対象特徴量により前記文書から抽出した情報を更に表示する、
文書情報抽出システム。
The document information extraction system according to claim 1,
the parameter setting receiving unit further displays information extracted from the document based on the evaluation target feature.
Document information extraction system.
請求項に記載の文書情報抽出システムであって、
前記作用種別は、前記特徴量が前記文書群から抽出すべき情報を抽出するように作用することを示す正性、前記特徴量が前記文書群から抽出すべきでない情報を抽出しないように作用することを示す負性、前記特徴量の作用が前記正性および前記負性のいずれにも該当しない中性、のうちの少なくともいずれかを含む、
文書情報抽出システム。
The document information extraction system according to claim 1 ,
The action type includes at least one of a positive type indicating that the feature quantity acts to extract information that should be extracted from the document group, a negative type indicating that the feature quantity acts to prevent information that should not be extracted from the document group from being extracted, and a neutral type indicating that the action of the feature quantity does not fall into either the positive type or the negative type.
Document information extraction system.
請求項に記載の文書情報抽出システムであって、
前記特徴量表示優先度設定部は、前記正性の前記作用種別に分類されている前記評価対象特徴量について、前記文書群における、前記評価対象特徴量と作用種別が共通する他の特徴量との類似度が高く、前記他の特徴量との共起度が高く、現在設定されている重みが小さい程、前記特徴量表示優先度を高く設定する、
文書情報抽出システム。
The document information extraction system according to claim 8 ,
the feature display priority setting unit sets, for the evaluation target feature classified into the positive action type, a feature display priority higher as the evaluation target feature has a higher similarity with other feature quantities having a common action type in the document group, the co-occurrence with the other feature quantities is higher, and the currently set weight is smaller;
Document information extraction system.
請求項に記載の文書情報抽出システムであって、
前記特徴量表示優先度設定部は、前記負性の前記作用種別に分類されている前記評価対象特徴量について、前記文書群における、前記評価対象特徴量と作用種別が共通する他の特徴量との類似度が高く、前記他の特徴量との共起度が高く、現在設定されている重みが大きい程、前記特徴量表示優先度を高く設定する、
文書情報抽出システム。
The document information extraction system according to claim 8 ,
the feature display priority setting unit sets, for the evaluation target feature classified into the negative action type, a feature display priority higher as a similarity between the evaluation target feature and other feature quantities having a common action type in the document group increases, a co-occurrence with the other feature quantities increases, and a currently set weight increases.
Document information extraction system.
請求項に記載の文書情報抽出システムであって、
前記特徴量表示優先度設定部は、前記中性の前記作用種別に分類されている前記評価対象特徴量について、前記文書群における、前記評価対象特徴量と作用種別が共通する他の特徴量との類似度が高く、前記他の特徴量との共起度が高く、現在設定されている重みが大きい程、前記特徴量表示優先度を高く設定する、
文書情報抽出システム。
The document information extraction system according to claim 8 ,
the feature display priority setting unit sets, for the evaluation target feature classified into the neutral action type, a feature display priority higher as a similarity between the evaluation target feature and other feature quantities having a common action type in the document group increases, a co-occurrence with the other feature quantities increases, and a currently set weight increases.
Document information extraction system.
請求項1に記載の文書情報抽出システムであって、
前記情報は、単語または単語の関連語である、
文書情報抽出システム。
The document information extraction system according to claim 1,
The information is a word or a related word of a word.
Document information extraction system.
情報処理装置が、
文書群を管理するステップ、
機械学習のモデルを用いて前記文書群の文書から情報を抽出するステップ、
前記モデルのパラメータを構成する複数の特徴量と、前記特徴量の夫々について前記情報を抽出する際の作用の特性を示す情報である作用種別と、を記憶するステップ、
前記複数の特徴量のうち評価の対象とする特徴量である評価対象特徴量と、前記評価対象特徴量の抽出元の1つ以上の文章と、前記評価対象特徴量に現在設定されている重みと、を表示しつつ、前記評価対象特徴量の前記作用種別または前記重みの設定を受け付けるステップ、
受け付けた前記作用種別または前記重みに基づき前記パラメータを更新するステップ
前記評価対象特徴量の夫々について、前記文書群における前記評価対象特徴量と前記作用種別が共通する他の前記特徴量との類似度、前記文書群における前記他の特徴量との共起度、前記評価対象特徴量に現在設定されている重み、および前記評価対象特徴量の前記文書群における出現頻度、のうちの少なくともいずれかに基づき前記評価対象特徴量を表示する優先度である特徴量表示優先度を求めるステップ、および、
前記特徴量表示優先度に従って前記評価対象特徴量を表示しつつ前記評価対象特徴量の前記作用種別または前記重みの設定を受け付けるステップ、
を実行する、文書情報抽出方法。
An information processing device,
Managing a collection of documents;
extracting information from documents of the document set using a machine learning model;
A step of storing a plurality of feature quantities constituting parameters of the model and an action type which is information indicating characteristics of an action when extracting the information for each of the feature quantities;
a step of accepting a setting of the action type or the weight of the evaluation target feature while displaying an evaluation target feature which is a feature to be evaluated among the plurality of feature amounts, one or more sentences from which the evaluation target feature is extracted, and a weight currently set for the evaluation target feature;
updating the parameters based on the received action type or weight ;
determining, for each of the features to be evaluated, a feature display priority which is a priority for displaying the feature to be evaluated based on at least one of a similarity between the feature to be evaluated and other features having the same action type in the document set, a co-occurrence with the other features in the document set, a weight currently set for the feature to be evaluated, and an appearance frequency of the feature to be evaluated in the document set; and
a step of receiving a setting of the action type or the weight of the evaluation target feature quantity while displaying the evaluation target feature quantity in accordance with the feature quantity display priority;
A document information extraction method.
JP2021050108A 2021-03-24 2021-03-24 Document information extraction system and document information extraction method Active JP7621852B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021050108A JP7621852B2 (en) 2021-03-24 2021-03-24 Document information extraction system and document information extraction method
PCT/JP2021/029973 WO2022201578A1 (en) 2021-03-24 2021-08-17 Document information extraction system and document information extraction method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021050108A JP7621852B2 (en) 2021-03-24 2021-03-24 Document information extraction system and document information extraction method

Publications (2)

Publication Number Publication Date
JP2022148430A JP2022148430A (en) 2022-10-06
JP7621852B2 true JP7621852B2 (en) 2025-01-27

Family

ID=83396663

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021050108A Active JP7621852B2 (en) 2021-03-24 2021-03-24 Document information extraction system and document information extraction method

Country Status (2)

Country Link
JP (1) JP7621852B2 (en)
WO (1) WO2022201578A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7352249B1 (en) 2023-05-10 2023-09-28 株式会社Fronteo Information processing device, information processing system, and information processing method

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020170427A (en) 2019-04-05 2020-10-15 株式会社日立製作所 Model creation supporting method and model creation supporting system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020170427A (en) 2019-04-05 2020-10-15 株式会社日立製作所 Model creation supporting method and model creation supporting system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
照屋 絵理 外2名,業務改善に向けたダークデータ活用技術 Dark Data Utilization for Improvements of Business Operations,FIT2019 第18回情報科学技術フォーラム 講演論文集 第2分冊 選奨論文・一般論文 データベース 自然言語・音声・音楽 人工知能・ゲーム 生体情報科学 Forum on Information Technology 2019,一般社団法人情報処理学会 一般社団法人電子情報通信学会 InformationProcessingSocietyofJapan,TheInstituteofElectronics,InformationandCommunicationEngineers ,2019年08月20日,pp.241-242

Also Published As

Publication number Publication date
JP2022148430A (en) 2022-10-06
WO2022201578A1 (en) 2022-09-29

Similar Documents

Publication Publication Date Title
Shahade et al. Multi-lingual opinion mining for social media discourses: an approach using deep learning based hybrid fine-tuned smith algorithm with adam optimizer
US9483460B2 (en) Automated formation of specialized dictionaries
US9916304B2 (en) Method of creating translation corpus
JP7164701B2 (en) Computer-readable storage medium storing methods, apparatus, and instructions for matching semantic text data with tags
US10713571B2 (en) Displaying quality of question being asked a question answering system
US9244909B2 (en) System and method for extracting ontological information from a body of text
US10180935B2 (en) Identifying multiple languages in a content item
Kirsner et al. Record-based word recognition
Boros et al. Assessing the impact of OCR noise on multilingual event detection over digitised documents
Rizvi et al. Optical character recognition system for Nastalique Urdu-like script languages using supervised learning
CN108319583B (en) Method and system for extracting knowledge from Chinese language material library
JP2014120053A (en) Question answering device, method, and program
CN111931500A (en) Search information processing method and device
CN105573990B (en) Foreign language sentence production support device and method
US20190303437A1 (en) Status reporting with natural language processing risk assessment
US7877383B2 (en) Ranking and accessing definitions of terms
JP2019121139A (en) Summarizing device, summarizing method, and summarizing program
Thomas Natural language processing with spark NLP: learning to understand text at scale
Scharkow Content analysis, automatic
US20240242026A1 (en) Synonym determination system and synonym determination method
CN103324607A (en) Method and device for word segmentation of Thai texts
JP4979637B2 (en) Compound word break estimation device, method, and program for estimating compound word break position
Isasi Sentiment Analysis with'syuzhet'using R
CN121092717B (en) An Adaptive Public Opinion Data Classification Method and System for Open Domain
JP7621852B2 (en) Document information extraction system and document information extraction method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230606

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240820

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240930

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20241217

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250115

R150 Certificate of patent or registration of utility model

Ref document number: 7621852

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150