JP7625201B2 - Knowledge model creation support device - Google Patents
Knowledge model creation support device Download PDFInfo
- Publication number
- JP7625201B2 JP7625201B2 JP2021028205A JP2021028205A JP7625201B2 JP 7625201 B2 JP7625201 B2 JP 7625201B2 JP 2021028205 A JP2021028205 A JP 2021028205A JP 2021028205 A JP2021028205 A JP 2021028205A JP 7625201 B2 JP7625201 B2 JP 7625201B2
- Authority
- JP
- Japan
- Prior art keywords
- term
- relationship
- terms
- unit
- document data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、知識モデル作成支援装置に関するものである。 The present invention relates to a knowledge model creation support device.
特許文献1には、工学、医学、薬学、農学、生物学等の諸分野における熟練者による知識を記述した知識モデルの構築システムが記載されている。知識モデルは、当該分野のキーワードとなる用語を因子として、因子をネットワーク形態で相互接続することによって当該分野の用語とその関係性とを表現したものである。特許文献2には、機械加工分野における知識モデルに関する記載がされている。
作業者は、知識モデルの作成において、因子を定義する用語を抽出した上で、当該用語同士の関係性を把握する必要がある。しかし、用語の抽出、抽出した用語同士の関係性の把握は、人手による設定、特に熟練者による設定が必要であるため、知識モデルの作成が容易ではない。 When creating a knowledge model, workers need to extract terms that define factors and then understand the relationships between those terms. However, extracting terms and understanding the relationships between the extracted terms requires manual setup, particularly by an experienced person, so creating a knowledge model is not easy.
本発明は、知識モデルを容易に作成することができる知識モデル作成支援装置を提供することを目的とする。 The present invention aims to provide a knowledge model creation support device that can easily create knowledge models.
本発明の一態様は、用語により定義された複数の因子と前記因子同士の関係性情報とにより構成された知識モデルの作成を支援する装置であって、
複数の用語と前記複数の用語の関係性とを含む用語-関係性データベースと、
用語-関係性抽出モデルを用いて文書データから前記用語及び前記関係性を抽出することにより、前記用語-関係性データベースを作成する用語-関係性データベース作成部と、
前記用語-関係性データベースに基づいて前記知識モデルを作成する知識モデル作成部と、を備え、
前記用語-関係性抽出モデルは、
前記文書データを取得する文書データ取得部と、
前記文書データより用語の抽出を行う用語抽出部と、
2用語間の関係性を導くトリガワードを記憶するトリガワード記憶部と、
前記用語抽出部にて抽出された用語から用語のペア情報を作成するペア抽出部と、
前記文書データに前記トリガワードが含まれる場合、前記用語抽出部により抽出された2つの用語の関係性を前記トリガワード及び前記ペア情報に基づいて抽出する関係性抽出部と、を備え、
前記文書データは、複数の用語を内包する入れ子構造を含み、
前記入れ子構造は、複数の内包用語と前記複数の内包用語を結合した入れ子外部用語とにより構成される構造であり、
前記用語抽出部は、前記文書データに前記入れ子構造が含まれる場合、前記文書データより、前記入れ子構造において前記内包用語及び前記入れ子外部用語の抽出を行い、
前記ペア抽出部は、前記文書データに前記入れ子構造が含まれる場合、前記入れ子構造において前記内包用語を利用せず前記入れ子外部用語のみを利用して前記ペア情報を作成し、
前記関係性抽出部は、前記文書データに前記入れ子構造が含まれる場合、前記入れ子構造における前記入れ子外部用語を関係性抽出対象とし、前記内包用語を関係性抽出対象としない、知識モデル作成支援装置にある。
One aspect of the present invention is an apparatus for supporting the creation of a knowledge model that is configured with a plurality of factors defined by terms and relationship information between the factors, the apparatus comprising:
a term-relationship database including a plurality of terms and relationships of the plurality of terms;
a term-relationship database creation unit that creates the term-relationship database by extracting the terms and the relationships from document data using a term-relationship extraction model;
a knowledge model creation unit that creates the knowledge model based on the term-relationship database,
The term-relationship extraction model is
a document data acquisition unit for acquiring the document data;
a term extraction unit that extracts terms from the document data;
a trigger word storage unit for storing a trigger word that leads to a relationship between two terms;
a pair extraction unit that creates term pair information from the terms extracted by the term extraction unit;
a relationship extraction unit that extracts a relationship between the two terms extracted by the term extraction unit based on the trigger word and the pair information when the trigger word is included in the document data ,
the document data includes a nested structure including a plurality of terms;
The nested structure is a structure that is composed of a plurality of inclusive terms and a nested outer term that combines the plurality of inclusive terms,
the term extraction unit extracts, when the document data includes the nested structure, the inclusive term and the nested outer term in the nested structure from the document data;
when the document data includes a nested structure, the pair extraction unit creates the pair information by using only the nested outer term in the nested structure without using the inclusive term in the nested structure;
The relationship extraction unit is in a knowledge model creation support device that, when the document data includes the nested structure, treats the nested outer term in the nested structure as a relationship extraction target and does not treat the inclusive term as a relationship extraction target.
本発明の他の態様は、用語により定義された複数の因子と前記因子同士の関係性情報とにより構成された知識モデルの作成を支援する装置であって、Another aspect of the present invention is an apparatus for supporting creation of a knowledge model that is configured by a plurality of factors defined by terms and relationship information between the factors, the apparatus comprising:
複数の用語と前記複数の用語の関係性とを含む用語-関係性データベースと、a term-relationship database including a plurality of terms and relationships of the plurality of terms;
用語-関係性抽出モデルを用いて文書データから前記用語及び前記関係性を抽出することにより、前記用語-関係性データベースを作成する用語-関係性データベース作成部と、a term-relationship database creation unit that creates the term-relationship database by extracting the terms and the relationships from document data using a term-relationship extraction model;
前記用語-関係性データベースに基づいて前記知識モデルを作成する知識モデル作成部と、を備え、a knowledge model creation unit that creates the knowledge model based on the term-relationship database,
前記用語-関係性抽出モデルは、The term-relationship extraction model is
前記文書データを取得する文書データ取得部と、a document data acquisition unit for acquiring the document data;
前記文書データ取得部により取得された前記文書データを構成する各トークンに基づいて前記文書データの特徴をベクトルにて表現した特徴表現を生成する特徴表現生成部と、a feature representation generating unit that generates a feature representation in which a feature of the document data is expressed as a vector based on each token constituting the document data acquired by the document data acquiring unit;
前記文書データより用語の抽出を行う用語抽出部と、a term extraction unit that extracts terms from the document data;
2用語間の関係性を導くトリガワードを記憶するトリガワード記憶部と、a trigger word storage unit for storing a trigger word that leads to a relationship between two terms;
前記文書データに前記トリガワードが含まれる場合、前記用語抽出部により抽出された2つの用語の関係性を前記トリガワードに基づいて抽出する関係性抽出部と、を備え、a relationship extraction unit that extracts a relationship between two terms extracted by the term extraction unit based on the trigger word when the trigger word is included in the document data,
前記用語抽出部及び前記関係性抽出部は、前記特徴表現生成部により生成された前記特徴表現を共有して、前記用語の抽出及び前記関係性の抽出を行う、知識モデル作成支援装置にある。The term extraction unit and the relationship extraction unit are in a knowledge model creation support device that extracts the terms and the relationships by sharing the characteristic expressions generated by the characteristic expression generation unit.
上記知識モデル作成支援装置によれば、文書データから用語及び用語同士の関係性を抽出する用語-関係性抽出モデルを用いて、用語-関係性データベースを作成する。まず、用語-関係性抽出モデルは、文書データから用語を自動的に抽出する。さらに、用語-関係性抽出モデルは、2用語間の関係性を導くトリガワードを予め記憶しておき、文書データに当該トリガワードが含まれる場合に、2つの用語の関係性をトリガワードに基づいて抽出する。このように、用語-関係性抽出モデルは、文書データから用語を自動的に抽出することができると共に、予め設定されたトリガワードを考慮して、文書データに含まれる用語同士の関係性を自動的に抽出することができる。従って、人手によらず、用語-関係性データベースを作成することができる。そして、用語-関係性データベースが作成できれば、用語-関係性データベースを参照して知識モデルを作成することができるため、知識モデルを容易に作成することができる。 According to the above knowledge model creation support device, a term-relationship database is created using a term-relationship extraction model that extracts terms and relationships between terms from document data. First, the term-relationship extraction model automatically extracts terms from document data. Furthermore, the term-relationship extraction model pre-stores trigger words that lead to relationships between two terms, and when the document data contains the trigger words, extracts the relationship between the two terms based on the trigger words. In this way, the term-relationship extraction model can automatically extract terms from document data, and can automatically extract relationships between terms contained in the document data by taking into account the preset trigger words. Therefore, the term-relationship database can be created without manual work. Then, once the term-relationship database has been created, a knowledge model can be created by referring to the term-relationship database, and therefore the knowledge model can be easily created.
(1.知識モデルの概要)
知識モデルは、任意分野の情報に係る知識を所定の形式で記述して格納するものである。即ち、知識モデルは、主として、当該分野の用語により定義された複数の因子と、因子同士の関係性情報とにより構成される。例えば、知識モデルは、技術分野に関する知識とする。
(1. Overview of the knowledge model)
A knowledge model describes and stores knowledge related to information in a given field in a specified format. That is, a knowledge model is mainly composed of multiple factors defined by the terminology of the field and information on the relationships between the factors. For example, the knowledge model may be knowledge related to a technical field.
知識モデルは、例えば、因子に関する情報を有するデータと、関係性情報を有するデータとにより表される。知識モデルは、概念としては、複数の因子がネットワーク形態で相互に繋がれることによって因子同士の関係性が表現される。つまり、知識モデルは、各種技術分野における知識(ノウハウを含む)を形式知として格納しており、更新も可能である。 A knowledge model is represented, for example, by data containing information about factors and data containing relationship information. Conceptually, a knowledge model expresses the relationships between multiple factors by connecting them to each other in the form of a network. In other words, a knowledge model stores knowledge (including know-how) in various technical fields as explicit knowledge, and can also be updated.
技術分野としては、工学、医学、薬学、農学、生物学等の諸分野を対象とすることができる。特に、技術分野には、工学分野に含まれる機械加工分野を挙げることができる。ここで、機械加工分野には、例えば、切削加工や研削加工が含まれる。又、知識モデルは、特に、各技術分野における熟練者による技術情報に関する知識を記述することが有用である。 Technical fields include engineering, medicine, pharmacy, agriculture, biology, and other fields. In particular, technical fields include the field of machining, which is included in the field of engineering. Here, the field of machining includes, for example, cutting and grinding. Furthermore, it is particularly useful for the knowledge model to describe knowledge about technical information held by experts in each technical field.
例えば、機械加工分野において、作業者は、工作物の材質、工具の材質、加工精度、加工サイクルタイム等の種々の情報を考慮して、加工条件としての切削速度、切込量等を決定する。この場合、作業者が、工作物の材質、工具の材質、加工精度、加工サイクルタイム等の種々の情報を入力情報として、加工条件としての切削速度、切込量等を決定するに際して、作業者の思考過程をモデル化したものが、知識モデルである。 For example, in the field of machining, an operator determines the cutting speed, depth of cut, and other machining conditions by taking into account various information such as the material of the workpiece, the material of the tool, the machining accuracy, and the machining cycle time. In this case, the knowledge model is a model of the operator's thought process when the operator determines the cutting speed, depth of cut, and other machining conditions by inputting various information such as the material of the workpiece, the material of the tool, the machining accuracy, and the machining cycle time.
つまり、知識モデルは、工作物の材質、工具の材質、加工要件(加工精度や加工サイクルタイム等)、切削速度、切込量等に加えて、思考過程において登場する技術要素がそれぞれ因子として定義され、因子同士の関係性が定義されている。 In other words, in addition to the workpiece material, tool material, machining requirements (machining accuracy, machining cycle time, etc.), cutting speed, cutting depth, etc., the knowledge model defines each of the technical elements that appear in the thought process as factors, and defines the relationships between the factors.
知識モデルは、例えば、以下のように利用される。作業者が、知識モデルにおいて工作物の材質、工具の材質、加工要件(加工精度や加工サイクルタイム等)を入力因子として、当該入力因子について必要な情報を入力した場合に、出力因子としての切削速度及び切込量等に関する情報が出力される。 For example, the knowledge model is used as follows: When an operator inputs the necessary information about the workpiece material, tool material, and machining requirements (machining accuracy, machining cycle time, etc.) as input factors in the knowledge model, information about the cutting speed, cutting depth, etc. as output factors is output.
(2.知識ネットワーク図100の例)
知識モデルは、上述したように、概念としては、ネットワーク形態で表現される。知識モデルをネットワーク図で表現した知識ネットワーク図100の例について、図1を参照して説明する。本例では、機械加工分野における知識モデルに関する知識ネットワーク図100を例に挙げる。
(2. Example of knowledge network diagram 100)
As described above, the knowledge model is conceptually expressed in the form of a network. An example of a knowledge network diagram 100 in which a knowledge model is expressed in the form of a network diagram will be described with reference to Fig. 1. In this example, a knowledge network diagram 100 relating to a knowledge model in the field of machining will be taken as an example.
図1に示すように、知識ネットワーク図100は、複数のノード図形110と、ノード図形110同士を繋ぐリンク図形120とを備える。ノード図形110は、ボックス等の任意の図形、テキストを含む図形、アイコン等で表される。ノード図形110は、知識モデルにおける因子を表す。リンク図形120は、直線、曲線、カギ線等で表される。本例では、リンク図形120は、関係性に関する方向性を規定するために矢印線にて表す。リンク図形120は、知識モデルにおける因子同士を繋ぐ関係性を表す。なお、図1に示す知識ネットワーク図100においては、ノード図形110は、全てテキストが記述可能なボックスにて表しており、リンク図形120は、矢印線にて表している。 As shown in FIG. 1, the knowledge network diagram 100 comprises a plurality of node figures 110 and link figures 120 that connect the node figures 110 to each other. The node figures 110 are represented by any figure such as a box, a figure including text, an icon, etc. The node figures 110 represent factors in the knowledge model. The link figures 120 are represented by straight lines, curves, hook lines, etc. In this example, the link figures 120 are represented by arrow lines to specify the directionality of the relationships. The link figures 120 represent relationships that connect factors in the knowledge model. In the knowledge network diagram 100 shown in FIG. 1, the node figures 110 are all represented by boxes in which text can be written, and the link figures 120 are represented by arrow lines.
ここで、因子は、技術用語により定義されている。そして、複数の因子は、技術的な包含関係(上下関係、親子関係、主従関係とも称する)を有する場合、技術的な異種関係を有する場合がある。つまり、因子同士の関係性は、上記の2種類に分類される。 Here, factors are defined by technical terms. In addition, multiple factors may have technical inclusion relationships (also called hierarchical relationships, parent-child relationships, or master-slave relationships) or may have technical heterogeneous relationships. In other words, the relationships between factors are classified into the two types mentioned above.
例えば、被削材諸元に、被削材熱特性、被削材硬度、被削材伸び等を包含する関係にある。つまり、技術的な包含関係を有する因子として、被削材諸元を上位概念因子とし、被削材熱特性、被削材硬度、被削材伸び等を下位概念因子とする。例えば、技術的に異種関係を有する因子として、被削材熱特性と要求工具耐熱性等である。以下において、技術的な包含関係を有する2つの因子の関係性を、単に包含関係と称し、技術的な異種関係を有する2つの因子の関係性を、単に異種関係と称する。 For example, the workpiece specifications include the thermal properties of the workpiece, hardness of the workpiece, elongation of the workpiece, etc. In other words, as factors having a technical inclusion relationship, the workpiece specifications are the higher-level conceptual factors, and the thermal properties of the workpiece, hardness of the workpiece, elongation of the workpiece, etc. are the lower-level conceptual factors. For example, factors having a technically heterogeneous relationship include the thermal properties of the workpiece and the required heat resistance of the tool. In what follows, the relationship between two factors having a technical inclusion relationship will be referred to simply as an inclusion relationship, and the relationship between two factors having a technically heterogeneous relationship will be referred to simply as a heterogeneous relationship.
そして、リンク図形120については、包含関係を表す第一リンク図形121と、異種関係を表す第二リンク図形122とを、区別して表示する。つまり、第一リンク図形121と第二リンク図形122とは、異なる表示方法にて表示される。 Then, for the link graphic 120, the first link graphic 121, which represents an inclusive relationship, and the second link graphic 122, which represents a heterogeneous relationship, are displayed separately. In other words, the first link graphic 121 and the second link graphic 122 are displayed in different ways.
図1では、包含関係を表す第一リンク図形121は、上位概念因子の領域を示す枠線で表しており、下位概念因子が、第一リンク図形121を表す枠線の中に配置される。なお、第一リンク図形121は、枠線の他に、上下に近接して配置され左右に僅かにずらして配置されたノード図形110間を繋ぐL字形で表しても良い。この場合、第一リンク図形121にて繋がれた2つのノード図形110において、上に位置するノード図形110が、上位概念因子に相当する。
In FIG. 1, the first link graphic 121, which indicates an inclusion relationship, is represented by a frame line indicating the area of the superordinate conceptual factor, and the subordinate conceptual factor is arranged within the frame line representing the
又、図1では、異種関係を表す第二リンク図形122は、任意の位置(上下左右)に離れて配置されたノード図形110間を繋ぐ、直線、折れ線等で表す。第二リンク図形122は、因子同士の定義の方向性を表す矢印線にて示す。
In addition, in FIG. 1, the second link graphic 122 representing the heterogeneous relationship is represented by a straight line, a broken line, or the like, connecting the
(3.知識モデル作成支援装置1の構成)
知識モデル作成支援装置1は、上述した知識モデルを作成するための支援装置である。知識モデル作成支援装置1の構成について図2を参照して説明する。
(3. Configuration of knowledge model creation support device 1)
The knowledge model
知識モデル作成支援装置1は、第一DB作成部2、第一DB3、第二DB作成部4、第二DB5、第三DB作成部6、第三DB7、知識モデル作成部8を備える。DBは、データベースの略語である。知識モデル作成支援装置1は、3つのDB作成部2,4,6及び3つのDB3,5,7を備える構成としたが、1つずつとしても良いし、2つずつとしても良いし、4以上ずつとしても良い。
The knowledge model
第一DB作成部2は、後述する用語-関係性抽出モデルを用いて文書データ(テキストデータ)から、複数の用語及び用語同士の関係性を抽出することにより、用語-関係性DBである第一DB3を作成する。つまり、第一DB作成部2では、文書データ(テキストデータ)が入力されると、用語-関係性抽出モデルが実行されることにより、自動的に、複数の用語及び用語同士の関係性が抽出される。第一DB3は、第一DB作成部2により作成された用語及び関係性を記憶する。ここでの用語とは、上述した知識モデルにおける因子を作成するために利用可能な情報であって、関係性とは、上述した知識モデルにおける因子同士の関係性情報を作成するために利用可能な情報である。
The first
第二DB作成部4は、第一DB作成部2を構成する用語-関係性抽出モデルとは異なるモデル、例えば、word2vecにより構成される。第二DB作成部4は、word2vecを用いて、文書データから、複数の用語間の関係性を抽出することにより、第二DB5を作成する。第二DB5は、第二DB作成部4により作成された関係性を記憶する。
The second
第三DB作成部6は、第一DB作成部2及び第二DB作成部4を構成するモデルとは異なるモデル、例えば、公知の知識グラフにより構成される。第三DB作成部6は、知識グラフを用いて、文書データから、複数の用語間の関係性を抽出することにより、第三DB7を作成する。第三DB7は、第三DB作成部6により作成された関係性を記憶する。
The third
知識モデル作成部8は、第一DB3に記憶されている用語と用語間の関係性を用い、さらに第二DB5、第三DB7の各々に記憶されている用語間の関係性を補助として用いて、知識モデルを作成する。例えば、知識モデル作成部8は、第一DB3に記憶されている複数の用語を因子候補とする。そして、知識モデル作成部8は、各DB3,5,7を利用して、登録する因子を配置する場所の候補を挙げたり、着目因子と関係性を有する因子候補を挙げたり、既に作成された知識モデルの検証等をしたりする。知識モデル作成部8は、一部において自動的に行うことができ、他の一部は人が行う。ただし、知識モデル作成部8において、知識モデル作成を完全自動化することも可能である。
The knowledge
(4.第一DB3の例)
第一DB(用語-関係性DB)の例について、図3及び図4を参照して説明する。図3に示すように、第一DB3は、参照用語Aと、参照用語Aと関係性を有する関係用語Bと、参照用語Aと関係用語Bとの関係性を表す関係ラベルとを記憶する。例えば、参照用語AとしてW1は、W2,W4,W10と関係性を有しており、それぞれの関係性(関係ラベル)は、Positive、Negative、Positiveである。
(4. Example of first DB3)
An example of the first DB (term-relationship DB) will be described with reference to Figures 3 and 4. As shown in Figure 3, the
関係ラベルは、図4に示すように、例えば、Positive、Negative、Sub、Relationの4種類を定義する。Positiveは、参照用語Aが大きくなれば、関係用語Bが大きくなる関係を表す。Negativeは、参照用語Aが大きくなれば、関係用語Bが小さくなる関係を表す。Subは、参照用語Aが関係用語Bの一種である関係を表す。Relationは、参照用語Aが関係用語Bと何らかの定性的な関係があることを表す。なお、関係ラベルは、上記4種類に限るものではなく、他の種類を含むようにしても良く、自由に設定可能である。 As shown in FIG. 4, four types of relationship labels are defined: Positive, Negative, Sub, and Relation. Positive represents a relationship in which the larger the reference term A, the larger the related term B. Negative represents a relationship in which the larger the reference term A, the smaller the related term B. Sub represents a relationship in which the reference term A is a type of related term B. Relation represents a qualitative relationship between the reference term A and the related term B. Note that the relationship labels are not limited to the above four types, and may include other types and can be freely set.
(5.第一DB作成部2の構成)
第一DB作成部2の構成について図5-図7を参照して説明する。第一DB作成部2は、用語-関係性抽出モデルにより構成される。第一DB作成部2は、図5に示すように、文書データ取得部11、特徴表現生成部12、用語抽出部13、用語出力部14、トリガワード記憶部15、ペア抽出部16、関係性抽出部17、関係性出力部18を備える。
(5. Configuration of First DB Creation Unit 2)
The configuration of the first
文書データ取得部11は、文書データをテキストデータとして取得する。特徴表現生成部12は、文書データ取得部11にて取得した文書データを構成する各トークンに基づいて、文書データの特徴をベクトルにて表現した特徴表現を生成する。用語抽出部13は、文書データより用語の抽出を行う。詳細には、用語抽出部13は、特徴表現生成部12により生成された特徴表現を用いて、文書データに含まれる用語の抽出を行う。用語出力部14は、用語抽出部13にて抽出された用語を出力する。
The document
ここで、用語抽出部13は、入れ子構造20を考慮した用語の抽出を行う。入れ子構造について、図6を参照して説明する。入れ子構造20とは、用語が用語を内包する構造のことである。入れ子構造20は、複数の内包用語22,23と、複数の内包用語22,23を結合した入れ子外部用語21とにより構成される。
Here, the
例えば、「切削加工」という機械加工用語は、「切削」と「加工」機械加工用語を内包している。この場合、「切削加工」が入れ子外部用語21であり、「切削」、「加工」が内包用語22,23である。入れ子構造を構成する入れ子外部用語21と内包用語22,23とは、例えば、上位下位の関係、属性関係、主述関係等を有する。
For example, the machining term "cutting" contains the machining terms "cutting" and "processing". In this case, "cutting" is the nested
取得された文書データの一文の例として、「切削速度が増加すると切削温度が増す。」について説明する。当該例文において、用語抽出部13は、「切削速度」、「切削」、「速度」、「増加」、「切削温度」、「温度」、「増す」の用語が抽出される。つまり、入れ子外部用語21としての「切削速度」及び「切削温度」が抽出されると共に、内包用語22,23としての「切削」、「速度」、「温度」が抽出される。
As an example of a sentence from the acquired document data, "When the cutting speed increases, the cutting temperature increases." will be described. In this example sentence, the
トリガワード記憶部15は、予め設定されたトリガワードを記憶する。トリガワードは、2用語間の関係性を導くキーワードである。トリガワードは、物理量を表す用語の変化を表すキーワード等である。トリガワード記憶部15は、例えば、図7に示すように、「増加する」、「減少する」、「増す」、「減る」、「上がる」、「下がる」、「含む」等である。
The trigger
取得された文書データの一文の例として、「切削速度が増加すると切削温度が増す。」について説明する。当該例文において、トリガワードは、「増加する」、「増す」である。そして、当該トリガワードは、2用語としての「切削速度」と「切削温度」とが、一方が大きくなれば、他方が大きくなるという関係(Positiveの関係ラベル)を導くことができるキーワードである(図4参照)。 As an example of a sentence from the acquired document data, we will explain "When the cutting speed increases, the cutting temperature increases." In this example sentence, the trigger words are "increase" and "increase." The trigger words are keywords that can derive a relationship (positive relationship label) between the two terms "cutting speed" and "cutting temperature" in which if one increases, the other increases (see Figure 4).
ペア抽出部16は、用語抽出部13にて抽出された用語からペアを作成し、後述する関係性抽出部17にて利用されるデータに整形する。用語抽出部13においては入れ子構造20を構成する場合には、入れ子外部用語21と内包用語22,23とを抽出したが、ペア抽出部16においては、最も大きな入れ子外部用語21のみを利用し、内包用語22,23は利用しない。ペア抽出部16においては、ペア作成対象の用語の数がn個の場合、nC2個のペアが作成される。
The
関係性抽出部17は、文書データにトリガワードが含まれる場合、用語抽出部13により抽出された2つの用語の関係性を、トリガワードに基づいて抽出する。関係性抽出部17は、関係性抽出において、トリガワード記憶部15に記憶されたトリガワード、及び、ペア抽出部16にて作成された用語のペア情報を用いる。従って、関係性抽出部17は、文書データに入れ子構造20(図6に示す)が含まれる場合、入れ子構造20における入れ子外部用語21を関係性抽出対象とし、内包用語22,23を関係性抽出対象としないこととなる。
When the document data contains a trigger word, the
さらに、関係性抽出部17は、特徴表現生成部12により生成された特徴表現を用いて、2つの用語の関係性を抽出する。つまり、上述した用語抽出部13と当該関係性抽出部17とは、特徴表現生成部12により生成された特徴表現を共有して、用語の抽出及び関係性の抽出を行う。関係性出力部18は、関係性抽出部17により抽出された用語同士の関係性を出力する。
Furthermore, the
(6.用語-関係性抽出モデルの詳細構成)
第一DB作成部2を構成する用語-関係性抽出モデルの詳細構成について図8を参照して説明する。図8には、特徴表現生成部12、用語抽出部13、ペア抽出部16、関係性抽出部17を示す。例文として、「切削速度が増加すると切削温度が増し、・・」を挙げて説明する。
(6. Detailed configuration of term-relationship extraction model)
A detailed configuration of the term-relationship extraction model constituting the first
(6-1.特徴表現生成部12)
特徴表現生成部12は、用語抽出部13と関係性抽出部17とに対する共有部を構成する。特徴表現生成部12は、取得した文書データを、トークンに分割し、トークン列xを取得する。例えば、「切」、「削」、「速度」等が、それぞれ1つのトークンである。続いて、トークン列xからトークン表現H1を取得する。トークン表現H1は、トークン列xに対応するベクトルの列にて表現される。トークン表現H1の取得には、トークン列xに対する事前学習モデルを用いる。例えば、事前学習モデルの1つであるBERT(Bidirectional Encoder Representations from Transformers)を用いて、式(1)に示すように、トークン表現H1を取得する。
(6-1. Feature Representation Generation Unit 12)
The feature
続いて、取得したトークン表現H1を畳み込みニューラルネットワーク(CNN)の入力として、式(2)に示すように、中間表現H2を取得する。本例では、中間表現H2が、特徴表現生成部12にて生成される特徴表現に相当する。
Then, the acquired token representation H1 is used as an input to a convolutional neural network (CNN) to acquire an intermediate representation H2 as shown in formula (2). In this example, the intermediate representation H2 corresponds to the feature representation generated by the feature
中間表現H2は、設定されたパラメータを用いて生成される。ここで、中間表現H2は、用語の抽出と関係性の抽出の両者に用いる表現である。従って、後述するが、学習フェーズにおいて、用語抽出部13により用語の抽出において発生する用語抽出損失と関係性抽出部17により関係性の抽出において発生する関係性抽出損失とに基づいて学習する。つまり、用語抽出と関係性抽出のそれぞれで発生する損失を用いて、中間表現H2を生成するためのパラメータが更新される。
The intermediate representation H2 is generated using the set parameters. Here, the intermediate representation H2 is a representation used for both term extraction and relationship extraction. Therefore, as will be described later, in the learning phase, learning is performed based on the term extraction loss generated in the term extraction by the
(6-2.用語抽出部13)
用語抽出部13は、入れ子構造20を構成する入れ子外部用語21と内包用語22,23との違いが、用語を構成するトークンの数であることに注目し、トークンの構成数(トークンの長さ)毎に2値の出力をするモデルとなっている。
(6-2.Term extraction unit 13)
The
まず、中間表現H2を入力として、式(3)に示すように、長さiのトークン列の表現を得る畳み込み演算を行う。式(3)においてspanCNNiは、カーネルサイズiのフィルタによる畳み込み演算を表し、nentityは、用語を構成するトークン数に対応しており、学習を行う前に与えるハイパーパラメータである。得られた中間表現Viは、トークン数1,2,3,・・・、nに対応するnentity個の中間表現である。
First, the intermediate representation H2 is used as input, and a convolution operation is performed to obtain a representation of a token string of length i, as shown in formula (3). In formula (3), spanCNNi represents a convolution operation using a filter with kernel size i, and nentity corresponds to the number of tokens that make up a term and is a hyperparameter given before learning. The obtained intermediate representation Vi is an intermediate representation of nentities corresponding to the number of
続いて、式(4)に示すように、トークン数に対応するnentity個の中間表現Viに対して共通の全結合層をそれぞれ作用させて、中間表現Liを生成する。 Next, as shown in equation (4), a common fully connected layer is applied to each of the n entity intermediate representations Vi corresponding to the number of tokens to generate an intermediate representation Li.
全結合の出力は、nentity個のカーネルサイズごとに対応したトークン数長のシーケンスになる。出力の中身は、図8に示すように、カーネルサイズの用語を構成するトークンの開始位置に1が立つものとなる。例えば、用語「切削速度」は、3個のトークンから構成され、「切削速度」の開始位置は「切」のトークンの位置であるため、トークン数長「3」且つ「切」のトークン位置に1(黒丸)が立つ。又、用語「速度」は、1個のトークンから構成され、開始位置は「速度」のトークンであるため、トークン数長「1」且つ「速度」のトークン位置に1(黒丸)が立つ。 The output of the full combination is a sequence of token length corresponding to each kernel size of n entities . As shown in FIG. 8, the contents of the output are such that a 1 is set at the start position of the token that constitutes the term of the kernel size. For example, the term "cutting speed" is composed of three tokens, and the start position of "cutting speed" is the position of the token "cut", so the token length is "3" and a 1 (black circle) is set at the token position of "cut". In addition, the term "speed" is composed of one token, and the start position is the token "speed", so the token length is "1" and a 1 (black circle) is set at the token position of "speed".
(6-3.ペア抽出部16)
ペア抽出部16は、上述したように、用語抽出部13にて抽出された用語のペアを作成する。ただし、ペア抽出部16は、抽出された用語が入れ子構造20を構成する場合には、最も大きな入れ子外部用語21のみを関係性抽出対象とする。例えば、図8に示すように、用語抽出部13にて「切削速度」、「切削」、「速度」が抽出されており、この場合、「切削速度」のみを関係性抽出対象とする。従って、図8において、トークン数長「3」且つトークン「切」の位置に1が立ったままとし、内包用語22,23に相当する「切削」、「速度」に対応する位置は0とする。「切削温度」についても同様である。つまり、ここでは、「切削速度」と「切削温度」のペアが作成される。文書データ1文からn個の用語が抽出された場合、2つの用語を選択してペアを作成するので、nC2個のペアが作成される。
(6-3. Pair Extraction Unit 16)
As described above, the
続いて、作られた各ペアに対してアノテーションファイルを参照して関係ラベル(図4参照)を付与し、「関係ラベル、用語A、用語B」のトリプレットを作成する。さらに、ペア抽出部16は、用語Aと用語Bの用語位置ベクトルPEiも作成する。用語位置ベクトルは、長さが1文のトークン数のベクトルで、用語が存在する位置に1、用語ではない位置に0が立つベクトルである。図8においては、ペアの一方の用語「切削速度」については、「切」、「削」、「速度」の位置に1が立ち、残りの位置が0となる。又、ペアの他方の用語「切削温度」については、「切」、「削」、「温度」の位置に1が立ち、残りの位置が0となる。このようにして、ペア抽出部16により、用語位置ベクトルPEiが作成される。
Next, a relational label (see FIG. 4) is assigned to each pair created by referring to the annotation file, and a triplet of "relational label, term A, term B" is created. Furthermore, the
(6-4.関係性抽出部17)
関係性抽出部17は、上述したようにトリガワードを考慮したモデルである。まず、共有部としての特徴表現生成部12により生成された中間表現H2に対してトリガワードの情報を追加で与えて、Multi Head Attention層の入力とする。最初に、トリガワード記憶部15(図5に示す)から参照してVtrigを生成する。Vtrigは、長さが1文中のトークン長(SeqLen)で次元が1のベクトルである。対応するトークンに対してトークンがトリガワードの場合には1が定義され、トリガワードではない場合には0が定義されるベクトルである。そして、式(5)に示すように、Vtrigに対して平均0、分散1の正規分布に基づいた重みで初期化される行列を用いた埋め込み処理を行う。
(6-4. Relationship Extraction Unit 17)
The
続いて、式(6)に示すように、Htrigに対して中間表現H2を次元方向にConcatして、全結合層に入力してQ(query)を生成する。 Next, as shown in equation (6), the intermediate representation H2 is concat- ed against Htrig in the dimension direction, and input to the fully connected layer to generate Q (query).
又、K(key)は、式(7)に従って生成し、V(value)は、式(8)に従って生成する。 K (key) is generated according to formula (7), and V (value) is generated according to formula (8).
続いて、生成したQ,K,Vを、Multi Head Attention層の入力とし、中間表現H3,Wを生成する。当該Attention層において、Q(query)は検索元(ターゲット)であり、K(key)は検索先(ソース)であり、V(value)はスコアである。 Then, the generated Q, K, and V are input to a multi-head attention layer to generate intermediate representations H3 and W. In this attention layer, Q (query) is the search source (target), K (key) is the search destination (source), and V (value) is the score.
ここで、Multi Head Attentionは、Q(query)に対してトリガワードの情報を加えたものである。Queryに対しての情報付加なので、「文中における関連度を知りたいもの」として、トリガワードを加えていることになる。又、K(key)、V(value)には中間表現H2の情報が含まれていることを考慮すると、得られる中間表現H3は、「文全体におけるトークンのうちトリガワードに関連するトークンに対して、強く注意がかかった表現」という解釈が可能となる。 Here, Multi Head Attention adds trigger word information to Q (query). Since information is added to the query, the trigger word is added as "something whose relevance within the sentence we want to know." Also, considering that K (key) and V (value) contain information from the intermediate representation H2, the resulting intermediate representation H3 can be interpreted as "an expression that pays strong attention to tokens related to the trigger word among the tokens in the entire sentence."
続いて、式(10)(11)に示すように、得られた中間表現H3に対してスキップコネクションと畳み込み層を2層ずつ通して中間表現H4を生成する。 Next, as shown in equations (10) and (11), the intermediate representation H3 is passed through two skip connections and two convolutional layers to generate intermediate representation H4.
続いて、式(12)に示すように、ペア抽出部16にて作成した用語位置ベクトルPEiと中間表現H4とを用いて、関係性抽出に用いる2つの用語の表現E1,E2を抽出する。ここで、PEiは、i個目の用語位置ベクトル、*は要素積を表す。
Next, as shown in formula (12), the term position vector PEi and intermediate representation H4 created by the
続いて、式(13)に示すように、得られたE1,E2に対して、Maxpoolingの演算を行い、それぞれの1つのベクトルに整形する。ここで、E1’は、複数のトークンから構成される用語である。 Next, as shown in equation (13), Maxpooling is performed on the obtained E1 and E2, and each is shaped into a single vector. Here, E1' is a term composed of multiple tokens.
続いて、式(14)に示すように、E1’をそれぞれ全結合層に入力して、用語としての表現E1”を生成する。 Next, as shown in equation (14), E1' is input to the fully connected layer to generate a term representation E1".
続いて、式(15)に示すように、E1”とE2”のベクトルの和をとって、さらに、式(16)に示すように、全結合層を通して用語間に存在する各関係の確率を出力する。つまり、Lrelは、長さが関係の種類の数であるベクトルであり、i種類目の関係の確率がLrelのi番目の要素の値により表されており、Lrelベクトル中の確率が高い関係が、当該2つの用語の関係を表すことになる。 Next, as shown in equation (15), the vectors of E1" and E2" are summed, and the probability of each relationship that exists between the terms is output through the fully connected layer as shown in equation (16). In other words, Lrel is a vector whose length is the number of types of relationships, the probability of the i-th type of relationship is represented by the value of the i-th element of Lrel, and the relationship with the highest probability in the Lrel vector represents the relationship between the two terms.
(7.学習フェーズ)
(7-1.概要)
上述した用語-関係性抽出モデルは、多くの文書データを取得して機械学習を行う必要がある。特に、本例においては、用語-関係性抽出モデルにおいて、用語抽出部13と関係性抽出部17とにより共有される特徴表現生成部12におけるパラメータを学習する。
(7. Learning Phase)
(7-1. Overview)
The above-mentioned term-relationship extraction model needs to acquire a large amount of document data and perform machine learning. In particular, in this example, in the term-relationship extraction model, parameters in the feature
(7-2.第一学習フェーズ)
第一次の学習としての第一学習フェーズについて、図9を参照して説明する。第一学習フェーズでは、用語抽出部13により用語の抽出において発生する用語抽出損失Lentityを用いて、特徴表現生成部12における中間表現H2の生成パラメータを更新することにより、第一次の学習を行う。つまり、第一学習フェーズでは、用語抽出損失Lentityに基づいて、生成パラメータを更新するシングルタスク学習処理により学習を行っている。図9において、第一学習フェーズにて使用していない機能について、破線にて記載する。
(7-2. First learning phase)
The first learning phase as the first learning will be described with reference to Fig. 9. In the first learning phase, the term extraction loss Lency generated in the term extraction by the
ここで、用語抽出損失Lentityは、例えば、交差エントロピー損失(Cross Entropy Loss)を用いる。この場合、用語抽出損失Lentityは、式(17)により表される。nは、モデルの出力数、即ち用意するフィルタ数を表し、lは、1文におけるトークン数を表す。各トークンに対するlの予測値と正解yとの差を交差エントロピーで定義する。そして、各フィルタに対応する出力の和をとったものが、用語抽出損失Lentityとなる。なお、用語抽出損失Lentityは、交差エントロピー損失以外に、類似する他の損失の計算式により得られる損失を用いることもできる。 Here, for example, cross entropy loss is used as the term extraction loss Lentity. In this case, the term extraction loss Lentity is expressed by equation (17). n represents the number of model outputs, i.e., the number of filters prepared, and l represents the number of tokens in one sentence. The difference between the predicted value of l for each token and the correct answer y is defined as cross entropy. The term extraction loss Lentity is then calculated by adding up the outputs corresponding to each filter. Note that, in addition to cross entropy loss, the term extraction loss Lentity can also use losses obtained by other similar loss calculation formulas.
(7-3.第二学習フェーズ)
第一学習フェーズに次いで、第二次の学習としての第二学習フェーズについて、図10を参照して説明する。第二学習フェーズでは、用語抽出部13により用語の抽出において発生する用語抽出損失Lentityと、関係性抽出部17により関係性の抽出において発生する関係性抽出損失Lrelationを用いる。そして、第二学習フェーズでは、用語抽出損失Lentity及び関係性抽出損失Lrelationに基づいて、特徴表現生成部12における中間表現H2の生成パラメータを更新することにより、第二次の学習を行う。つまり、第二学習フェーズでは、用語抽出損失Lentity及び関係性抽出損失Lrelationに基づいて、生成パラメータを更新するマルチタスク学習処理により学習を行っている。
(7-3. Second learning phase)
Following the first learning phase, the second learning phase as the second learning will be described with reference to Fig. 10. In the second learning phase, a term extraction loss Lentity generated in the extraction of terms by the
ここで、関係性抽出損失Lrelationは、式(18)により表される。rは、関係ラベルの種類数であり(図4参照)、各関係において損失が発生するため、それらの全ての和をとったものを関係性抽出損失Lrelationとする。又、Nentityは、用語抽出が対象とする入れ子構造20の構成用語数である。
Here, the relationship extraction loss Lrelation is expressed by equation (18). r is the number of types of relation labels (see Figure 4). Since a loss occurs for each relation, the sum of all of these is the relationship extraction loss Lrelation. Furthermore, Nentity is the number of constituent terms in the nested
そして、上述の式(17)にて表される用語抽出損失Lentityと、式(18)に示す関係性抽出損失Lrelationとを用いて、式(19)に示すように、全体の損失Lallを生成する。 Then, using the term extraction loss Lentity expressed in the above formula (17) and the relationship extraction loss Lrelation shown in formula (18), the overall loss Lall is generated as shown in formula (19).
ここで、損失の表現には、第一学習フェーズと同様に、例えば、交差エントロピー損失(Cross Entropy Loss)を用いることができる。交差エントロピー損失は、式(20)にて表される。Classは、関係性抽出の対象となるラベルを表す。 Here, to express the loss, for example, cross entropy loss can be used, as in the first learning phase. Cross entropy loss is expressed by equation (20). Class represents the label that is the target of relationship extraction.
(8.知識モデル作成部8による処理の例)
次に、知識モデル作成部8による処理の例について、図11-図14を参照して説明する。ただし、知識モデル作成部8による処理は、以下に限られるものではなく、種々の処理が可能である。さらに、知識モデル作成部8は、完全自動化も可能である。
(8. Example of Processing by Knowledge Model Creation Unit 8)
Next, examples of processing by the knowledge
(8-1、第一例)
第一例の処理について図11を参照して説明する。知識モデル作成部8は、描画可能な描画GUIウィンドウ30において、因子を表すノード図形と因子同士の関係性を表すリンク図形とにより構成される知識ネットワーク図を描画する。描画操作は、作業者が行うことができる。
(8-1, first example)
The processing of the first example will be described with reference to Fig. 11. The knowledge
描画GUIウィンドウ30において、作業者が知識ネットワーク図を描画する際に、まず、着目因子を決定する。そうすると、知識モデル作成部8が、DB3,5,7における関係性に関する情報に基づいて、着目因子に対して関係性を有する用語のノード図形の配置候補を描画GUIウィンドウ30に表示する。このとき、複数の配置候補を表示することもできる。特に、複数のDB3,5,7を用いることにより、複数の観点で、配置候補を出力することが可能となる。そして、作業者は、配置候補を決定することで、描画GUIウィンドウ30において、着目因子を知識ネットワーク図に描画(配置)することができる。
When an operator draws a knowledge network diagram in the drawing
(8-2.第二例)
第二例の処理について図12を参照して説明する。描画GUIウィンドウ30において、作業者が、既に描画されている着目因子を選択する。そうすると、知識モデル作成部8は、DB3,5,7における関係性に関する情報に基づいて、着目因子に対して関係性を有する用語を因子候補として表示する。そして、作業者は、因子候補の中から選択することで、選択された因子候補が着目因子に関連付けられた状態で描画GUIウィンドウ30に配置される。
(8-2. Second Example)
The processing of the second example will be described with reference to Fig. 12. In the drawing
(8-3.第三例)
第三例の処理について図13を参照して説明する。作業者が、文書データをDB作成部2,4,6に入力する。そうすると、知識モデル作成部8は、GUIウィンドウ30に、第一DB3(用語-関係性DB)に基づいて得られた複数の用語を表示する。そして、作業者が、表示された複数の用語の中から選択すると、知識モデル作成部8は、DB3,5,7における関係性に関する情報に基づいて、GUIウィンドウ30に、選択された用語に対して関係性を有する用語を表示する。
(8-3. Third Example)
The processing of the third example will be described with reference to Fig. 13. The worker inputs document data into the
つまり、GUIウィンドウ30には、作業者が選択した用語と、当該用語に関係性を有する用語とが表示された状態となる。そして、作業者が、表示された複数の用語を選択することで、知識モデル作成部8は、GUIウィンドウ30に、知識ネットワーク図として描画する。
In other words, the term selected by the worker and terms related to that term are displayed in the
(8-4.第四例)
第四例の処理について図14を参照して説明する。作業者が、文書データをDB作成部2,4,6に入力する。そうすると、知識モデル作成部8は、GUIウィンドウ30に、既存の類似知識モデル候補を表示する。複数の類似知識モデル候補が存在する場合には、作業者の選択によって、選択された類似知識モデル候補がGUIウィンドウ30に、表示される。
(8-4. Fourth Example)
The processing of the fourth example will be described with reference to Fig. 14. An operator inputs document data into the
続いて、知識モデル作成部8は、入力された文書データに基づいて、GUIウィンドウ30に、第一DB3(用語-関係性DB)に基づいて得られた複数の用語を表示する。そして、作業者が、表示された複数の用語の中から選択すると、知識モデル作成部8は、DB3,5,7における関係性に関する情報に基づいて、GUIウィンドウ30に、選択された用語に対して関係性を有する用語を表示する。
Then, the knowledge
つまり、GUIウィンドウ30には、類似知識モデルが表示されると共に、作業者が選択した用語と、当該用語に関係性を有する用語とが表示された状態となる。このとき、作業者が選択した用語を着目因子とした場合に、知識モデル作成部8は、GUIウィンドウ30に表示されている類似知識モデルにおいて、着目因子に対して関係性を有しないリンク図形を例えば×印等によって表示する。さらに、知識モデル作成部8は、作業者が選択した用語が類似知識モデルに含まれていない場合には、選択された用語が新たに描画されるようにしても良い。
In other words, the
(9.効果)
知識モデル作成支援装置1によれば、文書データから用語及び用語同士の関係性を抽出する用語-関係性抽出モデルを用いて、DB3を作成する。まず、用語-関係性抽出モデルは、文書データから用語を自動的に抽出する。さらに、用語-関係性抽出モデルは、2用語間の関係性を導くトリガワードを予め記憶しておき、文書データに当該トリガワードが含まれる場合に、2つの用語の関係性をトリガワードに基づいて抽出する。このように、用語-関係性抽出モデルは、文書データから用語を自動的に抽出することができると共に、予め設定されたトリガワードを考慮して、文書データに含まれる用語同士の関係性を自動的に抽出することができる。従って、人手によらず、DB3を作成することができる。そして、DB3が作成できれば、DB3を参照して知識モデルを作成することができるため、知識モデルを容易に作成することができる。
(9. Effects)
According to the knowledge model
1:知識モデル作成支援装置、 2:第一データベース作成部、 3:第一データベース、 4:第二データベース作成部、 5:第二データベース、 6:第二データベース作成部、 7:第三データベース、 8:知識モデル作成部、 11:文書データ取得部、 12:特徴表現生成部、 13:用語抽出部、 14:用語出力部、 15:トリガワード記憶部、 16:ペア抽出部、 17:関係性抽出部、 18:関係性出力部、 20:入れ子構造、 21:入れ子外部用語、 22,23:内包用語、 100:知識ネットワーク図、 110:ノード図形、 120:リンク図形、 121:第一リンク図形、 122:第二リンク図形、 Lentity:用語抽出損失、 Lrelation:関係性抽出損失 1: Knowledge model creation support device, 2: First database creation unit, 3: First database, 4: Second database creation unit, 5: Second database, 6: Second database creation unit, 7: Third database, 8: Knowledge model creation unit, 11: Document data acquisition unit, 12: Feature expression generation unit, 13: Term extraction unit, 14: Term output unit, 15: Trigger word storage unit, 16: Pair extraction unit, 17: Relationship extraction unit, 18: Relationship output unit, 20: Nested structure, 21: Nested outer term, 22, 23: Inclusive term, 100: Knowledge network diagram, 110: Node diagram, 120: Link diagram, 121: First link diagram, 122: Second link diagram, Lentity: Term extraction loss, Lrelation: Relationship extraction loss
Claims (8)
複数の用語と前記複数の用語の関係性とを含む用語-関係性データベースと、
用語-関係性抽出モデルを用いて文書データから前記用語及び前記関係性を抽出することにより、前記用語-関係性データベースを作成する用語-関係性データベース作成部と、
前記用語-関係性データベースに基づいて前記知識モデルを作成する知識モデル作成部と、を備え、
前記用語-関係性抽出モデルは、
前記文書データを取得する文書データ取得部と、
前記文書データより用語の抽出を行う用語抽出部と、
2用語間の関係性を導くトリガワードを記憶するトリガワード記憶部と、
前記用語抽出部にて抽出された用語から用語のペア情報を作成するペア抽出部と、
前記文書データに前記トリガワードが含まれる場合、前記用語抽出部により抽出された2つの用語の関係性を前記トリガワード及び前記ペア情報に基づいて抽出する関係性抽出部と、を備え、
前記文書データは、複数の用語を内包する入れ子構造を含み、
前記入れ子構造は、複数の内包用語と前記複数の内包用語を結合した入れ子外部用語とにより構成される構造であり、
前記用語抽出部は、前記文書データに前記入れ子構造が含まれる場合、前記文書データより、前記入れ子構造において前記内包用語及び前記入れ子外部用語の抽出を行い、
前記ペア抽出部は、前記文書データに前記入れ子構造が含まれる場合、前記入れ子構造において前記内包用語を利用せず前記入れ子外部用語のみを利用して前記ペア情報を作成し、
前記関係性抽出部は、前記文書データに前記入れ子構造が含まれる場合、前記入れ子構造における前記入れ子外部用語を関係性抽出対象とし、前記内包用語を関係性抽出対象としない、知識モデル作成支援装置。 An apparatus for supporting the creation of a knowledge model composed of a plurality of factors defined by terms and relationship information between the factors, comprising:
a term-relationship database including a plurality of terms and relationships of the plurality of terms;
a term-relationship database creation unit that creates the term-relationship database by extracting the terms and the relationships from document data using a term-relationship extraction model;
a knowledge model creation unit that creates the knowledge model based on the term-relationship database,
The term-relationship extraction model is
a document data acquisition unit for acquiring the document data;
a term extraction unit that extracts terms from the document data;
a trigger word storage unit for storing a trigger word that leads to a relationship between two terms;
a pair extraction unit that creates term pair information from the terms extracted by the term extraction unit;
a relationship extraction unit that extracts a relationship between the two terms extracted by the term extraction unit based on the trigger word and the pair information when the trigger word is included in the document data ,
the document data includes a nested structure including a plurality of terms;
The nested structure is a structure that is composed of a plurality of inclusive terms and a nested outer term that combines the plurality of inclusive terms,
the term extraction unit extracts, when the document data includes the nested structure, the inclusive term and the nested outer term in the nested structure from the document data;
when the document data includes a nested structure, the pair extraction unit creates the pair information by using only the nested outer term in the nested structure without using the inclusive term in the nested structure;
A knowledge model creation support device, wherein when the document data includes the nested structure, the relationship extraction unit treats the nested outer term in the nested structure as a relationship extraction target, and does not treat the contained term as a relationship extraction target .
前記文書データ取得部により取得された前記文書データを構成する各トークンに基づいて前記文書データの特徴をベクトルにて表現した特徴表現を生成する特徴表現生成部を備え、
前記用語抽出部及び前記関係性抽出部は、前記特徴表現生成部により生成された前記特徴表現を共有して、前記用語の抽出及び前記関係性の抽出を行う、請求項1又は2に記載の知識モデル作成支援装置。 The term-relationship extraction model further comprises:
a feature representation generating unit that generates a feature representation in which a feature of the document data is expressed by a vector based on each token constituting the document data acquired by the document data acquiring unit,
3 . The knowledge model creation support device according to claim 1 , wherein the term extraction unit and the relationship extraction unit extract the terms and the relationships by sharing the characteristic expressions generated by the characteristic expression generation unit.
複数の用語と前記複数の用語の関係性とを含む用語-関係性データベースと、a term-relationship database including a plurality of terms and relationships of the plurality of terms;
用語-関係性抽出モデルを用いて文書データから前記用語及び前記関係性を抽出することにより、前記用語-関係性データベースを作成する用語-関係性データベース作成部と、a term-relationship database creation unit that creates the term-relationship database by extracting the terms and the relationships from document data using a term-relationship extraction model;
前記用語-関係性データベースに基づいて前記知識モデルを作成する知識モデル作成部と、を備え、a knowledge model creation unit that creates the knowledge model based on the term-relationship database,
前記用語-関係性抽出モデルは、The term-relationship extraction model is
前記文書データを取得する文書データ取得部と、a document data acquisition unit for acquiring the document data;
前記文書データ取得部により取得された前記文書データを構成する各トークンに基づいて前記文書データの特徴をベクトルにて表現した特徴表現を生成する特徴表現生成部と、a feature representation generating unit that generates a feature representation in which a feature of the document data is expressed as a vector based on each token constituting the document data acquired by the document data acquiring unit;
前記文書データより用語の抽出を行う用語抽出部と、a term extraction unit that extracts terms from the document data;
2用語間の関係性を導くトリガワードを記憶するトリガワード記憶部と、a trigger word storage unit for storing a trigger word that leads to a relationship between two terms;
前記文書データに前記トリガワードが含まれる場合、前記用語抽出部により抽出された2つの用語の関係性を前記トリガワードに基づいて抽出する関係性抽出部と、を備え、a relationship extraction unit that extracts a relationship between two terms extracted by the term extraction unit based on the trigger word when the trigger word is included in the document data,
前記用語抽出部及び前記関係性抽出部は、前記特徴表現生成部により生成された前記特徴表現を共有して、前記用語の抽出及び前記関係性の抽出を行う、知識モデル作成支援装置。A knowledge model creation support device, wherein the term extraction unit and the relationship extraction unit share the characteristic representation generated by the characteristic representation generation unit to extract the terms and the relationships.
学習フェーズとして、前記用語抽出部により前記用語の抽出において発生する用語抽出損失と前記関係性抽出部により前記関係性の抽出において発生する関係性抽出損失とに基づいて、前記特徴表現生成部における前記特徴表現の生成パラメータを更新するマルチタスク学習処理により学習される、請求項3又は4に記載の知識モデル作成支援装置。 The term-relationship extraction model is
5. The knowledge model creation support device according to claim 3, wherein, as a learning phase, learning is performed by a multi-task learning process that updates generation parameters of the feature representation in the feature representation generation unit based on a term extraction loss generated by the term extraction unit in extracting the terms and a relationship extraction loss generated by the relationship extraction unit in extracting the relationships.
第一学習フェーズとして、前記用語抽出損失に基づいて、前記生成パラメータを更新するシングルタスク学習処理により学習し、
前記第一学習フェーズに次いで、第二学習フェーズとして、前記マルチタスク学習処理により学習する、請求項5に記載の知識モデル作成支援装置。 The term-relationship extraction model is
In a first learning phase, learning is performed by a single-task learning process that updates the generation parameters based on the term extraction loss;
6. The knowledge model creation support device according to claim 5 , wherein learning is performed by the multitask learning process as a second learning phase following the first learning phase.
前記用語-関係性抽出モデルを用いて作成された前記用語-関係性データベースである第一データベースと、
前記用語-関係性抽出モデルとは異なるモデルを用いて作成され、少なくとも複数の用語についての関係性を含む第二データベースと、
を備え、
前記知識モデル作成部は、
前記第一データベース及び前記第二データベースに基づいて前記知識モデルを作成する、請求項1-6の何れか1項に記載の知識モデル作成支援装置。 The knowledge model creation support device comprises:
a first database, which is the term-relationship database created using the term-relationship extraction model;
a second database that is created using a model different from the term-relationship extraction model and includes relationships between at least a plurality of terms;
Equipped with
The knowledge model creation unit
7. The knowledge model creation support device according to claim 1, wherein the knowledge model is created based on the first database and the second database.
描画可能な描画GUIウィンドウにおいて、前記因子を表すノード図形と前記因子同士の関係性を表すリンク図形とにより構成される知識ネットワーク図を描画し、
前記知識ネットワーク図が描画される際に、前記用語-関係性データベースに基づいて着目因子に対して関係性を有する用語の前記ノード図形の配置候補を表示する、前記用語-関係性データベースに基づいて着目因子に対して関係性を有する用語を因子候補として表示する、前記用語-関係性データベースに基づいて着目因子に対して関係性を有しないリンク図形を表示する、の少なくとも1つを行う、請求項1-7の何れか1項に記載の知識モデル作成支援装置。 The knowledge model creation unit
Draw a knowledge network diagram in a drawing GUI window, the knowledge network diagram being composed of node figures representing the factors and link figures representing relationships between the factors;
A knowledge model creation support device as described in any one of claims 1 to 7, which performs at least one of the following when drawing the knowledge network diagram: displaying placement candidates for the node figures of terms that have a relationship with the factor of interest based on the term-relationship database; displaying terms that have a relationship with the factor of interest based on the term-relationship database as factor candidates; and displaying link figures that have no relationship with the factor of interest based on the term- relationship database.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021028205A JP7625201B2 (en) | 2021-02-25 | 2021-02-25 | Knowledge model creation support device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021028205A JP7625201B2 (en) | 2021-02-25 | 2021-02-25 | Knowledge model creation support device |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2022129515A JP2022129515A (en) | 2022-09-06 |
| JP7625201B2 true JP7625201B2 (en) | 2025-02-03 |
Family
ID=83151143
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021028205A Active JP7625201B2 (en) | 2021-02-25 | 2021-02-25 | Knowledge model creation support device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7625201B2 (en) |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2012242966A (en) | 2011-05-17 | 2012-12-10 | Fujitsu Ltd | Knowledge acquisition device, knowledge acquisition method, and program |
| JP2018147351A (en) | 2017-03-08 | 2018-09-20 | 株式会社豊田中央研究所 | Knowledge model construction system and knowledge model construction method |
| US20200388401A1 (en) | 2019-06-06 | 2020-12-10 | International Business Machines Corporation | Automatic validation and enrichment of semantic relations between medical entities for drug discovery |
-
2021
- 2021-02-25 JP JP2021028205A patent/JP7625201B2/en active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2012242966A (en) | 2011-05-17 | 2012-12-10 | Fujitsu Ltd | Knowledge acquisition device, knowledge acquisition method, and program |
| JP2018147351A (en) | 2017-03-08 | 2018-09-20 | 株式会社豊田中央研究所 | Knowledge model construction system and knowledge model construction method |
| US20200388401A1 (en) | 2019-06-06 | 2020-12-10 | International Business Machines Corporation | Automatic validation and enrichment of semantic relations between medical entities for drug discovery |
Non-Patent Citations (2)
| Title |
|---|
| 増田 和浩ほか,Trigger Wordと部分文字列を用いた機械加工用語の関係抽出,言語処理学会 第22回年次大会 発表論文集,日本,言語処理学会,2016年02月29日,pp.573-576 |
| 稲熊 陸ほか,入れ子構造を考慮した機械加工用語抽出,言語処理学会 第26回年次大会 発表論文集,日本,言語処理学会,2020年03月09日,pp.1293-1296 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2022129515A (en) | 2022-09-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN105137933B (en) | Method for selecting figure in graphical display | |
| JP3671008B2 (en) | Customer self-service subsystem for context cluster discovery and verification | |
| US10534518B2 (en) | Graphical model explorer | |
| CN113853553A (en) | Automatic extraction of asset data from engineering data sources for generation of HMI | |
| US10318703B2 (en) | Maximally standard automatic completion using a multi-valued decision diagram | |
| JP2010079931A (en) | Method of providing access to object parameter within simulation model | |
| JPH01116767A (en) | Application of interface for part list between conceptual design tool and cad/cam environment | |
| CN109636139A (en) | A kind of smart machine method for diagnosing faults based on semantic reasoning | |
| US9335760B2 (en) | Template framework for automated process routing | |
| Zakirzyanov et al. | Efficient symmetry breaking for SAT-based minimum DFA inference | |
| JP5289300B2 (en) | Construction data management method, construction data management device, and construction data management system | |
| JP7625201B2 (en) | Knowledge model creation support device | |
| Hooshmand et al. | Reduction of nonanticipativity constraints in multistage stochastic programming problems with endogenous and exogenous uncertainty | |
| JP2007265031A (en) | Dictionary content processing apparatus, content display system, and content display method | |
| CN106649326A (en) | Search result display method and device | |
| JP7563090B2 (en) | KNOWLEDGE MODEL CREATION SUPPORT DEVICE AND KNOWLEDGE MODEL SYSTEM | |
| JP2013114523A (en) | Product information management device, method and program | |
| Chen et al. | An overview on visualization of ontology alignment and ontology entity | |
| JP5530732B2 (en) | Work instruction generation system, method and program | |
| Penaz et al. | Design and construction of knowledge ontology for thematic cartography domain | |
| CN105447279A (en) | Intelligent tolerance specification design method and visual tolerance labeling system for geometric products | |
| Königseder et al. | Analyzing generative design grammars | |
| US20200218784A1 (en) | Systems and methods for facilitating evaluation of characteristics related to quality | |
| CN104268258B (en) | The multistage method for routing and device of webpage | |
| Kozmina et al. | Research directions of olap personalizaton |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20210611 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210616 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231222 |
|
| RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20231222 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20231222 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240918 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240924 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20241121 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20241224 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250113 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7625201 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |