Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP6495212B2 - Classifier learning device, table type classification device, method, and program - Google Patents
[go: Go Back, main page]

JP6495212B2 - Classifier learning device, table type classification device, method, and program - Google Patents

Classifier learning device, table type classification device, method, and program Download PDF

Info

Publication number
JP6495212B2
JP6495212B2 JP2016182059A JP2016182059A JP6495212B2 JP 6495212 B2 JP6495212 B2 JP 6495212B2 JP 2016182059 A JP2016182059 A JP 2016182059A JP 2016182059 A JP2016182059 A JP 2016182059A JP 6495212 B2 JP6495212 B2 JP 6495212B2
Authority
JP
Japan
Prior art keywords
cell
continuous value
row
column
tabular data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016182059A
Other languages
Japanese (ja)
Other versions
JP2018045626A (en
Inventor
京介 西田
京介 西田
松尾 義博
義博 松尾
東中 竜一郎
竜一郎 東中
九月 貞光
九月 貞光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016182059A priority Critical patent/JP6495212B2/en
Publication of JP2018045626A publication Critical patent/JP2018045626A/en
Application granted granted Critical
Publication of JP6495212B2 publication Critical patent/JP6495212B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、表形式データの表種類を分類するための分類器学習装置、表種類分類装置、方法、及びプログラムに関するものである。   The present invention relates to a classifier learning device, table type classification device, method, and program for classifying table types of tabular data.

コンピュータ技術の発展により、Web上のHTMLで記述された表データや、表計算ソフトウェアなどで作成されたスプレッドシート上の表データは大量に存在するようになった。表データには、縦あるいは横方向のリスト型表、縦あるいは横方向の属性型表、縦あるいは横方向の列挙型表、行列型表、その他のレイアウト用表など幾つかの種類が存在する。この表タイプを正しく理解することができれば、情報検索や質問応答など幅広いサービスに応用可能な知識が獲得できる。   With the development of computer technology, a large amount of tabular data described in HTML on the Web and tabular data on spreadsheets created by spreadsheet software etc. have become available. There are several types of tabular data, such as vertical or horizontal list-type tables, vertical or horizontal attribute-type tables, vertical or horizontal enumeration-type tables, matrix-type tables, and other layout tables. If you can understand this table type correctly, you can acquire knowledge applicable to a wide range of services such as information search and question answering.

Crestan, Eric and Patrick Pantel (2011). “Web-scale Table Census and Classification”. In: Proceedings of the 4th ACM International Conference on Web Search and Data Mining. ACM, pp. 545-554.Crestan, Eric and Patrick Pantel (2011). “Web-scale Table Census and Classification”. In: Proceedings of the 4th ACM International Conference on Web Search and Data Mining. ACM, pp. 545-554.

表タイプを分類するための従来手法として、非特許文献1などがこれまで提案されている。   Non-Patent Document 1 has been proposed as a conventional method for classifying table types.

これらの従来手法は、表内のセルに記載されたテキスト情報について、テキストの長さ、テキストのタイプ(数値、日付、金額など)、テキストのパターン(特定の記号を含む)などの素性を利用しているが、セルの中に記載されたテキスト中の単語や文字列の出現順序、行・列内におけるセルの出現順序、行の出現順序、列の出現順序について考慮していない。   These conventional methods use features such as text length, text type (number, date, amount of money, etc.), text pattern (including specific symbols), etc., for text information described in cells in a table. However, the order of appearance of words and strings in the text described in the cells, the order of appearance of the cells in the rows and columns, the order of appearance of the rows, and the order of appearance of the columns are not considered.

例えば、リスト型表は、ヘッダ部に属性、データ部に属性値が並ぶ表である。図6(A)に示す例では、2行目について左から右にセルの系列を見ると、「月額費用」や「1800円」「2000円」というすべて金額に関するテキストが並んでいることが、この表が横方向リスト型であることの特徴になる。また、2〜4列目について、意味的に同様の列が並んでいることは横方向リスト型表の特徴になっている。   For example, the list type table is a table in which the attribute is arranged in the header portion and the attribute value is arranged in the data portion. In the example shown in FIG. 6 (A), when looking at the cell sequence from left to right for the second row, it is possible that the texts related to all the money amounts such as "monthly cost", "1800 yen" and "2000 yen" are arranged This table is characterized in that it is a horizontal list type. In addition, the fact that the similar columns are arranged in the second to fourth columns is a feature of the horizontal list type table.

行列型表は、行および列のヘッダ部にエンティティ(回線○○、オプションAなど)が記載されるものである。図6(B)に示す例では、2行目について左から右にセルの系列を見ると、「回線○○」「1800円」というセルの並びになっており、意味的な系列はエンティティ→属性値と続くことから行列型の表の特徴となっている。   In the matrix type table, entities (line 回 線, option A, etc.) are described in the header part of rows and columns. In the example shown in FIG. 6 (B), looking at the cell sequence from left to right for the second row, it is a sequence of cells of “line」 ”and“ 1800 yen ”, and the semantic sequence is entity → attribute It is the feature of the matrix type table from the value and the continuation.

従来の技術では、図6(A)、(B)に示すような同様の構造・テキスト長を持つリスト型と行列型の表については識別することができない。   The prior art can not distinguish between list-type and matrix-type tables having similar structures and text lengths as shown in FIGS. 6 (A) and 6 (B).

本発明では、上記事情を鑑みて成されたものであり、入力された表データ全体から、行内のセルの順序、列内の順序表内の行の順序、表内の列の順序を考慮して、表形式データの表種類を精度よく分類することができる分類器学習装置、表種類分類装置、方法、及びプログラムを提供することを目的とする。   The present invention has been made in view of the above circumstances, and takes into consideration the order of cells in a row, the order of rows in a sequence table in a column, and the order of columns in a table from the entire input tabular data. It is an object of the present invention to provide a classifier learning device, a table type classification device, a method, and a program capable of classifying table types of tabular data with high accuracy.

上記目的を達成するために、本発明に係る分類器学習装置は、セルの行列として記述された表形式データと表の種類を表す正解ラベルとの組の集合である訓練データ集合に含まれる前記表形式データの各々について、表の各セルに対し、該セルに記載されたテキスト情報に含まれるトークンの系列を入力として、セルを連続値ベクトルに符号化するセル符号化部と、前記訓練データ集合に含まれる前記表形式データの各々について、表の各行に対し、前記セル符号化部が出力した、該行に含まれる各セルの連続値ベクトルの系列を入力として、行を連続値ベクトルに符号化する行符号化部と、前記訓練データ集合に含まれる前記表形式データの各々について、表の各列に対し、前記セル符号化部が出力した、該列に含まれる各セルの連続値ベクトルの系列を入力として、列を連続値ベクトルに符号化する列符号化部と、前記訓練データ集合に含まれる前記表形式データの各々について、前記行符号化部および前記列符号化部が出力した各行及び各列の連続値ベクトルの系列を入力として、表を連続値ベクトルに符号化する表符号化部と、前記訓練データ集合に含まれる前記表形式データの各々について前記表符号化部が出力した連続値ベクトルと、前記訓練データ集合に含まれる前記正解ラベルとに基づいて、表形式データの表の種類を分類するための分類器を学習する学習部と、を含んで構成されている。   In order to achieve the above object, a classifier learning device according to the present invention includes the training data set which is a set of a set of tabular data described as a matrix of cells and a correct answer label representing a type of the table. A cell encoding unit encoding, for each of the tabular data, for each cell of the table, a sequence of tokens included in the text information described in the cell as an input, into the continuous value vector; and the training data For each of the tabular data included in the set, for each row of the table, the sequence of continuous value vectors of each cell included in the row output by the cell encoding unit is input, and the row is converted to a continuous value vector For each row of the row encoding unit to be encoded and the tabular data included in the training data set, the continuous value of each cell included in the column output by the cell encoding unit for each column of the table Be A row coding unit encoding a sequence into a continuous value vector using a sequence of toru as input, and the row coding unit and the column coding unit outputting each of the tabular data included in the training data set A table encoding unit that inputs a sequence of continuous value vectors of each row and each column into a continuous value vector, and the table encoding unit performs coding on each of the tabular data included in the training data set; And a learning unit configured to learn a classifier for classifying a table type of tabular data based on the output continuous value vector and the correct answer label included in the training data set. .

本発明に係る分類器学習方法は、セル符号化部が、セルの行列として記述された表形式データと表の種類を表す正解ラベルとの組の集合である訓練データ集合に含まれる前記表形式データの各々について、表の各セルに対し、該セルに記載されたテキスト情報に含まれるトークンの系列を入力として、セルを連続値ベクトルに符号化し、行符号化部が、前記訓練データ集合に含まれる前記表形式データの各々について、表の各行に対し、前記セル符号化部が出力した、該行に含まれる各セルの連続値ベクトルの系列を入力として、行を連続値ベクトルに符号化し、列符号化部が、前記訓練データ集合に含まれる前記表形式データの各々について、表の各列に対し、前記セル符号化部が出力した、該列に含まれる各セルの連続値ベクトルの系列を入力として、列を連続値ベクトルに符号化し、表符号化部が、前記訓練データ集合に含まれる前記表形式データの各々について、前記行符号化部および前記列符号化部が出力した各行及び各列の連続値ベクトルの系列を入力として、表を連続値ベクトルに符号化し、学習部が、前記訓練データ集合に含まれる前記表形式データの各々について前記表符号化部が出力した連続値ベクトルと、前記訓練データ集合に含まれる前記正解ラベルとに基づいて、表形式データの表の種類を分類するための分類器を学習する。   In the classifier learning method according to the present invention, the table format included in the training data set in which the cell encoding unit is a set of a set of tabular data described as a matrix of cells and a correct answer label representing a type of table. For each of the data, for each cell of the table, the sequence of tokens included in the text information described in the cell is input, and the cell is encoded into a continuous value vector, and the row coding unit generates the training data set. For each of the tabular data contained, for each row of the table, the sequence of continuous value vectors of each cell included in the row output by the cell encoding unit is input, and the row is encoded into the continuous value vector Of the continuous value vector of each cell included in the column, which the column encoding unit outputs, for each column of the table, for each of the tabular data included in the training data set; series As input, the columns are encoded into continuous value vectors, and the table encoding unit outputs, for each of the tabular data included in the training data set, each row and each row output by the row encoding unit and the column encoding unit. A table is encoded into a continuous value vector using a sequence of continuous value vectors of columns as input, and the learning unit outputs the continuous value vector output by the table encoding unit for each of the tabular data included in the training data set And learning a classifier for classifying a table type of tabular data based on the correct answer label included in the training data set.

本発明に係る表種類分類装置は、セルの行列として記述された表形式データについて、表の各セルに対し、該セルに記載されたテキスト情報に含まれるトークンの系列を入力として、セルを連続値ベクトルに符号化するセル符号化部と、前記表形式データについて、表の各行に対し、前記セル符号化部が出力した、該行に含まれる各セルの連続値ベクトルを入力として、行を連続値ベクトルに符号化する行符号化部と、前記表形式データについて、表の各列に対し、前記セル符号化部が出力した、該列に含まれる各セルの連続値ベクトルを入力として、列を連続値ベクトルに符号化する列符号化部と、前記表形式データについて、前記行符号化部および前記列符号化部が出力した各行及び各列の連続値ベクトルの系列を入力として、表を連続値ベクトルに符号化する表符号化部と、前記表符号化部が出力した連続値ベクトルと、表形式データの表の種類を分類するための予め学習された分類器とに基づいて、前記表形式データの表の種類を分類する表種類分類部と、を含んで構成されている。   The table type classification apparatus according to the present invention continuously transmits cells for tabular data described as a matrix of cells, for each cell of the table, using a sequence of tokens included in the text information described in the cells as an input. A row is input using a cell encoding unit for encoding into a value vector, and the continuous value vector of each cell included in the row output from the cell encoding unit for each row of the table for the tabular data. A row encoding unit encoding a continuous value vector, and the continuous value vector of each cell included in the column output from the cell encoding unit for each column of the table for the tabular data, as an input; A column encoding unit that encodes a column into a continuous value vector, and a table of continuous value vectors of each row and each column output from the row encoding unit and the column encoding unit for the tabular data, as a table The continuous The tabular form based on a table encoding unit for encoding into a vector, a continuous value vector output from the table encoding unit, and a previously learned classifier for classifying the type of table of tabular data And a table type classification unit that classifies the type of data table.

本発明に係る表種類分類方法は、セル符号化部が、セルの行列として記述された表形式データについて、表の各セルに対し、該セルに記載されたテキスト情報に含まれるトークンの系列を入力として、セルを連続値ベクトルに符号化し、行符号化部が、前記表形式データについて、表の各行に対し、前記セル符号化部が出力した、該行に含まれる各セルの連続値ベクトルを入力として、行を連続値ベクトルに符号化し、列符号化部が、前記表形式データについて、表の各列に対し、前記セル符号化部が出力した、該列に含まれる各セルの連続値ベクトルを入力として、列を連続値ベクトルに符号化し、表符号化部が、前記表形式データについて、前記行符号化部および前記列符号化部が出力した各行及び各列の連続値ベクトルの系列を入力として、表を連続値ベクトルに符号化し、表種類分類部が、前記表符号化部が出力した連続値ベクトルと、表形式データの表の種類を分類するための予め学習された分類器とに基づいて、前記表形式データの表の種類を分類する。   In the table type classification method according to the present invention, for the tabular data described by the cell encoding unit as a matrix of cells, for each cell of the table, a sequence of tokens included in the text information described in the cell The cells are encoded as continuous value vectors as input, and the row coding unit outputs the continuous value vector of each cell included in the row, which the cell coding unit outputs for each row of the table for the tabular data. Encoding the rows into a continuous value vector, and the column coding unit outputs, for each column of the table, the table format data, for each column of the table, the continuity of each cell included in the column The value vector is input and the column is encoded into a continuous value vector, and the table encoding unit outputs continuous value vectors of each row and each column output by the row encoding unit and the column encoding unit for the tabular data. If you input a series , The table is encoded into a continuous value vector, and the table type classification unit comprises: the continuous value vector output from the table coding unit; and a previously learned classifier for classifying the type of the tabular data table. Based on the table type of the tabular data is classified.

また、本発明のプログラムは、コンピュータを、上記の分類器学習装置、又は表種類分類装置を構成する各部として機能させるためのプログラムである。   Further, a program of the present invention is a program for causing a computer to function as the above-described classifier learning device or each unit constituting a table type classification device.

以上説明したように、本発明の分類器学習装置、方法、及びプログラムによれば、セルを連続値ベクトルに符号化し、各セルの連続値ベクトルの系列を入力として、行を連続値ベクトルに符号化し、各セルの連続値ベクトルの系列を入力として、列を連続値ベクトルに符号化し、各行及び各列の連続値ベクトルの系列を入力として、表を連続値ベクトルに符号化し、表形式データの表の種類を分類するための分類器を学習することにより、入力された表データ全体から、行内のセルの順序、列内の順序表内の行の順序、表内の列の順序を考慮して、表形式データの表種類を精度よく分類することができる分類器を学習することができる。   As described above, according to the classifier learning apparatus, method, and program of the present invention, cells are encoded into continuous value vectors, and a sequence of continuous value vectors of each cell is input and a row is encoded into continuous value vectors. The column is encoded as a continuous value vector with the series of continuous value vectors of each cell as input, and the table is encoded into the continuous value vector with the series of continuous value vectors of each row and each column as input. By learning the classifier for classifying table types, the order of the cells in the row, the order of the rows in the order table in the columns, and the order of the columns in the table are considered from the entire input tabular data. Thus, it is possible to learn a classifier capable of accurately classifying table types of tabular data.

また、本発明の表種類分類装置、方法、及びプログラムによれば、セルを連続値ベクトルに符号化し、各セルの連続値ベクトルの系列を入力として、行を連続値ベクトルに符号化し、各セルの連続値ベクトルの系列を入力として、列を連続値ベクトルに符号化し、各行及び各列の連続値ベクトルの系列を入力として、表を連続値ベクトルに符号化し、表形式データの表の種類を分類することにより、入力された表データ全体から、行内のセルの順序、列内の順序表内の行の順序、表内の列の順序を考慮して、表形式データの表種類を精度よく分類することができる。   Further, according to the table type classification device, method and program of the present invention, cells are encoded into continuous value vectors, a sequence of continuous value vectors of each cell is input, and rows are encoded into continuous value vectors. A sequence of continuous value vectors of is input to encode a column into a continuous value vector, and a sequence of continuous value vectors of each row and each column is input to encode a table into a continuous value vector, and the table type of tabular data is By classifying, the table type of the tabular data is accurately taken into consideration from the whole input tabular data, the order of the cells in the row, the order of the rows in the order table in the columns, and the order of the columns in the table. It can be classified.

本発明の実施形態に係る分類器学習装置の機能的構成を示すブロック図である。It is a block diagram showing functional composition of a classifier learning device concerning an embodiment of the present invention. 表符号化ベクトルを生成する方法を説明するための図である。It is a figure for demonstrating the method to produce | generate a table coding vector. 本発明の実施形態に係る表種類分類装置の機能的構成を示すブロック図である。It is a block diagram showing functional composition of a table type classification device concerning an embodiment of the present invention. 本発明の実施形態に係る分類器学習装置における分類器学習処理ルーチンのフローチャート図である。It is a flowchart figure of the classifier learning processing routine in the classifier learning device according to the embodiment of the present invention. 本発明の実施形態に係る表種類分類装置における表種類分類処理ルーチンのフローチャート図である。It is a flowchart figure of the table type classification processing routine in the table type classification device concerning an embodiment of the present invention. (A)横リスト型の表形式データの一例を示す図、及び(B)行列型の表形式データの一例を示す図である。(A) A figure showing an example of tabular form data of horizontal list type, A figure showing an example of tabular form data of matrix type (B).

以下、図面を参照して本発明の実施形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

<本発明の実施の形態に係る分類器学習装置の構成>
次に、本発明の実施の形態に係る分類器学習装置の構成について説明する。図1に示すように、本実施の形態に係る分類器学習装置100は、CPUと、RAMと、後述する分類器学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この分類器学習装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部40とを含んで構成されている。
<Configuration of Classifier Learning Device According to Embodiment of the Present Invention>
Next, the configuration of the classifier learning device according to the embodiment of the present invention will be described. As shown in FIG. 1, the classifier learning device 100 according to the present embodiment includes a CPU, a RAM, and a ROM storing a program for executing a classifier learning process routine described later and various data. It can be configured by a computer. The classifier learning device 100 functionally includes an input unit 10, an operation unit 20, and an output unit 40 as shown in FIG.

入力部10は、表形式データと表種類を表す正解ラベルとの組の集合である訓練データ集合を受け付ける。   The input unit 10 receives a training data set which is a set of a set of tabular data and a correct answer label representing a table type.

表形式データは、行列形式のセルの集合であり、各セルはHTMLを含まないプレーンテキスト情報、あるいは、HTMLタグを含むテキスト情報が与えられる   Tabular data is a set of cells in matrix form, and each cell is given plain text information not containing HTML or text information containing HTML tags.

表種類は、例えば、縦あるいは横方向のリスト型表、縦あるいは横方向の属性型表、縦あるいは横方向の列挙型表、行列型表、その他のレイアウト用表などである。   The table types are, for example, vertical or horizontal list-type tables, vertical or horizontal attribute-type tables, vertical or horizontal enumeration-type tables, matrix-type tables, and other layout tables.

演算部20は、図1に示すように、セル符号化部22、行符号化部24、列符号化部26、表符号化部28、及び学習部30を備えて構成されている。   As shown in FIG. 1, the operation unit 20 includes a cell encoding unit 22, a row encoding unit 24, a column encoding unit 26, a table encoding unit 28, and a learning unit 30.

セル符号化部22は、訓練データ集合に含まれる表形式データの各々について、表の各セルについて、当該セルに記載されたテキスト情報に含まれるトークンの系列を入力として、セルを連続値ベクトルに符号化する。   For each tabular data included in the training data set, the cell encoding unit 22 inputs, for each cell of the table, a sequence of tokens included in the text information described in the cell, and converts the cells into a continuous value vector Encode.

具体的には、セル符号化部22は、訓練データ集合の表の各々に関して、該表に含まれるすべてのセルci,j(行番号i, 列番号j)について、以下の処理を行い、各セルの符号化ベクトルhi,jを出力する。 Specifically, for each table in the training data set, the cell encoding unit 22 performs the following processing for all cells c i, j (row number i, column number j) included in the table, The coding vector h i, j of each cell is output.

まず、セル符号化部22は、セルci,jに記載のテキスト情報を形態素解析により単語(トークンと呼ぶ)の系列に分割する。たとえば、プレーンテキストとして「月額費用」を受け取った場合「月額」「費用」というトークン系列に分割する。また、HTMLテキストとして「<th><b>月額</b>費用</th>」を受け取った場合、HTMLタグごとに分割し、タグ内のテキストについて形態素解析することで「<th>」「<b>」「月額」「</b>」「費用」「</th>」のように分割する。なお、テキスト情報を文字ごとに分割して1文字をトークンとしてもよい。 First, the cell encoding unit 22 divides the text information described in the cell c i, j into a series of words (called tokens) by morphological analysis. For example, when "monthly cost" is received as plain text, it is divided into token series "monthly amount" and "cost". If you receive "<th><b> monthly </ b> cost </ th>" as HTML text, divide it into HTML tags and morphologically analyze the text in the tags <th> Divide into <b>, "Monthly", "</ b>", "Expense", and "</ th>". The text information may be divided for each character and one character may be used as a token.

次に、セル符号化部22は、セルci,jに含まれるトークンの系列を連続値の符号化ベクトルhi,jに変換する。 Next, the cell coding unit 22 converts the sequence of tokens included in the cell c i, j into a continuous value coded vector h i, j .

系列データの符号化には、非特許文献2に示すLSTMや、非特許文献3に示すGRUが利用可能である。   For encoding sequence data, LSTM shown in Non-Patent Document 2 or GRU shown in Non-Patent Document 3 can be used.

[非特許文献2]:S Hochreiter, J Schmidhuber. Long short-term memory. Neural computation 9 (8), 1735-1780, 1997. [Non-patent document 2]: S Hochreiter, J Schmidhuber. Long short-term memory. Neural computation 9 (8), 1735-1780, 1997.

[非特許文献3]:K. Cho, B. van Merrienboer, D. Bahdanau, and Y. Bengio. On the properties of neural machine translation: Encoder-decoder approaches. arXiv preprint arXiv:1409.1259, 2014. [Non-patent document 3]: K. Cho, B. van Merrienboer, D. Bahdanau, and Y. Bengio. On the properties of neural machine translation: Encoder-decoder approaches. ArXiv preprint arXiv: 1409.1259, 2014.

GRUを利用する場合、トークン系列の各トークンをx、Nc次元の符号化ベクトルをhとしたとき、トークンxが与えられるたびにhを下記の計算により更新する。   When GRU is used, h is updated by the following calculation each time token x is given, where each token of the token sequence is x and the encoding vector of Nc dimension is h.

ここで、σはシグモイド関数、

は行列の要素ごとの積を意味する。We、Wr、Ur、Wz、Uz、W、Uはセル間で共通のパラメータ行列である。トークンの種類をK種類、埋め込み次元をEとしたとき、xはK次元の1-of-Kベクトル(トークンに対応する部分のみ1、他は0)となる。WeはE×K次元のパラメータ行列となる。その他のW.はNc×E次元のパラメータ行列となる。U.はNc×Nc次元のパラメータ行列となる。hの初期値はNc次元の零ベクトルである。
Where σ is a sigmoid function,

Means the product of each element of the matrix. W e , W r , U r , W z , U z , W, and U are parameter matrices common to cells. Assuming that the type of token is K types and the embedding dimension is E, x is a K-dimensional 1-of-K vector (only the portion corresponding to the token is 1, the other is 0). W e is an E × K dimensional parameter matrix. The other W. is a parameter matrix of Nc × E dimensions. U. is a parameter matrix of Nc × Nc dimensions. The initial value of h is an Nc-dimensional zero vector.

なお、式(2)のGRUの代わりにLSTMを利用して符号化ベクトルhi,jを出力しても良い。また、トークン系列を逆順にして同様に符号化ベクトルhi,j bを出力し、正順の符号化ベクトルと連結したベクトル[hi,j;hi,j b]をセル符号化部22の出力としても良い。この場合、符号化ベクトルのサイズは2Ncとなる。 The coding vector hi , j may be output using LSTM instead of GRU in equation (2). Also, the token sequence is reversed, and the coding vector h i, j b is similarly output, and the vector [hi , j ; h i, j b ] concatenated with the normal order coding vector is output to the cell coding unit 22. It is good also as an output. In this case, the size of the coding vector is 2Nc.

行符号化部24は、訓練データ集合に含まれる表形式データの各々について、表の各行に対し、セル符号化部22が出力した、該行に含まれる各セルの連続値ベクトルの系列を入力として、行を連続値ベクトルに符号化する。   The row encoding unit 24 inputs, for each of the tabular data included in the training data set, the series of continuous value vectors of each cell included in the row, which is output by the cell encoding unit 22 for each row of the table. Encode the rows into a continuous value vector.

具体的には、行符号化部24は、表に含まれるすべての行(行番号i)について、以下の処理を行い、行内に含まれる各セルの符号化ベクトルhi,jの系列(j=1,2,…)を連続値の符号化ベクトルhiに変換する。例えば、hiをNr次元の零ベクトルとして初期化し、セルの符号化ベクトルhi,jが与えられるたびに上記式(2)のeとしてhi,jを代入することでhiを更新する。We、Wr、Ur、Wz、Uz、W、Uは行間で共通のパラメータ行列とし、W.はNr×Nc次元のパラメータ行列となる。U.はNr×Nr次元のパラメータ行列となる。 Specifically, the row encoding unit 24 performs the following processing for all the rows (row number i) included in the table, and the series (j of the encoding vectors h i, j of the respective cells included in the row) Convert = 1,2, ...) into a continuous-value encoding vector h i . For example, h i is initialized as an Nr-dimensional zero vector, and h i is updated by substituting h i, j as e in the above equation (2) each time the cell encoding vector h i, j is given. . W e , W r , U r , W z , U z , W, and U are common parameter matrices between rows, and W. is a parameter matrix of Nr × Nc dimensions. U. is a parameter matrix of Nr × Nr dimensions.

なお、式(2)のGRUの代わりにLSTMを利用して符号化ベクトルを出力しても良い。また、行内のセルの系列を逆順にして同様に符号化ベクトルhi bを出力し、正順の符号化ベクトルと連結したベクトル[hi;hi b]を行符号化部24の出力としても良い。この場合、符号化ベクトルのサイズは2Nrとなる。 The coding vector may be output using LSTM instead of GRU in equation (2). In addition, the sequence of cells in the row is reversed, and the encoding vector h i b is similarly output, and the vector [h i ; h i b ] concatenated with the encoding vector in the order is used as the output of the row encoding unit 24. Also good. In this case, the size of the coding vector is 2Nr.

列符号化部26は、訓練データ集合に含まれる表形式データの各々について、表の各列に対し、セル符号化部22が出力した、該列に含まれるセルの連続値ベクトルの系列を入力として、列を連続値ベクトルに符号化する。   The column encoding unit 26 inputs, for each column of the table, the series of continuous value vectors of cells included in the column, which are output from the cell encoding unit 22 for each column of the table, for each of the tabular data included in the training data set Encode the columns into a continuous value vector as

具体的には、列符号化部26は、表に含まれるすべての列(列番号i)について、以下の処理を行い、列内に含まれる各セルの符号化ベクトルhi,jの系列(i=1,2,…)を連続値の符号化ベクトルhjに変換する。例えば、hjをNo次元の零ベクトルとして初期化し、セルの符号化ベクトルhi,jが与えられるたびに式(2)のe=hi,j、h=hjと代入することでhjを更新する。We、Wr、Ur、Wz、Uz、W、Uは列間で共通のパラメータ行列とし、W.はNo×Nc次元のパラメータ行列となる。U.はNo×No次元のパラメータ行列となる。 Specifically, the column encoding unit 26 performs the following processing for all the columns (column number i) included in the table, and generates a series of coded vectors h i, j of each cell included in the columns ( Convert i = 1, 2,...) into continuous value coded vector h j . For example, h j is initialized as a No-dimensional zero vector, and h is substituted for e = h i, j and h = h j in equation (2) each time the cell encoding vector h i, j is given. Update j . W e , W r , U r , W z , U z , W, and U are parameter matrices common to the columns, and W. is a parameter matrix of No × Nc dimension. U. is a parameter matrix of No.times.No dimension.

なお、式(2)のGRUの代わりにLSTMを利用して符号化ベクトルを出力しても良い。また、列内のセルの系列を逆順にして同様に符号化ベクトルhj bを出力し、正順の符号化ベクトルと連結したベクトル[hj;hj b]を列符号化部26の出力としても良い。この場合、符号化ベクトルのサイズは2Noとなる。 The coding vector may be output using LSTM instead of GRU in equation (2). In addition, the sequence of cells in the column is reversed, and the encoding vector h j b is similarly output, and the vector [h j ; h j b ] concatenated with the regular order encoding vector is output from the column encoding unit 26 As well. In this case, the size of the coding vector is 2No.

表符号化部28は、訓練データ集合に含まれる表形式データの各々について、行符号化部24および列符号化部26が出力した各行及び各列の連続値ベクトルの系列を入力として、表を連続値ベクトルに符号化する。   The table encoding unit 28 receives a table of series of continuous value vectors of each row and each column output from the row encoding unit 24 and the column encoding unit 26 for each of the tabular data included in the training data set. Encode into a continuous value vector.

具体的には、まず、表符号化部28は、各行の符号化ベクトルhiの系列(i=1,2,…)を連続値の符号化ベクトルhrowに変換する。例えば、hrowをNo次元の零ベクトルとして初期化し、行の符号化ベクトルhiが与えられるたびに式(2)のe=hi、h= hrowと代入することで更新する。We、Wr、Ur、Wz、Uz、W、Uをパラメータ行列とし、W.はNt×Nr次元のパラメータ行列となる。U.はNt×Nt次元のパラメータ行列となる。 Specifically, first, the table encoding unit 28 converts a series (i = 1, 2,...) Of the encoding vector h i in each row into an encoding vector h row of continuous values. For example, h row is initialized as a No-dimension zero vector, and is updated by substituting e = h i and h = h row in equation (2) each time a row coding vector h i is given. W e, W r, U r , W z, U z, W, and U is a parameter matrix, W. Becomes Nt × Nr dimensional parameter matrix. U. is a parameter matrix of Nt × Nt dimensions.

なお、式(2)のGRUの代わりにLSTMを利用して符号化ベクトルを出力しても良い。また、行の系列を逆順にして同様に符号化ベクトルhrow bを出力し、正順の符号化ベクトルと連結したベクトル[hrow;hrow b]を出力しても良い。この場合、符号化ベクトルのサイズは2Ntとなる。 The coding vector may be output using LSTM instead of GRU in equation (2). Alternatively, the sequence of rows may be reversed, the encoding vector h row b may be similarly output, and the vector [h row ; h row b ] concatenated with the orderly encoding vector may be output. In this case, the size of the coding vector is 2Nt.

そして、表符号化部28は、各列の符号化ベクトルhjの系列(j=1,2,…)を連続値の符号化ベクトルhcolに変換する。例えば、hcolをNt次元の零ベクトルとして初期化し、列の符号化ベクトルhjが与えられるたびに式(2)のe=hi、h= hcolと代入することで更新する。We、Wr、Ur、Wz、Uz、W、Uをパラメータ行列(連続値の符号化ベクトルhrowへの変換とは別のパラメータとする)とし、W.はNt×No次元のパラメータ行列となる。U.はNt×Nt次元のパラメータ行列となる。 Then, the table encoding unit 28 converts the series (j = 1, 2,...) Of the encoding vector h j of each column into the encoding vector h col of continuous values. For example, h col is initialized as an Nt-dimensional zero vector, and is updated by substituting e = h i and h = h col of equation (2) each time a column coding vector h j is given. W and e, W r, U r, W z, U z, W, U parameter matrix and (a different parameter from the conversion to coding vectors h row of continuous values), W. The Nt × No dimension It becomes a parameter matrix of U. is a parameter matrix of Nt × Nt dimensions.

なお、式(2)のGRUの代わりにLSTMを利用して符号化ベクトルを出力しても良い。また、行の系列を逆順にして同様に符号化ベクトルhcol bを出力し、正順の符号化ベクトルと連結したベクトル[hcol;hcol b]を出力しても良い。この場合、符号化ベクトルのサイズは2Ntとなる。 The coding vector may be output using LSTM instead of GRU in equation (2). In addition, the sequence of the rows may be reversed, and the encoding vector h col b may be output in the same manner, and the vector [h col ; h col b ] concatenated with the encoding vector in normal order may be output. In this case, the size of the coding vector is 2Nt.

表符号化部28は、上記で出力したベクトルを連結した[hrow;hcol]を表の符号化ベクトルhとして出力する。 The table encoding unit 28 outputs [h row ; h col ] obtained by concatenating the vectors output above as a table encoding vector h.

学習部30は、訓練データ集合に含まれる表形式データの各々について表符号化部28が出力した連続値ベクトルと、訓練データ集合に含まれる正解ラベルとに基づいて、表形式データの表の種類を分類するための分類器を学習する。   The learning unit 30 determines the type of tabular data table based on the continuous value vector output by the tabular coding unit 28 for each of the tabular data included in the training data set and the correct answer label included in the training data set. Learn a classifier to classify

具体的には、学習部30は、訓練データ集合に含まれる表のそれぞれについて、表符号化部28の出力した表符号化ベクトルh(次元数2Nt)を入力として、以下の式(3)に従って、表種類のクラス分類(クラス数=C)を行う。   Specifically, learning unit 30 receives, for each of the tables included in the training data set, table coding vector h (dimension number 2Nt) output from table coding unit 28 according to the following equation (3) , Class classification of table types (number of classes = C).

ここで、Wclsは2Nt×Cのサイズのパラメータ行列とし、softmaxはソフトマックス関数、yは次元数Cのベクトルである。なお、本実施例では、C=6とし、横方向リスト型、縦方向リスト型、横方向属性型、縦方向属性型、行列型、その他、の6種類のクラスとする。 Here, W cls is a parameter matrix of size 2Nt × C, softmax is a softmax function, and y is a vector of dimension C. In this embodiment, C = 6, and there are six types of classes: horizontal list type, vertical list type, horizontal attribute type, vertical attribute type, matrix type, and others.

そして、学習部30は、訓練データ集合に含まれる表のそれぞれについて、該表の正解クラスt(t=1,…Cのとき、それぞれ横方向リスト型、縦方向リスト型、横方向属性型、縦方向属性型、行列型、その他を意味する)と、該表に対するクラス分類の出力yとを用いて、式(4)のクロスエントロピー関数により損失Lを計算する。   Then, for each of the tables included in the training data set, the learning unit 30 generates a list in the horizontal direction, a list in the vertical direction, and a horizontal attribute in the correct class t (t = 1,... C) of the table. The loss L is calculated by the cross entropy function of equation (4) using the vertical attribute type (meaning matrix type, etc.) and the output y of the class classification for the table.

そして、学習部30は、上記式(4)により求めた各表に対する損失Lについて確率的勾配降下法によりセル符号化部22、行符号化部24、列符号化部26、表符号化部28の行方向、列方向の各パラメータ行列について最適化を行う。なお、本発明は最適化の方法には依存しておらず、他のニューラルネットのパラメータに対する他の最適化法を利用しても良い。   Then, the learning unit 30 calculates cell loss 22 for each table obtained by the above equation (4) using the stochastic gradient descent method, cell coding unit 22, row coding unit 24, column coding unit 26, table coding unit 28. Optimization is performed for each parameter matrix in the row direction and the column direction. Note that the present invention does not depend on the optimization method, and other optimization methods for other neural network parameters may be used.

図2に、セル・行・表の符号化ベクトルの例を示す。この例ではセル符号化部22はセルc3,1に記載の”<td>1000</td>”というHTMLテキストから<td>, 1000, </td>というトークン系列を抽出し、GRUによりセルベクトルh3,1に符号化する。次に、行符号化部24は各行のセルの並びを行ベクトルに符号化する。この例では、3行目のセルベクトルの系列をGRUにより符号化し、行ベクトルh3を獲得する。そして、表符号化部28が行の系列をGRUにより符号化し表ベクトルhrowを求める。同様にhcolを列の系列から求め、[hrow; hcol]の連結ベクトルを用いてクラス分類を行う。 FIG. 2 shows an example of cell / row / table coding vector. In this example, the cell encoding unit 22 extracts a token sequence of <td>, 1000, </ td> from the HTML text of “<td> 1000 </ td>” described in the cell c 3 , 1 by the GRU. Encode into cell vector h 3,1 . Next, the row encoding unit 24 encodes the arrangement of cells in each row into a row vector. In this example, a series of cell vectors in the third row is encoded by GRU, acquiring row vector h 3. Then, the table encoding unit 28 encodes the series of rows by GRU to obtain a table vector h row . Similarly, h col is obtained from the series of columns, and classification is performed using a connected vector of [h row ; h col ].

<本発明の実施の形態に係る表種類分類装置の構成>
次に、本発明の実施の形態に係る表種類分類装置の構成について説明する。図3に示すように、本実施の形態に係る表種類分類装置150は、CPUと、RAMと、後述する表種類分類処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この表種類分類装置150は、機能的には図3に示すように入力部60と、演算部70と、出力部90とを含んで構成されている。
<Configuration of Table Type Classification Device According to Embodiment of the Present Invention>
Next, the configuration of the table type classification device according to the embodiment of the present invention will be described. As shown in FIG. 3, the table type classification device 150 according to the present embodiment includes a CPU, a RAM, and a ROM storing a program for executing a table type classification processing routine described later and various data. It can be configured by a computer. The table type classification device 150 functionally includes an input unit 60, an operation unit 70, and an output unit 90 as shown in FIG.

入力部60は、分類対象となる表形式データを受け付ける。   The input unit 60 receives tabular data to be classified.

演算部70は、図3に示すように、セル符号化部72、行符号化部74、列符号化部76、表符号化部78、及び表種類分類部80を備えて構成されている。   As shown in FIG. 3, the arithmetic unit 70 includes a cell encoding unit 72, a row encoding unit 74, a column encoding unit 76, a table encoding unit 78, and a table type classification unit 80.

セル符号化部72は、入力された表形式データについて、セル符号化部22と同様に、表の各セルに対して、当該セルに記載されたテキスト情報に含まれるトークンの系列を入力として、セルを連続値ベクトルhi,jに符号化する。ここで、連続値の符号化ベクトルhi,jへの変換で用いられるパラメータ行列は、分類器学習装置100で最適化されたものである。 For the input tabular data, for each cell of the table, the sequence of tokens included in the text information described in the cell is input as in the cell encoding unit 22 for the input tabular data, The cells are encoded into a continuous value vector h i, j . Here, the parameter matrix used in the conversion of the continuous value into the coding vector h i, j is the one optimized by the classifier learning device 100.

行符号化部74は、入力された表形式データについて、行符号化部24と同様に、表の各行に対し、セル符号化部72が出力した、該行に含まれるセルの連続値ベクトルの系列を入力として、行を連続値ベクトルhiに符号化する。ここで、各行の符号化ベクトルhiへの変換で用いられるパラメータ行列は、分類器学習装置100で最適化されたものである。 For the input tabular data, the row encoding unit 74 outputs the continuous value vector of the cells included in the row, which is output from the cell encoding unit 72 for each row of the table, similarly to the row encoding unit 24. With the sequence as input, the rows are encoded into a continuous value vector h i . Here, the parameter matrix used in the conversion to the coding vector h i of each row is one optimized by the classifier learning device 100.

列符号化部76は、入力された表形式データについて、列符号化部26と同様に、表の各列に対し、セル符号化部72が出力した、該列に含まれるセルの連続値ベクトルの系列を入力として、列を連続値ベクトルhjに符号化する。ここで、各列の符号化ベクトルhjへの変換で用いるパラメータ行列は、分類器学習装置100で最適化されたものである。 The column encoding unit 76, for the input tabular data, as in the column encoding unit 26, for each column of the table, the continuous value vector of the cells included in the column, which the cell encoding unit 72 outputs. The sequence is encoded into a continuous value vector h j using as input. Here, the parameter matrix used in the conversion to the encoding vector h j of each column is optimized by the classifier learning device 100.

表符号化部78は、入力された表形式データについて、表符号化部28と同様に、行符号化部74および列符号化部76が出力した各行及び各列の連続値ベクトルの系列を入力として、表を連続値ベクトルhに符号化する。ここで、連続値の符号化ベクトルhrowへの変換、及び連続値の符号化ベクトルhrowへの変換で用いるパラメータ行列は、分類器学習装置100で最適化されたものである。 The table encoding unit 78 inputs a series of continuous value vectors of each row and each column output from the row encoding unit 74 and the column encoding unit 76 for the input tabular data in the same manner as the table encoding unit 28. Encode the table into a continuous value vector h. Here, the parameter matrix used in the conversion of the continuous value into the coding vector h row and the conversion of the continuous value into the coding vector h row is the one optimized by the classifier learning device 100.

表種類分類部80は、入力された表形式データについて、学習部30と同様に、表符号化部78の出力した表符号化ベクトルh(次元数2Nt)を入力として、上記式(3)に従って、表種類のクラス分類(クラス数=C)を行う。   The table type classification unit 80 receives the table coding vector h (dimension number 2Nt) output from the table coding unit 78 as input for the input tabular data, in the same manner as the learning unit 30 according to the above equation (3). , Class classification of table types (number of classes = C).

<本発明の実施形態に係る分類器学習装置の作用>
次に、本発明の実施形態に係る分類器学習装置100の作用について説明する。分類器学習装置100は、入力部10によって、訓練データ集合を受け付けると、分類器学習装置100によって、図4に示す分類器学習処理ルーチンが実行される。
<Operation of Classifier Learning Device According to Embodiment of the Present Invention>
Next, the operation of the classifier learning device 100 according to the embodiment of the present invention will be described. In the classifier learning device 100, when the training data set is received by the input unit 10, the classifier learning processing routine shown in FIG. 4 is executed by the classifier learning device 100.

まず、ステップS100で、入力された訓練データ集合に含まれる表形式データの各々について、表の各セルに対し、当該セルに記載されたテキスト情報に含まれるトークンの系列を入力として、セルを連続値ベクトルに符号化する。   First, in step S100, for each of the tabular data included in the input training data set, for each cell of the table, the sequence of cells included in the text information described in the cell is input, and the cells are continued Encode into a value vector.

ステップS102では、入力された訓練データ集合に含まれる表形式データの各々について、表の各行に対し、上記ステップS100で得られた、該行に含まれるセルの連続値ベクトルの系列を入力として、行を連続値ベクトルに符号化する。   In step S102, for each of the tabular data included in the input training data set, for each row of the table, the sequence of continuous value vectors of cells included in the row obtained in step S100 is input. Encode the rows into a continuous value vector.

また、訓練データ集合に含まれる表形式データの各々について、表の各列に対し、上記ステップS100で得られた、該列に含まれるセルの連続値ベクトルの系列を入力として、列を連続値ベクトルに符号化する。   Also, for each of the tabular data included in the training data set, for each column of the table, the series of continuous value vectors of the cells included in the column obtained in step S100 above are input, and the columns are continuous values Encode into a vector.

ステップS104では、訓練データ集合に含まれる表形式データの各々について、上記ステップS102で得られた各行及び各列の連続値ベクトルの系列を入力として、表を連続値ベクトルに符号化する。   In step S104, for each of the tabular data included in the training data set, the sequence of the continuous value vector of each row and column obtained in step S102 is input to encode the table into a continuous value vector.

ステップS106では、訓練データ集合に含まれる表形式データのそれぞれについて、上記ステップS104で得られた表符号化ベクトルh(次元数2Nt)を入力として、上記式(3)に従って、表種類のクラス分類(クラス数=C)を行う。   In step S106, the table coding vector h (dimension number 2Nt) obtained in step S104 is input for each of the tabular data included in the training data set, and the table classification is classified according to the above equation (3). Perform (Number of classes = C).

そして、ステップS108では、訓練データ集合に含まれる表のそれぞれについて、該表の正解クラスと、該表に対する上記ステップS106によるクラス分類の出力yとを用いて、上記式(4)のクロスエントロピー関数により損失Lを計算する。そして、各表に対する損失Lについて確率的勾配降下法によりセル符号化部22、行符号化部24、列符号化部26、表符号化部28の行方向、列方向の各パラメータ行列について最適化を行い、出力部40により出力し、分類器学習処理ルーチンを終了する。   Then, in step S108, for each of the tables included in the training data set, using the correct class of the table and the output y of the class classification in step S106 for the table, the cross entropy function of the above equation (4) The loss L is calculated by Then, with regard to the loss L for each table, the parameter coding matrix in the row direction and the column direction of the cell coding unit 22, the row coding unit 24, the column coding unit 26, and the table coding unit 28 is optimized by the stochastic gradient descent method. And output from the output unit 40, and the classifier learning processing routine is ended.

<本発明の実施形態に係る表種類分類装置の作用>
次に、本発明の実施形態に係る表種類分類装置150の作用について説明する。表種類分類装置150は、入力部60によって、表形式データを受け付けると、表種類分類装置150によって、図5に示す表種類分類処理ルーチンが実行される。
<Operation of Table Type Classification Device According to Embodiment of the Present Invention>
Next, the operation of the table type classification device 150 according to the embodiment of the present invention will be described. When the table type classification device 150 receives tabular data by the input unit 60, the table type classification device 150 executes the table type classification processing routine shown in FIG.

まず、ステップS150で、入力された表形式データについて、表の各セルに対し、当該セルに記載されたテキスト情報に含まれるトークンの系列を入力として、セルを連続値ベクトルに符号化する。   First, in step S150, for input tabular data, for each cell of the table, the sequence of tokens included in the text information described in the cell is input, and the cell is encoded into a continuous value vector.

ステップS152では、入力された表形式データについて、表の各行に対し、上記ステップS150で得られた、該行に含まれるセルの連続値ベクトルの系列を入力として、行を連続値ベクトルに符号化する。   In step S152, for the input tabular data, for each row of the table, the sequence of continuous value vectors of cells included in the row obtained in step S150 is input to encode the row into a continuous value vector Do.

また、入力された表形式データについて、表の各列に対し、上記ステップS150で得られた、該列に含まれるセルの連続値ベクトルの系列を入力として、列を連続値ベクトルに符号化する。   Also, for the input tabular data, for each column of the table, the series is encoded with the series of continuous value vectors of the cells included in the column obtained in step S150 above into the continuous value vector .

ステップS154では、入力された表形式データについて、上記ステップS152で得られた各行及び各列の連続値ベクトルの系列を入力として、表を連続値ベクトルに符号化する。   In step S154, the table is encoded into a continuous value vector, with the input tabular data being input, the series of continuous value vectors of each row and each column obtained in step S152.

ステップS156では、入力された表形式データについて、上記ステップS154で得られた表符号化ベクトルh(次元数2Nt)を入力として、上記式(3)に従って、表種類のクラス分類(クラス数=C)を行い、出力部90により出力し、表種類分類処理ルーチンを終了する。   In step S156, the table coding vector h (dimension number 2Nt) obtained in step S154 is input to the input tabular data, and the table classification class classification (class number = C) according to the above equation (3) And the output unit 90 outputs the table type classification processing routine.

以上説明したように、本発明の実施の形態に係る表種類分類装置によれば、セルを連続値ベクトルに符号化し、各セルの連続値ベクトルの系列を入力として、行を連続値ベクトルに符号化し、各セルの連続値ベクトルの系列を入力として、列を連続値ベクトルに符号化し、各行及び各列の連続値ベクトルの系列を入力として、表を連続値ベクトルに符号化し、表形式データの表の種類を分類することにより、入力された表データ全体から、行内のセルの順序、列内の順序表内の行の順序、表内の列の順序を考慮して、表形式データの表種類を精度よく分類することができる。   As described above, according to the table type classification device according to the embodiment of the present invention, a cell is encoded into a continuous value vector, a sequence of the continuous value vector of each cell is input, and a row is coded into the continuous value vector. The column is encoded as a continuous value vector with the series of continuous value vectors of each cell as input, and the table is encoded into the continuous value vector with the series of continuous value vectors of each row and each column as input. By classifying the type of table, the table type data table is considered taking into consideration the order of the cells in the row, the order of the rows in the order table in the columns, and the order of the columns in the table from the entire input table data. The types can be classified with high accuracy.

また、本発明の実施の形態に係る分類器学習装置によれば、セルを連続値ベクトルに符号化し、各セルの連続値ベクトルの系列を入力として、行を連続値ベクトルに符号化し、各セルの連続値ベクトルの系列を入力として、列を連続値ベクトルに符号化し、各行及び各列の連続値ベクトルの系列を入力として、表を連続値ベクトルに符号化し、表形式データの表の種類を分類するための分類器を学習することにより、入力された表データ全体から、行内のセルの順序、列内の順序表内の行の順序、表内の列の順序を考慮して、表形式データの表種類を精度よく分類することができる分類器を学習することができる。   Also, according to the classifier learning device according to the embodiment of the present invention, cells are encoded into continuous value vectors, and a sequence of continuous value vectors of each cell is input, and rows are encoded into continuous value vectors, A sequence of continuous value vectors of is input to encode a column into a continuous value vector, and a sequence of continuous value vectors of each row and each column is input to encode a table into a continuous value vector, and the table type of tabular data is By learning the classifier for classification, the tabular form taking into consideration the order of the cells in the row, the order of the rows in the order table in the columns, and the order of the columns in the table from the entire input tabular data It is possible to learn a classifier capable of accurately classifying table types of data.

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   The present invention is not limited to the above-described embodiment, and various modifications and applications can be made without departing from the scope of the present invention.

例えば、上記の実施の形態では、分類器学習装置と表種類分類装置とを別々に設ける場合を例に説明したが、分類器学習装置と表種類分類装置とを、1つの装置で実現するようにしてもよい。   For example, in the above embodiment, the classifier learning device and the table type classification device are separately provided, but the classifier learning device and the table type classification device can be realized by one device. You may

本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。   In the present specification, although the program has been described as an embodiment in which the program is pre-installed, the program can be provided by being stored in a computer readable recording medium, or provided via a network. Is also possible.

本発明は、表種類を理解することで精度を向上可能な表形式データからの知識獲得および情報検索などに利用可能である。   The present invention can be used for knowledge acquisition and information retrieval from tabular data whose precision can be improved by understanding table types.

10、60 入力部
20、70 演算部
22、72 セル符号化部
24、74 行符号化部
26、76 列符号化部
28、78 表符号化部
30 学習部
40、90 出力部
80 表種類分類部
100 分類器学習装置
150 表種類分類装置
10, 60 input unit 20, 70 operation unit 22, 72 cell encoding unit 24, 74 row encoding unit 26, 76 column encoding unit 28, 78 table encoding unit 30 learning unit 40, 90 output unit 80 table type classification Part 100 Classifier learning device 150 Table type classification device

Claims (5)

セルの行列として記述された表形式データと表の種類を表す正解ラベルとの組の集合である訓練データ集合に含まれる前記表形式データの各々について、表の各セルに対し、該セルに記載されたテキスト情報に含まれるトークンの系列を入力として、セルを連続値ベクトルに符号化するセル符号化部と、
前記訓練データ集合に含まれる前記表形式データの各々について、表の各行に対し、前記セル符号化部が出力した、該行に含まれる各セルの連続値ベクトルの系列を入力として、行を連続値ベクトルに符号化する行符号化部と、
前記訓練データ集合に含まれる前記表形式データの各々について、表の各列に対し、前記セル符号化部が出力した、該列に含まれる各セルの連続値ベクトルの系列を入力として、列を連続値ベクトルに符号化する列符号化部と、
前記訓練データ集合に含まれる前記表形式データの各々について、前記行符号化部および前記列符号化部が出力した各行及び各列の連続値ベクトルの系列を入力として、表を連続値ベクトルに符号化する表符号化部と、
前記訓練データ集合に含まれる前記表形式データの各々について前記表符号化部が出力した連続値ベクトルと、前記訓練データ集合に含まれる前記正解ラベルとに基づいて、表形式データの表の種類を分類するための分類器を学習する学習部と、
を有することを特徴とする分類器学習装置。
For each cell in the table, for each cell in the table, for each cell in the table, for each cell in the table, for each of the tabular data included in the training data set that is a set of sets of tabular data described as a matrix of cells and correct A cell encoding unit that encodes a cell into a continuous value vector with a sequence of tokens included in the processed text information as an input;
For each of the tabular data included in the training data set, for each row of the table, the row is continuously input using the series of continuous value vectors of each cell included in the row, which is output by the cell encoding unit. A row encoding unit encoding the value vector;
For each of the tabular data included in the training data set, for each column of the table, the column is input using the sequence of continuous value vectors of each cell included in the column, which is output by the cell encoding unit. A column encoding unit that encodes a continuous value vector;
For each of the tabular data included in the training data set, a sequence of continuous value vectors of each row and each row output by the row coding unit and the column coding unit is input, and a table is coded as a continuous value vector A table encoding unit to convert
For each of the tabular data included in the training data set, the table type of the tabular data is determined based on the continuous value vector output by the table encoding unit and the correctness label included in the training data set. A learning unit that learns a classifier for classification;
A classifier learning device characterized by having:
セルの行列として記述された表形式データについて、表の各セルに対し、該セルに記載されたテキスト情報に含まれるトークンの系列を入力として、セルを連続値ベクトルに符号化するセル符号化部と、
前記表形式データについて、表の各行に対し、前記セル符号化部が出力した、該行に含まれる各セルの連続値ベクトルを入力として、行を連続値ベクトルに符号化する行符号化部と、
前記表形式データについて、表の各列に対し、前記セル符号化部が出力した、該列に含まれる各セルの連続値ベクトルを入力として、列を連続値ベクトルに符号化する列符号化部と、
前記表形式データについて、前記行符号化部および前記列符号化部が出力した各行及び各列の連続値ベクトルの系列を入力として、表を連続値ベクトルに符号化する表符号化部と、
前記表符号化部が出力した連続値ベクトルと、表形式データの表の種類を分類するための予め学習された分類器とに基づいて、前記表形式データの表の種類を分類する表種類分類部と、
を有することを特徴とする表種類分類装置。
A cell encoding unit encoding, into tabular values represented as a matrix of cells, for each cell of the table, a sequence of tokens included in text information described in the cell as an input and encoding the cells into a continuous value vector When,
A row coding unit encoding the row into a continuous value vector by using the continuous value vector of each cell included in the row output from the cell coding unit for each row of the table for the tabular data; ,
A column coding unit which encodes the columns into continuous value vectors by using the continuous value vector of each cell included in the column output from the cell encoding unit for each column of the table for the tabular data When,
A table encoding unit that encodes a table into a continuous value vector, with the tabular data, the series of continuous value vectors of each row and each column output by the row coding unit and the column coding unit being input;
A table type classification that classifies the type of the tabular data table based on the continuous value vector outputted by the table encoding unit and a previously learned classifier for classifying the type of the tabular data table. Department,
A table type classification device characterized by having.
セル符号化部が、セルの行列として記述された表形式データと表の種類を表す正解ラベルとの組の集合である訓練データ集合に含まれる前記表形式データの各々について、表の各セルに対し、該セルに記載されたテキスト情報に含まれるトークンの系列を入力として、セルを連続値ベクトルに符号化し、
行符号化部が、前記訓練データ集合に含まれる前記表形式データの各々について、表の各行に対し、前記セル符号化部が出力した、該行に含まれる各セルの連続値ベクトルの系列を入力として、行を連続値ベクトルに符号化し、
列符号化部が、前記訓練データ集合に含まれる前記表形式データの各々について、表の各列に対し、前記セル符号化部が出力した、該列に含まれる各セルの連続値ベクトルの系列を入力として、列を連続値ベクトルに符号化し、
表符号化部が、前記訓練データ集合に含まれる前記表形式データの各々について、前記行符号化部および前記列符号化部が出力した各行及び各列の連続値ベクトルの系列を入力として、表を連続値ベクトルに符号化し、
学習部が、前記訓練データ集合に含まれる前記表形式データの各々について前記表符号化部が出力した連続値ベクトルと、前記訓練データ集合に含まれる前記正解ラベルとに基づいて、表形式データの表の種類を分類するための分類器を学習する、
分類器学習方法。
For each cell of the table, for each of the tabular data included in the training data set, the cell encoding unit is a set of a set of tabular data described as a matrix of cells and a correct answer label representing the type of the table. And the cell is encoded into a continuous value vector with the sequence of tokens included in the text information described in the cell as an input,
A row coding unit outputs, for each row of the table, for each of the tabular data included in the training data set, a series of continuous value vectors of each cell included in the row, which is output by the cell coding unit. Encode the rows into a continuous value vector as input
A sequence of continuous value vectors of each cell included in the column, which the column encoding unit outputs, for each column of the table, for each of the tabular data included in the training data set. Encode the columns into a continuous value vector, taking
A table encoding unit is input for each of the tabular data included in the training data set, using a sequence of continuous value vectors of each row and each column output by the row encoding unit and the column encoding unit as a table. Encode into a continuous value vector,
The learning unit generates the tabular data based on the continuous value vector output from the tabular coding unit for each of the tabular data included in the training data set, and the correctness label included in the training data set. Train a classifier to classify table types,
Classifier learning method.
セル符号化部が、セルの行列として記述された表形式データについて、表の各セルに対し、該セルに記載されたテキスト情報に含まれるトークンの系列を入力として、セルを連続値ベクトルに符号化し、
行符号化部が、前記表形式データについて、表の各行に対し、前記セル符号化部が出力した、該行に含まれる各セルの連続値ベクトルを入力として、行を連続値ベクトルに符号化し、
列符号化部が、前記表形式データについて、表の各列に対し、前記セル符号化部が出力した、該列に含まれる各セルの連続値ベクトルを入力として、列を連続値ベクトルに符号化し、
表符号化部が、前記表形式データについて、前記行符号化部および前記列符号化部が出力した各行及び各列の連続値ベクトルの系列を入力として、表を連続値ベクトルに符号化し、
表種類分類部が、前記表符号化部が出力した連続値ベクトルと、表形式データの表の種類を分類するための予め学習された分類器とに基づいて、前記表形式データの表の種類を分類する
表種類分類方法。
For tabular data described as a matrix of cells, the cell encoding unit inputs, for each cell of the table, a sequence of tokens included in the text information described in the cell and codes the cells into a continuous value vector Turn
The row coding unit encodes the row into a continuous value vector by using the continuous value vector of each cell included in the row output from the cell coding unit for each row of the table for the tabular data ,
A column encoding unit is a unit for encoding a column as a continuous value vector, with the continuous value vector of each cell included in the column output by the cell encoding unit for each column of the table for the tabular data Turn
The table encoding unit encodes a table into a continuous value vector, with the tabular data, the sequence of continuous value vectors of each row and each column output by the row coding unit and the column coding unit being input,
A table type classification unit generates the table type of the tabular data based on the continuous value vector output by the table encoding unit and a previously learned classifier for classifying the type of the tabular data table. Table type classification method.
コンピュータを、請求項1に記載の分類器学習装置、又は請求項2に記載の表種類分類装置の各部として機能させるためのプログラム。   A program for causing a computer to function as each part of the classifier learning device according to claim 1 or the table type classification device according to claim 2.
JP2016182059A 2016-09-16 2016-09-16 Classifier learning device, table type classification device, method, and program Active JP6495212B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016182059A JP6495212B2 (en) 2016-09-16 2016-09-16 Classifier learning device, table type classification device, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016182059A JP6495212B2 (en) 2016-09-16 2016-09-16 Classifier learning device, table type classification device, method, and program

Publications (2)

Publication Number Publication Date
JP2018045626A JP2018045626A (en) 2018-03-22
JP6495212B2 true JP6495212B2 (en) 2019-04-03

Family

ID=61695111

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016182059A Active JP6495212B2 (en) 2016-09-16 2016-09-16 Classifier learning device, table type classification device, method, and program

Country Status (1)

Country Link
JP (1) JP6495212B2 (en)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11110409A (en) * 1997-10-07 1999-04-23 Ntt Data Corp Information classification method and device
JP4902863B2 (en) * 2007-01-26 2012-03-21 三菱電機株式会社 Table sorter

Also Published As

Publication number Publication date
JP2018045626A (en) 2018-03-22

Similar Documents

Publication Publication Date Title
CN108399158B (en) Attribute sentiment classification method based on dependency tree and attention mechanism
CN109284506B (en) A user review sentiment analysis system and method based on attention convolutional neural network
CN115146488B (en) Variable business process intelligent modeling system and method based on big data
CN113312501A (en) Construction method and device of safety knowledge self-service query system based on knowledge graph
CN112232149A (en) Document multi-mode information and relation extraction method and system
US20210182680A1 (en) Processing sequential interaction data
CN114490953B (en) Method for training event extraction model, method, device and medium for extracting event
CN107291803A (en) A kind of network representation method for merging polymorphic type information
CN110196906A (en) Towards financial industry based on deep learning text similarity detection method
CN112699222B (en) Text classification method and mail classification method based on quantum heuristic neural network
CN106777011A (en) A kind of file classification method based on depth multi-task learning
CN115017144B (en) Judicial document case element entity identification method based on graphic neural network
CN114519344A (en) A text-level multi-event extraction method based on argument subgraph prompt generation and guidance
EP3971792A1 (en) Device and method for determining a knowledge graph
JP6517773B2 (en) Classifier learning device, table type classification device, method, and program
Kolawole et al. Sign-to-speech model for sign language understanding: a case study of Nigerian sign language
CN116611450A (en) Method, device and equipment for extracting document information and readable storage medium
Gao et al. Sentiment analysis with CNNs built on LSTM on tourists comments
CN112905793B (en) A case recommendation method and system based on Bilstm+Attention text classification
JP6495212B2 (en) Classifier learning device, table type classification device, method, and program
CN114154505A (en) Named entity identification method for power planning review field
CN114648017A (en) Document level relation extraction method based on heterogeneous graph attention network
Agarwal et al. Text recognition from image using artificial neural network and genetic algorithm
CN113449524A (en) Named entity identification method, system, equipment and medium
CN116521899B (en) Improved graph neural network-based document level relation extraction method and system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190306

R150 Certificate of patent or registration of utility model

Ref document number: 6495212

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350