Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7814892B2 - Information processing device, information processing method, and program - Google Patents
[go: Go Back, main page]

JP7814892B2 - Information processing device, information processing method, and program - Google Patents

Information processing device, information processing method, and program

Info

Publication number
JP7814892B2
JP7814892B2 JP2021185190A JP2021185190A JP7814892B2 JP 7814892 B2 JP7814892 B2 JP 7814892B2 JP 2021185190 A JP2021185190 A JP 2021185190A JP 2021185190 A JP2021185190 A JP 2021185190A JP 7814892 B2 JP7814892 B2 JP 7814892B2
Authority
JP
Japan
Prior art keywords
tokens
information processing
named entity
token
named
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021185190A
Other languages
Japanese (ja)
Other versions
JP2023072557A (en
Inventor
寛基 浦島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2021185190A priority Critical patent/JP7814892B2/en
Publication of JP2023072557A publication Critical patent/JP2023072557A/en
Application granted granted Critical
Publication of JP7814892B2 publication Critical patent/JP7814892B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Description

本発明は、自然言語処理のための情報処理技術に関する。 The present invention relates to information processing technology for natural language processing.

近年、AI技術の進歩に伴い、人間の話し言葉や書き言葉で書かれた文書をコンピュータで解析する自然言語処理と呼ばれる分野が進展してきている。自然言語処理の技術は文書の要約や翻訳、音声対話、データ分析といった文書データを扱う様々な分野で応用が期待されている。 In recent years, advances in AI technology have led to advances in the field of natural language processing, which uses computers to analyze documents written in human speech and language. Natural language processing technology is expected to be applied in a variety of fields that handle document data, such as document summarization and translation, voice dialogue, and data analysis.

自然言語処理の応用技術の中に、文書データから予め定義した項目(固有表現)の値を抽出する固有表現抽出と呼ばれるものがある。例えば固有表現として法人名、有効期限が定義されているときに、文書データ中から法人名に該当する文字列と有効期限に該当する文字列を抽出するというものである。 One of the applied technologies of natural language processing is named entity extraction, which extracts the values of pre-defined items (named entities) from document data. For example, if a corporate name and expiration date are defined as named entities, the strings corresponding to the corporate name and the expiration date can be extracted from the document data.

現在、自然言語処理において主流となっているTransformersを用いたBERTに代表される自然言語処理モデルは、文書データに含まれる文字列をトークンと呼ばれる単位に分解し、そのトークンをベクトル化したものを入力データとする。但し、自然言語処理モデルが一度に処理できるトークンの数には上限があるため、上限を超えるトークンを含む長文の文書データを入力する場合は、文書データを2以上のトークングループに分割してそれらを別々に入力して処理する必要がある。1つの文書データに含まれる複数のトークンを、単純に自然言語処理モデルの入力上限に合せて分割した場合、固有表現を区別するためのキーワードや文脈(固有表現の周辺の文字列)を失ってしまい、固有表現の推定精度が低下することがある。 Currently, natural language processing models using Transformers, such as BERT, which is the mainstream in natural language processing, break down character strings contained in document data into units called tokens, and use these tokens as vectors as input data. However, because there is a limit to the number of tokens that a natural language processing model can process at one time, when inputting long document data containing tokens that exceed this limit, the document data must be divided into two or more token groups, which must be input and processed separately. If the multiple tokens contained in a single piece of document data are simply divided to fit the natural language processing model's input limit, the keywords and context (character strings surrounding the named entity) used to distinguish named entities may be lost, resulting in a decrease in the accuracy of named entity inference.

特許文献1では、文書データを章や節、段落といったセクションで分割し、一定の文脈を保持することが期待されるトークングループ毎に自然言語処理モデルを用いた固有表現の抽出を行っている。 In Patent Document 1, document data is divided into sections such as chapters, sections, and paragraphs, and named entities are extracted using a natural language processing model for each token group that is expected to retain a certain context.

特開2021-64143号公報Japanese Patent Application Laid-Open No. 2021-64143

引用文献1では、一度に処理するトークン数が自然言語処理モデルの入力上限に収まるように、文書データに含まれるトークンをセクションで分割するようにしている。しかし、分割したセクションをそれぞれ別々に処理するため、隣接するセクションに含まれる文脈を失うことで推定精度が低下することがあるという課題がある。 In Cited Document 1, tokens contained in document data are divided into sections so that the number of tokens processed at one time falls within the input limit of the natural language processing model. However, because each divided section is processed separately, there is an issue that the estimation accuracy may decrease due to the loss of context contained in adjacent sections.

そこで本発明では、文書データに含まれるトークンを分割する際に、自然言語処理における推定精度の低下を抑えることを目的とする。 The present invention therefore aims to prevent a decline in estimation accuracy in natural language processing when dividing tokens contained in document data.

本開示の技術は、入力文字列を分解して得られた複数のトークンから固有表現を抽出するための情報処理装置であって、前記入力文字列を分解して得られた複数のトークンの数が所定の上限数を超える場合、当該複数のトークンを2以上のトークングループに分割する分割手段であって、前記トークングループにおいてはそれぞれ所定の数のトークンが他のトークングループとオーバーラップする、前記分割手段と、前記トークングループごとに前記固有表現を抽出する抽出手段と、前記他のトークングループとオーバーラップする部分についての前記抽出手段による前記固有表現の抽出結果に基づき、前記オーバーラップする部分における前記固有表現の抽出結果を決定する決定手段と、を備え、前記決定手段は、前記オーバーラップする部分におけるオーバーラップする2つのトークングループのそれぞれからの前記固有表現の抽出結果のうち、当該オーバーラップするトークングループの中でトークン数の多いトークングループの前記固有表現の抽出結果を前記オーバーラップする部分における前記固有表現の抽出結果に決定する、ことを特徴とする。
The technology disclosed herein is an information processing device for extracting named entities from a plurality of tokens obtained by decomposing an input character string, the information processing device comprising: a division means for dividing the plurality of tokens obtained by decomposing the input character string into two or more token groups when the number of the plurality of tokens obtained by decomposing the input character string exceeds a predetermined upper limit, wherein each of the token groups has a predetermined number of tokens overlapping with another token group; an extraction means for extracting the named entities for each of the token groups; and a determination means for determining the extraction result of the named entities in the overlapping portion based on the extraction result of the named entities by the extraction means for the overlapping portion with the other token group, wherein the determination means determines the extraction result of the named entity in the overlapping portion to be the extraction result of the named entity in the overlapping portion, of the token group with the largest number of tokens among the extraction results of the named entities from each of the two overlapping token groups in the overlapping portion .

本発明によれば、文書データに含まれるトークンを分割する際に、自然言語処理における推定精度の低下を抑えることができる。 According to the present invention, it is possible to suppress a decrease in estimation accuracy in natural language processing when dividing tokens contained in document data.

固有表現抽出装置100の機能およびハードウェアの構成の一例を表すブロック図A block diagram showing an example of the functional and hardware configuration of a named entity extraction device 100. 受信部102が受信する文書データの一例を表す図FIG. 1 is a diagram illustrating an example of document data received by a receiving unit 102. 制御部101が取得するトークンの一例を表すテーブルTable showing an example of a token acquired by the control unit 101 算出部103が算出する固有表現及び限界トークン数の一例を表すテーブルTable showing an example of named entities and limit numbers of tokens calculated by the calculation unit 103 制御部101が実行する処理の一例を表すフローチャート1 is a flowchart illustrating an example of processing executed by the control unit 101. 実施形態2における制御部101が実行する処理の一例を表すフローチャート10 is a flowchart illustrating an example of processing executed by the control unit 101 according to the second embodiment. 実施形態3における算出部103が算出する限界トークン数の一例を表すテーブル10 is a table showing an example of the limit number of tokens calculated by the calculation unit 103 in the third embodiment. 実施形態3における制御部101が実行する処理の一例を表すフローチャート10 is a flowchart illustrating an example of processing executed by the control unit 101 according to the third embodiment. 実施形態4における制御部101が実行する処理の一例を表すフローチャート10 is a flowchart illustrating an example of processing executed by the control unit 101 according to the fourth embodiment.

以下、本発明を実施するための最良の形態について図面を用いて説明する。なお、以下の実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。 The best mode for carrying out the present invention will be described below with reference to the drawings. Note that the configurations shown in the following embodiments are merely examples, and the present invention is not limited to the configurations shown in the drawings.

[実施形態1]
実施形態1では、文書データから文字列を抽出し、抽出した文字列をトークン単位に分解し、得られたトークンから自然言語処理モデルを用いて固有表現を抽出・出力するシステムの例を説明する。得られたトークンを一度に自然言語処理モデルに入力して固有表現を抽出できれば、結果を効率的に推定できる。一方、自然言語処理モデルには入力上限があり、一度に入力できるトークン数には上限がある。そのため、長文でトークン数が入力上限を超える場合は、トークングループを複数に分けて自然言語処理モデルに入力する必要がある。しかし、単純に自然言語処理モデルの入力上限に合わせてトークングループを分割した場合、固有表現を区別するためのキーワードや文脈が失われることがあり、そのような場合には固有表現の抽出精度が低下することがある。
[Embodiment 1]
In the first embodiment, an example of a system will be described in which character strings are extracted from document data, the extracted character strings are broken down into token units, and named entities are extracted and output from the obtained tokens using a natural language processing model. If the obtained tokens can be input into the natural language processing model at once to extract named entities, the results can be estimated efficiently. However, natural language processing models have an input upper limit, meaning that there is an upper limit on the number of tokens that can be input at one time. Therefore, if the number of tokens in a long sentence exceeds the input upper limit, it is necessary to divide the token groups into multiple groups and input them into the natural language processing model. However, if the token groups are simply divided to fit the input upper limit of the natural language processing model, keywords and contexts for distinguishing named entities may be lost, which may result in a decrease in the accuracy of named entity extraction.

そこで実施形態1では、トークン数が自然言語処理モデルの入力上限を超える場合に、まず固有表現が正しく抽出できる限界トークン数に基づき、トークンを一部オーバーラップする2以上のトークングループに分割する。そして、分割したそれぞれのトークングループに対し固有表現の抽出を行い、オーバーラップした部分から抽出する固有表現を決定することで、固有表現抽出の精度低下を抑える。 In embodiment 1, therefore, when the number of tokens exceeds the upper limit of input to the natural language processing model, the tokens are first divided into two or more partially overlapping token groups based on the limit number of tokens for which named entities can be correctly extracted. Named entities are then extracted for each divided token group, and the named entities to be extracted from the overlapping portions are determined, thereby preventing a decrease in the accuracy of named entity extraction.

図1(a)に、本実施形態に係る固有表現抽出装置100の一例の機能ブロック図を示す。固有表現抽出装置100は、制御部101、受信部102、算出部103、分割部104、抽出部105を含む情報処理装置である。 Figure 1(a) shows an example functional block diagram of a named entity extraction device 100 according to this embodiment. The named entity extraction device 100 is an information processing device that includes a control unit 101, a receiving unit 102, a calculation unit 103, a segmentation unit 104, and an extraction unit 105.

制御部101はCPU111等から構成され、ROM113に記憶されたプログラムやデータをRAM112に読みだして固有表現抽出などの処理を実行する。 The control unit 101 is composed of a CPU 111 and other components, and reads programs and data stored in ROM 113 into RAM 112 to perform processes such as named entity extraction.

受信部102は、固有表現抽出装置100が備える入力装置114の操作により、固有表現抽出処理を行う文書データを受信する。文書データは記憶装置116に保存したものを取得してもよいし、ネットワークインタフェース117を介してネットワーク118上の文書データを取得してもよい。 The receiving unit 102 receives document data to be subjected to named entity extraction processing through operation of the input device 114 provided in the named entity extraction device 100. The document data may be obtained from the storage device 116, or may be obtained from the network 118 via the network interface 117.

算出部103は、制御部101において文書データから固有表現を正しく抽出できる限界トークン数を算出する。 The calculation unit 103 calculates the limit number of tokens that allows the control unit 101 to correctly extract named entities from document data.

分割部104は、文書データから変換されたトークングループを、一度に入力するトークン数が自然言語処理モデルの入力上限数未満となるよう、2以上のトークングループに分割する。 The division unit 104 divides the token group converted from the document data into two or more token groups so that the number of tokens input at one time is less than the upper limit number of tokens that can be input to the natural language processing model.

抽出部105は、自然言語処理モデルを用いて分割されたトークングループから固有表現を抽出する。抽出した固有表現は記憶装置116に保存され、ディスプレイなどの出力装置115に表示される。 The extraction unit 105 extracts named entities from the divided token groups using a natural language processing model. The extracted named entities are stored in the storage device 116 and displayed on an output device 115 such as a display.

図2(a)に、受信部102が受信する文書データ例を示す。文書データはページ内に文字列や記号、罫線などを含む種類の異なる複数の要素で構成される。自然言語処理モデルの学習や評価に用いる文書データには、通常GT(Ground Truth)と呼ばれる正解データが付与されている。文書データ210に付与されているGTには、破線矩形内の文字列211、212、213が固有表現であることを示すために、それぞれの文字列に対して法人名、法人名、有効期限という固有表現の種別(または、属性)が定義されているものとする。 Figure 2(a) shows an example of document data received by the receiving unit 102. The document data is composed of multiple elements of different types, including character strings, symbols, and ruled lines, within a page. Document data used for training and evaluation of natural language processing models is usually accompanied by ground truth data called GT (Ground Truth). The GT attached to document data 210 defines named entity types (or attributes) of corporate name, corporate name, and expiration date for each character string, in order to indicate that character strings 211, 212, and 213 within the dashed rectangles are named entities.

文書データ210は、通常、ページ単位で構成され、記号や罫線などを含むが、複数ページで構成されていてもよいし、レイアウト情報を持たず文字情報だけを持つデータであってもよい。すなわち、文書データは文字列情報が取得できるものであればどのような形式のデータであってもよい。 Document data 210 is typically composed of pages and includes symbols and ruled lines, but it may also be composed of multiple pages, or may be data that contains only text information without layout information. In other words, document data can be in any format as long as it allows for the acquisition of text information.

図2(b)に、受信部102が受信する文書データの例を示す。図2(a)と同様のであり、かつ、同様のレイアウトを有する文書データであるが、GT(正解データ)が付与されていない点のみが異なる。 Figure 2(b) shows an example of document data received by the receiving unit 102. This is document data similar to that shown in Figure 2(a) and has a similar layout, except that no GT (correct answer data) is attached.

図3(a)、図3(b)に、制御部101が取得するトークンの一例について示す。トークンは、識別子311、トークン文字列312、GT313で表される。 Figures 3(a) and 3(b) show an example of a token acquired by the control unit 101. The token is represented by an identifier 311, a token string 312, and a GT 313.

図3(a)は、正解データの付与された文書データ210から抽出した文字列を形態素解析によりトークン単位に分解して得られた261個のトークンが列挙されたトークンのテーブル310である。各トークンにはIOB(Inside-Outside-Beginning)形式でGTが付与される。本実施形態では、固有表現の種別としては、法人名(ORG)、人名(PERSON)、有効期限(DATE)の3種類を使用するものとするが、この3種に限らず他の種別を定義、使用してもよい。 Figure 3(a) shows a token table 310 listing 261 tokens obtained by decomposing character strings extracted from document data 210, to which correct answer data has been assigned, into token units using morphological analysis. Each token is assigned a GT in IOB (Inside-Outside-Beginning) format. In this embodiment, three types of named entities are used: corporate name (ORG), personal name (PERSON), and expiration date (DATE), but other types may be defined and used without being limited to these three.

固有表現は複数のトークンから構成されることがあるため、そのような場合には、固有表現の先頭のトークンのGTには“B-”を、それに続くトークンのGTには“I-”をそれぞれ付加する。例えば図2(a)に示す文字列211の“ABC株式会社”は法人名(ORG)の固有表現であるが、2つのトークンT1_003(“ABC”)、T1_004(“株式会社”)で構成されている。そのため、トークンT1_003のGTとしては先頭のトークンを指す“B-ORG”、トークンT1_004のGTとしては後に続くトークンを指す“I-ORG”がそれぞれ付与される。固有表現の種別が付与されないトークンのGTには、固有表現以外であることを表す“O”が付与される。本実施形態では、上記のように各トークンに対してIOB形式でGTを付与しているが、複数のトークンにまたがる固有表現に対してGTを付与する方法は、他の方法であってもよい。 Because a named entity may be composed of multiple tokens, in such cases, a "B-" is added to the GT of the first token of the named entity, and an "I-" is added to the GT of each subsequent token. For example, "ABC Co., Ltd." in the character string 211 shown in Figure 2(a) is a named entity for a corporate name (ORG), but is composed of two tokens, T1_003 ("ABC") and T1_004 ("Co., Ltd."). Therefore, the GT of token T1_003 is assigned "B-ORG," indicating the first token, and the GT of token T1_004 is assigned "I-ORG," indicating the subsequent token. Tokens to which no named entity type is assigned are assigned an "O," indicating that they are not named entities. In this embodiment, a GT is assigned to each token in IOB format as described above, but other methods may be used to assign GTs to named entities that span multiple tokens.

図3(b)は、制御部101が図2(b)に示す文書データから抽出した入力文字列を形態素解析によりトークン単位に分解して得られた264個のトークンが列挙されたトークンのテーブル320である。テーブル320は、GTが付与されていない文書データ220に基づくため、各トークンについて識別子321、トークン文字列322を有するが、GTは無い。 Figure 3(b) is a token table 320 listing 264 tokens obtained by the control unit 101 breaking down the input string extracted from the document data shown in Figure 2(b) into token units using morphological analysis. Because table 320 is based on document data 220 to which no GT has been assigned, each token has an identifier 321 and a token string 322, but no GT.

図4(a)に、算出部103が取得する固有表現の一例についてのテーブルを用いて説明する。固有表現は、固有表現の識別子411、文字列412、種別413で構成され、最小のトークン数414は、固有表現を正しく抽出するために必要な、固有表現の周辺のトークン数の最小数を表す。最小のトークン数414は、GTが付与された複数のトークンを基に算出部103において算出する。固有表現NE_001は、文書データ210の文字列211に対応し、文字列として“ABC株式会社”、種別として“法人名(ORG)”を持つ。同様に、固有表現NE_002は、文書データ210の文字列212に対応し、文字列として“DEF株式会社”、種別として“法人名(ORG)”を持つ。固有表現NE_003は、文書データ210の文字列213に対応し、文字列として“10月31日”、種別として“有効期限(DATE)”を持つ。固有表現NE_004~NE_006は異なる文書データにおいて定義された固有表現であり、それぞれ固有表現の種別として人名、法人名、有効期限が設定されている。 Figure 4(a) shows an example of a named entity acquired by the calculation unit 103, using a table. A named entity is composed of a named entity identifier 411, a character string 412, and a type 413, and the minimum number of tokens 414 indicates the minimum number of tokens surrounding the named entity required to correctly extract the named entity. The minimum number of tokens 414 is calculated by the calculation unit 103 based on multiple tokens to which GT is assigned. The named entity NE_001 corresponds to character string 211 in document data 210, and has the character string "ABC Co., Ltd." and the type "Corporate Name (ORG)." Similarly, the named entity NE_002 corresponds to character string 212 in document data 210, and has the character string "DEF Co., Ltd." and the type "Corporate Name (ORG)." The named entity NE_003 corresponds to character string 213 in document data 210, and has the character string "October 31st" and the type "Expiration Date (DATE)." Named entities NE_004 to NE_006 are named entities defined in different document data, and the type of named entity is set to a person's name, a corporate name, or an expiration date, respectively.

図4(b)に、図4(a)に示す例において算出部103が導出する限界トークン数を示す。限界トークン数は、テーブル410に登録されている全ての固有表現それぞれに対応する最小のトークン数414の中で最も大きい値である。 Figure 4(b) shows the limit number of tokens derived by the calculation unit 103 for the example shown in Figure 4(a). The limit number of tokens is the largest value among the minimum number of tokens 414 corresponding to all named entities registered in the table 410.

図5(a)は、本実施形態において制御部101において実行される限界トークン数導出処理の一例を表すフローチャートである。本フローチャートは、固有表現抽出装置100において、初期化時に実行される。本処理は、後述する固有表現抽出装置100と異なるデバイスで算出したものを取得するようになっていてもよい。 Figure 5(a) is a flowchart showing an example of the limit token number derivation process executed by the control unit 101 in this embodiment. This flowchart is executed by the named entity extraction device 100 at initialization. This process may also be configured to obtain a result calculated by a device different from the named entity extraction device 100, which will be described later.

S511では、制御部101が、GTが付与された文書データ210を受信部102から取得する。 In S511, the control unit 101 acquires the document data 210 with GT attached from the receiving unit 102.

S512では、制御部101が、取得した文書データから入力文字列を抽出し、抽出した入力文字列を形態素解析によりトークン単位に分解する。 In S512, the control unit 101 extracts the input character string from the acquired document data and breaks the extracted input character string into token units using morphological analysis.

S513では、制御部101が、算出部103を用いて、付与されたGTに定義された固有表現の抽出が正解する最小のトークン数を特定する。本ステップではまず、各文書データのトークンに付与されたGTに基づき固有表現を取得し、記憶する。GTが付与された文書データ210については、“ABC株式会社”、“DEF真空株式会社”、“10月31日”をテーブル410に固有表現としてそれぞれ記憶する。その際、取得した各固有表現に識別子411を付与して、固有表現の文字列412、固有表現の種別413を対応付けて記憶する。次に、文書データに対し固有表現抽出を行って抽出した固有表現について、固有表現の抽出が正解する最小のトークン数を特定する。具体的には、固有表現の前後のトークン数の初期値を128とし、その数の周辺のトークンを用いて固有表現の抽出を実行する。固有表現の抽出が正解した場合は、周辺のトークン数を1減らして再度固有表現の抽出を実行し、抽出不可または不正解になるまで周辺のトークンを減らしながら固有表現の抽出を実行する。特定された抽出が成功した最小のトークン数は、テーブル410の最小のトークン数414に記憶する。尚、最小のトークン数を特定する際の周辺トークン数の初期値は、固定値でも良いし、文書データに含まれるトークン数や他の文書データの結果を基に決めてもよい。最小のトークン数を特定する際にトークン数を減らしていく方法としては、1ずつ減らす方法の他に、二分探索を用いて探索してもよく、最小のトークン数を求める方法であればその他の方法を用いてもよい。 In S513, the control unit 101 uses the calculation unit 103 to identify the minimum number of tokens that will result in correct extraction of the named entity defined in the assigned GT. In this step, first, the named entity is acquired and stored based on the GT assigned to the token of each document data. For the document data 210 to which the GT is assigned, "ABC Co., Ltd.", "DEF Vacuum Co., Ltd.", and "October 31st" are each stored as named entities in table 410. At this time, an identifier 411 is assigned to each acquired named entity, and the named entity string 412 and named entity type 413 are associated and stored. Next, named entity extraction is performed on the document data, and the minimum number of tokens that will result in correct extraction of the named entity is identified for the extracted named entities. Specifically, the initial value of the number of tokens before and after the named entity is set to 128, and named entity extraction is performed using that number of surrounding tokens. If the extraction of the named entity is correct, the number of surrounding tokens is reduced by one and named entity extraction is performed again, reducing the number of surrounding tokens until extraction is impossible or an incorrect result is obtained. The identified minimum number of tokens that resulted in successful extraction is stored in minimum token number 414 of table 410. The initial value of the number of surrounding tokens when identifying the minimum number of tokens may be a fixed value, or may be determined based on the number of tokens included in the document data or the results of other document data. Methods for reducing the number of tokens when identifying the minimum number of tokens include reducing the number by one, searching using a binary search, or any other method that can determine the minimum number of tokens.

S514では、算出部103が、特定した固有表現ごとの最小のトークン数の中の最大値を限界トークン数としてテーブル420に記憶する。テーブル410において最小のトークン数の最大値は“7”のため、限界トークン数として“7”を記憶する。 In S514, the calculation unit 103 stores the maximum value among the minimum token numbers for each identified named entity as the limit token number in table 420. Since the maximum value for the minimum token number in table 410 is "7", "7" is stored as the limit token number.

尚、ここでは最小のトークン数の最大値を限界トークン数として用いたが、所定の割合の固有表現において最小のトークン数以上となるトークン数の中で最小のものを限界トークン数として用いてもよい。例えば固有表現の8割が正解するトークン数を限界トークン数とした場合、最小のトークン数414の8割が正解する“6”が、限界トークン数となる。 Note that here, the maximum value of the minimum number of tokens is used as the limiting number of tokens, but the smallest number of tokens that is equal to or greater than the minimum number of tokens for a specified percentage of named entities may also be used as the limiting number of tokens. For example, if the limiting number of tokens is the number of tokens that are correct for 80% of named entities, then the limiting number of tokens would be "6," which is the minimum number of tokens (414) that is correct for 80% of entities.

図5(b)は、本実施形態において制御部101において実行される処理の一例を表すフローチャートである。本フローチャートは、固有表現抽出装置100において、文書データに対して固有表現抽出が指示されたのに応じて実行される。 Figure 5(b) is a flowchart showing an example of processing executed by the control unit 101 in this embodiment. This flowchart is executed in response to an instruction to extract named entities from document data being issued by the named entity extraction device 100.

S521では、制御部101が、文書データから入力文字列を抽出し、抽出した入力文字列をトークン単位に分解してS522に移行する。本ステップでは正解データの付与されていない文書データ220から入力文字列を抽出し、抽出した入力文字列をトークン単位に分解する。 In S521, the control unit 101 extracts an input character string from the document data, decomposes the extracted input character string into token units, and proceeds to S522. In this step, an input character string is extracted from document data 220 that has not been assigned correct answer data, and the extracted input character string is decomposed into token units.

S522では、制御部101が、トークン数と固有表現抽出器である自然言語処理モデルの入力上限数とを比較し、抽出した入力文字列を分解して得られたトークン数が入力上限数を超える場合はS523に、超えない場合はS524に移行する。自然言語処理モデルの入力上限を256としたときに、テーブル410に記憶されたトークン数は264個で、入力上限数を超えるため、S523に移行する。 In S522, the control unit 101 compares the number of tokens with the upper limit of the number of inputs of the natural language processing model, which is the named entity extractor. If the number of tokens obtained by decomposing the extracted input character string exceeds the upper limit of the inputs, the control unit 101 proceeds to S523; if it does not, the control unit 101 proceeds to S524. When the upper limit of the inputs of the natural language processing model is set to 256, the number of tokens stored in table 410 is 264, which exceeds the upper limit of the inputs, and the control unit 101 proceeds to S523.

S523では、分割部104が、S514で特定された限界トークン数を基に、文書データに含まれるトークンを部分的にオーバーラップする形で2以上のトークングループに分割し、S524に移行する。本ステップでは、まずテーブル420に記憶された限界トークン数を取得する。この値は、予め設定された値を用いてもよい。限界トークン数“7”を2倍にした値の14個のトークンをオーバーラップする形で1つのトークングループを2以上のトークングループに分割する。ここでオーバーラップするトークン数を限界トークン数の2倍にした理由は、固有表現の周辺のトークンとして7個のトークンを確保するためである。この値にさらに固有表現の平均トークン数を足した値を用いてもよい。テーブル320に示す例の場合、T2_001からT2_256のトークングループ1と、T2_243からT2_264のトークングループ2とに分割し、T2_243からT2_256までの14個のトークンがオーバーラップするようにする。分割する際、限界トークン数から算出した数字“14”をオーバーラップするトークン数の下限として、分割数を増やさずにトークン数が最大化されるように分割してもよい。例えば、テーブル320のトークングループを、T2_001からT2_256のトークングループ1と、T2_009からT2_264のトークングループ2とに分割してもよい。いずれにせよ分割後のトークングループが限界トークン数から算出した下限以上のトークン数を有するようにトークングループを分割できていればよい。 In S523, the division unit 104 divides the tokens contained in the document data into two or more token groups with partial overlap based on the limit number of tokens identified in S514, and then proceeds to S524. In this step, the limit number of tokens stored in table 420 is first obtained. A preset value may be used for this value. One token group is divided into two or more token groups with overlapping tokens, which is 14 tokens, double the limit number of tokens of "7". The reason for doubling the number of overlapping tokens here is to ensure seven tokens as tokens surrounding named entities. A value obtained by adding the average number of tokens for named entities to this value may also be used. In the example shown in table 320, the document data is divided into token group 1 (T2_001 to T2_256) and token group 2 (T2_243 to T2_264), so that the 14 tokens from T2_243 to T2_256 overlap. When dividing, the number "14" calculated from the limit token number can be used as the lower limit for the number of overlapping tokens, and the division can be performed so that the number of tokens is maximized without increasing the number of divisions. For example, the token group in table 320 can be divided into token group 1 from T2_001 to T2_256, and token group 2 from T2_009 to T2_264. In any case, it is sufficient that the token groups are divided so that the number of tokens after division is equal to or greater than the lower limit calculated from the limit token number.

本実施形態では限界トークン数を1つの数値で扱ったが、固有表現の前のトークン数と後ろのトークン数で分けて計算し、それらを足したトークン数をオーバーラップさせてもよい。 In this embodiment, the limit number of tokens is treated as a single numerical value, but it may also be calculated separately for the number of tokens before and the number of tokens after the named entity, and the sum of these may be used to create the overlap.

S524では、抽出部105が、分割したトークングループごとに固有表現抽出を実行する。本ステップではトークングループ1、トークングループ2それぞれに対して固有表現抽出を実行し、固有表現を取得する。トークングループ1からは法人名(ORG)として“GHI株式会社”と、“JKL運輸会社”、有効期限(DATE)として“3月5日”が抽出されたとする。また、トークングループ2からは有効期限(DATE)として“3月5日”が抽出されたとする。“3月5日”はトークングループ1、トークングループ2のオーバーラップされた部分からそれぞれ抽出されたとする。 In S524, the extraction unit 105 performs named entity extraction for each divided token group. In this step, named entity extraction is performed for each of token group 1 and token group 2, and named entities are obtained. Assume that "GHI Co., Ltd." and "JKL Transport Company" are extracted as the corporate name (ORG) from token group 1, and "March 5th" is extracted as the expiration date (DATE). Assume also that "March 5th" is extracted as the expiration date (DATE) from token group 2. Assume that "March 5th" is extracted from the overlapping parts of token group 1 and token group 2, respectively.

S525では、制御部101が、オーバーラップ部分で抽出された固有表現を決定し、処理を終了する。具体的には、オーバーラップ部分で共通のトークンに対して同じ結果が抽出された場合は、一方のみを結果として出力し、異なる結果が抽出された場合は、周辺のトークン数が多い方の結果を出力する。オーバーラップ部分で一方が未検出の場合も、トークン数が多い方の結果を優先する。S524において示した例では、トークングループ1およびトークングループ2の両方のオーバーラップ部分において有効期限(DATE)として“3月5日”が抽出されているため、一方の結果のみを出力する。そのため、テーブル410の抽出結果としては、法人名(ORG)として“GHI株式会社”と“JKL運輸会社”、有効期限(DATE)として“3月5日”を出力する。 In S525, the control unit 101 determines the named entity extracted in the overlapping portion and terminates processing. Specifically, if the same result is extracted for a common token in the overlapping portion, only one of the results is output; if different results are extracted, the result with the greater number of surrounding tokens is output. Even if one of the results is not detected in the overlapping portion, the result with the greater number of tokens is given priority. In the example shown in S524, "March 5th" is extracted as the expiration date (DATE) in the overlapping portions of both token group 1 and token group 2, so only one result is output. Therefore, the extraction results for table 410 are "GHI Co., Ltd." and "JKL Transport Company" as the corporate names (ORG) and "March 5th" as the expiration date (DATE).

以上のように、文字数の多い文書データから固有表現抽出を行う際、オーバーラップする2以上のトークングループに分割することで、固有表現の周辺のキーワードとなる文字列や文脈が失われることを防ぎ、固有表現抽出の精度低下を抑えることができる。 As described above, when extracting named entities from document data with a large number of characters, dividing the data into two or more overlapping token groups prevents the loss of keyword strings and context surrounding the named entity, and minimizes any decline in the accuracy of named entity extraction.

[実施形態2]
実施形態1では、各固有表現に対し最小のトークン数を特定する際に、トークン数を徐々に減らして正解可能な最小のトークン数を求めた。これに対し本実施形態では、自然言語処理モデルのネットワークに現れるトークンとの関連度に基づき、限界トークン数を求める。
[Embodiment 2]
In the first embodiment, when specifying the minimum number of tokens for each named entity, the number of tokens is gradually reduced to obtain the minimum number of tokens that allows for a correct answer. In contrast, in the present embodiment, the limit number of tokens is obtained based on the degree of association with tokens that appear in the network of the natural language processing model.

図6は、本実施形態において制御部101で実行される処理の一例を表すフローチャートである。なお、フローチャートのS511、S512、S514は図5(a)の同一符号のステップと同様の処理のため、ここでは説明を割愛する。 Figure 6 is a flowchart showing an example of processing executed by the control unit 101 in this embodiment. Note that steps S511, S512, and S514 in the flowchart are the same as the steps with the same reference numerals in Figure 5(a), and therefore will not be described here.

S611では、算出部103において、GTにおいて定義された固有表現に対し、自然言語処理モデルのネットワークに現れるトークンとの関連度に基づき、固有表現の抽出が正解する最小のトークン数を算出する。本ステップでは、まず各文書データのトークンに付与されたGTに基づき固有表現を取得し、図4に示すテーブル410に記憶する。テーブル410には固有表現の識別子411、固有表現の文字列412、固有表現の種別413を記憶する。次に、それぞれの固有表現について、固有表現の抽出が正解する最小のトークン数414を算出する。 In S611, the calculation unit 103 calculates the minimum number of tokens that will result in correct named entity extraction for the named entities defined in the GT, based on the degree of association with tokens that appear in the network of the natural language processing model. In this step, first, named entities are obtained based on the GT assigned to the tokens of each document data, and stored in table 410 shown in Figure 4. Table 410 stores named entity identifier 411, named entity string 412, and named entity type 413. Next, for each named entity, the minimum number of tokens 414 that will result in correct named entity extraction is calculated.

具体的には、まず固有表現の前後のトークン数が最大になるように文書データに含まれるトークンを2以上のトークングループに分割する。そして、分割して得られたトークングループに対しTransformersを用いたBERTに代表されるセルフアテンション機構を持つ自然言語処理モデルを用いて、固有表現の抽出を行う。固有表現の抽出が正解した場合は、その固有表現のトークンと、その周辺のトークンとの関係を自然言語処理モデルのネットワークに現れるアテンションの強度で測る。アテンションの強度が所定の閾値以上である周辺のトークン数のうちの最小数を、固有表現に対応した最小のトークン数とする。算出した最小のトークン数はテーブル410の最小のトークン数414として記憶する。 Specifically, first, the tokens contained in the document data are divided into two or more token groups so that the number of tokens before and after each named entity is maximized. Then, a natural language processing model with a self-attention mechanism, such as BERT using Transformers, is used to extract named entities from the resulting token groups. If the named entity is correctly extracted, the relationship between the named entity token and its surrounding tokens is measured by the attention strength that appears in the network of the natural language processing model. The minimum number of surrounding tokens with attention strength above a predetermined threshold is determined to be the minimum number of tokens corresponding to the named entity. The calculated minimum number of tokens is stored as minimum number of tokens 414 in table 410.

以上のように、文字数の多い文書データから固有表現抽出を行う際、オーバーラップする2以上のトークングループに分割することで、固有表現の周辺のキーワードとなる文字列や文脈が失われることを防ぎ、固有表現抽出の精度低下を抑えることができる。さらに、自然言語処理モデルのネットワークの情報を基に最小のトークン数を算出することにより、より容易に最小のトークン数を算出できる。 As described above, when extracting named entities from document data with a large number of characters, dividing the data into two or more overlapping token groups prevents the loss of keyword strings and context surrounding the named entity, and minimizes a decrease in the accuracy of named entity extraction. Furthermore, calculating the minimum number of tokens based on information from the network of the natural language processing model makes it easier to calculate the minimum number of tokens.

[実施形態3]
実施形態1では、固有表現に対して共有の限界トークン数を算出した。これに対し本実施形態では、固有表現の種別ごとに限界トークン数を求める。
[Embodiment 3]
In the first embodiment, the shared limit number of tokens is calculated for each named entity. In contrast, in the present embodiment, the limit number of tokens is calculated for each type of named entity.

算出部103が特定する限界トークン数の一例について図7のテーブル700を用いて説明する。限界トークン数は固有表現の種別701と、限界トークン数702により構成される。固有表現のテーブル410を基に固有表現の種別ごとに算出した値が702に入る。テーブル700には法人名(ORG)、人名(PERSON)、有効期限(DATE)の限界トークン数が703、704、705にそれぞれ定義される。 An example of the limit number of tokens determined by the calculation unit 103 will be explained using table 700 in Figure 7. The limit number of tokens is composed of a named entity type 701 and a limit number of tokens 702. A value calculated for each named entity type based on the named entity table 410 is entered in 702. In table 700, the limit numbers of tokens for corporate name (ORG), personal name (PERSON), and expiration date (DATE) are defined in 703, 704, and 705, respectively.

図8(a)は、本実施形態において制御部101において実行される処理の一例を表すフローチャートである。なお、フローチャートのS511、S512、S513は図5(a)の同一符号のステップと同様の処理のため、説明を割愛する。 Figure 8(a) is a flowchart showing an example of processing executed by the control unit 101 in this embodiment. Note that steps S511, S512, and S513 in the flowchart are the same as the steps with the same reference numerals in Figure 5(a), and therefore their explanation will be omitted.

S811では、算出部103が、固有表現の種別ごとに限界トークン数を特定し、処理を終了する。固有表現のテーブル410の最小のトークン数414に記憶された値を取得し、固有表現の種別ごとに最大値を求め、テーブル700に固有表現の種別ごとに限界トークン数を保存する。ここでは最大値を用いたが、所定の割合の固有表現において最小のトークン数を上回るトークン数を限界トークン数として用いてもよい。 In S811, the calculation unit 103 determines the limit number of tokens for each type of named entity and terminates the process. The value stored in the minimum number of tokens 414 in the named entity table 410 is obtained, the maximum value is calculated for each type of named entity, and the limit number of tokens is saved in the table 700 for each type of named entity. While the maximum value is used here, the number of tokens that exceeds the minimum number of tokens for a specified percentage of named entities may also be used as the limit number of tokens.

図8(b)は、本実施形態において制御部101において実行される処理の一例を表すフローチャートである。なお、フローチャートのS521、S522、S524、S525は図5(b)の同名のステップと同様の処理のため、説明を割愛する。 Figure 8(b) is a flowchart showing an example of processing executed by the control unit 101 in this embodiment. Note that steps S521, S522, S524, and S525 in the flowchart are the same as the steps with the same names in Figure 5(b), and therefore their explanation will be omitted.

S821では、受信部102が抽出する固有表現の種別(または属性)を受け付けて、S521に移行する。ここでは固有表現抽出デバイスのユーザから文書データに含まれる人名の種別の固有表現を抽出することを受け付けたとする。 In S821, the receiving unit 102 accepts the type (or attribute) of the named entity to be extracted, and proceeds to S521. Here, it is assumed that a request has been received from the user of the named entity extraction device to extract named entities of the type of personal names contained in the document data.

S822では、分割部104が、S821で受け付けた固有表現の種別に対応する限界トークン数を基に、文書データに含まれるトークンを部分的にオーバーラップする形で2以上のトークングループに分割し、S524に移行する。本ステップでは、S821において受け付けた種別を基にテーブル700に記憶された限界トークン数を取得する。複数の種別を受け付けた場合はその最大値を用いる。ここではS821において人名を受け付けているので、対応する限界トークン数である“2”を基に文書データに含まれるトークンを部分的にオーバーラップする形で2以上のトークングループに分割する。 In S822, the division unit 104 divides the tokens contained in the document data into two or more partially overlapping token groups based on the limit number of tokens corresponding to the type of named entity received in S821, and proceeds to S524. In this step, the limit number of tokens stored in table 700 is obtained based on the type received in S821. If multiple types are received, the maximum value is used. In this case, since a person's name was received in S821, the tokens contained in the document data are divided into two or more partially overlapping token groups based on the corresponding limit number of tokens, "2."

このように限界トークン数を抽出対象として受け付けた固有表現の種別に対応した最小のトークン数に限定することで、トークングループの分割数を抑え、固有表現抽出において処理するトークン数を低減させることが可能である。 By limiting the token limit to the minimum number of tokens corresponding to the type of named entity accepted for extraction in this way, it is possible to reduce the number of token group divisions and the number of tokens processed during named entity extraction.

以上のように、文字数の多い文書データから固有表現抽出を行う際、オーバーラップする2以上のトークングループに分割することで、固有表現の周辺のキーワードとなる文字列や文脈が失われることを防ぎ、固有表現抽出の精度低下を抑えることができる。さらに、限界トークン数として抽出対象の固有表現の種別に対応した最小のトークン数を設定することにより、文書データの分割数を抑え、計算量を削減することができる。 As described above, when extracting named entities from document data with a large number of characters, dividing the data into two or more overlapping token groups prevents the loss of keyword strings and context surrounding the named entity, and minimizes a decrease in the accuracy of named entity extraction. Furthermore, by setting the minimum number of tokens corresponding to the type of named entity to be extracted as the token limit, the number of times the document data needs to be divided can be reduced, thereby reducing the amount of calculations.

[実施形態4]
実施形態1では、予め求めておいた限界トークン数を用いて、全トークンを2以上のトークングループに分割した。これに対し本実施形態では、推定した固有表現の利用状況を基に限界トークン数を更新していく例を説明する。
[Embodiment 4]
In the first embodiment, all tokens are divided into two or more token groups using a predetermined limit number of tokens. In contrast, in the present embodiment, an example will be described in which the limit number of tokens is updated based on the estimated usage status of named entities.

図9は、本実施形態において制御部101において実行される処理の一例を表すフローチャートである。本フローチャートは、固有表現抽出デバイスにおいて、文書データに対し固有表現抽出が実行され、抽出した固有表現がデバイスのユーザによって使用された後に、実行される。なお、フローチャートのS512、S513は図5(a)の同一符号のステップと同様の処理のため、説明を割愛する。 Figure 9 is a flowchart showing an example of processing executed by the control unit 101 in this embodiment. This flowchart is executed after named entity extraction is performed on document data in a named entity extraction device and the extracted named entities are used by the device user. Note that steps S512 and S513 in the flowchart are the same as the steps with the same reference numerals in Figure 5(a), and therefore their explanation will be omitted.

S911では、デバイスのユーザが選択したトークンを固有表現として追加的に定義したGTが付与された文書データを取得し、S512に移行する。文書データから固有表現が抽出され、その中で抽出された法人名(ORG)の“GHI株式会社”がユーザによって選択された際に、テーブル320の対応するトークンを固有表現として追加的に定義したGTを付与する。具体的にはトークンT2_003、T2_004にGTとしてそれぞれ“B_ORG”、“I_ORG”を付与し、それ以外のトークンにGTとして“O”を付与したものを文書データとして取得する。 In S911, document data is acquired to which a GT has been assigned, which defines the token selected by the device user as a named entity, and the process proceeds to S512. Named entities are extracted from the document data, and when the extracted corporate name (ORG) "GHI Co., Ltd." is selected by the user, the corresponding token in table 320 is assigned a GT, which has been additionally defined as a named entity. Specifically, tokens T2_003 and T2_004 are assigned the GTs "B_ORG" and "I_ORG", respectively, and the remaining tokens are assigned the GT "O", and the resulting document data is acquired.

S912では、算出部103において、限界トークン数を更新し、処理を終了する。具体的には、S911で取得した文書データに対するS512、S513における処理の結果が反映され、ユーザが選択した固有表現に対応する最小のトークン数が追加された固有表現のテーブル410を基に、限界トークン数のテーブル420を更新する。 In S912, the calculation unit 103 updates the limit number of tokens and terminates the process. Specifically, the results of the processes in S512 and S513 on the document data acquired in S911 are reflected, and the limit number of tokens table 420 is updated based on the named entity table 410 to which the minimum number of tokens corresponding to the named entity selected by the user has been added.

以上のように、文字数の多い文書データから固有表現抽出を行う際、オーバーラップする2以上のトークングループに分割することで、固有表現の周辺のキーワードとなる文字列や文脈が失われることを防ぎ、固有表現抽出の精度低下を抑えることができる。さらに、限界トークン数を更新していくことで、未知の文書に対しても精度低下を抑えることができる。 As described above, when extracting named entities from document data with a large number of characters, dividing the data into two or more overlapping token groups prevents the loss of keyword strings and context surrounding the named entity, thereby minimizing a decrease in the accuracy of named entity extraction. Furthermore, by updating the limit number of tokens, it is possible to minimize a decrease in accuracy even for unknown documents.

(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
(Other Examples)
The present invention can also be realized by supplying a program that realizes one or more of the functions of the above-described embodiments to a system or device via a network or a storage medium, and having one or more processors in the computer of the system or device read and execute the program.The present invention can also be realized by a circuit (e.g., an ASIC) that realizes one or more of the functions.

100 固有表現抽出装置
101 制御部
102 受信部
103 算出部
104 分割部
105 抽出部
100 Named Entity Extraction Device 101 Control Unit 102 Receiving Unit 103 Calculation Unit 104 Segmentation Unit 105 Extraction Unit

Claims (11)

入力文字列を分解して得られた複数のトークンから固有表現を抽出するための情報処理装置であって、
前記入力文字列を分解して得られた複数のトークンの数が所定の上限数を超える場合、当該複数のトークンを2以上のトークングループに分割する分割手段であって、前記トークングループにおいてはそれぞれ所定の数のトークンが他のトークングループとオーバーラップする、前記分割手段と、
前記トークングループごとに前記固有表現を抽出する抽出手段と、
前記他のトークングループとオーバーラップする部分についての前記抽出手段による前記固有表現の抽出結果に基づき、前記オーバーラップする部分における前記固有表現の抽出結果を決定する決定手段と、
を備え
前記決定手段は、前記オーバーラップする部分におけるオーバーラップする2つのトークングループのそれぞれからの前記固有表現の抽出結果のうち、当該オーバーラップするトークングループの中でトークン数の多いトークングループの前記固有表現の抽出結果を前記オーバーラップする部分における前記固有表現の抽出結果に決定する、
ことを特徴とする情報処理装置。
An information processing device for extracting named entities from a plurality of tokens obtained by decomposing an input character string, comprising:
a dividing means for dividing the plurality of tokens obtained by decomposing the input character string into two or more token groups when the number of the plurality of tokens obtained by decomposing the input character string exceeds a predetermined upper limit, wherein each of the token groups has a predetermined number of tokens overlapping with other token groups;
extraction means for extracting the named entities for each of the token groups;
a determination means for determining an extraction result of the named entity in the overlapping portion based on an extraction result of the named entity by the extraction means for the overlapping portion with the other token group;
Equipped with
the determining means determines, among the extraction results of the named entities from each of the two overlapping token groups in the overlapping portion, the extraction result of the named entity from the token group with the greater number of tokens in the overlapping token groups as the extraction result of the named entity in the overlapping portion;
1. An information processing device comprising:
前記所定の上限数は、前記抽出手段が一度に処理できるトークン数である、
ことを特徴とする請求項1に記載の情報処理装置。
The predetermined upper limit number is the number of tokens that the extraction means can process at one time.
2. The information processing apparatus according to claim 1, wherein:
前記所定の数は、前記抽出手段が前記固有表現を抽出するために必要な限界トークン数に基づき設定されている、
ことを特徴とする請求項1又は2に記載の情報処理装置。
the predetermined number is set based on a limit number of tokens required for the extraction means to extract the named entity;
3. The information processing apparatus according to claim 1 , wherein the information processing apparatus is a computer.
前記限界トークン数は、前記抽出手段が固有表現を定義する正解データが付加された入力文字列から当該固有表現の抽出に正解した際に入力したトークン数の中で最小のトークン数である、
ことを特徴とする請求項に記載の情報処理装置。
the limit number of tokens is the smallest number of tokens among the numbers of tokens input when the extraction means correctly extracts a named entity from an input character string to which correct answer data defining the named entity has been added;
4. The information processing apparatus according to claim 3 ,
前記限界トークン数は、前記抽出手段が用いる自然言語処理モデルにおいて、入力文字列に付与された正解データにおいて定義された固有表現に対応するトークンとの関連度が所定の値以上であるトークン数の中で最小のトークン数である、
ことを特徴とする請求項に記載の情報処理装置。
the limit number of tokens is the smallest number of tokens among the number of tokens whose relevance to tokens corresponding to named entities defined in the correct answer data assigned to the input character string is equal to or greater than a predetermined value in the natural language processing model used by the extraction means;
4. The information processing apparatus according to claim 3 ,
前記限界トークン数は、前記正解データが複数の固有表現を定義している場合、当該複数の固有表現に対応する複数の前記最小のトークン数の中で最大のものである、
ことを特徴とする請求項4又は5に記載の情報処理装置。
When the correct answer data defines a plurality of named entities, the limit number of tokens is the largest of the plurality of minimum numbers of tokens corresponding to the plurality of named entities.
6. The information processing apparatus according to claim 4, wherein:
前記限界トークン数は、前記正解データが複数の固有表現を定義している場合、当該複数の固有表現のうち所定の割合の固有表現の抽出に正解した際に入力したトークン数の中で最小のトークン数である、
ことを特徴とする請求項4又は5に記載の情報処理装置。
When the correct answer data defines a plurality of named entities, the limit number of tokens is the smallest number of tokens among the numbers of tokens input when a predetermined percentage of the plurality of named entities are correctly extracted.
6. The information processing apparatus according to claim 4, wherein:
前記抽出手段において抽出する固有表現の種別を受け付ける受け付け手段をさらに備え、
前記限界トークン数は、前記受け付け手段において受け付けた種別の固有表現の抽出に正解した際に入力したトークン数の中で最小のものとする、
ことを特徴とする請求項に記載の情報処理装置。
further comprising a receiving means for receiving a type of named entity extracted by the extracting means,
The limit number of tokens is set to the smallest number of tokens input when the extraction of the named entity of the type accepted by the accepting means is correct.
4. The information processing apparatus according to claim 3 ,
前記正解データは、前記抽出手段によって前記入力文字列から抽出された固有表現の中でユーザにより選択された固有表現を前記正解データに追加的に定義されたものである、
ことを特徴とする請求項4乃至7のいずれか1項に記載の情報処理装置。
the correct answer data is obtained by additionally defining a named entity selected by a user from the named entities extracted from the input character string by the extraction means.
8. The information processing apparatus according to claim 4, wherein the information processing apparatus is a computer.
入力文字列を分解して得られた複数のトークンから固有表現を抽出するための情報処理方法であって、
情報処理装置が前記入力文字列を分解して得られた複数のトークンの数が所定の上限数を超える場合、当該複数のトークンを2以上のトークングループに分割するステップであって、前記トークングループにおいてはそれぞれ所定の数のトークンが他のトークングループとオーバーラップする、ステップと、
前記情報処理装置が前記トークングループごとに前記固有表現の抽出するステップと、
前記情報処理装置が前記他のトークングループとオーバーラップする部分についての前記抽出するステップによる前記固有表現の抽出結果に基づき、前記オーバーラップする部分における前記固有表現の抽出結果を決定するステップと、
を有し、
前記決定するステップは、前記オーバーラップする部分におけるオーバーラップする2つのトークングループのそれぞれからの前記固有表現の抽出結果のうち、当該オーバーラップするトークングループの中でトークン数の多いトークングループの前記固有表現の抽出結果を前記オーバーラップする部分における前記固有表現の抽出結果に決定する、
ことを特徴とする情報処理方法。
An information processing method for extracting named entities from a plurality of tokens obtained by decomposing an input character string, comprising:
a step of dividing the plurality of tokens into two or more token groups when the number of tokens obtained by the information processing device decomposing the input character string exceeds a predetermined upper limit, wherein each of the token groups has a predetermined number of tokens overlapping with other token groups;
a step of extracting the named entities for each of the token groups by the information processing device ;
a step of determining an extraction result of the named entity in the overlapping portion based on an extraction result of the named entity in the extraction step for the overlapping portion with the other token group by the information processing device ;
and
the determining step determines, among the extraction results of the named entities from each of the two overlapping token groups in the overlapping portion, the extraction result of the named entity from a token group having a larger number of tokens in the overlapping token groups as the extraction result of the named entity in the overlapping portion;
1. An information processing method comprising:
コンピュータを請求項1乃至のいずれか1項に記載の情報処理装置として機能させるためのプログラム。 A program for causing a computer to function as the information processing device according to any one of claims 1 to 9 .
JP2021185190A 2021-11-12 2021-11-12 Information processing device, information processing method, and program Active JP7814892B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021185190A JP7814892B2 (en) 2021-11-12 2021-11-12 Information processing device, information processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021185190A JP7814892B2 (en) 2021-11-12 2021-11-12 Information processing device, information processing method, and program

Publications (2)

Publication Number Publication Date
JP2023072557A JP2023072557A (en) 2023-05-24
JP7814892B2 true JP7814892B2 (en) 2026-02-17

Family

ID=86424331

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021185190A Active JP7814892B2 (en) 2021-11-12 2021-11-12 Information processing device, information processing method, and program

Country Status (1)

Country Link
JP (1) JP7814892B2 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010113691A1 (en) 2009-03-30 2010-10-07 日本電気株式会社 Language analysis device, method, and program
CN110929518A (en) 2019-12-09 2020-03-27 朱利 Text sequence labeling algorithm using overlapping splitting rule

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010113691A1 (en) 2009-03-30 2010-10-07 日本電気株式会社 Language analysis device, method, and program
CN110929518A (en) 2019-12-09 2020-03-27 朱利 Text sequence labeling algorithm using overlapping splitting rule

Also Published As

Publication number Publication date
JP2023072557A (en) 2023-05-24

Similar Documents

Publication Publication Date Title
JP3571408B2 (en) Document processing method and apparatus
US10891427B2 (en) Machine learning techniques for generating document summaries targeted to affective tone
KR100999488B1 (en) Method and apparatus for detecting document plagiarism
US6876963B1 (en) Machine translation method and apparatus capable of automatically switching dictionaries
JP2010157178A (en) Computer system for creating term dictionary with named entities or terminologies included in text data, and method and computer program therefor
Glass et al. A naive salience-based method for speaker identification in fiction books
JP2002117027A (en) Emotion information extraction method and emotion information extraction program recording medium
CN112650836B (en) Text analysis method and device based on syntax structure element semantics and computing terminal
CN111310457B (en) Improper word collocation identification methods, devices, electronic equipment and storage media
JP2011039576A (en) Specific information detecting device, specific information detecting method, and specific information detecting program
JP4856573B2 (en) Summary sentence generation device and summary sentence generation program
JP7814892B2 (en) Information processing device, information processing method, and program
JP5447368B2 (en) NEW CASE GENERATION DEVICE, NEW CASE GENERATION METHOD, AND NEW CASE GENERATION PROGRAM
JP6623840B2 (en) Synonym detection device, synonym detection method, and computer program for synonym detection
US20110172991A1 (en) Sentence extracting method, sentence extracting apparatus, and non-transitory computer readable record medium storing sentence extracting program
JP6303508B2 (en) Document analysis apparatus, document analysis system, document analysis method, and program
JP2021099805A (en) Device and method for processing digital data
JP7326637B2 (en) CHUNKING EXECUTION SYSTEM, CHUNKING EXECUTION METHOD, AND PROGRAM
JP5911931B2 (en) Predicate term structure extraction device, method, program, and computer-readable recording medium
JP2009176148A (en) Unknown word determining system, method and program
US12216987B2 (en) Generating heading based on extracted feature words
JP6437899B2 (en) Document proofreading support apparatus, document proofreading support method, and document proofreading support program
KR102668118B1 (en) Learning device and learning method for natural language-based video search
CN120337907B (en) Text processing methods, devices, media and products
JP7657382B1 (en) Data processing system distribution device, data processing system distribution method, and data processing system distribution program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20241031

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20250626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20250708

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20250801

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20250822

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20251007

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20251105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20260106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20260204

R150 Certificate of patent or registration of utility model

Ref document number: 7814892

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150