JP7773010B2 - Method, device, system, program and computer-readable storage medium - Google Patents
Method, device, system, program and computer-readable storage mediumInfo
- Publication number
- JP7773010B2 JP7773010B2 JP2023181092A JP2023181092A JP7773010B2 JP 7773010 B2 JP7773010 B2 JP 7773010B2 JP 2023181092 A JP2023181092 A JP 2023181092A JP 2023181092 A JP2023181092 A JP 2023181092A JP 7773010 B2 JP7773010 B2 JP 7773010B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- nouns
- trained model
- japanese
- string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Description
本発明は、方法、装置、システム、プログラム及びコンピュータ可読記憶媒体に関する。 The present invention relates to a method, an apparatus, a system, a program, and a computer-readable storage medium.
さまざまな知識 (ナレッジ) を体系的に連結し、グラフ構造で表した知識のネットワークとして、ナレッジグラフが用いられている。ナレッジグラフの作成のために、自然言語によって記載されたテキストデータから機械可読データ構造の形態で情報を抽出することは効果的である。この場合、例えば、オープン情報抽出 (Open information extraction (IE)) という手法が用いられることがある。 Knowledge graphs are used as knowledge networks that systematically link various types of knowledge and represent them in a graph structure. To create knowledge graphs, it is effective to extract information from text data written in natural language in the form of a machine-readable data structure. In this case, for example, a technique called open information extraction (IE) is sometimes used.
特許文献1において、高リソース言語からの転移学習を用いて、低リソース言語から機械可読データ構造の形態で情報を抽出することが記載されている。 Patent document 1 describes the use of transfer learning from a high-resource language to extract information in the form of machine-readable data structures from a low-resource language.
非特許文献1において、自然言語文から (主語、述語、目的語) のトリプルを抽出する際に、まず簡単なスロットを抽出し、次に簡単なスロットを条件として難しいスロットを抽出するというように、繰り返し抽出することが記載されている。 Non-Patent Document 1 describes a method for iteratively extracting triples (subject, predicate, object) from natural language sentences, by first extracting easy slots, then using the easy slots as conditions to extract difficult slots, and so on.
非特許文献2において、教師ありOpenIEについて、英語以外の言語のOpenIEシステムを訓練するために、英語のテキストを自動的に変換する技術が記載されている。具体的に、英語文とそれに対応する抽出文を互いに一貫性を保ちながら翻訳するAlignment-Augmented Consistent Translation (AACTRANS) モデルが記載されている。 Non-Patent Document 2 describes a technology for automatically converting English text in supervised OpenIE to train OpenIE systems for languages other than English. Specifically, it describes the Alignment-Augmented Consistent Translation (AACTRANS) model, which translates English sentences and their corresponding extracted sentences while maintaining consistency with each other.
日本語のナレッジグラフを効率よく作成する必要がある。 It is necessary to efficiently create a Japanese knowledge graph.
本発明は、日本語のナレッジグラフを効率よく作成するための方法、装置、システム、プログラム及びコンピュータ可読記憶媒体を提供することを目的とする。 The present invention aims to provide a method, device, system, program, and computer-readable storage medium for efficiently creating a Japanese knowledge graph.
本発明に係る方法、装置、システム、プログラム及びコンピュータ可読記憶媒体は、上記の目的を達成するためのものであり、以下の構成を備える。 The method, device, system, program, and computer-readable storage medium of the present invention are intended to achieve the above-mentioned objectives and have the following configuration.
(1) 本発明の一態様に係る学習のための方法は、第1言語によって記述された第1の文字列を取得するステップであって、前記第1の文字列は複数の第1の名詞を含むステップと、前記第1の文字列と、前記第1の文字列に含まれる少なくとも第1の主語及び第1の述語との対応関係を示す学習済モデルを取得するステップと、前記第1の文字列を日本語に翻訳して第2の文字列を生成するステップであって、前記第2の文字列は複数の第2の名詞を含むステップと、前記複数の第1の名詞の順序が前記複数の第2の名詞 の順序に対応するように、前記第1の文字列の構造を変更することにより、第1の変換された第1の文字列を取得するステップと、前記第1の変換された第1の文字列に含まれる前記複数の第1の名詞それぞれの前又は後に、前記複数の第1の名詞と前記複数の第2の名詞との対応関係に基づいて、1つ又は複数の日本語の助詞のそれぞれを付加し、第2の変換された第1の文字列を取得するステップと、前記第2の変換された第1の文字列と、前記学習済モデルとに基づいて、転移学習を実行することにより、前記第1の文字列と、前記第2の文字列に含まれる少なくとも第2の主語及び第2の述語との対応関係を示す更新された前記学習済モデルを生成するステップとを有する。 (1) A method for learning according to one aspect of the present invention includes the steps of: acquiring a first character string written in a first language, the first character string including a plurality of first nouns; acquiring a trained model indicating a correspondence between the first character string and at least a first subject and a first predicate included in the first character string; translating the first character string into Japanese to generate a second character string, the second character string including a plurality of second nouns; and translating the first character string into Japanese to generate a second character string, the second character string including a plurality of second nouns. obtaining a first converted first string by changing the structure of the first string to correspond to the order of the first nouns in the first converted first string; obtaining a second converted first string by adding one or more Japanese particles before or after each of the first nouns included in the first converted first string based on the correspondence between the first nouns and the second nouns; and generating an updated trained model indicating the correspondence between the first string and at least a second subject and a second predicate included in the second string by performing transfer learning based on the second converted first string and the trained model.
(2) 上記 (1) の態様において、前記第2の変換された第1の文字列と、前記学習済モデルとに基づいて、転移学習を実行することにより、前記更新された前記学習済モデルを生成するステップは、不連続かつ反復的抽出及び学習に対応し、前記不連続かつ反復的抽出において、前記第1の主語及び前記第1の述語の間に名詞及び動詞以外の1つ又は複数の他のキーワードが含まれ、前記複数の第2の名詞の各々に対応する助詞を反復的に抽出するステップを含む。 (2) In the aspect (1) above, the step of generating the updated trained model by performing transfer learning based on the second converted first character string and the trained model corresponds to discontinuous and iterative extraction and learning, and in the discontinuous and iterative extraction, one or more keywords other than nouns and verbs are included between the first subject and the first predicate, and includes a step of iteratively extracting particles corresponding to each of the plurality of second nouns.
(3) 上記 (1) の態様において、前記1つ又は複数の日本語の助詞は格助詞を含む。 (3) In the above aspect (1), the one or more Japanese particles include a case particle.
(4) 上記 (1) の態様において、日本語によって記述された第3の文字列を取得するステップと、前記第3の文字列及び前記更新された前記学習済モデルに基づいて、前記第3の文字列に含まれる複数の第3の名詞と、複数の第3の助詞とを抽出するステップをさらに有し、前記複数の第3の助詞は、前記複数の第3の名詞のそれぞれに対応する助詞を含む。 (4) In the above aspect (1), the method further includes the steps of acquiring a third character string written in Japanese, and extracting a plurality of third nouns and a plurality of third particles contained in the third character string based on the third character string and the updated trained model, wherein the plurality of third particles include particles corresponding to each of the plurality of third nouns.
(5) 上記 (4) の態様において、前記複数の第3の助詞は格助詞を含む。 (5) In the above aspect (4), the plurality of third particles include a case particle.
(6) 本発明の一態様に係る装置は、取得部と処理部とを備え、前記取得部は、第1言語によって記述された第1の文字列を取得し、前記第1の文字列と、前記第1の文字列に含まれる少なくとも第1の主語及び第1の述語との対応関係を示す学習済モデルを取得するように構成され、前記第1の文字列は複数の第1の名詞を含み、前記処理部は、前記第1の文字列の日本語に翻訳して第2の文字列を生成するように構成され、前記第2の文字列は複数の第2の名詞を含み、前記取得部は、前記複数の第1の名詞の順序が前記複数の第2の名詞の順序に対応するように、前記第1の文字列の構造を変更することにより、第1の変換された第1の文字列を取得するように構成され、前記変換された第1の文字列に含まれる前記複数の第1の名詞それぞれの前又は後に、前記複数の第1の名詞と前記複数の第2の名詞との対応関係に基づいて、1つ又は複数の日本語の助詞のそれぞれを付加し、第2の変換された第1の文字列を取得するように構成され、前記処理部は、前記第2の変換された第1の文字列と、前記学習済モデルとに基づいて、転移学習を実行することにより、前記第1の文字列と、前記第2の文字列に含まれる少なくとも第2の主語及び第2の述語との対応関係を示す更新された前記学習済モデルを生成するように構成される。 (6) An apparatus according to one aspect of the present invention includes an acquisition unit and a processing unit. The acquisition unit is configured to acquire a first character string written in a first language and acquire a trained model indicating a correspondence between the first character string and at least a first subject and a first predicate included in the first character string, the first character string including a plurality of first nouns, the processing unit is configured to translate the first character string into Japanese to generate a second character string, the second character string including a plurality of second nouns, and the acquisition unit generates the first character string by changing the structure of the first character string so that the order of the plurality of first nouns corresponds to the order of the plurality of second nouns. and acquiring a converted first character string, adding one or more Japanese particles before or after each of the plurality of first nouns included in the converted first character string based on the correspondence between the plurality of first nouns and the plurality of second nouns to acquire a second converted first character string, and the processing unit is configured to perform transfer learning based on the second converted first character string and the trained model, thereby generating an updated trained model indicating the correspondence between the first character string and at least a second subject and a second predicate included in the second character string.
(7) 上記 (6) の態様において、前記取得部は、日本語によって記述された第3の文字列を取得するように構成され、前記処理部は、前記第3の文字列及び前記更新された前記学習済モデルに基づいて、前記第3の文字列に含まれる複数の第3の名詞と、複数の第3の助詞とを抽出するように構成され、前記複数の第3の助詞は、前記複数の第3の名詞のそれぞれに対応する助詞を含む。 (7) In the aspect of (6) above, the acquisition unit is configured to acquire a third character string written in Japanese, and the processing unit is configured to extract a plurality of third nouns and a plurality of third particles included in the third character string based on the third character string and the updated trained model, and the plurality of third particles include particles corresponding to each of the plurality of third nouns.
(8) 上記 (6) の態様において、前記1つ又は複数の日本語の助詞は格助詞を含む。 (8) In the above aspect (6), the one or more Japanese particles include a case particle.
(9) 本発明の一態様に係る装置は、取得部と処理部とを備える装置であって、前記取得部は、日本語によって記述された第3の文字列と、学習済モデルとを取得するように構成され、前記処理部は、前記第3の文字列及び前記学習済モデルに基づいて、前記第3の文字列に含まれる複数の第3の名詞と、第3の複数の助詞とを抽出するように構成され、前記学習済モデルは、第1言語によって記述された第1の文字列と、前記第1の文字列に含まれる少なくとも第1の主語及び第1の述語との対応関係を示し、前記複数の第3の助詞は、前記複数の第3の名詞のそれぞれに対応する助詞を含む。 (9) An apparatus according to one aspect of the present invention includes an acquisition unit and a processing unit. The acquisition unit is configured to acquire a third character string written in Japanese and a trained model. The processing unit is configured to extract a plurality of third nouns and a plurality of third particles included in the third character string based on the third character string and the trained model. The trained model indicates a correspondence between a first character string written in a first language and at least a first subject and a first predicate included in the first character string. The plurality of third particles include particles corresponding to each of the plurality of third nouns.
(10) 本発明の一態様に係る学習及び推定のためのシステムは、上記 (6) に記載の装置と、上記 (9) に記載の装置とを含む。 (10) A system for learning and estimation according to one aspect of the present invention includes the device described in (6) above and the device described in (9) above.
(11) 本発明の一態様に係るプログラムは、コンピュータ上で実行されたとき、上記 (1) から (5) のいずれか一項に記載された方法を実行する。 (11) A program according to one aspect of the present invention, when executed on a computer, executes the method described in any one of (1) to (5) above.
(12) 本発明の一態様に係るコンピュータ可読記憶媒体は、コンピュータ上で実行されたとき、上記 (1) から (5) のいずれか一項に記載された方法を前記コンピュータに実行させるためのプログラムを記憶する。 (12) A computer-readable storage medium according to one aspect of the present invention stores a program that, when executed on a computer, causes the computer to execute the method described in any one of (1) to (5) above.
(1) から (12) によれば、日本語のナレッジグラフを効率よく作成することが可能な方法、装置、システム、プログラム及びコンピュータ可読記憶媒体を提供することができる。 (1) to (12) provide a method, device, system, program, and computer-readable storage medium that can efficiently create a Japanese knowledge graph.
(第1実施形態)
以下、図面を参照し、本発明の方法、装置、システム、プログラム及びコンピュータ可読記憶媒体の実施形態について説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態で説明されている特徴の組み合わせの全てが発明に必須のものとは限らない。実施形態で説明されている複数の特徴のうち2つ以上の特徴が任意に組み合わされてもよい。また、同一若しくは同様の構成には同一の参照番号を付し、重複した説明は省略する。
(First embodiment)
Hereinafter, with reference to the drawings, embodiments of the method, device, system, program, and computer-readable storage medium of the present invention will be described. Note that the following embodiments do not limit the scope of the invention as claimed, and not all combinations of features described in the embodiments are necessarily essential to the invention. Two or more of the features described in the embodiments may be arbitrarily combined. Furthermore, the same reference numerals are used for the same or similar components, and redundant descriptions will be omitted.
図1は、本発明の実施形態に係る推定システムSの構成例を示す図である。 Figure 1 is a diagram showing an example configuration of an estimation system S according to an embodiment of the present invention.
推定システムSは、学習装置10及び推定装置30を備える。学習装置10は、ネットワークNWを介して推定装置30に接続される。学習装置10は機械学習により学習済モデルを生成する。学習済モデルは、推定対象の日本語テキストと日本語のナレッジグラフとの対応関係を示す。学習装置10は、生成した学習済モデルを推定装置30に提供する。推定装置30は、日本語テキストを取得する。推定装置30は、取得した日本語テキストと学習済モデルとに基づいて日本語のナレッジグラフを推定及び出力する。学習装置10及び推定装置30の動作についての詳細は、別途説明される。 The estimation system S includes a learning device 10 and an estimation device 30. The learning device 10 is connected to the estimation device 30 via a network NW. The learning device 10 generates a trained model through machine learning. The trained model indicates the correspondence between the Japanese text to be estimated and a Japanese knowledge graph. The learning device 10 provides the generated trained model to the estimation device 30. The estimation device 30 acquires Japanese text. The estimation device 30 estimates and outputs a Japanese knowledge graph based on the acquired Japanese text and the trained model. Details of the operation of the learning device 10 and the estimation device 30 will be explained separately.
図2は、本発明の実施形態に係る学習及び推定の概要を示す図である。まず、学習装置10は、英語テキストと、英語テキストの和訳を取得する。学習装置10は、取得した英語テキストに基づいて、英語テキストの対応する和訳を機械翻訳により生成してもよい。 Figure 2 is a diagram illustrating an overview of learning and estimation according to an embodiment of the present invention. First, the learning device 10 acquires English text and a Japanese translation of the English text. Based on the acquired English text, the learning device 10 may generate a corresponding Japanese translation of the English text by machine translation.
学習装置10は、テキストアラインメント処理を実行する。この処理は、英語テキストの語順を、対応する日本語のテキストの語順に並べ替える処理である。例えば、英文が “He loves a pizza.” であれば、対応する和訳は「彼はピザが大好きです。」となる。テキストアラインメント処理の結果、英文テキストに含まれる語順が変更され、英文テキストは “He a pizza loves.” となる。この「日本語風の英語テキスト」を、 “Japonized English text” と称してもよい。 The learning device 10 performs text alignment processing. This processing rearranges the word order of English text to match the word order of the corresponding Japanese text. For example, if the English sentence is "He loves a pizza," the corresponding Japanese translation would be "He loves pizza." As a result of the text alignment processing, the word order contained in the English text is changed, and the English text becomes "He a pizza loves." This "Japanese-style English text" may also be referred to as "Japonized English text."
学習装置10は、アラインメント処理がされた日本語風の英語テキストに含まれる名詞の前に、対応する助詞を付加する。助詞が付加された結果、日本語風の英語テキストは、 “(ha) He (ga) pizza loves” となる。日本語風の英語テキストは、“(ha) He (wo) pizza loves” でもよいし、“(ga) He (wo) pizza loves” でもよい。詞が付加された日本語風の英語テキストを、「マーカ付き英語テキスト」と称してもよい。助詞が名詞の前に付加されることにより、助詞のそれぞれの後に続く対応する名詞のそれぞれが主語、述語又は目的語等のいずれの種類であるかを、学習装置10は精度良く効率的に識別及び学習することができる。 The learning device 10 adds a corresponding particle before the noun contained in the aligned Japanese-style English text. As a result of adding the particle, the Japanese-style English text becomes "(ha) He (ga) pizza loves." The Japanese-style English text could also be "(ha) He (wo) pizza loves" or "(ga) He (wo) pizza loves." The Japanese-style English text with the particle added may be referred to as "marked English text." By adding particles before the nouns, the learning device 10 can accurately and efficiently identify and learn whether the corresponding noun following each particle is a subject, predicate, object, etc.
もう少し複雑な例を挙げると、原文である英文は、 “He was awarded the Queen’s Police Medal in the 1957 New Year Honours.” でもよい。対応する日本語の機械翻訳は、例えば、「彼が1957年の新年栄誉賞で女王の警察メダルの授与を受けました。」でもよい。日本語風の英語テキストは、 “He was 1957 the New in Queen’s police Medal awarded.” でもよい。マーカ付き英語テキストは、「(が (ga)) He was (で (de)) 1957 the New in (を (wo)) Queen 's Police Medal awarded.」でもよい。 To take a more complex example, the original English text might be, "He was awarded the Queen's Police Medal in the 1957 New Year Honours." The corresponding machine translation of Japanese might be, for example, "He was awarded the Queen's Police Medal in the 1957 New Year Honours." The Japanese-style English text might be, "He was 1957 the New in Queen's police Medal awarded." The marked English text might be, "(が (ga)) He was (で (de)) 1957 the New in (を (wo)) Queen's Police Medal awarded."
さらに別の例を挙げると、原文である英文は、 “Blagoja ‘Billy’ Celeski is an Australian footballer who plays as a midfielder for the Newcastle Jets.” でもよい。対応する日本語の機械翻訳は、「ブラゴヤ “ビリー” セレスキーが、ニューカッスル・ジェッツでミッドフィルダーとしてプレイするオーストラリア人のフットボール選手です。」でよい。日本語風の英語テキストは、 “Blagoja ‘Billy’ Celeski is Newcastle Jets a plays Australian an footballer.” でもよく、マーカ付き英語テキストは「(が (ga)) Blagoja ‘Billy’ Celeski for (で (de)) the Newcastle Jets as a midfielder an Australian (の (no)) footballer who plays is.」でもよい。 To give yet another example, the original English text could be, "Blagoja 'Billy' Celeski is an Australian footballer who plays as a midfielder for the Newcastle Jets." The corresponding machine translation of Japanese could be, "Blagoja 'Billy' Celeski is an Australian footballer who plays as a midfielder for the Newcastle Jets." The Japanese-style English text could be, "Blagoja 'Billy' Celeski is Newcastle Jets a plays Australian an footballer." and the marked English text could be, "(が (ga)) Blagoja 'Billy' Celeski for (で (de)) the Newcastle Jets as a midfielder an Australian (の (no)) footballer who plays is."
学習装置10は、不連続繰り返しOpenIE抽出学習 (discontinuous iterative Open IE extraction and learning) に基づく機械学習により学習済モデルを生成する。この機械学習は、英語テキストと、英語のナレッジグラフとの対応関係を教師データとして、転移学習により、マーカ付き英語テキストと、英語のナレッジグラフとの対応関係を学習する。転移学習は、既存の学習済みモデルのデータはそのままに、新たに追加したモデルのデータのみ学習する手法である。マーカ付き英語テキストに含まれる名詞の前に、対応する助詞が付加されているので、マーカ付き英文テキストに含まれる名詞の各々が主語、述語等のいずれの機能を担うかを推定することができる。したがって、推定装置30は、学習済モデルに基づいて、マーカ付き英語テキストの意味を適切な日本語に推定し、日本語の適切なナレッジグラフを推定することが可能になる。なお、教師データは英語以外に、フランス語、イタリア語、スペイン語といった他の言語についての同様の対応関係をさらに含んでもよい。 The learning device 10 generates a trained model through machine learning based on discontinuous iterative Open IE extraction and learning. This machine learning uses the correspondence between English text and an English knowledge graph as training data and uses transfer learning to learn the correspondence between marked English text and an English knowledge graph. Transfer learning is a method of learning only the data of a newly added model while leaving the data of an existing trained model untouched. Because corresponding particles are added before the nouns contained in the marked English text, it is possible to estimate whether each noun in the marked English text functions as a subject, predicate, etc. Therefore, the estimation device 30 can infer the meaning of the marked English text into appropriate Japanese based on the trained model and estimate an appropriate knowledge graph for Japanese. Note that the training data may also include similar correspondences for other languages other than English, such as French, Italian, and Spanish.
従来、OpenIEシステムでは、主語、述語、目的語がそれぞれ連続するとしていた。しかしながら、日本語の語順は必ずしもそうではなく、不連続という場合もある。英語のテキストにおける最初の部分が文頭にあり、他の部分が文末にあるような述語もあり得る。目的語、主語についても同様である。例えば、日本語は、「その女の子は、驚くことに、奇妙な音を聞いた。」という表現を含みうる。この場合、「その女の子」と「聞いた」は、不連続である。不連続繰り返しOpenIEでは、主語、目的語及び述語を文内で分割することができる。ここで、学習は、連続抽出と反復抽出の2つの態様を含む。 Traditionally, the OpenIE system has considered subjects, predicates, and objects to be consecutive. However, word order in Japanese is not always like this, and can be discontinuous. There may be predicates where the first part of an English text is at the beginning of the sentence and other parts are at the end of the sentence. The same is true for objects and subjects. For example, Japanese may contain the expression, "The girl, to her surprise, heard a strange sound." In this case, "the girl" and "heard" are discontinuous. In discontinuous repetition OpenIE, subjects, objects, and predicates can be split within a sentence. Here, learning includes two modes: continuous extraction and repetitive extraction.
i) 不連続抽出により、主語、目的語及び述語が分離され、文中にわたって広がることになる。これは、これらの構成要素が近接していると推測される既存のOpenIEシステムとの重要な相違点である。
ii) 反復学習は、アスペクトを次々と予測することで実施し、その都度、予測したアスペクトをアノテーションに付加する。アスペクトとは、主語、目的語及び述語等を含む。反復学習は、欠落しているもの (主語、目的語又は述語) の予測を、すでに予測されたものに対して条件付けることによって達成される。
i) Discontinuous extraction separates the subject, object, and predicate and spreads them across the sentence, a key difference from existing OpenIE systems, which assume these components are close together.
ii) Iterative learning is performed by predicting aspects one after another, and each time, the predicted aspects are added to the annotation. Aspects include subjects, objects, and predicates. Iterative learning is achieved by conditioning the prediction of missing aspects (subjects, objects, or predicates) on those that have already been predicted.
推定装置30は、推定対象の日本語テキストを取得し、また、不連続繰り返しOpenIE抽出に基づく学習済モデルを取得する。この学習済モデルは学習装置10によって生成及び提供される。推定装置30は、取得した日本語テキストと、学習済モデルとに基づいて、機械学習処理によって日本語のナレッジグラフを推定及び出力する。推定装置30は、その後、リンク予測を実行してもよい。リンク予測とは、ナレッジグラフに基づく所定の予測処理を指す。 The estimation device 30 acquires Japanese text to be estimated and also acquires a trained model based on discontinuously repeated OpenIE extraction. This trained model is generated and provided by the learning device 10. The estimation device 30 estimates and outputs a Japanese knowledge graph through machine learning processing based on the acquired Japanese text and the trained model. The estimation device 30 may then perform link prediction. Link prediction refers to a predetermined prediction process based on the knowledge graph.
リンク予測の例として、例えば、公共安全及び治安維持における自動意思決定を実行することが挙げられる。公共安全への適用例として、リンク予測により、洪水、地震、または原子力災害による到達不能地域へのドローン派遣を最適化することが考えられる。これらのドローンは、薬や水の散布、生存者の捜索など、人の命を守るために必要な作業を行う。 Examples of link prediction include performing automated decision-making in public safety and law enforcement. In a public safety application, link prediction could optimize the deployment of drones to inaccessible areas due to floods, earthquakes, or nuclear disasters. These drones could perform life-saving tasks, such as distributing medicine or water or searching for survivors.
推定装置30は、ソーシャルメディアや公的機関が作成した報告書などの日本語テキストを入力として、学習済モデルに基づく推定処理を実行することによってナレッジグラフを推定し、さらに、ドローンによる支援の量および種類を予測してもよい。具体的に、推定装置30は、支援する場所と、それぞれの場所で必要とされる援助の順序付きリストとを推定してもよい。 The estimation device 30 may use Japanese text, such as social media or reports created by public institutions, as input, to estimate a knowledge graph by performing an estimation process based on a trained model, and may further predict the amount and type of drone assistance. Specifically, the estimation device 30 may estimate locations where assistance will be provided and an ordered list of the assistance needed at each location.
公共安全への別の適用例として、日本語テキストにおけるヘイトスピーチについての有効な対処案を推定装置30によって推定してもよい。この場合、推定装置30は、新聞、ポータルサイト及びソーシャルメディア等に掲載される日本語テキストを取得し、学習済モデルに基づく推定処理を実行することによってナレッジグラフを推定する。その後、推定装置30は、取得したテキストを解析し、ナレッジグラフと比較することで誤情報およびヘイトスピーチを推定してもよい。そして、推定装置30は、削除対象となるニュース、投稿、スレッド、および訴訟対象となるユーザーの順序付きリストを推定及び出力してもよい。 As another example of an application to public safety, the estimation device 30 may estimate effective countermeasures for hate speech in Japanese text. In this case, the estimation device 30 acquires Japanese text published in newspapers, portal sites, social media, etc., and estimates a knowledge graph by performing an estimation process based on a trained model. The estimation device 30 may then analyze the acquired text and compare it with the knowledge graph to estimate misinformation and hate speech. The estimation device 30 may then estimate and output an ordered list of news, posts, and threads to be deleted and users to be sued.
治安維持への適用例として、推定装置30によって警察とソーシャルワーカー等からの報告書を分析することで、犯罪行為の増加を予測してもよい。この場合、推定装置30は、警察署とソーシャルワーカー等からの日本語テキストを取得する。取得した日本語テキストは、例えば、犯罪歴がある等、素行の悪い人間のリストと、彼又は彼女らの住所、通学先又は勤務先の情報とを含んでもよい。推定装置30は、学習済モデルに基づく推定処理を実行することによってナレッジグラフを推定する。その後、推定装置30は、日本語テキストを解析する。推定装置30は、取得した日本語テキストを解析し、それらをナレッジグラフと比較することで犯罪に関する情報を推定してもよい。そして、推定装置30は、予測される犯罪の場所および種類をそのリスク発生度合い併せて推定してもよい。その結果、犯罪行為が発生する可能性の高い場所に、警察官によって組織される犯罪防止班を自動的に派遣することにつながりうる。 As an example of an application to public safety, the estimation device 30 may predict an increase in criminal activity by analyzing reports from police, social workers, and the like. In this case, the estimation device 30 acquires Japanese text from police stations and social workers, and the like. The acquired Japanese text may include, for example, a list of people with bad behavior, such as those with criminal records, along with information about their addresses, schools, or places of employment. The estimation device 30 then infers a knowledge graph by performing an estimation process based on the trained model. The estimation device 30 then analyzes the Japanese text. The estimation device 30 may analyze the acquired Japanese text and compare it with the knowledge graph to infer information about crimes. The estimation device 30 may then estimate the location and type of predicted crime, along with the degree of risk of occurrence. This may lead to the automatic dispatch of crime prevention teams organized by police officers to locations where criminal activity is likely to occur.
推定装置30によるこれらの推定処理によって、当局は、公共安全及び/又は治安維持のために必要な措置について自動的な意思決定の支援を受けることができる。 These estimation processes performed by the estimation device 30 enable authorities to receive automated decision-making support regarding measures necessary for public safety and/or maintaining order.
図3は、本発明の実施形態における学習装置10の機能構成例を示す図である。学習装置10
は、取得部110、処理部120、通信部130、学習データ記憶部140及び出力部150を備える。学習データ記憶部140は、マーカ付テキスト記憶部141、ナレッジグラフ記憶部142、学習結果記憶部143及び学習結果記憶部144を含む。
FIG. 3 is a diagram illustrating an example of the functional configuration of the learning device 10 according to an embodiment of the present invention.
includes an acquisition unit 110, a processing unit 120, a communication unit 130, a learning data storage unit 140, and an output unit 150. The learning data storage unit 140 includes a marked text storage unit 141, a knowledge graph storage unit 142, a learning result storage unit 143, and a learning result storage unit 144.
取得部110は、学習対象となる学習済モデルを外部から取得する。学習済モデルは教師データであり、英語のテキストと、英語のテキストに対応するナレッジグラフとを含む。教師データは、英語のテキストと、ナレッジグラフとの対応関係を示す。英語のテキストを第1の文字列と称してもよい。第1の文字列は第1の主語及び第1の述語を含む。なお、英語は第1言語の一例である。つまり、第1言語はフランス語、イタリア語、スペイン語、中国語といった、日本語以外の言語であればよい。英語のテキストは複数の名詞を含む。英語のテキストに含まれる複数の名詞は、複数の第1の名詞の一例である。ナレッジグラフにもこれら複数の名詞は含まれる。したがって、教師データは、前記第1の文字列と、前記第1の文字列に含まれる少なくとも第1の主語及び第1の述語との対応関係を示す。 The acquisition unit 110 externally acquires a trained model to be trained. The trained model is training data and includes English text and a knowledge graph corresponding to the English text. The training data indicates the correspondence between the English text and the knowledge graph. The English text may be referred to as a first string. The first string includes a first subject and a first predicate. Note that English is an example of a first language. In other words, the first language may be any language other than Japanese, such as French, Italian, Spanish, or Chinese. The English text includes multiple nouns. The multiple nouns included in the English text are an example of multiple first nouns. The knowledge graph also includes these multiple nouns. Therefore, the training data indicates the correspondence between the first string and at least the first subject and first predicate included in the first string.
処理部120は、外部から取得された情報やデータを処理及び加工する。通信部130は、外部の装置と情報及びデータの送受信を実行する。マーカ付テキスト記憶部141は、マーカ付き英語テキストを記憶する。ナレッジグラフ記憶部142は英語のナレッジグラフを記憶する。学習結果記憶部143は、学習済モデルを記憶する。学習結果記憶部144は学習結果を記憶する。学習結果は更新された学習済モデルを含む。なお、マーカ付き英語テキストの代わりに、他の第1言語のマーカ付きテキストをマーカ付テキスト記憶部141は記憶してもよい。ナレッジグラフ記憶部142は、英語のナレッジグラフの代わりに他の第1言語のナレッジグラフを記憶してもよい。出力部150は、外部から取得された情報やデータ、また、学習済モデル等を外部に出力する。 The processing unit 120 processes and processes information and data acquired from outside. The communication unit 130 transmits and receives information and data to and from external devices. The marked text storage unit 141 stores marked English text. The knowledge graph storage unit 142 stores an English knowledge graph. The learning result storage unit 143 stores trained models. The learning result storage unit 144 stores training results. The training results include updated trained models. Note that the marked text storage unit 141 may store marked text in another first language instead of marked English text. The knowledge graph storage unit 142 may store a knowledge graph in another first language instead of an English knowledge graph. The output unit 150 outputs information and data acquired from outside, as well as trained models, to the outside.
図4は、本発明の実施形態における推定装置30の機能構成例を示す図である。推定装置30は、取得部310、処理部320、通信部330、実行データ記憶部340及び出力部350を含む。実行データ記憶部340は、日本語テキスト記憶部341、推定結果記憶部342及び学習済モデル記憶部343を含む。 Figure 4 is a diagram showing an example of the functional configuration of the estimation device 30 in an embodiment of the present invention. The estimation device 30 includes an acquisition unit 310, a processing unit 320, a communication unit 330, an execution data storage unit 340, and an output unit 350. The execution data storage unit 340 includes a Japanese text storage unit 341, an estimation result storage unit 342, and a trained model storage unit 343.
取得部310は、推定対象の日本語テキストと、学習済モデルとを取得する。取得される学習済モデルは、学習装置10によって生成された「更新された学習済モデル」であり、不連続繰り返しOpenIE抽出学習に基づいて生成されたものである。 The acquisition unit 310 acquires the Japanese text to be estimated and a trained model. The acquired trained model is an "updated trained model" generated by the learning device 10 and is generated based on discontinuous repetitive OpenIE extraction learning.
処理部320は、推定対象の日本語テキストと、学習済モデルとに基づいて推定処理を実行し、推定対象の日本語テキストに対応するナレッジグラフを推定する。処理部320は、前述のリンク予測をさらに実行してもよい。 The processing unit 320 performs an estimation process based on the Japanese text to be estimated and the trained model, and estimates a knowledge graph corresponding to the Japanese text to be estimated. The processing unit 320 may also perform the link prediction described above.
通信部330は、外部の装置と情報及びデータの送受信を実行する。日本語テキスト記憶部341は、推定対象の日本語テキストを記憶する。推定結果記憶部342は、推定対象の日本語テキストと学習済モデルとに基づく推定処理の結果を記憶する。学習済モデル記憶部343は学習済モデルを記憶する。出力部350は、外部から取得された情報やデータ、また、推定結果等を外部に出力する。出力部350は、リンク予測結果をさらに出力してもよい。 The communication unit 330 transmits and receives information and data to and from external devices. The Japanese text storage unit 341 stores the Japanese text to be estimated. The estimation result storage unit 342 stores the results of the estimation process based on the Japanese text to be estimated and the trained model. The trained model storage unit 343 stores the trained model. The output unit 350 outputs information and data acquired from outside, as well as estimation results, to the outside. The output unit 350 may further output link prediction results.
図5は、本発明の実施形態における学習処理のフローチャートである。 Figure 5 is a flowchart of the learning process in an embodiment of the present invention.
ステップS100において、取得部110は、英語のテキストを取得する。英語は第1言語の一例である。英文テキストを第1の文字列と称してもよい。英文テキストは複数の名詞を含む。英文テキストに含まれる複数の名詞を第1の名詞と称してもよい。 In step S100, the acquisition unit 110 acquires English text. English is an example of a first language. The English text may be referred to as a first character string. The English text includes multiple nouns. The multiple nouns included in the English text may be referred to as first nouns.
ステップS101において、取得部110は、学習済モデルを取得する。学習済モデルは、英文テキストと、英文テキストに対応するナレッジグラフとの対応関係を含む教師データである。取得部110に代えて、通信部130は学習済モデルを外部の他の装置から受信してもよい。ナレッジグラフ記憶部142はナレッジグラフを記憶してもよく、学習済モデル記憶部143は学習済モデルを記憶してもよい。 In step S101, the acquisition unit 110 acquires a trained model. The trained model is training data that includes correspondences between English text and knowledge graphs corresponding to the English text. Instead of the acquisition unit 110, the communication unit 130 may receive the trained model from another external device. The knowledge graph storage unit 142 may store a knowledge graph, and the trained model storage unit 143 may store a trained model.
ステップS102において、処理部120は、英文テキストを機械翻訳エンジンに基づいて和訳し、日本語テキストを生成する。日本語テキストを第2の文字列と称してもよい。日本語テキストは複数の名詞を含む。日本語テキストに含まれる複数の名詞を第2の名詞と称してもよい。 In step S102, the processing unit 120 translates the English text into Japanese using a machine translation engine to generate Japanese text. The Japanese text may be referred to as a second character string. The Japanese text includes multiple nouns. The multiple nouns included in the Japanese text may be referred to as second nouns.
ステップS103において、処理部120は、英文テキストに含まれる複数の名詞の順序を、機械翻訳によって得られた和文テキストに含まれる名詞の順序に対応するようにして変更し、語順の変更された英文テキストを生成する。語順の変更された英文テキストを第1の変換された第1の文字列と称してもよく、また、日本語風の英語テキストと称してもよい。 In step S103, the processing unit 120 changes the order of multiple nouns contained in the English text to correspond to the order of nouns contained in the Japanese text obtained by machine translation, thereby generating English text with a changed word order. The English text with a changed word order may be referred to as a first converted first character string, or may be referred to as Japanese-style English text.
ステップS104において、処理部120は、語順の変更された英文テキストに含まれる複数の名詞のそれぞれの前に、英文テキストに含まれる複数の名詞と、和文テキストに複数の名詞との対応関係に基づいて、和文テキストに含まれる名詞の後に続く助詞のそれぞれを付加する。この結果得られる文字列を、第2の変換された第1の文字列と称してもよく、マーカ付き英文テキストと称してもよい。マーカ付テキスト記憶部141はマーカ付き英文テキストを記憶する。 In step S104, the processing unit 120 adds, before each of the multiple nouns included in the English text with the changed word order, a particle that follows the noun included in the Japanese text, based on the correspondence between the multiple nouns included in the English text and the multiple nouns included in the Japanese text. The character string obtained as a result of this may be referred to as the second converted first character string, or may be referred to as the marked English text. The marked text storage unit 141 stores the marked English text.
ステップS105において、処理部120は、マーカ付き英文テキストと、学習済モデルとに基づいて転移学習を実行することにより、学習済モデルのモデルパラメータを更新し、更新された学習済モデルを生成する。更新された学習済モデルは、英文テキストと、英文テキストに対応するナレッジグラフの日本語版との対応関係を示す。英文テキストには対応するマーカ付き英文テキストと、対応する日本語訳とがあるので、結果として、更新された学習済モデルは、日本語テキストと日本語ナレッジグラフとの対応関係を示す。英文テキストに対応するナレッジグラフの日本語版は、英文テキストに含まれる複数の名詞に対応する日本語の名詞を含む。学習結果記憶部144は、更新された学習済モデルを記憶する。 In step S105, the processing unit 120 performs transfer learning based on the marked English text and the trained model to update the model parameters of the trained model and generate an updated trained model. The updated trained model indicates the correspondence between the English text and the Japanese version of the knowledge graph corresponding to the English text. Because the English text has corresponding marked English text and a corresponding Japanese translation, the updated trained model consequently indicates the correspondence between the Japanese text and the Japanese knowledge graph. The Japanese version of the knowledge graph corresponding to the English text includes Japanese nouns that correspond to multiple nouns contained in the English text. The learning result memory unit 144 stores the updated trained model.
ステップS106において、出力部150は、更新された学習済モデルを出力する。出力部150に代えて、又は出力部150に加えて、通信部130は更新された学習済モデルを他の装置に送信してもよい。この場合、通信部130は、更新された学習済モデルを推定装置30に送信してもよい。 In step S106, the output unit 150 outputs the updated trained model. Instead of or in addition to the output unit 150, the communication unit 130 may transmit the updated trained model to another device. In this case, the communication unit 130 may transmit the updated trained model to the estimation device 30.
図6は、本発明の実施形態における推定処理のフローチャートである。 Figure 6 is a flowchart of the estimation process in an embodiment of the present invention.
ステップS300において、取得部310は推定対象の日本語テキストを取得する。推定対象の日本語テキストを第3の文字列と称してもよい。日本語テキスト記憶部341は推定対象の日本語テキストを記憶する。取得部310に代えて、通信部330が推定対象の日本語テキストを外部装置から受信してもよい。 In step S300, the acquisition unit 310 acquires the Japanese text to be estimated. The Japanese text to be estimated may be referred to as a third character string. The Japanese text storage unit 341 stores the Japanese text to be estimated. Instead of the acquisition unit 310, the communication unit 330 may receive the Japanese text to be estimated from an external device.
ステップS301において、取得部310は更新された学習済モデルを取得する。学習済モデル記憶部343は更新された学習済モデルを記憶する。取得部310に代えて、通信部330が更新された学習済モデルを受信してもよい。 In step S301, the acquisition unit 310 acquires an updated trained model. The trained model storage unit 343 stores the updated trained model. Instead of the acquisition unit 310, the communication unit 330 may receive the updated trained model.
ステップS302において、処理部320は演算処理を実行する。具体的に、処理部320は、推定対象の日本語テキストと、更新された学習済モデルとに基づいて推定処理を実行し、推定対象の日本語テキストに含まれる複数の名詞と、推定対象の日本語テキストに含まれる複数の助詞とを抽出する。推定対象の日本語テキストに含まれる複数の助詞を複数の第3の助詞と称してもよい。この結果、処理部320は、日本語テキストに対応するナレッジグラフを推定し、得ることができる。 In step S302, processing unit 320 executes a calculation process. Specifically, processing unit 320 executes an estimation process based on the Japanese text to be estimated and the updated trained model, and extracts multiple nouns included in the Japanese text to be estimated and multiple particles included in the Japanese text to be estimated. The multiple particles included in the Japanese text to be estimated may also be referred to as multiple third particles. As a result, processing unit 320 can estimate and obtain a knowledge graph corresponding to the Japanese text.
ステップS303において、出力部350は日本語テキストに対応するナレッジグラフを出力する。出力部350に代えて通信部330は日本語テキストに対応するナレッジグラフを外部装置に送信してもよい。 In step S303, the output unit 350 outputs a knowledge graph corresponding to the Japanese text. Instead of the output unit 350, the communication unit 330 may transmit the knowledge graph corresponding to the Japanese text to an external device.
ステップS304において処理部320はさらにリンク予測を実行してもよい。 In step S304, the processing unit 320 may further perform link prediction.
以上説明したように、本発明の実施形態に係る学習のための方法は、英語 (第1言語) によって記述された英文テキスト (第1の文字列) を取得するステップであって、英文テキストは英語の複数の名詞 (複数の第1の名詞) を含むステップと、英文テキストと、英文テキストに含まれる少なくとも第1の主語及び第1の述語との対応関係を示す学習済モデルを取得するステップとを含み、ここで、第1の主語及び第1の述語は英語のナレッジグラフでもよいステップと、英文テキストを日本語に翻訳して日本語のテキスト (第2の文字列) を生成するステップであって、日本語のテキストは複数の第2の名詞を含むステップと、英文テキストに含まれる複数の名詞の順序が日本語のテキストに含まれる複数の第2の名詞の順序に対応するように、英文テキストの構造を変更することにより、語順の変更された英文テキスト (日本語風の英語テキスト、又は、第1の変換された第1の文字列) を取得するステップと、語順の変更された英文テキストに含まれる複数の第1の名詞それぞれの前に、英文テキストに含まれる複数の第1の名詞と和文テキストに含まれる複数の第2の名詞との対応関係に基づいて、1つ又は複数の日本語の助詞のそれぞれを付加し、マーカ付き英文テキスト (第2の変換された第1の文字列) を取得するステップと、マーカ付き英語テキストと、学習済モデルとに基づいて、転移学習を実行することにより、英文テキストと、和文テキストに含まれる複数の第2の名詞との対応関係を示す更新された学習済モデルを生成するステップであって、ここで、和文テキストに含まれる複数の第2の名詞はナレッジグラフの日本語版でもよいステップ、を有する。 As described above, a learning method according to an embodiment of the present invention includes the steps of: acquiring English text (first character string) written in English (first language), the English text including a plurality of English nouns (a plurality of first nouns); acquiring a trained model indicating a correspondence between the English text and at least a first subject and a first predicate included in the English text, where the first subject and the first predicate may be an English knowledge graph; translating the English text into Japanese to generate Japanese text (second character string), the Japanese text including a plurality of second nouns; and generating English text with a changed word order (Japanese-style English text, or a first converted first character string) by changing the structure of the English text so that the order of the plurality of nouns included in the English text corresponds to the order of the plurality of second nouns included in the Japanese text. the step of acquiring a plurality of first nouns included in the English text with the changed word order, adding one or more Japanese particles before each of the plurality of first nouns included in the English text based on the correspondence between the plurality of first nouns included in the English text and the plurality of second nouns included in the Japanese text, thereby acquiring marked English text (second converted first character string); and the step of performing transfer learning based on the marked English text and the trained model to generate an updated trained model indicating the correspondence between the English text and the plurality of second nouns included in the Japanese text, where the plurality of second nouns included in the Japanese text may be the Japanese version of a knowledge graph.
これにより、日本語テキストから効率よく日本語のナレッジグラフを推定及び生成することができる。 This makes it possible to efficiently estimate and generate a Japanese knowledge graph from Japanese text.
また、本実施形態において、処理部120により、マーカ付き英文テキストと、学習済モデルとに基づいて、転移学習を実行することにより、更新された学習済モデルを生成する処理は、不連続かつ反復的抽出及び学習に対応し、不連続かつ反復的抽出において、英文テキストに含まれる第1の主語及び第1の述語の間に名詞及び動詞以外の1つ又は複数の他のキーワードが含まれ、処理部120は、日本語テキストに含まれる複数の第2の名詞の各々に対応する助詞を反復的に抽出してもよい。他のキーワードは、例えば、「その少女は、驚いたことに、奇妙な音を聞いた。」との文における「驚いたことに」といった語句でもよい。 Furthermore, in this embodiment, the process of generating an updated trained model by performing transfer learning by the processing unit 120 based on the marked English text and the trained model corresponds to discontinuous and iterative extraction and learning, and in the discontinuous and iterative extraction, one or more other keywords other than nouns and verbs are included between the first subject and first predicate included in the English text, and the processing unit 120 may iteratively extract particles corresponding to each of multiple second nouns included in the Japanese text. The other keyword may be, for example, a phrase such as "surprisingly" in the sentence "The girl, to her surprise, heard a strange sound."
また、本実施形態において、マーカ付き英文テキストにおいて英文テキストに含まれる複数の第1の名詞の前に付加される助詞は格助詞を含んでもよい。 In addition, in this embodiment, the particles added before the multiple first nouns included in the highlighted English text may include case particles.
また、本実施形態において、推定装置30が備える取得部310は、推定対象の日本語テキスト (第3の文字列) を取得し、更新された学習済モデルを取得し、処理部320は、推定対象の日本語テキストと、更新された前記学習済モデルとに基づいて、推定対象の日本語テキストに含まれる複数の第3の名詞と、複数の第3の助詞とを抽出することにより、推定対象の日本語テキストに対応するナレッジグラフを得る。ここで、複数の第3の助詞は、複数の第3の名詞のそれぞれに対応する助詞を含む。 Furthermore, in this embodiment, the acquisition unit 310 included in the estimation device 30 acquires the Japanese text to be estimated (third character string) and acquires an updated trained model, and the processing unit 320 extracts multiple third nouns and multiple third particles included in the Japanese text to be estimated based on the Japanese text to be estimated and the updated trained model, thereby obtaining a knowledge graph corresponding to the Japanese text to be estimated. Here, the multiple third particles include particles corresponding to each of the multiple third nouns.
また、本実施形態において、複数の第3の助詞は格助詞を含んでもよい。 In addition, in this embodiment, the multiple third particles may include case particles.
また、学習装置10及び推定装置30の少なくとも1つは、ユーザ側の端末として構成されてもよい。学習装置10及び推定装置30の少なくとも1つに係る機能は、学習装置10及び推定装置30における各処理を実行するプログラムとして実現されてもよい。このプログラムの実行により、ユーザに対して課金処理が行われてもよい。 Furthermore, at least one of the learning device 10 and the estimation device 30 may be configured as a user terminal. The functions of at least one of the learning device 10 and the estimation device 30 may be realized as a program that executes each process in the learning device 10 and the estimation device 30. Execution of this program may result in a billing process for the user.
学習装置10及び推定装置30における各処理を実行するプログラムの少なくとも1つが、他のサーバ装置からダウンロードされるように構成される場合、当該サーバ装置はプログラムを学習装置10及び推定装置30の少なくとも1つに自動的に送信するように構成されてもよく、この場合、学習装置10及び推定装置30の少なくとも1つのユーザによる別途の操作が無くても、プログラムが機能するように構成されてもよい。 If at least one of the programs that executes each process in the learning device 10 and the estimation device 30 is configured to be downloaded from another server device, the server device may be configured to automatically transmit the program to at least one of the learning device 10 and the estimation device 30. In this case, the program may be configured to function without any separate operation by a user of at least one of the learning device 10 and the estimation device 30.
これにより、日本語テキストから効率よく日本語のナレッジグラフを推定及び生成することができる。 This makes it possible to efficiently estimate and generate a Japanese knowledge graph from Japanese text.
なお、学習装置10及び推定装置30は1つの装置として構成されてもよい。 The learning device 10 and the estimation device 30 may be configured as a single device.
<ハードウェア構成>
図7は、本実施形態に係る各装置のハードウェア構成を説明する説明図である。各装置とは、学習装置10及び推定装置30である。各装置は、入出力モジュールI、記憶モジュールM、及び制御モジュールPを含んで構成される。入出力モジュールIは、通信モジュールH11、接続モジュールH12、ポインティングデバイスH21、キーボードH22、ディスプレイH23、ボタンH3、マイクH41、スピーカH42、カメラH51、またはセンサH52の一部或いは全部を含んで実現される。
<Hardware configuration>
7 is an explanatory diagram illustrating the hardware configuration of each device according to this embodiment. Each device is a learning device 10 and an estimation device 30. Each device includes an input/output module I, a storage module M, and a control module P. The input/output module I is realized by including some or all of the communication module H11, connection module H12, pointing device H21, keyboard H22, display H23, button H3, microphone H41, speaker H42, camera H51, and sensor H52.
記憶モジュールMは、ドライブH7を含んで実現される。記憶モジュールMは、さらに、メモリH8の一部或いは全部を含んで構成されてもよい。制御モジュールPは、メモリH8及びプロセッサH9を含んで実現される。これらのハードウェア構成要素は、バス (Bus) を介して、相互に通信可能に接続されるとともに、電源H6から電力を供給されている。 The storage module M is realized by including a drive H7. The storage module M may further be configured to include all or part of the memory H8. The control module P is realized by including the memory H8 and a processor H9. These hardware components are connected to each other via a bus so that they can communicate with each other, and are supplied with power from the power supply H6.
接続モジュールH12は、USB (Universal Serial Bus) 等のデジタル入出力ポートである。携帯機器の場合、ポインティングデバイスH21、キーボードH22、およびディスプレイH23は、タッチパネルである。センサH52は、取得部としての画像センサである。電源H6は、各装置を動かすために必要な電気を供給する電源ユニットである。携帯機器の場合、電源H6は、バッテリーである。 The connection module H12 is a digital input/output port such as a USB (Universal Serial Bus). In the case of a portable device, the pointing device H21, keyboard H22, and display H23 are touch panels. The sensor H52 is an image sensor that acts as an acquisition unit. The power supply H6 is a power supply unit that supplies the electricity necessary to operate each device. In the case of a portable device, the power supply H6 is a battery.
ドライブH7は、ハードディスクドライブやソリッドステートドライブ等の補助記憶媒体である。ドライブH7は、EEPROMやフラッシュメモリ等の不揮発性メモリ、又は、光磁気ディスクドライブやフレキシブルディスクドライブであってもよい。また、ドライブH7は、例えば、各装置に内蔵されるものに限らず、IFモジュールH12のコネクタに接続された外付け型の記憶装置でもよい。 Drive H7 is an auxiliary storage medium such as a hard disk drive or solid state drive. Drive H7 may also be non-volatile memory such as an EEPROM or flash memory, or a magneto-optical disk drive or flexible disk drive. Drive H7 is not limited to being built into each device, but may also be an external storage device connected to the connector of IF module H12.
メモリH8は、ランダムアクセスメモリ等の主記憶媒体である。なお、メモリH8は、キャッシュメモリであってもよい。メモリH8は、1つ又は複数のプロセッサH9によって命令が実行されるときに、これらの命令を格納する。 Memory H8 is a primary storage medium such as random access memory. Memory H8 may also be cache memory. Memory H8 stores instructions as they are executed by one or more processors H9.
プロセッサH9は、CPU (中央演算装置) である。プロセッサH9は、MPU (マイクロプロセッシングユニット)又はGPU(グラフィックスプロセッシングユニット) であってもよい。プロセッサH9は、メモリH8を介してドライブH7から、プログラム及び各種データを読み出して演算を行うことで、一又は複数のメモリH8に格納した命令を実行する。 Processor H9 is a CPU (Central Processing Unit). Processor H9 may also be an MPU (Microprocessing Unit) or GPU (Graphics Processing Unit). Processor H9 reads programs and various data from drive H7 via memory H8 and performs calculations to execute instructions stored in one or more memories H8.
入出力モジュールIは、取得部110、通信部130、出力部150、取得部310、通信部330及び出力部350を実現する。 The input/output module I implements an acquisition unit 110, a communication unit 130, an output unit 150, an acquisition unit 310, a communication unit 330, and an output unit 350.
制御モジュールPは、処理部120及び処理部320を実現する。なお、本明細書等において、学習装置10及び推定装置30との記載は、それぞれ、制御部P10及びP30との記載に置き換えられてもよいし、これらの各装置との記載は、制御モジュールPとの記載に置き換えられてもよい。 Control module P implements processing unit 120 and processing unit 320. Note that in this specification, the terms "learning device 10" and "estimation device 30" may be replaced with "control units P10" and "P30," respectively, and the terms "each of these devices" may be replaced with "control module P."
ドライブH7またはメモリH8は、学習データ記憶部140及び実行データ記憶部340を実現する。 Drive H7 or memory H8 implements the learning data storage unit 140 and execution data storage unit 340.
以上、本発明の一態様として各実施形態や変形例に関して図面を参照して詳述してきたが、具体的な構成は各実施形態や変形例に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。また、本発明の一態様は、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。また、上記各実施形態や変形例に記載された要素であり、同様の効果を奏する要素同士を置換した構成も含まれる。 The above has described in detail each embodiment and variant as one aspect of the present invention with reference to the drawings, but the specific configuration is not limited to each embodiment or variant, and includes design modifications within the scope of the present invention. Furthermore, various modifications of this aspect of the present invention are possible within the scope of the claims, and embodiments obtained by appropriately combining the technical means disclosed in different embodiments are also included in the technical scope of the present invention. Also included are configurations in which elements described in the above embodiments and variants are substituted for elements that achieve the same effect.
例えば、上記各実施形態の一部又は全部を組み合わせることで本発明の一態様を実現してもよい。 For example, one aspect of the present invention may be realized by combining some or all of the above embodiments.
上記に開示されたプロセス/フローチャートにおける処理の特定の順序または階層構造は、例示である。適宜の設計に基づいて、フローチャートにおける処理の特定の順序または階層構造は、並べ替えられてもよい。さらに、いくつかの処理は組み合わされてよく、または省略されてよい。特許請求の範囲に記載された方法に係る開示は、様々な処理の要素を例示的な順序で提示したものであり、提示された特定の順序または階層構造に限定されるものではない。 The particular order or hierarchy of operations in the processes/flowcharts disclosed above is exemplary. Based on appropriate design, the particular order or hierarchy of operations in the flow charts may be rearranged. Furthermore, some operations may be combined or omitted. The disclosure of the claimed methods presents elements of various operations in an exemplary order, and is not limited to the particular order or hierarchy presented.
例えば、「A、B、またはCのうちの少なくとも1つ」、「A、B、またはCのうちの1つまたは複数」、「A、B、およびCのうちの少なくとも1つ」、「A、B、およびCのうちの1つまたは複数」、および「A、B、C、またはそれらの任意の組合せ」などの組合せは、A、B、および/またはCの任意の組合せを含み、複数のA、複数のB、または複数のCを含み得る。具体的には、「A、B、またはCのうちの少なくとも1つ」、「A、B、またはCのうちの1つまたは複数」、「A、B、およびCのうちの少なくとも1つ」、「A、B、およびCのうちの1つまたは複数」、および「A、B、C、またはそれらの任意の組合せ」などの組合せは、Aのみ、Bのみ、Cのみ、A及びB、AおよびC、BおよびC、またはA及びBおよびCであってもよく、任意のそのような組合せは、A、B、またはCのうちの1つまたは複数のメンバーを含み得る。 For example, combinations such as "at least one of A, B, or C," "one or more of A, B, or C," "at least one of A, B, and C," "one or more of A, B, and C," and "A, B, C, or any combination thereof" include any combination of A, B, and/or C, and may include multiple As, multiple Bs, or multiple Cs. Specifically, combinations such as "at least one of A, B, or C," "one or more of A, B, or C," "at least one of A, B, and C," "one or more of A, B, and C," and "A, B, C, or any combination thereof" may be A only, B only, C only, A and B, A and C, B and C, or A, B, and C, and any such combination may include one or more members of A, B, or C.
S…推定システム、10…学習装置、30…推定装置、110…取得部、120…処理部、130…通信部、140…学習データ記憶部、150…出力部、310…取得部、320…処理部、330…通信部、340…実行データ記憶部、350…出力部 S...estimation system, 10...learning device, 30...estimation device, 110...acquisition unit, 120...processing unit, 130...communication unit, 140...learning data storage unit, 150...output unit, 310...acquisition unit, 320...processing unit, 330...communication unit, 340...execution data storage unit, 350...output unit
Claims (12)
第1言語によって記述された第1の文字列を取得するステップであって、前記第1の文字列は複数の第1の名詞を含むステップと、
前記第1の文字列と、前記第1の文字列に含まれる少なくとも第1の主語及び第1の述語との対応関係を示す学習済モデルを取得するステップと、
前記第1の文字列を日本語に翻訳して第2の文字列を生成するステップであって、前記第2の文字列は複数の第2の名詞を含むステップと、
前記複数の第1の名詞の順序が前記複数の第2の名詞の順序に対応するように、前記第1の文字列の構造を変更することにより、第1の変換された第1の文字列を取得するステップと、
前記第1の変換された第1の文字列に含まれる前記複数の第1の名詞それぞれの前に、前記複数の第1の名詞と前記複数の第2の名詞との対応関係に基づいて、1つ又は複数の日本語の助詞のそれぞれを付加し、第2の変換された第1の文字列を取得するステップと、
前記第2の変換された第1の文字列と、前記学習済モデルとに基づいて、転移学習を実行することにより、前記第1の文字列と、前記第2の文字列に含まれる少なくとも第2の主語及び第2の述語との対応関係を示す更新された前記学習済モデルを生成するステップと
を有する、学習のための方法。 1. A computer-implemented method for learning, comprising:
obtaining a first string written in a first language, the first string including a plurality of first nouns;
acquiring a trained model indicating a correspondence between the first character string and at least a first subject and a first predicate included in the first character string;
a step of translating the first character string into Japanese to generate a second character string, the second character string including a plurality of second nouns;
obtaining a first transformed first string by modifying a structure of the first string such that an order of the plurality of first nouns corresponds to an order of the plurality of second nouns;
adding one or more Japanese particles before each of the plurality of first nouns included in the first converted first character string based on the correspondence between the plurality of first nouns and the plurality of second nouns, thereby obtaining a second converted first character string;
and performing transfer learning based on the second converted first character string and the trained model to generate an updated trained model indicating a correspondence between the first character string and at least a second subject and a second predicate included in the second character string.
前記不連続かつ反復的抽出において、
前記第1の主語及び前記第1の述語の間に名詞及び動詞以外の1つ又は複数の他のキーワードが含まれ、
前記複数の第2の名詞の各々に対応する助詞を反復的に抽出するステップを含む
請求項1に記載の方法。 generating the updated trained model by performing transfer learning based on the second transformed first string and the trained model corresponds to discontinuous and iterative extraction and training;
In the discontinuous and repeated extraction,
one or more keywords other than nouns and verbs are included between the first subject and the first predicate;
The method of claim 1 , further comprising the step of iteratively extracting a particle corresponding to each of the plurality of second nouns.
請求項1に記載の方法。 The method of claim 1 , wherein the one or more Japanese particles include a case particle.
前記第3の文字列及び前記更新された前記学習済モデルに基づいて、前記第3の文字列に含まれる複数の第3の名詞と、複数の第3の助詞とを抽出するステップをさらに有し、
前記複数の第3の助詞は、前記複数の第3の名詞のそれぞれに対応する助詞を含む
請求項1に記載の方法。 obtaining a third character string written in Japanese;
extracting a plurality of third nouns and a plurality of third particles included in the third character string based on the third character string and the updated trained model;
The method of claim 1 , wherein the plurality of third particles includes a particle corresponding to each of the plurality of third nouns.
請求項4に記載の方法。 The method of claim 4 , wherein the plurality of third particles includes a case particle.
前記取得部は、
第1言語によって記述された第1の文字列を取得し、
前記第1の文字列と、前記第1の文字列に含まれる少なくとも第1の主語及び第1の述語との対応関係を示す学習済モデルを取得する
ように構成され、
前記第1の文字列は複数の第1の名詞を含み、
前記処理部は、前記第1の文字列の日本語に翻訳して第2の文字列を生成するように構成され、前記第2の文字列は複数の第2の名詞を含み、
前記取得部は、
前記複数の第1の名詞の順序が前記複数の第2の名詞の順序に対応するように、前記第1の文字列の構造を変更することにより、第1の変換された第1の文字列を取得するように構成され、
前記変換された第1の文字列に含まれる前記複数の第1の名詞それぞれの前又は後に、前記複数の第1の名詞と前記複数の第2の名詞との対応関係に基づいて、1つ又は複数の日本語の助詞のそれぞれを付加し、第2の変換された第1の文字列を取得するように構成され、
前記処理部は、前記第2の変換された第1の文字列と、前記学習済モデルとに基づいて、転移学習を実行することにより、前記第1の文字列と、前記第2の文字列に含まれる少なくとも第2の主語及び第2の述語との対応関係を示す更新された前記学習済モデルを生成するように構成される
装置。 An apparatus comprising an acquisition unit and a processing unit,
The acquisition unit
Obtaining a first string written in a first language;
acquire a trained model indicating a correspondence between the first character string and at least a first subject and a first predicate included in the first character string;
the first string includes a plurality of first nouns;
the processing unit is configured to translate the first character string into Japanese to generate a second character string, the second character string including a plurality of second nouns;
The acquisition unit
is configured to obtain a first transformed first string by modifying a structure of the first string such that an order of the plurality of first nouns corresponds to an order of the plurality of second nouns;
is configured to add one or more Japanese particles before or after each of the plurality of first nouns included in the converted first character string based on a correspondence between the plurality of first nouns and the plurality of second nouns, thereby obtaining a second converted first character string;
the processing unit is configured to perform transfer learning based on the second converted first character string and the trained model, thereby generating an updated trained model indicating a correspondence between the first character string and at least a second subject and a second predicate included in the second character string.
前記処理部は、前記第3の文字列及び前記更新された前記学習済モデルに基づいて、前記第3の文字列に含まれる複数の第3の名詞と、複数の第3の助詞とを抽出するように構成され、
前記複数の第3の助詞は、前記複数の第3の名詞のそれぞれに対応する助詞を含む
請求項6に記載の装置。 the acquisition unit is configured to acquire a third character string written in Japanese;
the processing unit is configured to extract, based on the third character string and the updated trained model, a plurality of third nouns and a plurality of third particles included in the third character string;
The device according to claim 6 , wherein the plurality of third particles includes a particle corresponding to each of the plurality of third nouns.
請求項6に記載の装置。 The apparatus of claim 6 , wherein the one or more Japanese particles include a case particle.
前記取得部は、日本語によって記述された第3の文字列と、請求項1に記載の方法によって生成される学習済モデルとを取得するように構成され、
前記処理部は、前記第3の文字列及び前記学習済モデルに基づいて、前記第3の文字列に含まれる複数の第3の名詞と、複数の第3の助詞とを抽出するように構成され、
前記学習済モデルは、第1言語によって記述された第1の文字列と、前記第1の文字列に含まれる少なくとも第1の主語及び第1の述語との対応関係を示し、
前記複数の第3の助詞は、前記複数の第3の名詞のそれぞれに対応する助詞を含む
装置。 An apparatus comprising an acquisition unit and a processing unit,
the acquisition unit is configured to acquire a third character string written in Japanese and a trained model generated by the method of claim 1 ;
the processing unit is configured to extract, based on the third character string and the trained model, a plurality of third nouns and a plurality of third particles included in the third character string;
the trained model indicates a correspondence relationship between a first character string written in a first language and at least a first subject and a first predicate included in the first character string;
The plurality of third particles include a particle corresponding to each of the plurality of third nouns.
取得部と処理部とを備える他の装置であって、
前記取得部は、日本語によって記述された第3の文字列と、請求項6に記載の装置によって生成された学習済モデルとを取得するように構成され、
前記処理部は、前記第3の文字列及び前記学習済モデルに基づいて、前記第3の文字列に含まれる複数の第3の名詞と、複数の第3の助詞とを抽出するように構成され、
前記学習済モデルは、第1言語によって記述された第1の文字列と、前記第1の文字列に含まれる少なくとも第1の主語及び第1の述語との対応関係を示し、
前記複数の第3の助詞は、前記複数の第3の名詞のそれぞれに対応する助詞を含む、他の装置とを含む
学習及び推定のためのシステム。 An apparatus according to claim 6;
Another device comprising an acquisition unit and a processing unit,
the acquisition unit is configured to acquire a third character string written in Japanese and a trained model generated by the device according to claim 6;
the processing unit is configured to extract, based on the third character string and the trained model, a plurality of third nouns and a plurality of third particles included in the third character string;
the trained model indicates a correspondence relationship between a first character string written in a first language and at least a first subject and a first predicate included in the first character string;
and another device, wherein the plurality of third particles include particles corresponding to each of the plurality of third nouns .
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP22204204 | 2022-10-27 | ||
| EP22204204 | 2022-10-27 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2024065037A JP2024065037A (en) | 2024-05-14 |
| JP7773010B2 true JP7773010B2 (en) | 2025-11-19 |
Family
ID=84043992
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2023181092A Active JP7773010B2 (en) | 2022-10-27 | 2023-10-20 | Method, device, system, program and computer-readable storage medium |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7773010B2 (en) |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000112936A (en) | 1998-10-01 | 2000-04-21 | Atr Interpreting Telecommunications Res Lab | Language processor and word meaning deciding device |
| JP2013182347A (en) | 2012-02-29 | 2013-09-12 | Nippon Telegr & Teleph Corp <Ntt> | Particle error correction device, method and program |
| WO2020137696A1 (en) | 2018-12-26 | 2020-07-02 | 日本電信電話株式会社 | Spoken sentence generation model learning device, spoken sentence collecting device, spoken sentence generation model learning method, spoken sentence collection method, and program |
| CN112613326A (en) | 2020-12-18 | 2021-04-06 | 北京理工大学 | Tibetan language neural machine translation method fusing syntactic structure |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR101559657B1 (en) * | 2014-03-13 | 2015-10-13 | 울산대학교 산학협력단 | Method for analysis of korean dependency relation by homograph disambiguation |
-
2023
- 2023-10-20 JP JP2023181092A patent/JP7773010B2/en active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000112936A (en) | 1998-10-01 | 2000-04-21 | Atr Interpreting Telecommunications Res Lab | Language processor and word meaning deciding device |
| JP2013182347A (en) | 2012-02-29 | 2013-09-12 | Nippon Telegr & Teleph Corp <Ntt> | Particle error correction device, method and program |
| WO2020137696A1 (en) | 2018-12-26 | 2020-07-02 | 日本電信電話株式会社 | Spoken sentence generation model learning device, spoken sentence collecting device, spoken sentence generation model learning method, spoken sentence collection method, and program |
| CN112613326A (en) | 2020-12-18 | 2021-04-06 | 北京理工大学 | Tibetan language neural machine translation method fusing syntactic structure |
Non-Patent Citations (1)
| Title |
|---|
| 奥野 陽、外2名,自然言語処理の基本と技術,第1版,日本,株式会社翔泳社 佐々木 幹夫,2016年03月04日,p.086-091,098-122 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2024065037A (en) | 2024-05-14 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Narayan et al. | Split and rephrase | |
| Teruya et al. | Halliday in relation to language comparison and typology | |
| Rocca et al. | Natural language processing for humanitarian action: Opportunities, challenges, and the path toward humanitarian NLP | |
| Werlen et al. | Self-attentive residual decoder for neural machine translation | |
| Deshors | English as a Lingua Franca: A random forests approach to particle placement in multi‐speaker interactions | |
| Lo et al. | Quantum-like contextuality in large language models | |
| JP7773010B2 (en) | Method, device, system, program and computer-readable storage medium | |
| Smirnova et al. | Frame semantics methodology for teaching terminology of specialised domains | |
| Li et al. | Quantifying Uncertainty in Natural Language Explanations of Large Language Models for Question Answering | |
| WO2025076279A1 (en) | Systems and methods for automated clinical document generation | |
| Söğüt | Ideology in the news through active, passive and nominalization: A study on the terrorist attack in Ankara reported in British and American newspapers | |
| DeVault et al. | Practical grammar-based NLG from examples | |
| Amiri | Beyond language barriers: Multilingual NLP and voice recognition for global connectivity | |
| Vetulani et al. | Natural language based communication between human users and the emergency center: POLINT-112-SMS | |
| Ziegler et al. | Modelling word recognition and reading aloud | |
| Sogut | Ideology in the news through active, passive sentences and nominalization: A study on the terrorist attack in Ankara reported in British and American newspapers | |
| Trklja | Cognitive phenomenology, translation and computing machines | |
| Lin | An Automatic Assessment and Optimization Algorithm for English Translation Software Combining Deep Learning and Natural Language Processing | |
| JP7716885B2 (en) | Natural language processing device, classification device, and program | |
| Christian | Enhancing grammatical documentation for endangered languages with graph-based meaning representation and Loopy Belief Propagation | |
| Baikadi et al. | Towards a computational model of narrative visualization | |
| CN114281940B (en) | Computer cognition method and system based on semantic engineering and case learning | |
| Sharma et al. | Multimodal Semantographic Metalanguage (MSM): A novel methodology for digital enablement of semi-literates | |
| Two et al. | Findings of the Association for Computational Linguistics: EMNLP 2025 | |
| Dong et al. | Induction and Reference of Entities in a Visual Story |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240129 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20250325 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20250530 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250819 |
|
| A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20250917 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250918 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20250917 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7773010 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |