JP7707638B2

JP7707638B2 - 機械学習プログラム、機械学習方法および情報処理装置

Info

Publication number: JP7707638B2
Application number: JP2021080360A
Authority: JP
Inventors: 俊梁; 一森田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2025-07-15
Anticipated expiration: 2041-05-11
Also published as: US20220366142A1; JP2022174517A; US12039275B2

Description

本発明は、機械学習モデルの生成に関する。

機械学習モデルを利用する多くの分野では、あるドメインの訓練データを用いて生成された機械学習モデルを他のドメインに適用するドメイン適応（Domain Adaptation）に関する技術が利用されている。ドメイン適応は、十分な訓練データを有するソースドメインから得られた知識を、目標であるターゲットドメイン（目標ドメイン）に適用することで、ターゲットドメインにおいて高い精度で働く識別器などを生成する。ここで、ドメインとは、例えばデータの集まりを示す。

例えば、自然言語処理の分野においては、ソースドメインを用いて生成された事前学習言語モデル（Pretrained Language Model）をターゲットドメイン側に適用する際に、ターゲットドメイン側の訓練データを用いて事前学習言語モデルの再訓練が行われる。

特開２０１６－０２４７５９号公報特開２０１６－１６２３０８号公報

しかしながら、ドメイン側の訓練データを用いて機械学習モデルを再訓練した場合に、不適切な訓練データが含まれることがあり、再訓練後の機械学習モデルの精度が劣化することがある。例えば、ターゲットドメイン内には様々なサブドメインに属する訓練データが含まれており、特定のサブドメインに適用する機械学習モデルの再訓練を実行する場合、ターゲットドメインから該当する訓練データを選択することが行われる。しかし、この選択が正確ではないと、様々なサブドメインの訓練データが含まれてしまい、機械学習モデルの精度が劣化する。

一つの側面では、機械学習モデルの精度劣化を抑制することができる機械学習プログラム、機械学習方法および情報処理装置を提供することを目的とする。

第１の案では、機械学習プログラムは、複数の文章のそれぞれから、固有表現と前記固有表現と依存関係を有する動詞とを特定し、前記固有表現と前記固有表現と依存関係を有する動詞とに基づいて、前記複数の文章のそれぞれをベクトル化し、前記ベクトル化の処理により生成された複数のベクトルに基づいて、前記複数の文章のうち、特定の文章と閾値以上類似する一又は複数の文章を特定し、前記一又は複数の文章に基づいて、機械学習モデルの訓練を実行する、処理をコンピュータに実行させる。

一実施形態によれば、機械学習モデルの精度劣化を抑制することができる。

図１は、実施例１にかかる情報処理装置を説明する図である。図２は、実施例１にかかる情報処理装置の機能構成を示す機能ブロック図である。図３は、コーパスデータＤＢに記憶される情報の例を示す図である。図４は、文章の固有表現と動詞のセットの特定例を説明する図である。図５は、各文章における動詞セットのsyntactic representationを算出する例を説明する図である。図６は、文章のsyntactic representationを算出する例を説明する図である。図７は、コーパスデータの選択例を説明する図である。図８は、コーパスデータを用いた訓練を説明する図である。図９は、機械学習モデルの訓練処理の流れを示すフローチャートである。図１０は、ハードウェア構成例を説明する図である。

以下に、本願の開示する機械学習プログラム、機械学習方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。

図１は、実施例１にかかる情報処理装置１０を説明する図である。図１に示す情報処理装置１０は、あるタスクに適用する機械学習モデルを生成する際に、コーパスデータに含まれるデータから適切なデータを抽出し、抽出したデータを訓練データに用いた機械学習により機械学習モデルを生成する。

ここで、本実施例では、一例として、機械学習モデルのドメイン適応時を例にして説明するが、機械学習モデルの生成時など他のシチュエーションにも適用することができる。具体的には、情報処理装置１０が、ソースドメインのデータを訓練データに用いて生成された機械学習モデルを、複数のサブドメイン１、２、３を含むターゲットドメイン（Target Domain）から適切なサブドメイン３のデータを用いた再訓練により、機械学習モデルをドメイン適応させる例で説明する。

ここで、ドメイン適応としては、Bag－of－Words（BoW）に基づいた２つの文書（sentence）間の類似度に基づき、ドメイン適応のために使用する訓練データを選択する手法が利用されることが多い。しかし、この手法では、類似度を計算するとき、文章の固有表現（Named Entity）と動詞のsyntactic情報を考慮してないので、データ選択が十分ではなく、ドメイン適応後の機械学習モデルの精度がよくないことがある。

例えば、機械学習モデルをバイオメディカルサブドメインへドメイン適応させる例を考える。すなわち、ダウンストリームタスク（Downstream Task）にバイオメディカルサブドメインの固有表現抽出（NER：Named Entity Recognition）だけを行う例を考える。「Lactococcus lactis」のような単語は、バイオメディカルサブドメインにもニュースサブドメインにも使用される単語であることから、両方のサブドメインがドメイン適応用のコーパスデータ（訓練データ）として選択される。この結果、機械学習モデルは、バイオメディカルサブドメインにもニュースサブドメインにも適用するように訓練されるので、バイオメディカルサブドメインのデータ（ダウンストリームタスク）への精度が低下する。

そこで、実施例１にかかる情報処理装置１０は、文章に登場する固有表現と動詞との組合せに基づくsyntactic情報を用いて、ドメイン適応の訓練データを選択することで、機械学習モデルの精度劣化を抑制する。

具体的には、情報処理装置１０は、ターゲットドメインに含まれる複数の文章のそれぞれから、固有表現と、固有表現と依存関係を有する動詞とを特定する。続いて、情報処理装置１０は、固有表現と固有表現と依存関係を有する動詞とに基づいて、複数の文章のそれぞれをベクトル化する。そして、情報処理装置１０は、ベクトル化の処理により生成された複数のベクトルに基づいて、複数の文章のうち、ダウンストリームタスクに該当する特定の文章と閾値以上類似する一又は複数の文章を特定する。その後、情報処理装置１０は、一又は複数の文章に基づいて、機械学習モデルの訓練により機械学習モデルのドメイン適応を実行する。

例えば、情報処理装置１０は、各文章の比較対象として、固有表現と動詞との組合せにより得られるベクトル（ベクトルデータ）を生成する。そして、情報処理装置１０は、各文章のベクトルを比較することで、ダウンストリームタスクの文章のベクトルと類似する文書を、ドメイン適応用の訓練データとして選択する。その後、情報処理装置１０は、選択した訓練データ（文書）を用いて、機械学習モデルの再訓練を実行する。

このように、情報処理装置１０は、ダウンストリームタスクの文章の特徴量をベクトル化し、ベクトル値を用いた類似度判定により、ドメイン適応用の訓練データとして選択して再訓練を実行するので、ドメイン適応後の機械学習モデルの精度劣化を抑制することができる。

図２は、実施例１にかかる情報処理装置１０の機能構成を示す機能ブロック図である。図２に示すように、情報処理装置１０は、通信部１１、記憶部１２、制御部２０を有する。

通信部１１は、他の装置との間の通信を制御する。例えば、通信部１１は、管理者端末などから、ソースドメインを用いて生成された機械学習モデルを取得し、管理者端末などに、制御部２０により処理結果を送信する。

記憶部１２は、各種データや制御部２０が実行するプログラムなどを記憶する。この記憶部１２は、事前学習言語モデル１３、タスクＤＢ１４、コーパスデータＤＢ１５、言語モデル１６を記憶する。

事前学習言語モデル１３は、ソースドメインに属する訓練データを用いて生成された機械学習モデルである。例えば、事前学習言語モデル１３は、ドメイン適応対象の機械学習モデルであって、固有表現抽出を実行する機械学習モデルの一例であり、例えば文章をベクトル表現に変換する。

タスクＤＢ１４は、ドメイン適応後の機械学習モデルが判定対象とするタスクに該当する少なくとも１つの文章を記憶するデータベースである。すなわち、タスクＤＢ１４に記憶される文章は、上記ダウンストリームタスクや特定の文章に対応する。例えば、タスクＤＢ１４は、バイオメディカルサブドメインに属する文章を記憶する。

コーパスデータＤＢ１５は、事前学習言語モデル１３のドメイン適応に利用する文章を記憶するデータベースである。このコーパスデータＤＢ１５は、ターゲットドメインに対応する複数のサブドメインに区分された文章を記憶する。図３は、コーパスデータＤＢ１５に記憶される情報の例を示す図である。図３に示すように、コーパスデータＤＢ１５は、ニュースサブドメインに属する文章、バイオメディカルサブドメインに属する文章、スポーツサブドメインに属する文章などを記憶する。

言語モデル１６は、ドメイン適用後の言語モデルである。すなわち、言語モデル１６は、情報処理装置１０により最終的に生成されるＮＥＲ用の機械学習モデルである。上記例で説明すると、言語モデル１６は、事前学習言語モデル１３をダウンストリームタスクにドメイン適応させた機械学習モデルである。

制御部２０は、情報処理装置１０全体を司る処理部であり、特定部２１、ベクトル化処理部２２、選択部２３、訓練部２４を有する。

特定部２１は、複数の文章のそれぞれから、固有表現と固有表現と依存関係を有する動詞とを特定する。例えば、特定部２１は、タスクＤＢ１４に記憶されるダウンストリームタスクに該当する各文章、および、コーパスデータＤＢ１５に記憶されるターゲットドメインに属する各文章を対象に、固有表現と固有表現と依存関係を有する動詞とを特定する。ここで、依存関係としては、例えば距離や予め想定しておいた組合せなどを採用することができる。例えば、特定部２１は、固有表現と最も近い位置に出現する動詞を特定し、固有表現と動詞との組合せを生成する。

ベクトル化処理部２２は、固有表現と固有表現と依存関係を有する動詞とに基づいて、複数の文章のそれぞれをベクトル化する。具体的には、ベクトル化処理部は、ダウンストリームタスクに該当する各文章について、特定部２１により特定された各組合せをベクトル化することで、各文章をベクトル化する。また、ベクトル化処理部は、ターゲットドメインに属する各文章について、特定部２１により特定された各組合せをベクトル化することで、各文章をベクトル化する。なお、ベクトル化の一例については、後述する。

選択部２３は、ベクトル化処理部２２によるベクトル化の処理により生成された複数のベクトルに基づいて、ターゲットドメインに属する各文章のうち、ダウンストリームタスクと閾値以上類似する一又は複数の文章を特定する。すなわち、選択部２３は、ドメイン適応に適した文章を選択する。

訓練部２４は、選択部２３により選択された一又は複数の文章に基づいて、事前学習言語モデル１３の機械学習を実行する。すなわち、訓練部２４は、選択部２３により選択されたターゲットドメインの文書を用いて、事前学習言語モデル１３の機械学習を実行することにより、ドメイン適応された言語モデル１６を生成する。そして、訓練部２４は、生成した言語モデル１６を記憶部１２に格納する。

ここで、上述したドメイン適応の処理を具体的に説明する。図４は、文章の固有表現と動詞のセットの特定例を説明する図である。なお、一例として、ダウンストリームタスクに属する文書で説明するが、ターゲットドメインに属する各文書についても同様の処理が実行される。

図４に示すように、特定部２１は、文章１「the force－distance curves were analyzed to determine the physical and nanomechanical properties of L. lactis pili.」に形態素解析など実行する。そして、特定部２１は、固有表現として、「the force－distance」、「L. lactis pili.」、「the physical and nanomechanical properties」を抽出する。同様に、特定部２１は、動詞として、「curves」、「analyzed」、「determine」を特定する。

次に、ベクトル化処理部２２は、固有表現と動詞のセットを用いて、文書をベクトル化する。具体的には、ベクトル化処理部２２は、特定部２１により特定された固有表現とその固有表現に最も近い動詞とのセットをベクトル化して、「syntactic representation」を算出する。

図５は、各文章における動詞セットのsyntactic representationを算出する例を説明する図であり、図６は、文章のsyntactic representationを算出する例を説明する図である。

図５に示すように、ベクトル化処理部２２は、各固有表現と各動詞との出現位置にしたがって、一番近い動詞セット（組合せ）として、組合せ１「the force－distance、curves」、組合せ２「L. lactis pili.，determine」、組合せ３「the physical and nanomechanical properties，determine」を特定する。そして、ベクトル化処理部２２は、生成済みである機械学習モデルの一例である「word embedding architecture」に、各組合せ１～３それぞれを入力し、ベクトル表現（ベクトルデータ）であるemb（組合せ１）、emb（組合せ２）、emb（組合せ３）を生成する。

このようにして、ベクトル化処理部２２は、文章１「the force－distance curves were analyzed to determine the physical and nanomechanical properties of L. lactis pili.」に対して、ベクトル表現「emb（組合せ１）、emb（組合せ２）、emb（組合せ３）」を生成する。

その後、ベクトル化処理部２２は、文章１全体の統合的なベクトル表現を生成する。図６に示すように、例えば、ベクトル化処理部２２は、emb（組合せ１）、emb（組合せ２）、emb（組合せ３）それぞれの類似度を算出し、その類似度の平均値を「syntactic representation」として算出する。なお、類似度の算出には、コサイン類似度やユークリッド距離などの公知の算出手法を採用することができる。また、類似度の平均値に限らず、ベクトル表現の平均値（平均ベクトル）や合計値でもよい。

次に、選択部２３は、ベクトル化処理部２２により生成された各文書の「syntactic representation」の類似度により、ドメイン適応用のコーパスデータを選択する。

図７は、コーパスデータの選択例を説明する図である。図７に示すように、ベクトル化処理部２２は、ダウンストリームタスクに属する「文書１、文書２、文書３」のそれぞれについて、上記「syntactic representation」を算出する。同様に、ベクトル化処理部２２は、ターゲットドメインに属する「文書Ａ、文書Ｂ、文書Ｃ・・・」のそれぞれについて、上記「syntactic representation」を算出する。

そして、選択部２３は、ダウンストリームタスクに属する「文書１、文書２、文書３」のそれぞれの「syntactic representation」と、ターゲットドメインに属する各文書の「syntactic representation」の類似度を算出する。なお、類似度の算出には、コサイン類似度やユークリッド距離などの公知の算出手法を採用することができる。

続いて、選択部２３は、ターゲットドメインの文書Ａに対するダウンストリームタスクに属する各文書（文書１、文書２、文書３）の類似度の平均値を算出する。すなわち、選択部２３は、ターゲットドメインの文書Ａと文書１との類似度、文書Ａと文書２との類似度、文書Ａと文書３との類似度を算出する。そして、選択部２３は、文書Ａに対して、各類似度の平均値を算出する。

同様に、選択部２３は、ターゲットドメインの文書Ｂに対するダウンストリームタスクに属する各文書（文書１、文書２、文書３）の類似度の平均値を算出し、ターゲットドメインの文書Ｃに対するダウンストリームタスクに属する各文書（文書１、文書２、文書３）の類似度の平均値を算出する。その後、選択部２３は、ターゲットドメインの各文書のうち、平均値が高い上位ｋ個の文書（文書Ａ・・・文書Ｌ）を選択して、新たなコーパスデータを生成する。

次に、訓練部２４は、選択部２３により選択された文書を用いて、機械学習モデルの訓練を実行する。図８は、コーパスデータを用いた訓練を説明する図である。図８に示すように、訓練部２４は、新たなコーパスデータである上位ｋ個の文書を用いて、事前学習言語モデル１３の再訓練を実行して、ドメイン適応後の言語モデル１６を生成する。

なお、訓練手法は、ＮＥＲに用いる機械学習モデルに対する公知の訓練手法を採用することができる。例えば、訓練部２４は、ダウンストリームタスクが「バイオメディカルドメイン」の場合、選択された各文書の固有表現を抽出してベクトル化し、文書から得られた各ベクトル表現にラベル「バイオメディカルドメイン」を付与する。そして、訓練部２４は、各ベクトルを事前学習言語モデル１３に入力して、事前学習言語モデル１３が各固有表現を「バイオメディカルドメイン」の固有表現と認識するように、事前学習言語モデル１３の訓練を実行して、ダウンストリームタスクのドメインに適応した言語モデル１６を生成する。

次に、上述した処理の流れを説明する。図９は、機械学習モデルの訓練処理の流れを示すフローチャートである。図９に示すように、特定部２１は、ダウンストリームタスクを選択する（Ｓ１０１）。例えば、特定部２１は、管理者の指示やスケジュール等にしたがって、ダウンストリームタスクの文章を１つ以上選択する。

そして、ベクトル化処理部２２は、各ダウンストリームタスクの文章について、「syntactic representation」を算出する（Ｓ１０２）。例えば、ベクトル化処理部２２は、特定部２１により特定された固有表現とその固有表現に最も近い動詞とのセットをベクトル化して、「syntactic representation」を算出する。

また、特定部２１は、ターゲットドメインの各文章を選択する（Ｓ１０３）。例えば、特定部２１は、ターゲットドメインに各サブドメインに関係なく、ターゲットドメインに属する各文章を選択する。

そして、ベクトル化処理部２２は、ターゲットドメインの各文章について、「syntactic representation」を算出する（Ｓ１０４）。例えば、ベクトル化処理部２２は、特定部２１により特定された固有表現とその固有表現に最も近い動詞とのセットをベクトル化して、「syntactic representation」を算出する。

その後、選択部２３は、ターゲットドメインに属する各文書について、ダウンストリームタスクの各文書との類似度の平均値を算出する（Ｓ１０５）。例えば、選択部２３は、ターゲットドメインに属する各文書の「syntactic representation」とダウンストリームタスクに属する各文書の各「syntactic representation」との類似度を算出する。そして、選択部２３は、ターゲットドメインに属する各文書について、類似度の平均値を算出する。

そして、選択部２３は、ターゲットドメインに属する各文書から、類似度が高い上位ｋ個の文章を選択する（Ｓ１０６）。その後、訓練部２４は、上記ｋ個の文章を訓練データとして、言語モデルを生成する（Ｓ１０７）。

上述したように、情報処理装置１０は、ターゲットドメインから適切な文章を選択し、その文章を用いたドメイン適応により機械学習モデルを生成することができるので、その機械学習モデルを用いることにより、ダウンストリームタスクをより正確に判定することができる。また、情報処理装置１０は、不要な訓練データを用いた訓練を抑制できるので、ドメイン適応にかかる時間を短縮することができる。

また、情報処理装置１０は、固有表現を用いて文章をベクトル化し、文章の特徴量を抽出し、特徴量によりドメイン適応の文章を選択する各ステップ（処理）を実行することで、ダウンストリームタスクに適応した機械学習モデルを生成することができる結果、ダウンストリームタスクをより正確に判定することができる。

また、情報処理装置１０は、固有表現に一番近い動詞を特定し、固有表現と動詞とのセットに基づいたベクトルを生成することができるので、文書の特徴を表すベクトル表現の精度を向上することができる。この結果、情報処理装置１０は、正確なベクトル表現を用いて類似文書を選択できるので、高精度の機械学習モデルを生成することができる。

また、情報処理装置１０は、固有表現を用いて文章をベクトル化し、文章の特徴量を抽出し、特徴量によりドメイン適応の文章を選択する各ステップ（処理）を実行するアプリケーションを提供することもできる。また、情報処理装置１０は、上記ステップにさらに、ダウンストリームタスクに適応した機械学習モデルを生成するまでを含めたアプリケーションを提供することもできる。

上記実施例で用いたデータ例、上記ｋ（ｋは任意の整数）個、数値例、ドメイン数、ドメイン例、文章、具体例等は、あくまで一例であり、任意に変更することができる。

上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

図１０は、ハードウェア構成例を説明する図である。図１０に示すように、情報処理装置１０は、通信装置１０ａ、ＨＤＤ（Hard Disk Drive）１０ｂ、メモリ１０ｃ、プロセッサ１０ｄを有する。また、図１０に示した各部は、バス等で相互に接続される。

通信装置１０ａは、ネットワークインタフェースカードなどであり、他の装置との通信を行う。ＨＤＤ１０ｂは、図５に示した機能を動作させるプログラムやＤＢを記憶する。

プロセッサ１０ｄは、図２に示した各処理部と同様の処理を実行するプログラムをＨＤＤ１０ｂ等から読み出してメモリ１０ｃに展開することで、図２等で説明した各機能を実行するプロセスを動作させる。例えば、このプロセスは、情報処理装置１０が有する各処理部と同様の機能を実行する。具体的には、プロセッサ１０ｄは、特定部２１、ベクトル化処理部２２、選択部２３、訓練部２４等と同様の機能を有するプログラムをＨＤＤ１０ｂ等から読み出す。そして、プロセッサ１０ｄは、特定部２１、ベクトル化処理部２２、選択部２３、訓練部２４等と同様の処理を実行するプロセスを実行する。

このように、情報処理装置１０は、プログラムを読み出して実行することで機械学習方法を実行する情報処理装置として動作する。また、情報処理装置１０は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、情報処理装置１０によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。

このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＭＯ（Magneto－Optical disk）、ＤＶＤ（Digital Versatile Disc）などのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することができる。

１０情報処理装置
１１通信部
１２記憶部
１３事前学習言語モデル
１４タスクＤＢ
１５コーパスデータＤＢ
１６言語モデル
２０制御部
２１特定部
２２ベクトル化処理部
２３選択部
２４訓練部

Claims

特定の文書から、固有表現と前記固有表現と依存関係を有する動詞との組合せである複数の第１の組合せを特定し、複数の文章のそれぞれから、固有表現と前記固有表現と依存関係を有する動詞との組合せである複数の第２の組合せを特定し、
前記複数の第１の組合せそれぞれをベクトル化した複数の第１のベクトル値と、前記複数の第２の組合せそれぞれをベクトル化した複数の第２のベクトル値とを生成し、
前記特定の文書に対応する前記複数の第１のベクトル値それぞれの類似度の平均値である第１の平均値と、前記複数の文章それぞれに対応する、前記複数の第２のベクトル値それぞれの類似度の平均値である複数の第２の平均値とを算出し、
前記複数の文章それぞれに対応する前記複数の第２の平均値のうち、前記特定の文書の前記第１の平均値との類似度が閾値以上である前記第２の平均値を特定し、
前記複数の文章のうち、特定された前記第２の平均値に対応する一又は複数の文章を特定し、
前記一又は複数の文章に基づいて、機械学習モデルの訓練を実行する、
処理をコンピュータに実行させることを特徴とする機械学習プログラム。
前記特定する処理は、
前記特定の文章に含まれる動詞のうち、前記固有表現と依存関係を有する動詞として、前記固有表現からの距離が最も近い動詞を特定し、前記固有表現と前記距離が最も近い動詞との組合せを前記第１の組合せとして特定し、
前記複数の文章に含まれる動詞のうち、前記固有表現と依存関係を有する動詞として、前記固有表現からの距離が最も近い動詞を特定し、前記固有表現と前記距離が最も近い動詞との組合せを前記第２の組合せとして特定する、
ことを特徴とする請求項１に記載の機械学習プログラム。
特定の文書から、固有表現と前記固有表現と依存関係を有する動詞との組合せである複数の第１の組合せを特定し、複数の文章のそれぞれから、固有表現と前記固有表現と依存関係を有する動詞との組合せである複数の第２の組合せを特定し、
前記複数の第１の組合せそれぞれをベクトル化した複数の第１のベクトル値と、前記複数の第２の組合せそれぞれをベクトル化した複数の第２のベクトル値とを生成し、
前記特定の文書に対応する前記複数の第１のベクトル値それぞれの類似度の平均値である第１の平均値と、前記複数の文章それぞれに対応する、前記複数の第２のベクトル値それぞれの類似度の平均値である複数の第２の平均値とを算出し、
前記複数の文章それぞれに対応する前記複数の第２の平均値のうち、前記特定の文書の前記第１の平均値との類似度が閾値以上である前記第２の平均値を特定し、
前記複数の文章のうち、特定された前記第２の平均値に対応する一又は複数の文章を特定し、
前記一又は複数の文章に基づいて、機械学習モデルの訓練を実行する、
処理をコンピュータが実行することを特徴とする機械学習方法。
特定の文書から、固有表現と前記固有表現と依存関係を有する動詞との組合せである複数の第１の組合せを特定し、複数の文章のそれぞれから、固有表現と前記固有表現と依存関係を有する動詞との組合せである複数の第２の組合せを特定し、
前記複数の第１の組合せそれぞれをベクトル化した複数の第１のベクトル値と、前記複数の第２の組合せそれぞれをベクトル化した複数の第２のベクトル値とを生成し、
前記特定の文書に対応する前記複数の第１のベクトル値それぞれの類似度の平均値である第１の平均値と、前記複数の文章それぞれに対応する、前記複数の第２のベクトル値それぞれの類似度の平均値である複数の第２の平均値とを算出し、
前記複数の文章それぞれに対応する前記複数の第２の平均値のうち、前記特定の文書の前記第１の平均値との類似度が閾値以上である前記第２の平均値を特定し、
前記複数の文章のうち、特定された前記第２の平均値に対応する一又は複数の文章を特定し、
前記一又は複数の文章に基づいて、機械学習モデルの訓練を実行する、
制御部を有することを特徴とする情報処理装置。