Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7619576B2 - Information processing device and information processing method - Google Patents
[go: Go Back, main page]

JP7619576B2 - Information processing device and information processing method - Google Patents

Information processing device and information processing method Download PDF

Info

Publication number
JP7619576B2
JP7619576B2 JP2023032994A JP2023032994A JP7619576B2 JP 7619576 B2 JP7619576 B2 JP 7619576B2 JP 2023032994 A JP2023032994 A JP 2023032994A JP 2023032994 A JP2023032994 A JP 2023032994A JP 7619576 B2 JP7619576 B2 JP 7619576B2
Authority
JP
Japan
Prior art keywords
video
training
frame
image
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023032994A
Other languages
Japanese (ja)
Other versions
JP2024124970A (en
Inventor
寛貴 宅島
隆之 堀
裕真 鈴木
秀明 岡本
隼人 田之上
一也 植木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SoftBank Corp
Meisei Gakuen
Original Assignee
SoftBank Corp
Meisei Gakuen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SoftBank Corp, Meisei Gakuen filed Critical SoftBank Corp
Priority to JP2023032994A priority Critical patent/JP7619576B2/en
Publication of JP2024124970A publication Critical patent/JP2024124970A/en
Application granted granted Critical
Publication of JP7619576B2 publication Critical patent/JP7619576B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理装置及び情報処理方法に関する。 The present invention relates to an information processing device and an information processing method.

従来、動画からキャプション(キャプション文ともいう。以下、「動画説明文」と記載する。)を生成する技術が知られている。例えば、画像に含まれる要素を単語として出力する多層式のニューラルネットワークに監視カメラで撮影された動画を入力し、動画の説明文を生成する技術が知られている。 Conventionally, there is known technology for generating captions (also called caption text, hereinafter referred to as "video description text") from videos. For example, a technology is known in which a video captured by a surveillance camera is input to a multi-layer neural network that outputs elements contained in an image as words, and a description of the video is generated.

特開2018-101317号公報JP 2018-101317 A

しかしながら、上記の従来技術では、画像に含まれる要素を単語として出力する多層式のニューラルネットワークに監視カメラで撮影された動画を入力し、動画の説明文を生成するにすぎないため、注目するフレーム画像に応じた多様な動画説明文を生成可能とすることができるとは限らない。 However, the above-mentioned conventional technology simply inputs video captured by a surveillance camera into a multi-layer neural network that outputs elements contained in the image as words, and generates a description of the video, so it is not necessarily possible to generate a variety of video descriptions that correspond to the frame images of interest.

本願は、注目するフレーム画像に応じた多様な動画説明文を生成可能とすることができる情報処理装置及び情報処理方法を提供することを目的とする。 The present application aims to provide an information processing device and information processing method that can generate a variety of video descriptions according to a frame image of interest.

本願に係る情報処理装置は、撮像画像と前記撮像画像の内容を説明する文章である画像説明文との組を含む画像文データセットに基づいて、学習用動画を生成する動画生成部と、前記学習用動画を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量を抽出する抽出部と、前記学習用動画を構成する複数のフレーム画像それぞれに対応する重みである学習用重みを決定する決定部と、前記学習用フレーム特徴量と前記学習用重みとに基づいて、前記学習用動画の内容を説明する文章である学習用動画説明文であって、前記学習用重みによって重み付けされた前記学習用フレーム特徴量と対応する特徴を有する前記学習用動画説明文を生成するように学習された機械学習モデルである文章生成モデルを生成するモデル生成部と、を備える。 The information processing device according to the present application includes a video generation unit that generates a training video based on an image and text dataset including a pair of a captured image and an image description that is a text that describes the content of the captured image, an extraction unit that extracts training frame features that are features of each of a plurality of frame images that constitute the training video, a determination unit that determines training weights that are weights corresponding to each of a plurality of frame images that constitute the training video, and a model generation unit that generates a text generation model that is a machine learning model trained to generate training video descriptions that are text that describes the content of the training video, the training video descriptions having features that correspond to the training frame features weighted by the training weights, based on the training frame features and the training weights.

また、本願に係る情報処理装置は、撮像画像と前記撮像画像の内容を説明する文章である画像説明文との組を含む画像文データセットに基づいて生成された学習用動画を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量と、前記学習用動画を構成する複数のフレーム画像それぞれに対応する重みである学習用重みとに基づいて、前記学習用動画の内容を説明する文章である学習用動画説明文であって、前記学習用重みによって重み付けされた前記学習用フレーム特徴量と対応する特徴を有する前記学習用動画説明文を生成するように学習された機械学習モデルである文章生成モデルを取得する取得部と、処理対象の動画である対象動画を構成する複数のフレーム画像それぞれの特徴量である対象フレーム特徴量を抽出する抽出部と、前記対象動画を構成する複数のフレーム画像のうち、利用者によって指定された指定フレーム画像に対応する重みを前記指定フレーム画像以外の他のフレーム画像に対応する重みよりも大きくするように前記複数のフレーム画像それぞれに対応する重みである対象重みを決定する決定部と、前記対象フレーム特徴量と前記対象重みとに基づいて、前記対象重みによって重み付けされた前記対象フレーム特徴量を前記文章生成モデルに入力して、前記対象動画の内容を説明する文章である対象動画説明文を生成する文章生成部と、を備える。 The information processing device according to the present application also includes an acquisition unit that acquires a sentence generation model that is a machine learning model trained to generate a learning video description that is a sentence that describes the content of a learning video, the learning video description having features corresponding to the learning frame features weighted by the learning weights, based on learning frame features that are features of each of a plurality of frame images that constitute a learning video generated based on an image and text dataset including a pair of a captured image and an image description that is a sentence that describes the content of the captured image, and learning weights that are weights corresponding to each of the plurality of frame images that constitute the learning video; an extraction unit that extracts target frame features that are features of each of a plurality of frame images that constitute a target video that is a video to be processed; a determination unit that determines target weights that are weights corresponding to each of the plurality of frame images among the plurality of frame images that constitute the target video, such that the weight corresponding to a designated frame image designated by a user is greater than the weights corresponding to other frame images other than the designated frame image; and a sentence generation unit that inputs the target frame features weighted by the target weights to the sentence generation model based on the target frame features and the target weights to generate a target video description that is a sentence that describes the content of the target video.

実施形態の一態様によれば、注目するフレーム画像に応じた多様な動画説明文を生成可能とすることができる。 According to one aspect of the embodiment, it is possible to generate a variety of video descriptions according to the frame image of interest.

図1は、実施形態に係る情報処理装置の構成例を示す図である。FIG. 1 is a diagram illustrating an example of the configuration of an information processing apparatus according to an embodiment. 図2は、実施形態に係る事前学習方法に関する情報処理の一例を示す図である。FIG. 2 is a diagram illustrating an example of information processing related to the pre-learning method according to the embodiment. 図3は、実施形態に係る第1の追加学習方法に関する情報処理の一例を示す図である。FIG. 3 is a diagram illustrating an example of information processing related to the first additional learning method according to the embodiment. 図4は、実施形態に係る重みによってフレーム特徴量を重み付けする方法について説明するための図である。FIG. 4 is a diagram for explaining a method of weighting a frame feature amount by a weight according to the embodiment. 図5は、実施形態に係る第2の追加学習方法に関する情報処理の一例を示す図である。FIG. 5 is a diagram illustrating an example of information processing related to the second additional learning method according to the embodiment. 図6は、実施形態に係る類似度を算出する方法について説明するための図である。FIG. 6 is a diagram for explaining a method for calculating a similarity according to the embodiment. 図7は、実施形態に係る推論方法に関する情報処理の一例を示す図である。FIG. 7 is a diagram illustrating an example of information processing related to the inference method according to the embodiment. 図8は、実施形態に係る文章生成モデルの一例である条件付き敵対的生成ネットワーク(CGAN)を示す図である。FIG. 8 is a diagram illustrating a conditional generative adversarial network (CGAN) that is an example of a sentence generation model according to the embodiment. 図9は、第1の変形例に係る文章生成モデルの一例である条件付き変分オートエンコーダ(CVAE)を示す図である。FIG. 9 is a diagram illustrating a conditional variational autoencoder (CVAE) which is an example of a sentence generation model according to the first modified example. 図10は、第2の変形例に係る文章生成モデルの一例である条件付き拡散モデルを示す図である。FIG. 10 is a diagram showing a conditional diffusion model, which is an example of a sentence generation model according to the second modified example. 図11は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。FIG. 11 is a hardware configuration diagram illustrating an example of a computer that realizes the functions of the information processing device.

以下に、本願に係る情報処理装置及び情報処理方法を実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置及び情報処理方法が限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。 Below, a detailed description will be given of a form for implementing the information processing device and information processing method according to the present application (hereinafter, referred to as an "embodiment") with reference to the drawings. Note that the information processing device and information processing method according to the present application are not limited to this embodiment. Furthermore, the same components in each of the following embodiments are given the same reference numerals, and duplicated descriptions will be omitted.

(実施形態)
〔1.はじめに〕
従来、動画から動画の内容を説明する文章である動画説明文を生成する技術が知られている。例えば、動画から動画説明文を生成する機械学習モデルが知られている。ここで、動画から動画説明文を生成する機械学習モデルによって生成される動画説明文は、動画内のどの範囲に注目するかによってその内容が異なることが知られている。
(Embodiment)
1. Introduction
Conventionally, a technique for generating a video description, which is a text that explains the contents of a video, from a video is known. For example, a machine learning model that generates a video description from a video is known. Here, it is known that the content of the video description generated by the machine learning model that generates a video description from a video varies depending on which part of the video is focused on.

また、近年、生成モデルに関する技術が知られている。生成モデルとは、データ生成のプロセスをモデル化したものである。生成モデルは、学習用データを学習し、学習用データに似たデータを生成することができる機械学習モデルである。また、条件付き生成モデルに関する技術が知られている。条件付き生成モデルは、条件を変えることによってデータ生成のプロセスを変化させ、多様で高品質なデータを生成することができる機械学習モデルである。 In recent years, technology related to generative models has become known. A generative model is a model of the data generation process. A generative model is a machine learning model that can learn from training data and generate data similar to the training data. Technology related to conditional generative models has also become known. A conditional generative model is a machine learning model that can change the data generation process by changing the conditions, and generate diverse, high-quality data.

ここで、条件付き生成モデルにおける条件とは、条件付き生成モデルによって生成される生成対象データの特徴が満たすべき条件のことを指す。言い換えると、ここでの条件とは、条件付き生成モデルによって生成される生成対象データの種類や属性(例えば、生成対象データに現れる特徴の種類や属性など)に関する条件のことを指す。例えば、条件付き生成モデルによって生成される生成対象データが画像である場合、条件とは、画像に含まれる対象物の属性や種別を示す情報であってよい。具体的には、条件付き生成モデルに条件として入力されるベクトルである条件ベクトルを入力情報として条件付き生成モデルに入力することにより、条件ベクトルと対応する特徴を有するデータが生成可能となる。例えば、条件ベクトルは、条件を示す情報に対応するベクトルであってよい。 Here, the conditions in a conditional generative model refer to conditions that must be satisfied by the features of the target data generated by the conditional generative model. In other words, the conditions here refer to conditions related to the type and attributes of the target data generated by the conditional generative model (e.g., the type and attributes of features appearing in the target data). For example, if the target data generated by the conditional generative model is an image, the conditions may be information indicating the attributes and type of objects contained in the image. Specifically, by inputting a condition vector, which is a vector input as a condition to the conditional generative model, into the conditional generative model as input information, data having features corresponding to the condition vector can be generated. For example, the condition vector may be a vector corresponding to information indicating the condition.

例えば、条件付き生成モデルの一例として、Conditional GAN(CGAN)(参考文献;論文名“Conditional Generative Adversarial Nets“,<インターネット>https://arxiv.org/pdf/1411.1784.pdf(令和5年2月16日検索))が知られている。CGANは、条件付き敵対的生成ネットワークとも呼ばれ、ノイズから特定のデータを生成するGAN(敵対的生成ネットワーク)に対して条件を与えられるように改良された機械学習モデルである。 For example, one example of a conditional generative model is the Conditional GAN (CGAN) (Reference: Paper title "Conditional Generative Adversarial Nets", <Internet> https://arxiv.org/pdf/1411.1784.pdf (Retrieved February 16, 2023)). CGAN is also called a conditional generative adversarial network, and is a machine learning model that has been improved to allow conditions to be given to GAN (generative adversarial network), which generates specific data from noise.

また、条件付き生成モデルの一例として、Conditional Variational Auto Encoder(CVAE)(参考文献;論文名“Semi-supervised Learning with Deep Generative Models “,<インターネット>https://proceedings.neurips.cc/paper/2014/file/d523773c6b194f37b938d340d5d02232-Paper.pdf(令和5年2月16日検索))が知られている。CVAEは、条件付き変分オートエンコーダとも呼ばれ、潜在表現に従ってデータを生成するVAE(変分オートエンコーダ)に対して条件を与えられるように改良された機械学習モデルである。 Another example of a conditional generative model is the Conditional Variational Auto Encoder (CVAE) (reference: Paper title: "Semi-supervised Learning with Deep Generative Models", <Internet> https://proceedings.neurips.cc/paper/2014/file/d523773c6b194f37b938d340d5d02232-Paper.pdf (searched February 16, 2023)). CVAE is also called a conditional variational autoencoder, and is a machine learning model that has been improved to allow conditions to be given to a VAE (variational autoencoder), which generates data according to a latent representation.

また、条件付き生成モデルの一例として、Diffusion Model(参考文献;論文名“Denoising Diffusion Probabilistic Models “,<インターネット>https://arxiv.org/pdf/2006.11239.pdf(令和5年2月16日検索))が知られている。Diffusion Modelは、ノイズから少しずつデータを復元する過程を学習する。Diffusion Modelは、一般的には拡散モデルと呼ばれているが、応用的な利用方法として、条件を与えたデータの生成が可能である。 The Diffusion Model (reference: Paper title: "Denoising Diffusion Probabilistic Models", <Internet> https://arxiv.org/pdf/2006.11239.pdf (searched February 16, 2023)) is known as an example of a conditional generative model. The Diffusion Model learns the process of gradually restoring data from noise. The Diffusion Model is generally called the diffusion model, but in practical applications it is possible to generate data with conditions given to it.

また、条件付き生成モデルのその他の例として、GLIDE(参考文献;論文名“GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models “,<インターネット>https://arxiv.org/pdf/2112.10741.pdf(令和5年2月16日検索))、DALL-E 2 unCLIP(参考文献;論文名“Hierarchical Text-Conditional Image Generation with CLIP Latents “,<インターネット>https://arxiv.org/pdf/2204.06125.pdf(令和5年2月16日検索))、Imagen(参考文献;論文名“Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding “,<インターネット>https://arxiv.org/pdf/2205.11487.pdf(令和5年2月16日検索))、Parti(参考文献;論文名“Scaling Autoregressive Models for Content-Rich Text-to-Image Generation “,<インターネット>https://arxiv.org/pdf/2206.10789.pdf(令和5年2月16日検索))が知られている。 Other examples of conditional generative models include GLIDE (reference: paper title “GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models”, <Internet> https://arxiv.org/pdf/2112.10741.pdf (searched February 16, 2023)), DALL-E 2 unCLIP (reference: paper title “Hierarchical Text-Conditional Image Generation with CLIP Latents”, <Internet> https://arxiv.org/pdf/2204.06125.pdf (searched February 16, 2023)), Imagen (reference: paper title “Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding”, <Internet> https://arxiv.org/pdf/2205.11487.pdf (searched February 16, 2023)), and Parti (reference: paper title “Scaling Autoregressive Models for "Content-Rich Text-to-Image Generation", <Internet> https://arxiv.org/pdf/2206.10789.pdf (Retrieved February 16, 2023) is known.

本実施形態に係る情報処理装置は、動画を構成する複数のフレーム画像それぞれに対応する重みと、動画を構成する複数のフレーム画像それぞれの特徴量であるフレーム特徴量とに基づいて、重み付けされたフレーム特徴量を条件として条件付き生成モデルに入力する。また、情報処理装置は、重み付けされたフレーム特徴量と対応する特徴を有する動画説明文を生成する。これにより、情報処理装置は、条件付き生成モデルに与える条件として、各フレーム画像に対応する重み付けされたフレーム特徴量を用いることにより、動画のどの部分(どのフレーム画像)を重視した動画説明文を生成するのかをコントロール可能とすることができる。また、情報処理装置は、注目するフレーム画像に応じた多様な動画説明文を生成可能とすることができる。また、情報処理装置は、条件付き生成モデルに与える条件として、各フレーム画像に対応する重み付けされたフレーム特徴量を用いることにより、動画の時系列情報を自然言語生成に反映することを可能とすることができる。 The information processing device according to this embodiment inputs weighted frame features as conditions to a conditional generative model based on weights corresponding to each of a plurality of frame images constituting a video and frame features that are features of each of a plurality of frame images constituting a video. The information processing device also generates a video description having features corresponding to the weighted frame features. As a result, the information processing device can control which part of the video (which frame image) to emphasize in generating a video description by using the weighted frame features corresponding to each frame image as a condition to be given to the conditional generative model. The information processing device can also generate a variety of video descriptions according to the frame image of interest. The information processing device can also use the weighted frame features corresponding to each frame image as a condition to be given to the conditional generative model, making it possible to reflect the time-series information of the video in natural language generation.

〔2.情報処理装置の構成〕
図1を用いて、実施形態に係る情報処理装置100の構成例について説明する。図1は、実施形態に係る情報処理装置100の構成例を示す図である。情報処理装置100は、通信部110と、記憶部120と、制御部130とを有する。
2. Configuration of information processing device
An example of the configuration of an information processing device 100 according to an embodiment will be described with reference to Fig. 1. Fig. 1 is a diagram showing an example of the configuration of the information processing device 100 according to an embodiment. The information processing device 100 includes a communication unit 110, a storage unit 120, and a control unit 130.

(通信部110)
通信部110は、NIC(Network Interface Card)やアンテナ等によって実現される。通信部110は、各種ネットワークと有線または無線で接続され、例えば、情報処理装置100以外の他の情報処理装置との間で情報の送受信を行う。
(Communication unit 110)
The communication unit 110 is realized by a network interface card (NIC), an antenna, etc. The communication unit 110 is connected to various networks via wired or wireless communication, and transmits and receives information to and from other information processing devices other than the information processing device 100, for example.

(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。具体的には、記憶部120は、各種データを記憶する。例えば、記憶部120は、文章生成モデルの学習に用いられる学習用のデータを記憶する。また、記憶部120は、各種プログラムを記憶する。例えば、記憶部120は、モデル生成部134によって生成された文章生成モデルに関する情報を記憶する。
(Memory unit 120)
The storage unit 120 is realized by, for example, a semiconductor memory element such as a random access memory (RAM) or a flash memory, or a storage device such as a hard disk or an optical disk. Specifically, the storage unit 120 stores various data. For example, the storage unit 120 stores learning data used for learning the sentence generation model. The storage unit 120 also stores various programs. For example, the storage unit 120 stores information related to the sentence generation model generated by the model generation unit 134.

(制御部130)
制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置100内部の記憶装置に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部130は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
(Control unit 130)
The control unit 130 is a controller, and is realized, for example, by a central processing unit (CPU) or a micro processing unit (MPU) executing various programs stored in a storage device inside the information processing device 100 using a RAM as a working area. The control unit 130 is also a controller, and is realized, for example, by an integrated circuit such as an application specific integrated circuit (ASIC) or a field programmable gate array (FPGA).

制御部130は、動画生成部131と、抽出部132と、決定部133と、モデル生成部134と、取得部135と、文章生成部136を機能部として有し、以下に説明する情報処理の作用を実現または実行してよい。なお、制御部130の内部構成は、図1に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、各機能部は、制御部130の機能を示したものであり、必ずしも物理的に区別されるものでなくともよい。 The control unit 130 has a video generation unit 131, an extraction unit 132, a determination unit 133, a model generation unit 134, an acquisition unit 135, and a sentence generation unit 136 as functional units, and may realize or execute the information processing actions described below. Note that the internal configuration of the control unit 130 is not limited to the configuration shown in FIG. 1, and may be other configurations that perform the information processing described below. Also, each functional unit indicates a function of the control unit 130, and does not necessarily have to be physically distinct.

(動画生成部131)
動画生成部131は、撮像画像と撮像画像の内容を説明する文章である画像説明文との組を含む画像文データセットに基づいて、学習用動画を生成する。
(Video Generation Unit 131)
The video generator 131 generates a learning video based on an image and text data set that includes a pair of a captured image and an image caption that is a sentence that explains the content of the captured image.

(抽出部132)
抽出部132は、学習用動画を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量を抽出する。また、抽出部132は、処理対象の動画である対象動画を構成する複数のフレーム画像それぞれの特徴量である対象フレーム特徴量を抽出する。
(Extraction Unit 132)
The extraction unit 132 extracts learning frame features, which are features of each of a plurality of frame images constituting the learning moving image. The extraction unit 132 also extracts target frame features, which are features of each of a plurality of frame images constituting the target moving image, which is a moving image to be processed.

(決定部133)
決定部133は、学習用動画を構成する複数のフレーム画像それぞれに対応する重みである学習用重みを決定する。また、決定部133は、対象動画を構成する複数のフレーム画像のうち、利用者によって指定された指定フレーム画像に対応する重みを指定フレーム画像以外の他のフレーム画像に対応する重みよりも大きくするように複数のフレーム画像それぞれに対応する重みである対象重みを決定する。
(Determination unit 133)
The determination unit 133 determines learning weights, which are weights corresponding to each of a plurality of frame images constituting the learning video. Also, the determination unit 133 determines target weights, which are weights corresponding to each of a plurality of frame images constituting the target video, such that the weight corresponding to a designated frame image designated by a user among the plurality of frame images constituting the target video is made larger than the weights corresponding to other frame images other than the designated frame image.

(モデル生成部134)
モデル生成部134は、学習用フレーム特徴量と学習用重みとに基づいて、学習用動画の内容を説明する文章である学習用動画説明文であって、学習用重みによって重み付けされた学習用フレーム特徴量と対応する特徴を有する学習用動画説明文を生成するように学習された機械学習モデルである文章生成モデルを生成する。ここで、文章生成モデルは、条件付き生成モデルであってよい。例えば、文章生成モデルは、条件付き敵対的生成ネットワーク(CGAN)、条件付き変分オートエンコーダ(CVAE)、または、条件付き拡散モデルであってよい。
(Model Generation Unit 134)
The model generation unit 134 generates a sentence generation model, which is a machine learning model trained to generate a training video description, which is a sentence that describes the content of the training video, based on the training frame features and the training weights, and has features corresponding to the training frame features weighted by the training weights. Here, the sentence generation model may be a conditional generative model. For example, the sentence generation model may be a conditional generative adversarial network (CGAN), a conditional variational autoencoder (CVAE), or a conditional diffusion model.

また、モデル生成部134は、文章生成モデルを事前学習させることで、事前学習済みの文章生成モデルを生成する。続いて、モデル生成部134は、事前学習済みの文章生成モデルを追加学習させることで、追加学習済みの文章生成モデルを生成する。モデル生成部134は、生成した追加学習済みの文章生成モデルに関する情報を記憶部120に格納する。なお、以下では、追加学習済みの文章生成モデルのことを単に「文章生成モデル」と記載する場合がある。 The model generation unit 134 also generates a pre-trained sentence generation model by pre-training the sentence generation model. Next, the model generation unit 134 generates an additionally trained sentence generation model by additionally training the pre-trained sentence generation model. The model generation unit 134 stores information about the generated additionally trained sentence generation model in the storage unit 120. Note that, hereinafter, the additionally trained sentence generation model may be simply referred to as a "sentence generation model".

(取得部135)
取得部135は、撮像画像と撮像画像の内容を説明する文章である画像説明文との組を含む画像文データセットに基づいて生成された学習用動画を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量と、学習用動画を構成する複数のフレーム画像それぞれに対応する重みである学習用重みとに基づいて、学習用動画の内容を説明する文章である学習用動画説明文であって、学習用重みによって重み付けされた学習用フレーム特徴量と対応する特徴を有する学習用動画説明文を生成するように学習された機械学習モデルである文章生成モデルを取得する。具体的には、取得部135は、モデル生成部134によって生成された文章生成モデルを取得する。例えば、取得部135は、記憶部120から文章生成モデルに関する情報を取得する。
(Acquisition unit 135)
The acquisition unit 135 acquires a sentence generation model, which is a machine learning model trained to generate a training video description, which is a sentence that describes the content of a training video, having features corresponding to the training frame features weighted by the training weights, based on training frame features that are features of each of a plurality of frame images constituting a training video generated based on an image and sentence dataset including a pair of a captured image and an image description that is a sentence that describes the content of the captured image, and training weights that are weights corresponding to each of a plurality of frame images constituting the training video. Specifically, the acquisition unit 135 acquires the sentence generation model generated by the model generation unit 134. For example, the acquisition unit 135 acquires information on the sentence generation model from the storage unit 120.

(文章生成部136)
文章生成部136は、対象フレーム特徴量と対象重みとに基づいて、対象重みによって重み付けされた対象フレーム特徴量を文章生成モデルに入力して、対象動画の内容を説明する文章である対象動画説明文を生成する。
(Sentence generation unit 136)
The sentence generation unit 136 inputs the target frame feature weighted by the target weight to a sentence generation model based on the target frame feature and the target weight, and generates a target moving image description, which is a sentence that describes the content of the target moving image. Generate a statement.

〔3.事前学習方法〕
図2を用いて、実施形態に係る文章生成モデルの事前学習方法について説明する。図2は、実施形態に係る事前学習方法に関する情報処理の一例を示す図である。ここで、事前学習とは、後述する第1の追加学習(図3参照)または第2の追加学習(図5参照)によりモデルを本格的に学習させる前に、事前に準備として行われるモデルの学習のことを指す。
[3. Pre-learning methods]
A pre-learning method for a sentence generation model according to an embodiment will be described with reference to Fig. 2. Fig. 2 is a diagram showing an example of information processing related to the pre-learning method according to an embodiment. Here, pre-learning refers to learning of a model that is performed as a preparation before the model is fully trained by the first additional learning (see Fig. 3) or the second additional learning (see Fig. 5) described later.

図2に示すように、事前学習の段階では、(1)動画と動画説明文との組を含む動画文データセットに含まれる動画を構成する各フレーム画像から画像特徴量を抽出する。(2)動画を構成する各フレーム画像に対する重み付けは行わない。(3)各フレーム画像から抽出した画像特徴量を条件として、条件付き生成モデルである文章生成モデルに入力し、画像特徴量に対応する特徴を有する動画説明文を生成するように文章生成モデルを学習させる。 As shown in Figure 2, in the pre-learning stage, (1) image features are extracted from each frame image constituting a video included in a video sentence dataset that includes pairs of videos and video descriptions. (2) No weighting is applied to each frame image constituting a video. (3) The image features extracted from each frame image are input as conditions into a sentence generation model, which is a conditional generation model, and the sentence generation model is trained to generate video descriptions having features corresponding to the image features.

具体的には、抽出部132は、事前学習用の撮像動画(以下、「事前学習用動画#1」と記載する場合がある)と事前学習用の撮像動画に対応する動画説明文(以下、「事前学習用動画説明文#1」と記載する場合がある)との組を含む動画文データセット#1を取得してよい。例えば、抽出部132は、通信部110を介して、外部の情報処理装置から動画文データセット#1を取得してよい。 Specifically, the extraction unit 132 may acquire a video text dataset #1 including a pair of a captured video for pre-learning (hereinafter, may be referred to as "pre-learning video #1") and a video description corresponding to the captured video for pre-learning (hereinafter, may be referred to as "pre-learning video description #1"). For example, the extraction unit 132 may acquire the video text dataset #1 from an external information processing device via the communication unit 110.

続いて、抽出部132は、動画文データセット#1に含まれる事前学習用動画#1を構成する複数のフレーム画像それぞれから、事前学習用動画#1を構成する複数のフレーム画像それぞれの画像特徴量を抽出してよい(ステップS11)。例えば、画像特徴量は、多次元のベクトルであってよい。図2では、簡単のため、事前学習用動画#1を構成するフレーム画像が3つである場合について説明するが、事前学習用動画#1を構成するフレーム画像の数は4つ以上であってよい。図2では、事前学習用動画#1の開始時刻に対応する1枚目のフレーム画像と、事前学習用動画#1の開始時刻と終了時刻の間の時刻に対応する2枚目のフレーム画像と、事前学習用動画#1の終了時刻に対応する3枚目のフレーム画像とが時系列順に並んでいる様子を示す。例えば、抽出部132は、1枚目のフレーム画像から特徴量ベクトルV11を抽出する。また、抽出部132は、2枚目のフレーム画像から特徴量ベクトルV12を抽出する。また、抽出部132は、3枚目のフレーム画像から特徴量ベクトルV13を抽出する。続いて、抽出部132は、事前学習用動画#1を構成する複数のフレーム画像それぞれの画像特徴量である事前学習用フレーム特徴量#1として、特徴量ベクトルV11~V13の組のベクトル(V11、V12、V13)を取得してよい。 Next, the extraction unit 132 may extract image features of each of the multiple frame images constituting the pre-learning video #1 from each of the multiple frame images constituting the pre-learning video #1 included in the video sentence dataset #1 (step S11). For example, the image features may be a multidimensional vector. In FIG. 2, for simplicity, a case in which there are three frame images constituting the pre-learning video #1 is described, but the number of frame images constituting the pre-learning video #1 may be four or more. In FIG. 2, a first frame image corresponding to the start time of the pre-learning video #1, a second frame image corresponding to a time between the start time and the end time of the pre-learning video #1, and a third frame image corresponding to the end time of the pre-learning video #1 are arranged in chronological order. For example, the extraction unit 132 extracts a feature vector V11 from the first frame image. In addition, the extraction unit 132 extracts a feature vector V12 from the second frame image. In addition, the extraction unit 132 extracts a feature vector V13 from the third frame image. Next, the extraction unit 132 may acquire a vector (V11, V12, V13) of the set of feature vectors V11 to V13 as pre-learning frame feature #1, which is the image feature of each of the multiple frame images that make up the pre-learning video #1.

例えば、抽出部132は、画像から画像特徴量を抽出することができる任意の公知技術を用いて、動画を構成する複数のフレーム画像それぞれから画像特徴量を抽出してよい。例えば、抽出部132は、画像エンコーダを備え、画像エンコーダを用いて画像特徴量を抽出してよい。例えば、抽出部132は、画像エンコーダとして、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)を備えてよい。そして、抽出部132は、CNNを用いて、各フレーム画像から画像特徴量を抽出してよい。また、例えば、抽出部132は、画像エンコーダとして、物体認識用に開発されたResNet(Residual Network)(Kaiming He et al., 2015)、AlexNet(Krizhevsky et al., 2012)、VGGNet(Simonyan et al., 2014)、GoogLeNet(Szegedy et al., 2014)、SENet(Squeeze-and-Excitation Networks)(Jie Hu et al., 2018)、EfficientNet(Tan et al., 2019)、またはZFNet(Matthew et al., 2013)を備えてよい。そして、抽出部132は、ResNet、AlexNet、VGGNet、GoogLeNet、SENet、EfficientNet、またはZFNetを用いて、各フレーム画像か画像特徴量を抽出してよい。また、例えば、抽出部132は、画像エンコーダとして、物体検出用に開発されたFaster R-CNN(Shaoqing Ren et al., 2015)、YOLO(You Look Only Onse)(Joseph Redmon et al., 2015)、またはSSD(Single Shot MultiBox Detector)(Wei Liu., 2015)を備えてよい。そして、抽出部132は、Faster R-CNN、YOLO、またはSSDを用いて、各フレーム画像から画像特徴量を抽出してよい。 For example, the extraction unit 132 may extract image features from each of the multiple frame images constituting the video, using any known technology capable of extracting image features from an image. For example, the extraction unit 132 may include an image encoder and extract image features using the image encoder. For example, the extraction unit 132 may include a convolutional neural network (CNN) as the image encoder. Then, the extraction unit 132 may extract image features from each frame image using the CNN. Furthermore, for example, the extraction unit 132 may be equipped with ResNet (Residual Network) (Kaiming He et al., 2015), AlexNet (Krizhevsky et al., 2012), VGGNet (Simonyan et al., 2014), GoogLeNet (Szegedy et al., 2014), SENet (Squeeze-and-Excitation Networks) (Jie Hu et al., 2018), EfficientNet (Tan et al., 2019), or ZFNet (Matthew et al., 2013) developed for object recognition as an image encoder. The extraction unit 132 may extract image features from each frame image using ResNet, AlexNet, VGGNet, GoogLeNet, SENet, EfficientNet, or ZFNet. For example, the extraction unit 132 may include Faster R-CNN (Shaoqing Ren et al., 2015), YOLO (You Look Only Onse) (Joseph Redmon et al., 2015), or SSD (Single Shot MultiBox Detector) (Wei Liu., 2015), which are developed for object detection, as an image encoder. The extraction unit 132 may extract image features from each frame image using Faster R-CNN, YOLO, or SSD.

このように、抽出部132は、撮像動画(図2の例では、事前学習用動画#1)と撮像動画の内容を説明する文章である動画説明文(図2の例では、事前学習用動画説明文#1)との組を含む動画文データセット#1に含まれる撮像動画を構成する複数のフレーム画像それぞれの特徴量である事前学習用フレーム特徴量#1を抽出する。 In this way, the extraction unit 132 extracts pre-learning frame features #1, which are features of each of the multiple frame images that make up a captured video included in video text dataset #1, which includes a pair of a captured video (in the example of Figure 2, pre-learning video #1) and a video description, which is a sentence that explains the content of the captured video (in the example of Figure 2, pre-learning video description #1).

続いて、モデル生成部134は、抽出部132によって抽出された事前学習用フレーム特徴量#1を文章生成モデルM1に入力してよい(ステップS12)。例えば、モデル生成部134は、事前学習用フレーム特徴量#1に基づく条件ベクトル#1を生成してよい。続いて、モデル生成部134は、生成した条件ベクトル#1とノイズベクトル(乱数ベクトルともいう)を結合してよい。例えば、モデル生成部134は、線形変換処理を用いて、条件ベクトル#1とノイズベクトルのサイズが同じになるように調整してよい。続いて、モデル生成部134は、条件ベクトル#1の各要素をノイズベクトルの各要素に加算することにより、条件ベクトル#1とノイズベクトルを結合してよい。あるいは、モデル生成部134は、条件ベクトル#1の各要素をノイズベクトルの各要素に乗算することにより、条件ベクトル#1とノイズベクトルを結合してよい。続いて、モデル生成部134は、結合された条件ベクトル#1とノイズベクトルを入力情報として条件付き生成モデルである文章生成モデルM1に入力してよい。 Next, the model generation unit 134 may input the pre-learning frame feature #1 extracted by the extraction unit 132 to the sentence generation model M1 (step S12). For example, the model generation unit 134 may generate a condition vector #1 based on the pre-learning frame feature #1. Next, the model generation unit 134 may combine the generated condition vector #1 with a noise vector (also called a random vector). For example, the model generation unit 134 may use a linear conversion process to adjust the size of the condition vector #1 and the noise vector so that they are the same. Next, the model generation unit 134 may combine the condition vector #1 and the noise vector by adding each element of the condition vector #1 to each element of the noise vector. Alternatively, the model generation unit 134 may combine the condition vector #1 and the noise vector by multiplying each element of the condition vector #1 by each element of the noise vector. Next, the model generation unit 134 may input the combined condition vector #1 and the noise vector as input information to the sentence generation model M1, which is a conditional generation model.

続いて、モデル生成部134は、結合された条件ベクトル#1とノイズベクトルの入力に応じて文章生成モデルM1が生成した動画説明文であって、文章生成モデルM1から出力情報として出力された動画説明文を取得してよい(ステップS13)。モデル生成部134は、条件ベクトル#1に基づいて、条件ベクトル#1と対応する特徴を有する動画説明文を生成するように文章生成モデルM1を学習させてよい。例えば、モデル生成部134は、バックプロパゲーション(誤差逆伝播法)等を用いて、文章生成モデルM1から出力された動画説明文と、動画文データセット#1に含まれる事前学習用動画説明文#1との誤差が小さくなるように文章生成モデルM1を学習させてよい。このようにして、モデル生成部134は、事前学習用フレーム特徴量#1に基づいて、事前学習用フレーム特徴量#1と対応する特徴を有する動画説明文を生成するように文章生成モデルM1を学習させてよい。 Then, the model generation unit 134 may acquire the video description generated by the sentence generation model M1 in response to the input of the combined condition vector #1 and the noise vector, and output as output information from the sentence generation model M1 (step S13). The model generation unit 134 may train the sentence generation model M1 so as to generate a video description having a feature corresponding to the condition vector #1 based on the condition vector #1. For example, the model generation unit 134 may train the sentence generation model M1 using backpropagation (error backpropagation method) or the like so as to reduce the error between the video description output from the sentence generation model M1 and the pre-training video description #1 included in the video description dataset #1. In this way, the model generation unit 134 may train the sentence generation model M1 so as to generate a video description having a feature corresponding to the pre-training frame feature #1 based on the pre-training frame feature #1.

このように、モデル生成部134は、事前学習用フレーム特徴量#1に基づいて、事前学習用フレーム特徴量#1と対応する特徴を有する動画説明文(図2では、事前学習用動画説明文#1)を生成するように事前に学習された機械学習モデルである事前学習済み文章生成モデルM1を生成する。 In this way, the model generation unit 134 generates a pre-trained sentence generation model M1, which is a machine learning model that has been pre-trained to generate a video description (pre-training video description #1 in Figure 2) having features corresponding to the pre-training frame feature #1, based on the pre-training frame feature #1.

〔4.第1の追加学習方法〕
図3を用いて、実施形態に係る第1の追加学習方法について説明する。図3は、実施形態に係る第1の追加学習方法に関する情報処理の一例を示す図である。第1の追加学習は、図2で説明した事前学習の後に行われる本格的なモデルの学習のことを指す。
[4. First additional learning method]
A first additional learning method according to the embodiment will be described with reference to Fig. 3. Fig. 3 is a diagram showing an example of information processing related to the first additional learning method according to the embodiment. The first additional learning refers to full-scale model learning performed after the pre-learning described in Fig. 2.

図3に示すように、第1の追加学習の段階では、(1)公知の動画生成モデルを用いて、画像(静止画像)と画像説明文との組を含む画像文データセットに含まれる画像から動画を生成する。以下では、動画を生成する元となった画像(画像文データセットに含まれる画像)のことを「オリジナルの画像」と記載する場合がある。生成された動画は、オリジナルの画像をフレームに含む。(2)生成された動画を構成する各フレーム画像のうち、オリジナルの画像に対応するフレーム画像を注目箇所として、動画を構成する各フレーム画像に対応する重みを決定する。また、生成された動画を構成する各フレーム画像から画像特徴量を抽出し、各フレーム画像から抽出された画像特徴量を各フレーム画像に対応する重みによって重み付けする。(3)重み付けされた画像特徴量を条件として、条件付き生成モデルである事前学習済み文章生成モデルM1に入力し、重み付けされた画像特徴量に対応する特徴を有する動画説明文を生成するように事前学習済み文章生成モデルM1を再学習させることにより、第1の追加学習済みの文章生成モデルM2を生成する。 As shown in FIG. 3, in the first additional learning stage, (1) a known video generation model is used to generate a video from images included in an image-sentence dataset including a pair of images (still images) and image captions. Hereinafter, the image (included in the image-sentence dataset) from which the video is generated may be referred to as the "original image". The generated video includes the original image as a frame. (2) Among the frame images constituting the generated video, the frame image corresponding to the original image is set as a focus point, and weights corresponding to each frame image constituting the video are determined. In addition, image features are extracted from each frame image constituting the generated video, and the image features extracted from each frame image are weighted by the weights corresponding to each frame image. (3) The weighted image features are input as conditions to a pre-trained sentence generation model M1, which is a conditional generation model, and the pre-trained sentence generation model M1 is re-trained to generate a video caption having features corresponding to the weighted image features, thereby generating a first additionally trained sentence generation model M2.

具体的には、動画生成部131は、撮像画像(以下、「画像#2」と記載する場合がある)と撮像画像の内容を説明する文章である画像説明文(以下、「画像説明文#2」と記載する場合がある)との組を含む画像文データセット#2に基づいて、学習用動画#2を生成してよい。例えば、動画生成部131は、通信部110を介して、外部の情報処理装置から画像文データセット#2を取得してよい。続いて、動画生成部131は、画像から動画を生成する機械学習モデルである第1の動画生成モデルM21を取得してよい。例えば、第1の動画生成モデルM21は、画像から動画を生成する公知の機械学習モデルであってよい(参考文献;“Generating Videos with Scene Dynamics“, Carl Vondrick et al. ,2016 ,<インターネット>https://arxiv.org/pdf/1609.02612.pdf(令和5年2月16日検索))。例えば、動画生成部131は、あらかじめ第1の動画生成モデルM21に関する情報を格納している記憶部120から第1の動画生成モデルM21を取得してよい。続いて、動画生成部131は、画像文データセット#2に含まれる画像#2を第1の動画生成モデルM21に入力して、画像#2から画像#2をフレームに含む学習用動画#2を生成してよい(ステップS21)。 Specifically, the video generating unit 131 may generate the learning video #2 based on an image and sentence data set #2 including a pair of a captured image (hereinafter, sometimes referred to as "image #2") and an image description (hereinafter, sometimes referred to as "image description #2") that is a sentence that explains the contents of the captured image. For example, the video generating unit 131 may acquire the image and sentence data set #2 from an external information processing device via the communication unit 110. Next, the video generating unit 131 may acquire a first video generation model M21, which is a machine learning model that generates a video from an image. For example, the first video generation model M21 may be a known machine learning model that generates a video from an image (Reference: "Generating Videos with Scene Dynamics", Carl Vondrick et al., 2016, <Internet> https://arxiv.org/pdf/1609.02612.pdf (searched on February 16, 2023)). For example, the video generator 131 may acquire the first video generation model M21 from the storage unit 120, which stores information about the first video generation model M21 in advance. Next, the video generator 131 may input image #2 included in the image-sentence dataset #2 to the first video generation model M21, and generate a learning video #2 from image #2 that includes image #2 in a frame (step S21).

このように、動画生成部131は、画像から動画を生成する機械学習モデルである第1の動画生成モデルM21を用いて、画像文データセット#2に含まれる撮像画像(図3では、画像#2)から、撮像画像をフレームに含む学習用動画#2を生成する。以下では、学習用動画#2を生成する元となった画像#2のことを「オリジナルの画像#2」と記載する場合がある。 In this way, the video generation unit 131 uses the first video generation model M21, which is a machine learning model that generates videos from images, to generate a learning video #2 that includes a captured image in a frame from a captured image (image #2 in FIG. 3) included in the image-sentence dataset #2. Hereinafter, image #2 that was the source from which learning video #2 was generated may be referred to as the "original image #2."

また、抽出部132は、動画生成部131によって生成された学習用動画#2を構成する複数のフレーム画像それぞれから、学習用動画#2を構成する複数のフレーム画像それぞれの画像特徴量を抽出してよい(ステップS22)。なお、抽出部132が、各フレーム画像から画像特徴量を抽出する方法は、図2で説明した事前学習において各フレーム画像から画像特徴量を抽出する方法と同様であってよい。以下では、図2と重複する説明は省略する。図3では、簡単のため、学習用動画#2を構成するフレーム画像が3つである場合について説明するが、学習用動画#2を構成するフレーム画像の数は4つ以上であってよい。図3では、学習用動画#2の開始時刻に対応する1枚目のフレーム画像と、学習用動画#2の開始時刻と終了時刻の間の時刻に対応する2枚目のフレーム画像と、学習用動画#2の終了時刻に対応する3枚目のフレーム画像とが時系列順に並んでいる様子を示す。例えば、抽出部132は、1枚目のフレーム画像から特徴量ベクトルV21を抽出する。また、抽出部132は、2枚目のフレーム画像から特徴量ベクトルV22を抽出する。また、抽出部132は、3枚目のフレーム画像から特徴量ベクトルV23を抽出する。続いて、抽出部132は、学習用動画#2を構成する複数のフレーム画像それぞれの画像特徴量である学習用フレーム特徴量#2として、特徴量ベクトルV21~V23の組のベクトル(V21、V22、V23)を取得してよい。 The extraction unit 132 may extract image features of each of the multiple frame images constituting the learning video #2 from each of the multiple frame images constituting the learning video #2 generated by the video generation unit 131 (step S22). The method by which the extraction unit 132 extracts image features from each frame image may be the same as the method of extracting image features from each frame image in the pre-learning described in FIG. 2. In the following, explanations that overlap with FIG. 2 will be omitted. In FIG. 3, for simplicity, a case will be described in which there are three frame images constituting the learning video #2, but the number of frame images constituting the learning video #2 may be four or more. In FIG. 3, a first frame image corresponding to the start time of the learning video #2, a second frame image corresponding to a time between the start time and the end time of the learning video #2, and a third frame image corresponding to the end time of the learning video #2 are arranged in chronological order. For example, the extraction unit 132 extracts a feature vector V21 from the first frame image. The extraction unit 132 also extracts a feature vector V22 from the second frame image. The extraction unit 132 also extracts a feature vector V23 from the third frame image. Next, the extraction unit 132 may acquire a vector (V21, V22, V23) of the set of feature vectors V21 to V23 as learning frame feature #2, which is the image feature of each of the multiple frame images that make up learning video #2.

このように、抽出部132は、学習用動画#2を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量#2を抽出する。 In this way, the extraction unit 132 extracts learning frame features #2, which are features of each of the multiple frame images that make up learning video #2.

また、決定部133は、動画生成部131によって生成された学習用動画#2を構成する複数のフレーム画像それぞれに対応する重みを決定してよい(ステップS22)。なお、抽出部132が画像特徴量を抽出する処理と、決定部133が重みを決定する処理は、いずれの処理が先に行われてもよく、抽出部132および決定部133によってそれぞれ同時に行われてもよい。 The determination unit 133 may determine weights corresponding to each of the multiple frame images constituting the learning video #2 generated by the video generation unit 131 (step S22). Either the process of extracting image features by the extraction unit 132 or the process of determining weights by the determination unit 133 may be performed first, or may be performed simultaneously by the extraction unit 132 and the determination unit 133.

例えば、決定部133は、学習用動画#2を構成する複数のフレーム画像のうち、オリジナルの画像#2に対応するフレーム画像の重みをオリジナルの画像#2に対応するフレーム画像以外の他のフレーム画像に対応する重みよりも大きくするように複数のフレーム画像それぞれに対応する重みを決定してよい。例えば、決定部133は、ガウス関数(正規分布ともいう)や円の一部のような凸状の関数であって、極大値の周囲が微分可能な関数の値に基づいて、複数のフレーム画像それぞれに対応する重みを決定してよい。なお、決定部133は、ガウス関数や円の一部に限らず、極大値の周囲が微分可能な関数であればどのような関数を用いて重みを決定してもよい。例えば、決定部133は、極大値の周囲が微分可能な関数の極大値に対応する値をオリジナルの画像#2に対応するフレーム画像の重みとしてよい。また、決定部133は、極大値の周囲が微分可能な関数の極大値の周辺に対応する値をオリジナルの画像#2に対応するフレーム画像以外の他のフレーム画像に対応する重みとしてよい。 For example, the determination unit 133 may determine weights corresponding to each of the multiple frame images constituting the learning video #2 such that the weight of the frame image corresponding to the original image #2 is greater than the weights corresponding to the other frame images other than the frame image corresponding to the original image #2. For example, the determination unit 133 may determine weights corresponding to each of the multiple frame images based on the value of a convex function such as a Gaussian function (also called a normal distribution) or a part of a circle, in which the periphery of the maximum value is differentiable. Note that the determination unit 133 may determine weights using any function, not limited to a Gaussian function or a part of a circle, as long as the periphery of the maximum value is differentiable. For example, the determination unit 133 may set a value corresponding to the maximum value of a function whose periphery of the maximum value is differentiable as the weight of the frame image corresponding to the original image #2. Furthermore, the determination unit 133 may set a value corresponding to the periphery of the maximum value of a function whose periphery of the maximum value is differentiable as the weight of the frame image other than the frame image corresponding to the original image #2.

図3では、決定部133は、横軸を動画の再生時刻、縦軸を重みとするガウス関数の値を用いて複数のフレーム画像それぞれに対応する重みを決定してよい。例えば、決定部133は、ガウス関数の平均値に対応する時刻をオリジナルの画像#2に対応する2枚目のフレーム画像の再生時刻としてよい。また、決定部133は、ガウス関数の平均値に対応する時刻の値である「1.0」をオリジナルの画像#2に対応する2枚目のフレーム画像の重み#22としてよい。また、決定部133は、ガウス関数の平均値よりも小さい値に対応する時刻を1枚目のフレーム画像の再生時刻としてよい。また、決定部133は、ガウス関数の平均値よりも小さい値に対応する時刻の値である「0.8」を1枚目のフレーム画像の重み#21としてよい。また、決定部133は、ガウス関数の平均値よりも大きい値に対応する時刻を3枚目のフレーム画像の再生時刻としてよい。また、決定部133は、ガウス関数の平均値よりも大きい値に対応する時刻の値である「0.8」を3枚目のフレーム画像の重み#23としてよい。例えば、決定部133は、学習用動画#2を構成する複数のフレーム画像それぞれに対応する重みである学習用重み#2として、1枚目のフレーム画像の重み#21~2枚目のフレーム画像の重み#23の組のベクトル(重み#21、重み#22、重み#23)=(0.8、1.0、0.8)を取得してよい。 In FIG. 3, the determination unit 133 may determine weights corresponding to each of the multiple frame images using the value of a Gaussian function with the horizontal axis representing the playback time of the video and the vertical axis representing the weight. For example, the determination unit 133 may determine the time corresponding to the average value of the Gaussian function as the playback time of the second frame image corresponding to the original image #2. The determination unit 133 may also determine the value of the time corresponding to the average value of the Gaussian function, "1.0", as the weight #22 of the second frame image corresponding to the original image #2. The determination unit 133 may also determine the time corresponding to a value smaller than the average value of the Gaussian function as the playback time of the first frame image. The determination unit 133 may also determine the value of the time corresponding to a value smaller than the average value of the Gaussian function as the weight #21 of the first frame image. The determination unit 133 may also determine the time corresponding to a value larger than the average value of the Gaussian function as the playback time of the third frame image. Furthermore, the determination unit 133 may set "0.8", which is the value at the time corresponding to a value greater than the average value of the Gaussian function, as weight #23 for the third frame image. For example, the determination unit 133 may obtain a vector (weight #21, weight #22, weight #23) = (0.8, 1.0, 0.8) of the set of weight #21 for the first frame image to weight #23 for the second frame image as learning weight #2, which is the weight corresponding to each of the multiple frame images constituting learning video #2.

このように、決定部133は、学習用動画#2を構成する複数のフレーム画像のうち、撮像画像(図3では、オリジナルの画像#2)に対応する重み(図3では、2枚目のフレーム画像の重み#22である「1.0」)を撮像画像以外の他のフレーム画像に対応する重み(図3では、1枚目のフレーム画像の重み#21である「0.8」および3枚目のフレーム画像の重み#23である「0.8」)よりも大きくするように複数のフレーム画像それぞれに対応する学習用重み#2(図3では、(重み#21、重み#22、重み#23)=(0.8、1.0、0.8))を決定する。また、このように、決定部133は、学習用動画#2を構成する複数のフレーム画像それぞれに対応する重みである学習用重み#2を決定する。 In this way, the determination unit 133 determines the learning weights #2 (in FIG. 3, (weights #21, #22, #23) = (0.8, 1.0, 0.8)) corresponding to each of the multiple frame images constituting the learning video #2 so that the weight (in FIG. 3, weight #22 of the second frame image, "1.0") corresponding to the captured image (original image #2 in FIG. 3) is greater than the weights corresponding to the other frame images other than the captured image (in FIG. 3, weight #21 of the first frame image, "0.8" and weight #23 of the third frame image, "0.8"). Also, in this way, the determination unit 133 determines the learning weights #2 that correspond to each of the multiple frame images constituting the learning video #2.

また、モデル生成部134は、決定部133によって決定された学習用重み#2によって、抽出部132によって抽出された学習用フレーム特徴量#2を重み付けしてよい。モデル生成部134は、決定部133によって決定された学習用重み#2によって重み付けされた学習用フレーム特徴量#2である、重み付けされた学習用フレーム特徴量#2´を生成してよい。図3では、モデル生成部134は、学習用動画#2を構成する1枚目のフレーム画像に対応する重み#21である「0.8」を特徴量ベクトルV21の各要素に乗じることにより、重み#21によって重み付けされた特徴量ベクトルV21´を生成してよい。また、モデル生成部134は、学習用動画#2を構成する2枚目のフレーム画像に対応する重み#22である「1.0」を特徴量ベクトルV22の各要素に乗じることにより、重み#22によって重み付けされた特徴量ベクトルV22´を生成してよい。また、モデル生成部134は、学習用動画#2を構成する3枚目のフレーム画像に対応する重み#23である「0.8」を特徴量ベクトルV23の各要素に乗じることにより、重み#23によって重み付けされた特徴量ベクトルV23´を生成してよい。このようにして、モデル生成部134は、重み付けされた学習用フレーム特徴量#2´を生成してよい。図3では、モデル生成部134は、重み付けされた学習用フレーム特徴量#2´として、(重み#21、重み#22、重み#23)*(V21、V22、V23)=(重み#21*V21、重み#22*V22、重み#23*V23)=(V21´、V22´、V23´)を生成してよい。 The model generation unit 134 may weight the learning frame feature #2 extracted by the extraction unit 132 by the learning weight #2 determined by the determination unit 133. The model generation unit 134 may generate a weighted learning frame feature #2', which is the learning frame feature #2 weighted by the learning weight #2 determined by the determination unit 133. In FIG. 3, the model generation unit 134 may generate a feature vector V21' weighted by the weight #21 by multiplying each element of the feature vector V21 by "0.8", which is the weight #21 corresponding to the first frame image constituting the learning video #2. The model generation unit 134 may generate a feature vector V22' weighted by the weight #22 by multiplying each element of the feature vector V22 by "1.0", which is the weight #22 corresponding to the second frame image constituting the learning video #2. Furthermore, the model generation unit 134 may generate a feature vector V23' weighted by weight #23 by multiplying each element of the feature vector V23 by "0.8", which is weight #23 corresponding to the third frame image constituting the learning video #2. In this manner, the model generation unit 134 may generate weighted learning frame feature #2'. In FIG. 3, the model generation unit 134 may generate (weight #21, weight #22, weight #23) * (V21, V22, V23) = (weight #21 * V21, weight #22 * V22, weight #23 * V23) = (V21', V22', V23') as the weighted learning frame feature #2'.

続いて、モデル生成部134は、重み付けされた学習用フレーム特徴量#2´を事前学習済み文章生成モデルM1(以下、「文章生成モデルM1」と略記する場合がある)に入力してよい(ステップS23)。例えば、モデル生成部134は、重み付けされた学習用フレーム特徴量#2´に基づく条件ベクトル#2を生成してよい。続いて、モデル生成部134は、生成した条件ベクトル#2とノイズベクトルを結合してよい。なお、モデル生成部134が、条件ベクトル#2とノイズベクトルを結合する方法は、図2で説明した事前学習において条件ベクトル#1とノイズベクトルを結合する方法と同様であってよい。以下では、図2と重複する説明は省略する。続いて、モデル生成部134は、結合された条件ベクトル#2とノイズベクトルを入力情報として条件付き生成モデルである文章生成モデルM1に入力してよい。 Then, the model generation unit 134 may input the weighted learning frame feature #2' to the pre-trained sentence generation model M1 (hereinafter, sometimes abbreviated as "sentence generation model M1") (step S23). For example, the model generation unit 134 may generate a condition vector #2 based on the weighted learning frame feature #2'. Then, the model generation unit 134 may combine the generated condition vector #2 with a noise vector. Note that the method by which the model generation unit 134 combines the condition vector #2 with the noise vector may be the same as the method by which the condition vector #1 with the noise vector is combined in the pre-training described in FIG. 2. In the following, the description that overlaps with FIG. 2 will be omitted. Then, the model generation unit 134 may input the combined condition vector #2 and noise vector as input information to the sentence generation model M1, which is a conditional generation model.

続いて、モデル生成部134は、結合された条件ベクトル#2とノイズベクトルの入力に応じて文章生成モデルM1が生成した動画説明文であって、文章生成モデルM1から出力情報として出力された動画説明文(以下、「学習用動画説明文#2」と記載する場合がある)を取得してよい(ステップS24)。モデル生成部134は、条件ベクトル#2に基づいて、条件ベクトル#2と対応する特徴を有する動画説明文を生成するように文章生成モデルM1を再学習させてよい。例えば、モデル生成部134は、バックプロパゲーション(誤差逆伝播法)等を用いて、文章生成モデルM1から出力された学習用動画説明文#2と、画像文データセット#2に含まれる画像説明文#2(オリジナルの画像#2に対応する画像説明文)との誤差が小さくなるように文章生成モデルM1を再学習させてよい。このようにして、モデル生成部134は、重み付けされた学習用フレーム特徴量#2´に基づいて、重み付けされた学習用フレーム特徴量#2´と対応する特徴を有する動画説明文を生成するように文章生成モデルM1を再学習させてよい。 Next, the model generation unit 134 may acquire the video description generated by the sentence generation model M1 in response to the input of the combined condition vector #2 and the noise vector, and output as output information from the sentence generation model M1 (hereinafter, may be referred to as "learning video description #2") (step S24). The model generation unit 134 may retrain the sentence generation model M1 so as to generate a video description having a feature corresponding to the condition vector #2 based on the condition vector #2. For example, the model generation unit 134 may retrain the sentence generation model M1 using backpropagation (error backpropagation method) or the like so as to reduce the error between the learning video description #2 output from the sentence generation model M1 and the image description #2 (image description corresponding to the original image #2) included in the image sentence data set #2. In this way, the model generation unit 134 may retrain the sentence generation model M1 so as to generate a video description having a feature corresponding to the weighted learning frame feature #2' based on the weighted learning frame feature #2'.

このように、モデル生成部134は、学習用フレーム特徴量#2と学習用重み#2とに基づいて、学習用動画の内容を説明する文章である学習用動画説明文#2であって、学習用重み#2によって重み付けされた学習用フレーム特徴量#2´と対応する特徴を有する学習用動画説明文#2を生成するように事前学習済み文章生成モデルM1を再学習させることにより、文章生成モデルM2を生成する。 In this way, the model generation unit 134 generates a sentence generation model M2 by re-training the pre-trained sentence generation model M1 to generate training video description #2, which is a sentence that explains the content of the training video, based on training frame feature #2 and training weight #2, and has features corresponding to training frame feature #2' weighted by training weight #2.

図4は、実施形態に係る重みによってフレーム特徴量を重み付けする方法について説明するための図である。フレーム特徴量は、画像の各ピクセルに対応する値を持ってよい。図4に示す例では、簡単のため、画像の画素が3×3の行列で表される場合について説明する。このとき、フレーム特徴量は、3×3の行列で表されてよい。また、簡単のため、重みの値を「3」とする。このとき、モデル生成部134は、フレーム特徴量の各要素(3×3の行列の各要素)に重みの値である「3」を乗じることにより、重み付けされたフレーム特徴量を生成する。 FIG. 4 is a diagram for explaining a method of weighting frame features by weights according to an embodiment. The frame features may have values corresponding to each pixel of the image. In the example shown in FIG. 4, for simplicity, a case will be explained in which the pixels of the image are represented by a 3×3 matrix. In this case, the frame features may be represented by a 3×3 matrix. Also, for simplicity, the weight value is set to "3". In this case, the model generation unit 134 generates weighted frame features by multiplying each element of the frame features (each element of the 3×3 matrix) by the weight value "3".

〔5.第2の追加学習方法〕
図4を用いて、実施形態に係る第2の追加学習方法について説明する。図5は、実施形態に係る第2の追加学習方法に関する情報処理の一例を示す図である。第2の追加学習は、図2で説明した事前学習の後に行われる本格的なモデルの学習のことを指す。図5では、モデル生成部134は、第1の追加学習の代わりに、第2の追加学習により、事前学習済み文章生成モデルM1を再学習させる点が図3と異なる。
[5. Second additional learning method]
A second additional learning method according to the embodiment will be described with reference to Fig. 4. Fig. 5 is a diagram showing an example of information processing related to the second additional learning method according to the embodiment. The second additional learning refers to full-scale model learning performed after the pre-learning described in Fig. 2. Fig. 5 differs from Fig. 3 in that the model generation unit 134 re-learns the pre-trained sentence generation model M1 by the second additional learning instead of the first additional learning.

図5に示すように、第2の追加学習の段階では、(1)公知の動画生成モデルを用いて、画像(静止画像)と画像説明文との組を含む画像文データセットに含まれる画像説明文から動画を生成する。以下では、動画を生成する元となった画像説明文に対応する画像(画像文データセットに含まれる画像)のことを「オリジナルの画像」と記載する場合がある。(2)生成された動画を構成する各フレーム画像とオリジナルの画像との類似度を算出し、算出された類似度を、動画を構成する各フレーム画像に対応する重みとする。また、生成された動画を構成する各フレーム画像から画像特徴量を抽出し、各フレーム画像から抽出された画像特徴量を各フレーム画像に対応する重みによって重み付けする。(3)重み付けされた画像特徴量を条件として、条件付き生成モデルである事前学習済み文章生成モデルM1に入力し、重み付けされた画像特徴量に対応する特徴を有する動画説明文を生成するように事前学習済み文章生成モデルM1を再学習させることにより、第2の追加学習済みの文章生成モデルM3を生成する。 As shown in FIG. 5, in the second additional learning stage, (1) a known video generation model is used to generate a video from an image description included in an image-sentence dataset including a pair of an image (still image) and an image description. Hereinafter, the image (included in the image-sentence dataset) corresponding to the image description from which the video is generated may be referred to as the "original image". (2) The similarity between each frame image constituting the generated video and the original image is calculated, and the calculated similarity is set as the weight corresponding to each frame image constituting the video. In addition, image features are extracted from each frame image constituting the generated video, and the image features extracted from each frame image are weighted by the weight corresponding to each frame image. (3) The weighted image features are input as conditions to the pre-trained sentence generation model M1, which is a conditional generation model, and the pre-trained sentence generation model M1 is re-trained to generate a video description having features corresponding to the weighted image features, thereby generating a second additionally trained sentence generation model M3.

具体的には、動画生成部131は、撮像画像(以下、「画像#3」と記載する場合がある)と撮像画像の内容を説明する文章である画像説明文(以下、「画像説明文#3」と記載する場合がある)との組を含む画像文データセット#3に基づいて、学習用動画#3を生成してよい。例えば、動画生成部131は、通信部110を介して、外部の情報処理装置から画像文データセット#3を取得してよい。続いて、動画生成部131は、文章から動画を生成する機械学習モデルである第2の動画生成モデルM31を取得してよい。例えば、第2の動画生成モデルM31は、文章から動画を生成する公知の機械学習モデルであってよい(参考文献;“ CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers “, Wenyi Hong et al,2022) ,<インターネット>https://arxiv.org/pdf/2205.15868.pdf(令和5年2月16日検索))。例えば、動画生成部131は、あらかじめ第2の動画生成モデルM31に関する情報を格納している記憶部120から第2の動画生成モデルM31を取得してよい。続いて、動画生成部131は、画像文データセット#3に含まれる画像説明文#3を第2の動画生成モデルM31に入力して、画像説明文#3から学習用動画#3を生成してよい(ステップS31)。 Specifically, the video generation unit 131 may generate the learning video #3 based on an image and sentence data set #3 including a pair of a captured image (hereinafter, sometimes referred to as "image #3") and an image description (hereinafter, sometimes referred to as "image description #3") that is a sentence that explains the content of the captured image. For example, the video generation unit 131 may acquire the image and sentence data set #3 from an external information processing device via the communication unit 110. Next, the video generation unit 131 may acquire a second video generation model M31, which is a machine learning model that generates a video from a sentence. For example, the second video generation model M31 may be a known machine learning model that generates a video from a sentence (Reference: "CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers", Wenyi Hong et al, 2022), <Internet> https://arxiv.org/pdf/2205.15868.pdf (searched on February 16, 2023)). For example, the video generation unit 131 may acquire the second video generation model M31 from the storage unit 120 that stores information about the second video generation model M31 in advance. Next, the video generation unit 131 may input the image description #3 included in the image text data set #3 to the second video generation model M31, and generate a learning video #3 from the image description #3 (step S31).

このように、動画生成部131は、文章から動画を生成する機械学習モデルである第2の動画生成モデルM31を用いて、画像文データセット#3に含まれる画像説明文#3から学習用動画#3を生成する。以下では、学習用動画#3を生成する元となった画像説明文#3と対応する画像#3(画像文データセット#3に含まれる画像#3)のことを「オリジナルの画像#3」と記載する場合がある。 In this way, the video generation unit 131 generates training video #3 from image description #3 included in image sentence dataset #3 using the second video generation model M31, which is a machine learning model that generates videos from text. In the following, the image description #3 that was the source for generating training video #3 and the corresponding image #3 (image #3 included in image sentence dataset #3) may be referred to as the "original image #3."

また、抽出部132は、動画生成部131によって生成された学習用動画#3を構成する複数のフレーム画像それぞれから、学習用動画#3を構成する複数のフレーム画像それぞれの画像特徴量を抽出してよい(ステップS32)。なお、図3と同様に、抽出部132が、各フレーム画像から画像特徴量を抽出する方法は、図2で説明した事前学習において各フレーム画像から画像特徴量を抽出する方法と同様であってよい。以下では、図2と重複する説明は省略する。図5では、簡単のため、学習用動画#3を構成するフレーム画像が3つである場合について説明するが、学習用動画#3を構成するフレーム画像の数は4つ以上であってよい。図5では、学習用動画#3の開始時刻に対応する1枚目のフレーム画像と、学習用動画#3の開始時刻と終了時刻の間の時刻に対応する2枚目のフレーム画像と、学習用動画#3の終了時刻に対応する3枚目のフレーム画像とが時系列順に並んでいる様子を示す。例えば、抽出部132は、1枚目のフレーム画像から特徴量ベクトルV31を抽出する。また、抽出部132は、2枚目のフレーム画像から特徴量ベクトルV32を抽出する。また、抽出部132は、3枚目のフレーム画像から特徴量ベクトルV33を抽出する。続いて、抽出部132は、学習用動画#3を構成する複数のフレーム画像それぞれの画像特徴量である学習用フレーム特徴量#3として、特徴量ベクトルV31~V33の組のベクトル(V31、V32、V33)を取得してよい。 The extraction unit 132 may extract image features of each of the multiple frame images constituting the learning video #3 from each of the multiple frame images constituting the learning video #3 generated by the video generation unit 131 (step S32). As in FIG. 3, the method in which the extraction unit 132 extracts image features from each frame image may be the same as the method in which image features are extracted from each frame image in the pre-learning described in FIG. 2. In the following, explanations that overlap with FIG. 2 will be omitted. In FIG. 5, for simplicity, a case in which there are three frame images constituting the learning video #3 will be described, but the number of frame images constituting the learning video #3 may be four or more. In FIG. 5, a first frame image corresponding to the start time of the learning video #3, a second frame image corresponding to a time between the start time and the end time of the learning video #3, and a third frame image corresponding to the end time of the learning video #3 are shown arranged in chronological order. For example, the extraction unit 132 extracts a feature vector V31 from the first frame image. The extraction unit 132 also extracts a feature vector V32 from the second frame image. The extraction unit 132 also extracts a feature vector V33 from the third frame image. Next, the extraction unit 132 may acquire a vector (V31, V32, V33) of the set of feature vectors V31 to V33 as learning frame feature #3, which is the image feature of each of the multiple frame images that make up learning video #3.

このように、抽出部132は、学習用動画#3を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量#3を抽出する。 In this way, the extraction unit 132 extracts learning frame features #3, which are features of each of the multiple frame images that make up learning video #3.

また、決定部133は、動画生成部131によって生成された学習用動画#3を構成する複数のフレーム画像それぞれに対応する重みを決定してよい(ステップS32)。なお、図3と同様に、抽出部132が画像特徴量を抽出する処理と、決定部133が重みを決定する処理は、いずれの処理が先に行われてもよく、抽出部132および決定部133によってそれぞれ同時に行われてもよい。 The determination unit 133 may determine weights corresponding to each of the multiple frame images constituting the learning video #3 generated by the video generation unit 131 (step S32). As in FIG. 3, the process of extracting image features by the extraction unit 132 and the process of determining weights by the determination unit 133 may be performed first, or may be performed simultaneously by the extraction unit 132 and the determination unit 133.

例えば、決定部133は、学習用動画#3を構成する複数のフレーム画像それぞれとオリジナルの画像#3との類似度に基づいて、複数のフレーム画像それぞれに対応する重みを決定してよい。図5では、決定部133は、1枚目のフレーム画像とオリジナルの画像#3との類似度#31を「0.1」と算出する。続いて、決定部133は、算出された類似度#31の値である「0.1」を1枚目のフレーム画像の重み#31としてよい。また、決定部133は、2枚目のフレーム画像とオリジナルの画像#3との類似度#32を「0.7」と算出する。続いて、決定部133は、算出された類似度#32の値である「0.7」を2枚目のフレーム画像の重み#32としてよい。また、決定部133は、3枚目のフレーム画像とオリジナルの画像#3との類似度#33を「0.2」と算出する。続いて、決定部133は、算出された類似度#33の値である「0.2」を3枚目のフレーム画像の重み#33としてよい。例えば、決定部133は、学習用動画#3を構成する複数のフレーム画像それぞれに対応する重みである学習用重み#3として、1枚目のフレーム画像の重み#31~2枚目のフレーム画像の重み#33の組のベクトル(重み#31、重み#32、重み#33)=(類似度#31、類似度#32、類似度#33)=(0.1、0.7、0.2)を取得してよい。 For example, the determination unit 133 may determine weights corresponding to each of the multiple frame images based on the similarity between each of the multiple frame images constituting the learning video #3 and the original image #3. In FIG. 5, the determination unit 133 calculates the similarity #31 between the first frame image and the original image #3 to be "0.1". Then, the determination unit 133 may set the calculated value of similarity #31, "0.1", as the weight #31 of the first frame image. The determination unit 133 also calculates the similarity #32 between the second frame image and the original image #3 to be "0.7". Then, the determination unit 133 may set the calculated value of similarity #32, "0.7", as the weight #32 of the second frame image. The determination unit 133 also calculates the similarity #33 between the third frame image and the original image #3 to be "0.2". Next, the determination unit 133 may set the calculated value of similarity #33, "0.2", as the weight #33 of the third frame image. For example, the determination unit 133 may obtain a vector (weight #31, weight #32, weight #33) = (similarity #31, similarity #32, similarity #33) = (0.1, 0.7, 0.2) of the set of weights #31 of the first frame image to #33 of the second frame image as learning weights #3, which are weights corresponding to each of the multiple frame images that make up the learning video #3.

このように、決定部133は、学習用動画#3を構成する複数のフレーム画像(図5では、1枚目のフレーム画像~3枚目のフレーム画像)それぞれと撮像画像(図5では、オリジナルの画像#3)との類似度(図5では、(類似度#31、類似度#32、類似度#33)=(0.1、0.7、0.2))に関する情報を複数のフレーム画像それぞれに対応する学習用重み#3(図5では、(重み#31、重み#32、重み#33)=(0.1、0.7、0.2))とする。また、このように、決定部133は、学習用動画#3を構成する複数のフレーム画像それぞれに対応する重みである学習用重み#3を決定する。 In this way, the determination unit 133 sets information regarding the similarity (in FIG. 5, (similarity #31, similarity #32, similarity #33) = (0.1, 0.7, 0.2)) between each of the multiple frame images (in FIG. 5, the first to third frame images) that make up the learning video #3 and the captured image (in FIG. 5, original image #3) as learning weights #3 (in FIG. 5, (weights #31, weights #32, weights #33) = (0.1, 0.7, 0.2)) corresponding to each of the multiple frame images. In this way, the determination unit 133 determines learning weights #3 that are weights that correspond to each of the multiple frame images that make up the learning video #3.

また、モデル生成部134は、決定部133によって決定された学習用重み#3によって、抽出部132によって抽出された学習用フレーム特徴量#3を重み付けしてよい。モデル生成部134は、決定部133によって決定された学習用重み#3によって重み付けされた学習用フレーム特徴量#3である、重み付けされた学習用フレーム特徴量#3´を生成してよい。図5では、モデル生成部134は、学習用動画#3を構成する1枚目のフレーム画像に対応する重み#31である「0.1」を特徴量ベクトルV31の各要素に乗じることにより、重み#31によって重み付けされた特徴量ベクトルV31´を生成してよい。また、モデル生成部134は、学習用動画#3を構成する2枚目のフレーム画像に対応する重み#32である「0.7」を特徴量ベクトルV32の各要素に乗じることにより、重み#32によって重み付けされた特徴量ベクトルV32´を生成してよい。また、モデル生成部134は、学習用動画#3を構成する3枚目のフレーム画像に対応する重み#33である「0.2」を特徴量ベクトルV33の各要素に乗じることにより、重み#33によって重み付けされた特徴量ベクトルV33´を生成してよい。このようにして、モデル生成部134は、重み付けされた学習用フレーム特徴量#3´を生成してよい。図5では、モデル生成部134は、重み付けされた学習用フレーム特徴量#3´として、(重み#31、重み#32、重み#33)*(V31、V32、V33)=(重み#31*V31、重み#32*V32、重み#33*V33)=(V31´、V32´、V33´)を生成してよい。 The model generation unit 134 may weight the learning frame feature #3 extracted by the extraction unit 132 by the learning weight #3 determined by the determination unit 133. The model generation unit 134 may generate a weighted learning frame feature #3', which is the learning frame feature #3 weighted by the learning weight #3 determined by the determination unit 133. In FIG. 5, the model generation unit 134 may generate a feature vector V31' weighted by the weight #31 by multiplying each element of the feature vector V31 by "0.1", which is the weight #31 corresponding to the first frame image constituting the learning video #3. The model generation unit 134 may generate a feature vector V32' weighted by the weight #32 by multiplying each element of the feature vector V32 by "0.7", which is the weight #32 corresponding to the second frame image constituting the learning video #3. Furthermore, the model generation unit 134 may generate a feature vector V33' weighted by weight #33 by multiplying each element of the feature vector V33 by "0.2", which is weight #33 corresponding to the third frame image constituting the learning video #3. In this manner, the model generation unit 134 may generate weighted learning frame feature #3'. In FIG. 5, the model generation unit 134 may generate (weight #31, weight #32, weight #33) * (V31, V32, V33) = (weight #31 * V31, weight #32 * V32, weight #33 * V33) = (V31', V32', V33') as the weighted learning frame feature #3'.

続いて、モデル生成部134は、重み付けされた学習用フレーム特徴量#3´を事前学習済み文章生成モデルM1(以下、「文章生成モデルM1」と略記する場合がある)に入力してよい(ステップS33)。例えば、モデル生成部134は、重み付けされた学習用フレーム特徴量#3´に基づく条件ベクトル#3を生成してよい。続いて、モデル生成部134は、生成した条件ベクトル#3とノイズベクトルを結合してよい。なお、モデル生成部134が、条件ベクトル#3とノイズベクトルを結合する方法は、図2で説明した事前学習において条件ベクトル#1とノイズベクトルを結合する方法と同様であってよい。以下では、図2と重複する説明は省略する。続いて、モデル生成部134は、結合された条件ベクトル#3とノイズベクトルを入力情報として条件付き生成モデルである文章生成モデルM1に入力してよい。 Then, the model generation unit 134 may input the weighted learning frame feature #3' to the pre-trained sentence generation model M1 (hereinafter, sometimes abbreviated as "sentence generation model M1") (step S33). For example, the model generation unit 134 may generate a condition vector #3 based on the weighted learning frame feature #3'. Then, the model generation unit 134 may combine the generated condition vector #3 with a noise vector. Note that the method by which the model generation unit 134 combines the condition vector #3 with the noise vector may be the same as the method by which the condition vector #1 with the noise vector is combined in the pre-training described in FIG. 2. In the following, the description that overlaps with FIG. 2 will be omitted. Then, the model generation unit 134 may input the combined condition vector #3 and noise vector as input information to the sentence generation model M1, which is a conditional generation model.

続いて、モデル生成部134は、結合された条件ベクトル#3とノイズベクトルの入力に応じて文章生成モデルM1が生成した動画説明文であって、文章生成モデルM1から出力情報として出力された動画説明文(以下、「学習用動画説明文#3」と記載する場合がある)を取得してよい(ステップS34)。モデル生成部134は、条件ベクトル#3に基づいて、条件ベクトル#3と対応する特徴を有する動画説明文を生成するように文章生成モデルM1を再学習させてよい。例えば、モデル生成部134は、バックプロパゲーション(誤差逆伝播法)等を用いて、文章生成モデルM1から出力された学習用動画説明文#3と、画像文データセット#3に含まれる画像説明文#3(オリジナルの画像#3に対応する画像説明文)との誤差が小さくなるように文章生成モデルM1を再学習させてよい。このようにして、モデル生成部134は、重み付けされた学習用フレーム特徴量#3´に基づいて、重み付けされた学習用フレーム特徴量#3´と対応する特徴を有する動画説明文を生成するように文章生成モデルM1を再学習させてよい。 Then, the model generation unit 134 may acquire the video description generated by the sentence generation model M1 in response to the input of the combined condition vector #3 and the noise vector, and output from the sentence generation model M1 as output information (hereinafter, may be referred to as "learning video description #3") (step S34). The model generation unit 134 may retrain the sentence generation model M1 so as to generate a video description having a feature corresponding to the condition vector #3 based on the condition vector #3. For example, the model generation unit 134 may retrain the sentence generation model M1 using backpropagation (error backpropagation method) or the like so as to reduce the error between the learning video description #3 output from the sentence generation model M1 and the image description #3 (image description corresponding to the original image #3) included in the image sentence data set #3. In this way, the model generation unit 134 may retrain the sentence generation model M1 so as to generate a video description having a feature corresponding to the weighted learning frame feature #3' based on the weighted learning frame feature #3'.

このように、モデル生成部134は、学習用フレーム特徴量#3と学習用重み#3とに基づいて、学習用動画#3の内容を説明する文章である学習用動画説明文#3であって、学習用重み#3によって重み付けされた学習用フレーム特徴量#3´と対応する特徴を有する学習用動画説明文#3を生成するように事前学習済み文章生成モデルM1を再学習させることにより、文章生成モデルM3を生成する。 In this way, the model generation unit 134 generates a sentence generation model M3 by re-training the pre-trained sentence generation model M1 to generate training video description #3, which is a sentence that explains the content of training video #3, based on training frame feature #3 and training weight #3, and has features corresponding to training frame feature #3' weighted by training weight #3.

図6は、実施形態に係る類似度を算出する方法について説明するための図である。フレーム画像およびオリジナルの画像#3は、画像の各ピクセルに対応する画素値を持っている。図6に示す例では、簡単のため、画像の画素が3×3の行列で表される場合について説明する。図6の左側は、学習用動画#3を構成する複数のフレーム画像のうちの一のフレーム画像を示す。図6の右側は、オリジナルの画像#3を示す。このとき、決定部133は、一のフレーム画像とオリジナルの画像#3の類似度として、一のフレーム画像とオリジナルの画像#3とのコサイン類似度を算出してよい。例えば、決定部133は、下記に示す数式(1)に従って、一のフレーム画像とオリジナルの画像#3とのコサイン類似度を算出してよい。 FIG. 6 is a diagram for explaining a method of calculating similarity according to an embodiment. The frame image and original image #3 have pixel values corresponding to each pixel of the image. In the example shown in FIG. 6, for simplicity, a case where the pixels of the image are expressed as a 3×3 matrix will be explained. The left side of FIG. 6 shows one of the multiple frame images constituting the learning video #3. The right side of FIG. 6 shows the original image #3. At this time, the determination unit 133 may calculate the cosine similarity between the one frame image and the original image #3 as the similarity between the one frame image and the original image #3. For example, the determination unit 133 may calculate the cosine similarity between the one frame image and the original image #3 according to the following formula (1).

Figure 0007619576000001
Figure 0007619576000001

例えば、決定部133は、上記の数式(1)に従って、一のフレーム画像とオリジナルの画像#3とのコサイン類似度を「{(1.2*0.2)+(2.4*7.2)+((-2.3)*0.9)+(0.8*(-2.4))+((-1.3)*(-3.9))+((-1.2)*(-3.6))+(2.0*6.0)+((-3.2)*9.6)+(0.3*1.9)}/{1.2+2.4+((-2.3))+0.8+((-1.3))+((-1.2))+2.0+((-3.2))+0.31/2{0.2+7.2+0.9+((-2.4))+((-3.9))+((-3.6))+6.0+9.6+1.91/2=0.05」と算出してよい。 For example, the determination unit 133 determines the cosine similarity between one frame image and the original image #3 in accordance with the above formula (1) as follows: {(1.2*0.2)+(2.4*7.2)+((-2.3)*0.9)+(0.8*(-2.4))+((-1.3)*(-3.9))+((-1.2)*(-3.6))+(2.0*6.0)+((-3.2)*9.6)+(0.3*1.9)}/{1.2 2 +2.4 2 +((-2.3)) 2 +0.8 2 +((-1.3)) 2 +((-1.2)) 2 +2.0 2 +((-3.2)) 2 +0.3 2 } 1/2 {0.2 2 +7.2 2 + 0.9 2 + ((-2.4)) 2 + ((-3.9)) 2 + ((-3.6)) 2 + 6.0 2 + 9.6 2 + 1.9 2 } 1/2 = 0.05.

〔6.推論方法〕
図7を用いて、実施形態に係る推論方法について説明する。図7は、実施形態に係る推論方法に関する情報処理の一例を示す図である。推論の段階では、図3で説明した第1の追加学習済みの文章生成モデルM2、または、図5で説明した第2の追加学習済みの文章生成モデルM3を用いて、処理対象の動画である対象動画の内容を説明する文章である対象動画説明文を生成する。図7では、文章生成部136が、第1の追加学習済みの文章生成モデルM2(以下、「文章生成モデルM2」と略記する場合がある)を用いて対象動画説明文を生成する場合について説明する。なお、文章生成部136は、文章生成モデルM2の代わりに、第2の追加学習済みの文章生成モデルM3(以下、「文章生成モデルM3」と略記する場合がある)を用いて対象動画説明文を生成してもよい。
6. Inference Method
The inference method according to the embodiment will be described with reference to FIG. 7. FIG. 7 is a diagram showing an example of information processing related to the inference method according to the embodiment. In the inference stage, the first additionally trained sentence generation model M2 described in FIG. 3 or the second additionally trained sentence generation model M3 described in FIG. 5 is used to generate a target video description, which is a sentence that describes the contents of a target video that is a video to be processed. FIG. 7 describes a case where the sentence generation unit 136 generates a target video description using the first additionally trained sentence generation model M2 (hereinafter, sometimes abbreviated as "sentence generation model M2"). Note that the sentence generation unit 136 may generate a target video description using the second additionally trained sentence generation model M3 (hereinafter, sometimes abbreviated as "sentence generation model M3") instead of the sentence generation model M2.

図7に示すように、推論の段階では、(1)対象動画を構成する各フレーム画像から画像特徴量を抽出する。(2)利用者から注目するフレーム画像(以下、「指定フレーム画像」と記載する場合がある)の指定を受け付け、指定フレーム画像に対応する重みが最大となるように複数のフレーム画像それぞれに対応する重みを決定する。(3)各フレーム画像から抽出された画像特徴量を各フレーム画像に対応する重みによって重み付けする。重み付けされた画像特徴量を条件として、条件付き生成モデルである文章生成モデルM2に入力する。(4)文章生成モデルM2によって対象動画説明文を生成する。 As shown in FIG. 7, in the inference stage, (1) image features are extracted from each frame image constituting the target video. (2) A frame image of interest (hereinafter sometimes referred to as a "designated frame image") is specified by the user, and weights corresponding to each of the multiple frame images are determined so that the weight corresponding to the designated frame image is maximized. (3) The image features extracted from each frame image are weighted by the weight corresponding to each frame image. The weighted image features are input as conditions to sentence generation model M2, which is a conditional generation model. (4) A description of the target video is generated by sentence generation model M2.

具体的には、抽出部132は、処理対象の動画である対象動画#4を取得してよい。例えば、抽出部132は、通信部110を介して、利用者によって使用される情報処理装置から対象動画#4を取得してよい。続いて、抽出部132は、対象動画#4を構成する複数のフレーム画像それぞれから、対象動画#4を構成する複数のフレーム画像それぞれの画像特徴量を抽出してよい(ステップS41)。なお、図3および図5と同様に、抽出部132が、各フレーム画像から画像特徴量を抽出する方法は、図2で説明した事前学習において各フレーム画像から画像特徴量を抽出する方法と同様であってよい。以下では、図2と重複する説明は省略する。図7では、簡単のため、対象動画#4を構成するフレーム画像が3つである場合について説明するが、対象動画#4を構成するフレーム画像の数は4つ以上であってよい。図7では、対象動画#4の開始時刻に対応する1枚目のフレーム画像と、対象動画#4の開始時刻と終了時刻の間の時刻に対応する2枚目のフレーム画像と、対象動画#4の終了時刻に対応する3枚目のフレーム画像とが時系列順に並んでいる様子を示す。例えば、抽出部132は、1枚目のフレーム画像から特徴量ベクトルV41を抽出する。また、抽出部132は、2枚目のフレーム画像から特徴量ベクトルV42を抽出する。また、抽出部132は、3枚目のフレーム画像から特徴量ベクトルV43を抽出する。続いて、抽出部132は、対象動画#4を構成する複数のフレーム画像それぞれの画像特徴量である対象フレーム特徴量#4として、特徴量ベクトルV41~V43の組のベクトル(V41、V42、V43)を取得してよい。 Specifically, the extraction unit 132 may acquire the target video #4, which is a video to be processed. For example, the extraction unit 132 may acquire the target video #4 from the information processing device used by the user via the communication unit 110. Next, the extraction unit 132 may extract image features of each of the multiple frame images constituting the target video #4 from each of the multiple frame images constituting the target video #4 (step S41). As in FIG. 3 and FIG. 5, the method in which the extraction unit 132 extracts image features from each frame image may be the same as the method in which image features are extracted from each frame image in the pre-learning described in FIG. 2. In the following, explanations that overlap with FIG. 2 will be omitted. In FIG. 7, for simplicity, a case in which the frame images constituting the target video #4 are three will be described, but the number of frame images constituting the target video #4 may be four or more. FIG. 7 shows a first frame image corresponding to the start time of the target video #4, a second frame image corresponding to a time between the start time and end time of the target video #4, and a third frame image corresponding to the end time of the target video #4, all arranged in chronological order. For example, the extraction unit 132 extracts a feature vector V41 from the first frame image. The extraction unit 132 also extracts a feature vector V42 from the second frame image. The extraction unit 132 also extracts a feature vector V43 from the third frame image. Next, the extraction unit 132 may acquire a vector (V41, V42, V43) of the set of feature vectors V41 to V43 as target frame feature #4, which is the image feature of each of the multiple frame images that make up the target video #4.

このように、抽出部132は、処理対象の動画である対象動画#4を構成する複数のフレーム画像それぞれの特徴量である対象フレーム特徴量#4を抽出する。 In this way, the extraction unit 132 extracts target frame features #4, which are features of each of the multiple frame images that make up target video #4, which is the video to be processed.

また、決定部133は、対象動画#4を構成する複数のフレーム画像の中から利用者によって指定されたフレーム画像(以下、「指定フレーム画像#4」と記載する場合がある)および対象動画#4を取得してよい。例えば、決定部133は、通信部110を介して、利用者によって使用される情報処理装置から指定フレーム画像#4および対象動画#4を取得してよい。続いて、決定部133は、対象動画#4を構成する複数のフレーム画像それぞれに対応する重みを決定してよい(ステップS41)。なお、図3および図5と同様に、抽出部132が画像特徴量を抽出する処理と、決定部133が重みを決定する処理は、いずれの処理が先に行われてもよく、抽出部132および決定部133によってそれぞれ同時に行われてもよい。 The determination unit 133 may also acquire a frame image designated by the user from among the multiple frame images constituting the target video #4 (hereinafter, may be referred to as "designated frame image #4") and the target video #4. For example, the determination unit 133 may acquire the designated frame image #4 and the target video #4 from an information processing device used by the user via the communication unit 110. Next, the determination unit 133 may determine weights corresponding to each of the multiple frame images constituting the target video #4 (step S41). Note that, as in FIGS. 3 and 5, the process of extracting image features by the extraction unit 132 and the process of determining weights by the determination unit 133 may be performed first, or may be performed simultaneously by the extraction unit 132 and the determination unit 133.

例えば、決定部133は、対象動画#4を構成する複数のフレーム画像のうち、指定フレーム画像#4に対応するフレーム画像の重みを指定フレーム画像#4に対応するフレーム画像以外の他のフレーム画像に対応する重みよりも大きくするように複数のフレーム画像それぞれに対応する重みを決定してよい。例えば、決定部133は、ガウス関数や円の一部のような凸状の関数であって、極大値の周囲が微分可能な関数の値に基づいて、複数のフレーム画像それぞれに対応する重みを決定してよい。図7では、決定部133は、図3と同様に、横軸を動画の再生時刻、縦軸を重みとするガウス関数の値を用いて複数のフレーム画像それぞれに対応する重みを決定してよい。例えば、決定部133は、ガウス関数の平均値に対応する時刻を指定フレーム画像#4に対応する2枚目のフレーム画像の再生時刻としてよい。また、決定部133は、ガウス関数の平均値に対応する時刻の値である「1.0」を指定フレーム画像#4に対応する2枚目のフレーム画像の重み#42としてよい。また、決定部133は、ガウス関数の平均値よりも小さい値に対応する時刻を1枚目のフレーム画像の再生時刻としてよい。また、決定部133は、ガウス関数の平均値よりも小さい値に対応する時刻の値である「0.8」を1枚目のフレーム画像の重み#41としてよい。また、決定部133は、ガウス関数の平均値よりも大きい値に対応する時刻を3枚目のフレーム画像の再生時刻としてよい。また、決定部133は、ガウス関数の平均値よりも大きい値に対応する時刻の値である「0.8」を3枚目のフレーム画像の重み#43としてよい。例えば、決定部133は、対象動画#4を構成する複数のフレーム画像それぞれに対応する重みである対象重み#4として、1枚目のフレーム画像の重み#41~2枚目のフレーム画像の重み#43の組のベクトル(重み#41、重み#42、重み#43)=(0.8、1.0、0.8)を取得してよい。 For example, the determination unit 133 may determine weights corresponding to each of the multiple frame images such that the weight of the frame image corresponding to the designated frame image #4 among the multiple frame images constituting the target video #4 is greater than the weights corresponding to the other frame images other than the frame image corresponding to the designated frame image #4. For example, the determination unit 133 may determine weights corresponding to each of the multiple frame images based on the value of a convex function such as a Gaussian function or a part of a circle, the periphery of which is differentiable around the maximum value. In FIG. 7, the determination unit 133 may determine weights corresponding to each of the multiple frame images using the value of a Gaussian function with the horizontal axis representing the playback time of the video and the vertical axis representing the weight, as in FIG. 3. For example, the determination unit 133 may determine the time corresponding to the average value of the Gaussian function as the playback time of the second frame image corresponding to the designated frame image #4. In addition, the determination unit 133 may determine the weight #42 of the second frame image corresponding to the designated frame image #4 to be "1.0", which is the value of the time corresponding to the average value of the Gaussian function. The determination unit 133 may also determine the time corresponding to a value smaller than the average value of the Gaussian function as the playback time of the first frame image. The determination unit 133 may also determine "0.8", which is the value of the time corresponding to a value smaller than the average value of the Gaussian function, as the weight #41 of the first frame image. The determination unit 133 may also determine the time corresponding to a value larger than the average value of the Gaussian function, as the playback time of the third frame image. The determination unit 133 may also determine "0.8", which is the value of the time corresponding to a value larger than the average value of the Gaussian function, as the weight #43 of the third frame image. For example, the determination unit 133 may obtain a vector (weight #41, weight #42, weight #43) = (0.8, 1.0, 0.8) of the set of weights #41 of the first frame image to #43 of the second frame image as target weight #4, which is the weight corresponding to each of the multiple frame images constituting the target video #4.

このように、決定部133は、対象動画#4を構成する複数のフレーム画像のうち、利用者によって指定された指定フレーム画像#4に対応する重み(図7では、2枚目のフレーム画像の重み#42である「1.0」)を指定フレーム画像以外の他のフレーム画像に対応する重み(図7では、1枚目のフレーム画像の重み#41である「0.8」および3枚目のフレーム画像の重み#43である「0.8」)よりも大きくするように複数のフレーム画像それぞれに対応する重みである対象重み#4を決定する。また、このように、決定部133は、対象動画#4を構成する複数のフレーム画像それぞれに対応する重みである対象重み#4を決定する。 In this way, the determination unit 133 determines target weights #4, which are weights corresponding to each of the multiple frame images that make up the target video #4, such that the weight corresponding to the designated frame image #4 designated by the user (in FIG. 7, weight #42 of the second frame image, "1.0") is greater than the weights corresponding to the other frame images other than the designated frame image (in FIG. 7, weight #41 of the first frame image, "0.8", and weight #43 of the third frame image, "0.8"). Also, in this way, the determination unit 133 determines target weights #4, which are weights corresponding to each of the multiple frame images that make up the target video #4.

また、文章生成部136は、決定部133によって決定された対象重み#4によって、抽出部132によって抽出された対象フレーム特徴量#4を重み付けしてよい。文章生成部136は、決定部133によって決定された対象重み#4によって重み付けされた対象フレーム特徴量#4である、重み付けされた対象フレーム特徴量#4´を生成してよい。図7では、文章生成部136は、対象動画#4を構成する1枚目のフレーム画像に対応する重み#41である「0.8」を特徴量ベクトルV41の各要素に乗じることにより、重み#41によって重み付けされた特徴量ベクトルV41´を生成してよい。また、文章生成部136は、対象動画#4を構成する2枚目のフレーム画像に対応する重み#42である「1.0」を特徴量ベクトルV42の各要素に乗じることにより、重み#42によって重み付けされた特徴量ベクトルV42´を生成してよい。また、文章生成部136は、対象動画#4を構成する3枚目のフレーム画像に対応する重み#43である「0.8」を特徴量ベクトルV43の各要素に乗じることにより、重み#43によって重み付けされた特徴量ベクトルV43´を生成してよい。このようにして、文章生成部136は、重み付けされた対象フレーム特徴量#4´を生成してよい。図7では、文章生成部136は、重み付けされた対象フレーム特徴量#4´として、(重み#41、重み#42、重み#43)*(V41、V42、V43)=(重み#41*V41、重み#42*V42、重み#43*V43)=(V41´、V42´、V43´)を生成してよい。 The sentence generation unit 136 may weight the target frame feature #4 extracted by the extraction unit 132 by the target weight #4 determined by the determination unit 133. The sentence generation unit 136 may generate a weighted target frame feature #4', which is the target frame feature #4 weighted by the target weight #4 determined by the determination unit 133. In FIG. 7, the sentence generation unit 136 may generate a feature vector V41' weighted by the weight #41 by multiplying each element of the feature vector V41 by "0.8", which is the weight #41 corresponding to the first frame image constituting the target video #4. The sentence generation unit 136 may generate a feature vector V42' weighted by the weight #42 by multiplying each element of the feature vector V42 by "1.0", which is the weight #42 corresponding to the second frame image constituting the target video #4. Furthermore, the sentence generation unit 136 may generate a feature vector V43' weighted by weight #43 by multiplying each element of the feature vector V43 by "0.8", which is weight #43 corresponding to the third frame image constituting the target video #4. In this manner, the sentence generation unit 136 may generate weighted target frame feature #4'. In FIG. 7, the sentence generation unit 136 may generate (weight #41, weight #42, weight #43) * (V41, V42, V43) = (weight #41 * V41, weight #42 * V42, weight #43 * V43) = (V41', V42', V43') as the weighted target frame feature #4'.

また、取得部135は、文章生成モデルM2を取得してよい。例えば、取得部135は、文章生成モデルM2に関する情報を格納している記憶部120から文章生成モデルM2を取得してよい。 The acquisition unit 135 may also acquire the sentence generation model M2. For example, the acquisition unit 135 may acquire the sentence generation model M2 from the storage unit 120, which stores information about the sentence generation model M2.

このように、取得部135は、撮像画像(図7では、図3で説明した画像#2)と撮像画像の内容を説明する文章である画像説明文(図7では、図3で説明した画像説明文#2)との組を含む画像文データセット#2に基づいて生成された学習用動画#2を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量#2と、学習用動画#2を構成する複数のフレーム画像それぞれに対応する重みである学習用重み#2とに基づいて、学習用動画#2の内容を説明する文章である学習用動画説明文#2であって、学習用重み#2によって重み付けされた学習用フレーム特徴量#2と対応する特徴を有する学習用動画説明文#2を生成するように学習された機械学習モデルである文章生成モデルM2を取得する。 In this way, the acquisition unit 135 acquires a sentence generation model M2, which is a machine learning model trained to generate training video description #2, which is a sentence explaining the content of the training video #2, having features corresponding to the training frame feature #2 weighted by the training weight #2, based on the training frame feature #2, which is a feature of each of the multiple frame images constituting the training video #2 generated based on the image and sentence dataset #2 including a pair of a captured image (in FIG. 7, image #2 described in FIG. 3) and an image description (in FIG. 7, image description #2 described in FIG. 3), which is a sentence explaining the content of the captured image, and based on the training weight #2, which is a weight corresponding to each of the multiple frame images constituting the training video #2.

また、文章生成部136は、取得部135によって取得された文章生成モデルM2に重み付けされた対象フレーム特徴量#4´を入力してよい(ステップS42)。例えば、文章生成部136は、重み付けされた対象フレーム特徴量#4´に基づく条件ベクトル#4を生成してよい。続いて、文章生成部136は、生成した条件ベクトル#4とノイズベクトルを結合してよい。なお、文章生成部136が、条件ベクトル#4とノイズベクトルを結合する方法は、図2で説明した事前学習において条件ベクトル#1とノイズベクトルを結合する方法と同様であってよい。以下では、図2と重複する説明は省略する。続いて、文章生成部136は、結合された条件ベクトル#4とノイズベクトルを入力情報として条件付き生成モデルである文章生成モデルM2に入力してよい。 The sentence generation unit 136 may input the weighted target frame feature #4' to the sentence generation model M2 acquired by the acquisition unit 135 (step S42). For example, the sentence generation unit 136 may generate a condition vector #4 based on the weighted target frame feature #4'. Next, the sentence generation unit 136 may combine the generated condition vector #4 with a noise vector. Note that the method by which the sentence generation unit 136 combines the condition vector #4 with the noise vector may be the same as the method by which the condition vector #1 with the noise vector is combined in the pre-learning described in FIG. 2. In the following, descriptions that overlap with FIG. 2 will be omitted. Next, the sentence generation unit 136 may input the combined condition vector #4 and noise vector as input information to the sentence generation model M2, which is a conditional generation model.

続いて、文章生成部136は、結合された条件ベクトル#4とノイズベクトルの入力に応じて文章生成モデルM2が生成した動画説明文であって、文章生成モデルM2から出力情報として出力された動画説明文(以下、「対象動画説明文#4」と記載する場合がある)を取得してよい(ステップS43)。 Next, the sentence generation unit 136 may acquire the video description generated by the sentence generation model M2 in response to the input of the combined condition vector #4 and the noise vector, and output as output information from the sentence generation model M2 (hereinafter, this may be referred to as "target video description #4") (step S43).

このように、文章生成部136は、対象フレーム特徴量#4と対象重み#4とに基づいて、対象重みによって重み付けされた対象フレーム特徴量#4´を文章生成モデルM2に入力して、対象動画#4の内容を説明する文章である対象動画説明文#4を生成する。 In this way, based on the target frame feature #4 and the target weight #4, the sentence generation unit 136 inputs the target frame feature #4' weighted by the target weight to the sentence generation model M2 to generate the target video description #4, which is a sentence that explains the content of the target video #4.

〔7.文章生成モデルの例〕
図8は、実施形態に係る文章生成モデルの一例である条件付き敵対的生成ネットワーク(CGAN)を示す図である。図8に示すように、文章生成モデルは、生成器ネットワークG1および識別器ネットワークD1を含む条件付き敵対的生成ネットワークであってよい。図8では、図3で説明した第1の追加学習または図5で説明した第2の追加学習について説明する。
[7. Example of a sentence generation model]
Fig. 8 is a diagram showing a conditional generative adversarial network (CGAN) as an example of a sentence generation model according to an embodiment. As shown in Fig. 8, the sentence generation model may be a conditional generative adversarial network including a generator network G1 and a classifier network D1. Fig. 8 describes the first additional learning described in Fig. 3 or the second additional learning described in Fig. 5.

図8に示す生成器ネットワークG1は、時系列データであるテキストの生成に向いている機械学習モデルであってよい。例えば、生成器ネットワークG1は、再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)、GRU(Gated Recurrent Unit)、LSTM(Long Short Term Memory)、Transformer(Ashish Vaswani et al., 2017)、TransformerをベースとしたBERT(Bidirectional Encoder Representations from Transformers)、GPT-3(Generative Pre-Training3)またはT5(Text-to-Text Transfer Transformer)等であってよい。 The generator network G1 shown in FIG. 8 may be a machine learning model suitable for generating text, which is time-series data. For example, the generator network G1 may be a recurrent neural network (RNN), a gated recurrent unit (GRU), a long short-term memory (LSTM), a transformer (Ashish Vaswani et al., 2017), a bidirectional encoder representations from transformers (BERT) based on a transformer, a generative pre-training3 (GPT-3), or a text-to-text transfer transformer (T5).

まず、モデル生成部134は、図2で説明した事前学習により、生成器ネットワークG1および識別器ネットワークD1を含む条件付き敵対的生成ネットワークを学習させてよい。例えば、モデル生成部134は、事前学習用フレーム特徴量#50に基づく条件ベクトルである事前学習用敵対的条件ベクトルV50を生成してよい。続いて、モデル生成部134は、事前学習用敵対的条件ベクトルV50およびノイズベクトルを入力情報として生成器ネットワークG1に入力した場合に、事前学習用敵対的条件ベクトルV50と対応する特徴を有する動画説明文を生成するように生成器ネットワークG1を学習させてよい。例えば、モデル生成部134は、バックプロパゲーション(誤差逆伝播法)等を用いて、生成器ネットワークG1から出力された動画説明文と、動画文データセット#50に含まれる事前学習用動画説明文#50との誤差が小さくなるように生成器ネットワークG1を学習させてよい。このように、モデル生成部134は、事前学習用フレーム特徴量#50に基づいて、事前学習用フレーム特徴量#50と対応する特徴を有する動画説明文を生成するように事前に学習された事前学習済み生成器ネットワークG1を生成してよい。 First, the model generation unit 134 may train a conditional generative adversarial network including the generator network G1 and the discriminator network D1 by the pre-learning described in FIG. 2. For example, the model generation unit 134 may generate a pre-learning adversarial condition vector V50, which is a condition vector based on the pre-learning frame feature #50. Next, the model generation unit 134 may train the generator network G1 to generate a video description having features corresponding to the pre-learning adversarial condition vector V50 when the pre-learning adversarial condition vector V50 and a noise vector are input to the generator network G1 as input information. For example, the model generation unit 134 may train the generator network G1 using backpropagation (error backpropagation method) or the like so that the error between the video description output from the generator network G1 and the pre-learning video description #50 included in the video description dataset #50 is reduced. In this way, the model generation unit 134 may generate a pre-trained generator network G1 that has been trained in advance to generate video description text having features that correspond to the pre-training frame feature #50, based on the pre-training frame feature #50.

また、モデル生成部134は、事前学習用敵対的条件ベクトル#および事前学習用動画説明文#50を入力情報として識別器ネットワークD1に入力した場合に、事前学習用動画説明文#50が、真の動画説明文であって、かつ、事前学習用敵対的条件ベクトルV50と対応する動画説明文であることを示す情報(例えば、数字の「1」など)を出力情報として出力するように識別器ネットワークD1を学習させてよい。なお、モデル生成部134は、例えば、線形変換処理を用いて、事前学習用敵対的条件ベクトルV50と事前学習用動画説明文#50のサイズが同じになるように調整してよい。続いて、モデル生成部134は、事前学習用敵対的条件ベクトルV50と事前学習用動画説明文#50を結合し、結合された事前学習用敵対的条件ベクトルV50と事前学習用動画説明文#50を入力情報として識別器ネットワークD1に入力してよい。また、モデル生成部134は、事前学習用敵対的条件ベクトルV50および生成器ネットワークG1が生成した偽の動画説明文を入力情報として識別器ネットワークD1に入力した場合に、生成器ネットワークG1が生成した偽の動画説明文が、真の動画説明文であって、かつ、事前学習用敵対的条件ベクトルV50と対応する動画説明文であることを示す情報以外の情報(例えば、数字の「0」など)を出力情報として出力するように識別器ネットワークD1を学習させてよい。このように、モデル生成部134は、事前学習用フレーム特徴量#50に基づいて、事前に学習された事前学習済み識別器ネットワークD1を生成してよい。 In addition, the model generation unit 134 may train the classifier network D1 so that when the pre-learning hostile condition vector # and the pre-learning video description #50 are input as input information to the classifier network D1, the classifier network D1 outputs information (e.g., the number "1") indicating that the pre-learning video description #50 is a true video description and is a video description corresponding to the pre-learning hostile condition vector V50 as output information. In addition, the model generation unit 134 may adjust the size of the pre-learning hostile condition vector V50 and the pre-learning video description #50 so that they are the same, for example, using a linear transformation process. Next, the model generation unit 134 may combine the pre-learning hostile condition vector V50 and the pre-learning video description #50, and input the combined pre-learning hostile condition vector V50 and the pre-learning video description #50 as input information to the classifier network D1. Furthermore, the model generation unit 134 may train the classifier network D1 so that when the pre-training adversarial condition vector V50 and the fake video description generated by the generator network G1 are input as input information to the classifier network D1, the classifier network D1 outputs information (e.g., the number "0") other than information indicating that the fake video description generated by the generator network G1 is a true video description and corresponds to the pre-training adversarial condition vector V50 as output information. In this way, the model generation unit 134 may generate a pre-trained classifier network D1 that has been trained in advance based on the pre-training frame feature #50.

また、モデル生成部134は、図3で説明した第1の追加学習または図5で説明した第2の追加学習により、事前学習済み生成器ネットワークG1(以下、「生成器ネットワークG1」と略記する場合がある)および事前学習済み識別器ネットワークD1(以下、「識別器ネットワークD1」と略記する場合がある)を再学習させてよい。 The model generation unit 134 may also retrain the pre-trained generator network G1 (hereinafter sometimes abbreviated as "generator network G1") and the pre-trained discriminator network D1 (hereinafter sometimes abbreviated as "discriminator network D1") by the first additional learning described in FIG. 3 or the second additional learning described in FIG. 5.

図8では、モデル生成部134は、学習用重みによって重み付けされた学習用フレーム特徴量に基づく条件ベクトルである第1の学習用敵対的条件ベクトルV51(以下、「第1の敵対的条件ベクトルV51」と略記する場合がある)を生成してよい。続いて、モデル生成部134は、第1の敵対的条件ベクトルV51およびノイズベクトルN1を入力情報として生成器ネットワークG1に入力した場合に、第1の敵対的条件ベクトルV51と対応する特徴を有する動画説明文(図8では、学習用動画説明文#51)を生成するよう生成器ネットワークG1を再学習させてよい。例えば、モデル生成部134は、バックプロパゲーション(誤差逆伝播法)等を用いて、生成器ネットワークG1から出力された学習用動画説明文#51と、画像文データセット#51に含まれる画像説明文#51(オリジナルの画像#51に対応する画像説明文)との誤差が小さくなるように生成器ネットワークG1を再学習させてよい。このようにして、モデル生成部134は、重み付けされた学習用フレーム特徴量に基づいて、重み付けされた学習用フレーム特徴量と対応する特徴を有する動画説明文を生成するように生成器ネットワークG1を再学習させてよい。このようにして、モデル生成部134は、第1の追加学習済みまたは第2の追加学習済みの生成器ネットワークG1を生成してよい。 In FIG. 8, the model generation unit 134 may generate a first training adversarial condition vector V51 (hereinafter, may be abbreviated as "first adversarial condition vector V51"), which is a condition vector based on the training frame feature weighted by the training weight. Next, the model generation unit 134 may retrain the generator network G1 so as to generate a video description (training video description #51 in FIG. 8) having features corresponding to the first adversarial condition vector V51 when the first adversarial condition vector V51 and the noise vector N1 are input to the generator network G1 as input information. For example, the model generation unit 134 may retrain the generator network G1 using backpropagation (error backpropagation method) or the like so as to reduce the error between the training video description #51 output from the generator network G1 and the image description #51 (image description corresponding to the original image #51) included in the image description dataset #51. In this manner, the model generation unit 134 may retrain the generator network G1 so as to generate video description sentences having features corresponding to the weighted training frame features based on the weighted training frame features. In this manner, the model generation unit 134 may generate a first additionally trained or second additionally trained generator network G1.

また、モデル生成部134は、第1の敵対的条件ベクトルV51および生成器ネットワークG1が生成した偽の動画説明文である学習用動画説明文#51を入力情報として識別器ネットワークD1に入力した場合に、学習用動画説明文#51が、真の動画説明文であって、かつ、第1の敵対的条件ベクトルV51と対応する動画説明文であることを示す情報以外の情報(例えば、数字の「0」など)を出力情報として出力するように識別器ネットワークD1を再学習させてよい。また、モデル生成部134は、事前学習用動画#52と事前学習用動画説明文#52との組を含む動画文データセット#52に含まれる事前学習用動画#52を構成する複数のフレーム画像それぞれの特徴量である事前学習用フレーム特徴量#52に基づく条件ベクトルである第2の学習用敵対的条件ベクトルV52(以下、「第2の敵対的条件ベクトルV52」と略記する場合がある)を生成してよい。続いて、モデル生成部134は、第2の敵対的条件ベクトルV52および事前学習用動画説明文#52を入力情報として識別器ネットワークD1に入力した場合に、事前学習用動画説明文#52が、真の動画説明文であって、かつ、第2の敵対的条件ベクトルV52と対応する動画説明文であることを示す情報(例えば、数字の「1」など)を出力情報として出力するように識別器ネットワークD1を再学習させてよい。このようにして、モデル生成部134は、第1の追加学習済みまたは第2の追加学習済みの識別器ネットワークD1を生成してよい。 In addition, when the first hostile condition vector V51 and the learning video description #51, which is a false video description generated by the generator network G1, are input as input information to the classifier network D1, the model generation unit 134 may retrain the classifier network D1 so that the learning video description #51 is a true video description and is a video description corresponding to the first hostile condition vector V51, and other information (e.g., the number "0") other than the information indicating that the learning video description #51 is a true video description and is a video description corresponding to the first hostile condition vector V51 is output as output information. In addition, the model generation unit 134 may generate a second learning hostile condition vector V52 (hereinafter, sometimes abbreviated as "second hostile condition vector V52") that is a condition vector based on the pre-learning frame feature #52, which is a feature of each of the multiple frame images constituting the pre-learning video #52 included in the video text data set #52 including the pair of the pre-learning video #52 and the pre-learning video description #52. Next, the model generation unit 134 may retrain the classifier network D1 so that, when the second adversarial condition vector V52 and the pre-learning video description #52 are input as input information to the classifier network D1, the classifier network D1 outputs information indicating that the pre-learning video description #52 is a true video description and is a video description corresponding to the second adversarial condition vector V52 (e.g., the number "1") as output information. In this manner, the model generation unit 134 may generate the first additionally trained or second additionally trained classifier network D1.

また、文章生成部136は、対象重みによって重み付けされた対象フレーム特徴量に基づく条件ベクトルである敵対的条件ベクトルV53を生成してよい。続いて、モデル生成部134は、敵対的条件ベクトルV53およびノイズベクトルN2を入力情報として生成器ネットワークG1に入力して、対象動画の内容を説明する文章である対象動画説明文を生成してよい。このようにして、文章生成部136は、対象フレーム特徴量と対象重みとに基づいて、対象重みによって重み付けされた対象フレーム特徴量を、第1の追加学習済みまたは第2の追加学習済みの生成器ネットワークG1に入力して、対象動画の内容を説明する文章である対象動画説明文を生成してよい。 The sentence generation unit 136 may also generate an adversarial condition vector V53, which is a condition vector based on the target frame features weighted by the target weight. Next, the model generation unit 134 may input the adversarial condition vector V53 and the noise vector N2 as input information to the generator network G1 to generate a target video description, which is a sentence that describes the contents of the target video. In this way, the sentence generation unit 136 may input the target frame features weighted by the target weight to the first additionally trained or second additionally trained generator network G1 based on the target frame features and the target weight to generate a target video description, which is a sentence that describes the contents of the target video.

〔8.変形例〕
上述した実施形態に係る処理は、上記実施形態以外にも種々の異なる形態にて実施されてよい。。
8. Modifications
The process according to the embodiment described above may be implemented in various different forms other than the above embodiment.

〔8-1.第1の変形例〕
上述した実施形態では、文章生成モデルが、生成器ネットワークおよび識別器ネットワークを含む条件付き敵対的生成ネットワークである場合について説明した。第1の変形例では、文章生成モデルが、エンコーダおよびデコーダを含む条件付き変分オートエンコーダである場合について説明する。
8-1. First Modified Example
In the above-described embodiment, the sentence generation model is a conditional generative adversarial network including a generator network and a classifier network. In a first modified example, the sentence generation model is a conditional variational autoencoder including an encoder and a decoder.

図9は、第1の変形例に係る文章生成モデルの一例である条件付き変分オートエンコーダ(CVAE)を示す図である。図9に示すように、文章生成モデルは、エンコーダEN1およびデコーダDE1を含む条件付き変分オートエンコーダであってよい。図9では、図2で説明した事前学習について説明する。 Figure 9 is a diagram showing a conditional variational autoencoder (CVAE), which is an example of a sentence generation model related to the first modified example. As shown in Figure 9, the sentence generation model may be a conditional variational autoencoder including an encoder EN1 and a decoder DE1. Figure 9 explains the pre-learning described in Figure 2.

まず、モデル生成部134は、図2で説明した事前学習により、エンコーダEN1およびデコーダDE1を含む条件付き条件付き変分オートエンコーダを学習させてよい。例えば、モデル生成部134は、事前学習用フレーム特徴量#60に基づく条件ベクトルである事前学習用変分条件ベクトルV60(以下、「変分条件ベクトルV60」と略記する場合がある)を生成してよい。続いて、モデル生成部134は、変分条件ベクトルV60および事前学習用動画説明文#60を入力情報としてエンコーダEN1に入力した場合に、多変量正規分布における平均ベクトルμおよび分散ベクトルσを出力情報として出力するようにエンコーダEN1を学習させてよい。また、モデル生成部134は、平均ベクトルμおよび分散ベクトルσに基づく多変量正規分布に従う標本である潜在ベクトルzを決定してよい。なお、モデル生成部134は、標準正規分布からランダムにサンプリングして得る確率変数εを導入し、これを用いて潜在ベクトルzを決定してよい。続いて、モデル生成部134は、潜在ベクトルzおよび変分条件ベクトルV60を入力情報としてデコーダDE1に入力した場合に、変分条件ベクトルV60と対応する特徴を有する動画説明文(図9では、事前学習用動画説明文#60)を出力情報として出力するようにデコーダDE1を学習させてよい。例えば、モデル生成部134は、バックプロパゲーション(誤差逆伝播法)等を用いて、エンコーダEN1に入力された事前学習用動画説明文#60と、デコーダDE1から出力された動画説明文との誤差が小さくなるようにエンコーダEN1およびデコーダDE1を学習させてよい。このように、モデル生成部134は、事前学習用フレーム特徴量#60に基づいて、事前学習用フレーム特徴量#60と対応する特徴を有する動画説明文を生成するように事前に学習された事前学習済みデコーダDE1を生成してよい。 First, the model generation unit 134 may train a conditional variational autoencoder including the encoder EN1 and the decoder DE1 by the pre-learning described in FIG. 2. For example, the model generation unit 134 may generate a pre-learning variational condition vector V60 (hereinafter, may be abbreviated as "variational condition vector V60"), which is a condition vector based on the pre-learning frame feature #60. Next, the model generation unit 134 may train the encoder EN1 so that, when the variational condition vector V60 and the pre-learning video description #60 are input to the encoder EN1 as input information, the encoder EN1 outputs the mean vector μ and variance vector σ in the multivariate normal distribution as output information. In addition, the model generation unit 134 may determine a latent vector z, which is a sample that follows a multivariate normal distribution based on the mean vector μ and variance vector σ. In addition, the model generation unit 134 may introduce a random variable ε obtained by randomly sampling from a standard normal distribution, and use this to determine the latent vector z. Next, the model generation unit 134 may train the decoder DE1 so that when the latent vector z and the variation condition vector V60 are input to the decoder DE1 as input information, the decoder DE1 outputs a video description (pre-learning video description #60 in FIG. 9) having a feature corresponding to the variation condition vector V60 as output information. For example, the model generation unit 134 may train the encoder EN1 and the decoder DE1 using backpropagation or the like so that the error between the pre-learning video description #60 input to the encoder EN1 and the video description output from the decoder DE1 is reduced. In this way, the model generation unit 134 may generate a pre-trained decoder DE1 that has been trained in advance to generate a video description having a feature corresponding to the pre-learning frame feature #60 based on the pre-learning frame feature #60.

また、モデル生成部134は、図3で説明した第1の追加学習または図5で説明した第2の追加学習により、事前学習済みデコーダDE1(以下、「デコーダDE1」と略記する場合がある)を再学習させてよい。 The model generation unit 134 may also retrain the pre-trained decoder DE1 (hereinafter sometimes abbreviated as "decoder DE1") by the first additional learning described in FIG. 3 or the second additional learning described in FIG. 5.

例えば、モデル生成部134は、エンコーダEN1から出力された平均ベクトルμおよび分散ベクトルσに基づく多変量正規分布に従う標本である潜在ベクトルzを決定してよい。また、モデル生成部134は、学習用重みによって重み付けされた学習用フレーム特徴量に基づく条件ベクトルである学習用変分条件ベクトルV61(以下、「変分条件ベクトルV61」と略記する場合がある)を生成してよい。続いて、モデル生成部134は、潜在ベクトルzおよび変分条件ベクトルV61を入力情報としてデコーダDE1に入力した場合に、変分条件ベクトルV61と対応する特徴を有する動画説明文を出力情報として出力するようにデコーダDE1を再学習させてよい。例えば、モデル生成部134は、バックプロパゲーション(誤差逆伝播法)等を用いて、デコーダDE1から出力された学習用動画説明文#61と、画像文データセット#61に含まれる画像説明文#61(オリジナルの画像#61に対応する画像説明文)との誤差が小さくなるようにデコーダDE1を再学習させてよい。このようにして、モデル生成部134は、重み付けされた学習用フレーム特徴量に基づいて、重み付けされた学習用フレーム特徴量と対応する特徴を有する動画説明文を生成するようにデコーダDE1を再学習させてよい。このようにして、モデル生成部134は、第1の追加学習済みまたは第2の追加学習済みのデコーダDE1を生成してよい。 For example, the model generation unit 134 may determine a latent vector z, which is a sample that follows a multivariate normal distribution based on the mean vector μ and variance vector σ output from the encoder EN1. The model generation unit 134 may also generate a training variation condition vector V61 (hereinafter, sometimes abbreviated as "variation condition vector V61"), which is a condition vector based on training frame features weighted by training weights. Next, the model generation unit 134 may retrain the decoder DE1 so that, when the latent vector z and the variation condition vector V61 are input to the decoder DE1 as input information, a video description having a feature corresponding to the variation condition vector V61 is output as output information. For example, the model generation unit 134 may retrain the decoder DE1 using backpropagation (error backpropagation method) or the like so that the error between the training video description #61 output from the decoder DE1 and the image description #61 (image description corresponding to the original image #61) included in the image description dataset #61 is reduced. In this manner, the model generation unit 134 may retrain the decoder DE1 so as to generate video description text having features corresponding to the weighted training frame features based on the weighted training frame features. In this manner, the model generation unit 134 may generate a first additionally trained or second additionally trained decoder DE1.

また、文章生成部136は、対象重みによって重み付けされた対象フレーム特徴量に基づく条件ベクトルである変分条件ベクトルV62を生成してよい。続いて、モデル生成部134は、潜在ベクトルzおよび変分条件ベクトルV62を入力情報としてデコーダDE1に入力して、対象動画の内容を説明する文章である対象動画説明文を生成してよい。このようにして、文章生成部136は、対象フレーム特徴量と対象重みとに基づいて、対象重みによって重み付けされた対象フレーム特徴量を、第1の追加学習済みまたは第2の追加学習済みのデコーダDE1に入力して、対象動画の内容を説明する文章である対象動画説明文を生成してよい。 The sentence generation unit 136 may also generate a variational condition vector V62, which is a condition vector based on the target frame features weighted by the target weight. Next, the model generation unit 134 may input the latent vector z and the variational condition vector V62 as input information to the decoder DE1 to generate a target video description, which is a sentence that describes the contents of the target video. In this way, the sentence generation unit 136 may input the target frame features weighted by the target weight to the first additionally trained or second additionally trained decoder DE1 based on the target frame features and the target weight to generate a target video description, which is a sentence that describes the contents of the target video.

〔8-2.第2の変形例〕
上述した実施形態では、文章生成モデルが、生成器ネットワークおよび識別器ネットワークを含む条件付き敵対的生成ネットワークである場合について説明した。また、第1の変形例では、文章生成モデルが、エンコーダおよびデコーダを含む条件付き変分オートエンコーダである場合について説明した。第2の変形例では、文章生成モデルが、条件付き拡散モデルである場合について説明する。
8-2. Second Modification
In the above-described embodiment, a case has been described in which the sentence generation model is a conditional generative adversarial network including a generator network and a discriminator network. In the first modified example, a case has been described in which the sentence generation model is a conditional variational autoencoder including an encoder and a decoder. In the second modified example, a case in which the sentence generation model is a conditional diffusion model will be described.

図10は、第2の変形例に係る文章生成モデルの一例である条件付き拡散モデルを示す図である。図10に示すように、文章生成モデルは、条件付き拡散モデルであってよい。図10では、図3で説明した第1の追加学習または図5で説明した第2の追加学習について説明する。 Figure 10 is a diagram showing a conditional diffusion model, which is an example of a sentence generation model related to the second modified example. As shown in Figure 10, the sentence generation model may be a conditional diffusion model. Figure 10 explains the first additional learning described in Figure 3 or the second additional learning described in Figure 5.

図10では、条件付き拡散モデルの学習処理に用いるデータの一例として、初期の動画説明文xに対してノイズが段階的に付与された複数のノイズ付き動画説明文を示す。モデル生成部134は、図10に示す複数のノイズ付き動画説明文を含む学習用データを用いて条件付き拡散モデルを学習させる。図10では、初期の動画説明文xは、ノイズの付与に関する段階が段階#0である。すなわち、ノイズが付加されていない動画説明文である。モデル生成部134は、初期の動画説明文xに徐々にガウスノイズを足していき、最終的に純粋なガウスノイズxを得る過程(拡散過程)において、初期の動画説明文xに対して何度か微小なノイズが付加されたノイズ付き動画説明文xt-1を生成する。ノイズ付き動画説明文xt-1は、ノイズの付与に関する段階が段階#t-1である。すなわち、初期の動画説明文xに対してノイズがt-1段階付与された動画説明文である。続いて、モデル生成部134は、ノイズ付き動画説明文xt-1に微小なノイズが付加されたノイズ付き動画説明文xを生成する。ノイズ付き動画説明文xは、ノイズ付き動画説明文xt-1に対してノイズがさらに1段階付加された動画説明文である。ノイズ付き動画説明文xは、ノイズの付与に関する段階が段階#tである。すなわち、初期の動画説明文xに対してノイズがt段階付与された動画説明文である。例えば、ノイズ付き動画説明文xは、ノイズ付き動画説明文xt-1にノイズを付与するノイズ付与処理により生成される。図10に示すq(x|xt-1)は、ノイズ付き動画説明文xt-1からノイズ付き動画説明文xに遷移する遷移確率を示す。 FIG. 10 shows a plurality of noise-added video descriptions in which noise is added stepwise to an initial video description x 0 as an example of data used in the learning process of the conditional diffusion model. The model generation unit 134 uses learning data including the plurality of noise-added video descriptions shown in FIG. 10 to train the conditional diffusion model. In FIG. 10, the initial video description x 0 is at stage #0 in terms of the addition of noise. That is, it is a video description to which no noise is added. The model generation unit 134 gradually adds Gaussian noise to the initial video description x 0 , and in the process (diffusion process) of finally obtaining pure Gaussian noise x T , generates a noise-added video description x t-1 in which minute noise is added several times to the initial video description x 0. The noise-added video description x t-1 is at stage #t-1 in terms of the addition of noise. That is, it is a video description to which noise is added t-1 stages to the initial video description x 0 . Next, the model generation unit 134 generates a noise-added video description xt in which minute noise is added to the noise-added video description xt-1 . The noise-added video description xt is a video description in which one more level of noise is added to the noise-added video description xt-1 . The noise-added video description xt is a stage #t in terms of noise addition. That is, it is a video description in which t levels of noise are added to the initial video description x0 . For example, the noise-added video description xt is generated by a noise addition process that adds noise to the noise-added video description xt-1 . q( xt | xt-1 ) shown in FIG. 10 indicates the transition probability of transitioning from the noise-added video description xt-1 to the noise-added video description xt .

続いて、モデル生成部134は、純粋なガウスノイズxから徐々にガウスノイズを除去していき、最終的にノイズが付加されていない動画説明文xを得る過程(逆拡散過程)において、ノイズ付き動画説明文xから微小なノイズを除去してノイズ付き動画説明文xt-1を生成する条件付き拡散モデルを学習させる。例えば、モデル生成部134は、ノイズ付き動画説明文xを入力とし、一つ手前の過程、すなわちノイズ付き動画説明文xからノイズを1段階除去したノイズ付き動画説明文xt-1を出力するように条件付き拡散モデルを学習させる。図10に示すpθ(xt-1|x、V71)は、ノイズ付き動画説明文xt-1からノイズ付き動画説明文xに遷移する遷移確率を示す。また、pθ(xt-1|x、V71)は、学習によって定まるパラメータθを持つニューラルネットワークの出力である。このように、モデル生成部134は、純粋なガウスノイズxを入力とし、徐々にノイズを除去していくことで、最終的にノイズが付加されていない動画説明文xを生成する機械学習モデルである条件付き拡散モデルを学習させる。 Next, the model generation unit 134 gradually removes Gaussian noise from the pure Gaussian noise x T , and in the process (reverse diffusion process) of finally obtaining a video description x 0 without added noise, the model generation unit 134 trains a conditional diffusion model that removes minute noise from the noisy video description x t to generate a noisy video description x t-1 . For example, the model generation unit 134 trains a conditional diffusion model so that the model generation unit 134 receives the noisy video description x t as input and outputs the noisy video description x t-1 obtained by removing noise from the previous process, that is, the noisy video description x t by one step. p θ (x t -1 | x t , V71) shown in FIG. 10 indicates the transition probability of transitioning from the noisy video description x t-1 to the noisy video description x t . Also, p θ (x t-1 | x t , V71) is the output of a neural network having a parameter θ determined by learning. In this way, the model generation unit 134 trains a conditional diffusion model, which is a machine learning model that takes pure Gaussian noise xT as input and gradually removes the noise, thereby ultimately generating a video description x0 to which no noise has been added.

まず、モデル生成部134は、図2で説明した事前学習により、条件付き拡散モデルを学習させてよい。例えば、モデル生成部134は、事前学習用フレーム特徴量#70に基づく条件ベクトルである事前学習用拡散条件ベクトルV70(以下、「拡散条件ベクトルV70」と略記する場合がある)を生成してよい。続いて、モデル生成部134は、拡散条件ベクトルV70を入力情報として条件付き拡散モデルに入力した場合に、ノイズベクトルが従う多変量正規分布における平均ベクトルおよび分散ベクトルを出力情報として出力するように条件付き拡散モデルを学習させてよい。例えば、モデル生成部134は、拡散条件ベクトルV70および純粋なガウスノイズベクトルを入力情報として条件付き拡散モデルに入力した場合に、拡散条件ベクトルV70と対応する特徴を有する動画説明文を生成するように条件付き拡散モデルを学習させてよい。例えば、モデル生成部134は、バックプロパゲーション(誤差逆伝播法)等を用いて、条件付き拡散モデルから出力された動画説明文と、動画文データセット#70に含まれる事前学習用動画説明文#70との誤差が小さくなるように条件付き拡散モデルを学習させてよい。このように、モデル生成部134は、事前学習用フレーム特徴量#70に基づいて、事前学習用フレーム特徴量#70と対応する特徴を有する動画説明文を生成するように事前に学習された事前学習済み条件付き拡散モデルを生成してよい。 First, the model generation unit 134 may train a conditional diffusion model by the pre-learning described in FIG. 2. For example, the model generation unit 134 may generate a pre-learning diffusion condition vector V70 (hereinafter, may be abbreviated as "diffusion condition vector V70"), which is a condition vector based on the pre-learning frame feature #70. Next, the model generation unit 134 may train the conditional diffusion model so that when the diffusion condition vector V70 is input as input information to the conditional diffusion model, the mean vector and variance vector in the multivariate normal distribution to which the noise vector follows are output as output information. For example, the model generation unit 134 may train the conditional diffusion model so that when the diffusion condition vector V70 and a pure Gaussian noise vector are input as input information to the conditional diffusion model, the model generation unit 134 may train the conditional diffusion model so as to generate a video description having characteristics corresponding to the diffusion condition vector V70. For example, the model generation unit 134 may use backpropagation or the like to train the conditional diffusion model so as to reduce the error between the video description output from the conditional diffusion model and the pre-training video description #70 included in the video description dataset #70. In this way, the model generation unit 134 may generate a pre-trained conditional diffusion model that has been trained in advance based on the pre-training frame feature #70 to generate a video description having features corresponding to the pre-training frame feature #70.

また、モデル生成部134は、図3で説明した第1の追加学習または図5で説明した第2の追加学習により、事前学習済み条件付き拡散モデル(以下、「条件付き拡散モデル」と略記する場合がある)を再学習させてよい。例えば、モデル生成部134は、学習用重みによって重み付けされた学習用フレーム特徴量に基づく条件ベクトルである学習用拡散条件ベクトルV71(以下、「拡散条件ベクトルV71」と略記する場合がある)を生成してよい。続いて、モデル生成部134は、学習用重みによって重み付けされた学習用フレーム特徴量に基づく条件ベクトルである拡散条件ベクトルV71を入力情報として条件付き拡散モデルに入力した場合に、ノイズベクトルが従う多変量正規分布における平均ベクトルおよび分散ベクトルを出力情報として出力するように条件付き拡散モデルを学習させてよい。例えば、モデル生成部134は、拡散条件ベクトルV71および純粋なガウスノイズを入力情報として条件付き拡散モデルに入力した場合に、拡散条件ベクトルV71と対応する特徴を有する動画説明文を生成するように条件付き拡散モデルを再学習させてよい。例えば、モデル生成部134は、バックプロパゲーション(誤差逆伝播法)等を用いて、条件付き拡散モデルから出力された学習用動画説明文#71と、画像文データセット#71に含まれる画像説明文#71(オリジナルの画像#71に対応する画像説明文)との誤差が小さくなるように条件付き拡散モデルを再学習させてよい。このようにして、モデル生成部134は、重み付けされた学習用フレーム特徴量に基づいて、重み付けされた学習用フレーム特徴量と対応する特徴を有する動画説明文を生成するように条件付き拡散モデルを再学習させてよい。このようにして、モデル生成部134は、第1の追加学習済みまたは第2の追加学習済みの条件付き拡散モデルを生成してよい。 The model generation unit 134 may retrain the pre-trained conditional diffusion model (hereinafter, may be abbreviated as "conditional diffusion model") by the first additional learning described in FIG. 3 or the second additional learning described in FIG. 5. For example, the model generation unit 134 may generate a learning diffusion condition vector V71 (hereinafter, may be abbreviated as "diffusion condition vector V71") which is a condition vector based on the learning frame feature weighted by the learning weight. Next, the model generation unit 134 may train the conditional diffusion model so that when the diffusion condition vector V71 which is a condition vector based on the learning frame feature weighted by the learning weight is input as input information to the conditional diffusion model, the model generation unit 134 outputs the mean vector and the variance vector in the multivariate normal distribution to which the noise vector follows as output information. For example, the model generation unit 134 may retrain the conditional diffusion model so that when the diffusion condition vector V71 and pure Gaussian noise are input as input information to the conditional diffusion model, the model generation unit 134 generates a video description having characteristics corresponding to the diffusion condition vector V71. For example, the model generation unit 134 may use backpropagation or the like to retrain the conditional diffusion model so as to reduce an error between the training video description #71 output from the conditional diffusion model and the image description #71 (image description corresponding to the original image #71) included in the image description dataset #71. In this manner, the model generation unit 134 may retrain the conditional diffusion model so as to generate a video description having features corresponding to the weighted training frame features based on the weighted training frame features. In this manner, the model generation unit 134 may generate a first additionally trained or second additionally trained conditional diffusion model.

また、文章生成部136は、学習済みの条件付き拡散モデル(以下、「条件付き拡散モデル」と略記する場合がある)を用いてノイズベクトルを推定し、ノイズ付き動画説明文特徴量からノイズベクトルを取り除くことにより、動画説明文を生成する。例えば、文章生成部136は、対象重みによって重み付けされた対象フレーム特徴量に基づく条件ベクトルである拡散条件ベクトルV72を生成してよい。続いて、モデル生成部134は、拡散条件ベクトルV72および純粋なガウスノイズベクトルを入力情報として条件付き拡散モデルに入力して、対象動画の内容を説明する文章である対象動画説明文を生成してよい。このようにして、文章生成部136は、対象フレーム特徴量と対象重みとに基づいて、対象重みによって重み付けされた対象フレーム特徴量を、第1の追加学習済みまたは第2の追加学習済みの条件付き拡散モデルに入力して、対象動画の内容を説明する文章である対象動画説明文を生成してよい。 The sentence generation unit 136 also generates a video description by estimating a noise vector using a trained conditional diffusion model (hereinafter sometimes abbreviated as "conditional diffusion model") and removing the noise vector from the noised video description feature. For example, the sentence generation unit 136 may generate a diffusion condition vector V72, which is a condition vector based on the target frame feature weighted by the target weight. Next, the model generation unit 134 may input the diffusion condition vector V72 and a pure Gaussian noise vector as input information to the conditional diffusion model to generate a target video description, which is a sentence that describes the contents of the target video. In this way, the sentence generation unit 136 may input the target frame feature weighted by the target weight to the first additionally trained or second additionally trained conditional diffusion model based on the target frame feature and the target weight to generate a target video description, which is a sentence that describes the contents of the target video.

〔9.効果〕
上述したように、実施形態に係る情報処理装置100は、動画生成部131と抽出部132と決定部133とモデル生成部134を備える。動画生成部131は、撮像画像と撮像画像の内容を説明する文章である画像説明文との組を含む画像文データセットに基づいて、学習用動画を生成する。抽出部132は、学習用動画を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量を抽出する。決定部133は、学習用動画を構成する複数のフレーム画像それぞれに対応する重みである学習用重みを決定する。モデル生成部134は、学習用フレーム特徴量と学習用重みとに基づいて、学習用動画の内容を説明する文章である学習用動画説明文であって、学習用重みによって重み付けされた学習用フレーム特徴量と対応する特徴を有する学習用動画説明文を生成するように学習された機械学習モデルである文章生成モデルを生成する。
9. Effects
As described above, the information processing device 100 according to the embodiment includes a video generating unit 131, an extracting unit 132, a determining unit 133, and a model generating unit 134. The video generating unit 131 generates a learning video based on an image and sentence data set including a pair of a captured image and an image description that is a sentence that describes the content of the captured image. The extracting unit 132 extracts learning frame features that are features of each of a plurality of frame images that constitute the learning video. The determining unit 133 determines learning weights that are weights corresponding to each of a plurality of frame images that constitute the learning video. The model generating unit 134 generates a sentence generation model that is a machine learning model trained to generate a learning video description that is a sentence that describes the content of the learning video and has features corresponding to the learning frame features weighted by the learning weight, based on the learning frame features and the learning weights.

これにより、情報処理装置100は、条件付き生成モデルに与える条件として、各フレーム画像に対応する重み付けされたフレーム特徴量を用いることにより、動画のどの部分(どのフレーム画像)を重視した動画説明文を生成するのかをコントロール可能とすることができる。また、情報処理装置100は、注目するフレーム画像に応じた多様な動画説明文を生成可能とすることができる。また、情報処理装置100は、注目するフレーム画像に応じた多様な動画説明文を生成可能とすることができるので、持続可能な開発目標(SDGs)の目標9「産業と技術革新の基盤をつくろう」の達成に貢献できる。また、情報処理装置100は、条件付き生成モデルに与える条件として、各フレーム画像に対応する重み付けされたフレーム特徴量を用いることにより、動画の時系列情報を自然言語生成に反映することを可能とすることができる。 As a result, the information processing device 100 can control which part of the video (which frame image) to emphasize when generating a video description by using weighted frame features corresponding to each frame image as a condition to be given to the conditional generative model. The information processing device 100 can also generate a variety of video descriptions according to the frame image of interest. The information processing device 100 can also generate a variety of video descriptions according to the frame image of interest, which can contribute to the achievement of Goal 9 of the Sustainable Development Goals (SDGs), "Build resilience, innovate and innovate." The information processing device 100 can also reflect the time-series information of the video in natural language generation by using weighted frame features corresponding to each frame image as a condition to be given to the conditional generative model.

また、動画生成部131は、画像から動画を生成する機械学習モデルである第1の動画生成モデルを用いて、画像文データセットに含まれる撮像画像から、撮像画像をフレームに含む学習用動画を生成する。決定部133は、学習用動画を構成する複数のフレーム画像のうち、撮像画像に対応する重みを撮像画像以外の他のフレーム画像に対応する重みよりも大きくするように複数のフレーム画像それぞれに対応する学習用重みを決定する。 The video generation unit 131 also generates a learning video including captured images in frames from captured images included in the image-sentence dataset using a first video generation model, which is a machine learning model that generates videos from images. The determination unit 133 determines learning weights corresponding to each of the multiple frame images constituting the learning video such that the weight corresponding to the captured image is greater than the weights corresponding to the other frame images other than the captured image.

これにより、情報処理装置100は、動画を構成する複数のフレーム画像のうち、動画を生成する元となった撮像画像を他のフレーム画像よりも重視した動画説明文を生成可能とすることができる。 This enables the information processing device 100 to generate a video description that places more importance on the captured image that was the source of generating the video than on the other frame images among the multiple frame images that make up the video.

また、動画生成部131は、文章から動画を生成する機械学習モデルである第2の動画生成モデルを用いて、画像文データセットに含まれる画像説明文から学習用動画を生成する。決定部133は、学習用動画を構成する複数のフレーム画像それぞれと撮像画像との類似度に関する情報を複数のフレーム画像それぞれに対応する学習用重みとする。 The video generation unit 131 also generates training videos from the image captions included in the image-sentence dataset using a second video generation model, which is a machine learning model that generates videos from text. The determination unit 133 sets information regarding the similarity between each of the multiple frame images constituting the training video and the captured image as training weights corresponding to each of the multiple frame images.

これにより、情報処理装置100は、動画を生成する元となった画像説明文に対応する撮像画像との類似度が低いフレーム画像よりも、動画を生成する元となった画像説明文に対応する撮像画像との類似度が高いフレーム画像を重視した動画説明文を生成可能とすることができる。 This enables the information processing device 100 to generate a video description that places emphasis on frame images that have a high similarity to the captured image corresponding to the image description from which the video was generated, rather than frame images that have a low similarity to the captured image corresponding to the image description from which the video was generated.

また、抽出部132は、撮像動画と撮像動画の内容を説明する文章である動画説明文との組を含む動画文データセットに含まれる撮像動画を構成する複数のフレーム画像それぞれの特徴量である事前学習用フレーム特徴量を抽出する。モデル生成部134は、事前学習用フレーム特徴量に基づいて、事前学習用フレーム特徴量と対応する特徴を有する動画説明文を生成するように事前に学習された機械学習モデルである事前学習済み文章生成モデルを生成し、学習用フレーム特徴量と学習用重みとに基づいて、学習用動画の内容を説明する文章である学習用動画説明文であって、学習用重みによって重み付けされた学習用フレーム特徴量と対応する特徴を有する学習用動画説明文を生成するように事前学習済み文章生成モデルを再学習させることにより、文章生成モデルを生成する。 The extraction unit 132 also extracts pre-training frame features, which are features of each of a plurality of frame images constituting the captured video included in a video text dataset including a pair of a captured video and a video description, which is a text that describes the content of the captured video. The model generation unit 134 generates a pre-trained text generation model, which is a machine learning model that has been trained in advance to generate a video description having features corresponding to the pre-training frame features, based on the pre-training frame features, and generates a text generation model by re-training the pre-trained text generation model to generate a training video description, which is a text that describes the content of the training video, based on the training frame features and the training weights, and which has features corresponding to the training frame features weighted by the training weights.

これにより、情報処理装置100は、フレーム特徴量と対応する特徴を有する動画説明文を生成可能とすることができる。 This enables the information processing device 100 to generate video description text that has characteristics corresponding to the frame features.

また、情報処理装置100は、取得部135と文章生成部136をさらに備える。取得部135は、撮像画像と撮像画像の内容を説明する文章である画像説明文との組を含む画像文データセットに基づいて生成された学習用動画を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量と、学習用動画を構成する複数のフレーム画像それぞれに対応する重みである学習用重みとに基づいて、学習用動画の内容を説明する文章である学習用動画説明文であって、学習用重みによって重み付けされた学習用フレーム特徴量と対応する特徴を有する学習用動画説明文を生成するように学習された機械学習モデルである文章生成モデルを取得する。抽出部132は、処理対象の動画である対象動画を構成する複数のフレーム画像それぞれの特徴量である対象フレーム特徴量を抽出する。決定部133は、対象動画を構成する複数のフレーム画像のうち、利用者によって指定された指定フレーム画像に対応する重みを指定フレーム画像以外の他のフレーム画像に対応する重みよりも大きくするように複数のフレーム画像それぞれに対応する重みである対象重みを決定する。文章生成部136は、対象フレーム特徴量と対象重みとに基づいて、対象重みによって重み付けされた対象フレーム特徴量を文章生成モデルに入力して、対象動画の内容を説明する文章である対象動画説明文を生成する。 The information processing device 100 further includes an acquisition unit 135 and a sentence generation unit 136. The acquisition unit 135 acquires a sentence generation model, which is a machine learning model trained to generate a learning video description, which is a sentence that describes the content of the learning video, having features corresponding to the learning frame features weighted by the learning weight, based on the learning frame features that are features of each of the multiple frame images constituting the learning video generated based on an image and sentence dataset including a pair of a captured image and an image description that is a sentence that describes the content of the captured image, and the learning weights that are weights corresponding to each of the multiple frame images constituting the learning video. The extraction unit 132 extracts target frame features that are features of each of the multiple frame images constituting the target video, which is a video to be processed. The determination unit 133 determines target weights that are weights corresponding to each of the multiple frame images such that the weight corresponding to the designated frame image designated by the user among the multiple frame images constituting the target video is larger than the weight corresponding to other frame images other than the designated frame image. The sentence generation unit 136 inputs the target frame features weighted by the target weights into a sentence generation model based on the target frame features and the target weights, and generates a target video description, which is a sentence that explains the contents of the target video.

これにより、情報処理装置100は、条件付き生成モデルに与える条件として、各フレーム画像に対応する重み付けされたフレーム特徴量を用いることにより、動画のどの部分(どのフレーム画像)を重視した動画説明文を生成するのかをコントロール可能とすることができる。また、情報処理装置100は、注目するフレーム画像に応じた多様な動画説明文を生成することができる。また、情報処理装置100は、注目するフレーム画像に応じた多様な動画説明文を生成することができるので、持続可能な開発目標(SDGs)の目標9「産業と技術革新の基盤をつくろう」の達成に貢献できる。また、情報処理装置100は、条件付き生成モデルに与える条件として、各フレーム画像に対応する重み付けされたフレーム特徴量を用いることにより、動画の時系列情報を自然言語生成に反映することを可能とすることができる。 As a result, the information processing device 100 can control which part of the video (which frame image) to emphasize when generating a video description by using weighted frame features corresponding to each frame image as a condition to be given to the conditional generative model. The information processing device 100 can also generate a variety of video descriptions according to the frame image of interest. The information processing device 100 can also generate a variety of video descriptions according to the frame image of interest, which can contribute to the achievement of Goal 9 of the Sustainable Development Goals (SDGs), "Build resilience, innovate and innovate." The information processing device 100 can also use weighted frame features corresponding to each frame image as a condition to be given to the conditional generative model, which can enable the time-series information of the video to be reflected in natural language generation.

また、文章生成モデルは、生成器ネットワークおよび識別器ネットワークを含む条件付き敵対的生成ネットワークであり、学習用重みによって重み付けされた学習用フレーム特徴量に基づく条件ベクトルである第1の敵対的条件ベクトルおよびノイズベクトルを入力情報として生成器ネットワークに入力した場合に、学習用動画説明文を出力情報として出力するように学習された生成器ネットワークと、撮像動画と撮像動画の内容を説明する文章である動画説明文との組を含む動画文データセットに含まれる撮像動画を構成する複数のフレーム画像それぞれの特徴量である事前学習用フレーム特徴量に基づく条件ベクトルである第2の敵対的条件ベクトルおよび動画説明文を入力情報として識別器ネットワークに入力した場合に、動画説明文が、真の動画説明文であって、かつ、第2の敵対的条件ベクトルと対応する動画説明文であることを示す情報を出力情報として出力するように学習された識別器ネットワークであって、第1の敵対的条件ベクトルおよび生成器ネットワークが生成した偽の動画説明文である学習用動画説明文を入力情報として識別器ネットワークに入力した場合に、学習用動画説明文が、真の動画説明文であって、かつ、第1の敵対的条件ベクトルと対応する動画説明文であることを示す情報以外の情報を出力情報として出力するように学習された識別器ネットワークと、を含む機械学習モデルである。 The sentence generation model is a conditional adversarial generative network including a generator network and a classifier network, and includes a generator network trained to output a learning video description as output information when a first adversarial condition vector, which is a condition vector based on training frame features weighted by training weights, and a noise vector are input as input information to the generator network, and a second adversarial condition vector, which is a condition vector based on pre-training frame features that are features of each of a plurality of frame images constituting a captured video included in a video text dataset that includes a pair of a captured video and a video description that is a text that explains the content of the captured video, and a noise vector, which is a condition vector based on pre-training frame features that are features of each of a plurality of frame images constituting a captured video included in a video text dataset that includes a pair of a captured video and a video description that is a text that explains the content of the captured video, A machine learning model including: a classifier network trained to output, as output information, information indicating that a video description is a true video description and that it corresponds to a second adversarial condition vector when an image description is input to the classifier network as input information; and a classifier network trained to output, as output information, information other than information indicating that a training video description is a true video description and that it corresponds to the first adversarial condition vector when a training video description, which is a false video description generated by a generator network, and a first adversarial condition vector and a training video description, are input to the classifier network as input information.

これにより、情報処理装置100は、条件付き敵対的生成ネットワークを用いて、注目するフレーム画像に応じた多様な動画説明文を生成することができる。 This allows the information processing device 100 to use a conditional generative adversarial network to generate a variety of video descriptions that correspond to the frame image of interest.

また、文章生成モデルは、エンコーダおよびデコーダを含む条件付き変分オートエンコーダであり、撮像動画と撮像動画の内容を説明する文章である動画説明文との組を含む動画文データセットに含まれる撮像動画を構成する複数のフレーム画像それぞれの特徴量である事前学習用フレーム特徴量に基づく条件ベクトルである第1の変分条件ベクトルおよび動画説明文を入力情報としてエンコーダに入力した場合に、多変量正規分布における平均ベクトルおよび分散ベクトルを出力情報として出力するように学習されたエンコーダと、平均ベクトルおよび分散ベクトルに基づく多変量正規分布に従う標本である潜在ベクトル、および、学習用重みによって重み付けされた学習用フレーム特徴量に基づく条件ベクトルである第2の変分条件ベクトルを入力情報としてデコーダに入力した場合に、学習用動画説明文を出力情報として出力するように学習されたデコーダと、を含む機械学習モデルである。 The sentence generation model is a conditional variational autoencoder including an encoder and a decoder, and is a machine learning model including an encoder trained to output a mean vector and a variance vector in a multivariate normal distribution as output information when a first variational condition vector, which is a condition vector based on pre-training frame features that are features of each of a plurality of frame images constituting a captured video included in a video text dataset including a pair of a captured video and a video description that is a text that explains the content of the captured video, and the video description are input as input information to the encoder, and a decoder trained to output the training video description as output information when a latent vector, which is a sample that follows a multivariate normal distribution based on the mean vector and the variance vector, and a second variational condition vector, which is a condition vector based on the training frame features weighted by the training weight, are input as input information to the decoder.

これにより、情報処理装置100は、条件付き変分オートエンコーダを用いて、注目するフレーム画像に応じた多様な動画説明文を生成することができる。 This allows the information processing device 100 to use a conditional variational autoencoder to generate a variety of video descriptions that correspond to the frame image of interest.

また、文章生成モデルは、条件付き拡散モデルであり、ノイズベクトルを含む学習用動画説明文であるノイズ付き動画説明文および学習用重みによって重み付けされた学習用フレーム特徴量に基づく条件ベクトルである拡散条件ベクトルを入力情報として条件付き拡散モデルに入力した場合に、ノイズベクトルが従う多変量正規分布における平均ベクトルおよび分散ベクトルを出力情報として出力するように学習された条件付き拡散モデルを用いてノイズベクトルを推定し、ノイズ付き動画説明文からノイズベクトルを取り除くことにより、学習用動画説明文を生成する機械学習モデルである。 The text generation model is a conditional diffusion model, and is a machine learning model that estimates the noise vector using the conditional diffusion model trained to output, as output information, the mean vector and variance vector in the multivariate normal distribution to which the noise vector follows when a noisy video description, which is a training video description including a noise vector, and a diffusion condition vector, which is a condition vector based on training frame features weighted by training weights, are input to the conditional diffusion model as input information, and generates a training video description by removing the noise vector from the noisy video description.

これにより、情報処理装置100は、条件付き拡散モデルを用いて、注目するフレーム画像に応じた多様な動画説明文を生成することができる。 This allows the information processing device 100 to use the conditional diffusion model to generate a variety of video descriptions that correspond to the frame image of interest.

〔10.ハードウェア構成〕
また、上述してきた実施形態に係る情報処理装置100は、例えば図11に示すような構成のコンピュータ1000によって実現される。図11は、情報処理装置100の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を備える。
10. Hardware Configuration
Moreover, the information processing device 100 according to the embodiment described above is realized by a computer 1000 having a configuration as shown in Fig. 11, for example. Fig. 11 is a hardware configuration diagram showing an example of a computer that realizes the functions of the information processing device 100. The computer 1000 includes a CPU 1100, a RAM 1200, a ROM 1300, a HDD 1400, a communication interface (I/F) 1500, an input/output interface (I/F) 1600, and a media interface (I/F) 1700.

CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。 The CPU 1100 operates based on a program stored in the ROM 1300 or the HDD 1400, and controls each component. The ROM 1300 stores a boot program executed by the CPU 1100 when the computer 1000 is started, and programs that depend on the hardware of the computer 1000, etc.

HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、所定の通信網を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを所定の通信網を介して他の機器へ送信する。 HDD 1400 stores programs executed by CPU 1100 and data used by such programs. Communication interface 1500 receives data from other devices via a specified communication network and sends it to CPU 1100, and transmits data generated by CPU 1100 to other devices via the specified communication network.

CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インターフェイス1600を介して出力装置へ出力する。 The CPU 1100 controls output devices such as a display and a printer, and input devices such as a keyboard and a mouse, via the input/output interface 1600. The CPU 1100 acquires data from the input devices via the input/output interface 1600. The CPU 1100 also outputs generated data to the output devices via the input/output interface 1600.

メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。 The media interface 1700 reads a program or data stored in the recording medium 1800 and provides it to the CPU 1100 via the RAM 1200. The CPU 1100 loads the program from the recording medium 1800 onto the RAM 1200 via the media interface 1700 and executes the loaded program. The recording medium 1800 is, for example, an optical recording medium such as a DVD (Digital Versatile Disc) or a PD (Phase change rewritable Disc), a magneto-optical recording medium such as an MO (Magneto-Optical disk), a tape medium, a magnetic recording medium, or a semiconductor memory.

例えば、コンピュータ1000が実施形態に係る情報処理装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。 For example, when the computer 1000 functions as the information processing device 100 according to the embodiment, the CPU 1100 of the computer 1000 executes programs loaded onto the RAM 1200 to realize the functions of the control unit 130. The CPU 1100 of the computer 1000 reads and executes these programs from the recording medium 1800, but as another example, the CPU 1100 may obtain these programs from another device via a specified communication network.

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。 Although several embodiments of the present application have been described in detail above with reference to the drawings, these are merely examples, and the present invention can be embodied in other forms that incorporate various modifications and improvements based on the knowledge of those skilled in the art, including the forms described in the disclosure section of the invention.

〔11.その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
11. Other
Furthermore, among the processes described in the above embodiments and modifications, all or part of the processes described as being performed automatically can be performed manually, or all or part of the processes described as being performed manually can be performed automatically by a known method. In addition, the information including the processing procedures, specific names, various data and parameters shown in the above documents and drawings can be changed arbitrarily unless otherwise specified. For example, the various information shown in each drawing is not limited to the illustrated information.

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。 In addition, each component of each device shown in the figure is a functional concept, and does not necessarily have to be physically configured as shown in the figure. In other words, the specific form of distribution and integration of each device is not limited to that shown in the figure, and all or part of them can be functionally or physically distributed and integrated in any unit depending on various loads, usage conditions, etc.

例えば、上述した実施形態では、情報処理装置100が、動画生成部131と、抽出部132と、決定部133と、モデル生成部134と、取得部135と、文章生成部136を機能部として有する場合について説明したが、各部はそれぞれ別々の装置に分散して構成することができる。例えば、情報処理装置100は、文章を生成する情報処理装置として、取得部135と、文章生成部136を機能部として有することができる。また、情報処理装置100以外の情報処理装置(以下、「生成装置」と記載する)は、文章生成モデルを生成する情報処理装置として、動画生成部131と、抽出部132と、決定部133と、モデル生成部134を機能部として有することができる。このとき、情報処理装置100と生成装置とは、各種ネットワークと有線または無線で接続され、相互に情報の送受信を行ってよい。例えば、情報処理装置100は、生成装置によって生成された文章生成モデルに関する情報を生成装置から受信してよい。 For example, in the above embodiment, the information processing device 100 has the video generation unit 131, the extraction unit 132, the determination unit 133, the model generation unit 134, the acquisition unit 135, and the sentence generation unit 136 as functional units. However, each unit can be distributed and configured in a separate device. For example, the information processing device 100 can have the acquisition unit 135 and the sentence generation unit 136 as functional units as an information processing device that generates sentences. In addition, an information processing device other than the information processing device 100 (hereinafter, referred to as a "generation device") can have the video generation unit 131, the extraction unit 132, the determination unit 133, and the model generation unit 134 as functional units as an information processing device that generates a sentence generation model. At this time, the information processing device 100 and the generation device may be connected to various networks by wire or wirelessly and may transmit and receive information to each other. For example, the information processing device 100 may receive information about the sentence generation model generated by the generation device from the generation device.

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。 The above-described embodiments and variations can be combined as appropriate to the extent that they do not cause inconsistencies in the processing content.

100 情報処理装置
110 通信部
120 記憶部
130 制御部
131 動画生成部
132 抽出部
133 決定部
134 モデル生成部
135 取得部
136 文章生成部
REFERENCE SIGNS LIST 100 Information processing device 110 Communication unit 120 Storage unit 130 Control unit 131 Video generation unit 132 Extraction unit 133 Determination unit 134 Model generation unit 135 Acquisition unit 136 Text generation unit

Claims (10)

撮像画像と前記撮像画像の内容を説明する文章である画像説明文との組を含む画像文データセットに基づいて、学習用動画を生成する動画生成部と、
前記学習用動画を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量を抽出する抽出部と、
前記学習用動画を構成する複数のフレーム画像のうち、前記撮像画像に対応する重みを前記撮像画像以外の他のフレーム画像に対応する重みよりも大きくするように前記複数のフレーム画像それぞれに対応する重みである学習用重みを決定する決定部と、
前記学習用フレーム特徴量と前記学習用重みとに基づいて、前記学習用動画の内容を説明する文章である学習用動画説明文であって、前記学習用重みによって重み付けされた前記学習用フレーム特徴量と対応する特徴を有する前記学習用動画説明文を生成するように学習された機械学習モデルである文章生成モデルを生成するモデル生成部と、
を備える情報処理装置。
A video generator that generates learning videos based on an image and text data set including a pair of a captured image and an image description text that explains the content of the captured image;
An extraction unit that extracts learning frame features that are features of each of a plurality of frame images that constitute the learning video;
A determination unit that determines learning weights corresponding to each of the plurality of frame images constituting the learning video such that a weight corresponding to the captured image is greater than weights corresponding to other frame images other than the captured image ; and
a model generation unit that generates a sentence generation model, which is a machine learning model trained to generate a training video description, which is a sentence explaining the content of the training video, based on the training frame features and the training weights, the training video description having features corresponding to the training frame features weighted by the training weights;
An information processing device comprising:
前記動画生成部は、
画像から動画を生成する機械学習モデルである第1の動画生成モデルを用いて、前記画像文データセットに含まれる前記撮像画像から、前記撮像画像をフレームに含む前記学習用動画を生成する
請求項1に記載の情報処理装置。
The video generation unit is
generating the learning video including the captured image in a frame from the captured image included in the image-sentence dataset using a first video generation model that is a machine learning model that generates a video from an image;
The information processing device according to claim 1 .
前記動画生成部は、
文章から動画を生成する機械学習モデルである第2の動画生成モデルを用いて、前記画像文データセットに含まれる前記画像説明文から前記学習用動画を生成し、
前記決定部は、
前記学習用動画を構成する複数のフレーム画像それぞれと前記撮像画像との類似度に関する情報を前記複数のフレーム画像それぞれに対応する前記学習用重みとする、
請求項1に記載の情報処理装置。
The video generation unit is
Using a second video generation model that is a machine learning model that generates videos from text, the training video is generated from the image caption included in the image and text dataset;
The determination unit is
information regarding a similarity between each of a plurality of frame images constituting the learning video and the captured image is set as the learning weight corresponding to each of the plurality of frame images;
The information processing device according to claim 1 .
前記抽出部は、
撮像動画と前記撮像動画の内容を説明する文章である動画説明文との組を含む動画文データセットに含まれる前記撮像動画を構成する複数のフレーム画像それぞれの特徴量である事前学習用フレーム特徴量を抽出し、
前記モデル生成部は、
前記事前学習用フレーム特徴量に基づいて、前記事前学習用フレーム特徴量と対応する特徴を有する前記動画説明文を生成するように事前に学習された機械学習モデルである事前学習済み文章生成モデルを生成し、前記学習用フレーム特徴量と前記学習用重みとに基づいて、前記学習用動画の内容を説明する文章である学習用動画説明文であって、前記学習用重みによって重み付けされた前記学習用フレーム特徴量と対応する特徴を有する前記学習用動画説明文を生成するように前記事前学習済み文章生成モデルを再学習させることにより、前記文章生成モデルを生成する、
請求項1に記載の情報処理装置。
The extraction unit is
Extracting pre-learning frame features which are features of each of a plurality of frame images constituting the captured video included in a video text dataset including a pair of a captured video and a video description text which is a text explaining the content of the captured video;
The model generation unit
Based on the pre-training frame features, a pre-trained sentence generation model is generated, which is a machine learning model that has been pre-trained to generate the video description having features corresponding to the pre-training frame features, and based on the training frame features and the training weights, a training video description is a sentence that explains the content of the training video, and the training video description has features corresponding to the training frame features weighted by the training weights, thereby generating the sentence generation model.
The information processing device according to claim 1 .
撮像画像と前記撮像画像の内容を説明する文章である画像説明文との組を含む画像文データセットに基づいて生成された学習用動画を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量と、前記学習用動画を構成する複数のフレーム画像それぞれに対応する重みである学習用重みとに基づいて、前記学習用動画の内容を説明する文章である学習用動画説明文であって、前記学習用重みによって重み付けされた前記学習用フレーム特徴量と対応する特徴を有する前記学習用動画説明文を生成するように学習された機械学習モデルである文章生成モデルを取得する取得部と、
処理対象の動画である対象動画を構成する複数のフレーム画像それぞれの特徴量である対象フレーム特徴量を抽出する抽出部と、
前記対象動画を構成する複数のフレーム画像のうち、利用者によって指定された指定フレーム画像に対応する重みを前記指定フレーム画像以外の他のフレーム画像に対応する重みよりも大きくするように前記複数のフレーム画像それぞれに対応する重みである対象重みを決定する決定部と、
前記対象フレーム特徴量と前記対象重みとに基づいて、前記対象重みによって重み付けされた前記対象フレーム特徴量を前記文章生成モデルに入力して、前記対象動画の内容を説明する文章である対象動画説明文を生成する文章生成部と、
を備える情報処理装置。
an acquisition unit that acquires a sentence generation model, which is a machine learning model trained to generate training video descriptions, which are sentences explaining the content of a training video, based on training frame features, which are features of each of a plurality of frame images constituting a training video generated based on an image and text dataset including a pair of a captured image and an image description, which is a sentence explaining the content of the captured image, and training weights, which are weights corresponding to each of a plurality of frame images constituting the training video, and which has features corresponding to the training frame features weighted by the training weights;
an extraction unit that extracts target frame features that are features of each of a plurality of frame images that constitute a target moving image that is a moving image to be processed;
a determination unit that determines target weights, which are weights corresponding to each of a plurality of frame images constituting the target moving image, such that a weight corresponding to a designated frame image designated by a user is made larger than weights corresponding to other frame images other than the designated frame image;
A sentence generation unit that inputs the target frame feature weighted by the target weight to the sentence generation model based on the target frame feature and the target weight, and generates a target video description sentence that is a sentence that explains the content of the target video;
An information processing device comprising:
前記文章生成モデルは、生成器ネットワークおよび識別器ネットワークを含む条件付き敵対的生成ネットワークであり、
前記学習用重みによって重み付けされた前記学習用フレーム特徴量に基づく条件ベクトルである第1の敵対的条件ベクトルおよびノイズベクトルを入力情報として前記生成器ネットワークに入力した場合に、前記学習用動画説明文を出力情報として出力するように学習された前記生成器ネットワークと、
撮像動画と前記撮像動画の内容を説明する文章である動画説明文との組を含む動画文データセットに含まれる前記撮像動画を構成する複数のフレーム画像それぞれの特徴量である事前学習用フレーム特徴量に基づく条件ベクトルである第2の敵対的条件ベクトルおよび前記動画説明文を入力情報として前記識別器ネットワークに入力した場合に、前記動画説明文が、真の動画説明文であって、かつ、前記第2の敵対的条件ベクトルと対応する動画説明文であることを示す情報を出力情報として出力するように学習された前記識別器ネットワークであって、前記第1の敵対的条件ベクトルおよび前記生成器ネットワークが生成した偽の動画説明文である前記学習用動画説明文を入力情報として前記識別器ネットワークに入力した場合に、前記学習用動画説明文が、真の動画説明文であって、かつ、前記第1の敵対的条件ベクトルと対応する動画説明文であることを示す情報以外の情報を出力情報として出力するように学習された前記識別器ネットワークと、を含む機械学習モデルである、
請求項1または5に記載の情報処理装置。
The sentence generation model is a conditional generative adversarial network including a generator network and a classifier network;
The generator network is trained to output the training video description as output information when a first adversarial condition vector, which is a condition vector based on the training frame features weighted by the training weights, and a noise vector are input to the generator network as input information;
The classifier network is trained to output, as output information, information indicating that the video description is a true video description and corresponds to the second adversarial condition vector, when a second adversarial condition vector, which is a condition vector based on pre-learning frame features that are features of each of a plurality of frame images constituting the captured video included in a video text dataset including a pair of a captured video and a video description that is a text that explains the content of the captured video, and the video description are input as input information to the classifier network, and the classifier network is trained to output, as output information, information indicating that the video description is a true video description and corresponds to the second adversarial condition vector, when the first adversarial condition vector and the training video description, which is a false video description generated by the generator network, are input as input information to the classifier network,
6. The information processing device according to claim 1 or 5.
前記文章生成モデルは、エンコーダおよびデコーダを含む条件付き変分オートエンコーダであり、
撮像動画と前記撮像動画の内容を説明する文章である動画説明文との組を含む動画文データセットに含まれる前記撮像動画を構成する複数のフレーム画像それぞれの特徴量である事前学習用フレーム特徴量に基づく条件ベクトルである第1の変分条件ベクトルおよび前記動画説明文を入力情報として前記エンコーダに入力した場合に、多変量正規分布における平均ベクトルおよび分散ベクトルを出力情報として出力するように学習された前記エンコーダと、
前記平均ベクトルおよび前記分散ベクトルに基づく前記多変量正規分布に従う標本である潜在ベクトル、および、前記学習用重みによって重み付けされた前記学習用フレーム特徴量に基づく条件ベクトルである第2の変分条件ベクトルを入力情報として前記デコーダに入力した場合に、前記学習用動画説明文を出力情報として出力するように学習された前記デコーダと、を含む機械学習モデルである、
請求項1または5に記載の情報処理装置。
the sentence generation model is a conditional variational autoencoder including an encoder and a decoder;
The encoder is trained to output a mean vector and a variance vector in a multivariate normal distribution as output information when a first variational condition vector, which is a condition vector based on pre-learning frame features that are features of each of a plurality of frame images constituting the captured video included in a video text data set including a pair of a captured video and a video description that is a text that explains the content of the captured video, and the video description are input as input information to the encoder;
a decoder that is trained to output the training video description as output information when a latent vector that is a sample following the multivariate normal distribution based on the mean vector and the variance vector, and a second variational condition vector that is a condition vector based on the training frame features weighted by the training weights are input to the decoder as input information.
6. The information processing device according to claim 1 or 5.
前記文章生成モデルは、条件付き拡散モデルであり、
ノイズベクトルを含む前記学習用動画説明文であるノイズ付き動画説明文および前記学習用重みによって重み付けされた前記学習用フレーム特徴量に基づく条件ベクトルである拡散条件ベクトルを入力情報として前記条件付き拡散モデルに入力した場合に、前記ノイズベクトルが従う多変量正規分布における平均ベクトルおよび分散ベクトルを出力情報として出力するように学習された前記条件付き拡散モデルを用いて前記ノイズベクトルを推定し、前記ノイズ付き動画説明文から前記ノイズベクトルを取り除くことにより、前記学習用動画説明文を生成する機械学習モデルである、
請求項1または5に記載の情報処理装置。
The sentence generation model is a conditional diffusion model,
a machine learning model that generates the training video description by estimating the noise vector using the conditional diffusion model that has been trained to output, as output information, a mean vector and a variance vector in a multivariate normal distribution that the noise vector follows when a noisy video description that is the training video description including a noise vector and a diffusion condition vector that is a condition vector based on the training frame features weighted by the training weight are input as input information to the conditional diffusion model, and removing the noise vector from the noisy video description;
6. The information processing device according to claim 1 or 5.
情報処理装置が実行するプログラムにより実現される情報処理方法であって、
撮像画像と前記撮像画像の内容を説明する文章である画像説明文との組を含む画像文データセットに基づいて、学習用動画を生成する動画生成工程と、
前記学習用動画を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量を抽出する抽出工程と、
前記学習用動画を構成する複数のフレーム画像のうち、前記撮像画像に対応する重みを前記撮像画像以外の他のフレーム画像に対応する重みよりも大きくするように前記複数のフレーム画像それぞれに対応する重みである学習用重みを決定する決定工程と、
前記学習用フレーム特徴量と前記学習用重みとに基づいて、前記学習用動画の内容を説明する文章である学習用動画説明文であって、前記学習用重みによって重み付けされた前記学習用フレーム特徴量と対応する特徴を有する前記学習用動画説明文を生成するように学習された機械学習モデルである文章生成モデルを生成するモデル生成工程と、
を含む情報処理方法。
An information processing method implemented by a program executed by an information processing device, comprising:
A video generation process for generating learning videos based on an image and text data set including a pair of a captured image and an image description text that explains the content of the captured image;
An extraction step of extracting learning frame features which are features of each of a plurality of frame images constituting the learning video;
A determination step of determining learning weights corresponding to each of the plurality of frame images constituting the learning video such that the weight corresponding to the captured image is greater than the weights corresponding to other frame images other than the captured image ;
a model generation process for generating a sentence generation model, which is a machine learning model trained to generate a training video description, which is a sentence explaining the content of the training video, based on the training frame features and the training weights, the training video description having features corresponding to the training frame features weighted by the training weights;
An information processing method comprising:
情報処理装置が実行するプログラムにより実現される情報処理方法であって、
撮像画像と前記撮像画像の内容を説明する文章である画像説明文との組を含む画像文データセットに基づいて生成された学習用動画を構成する複数のフレーム画像それぞれの特徴量である学習用フレーム特徴量と、前記学習用動画を構成する複数のフレーム画像それぞれに対応する重みである学習用重みとに基づいて、前記学習用動画の内容を説明する文章である学習用動画説明文であって、前記学習用重みによって重み付けされた前記学習用フレーム特徴量と対応する特徴を有する前記学習用動画説明文を生成するように学習された機械学習モデルである文章生成モデルを取得する取得工程と、
処理対象の動画である対象動画を構成する複数のフレーム画像それぞれの特徴量である対象フレーム特徴量を抽出する抽出工程と、
前記対象動画を構成する複数のフレーム画像のうち、利用者によって指定された指定フレーム画像に対応する重みを前記指定フレーム画像以外の他のフレーム画像に対応する重みよりも大きくするように前記複数のフレーム画像それぞれに対応する重みである対象重みを決定する決定工程と、
前記対象フレーム特徴量と前記対象重みとに基づいて、前記対象重みによって重み付けされた前記対象フレーム特徴量を前記文章生成モデルに入力して、前記対象動画の内容を説明する文章である対象動画説明文を生成する文章生成工程と、
を含む情報処理方法。
An information processing method implemented by a program executed by an information processing device, comprising:
an acquisition process for acquiring a sentence generation model, which is a machine learning model trained to generate training video description, which is a sentence explaining the content of the training video, based on training frame features, which are features of each of a plurality of frame images constituting the training video, generated based on an image and text dataset including a pair of a captured image and an image description, which is a sentence explaining the content of the captured image, and training weights, which are weights corresponding to each of a plurality of frame images constituting the training video, and which has features corresponding to the training frame features weighted by the training weights;
an extraction step of extracting target frame features which are features of each of a plurality of frame images constituting a target moving image which is a moving image to be processed;
a determining step of determining target weights, which are weights corresponding to each of a plurality of frame images constituting the target moving image, such that a weight corresponding to a designated frame image designated by a user is made larger than weights corresponding to other frame images other than the designated frame image;
A sentence generation process of inputting the target frame feature weighted by the target weight to the sentence generation model based on the target frame feature and the target weight to generate a target video description sentence which is a sentence explaining the content of the target video;
An information processing method comprising:
JP2023032994A 2023-03-03 2023-03-03 Information processing device and information processing method Active JP7619576B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023032994A JP7619576B2 (en) 2023-03-03 2023-03-03 Information processing device and information processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2023032994A JP7619576B2 (en) 2023-03-03 2023-03-03 Information processing device and information processing method

Publications (2)

Publication Number Publication Date
JP2024124970A JP2024124970A (en) 2024-09-13
JP7619576B2 true JP7619576B2 (en) 2025-01-22

Family

ID=92677709

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023032994A Active JP7619576B2 (en) 2023-03-03 2023-03-03 Information processing device and information processing method

Country Status (1)

Country Link
JP (1) JP7619576B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN120782921B (en) * 2025-09-10 2025-11-11 快上云(上海)网络科技有限公司 AI-based child story drawing generation method and system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019096179A (en) 2017-11-27 2019-06-20 ホーチキ株式会社 Behavior monitoring system
JP2019092972A (en) 2017-11-27 2019-06-20 ホーチキ株式会社 Water discharge-type fire extinguishing equipment
JP2021009693A (en) 2019-06-28 2021-01-28 ユニファ株式会社 Device, method, and program for generating image selection
JP2022180942A (en) 2021-05-25 2022-12-07 ソフトバンク株式会社 Information processing device, information processing method, and information processing program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019096179A (en) 2017-11-27 2019-06-20 ホーチキ株式会社 Behavior monitoring system
JP2019092972A (en) 2017-11-27 2019-06-20 ホーチキ株式会社 Water discharge-type fire extinguishing equipment
JP2021009693A (en) 2019-06-28 2021-01-28 ユニファ株式会社 Device, method, and program for generating image selection
JP2022180942A (en) 2021-05-25 2022-12-07 ソフトバンク株式会社 Information processing device, information processing method, and information processing program

Also Published As

Publication number Publication date
JP2024124970A (en) 2024-09-13

Similar Documents

Publication Publication Date Title
EP3979200B1 (en) Video target tracking method and apparatus, computer device and storage medium
CN112889108B (en) Speech classification using audiovisual data
Mittal et al. Sync-draw: Automatic video generation using deep recurrent attentive architectures
US12073321B2 (en) Method and apparatus for training image caption model, and storage medium
CN109978882A (en) A kind of medical imaging object detection method based on multi-modal fusion
CN117478978A (en) A method, system and device for text generating movie video clips
GB2545661A (en) A method for analysing media content
CN108985370B (en) Image annotation sentence automatic generation method
US11288851B2 (en) Signal change apparatus, method, and program
WO2025140746A2 (en) Model training method and apparatus based on multi-modal data, and device and storage medium
JP6955233B2 (en) Predictive model creation device, predictive model creation method, and predictive model creation program
US20230196714A1 (en) Image processing apparatus, method for controlling the same, and storage medium
CN111047543A (en) Image enhancement method, device and storage medium
JP7547945B2 (en) Recognition system, recognition method, program, learning method, trained model, distillation model, and learning dataset generation method
Liu et al. Ada-dqa: Adaptive diverse quality-aware feature acquisition for video quality assessment
CN112084887A (en) Attention mechanism-based self-adaptive video classification method and system
WO2023169696A1 (en) Training object discovery neural networks and feature representation neural networks using self-supervised learning
CN107516102A (en) View data is classified and establishes disaggregated model method, apparatus and system
Krishnan et al. SwiftSRGAN-Rethinking super-resolution for efficient and real-time inference
WO2023045627A1 (en) Image super-resolution method, apparatus and device, and storage medium
JP7619576B2 (en) Information processing device and information processing method
Endo et al. Cnn-based classification of degraded images without sacrificing clean images
CN118898658A (en) Abstract background generated
Parekh et al. A survey of image enhancement and object detection methods
Krishnamurthi et al. Sign language translator using deep learning techniques

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231019

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240820

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20241017

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20241210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20241225

R150 Certificate of patent or registration of utility model

Ref document number: 7619576

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150