JP7643638B2 - Training data generation device, training data generation method, and program - Google Patents
Training data generation device, training data generation method, and program Download PDFInfo
- Publication number
- JP7643638B2 JP7643638B2 JP2024504339A JP2024504339A JP7643638B2 JP 7643638 B2 JP7643638 B2 JP 7643638B2 JP 2024504339 A JP2024504339 A JP 2024504339A JP 2024504339 A JP2024504339 A JP 2024504339A JP 7643638 B2 JP7643638 B2 JP 7643638B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- training data
- learning
- video
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Description
本発明は、動画から当該動画の要約テキストを生成するための要約モデルの学習に使用する学習データを生成する技術に関連するものである。 The present invention relates to a technology for generating training data used to train a summary model for generating summary text of a video from the video.
近年オンライン会議などが増加し、会議等のプレゼンテーションの動画がインターネット上に多数公開されている。 In recent years, online meetings have become more common, and many videos of presentations at these meetings have been made available on the Internet.
一般にプレゼンテーション動画は時間が長いため、その内容を把握するためには長時間動画を見なければならない。そのため、プレゼンテーション動画の内容を短時間で把握したいという要求がある。 Generally, presentation videos are long, so to understand the content one must watch the video for a long time. Therefore, there is a demand to understand the content of presentation videos in a short amount of time.
プレゼンテーション動画の内容を短時間で把握するために、ニューラルネットワークのモデル(要約モデルと呼ぶ)を用いて、プレゼンテーション動画の要約を表すテキスト(要約テキスト)を生成することが考えられる。In order to quickly grasp the contents of a presentation video, it is possible to use a neural network model (called a summary model) to generate text (summary text) that represents a summary of the presentation video.
しかし、プレゼンテーション動画においては、要約モデルを学習する際に使用する正解データ(学習データ)の量が少なく、収集した正解データのみでは十分な精度を持つ要約モデルを生成できなかった。この課題は、プレゼンテーション動画に限らずに、要約を生成する対象となる動画全般に対して生じ得る課題である。 However, in the case of presentation videos, the amount of correct answer data (training data) used to train the summary model was small, and it was not possible to generate a summary model with sufficient accuracy using only the correct answer data that was collected. This issue is not limited to presentation videos, but can occur with any video for which summaries are to be generated.
本発明は上記の点に鑑みてなされたものであり、動画から要約テキストを生成する要約モデルを学習するための学習データを生成することを可能とする技術を提供することを目的とする。The present invention has been made in consideration of the above points, and aims to provide a technology that makes it possible to generate training data for training a summary model that generates summary text from video.
開示の技術によれば、動画に対する要約テキストを生成する要約モデルの学習のための学習データセットを生成する学習データ生成装置であって、
前記動画における画像から抽出されたテキストである第1テキスト、前記動画における音声から抽出されたテキストである第2テキスト、及び、前記動画の正解の要約テキストを有する元の学習データセットから、少なくとも1つの更なる学習データセットを生成する学習データ生成部
を備える学習データ生成装置が提供される。
According to the disclosed technology, there is provided a training data generation device for generating a training data set for training a summary model that generates a summary text for a video, the device comprising:
The present invention provides a training data generation device including: a training data generation unit configured to generate at least one further training data set from an original training data set having a first text, the first text being text extracted from an image in the video, a second text being text extracted from an audio in the video, and a ground-truth summary text of the video.
開示の技術によれば、動画から要約テキストを生成する要約モデルを学習するための学習データを生成することを可能とする技術が提供される。 The disclosed technology provides technology that enables the generation of training data for training a summarization model that generates summary text from video.
以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。Hereinafter, an embodiment of the present invention (the present embodiment) will be described with reference to the drawings. The embodiment described below is merely an example, and the embodiment to which the present invention is applicable is not limited to the following embodiment.
以下で説明する要約生成装置100及び要約モデル学習装置200はいずれも、論文から要約を生成するような従来技術に対して特定の改善を提供するものであり、動画から要約を生成する技術に係る技術分野の向上を示すものである。Both the
以下で説明するデータ拡張部400(学習データ生成装置400)は、要約を人手で生成するような従来技術に対して特定の改善を提供するものであり、動画の要約テキストを生成するための要約モデルを学習する技術に係る技術分野の向上を示すものである。The data augmentation unit 400 (training data generation device 400) described below provides certain improvements over conventional techniques such as manually generating summaries and represents an advancement in the technical field relating to techniques for learning summary models for generating summary text for videos.
以下では、要約を生成する対象の動画として、プレゼンテーション動画を用いているが、これは例である。本発明に係る技術は、プレゼンテーション動画に限らない動画全般に適用することが可能である。In the following, a presentation video is used as the video for which a summary is to be generated, but this is just an example. The technology according to the present invention can be applied to any video, not just presentation videos.
(実施の形態の概要)
近年オンライン会議などが増加し、会議等のプレゼンテーションの動画が多数公開されている。一般にプレゼンテーション動画は時間が長いため、その内容を短時間で把握したいという要求がある。プレゼンテーション動画の内容を短時間で把握するために、プレゼンテーション動画の要約が生成できることが望ましい。
(Overview of the embodiment)
In recent years, online conferences have become more common, and many videos of presentations at conferences and other events have been made public. Generally, presentation videos are long, so there is a demand for the content to be understood in a short time. In order to understand the content of a presentation video in a short time, it is desirable to be able to generate a summary of the presentation video.
そこで、本実施の形態では、プレゼンテーション動画に対応する要約テキストを生成するための技術について説明する。 Therefore, in this embodiment, we describe a technology for generating summary text corresponding to a presentation video.
<プレゼンテーション動画の例>
一例として、「https://slideslive.com/38928967/predicting-depression-in-screening-interviews-from-latent-categorization-of-interview-prompts」(2022年2月27日検索)、「https://videolectures.net/」(2022年2月27日検索)等に開示されているように、一般的なプレゼンテーション動画は、発表内容を記載したスライドの画像と、発表者の画像と、発表者の音声からなる。なお、発表者の画像が表示されない場合も多い。
<Example of presentation video>
As an example, as disclosed in "https://slideslive.com/38928967/predicting-depression-in-screening-interviews-from-latent-categorization-of-interview-prompts" (searched February 27, 2022) and "https://videolectures.net/" (searched February 27, 2022), a typical presentation video consists of an image of a slide containing the content of the presentation, an image of the presenter, and the voice of the presenter. Note that in many cases, the image of the presenter is not displayed.
<プレゼンテーション動画から要約テキストを作成する基本的な処理の流れ>
プレゼンテーション動画から要約テキストを作成する基本的な処理の流れを、図1を参照して説明する。なお、以降の説明においては、記載の便宜上、プレゼンテーション動画を「動画」と呼び、要約テキストを「要約」と呼ぶ場合がある。
<Basic process flow for creating summary text from a presentation video>
The basic process flow for creating a summary text from a presentation video will be described with reference to Fig. 1. In the following description, for convenience, the presentation video may be referred to as a "video" and the summary text may be referred to as a "summary".
まず、要約作成の対象となる動画から、要約生成部130への入力データとなる、(A)プレゼンテーションスライド、(B)動画から切り出した画像、及び(C)音声を用意する。First, from the video for which a summary is to be created, (A) presentation slides, (B) images extracted from the video, and (C) audio are prepared as input data for the
なお、(A)のプレゼンテーションスライドは、動画とは別のファイルであることを想定している。また、入力データとして、(A)、(B)、(C)の3つのうちの少なくとも1つがあれば要約生成は可能であるが、より精度の良い要約を生成するために、(A)、(B)、(C)の3つ、あるいは、(A)と(C)の2つ、あるいは、(B)と(C)の2つがあることが望ましい。 It is assumed that the presentation slides in (A) are separate files from the video. Also, a summary can be generated if at least one of the three input data (A), (B), and (C) is available. However, to generate a more accurate summary, it is preferable to have three input data (A), (B), and (C), or two input data (A) and (C), or two input data (B) and (C).
次に、画像認識/音声認識によりテキストに変換した入力データを要約生成部130に入力し、要約生成部が要約テキストを出力する。要約生成部130は、後述する要約生成装置100に含まれる機能部である。Next, the input data converted into text by image recognition/voice recognition is input to the
<要約生成技術について>
本実施の形態において要約生成部130がテキストから要約を生成するために、ニューラルネットワークのモデル(これを要約モデルと呼ぶ)を使用している。
About summary generation technology
In this embodiment, the
テキストを入力して要約テキストを出力するモデルであればどのような要約モデルを使用してもよいが、本実施の形態では、一例として、非特許文献1に開示されたBARTに基づくモデルを使用している。Any summarization model can be used as long as it inputs text and outputs summary text, but in this embodiment, as an example, we use a model based on BART disclosed in
BARTは、エンコーダとデコーダからなるモデルである。学習済みのモデルを使用することで、エンコーダへテキストを入力すると、デコーダから要約テキストが出力される。 BART is a model consisting of an encoder and a decoder. By using a trained model, when text is input to the encoder, a summary text is output from the decoder.
<課題について>
従来から、テキストを入力して要約を出力する技術は存在したが、マルチモーダルの入力データから要約を出力する技術は見られない。すなわち、従来技術においては、プレゼンテーション動画等の、音声と画像(スライド画像等)を含む動画から適切に要約テキストを生成する技術は存在しなかった。
<About the assignment>
Although there have been conventional technologies that input text and output a summary, there has been no technology that outputs a summary from multimodal input data. In other words, there has been no conventional technology that appropriately generates a summary text from a video that includes audio and images (slide images, etc.), such as a presentation video.
上記の課題を、実施形態の観点からより具体的な課題に分けるとすると、下記のような課題1~3に分けることができる。If we were to divide the above issues into more specific issues from the perspective of the implementation form, they could be divided into
課題1:動画に対する要約を生成するための要約モデルを学習する際に使用する、正解の要約テキストを含む学習データを作成する作成コストが高い。 Challenge 1: The cost of creating training data containing correct summary text to be used when training a summarization model to generate summaries for videos is high.
課題2:動画から音声及び画像を抽出して、これらを入力として要約テキストを出力する要約モデルを用いた要約生成技術は存在しない。 Challenge 2: There is no summary generation technology that uses a summary model that extracts audio and images from video and uses these as input to output summary text.
課題3:動画に対する要約を生成するための要約モデルを学習する際に使用する、正解の要約テキストを外部サーバ等から収集できたとしても、その量が少ないため、学習データの量が少なくなり、精度の良い要約モデルを生成できない。 Issue 3: Even if it were possible to collect correct summary text from an external server, etc. to use when training a summary model for generating summaries for videos, the amount of data would be small, resulting in a small amount of training data and making it impossible to generate an accurate summary model.
以下、プレゼンテーション動画から要約を生成する要約生成装置100、及び、要約生成装置100において使用される要約モデルを生成(学習)するための要約モデル学習装置200のそれぞれについて、その構成と動作を説明する。以下で説明する技術により、上記の課題1~3が解決される。Below, we will explain the configuration and operation of a
(要約生成装置100の構成と動作)
図2に、本実施の形態における要約生成装置100の構成図を示す。図2に示すように、要約生成装置100は、画像処理部110、音声処理部120、要約生成部130、要約モデルDB(データベース)140を有する。要約モデルDB140には、学習済みの要約モデルが格納されている。なお、本明細書におけるDBを記憶部あるいは格納部と呼んでもよい。
(Configuration and Operation of Summary Generation Device 100)
Fig. 2 shows a configuration diagram of a
図3のフローチャートを参照して、図2に示す要約生成装置100の動作の流れを説明する。
The operation flow of the
要約を作成する対象の動画から音声情報と画像情報を抽出しておき、S101において、画像情報を画像処理部110に入力し、音声情報を音声処理部120に入力する。なお、図2の例では、動画から音声情報と画像情報(特に画像情報)を抽出する機能部については、要約生成装置100の外部にあることを想定するが、要約生成装置100の内部に当該機能部を備えてもよい。Audio information and image information are extracted from the video for which a summary is to be created, and in S101, the image information is input to the
S102において、画像処理部110が、画像認識技術を用いて、画像からテキストを抽出する。画像処理部110は、テキストに加えて、付随する補助情報(スライド中の文字の色など)を抽出してもよい。In S102, the
S103において、音声処理部120は、音声認識技術を用いて、音声からテキストを抽出する。なお、S102とS103の処理の順番は逆であってもよいし、S102とS103を同時に実行してもよい。In S103, the
S102で抽出されたテキスト、及び、S102で抽出されたテキストは、要約生成部130に入力される。S104において、要約生成部130は、要約モデルDB140から読み出した要約モデルを用いて、S102で抽出されたテキスト、及び、S103で抽出されたテキストから要約を生成する。要約モデルの学習のところでも説明するとおり、要約モデルへの入力として、テキストに加えて、文字の配置特徴量、画像特徴量、音声特徴量のうちのいずれか1つ、いずれか複数、又は全部を追加した情報を使用してもよい。なお、「要約モデル」の実態は、ニューラルネットワークを構成する関数及び重みパラメータ等からなるデータである。S104において、要約生成部130は、生成した要約を出力する。The text extracted in S102 and the text extracted in S103 are input to the
上記のように、動画から得られる音声情報と画像情報の双方を用いることで、高品質な要約を生成することができる。As described above, by using both audio and image information obtained from a video, a high-quality summary can be generated.
動画から音声情報と画像情報を抽出する機能部、画像処理部110、及び、音声処理部120における処理についてはそれぞれ、後述する要約モデル学習装置200の学習データ入力部220、画像処理部230、及び、音声処理部240における処理と同じであるため、これらの詳細処理については、要約モデル学習装置220の説明のところで説明する。The processing in the functional units that extract audio and image information from video, the
本実施の形態の要約生成装置100により、前述した課題2が解決され、動画から音声及び画像を抽出して、これらを入力として要約テキストを出力する要約モデルを用いた要約生成技術を実現できる。なお、要約モデルについては、以下で説明する要約モデル学習装置200により学習が行われる。The
(要約モデル学習装置の構成と動作)
図4に、本実施の形態における要約モデル学習装置200の構成例を示す。図4に示すように、要約モデル学習装置200は、データ取得部210、学習データ入力部220、画像処理部230、音声処理部240、要約モデル学習部250、データ拡張部400、モデル設定部270、事前学習済みの要約モデルを格納する要約モデルDB280、学習中の要約モデルを格納する要約モデルDB290を有する。
(Configuration and operation of summary model learning device)
Fig. 4 shows an example of the configuration of a summary model learning device 200 in this embodiment. As shown in Fig. 4, the summary model learning device 200 has a
本実施の形態では、要約モデルの学習時において、プレゼンテーションと内容的には類似性が高いと考えられる論文の要約を事前に大量に学習した要約モデルを作成し、その要約モデルに対して少量のプレゼンテーションの要約データを用いてファインチューンする。これにより、プレゼンテーション動画に対する正解の要約データが少量でも高い精度を達成することを可能としている。In this embodiment, when training the summary model, a summary model is created that has been trained in advance on a large number of summaries of papers that are considered to have a high similarity in content to the presentation, and the summary model is fine-tuned using a small amount of presentation summary data. This makes it possible to achieve high accuracy even with a small amount of correct summary data for the presentation video.
なお、上記のように事前学習を行うことは、課題3の解決方法の1つである。事前学習を行わずに、後述するデータ拡張部400により生成された更なる学習データを使用することでも、課題3を解決することができる。事前学習を行うことと、後述するデータ拡張部400により生成された更なる学習データを使用することとを組み合わせてもよい。
Note that performing pre-learning as described above is one method of solving problem 3. Problem 3 can also be solved by using further learning data generated by the
図4に示す構成は、上記の事前学習を行う場合の構成を示しているが、事前学習を行わずにデータ拡張部400で生成された学習データによる学習を行ってもよい。また、事前学習を行った要約モデルに対して、データ拡張部400で生成された学習データによる学習を行ってもよい。
The configuration shown in FIG. 4 shows a configuration in the case where the above-mentioned pre-learning is performed, but learning may be performed using the learning data generated by the
事前学習のための構成を図5に示す。図5に示すように、事前学習のための構成として、要約モデル事前学習部310と、事前学習中の要約モデルを格納する要約モデルDB320を有する。The configuration for pre-learning is shown in Figure 5. As shown in Figure 5, the configuration for pre-learning includes a summary
要約モデル事前学習部310と要約モデルDB320とを有する要約モデル事前学習装置(要約モデル学習装置200とは別の装置)を構成してもよいし、要約モデル事前学習部310と要約モデルDB320が要約モデル学習装置200内に含まれていてもよい。A summary model pre-training device (a device separate from the summary model training device 200) may be configured having the summary model
図6のフローチャートを参照して、要約モデル学習装置200及び要約モデル事前学習部310の動作の流れを説明する。詳細処理については後述する。The flow of operations of the summary model learning device 200 and the summary
S201、S202は、図5に示した事前学習のための構成における処理である。S201において、要約モデル事前学習部310に事前学習用データを入力する。事前学習用データは、例えば、プレゼンテーションに関連する論文のテキストと、その論文の要約(正解データ)である。
S201 and S202 are processes in the configuration for pre-learning shown in Figure 5. In S201, pre-learning data is input to the summary
S202において、要約モデル事前学習部310は、入力データを用いて、要約モデルを学習(事前学習)する。事前学習済みの要約モデルは、要約モデル学習装置200における要約モデルDB280に格納される。In S202, the summary model
S203~S207は、図4に示した要約モデル学習装置200における処理である。S203の入力処理において、データ取得部210にアクセス情報(例:論文及びプレゼンテーション動画が公開されているURL)を入力する。データ取得部210は、アクセス情報を用いて、例えばネットワーク上のサーバから、学習データを取得して、学習データ入力部220に入力する。学習データは、例えば、論文に関するプレゼンテーション動画と、当該動画に対応する正解の要約テキストである。S203では更に、学習データ入力部220が、プレゼンテーション動画を画像情報と音声情報に分ける処理を行い、画像情報を画像処理部230に入力し、音声情報を音声処理部240に入力し、正解の要約を要約モデル学習部250に入力する。
S203 to S207 are processes in the summary model learning device 200 shown in Figure 4. In the input process of S203, access information (e.g., the URL where the paper and presentation video are published) is input to the
なお、学習データ入力部220が画像処理部230へ入力する画像情報は、プレゼンテーション動画とは別ファイルになっているスライド画像等であってもよいし、プレゼンテーション動画から抽出したスライド画像等であってもよい。いずれの場合でも当該画像を「動画における画像」又は「動画に関する画像」と表現してもよい。いずれの場合でも、「動画における画像」又は「動画に関する画像」から画像認識処理により、テキストを抽出できる。
The image information input by the learning
なお、以降の説明では、画像処理部230へ入力する画像情報は、プレゼンテーション動画から抽出したスライド画像等であることを想定している。In the following explanation, it is assumed that the image information input to the
S204において、画像処理部230が、画像認識技術を用いて、画像からテキストを抽出する。画像処理部230は、テキストに加えて、付随する補助情報(スライド中の文字の色など)、文字の配置特徴量、画像特徴量などを抽出してもよい。In S204, the
S205において、音声処理部120は、音声認識技術を用いて、音声からテキストを抽出する。音声処理部120は、テキストに加えて、音声特徴量などを抽出してもよい。なお、S204とS205の処理の順番は逆であってもよいし、S204とS205を同時に実行してもよい。In S205, the
S204で抽出されたテキスト、及び、S205で抽出されたテキストは、要約モデル学習部250に入力される。また、正解の要約も要約モデル学習部250に入力される。The text extracted in S204 and the text extracted in S205 are input to the summary
ここで、モデル設定部270により、要約モデルDB280から事前学習済みの要約モデルが読み出され、要約モデルDB290に、当該事前学習済みの要約モデルが格納されている。この事前学習済みの要約モデルにおけるパラメータを初期値として、以下の学習(ファインチューニング)が行われる。Here, the
S206において、要約モデル学習部250は、要約モデルDB290から読み出した要約モデルを用いて、S204で抽出されたテキスト、及び、S205で抽出されたテキストから要約を生成するとともに、生成した要約と正解の要約との間の誤差が最小になるように要約モデルの学習(パラメータの更新)を行う。In S206, the summary
学習が終了すると、要約モデル学習部250は、学習済みの要約モデルを要約生成装置100の要約モデルDB140に格納する。
Once the learning is completed, the summary
なお、上記の例では、事前学習を行って、事前学習済みの学習モデルをファインチューンする例を示しているが、前述したように、事前学習は必須ではない。事前学習を実施せずに、図6のS203から処理を開始することとしてもよい。事前学習を実施しない場合における要約モデルのパラメータの初期値はランダムな値であってもよいし、ランダムな値以外の値であってもよい。 Note that in the above example, pre-learning is performed to fine-tune the pre-trained learning model, but as mentioned above, pre-learning is not required. Processing may be started from S203 in FIG. 6 without performing pre-learning. When pre-learning is not performed, the initial values of the parameters of the summary model may be random values or values other than random values.
以下では、S201~S207における各ステップの処理内容をより詳細に説明する。 Below, the processing contents of each step from S201 to S207 are explained in more detail.
(S201、S202:事前学習)
図5に示した要約モデル事前学習部310が実行する事前学習の詳細例を説明する。事前学習においては、要約の対象とするプレゼンテーション動画の分野に関連する分野のテキスト(関連分野テキストと呼ぶ)と、その正解の要約を用いて要約モデルの学習を行う。関連分野テキストは、例えば、論文テキスト(論文の本文のテキスト)、スライドのテキスト等である。
(S201, S202: Pre-learning)
A detailed example of pre-learning performed by the summary
関連分野テキストとして、論文テキストを使用する場合における、要約モデルへの入力、及び、要約モデルからの出力の例を図7に示す。前述したとおり、本実施の形態に係る要約モデルは、エンコーダとデコーダからなるモデルである。 Figure 7 shows an example of input to and output from the summary model when a research paper text is used as the related field text. As mentioned above, the summary model in this embodiment is a model consisting of an encoder and a decoder.
図7に示すとおり、エンコーダに論文の本文テキストが入力され、デコーダから要約テキストが出力される。出力される要約テキストと正解の要約テキストとの間の誤差が最小になるように要約モデルの学習がなされる。入力としてスライドテキストを使用する場合でも処理内容は論文テキストを用いる場合と同じである。As shown in Figure 7, the main text of a paper is input to the encoder, and summary text is output from the decoder. A summary model is trained to minimize the error between the output summary text and the correct summary text. When slide text is used as input, the processing is the same as when paper text is used.
なお、テキストのエンコーダへの入力の際には、テキストのトークン列がまずd次元の固定次元ベクトルに変換され、その後、エンコーダ‐デコーダを通して要約テキストに変換される。When text is input to the encoder, the token sequence of the text is first converted into a fixed dimension vector of d dimensions, and then converted into summary text through the encoder-decoder.
入力となる論文テキストの例を以下に示す。 An example of input paper text is shown below.
「We assume familiarity with basic notions of graph theory (see, for instance, 1]) and with elementary notions of polyhedral combinatorics (see, for instance, 6]).", "Our graphs will be undirected and simple (no loops and no multiple edges).", "As usual, K n denotes the complete graph with n vertices; K n;m denotes the complete bipartite graph with n + m vertices and n m edges.", "Let G be a graph; G is connected if for every pair of distinct vertices there exists a path in G joining them; G is twoconnected if for every vertex v of G, the graph G ?", "v is connected; G is planar if it can be embedded in the plane.", "A subgraph H of a G is spanning if the vertex sets of H and G are the same.", "Subdivision of an edge uv of G consists of removing edge uv, and adding a new vertex w and the two edges uw and vw; w is called subdivision vertex.", "If G and H are two graphs, we say that G contains a subdivision of H, if H arises by subdivision of the edges of some subgraph of G. As usual, (u) denotes the set of all edges that are incident in the vertex u.", "In automatic graph drawing the following problem arises: nd in a complete graph with weights on its edges a two-connected planar spanning subgraph with weight as Partially supported by DFG-Grant JU204/7-1 Forschungsschwerpunkt \" E ziente Algorithmen f ur diskrete Probleme und ihre Anw…」
上記入力に対する出力(あるいは正解データである要約テキスト)の例を以下に示す。
"We assume familiarity with basic notions of graph theory (see, for instance, 1]) and with elementary notions of polyhedral combinatorics (see, for instance, 6]).", "Our graphs will be undirected and simple (no loops and no multiple edges).", "As usual, K n denotes the complete graph with n vertices; K n;m denotes the complete bipartite graph with n + m vertices and nm edges.", "Let G be a graph; G is connected if for every pair of distinct vertices there exists a path in G joining them; G is twoconnected if for every vertex v of G, the graph G ?", "v is connected; G is planar if it can be embedded in the plane.", "A subgraph H of a G is spanning if the vertex sets of H and G are the same.", "Subdivision of an edge uv of G consists of edge uv, and adding a new vertex w and the two edges uw and vw; w is called subdivision vertex.", "In automatic graph drawing the following problem arises: nd in a complete graph with weights on its edges a two-connected planar spanning subgraph with weight as Partially supported by DFG-Grant JU204/7-1 Forschungsschwerpunkt \" E ziente Algorithmen f ur diskrete Probleme und ihre Anw…"
An example of the output (or summary text, which is the correct answer data) for the above input is shown below.
「The problem of finding a two-connected planar spanning subgraph of maximum weight in a complete edge-weighted graph is important in automatic graph drawing.", "We investigate the problem from a polyhedral point of view."」
プレゼンテーション動画のサイト等において、スライドのファイルを動画とは別ファイルとして取得できる場合がある。また、スライドのファイルには、スライドそのもののデータ(スライドテキスト)と、スライドの概要(要約テキスト)が含まれる場合も多い。このような場合、スライドテキストをエンコーダ‐デコーダの入力として、上記要約テキストを正解として使用することで要約モデルの事前学習を行うことができる。
"The problem of finding a two-connected planar spanning subgraph of maximum weight in a complete edge-weighted graph is important in automatic graph drawing.", "We investigate the problem from a polyhedral point of view."
On presentation video sites, slide files may be available as separate files from the video. Slide files often contain both the slide data (slide text) and a summary of the slide (summary text). In such cases, a summary model can be pre-trained by using the slide text as input to the encoder-decoder and the summary text as the correct answer.
入力となるスライドテキストの例を以下に示す。 An example of input slide text is shown below.
「[["ssn"], ["MASTERS", "IN", "AUTOMOTIVE"], ["ENGINEERING"], ["Karthiek", "Nagaraj"], ["PRESENTED", "AT", "IRIS", ",", "DEPARTMENT", "OF", "MECHANICAL", "ENGINEERING"], ["SSN"], ["WHY", "AUTOMOBILE", "ENGINEERING", "?"], ["Its", "scope", "is", "irrefutable", "and", "job", "prospects", "are", "very", "strong", "in", "any", "part", "of", "the", "world", ".", "Also", "the", "prospect", "of", "returning", "to", "India", "to", "work", "is", "bright", "as", "the", "indian", "automotive", "industry", "is", "making", "tremendous", "progress", "."], [">", "It", "is", "a", "stream", "which", "blends", "passion", "for", "vehicles", "and", "technical", "knowledge", ",", "thus", "making", "it", "all", "the", "more", "interesting", "."], ["It", "is", "an", "interdisciplinary", "field", "which", "encompasses", "mechanical", "engineering", ",", "electrical", "and", "electronics", "engineering", "and", "software", "engineering", ".", "This", "again", "adds", "to", "the", "interest", "factor", "."], ["A", "multitude", "of", "research", "options", "are", "on", "offer", ",", "especially", "in", "hybrid", "powertrains", "and", "fuel", "cells", "."], ["PRESENTED", "AT", "IRIS", ",", "DEPARTMENT", "OF", "MECHANICAL", "ENGINEERING"], ["2"], ["SSN"], ["KEY", "AREAS", "OF", "AUTOMOTIVE", "ENGINEERING"], ["Vehicle", "Propulsion", "~", "Internal", "combustion", "engines"], ["Powertrain", "dynamics", "and", "control"], ["Vehicle", "dynamics", "~", "Handling", "response"], ["~", "Advanced", "transmission"], ["systems"], ["~", "Hybrid", "propulsion", "systems"], ["~", "Terrain", "modelling"], ["~", "Fuel", "cells"], ["~", "Drivetrain", "control", "systems"], ["~", "NVH", "modelling"], ["Automotive", "body", "structures", "~", "Material", "selection"], ["Automotive", "safety", "~", "Active", "and", "passive", "safety"], ["systems"], ["~", "Crash", "worthiness"], ["~", "Human", "factor", "engineering"], ["and",」
上記入力に対する出力(あるいは正解データであるスライド概要)の例を以下に示す。
"[["ssn"], ["MASTERS", "IN", "AUTOMOTIVE"], ["ENGINEERING"], ["Karthiek", "Nagaraj"], ["PRESENTED", "AT", "IRIS", ",", "DEPARTMENT", "OF", "MECHANICAL", "ENGINEERING"], ["SSN"], ["WHY", "AUTOMOBILE", "ENGINEERING", "?"], ["Its", "scope", "is", "irrefutable", "and", "job", "prospects", "are", "very", "strong", "in", "any", "part", "of", "the", "world", ".", "Also", "the", "prospect", "of", "returning", "to", "India", "to", "work", "is", "bright", "as", "the", "indian", "automotive", "industry", "is", "making", "tremendous", "progress", "."], [">", "It", "is", "a", "stream", "which", "blends", "passion", "for", "vehicles", "and", "technical", "knowledge", ",", "thus", "making", "it", "all", "the", "more", "interesting", "."], ["It", "is", "an", "interdisciplinary", "field", "which", "encompasses", "mechanical", "engineering", ",", "electrical", "and", "electronics", "engineering", "and", "software", "engineering", ".", "This", "again", "adds", "to", "the", "interest", "factor", "."], ["A", "multitude", "of", "research", "options", "are", "on", "offer", ",", "especially", "in", "hybrid", "powertrains", "and", "fuel", "cells", "."], ["PRESENTED", "AT", "IRIS", ",", "DEPARTMENT", "OF", "MECHANICAL", "ENGINEERING"], ["2"], ["SSN"], ["KEY", "AREAS", "OF", "AUTOMOTIVE", "ENGINEERING"], ["Vehicle", "Propulsion", "~", "Internal", "combustion", "engines"], ["Powertrain", "dynamics", "and", "control"], ["Vehicle", "dynamics", "~", "Handling", "response"], ["~", "Advanced", "transmission"], ["systems"], ["~", "Hybrid", "propulsion", "systems"], ["~", "Terrain", "modelling"], ["~", "Fuel", "cells"], ["~", "Drivetrain", "control", "systems"], ["~", "NVH", "modelling"], ["Automotive", "body", "structures", "~", "Material", "selection"], ["Automotive", "safety", "~", "Active", "and", "passive", "safety"], ["systems"], ["~", "Crash", "worthiness"], ["~", "Human", "factor", "engineering"], ["and","
An example of the output (or a slide summary, which is the correct answer data) for the above input is shown below.
「A guide to Masters in Automotive Engineering at International Destinations」
(S203:要約モデル学習装置200の入力処理)
次に、図4に示した要約モデル学習装置200における、データ取得部210による処理、及び、学習データ入力部220による処理の詳細例を説明する。
"A guide to Masters in Automotive Engineering at International Destinations"
(S203: Input process of summary model learning device 200)
Next, a detailed example of the processing by the
データ取得部210は、例えばインターネット上にあるプレゼンテーション動画のサイトにアクセスし、そのサイトからプレゼンテーション動画と、動画に対応する正解の要約を取得する。このような動画と要約を取得できるサイトの例として例えば、「https://aclanthology.org/」(2022年2月27日検索)がある。The
上記のように、ネットワーク上のサーバからプレゼンテーション動画とその要約を取得することで、人手で要約を作成することなく、学習データを作成することができ、前述した課題1が解決される。As described above, by obtaining the presentation video and its summary from a server on the network, learning data can be created without having to manually create a summary, thereby solving the
学習データ入力部220は、データ取得部210により取得したプレゼンテーション動画を画像情報と音声情報に分ける処理を行い、画像情報を画像処理部230に入力し、音声情報を音声処理部240に入力する。The learning
画像情報は特定の画像に限定されないが、ここでは、画像情報が、プレゼンテーション動画におけるスライド画像であることを想定している。 The image information is not limited to a specific image, but here it is assumed that the image information is a slide image in a presentation video.
図8を参照して、学習データ入力部220による、プレゼンテーション動画から画像を切り出す処理例を説明する。
Referring to Figure 8, an example of the process of extracting an image from a presentation video by the learning
S203(1-1):
学習データ入力部220は、プレゼンテーション動画からk秒単位で画像を切り出す。kは、0より大きな実数であり、予め定めておく数である。図8の上段には、k秒毎に切り出された6つの画像が示されている。
S203(1-1):
The learning
S203(1-2):
学習データ入力部220は、S203(1-1)で切り出した画像を時刻ごとに順番に比較し,t番目の画像とt-1番目の画像の類似度が閾値以上であればこれらの画像を同じ画像と判定する。なお、画像間の類似度の判定方法としてはどのような判定方法を使用してもよい。図8には、6つの画像における各2画像間の類似度の例が示されている。
S203(1-2):
The learning
S203(1-3):
学習データ入力部220は、S203(1-1)とS203(1-2)を繰り返し、異なり画像集合を抽出する。図8には、閾値が25である場合の異なり画像集合として、画像1、画像4、画像6が示されている。得られた画像集合は画像処理部230に入力される。
S203(1-3):
The learning
(S204:画像処理)
次に、画像処理部230が実行する画像処理の詳細例を説明する。画像処理部230は、学習データ入力部220から入力された異なり画像集合に対してOCR(Optical Character Recognition)処理を実施し、図9に示すように、当該異なり画像集合における各画像から、テキスト、文字の色、文字の大きさ、文字の位置情報等を取得する。なお、取得する情報はテキストのみでもよい。
(S204: Image processing)
Next, a detailed example of image processing executed by the
(S205:音声処理)
次に、音声処理部240が実行する音声処理の詳細例を説明する。図10に示すように、音声処理部240は、学習データ入力部220から入力された音声に対して音声認識処理を実施し、音声認識結果のテキストを取得する。
(S205: Audio processing)
Next, a detailed example of the voice processing executed by the
(S206:学習処理)
続いて、要約モデル学習部250が実行する学習処理の詳細例を説明する。要約モデル学習部250は、画像処理部230により得られたテキストと、音声処理部240により得られたテキストとを結合し、結合されたテキストを要約モデルに入力する。要約モデル学習部250は、要約モデルから出力された要約テキストと、正解の要約テキストとの誤差が最小になるように要約モデルを学習する。要約モデルへの入力については、結合テキストに対して、画像処理部230により得られた、文字の配置特徴量、画像特徴量、文字の大きさや色情報等を追加した情報を使用してもよい。また、結合テキストに対して、音声処理部240により得られた音声特徴量を追加した情報を使用してもよい。
(S206: Learning process)
Next, a detailed example of the learning process executed by the summary
なお、上記の要約モデルの初期状態は、S202で事前学習した要約モデルである。ただし、前述したとおり、事前学習を行わないこととしてもよいので、上記の要約モデルの初期状態は、S202で事前学習した要約モデルでなくてもよい。事前学習を行わない場合には、後述するデータ拡張部400により生成された更なる学習データを用いて学習を行うこととしてもよい。The initial state of the above summary model is the summary model pre-trained in S202. However, as described above, it is possible not to perform pre-training, so the initial state of the above summary model does not have to be the summary model pre-trained in S202. If pre-training is not performed, learning may be performed using further training data generated by the
要約モデルへの入力、及び、要約モデルからの出力の例を図11に示す。前述したとおり、本実施の形態に係る要約モデルは、エンコーダとデコーダからなるモデルである。An example of input to and output from the summary model is shown in Figure 11. As mentioned above, the summary model in this embodiment is a model consisting of an encoder and a decoder.
図11に示すとおり、エンコーダに、[SEP]により結合されたテキストと、文字の大きさ、及び色情報が入力され、デコーダから要約テキストが出力される。出力される要約テキストと正解の要約テキストとの間の誤差が最小になるように要約モデルの学習がなされる。As shown in Figure 11, the encoder receives the text combined by [SEP], character size, and color information, and the decoder outputs summary text. The summary model is trained to minimize the error between the output summary text and the correct summary text.
テキストのエンコーダへの入力の際には、テキストのトークン列がまずd次元の固定次元ベクトルに変換され、その後、エンコーダ‐デコーダを通して要約テキストに変換される。また、入力において、文字の大きさ、及び色情報はなくてもよい。When inputting text to the encoder, the text token sequence is first converted into a fixed dimension vector of d dimensions, and then converted into summary text through the encoder-decoder. Also, character size and color information may not be required in the input.
なお、音声処理部240により得られるテキストをASR(Automatic Speech Recognition)テキストと呼び、画像処理部240により得られるテキストをOCRテキストと呼んでもよい。The text obtained by the
ASRテキストの例を以下に示す。 An example of ASR text is shown below.
「So to put in context to put my presentation in the context, I will, I would like to begin with the word decision support or decision-making. And first ask the question who, or what is making decisions and obviously we get two branches here. One is that we have a human decision maker who makes a decision and all of us are decision makers and then we are also talking about the decision systems. So computers robots.」
OCRテキストの例を以下に示す。下記の例は、「http://videolectures.net/site/normal_dl/tag=1005123/icml2015_schmidt_time_framework_01.pdf」(2022年2月26日検索)において開示されているスライド画像から得られたテキストの例である。
"So to put in context to put my presentation in the context, I will, I would like to begin with the word decision support or decision-making. And first ask the question who, or what is making decisions and obviously we get two branches here. One is that we have a human decision maker who makes a decision and all of us are decision makers and then we are also talking about the decision systems. So robots."
An example of OCR text is shown below: The example below is an example of text obtained from a slide image disclosed in "http://videolectures.net/site/normal_dl/tag=1005123/icml2015_schmidt_time_framework_01.pdf" (retrieved February 26, 2022).
「Structured sparsity sparsity is widely used in signal processing, machine learning, and statistics (compressive sensing, sparse linear regression, etc.) Examples of sparsity….」
ASRテキストとOCRテキストを結合して要約モデルに入力した際に出力される要約テキスト(あるいはその正解)の例を以下に示す。
“Structured sparsity sparsity is widely used in signal processing, machine learning, and statistics (compressive sensing, sparse linear regression, etc.) Examples of sparsity….”
Below is an example of the summary text (or its correct answer) that is output when the ASR text and the OCR text are combined and input to the summary model.
「Decision Support is a discipline concerned with human decision making: it aims to provide methods and tools that support, rather than replace, people in making difficult decisions. One of the widely used decision-support approaches relies on decision models, which are developed in the decision process and used to evaluate and analyse decision alternatives. In this lecture, we shall present the method DEX (Decision EXpert), which was heavily influenced by ideas from Artificial Intelligence. DEX is a hierarchical, qualitative, rule-based, multi-criteria modelling method, suitable particularly for solving classification decision problems. DEX combines traditional approaches with those from expert systems and machine learning. DEX is supported by the software called DEXi and has been used in hundreds of real-world decision-making studies. The presentation will be illustrated by recent applications in the areas of electric energy production, food safety and health care.」
(データ拡張部400の構成と動作)
以下では、課題3を解決する技術の1つである、追加の学習データセットを自動的に生成する技術について説明する。
“Decision Support is a discipline concerned with human decision making: it aims to provide methods and tools that support, rather than replace, people in making difficult decisions. One of the widely used decision-support approaches rely on decision models, which are developed in the decision process and used to evaluate and analyze decision alternatives. In this lecture, we shall present the method DEX (Decision EXpert), which was heavily influenced by ideas from Artificial Intelligence. DEX is a hierarchical, qualitative, rule-based, multi-criteria modeling method, particularly suitable for solving classification decision problems. DEX combines traditional approaches with those from expert systems and machine learning. DEX is supported by the software called DEXi and has been used in hundreds of real-world decision-making studies. The presentation will be illustrated by recent applications in the areas of electric energy production, food safety and health care.”
(Configuration and Operation of Data Expansion Unit 400)
The following describes one technique for solving problem 3, which is a technique for automatically generating an additional training dataset.
図4に示した要約モデル学習装置200におけるデータ拡張部400の構成を図12に示す。図12に示すように、データ拡張部400は、学習データ生成部410、重要文抽出部420、タスク情報付与部430を有する。なお、データ拡張部400は要約モデル学習装置200内の機能部であってもよいし、要約モデル学習装置200の外部にある別装置であってもよい。データ拡張部400が要約モデル学習装置200内にある場合の要約モデル学習装置200を学習データ生成装置400と呼んでもよい。データ拡張部400が要約モデル学習装置200の外部にある別装置である場合の当該別装置を学習データ生成装置400と呼んでもよい。
Figure 12 shows the configuration of the
図13のフローチャートを参照して、図12に示すデータ拡張部400(学習データ生成装置400)の動作の流れを説明する。S301において、音声処理により得られたASRテキスト、画像処理により得られたOCRテキスト、及び、これらに対応する正解の要約テキストを学習データ生成部410に入力する。
The flow of operation of the data expansion unit 400 (learning data generation device 400) shown in Fig. 12 will be described with reference to the flowchart in Fig. 13. In S301, the ASR text obtained by speech processing, the OCR text obtained by image processing, and the corresponding correct summary text are input to the learning
S302において、データ分割部410は、入力されたデータに対して学習データ生成処理(データ分割処理と呼んでもよい)行う。S302においては、重要文抽出部420による重要文抽出処理も行われる。なお、重要文抽出部420が学習データ生成部410内に含まれていてもよい。In S302, the
タスク情報付与部430は、S303において、生成された学習データセットにタスク情報を付与し、S304において、タスク情報を付与した学習データセットを出力する。出力されたデータは要約モデル学習部250に入力され、要約モデルの学習に利用される。以下、上記の各ステップの処理をより詳細に説明する。In S303, the task
(S301:入力、S302:データ分割)
学習データ生成部410へは、1つのプレゼンテーション動画に対して「OCRテキスト、ASRテキスト、正解の要約テキスト」を1セットとしてデータを入力する。学習を行うためのデータセットを学習データセットと呼ぶ。
(S301: Input, S302: Data division)
Data consisting of "OCR text, ASR text, and correct summary text" for one presentation video is input to the learning
学習データ生成部410は、上記の入力データに基づいて、図14に示すように下記の5つの学習データセットを生成する。なお、(1)は、元の学習データセットである。各学習データセットは、タスクを表すので、学習データセットをタスクと呼んでもよい。なお、下記の5つは例であり、元の学習データセットに加えて、更なる学習データセットが少なくとも1つ生成されればよい。下記に加えて、(6)OCRテキスト、OCR重要文、(7)ASRテキスト、ASR重要文が生成されてもよい。Based on the above input data, the training
(1)OCRテキスト、ASRテキスト、正解の要約テキスト
(2)OCRテキスト、正解の要約テキスト
(3)ASRテキスト、正解の要約テキスト
(4)OCRテキスト、ASR重要文
(5)ASRテキスト、OCR重要文
ASR重要文、OCR重要文はいずれも、疑似正解情報の例である。ASR重要文とOCR重要文は、いずれも重要文抽出部420が作成する。これら重要文の作成方法の例を以下に説明する。
(1) OCR text, ASR text, correct summary text (2) OCR text, correct summary text (3) ASR text, correct summary text (4) OCR text, ASR key sentence (5) ASR text, OCR key sentence Both the ASR key sentence and the OCR key sentence are examples of pseudo-correct information. Both the ASR key sentence and the OCR key sentence are created by the key
ASR重要文に関して、重要文抽出部420は、要約テキストとASRテキストとのマッチングをとることでASR重要文を抽出する。例えば、重要文抽出部420は、ASRテキストのうち、要約テキストと類似性の高い部分をASR重要文として抽出する。Regarding the ASR key sentences, the key
OCR重要文に関して、重要文抽出部420は、要約テキストとOCRテキストとのマッチングをとることでOCR重要文を抽出する。例えば、重要文抽出部420は、OCRテキストのうち、要約テキストと類似性の高い部分をOCR重要文として抽出する。Regarding OCR important sentences, the important
ASR/OCR重要文の抽出のためのマッチングの取り方としては任意の手法を適用できるが、抽出要約のデータ作成で用いられる、例えばFine-tune BERT for Extractive Summarization(https://arxiv.org/pdf/1903.10318v2.pdf、2022年2月27日検索)で記載されている方法を用いてもよい。Any method can be applied as a matching method for extracting ASR/OCR important sentences, but it is also possible to use a method used in creating data for extractive summarization, such as the method described in Fine-tune BERT for Extractive Summarization (https://arxiv.org/pdf/1903.10318v2.pdf, retrieved February 27, 2022).
(S303:タスク情報付与)
タスク情報付与部430は、学習データ生成部410により生成した各学習データセットに、タスクを識別するための識別情報(ラベルと呼んでもよい)を付与する。当該識別情報は特殊トークンである。上記(1)~(5)の例では、例えば、下記のように[task0]等の識別情報を付与する。
(S303: Task information assignment)
The task
(1)[task0] OCRテキスト、ASRテキスト、正解の要約テキスト
(2)[task1] OCRテキスト、正解の要約テキスト
(3)[task2] ASRテキスト、正解の要約テキスト
(4)[task3] OCRテキスト、ASR重要文
(5)[task4] ASRテキスト、OCR重要文
(S304:出力、(及び学習))
S303において識別情報の付された各タスク(各学習データセット)は、要約モデル学習部250へ出力される。
(1) [task0] OCR text, ASR text, correct summary text (2) [task1] OCR text, correct summary text (3) [task2] ASR text, correct summary text (4) [task3] OCR text, ASR key sentence (5) [task4] ASR text, OCR key sentence (S304: Output, (and learning))
Each task (each learning data set) to which identification information has been assigned in S303 is output to the summary
要約モデル学習部250は、識別情報の付されたそれぞれの学習データセットを用いて要約モデルの学習を行う。各学習データセットでの学習方法は、前述したS206での学習方法と同様である。ただし、ここでは、図15に示すように、デコーダへの入力において、上記識別情報を付したテキストを用いる。図15は、上記5つのタスクのうちの(2)のタスクでの学習例を示している。このような学習が、(1)~(5)のそれぞれに対して行われる。The summary
これにより、学習データ量を増大させることができ、精度の良い要約モデルを生成できる。 This allows us to increase the amount of training data and generate more accurate summary models.
(ハードウェア構成例)
要約生成装置100、要約モデル学習装置200、学習データ生成装置400はいずれも、例えば、コンピュータにプログラムを実行させることにより実現できる。このコンピュータは、物理的なコンピュータであってもよいし、クラウド上の仮想マシンであってもよい。以下、要約生成装置100、要約モデル学習装置200、学習データ生成装置400を総称して「装置」と呼ぶ。
(Hardware configuration example)
The
すなわち、当該装置は、コンピュータに内蔵されるCPUやメモリ等のハードウェア資源を用いて、当該装置で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。That is, the device can be realized by using hardware resources such as a CPU and memory built into a computer to execute a program corresponding to the processing performed by the device. The program can be recorded on a computer-readable recording medium (such as a portable memory) and stored or distributed. The program can also be provided via a network such as the Internet or email.
図16は、上記コンピュータのハードウェア構成例を示す図である。図16のコンピュータは、それぞれバスBSで相互に接続されているドライブ装置1000、補助記憶装置1002、メモリ装置1003、CPU1004、インタフェース装置1005、表示装置1006、入力装置1007、出力装置1008等を有する。
Figure 16 is a diagram showing an example of the hardware configuration of the computer. The computer in Figure 16 has a
当該コンピュータでの処理を実現するプログラムは、例えば、CD-ROM又はメモリカード等の記録媒体1001によって提供される。プログラムを記憶した記録媒体1001がドライブ装置1000にセットされると、プログラムが記録媒体1001からドライブ装置1000を介して補助記憶装置1002にインストールされる。但し、プログラムのインストールは必ずしも記録媒体1001より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置1002は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
The program that realizes the processing on the computer is provided by a
メモリ装置1003は、プログラムの起動指示があった場合に、補助記憶装置1002からプログラムを読み出して格納する。CPU1004は、メモリ装置1003に格納されたプログラムに従って、ライトタッチ維持装置100に係る機能を実現する。インタフェース装置1005は、ネットワーク等に接続するためのインタフェースとして用いられる。表示装置1006はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置1007はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置1008は演算結果を出力する。When an instruction to start a program is received, the
(実施の形態の効果)
以上説明したとおり、本実施の形態に係る技術により、プレゼンテーション動画等の、音声と画像を含む動画から適切に要約テキストを生成することが可能となる。また、動画から要約テキストを生成する要約モデルを学習するための追加の学習データを自動的に生成することが可能となる。
(Effects of the embodiment)
As described above, the technology according to the present embodiment makes it possible to appropriately generate summary text from videos that include audio and images, such as presentation videos. It also makes it possible to automatically generate additional training data for training a summary model that generates summary text from videos.
特に本実施の形態では、事前学習又はデータ拡張(データ分割による追加学習データ生成)を行うことで、要約モデルの精度を向上させることができる。 In particular, in this embodiment, the accuracy of the summary model can be improved by performing pre-learning or data augmentation (generating additional training data by data division).
以下、事前学習を行った場合の実験結果に基づく効果、及び、データ分割を行った場合の実験結果に基づく効果を説明する。以下では、評価指標として、ROUGE-1, ROUGE-2, ROUGE-Lを使用しており、それぞれ、R1、R2、RLと記載する。Below, we explain the effects based on the experimental results when pre-learning was performed, and when data division was performed. In the following, ROUGE-1, ROUGE-2, and ROUGE-L are used as evaluation indices, and are abbreviated as R1, R2, and RL, respectively.
図17は、論文データを事前に学習させた場合の効果を示す図である。「ASR+OCR」は、比較のための、論文データを事前に学習させない場合の評価結果を示す。「+論文要約(30万)」、「+論文要約(50万)」はそれぞれ、論文要約をそれぞれ30万件、50万件事前に学習させた場合の評価結果を示す。図17に示すとおり、論文データを事前に学習させることにより、精度が向上していることがわかる。 Figure 17 shows the effect of pre-learning paper data. For comparison, "ASR+OCR" shows the evaluation results when no paper data is pre-learned. "+Paper Summaries (300,000)" and "+Paper Summaries (500,000)" show the evaluation results when 300,000 and 500,000 paper summaries were pre-learned, respectively. As shown in Figure 17, it can be seen that accuracy is improved by pre-learning paper data.
図18は、スライド概要を事前に学習させた場合の効果を示す図である。「ASR+OCR(4096)」は、比較のための、スライド概要を事前に学習させない場合の評価結果を示す。「+slideshare」はスライド概要を事前に学習させた場合の評価結果を示す。図18に示すとおり、スライド概要を事前に学習させることにより、精度が向上していることがわかる。 Figure 18 shows the effect of learning the slide summaries in advance. For comparison, "ASR+OCR(4096)" shows the evaluation results when the slide summaries are not learned in advance. "+slideshare" shows the evaluation results when the slide summaries are learned in advance. As shown in Figure 18, it can be seen that accuracy is improved by learning the slide summaries in advance.
図19は、元の学習データセットとともに分割により得られた更なる学習データセットを学習させた場合の効果を示す図である。「ASR+OCR(4096)」は、比較のための、元の学習データセットのみを学習させた場合の評価結果を示す。「ASR+OCR(4096)+extend」は、元の学習データセットとともに分割により得られた更なる学習データセットを学習させた場合の評価結果を示す。図19に示すとおり、元の学習データセットとともに分割により得られた学習データセットを学習させることにより精度が向上していることがわかる。 Figure 19 shows the effect of training the original learning dataset together with a further learning dataset obtained by splitting. For comparison, "ASR+OCR(4096)" shows the evaluation results when only the original learning dataset was trained. "ASR+OCR(4096)+extend" shows the evaluation results when the original learning dataset was trained together with a further learning dataset obtained by splitting. As shown in Figure 19, it can be seen that accuracy is improved by training the original learning dataset together with the learning dataset obtained by splitting.
(付記)
以上の実施形態に関し、更に以下の付記項を開示する。
(付記項1)
動画に対する要約テキストを生成する要約モデルの学習のための学習データセットを生成する学習データ生成装置であって、
メモリと、
前記メモリに接続された少なくとも1つのプロセッサと、
を含み、
前記プロセッサは、
前記動画における画像から抽出されたテキストである第1テキスト、前記動画における音声から抽出されたテキストである第2テキスト、及び、前記動画の正解の要約テキストを有する元の学習データセットから、少なくとも1つの更なる学習データセットを生成する
学習データ生成装置。
(付記項2)
前記プロセッサは、前記更なる学習データセットとして、前記第1テキストを含み、前記第2テキストを含まない学習データセット、又は、前記第2テキストを含み、前記第1テキストを含まない学習データセットを生成する
付記項1に記載の学習データ生成装置。
(付記項3)
前記プロセッサは、前記更なる学習データセットとして、前記第1テキストと前記第2テキストのうちのいずれかのテキスト、及び、前記第1テキストと前記第2テキストのうちのいずれかのテキストと前記正解の要約テキストとのマッチングを行うことで得られた重要文を含む学習データセットを生成する
付記項1に記載の学習データ生成装置。
(付記項4)
前記プロセッサは、前記更なる学習データセットに対して、当該更なる学習データセットにより行われるタスクを識別するための識別情報を付与する
付記項1に記載の学習データ生成装置。
(付記項5)
動画に対する要約テキストを生成する要約モデルの学習のための学習データセットを生成する学習データ生成装置として使用されるコンピュータが実行する学習データ生成方法であって、
前記動画における画像から抽出されたテキストである第1テキスト、前記動画における音声から抽出されたテキストである第2テキスト、及び、前記動画の正解の要約テキストを有する元の学習データセットから、少なくとも1つの更なる学習データセットを生成する学習データ生成ステップ
を備える学習データ生成方法。
(付記項6)
動画に対する要約テキストを生成する要約モデルの学習のための学習データセットを生成する学習データ生成処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
前記学習データ生成処理は、
前記動画における画像から抽出されたテキストである第1テキスト、前記動画における音声から抽出されたテキストである第2テキスト、及び、前記動画の正解の要約テキストを有する元の学習データセットから、少なくとも1つの更なる学習データセットを生成する
非一時的記憶媒体。
(Additional Note)
Regarding the above embodiment, the following supplementary items are further disclosed.
(Additional Note 1)
A training data generation device for generating a training data set for training a summary model for generating a summary text for a video, comprising:
Memory,
at least one processor coupled to the memory;
Including,
The processor,
A training data generation device that generates at least one further training dataset from an original training dataset having a first text, the first text being text extracted from an image in the video, a second text, the second text being text extracted from an audio in the video, and a correct summary text of the video.
(Additional Note 2)
The processor generates, as the further training data set, a training data set that includes the first text and does not include the second text, or a training data set that includes the second text and does not include the first text.
(Additional Note 3)
The processor generates, as the further training data set, a training data set including either the first text or the second text, and important sentences obtained by matching either the first text or the second text with the correct summary text.
(Additional Note 4)
The training data generation device according to
(Additional Note 5)
1. A computer-implemented training data generation method for use as a training data generation device for generating a training data set for training a summary model for generating a summary text for a video, comprising:
a training data generation step of generating at least one further training data set from an original training data set having a first text, the first text being text extracted from an image in the video, a second text being text extracted from an audio in the video, and a correct summary text of the video.
(Additional Note 6)
A non-transitory storage medium storing a program executable by a computer to perform a training data generation process for generating a training data set for training a summary model that generates a summary text for a video, the non-transitory storage medium comprising:
The learning data generation process includes:
A non-transitory storage medium for generating at least one further training dataset from an original training dataset having a first text, the first text being text extracted from images in the video, a second text being text extracted from audio in the video, and a ground-truth summary text of the video.
以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。 Although the present embodiment has been described above, the present invention is not limited to such a specific embodiment, and various modifications and variations are possible within the scope of the gist of the present invention as described in the claims.
100 要約生成装置
110 画像処理部
120 音声処理部
130 要約生成部
140 要約モデルDB
200 要約モデル学習装置
210 データ取得部
220 学習データ入力部
230 画像処理部
240 音声処理部
250 要約モデル学習部
270 モデル設定部
280 要約モデルDB
290 要約モデルDB
310 要約モデル事前学習部
320 要約モデルDB
400 データ拡張部
410 学習データ生成部
420 重要文抽出部
430 タスク情報付与部
1000 ドライブ装置
1001 記録媒体
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インタフェース装置
1006 表示装置
1007 入力装置
1008 出力装置
100
200 Summary
290 Summary Model DB
310 Summary
400
1005
Claims (6)
前記動画における画像から抽出されたテキストである第1テキスト、前記動画における音声から抽出されたテキストである第2テキスト、及び、前記動画の正解の要約テキストを有する元の学習データセットから、少なくとも1つの更なる学習データセットを生成する学習データ生成部
を備える学習データ生成装置。 A training data generation device for generating a training data set for training a summary model for generating a summary text for a video, comprising:
a training data generation unit configured to generate at least one further training data set from an original training data set having a first text, the first text being text extracted from an image in the video, a second text being text extracted from an audio in the video, and a correct summary text of the video.
請求項1に記載の学習データ生成装置。 2. The training data generation device according to claim 1, wherein the training data generation unit generates, as the further training data set, a training data set that includes the first text and does not include the second text, or a training data set that includes the second text and does not include the first text.
請求項1に記載の学習データ生成装置。 2. The training data generation device according to claim 1, wherein the training data generation unit generates, as the further training data set, a training data set including either the first text or the second text, and important sentences obtained by matching either the first text or the second text with the correct summary text.
を更に備える請求項1に記載の学習データ生成装置。 The training data generation device according to claim 1 , further comprising: a task information assigning unit that assigns, to the further training data set, identification information for identifying a task performed by the further training data set.
前記動画における画像から抽出されたテキストである第1テキスト、前記動画における音声から抽出されたテキストである第2テキスト、及び、前記動画の正解の要約テキストを有する元の学習データセットから、少なくとも1つの更なる学習データセットを生成する学習データ生成ステップ
を備える学習データ生成方法。 1. A computer-implemented training data generation method for use as a training data generation device for generating a training data set for training a summary model for generating a summary text for a video, comprising:
a training data generation step of generating at least one further training data set from an original training data set having a first text, the first text being text extracted from an image in the video, a second text being text extracted from an audio in the video, and a correct summary text of the video.
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2022/009576 WO2023166747A1 (en) | 2022-03-04 | 2022-03-04 | Training data generation device, training data generation method, and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPWO2023166747A1 JPWO2023166747A1 (en) | 2023-09-07 |
| JP7643638B2 true JP7643638B2 (en) | 2025-03-11 |
Family
ID=87883432
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2024504339A Active JP7643638B2 (en) | 2022-03-04 | 2022-03-04 | Training data generation device, training data generation method, and program |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP7643638B2 (en) |
| WO (1) | WO2023166747A1 (en) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7534582B1 (en) | 2023-09-12 | 2024-08-15 | 株式会社エクサウィザーズ | Information processing method, program, and information processing system |
| WO2025229701A1 (en) * | 2024-04-30 | 2025-11-06 | Ntt株式会社 | Training data generation device, program, and training data generation system |
Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008152605A (en) | 2006-12-19 | 2008-07-03 | Toyohashi Univ Of Technology | Presentation analysis apparatus and presentation viewing system |
| JP2015176175A (en) | 2014-03-13 | 2015-10-05 | 日本電気株式会社 | Information processing apparatus, information processing method and program |
| JP2018156473A (en) | 2017-03-17 | 2018-10-04 | ヤフー株式会社 | Analysis device, analysis method, and program |
| CN109145937A (en) | 2018-06-25 | 2019-01-04 | 北京达佳互联信息技术有限公司 | A kind of method and device of model training |
| JP2019101754A (en) | 2017-12-01 | 2019-06-24 | キヤノン株式会社 | Summarization device and method for controlling the same, summarization system, and program |
| US20200137441A1 (en) | 2018-10-24 | 2020-04-30 | Motorola Solutions, Inc. | Alerting groups of user devices to similar video content of interest based on role |
| CN112069309A (en) | 2020-09-14 | 2020-12-11 | 腾讯科技(深圳)有限公司 | Information acquisition method and device, computer equipment and storage medium |
-
2022
- 2022-03-04 JP JP2024504339A patent/JP7643638B2/en active Active
- 2022-03-04 WO PCT/JP2022/009576 patent/WO2023166747A1/en not_active Ceased
Patent Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008152605A (en) | 2006-12-19 | 2008-07-03 | Toyohashi Univ Of Technology | Presentation analysis apparatus and presentation viewing system |
| JP2015176175A (en) | 2014-03-13 | 2015-10-05 | 日本電気株式会社 | Information processing apparatus, information processing method and program |
| JP2018156473A (en) | 2017-03-17 | 2018-10-04 | ヤフー株式会社 | Analysis device, analysis method, and program |
| JP2019101754A (en) | 2017-12-01 | 2019-06-24 | キヤノン株式会社 | Summarization device and method for controlling the same, summarization system, and program |
| CN109145937A (en) | 2018-06-25 | 2019-01-04 | 北京达佳互联信息技术有限公司 | A kind of method and device of model training |
| US20200137441A1 (en) | 2018-10-24 | 2020-04-30 | Motorola Solutions, Inc. | Alerting groups of user devices to similar video content of interest based on role |
| CN112069309A (en) | 2020-09-14 | 2020-12-11 | 腾讯科技(深圳)有限公司 | Information acquisition method and device, computer equipment and storage medium |
Non-Patent Citations (1)
| Title |
|---|
| LIANG, Xiaodan et al.,Recurrent Topic-Transition GAN for Visual Paragraph Generation,arXiv [online],arXiv:1703.07022v2,2017年03月,pp.1-10,<URL: https://arxiv.org/abs/1703.07022>,<DOI: https://doi.org/10.48550/arXiv.1703.07022> [retrieved on 2022.05.02] |
Also Published As
| Publication number | Publication date |
|---|---|
| JPWO2023166747A1 (en) | 2023-09-07 |
| WO2023166747A1 (en) | 2023-09-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Shen et al. | Taskbench: Benchmarking large language models for task automation | |
| Hohman et al. | Visual analytics in deep learning: An interrogative survey for the next frontiers | |
| CN110750959B (en) | Text information processing method, model training method and related device | |
| Brooks et al. | FeatureInsight: Visual support for error-driven feature ideation in text classification | |
| CN111026842A (en) | Natural language processing method, natural language processing device and intelligent question-answering system | |
| CN114841335B (en) | Multimodal joint representation learning method and system based on variational distillation | |
| CN112749556B (en) | Multi-language model training method and device, storage medium and electronic equipment | |
| CN119782452A (en) | A large language model intelligent teaching question-answering system based on knowledge graph and its implementation method | |
| Joshi et al. | Cislr: Corpus for indian sign language recognition | |
| JP7643638B2 (en) | Training data generation device, training data generation method, and program | |
| Kumar et al. | Computer vision and creative content generation: Text-to-sketch conversion | |
| CN110287999B (en) | Story generation method and device based on latent variable model | |
| Engin et al. | Multimodal deep neural networks for banking document classification | |
| JP7683810B2 (en) | Summary generation device, summary model learning device, summary generation method, summary model learning method, and program | |
| CN116991976B (en) | Model training methods, devices, electronic equipment, and readable storage media | |
| CN114528381A (en) | Question-answer recognition method and related equipment | |
| Ji | Development and Implementation of English Learning Resource Recommendation System based on Text Mining | |
| Samuel et al. | AI enabled maneuver identification via the maneuver identification challenge | |
| Yamatomi et al. | Generative Model of Suitable Meme Sentences for Images Using AutoEncoder | |
| Althaf et al. | TrOCR-Enhanced Language Chains: Bridging Image-Based Text and Single Document Question Answering | |
| Mudiraj et al. | Hindi text-to-image generation: A Diverse data collection methods, annotation approaches and challenges | |
| Yuan et al. | A sentiment analysis method for tourist review texts based on a BERT dual-channel hybrid network | |
| Chen et al. | Static correlative filter based convolutional neural network for visual question answering | |
| Ogbadu | Statistical Language and Neural Network Models: Classifying Human Instructions in Situated Robot Command | |
| Deng | Intelligent Bilingual Reading Translation System Based on Natural Language Processing |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240619 |
|
| RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20240701 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250128 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250210 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7643638 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |