JP7640248B2 - Image generating device and image generating method - Google Patents
Image generating device and image generating method Download PDFInfo
- Publication number
- JP7640248B2 JP7640248B2 JP2020187607A JP2020187607A JP7640248B2 JP 7640248 B2 JP7640248 B2 JP 7640248B2 JP 2020187607 A JP2020187607 A JP 2020187607A JP 2020187607 A JP2020187607 A JP 2020187607A JP 7640248 B2 JP7640248 B2 JP 7640248B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- unit
- data
- information
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
- Studio Circuits (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Description
本発明は、画像生成装置、および画像生成方法に関する。 The present invention relates to an image generating device and an image generating method.
従来、動画データから字幕を作成する装置が知られている。この装置においては、顔検出手段によって、動画データから顔特徴量と顔位置とが検出され、音声識別手段によって、動画データから音声特徴量が検出される。検出された各特徴量は、話者特定手段に送られ、音声・顔対応データ記憶手段に登録されている話者の特徴量と比較され、その結果、話者の位置が特定される。特定された話者の音声は、音声認識手段によりテキスト化される。話者の位置とテキストデータにより吹き出し作成手段により吹き出しが作成され、動画像作成手段により動画データと音声データと吹き出しデータとをまとめて新たな動画データが作成される(例えば、特許文献1参照)。 Conventionally, a device that creates subtitles from video data is known. In this device, a face detection means detects facial features and face positions from the video data, and a voice recognition means detects voice features from the video data. Each detected feature is sent to a speaker identification means and compared with the features of the speaker registered in a voice/face correspondence data storage means, and as a result, the position of the speaker is identified. The voice of the identified speaker is converted to text by a voice recognition means. A speech bubble creation means creates a speech bubble based on the speaker's position and text data, and a video creation means combines the video data, audio data, and speech bubble data to create new video data (see, for example, Patent Document 1).
しかしながら、上述のような従来技術は以下の問題がある。動画データから検出された顔特徴量又は音声特徴量が、音声・顔対応データ記憶手段に登録されていない場合は、話者と音声の紐付けを誤る可能性がある。その結果、違う話者の音声が吹き出しで表示され、視聴者が話者と音声の対応を誤認識する可能性がある。 However, the above-mentioned conventional techniques have the following problems. If the facial features or audio features detected from video data are not registered in the audio/face correspondence data storage means, there is a possibility that the speaker and audio will be incorrectly linked. As a result, the audio of a different speaker may be displayed in the speech bubble, and the viewer may erroneously recognize the correspondence between the speaker and audio.
本発明の一態様は、視聴者がオブジェクトとテキストデータとの紐付けを適切に認識できることを目的とする。 One aspect of the present invention aims to enable viewers to properly recognize the association between objects and text data.
上記の課題を解決するために、本発明の一態様に係る画像生成装置は、画像を示す画像データおよび当該画像に付随する音声を示す音声データを取得する取得部と、前記取得部が取得した画像データ及び音声データを学習済モデルに入力することによって前記画像に含まれる1又は複数のオブジェクトのうち、音声を発生させているオブジェクトを特定する特定処理を実行する特定処理実行部と、前記音声データに対応するテキストデータを、前記画像内の位置であって、前記特定処理の結果に応じた位置に重畳する重畳部と、を備える。 In order to solve the above problem, an image generating device according to one aspect of the present invention includes an acquisition unit that acquires image data representing an image and audio data representing audio accompanying the image, a specific processing execution unit that executes a specific processing to identify an object that is generating audio among one or more objects included in the image by inputting the image data and audio data acquired by the acquisition unit into a trained model, and a superimposition unit that superimposes text data corresponding to the audio data at a position within the image that corresponds to the result of the specific processing.
上記の課題を解決するために、本発明の他の態様に係る画像生成装置は、画像を示す画像データおよび当該画像に付随する音声を示す音声データを取得する取得部と、前記取得部が取得した画像データ及び音声データを学習済モデルに入力することによって前記画像に含まれる1又は複数のオブジェクトのうち、音声を発生させているオブジェクトを特定する特定処理を実行する特定処理実行部と、前記特定処理の確からしさを示す確度情報に応じた表示態様を有する情報であって、前記オブジェクトを特定する情報を重畳した画像を生成する重畳部とを備える。 To solve the above problem, an image generating device according to another aspect of the present invention includes an acquisition unit that acquires image data representing an image and audio data representing audio accompanying the image, a specific processing execution unit that executes a specific processing to identify an object that is generating audio among one or more objects included in the image by inputting the image data and audio data acquired by the acquisition unit into a trained model, and a superimposition unit that generates an image on which information identifying the object is superimposed, the information having a display form corresponding to accuracy information indicating the accuracy of the identification processing.
上記の課題を解決するために、本発明の一態様に係る画像生成方法は、画像を示す画像データおよび当該画像に付随する音声を示す音声データを取得する取得工程と、前記取得工程において取得した画像データ及び音声データを学習済モデルに入力することによって前記画像に含まれる1又は複数のオブジェクトのうち、音声を発生させているオブジェクトを特定する特定処理を実行する特定処理実行工程と、前記音声データに対応するテキストデータを、前記画像内の位置であって、前記特定処理の結果に応じた位置に重畳する重畳工程と、を含む。 In order to solve the above problems, an image generating method according to one aspect of the present invention includes an acquisition step of acquiring image data representing an image and audio data representing audio accompanying the image, a specific processing execution step of executing a specific processing step of identifying an object that is generating audio among one or more objects included in the image by inputting the image data and audio data acquired in the acquisition step into a trained model, and a superimposition step of superimposing text data corresponding to the audio data at a position within the image that corresponds to the result of the specific processing.
上記の課題を解決するために、本発明の他の態様に係る画像生成方法は、画像を示す画像データおよび当該画像に付随する音声を示す音声データを取得する取得工程と、前記取得工程において取得した画像データ及び音声データを学習済モデルに入力することによって前記画像に含まれる1又は複数のオブジェクトのうち、音声を発生させているオブジェクトを特定する特定処理を実行する特定処理実行工程と、前記特定処理の確からしさを示す確度情報に応じた表示態様を有する情報であって、前記オブジェクトを特定する情報を重畳した画像を生成する重畳工程とを含む。 In order to solve the above problem, an image generating method according to another aspect of the present invention includes an acquisition step of acquiring image data representing an image and audio data representing audio accompanying the image, a specific processing execution step of executing a specific processing step of identifying an object that is generating audio among one or more objects included in the image by inputting the image data and audio data acquired in the acquisition step into a trained model, and a superimposition step of generating an image on which information identifying the object is superimposed, the information having a display form corresponding to accuracy information indicating the accuracy of the identification process.
本発明の一態様によれば、視聴者がオブジェクトとテキストデータとの紐付けを適切に認識できる。 According to one aspect of the present invention, the viewer can properly recognize the association between the object and the text data.
〔実施形態1〕
以下、本発明の一実施形態について、図1~図7を参照しながら説明する。
[Embodiment 1]
Hereinafter, an embodiment of the present invention will be described with reference to FIGS.
図1は、本実施形態に係る表示装置1を正面から見た透視図である。本実施形態において、表示装置1は、テレビジョン受信機として実現されている。図1に示すように、表示装置1は、少なくとも画像生成装置10と、表示部40とを備える。
Figure 1 is a front perspective view of a display device 1 according to this embodiment. In this embodiment, the display device 1 is realized as a television receiver. As shown in Figure 1, the display device 1 includes at least an
以下、図1に示す表示装置1が備える画像生成装置10の構成について図2を参照しながら詳しく説明する。図2は、画像生成装置10の要部構成を示すブロック図である。
The configuration of the
図2に示すように、画像生成装置10は、取得部11と、音声・画像認識部12と、テキストデータ生成部13と、字幕表示位置決定部14と、重畳部15とを備える。取得部11は、特許請求の範囲における「取得部」の一例である。また、音声・画像認識部12及び字幕表示位置決定部14は、特許請求の範囲における「特定処理実行部」の一例である。また、重畳部15は、特許請求の範囲における「重畳部」の一例である。また、図2において、符号20は、音声認識用DBを示し、符号30は、画像認識用DBを示し、符号40は、表示部を示す。音声認識用DB20及び画像認識用DB30は、(1)表示装置1の内部に設けられていてもよいし、(2)表示装置1の外部に設けられ、表示装置1と通信可能に構成されていてもよい。
As shown in FIG. 2, the
取得部11は、画像を示す画像データおよび当該画像に付随する音声を示す音声データを取得するための構成である。一例として、取得部11は、放送波を復調することによって得られたデータから、画像データと音声データとを分離・抽出する。別の例として、取得部11は、コンテンツデータをデコードすることによって得られたデータから、画像データと音声データとを分離・抽出する。なお、画像データが表す画像は、静止画像であってもよいし、動画像(映像)であってもよい。そして、図2に示すように、取得部11により取得した画像データが、音声・画像認識部12が備える画像認識部、および重畳部15のそれぞれに出力される。また、取得部11により取得した音声データが、テキストデータ生成部13、および音声・画像認識部12が備える音声認識部のそれぞれに出力される。
The
音声・画像認識部12は、(1)取得部11が取得した音声データの表す音声を発したオブジェクトを識別すると共に、(2a)取得部11が取得した画像データの表す画像に被写体として含まれる各オブジェクトを識別し、(2b)各オブジェクトの画面内の位置を特定するための構成である。音声・画像認識部12は、(1a)音声データの表す音声を発したオブジェクトの識別情報、(2a)画像データの表す画像に被写体として含まれる各オブジェクトの識別情報、および、(2b)画像データの表す画像に被写体として含まれる各オブジェクトの位置情報を、字幕表示位置決定部14に出力する。
The audio/
音声・画像認識部12は、例えば図2に示すように、音声認識部と画像認識部とにより構成することができる。
The voice/
音声認識部は、取得部11が取得した音声データの表す音声を発したオブジェクトを識別する。この識別(特許請求の範囲における「第2の特定処理」の一例)を行うために、音声認識部は、例えば、音声認識用DBに格納された学習済モデル(特許請求の範囲における「第2の学習済モデル」の一例)を利用する。この学習済モデルは、音声データを入力とし、その音声データの表す音声を発したオブジェクトの識別情報を出力とする学習済モデル(例えば、ニューラルネットワーク)である。ここで、オブジェクトの識別情報とは、そのオブジェクトを他のオブジェクトと識別するための情報であり、例えば、そのオブジェクトに付与された識別子である。この学習済モデルは、例えば、音声データと、その音声データの表す音声を発したオブジェクトの識別情報との組み合わせを教師データとする機械学習によって構築することができる。
The voice recognition unit identifies the object that emitted the voice represented by the voice data acquired by the
例えば、この学習済モデルにA首相の話し声を表す音声データを入力すると、この学習済モデルからA首相の識別情報が出力される。また、例えば、この学習済モデルにT大統領の話し声を表す音声データを入力すると、この学習済モデルからT大統領の識別情報が出力される。また、例えば、この学習済モデルに犬の鳴き声を表す音声データを入力すると、この学習済モデルから犬の識別情報が出力される。また、例えば、この学習済モデルに救急車のサイレン音を表す音声データを入力すると、この学習済モデルから救急車の識別情報が出力される。 For example, when audio data representing the voice of Prime Minister A is input to this trained model, identification information for Prime Minister A is output from this trained model. Also, when audio data representing the voice of President T is input to this trained model, identification information for President T is output from this trained model. Also, when audio data representing the sound of a dog barking is input to this trained model, identification information for the dog is output from this trained model. Also, when audio data representing the sound of an ambulance siren is input to this trained model, identification information for the ambulance is output from this trained model.
画像認識部は、取得部11が取得した画像データの表す画像に被写体として含まれる各オブジェクトを識別すると共に、各オブジェクトの画面内の位置を特定する。この識別・特定(特許請求の範囲における「第1の特定処理」の一例)を行うために、画像認識部は、例えば、画像認識用DBに格納された学習済モデル(特許請求の範囲における「第1の学習済モデル」の一例)を利用する。この学習済モデルは、画像データを入力とし、その画像データの表す画像に被写体として含まれる各オブジェクトの識別情報および位置情報を出力する学習済モデル(例えば、ニューラルネットワーク)である。ここで、オブジェクトの位置情報とは、そのオブジェクトの画面内の位置を表す情報であり、例えば、そのオブジェクトの代表点の座標である。この学習済モデルは、例えば、画像データと、その画像データの表す画像に被写体として含まれるオブジェクトの識別情報及び位置情報との組み合わせを教師データとする機械学習によって構築することができる。
The image recognition unit identifies each object included as a subject in the image represented by the image data acquired by the
例えば、この学習済モデルにA首相およびT大統領を被写体として含む画像を表す画像データが入力されると、この学習済モデルからA首相の識別情報および位置情報、並びに、T大統領の識別情報および位置情報が出力される。また、例えば、この学習済モデルに犬および救急車を被写体として含む画像を表す画像データが入力されると、この学習済モデルから犬の識別情報および位置情報、並びに、救急車の識別情報および位置情報が出力される。 For example, when image data representing an image including Prime Minister A and President T as subjects is input to this trained model, the trained model outputs identification information and location information for Prime Minister A, as well as identification information and location information for President T. Also, for example, when image data representing an image including a dog and an ambulance as subjects is input to this trained model, the trained model outputs identification information and location information for the dog, as well as identification information and location information for the ambulance.
テキストデータ生成部13は、取得部11が取得した音声データの表す音声をテキストデータに変換するための構成である。音声データの表す音声をテキストデータに変換する方法は公知であるため、ここではその説明を省略する。テキストデータ生成部13は、生成したテキストデータを、重畳部15に出力する。
The text
字幕表示位置決定部14は、音声・画像認識部12が生成した識別情報および位置情報に基づき、取得部11が取得した画像データの表す画像に被写体として含まれるオブジェクトのうち、取得部11が取得した音声データの表す音声を発しているオブジェクトを特定する。ここで、字幕表示位置決定部14が特定するオブジェクトは、画像認識部にて得られた識別情報が音声認識部にて得られた識別情報と一致するオブジェクトである。そして、字幕表示位置決定部14は、特定したオブジェクトの位置情報に基づいて、テキストデータ生成部13が生成したテキストを字幕として表示する位置を決定する。例えば、字幕表示位置決定部14は、テキストデータ生成部13が生成したテキストを字幕として表示する位置を、特定したオブジェクトの近くに設定する。或いは、字幕表示位置決定部14は、テキストデータ生成部13が生成したテキストを字幕として表示する位置を、特定したオブジェクトの近くに表示された吹き出し画像の内部に表示する。
Based on the identification information and position information generated by the audio/
重畳部15は、取得部11が取得した音声データに対応する、テキストデータ生成部13が生成したテキストデータを、取得部11が取得した画像データの表す画像に重畳するための構成である。重畳部15は、テキストデータ生成部13が生成したテキストデータを重畳する位置を、字幕表示位置決定部14が決定した位置に設定する。重畳部15が生成した字幕付の画像は、表示部40に表示される。
The
表示装置1によれば、音声をテキスト化することにより得られた字幕を、その音声を発したオブジェクトの位置に応じた場所に表示することが可能になる。したがって、表示装置1を視聴している視聴者、例えば、聴覚に障害がある視聴者であってもオブジェクトと字幕との紐付けを適切に認識することが可能になる。 The display device 1 makes it possible to display subtitles obtained by converting audio into text at a location corresponding to the position of the object that emitted the audio. Therefore, even a viewer watching the display device 1, for example a viewer with hearing impairment, can properly recognize the association between the object and the subtitles.
なお、重畳部15は、特定処理における確からしさを示す確度情報を参照して、前記テキストデータを重畳する位置を決定してもよい。ここで、特定処理とは、音声認識部におけるオブジェクトの識別、画像認識部におけるオブジェクトの識別、および、字幕表示位置決定部14におけるオブジェクトの特定を含む処理のことを指す。
The superimposing
例えば、重畳部15は、前記確度情報が示す確からしさが所定の高さよりも高い場合、音声を発生させているオブジェクトの近くにテキストデータを字幕として重畳する。それ以外の場合、重畳部15は、例えば、画面の下端、画面の上端、画面の右端、画面の左端など、音声を発生させているオブジェクトとは関係なく予め定められた領域にテキストデータを字幕として重畳する。
For example, if the likelihood indicated by the likelihood information is higher than a predetermined level, the
或いは、重畳部15は、前記確度情報が示す確からしさが所定の高さよりも高い場合、音声を発生させているオブジェクトの近くにオブジェクトから発生された音声であることを表す吹き出し画像を重畳し、この吹き出し画像の内部にテキストデータを字幕として重畳する。それ以外の場合、重畳部15は、例えば、画面の下端、画面の上端、画面の右端、画面の左端など、音声を発生させているオブジェクトとは関係なく予め定められた領域にテキストデータを字幕として重畳する。
Alternatively, if the likelihood indicated by the likelihood information is higher than a predetermined level, the
上記の構成によれば、重畳部15により、テキストデータを重畳する位置を適切に決定することができる。
With the above configuration, the
なお、ここでいう「所定の高さ」は特に限定されず、必要に応じて適切に設定すればよい。 Note that the "predetermined height" referred to here is not particularly limited and may be set appropriately as needed.
(表示部に表示される表示例)
図3は、図1に示す表示装置1が備え表示部40に表示される1つの表示例を示す図であり、図4~図6は、他の表示例を示す図である。
(Example of what appears on the display)
FIG. 3 is a diagram showing one display example displayed on the
図3に示すように、上述した特定処理により、音声を発生させているオブジェクトが人間であるOB1と特定した場合、重畳部15が、その音声に対応するテキストデータTD1(本例では「こんにちは」)を、その音声を発生させているOB1の近くの吹き出し画像に重畳することができる。
As shown in FIG. 3, when the above-mentioned identification process identifies the object generating the voice as a human OB1, the
これにより、表示部40を見ている視聴者、例えば、聴覚に障害がある視聴者であってもオブジェクト(本例ではOB1)と字幕(本例では「こんにちは」)との紐付けを適切に認識することができる。
This allows a viewer watching the
一方、図4に示すように、上述した特定処理により、音声を発生させているオブジェクトが人間であるOB2と特定した場合、重畳部15が、その音声に対応するテキストデータTD2(本例では「ようこそ」)を、その音声を発生させているOB2の近くの吹き出し画像に重畳することができる。これによっても、図3に示す例と同じ効果を奏する。
On the other hand, as shown in FIG. 4, if the above-mentioned identification process identifies the object generating the sound as a human OB2, the
なお、特定処理により、音声を発生させているオブジェクトを特定できなかった場合、重畳部15は、例えば、画面の下端、画面の上端、画面の右端、画面の左端など、音声を発生しているオブジェクトとは関係なく予め定められた領域に、オブジェクトが発生する音声を示す音声データに対応するテキストデータを字幕として重畳してもよい。
If the identification process fails to identify the object generating the sound, the
(実施形態1の変形例)
本実施形態においては、オブジェクトが人間であると説明したが、オブジェクトは、人間に限定されず、音声を発する任意のものであり得る。例えば、オブジェクトは、鳴き声を発する犬であってもよいし、サイレン音を発する救急車であってもよい。
(Modification of the first embodiment)
In the present embodiment, the object is described as a human being, but the object is not limited to a human being and may be any object that emits a sound. For example, the object may be a dog that emits a barking sound or an ambulance that emits a siren sound.
図5に示すように、上述した特定処理により、音声を発生させているオブジェクトが犬であるOB3と特定した場合、重畳部15が、その音声に対応するテキストデータTD3(本例では「ワンワン」)を、その音声を発生させているOB3の近くの吹き出し画像に重畳することができる。これによっても、図3に示す例と同じ効果を奏する。
As shown in FIG. 5, when the above-mentioned identification process identifies the object generating the sound as a dog OB3, the
一方、図6に示すように、上述した特定処理により、音声を発生させているオブジェクトが救急車であるOB4と特定した場合、重畳部15が、その音声に対応するテキストデータTD4(本例では「ピーポーピーポー」を、その音声を発生させているOB4の近くの吹き出し画像に重畳することができる。これによっても、図3に示す例と同じ効果を奏する。
On the other hand, as shown in FIG. 6, if the above-mentioned identification process identifies the object generating the sound as OB4, an ambulance, the
また、本実施形態においては、オブジェクトの近くに、そのオブジェクトが発した音声を表すテキストデータのみを重畳する構成について説明したが、本発明はこれに限定されない。例えば下記のように構成されてもよい。 In addition, in this embodiment, a configuration has been described in which only text data representing the sound emitted by an object is superimposed near the object, but the present invention is not limited to this. For example, the configuration may be as follows.
すなわち、重畳部15は、オブジェクトの近くに、そのオブジェクトが発した音声を表すテキストデータに加えて、そのオブジェクトの特定情報を表示してもよい。ここで、オブジェクトの特定情報とは、そのオブジェクトを特定するための情報であり、例えば、そのオブジェクトの名称である。また、特定情報の重畳は、テキストデータの重畳と同様、上述した確度情報が示す確からしさが所定の高さよりも高い場合に限って実行されてもよい。
That is, the
この場合、特に図示しないが、例えば上記図3~図6において、表示部40のテキストデータTD1~4に対応した位置に、特定情報を表示すればよい。
In this case, although not specifically shown, for example, in Figures 3 to 6 above, specific information may be displayed at positions on the
上記の構成によれば、表示部40を見ている視聴者、例えば、聴覚に障害がある視聴者であってもオブジェクトと名称との紐付けをより適切に認識することができる。
With the above configuration, a viewer watching the
以下、本実施形態の表示方法について図7を参照しながら説明する。図7は、図1に示す表示装置1が備える画像生成装置10により実行する画像生成方法を示すフローチャートである。
The display method of this embodiment will be described below with reference to FIG. 7. FIG. 7 is a flowchart showing an image generation method executed by the
画像生成方法は、図7に示すように、取得工程S10と、特定処理実行工程S11と、重畳工程S12と、を含んでいる。 As shown in FIG. 7, the image generation method includes an acquisition step S10, a specific processing execution step S11, and a superimposition step S12.
取得工程S10において、画像生成装置10は、外部から入力された画像を示す画像データおよび当該画像に付随する音声を示す音声データを取得する。
In the acquisition step S10, the
次に、特定処理実行工程S11において、画像生成装置10は、取得工程S10において取得した画像データ及び音声データを学習済モデルに入力することによって前記画像に含まれる1又は複数のオブジェクトのうち、音声を発生させているオブジェクトを特定する。
Next, in the identification process execution step S11, the
最後に、重畳工程S12において、画像生成装置10は、前記音声データに対応するテキストデータを、前記画像内の位置であって、前記特定処理の結果に応じた位置に重畳する。
Finally, in the superimposition step S12, the
〔実施形態2〕
本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。
[Embodiment 2]
Other embodiments of the present invention will be described below. For ease of explanation, the same reference numerals are given to members having the same functions as those described in the above embodiment, and the description thereof will not be repeated.
図8は、本実施形態に係る画像生成装置10aの要部構成を示すブロック図である。実施形態1と比較すると、本実施形態に係る画像生成装置10aがテキストデータ生成部を備えない点のみで相違する。以下、この相違点を重点的に説明する。
Figure 8 is a block diagram showing the main configuration of the
本実施形態において、画像生成装置10aがテキストデータ生成部を備えないため、当然テキストデータを生成しない。本実施形態において、重畳部15が、上述した特定処理の確からしさを示す確度情報に応じた表示態様を有する情報であって、前記オブジェクトを特定する情報を重畳した画像を生成する。
In this embodiment, the
(表示部に表示される表示例)
図9は、図8に示す表示部40に表示される1つの表示例を示す図であり、図10は、他の表示例を示す図である。
(Example of what appears on the display)
FIG. 9 is a diagram showing one display example displayed on the
図9に示す例において、画像生成装置10aは、上述した特定処理により、音声を発生させている2つのオブジェクトを特定している。そして、画像生成装置10aは、これら2つのオブジェクトの名称OB1,OB2を、特定処理の確からしさが高いことを示す表示態様で重畳した画像を生成している。ここでは、特定処理の確からしさが高いことを示す表示態様として、オブジェクトに近い辺に突出部を有する長方形の吹き出しを、オブジェクト名OB1,OB2と共に表示する表示態様を採用している。
In the example shown in FIG. 9, the
これにより、表示部40を見ている視聴者、例えば、聴覚に障害がある視聴者であってもオブジェクト、本例ではOB1と、OB2とを適切に認識することができる。
This allows a viewer looking at the
一方、図10に示す例において、画像生成装置10aは、上述した特定処理により、音声を発生させている2つのオブジェクトを特定している。そして、画像生成装置10aは、これら2つのオブジェクトの名称OB1,OB2を、特定処理の確からしさが低いことを示す表示態様で重畳した画像を生成している。ここでは、特定処理の確からしさが低いことを示す表示態様として、オブジェクトに近い辺に突出部を有さない長方形の吹き出しを、オブジェクト名OB1,OB2と共に表示する表示態様を採用している。
On the other hand, in the example shown in FIG. 10, the
これによって、表示部40を見ている視聴者、例えば、聴覚に障害がある視聴者であってもオブジェクト、本例ではOB1と、OB2との確からしさが低いと認識することができる。
This allows a viewer looking at the
以下、本実施形態の表示方法について図11を参照しながら説明する。図11は、図8に示す画像生成装置10aにより実行する画像生成方法を示すフローチャートである。
The display method of this embodiment will be described below with reference to FIG. 11. FIG. 11 is a flowchart showing the image generation method executed by the
画像生成方法は、図11に示すように、取得工程S20と、特定処理実行工程S21と、重畳工程S22と、を含んでいる。 As shown in FIG. 11, the image generation method includes an acquisition step S20, a specific processing execution step S21, and a superimposition step S22.
図11に示すように、本実施形態において、ステップS20、およびステップS21の処理内容が、それぞれ実施形態1におけるステップS10、およびステップS11の処理内容と同様のためその説明を省略する。 As shown in FIG. 11, in this embodiment, the processing contents of steps S20 and S21 are similar to the processing contents of steps S10 and S11 in embodiment 1, respectively, and therefore the description thereof is omitted.
そして、重畳工程S22において、画像生成装置10aは、前記特定処理の確からしさを示す確度情報に応じた表示態様を有する情報であって、前記オブジェクトを特定する情報を重畳した画像を生成する。
Then, in the superimposition step S22, the
〔まとめ〕
本発明の態様1に係る画像生成装置(10)は、画像を示す画像データおよび当該画像に付随する音声を示す音声データを取得する取得部(11)と、前記取得部が取得した画像データ及び音声データを学習済モデルに入力することによって前記画像に含まれる1又は複数のオブジェクトのうち、音声を発生させているオブジェクトを特定する特定処理を実行する特定処理実行部(14)と、前記音声データに対応するテキストデータを、前記画像内の位置であって、前記特定処理の結果に応じた位置に重畳する重畳部(15)と、を備えている。
〔summary〕
An image generating device (10) according to aspect 1 of the present invention includes an acquisition unit (11) that acquires image data representing an image and audio data representing audio accompanying the image, a specific processing execution unit (14) that executes a specific processing to identify an object that is generating audio among one or more objects contained in the image by inputting the image data and audio data acquired by the acquisition unit into a learned model, and a superimposition unit (15) that superimposes text data corresponding to the audio data at a position within the image that corresponds to the result of the identification processing.
上記の構成によれば、表示装置(1)を視聴している視聴者、聴覚に障害がある視聴者であってもオブジェクトとテキストデータ(字幕)との紐付けを適切に認識することが可能になる。 The above configuration enables viewers watching the display device (1), even those with hearing impairments, to properly recognize the association between objects and text data (subtitles).
本発明の態様2に係る画像生成装置(10)は、上記態様1において、前記重畳部は、前記特定処理における確からしさを示す確度情報を参照して、前記テキストデータを重畳する位置を決定してもよい。 In the image generating device (10) according to aspect 2 of the present invention, in the above aspect 1, the superimposition unit may determine the position at which to superimpose the text data by referring to accuracy information indicating the accuracy of the specific process.
上記の構成によれば、重畳部(15)により、テキストデータを重畳する位置を適切に決定することができる。 With the above configuration, the superimposition unit (15) can appropriately determine the position at which to superimpose the text data.
本発明の態様3に係る画像生成装置(10)は、上記態様2において、前記特定処理実行部は、前記画像データを第1の学習済モデルに入力することによって、前記画像に含まれる1又は複数のオブジェクトの画像内の位置及び識別情報を取得する第1の特定処理を実行し、前記音声データを第2の学習済モデルに入力することによって、前記音声データの識別情報を取得する第2の特定処理を実行し、前記第1の特定処理の結果、及び前記第2の特定処理の結果を参照して、前記音声を発生させているオブジェクトを特定してもよい。 In the image generating device (10) according to aspect 3 of the present invention, in the above aspect 2, the identification process execution unit may execute a first identification process to acquire positions and identification information of one or more objects included in the image by inputting the image data into a first trained model, execute a second identification process to acquire identification information of the audio data by inputting the audio data into a second trained model, and identify the object generating the audio by referring to the results of the first identification process and the results of the second identification process.
上記の構成によれば、特定処理実行部(14)により、音声を発生させているオブジェクトを確実に特定することができる。 With the above configuration, the identification process execution unit (14) can reliably identify the object that is generating the sound.
本発明の態様4に係る画像生成装置(10)は、上記態様2または3において、前記重畳部は、前記確度情報が示す確からしさが所定の高さよりも高い場合、前記音声を発生させているオブジェクトの近くに前記テキストデータを重畳してもよい。 In the image generating device (10) according to aspect 4 of the present invention, in the above aspect 2 or 3, the superimposition unit may superimpose the text data near the object generating the sound when the likelihood indicated by the likelihood information is higher than a predetermined level.
本発明の態様5に係る画像生成装置(10)は、上記態様4において、前記重畳部は、前記確度情報が示す確からしさが所定の高さよりも高い場合、前記オブジェクトから発せされた音声であることを表す吹き出し画像を、前記音声を発生させているオブジェクトの近くに重畳し、前記吹き出し画像に前記テキストデータを重畳してもよい。 In the image generating device (10) according to aspect 5 of the present invention, in the above aspect 4, the superimposition unit may superimpose a speech bubble image indicating that the sound is emitted from the object near the object generating the sound when the likelihood indicated by the likelihood information is higher than a predetermined level, and may superimpose the text data on the speech bubble image.
上記の構成によれば、重畳部(15)により、テキストデータをより適切な位置に重畳することができる。 With the above configuration, the superimposition unit (15) can superimpose text data at a more appropriate position.
本発明の態様6に係る画像生成装置(10)は、上記態様2~5の何れか1つにおいて、前記重畳部は、前記確度情報が示す確からしさが所定の高さよりも高い場合、前記オブジェクトの近くに、前記オブジェクトを特定する情報を重畳した画像を生成してもよい。
The image generating device (10) according to
上記の構成によれば、表示部(40)を見ている視聴者、聴覚に障害がある視聴者であってもオブジェクトとテキストデータ(字幕)との紐付けをより適切に認識することができる。 With the above configuration, viewers watching the display unit (40), even those with hearing impairments, can more appropriately recognize the association between objects and text data (subtitles).
本発明の態様7に係る画像生成装置(10a)は、画像を示す画像データおよび当該画像に付随する音声を示す音声データを取得する取得部(11)と、前記取得部が取得した画像データ及び音声データを学習済モデルに入力することによって前記画像に含まれる1又は複数のオブジェクトのうち、音声を発生させているオブジェクトを特定する特定処理を実行する特定処理実行部(14)と、前記特定処理の確からしさを示す確度情報に応じた表示態様を有する情報であって、前記オブジェクトを特定する情報を重畳した画像を生成する重畳部(15)とを備えている。 The image generating device (10a) according to aspect 7 of the present invention includes an acquisition unit (11) that acquires image data representing an image and audio data representing audio accompanying the image, a specific processing execution unit (14) that executes a specific processing to identify an object that is generating audio among one or more objects included in the image by inputting the image data and audio data acquired by the acquisition unit into a trained model, and a superimposition unit (15) that generates an image on which information identifying the object is superimposed, the information having a display form corresponding to accuracy information indicating the accuracy of the identification processing.
上記の構成によれば、上記の態様1と同様な効果を奏する。 The above configuration provides the same effects as in aspect 1 above.
本発明の態様8に係る画像生成方法は、画像を示す画像データおよび当該画像に付随する音声を示す音声データを取得する取得工程と、前記取得工程において取得した画像データ及び音声データを学習済モデルに入力することによって前記画像に含まれる1又は複数のオブジェクトのうち、音声を発生させているオブジェクトを特定する特定処理を実行する特定処理実行工程と、前記音声データに対応するテキストデータを、前記画像内の位置であって、前記特定処理の結果に応じた位置に重畳する重畳工程と、を含む。 The image generating method according to aspect 8 of the present invention includes an acquisition step of acquiring image data representing an image and audio data representing audio accompanying the image, a specific processing execution step of executing a specific processing step of identifying an object that is generating audio among one or more objects included in the image by inputting the image data and audio data acquired in the acquisition step into a trained model, and a superimposition step of superimposing text data corresponding to the audio data at a position within the image that corresponds to the result of the specific processing.
上記の構成によれば、上記の態様1と同様な効果を奏する。 The above configuration provides the same effects as in aspect 1 above.
本発明の態様9に係る画像生成方法は、画像を示す画像データおよび当該画像に付随する音声を示す音声データを取得する取得工程と、前記取得工程において取得した画像データ及び音声データを学習済モデルに入力することによって前記画像に含まれる1又は複数のオブジェクトのうち、音声を発生させているオブジェクトを特定する特定処理を実行する特定処理実行工程と、前記特定処理の確からしさを示す確度情報に応じた表示態様を有する情報であって、前記オブジェクトを特定する情報を重畳した画像を生成する重畳工程と、を含む。 The image generating method according to aspect 9 of the present invention includes an acquisition step of acquiring image data representing an image and audio data representing audio accompanying the image, an identification process execution step of executing an identification process for identifying an object generating audio among one or more objects included in the image by inputting the image data and audio data acquired in the acquisition step into a trained model, and a superimposition step of generating an image on which information identifying the object is superimposed, the information having a display form corresponding to accuracy information indicating the accuracy of the identification process.
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。 The present invention is not limited to the above-described embodiments, and various modifications are possible within the scope of the claims. The technical scope of the present invention also includes embodiments obtained by appropriately combining the technical means disclosed in the different embodiments. Furthermore, new technical features can be formed by combining the technical means disclosed in the respective embodiments.
1 表示装置
10、10a 画像生成装置
11 取得部
12 音声・画像認識部
13 テキストデータ生成部
14 特定処理実行部
15 重畳部
20 音声認識用DB
30 画像認識用DB
40 表示部
OB1~4 オブジェクト1~4
TD1~4 テキストデータ1~4
REFERENCE SIGNS LIST 1
30 Image recognition database
40 Display section OB1-4 Object 1-4
TD1-4 Text data 1-4
Claims (8)
前記取得部が取得した画像データ及び音声データを学習済モデルに入力することによって前記画像に含まれる1又は複数のオブジェクトのうち、音声を発生させているオブジェクトを特定する特定処理を実行する特定処理実行部と、
前記音声データに対応するテキストデータを、前記画像内の位置であって、前記特定処理の結果に応じた位置に重畳する重畳部と、を備え、
前記重畳部は、前記特定処理における確からしさを示す確度情報を参照して、前記テキストデータを重畳する位置を決定する、画像生成装置。 an acquisition unit that acquires image data representing an image and audio data representing audio accompanying the image;
A specific processing execution unit that executes a specific processing to identify an object generating a sound among one or more objects included in the image by inputting the image data and the voice data acquired by the acquisition unit into a trained model;
a superimposition unit that superimposes text data corresponding to the voice data at a position within the image according to a result of the identification process ,
The overlay unit determines a position at which to overlay the text data by referring to probability information indicating a probability in the specified process .
前記画像データを第1の学習済モデルに入力することによって、前記画像に含まれる1又は複数のオブジェクトの画像内の位置及び識別情報を取得する第1の特定処理を実行し、
前記音声データを第2の学習済モデルに入力することによって、前記音声データの識別情報を取得する第2の特定処理を実行し、
前記第1の特定処理の結果、及び前記第2の特定処理の結果を参照して、前記音声を発生させているオブジェクトを特定する
請求項1に記載の画像生成装置。 The specific process execution unit is
A first identification process is executed to obtain positions and identification information of one or more objects included in the image by inputting the image data into a first trained model;
A second identification process is executed to obtain identification information of the voice data by inputting the voice data into a second trained model;
The image generating device according to claim 1 , further comprising: a processor for processing the image generated by the object generating the sound;
請求項1または2に記載の画像生成装置。 The image generating device according to claim 1 , wherein the superimposing unit superimposes the text data near an object generating the sound when the likelihood indicated by the likelihood information is higher than a predetermined level.
前記確度情報が示す確からしさが所定の高さよりも高い場合、前記オブジェクトから発せされた音声であることを表す吹き出し画像を、前記音声を発生させているオブジェクトの近くに重畳し、
前記吹き出し画像に前記テキストデータを重畳する
請求項3に記載の画像生成装置。 The overlapping portion is
If the likelihood indicated by the likelihood information is higher than a predetermined level, a balloon image indicating that the sound is emitted from the object is superimposed near the object emitting the sound;
The image generating device according to claim 3 , wherein the text data is superimposed on the speech balloon image.
請求項1~4の何れか1項に記載の画像生成装置。 The image generating device according to any one of claims 1 to 4 , wherein the superimposition unit generates an image in which information identifying the object is superimposed near the object when the likelihood indicated by the likelihood information is higher than a predetermined height.
前記取得部が取得した画像データ及び音声データを学習済モデルに入力することによって前記画像に含まれる1又は複数のオブジェクトのうち、音声を発生させているオブジェクトを特定する特定処理を実行する特定処理実行部と、
前記特定処理の確からしさを示す確度情報に応じた表示態様を有する情報であって、前記オブジェクトを特定する情報を重畳した画像を生成する重畳部と、
を備えている画像生成装置。 an acquisition unit that acquires image data representing an image and audio data representing audio accompanying the image;
A specific processing execution unit that executes a specific processing to identify an object generating a sound among one or more objects included in the image by inputting the image data and the voice data acquired by the acquisition unit into a trained model;
a superimposing unit that generates an image on which information that identifies the object is superimposed, the information having a display form corresponding to certainty information that indicates the certainty of the identification process; and
An image generating device comprising:
前記取得工程において取得した画像データ及び音声データを学習済モデルに入力することによって前記画像に含まれる1又は複数のオブジェクトのうち、音声を発生させているオブジェクトを特定する特定処理を実行する特定処理実行工程と、
前記音声データに対応するテキストデータを、前記画像内の位置であって、前記特定処理の結果に応じた位置に重畳する重畳工程と、を含み、
前記重畳工程では、前記特定処理における確からしさを示す確度情報を参照して、前記テキストデータを重畳する位置を決定する、画像生成方法。 an acquiring step of acquiring image data representing an image and audio data representing audio accompanying the image;
A process for executing a process for identifying an object that is generating a sound among one or more objects included in the image by inputting the image data and the sound data acquired in the acquisition process into a trained model;
a superimposing step of superimposing text data corresponding to the voice data at a position within the image according to a result of the identification process ,
In the superimposing step, a position at which to superimpose the text data is determined by referring to accuracy information indicating accuracy in the specific process .
前記取得工程において取得した画像データ及び音声データを学習済モデルに入力することによって前記画像に含まれる1又は複数のオブジェクトのうち、音声を発生させているオブジェクトを特定する特定処理を実行する特定処理実行工程と、
前記特定処理の確からしさを示す確度情報に応じた表示態様を有する情報であって、前記オブジェクトを特定する情報を重畳した画像を生成する重畳工程と、
を含む画像生成方法。 an acquiring step of acquiring image data representing an image and audio data representing audio accompanying the image;
A process for executing a process for identifying an object that is generating a sound among one or more objects included in the image by inputting the image data and the sound data acquired in the acquisition process into a trained model;
a superimposing step of generating an image on which information for identifying the object is superimposed, the information having a display form corresponding to certainty information indicating the certainty of the identification process;
An image generating method comprising:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020187607A JP7640248B2 (en) | 2020-11-10 | 2020-11-10 | Image generating device and image generating method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020187607A JP7640248B2 (en) | 2020-11-10 | 2020-11-10 | Image generating device and image generating method |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2022076940A JP2022076940A (en) | 2022-05-20 |
| JP7640248B2 true JP7640248B2 (en) | 2025-03-05 |
Family
ID=81618329
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020187607A Active JP7640248B2 (en) | 2020-11-10 | 2020-11-10 | Image generating device and image generating method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7640248B2 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2025173080A1 (en) * | 2024-02-13 | 2025-08-21 | オリンパスメディカルシステムズ株式会社 | Display control device, display control method, display control system, and display control program |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2012058838A (en) | 2010-09-06 | 2012-03-22 | Sony Corp | Image processor, program, and image processing method |
| CN103139375A (en) | 2011-12-02 | 2013-06-05 | Lg电子株式会社 | Mobile terminal and control method thereof |
| WO2018168369A1 (en) | 2017-03-14 | 2018-09-20 | 株式会社Seltech | Machine learning device and machine learning program |
| CN108924636A (en) | 2018-06-29 | 2018-11-30 | 北京优酷科技有限公司 | Caption presentation method and device |
| JP2019200671A (en) | 2018-05-17 | 2019-11-21 | 大日本印刷株式会社 | Learning device, learning method, program, data generation method, and identification device |
-
2020
- 2020-11-10 JP JP2020187607A patent/JP7640248B2/en active Active
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2012058838A (en) | 2010-09-06 | 2012-03-22 | Sony Corp | Image processor, program, and image processing method |
| CN103139375A (en) | 2011-12-02 | 2013-06-05 | Lg电子株式会社 | Mobile terminal and control method thereof |
| WO2018168369A1 (en) | 2017-03-14 | 2018-09-20 | 株式会社Seltech | Machine learning device and machine learning program |
| JP2019200671A (en) | 2018-05-17 | 2019-11-21 | 大日本印刷株式会社 | Learning device, learning method, program, data generation method, and identification device |
| CN108924636A (en) | 2018-06-29 | 2018-11-30 | 北京优酷科技有限公司 | Caption presentation method and device |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2022076940A (en) | 2022-05-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Hu et al. | Speaker-following video subtitles | |
| EP3726471B1 (en) | Augmented reality method and device | |
| KR102148392B1 (en) | Video metadata tagging system and method thereof | |
| Coutrot et al. | How saliency, faces, and sound influence gaze in dynamic social scenes | |
| KR20220155396A (en) | Video sound processing device, video sound processing method , and computer readable recording medium storing program | |
| JP2009075603A (en) | Generating and matching hashes of multimedia content | |
| KR20090120492A (en) | System and method for combining text with three-dimensional content | |
| US12056213B2 (en) | Method and system for scene-aware audio-video representation | |
| CN110532992B (en) | Human face recognition method based on visible light and near infrared | |
| JP7388188B2 (en) | Speaker recognition system, speaker recognition method, and speaker recognition program | |
| JP2007220004A (en) | Television and authentication device | |
| CN111191073A (en) | Video and audio recognition method, device, storage medium and device | |
| CN115394294B (en) | Voice recognition method, device, equipment and storage medium | |
| JP7640248B2 (en) | Image generating device and image generating method | |
| JP3873926B2 (en) | Subtitle insertion method, subtitle insertion system and subtitle insertion program | |
| KR20200050707A (en) | System for generating subtitle using graphic objects | |
| JP5316248B2 (en) | Video conference device, video conference method, and program thereof | |
| WO2023231712A1 (en) | Digital human driving method, digital human driving device and storage medium | |
| KR20110100649A (en) | Method and apparatus for synthesizing speech | |
| JP2010134507A (en) | Reproduction device | |
| CN107566863A (en) | A kind of exchange of information methods of exhibiting, device and equipment, set top box | |
| CN116233540B (en) | Parallel signal processing method and system based on video image recognition | |
| JP7652252B2 (en) | Image processing device, image processing method, and program | |
| CN113722513B (en) | Multimedia data processing method and equipment | |
| JP4219129B2 (en) | Television receiver |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230920 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20241126 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20250122 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250212 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250220 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7640248 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |