JP4003940B2 - VIDEO-RELATED CONTENT GENERATION DEVICE, VIDEO-RELATED CONTENT GENERATION METHOD, AND VIDEO-RELATED CONTENT GENERATION PROGRAM - Google Patents
VIDEO-RELATED CONTENT GENERATION DEVICE, VIDEO-RELATED CONTENT GENERATION METHOD, AND VIDEO-RELATED CONTENT GENERATION PROGRAM Download PDFInfo
- Publication number
- JP4003940B2 JP4003940B2 JP2002167419A JP2002167419A JP4003940B2 JP 4003940 B2 JP4003940 B2 JP 4003940B2 JP 2002167419 A JP2002167419 A JP 2002167419A JP 2002167419 A JP2002167419 A JP 2002167419A JP 4003940 B2 JP4003940 B2 JP 4003940B2
- Authority
- JP
- Japan
- Prior art keywords
- video
- character string
- feature amount
- content
- content generation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Studio Circuits (AREA)
- Television Systems (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、映像を映像メディア以外のメディアに供給することができる映像関連コンテンツを生成する映像関連コンテンツ生成装置、映像関連コンテンツ生成方法及び映像関連コンテンツ生成プログラムに関する。
【0002】
【従来の技術】
従来、映像(映像コンテンツ)から、映像コンテンツをそのまま提示することができる映像メディア(テレビ放送等)以外の、例えばデータ放送、WWW(World Wide Web)、携帯端末等の他のメディアで提示することができるコンテンツを制作し、配信する場合、元となる映像から特定の大きさを切り出したり、伝送フレームレート等を変換することで、他のメディア用の映像コンテンツを制作し、配信を行っている。この映像コンテンツを、映像メディア以外のメディア用コンテンツへ変換する方法は、解像度を除いては基本的に同種(映像)のコンテンツに変換することしか行われていない。
【0003】
また、従来、音声(音声コンテンツ)から、文字放送等で提示するコンテンツを制作する場合、元となる音声を音声認識によって文字情報に変換して、文字コンテンツとする方法がある。このように、音声コンテンツでは音声コンテンツから文字情報という異種のコンテンツに変換することが行われている。
【0004】
【発明が解決しようとする課題】
しかし、前記従来の技術では、異なるメディア用のコンテンツに変換する場合、映像から映像への解像度変換が主流であり、その変換の前後では解像度の違いを除いては基本的には同一の映像コンテンツである。また、異種コンテンツへの変換は、音声認識に基づく音声コンテンツから文字コンテンツへの変換が主流である。すなわち、映像から映像コンテンツ以外のコンテンツに変換する手法は考えられていない。
【0005】
このため、映像コンテンツに関連した、WWW等で使用されるコンテンツ記述言語で記述されたテキストベースのコンテンツ、音声コンテンツ、あるいは、映像コンテンツと関連しているが異なる画像を有する画像コンテンツ等を制作する場合、映像コンテンツを利用することができず、最初から制作を行わなければならないという問題があった。
【0006】
本発明は、以上のような問題点に鑑みてなされたものであり、映像(映像コンテンツ)を、その映像の内容に関連する座標情報、音声情報、画像情報等の異種情報に変換した映像関連コンテンツを生成することを可能にする映像関連コンテンツ生成装置、映像関連コンテンツ生成方法及び映像関連コンテンツ生成プログラムを提供することを目的とする。
【0007】
【課題を解決するための手段】
本発明は、前記目的を達成するために創案されたものであり、まず、請求項1に記載の映像関連コンテンツ生成装置は、映像信号から、その映像信号の映像内容に関連する情報を映像関連コンテンツとして生成する映像関連コンテンツ生成装置であって、映像信号を解析して、映像特徴量を抽出する映像シーン解析手段と、この映像シーン解析手段で抽出された映像特徴量を、テキストデータ、画像データ及び音声データの少なくとも1つに変換して映像関連コンテンツを生成するコンテンツ生成手段と、を備え、コンテンツ生成手段は、映像特徴量と、その映像特徴量を文字列として表現した特徴量文字列とを対応付けて蓄積した文字列変換データベースと、映像特徴量に基づいて、特徴量文字列を埋め込むテキスト領域をテンプレート化したコンテンツ記述言語のテキスト領域に、特徴量文字列を埋め込む文字列埋め込み手段と、を備える構成とした。
【0008】
かかる構成によれば、映像関連コンテンツ生成装置は、映像シーン解析手段によって、映像信号から映像特徴量を抽出する。そして、コンテンツ生成手段によって、映像特徴量をテキストデータ、画像データ及び音声データの少なくとも1つに変換して映像関連コンテンツとして生成する。
そして、映像関連コンテンツ生成装置は、文字列埋め込み手段によって、文字列変換データベースを参照して、特徴量文字列を埋め込むテキスト領域をテンプレート化したコンテンツ記述言語のテキスト領域に、映像特徴量に対応する特徴量文字列を埋め込む。
【0009】
ここで、映像特徴量とは、映像シーンを構成するフレームを特徴付ける数量のことで、例えば、明るさ(輝度値)、色味(色特徴量)、動き(動きベクトル量)、テクスチャ、映像オブジェクトの位置座標、映像オブジェクト数等を数値化したもの、あるいはその統計量である。
【0010】
また、映像特徴量をテキストデータに変換する場合、テキストベースのコンテンツ記述言語に変換すると、そのコンテンツ記述言語の再生装置によって、コンテンツを再生することが可能になり都合がよい。このコンテンツ記述言語には、例えば、HTML(HyperTest Markup Language)、VRML(Virtual Reality Modeling Language)、BML(Broadcast Markup Language)、RealAudioメタファイル等がある。
また、コンテンツ記述言語のテキスト領域には、映像特徴量に対応する予め定められた置換対象文字列を記述しておき、文字列変換データベースには、映像特徴量の種類とその映像特徴量の値毎に、置換対象文字列と特徴量文字列(置換文字列)とを対応付けておくことで、コンテンツ記述言語のテキスト領域である置換対象文字列を容易に特徴量文字列に置き換えることができる。
【0011】
また、請求項2に記載の映像関連コンテンツ生成装置は、請求項1に記載の映像関連コンテンツ生成装置において、映像シーン解析手段が、映像シーンに含まれる映像オブジェクトの位置座標を、映像特徴量として検出する映像オブジェクト位置検出手段を備える構成とした。
【0012】
かかる構成によれば、映像関連コンテンツ生成装置は、映像オブジェクト位置検出手段によって、映像シーンに含まれる映像オブジェクトの位置座標を、映像特徴量として検出する。この位置座標は、映像オブジェクトの特定の位置(例えば、左上座標、中心座標等)でもよいし、映像オブジェクトの重心座標としてもよい。
【0013】
さらに、請求項3に記載の映像関連コンテンツ生成装置は、請求項1又は請求項2に記載の映像関連コンテンツ生成装置において、映像シーン解析手段が、映像シーンに含まれる映像オブジェクトを特徴付ける特徴量を、映像特徴量として抽出する映像オブジェクト特徴量抽出手段を備える構成とした。
【0014】
かかる構成によれば、映像関連コンテンツ生成装置は、映像オブジェクト特徴量抽出手段によって、映像シーンに含まれる映像オブジェクトを特徴付ける映像特徴量を抽出する。この映像特徴量(映像オブジェクト特徴量)は、明るさ(輝度値)、色味(色特徴量)、動き(動きベクトル量)、テクスチャ等の映像オブジェクト毎の特徴量である。
【0017】
また、請求項4に記載の映像関連コンテンツ生成装置は、請求項2に記載の映像関連コンテンツ生成装置において、コンテンツ生成手段が、映像オブジェクト位置検出手段で検出された映像オブジェクトの位置座標に、映像オブジェクトに関連する画像データを合成する画像合成手段を備える構成とした。
【0018】
かかる構成によれば、映像関連コンテンツ生成装置は、画像合成手段によって、映像オブジェクト位置検出手段で検出された映像オブジェクトの位置座標に、画像データを合成することで、映像オブジェクトの位置座標を可視化したコンテンツを生成する。
【0019】
さらに、請求項5に記載の映像関連コンテンツ生成装置は、請求項1乃至請求項4のいずれか1項に記載の映像関連コンテンツ生成装置において、コンテンツ生成手段が、映像特徴量に対応付けて、複数の音声データを蓄積した音声データ蓄積手段と、映像特徴量に基づいて、音声データ蓄積手段に蓄積されている音声データを選択する音声選択手段と、この音声選択手段で選択された音声データを出力する音声出力手段と、を備える構成とした。
【0020】
かかる構成によれば、映像関連コンテンツ生成装置は、映像特徴量に対応付けて、複数の音声データを蓄積した音声データ蓄積手段から、音声選択手段が、映像特徴量に基づいて音声データを選択する。
ここで、音声データ蓄積手段に蓄積されている音声データは、映像特徴量の値に対応付けて、例えば、輝度値等による映像の明るさを映像特徴量とする場合は、明るい映像に対して、楽しい音楽を対応付ける。あるいは、映像オブジェクトの移動量による動きの激しさを映像特徴量とする場合は、映像オブジェクトの動きの激しい映像に対しては、テンポの速い音楽を対応付けることも可能である。
【0021】
また、請求項6に記載の映像関連コンテンツ生成方法は、映像信号から、その映像信号の映像内容に関連する情報を映像関連コンテンツとして生成する映像関連コンテンツ生成方法であって、映像信号の映像シーンを解析して、映像特徴量を抽出する映像シーン解析ステップと、映像特徴量とその映像特徴量を文字列として表現した特徴量文字列とを対応付けて蓄積した文字列変換データベースから、映像シーン解析ステップで抽出した映像特徴量に対応する特徴量文字列を検索する文字列検索ステップと、特徴量文字列を埋め込むテキスト領域をテンプレート化した、コンテンツ記述言語を入力するコンテンツ記述言語入力ステップと、映像特徴量に基づいて、コンテンツ記述言語のテキスト領域に文字列検索ステップで検索した特徴量文字列を埋め込む文字列埋め込みステップと、を含んでいることを特徴とする。
【0022】
かかる方法によれば、映像関連コンテンツ生成方法は、映像シーン解析ステップによって、映像シーンを構成するフレームを特徴付ける数量である映像特徴量を抽出し、文字列検索ステップによって、映像特徴量と映像特徴量を文字列として表現した特徴量文字列とを対応付けて蓄積した文字列変換データベースから、映像シーン解析ステップで抽出した映像特徴量に対応する特徴量文字列を検索する。
そして、コンテンツ記述言語入力ステップによって、特徴量文字列を埋め込むテキスト領域をテンプレート化したコンテンツ記述言語を入力し、文字列埋め込みステップによって、コンテンツ記述言語のテキスト領域に特徴量文字列を埋め込んで映像関連コンテンツを生成する。
【0023】
さらに、請求項7に記載の映像関連コンテンツ生成プログラムは、映像信号から、その映像信号の映像内容に関連する情報を映像関連コンテンツとして生成するために、コンピュータを、映像信号の映像シーンを解析して、映像特徴量を抽出する映像シーン解析手段、この映像シーン解析手段で抽出された映像特徴量を、テキストデータ、画像データ及び音声データの少なくとも1つに変換して映像関連コンテンツを生成するコンテンツ生成手段、として機能させ、コンテンツ生成手段は、映像特徴量と、その映像特徴量を文字列として表現した特徴量文字列とを対応付けて蓄積した文字列変換データベースを参照し、映像特徴量に基づいて、特徴量文字列を埋め込むテキスト領域をテンプレート化したコンテンツ記述言語のテキスト領域に、特徴量文字列を埋め込むことを特徴とする。
【0024】
かかる構成によれば、映像関連コンテンツ生成プログラムは、映像シーン解析手段によって、映像シーンを構成するフレームを特徴付ける数量である映像特徴量を抽出し、コンテンツ生成手段によって、映像特徴量をテキストデータ、画像データ及び音声データの少なくとも1つに変換して映像関連コンテンツとして生成する。
なお、映像関連コンテンツ生成プログラムは、コンテンツ生成手段が、映像特徴量と、その映像特徴量を文字列として表現した特徴量文字列とを対応付けて蓄積した文字列変換データベースを参照し、映像特徴量に基づいて、特徴量文字列を埋め込むテキスト領域をテンプレート化したコンテンツ記述言語のテキスト領域に、特徴量文字列を埋め込む。
【0025】
【発明の実施の形態】
以下、本発明の実施の形態について図面を参照して説明する。
(映像関連コンテンツ生成装置の構成)
図1は、本発明における映像関連コンテンツ生成装置の構成を示したブロック図である。図1に示すように映像関連コンテンツ生成装置1は、入力された映像(映像信号)の映像シーンを解析することで、その映像シーンの特徴量(映像特徴量)を抽出し、その抽出した映像特徴量に基づいて、映像内容に関連する情報をコンテンツ記述言語で記述したコンテンツ、画像ファイル又は映像ストリーム、音声ファイル又は音声ストリームを映像関連コンテンツとして生成するものである。
【0026】
この映像関連コンテンツ生成装置1は、映像シーン解析手段2と、コンテンツ記述言語生成手段4、画像合成手段5及び音声合成手段6を含んだコンテンツ生成手段3と、を備える構成とした。
【0027】
映像シーン解析手段2は、映像オブジェクト位置検出部21と、映像オブジェクト特徴量抽出部22と、映像シーン特徴量抽出部23とを備え、入力された映像信号から、映像信号の解析を行い、映像特徴量を抽出するものである。
【0028】
映像オブジェクト位置検出部(映像オブジェクト位置検出手段)21は、映像シーンから、その映像シーンに含まれる映像オブジェクトを検出するものである。ここでは、この映像オブジェクト位置検出部21は、映像オブジェクトのフレーム内における重心の位置座標を検出すると同時に、個々の映像オブジェクトに固有の識別子を割り当て、この位置座標、識別子、並びに映像オブジェクトを検出した時刻を映像特徴量としてコンテンツ生成手段3へ出力するものとする。
【0029】
なお、映像オブジェクトに識別子を割り当てるのは、映像オブジェクトの位置座標に基づいて、例えば、画面上で左から表示される順番に連番を付けることも可能である。あるいは、映像オブジェクトが人物の場合、一般的な顔認識の技術によって、連番の代わりに人物名を識別子として用いることも可能である。
【0030】
映像オブジェクト特徴量抽出部(映像オブジェクト特徴量抽出手段)22は、映像シーンから、映像オブジェクト位置検出部21で検出された映像オブジェクトの映像オブジェクト特徴量を抽出するものである。この映像オブジェクト特徴量は、明るさ(輝度値)、色味(色特徴量)、動き(動きベクトル量)、テクスチャ、形状パラメータ等の映像オブジェクト毎の特徴量である。この映像オブジェクト特徴量抽出部22は、この映像オブジェクト特徴量とその映像オブジェクト固有の識別子を映像特徴量としてコンテンツ生成手段3へ出力するものである。
なお、映像オブジェクトの検出や特徴量の抽出は、本願出願人において「動画像のオブジェクト抽出装置(特開2001−307104)」又は「映像オブジェクト検出・追跡装置(特願2001−166525)」として開示されている技術を用いて実現することができる。
【0031】
映像シーン特徴量抽出部23は、映像シーンから、フレーム毎の映像特徴量を抽出するものである。この映像シーン特徴量抽出部23は、フレーム全体の特徴や、映像オブジェクト特徴量抽出部22で抽出した個々の映像オブジェクト特徴量を統計した情報をフレームの映像特徴量としてコンテンツ生成手段3へ出力するものである。
例えば、映像シーン特徴量抽出部23は、フレームの各画素の輝度値を、フレーム全体に渡って平均をとったフレームの平均輝度値や、フレーム内の映像オブジェクトの数等を映像特徴量として出力する。
【0032】
コンテンツ生成手段3は、コンテンツ記述言語生成手段4、画像合成手段5及び音声合成手段6を備え、映像シーン解析手段2から入力される映像特徴量から、映像シーンに関連する情報を映像関連コンテンツとして出力するものである。
【0033】
コンテンツ記述言語生成手段4は、文字列変換データベース41と、特徴量文字列変換部42と、テンプレート文字列置換部43とを備え、外部から入力されるコンテンツ記述言語のテンプレート(コンテンツ記述言語テンプレート44a)の置換対象文字列を、映像シーン解析手段2で解析され、抽出された映像特徴量に対応する置換文字列に置換して、映像シーンに関連するコンテンツ記述言語で書かれたコンテンツを生成するものである。
【0034】
このコンテンツ記述言語には、例えば、HTML、VRML、BML、RealAudioメタファイル等がある。ここでは、HTMLを代表して説明を行うが、他のコンテンツ記述言語においても同様の構成で実現することが可能である。
【0035】
文字列変換データベース41は、映像特徴量を文字列として表現するための変換ルール(文字列変換ルール41a)を蓄積したデータベースで、映像特徴量の種類及びその数値と、コンテンツ記述言語テンプレート44aに記述された置換対象文字列と、その置換対象文字列を置換する置換文字列とを対応付けて蓄積したものである。
【0036】
ここで、図2及び図3を参照して、コンテンツ記述言語テンプレート44a及び文字列変換ルール41aについて説明する。図2は、コンテンツ記述言語テンプレート44aの一例を示すHTMLで記述したテンプレート(雛型)であり、図3は、文字列変換ルール41aの内容の一例を示す図である。
【0037】
図2に示すように、コンテンツ記述言語テンプレート44aは、コンテンツ記述言語(ここではHTML)で記述したテキストファイルであり、入力される映像シーンの内容に関連する部分を置換対象文字列として記述しておき、あとからその置換対象文字列を置換することができるテンプレートである。ここでは、「部屋の情景」を説明するHTMLのテンプレートを例としており、置換対象文字列44bとして、「<!--brightness-->」を用い、映像シーンの明るさに関する映像特徴量に基づいて文字列を置換する領域を示している。また、置換対象文字列44cとして、「<!--number-->」を用い、映像シーン内の数に関する映像特徴量に基づいて文字列を置換する領域を示している。
【0038】
図3の文字列変換ルール41aでは、映像特徴量の種類として、フレームの各画素の輝度値を、フレーム全体に渡って平均をとったフレームの平均輝度値(輝度値の平均値)と、フレーム内の映像オブジェクトの数(オブジェクトの個数)を用い、その映像特徴量の値に置換対象文字列と置換文字列(特徴量文字列)とを対応付けている。
【0039】
図3(a)では、例えば、映像を構成する画素の輝度値を0から255の256値で表したとき、映像特徴量の値である輝度値の平均値が、「90未満」の場合は、置換対象文字列が「<!--brightness-->」、置換文字列が「暗い」であることを示している。これによって、輝度値の平均値が、「90未満」の場合は、コンテンツ記述言語テンプレート44a(図2)の置換対象文字列44bが「暗い」に置換される。また、オブジェクトの個数が「2以上」の場合は、コンテンツ記述言語テンプレート44aの置換対象文字列44cは、「たくさんあります」に置換される。
【0040】
図3(b)では、図3(a)の置換文字列を「暗い」、「たくさんあります」等の日本語文字列で表すのではなく、「<img src="1.png">」等のHTMLの埋め込み画像として指定する場合の例を示している。このように、置換文字列は、日本語文字列だけではなく画像ファイル、音声ファイル、スクリプト等のファイル名をコンテンツ記述言語に埋め込む置換文字列として記述することとしてもよい。なお、このスクリプトには、JavaScript(登録商標)、ECMAScript等がある。
図1に戻って説明を続ける。
【0041】
特徴量文字列変換部(文字列埋め込み手段)42は、映像シーン解析手段2から入力された映像特徴量に基づいて、文字列変換データベース41の文字列変換ルール41aを参照し、その映像特徴量に対応する置換対象文字列と、置換文字列とをテンプレート文字列置換部43へ通知するものである。
【0042】
テンプレート文字列置換部(文字列埋め込み手段)43は、外部から入力されるコンテンツ記述言語テンプレート44aと、特徴量文字列変換部42から通知される置換対象文字列及び置換文字列とに基づいて、コンテンツ記述言語テンプレート44aに記述されている置換対象文字列を置換文字列に置換することで、HTMLファイル等のコンテンツ記述言語を生成するものである。
【0043】
なお、置換文字列で映像オブジェクトの位置を表す場合には、その位置座標の時刻毎の位置座標リストを置換対象文字列としたVRMLのPositionInterpolatorノードを用いて記述することも可能である。
【0044】
画像合成手段5は、位置提示画像合成部51と、画像出力部52とを備え、映像シーン解析手段2で解析され、抽出された映像特徴量に関連する画像を合成して画像ファイル又は映像ストリームとして出力するものである。
【0045】
位置提示画像合成部51は、映像シーン解析手段2の映像オブジェクト位置検出部21から、映像オブジェクトの位置座標、識別子並びに検出時刻を映像特徴量として入力し、その識別子で区別された映像オブジェクトがある時刻においてどの位置に存在していたかを提示する位置提示画像を合成するものである。ここで合成された画像は画像出力部52へ出力される。
【0046】
例えば、予めアイコン画像を蓄積した画像蓄積手段(図示せず)から、アイコン画像を読み込んで、無地の画像上の位置座標で示される位置にアイコン画像を合成する。また、例えば、映像シーン解析手段2の映像オブジェクト特徴量抽出部22で抽出される映像オブジェクトの画像をそのままアイコン画像として合成することとしてもよい。
【0047】
画像出力部52は、位置提示画像合成部51で合成された画像を画像ファイルとして出力するものである。なお、画像出力部52は、位置提示画像合成部51から画像が時系列に入力される場合は、その時系列画像を映像オブジェクトが時刻によって変化する映像ストリームとして出力する。
【0048】
音声合成手段6は、音声データ蓄積部61と、音声選択部62と、音声出力部63とを備え、映像シーン解析手段2で解析され、抽出された映像特徴量に関連する音声を音声ファイル又は音声ストリームとして出力するものである。
【0049】
音声データ蓄積部(音声データ蓄積手段)61は、予め映像シーンに関連する音声データ61aを識別番号に対応付けて蓄積しておくものであり、ハードディスク等で構成されるものである。この音声データ61aは、映像シーンに関連して映像シーンを表現するための音声データであり、例えば、BGM(Back Ground Music)、効果音、人の声等である。
また、この音声データ蓄積部61は、映像シーンの映像特徴量に基づいた音声データ61aを複数保持している。例えば、輝度値に対応付けて「明るさ」のレベルを表現する音声データ61aを音声ファイルとして保持している。
【0050】
音声選択部(音声選択手段)62は、映像シーン解析手段2から入力される映像シーンの映像特徴量に基づいて、音声データ蓄積部61に蓄積されている音声データ61aを選択して、音声出力部63へ音声データ61aの識別番号を通知するものである。
この音声選択部62は、映像シーンの映像特徴量(例えば輝度値の平均値)から、映像シーンを表現する音声データ蓄積部61に蓄積されている音声データ61aの識別番号を音声出力部63へ通知する。例えば、音声選択部62は、輝度値の平均値に基づいて、「明るさ」のレベルを判定して、その「明るさ」に対応する音声データ61aを選択する。あるいは、映像オブジェクトの位置座標に基づいて、予め設定された領域に映像オブジェクトが入ったとときに、特定の音声データ61aを選択することとしてもよい。
【0051】
音声出力部(音声出力手段)63は、音声選択部62で選択され、識別番号で通知された音声データ蓄積部61内の音声データ61aを読み込んで、音声ファイル又は音声ストリームとして出力するものである。
このように、コンテンツ記述言語生成手段4から出力されるコンテンツ記述言語(HTMLファイル等)、画像合成手段5から出力される画像ファイル(又は映像ストリーム)、音声合成手段6から出力される音声ファイル(又は音声ストリーム)は、個々に出力する形態であっても構わないし、複数の出力を映像関連コンテンツとして出力する形態であっても構わない。
【0052】
以上、一実施形態に基づいて、映像関連コンテンツ生成装置1の構成について説明したが、映像関連コンテンツ生成装置1は、コンピュータにおいて各手段を各機能プログラムとして実現することも可能であり、各機能プログラムを結合して映像関連コンテンツ生成プログラムとして動作させることも可能である。
【0053】
(映像関連コンテンツ生成装置の動作:コンテンツ記述言語生成例)
次に、映像関連コンテンツ生成装置1の動作について説明する。
まず、図1及び図7を参照して、映像関連コンテンツ生成装置1がコンテンツ記述言語を生成する動作例について説明する。図7は、映像関連コンテンツ生成装置1がコンテンツ記述言語を生成する動作を示すフローチャートである。
【0054】
映像関連コンテンツ生成装置1は、入力された映像信号から、映像シーン解析手段2が、映像信号を解析し、映像特徴量を抽出する(ステップS11)。
【0055】
そして、コンテンツ記述言語生成手段4において、特徴量文字列変換部42が文字列変換データベース41内の文字列変換ルール41aに基づいて、ステップS11で抽出した映像特徴量に対応する置換対象文字列及び置換文字列を検索して、テンプレート文字列置換部43に通知する(ステップS12)。
【0056】
置換対象文字列及び置換文字列を通知されたテンプレート文字列置換部43は、外部からコンテンツ記述言語テンプレート44aを読み込み(ステップS13)、コンテンツ記述言語テンプレート44a内の置換対象文字列を検索する(ステップS14)。
そして、置換対象文字列が存在するかどうかを判定し(ステップS15)、存在する場合(Yes)は、置換対象文字列を置換文字列に置き換えて(ステップS16)、ステップS14に戻ってさらに置換対象文字列を検索する。
【0057】
一方、置換対象文字列が存在しない場合(ステップS15でNo)は、置換対象文字列をすべて置換文字列に置き換えたものとして、その置換文字列に置き換えたコンテンツ記述言語(HTMLファイル等)を出力して(ステップS17)、動作を終了する。
以上のステップによって、映像信号からその映像内容に関連する情報を、コンテンツ記述言語で記述したテキストベースのコンテンツを生成することができる。
【0058】
次に、図4を参照して、コンテンツ記述言語生成手段4を中心にして、コンテンツ記述言語生成の具体的な動作について説明する。図4は、映像特徴量からHTMLファイルを生成する例を示す概念図である。
【0059】
コンテンツ記述言語生成手段4は、まず、映像特徴量2aを入力する。ここで、映像特徴量2aとして、輝度値の平均値が「100」、オブジェクトの個数が「1」であったとすると、コンテンツ記述言語生成手段4は、文字列変換ルール41a(図3(a))を参照して、輝度値の平均値「100」及びオブジェクトの個数「1」に対応する置換対象文字列及び置換文字列を検索し、輝度値の平均値「100」に対応する置換対象文字列「<!--brightness-->」並びに置換文字列「薄暗い」と、オブジェクトの個数「1」に対応する置換対象文字列「<!?number-->」並びに置換文字列「一つあります」とを得る。
【0060】
そして、コンテンツ記述言語生成手段4は、外部から入力されるコンテンツ記述言語テンプレート44a(図2)の置換対象文字列「<!--brightness-->」並びに「<!--number-->」をそれぞれ「薄暗い」並びに「一つあります」に変換することにより、「部屋の情景」を説明するHTMLファイル4aを生成する。
【0061】
(映像関連コンテンツ生成装置の動作:画像合成例)
次に、図1及び図8を参照して、映像関連コンテンツ生成装置1が映像信号に関連する画像を合成して出力する動作例について説明する。図8は、映像関連コンテンツ生成装置1が合成画像を時系列化した映像ストリームを生成する動作を示すフローチャートである。
【0062】
まず、映像関連コンテンツ生成装置1は、入力された映像信号に基づいて、映像シーン解析手段2が、映像信号を解析し、映像特徴量である映像シーンの時刻、映像オブジェクトの位置座標を抽出する(ステップS21)。
そして、画像合成手段5において、位置提示画像合成部51が映像シーンのある時刻における映像オブジェクトの位置座標にアイコン画像を合成した合成画像を生成する(ステップS22)。
【0063】
映像シーンの全ての時刻における合成画像の生成を完了したかどうかを判定し(ステップS23)、まだ、完了していない場合(No)は、ステップS22へ戻って、次の時刻の合成画像を生成する。一方、すべての時刻における合成画像の生成を完了した場合(Yes)は、映像シーンの時刻毎に生成した合成画像を映像ストリームとして出力して(ステップS24)、動作を終了する。
以上のステップによって、映像信号から、映像オブジェクトの位置のみを視覚化した映像ストリームとして生成することができる。
【0064】
次に、図5及び図6を参照して、画像合成手段5を中心にして、映像信号から画像ファイル又は映像ストリームを生成する具体的な動作について説明する。図5は、映像特徴量から同一画像上に時系列に変化する映像オブジェクトの位置を視覚化した、画像ファイルを生成する例を示す概念図である。図6は、映像特徴量から時系列に変化する映像オブジェクトの位置を別々の画像ファイルとして生成する、又は、映像ストリームとして生成する例を示す概念図である。
【0065】
図5に示すように、画像合成手段5は、まず、映像特徴量2aを入力する。ここで、映像特徴量2aとして、時刻が「1」、「2」、「3」及び「4」、その時刻に対応する映像オブジェクトの位置座標が「(1,1)」、「(1,2)」、「(2,3)」及び「(3,2)」であったとする。
【0066】
画像合成手段5は、まず、無地画像の位置座標「(1,1)」、「(1,2)」、「(2,3)」及び「(3,2)」にアイコン画像C1、C2、C3及びC4(C4のみ異なるアイコン画像を使用)を合成し、各アイコン画像(C1〜C4)間を直線で結んだ画像ファイル5aを生成する。これによって、映像オブジェクトがC1の位置座標からC4の位置座標へ移動したことを表現することができる。
【0067】
また、図6に示した例では、図5と同様の映像特徴量2aを入力しているが、画像合成手段5の出力が、一枚の画像ファイルではなく、複数の画像ファイルあるいは映像ストリームとしているところが異なっている。
図6において、画像合成手段5は、時刻「1」から「4」に対応する無地画像の位置座標「(1,1)」、「(1,2)」、「(2,3)」及び「(3,2)」にアイコン画像C4を合成し、4枚の画像を生成する。なお、画像合成手段5は、この4枚の画像を個々の画像ファイル5aとして出力することも可能であるし、個々の画像を連続したストリームデータとした映像ストリーム5bとして出力することも可能である。
【0068】
(映像関連コンテンツ生成装置の動作:音声合成例)
次に、図1及び図9を参照して、映像関連コンテンツ生成装置1が映像信号に関連する音声を合成して出力する動作例について説明する。図9は、映像関連コンテンツ生成装置1が音声データを出力する動作を示すフローチャートである。
【0069】
映像関連コンテンツ生成装置1は、一定の時間間隔又はカット点検出技術により得られるカット点のタイミングに基づいて、映像シーン解析手段2が、映像信号を解析し、映像特徴量を抽出する(ステップS31)。
【0070】
そして、音声合成手段6において、音声選択部62が映像特徴量の値に応じて、映像シーンを表現する音声データ蓄積部61に蓄積されている音声データ61aを選択し、その識別番号を音声出力部63へ通知する(ステップS32)。
その識別番号を通知された音声出力部63は、識別番号に基づいて選択された音声データ61aを音声データ蓄積部61から読み込んで、音声ファイル又は音声ストリームとして出力する(ステップS33)。
以上のステップによって、映像信号からその映像内容に関連する音声データを、音声ファイル又は音声ストリームとして出力することができる。
【0071】
【発明の効果】
以上説明したとおり、本発明に係る映像関連コンテンツ生成装置、映像関連コンテンツ生成方法及び映像関連コンテンツ生成プログラムでは、以下に示す優れた効果を奏する。
【0072】
請求項1、請求項6又は請求項7に記載の発明によれば、入力された映像信号から、映像シーンの解析を行い、その映像の内容に関連する座標情報、音声情報、画像情報等の異種情報に変換した映像関連コンテンツを生成することができる。これによって、今まで音声認識による字幕作成データに限られていた自然入力データに基づく自動コンテンツ制作を、映像入力においても適用することが可能になる。
また、請求項1、請求項6又は請求項7に記載の発明によれば、テンプレート化したHTML等のコンテンツ記述言語から、映像シーンの内容に関連した情報をコンテンツ記述言語として生成することができ、定型化したコンテンツをテンプレート化して準備しておくことで、コンテンツ制作の制作時間の短縮を行うことが可能になる。
【0073】
請求項2又は請求項3に記載の発明によれば、映像内の映像オブジェクトを検出し、映像特徴量として抽出することができる。そして、映像オブジェクト毎の位置情報や特徴量を、視覚化したテキスト、音声、画像等によって表現することができるため、映像のデータ量を削減したコンテンツを生成することが可能になる。また、WWWや携帯端末で使用可能なコンテンツを生成することができ、データのアクセシビリティを向上させることができる。
【0075】
請求項4に記載の発明によれば、映像オブジェクト毎の位置を、他の画像等によって表現することができるため、映像のデータ量を削減したコンテンツを生成することが可能になる。また、WWWや携帯端末で使用可能なコンテンツを生成することができ、データのアクセシビリティを向上させることができる。
【0076】
請求項5に記載の発明によれば、映像シーンに適する音声を適宜出力することができるため、映像だけでは表現できない効果を演出することが可能になる。これによって、コンテンツ制作にかける労力を低減させることができる。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る映像関連コンテンツ生成装置の全体構成を示すブロック図である。
【図2】コンテンツ記述言語のテンプレートの例を説明する説明図である。
【図3】文字列変換ルールの例を説明するための説明図である。
【図4】本発明の実施の形態に係るコンテンツ記述言語生成手段の動作例を説明するあめの説明図である。
【図5】本発明の実施の形態に係る画像合成手段の動作を模式的に示した模式図(その1)である。
【図6】本発明の実施の形態に係る画像合成手段の動作を模式的に示した模式図(その2)である。
【図7】本発明の実施の形態に係る映像からコンテンツ記述言語を生成する動作を示すフローチャートである。
【図8】本発明の実施の形態に係る映像から合成画像を生成する動作を示すフローチャートである。
【図9】本発明の実施の形態に係る映像から合成音声を生成する動作を示すフローチャートである。
【符号の説明】
1……映像関連コンテンツ生成装置
2……映像シーン解析手段
21……映像オブジェクト位置検出部(映像オブジェクト位置検出手段)
22……映像オブジェクト特徴量抽出部(映像オブジェクト特徴量抽出手段)
23……映像シーン特徴量抽出部
3……コンテンツ生成手段
4……コンテンツ記述言語生成手段
41……文字列変換データベース
42……特徴量文字列変換部(文字列埋め込み手段)
43……テンプレート文字列置換部(文字列埋め込み手段)
5……画像合成手段
51……位置提示画像合成部
52……画像出力部
6……音声合成手段
61……音声データ蓄積部(音声データ蓄積手段)
62……音声選択部(音声選択手段)
63……音声出力部(音声出力手段)[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a video-related content generation apparatus, a video-related content generation method, and a video-related content generation program that generate video-related content that can supply video to media other than video media.
[0002]
[Prior art]
Conventionally, from video (video content), other than video media (TV broadcast etc.) that can present video content as it is, for example, data broadcasting, WWW (World Wide Web), presentation on other media such as mobile terminals When creating and distributing content that can be played, video content for other media is produced and distributed by extracting a specific size from the original video or converting the transmission frame rate, etc. . The method of converting this video content into content for media other than video media is basically only converted to the same type (video) content except for the resolution.
[0003]
Conventionally, when content to be presented by text broadcasting or the like is produced from speech (sound content), there is a method of converting the original speech into character information by speech recognition to obtain character content. As described above, in the audio content, the audio content is converted into different types of content such as character information.
[0004]
[Problems to be solved by the invention]
However, in the conventional technology, when converting to content for different media, resolution conversion from video to video is the mainstream, and basically the same video content except for the difference in resolution before and after the conversion. It is. Also, the conversion to heterogeneous content is mainly from audio content based on audio recognition to character content. That is, a method for converting video into content other than video content is not considered.
[0005]
For this reason, text-based content related to video content, written in a content description language used in WWW or the like, audio content, or image content related to video content but having a different image is produced. In this case, there is a problem that the video content cannot be used and the production must be performed from the beginning.
[0006]
The present invention has been made in view of the above-described problems, and is related to video obtained by converting video (video content) into heterogeneous information such as coordinate information, audio information, and image information related to the content of the video. It is an object of the present invention to provide a video-related content generation device, a video-related content generation method, and a video-related content generation program that make it possible to generate content.
[0007]
[Means for Solving the Problems]
The present invention was created to achieve the above object, and first, the video-related content generation device according to
[0008]
According to this configuration, the video-related content generation device extracts video feature amounts from the video signal by the video scene analysis unit. Then, the content generating means converts the video feature amount into at least one of text data, image data, and audio data, and generates the video related content.
Then, the video-related content generation device refers to the character string conversion database by the character string embedding unit, and corresponds to the video feature amount in the text region of the content description language in which the text region in which the feature amount character string is embedded is templated. Embed a feature string.
[0009]
Here, the video feature amount is a quantity that characterizes the frames constituting the video scene. For example, brightness (luminance value), color (color feature amount), motion (motion vector amount), texture, video object The position coordinates, the number of video objects, etc. are digitized, or their statistics.
[0010]
Also, when converting the video feature quantity into text data, converting to the text-based content description language is convenient because the content can be played back by the playback device of the content description language. The content description language includes, for example, HTML (Hyper Test Markup Language), VRML (Virtual Reality Modeling Language), BML (Broadcast Markup Language), and RealAudio metafile.
In addition, a predetermined replacement target character string corresponding to the video feature amount is described in the text area of the content description language, and the type of the video feature amount and the value of the video feature amount are stored in the character string conversion database. By associating the replacement target character string with the feature amount character string (replacement character string) for each, the replacement target character string that is the text area of the content description language can be easily replaced with the feature amount character string. .
[0011]
The video related content generation device according to
[0012]
According to this configuration, the video-related content generation device detects the position coordinates of the video object included in the video scene as the video feature amount by the video object position detection unit. This position coordinate may be a specific position of the video object (for example, upper left coordinate, center coordinate, etc.), or may be a barycentric coordinate of the video object.
[0013]
Furthermore, the video related content generation device according to
[0014]
According to this configuration, the video-related content generation apparatus extracts the video feature amount characterizing the video object included in the video scene by the video object feature amount extraction unit. This video feature amount (video object feature amount) is a feature amount for each video object such as brightness (luminance value), color (color feature amount), motion (motion vector amount), texture, and the like.
[0017]
Claim 4The video related content generation device according to
[0018]
According to this configuration, the video-related content generation device visualizes the position coordinates of the video object by synthesizing the image data with the position coordinates of the video object detected by the video object position detection means by the image synthesis means. Generate content.
[0019]
Furthermore, claim 5The video-related content generation device according to
[0020]
According to this configuration, the video-related content generation apparatus selects the audio data based on the video feature amount from the audio data storage unit that stores a plurality of audio data in association with the video feature amount. .
Here, the audio data stored in the audio data storage means is associated with the value of the video feature value. For example, when the brightness of the video based on the luminance value is used as the video feature value, Associate fun music. Alternatively, in the case where the intensity of movement due to the moving amount of the video object is used as the video feature amount, it is possible to associate fast-tempo music with a video whose video object moves rapidly.
[0021]
Also,Claim 6Is a video-related content generation method for generating, as video-related content, information related to the video content of the video signal from the video signal, analyzing the video scene of the video signal, In the video scene analysis step, the video scene analysis step for extracting the video feature amount and the character string conversion database in which the video feature amount and the feature amount character string expressing the video feature amount as a character string are stored in association with each other are extracted. A character string search step for searching for a feature amount character string corresponding to a video feature amount, a content description language input step for inputting a content description language using a text region in which the feature amount character string is embedded as a template, and a video feature amount Then, embed the feature string searched in the string search step in the text area of the content description language Characterized in that it includes a string embedding step.
[0022]
According to such a method, in the video-related content generation method, the video feature amount which is a quantity characterizing the frames constituting the video scene is extracted by the video scene analysis step, and the video feature amount and the video feature amount are extracted by the character string search step. The feature amount character string corresponding to the video feature amount extracted in the video scene analysis step is searched from the character string conversion database in which the feature amount character string expressed as a character string is stored in association with each other.
Then, in the content description language input step, the content description language in which the text region for embedding the feature amount character string is made into a template is input, and in the character string embedding step, the feature amount character string is embedded in the text region of the content description language. Generate content.
[0023]
further,Claim 7The video-related content generation program described in 1) analyzes a video scene of a video signal to generate information related to the video content of the video signal from the video signal as a video-related content, A video scene analysis means for extracting video, and a content generation means for generating a video related content by converting the video feature amount extracted by the video scene analysis means into at least one of text data, image data, and audio data LetThe content generation means refers to the character string conversion database in which the video feature quantity and the feature quantity character string expressing the video feature quantity as a character string are stored in association with each other, and based on the video feature quantity, A feature amount character string is embedded in a text region of a content description language in which a text region in which a column is embedded is used as a template.
[0024]
According to this configuration, the video-related content generation program extracts the video feature amount that is a quantity characterizing the frames constituting the video scene by the video scene analysis unit, and converts the video feature amount into the text data, the image by the content generation unit. It converts into at least one of data and audio | voice data, and produces | generates as an image related content.
Note that the video-related content generation program refers to a character string conversion database in which the content generation unit stores a video feature amount and a feature amount character string expressing the video feature amount as a character string in association with each other. Based on the amount, the feature amount character string is embedded in the text region of the content description language in which the text region in which the feature amount character string is embedded is made into a template.
[0025]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
(Configuration of video-related content generation device)
FIG. 1 is a block diagram showing a configuration of a video-related content generation apparatus according to the present invention. As shown in FIG. 1, the video-related
[0026]
The video related
[0027]
The video scene analysis means 2 includes a video object
[0028]
The video object position detection unit (video object position detection means) 21 detects a video object included in the video scene from the video scene. Here, the video
[0029]
Note that the identifiers are assigned to the video objects based on the position coordinates of the video objects, for example, in the order displayed from the left on the screen. Alternatively, when the video object is a person, a person name can be used as an identifier instead of a serial number by a general face recognition technique.
[0030]
The video object feature quantity extraction unit (video object feature quantity extraction means) 22 extracts the video object feature quantity of the video object detected by the video object
The detection of video objects and the extraction of feature quantities are disclosed by the applicant of the present application as “moving image object extraction device (Japanese Patent Application Laid-Open No. 2001-307104)” or “video object detection / tracking device (Japanese Patent Application 2001-166525)”. It can be realized using the technology that has been developed.
[0031]
The video scene feature
For example, the video scene feature
[0032]
The
[0033]
The content description
[0034]
Examples of the content description language include HTML, VRML, BML, RealAudio metafile, and the like. Here, description will be made on behalf of HTML, but it can be realized with the same configuration in other content description languages.
[0035]
The character
[0036]
Here, the content
[0037]
As shown in FIG. 2, the content
[0038]
In the character
[0039]
In FIG. 3A, for example, when the luminance values of the pixels constituting the video are represented by 256 values from 0 to 255, the average value of the luminance values as the video feature values is “less than 90”. , The replacement target character string is “<!-Brightness->”, and the replacement character string is “dark”. Thereby, when the average value of the luminance values is “less than 90”, the replacement
[0040]
In FIG. 3B, the replacement character string in FIG. 3A is not represented by a Japanese character string such as “dark” or “many”, but “<img src =” 1.png ”>”, etc. An example of designating as an HTML embedded image is shown. As described above, the replacement character string may be described as a replacement character string in which not only a Japanese character string but also a file name such as an image file, an audio file, or a script is embedded in the content description language. Examples of the script include JavaScript (registered trademark) and ECMAScript.
Returning to FIG. 1, the description will be continued.
[0041]
The feature amount character string conversion unit (character string embedding unit) 42 refers to the character
[0042]
The template character string replacement unit (character string embedding unit) 43 is based on the content
[0043]
When the position of the video object is represented by a replacement character string, it can be described using a VRML PositionInterpolator node in which a position coordinate list for each time of the position coordinates is used as a replacement target character string.
[0044]
The
[0045]
The position presentation
[0046]
For example, an icon image is read from an image storage unit (not shown) that stores icon images in advance, and the icon image is synthesized at a position indicated by position coordinates on a plain image. Further, for example, the image of the video object extracted by the video object feature
[0047]
The
[0048]
The
[0049]
The audio data storage unit (audio data storage means) 61 stores
The audio
[0050]
The audio selection unit (audio selection unit) 62 selects the
The
[0051]
The audio output unit (audio output means) 63 reads the
As described above, the content description language (HTML file or the like) output from the content description
[0052]
As described above, the configuration of the video-related
[0053]
(Operation of video-related content generation device: Content description language generation example)
Next, the operation of the video related
First, an operation example in which the video-related
[0054]
In the video-related
[0055]
Then, in the content description language generation means 4, the feature amount character
[0056]
The template character
Then, it is determined whether or not a replacement target character string exists (step S15). If it exists (Yes), the replacement target character string is replaced with a replacement character string (step S16), and the process returns to step S14 for further replacement. Search for the target string.
[0057]
On the other hand, if the replacement target character string does not exist (No in step S15), the content description language (HTML file or the like) replaced with the replacement character string is output assuming that the replacement target character string is all replaced with the replacement character string. (Step S17), and the operation ends.
Through the above steps, text-based content in which information related to the video content is described in the content description language from the video signal can be generated.
[0058]
Next, with reference to FIG. 4, the specific operation of content description language generation will be described with the content description language generation means 4 as the center. FIG. 4 is a conceptual diagram illustrating an example in which an HTML file is generated from video feature amounts.
[0059]
The content description
[0060]
Then, the content description language generation means 4 replaces the replacement target character strings “<!-Brightness->” and “<!-Number->” of the content
[0061]
(Operation of video related content generation device: image composition example)
Next, an operation example in which the video-related
[0062]
First, in the video-related
In the
[0063]
It is determined whether or not generation of the composite image at all times of the video scene has been completed (step S23). If it has not been completed yet (No), the process returns to step S22 to generate a composite image at the next time. To do. On the other hand, when the generation of the composite image at all times is completed (Yes), the composite image generated at each time of the video scene is output as a video stream (step S24), and the operation is terminated.
Through the above steps, a video stream in which only the position of the video object is visualized can be generated from the video signal.
[0064]
Next, a specific operation for generating an image file or a video stream from a video signal will be described with reference to FIGS. FIG. 5 is a conceptual diagram showing an example of generating an image file in which the position of a video object that changes in time series on the same image from the video feature amount is visualized. FIG. 6 is a conceptual diagram illustrating an example in which the positions of video objects that change in time series from video feature quantities are generated as separate image files or as video streams.
[0065]
As shown in FIG. 5, the image synthesizing means 5 first inputs a video feature amount 2a. Here, as the video feature amount 2a, the time is “1”, “2”, “3” and “4”, and the position coordinates of the video object corresponding to the time are “(1, 1)”, “(1, 2) ”,“ (2, 3) ”and“ (3, 2) ”.
[0066]
The image composition means 5 first adds icon images C1, C2 to the position coordinates “(1, 1)”, “(1, 2)”, “(2, 3)” and “(3, 2)” of the plain image. , C3 and C4 (using different icon images only for C4) to generate an
[0067]
In the example shown in FIG. 6, the same video feature 2a as in FIG. 5 is input, but the output of the image synthesizing means 5 is not a single image file but a plurality of image files or video streams. Is different.
In FIG. 6, the
[0068]
(Operation of video-related content generation device: speech synthesis example)
Next, an operation example in which the video-related
[0069]
In the video-related
[0070]
Then, in the
The
Through the above steps, audio data related to the video content can be output from the video signal as an audio file or an audio stream.
[0071]
【The invention's effect】
As described above, the video-related content generation apparatus, the video-related content generation method, and the video-related content generation program according to the present invention have the following excellent effects.
[0072]
According to the invention of
[0073]
According to the invention described in
[0075]
Claim 4Since the position for each video object can be expressed by another image or the like, it is possible to generate content with a reduced video data amount. In addition, it is possible to generate content that can be used on the WWW or a portable terminal, and to improve data accessibility.
[0076]
Claim 5Since the sound suitable for the video scene can be output as appropriate, it is possible to produce an effect that cannot be expressed only by the video. This can reduce the labor required for content production.
[Brief description of the drawings]
FIG. 1 is a block diagram showing an overall configuration of a video-related content generation apparatus according to an embodiment of the present invention.
FIG. 2 is an explanatory diagram illustrating an example of a content description language template.
FIG. 3 is an explanatory diagram for explaining an example of a character string conversion rule;
FIG. 4 is an explanatory diagram for explaining an example of the operation of the content description language generating means according to the embodiment of the present invention.
FIG. 5 is a schematic diagram (part 1) schematically showing an operation of the image composition unit according to the embodiment of the present invention.
FIG. 6 is a schematic diagram (part 2) schematically showing the operation of the image composition unit according to the embodiment of the present invention.
FIG. 7 is a flowchart showing an operation of generating a content description language from video according to the embodiment of the present invention.
FIG. 8 is a flowchart showing an operation of generating a composite image from a video according to an embodiment of the present invention.
FIG. 9 is a flowchart showing an operation of generating synthesized audio from video according to the embodiment of the present invention.
[Explanation of symbols]
1. Video-related content generation device
2 ... Video scene analysis means
21 …… Video object position detection unit (video object position detection means)
22 …… Video object feature extraction unit (video object feature extraction means)
23 …… Image scene feature extraction unit
3. Content generation means
4 …… Content description language generation means
41 …… Character string conversion database
42 …… Characteristic character string conversion unit (character string embedding means)
43 …… Template character string replacement part (character string embedding means)
5 …… Image composition means
51 …… Position presentation image composition unit
52 …… Image output section
6 …… Voice synthesis means
61 …… Voice data storage (voice data storage means)
62 …… Voice selection part (voice selection means)
63 …… Voice output unit (voice output means)
Claims (7)
前記映像信号を解析して、映像特徴量を抽出する映像シーン解析手段と、
この映像シーン解析手段で抽出された前記映像特徴量を、テキストデータ、画像データ及び音声データの少なくとも1つに変換して前記映像関連コンテンツを生成するコンテンツ生成手段と、を備え、
前記コンテンツ生成手段は、
前記映像特徴量と、その映像特徴量を文字列として表現した特徴量文字列とを対応付けて蓄積した文字列変換データベースと、
前記映像特徴量に基づいて、前記特徴量文字列を埋め込むテキスト領域をテンプレート化したコンテンツ記述言語の前記テキスト領域に、前記特徴量文字列を埋め込む文字列埋め込み手段と、
を備えていることを特徴とする映像関連コンテンツ生成装置。A video-related content generation device that generates information related to video content of a video signal as video-related content from a video signal,
Video scene analysis means for analyzing the video signal and extracting video feature values;
Content generating means for converting the video feature amount extracted by the video scene analyzing means into at least one of text data, image data, and audio data to generate the video related content ;
The content generation means includes
A character string conversion database in which the video feature amount and a feature amount character string expressing the video feature amount as a character string are associated and stored;
A character string embedding unit for embedding the feature amount character string in the text region of the content description language in which the text region for embedding the feature amount character string is made into a template based on the video feature amount;
A video-related content generation device comprising:
前記映像シーンに含まれる映像オブジェクトの位置座標を、前記映像特徴量として検出する映像オブジェクト位置検出手段、
を備えていることを特徴とする請求項1に記載の映像関連コンテンツ生成装置。The video scene analysis means includes
Video object position detecting means for detecting position coordinates of a video object included in the video scene as the video feature amount;
The video-related content generation device according to claim 1, further comprising:
前記映像シーンに含まれる映像オブジェクトを特徴付ける特徴量を、前記映像特徴量として抽出する映像オブジェクト特徴量抽出手段、
を備えていることを特徴とする請求項1又は請求項2に記載の映像関連コンテンツ生成装置。The video scene analysis means includes
Video object feature quantity extraction means for extracting a feature quantity characterizing a video object included in the video scene as the video feature quantity;
The video related content generation device according to claim 1, wherein the video related content generation device is provided.
前記映像オブジェクト位置検出手段で検出された前記映像オブジェクトの位置座標に、前記映像オブジェクトに関連する画像データを合成する画像合成手段、
を備えていることを特徴とする請求項2に記載の映像関連コンテンツ生成装置。The content generation means includes
Image combining means for combining image data related to the video object with the position coordinates of the video object detected by the video object position detecting means;
The video-related content generation device according to claim 2, further comprising:
前記映像特徴量に対応付けて、複数の音声データを蓄積した音声データ蓄積手段と、
前記映像特徴量に基づいて、前記音声データ蓄積手段に蓄積されている前記音声データを選択する音声選択手段と、
この音声選択手段で選択された前記音声データを出力する音声出力手段と、
を備えていることを特徴とする請求項1乃至請求項4のいずれか1項に記載の映像関連コンテンツ生成装置。The content generation means includes
Audio data storage means for storing a plurality of audio data in association with the video feature amount;
Audio selection means for selecting the audio data stored in the audio data storage means based on the video feature amount;
Voice output means for outputting the voice data selected by the voice selection means;
That it comprises a video-related content generation apparatus according to any one of claims 1 to 4, characterized in.
前記映像信号の映像シーンを解析して、映像特徴量を抽出する映像シーン解析ステップと、
前記映像特徴量とその映像特徴量を文字列として表現した特徴量文字列とを対応付けて蓄積した文字列変換データベースから、前記映像シーン解析ステップで抽出した前記映像特徴量に対応する前記特徴量文字列を検索する文字列検索ステップと、
前記特徴量文字列を埋め込むテキスト領域をテンプレート化した、コンテンツ記述言語を入力するコンテンツ記述言語入力ステップと、
前記映像特徴量に基づいて、前記コンテンツ記述言語の前記テキスト領域に前記文字列検索ステップで検索した前記特徴量文字列を埋め込む文字列埋め込みステップと、
を含んでいることを特徴とする映像関連コンテンツ生成方法。A video-related content generation method for generating information related to video content of a video signal as video-related content from a video signal,
A video scene analysis step of analyzing a video scene of the video signal and extracting a video feature;
The feature quantity corresponding to the video feature quantity extracted in the video scene analysis step from a character string conversion database in which the video feature quantity and a feature quantity character string expressing the video feature quantity as a character string are stored in association with each other A string search step for searching for a string;
A content description language input step for inputting a content description language, which is a template of a text region in which the feature amount character string is embedded,
A character string embedding step of embedding the feature amount character string searched in the character string search step in the text region of the content description language based on the video feature amount;
A video-related content generation method characterized by comprising:
前記映像信号の映像シーンを解析して、映像特徴量を抽出する映像シーン解析手段、
この映像シーン解析手段で抽出された前記映像特徴量を、テキストデータ、画像データ及び音声データの少なくとも1つに変換して前記映像関連コンテンツを生成するコンテンツ生成手段、として機能させ、
前記コンテンツ生成手段は、
前記映像特徴量と、その映像特徴量を文字列として表現した特徴量文字列とを対応付けて蓄積した文字列変換データベースを参照し、前記映像特徴量に基づいて、前記特徴量文字列を埋め込むテキスト領域をテンプレート化したコンテンツ記述言語の前記テキスト領域に、前記特徴量文字列を埋め込むことを特徴とする映像関連コンテンツ生成プログラム。In order to generate information related to the video content of the video signal as video related content from the video signal,
Video scene analysis means for analyzing a video scene of the video signal and extracting a video feature amount,
The video feature quantity extracted by the video scene analysis means is converted into at least one of text data, image data, and audio data to function as content generation means for generating the video related content ,
The content generation means includes
Reference is made to a character string conversion database in which the video feature quantity and a feature quantity character string expressing the video feature quantity as a character string are associated with each other, and the feature quantity character string is embedded based on the video feature quantity A video-related content generation program , wherein the feature amount character string is embedded in the text region of the content description language in which the text region is templated .
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002167419A JP4003940B2 (en) | 2002-06-07 | 2002-06-07 | VIDEO-RELATED CONTENT GENERATION DEVICE, VIDEO-RELATED CONTENT GENERATION METHOD, AND VIDEO-RELATED CONTENT GENERATION PROGRAM |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002167419A JP4003940B2 (en) | 2002-06-07 | 2002-06-07 | VIDEO-RELATED CONTENT GENERATION DEVICE, VIDEO-RELATED CONTENT GENERATION METHOD, AND VIDEO-RELATED CONTENT GENERATION PROGRAM |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2004015523A JP2004015523A (en) | 2004-01-15 |
| JP4003940B2 true JP4003940B2 (en) | 2007-11-07 |
Family
ID=30434667
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2002167419A Expired - Fee Related JP4003940B2 (en) | 2002-06-07 | 2002-06-07 | VIDEO-RELATED CONTENT GENERATION DEVICE, VIDEO-RELATED CONTENT GENERATION METHOD, AND VIDEO-RELATED CONTENT GENERATION PROGRAM |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4003940B2 (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2022196904A1 (en) * | 2021-03-19 | 2022-09-22 | 주식회사 웨인힐스벤처스 | Method and device for providing converted multimedia content creation service using image resource matching of text converted from speech information |
Families Citing this family (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4342485B2 (en) * | 2005-07-20 | 2009-10-14 | 株式会社東芝 | Drawing device and telop editing method thereof |
| KR101317204B1 (en) * | 2006-11-27 | 2013-10-10 | 삼성전자주식회사 | Method for generating frame information on moving image and apparatus thereof |
| JP5192894B2 (en) * | 2008-04-24 | 2013-05-08 | 日本放送協会 | Data broadcasting content reception conversion device |
| JP2012231349A (en) * | 2011-04-27 | 2012-11-22 | Hitachi Consumer Electronics Co Ltd | Storage device and portable terminal |
| CN112449253B (en) * | 2014-10-22 | 2022-12-13 | 华为技术有限公司 | Interactive video generation |
| JP6443841B2 (en) * | 2015-04-21 | 2018-12-26 | 日本電信電話株式会社 | Environmental sound transmission system and environmental sound transmission method |
| JP7336346B2 (en) * | 2019-10-04 | 2023-08-31 | 日本放送協会 | Framing information generator and its program |
| JP7587391B2 (en) * | 2020-10-21 | 2024-11-20 | 日本放送協会 | Video encoding device and program |
| JP7497502B1 (en) | 2023-08-14 | 2024-06-10 | 株式会社コロプラ | Program and system |
| JP2025054257A (en) * | 2023-09-25 | 2025-04-07 | ソフトバンクグループ株式会社 | system |
-
2002
- 2002-06-07 JP JP2002167419A patent/JP4003940B2/en not_active Expired - Fee Related
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2022196904A1 (en) * | 2021-03-19 | 2022-09-22 | 주식회사 웨인힐스벤처스 | Method and device for providing converted multimedia content creation service using image resource matching of text converted from speech information |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2004015523A (en) | 2004-01-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR101994592B1 (en) | AUTOMATIC VIDEO CONTENT Metadata Creation METHOD AND SYSTEM | |
| CN101141603B (en) | Method and apparatus for generating scenario for music-and-image-synchronized motion picture | |
| JP4059631B2 (en) | Interactive system | |
| JP3955099B2 (en) | Time-based media processing system | |
| JP5533861B2 (en) | Display control apparatus, display control method, and program | |
| CN100583088C (en) | Method for positioning by computing groups, corresponding receiver | |
| CN106648083B (en) | Enhanced playing scene synthesis control method and device | |
| JP5522789B2 (en) | Video playback device with link function and video playback program with link function | |
| JP4003940B2 (en) | VIDEO-RELATED CONTENT GENERATION DEVICE, VIDEO-RELATED CONTENT GENERATION METHOD, AND VIDEO-RELATED CONTENT GENERATION PROGRAM | |
| US20070101266A1 (en) | Video summary description scheme and method and system of video summary description data generation for efficient overview and browsing | |
| KR20130107917A (en) | Method and apparatus of processing media file for augmented reality services | |
| US9143750B2 (en) | Apparatus and method for processing media in convergence media service platform | |
| JP2019071009A (en) | Content display program, content display method, and content display device | |
| WO2001027876A1 (en) | Video summary description scheme and method and system of video summary description data generation for efficient overview and browsing | |
| KR20090026942A (en) | Multimedia data recording method and apparatus for automatically generating / updating metadata | |
| CN104041063B (en) | Method, platform and system for making video related information base and playing video | |
| JP2013197981A (en) | Moving image reproduction method, moving image reproduction apparatus, and program | |
| JP2000242661A (en) | Related information search device and storage medium storing program for executing related information search processing | |
| JP2001306579A (en) | INFORMATION SEARCHING DEVICE, INFORMATION SEARCHING METHOD, AND COMPUTER-READABLE RECORDING MEDIUM RECORDING PROGRAM FOR CAUSING COMPUTER TO EXECUTE THE METHOD | |
| KR101502984B1 (en) | Method and apparatus for providing information of objects in contents and contents based on the object | |
| US20020167464A1 (en) | Image reproduction apparatus having function of displaying synthesized data by varying part of original image data | |
| JP5304795B2 (en) | Information processing device | |
| JP3783222B2 (en) | Scene development system for recorded movie content or fiction content | |
| JP7137815B2 (en) | Recording playback system | |
| KR102538058B1 (en) | Announcing advertisement banner provision system for website |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050207 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070523 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070711 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070815 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070817 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100831 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110831 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120831 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120831 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130831 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140831 Year of fee payment: 7 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |