JP4488091B2 - Electronic device, video content editing method and program - Google Patents
Electronic device, video content editing method and program Download PDFInfo
- Publication number
- JP4488091B2 JP4488091B2 JP2008164652A JP2008164652A JP4488091B2 JP 4488091 B2 JP4488091 B2 JP 4488091B2 JP 2008164652 A JP2008164652 A JP 2008164652A JP 2008164652 A JP2008164652 A JP 2008164652A JP 4488091 B2 JP4488091 B2 JP 4488091B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- evaluation value
- face
- audio signal
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N9/00—Details of colour television systems
- H04N9/79—Processing of colour television signals in connection with recording
- H04N9/80—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
- H04N9/82—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
- H04N9/8205—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
- H04N9/8211—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal the additional signal being a sound signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/361—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
- G10H1/368—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems displaying animated or moving pictures synchronized with the music or audio part
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/265—Mixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/046—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Television Signal Processing For Recording (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
Description
本発明は、映像コンテンツを編集可能な電子機器、当該電子機器における映像コンテンツ編集方法及びそのプログラムに関する。 The present invention relates to an electronic device capable of editing video content, a video content editing method in the electronic device, and a program thereof.
従来から、カムコーダ等で撮影された映像コンテンツに、BGM(Background Music)や効果音等を付加する編集作業が行われている。例えば、下記特許文献1には、編集対象映像の特徴(記録時間や画像枚数)を抽出し、予め定めたユーザが与える指示に基づいて、編集対象映像に最適な音楽を自動的に生成して編集対象映像に付加する映像信号編集装置が開示されている。
しかしながら、上記特許文献1に記載のような技術においては、編集対象映像に音楽が付加されることで、元の編集対象映像に記録されている元の音声信号が消去されてしまう。したがって、シーンによっては、音楽を付加するよりもむしろ元の音声信号を残した方が編集対象映像をより印象深いものにすることができる場合があるが、上記特許文献1の技術を用いる場合はそれができないため、ユーザの利便性を欠くこととなる。また、一般的に、編集対象映像のどの区間に音楽を付加し、どの区間を元の音声信号のままにしておくかをユーザが手動で選択して編集することも考えられるが、その作業は非常に煩雑で面倒である。
However, in the technique as described in
以上のような事情に鑑み、本発明の目的は、シーンに応じて、元の映像コンテンツ中の音声信号を効果的に残しながら他の音声信号を付加することが可能な電子機器、映像コンテンツ編集方法及びプログラムを提供することにある。 In view of the circumstances as described above, an object of the present invention is to provide an electronic device and video content editing capable of adding another audio signal while effectively leaving the audio signal in the original video content depending on the scene. It is to provide a method and a program.
上述の課題を解決するため、本発明の一の形態に係る電子機器は、第1の入力手段と、第2の入力手段と、第1の算出手段と、第2の算出手段と、設定手段と、生成手段とを有する。
上記第1の入力手段は、第1の映像コンテンツを構成する画像信号及び第1の音声信号を入力する。
上記第2の入力手段は、上記第1の音声信号とは異なる第2の音声信号を入力する。
上記第1の算出手段は、上記入力された画像信号から、人物の顔が表れた顔画像領域を検出して、当該検出された顔画像領域の確からしさを評価する顔評価値を算出する。
上記第2の算出手段は、上記入力された第1の音声信号から、上記人物の声を検出して、当該検出された声の大きさを評価する声評価値を算出する。
上記設定手段は、上記算出された顔評価値及び声評価値を基に、上記画像信号毎に、上記第1の音声信号の重みを示す第1の重み係数及び上記第2の音声信号の重みを示す第2の重み係数を設定する。
上記生成手段は、上記設定された第1及び第2の重み係数を基に、上記第1及び第2の音声信号を混合した第3の音声信号を生成し、当該第3の音声信号及び上記画像信号により構成される第2の映像コンテンツを生成する。
ここで電子機器とは、例えばPC(Personal Computer)、HDD(Hard Disk Drive)/DVD/BD(Blu-ray Disc)等の記録媒体を用いた記録再生装置、デジタルビデオカメラ、携帯型AV機器、携帯電話機、ゲーム機器等の電化製品等である。第1の映像コンテンツとは、例えばカムコーダ等の機器により記録された映像コンテンツや、ネットワークを介して受信された映像コンテンツ等である。第2の音声信号とは、例えばBGMや効果音用の音声信号である。
この構成により、電子機器は、第1の映像コンテンツ中に含まれる顔画像と声とを基に、第1及び第2の音声信号の重みを可変して、第1の映像コンテンツから第2の映像コンテンツを生成することができる。したがって、第1の映像コンテンツに単に別の音声を挿入するような場合に比べて、シーンに応じて、人物の声をそのまま残したり、別の音声を挿入したりすることで、編集効果を高めて、より印象的な第2の映像コンテンツを生成することができる。
In order to solve the above-described problem, an electronic apparatus according to an aspect of the present invention includes a first input unit, a second input unit, a first calculation unit, a second calculation unit, and a setting unit. And generating means.
The first input means inputs an image signal and a first audio signal constituting the first video content.
The second input means inputs a second audio signal different from the first audio signal.
The first calculation means detects a face image area in which a human face appears from the input image signal, and calculates a face evaluation value for evaluating the likelihood of the detected face image area.
The second calculation means detects a voice of the person from the input first voice signal, and calculates a voice evaluation value for evaluating the detected voice level.
The setting means, based on the calculated face evaluation value and voice evaluation value, for each image signal, a first weight coefficient indicating a weight of the first audio signal and a weight of the second audio signal A second weighting coefficient indicating is set.
The generation means generates a third audio signal obtained by mixing the first and second audio signals based on the set first and second weighting factors, and generates the third audio signal and the Second video content configured by the image signal is generated.
Here, the electronic device refers to, for example, a recording / playback device using a recording medium such as a PC (Personal Computer), an HDD (Hard Disk Drive) / DVD / BD (Blu-ray Disc), a digital video camera, a portable AV device, Electric appliances such as mobile phones and game machines. The first video content is, for example, video content recorded by a device such as a camcorder or video content received via a network. The second audio signal is, for example, an audio signal for BGM or sound effect.
With this configuration, the electronic device can change the weights of the first and second audio signals based on the face image and voice included in the first video content, and change the weights of the first and second audio signals from the first video content to the second video content. Video content can be generated. Therefore, compared to the case where another audio is simply inserted into the first video content, the editing effect is enhanced by leaving the person's voice as it is or inserting another audio depending on the scene. Thus, a more impressive second video content can be generated.
上記設定手段は、上記顔評価値が第1の閾値以上であり、かつ、上記声評価値が第2の閾値以上である場合に、上記第1の重み係数を上記第2の重み係数よりも大きい第1の値に設定してもよい。
顔評価値と声評価値とが共に大きい場合には、第1の映像コンテンツに現れる人物が話している可能性が高いと考えられる。したがって、そのような場合には第1の重み係数を第2の重み係数よりも極力大きくして当該人物の声を強調することで、当該人物をより印象付けることができる。ここで、上記第1の値は1に設定されてもよい。
When the face evaluation value is equal to or greater than a first threshold and the voice evaluation value is equal to or greater than a second threshold, the setting means sets the first weight coefficient to be greater than the second weight coefficient. A large first value may be set.
When both the face evaluation value and the voice evaluation value are large, it is considered that there is a high possibility that a person appearing in the first video content is speaking. Therefore, in such a case, the person can be more impressed by making the first weighting coefficient as large as possible than the second weighting coefficient and emphasizing the voice of the person. Here, the first value may be set to 1.
上記設定手段は、上記顔評価値が上記第1の閾値未満であり、かつ、上記声評価値が上記第2の閾値未満である場合に、上記第1の重み係数を上記第2の重み係数よりも小さい第2の値に設定してもよい。
顔評価値と声評価値とが共に小さい場合には、第1の映像コンテンツには人物が現れない可能性が高いと考えられる。したがって、そのような場合には第1の重み係数を第2の重み係数よりも極力小さくして、第2の音声信号を強調することで、第1の映像コンテンツの平凡なシーンをより魅力的なものに編集することができる。ここで、第2の値は0に設定されてもよい。
The setting means determines the first weighting factor as the second weighting factor when the face evaluation value is less than the first threshold value and the voice evaluation value is less than the second threshold value. You may set to the 2nd value smaller than this.
When both the face evaluation value and the voice evaluation value are small, it is highly likely that no person appears in the first video content. Accordingly, in such a case, the ordinary weight scene of the first video content is made more attractive by enhancing the second audio signal by making the first weighting factor as small as possible than the second weighting factor. You can edit anything. Here, the second value may be set to zero.
上記設定手段は、上記顔評価値が上記第1の閾値以上であり、かつ、上記声評価値が上記第2の閾値未満である場合に、上記顔評価値及び上記声評価値に応じて、上記第1の重み係数を上記第2の重み係数よりも大きく設定してもよい。
顔評価値が大きく、声評価値が小さい場合には、第1の映像コンテンツ中に人物の顔が表れているため、声は小さくとも、その人物が何らかの声を発していると考えられる。したがって、そのような場合には、第2の音声信号を付加しつつも、第1の音声信号の重みを大きくすることで、第1の音声信号を強調しながら第2の音声信号の効果を付加することができる。
When the face evaluation value is greater than or equal to the first threshold value and the voice evaluation value is less than the second threshold value, the setting means, depending on the face evaluation value and the voice evaluation value, The first weighting factor may be set larger than the second weighting factor.
When the face evaluation value is large and the voice evaluation value is small, a person's face appears in the first video content. Therefore, even if the voice is small, it is considered that the person is producing some kind of voice. Therefore, in such a case, the effect of the second audio signal is enhanced while enhancing the first audio signal by adding the weight of the first audio signal while adding the second audio signal. Can be added.
上記設定手段は、上記顔評価値が上記第1の閾値未満であり、かつ、上記声評価値が上記第2の閾値以上である場合に、上記顔評価値及び上記声評価値に応じて、上記第1の重み係数を上記第2の重み係数よりも小さく設定してもよい。
顔評価値が小さく、声評価値が大きい場合には、第1の映像コンテンツに人物がほとんど映っていないため、人物の声が含まれていても、その声は画像とはあまり関係ない人物の声であると考えられる。したがって、そのような場合には、第1の音声信号を残しつつも、第2の音声信号の重みを大きくすることで、第1の音声信号の効果を残しながら第2の音声信号の効果を高めることができる。
The setting means, when the face evaluation value is less than the first threshold and the voice evaluation value is greater than or equal to the second threshold, according to the face evaluation value and the voice evaluation value, The first weighting factor may be set smaller than the second weighting factor.
When the face evaluation value is small and the voice evaluation value is large, since the person is hardly reflected in the first video content, even if a person's voice is included, the voice is not related to the image. It is considered to be a voice. Therefore, in such a case, by increasing the weight of the second audio signal while leaving the first audio signal, the effect of the second audio signal is obtained while leaving the effect of the first audio signal. Can be increased.
上記電子機器は、特定の人物の顔の特徴を示す顔特徴データを記憶する記憶手段を更に具備してもよい。
この場合、上記第1の算出手段は、上記記憶された顔特徴データを基に、上記特定の人物の顔が表れた顔画像領域を検出可能であってもよい。
これにより、映像コンテンツ中に複数の人物の顔が現れる場合でも、特定の人物の顔を他の人物の顔と区別して検出することができる。したがって、特定の人物に特化して、第1及び第2の音声信号の重み係数設定処理をより効果的に実行することができる。
The electronic apparatus may further include a storage unit that stores facial feature data indicating facial features of a specific person.
In this case, the first calculation means may be able to detect a face image area in which the face of the specific person appears based on the stored face feature data.
Thus, even when a plurality of human faces appear in the video content, the face of a specific person can be detected separately from the faces of other persons. Therefore, it is possible to more effectively execute the weighting coefficient setting processing for the first and second audio signals specialized for a specific person.
上記電子機器は、特定の人物の声の特徴を示す声特徴データを記憶する記憶手段を更に具備してもよい。
この場合、上記第2の算出手段は、上記記憶された声特徴データを基に、上記特定の人物の声を検出可能であってもよい。
これにより、映像コンテンツ中に複数の人物の声が含まれる場合でも、特定の人物の声を他の人物の声と区別して検出することができる。したがって、特定の人物に特化して、第1及び第2の音声信号の重み係数設定処理をより効果的に実行することができる。
The electronic apparatus may further include a storage unit that stores voice feature data indicating a voice feature of a specific person.
In this case, the second calculation means may be capable of detecting the voice of the specific person based on the stored voice feature data.
Thereby, even when a plurality of human voices are included in the video content, the voice of a specific person can be detected separately from the voices of other persons. Therefore, it is possible to more effectively execute the weighting coefficient setting processing for the first and second audio signals specialized for a specific person.
本発明の別の形態に係る映像コンテンツ編集方法は、第1の映像コンテンツを構成する画像信号及び第1の音声信号を入力すること及び上記第1の音声信号とは異なる第2の音声信号を入力することを含む。
上記入力された画像信号からは、人物の顔が表れた顔画像領域を検出され、当該検出された顔画像領域の確からしさを評価する顔評価値を算出される。
上記入力された第1の音声信号からは、上記人物の声を検出され、当該検出された声の大きさを評価する声評価値を算出される。
上記算出された顔評価値及び声評価値を基に、上記画像信号毎に、上記第1の音声信号の重みを示す第1の重み係数及び上記第2の音声信号の重みを示す第2の重み係数が設定される。
上記設定された第1及び第2の重み係数を基に、上記第1及び第2の音声信号が混合された第3の音声信号が生成され、当該第3の音声信号及び上記画像信号により構成される第2の映像コンテンツが生成される。
この構成により、第1の映像コンテンツに単に別の音声を挿入するような場合に比べて、シーンに応じて、人物の声をそのまま残したり、別の音声を挿入したりすることで、編集効果を高めて、より印象的な第2の映像コンテンツを生成することができる。
The video content editing method according to another aspect of the present invention inputs an image signal and a first audio signal constituting the first video content, and outputs a second audio signal different from the first audio signal. Including typing.
From the input image signal, a face image area in which a person's face appears is detected, and a face evaluation value for evaluating the likelihood of the detected face image area is calculated.
The voice of the person is detected from the input first voice signal, and a voice evaluation value for evaluating the magnitude of the detected voice is calculated.
Based on the calculated face evaluation value and voice evaluation value, for each image signal, a first weight coefficient indicating the weight of the first sound signal and a second weight indicating the weight of the second sound signal. A weighting factor is set.
Based on the set first and second weighting factors, a third audio signal in which the first and second audio signals are mixed is generated, and is configured by the third audio signal and the image signal. Second video content to be generated is generated.
With this configuration, it is possible to leave the person's voice as it is or insert another audio depending on the scene, compared to a case where another audio is simply inserted into the first video content. And more impressive second video content can be generated.
本発明のまた別の形態に係るプログラムは、電子機器に、第1の入力ステップと、第2の入力ステップと、第1の算出ステップと、第2の算出ステップと、設定ステップと、生成ステップとを実行させるためのものである。
上記第1の入力ステップは、第1の映像コンテンツを構成する画像信号及び第1の音声信号を入力する。
上記第2の入力ステップは、上記第1の音声信号とは異なる第2の音声信号を入力する。
上記第1の算出ステップは、上記入力された画像信号から、人物の顔が表れた顔画像領域を検出して、当該検出された顔画像領域の確からしさを評価する顔評価値を算出する。
上記第2の算出ステップは、上記入力された第1の音声信号から、上記人物の声を検出して、当該検出された声の大きさを評価する声評価値を算出する。
上記設定ステップは、上記算出された顔評価値及び声評価値を基に、上記画像信号毎に、上記第1の音声信号の重みを示す第1の重み係数及び上記第2の音声信号の重みを示す第2の重み係数を設定する。
上記生成ステップは、上記設定された第1及び第2の重み係数を基に、上記第1及び第2の音声信号を混合した第3の音声信号を生成し、当該第3の音声信号及び上記画像信号により構成される第2の映像コンテンツを生成する。
A program according to still another aspect of the present invention includes a first input step, a second input step, a first calculation step, a second calculation step, a setting step, and a generation step. And to execute.
In the first input step, an image signal and a first audio signal constituting the first video content are input.
In the second input step, a second audio signal different from the first audio signal is input.
In the first calculation step, a face image area in which a person's face appears is detected from the input image signal, and a face evaluation value for evaluating the likelihood of the detected face image area is calculated.
In the second calculation step, the voice of the person is detected from the input first voice signal, and a voice evaluation value for evaluating the magnitude of the detected voice is calculated.
The setting step includes, based on the calculated face evaluation value and voice evaluation value, a first weighting coefficient indicating a weight of the first audio signal and a weight of the second audio signal for each image signal. A second weighting coefficient indicating is set.
The generation step generates a third audio signal obtained by mixing the first and second audio signals based on the set first and second weighting coefficients, and generates the third audio signal and the third audio signal. Second video content configured by the image signal is generated.
以上のように、本発明によれば、シーンに応じて、元の映像コンテンツ中の音声信号を効果的に残しながら他の音声信号を付加することができる。 As described above, according to the present invention, it is possible to add another audio signal while effectively leaving the audio signal in the original video content according to the scene.
以下、本発明の実施の形態を図面に基づき説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図1は、本発明の一実施形態に係る記録再生装置の構成を示すブロック図である。
同図に示すように、本実施形態に係る記録再生装置100は、画像信号入力部1及び3、音声信号入力部2及び4、入力画像処理部5、入力音声処理部6、画像特徴検出部7、音声特徴検出部8、記録部9、記録媒体10を有する。記録再生装置100はまた、再生部11、出力画像処理部12、出力音声処理部13、ユーザインタフェース部14、CPU(Central Processing Unit)15及びRAM(Random Access Memory)16を有する。
FIG. 1 is a block diagram showing a configuration of a recording / reproducing apparatus according to an embodiment of the present invention.
As shown in the figure, the recording / reproducing
画像信号入力部1及び3は、各種有線通信用端子や無線通信用ユニットである。有線通信用端子としては、例えばS端子、RCA端子、DVI(Digital Visual Interface)端子、HDMI(High-Definition Multimedia Interface)端子、Ethernet(登録商標)端子等の有線通信用端子、USB(Universal Serial Bus)端子、IEEE 1394端子等が挙げられる。無線通信用ユニットとしては、例えば無線LAN、Bluetooth(登録商標)、無線USB、無線HDMI等の各無線ユニットが挙げられる。しかし、有線通信用端子、無線通信用端子は、これらに限られるものではない。画像信号入力部1及び3は、各種ケーブルや無線ネットワークを介して、映像コンテンツの画像信号を記録再生装置100内に入力し、入力画像処理部5へ供給する。ここで映像コンテンツとは、例えばカムコーダ等で撮影されたコンテンツやインターネット上のコンテンツである。
The image
音声信号入力部2及び4も、各種有線通信用端子や無線通信用ユニットであり、S端子及びDVI端子を除いて上記各端子及び各ユニットとほぼ同様である。音声信号入力部2及び4は、上記各種ケーブルや無線ネットワークを介して、映像コンテンツの音声信号を記録再生装置100内に入力し、入力音声処理部6へ供給する。
The audio signal input units 2 and 4 are also various wired communication terminals and wireless communication units, and are substantially the same as the above terminals and units except for the S terminal and the DVI terminal. The audio signal input units 2 and 4 input the audio signal of the video content into the recording / reproducing
また、上記画像信号入力部1及び3、音声信号入力部2及び4は、図示しないアンテナを介して、デジタル放送信号に含まれる画像信号及び音声信号を記録再生装置100内に入力するアンテナ入力端子及びチューナ等であってもよい。
The image
入力画像処理部5は、入力された画像信号に、デジタル変換処理やエンコード処理等の種々の信号処理を施し、デジタル画像信号として画像特徴検出部7及び記録部9へ出力する。
入力音声処理部6は、入力された音声信号に、デジタル変換処理やエンコード処理等の種々の信号処理を施し、デジタル音声信号として音声特徴検出部8及び記録部9へ出力する。
The input image processing unit 5 performs various signal processing such as digital conversion processing and encoding processing on the input image signal, and outputs it to the image feature detection unit 7 and the recording unit 9 as a digital image signal.
The input audio processing unit 6 performs various signal processing such as digital conversion processing and encoding processing on the input audio signal, and outputs the digital audio signal to the audio
画像特徴検出部7は、入力画像処理部5から供給された画像信号中から、人の顔が表れた顔画像(顔画像の領域)を検出して、当該顔画像領域の確からしさを評価する顔評価値を算出する。
音声特徴検出部8は、入力音声処理部6から供給された音声信号中から、人の声を検出し、当該検出された声の大きさを評価する声評価値を算出する。
The image feature detection unit 7 detects a face image (face image region) in which a human face appears from the image signal supplied from the input image processing unit 5 and evaluates the likelihood of the face image region. A face evaluation value is calculated.
The voice
記録部9は、入力画像処理部5から供給された画像信号及び入力音声処理部6から供給された音声信号を多重化して、記録媒体10へ記録する。
The recording unit 9 multiplexes the image signal supplied from the input image processing unit 5 and the audio signal supplied from the input audio processing unit 6 and records them on the
記録媒体10としては、例えばHDD、フラッシュメモリ等の内蔵型の記録媒体や、光ディスク、メモリカード等の可般性の記録媒体が挙げられる。光ディスクとしては、BD、DVD、CD等が挙げられる。記録媒体10は、種々の映像コンテンツ、各種プログラム及びデータ等を記憶する。記録媒体10が内蔵型の記録媒体である場合、記録媒体10は、OSや、上記顔画像の検出処理、声の検出処理、それら検出処理の学習処理、映像コンテンツの音声編集処理等を実行するための各種プログラム及びデータを記憶する。記録媒体10が可般性の記録媒体である場合、記録再生装置100には、上記各種プログラムやデータを記録するための図示しない内蔵型の記録媒体が別途設けられる。
Examples of the
再生部11は、記録媒体10に記録された多重化された画像信号及び音声信号を読み出して分離し、分離された画像信号及び音声信号をデコードして、画像信号を出力画像処理部12へ、音声信号を出力音声処理部13へ供給する。映像信号及び音声信号の圧縮形式としては、例えばMPEG(Moving Picture Expert Group)−2やMPEG−4等が挙げられる。
The
出力画像処理部12は、アナログ変換処理やOSD(On Screen Display)処理等の種々の信号処理を施し、当該画像信号を例えば記録再生装置100に接続された液晶ディスプレイ等の外部機器や、記録再生装置100に内蔵された液晶ディスプレイへ出力する。
出力音声処理部13は、アナログ変換処理等の種々の信号処理を施し、当該音声信号を上記外部機器や内蔵液晶ディスプレイへ出力する。
The output
The output
ユーザインタフェース部14は、例えばリモートコントローラの赤外線信号受光部や、操作ボタン、スイッチ、マウス、キーボード等であり、ユーザの操作による各種指令を入力してCPU15へ出力する。
The
CPU15は、必要に応じてRAM16等に適宜アクセスし、記録再生装置100の各ブロックを統括的に制御する。RAM16は、CPU15の作業用領域等として用いられ、OS(Operating System)やプログラム、処理データ等を一時的に保持する。
The
外部音声ソース17は、例えばPCや各種AV機器等の外部機器であり、映像コンテンツに挿入するためのBGM(または効果音)の音声信号(以下、BGM音声と称する)を記憶し、各種インタフェースを介してCPU15へ当該音声信号を入力する。しかし、外部音声ソース17は、上記記録媒体10等、記録再生装置100に内蔵または装着された記録媒体であってもよい。
The
次に、以上のように構成された記録再生装置100の動作について説明する。
Next, the operation of the recording / reproducing
本実施形態において、記録再生装置100は、映像コンテンツを編集して、当該映像コンテンツに上記外部音声ソース17に記憶されたBGM音声を挿入することが可能である。このBGM音声の挿入にあたり、記録再生装置100は、上述したように、映像コンテンツの画像信号から顔画像を検出し、音声信号から声を検出して、それに応じてBGM音声の挿入の適否を判断する。このうち顔画像の検出のために、記録再生装置100は、前処理として、学習処理を実行する。以下、この学習処理について説明する。
In the present embodiment, the recording / reproducing
図2は、顔画像検出のための学習処理について概念的に示した図である。
同図に示すように、記録再生装置100の上記記録媒体10には、様々な人物の顔画像のサンプルを表す顔画像サンプルデータと、非顔画像のサンプルを表す非顔画像サンプルデータとがそれぞれ学習用データとしてデータベース化され記憶されている。
FIG. 2 is a diagram conceptually showing a learning process for detecting a face image.
As shown in the figure, the
記録再生装置100の画像特徴検出部7は、この顔画像サンプルデータベース及び非顔画像サンプルデータベースに記憶された各サンプル画像データを、特徴フィルターにかけ、個々の顔特徴を抽出し、特徴ベクトル(特徴データ)を検出する。
The image feature detection unit 7 of the recording / reproducing
特徴フィルターは、同図に示すように、例えば画像中の長方形のある部分は検出し、ある部分はマスクするようなフィルターである。この特徴フィルターにより、顔画像サンプルデータからは、顔の目、眉毛、鼻、頬等の位置関係が顔特徴として検出され、非顔画像サンプルデータからは、顔以外の物体の形、その物体の各構成要素の位置関係等が非顔特徴として検出される。特徴フィルターとしては、長方形のフィルター以外にも、例えば円形の特徴を検出する分離度フィルターや、特定方位のエッジにより顔の各パーツの位置関係を検出するGaborフィルター等が用いられても構わない。また、顔特徴の検出には、特徴フィルター以外にも、例えば輝度分布情報や肌色情報等が用いられても構わない。
ここで、画像特徴検出部7は、サンプル画像データからは、顔領域の大きさ及び位置を認識できない。したがって、画像特徴検出部7は、上記特徴フィルターの枠の大きさを変えて特徴フィルターにかけた場合に、最も確からしい検出値が得られたときの特徴フィルターの大きさを、顔領域の大きさと認識して顔特徴の抽出を行う。また、画像特徴検出部7は、サンプル画像データの全ての領域を特徴フィルターでスキャンした場合に、最も確からしい検出値が得られたときの特徴フィルターの位置を、顔領域の位置と認識して顔特徴の抽出を行う。
As shown in the figure, the feature filter is a filter that detects, for example, a certain rectangular portion in an image and masks a certain portion. By this feature filter, the positional relationship between the face eyes, eyebrows, nose, cheeks, etc. is detected as face features from the face image sample data, and the shape of the object other than the face, the shape of the object is detected from the non-face image sample data. The positional relationship of each component is detected as a non-facial feature. As the feature filter, in addition to the rectangular filter, for example, a separability filter that detects a circular feature, a Gabor filter that detects the positional relationship of each part of the face using an edge in a specific direction, and the like may be used. In addition to the feature filter, for example, luminance distribution information, skin color information, or the like may be used for detecting the facial features.
Here, the image feature detection unit 7 cannot recognize the size and position of the face region from the sample image data. Therefore, the image feature detection unit 7 changes the size of the feature filter when the most probable detection value is obtained when the size of the frame of the feature filter is changed and applied to the feature filter. Recognize and extract facial features. In addition, the image feature detection unit 7 recognizes the position of the feature filter when the most probable detection value is obtained as the position of the face region when all regions of the sample image data are scanned with the feature filter. Extract facial features.
画像特徴検出部7は、この顔画像サンプルデータ及び非顔画像サンプルデータから抽出された各特徴から、多次元の特徴ベクトルを生成する。そして、画像特徴検出部7は、この特徴ベクトルを、多次元ベクトル空間で表現し、統計的機械学習により判別関数を生成する。生成された判別関数は、例えば記録媒体10等に記憶され、編集対象の映像コンテンツから顔画像を検出する際に用いられる。
また、判別関数を用いた判別分析処理の代わりに、例えばサポートベクターマシン(SMV)、Ada-boost、ニューラルネットワーク等の機械学習的な手法を用いた判別分析処理が実行されてもよい。この場合、判別関数の代わりに、その判別処理を実行する処理モジュールが記録再生装置100に組み込まれる。これは、以下の説明において判別関数が関係する処理についても同様である。
The image feature detection unit 7 generates a multidimensional feature vector from each feature extracted from the face image sample data and the non-face image sample data. Then, the image feature detection unit 7 expresses this feature vector in a multidimensional vector space, and generates a discriminant function by statistical machine learning. The generated discriminant function is stored, for example, in the
Further, instead of the discriminant analysis process using the discriminant function, for example, a discriminant analysis process using a machine learning method such as a support vector machine (SMV), Ada-boost, or a neural network may be executed. In this case, instead of the discriminant function, a processing module that executes the discriminating process is incorporated in the recording / reproducing
次に、本実施形態において、記録再生装置100が映像コンテンツを編集して映像コンテンツにBGMデータを挿入する処理について説明する。
Next, in the present embodiment, a process in which the recording /
図3は、記録再生装置100の、映像コンテンツへのBGM挿入処理の流れを示したフローチャートである。
同図に示すように、まず、編集対象の映像コンテンツが、記録媒体10から読み出され、または画像信号入力部1または3及び音声信号入力部2または4から入力される。続いてCPU15は、当該映像コンテンツから、所定区間(所定数の連続フレーム)の画像信号及び音声信号を抽出する(ステップ31)。抽出された所定区間の画像信号は、上記画像特徴検出部7へ供給され、所定区間の音声信号は、上記音声特徴検出部8へ供給される。
FIG. 3 is a flowchart showing a flow of BGM insertion processing for video content in the recording / reproducing
As shown in the figure, first, video content to be edited is read from the
続いて、画像特徴検出部7は、上記判別関数を用いて、上記所定区間の画像信号から、顔画像領域を検出する(ステップ32)。図4は、顔画像領域の検出処理について概念的に示した図である。同図に示すように、画像特徴検出部7は、所定区間の画像信号を上記特徴フィルターにかけ、顔特徴を抽出して、多次元の特徴ベクトルを生成する。そして、画像特徴検出部7は、当該特徴ベクトルの各次元の値を判別関数の各次元の変数に導入して、判別関数の出力が正負のいずれであるかにより、当該画像信号に顔画像領域が含まれるか否かを判定する。 Subsequently, the image feature detection unit 7 detects a face image region from the image signal in the predetermined section using the discriminant function (step 32). FIG. 4 is a diagram conceptually showing the face image area detection processing. As shown in the figure, the image feature detection unit 7 applies an image signal in a predetermined section to the feature filter, extracts face features, and generates a multidimensional feature vector. Then, the image feature detection unit 7 introduces the value of each dimension of the feature vector into the variable of each dimension of the discriminant function, and determines whether the output of the discriminant function is positive or negative according to the face image region. Whether or not is included is determined.
そして、画像特徴検出部7は、この判別関数の出力値を基に、顔画像の検出の確からしさを評価する顔評価値Tfを算出する(ステップ32)。この顔評価値は、例えば、所定の明確な顔画像データを基に特徴ベクトルを生成してこれを判別関数に入力した場合における、判別関数の出力値を百分率で表した値とされる。 Then, the image feature detection unit 7 calculates a face evaluation value Tf for evaluating the probability of detection of the face image based on the output value of the discriminant function (step 32). The face evaluation value is, for example, a value representing the output value of the discriminant function as a percentage when a feature vector is generated based on predetermined clear face image data and input to the discriminant function.
続いて、音声特徴検出部8は、所定区間の音声信号から、人の声が含まれる区間を検出する(ステップ34)。図5は、声の検出処理について概念的に示した図である。同図においては、上記所定区間の音声信号のパワーが示されている。同図の波形Aは、人の声を示しており、同図の波形Bは、人の声以外の音声を示している。
Subsequently, the voice
同図に示すように、音声特徴検出部8はまず、ノイズの影響を除去するために、音声パワーに関する閾値Athを設定する。そして、音声特徴検出部8は、所定区間における平均パワーがAthよりも大きい場合には、その区間は音声区間であると判定し、Athよりも小さい場合には、その区間は非音声区間であると判定する。すなわち、同図においては、波形A及びB以外の音声信号は非音声区間とされる。
As shown in the figure, the voice
音声区間のうち、人の声には、子音、母音、息継ぎ等が含まれるため、音楽等の声以外の音声と比べて、所定パワー以上の継続区間が短いという特徴がある。この特徴を利用して、音声特徴検出部8は、時間に関する閾値Tthを設定し、所定パワー以上の平均継続時間長がTthよりも小さい場合には、その区間は声区間とし、Tthよりも大きい場合には、その区間は非声区間であると判定する。
Among voice sections, human voice includes consonants, vowels, breath breaths, etc., and therefore has a feature that a continuous section of a predetermined power or higher is shorter than voices other than voice such as music. Using this feature, the voice
続いて、音声特徴検出部8は、検出された声の大きさ(パワーレベル、振幅)を基に、声評価値Tvを算出する(ステップ35)この声評価値は、例えば検出可能な声の最大パワーレベルを1として、声のパワーレベルを百分率で表した値とされる。
Subsequently, the voice
続いて、CPU15は、上記顔評価値Tfが、所定の閾値Tfs以上であるか否かを判断する(ステップ36)。CPU15は、顔評価値Tfが閾値Tfs以上である場合(Yes)、上記声評価値Tvが所定の閾値Tvs以上であるか否かを判断する(ステップ37)。
Subsequently, the
CPU15は、声評価値Tvが閾値Tvs以上である場合(Yes)には、BGM音声の重み係数kを、0.5よりも小さい所定の重みk1に設定し、映像コンテンツの音声信号の重み計数mを1−k1に設定する。k1は例えば0に設定されるが、0でない場合でも、極力0に近い値となるように設定される。
When the voice evaluation value Tv is equal to or greater than the threshold value Tvs (Yes), the
CPU15は、上記ステップ37において、声評価値Tvが閾値Tvs未満である場合(No)には、顔評価値Tf及び声評価値Tvに応じて上記重み係数k及びmを設定する(ステップ39)。すなわち、重み係数k及びmのいずれも0または1ではないが、重み係数kは、重み係数mよりも小さく設定される。
If the voice evaluation value Tv is less than the threshold value Tvs in step 37 (No), the
CPU15は、上記ステップ36において、顔評価値Tfが閾値Tfs未満である場合(No)、上記声評価値Tvが所定の閾値Tvs以上であるか否かを判断する(ステップ40)。CPU15は、上記声評価値Tvが閾値Tvs以上である場合(Yes)には、顔評価値Tf及び声評価値Tvに応じて上記重み係数k及びmを設定する(ステップ41)。すなわち、重み係数k及びmのいずれも0または1ではないが、重み係数kは、重み係数mよりも大きく設定される。
When the face evaluation value Tf is less than the threshold value Tfs (No) in step 36, the
CPU15は、上記ステップ40において、声評価値Tvが閾値Tvs未満である場合(No)には、重み係数kを、0.5よりも大きい所定の重みk2に設定し、重み計数mを1−k2に設定する。k2は例えば1に設定されるが、1でない場合でも、極力1に近い値となるように設定される。
When the voice evaluation value Tv is less than the threshold value Tvs in Step 40 (No), the
CPU15は、このように設定された重み係数k及びmに基づいて、映像コンテンツの所定区間毎(フレーム毎)に、映像コンテンツを編集して、外部音声ソース17から入力されたBGM音声を挿入していく(ステップ43)。
Based on the weighting factors k and m set in this way, the
CPU15は、以上の処理を、映像コンテンツの全ての所定区間に対して実行するまで、または、ユーザ等から処理の中止が命令されるまで実行する(ステップ44、45)。CPU15は、編集後の映像コンテンツを、最終的に元の画像信号と多重化して、新たな映像コンテンツとして記録媒体10に記録する。
The
図6は、以上説明した重み係数k及びmの設定処理を示した表である。同図に示すように、顔評価値及び声評価値が各閾値Tfs及びTvs以上であるか否かに応じて、4つのパターンの重み係数が設定される。 FIG. 6 is a table showing the setting processing of the weighting factors k and m described above. As shown in the figure, four pattern weight coefficients are set depending on whether the face evaluation value and the voice evaluation value are equal to or higher than the threshold values Tfs and Tvs.
図7は、上記顔評価値及び声評価値、重み係数k及びm及び映像コンテンツの各フレーム画像との関係を示したグラフである。同図に示されるフレームf1〜f6は、一例として、カムコーダ等で学校の運動会の様子が収録された映像コンテンツの一部のフレームを示している。 FIG. 7 is a graph showing the relationship between the face evaluation value and voice evaluation value, the weight coefficients k and m, and each frame image of the video content. As an example, frames f1 to f6 shown in the figure show some frames of video content in which a state of a school sports day is recorded by a camcorder or the like.
同図に示すように、映像コンテンツのフレームf1及びf2では、顔が小さすぎて、上記画像特徴検出部7により顔画像領域が検出されないため、顔評価値は低い(閾値Tfs未満)。また、このフレームf1及びf2の区間では、遠くから撮影されており、人の声もほとんど集音されないため、声評価値も低い(閾値Tvs未満)。そのため、この区間では、BGM音声の重み係数kが高く、コンテンツの音声信号の重み係数mが低く設定されている。これにより、平凡なシーンをより魅力的なものに編集することができる。 As shown in the figure, in the frames f1 and f2 of the video content, the face evaluation value is low (less than the threshold Tfs) because the face is too small and the face image area is not detected by the image feature detection unit 7. Further, in the sections of the frames f1 and f2, the voice evaluation value is low (less than the threshold value Tvs) because the image is taken from a distance and almost no human voice is collected. Therefore, in this section, the weight coefficient k of the BGM audio is set high, and the weight coefficient m of the content audio signal is set low. This makes it possible to edit a mediocre scene into a more attractive one.
フレームf3及びf4では、人がややアップで撮影され、集音される声もやや大きくなっているため、この区間では、顔評価値及び声評価値に応じて重み係数k及びmが設定される。これにより、人の音声も残しながら、同時にBGM挿入による効果も得ることができる。すなわち、画像特徴検出部7は、顔評価値が閾値Tfs以上で声評価値が閾値Tvs未満の場合には、BGM音声の重みを低くすることで、画像に現れる人物の声を強調することができる。また、画像特徴検出部7は、顔評価値が閾値Tfs未満で声評価値が閾値Tvs以上の場合には、BGM音声の重みを高くすることで、画像と無関係な人物の声よりも、BGMの効果を高めることができる。 In frames f3 and f4, a person is photographed slightly up and the voice collected is also slightly louder. Therefore, in this section, weight coefficients k and m are set according to the face evaluation value and the voice evaluation value. . Thereby, the effect by BGM insertion can also be acquired at the same time, leaving a human voice. That is, when the face evaluation value is equal to or higher than the threshold value Tfs and the voice evaluation value is lower than the threshold value Tvs, the image feature detection unit 7 can emphasize the voice of the person appearing in the image by reducing the weight of the BGM sound. it can. Further, when the face evaluation value is less than the threshold value Tfs and the voice evaluation value is greater than or equal to the threshold value Tvs, the image feature detection unit 7 increases the weight of the BGM sound so that the BGM is more effective than the voice of a person unrelated to the image. Can enhance the effect.
フレームf5及びf6では、顔がはっきり検出できる程度に人がアップで撮影されているため、顔評価値は高い(閾値Tfs以上)。また検出される声のパワーレベルも大きいため、声評価値も高い(閾値Tvs未満)。そのため、この区間では、重み係数kは低く、重み係数mは高く設定されている。これにより、人の声を強調することで、その人をより印象付けることができる。 In the frames f5 and f6, since the person is photographed up to such an extent that the face can be clearly detected, the face evaluation value is high (threshold value Tfs or more). Further, since the power level of the detected voice is high, the voice evaluation value is also high (less than the threshold value Tvs). Therefore, in this section, the weighting factor k is set low and the weighting factor m is set high. Thereby, the person can be more impressed by emphasizing the voice of the person.
以上のように、本実施形態によれば、顔評価値及び声評価値に基づいて映像コンテンツにBGM音声を挿入することとしたため、シーンに応じて、元の映像コンテンツ中の音声信号を効果的に残しながら、BGM音声を挿入することができる。これにより、単に一律にBGM音声を挿入する場合に比べて、映像コンテンツをより印象的な、思い出深いものとすることできる。 As described above, according to the present embodiment, since the BGM sound is inserted into the video content based on the face evaluation value and the voice evaluation value, the audio signal in the original video content is effectively used according to the scene. BGM sound can be inserted while leaving Thereby, it is possible to make the video content more impressive and memorable as compared with the case where the BGM sound is simply inserted uniformly.
本発明は上述の実施形態にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。 The present invention is not limited to the above-described embodiment, and various modifications can be made without departing from the scope of the present invention.
上述の実施形態において、画像特徴検出部7は、人の顔画像のみならず、動物の顔画像を検出してもよい。また音声特徴検出部8は、人の声のみならず、動物の声を検出してもよい。
In the above-described embodiment, the image feature detection unit 7 may detect not only a human face image but also an animal face image. The voice
上述の実施形態において、画像特徴検出部7は、単に顔画像を検出するのみならず、特定の人物の顔画像を認識してもよい。この顔認識処理は、上記判別関数による顔検出処理の後に実行される。この顔認識処理には、エッジ強度画像、周波数強度画像、高次自己相関、カラー変換画像等を用いることができる。
図8は、エッジ強度画像を用いた顔認識処理を概念的に示した図である。
同図に示すように、記録媒体10等には、顔認識したい人の特徴データ(辞書パターン)として、濃淡画像と、エッジ強度画像とが記憶されている。画像特徴検出部7は、検出された顔画像から、特徴データとして、濃淡画像及びエッジ強度画像を抽出する。そして、画像特徴検出部7は、この抽出した濃淡画像及びエッジ強度画像と、上記記憶された、顔認識したい人の濃淡画像及びエッジ強度画像とをパターンマッチングにより比較処理することで、特定の人の顔画像を認識することができる。この場合、画像特徴検出部7は、顔画像の認識率(マッチング率)を百分率で表して、顔評価値とすればよい。画像特徴検出部7は、目や鼻等の顔特徴点の情報が得られる場合には、上記エッジ強度画像等に加えてそれらの情報を併用することもできる。
この処理により、例えば上記図7の例では、多数の子供の中から、ユーザの子供の顔のみを検出及び認識する等、特定の人の顔の認識率に応じて、映像コンテンツにBGMを挿入することができる。これにより、編集後の映像コンテンツをより印象深いものとすることができる。
In the above-described embodiment, the image feature detection unit 7 may not only detect a face image but also recognize a face image of a specific person. This face recognition process is executed after the face detection process by the discriminant function. For this face recognition process, an edge intensity image, a frequency intensity image, a high-order autocorrelation, a color conversion image, or the like can be used.
FIG. 8 is a diagram conceptually showing the face recognition process using the edge intensity image.
As shown in the figure, a grayscale image and an edge strength image are stored in the
With this process, for example, in the example of FIG. 7 described above, BGM is inserted into the video content according to the recognition rate of a specific person's face, such as detecting and recognizing only the face of the user's child from among many children. can do. Thereby, the edited video content can be made more impressive.
上述の実施形態において、音声特徴検出部8は、単に声を検出するのみならず、特定の人物の声を認識してもよい。この声認識処理は、例えば、音声特徴検出部8が、認識したい人の声信号を周波数解析して、スペクトル特性を検出して上記記録媒体10等に記憶しておき、検出された声のスペクトル特性と比較処理(パターンマッチング)することで実行される。スペクトル特性としては、子音部分及び母音部分のスペクトルピーク周波数、スペクトル間隔等が用いられる。また、息継ぎの間隔等も個人によって異なるため、音声特徴検出部8は、息継ぎの間隔に関する情報を上記スペクトル特性と併用しても構わない。この場合、音声特徴検出部8は、声認識率(マッチング率)を百分率で表して、声評価値とすればよい。
この処理により、特定の人の声の認識率に応じて、映像コンテンツにBGMを挿入することができるため、編集後の映像コンテンツをより印象深いものとすることができる。
In the above-described embodiment, the voice
By this process, BGM can be inserted into the video content in accordance with the recognition rate of a specific person's voice, so that the edited video content can be made more impressive.
上述の実施形態においては、画像特徴検出部7は、顔評価値が閾値Tfs未満で声評価値が閾値Tvs以上の場合には、BGM音声の重みを高く設定した。しかし、この場合、画像特徴検出部7は、逆にBGM音声の重みを低く設定してもよい。これにより、撮影対象人物と、撮影者の両方の声を残すことが可能となる。また、上記声の認識が可能な場合、撮影者の声を認識し、顔評価値が閾値Tfs未満でも、撮影者の声の声評価値が閾値Tvs以上の場合には、BGM音声の重みを低く設定してもよい。これにより、撮影者の音声をより確実に効果的に残すことができる。 In the above-described embodiment, the image feature detection unit 7 sets the weight of the BGM sound high when the face evaluation value is less than the threshold value Tfs and the voice evaluation value is equal to or greater than the threshold value Tvs. However, in this case, the image feature detection unit 7 may set the weight of the BGM sound low. Thereby, it becomes possible to leave the voices of both the person to be photographed and the photographer. If the voice can be recognized, the photographer's voice is recognized. If the voice evaluation value of the photographer's voice is equal to or greater than the threshold Tvs even if the face evaluation value is less than the threshold Tfs, the weight of the BGM sound is set. It may be set low. Thereby, a photographer's voice can be left more effectively and reliably.
上述の実施形態においては、記録再生装置100は、声の検出処理については学習処理を実行しないが、もちろん、学習処理を実行しても構わない。
In the above-described embodiment, the recording / reproducing
上述の実施形態においては、本発明を記録再生装置に適用した例を示したが、本発明を、PC、デジタルビデオカメラ、携帯型AV機器、携帯電話機、ゲーム機器等の他の電子機器に適用することももちろん可能である。 In the above-described embodiment, an example in which the present invention is applied to a recording / reproducing apparatus has been described. However, the present invention is applied to other electronic devices such as a PC, a digital video camera, a portable AV device, a mobile phone, and a game device. Of course it is also possible to do.
1、3…画像信号入力部
2、4…音声信号入力部
5…入力画像処理部
6…入力音声処理部
7…画像特徴検出部
8…音声特徴検出部
9…記録部
10…記録媒体
11…再生部
12…出力画像処理部
13…出力音声処理部
14…ユーザインタフェース部
15…CPU
16…RAM
17…外部音声ソース
100…記録再生装置
DESCRIPTION OF
16 ... RAM
17 ... External
Claims (9)
前記第1の音声信号とは異なる第2の音声信号を入力する第2の入力手段と、
前記入力された画像信号から、人物の顔が表れた顔画像領域を検出して、当該検出された顔画像領域の確からしさを評価する顔評価値を算出する第1の算出手段と、
前記入力された第1の音声信号から、前記人物の声を検出して、当該検出された声の大きさを評価する声評価値を算出する第2の算出手段と、
前記算出された顔評価値及び声評価値を基に、前記画像信号毎に、前記第1の音声信号の重みを示す第1の重み係数及び前記第2の音声信号の重みを示す第2の重み係数を設定する設定手段と、
前記設定された第1及び第2の重み係数を基に、前記第1及び第2の音声信号を混合した第3の音声信号を生成し、当該第3の音声信号及び前記画像信号により構成される第2の映像コンテンツを生成する生成手段と
を具備する電子機器。 First input means for inputting an image signal and a first audio signal constituting the first video content;
Second input means for inputting a second audio signal different from the first audio signal;
First calculation means for detecting a face image area in which a person's face appears from the input image signal and calculating a face evaluation value for evaluating the likelihood of the detected face image area;
Second calculating means for detecting a voice of the person from the input first audio signal and calculating a voice evaluation value for evaluating the magnitude of the detected voice;
Based on the calculated face evaluation value and voice evaluation value, for each image signal, a first weight coefficient indicating the weight of the first sound signal and a second weight indicating the weight of the second sound signal. A setting means for setting a weighting factor;
Based on the set first and second weighting factors, a third audio signal is generated by mixing the first and second audio signals, and is configured by the third audio signal and the image signal. An electronic device comprising: generating means for generating second video content.
前記設定手段は、前記顔評価値が第1の閾値以上であり、かつ、前記声評価値が第2の閾値以上である場合に、前記第1の重み係数を前記第2の重み係数よりも大きい第1の値に設定する
電子機器。 The electronic device according to claim 1,
The setting means sets the first weight coefficient to be greater than the second weight coefficient when the face evaluation value is equal to or greater than a first threshold and the voice evaluation value is equal to or greater than a second threshold. Electronic device set to a large first value.
前記設定手段は、前記顔評価値が前記第1の閾値未満であり、かつ、前記声評価値が前記第2の閾値未満である場合に、前記第1の重み係数を前記第2の重み係数よりも小さい第2の値に設定する
電子機器。 The electronic device according to claim 2,
The setting means sets the first weighting factor to the second weighting factor when the face evaluation value is less than the first threshold value and the voice evaluation value is less than the second threshold value. Electronic device set to a second value smaller than
前記設定手段は、前記顔評価値が前記第1の閾値以上であり、かつ、前記声評価値が前記第2の閾値未満である場合に、前記顔評価値及び前記声評価値に応じて、前記第1の重み係数を前記第2の重み係数よりも大きく設定する
電子機器。 The electronic device according to claim 3,
The setting means, when the face evaluation value is not less than the first threshold and the voice evaluation value is less than the second threshold, according to the face evaluation value and the voice evaluation value, An electronic device that sets the first weighting factor to be larger than the second weighting factor.
前記設定手段は、前記顔評価値が前記第1の閾値未満であり、かつ、前記声評価値が前記第2の閾値以上である場合に、前記顔評価値及び前記声評価値に応じて、前記第1の重み係数を前記第2の重み係数よりも小さく設定する
電子機器。 The electronic device according to claim 3,
The setting means, when the face evaluation value is less than the first threshold and the voice evaluation value is greater than or equal to the second threshold, according to the face evaluation value and the voice evaluation value, An electronic device that sets the first weighting factor to be smaller than the second weighting factor.
特定の人物の顔の特徴を示す顔特徴データを記憶する記憶手段を更に具備し、
前記第1の算出手段は、前記記憶された顔特徴データを基に、前記特定の人物の顔が表れた顔画像領域を検出可能である
電子機器。 The electronic device according to claim 3,
Storage means for storing facial feature data indicating facial features of a specific person,
The electronic device is capable of detecting a face image area in which a face of the specific person appears based on the stored face feature data.
特定の人物の声の特徴を示す声特徴データを記憶する記憶手段を更に具備し、
前記第2の算出手段は、前記記憶された声特徴データを基に、前記特定の人物の声を検出可能である
電子機器。 The electronic device according to claim 3,
Storage means for storing voice feature data indicating the voice characteristics of a specific person;
The electronic device is capable of detecting the voice of the specific person based on the stored voice feature data.
前記第1の音声信号とは異なる第2の音声信号を入力し、
前記入力された画像信号から、人物の顔が表れた顔画像領域を検出して、当該検出された顔画像領域の確からしさを評価する顔評価値を算出し、
前記入力された第1の音声信号から、前記人物の声を検出して、当該検出された声の大きさを評価する声評価値を算出し、
前記算出された顔評価値及び声評価値を基に、前記画像信号毎に、前記第1の音声信号の重みを示す第1の重み係数及び前記第2の音声信号の重みを示す第2の重み係数を設定し、
前記設定された第1及び第2の重み係数を基に、前記第1及び第2の音声信号を混合した第3の音声信号を生成し、当該第3の音声信号及び前記画像信号により構成される第2の映像コンテンツを生成する
映像コンテンツ編集方法。 Input an image signal and a first audio signal constituting the first video content,
Input a second audio signal different from the first audio signal;
Detecting a face image area in which a person's face appears from the input image signal, and calculating a face evaluation value for evaluating the likelihood of the detected face image area;
Detecting the voice of the person from the input first audio signal, and calculating a voice evaluation value for evaluating the magnitude of the detected voice;
Based on the calculated face evaluation value and voice evaluation value, for each image signal, a first weight coefficient indicating the weight of the first sound signal and a second weight indicating the weight of the second sound signal. Set the weighting factor,
Based on the set first and second weighting factors, a third audio signal is generated by mixing the first and second audio signals, and is configured by the third audio signal and the image signal. A video content editing method for generating second video content.
第1の映像コンテンツを構成する画像信号及び第1の音声信号を入力するステップと、
前記第1の音声信号とは異なる第2の音声信号を入力するステップと、
前記入力された画像信号から、人物の顔が表れた顔画像領域を検出して、当該検出された顔画像領域の確からしさを評価する顔評価値を算出するステップと、
前記入力された第1の音声信号から、前記人物の声を検出して、当該検出された声の大きさを評価する声評価値を算出するステップと、
前記算出された顔評価値及び声評価値を基に、前記画像信号毎に、前記第1の音声信号の重みを示す第1の重み係数及び前記第2の音声信号の重みを示す第2の重み係数を設定するステップと、
前記設定された第1及び第2の重み係数を基に、前記第1及び第2の音声信号を混合した第3の音声信号を生成し、当該第3の音声信号及び前記画像信号により構成される第2の映像コンテンツを生成するステップと
を実行させるためのプログラム。 Electronic equipment,
Inputting an image signal and a first audio signal constituting the first video content;
Inputting a second audio signal different from the first audio signal;
Detecting a face image area in which a person's face appears from the input image signal, and calculating a face evaluation value for evaluating the likelihood of the detected face image area;
Detecting a voice of the person from the input first audio signal and calculating a voice evaluation value for evaluating the magnitude of the detected voice;
Based on the calculated face evaluation value and voice evaluation value, for each image signal, a first weight coefficient indicating the weight of the first sound signal and a second weight indicating the weight of the second sound signal. Setting a weighting factor;
Based on the set first and second weighting factors, a third audio signal is generated by mixing the first and second audio signals, and is configured by the third audio signal and the image signal. Generating the second video content.
Priority Applications (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008164652A JP4488091B2 (en) | 2008-06-24 | 2008-06-24 | Electronic device, video content editing method and program |
| KR1020090033176A KR101590186B1 (en) | 2008-06-24 | 2009-04-16 | Electronic apparatus video content editing method and recording medium for program |
| US12/456,825 US8494338B2 (en) | 2008-06-24 | 2009-06-23 | Electronic apparatus, video content editing method, and program |
| CN2009101499726A CN101615389B (en) | 2008-06-24 | 2009-06-24 | Electronic apparatus, and video content editing method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008164652A JP4488091B2 (en) | 2008-06-24 | 2008-06-24 | Electronic device, video content editing method and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2010010780A JP2010010780A (en) | 2010-01-14 |
| JP4488091B2 true JP4488091B2 (en) | 2010-06-23 |
Family
ID=41495001
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2008164652A Expired - Fee Related JP4488091B2 (en) | 2008-06-24 | 2008-06-24 | Electronic device, video content editing method and program |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US8494338B2 (en) |
| JP (1) | JP4488091B2 (en) |
| KR (1) | KR101590186B1 (en) |
| CN (1) | CN101615389B (en) |
Families Citing this family (20)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5427622B2 (en) * | 2010-01-22 | 2014-02-26 | Necパーソナルコンピュータ株式会社 | Voice changing device, voice changing method, program, and recording medium |
| JP5353835B2 (en) * | 2010-06-28 | 2013-11-27 | ブラザー工業株式会社 | Information processing program and information processing apparatus |
| US8879804B1 (en) * | 2010-12-18 | 2014-11-04 | Alexey Konoplev | System and method for automatic detection and recognition of facial features |
| US20130162752A1 (en) * | 2011-12-22 | 2013-06-27 | Advanced Micro Devices, Inc. | Audio and Video Teleconferencing Using Voiceprints and Face Prints |
| CN102760444B (en) * | 2012-04-25 | 2014-06-11 | 清华大学 | Support vector machine based classification method of base-band time-domain voice-frequency signal |
| JP6253671B2 (en) * | 2013-12-26 | 2017-12-27 | 株式会社東芝 | Electronic device, control method and program |
| CN104065977B (en) * | 2014-06-06 | 2018-05-15 | 北京音之邦文化科技有限公司 | Audio/video file processing method and device |
| KR102282704B1 (en) | 2015-02-16 | 2021-07-29 | 삼성전자주식회사 | Electronic device and method for playing image data |
| US20170092089A1 (en) * | 2015-09-30 | 2017-03-30 | Tianjin Hualai Technology Co., Ltd. | Security monitoring apparatus, camera having the same and security monitoring method |
| CN107027053A (en) * | 2017-05-08 | 2017-08-08 | 深圳Tcl数字技术有限公司 | Audio frequency playing method, terminal and computer-readable recording medium |
| US10825480B2 (en) * | 2017-05-31 | 2020-11-03 | Apple Inc. | Automatic processing of double-system recording |
| US10719692B2 (en) | 2017-09-09 | 2020-07-21 | Apple Inc. | Vein matching for difficult biometric authentication cases |
| US10949715B1 (en) | 2019-08-19 | 2021-03-16 | Neon Evolution Inc. | Methods and systems for image and voice processing |
| US10658005B1 (en) * | 2019-08-19 | 2020-05-19 | Neon Evolution Inc. | Methods and systems for image and voice processing |
| US10803646B1 (en) | 2019-08-19 | 2020-10-13 | Neon Evolution Inc. | Methods and systems for image and voice processing |
| US10671838B1 (en) | 2019-08-19 | 2020-06-02 | Neon Evolution Inc. | Methods and systems for image and voice processing |
| KR102349180B1 (en) * | 2020-01-06 | 2022-01-07 | 이상훈 | Method for creating multidedia content through reconstruction of sound and content managing server |
| US11039043B1 (en) * | 2020-01-16 | 2021-06-15 | International Business Machines Corporation | Generating synchronized sound from videos |
| US11308657B1 (en) | 2021-08-11 | 2022-04-19 | Neon Evolution Inc. | Methods and systems for image processing using a learning engine |
| CN116095564B (en) * | 2023-04-10 | 2023-06-23 | 深圳市嘉润原新显科技有限公司 | Display mixing circuit and display |
Family Cites Families (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4236815B2 (en) * | 1998-03-11 | 2009-03-11 | マイクロソフト コーポレーション | Face synthesis device and face synthesis method |
| GB2362986B (en) * | 1999-01-28 | 2002-12-24 | Intel Corp | Method and apparatus for editing a video recording with audio selections |
| JP2001202082A (en) | 2000-01-17 | 2001-07-27 | Matsushita Electric Ind Co Ltd | Video signal editing apparatus and method |
| US6778252B2 (en) * | 2000-12-22 | 2004-08-17 | Film Language | Film language |
| JP2002374494A (en) * | 2001-06-14 | 2002-12-26 | Fuji Electric Co Ltd | A video content file generation system and a video content file search method. |
| JP2003051797A (en) * | 2001-08-07 | 2003-02-21 | Star Collaboration Kk | Method for distributing digital contents, distributor, reproduction device and computer program |
| EP1443498B1 (en) * | 2003-01-24 | 2008-03-19 | Sony Ericsson Mobile Communications AB | Noise reduction and audio-visual speech activity detection |
| US7649988B2 (en) * | 2004-06-15 | 2010-01-19 | Acoustic Technologies, Inc. | Comfort noise generator using modified Doblinger noise estimate |
| JP4712812B2 (en) * | 2005-10-21 | 2011-06-29 | パナソニック株式会社 | Recording / playback device |
| CN101202876A (en) * | 2006-12-15 | 2008-06-18 | 天津三星电子有限公司 | Method for implementing synchronization of audio and picture by using audio frequency and video frequency composite channel in DVR |
| US7521622B1 (en) * | 2007-02-16 | 2009-04-21 | Hewlett-Packard Development Company, L.P. | Noise-resistant detection of harmonic segments of audio signals |
-
2008
- 2008-06-24 JP JP2008164652A patent/JP4488091B2/en not_active Expired - Fee Related
-
2009
- 2009-04-16 KR KR1020090033176A patent/KR101590186B1/en not_active Expired - Fee Related
- 2009-06-23 US US12/456,825 patent/US8494338B2/en not_active Expired - Fee Related
- 2009-06-24 CN CN2009101499726A patent/CN101615389B/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| KR20100002090A (en) | 2010-01-06 |
| US8494338B2 (en) | 2013-07-23 |
| US20100008641A1 (en) | 2010-01-14 |
| KR101590186B1 (en) | 2016-01-29 |
| JP2010010780A (en) | 2010-01-14 |
| CN101615389B (en) | 2012-08-22 |
| CN101615389A (en) | 2009-12-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4488091B2 (en) | Electronic device, video content editing method and program | |
| Anina et al. | Ouluvs2: A multi-view audiovisual database for non-rigid mouth motion analysis | |
| US10847185B2 (en) | Information processing method and image processing apparatus | |
| US8447065B2 (en) | Method of facial image reproduction and related device | |
| US8935169B2 (en) | Electronic apparatus and display process | |
| WO2015101247A1 (en) | Multimedia processing method and multimedia apparatus | |
| JP2012014394A (en) | User instruction acquisition device, user instruction acquisition program and television receiver | |
| US11871084B2 (en) | Systems and methods for displaying subjects of a video portion of content | |
| EP3223516A1 (en) | Information processing method, video processing device, and program | |
| CN114339391A (en) | Video data processing method, video data processing device, computer equipment and storage medium | |
| Petridis et al. | Audiovisual laughter detection based on temporal features | |
| JP2009278202A (en) | Video editing device, its method, program, and computer-readable recording medium | |
| US8437611B2 (en) | Reproduction control apparatus, reproduction control method, and program | |
| JP2003109022A (en) | System and method for producing book | |
| JP2007101945A (en) | Video data processing apparatus with audio, video data processing method with audio, and video data processing program with audio | |
| CN118590714B (en) | Visual media data processing method, program product, storage medium and electronic device | |
| KR101985669B1 (en) | Apparatus and method for generating of cartoon using video | |
| CN118158453A (en) | Multi-person conversation video generation method, device, electronic device and storage medium | |
| CN116229937B (en) | Audio synthesis methods, apparatus, equipment and computer storage media | |
| JP2022015167A (en) | Image processing device and image processing method | |
| JP2006154531A (en) | Audio speed conversion device, audio speed conversion method, and audio speed conversion program | |
| JP7661044B2 (en) | SYSTEM AND METHOD FOR DISPLAYING SUBJECTS OF CONTENT - Patent application | |
| KR20120029247A (en) | Apparatus and method for detecting output error of audiovisual information of video contents | |
| JP5302855B2 (en) | Representative still image extraction apparatus and program thereof | |
| HK40072262B (en) | Video data processing method, device, computer equipment and storage medium |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100309 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100322 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130409 Year of fee payment: 3 |
|
| R151 | Written notification of patent or utility model registration |
Ref document number: 4488091 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130409 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140409 Year of fee payment: 4 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |