Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7552155B2 - Image processing device, image processing method, and model generation device - Google Patents
[go: Go Back, main page]

JP7552155B2 - Image processing device, image processing method, and model generation device - Google Patents

Image processing device, image processing method, and model generation device Download PDF

Info

Publication number
JP7552155B2
JP7552155B2 JP2020145474A JP2020145474A JP7552155B2 JP 7552155 B2 JP7552155 B2 JP 7552155B2 JP 2020145474 A JP2020145474 A JP 2020145474A JP 2020145474 A JP2020145474 A JP 2020145474A JP 7552155 B2 JP7552155 B2 JP 7552155B2
Authority
JP
Japan
Prior art keywords
scene
model
characteristic
highlight
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020145474A
Other languages
Japanese (ja)
Other versions
JP2022040665A (en
Inventor
崇 日昔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JVCKenwood Corp
Original Assignee
JVCKenwood Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JVCKenwood Corp filed Critical JVCKenwood Corp
Priority to JP2020145474A priority Critical patent/JP7552155B2/en
Publication of JP2022040665A publication Critical patent/JP2022040665A/en
Application granted granted Critical
Publication of JP7552155B2 publication Critical patent/JP7552155B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本発明は、映像処理装置、映像処理方法、及びモデル生成装置に関する。 The present invention relates to a video processing device, a video processing method, and a model generation device.

従来よりハイライトシーンを生成する発明が知られている(特許文献1)。特許文献1に記載された発明は、歓声の音量が所定値より大きい場合、そのシーンをハイライトシーンとして生成する。 An invention that generates highlight scenes has been known for some time (Patent Document 1). The invention described in Patent Document 1 generates a scene as a highlight scene if the volume of cheers is greater than a predetermined value.

特開2012-147296号公報JP 2012-147296 A

しかしながら、歓声が大きい場合であっても選手を映していないシーンがあり、そのようなシーンはハイライトシーンとして必ずしも適切ではない。 However, there are scenes where the players are not visible even when the cheers are loud, and such scenes are not necessarily suitable as highlight scenes.

本発明は、上記問題に鑑みて成されたものであり、その目的は、適切なハイライトシーンを生成可能な映像処理装置、映像処理方法、及びモデル生成装置を提供することである。 The present invention has been made in consideration of the above problems, and its purpose is to provide a video processing device, a video processing method, and a model generation device that are capable of generating appropriate highlight scenes.

本発明の一態様に係る映像処理装置は、スポーツ映像から特徴のある動作または特徴のある音声が含まれる基準シーンを抽出する抽出部と、抽出部によって抽出された基準シーンを基準として、第1所定時間だけ戻った第1シーンから第2所定時間だけ進んだ第2シーンまでを含むシーンをハイライトシーンとして生成する生成部とを備える。 A video processing device according to one aspect of the present invention includes an extraction unit that extracts a reference scene including a characteristic action or a characteristic sound from a sports video, and a generation unit that generates, as a highlight scene, a scene including a first scene going back a first predetermined time to a second scene going forward a second predetermined time based on the reference scene extracted by the extraction unit.

本発明によれば、適切なハイライトシーンの生成が可能となる。 The present invention makes it possible to generate appropriate highlight scenes.

図1は、本発明の本実施形態に係る映像処理装置10及びモデル生成装置50の概略構成図である。FIG. 1 is a schematic diagram showing the configuration of a video processing device 10 and a model generating device 50 according to the present embodiment of the present invention. 図2は、ハイライトシーン抽出方法の一例を説明する図である。FIG. 2 is a diagram for explaining an example of a highlight scene extraction method. 図3は、ハイライトシーン抽出方法の他の例を説明する図である。FIG. 3 is a diagram for explaining another example of the highlight scene extraction method. 図4は、本発明の本実施形態に係る映像処理装置10の一動作例を説明するフローチャートである。FIG. 4 is a flowchart illustrating an example of the operation of the video processing device 10 according to the present embodiment of the present invention.

以下、本発明の実施形態について、図面を参照して説明する。図面の記載において同一部分には同一符号を付して説明を省略する。 Embodiments of the present invention will be described below with reference to the drawings. In the description of the drawings, identical parts are given the same reference numerals and the description will be omitted.

(映像処理装置の構成例)
映像処理装置10は、ハイライトシーンを抽出し、抽出したハイライトシーンをハイライト映像として生成する装置である。ハイライトシーンが複数存在する場合、複数のハイライトシーンをつなげたものがハイライト映像となる。本実施形態においてハイライトシーンとは、いわゆるスポーツの見どころを意味し、典型的にはスポーツの得点シーンである。ただしスポーツによっては得点シーンがないスポーツもある(例えば相撲)。得点シーンがない相撲においてハイライトシーンとは力士の技が決まったシーンなどが該当する。本実施形態では映像処理装置10はモデル生成装置50とは異なる装置として説明するが、モデル生成装置50が有する一部の機能またはすべての機能は映像処理装置10に組み込まれてもよい。
(Example of configuration of video processing device)
The video processing device 10 is a device that extracts highlight scenes and generates a highlight video from the extracted highlight scenes. When there are multiple highlight scenes, the highlight video is a combination of the multiple highlight scenes. In this embodiment, the highlight scene refers to the highlight of a sport, typically a score scene. However, some sports do not have a score scene (e.g., sumo). In sumo, where there are no score scenes, a highlight scene corresponds to a scene where a wrestler executes a technique. In this embodiment, the video processing device 10 is described as a device different from the model generation device 50, but some or all of the functions of the model generation device 50 may be incorporated into the video processing device 10.

図1を参照して、映像処理装置10及びモデル生成装置50の構成の一例について説明する。まず最初に映像処理装置10について説明する。図1に示すように映像処理装置10は、記憶装置11と、制御部12と、インターフェース13とを備える。 An example of the configuration of the video processing device 10 and the model generating device 50 will be described with reference to FIG. 1. First, the video processing device 10 will be described. As shown in FIG. 1, the video processing device 10 includes a storage device 11, a control unit 12, and an interface 13.

記憶装置11は、映像取得機器20によって取得されたコンテンツを録画または記録する装置であり、典型的にはレコーダーである。このようなレコーダーは一例としてHDD(Hard Disk Drive)、またはSSD(Solid State Drive)から構成される。なお記憶装置11としてクラウドコンピューティングを利用したクラウドストレージが用いられてもよい。したがって映像処理装置10は必ずしも記憶装置11を備える必要はない。 The storage device 11 is a device that records or saves the content acquired by the video acquisition device 20, and is typically a recorder. As an example, such a recorder is composed of a HDD (Hard Disk Drive) or an SSD (Solid State Drive). Note that cloud storage using cloud computing may be used as the storage device 11. Therefore, the video processing device 10 does not necessarily need to include the storage device 11.

映像取得機器20は一例としてテレビ番組を取得する装置であり、典型的にはテレビである。また映像取得機器20は、インターネット回線を通じて映像コンテンツを取得するスマートフォン、タブレット端末、パーソナルコンピュータ、ゲーム機であってもよい。テレビ番組もしくは映像コンテンツにはスポーツ中継、ドラマ、映画、ドキュメンタリー、アニメ、ニュースなどが含まれるところ、本実施形態においてハイライトシーン抽出の対象となるのはスポーツ中継である。スポーツの種類に関して、テレビあるいはインターネット回線を通じて提供されるスポーツであればハイライトシーン抽出の対象となる。テレビあるいはインターネット回線を通じて提供される代表的なスポーツとして、野球、バスケットボール、アメリカンフットボール、アイスホッケー、サッカー、テニス、バレーボール、卓球、ラグビー、クリケット、フェンシング、ゴルフ、相撲などが挙げられる。本実施形態ではスポーツ中継及びスポーツコンテンツを総称してスポーツ映像と表現する。したがってスポーツ映像にはテレビを通じて取得されるスポーツ中継、及びインターネット回線を通じて取得されるスポーツコンテンツが含まれる。ただし説明を簡略化するため、以下ではハイライトシーン抽出の対象をテレビ番組とする。なお映像取得機器20の機能は映像処理装置10に組み込まれてもよい。この場合、映像処理装置10は持ち運びが容易なビデオカメラとして機能しうる。持ち運びが容易なビデオカメラはハンディカメラと呼ばれる場合もある。上述のスポーツ映像には一般的なユーザがビデオカメラで撮影したスポーツ映像も含まれる。 The video acquisition device 20 is, as an example, a device that acquires a television program, and is typically a television. The video acquisition device 20 may also be a smartphone, tablet terminal, personal computer, or game machine that acquires video content through an Internet line. Television programs or video content include sports broadcasts, dramas, movies, documentaries, anime, news, and the like, and in this embodiment, the target of highlight scene extraction is sports broadcasts. Regarding the type of sport, any sport provided through television or an Internet line is the target of highlight scene extraction. Representative sports provided through television or an Internet line include baseball, basketball, American football, ice hockey, soccer, tennis, volleyball, table tennis, rugby, cricket, fencing, golf, and sumo. In this embodiment, sports broadcasts and sports content are collectively referred to as sports video. Therefore, sports video includes sports broadcasts acquired through television and sports content acquired through an Internet line. However, to simplify the explanation, the target of highlight scene extraction is a television program in the following. The functions of the video acquisition device 20 may be incorporated into the video processing device 10. In this case, the video processing device 10 can function as a video camera that is easy to carry. Video cameras that are easy to carry are sometimes called handy cameras. The sports footage mentioned above also includes sports footage shot by ordinary users with video cameras.

インターフェース13は一例として、ネットワークアダプタなどのハードウェア、通信用ソフトウェア、あるいはこれらの組み合わせとして実装され、有線または無線の通信を実現できるように構成されている。またインターフェース13はデータを送受信するための入力部及び出力部としての機能を有する。 As an example, the interface 13 is implemented as hardware such as a network adapter, communication software, or a combination of these, and is configured to realize wired or wireless communication. The interface 13 also functions as an input unit and an output unit for transmitting and receiving data.

インターフェース13はユーザ端末30との通信、及びネットワーク40を介したモデル生成装置50との通信に用いられる。ユーザ端末30はユーザによって操作される装置であり、典型的にはレコーダーを操作するためのリモコンである。ただしユーザ端末30はリモコンに限定されない。ユーザ端末30はスマートフォン、タブレット端末、パーソナルコンピュータ、ゲーム機であってもよい。本実施形態ではユーザ端末30をリモコンとして説明する。ネットワーク40は、無線または有線の何れかの方式、あるいは両方の方式によって構成されてもよく、ネットワーク40にはインターネットが含まれてもよい。本実施形態では、映像処理装置10とモデル生成装置50は無線通信方式によってネットワーク40と接続する。 The interface 13 is used for communication with the user terminal 30 and with the model generating device 50 via the network 40. The user terminal 30 is a device operated by a user, and is typically a remote control for operating a recorder. However, the user terminal 30 is not limited to a remote control. The user terminal 30 may be a smartphone, a tablet terminal, a personal computer, or a game console. In this embodiment, the user terminal 30 is described as a remote control. The network 40 may be configured using either a wireless or wired system, or both systems, and the network 40 may include the Internet. In this embodiment, the video processing device 10 and the model generating device 50 are connected to the network 40 using a wireless communication system.

ユーザはリモコン(ユーザ端末30)を操作してハイライトシーンを抽出したいスポーツ中継番組を選択する。すなわち本実施形態において、ハイライトシーンを抽出したいスポーツ中継番組は記憶装置11に録画されていることが前提となる。ユーザがリモコンを操作してハイライトシーンを抽出したいスポーツ中継番組を選択したとき、リモコンから送信された信号はインターフェース13を介して制御部12に出力される。制御部12は受信した信号に基づいてユーザによって選択されたスポーツ中継番組のハイライトシーンを抽出する。 The user operates the remote control (user terminal 30) to select a live sports broadcast program from which they wish to extract highlight scenes. In other words, in this embodiment, it is assumed that the live sports broadcast program from which they wish to extract highlight scenes has been recorded in the storage device 11. When the user operates the remote control to select a live sports broadcast program from which they wish to extract highlight scenes, the signal transmitted from the remote control is output to the control unit 12 via the interface 13. The control unit 12 extracts highlight scenes from the live sports broadcast program selected by the user based on the received signal.

制御部12は、CPU(Central Processing Unit)、メモリ、及び入出力部などを備える汎用のマイクロコンピュータである。CPU、メモリ、入出力部などは図示しないバスを介して電気的に接続されている。マイクロコンピュータには、映像処理装置10として機能させるためのコンピュータプログラムがインストールされている。コンピュータプログラムを実行することにより、マイクロコンピュータは映像処理装置10が備える複数の情報処理回路として機能する。なおここではソフトウェアによって映像処理装置10が備える複数の情報処理回路を実現する例を示すが、もちろん、以下に示す各情報処理を実行するための専用のハードウェアを用意して情報処理回路を構成することも可能である。また、複数の情報処理回路を個別のハードウェアにより構成してもよい。制御部12は、複数の情報処理回路として、映像分析部14と、ハイライト抽出部17を備える。また映像分析部14は競技特定部15と、特徴検出部16とに分類される。 The control unit 12 is a general-purpose microcomputer equipped with a CPU (Central Processing Unit), a memory, an input/output unit, and the like. The CPU, memory, input/output unit, and the like are electrically connected via a bus (not shown). A computer program for functioning as the video processing device 10 is installed in the microcomputer. By executing the computer program, the microcomputer functions as multiple information processing circuits equipped in the video processing device 10. Note that here, an example is shown in which multiple information processing circuits equipped in the video processing device 10 are realized by software, but it is of course possible to configure the information processing circuits by preparing dedicated hardware for executing each information process shown below. In addition, the multiple information processing circuits may be configured by individual hardware. The control unit 12 is equipped with a video analysis unit 14 and a highlight extraction unit 17 as multiple information processing circuits. The video analysis unit 14 is further classified into a competition identification unit 15 and a feature detection unit 16.

競技特定部15は、ユーザ端末30から発信された信号を受信したとき、ユーザによって選択されたスポーツ中継番組(競技)の種類を特定する。特定方法の一例を説明する。記憶装置11にスポーツ中継番組が録画されたときに、録画されたスポーツ中継番組の種類を示すタグ情報が同時に記憶される場合がある。このような場合競技特定部15はタグ情報を参照することによりスポーツ中継番組の種類を特定することが可能となる。あるいは競技特定部15はスポーツ中継番組の映像を分析しスポーツ中継番組の種類を特定してもよい。例えばコートまたはグラウンドにラインが引かれている場合、3ポイントラインが検出されればバスケットボール、センターサークル及びペナルティボックスが検出されればサッカーという特定が可能である。またユニフォームの形状、競技に使用されるボールの形状、選手の人数などからも特定が可能である。競技特定部15は特定したスポーツ中継番組の種類を特徴検出部16に出力する。 When the sport identification unit 15 receives a signal transmitted from the user terminal 30, it identifies the type of sports broadcast program (sport) selected by the user. An example of the identification method will be described. When a sports broadcast program is recorded in the storage device 11, tag information indicating the type of the recorded sports broadcast program may be stored at the same time. In such a case, the sport identification unit 15 can identify the type of sports broadcast program by referring to the tag information. Alternatively, the sport identification unit 15 may analyze the video of the sports broadcast program to identify the type of sports broadcast program. For example, if lines are drawn on the court or ground, if a three-point line is detected, it can be identified as basketball, and if a center circle and a penalty box are detected, it can be identified as soccer. It can also be identified from the shape of the uniform, the shape of the ball used in the game, the number of players, etc. The sport identification unit 15 outputs the identified type of sports broadcast program to the feature detection unit 16.

特徴検出部16は、ユーザによって選択されたスポーツ中継番組を分析し、特徴のある表情、特徴のある動作、及び特徴のある音声を検出する。特徴のある表情、特徴のある動作の検出には周知の映像認識技術が用いられる。映像認識技術の一例としてモデル(テンプレート)を用いたテンプレートマッチングが挙げられる。テンプレートマッチングとはモデルの位置及び大きさを変えながらマッチングを行い、類似度の高いシーンを検出する技術である。類似度の指標にはSSD(Sum of Squared Difference)、SAD(Sum of Absolute Difference)などが用いられる。これらは周知技術であるため詳細な説明は省略する。 The feature detection unit 16 analyzes the live sports program selected by the user and detects distinctive facial expressions, distinctive actions, and distinctive sounds. Well-known video recognition technology is used to detect distinctive facial expressions and distinctive actions. One example of video recognition technology is template matching using a model (template). Template matching is a technology that detects scenes with high similarity by changing the position and size of a model. As an index of similarity, SSD (Sum of Squared Difference), SAD (Sum of Absolute Difference), etc. are used. These are well-known technologies, so detailed explanations are omitted.

特徴のある表情とは一例として選手の喜びの表情である。特徴のある動作とは、選手のガッツポーズ、選手が手を挙げて観客に応えている動作、選手同士のハイタッチ、選手の拍手もしくは観客の拍手などが挙げられる。すなわち特徴のある動作とは喜びを示す動作である。特徴のある音声の検出には周知の音声認識技術が用いられる。特徴のある音声とは一例として「やったー」、「come on」などの選手が得点した際の特定の文言が挙げられる。あるいは所定以上の音量を有する音声も特徴のある音声に含まれる。 An example of a distinctive facial expression is a player's facial expression of joy. Examples of distinctive actions include a player's fist pump, a player raising his hand to respond to the audience, high-fiving other players, and applause by the players or the audience. In other words, distinctive actions are actions that show joy. Well-known voice recognition technology is used to detect distinctive sounds. Examples of distinctive sounds include specific phrases such as "Yay!" and "Come on" that are uttered when a player scores. Alternatively, distinctive sounds also include sounds with a volume above a certain level.

特徴のある表情、及び特徴のある動作のモデルはモデル生成装置50によって生成される。詳細は後述するが、モデル生成装置50は一例としてディープラーニングを用いて特徴のある表情、及び特徴のある動作のモデルを生成する。 The models of characteristic facial expressions and characteristic movements are generated by the model generation device 50. As will be described in detail later, the model generation device 50 generates models of characteristic facial expressions and characteristic movements by using deep learning as an example.

特徴検出部16は、スポーツ中継番組を所定時間ごとに区切って分析する。例えばスポーツ中継番組がサッカーである場合、前半戦であれば試合時間は45分であるから、特徴検出部16は映像を5分単位で分割し、9つのパートに分けて分析する。特徴検出部16はテンプレートマッチング及び音声認識技術を用いて検出した特徴のある表情、特徴のある動作、及び特徴のある音声をハイライト抽出部17に出力する。なお5分という時間は一例であってコンピュータの性能などに応じて適宜変更されうる。 The feature detection unit 16 analyzes a sports broadcast program by dividing it into predetermined time intervals. For example, if the sports broadcast program is about soccer, the first half of the match lasts 45 minutes, so the feature detection unit 16 divides the video into five-minute intervals and analyzes each part into nine parts. The feature detection unit 16 outputs characteristic facial expressions, characteristic actions, and characteristic sounds detected using template matching and voice recognition technology to the highlight extraction unit 17. Note that five minutes is just an example and can be changed as appropriate depending on the performance of the computer, etc.

ハイライト抽出部17(抽出部、生成部)は、特徴検出部16によって検出された特徴のある表情、特徴のある動作、及び特徴のある音声を含むシーン(以下基準シーンと呼ぶ場合がある)とその前後のシーンをハイライトシーンとして抽出する。前後のシーンとは基準シーンを基準として、第1所定時間だけ戻った第1シーンから第2所定時間だけ進んだ第2シーンまでを含むシーンと定義される。ハイライト抽出部17は抽出したハイライトシーンをハイライト映像として記憶装置11に記憶する。なおハイライトシーンが複数抽出された場合、ハイライト抽出部17は複数のハイライトシーンをつなげて1つのハイライト映像を生成する。 The highlight extraction unit 17 (extraction unit, generation unit) extracts a scene (hereinafter sometimes referred to as a reference scene) containing a characteristic facial expression, characteristic action, and characteristic sound detected by the feature detection unit 16 as a highlight scene, as well as the scenes before and after it. The scenes before and after it are defined as scenes including a first scene that goes back a first predetermined time from the reference scene to a second scene that goes forward a second predetermined time from the reference scene. The highlight extraction unit 17 stores the extracted highlight scene as a highlight video in the storage device 11. Note that if multiple highlight scenes are extracted, the highlight extraction unit 17 connects the multiple highlight scenes to generate one highlight video.

ハイライト映像が記憶装置11に記憶されたとき、映像処理装置10はインターフェース13を介してハイライト映像の生成が完了した旨をユーザに伝えてもよい。これによりユーザはハイライト映像を楽しむことができる。 When the highlight video is stored in the storage device 11, the video processing device 10 may inform the user via the interface 13 that the generation of the highlight video is complete. This allows the user to enjoy the highlight video.

次にモデル生成装置50について説明する。図1に示すようにモデル生成装置50は、サーバ51と、制御部52と、記憶装置55と、インターフェース56とを備える。モデル生成装置50の設置場所は特に限定されないが、例えばモデル生成装置50は、モデル生成装置50を管理する事業者が保有する管理センタに設置される。 Next, the model generating device 50 will be described. As shown in FIG. 1, the model generating device 50 includes a server 51, a control unit 52, a storage device 55, and an interface 56. The location where the model generating device 50 is installed is not particularly limited, but for example, the model generating device 50 is installed in a management center owned by the business operator that manages the model generating device 50.

サーバ51には過去のスポーツ中継番組及びスポーツコンテンツが多数記憶されている。またサーバ51には今後放送されるスポーツ中継番組及びスポーツコンテンツも記憶される。なお記憶媒体として機能する構造物であればサーバでなくてもよい。記憶媒体として機能する構造物として、カセットテープ、CD-ROM、DVD-ROM、BLU-RAYディスクなどが挙げられる。 Server 51 stores a large number of past live sports broadcasts and sports content. Server 51 also stores live sports broadcasts and sports content to be broadcast in the future. Note that any structure that functions as a storage medium does not have to be a server. Examples of structures that function as storage media include cassette tapes, CD-ROMs, DVD-ROMs, and BLU-RAY discs.

制御部52は制御部12と同様に汎用のマイクロコンピュータである。制御部52は複数の情報処理回路として、映像取得部53と、モデル生成部54を備える。 The control unit 52 is a general-purpose microcomputer, similar to the control unit 12. The control unit 52 has a video acquisition unit 53 and a model generation unit 54 as multiple information processing circuits.

映像取得部53はサーバ51から過去に記憶されたスポーツ中継番組及びスポーツコンテンツを取得する。映像取得部53は取得したスポーツ中継番組及びスポーツコンテンツをモデル生成部54に出力する。 The video acquisition unit 53 acquires previously stored sports broadcast programs and sports content from the server 51. The video acquisition unit 53 outputs the acquired sports broadcast programs and sports content to the model generation unit 54.

モデル生成部54は映像取得部53から取得したスポーツ中継番組及びスポーツコンテンツを分析してモデルを生成する。ここでいうモデルは上述したように特徴のある表情のモデル、及び特徴のある動作のモデルである。これらのモデルが映像認識技術で用いられる。モデルの生成には周知のAI技術が用いられる。AI技術の一例としてディープラーニングが用いられる。ディープラーニングではニューラルネットワークを利用して大量の映像データ(スポーツ中継番組及びスポーツコンテンツに係るデータ)から特徴量(特徴のある表情、特徴のある動作)を抽出する。これにより多くのスポーツで共通する喜びの表情、ガッツポーズといった特徴に加えて、スポーツごとにそのスポーツ独特の動作の特徴を抽出することが可能となる。音声についても同様である。またディープラーニングでは入力された音声データの音の強弱、周波数、音量、特定の言葉などの特徴量を抽出し音声モデルが生成される。スポーツ映像がニューラルネットワークに入力されるとき、スポーツ映像は競技ごとに分類され、分類された映像がニューラルネットワークに入力される。ニューラルネットワークによって分類された映像が学習され競技ごとに特徴のある表情のモデル、特徴のある動作のモデル、及び特徴のある音声のモデルが生成される。このようにして生成されたモデルは記憶装置55に記憶される。なお以下ではモデル生成部54によって生成された特徴のある表情を示すモデルを表情モデル、特徴のある動作を示すモデルを動作モデル、特徴のある音声のモデルを音声モデルと呼ぶ場合がある。 The model generation unit 54 generates a model by analyzing the sports broadcast program and sports content acquired from the video acquisition unit 53. The models referred to here are models of characteristic facial expressions and models of characteristic movements, as described above. These models are used in video recognition technology. Well-known AI technology is used to generate the model. Deep learning is used as an example of AI technology. In deep learning, neural networks are used to extract features (characteristic facial expressions, characteristic movements) from large amounts of video data (data related to sports broadcast programs and sports content). This makes it possible to extract the characteristics of movements unique to each sport, in addition to features such as facial expressions of joy and fist pumps that are common to many sports. The same is true for audio. In deep learning, audio models are generated by extracting features such as the strength, frequency, volume, and specific words of the input audio data. When sports videos are input to the neural network, the sports videos are classified by sport, and the classified videos are input to the neural network. The classified videos are learned by the neural network, and a model of characteristic facial expressions, a model of characteristic movements, and a model of characteristic voice are generated for each sport. The models generated in this manner are stored in the storage device 55. Note that, below, a model showing a distinctive facial expression generated by the model generation unit 54 may be referred to as a facial expression model, a model showing a distinctive action may be referred to as a action model, and a model showing a distinctive voice may be referred to as a voice model.

モデル生成装置50はネットワーク40を介してモデルを映像処理装置10に送信する。送信されたモデルは記憶装置11に記憶される。記憶装置11に記憶されたモデルはハイライトシーンを抽出する際に呼び出される。 The model generating device 50 transmits the model to the video processing device 10 via the network 40. The transmitted model is stored in the storage device 11. The model stored in the storage device 11 is called up when extracting highlight scenes.

次に、図2~3を参照してハイライトシーン抽出方法の一例を説明する。図2~3において競技はサッカーである。 Next, an example of a highlight scene extraction method will be described with reference to Figures 2 and 3. In Figures 2 and 3, the sport is soccer.

図2に示す横軸はサッカーの試合時間である。図2において、試合が開始して30分の時点で得点がうまれ、30分5秒の時点で得点した選手がガッツポーズし、観客の歓声が大きくなっている。このようなシーンを有するサッカー中継番組において、ユーザがハイライトシーン抽出を希望したとする。上述したようにユーザの希望はリモコンによって操作される。 The horizontal axis in Figure 2 represents the duration of a soccer match. In Figure 2, a goal is scored 30 minutes into the match, and at 30 minutes and 5 seconds, the player who scored pumps his fist in celebration, and the crowd starts cheering louder. In a soccer broadcast program that includes such scenes, let's say that the user wishes to extract a highlight scene. As mentioned above, the user's wishes are expressed by operating the remote control.

まず最初に競技特定部15は、リモコンから発信された信号を受信したとき、ユーザによって選択されたスポーツ中継番組(競技)の種類を特定する。ここではサッカーが特定されたとする。次に特徴検出部16は、記憶装置11を参照してサッカーに関する表情モデル、動作モデル、音声モデルを取得する。特徴検出部16はサッカー中継番組を所定時間ごとに区切って分析を開始する。ここでは25分~35分までが区切られた1つのパートとする。特徴検出部16は25分~35分の映像において、表情モデル、動作モデル、音声モデルと一致するあるいは類似するシーンがないか分析する。分析の結果、特徴検出部16は30分5秒のシーンにおいて、選手の喜びの表情、選手のガッツポーズ、所定以上の音量を有する音声(歓声)を検出する。 First, when the sport identification unit 15 receives a signal sent from the remote control, it identifies the type of sports broadcast program (sport) selected by the user. In this case, it is assumed that soccer has been identified. Next, the feature detection unit 16 refers to the storage device 11 to obtain facial expression models, movement models, and voice models related to soccer. The feature detection unit 16 divides the soccer broadcast program into predetermined time segments and begins its analysis. In this case, it is assumed that one part is from 25 minutes to 35 minutes. The feature detection unit 16 analyzes the 25-35 minute video to see if there are any scenes that match or are similar to the facial expression models, movement models, and voice models. As a result of the analysis, the feature detection unit 16 detects the players' happy facial expressions, players' fist pumps, and voices (cheering) with a volume above a predetermined volume in the 30 minute 5 second scene.

ハイライト抽出部17は30分5秒のシーンを基準として、第1所定時間だけ戻った第1シーンから第2所定時間だけ進んだ第2シーンまでを含むシーンを抽出する。図2に示す例では第1所定時間は10秒であり、第1シーンは29分55秒時点のシーンである。第2所定時間は5秒であり、第2シーンは30分10秒時点のシーンである。図2に示す例ではハイライトシーンは15秒となる。 The highlight extraction unit 17 uses the scene at 30 minutes and 5 seconds as a reference and extracts scenes including a first scene going back a first predetermined time to a second scene going forward a second predetermined time. In the example shown in FIG. 2, the first predetermined time is 10 seconds, and the first scene is the scene at 29 minutes and 55 seconds. The second predetermined time is 5 seconds, and the second scene is the scene at 30 minutes and 10 seconds. In the example shown in FIG. 2, the highlight scene is 15 seconds.

サッカーで選手が得点した場合、その後のシーンとして、得点した選手が喜んでいるシーン、得点した選手がガッツポーズしているシーン、大きな歓声が上がったシーンが挙げられる。本実施形態によれば、得点シーンが発生した後のシーンの特徴を検出し、そのシーンの前後のシーンを含むシーンをハイライトシーンとして生成する。これにより、得点シーンそのものを抽出することなく、得点シーンを含むシーンをハイライトシーンとして生成することが可能となる。また音声の他に選手の表情及び選手の動作も考慮してハイライトシーンが生成されるため、従来技術と比較して適切なハイライトシーンの生成が可能となる。 When a soccer player scores a goal, subsequent scenes may include the player celebrating, the player pumping his fist in celebration, and loud cheers. According to this embodiment, the characteristics of the scene after the goal is detected, and a scene including the scenes before and after the goal is generated as a highlight scene. This makes it possible to generate a scene including the goal scene as a highlight scene without extracting the goal scene itself. Furthermore, since the highlight scene is generated taking into account the player's facial expressions and movements in addition to the sound, it is possible to generate a more appropriate highlight scene than with conventional technology.

なお、特徴検出部16は表情モデル、動作モデル、音声モデルが時間差なく一致するあるいは類似するシーンを抽出する。ただしある程度の時間差は許容されてもよい。許容される時間差は特に限定されないが、例えば1~2秒の範囲で設定されてもよい。 The feature detection unit 16 extracts scenes in which the facial expression model, movement model, and voice model match or are similar without any time difference. However, a certain degree of time difference may be tolerated. The tolerated time difference is not particularly limited, but may be set to a range of 1 to 2 seconds, for example.

図2に示す例では基準シーンの前後のシーンを含むようにしたがこれに限定されない。例えば図3に示すように基準シーンから第1所定時間(10秒)だけ戻った第1シーンまでをハイライトシーンとして抽出してもよい。この場合であっても得点シーンそのものを抽出することなく、得点シーンを含むシーンをハイライトシーンとして抽出することが可能となる。 In the example shown in FIG. 2, the scenes before and after the reference scene are included, but this is not limiting. For example, as shown in FIG. 3, a first scene that is a first predetermined time (10 seconds) back from the reference scene may be extracted as a highlight scene. Even in this case, it is possible to extract a scene that includes a scoring scene as a highlight scene, without extracting the scoring scene itself.

次に、図4のフローチャートを参照して、映像処理装置10の一動作例を説明する。 Next, an example of the operation of the video processing device 10 will be described with reference to the flowchart in FIG.

ステップS101において、制御部12がユーザ端末30から発信された信号を受信したとき(ステップS101でYES)、処理はステップS103に進む。ユーザ端末30から信号が発信されていないとき(ステップS101でNO)、処理は待機する。 In step S101, when the control unit 12 receives a signal transmitted from the user terminal 30 (YES in step S101), the process proceeds to step S103. When no signal is transmitted from the user terminal 30 (NO in step S101), the process waits.

ステップS103において、競技特定部15はユーザによって選択されたスポーツ中継番組を記憶装置11から取得し、スポーツ中継番組の種類を特定する。ここではスポーツ中継番組の種類がサッカーであると特定されたとする。処理はステップS105に進み、特徴検出部16は記憶装置11を参照してサッカーに関する表情モデル、動作モデル、音声モデルを取得する。 In step S103, the sport identification unit 15 retrieves the sports broadcast program selected by the user from the storage device 11 and identifies the type of sports broadcast program. In this example, it is assumed that the type of sports broadcast program is identified as soccer. Processing proceeds to step S105, where the feature detection unit 16 refers to the storage device 11 to retrieve a facial expression model, a movement model, and a voice model related to soccer.

処理はステップS107に進み、特徴検出部16はサッカー中継番組を所定時間ごとに区切って分析を開始する。特徴検出部16は区切られたそれぞれのパートにおいて周知の映像認識技術及び音声認識技術を用いて表情モデル、動作モデル、音声モデルと一致するあるいは類似するシーンがないか分析する。 The process proceeds to step S107, where the feature detection unit 16 divides the soccer broadcast program into predetermined time segments and begins analyzing it. The feature detection unit 16 uses well-known video recognition and voice recognition technologies to analyze each divided part to see if there are any scenes that match or are similar to the facial expression model, movement model, or voice model.

処理はステップS109に進み、表情モデル、動作モデル、音声モデルと一致するあるいは類似するシーンが検出されたとき、そのシーンを基準シーンとして抽出する。ハイライト抽出部17は基準シーンを基準として、第1所定時間だけ戻った第1シーンから第2所定時間だけ進んだ第2シーンまでを含むシーンを抽出する。これによりハイライトシーンが抽出される。処理はステップS111に進み、ハイライト抽出部17は抽出したハイライトシーンをハイライト映像として記憶装置11に記憶する。 The process proceeds to step S109, where when a scene that matches or is similar to the facial expression model, movement model, and voice model is detected, that scene is extracted as a reference scene. The highlight extraction unit 17 uses the reference scene as a reference and extracts scenes including a first scene that goes back a first predetermined time to a second scene that goes forward a second predetermined time. This results in the extraction of a highlight scene. The process proceeds to step S111, where the highlight extraction unit 17 stores the extracted highlight scene in the storage device 11 as a highlight video.

(作用効果)
以上説明したように、本実施形態に係る映像処理装置10によれば、以下の作用効果が得られる。
(Action and Effect)
As described above, the image processing device 10 according to the present embodiment provides the following advantageous effects.

映像処理装置10はスポーツ映像から特徴のある動作及び特徴のある音声が含まれる基準シーンを抽出し、抽出された基準シーンを基準として第1所定時間だけ戻った第1シーンから第2所定時間だけ進んだ第2シーンまでを含むシーンをハイライトシーンとして生成する。本実施形態によれば、得点シーンが発生した後のシーンの特徴を検出し、そのシーンの前後のシーンを含むシーンをハイライトシーンとして生成する。これにより、得点シーンそのものを抽出することなく、得点シーンを含むシーンをハイライトシーンとして生成することが可能となる。また音声の他に選手の表情及び選手の動作も考慮してハイライトシーンが生成されるため、従来技術と比較して適切なハイライトシーンの生成が可能となる。なお上述の実施形態では特徴のある動作と特徴のある音声の両方を用いたが、必ずしもこれに限定されない。映像処理装置10はスポーツ映像から特徴のある動作または特徴のある音声のどちらか一方が含まれる基準シーンを抽出し、ハイライトシーンを生成してもよい。 The video processing device 10 extracts a reference scene including a characteristic action and a characteristic sound from a sports video, and generates a highlight scene including a first scene that goes back a first predetermined time based on the extracted reference scene to a second scene that goes forward a second predetermined time. According to this embodiment, the characteristics of a scene after a scoring scene are detected, and a highlight scene including scenes before and after the scene is generated. This makes it possible to generate a highlight scene including a scoring scene without extracting the scoring scene itself. In addition to the sound, the highlight scene is generated taking into account the player's facial expression and the player's action, making it possible to generate a more appropriate highlight scene than with conventional technology. Note that in the above embodiment, both a characteristic action and a characteristic sound are used, but this is not necessarily limited to this. The video processing device 10 may extract a reference scene including either a characteristic action or a characteristic sound from a sports video, and generate a highlight scene.

上述の実施形態に記載される各機能は、1または複数の処理回路により実装され得る。処理回路は、電気回路を含む処理装置等のプログラムされた処理装置を含む。処理回路は、また、記載された機能を実行するようにアレンジされた特定用途向け集積回路(ASIC)や回路部品等の装置を含む。 Each of the functions described in the above embodiments may be implemented by one or more processing circuits. Processing circuits include programmed processing devices, such as processors that include electrical circuitry. Processing circuits also include devices, such as application specific integrated circuits (ASICs) or circuit components, arranged to perform the described functions.

上記のように、本発明の実施形態を記載したが、この開示の一部をなす論述及び図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例及び運用技術が明らかとなろう。 As described above, an embodiment of the present invention has been described, but the descriptions and drawings that form part of this disclosure should not be understood as limiting this invention. Various alternative embodiments, examples, and operating techniques will become apparent to those skilled in the art from this disclosure.

得点シーンが発生した後のシーンの他の例として、バスケットボールであればダンクでゴールが壊れたシーン、テニスであればボールボーイがボールを拾ったシーン(ダブルフォルトであれば得点が入ったことになる)、バレーボールであれば選手が円陣を組んだシーンなどが該当する。 Other examples of scenes after a goal has been scored include, in basketball, the goal being broken after a dunk, in tennis, the ball boy picking up the ball (if it is a double fault, a point has been scored), and in volleyball, the players forming a huddle.

ハイライトシーンは得点シーンに限定されない。サッカーであればオフサイドシーン、イエローカードあるいはレッドカードを主審が出したシーン、所定時間以上一人の選手がドリブルを続けるシーンなどもハイライトシーンになりうる。このような得点が絡まないシーンでは選手の喜びの表情は発生しにくいため、生成されるモデルは動作モデル及び音声モデルの2つになる。 Highlight scenes are not limited to scoring scenes. In soccer, highlight scenes can also include offside scenes, scenes in which the referee issues a yellow or red card, or a player continues dribbling for a certain period of time. In such scenes that do not involve scoring, it is difficult for players to show expressions of joy, so two models are generated: a motion model and a voice model.

ハイライトシーン抽出の対象となるスポーツは限定されてもよい。例えば自陣と敵陣に分かれて得点を競うスポーツのみをハイライトシーン抽出の対象としてもよい。自陣と敵陣に分かれて得点を競うスポーツには、サッカー、バスケットボール、アメリカンフットボール、アイスホッケー、テニス、バドミントン、バレーボール、卓球、ラグビー、フットサルなどが含まれる。これらのスポーツにおいても上述で説明したサッカーのように本実施形態によれば得点シーンそのものを抽出することなく、得点シーンを含むシーンをハイライトシーンとして生成することが可能となる。 The sports from which highlight scenes are extracted may be limited. For example, only sports in which players compete for points while splitting into their own half and the opposing half may be the targets for highlight scene extraction. Sports in which players compete for points while splitting into their own half and the opposing half include soccer, basketball, American football, ice hockey, tennis, badminton, volleyball, table tennis, rugby, futsal, and the like. In these sports, as in soccer described above, this embodiment makes it possible to generate scenes including scoring scenes as highlight scenes without extracting the scoring scenes themselves.

もちろんこれらの自陣と敵陣に分かれて得点を競うスポーツにおいてもハイライトシーンは得点シーンに限定されない。アイスホッケーであれば観客席前のアクリル板が割れるシーンはハイライトシーンになりうる。テニス、バドミントン、バレーボールであればチャレンジシーンはハイライトシーンになりうる。これらのシーン及びその前後のシーンを抽出すればハイライトシーンの生成が可能となる。なおチャレンジシーンとは、判定に疑義がある場合にビデオ映像などによる判定の再確認を要求する、いわゆる「チャレンジ」を行ったシーンを意味する。 Of course, even in these sports where players compete for points while splitting into their own half and the opposing half, highlight scenes are not limited to scoring scenes. In ice hockey, a highlight scene could be the scene where the acrylic panel in front of the spectators breaks. In tennis, badminton, and volleyball, a challenge scene could be a highlight scene. Highlight scenes can be generated by extracting these scenes and the scenes before and after them. A challenge scene refers to a scene where a so-called "challenge" is made, in which a player requests reconfirmation of a decision using video footage or other means when there is doubt about the decision.

また試合終了間際もハイライトシーンになりうる。 The final moments of the game can also be a highlight.

モデル生成装置50は、スポーツ中継番組において試合が中断しているときの映像のみを用いて特徴のある表情、特徴のある動作、及び特徴のある音声のモデルを生成してもよい。例えばサッカーであれば試合が中断しているときの映像とは、得点がうまれてから主審が試合開始のホイッスルを鳴らすまでの映像、ファールなどの原因で主審がホイッスルを鳴らしてから再度主審が試合開始のホイッスルを鳴らすまでの映像などである。すなわち競技の試合が中断しているときとは、試合中断の合図を起点としてその後再度試合開始の合図が行われるまでの間と定義されてもよい。また乱闘シーンはすべてのスポーツにおいて試合が中断しているときのシーンである。 The model generation device 50 may generate models of characteristic facial expressions, characteristic actions, and characteristic voices using only footage of when the match is interrupted in a live sports broadcast. For example, in soccer, footage of when the match is interrupted includes footage from when a goal is scored until the referee blows the whistle to start the match, or footage from when the referee blows the whistle due to a foul or other reason until the referee blows the whistle again to start the match. In other words, when a competitive match is interrupted, it may be defined as the period from the signal to stop the match to when the signal to start the match is given again. Also, a fight scene is a scene when the match is interrupted in all sports.

また映像分析の際に、表情モデル、動作モデル、音声モデルとの一致度の検出にさらに追加して、画角の中心に映る選手が一定以上の大きさか否か、画角の中心に映る選手の周りの選手は同じユニフォームを着ているか、グラウンド内かなどを考慮してもよい。 When analyzing video, in addition to detecting the degree of match with the facial expression model, movement model, and voice model, it is also possible to take into account whether the player in the center of the frame is a certain size or larger, whether the players around the player in the center of the frame are wearing the same uniform, whether they are on the field, etc.

上述の実施形態ではユーザによって選択されたスポーツ中継番組のハイライトシーンを抽出したがこれに限定されない。ユーザの指示とは関係なく、記憶装置11にスポーツ中継番組が記憶されていれば制御部12は記憶されているスポーツ中継番組のハイライトシーンを自動的に抽出してもよい。 In the above embodiment, highlight scenes of a live sports program selected by the user are extracted, but this is not limited to the above. Regardless of the user's instructions, if a live sports program is stored in the storage device 11, the control unit 12 may automatically extract highlight scenes of the stored live sports program.

10 映像処理装置
11、55 記憶装置
12、52 制御部
13、56 インターフェース
14 映像分析部
15 競技特定部
16 特徴検出部
17 ハイライト抽出部
20 映像取得機器
30 ユーザ端末
40 ネットワーク
50 モデル生成装置
51 サーバ
53 映像取得部
54 モデル生成部
10 Video processing device 11, 55 Storage device 12, 52 Control unit 13, 56 Interface 14 Video analysis unit 15 Sport identification unit 16 Feature detection unit 17 Highlight extraction unit 20 Video acquisition device 30 User terminal 40 Network 50 Model generation device 51 Server 53 Video acquisition unit 54 Model generation unit

Claims (5)

スポーツ映像から特徴のある動作または特徴のある音声が含まれる基準シーンを抽出する抽出部と、
前記抽出部によって抽出された前記基準シーンを基準として、第1所定時間だけ戻った第1シーンから第2所定時間だけ進んだ第2シーンまでを含むシーンをハイライトシーンとして生成する生成部と、を備え、
前記特徴のある動作または前記特徴のある音声は、前記スポーツ映像に係る競技ごとにモデルとして予め生成されて記憶装置に記憶されており、かつ生成されたモデルは前記競技の試合が中断しているときのモデルであり、
前記抽出部は前記記憶装置に記憶されている前記モデルを用いて前記基準シーンを抽出する
ことを特徴とする映像処理装置。
An extraction unit that extracts a reference scene including a characteristic action or a characteristic sound from a sports video;
a generation unit that generates, as a highlight scene, a scene including a first scene that is a first predetermined time period back to a second scene that is a second predetermined time period forward based on the reference scene extracted by the extraction unit,
the characteristic action or the characteristic sound is generated in advance as a model for each sport related to the sports video and stored in a storage device, and the generated model is a model when the match of the sport is interrupted,
The extraction unit extracts the reference scene using the model stored in the storage device.
13. A video processing device comprising:
前記特徴のある動作とは前記競技の試合が中断しているときの喜びの動作、または競技特有の動作であり、前記特徴のある音声とは特定の文言を含む音声、または所定以上の音量を有する音声であることを特徴とする請求項に記載の映像処理装置。 The video processing device according to claim 1, characterized in that the characteristic action is a joyful action when the match of the sport is interrupted or a action specific to the sport, and the characteristic sound is a sound containing a specific phrase or a sound having a volume equal to or greater than a predetermined volume . 前記競技の試合が中断しているときとは、試合中断の合図を起点としてその後再度試合開始の合図が行われるまでの間を意味することを特徴とする請求項に記載の映像処理装置。 3. The image processing device according to claim 2 , wherein the period during which the competition is interrupted refers to the period from a signal to interrupt the competition to a signal to restart the competition. スポーツ映像から特徴のある動作または特徴のある音声が含まれる基準シーンを抽出し、
抽出された前記基準シーンを基準として、第1所定時間だけ戻った第1シーンから第2所定時間だけ進んだ第2シーンまでを含むシーンをハイライトシーンとして生成する映像処理方法であって、
前記特徴のある動作または前記特徴のある音声は、前記スポーツ映像に係る競技ごとにモデルとして予め生成されて記憶装置に記憶されており、かつ生成されたモデルは前記競技の試合が中断しているときのモデルであり、
前記記憶装置に記憶されている前記モデルを用いて前記基準シーンを抽出する、
ことを特徴とする映像処理方法。
Extracting reference scenes including characteristic actions or characteristic sounds from sports videos;
A video processing method for generating, as highlight scenes, scenes including a first scene that is a first predetermined time period back from the extracted reference scene to a second scene that is a second predetermined time period forward from the extracted reference scene,
the characteristic action or the characteristic sound is generated in advance as a model for each sport related to the sports video and stored in a storage device, and the generated model is a model when the match of the sport is interrupted,
extracting the reference scene using the model stored in the storage device;
23. A video processing method comprising:
請求項1~3いずれか1項に記載の映像処理装置が用いるモデルを生成するモデル生成装置であって、
前記スポーツ映像をディープラーニングを用いて競技ごとに分類し、競技ごとに特徴のある表情を示す表情モデル、特徴のある動作を示す動作モデル、及び特徴のある音声を示す音声モデルをそれぞれ生成するモデル生成部を備えることを特徴とするモデル生成装置。
A model generation device for generating a model used by the video processing device according to any one of claims 1 to 3, comprising:
The model generation device is characterized by having a model generation unit that classifies the sports video by sport using deep learning, and generates, for each sport, a facial expression model that shows characteristic facial expressions , a movement model that shows characteristic movements, and a voice model that shows characteristic voices .
JP2020145474A 2020-08-31 2020-08-31 Image processing device, image processing method, and model generation device Active JP7552155B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020145474A JP7552155B2 (en) 2020-08-31 2020-08-31 Image processing device, image processing method, and model generation device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020145474A JP7552155B2 (en) 2020-08-31 2020-08-31 Image processing device, image processing method, and model generation device

Publications (2)

Publication Number Publication Date
JP2022040665A JP2022040665A (en) 2022-03-11
JP7552155B2 true JP7552155B2 (en) 2024-09-18

Family

ID=80500135

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020145474A Active JP7552155B2 (en) 2020-08-31 2020-08-31 Image processing device, image processing method, and model generation device

Country Status (1)

Country Link
JP (1) JP7552155B2 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001069437A (en) 1999-08-30 2001-03-16 Promenade:Kk Image retrieval method, image reproducing device, retrieval information recording method and retrieval information recording device
JP2004309920A (en) 2003-04-09 2004-11-04 Sony Corp Information processing device and portable terminal device
JP2007336283A (en) 2006-06-15 2007-12-27 Toshiba Corp Information processing apparatus, information processing method, and information processing program
JP2008021225A (en) 2006-07-14 2008-01-31 Sony Corp Image processing apparatus and method, and program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001069437A (en) 1999-08-30 2001-03-16 Promenade:Kk Image retrieval method, image reproducing device, retrieval information recording method and retrieval information recording device
JP2004309920A (en) 2003-04-09 2004-11-04 Sony Corp Information processing device and portable terminal device
JP2007336283A (en) 2006-06-15 2007-12-27 Toshiba Corp Information processing apparatus, information processing method, and information processing program
JP2008021225A (en) 2006-07-14 2008-01-31 Sony Corp Image processing apparatus and method, and program

Also Published As

Publication number Publication date
JP2022040665A (en) 2022-03-11

Similar Documents

Publication Publication Date Title
Merler et al. Automatic curation of sports highlights using multimodal excitement features
JP6249706B2 (en) Information processing apparatus, information processing method, and program
US20230206731A1 (en) Systems and methods for generation of virtual sporting events
JP7613517B2 (en) PROGRAM, INFORMATION PROCESSING APPARATUS, AND INFORMATION PROCESSING METHOD
US20100002137A1 (en) Method and apparatus for generating a summary of a video data stream
US20080269924A1 (en) Method of summarizing sports video and apparatus thereof
JPWO2016098415A1 (en) Information processing apparatus, information processing method, and program
US20080298767A1 (en) Method, medium and apparatus summarizing moving pictures of sports games
JP7314605B2 (en) Display control device, display control method and display control program
CN112312142A (en) Video playing control method and device and computer readable storage medium
JP6427902B2 (en) Extraction program, method, and apparatus
KR102624650B1 (en) A method for detecting sports events and system performing the same
JP2016107001A (en) Extraction program, method, and device
US20260004583A1 (en) Live Possession Value Model
JP7552155B2 (en) Image processing device, image processing method, and model generation device
CN116170651A (en) Method, system and storage medium for generating highlight moment video from video and text input
US20250021546A1 (en) Method, system, and apparatus for updating statistical databases based on sensed movement data
KR102754939B1 (en) Device and method for generating condensed video of sports game
US10200764B2 (en) Determination method and device
Ringis et al. Automated highlight generation from cricket broadcasts using ORB
WO2021240679A1 (en) Video processing device, video processing method, and recording medium
JP2005026837A (en) Sports video index generation device, method thereof, program thereof, sports broadcast announcement data generation device, and sports digest video generation device
CN110314368B (en) Auxiliary method, device, equipment and readable medium for billiard ball hitting
JP7704196B2 (en) Information processing device, information processing method, and program
KR100963744B1 (en) Event learning and detection method of soccer video

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230428

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240430

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240701

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240806

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240819

R150 Certificate of patent or registration of utility model

Ref document number: 7552155

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150