JP7449715B2 - Framing area learning device, framing area estimating device, and programs thereof - Google Patents
Framing area learning device, framing area estimating device, and programs thereof Download PDFInfo
- Publication number
- JP7449715B2 JP7449715B2 JP2020027891A JP2020027891A JP7449715B2 JP 7449715 B2 JP7449715 B2 JP 7449715B2 JP 2020027891 A JP2020027891 A JP 2020027891A JP 2020027891 A JP2020027891 A JP 2020027891A JP 7449715 B2 JP7449715 B2 JP 7449715B2
- Authority
- JP
- Japan
- Prior art keywords
- framing
- camera
- parameter
- unit
- coordinate system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Studio Devices (AREA)
- Image Analysis (AREA)
Description
本発明は、カメラのフレーミングパラメータを学習するフレーミング領域学習装置及びフレーミング領域推定装置、並びに、それらのプログラムに関する。 The present invention relates to a framing area learning device and a framing area estimating device that learn camera framing parameters, and programs thereof.
雲台などの駆動機構に取り付けられたカメラや固定カメラからの切り出しにより自動撮影を行うことは、カメラの構図となるフレーミングを順次決定していくことに相当する。例えば、特許文献1には、カメラからの画像データから注視対象が含まれる構図を決定し、駆動機構を制御する手法が提案されている。また、特許文献2には、構図情報を学習させて、元画像からの切り出しルールを更新していく手法が提案されている。
Performing automatic photography by cropping from a camera attached to a drive mechanism such as a pan head or a fixed camera corresponds to sequentially determining the framing that is the composition of the camera. For example,
特許文献1,2に記載の従来技術は、ある撮影意図に対して最終的な構図を決定し、駆動機構の制御及び画像の切り出しを行うものである。これら従来技術において、実際のカメラマンによるカメラワークを模倣しようとした場合を考える。カメラマンは、被写体とそれを取り巻く状況に応じて最適な構図を連続的に決定している。この場合、前記した従来技術では、カメラマンのような状況に応じた構図を自動的に決定するのは困難である。
In the conventional techniques described in
そこで、本発明は、様々なカメラ位置から実際のカメラマンがフレーミングしたようなフレーミング領域を自動で決定できるフレーミング領域学習装置及びフレーミング領域推定装置、並びに、それらのプログラムを提供することを課題とする。 SUMMARY OF THE INVENTION It is therefore an object of the present invention to provide a framing area learning device and a framing area estimating device that can automatically determine framing areas similar to those framed by an actual photographer from various camera positions, as well as programs thereof.
前記課題を解決するため、本発明に係るフレーミング領域学習装置は、カメラの姿勢と画角とを示すカメラパラメータを、カメラがフレーミングするフレーミング領域を示すフレーミングパラメータに変換し、フレーミングパラメータと、被写体の位置又は速度の少なくとも一方を示す被写体情報とに対応付けて学習するフレーミング領域学習装置であって、変換部と、学習部と、を備える構成とした。 In order to solve the above problems, the framing area learning device according to the present invention converts camera parameters indicating the attitude and angle of view of the camera into framing parameters indicating the framing area to be framed by the camera, and converts the framing parameters and the subject's angle. A framing area learning device that learns in association with object information indicating at least one of a position or a speed, and is configured to include a conversion section and a learning section.
かかる構成によれば、変換部は、予め設定した変換規則に基づいて、被写体情報に同期させて取得したカメラパラメータをフレーミングパラメータに変換する。
そして、学習部は、被写体情報とフレーミングパラメータとを対応付けて学習することにより、フレーミングパラメータの学習済み推論モデルを生成する。
According to this configuration, the conversion unit converts the camera parameters acquired in synchronization with the subject information into framing parameters based on a preset conversion rule.
Then, the learning unit generates a learned inference model of the framing parameter by learning the subject information and the framing parameter in association with each other.
このように、フレーミング領域学習装置は、カメラ位置に依存するカメラパラメータではなく、カメラ位置に依存しない世界座標系でフレーミングパラメータを学習する。従って、フレーミング領域学習装置は、カメラ位置に依存しない学習済み推論モデルを生成できる。 In this way, the framing region learning device learns framing parameters in a world coordinate system that does not depend on camera position, rather than camera parameters that depend on camera position. Therefore, the framing region learning device can generate a trained inference model that does not depend on the camera position.
また、前記課題を解決するため、本発明に係るフレーミング領域推定装置は、本発明に係るフレーミング領域学習装置で生成した学習済み推論モデルを用いて、カメラのフレーミング領域を示すフレーミングパラメータを推定するフレーミング領域推定装置であって、推定部と、逆変換部と、を備える構成とした。 Furthermore, in order to solve the above-mentioned problems, the framing region estimation device according to the present invention provides a framing method for estimating a framing parameter indicating a framing region of a camera using a trained inference model generated by a framing region learning device according to the present invention. The area estimating device is configured to include an estimating section and an inverse transform section.
かかる構成によれば、推定部は、被写体の位置又は速度の少なくとも一方を示す被写体情報を入力し、学習済み推論モデルにより、被写体情報に応じたフレーミングパラメータの推定値を出力する。
そして、逆変換部は、推定部が出力したフレーミングパラメータの推定値を、予め設定した逆変換規則に基づいて、カメラの姿勢と画角とを示すカメラパラメータの推定値に逆変換する。
According to this configuration, the estimating unit receives subject information indicating at least one of the position and velocity of the subject, and outputs the estimated value of the framing parameter according to the subject information using the learned inference model.
Then, the inverse transformer inversely transforms the estimated value of the framing parameter outputted by the estimator into the estimated value of the camera parameter indicating the attitude and angle of view of the camera, based on a preset inverse transform rule.
このように、フレーミング領域推定装置は、学習済み推論モデルを用いて、カメラ位置に依存しない世界座標系でフレーミングパラメータを推定し、推定したフレーミングパラメータをカメラパラメータに変換する。従って、フレーミング領域推定装置は、カメラ位置に依存しない学習済み推論モデルを用いて、各カメラで固有のカメラパラメータを推定できる。 In this way, the framing area estimating device uses the trained inference model to estimate framing parameters in a world coordinate system that does not depend on the camera position, and converts the estimated framing parameters into camera parameters. Therefore, the framing area estimating device can estimate unique camera parameters for each camera using a trained inference model that does not depend on camera position.
なお、本発明は、コンピュータを、前記したフレーミング領域学習装置又はフレーミング領域推定装置として機能させるためのプログラムで実現することもできる。 Note that the present invention can also be realized by a program for causing a computer to function as the above-described framing area learning device or framing area estimating device.
本発明は、カメラ位置に依存しない推論モデルを用いるので、様々なカメラ位置から実際のカメラマンがフレーミングしたようなフレーミング領域を自動で決定できる。 Since the present invention uses an inference model that does not depend on camera positions, it is possible to automatically determine framing areas similar to those framed by an actual cameraman from various camera positions.
(第1実施形態)
以下、本発明の各実施形態について図面を参照して説明する。
まず、第1実施形態に関連したカメラ3の一例を説明した後、第1実施形態に係るフレーミング領域学習装置1及びフレーミング領域推定装置2の構成を順に説明する。
(First embodiment)
Hereinafter, each embodiment of the present invention will be described with reference to the drawings.
First, an example of the
[カメラ]
図1を参照し、カメラ3について説明する。
カメラ3は、遠隔操作可能に構成されるカメラである。図1(a)に示すように、カメラ3は、雲台などの駆動機構30に搭載されており、この駆動機構30によって、パン、チルト、ズーム及びフォーカスが制御されている。なお、ズーム及びフォーカスの制御は、カメラ3の内部機構によって行われ、この駆動機構30で包括しているものとして説明する。
[camera]
The
The
また、図1(b)に示すように、カメラ3は、そのカメラ操作を検出するセンサ31を備える。このセンサ31は、カメラ3の姿勢、図示を省略したレンズの画角、焦点位置を測定するためのものである。このセンサ31には、カメラ3が固定されている雲台のパン角を検出するパン角センサ31aと、カメラ3のチルト角を検出するチルト角センサ31bと、カメラ3のズーム量(画角)を検出するズームセンサ31cと、カメラ3に内蔵されているレンズの焦点位置(フォーカス)を検出するフォーカスセンサ31dとが含まれている。
Further, as shown in FIG. 1(b), the
例えば、パン角センサ31a及びチルト角センサ31bは、雲台に取り付けられたロータリエンコーダ、ポテンショメータ又はジャイロセンサによって構成できる。また、ズームセンサ31c及びフォーカスセンサ31dは、ズームリング及びフォーカスリングの回転角をロータリエンコーダ、ポテンショメータで読みとる方式によって構成できる。この他、ズームセンサ31c及びフォーカスセンサ31dは、カメラ3のレンズ摺動部に設置されるリニアセンサを用いることができる。
For example, the
[フレーミング領域学習装置の構成]
図2を参照し、フレーミング領域学習装置1の構成について説明する。
フレーミング領域学習装置1は、カメラ3のカメラパラメータを、カメラ3のフレーミングパラメータに変換し、変換したフレーミングパラメータと被写体の位置又は速度の少なくとも一方を示す状況データ(被写体情報)jとを対応付けて学習するものである。
[Configuration of framing region learning device]
The configuration of the framing
The framing
ここで、フレーミングパラメータとは、カメラ3がフレーミングしているフレーミング領域(構図)を示すパラメータのことであり、世界座標系で示されている。
また、世界座標系とは、被写体が存在する空間に対応した3次元座標系のことであり、各カメラ3で共通する座標系である。
また、カメラパラメータとは、カメラ3の姿勢と画角とを示すパラメータのことであり、カメラ座標系で示されている。
また、カメラ座標系とは、カメラ3を基準とした3次元座標系のことであり、各カメラ3で固有の座標系である。
なお、フレーミングパラメータ、世界座標系、カメラパラメータ及びカメラ座標系の詳細は、後記する。
Here, the framing parameter is a parameter indicating a framing area (composition) framed by the
Further, the world coordinate system is a three-dimensional coordinate system corresponding to the space in which the subject exists, and is a coordinate system common to each
Further, the camera parameters are parameters indicating the attitude and angle of view of the
Further, the camera coordinate system is a three-dimensional coordinate system based on the
Note that details of the framing parameters, world coordinate system, camera parameters, and camera coordinate system will be described later.
図2に示すように、フレーミング領域学習装置1は、状況データ記憶部(被写体情報記憶部)10Aと、カメラパラメータ記憶部10Bと、データ選択部11と、時刻調整部12と、状況データ読出部(被写体情報読出部)13と、カメラパラメータ読出部14と、変換部15と、量子化部16と、学習部17とを備える。
As shown in FIG. 2, the framing
状況データ記憶部10Aは、予め、後記する状況データjを記憶するHDD(hard disk drive)、SSD(solid state drive)、メモリ等の記憶装置である。ここでは、状況データ記憶部10Aは、各時刻νの状況データj(ν)を記憶している({j(ν)}ν∈(1,2,…,N))。
The situation
カメラパラメータ記憶部10Bは、予め、後記するカメラパラメータを記憶するHDD、SSD、メモリ等の記憶装置である。ここで、カメラパラメータ記憶部10Bは、各時刻νのカメラパラメータθ(ν)を記憶している({θ(ν)}ν∈(1,2,…,N))。
The camera
なお、状況データj(ν)及びカメラパラメータθ(ν)は、同時刻に同期して取得されているものとする。
また、図2では、状況データ記憶部10A及びカメラパラメータ記憶部10Bを別々に図示したが、記憶部として一体化してもよい。
Note that it is assumed that the situation data j(v) and the camera parameter θ(v) are acquired synchronously at the same time.
Further, although the situation
データ選択部11は、状況データj(ν)とカメラパラメータθ(ν)とに紐づけられている時刻ν=nを順次選択するものである(n=1,2,…,N)。そして、データ選択部11は、選択した時刻nを時刻調整部12及び状況データ読出部13に出力する。
The
時刻調整部12は、オフセット時刻Δnが予め設定され、データ選択部11から入力された時刻nにオフセット時刻Δを加算し、未来時刻(n+Δn)を算出するものである。このオフセット時刻Δnは、任意の値で設定できる。そして、時刻調整部12は、生成した未来時刻(n+Δn)をカメラパラメータ読出部14に出力する。
The
状況データ読出部13は、データ選択部11より入力された所定時刻nの状況データj(n)を状況データ記憶部10Aから読み出すものである。そして、状況データ読出部13は、読み出した状況データj(n)を学習部17に出力する。
The situation
カメラパラメータ読出部14は、状況データj(n)の読出時刻nに対して、予め設定したオフセット時刻Δnだけオフセットした未来時刻(n+Δn)のカメラパラメータθ(n+Δn)を読み出すものである。このカメラパラメータ読出部14は、時刻調整部12より入力された未来時刻(n+Δn)のカメラパラメータθ(n+Δn)を読み出す。そして、カメラパラメータ読出部14は、読み出したカメラパラメータθ(n+Δn)を変換部15及び学習部17に出力する。
The camera
ここで、カメラパラメータθ(n+Δn)の読み出し時刻をオフセット時刻Δnだけ先の時刻(未来)にオフセットさせる理由について説明する。
カメラマンのカメラワークが遅れた場合、カメラパラメータθにも遅れが反映されてしまう。そこで、カメラパラメータθの読み出し時刻をオフセットさせると、カメラマンによるカメラワークの遅れを先読みでき、カメラパラメータθの遅延の影響を低減できる。
さらに、カメラパラメータθの読み出し時刻をオフセットさせることで、フレーミング領域推定装置2で発生する処理遅延の影響を低減できる。
Here, the reason why the read time of the camera parameter θ(n+Δn) is offset to the future time by the offset time Δn will be explained.
If the cameraman's camera work is delayed, the delay will also be reflected in the camera parameter θ. Therefore, by offsetting the readout time of the camera parameter θ, it is possible to predict in advance the delay in camera work by the cameraman, and the influence of the delay in the camera parameter θ can be reduced.
Furthermore, by offsetting the readout time of the camera parameter θ, the influence of processing delays occurring in the framing
変換部15は、状況データj(n)に同期したカメラパラメータθ(n+Δn)をカメラパラメータ読出部14から入力する。そして、変換部15は、予め設定した変換規則Tに基づいて、入力されたカメラ座標系のカメラパラメータθ(n+Δn)を世界座標系のフレーミングパラメータの連続値g(n+Δn)=T(θ(n+Δn))に変換するものである。さらに、変換部15は、変換したフレーミングパラメータの連続値g(n+Δn)を量子化部16に出力する。
なお、変換部15による変換処理の詳細は、後記する。
The
Note that details of the conversion process by the
量子化部16は、フレーミングパラメータを世界座標系上の連続値g(n+Δn)として変換部15から入力する。そして、量子化部16は、予め設定した量子化規則Qに基づいて、入力されたフレーミングパラメータを世界座標系上の離散値q(n+Δn)=Q(g(n+Δn))に量子化するものである。さらに、量子化部16は、量子化したフレーミングパラメータの離散値q(n+Δn)を学習部17に出力する。
なお、量子化部16による量子化処理の詳細は、後記する。
The
Note that details of the quantization process by the
ここで、離散値とは、推論モデルがフレーミングパラメータを世界座標系上の離散値(空間的な離散値)に変換した値をいう。例えば、離散値は、0.25メートル刻み、0.5メートル刻み、又は、1.0メートル刻みのようにメッシュオーダとなる。
また、連続値とは、推論モデルがフレーミングパラメータを世界座標系上の連続値(空間的な連続値)に変換した値をいう。
Here, the discrete value refers to a value obtained by converting the framing parameter into a discrete value (spatial discrete value) on the world coordinate system by the inference model. For example, the discrete values are in mesh order, such as 0.25 meter increments, 0.5 meter increments, or 1.0 meter increments.
Further, the continuous value refers to a value obtained by converting the framing parameter into a continuous value (spatial continuous value) on the world coordinate system by the inference model.
学習部17は、状況データ読出部13から状況データj(n)を入力し、量子化部16からフレーミングパラメータの離散値q(n+Δn)を入力する。そして、学習部17は、状況データj(n)とフレーミングパラメータの離散値q(n+Δn)とを対応付けて学習することにより、フレーミングパラメータの学習済み推論モデルを生成するものである。つまり、学習部17は、状況データj(n)及びフレーミングパラメータの離散値q(n+Δn)のデータ対を取り込み、学習済みパラメータPを出力する。
なお、学習部17の構成は、第2実施形態及び第3実施形態で説明する。
The
Note that the configuration of the
推論モデルは、任意に選択できる。例えば、推論モデルとして、サポートベクターマシン(SVM:support vector machine)やk近傍法(k-NN:k-nearest neighbor)などの機械学習を用いてもよい。また、推論モデルとして、ニューラルネットワークを用いてもよい。状況データjが画像化されたデータの場合、推論モデルとして、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)を用いることが好ましい。 An inference model can be selected arbitrarily. For example, machine learning such as a support vector machine (SVM) or a k-nearest neighbor method (k-NN) may be used as the inference model. Further, a neural network may be used as the inference model. When the situation data j is image data, it is preferable to use a convolutional neural network (CNN) as the inference model.
ここで、フレーミングパラメータの離散値q(n+Δn)又は連続値g(n+Δn)の何れで学習するかは、推論モデルの種類に応じて任意に選択できる。
なお、学習部17がフレーミングパラメータの連続値g(n+Δn)を直接学習する場合、フレーミング領域学習装置1は、量子化部16を備えなくともよい。この場合、変換部15は、フレーミングパラメータの連続値g(n+Δn)を学習部17に出力する。
Here, it is possible to arbitrarily select which of the discrete value q(n+Δn) or the continuous value g(n+Δn) of the framing parameter is to be used for learning, depending on the type of the inference model.
Note that when the
以上のように、フレーミング領域学習装置1は、カメラ位置に依存するカメラパラメータθではなく、カメラ位置に依存しない世界座標系でフレーミングパラメータの離散値q又は連続値gを学習するので、カメラ位置に依存しない学習済み推論モデルを生成できる。従って、フレーミング領域学習装置1は、様々なカメラ位置から実際のカメラマンがフレーミングしたようなフレーミング領域を自動で決定できる。
As described above, the framing
従来の推論モデルは、カメラパラメータθをそのまま学習しているので、カメラパラメータθをそのまま出力するため、カメラパラメータθがカメラ位置に依存し、学習時及び推定時でカメラ位置が同一でなければ、この推論モデルを利用できない。現実的には、学習時及び推定時にカメラ位置が異なるため、従来の推論モデルの利用が困難である。その一方、フレーミング領域学習装置1の学習済み推論モデルは、世界座標系のフレーミングパラメータを学習しているので、学習時及び推定時でカメラ位置が異なる場合にも利用できる。
The conventional inference model learns the camera parameter θ as it is, and outputs the camera parameter θ as it is. This inference model cannot be used. In reality, it is difficult to use conventional inference models because the camera positions differ during learning and estimation. On the other hand, since the trained inference model of the framing
さらに、フレーミング領域学習装置1は、カメラパラメータθ(n+Δn)の読み出し時刻を未来にオフセットさせるので、カメラパラメータθの遅延の影響やフレーミング領域推定装置2の処理遅延の影響を低減できる。
Furthermore, since the framing
[フレーミング領域推定装置の構成]
図3を参照し、フレーミング領域推定装置2の構成について説明する。
フレーミング領域推定装置2は、フレーミング領域学習装置1で生成した学習済み推論モデルを用いて、フレーミングパラメータを推定し、推定したフレーミングパラメータをカメラパラメータに変換するものである。図3に示すように、フレーミング領域推定装置2は、推定部20と、逆量子化部21と、逆変換部22とを備える。
[Configuration of framing area estimation device]
The configuration of the framing
The framing
推定部20は、後記する状況データjを入力し、学習済み推論モデルにより、入力した状況データjに応じたフレーミングパラメータの推定値を世界座標系で出力するものである。つまり、推定部20は、学習済みパラメータPによって構成される学習済みの推論モデルであり、状況データjを入力すると、フレーミングパラメータの離散推定値qestを逆量子化部21に出力する。
The
以後、フレーミングパラメータの推定値が離散値であるものを「離散推定値」と記載し、フレーミングパラメータの推定値が連続値であるものを「連続推定値」と記載する場合がある。 Hereinafter, a framing parameter whose estimated value is a discrete value may be referred to as a "discrete estimated value," and a framed parameter whose estimated value is a continuous value may be referred to as a "continuous estimated value."
逆量子化部21は、予め設定した逆量子化規則Q-1に基づいて、推定部20から入力されたフレーミングパラメータの離散推定値qestを連続推定値gest=Q-1(qest)に逆量子化するものである。そして、逆量子化部21は、逆量子化したフレーミングパラメータの連続推定値gestを逆変換部22に出力する。
The
なお、逆量子化部21による逆量子化の詳細は、後記する。
また、推定部20がフレーミングパラメータの連続推定値gestを直接出力する場合、フレーミング領域推定装置2は、逆量子化部21を備えなくともよい。この場合、推定部20は、フレーミングパラメータの連続推定値gestを逆変換部22に出力する。
Note that details of the inverse quantization by the
Further, when the
逆変換部22は、逆量子化部21から入力された世界座標系のフレーミングパラメータの連続推定値gestを、予め設定した逆変換規則T-1に基づいて、カメラ座標系のカメラパラメータの推定値θest=T-1(gest)に逆変換するものである。そして、逆変換部22は、逆変換したカメラパラメータの推定値θestを外部に出力する。
なお、逆変換部22による逆変換処理の詳細は、後記する。
The
Note that details of the inverse transformation process by the
以上のように、フレーミング領域推定装置2は、カメラ位置に依存しない推論モデルを用いるので、様々なカメラ位置から実際のカメラマンがフレーミングしたようなフレーミング領域を自動で決定できる。すなわち、フレーミング領域推定装置2は、学習済み推論モデルを用いて、カメラ位置に依存しない世界座標系でフレーミングパラメータの離散推定値qestを推定し、推定したフレーミングパラメータの離散推定値qestをカメラパラメータの推定値θestに変換する。このカメラパラメータの推定値θestからカメラ3の制御信号を生成すれば、様々なカメラ位置でカメラ3の姿勢を制御できる。
As described above, since the framing
図4及び図5を参照し、世界座標系のフレーミングパラメータ及びカメラ座標系のカメラパラメータと、変換処理及び逆変換処理と、量子化処理及び逆量子化処理とを順に説明する。 With reference to FIGS. 4 and 5, framing parameters in the world coordinate system, camera parameters in the camera coordinate system, transformation processing and inverse transformation processing, and quantization processing and inverse quantization processing will be described in order.
<世界座標系のフレーミングパラメータ、カメラ座標系のカメラパラメータ>
図4には、サッカーフィールドを一例として、被写体が存在する世界座標系と、カメラ3の位置及び姿勢が反映されたカメラ座標系との関係を図示した。
<Framing parameters of world coordinate system, camera parameters of camera coordinate system>
FIG. 4 illustrates the relationship between the world coordinate system in which the subject exists and the camera coordinate system in which the position and orientation of the
図4に示すように、世界座標系は、サッカーフィールド90の中央91を原点とし、原点を通りサイドライン92と平行な軸をX軸とし、センターライン93と平行な軸をY軸とし、サッカーフィールド90の平面に垂直かつ上向きの軸を+Z軸とする。従って、世界座標系は、X軸、Y軸、Z軸の順に右手系となる。
As shown in FIG. 4, the world coordinate system has the
カメラ座標系は、カメラ3の光軸方向を+z軸とする。カメラ座標系の原点が世界座標系の原点と一致し、かつ、各軸の回転がない場合を考える。この場合、カメラ座標系+x軸と世界座標系+X軸、カメラ座標系+yと世界座標系-Z軸、カメラ座標系+z軸と世界座標系+Y軸が一致する関係となる。従って、カメラ座標系は、x軸、y軸、z軸の順に右手系となる。
In the camera coordinate system, the optical axis direction of the
カメラ座標系において、y軸の回転角をパン角α[rad]とし、x軸の回転角をチルト角δ[rad]とし、z軸の回転角をロール角φ[rad]とする。この場合、カメラ座標系における世界座標系の姿勢Rは、以下の式(1)で表される。つまり、カメラ座標系のパン角α、チルト角δ及びロール角φと世界座標系の姿勢Rとの間には、式(1)の関係がある。 In the camera coordinate system, the rotation angle of the y-axis is a pan angle α [rad], the rotation angle of the x-axis is a tilt angle δ [rad], and the rotation angle of the z-axis is a roll angle φ [rad]. In this case, the attitude R of the world coordinate system in the camera coordinate system is expressed by the following equation (1). In other words, there is a relationship expressed by equation (1) between the pan angle α, tilt angle δ, and roll angle φ in the camera coordinate system and the attitude R in the world coordinate system.
図5に示すように、世界座標系におけるカメラ座標系の原点(カメラ3の位置)をtw=[twx,twy,twz]とする。この場合、カメラ座標系における世界座標系の原点tc=[tcx,tcy,tcz]は、tc=-Rtwで表すことができる。 As shown in FIG. 5, the origin of the camera coordinate system (the position of the camera 3) in the world coordinate system is assumed to be tw = [ twx , twy , twz ]. In this case, the origin t c =[t cx , t cy , t cz ] of the world coordinate system in the camera coordinate system can be expressed as t c =-Rt w .
カメラ3のフレーミング領域は、カメラ3の位置tw、姿勢R及び画角(正確にはカメラ3に装着されているレンズの水平画角)βによって決定される。
カメラ3の位置twは、撮影現場で実際に測定すればよい。また、カメラ3の位置twは、その位置で撮影された画像内の対象物と、この対象物の実際の地上のデータであるグラウンドトゥルースとの対応関係から推定できる。
The framing area of the
The position tw of the
カメラ3の姿勢Rは、カメラ3に接続されているセンサ31(パン角センサ31a及びチルト角センサ31b)から取得できる。一般的に使用される雲台にはロール角φを操作する回転機構がないため、ロール角φ=0とすればよい。従って、カメラ座標系のパン角α及びチルト角δが分かれば、世界座標系でカメラ3の姿勢Rを求められる。
The attitude R of the
カメラ3の画角βは、ズームレンズを使用している場合、ズームリングの回転量に応じて変化する。ズームセンサ31cの出力値を入力とし、カメラ3の画角βを出力とした場合、カメラ3のセンササイズやズームレンズの組み合わせに応じて、入出力値が変化する。そこで、入出力値を予め測定し、それら入出力値をルックアップテーブル化することで、カメラ3の画角βを求められる。
この他、カメラ3の画角βは、カメラ3のセンササイズから一意に定まる焦点距離fとしてもよい。
The angle of view β of the
In addition, the angle of view β of the
以上より、フレーミング領域の決定に最低限必要、かつ、取得可能なカメラパラメータは、パン角α、チルト角δ及び画角βの3つとなる。つまり、カメラ3のパン角α、チルト角δ及び画角βが、カメラパラメータθに相当する。
From the above, the minimum camera parameters required and obtainable for determining the framing area are the pan angle α, the tilt angle δ, and the angle of view β. That is, the pan angle α, tilt angle δ, and angle of view β of the
カメラ3の位置が固定という条件であれば、カメラパラメータθを教師データとして学習した推論モデルによって、状況データjに応じたフレーミングパラメータを推定できる。カメラ位置に依存せずフレーミングパラメータを推定するためには、カメラ3のフレーミングパラメータとスケールsとを世界座標系に変換して学習し、これらの推定値をカメラ座標系に逆変換し、カメラパラメータの推定値θestを求める必要がある。
Under the condition that the position of the
カメラ3のチルト角δ<0の場合、図4及び図5に示すように、カメラ3の光軸(z軸)と世界座標系におけるXY平面(Z=0)とが交わる交差位置をcw=[cwx,cwy,0]とする。この場合、交差位置cwは、以下の式(2)で算出できる。
When the tilt angle δ<0 of the
スケールsは、世界座標系におけるフレーミング領域のサイズを示している。図5に示すように、スケールsは、カメラ3の位置twから交差位置cwまでの光軸長lとカメラ3の画角βとから、以下の式(3)で算出できる。つまり、交点位置cwx,cwy及びスケールsが、フレーミングパラメータの連続値gに相当する。
The scale s indicates the size of the framing area in the world coordinate system. As shown in FIG. 5, the scale s can be calculated using the following equation (3) from the optical axis length l from the position tw of the
なお、図5では、カメラ3の移動後の位置をtw_newとし、カメラ3の移動後に推定される画角をβestとする。また、カメラ3の移動後に推定されたスケールをsestとし、光軸長をlestとし、交点位置をcw_estとする。
Note that in FIG. 5, the position of the
<変換処理及び逆変換処理>
以上より、前記した式(2)及び式(3)が、変換部15に予め設定されている変換規則Tに相当する。すなわち、変換部15は、前記した式(2)及び式(3)を用いて、カメラ座標系のカメラパラメータθ=[α,δ,β]を世界座標系のフレーミングパラメータの連続値g=[cwx,cwy,s]に変換する。
<Conversion processing and inverse conversion processing>
From the above, the above equations (2) and (3) correspond to the conversion rule T set in advance in the
また、世界座標系のフレーミングパラメータの連続推定値gestからカメラパラメータの推定値θestへの逆変換についても検討する。ここでは、パン角の推定値αestが式(4)で算出でき、チルト角の推定値δestが式(5)で算出できる。 We will also consider inverse transformation from the continuous estimated value gest of the framing parameter in the world coordinate system to the estimated value θ est of the camera parameter. Here, the estimated value α est of the pan angle can be calculated using equation (4), and the estimated value δ est of the tilt angle can be calculated using equation (5).
図5に示すように、カメラ3の画角の推定値βestは、カメラ3の位置tw_newから交差位置cw_estまでの光軸長lestとすると、以下の式(6)で算出できる。
As shown in FIG. 5, the estimated value β est of the angle of view of the
前記した式(4)~式(6)が、逆変換部22に予め設定されている逆変換規則T-1に相当する。すなわち、逆変換部22は、前記した式(4)~式(6)を用いて、フレーミングパラメータの連続推定値gest=[cwx_est,cwy_est,sest]をカメラ座標系のカメラパラメータの推定値θest=[αest,δest,βest]に逆変換する。
Equations (4) to (6) described above correspond to the inverse transformation rule T −1 set in advance in the
<量子化処理及び逆量子化処理>
推論モデルが連続値ではなく離散値を扱う場合、連続値から離散値への量子化、及び、離散値から連続値への逆量子化が必要になる。前記したように、フレーミングパラメータの連続推定値gestがcwx,cwy,sという3つのパラメータで構成されている。この場合、ベクトル次元数k=3であることから、フレーミングパラメータの連続値g=[g1,g2,g3]と表される。このとき、フレーミングパラメータの離散値q=[q1(g1),q2(g2),q3(g3)]は、以下の式(7)で算出できる。なお、Ak及びBkは、各次元kにおいて、任意に設定できるパラメータである。
<Quantization processing and inverse quantization processing>
When an inference model deals with discrete values rather than continuous values, quantization from continuous values to discrete values and inverse quantization from discrete values to continuous values are required. As described above, the continuous estimated value g est of the framing parameter is composed of three parameters: c wx , c wy , and s. In this case, since the number of vector dimensions is k=3, the continuous value of the framing parameter g=[g 1 , g 2 , g 3 ]. At this time, the discrete values q=[q 1 (g 1 ), q 2 (g 2 ), q 3 (g 3 )] of the framing parameters can be calculated using the following equation (7). Note that A k and B k are parameters that can be arbitrarily set in each dimension k.
前記した式(7)が、量子化部16に予め設定されている量子化規則Qに相当する。すなわち、量子化部16は、前記した式(7)を用いて、フレーミングパラメータを連続値gから離散値qに量子化する。
The above equation (7) corresponds to the quantization rule Q set in advance in the
逆量子化部21は、以下の式(8)で表されるように逆量子化する。この式(8)が、逆量子化部21に予め設定されている逆量子化規則Q-1に相当する。すなわち、逆量子化部21は、式(8)を用いて、フレーミングパラメータの離散推定値qk_estを連続推定値gk_estに逆量子化する。
The
<状況データ>
図6~図8を参照し、サッカーの試合映像を一例として、状況データjについて説明する。
状況データjは、被写体の状況として、被写体の位置又は速度の少なくとも一方を示すデータである。例えば、状況データjは、図6に示すように、サッカーの試合映像j1である。図6の試合映像j1は、被写体である選手9Aやボール9Bの位置を示している。なお、図6では、図面を見やすくするため、一部の選手9Aのみ符号を付した。
<Status data>
With reference to FIGS. 6 to 8, the situation data j will be explained using a soccer match video as an example.
The situation data j is data indicating at least one of the position and speed of the subject as the situation of the subject. For example, the situation data j is a soccer match video j1 , as shown in FIG. The match video j1 in FIG. 6 shows the positions of the player 9A and the ball 9B , which are the subjects. In addition, in FIG. 6, in order to make the drawing easier to read, only a part of the players 9A is labeled.
また、状況データjは、被写体の位置又は速度の少なくとも一方を画像化したマップであってもよい。図7には、状況データjの一例として、選手やボールの位置を示す位置マップを図示した。 Furthermore, the situation data j may be a map that is an image of at least one of the position and speed of the subject. FIG. 7 shows a position map showing the positions of players and balls as an example of the situation data j.
図7(a)の位置マップj2は、全選手とボールの位置を示している。このマップでは、〇が一方のチームの選手の位置を示し、×が他方のチームの選手の位置を示し、●がボールの位置を示している。
図7(b)の位置マップj3は、一方のチームの選手の位置を示している。この位置マップj3では、各選手の位置を、中心側から外周側にかけて濃淡を有する円領域で示した。この位置マップj3によれば、ぼかした円領域で各選手の位置を大まかに示すので、推論モデルの精度を向上させることができる。
図7(c)の位置マップj4は、他方のチームの選手の位置を、位置マップj3と同様の円領域で示している。この位置マップj4によれば、位置マップj3と同様、推論モデルの精度を向上させることができる。
図7(d)の位置マップj5は、ボールの位置を位置マップj3と同様の円領域で示している。
The position map j2 in FIG. 7(a) shows the positions of all players and the ball. In this map, 〇 indicates the position of a player on one team, × indicates the position of a player on the other team, and ● indicates the position of the ball.
The position map j3 in FIG. 7(b) shows the positions of players of one team. In this position map j3 , the position of each player is shown as a circular area having shading from the center side to the outer circumference side. According to this position map j3 , since the position of each player is roughly indicated by a blurred circular area, the accuracy of the inference model can be improved.
The position map j 4 in FIG. 7(c) shows the positions of the players of the other team using circular areas similar to the position map j 3 . According to this position map j 4 , the accuracy of the inference model can be improved like the position map j 3 .
The position map j5 in FIG. 7(d) shows the position of the ball in a circular area similar to the position map j3 .
図8には、状況データjの一例として、選手の速度を示す速度マップを図示した。
図8(a)は、一方のチームの選手の位置と速度成分(X軸成分、Y軸成分)とを図示した。この速度成分は、所定の規則で正規化した値を示している。
図8(a)の速度マップj6は、図8(a)の各選手の位置を無視し、各選手の速度成分を点で示している。
図8(c)の速度マップj7は、図8(a)の各選手の速度成分をぼかした円領域で示している。この速度マップj7によれば、ぼかした円領域で各選手の速度を大まかに示すので、推論モデルの精度を向上させることができる。
なお、図8(b)及び図8(c)では、説明のために縦軸及び横軸を図示したものであり、速度マップj6,j7に軸線を含める必要はない。
FIG. 8 shows a speed map showing the speed of the player as an example of the situation data j.
FIG. 8(a) illustrates the positions and velocity components (X-axis component, Y-axis component) of players of one team. This velocity component indicates a value normalized according to a predetermined rule.
The velocity map j6 in FIG. 8(a) ignores the position of each player in FIG. 8(a) and shows the velocity component of each player as a point.
The velocity map j7 in FIG. 8(c) shows the velocity components of each player in FIG. 8(a) as blurred circular regions. According to this speed map j7 , since the speed of each player is roughly indicated by a blurred circular area, the accuracy of the inference model can be improved.
Note that in FIGS. 8(b) and 8(c), the vertical axis and the horizontal axis are shown for explanation, and there is no need to include the axis lines in the speed maps j 6 and j 7 .
ここで、状況データjとして、試合映像j1、位置マップj2~j5又は速度マップj6,j7の何れを用いてもよい。例えば、状況データjとして、試合映像j1、位置マップj2~j5又は速度マップj6,j7の何れか1つのみを用いてもよい。また、状況データjとして、試合映像j1、位置マップj2~j5又は速度マップj6,j7の2つ以上を任意に組み合わせてもよい。さらに、状況データjとして、両チームの選手の位置マップj3,j4を組み合わせると、推論モデルの精度を向上させることができる。 Here, as the situation data j, any of the match video j 1 , position maps j 2 to j 5 or speed maps j 6 and j 7 may be used. For example, as the situation data j, only one of the match video j 1 , the position maps j 2 to j 5 , or the speed maps j 6 and j 7 may be used. Further, as the situation data j, two or more of the match video j 1 , the position maps j 2 to j 5 or the speed maps j 6 and j 7 may be arbitrarily combined. Furthermore, by combining the position maps j 3 and j 4 of the players of both teams as the situation data j, the accuracy of the inference model can be improved.
[フレーミング領域学習装置の動作]
図9を参照し、フレーミング領域学習装置1の動作について説明する。
ステップS10において、データ選択部11は、状況データj(ν)とカメラパラメータθ(ν)とに紐づけられている時刻ν=nを選択する。
ステップS11において、時刻調整部12は、オフセット時刻Δnが予め設定される。そして、時刻調整部12は、時刻nにオフセット時刻Δを加算し、未来時刻(n+Δn)を算出する。
[Operation of framing area learning device]
The operation of the framing
In step S10, the
In step S11, the offset time Δn is preset in the
ステップS12において、状況データ読出部13は、時刻nの状況データj(n)を状況データ記憶部10Aから読み出す。
ステップS13において、カメラパラメータ読出部14は、未来時刻(n+Δn)のカメラパラメータθ(n+Δn)をカメラパラメータ記憶部10Bから読み出す。
In step S12, the situation
In step S13, the camera
ステップS14において、変換部15は、カメラパラメータθ(n+Δn)を世界座標系のフレーミングパラメータの連続値g(n+Δn)に変換する。
ステップS15において、量子化部16は、フレーミングパラメータの連続値g(n+Δn)を離散値q(n+Δn)に量子化する。
In step S14, the
In step S15, the
ステップS16において、学習部17は、ステップS12で読み出した状況データj(n)と、ステップS15で量子化したフレーミングパラメータの離散値q(n+Δn)とを対応付けて学習することにより、フレーミングパラメータの学習済み推論モデルを生成する。
なお、ステップS16において、学習部17がフレーミングパラメータの連続値g(n+Δn)を直接学習する場合、ステップS15の処理を実行しなくともよい。
In step S16, the
Note that when the
[フレーミング領域推定装置の動作]
図10を参照し、フレーミング領域推定装置2の動作について説明する。
ステップS20において、推定部20は、状況データjを入力する。
ステップS21において、推定部20は、学習済み推論モデルにより、状況データjに応じたフレーミングパラメータの離散推定値qestを出力する。
[Operation of framing area estimation device]
The operation of the framing
In step S20, the
In step S21, the
ステップS22において、逆量子化部21は、フレーミングパラメータの離散推定値qestを連続推定値gestに逆量子化する。
ステップS23において、逆変換部22は、フレーミングパラメータの連続推定値gestをカメラパラメータの推定値θestに逆変換する。
なお、ステップS21において、推定部20がフレーミングパラメータの連続推定値gestを直接出力する場合、ステップS22の処理を実行しなくともよい。
In step S22, the
In step S23, the
Note that in the case where the
(第2実施形態)
図11を参照し、第2実施形態に係る学習部17の構成の一例を説明する。
学習部17は、学習の過程において学習パラメータを更新し、最終的な学習パラメータを学習済みパラメータPとして出力するものである。図11に示すように、学習部17は、推定部170と、逆量子化部171と、逆量子化部172と、誤差評価部173と、パラメータ更新部174と、パラメータ記憶部175とを備える。
(Second embodiment)
An example of the configuration of the
The
推定部170は、パラメータ記憶部175の学習パラメータで構成される推論モデルであり、図3の推定部20と同様、状況データjを入力すると、フレーミングパラメータの離散推定値qestを逆量子化部171に出力する。
The
逆量子化部171は、図3の逆量子化部21と同様、推定部170から入力されたフレーミングパラメータの離散推定値qestを連続推定値gestに逆量子化するものである。そして、逆量子化部171は、逆量子化したフレーミングパラメータの連続推定値gestを誤差評価部173に出力する。
Similar to the
逆量子化部172は、図3の逆量子化部21と同様、図2の量子化部16から入力されたフレーミングパラメータの離散値qを連続値gに逆量子化するものである。そして、逆量子化部172は、逆量子化したフレーミングパラメータの連続値gを誤差評価部173に出力する。
Similar to the
なお、推定部170がフレーミングパラメータの連続推定値gestを直接出力する場合、学習部17は、逆量子化部171及び逆量子化部172を備えなくともよい。この場合、推定部170は、フレーミングパラメータの連続推定値gestを誤差評価部173に出力し、図2の変換部15からフレーミングパラメータの連続値gを誤差評価部173に入力すればよい。
Note that when the
誤差評価部173は、逆量子化部171から入力されたフレーミングパラメータの連続推定値gestと、逆量子化部172から入力されたフレーミングパラメータの連続値gとの誤差を算出するものである。例えば、誤差評価部173は、2乗和誤差や交差エントロピー誤差を算出する。そして、誤差評価部173は、算出した誤差をパラメータ更新部174に出力する。
The
パラメータ更新部174は、誤差評価部173で算出したフレーミングパラメータの連続推定値gestとフレーミングパラメータの連続値gとの誤差から学習信号を生成し、パラメータ記憶部175の学習パラメータを更新するものである。つまり、パラメータ更新部174は、誤差評価部173で算出した誤差が最小となるように、パラメータ記憶部175の学習パラメータを逆伝搬で更新する。
The
パラメータ記憶部175は、教師データとして、パラメータ更新部174が更新した学習パラメータを記憶する記憶装置である。パラメータ記憶部175の学習パラメータは、推定部170によって参照される。
The
このように、学習部17は、推定部170が出力したフレーミングパラメータの推定値qestをカメラ座標系に変換する必要がないので、演算量を抑えることができる。
In this way, since the
(第3実施形態)
図12を参照し、第3実施形態に係る学習部17Bの構成の一例を説明する。
第2実施形態に係る学習部17では、世界座標系でフレーミングパラメータの連続推定値gestとフレーミングパラメータの連続値gとの誤差を評価している。これに対し、第3実施形態に係る学習部17Bでは、カメラ座標系でカメラパラメータの推定値θestとカメラパラメータθとの誤差を評価する点が、第2実施形態と異なっている。
(Third embodiment)
An example of the configuration of the
The
図12に示すように、学習部17Bは、推定部170と、逆量子化部171と、逆量子化部172と、パラメータ更新部174と、パラメータ記憶部175と、逆変換部176と、誤差評価部177とを備える。
なお、逆変換部176及び誤差評価部177以外の構成は、第2位実施形態と同様のため、説明を省略する。
As shown in FIG. 12, the
Note that the configurations other than the
逆変換部176は、図3の逆変換部22と同様、逆量子化部171から入力されたフレーミングパラメータの連続推定値gestをカメラパラメータθestに逆変換するものである。そして、逆変換部176は、逆変換したカメラパラメータの推定値θestを誤差評価部177に出力する。
The
誤差評価部177は、逆変換部176から入力されたカメラパラメータの推定値θestと、図2のカメラパラメータ読出部14から入力されたカメラパラメータθとの誤差を算出するものである。例えば、誤差評価部177は、2乗和誤差や交差エントロピー誤差を算出する。そして、誤差評価部177は、算出した誤差をパラメータ更新部174に出力する。
The
このように、学習部17Bは、カメラマンが構図を決めるカメラ座標系で誤差を評価するので、推定精度を向上させることができる。
In this way, the
(変形例)
以上、本発明の各実施形態を詳述してきたが、本発明は前記した各実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
第2実施形態及び第3実施形態では、学習部の具体的な構成を説明したが、これに限定されない。
(Modified example)
Although each embodiment of the present invention has been described in detail above, the present invention is not limited to each of the above-described embodiments, and includes design changes within a range that does not depart from the gist of the present invention.
In the second embodiment and the third embodiment, the specific configuration of the learning section has been described, but the present invention is not limited to this.
前記した各実施形態では、サッカーの試合映像を一例として説明したが、これに限定されない。特に、本発明は、カメラマンのカメラワークと被写体の位置との間に相関がある映像であれば、高精度なカメラパラメータを推定できるので好ましい。例えば、本発明は、バスケットボールやラグビーなどの試合映像、コンサートや舞台などの撮影映像に最適である。
さらに、本発明は、世界座標系が共通する場合、学習済み推論モデルをそのまま利用できる。例えば、国際規格に対応したサッカーフィールドであれば、同一の世界座標系を設定できるので、学習済み推論モデルをそのまま利用できる。
In each of the embodiments described above, a soccer game video was explained as an example, but the present invention is not limited to this. In particular, the present invention is preferable because highly accurate camera parameters can be estimated if the video has a correlation between the camera work of the cameraman and the position of the subject. For example, the present invention is most suitable for video of games such as basketball and rugby, and video of concerts and performances.
Furthermore, in the present invention, when the world coordinate system is common, a trained inference model can be used as is. For example, if it is a soccer field that complies with international standards, the same world coordinate system can be set, so a trained inference model can be used as is.
前記した第1実施形態では、カメラパラメータの読み出し時刻をオフセットさせるものとして説明したが、これに限定されない。つまり、オフセット時刻を0に設定してもよい。この場合、学習部は、同一時刻の状況データとフレーミングパラメータとを対応付けて学習することになる。
前記した第1実施形態では、変換規則及び逆変換規則の一例と、量子化規則及び逆量子化規則の一例とを説明したが、これに限定されない。
In the first embodiment described above, the reading time of camera parameters is explained as being offset, but the present invention is not limited to this. That is, the offset time may be set to 0. In this case, the learning unit learns by associating situation data and framing parameters at the same time.
In the first embodiment described above, an example of a conversion rule and an inverse conversion rule, and an example of a quantization rule and an inverse quantization rule were explained, but the present invention is not limited thereto.
前記した各実施形態では、フレーミング領域学習装置及びフレーミング領域推定装置を独立したハードウェアとして説明したが、本発明は、これに限定されない。例えば、本発明は、コンピュータが備えるCPU、メモリ、ハードディスク等のハードウェア資源を、前記した各装置として動作させるプログラムで実現することもできる。これらのプログラムは、通信回線を介して配布してもよく、CD-ROMやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。 In each of the embodiments described above, the framing region learning device and the framing region estimating device are described as independent hardware, but the present invention is not limited to this. For example, the present invention can be realized by a program that causes hardware resources such as a CPU, memory, and hard disk included in a computer to operate as each of the above-described devices. These programs may be distributed via communication lines, or may be written and distributed on recording media such as CD-ROMs and flash memories.
1 フレーミング領域学習装置
10A 状況データ記憶部(被写体情報記憶部)
10B カメラパラメータ記憶部
11 データ選択部
12 時刻調整部
13 状況データ読出部(被写体情報読出部)
14 カメラパラメータ読出部
15 変換部
16 量子化部
17 学習部
2 フレーミング領域推定装置
20 推定部
21 逆量子化部
22 逆変換部
170 推定部
171 逆量子化部
172 変換部
173,177 誤差評価部
174 パラメータ更新部
175 パラメータ記憶部
176 逆変換部
1 Framing
10B Camera
14 Camera
Claims (10)
予め設定した変換規則に基づいて、前記被写体情報に同期させて取得した前記カメラパラメータを前記フレーミングパラメータに変換する変換部と、
前記被写体情報と前記フレーミングパラメータとを対応付けて学習することにより、前記フレーミングパラメータの学習済み推論モデルを生成する学習部と、
を備えることを特徴とするフレーミング領域学習装置。 Converting camera parameters indicating the attitude and angle of view of the camera into framing parameters indicating a framing area to be framed by the camera, and associating the framing parameters with subject information indicating at least one of the position or speed of the subject. A framing area learning device for learning,
a conversion unit that converts the camera parameters acquired in synchronization with the subject information into the framing parameters based on a preset conversion rule;
a learning unit that generates a learned inference model of the framing parameter by learning the subject information and the framing parameter in association with each other;
A framing area learning device comprising:
前記被写体情報記憶部から所定時刻の前記被写体情報を読み出す被写体情報読出部と、
予め、前記カメラパラメータを記憶するカメラパラメータ記憶部と、
前記被写体情報の読出時刻に対して、予め設定したオフセット時刻だけオフセットした未来時刻の前記カメラパラメータを読み出すカメラパラメータ読出部と、をさらに備え、
前記変換部は、前記カメラパラメータ読出部が読み出したカメラパラメータを、前記未来時刻のフレーミングパラメータに変換し、
前記学習部は、前記読出時刻の被写体情報と前記未来時刻のフレーミングパラメータとを対応付けて学習することを特徴とする請求項1に記載のフレーミング領域学習装置。 a subject information storage unit that stores the subject information in advance;
a subject information reading unit that reads out the subject information at a predetermined time from the subject information storage unit;
a camera parameter storage section that stores the camera parameters in advance;
further comprising a camera parameter readout unit that reads out the camera parameters at a future time offset by a preset offset time with respect to the readout time of the subject information;
The conversion unit converts the camera parameters read by the camera parameter reading unit into framing parameters at the future time,
2. The framing area learning device according to claim 1, wherein the learning unit learns the object information at the read time and the framing parameter at the future time in association with each other.
前記学習部は、前記フレーミングパラメータの離散値と前記被写体情報とを対応付けて学習することを特徴とする請求項1から請求項4の何れか一項に記載のフレーミング領域学習装置。 a quantization unit that inputs the framing parameter as a continuous value on the world coordinate system from the conversion unit and quantizes the framing parameter into discrete values on the world coordinate system based on a preset quantization rule; Be even more prepared,
The framing area learning device according to any one of claims 1 to 4, wherein the learning unit learns by associating the discrete value of the framing parameter with the subject information.
被写体の位置又は速度の少なくとも一方を示す被写体情報を入力し、前記学習済み推論モデルにより、前記被写体情報に応じた前記フレーミングパラメータの推定値を出力する推定部と、
前記推定部が出力したフレーミングパラメータの推定値を、予め設定した逆変換規則に基づいて、前記カメラの姿勢と画角とを示すカメラパラメータの推定値に逆変換する逆変換部と、
を備えることを特徴とするフレーミング領域推定装置。 A framing area estimating device that estimates a framing parameter indicating a framing area of a camera using a learned inference model generated by the framing area learning device according to any one of claims 1 to 5,
an estimation unit that receives subject information indicating at least one of the position or speed of the subject and outputs an estimated value of the framing parameter according to the subject information using the learned inference model;
an inverse transformation unit that inversely transforms the estimated value of the framing parameter outputted by the estimation unit into the estimated value of the camera parameter indicating the attitude and angle of view of the camera, based on a preset inverse transformation rule;
A framing area estimation device comprising:
予め設定した逆量子化規則に基づいて、前記推定部から入力したフレーミングパラメータの推定値を前記世界座標系上の連続値に逆量子化する逆量子化部、をさらに備えることを特徴とする請求項6又は請求項7に記載のフレーミング領域推定装置。 The estimation unit outputs the estimated value of the framing parameter as a discrete value on a world coordinate system,
A claim further comprising: an inverse quantization unit that inversely quantizes the estimated value of the framing parameter input from the estimation unit into continuous values on the world coordinate system based on a preset inverse quantization rule. The framing area estimating device according to claim 6 or claim 7.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020027891A JP7449715B2 (en) | 2020-02-21 | 2020-02-21 | Framing area learning device, framing area estimating device, and programs thereof |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020027891A JP7449715B2 (en) | 2020-02-21 | 2020-02-21 | Framing area learning device, framing area estimating device, and programs thereof |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2021132349A JP2021132349A (en) | 2021-09-09 |
| JP7449715B2 true JP7449715B2 (en) | 2024-03-14 |
Family
ID=77551305
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020027891A Active JP7449715B2 (en) | 2020-02-21 | 2020-02-21 | Framing area learning device, framing area estimating device, and programs thereof |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7449715B2 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPWO2023062992A1 (en) * | 2021-10-12 | 2023-04-20 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006191524A (en) | 2004-12-09 | 2006-07-20 | Nikon Corp | Automatic framing device and photographing device |
| JP2018077807A (en) | 2016-11-11 | 2018-05-17 | Kddi株式会社 | Device, program and method for tracing body while taking multiple candidates into consideration at change point |
| JP2019140561A (en) | 2018-02-13 | 2019-08-22 | オリンパス株式会社 | Imaging apparatus, information terminal, control method of imaging apparatus, and control method of information terminal |
-
2020
- 2020-02-21 JP JP2020027891A patent/JP7449715B2/en active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006191524A (en) | 2004-12-09 | 2006-07-20 | Nikon Corp | Automatic framing device and photographing device |
| JP2018077807A (en) | 2016-11-11 | 2018-05-17 | Kddi株式会社 | Device, program and method for tracing body while taking multiple candidates into consideration at change point |
| JP2019140561A (en) | 2018-02-13 | 2019-08-22 | オリンパス株式会社 | Imaging apparatus, information terminal, control method of imaging apparatus, and control method of information terminal |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2021132349A (en) | 2021-09-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6818912B2 (en) | Video stabilization | |
| CN108848304B (en) | A target tracking method, device and panoramic camera for panoramic video | |
| CN102111549B (en) | Image processing apparatus and image processing method | |
| US8391542B2 (en) | Method for estimating the pose of a PTZ camera | |
| US11042997B2 (en) | Panoramic photographing method for unmanned aerial vehicle and unmanned aerial vehicle using the same | |
| JP7470518B2 (en) | Pan/tilt angle calculation device and program thereof | |
| US20120321132A1 (en) | Method of automatically tracking and photographing celestial objects, and celestial-object auto-tracking photographing apparatus | |
| TWI726536B (en) | Image capturing method and image capturing apparatus | |
| JP4960941B2 (en) | Camera calibration device for zoom lens-equipped camera of broadcast virtual studio, method and program thereof | |
| CN108513651A (en) | Handheld pan-tilt device, control method thereof, and computer-readable storage medium | |
| CN120780031B (en) | Binocular camera-based gimbal tracking method, device, and storage medium | |
| JP2007081682A (en) | Image processing apparatus, image processing method, and program executable by information processing apparatus | |
| JP7449715B2 (en) | Framing area learning device, framing area estimating device, and programs thereof | |
| CN117197257B (en) | A scene-adaptive camera calibration and zoom tracking method | |
| CN114608555B (en) | Target positioning method, system and storage medium | |
| JP4533284B2 (en) | Tracking imaging apparatus, tracking control method thereof, and control program | |
| CN100403768C (en) | Image generation method, object detection method, object detection device, and image generation program | |
| CN119450226A (en) | A robot shooting positioning method, device, equipment and medium | |
| WO2025033147A1 (en) | Information processing method, information processing device, and program | |
| JP2002039753A (en) | How to determine the photo shooting position for photo measurement | |
| JP2021128293A (en) | Focusing control device, pan focus camera, and program | |
| JP7324639B2 (en) | Subject position estimation device, focus assist device, and programs thereof | |
| CN114616819B (en) | Image pickup support device, image pickup system, image pickup support method, and storage medium | |
| CN121908122A (en) | Fish shoal detection preview method, device and equipment for improving anti-shake performance of underwater binocular camera | |
| JP7463133B2 (en) | Area measuring device, area measuring method, and program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230105 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231113 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240109 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240129 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240206 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240304 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7449715 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |