JP7625407B2 - Information processing device, control method thereof, and program - Google Patents
Information processing device, control method thereof, and program Download PDFInfo
- Publication number
- JP7625407B2 JP7625407B2 JP2020198081A JP2020198081A JP7625407B2 JP 7625407 B2 JP7625407 B2 JP 7625407B2 JP 2020198081 A JP2020198081 A JP 2020198081A JP 2020198081 A JP2020198081 A JP 2020198081A JP 7625407 B2 JP7625407 B2 JP 7625407B2
- Authority
- JP
- Japan
- Prior art keywords
- information processing
- unit
- imaging device
- frame
- estimation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Studio Devices (AREA)
Description
本発明は、情報処理装置及びその制御方法、並びにプログラムに関し、特に、カメラによる目標被写体の追尾撮影を制御する情報処理装置及びその制御方法、並びにプログラムに関する。 The present invention relates to an information processing device, a control method thereof, and a program, and in particular to an information processing device, a control method thereof, and a program for controlling tracking and photographing a target subject by a camera.
従来、ユーザが操作器からカメラを遠隔操作することで所望の映像を取得する、雲台システムが広く知られている。例えば、テレビのニュースで目にする航空機の映像は、空港屋上に常設された雲台装置を放送局から遠隔操作することで撮影されている。 Conventionally, a camera platform system has been widely known, in which a user remotely controls a camera using a control device to obtain the desired image. For example, the images of aircraft seen on television news are captured by a broadcasting station remotely controlling a camera platform device permanently installed on the roof of an airport.
また、この雲台装置に画像認識技術を搭載して、映像内に映る被写体を認識し、被写体の動きに合わせて自動でパン、チルト、ズームを動作させ追尾する自動追尾システムが提案されている。これにより、ユーザが操作器を操作しなくても。動きのある被写体を自動で撮影することができる。 An automatic tracking system has also been proposed that incorporates image recognition technology into the camera platform to recognize subjects in the image and automatically pan, tilt, and zoom to track the subject's movements. This makes it possible to automatically capture moving subjects without the user having to operate a controller.
近年、画像認識技術として機械学習(AI)を用いた例が知られており、例えば、特許文献1には、カメラで撮像される被写体を検出・監視するシステムが提案されている。
In recent years, examples of image recognition technology that uses machine learning (AI) have become known. For example,
しかし、特許文献1に開示された従来技術では、機械学習の処理結果の確からしさ(尤度)が低い場合に、サブカメラのアングルを変更するため、主カメラでは被写体の追尾ができず、連続した追尾映像を撮影できない。被写体の検出精度を向上させ、尤度が低下するケースを取り除くことができれば、主カメラによる追尾映像が撮影可能だが、そのためには多くの学習が必要となる。
However, in the conventional technology disclosed in
本発明は上述した課題に鑑みてなされたものであり、被写体の検出精度が低下するケースでも、特別な学習を必要とせず、撮影中の被写体を追尾することができる情報処理装置及びその制御方法、並びにプログラムを提供することを目的とする。 The present invention has been made in consideration of the above-mentioned problems, and aims to provide an information processing device, a control method thereof, and a program that can track a subject during shooting without requiring special learning, even in cases where the subject detection accuracy is reduced.
本発明の請求項1に係る情報処理装置は、動画像を撮影する撮像装置のパン、チルト、ズームを制御することにより、前記撮像装置により目標被写体を追尾する情報処理装置であって、前記撮像装置で撮影された動画像のフレームを取得する取得手段と、前記取得したフレーム内に存在するオブジェクトを推定する推定手段と、前記推定されたオブジェクトが予め設定された追尾オブジェクトである場合、前記取得したフレーム内に存在するオブジェクトを追尾するよう前記撮像装置を制御する制御手段とを備え、前記制御手段は、前記取得したフレーム内に存在するオブジェクトのサイズが第1の閾値以下である場合、前記追尾オブジェクトを前記予め設定された追尾オブジェクトよりも実サイズが小さいオブジェクトに再設定することを特徴とする。
The information processing device of
本発明によれば、被写体の検出精度が低下するケースでも、特別な学習を必要とせず、撮影中の被写体を追尾することができる。 According to the present invention, even in cases where the accuracy of subject detection is reduced, it is possible to track a subject during shooting without requiring special learning.
図1は、本発明の実施形態に係る情報処理装置100を含む自動追尾システム1を示す図である。
Figure 1 is a diagram showing an
図1において、自動追尾システム1は、情報処理装置100、雲台装置200、操作装置300、及びネットワークNETを備える。
In FIG. 1, the
操作装置300は、ユーザ操作を受け付ける装置であり、その受け付けたユーザ操作に応じた指令(制御信号)が、ネットワークNET及び情報処理装置100を経由し、雲台装置200に送信される。
The
雲台装置200は、操作装置300から送信された制御信号の内容に応じて動作する。これにより、ユーザは、雲台装置200の遠隔操作が可能となる。雲台装置200が備えるカメラ201(図2)で撮影された映像は、情報処理装置100に入力され、自動追尾撮影に必要な各種演算及び記録が行われる。
The pan-and-
ネットワークNETは、公衆電話回線やインターネット等の通信回線である。雲台装置200及び情報処理装置100は、空港や鉄塔、テレビ局屋上といったスポットに設置され、操作装置300はテレビ局内等に設置される。以下、本実施例では、情報処理装置100及び雲台装置200が空港に設置され、雲台装置により自動追尾撮影される対象物が航空機である場合について説明する。
The network NET is a communication line such as a public telephone line or the Internet. The
図2は、情報処理装置100、雲台装置200、及び操作装置300のハードウェア構成を示す図である。
Figure 2 is a diagram showing the hardware configuration of the
情報処理装置100は、RAM101、GPU102、CPU103、入力部104、記憶部105、シリアル通信部106、ネットワーク通信部107、及びUI部108を備える。
The
雲台装置200は、カメラ201、駆動部202、シリアル通信部203、CPU204、及び記憶部205を備える。
The
操作装置300は、ネットワーク通信部301、操作部302、記憶部303、CPU304、及び表示部305を備える。
The
以下、情報処理装置100のハードウェア資源の詳細について説明する。
The details of the hardware resources of the
RAM101は、揮発性のメモリであり、CPU103の主メモリ、ワークエリア等の一時記憶領域として用いられる。
CPU103は、例えば記憶部105に格納されるプログラムに従い、RAM101をワークメモリとして用いて、情報処理装置100の各部を制御する。
The
GPU102は、データの並列処理により効率的な演算を行うことができるので、以下後述するようにディープラーニングにより学習モデルを用いて複数回に渡り学習を行う処理はGPU102で行われる。
Since GPU 102 can perform efficient calculations through parallel processing of data, the process of learning multiple times using a learning model through deep learning, as described below, is performed by
入力部104(取得手段)は、映像信号を有線の映像信号線を介して情報処理装置100に入力するためのインターフェイスであり、例えばUSB等の各種通信インターフェイスである。
The input unit 104 (acquisition means) is an interface for inputting a video signal to the
記憶部105は、不揮発性のメモリであり、画像データやその他のデータ、CPU103が動作するための各種プログラム等が、それぞれ所定の領域に格納されている。記憶部105は、例えばHDDやフラッシュメモリなどの磁気ディスクにより構成される。
The
シリアル通信部106は、CPU103の制御に基づき、雲台装置200とシリアル通信をするためのインターフェイスである。
The
ネットワーク通信部107は、CPU103の制御に基づき、ネットワークNETを介して操作装置300と通信するための通信インターフェイスである。
The
UI部108は、情報処理装置100に対するユーザ操作を受け付けると共に、ユーザへ情報処理装置100の情報を表示するためのユーザインターフェイスである。UI部108は、具体的には、タッチパネルにより構成されるが、キーボードやマウス、ディスプレイ等をさらに備えていてもよい。
The
以下、雲台装置200のハードウェア資源の詳細について説明する。
The hardware resources of the
カメラ201(撮像装置)は、雲台装置200が設置された周囲を撮影し、目標被写体の映像を撮影する。カメラ201は撮影倍率を変更可能な光学ズームレンズが備えている。すなわち、雲台装置200は、CPU204からカメラ201に光学ズームレンズに対する光学ズーム制御命令を送信することで、撮像映像の倍率を変更する光学ズーム機能を有する。さらに、雲台装置200は、CPU204からカメラ201に撮像された画像の一部を局所的に拡大させるデジタルズーム制御命令を送信することで、撮像映像の倍率を変更するデジタルズーム機能も有する。デジタルズーム機能は、光学ズーム機能では倍率が足りない場合、すなわち、より撮影映像を拡大したい場合に利用される。また、カメラ201は、情報処理装置100の入力部104と有線の映像信号線で接続されており、撮影した映像信号を情報処理装置100へ出力する。
The camera 201 (imaging device) captures the surroundings around the
駆動部202は、雲台装置200をパン、チルト方向に旋回させるためのアクチュエータ及びその駆動回路、周辺回路である。すなわち、雲台装置200は、CPU204から駆動部202に目標被写体に対してパン、チルト方向に旋回する追尾制御命令を送信することで追尾映像を撮影する追尾撮影機能を有する。
The
シリアル通信部203は、情報処理装置100のシリアル通信部106と接続され、CPU204の制御に基づき、情報処理装置100とシリアル通信をするためのインターフェイスである。
The
CPU204は、例えば記憶部205に格納されるプログラムに従い、雲台装置200の各部を制御する。
The
記憶部205は、不揮発性のメモリであり、雲台装置200の設定データやその他のデータ、CPU204が動作するための各種プログラム等が、それぞれ所定の領域に格納されている。
The
以下、操作装置300のハードウェア資源の詳細について説明する。
The hardware resources of the
ネットワーク通信部301は、CPU304の制御に基づき、ネットワークNETを介して情報処理装置100と通信するための通信インターフェイスである。
The
操作部302は、ジョイスティック、操作レバーや各種スイッチであり、ユーザは、操作部302を操作することで、雲台装置200の旋回制御やズーム制御、ゲインなどの調整を行う。尚、ここでのズーム制御は、上述した光学ズーム機能及びデジタルズーム機能を利用したズーム制御を指す。
The
記憶部303は、不揮発性のメモリであり、操作装置300の設定データやその他のデータ、CPU304が動作するための各種プログラム等が、それぞれ所定の領域に格納されている。
The
CPU304は、例えば記憶部303に格納されるプログラムに従い、操作装置300の各部を制御する。
The
表示部305は、LED及びタッチパネルを備え、雲台装置200のステータスや警告等をユーザに通知する。
The
尚、CPU103、CPU204、CPU304はいずれも、1つ以上のプロセッサーにより構成するようにしてもよい。
Note that
図3は、図2に示す情報処理装置100、雲台装置200、及び操作装置300が備えるハードウェア資源及びプログラムを利用することで実現されるソフトウェア構成を示す図である。
Figure 3 is a diagram showing a software configuration realized by using the hardware resources and programs provided in the
以下、情報処理装置100のソフトウェア構成について説明する。
The software configuration of the
情報処理装置100は、学習部150、データ記憶部151、推定対象設定部152、モード管理部153、画像処理部154、推定部155、推定結果処理部156、及び雲台制御部157を備える。
The
学習部150(学習手段)は、推定部155で推定処理を行うための学習処理を実行する。学習部150により実行される学習処理の詳細な内容については後述する。
The learning unit 150 (learning means) executes a learning process to enable the
データ記憶部151は、自動追尾撮影した映像の記録処理や、学習用データの記録処理を行う。
The
推定対象設定部152は、推定部155が出力するオブジェクトのタグを管理する。ここで、タグは、学習部150に入力する学習用データの一部、及び推定部155が出力するデータのひとつであり、オブジェクトが何であるかを示すラベルである。タグの具体例として、航空機、犬、猫、鳥などが挙げられる。推定対象設定部152には、ユーザが自動追尾撮影したいオブジェクトのタグを予め設定することができ、複数のタグを設定することも可能である。本実施例では、航空機の自動追尾撮影を行うため、航空機のタグが自動追尾撮影したいオブジェクトのタグとして設定される。
The estimation
モード管理部153は、情報処理装置100のモードを管理し、学習モード、自動追尾モード、マニュアルモードの3モードを管理する。各モードの詳細な内容については後述する。
The
画像処理部154は、雲台装置200から受信した映像信号(画像;フレーム)の処理を行う。具体的には受信した画像のリサイズや、輝度調整である。
The
推定部155(推定手段)は、画像処理部154から出力された画像を入力データとし、学習部150によって生成された学習済みモデルへ入力し推定処理を行う。これにより、、雲台装置200から受信したフレーム内に存在する被写体(オブジェクト)を推定する。
The estimation unit 155 (estimation means) uses the image output from the
推定結果処理部156は、推定部155から出力された推定結果に追尾対象が含まれている場合、各種ノイズ処理、平均化処理を実施し、追尾対象の映像内の位置(被写体現在位置)を出力する。雲台装置200で撮影する映像には、追尾対象以外のノイズ(航空機以外の航空機や、背景の一部や雲など航空機と見間違えるもの)が存在する。推定結果処理部156では、これらのノイズを処理し、信頼度の高い被写体現在位置を出力する役割がある。また、前述した推定対象設定部152に航空機に加えて他のタグを設定すると、推定結果処理部156でのノイズ処理に負荷がかかったり、出力する被写体の現在位置の信頼性が低下したりする。そのため、推定対象設定部152に設定するタグは、必要最小限にしておくことが好ましい。
When the estimation result output from the
雲台制御部157は、前述したモードに応じて、雲台装置200を制御する制御信号を演算し、雲台装置200へ出力する。現在のモードが自動追尾モードの場合は、被写体の現在位置と、追尾目標位置(追尾撮影中に撮影画面内で被写体を保持したい位置)を基に、雲台装置200を制御する制御信号を演算し、雲台装置200へ出力する。また、現在のモードがマニュアルモードの場合は、操作装置300から送信された制御信号を雲台装置200へ出力する。
The tripod
尚、学習部150による処理にはCPU103に加えてGPU102を用いる。具体的には、学習モデルを含む学習プログラムを実行する場合に、CPU103とGPU102が協働して演算を行うことで学習処理を行う。また、推定部155も学習部150と同様にCPU103に加えてGPU102が協働して演算を行うことで推定処理を行う。尚、学習部150及び推定部155の処理は、CPU103またはGPU102の演算処理能力によっては、CPU103またはGPU102のみにより演算が行われても良い。
The
以下、雲台装置200のソフトウェア構成について説明する。
The software configuration of the
雲台装置200は、パンチルト制御部250、カメラ制御部251、設定管理部252、及び通信部253を備える。
The
パンチルト制御部250は、通信部253で受信した駆動部202の駆動を制御する制御信号に基づいて、パン、チルトを駆動するための信号を、駆動部202へ出力する。
The pan/
カメラ制御部251は、通信部253で受信したカメラ201を制御する制御信号に基づいて、カメラ201を制御するための信号を、カメラ201へ出力する。
The
設定管理部252は、操作装置300の設定を管理する。設定管理部252で管理される具体的な設定項目としては、パン、チルトの最高速や、駆動可能範囲などの駆動パラメータが挙げられる。
The
通信部253は、雲台制御部157と予め定めた通信ルール(プロトコル)に則って、制御指令や、ステータス情報のやり取りを行う。
The
以下、操作装置300のソフトウェア構成について説明する。
The software configuration of the
操作装置300は、通信部350、及び表示部351を備える。
The operating
通信部350は、雲台制御部157と予め定めた通信ルール(プロトコル)に則って、制御信号やステータス情報のやり取りを行う。
The
図4は、推定部155での推定処理の概念図である。
Figure 4 is a conceptual diagram of the estimation process in the
図4に示すように、推定部155は、学習済みモデル403に入力データ400を入力して推定処理を実行し、学習済みモデル403から出力データ401を出力する。
As shown in FIG. 4, the
入力データ400は、雲台装置200のカメラ201で撮影され、画像処理部154で処理された画像データである。尚、雲台装置200は動画を撮影するため、実際に入力データ400として学習済みモデル403に入力されるデータは、動画像中の1フレームである。
The
出力データ401は、入力データ400である画像内に存在すると推定されたオブジェクトのタグ、座標、尤度を含む。
The
推定されたオブジェクトのタグは、学習時に入力した学習用データに含まれるタグの中から選択される。学習用データの詳細については後述する。 The tags of the estimated objects are selected from the tags contained in the training data entered during training. Details of the training data will be described later.
推定されたオブジェクトの座標は、画像402に示すように、推定されたオブジェクトの外接枠の左上座標(座標1)と、右下座標(座標2)である。この2点の座標から、オブジェクトサイズや中心点座標が演算できる。
The coordinates of the estimated object are the upper left coordinate (coordinate 1) and the lower right coordinate (coordinate 2) of the bounding box of the estimated object, as shown in
推定されたオブジェクトの尤度は、0~1の値であり、値が大きい程、出力するタグに対する学習済みモデル403による推定結果の信頼度が高いことを示す。
The likelihood of an estimated object is a value between 0 and 1, and the higher the value, the higher the reliability of the estimation result by the trained
学習済みモデル403は、ニューラルネットワークであり、これの内部パラメータは学習部150による学習モデルの機械学習によって生成される。
The trained
尚、学習部150は、誤差検出部及び更新部を備える。
The
誤差検出部は、入力層に入力される入力データに応じてニューラルネットワークの出力層から出力される出力データと、教師データとの誤差を得る。誤差検出部は、損失関数を用いて、ニューラルネットワークからの出力データと教師データとの誤差を計算するようにしてもよい。 The error detection unit obtains the error between the teacher data and the output data output from the output layer of the neural network in response to the input data input to the input layer. The error detection unit may use a loss function to calculate the error between the output data from the neural network and the teacher data.
更新部は、誤差検出部で得られた誤差に基づいて、その誤差が小さくなるように、ニューラルネットワークのノード間の結合重み付け係数等を更新する。この更新部は、例えば、誤差逆伝播法を用いて、結合重み付け係数等を更新する。誤差逆伝播法は、上記の誤差が小さくなるように、各ニューラルネットワークのノード間の結合重み付け係数等を調整する手法である。 The update unit updates the connection weighting coefficients between the nodes of the neural network based on the error obtained by the error detection unit so as to reduce the error. This update unit updates the connection weighting coefficients, for example, using the backpropagation method. The backpropagation method is a technique for adjusting the connection weighting coefficients between the nodes of each neural network so as to reduce the above-mentioned error.
図5は、本実施形態に係る学習フェーズでの処理の詳細な流れを示すフローチャートである。 Figure 5 is a flowchart showing the detailed flow of processing in the learning phase according to this embodiment.
まずステップS500で、CPU103は、モード管理部153により管理されている現在のモードが学習モードか否かを判断する。この結果、CPU103が学習モードであると判断した場合はステップS501に進み、そうでない場合は、ステップS506に進む。
First, in step S500, the
ステップS501では、CPU103は、データ記憶部151から学習用データを一つ読み出してステップS502に進む。ここで、学習用データについて図6を参照し説明する。
In step S501, the
図6は、学習部150に入力される学習用データの例を示す図である。
Figure 6 shows an example of learning data input to the
学習用データは、画像とその画像内に含まれるオブジェクトのタグ(教師データ)が紐づけられたデータである。尚、画像に含まれるオブジェクトはひとつであることが好ましく、画像サイズは、複数の学習用データ間で同一であることが好ましい。本実施例では、空港で航空機の自動追尾撮影を行うため、入力データとして航空機の映像を用意し、加えて自動追尾撮影中に、雲台装置200のカメラ201に写る可能性が高い他のオブジェクト映像を用意する。具体的な他のオブジェクトは、例えば鳥や凧が挙げられる。また、これらのオブジェクトの画像は、予め雲台装置200を用いて撮影・記録すればよい。学習用データのうち、教師データは前述したオブジェクトの画像からオブジェクトが何であるかを目視で判断し、設定する。図6では学習用データ601~603を例示しており、それぞれ、航空機、鳥、凧が入力データである画像に含まれるオブジェクトである例を示す。
The learning data is data in which an image and a tag (teaching data) of an object contained in the image are linked. Note that an image preferably contains one object, and the image size is preferably the same among multiple learning data. In this embodiment, to perform automatic tracking and shooting of an aircraft at an airport, an image of the aircraft is prepared as input data, and in addition, images of other objects that are likely to be captured by the
続いて、図5に戻り、ステップS502では、CPU103は、データ記憶部151から読み出した学習用データが決められたルール通り(正規)か否かを判断する。この結果、CPU103がルール通りであると判断した場合は、ステップS503に進み、そうでない場合はステップS501に戻る。
Returning to FIG. 5, in step S502, the
ステップS503では、CPU103は、データ記憶部151から読み出した学習用データを学習部150にあるニューラルネットワークである学習モデルに入力する。
In step S503, the
ステップS504では、CPU103とGPU102が協働して、学習部150で学習処理を行い、学習モデルの内部パラメータを更新する。
In step S504, the
続いて、ステップS505では、CPU103は、データ記憶部151に記録されている全ての学習用データに基づく学習が済んだか否かに応じ、全ての学習が済んだ場合は本処理を終了する一方、そうでなければステップS501に戻る。
Next, in step S505, the
以上の処理によって、推定部155により推定処理が実行される学習済みモデル403の内部パラメータが決定される。
By the above processing, the internal parameters of the trained
尚、ステップS506以降の処理は、前述したモードが、マニュアルモードもしくは、自動追尾モード時の処理の流れを示す。 The process from step S506 onwards shows the process flow when the aforementioned mode is manual mode or automatic tracking mode.
ステップS506では、CPU103は、現在のモードがマニュアルモードか否かを判断する。この結果、CPU103が現在のモードがマニュアルモードであると判断した場合は、ステップS507に進み、そうでなければ、ステップS509に進む。
In step S506, the
ステップS507では、CPU103は、操作装置300からの制御信号(指令)を受信し、ステップS508に進む。
In step S507, the
ステップS508では、CPU103は、受信した制御信号を雲台装置200へ送信し、本処理を終了する。
In step S508, the
ステップS509では、CPU103は、後述する自動追尾モード処理を実行した後、本処理を終了する。
In step S509, the
図7は、図4の学習済みモデル403を利用した自動追尾システム1における自動追尾撮影動作を説明する図である。
Figure 7 is a diagram explaining the automatic tracking and shooting operation in the
まず、ステップS701にて、操作装置300から情報処理装置100に追尾開始命令の制御信号が送信される。尚、この制御信号は、操作装置300の操作部302に対して所定のユーザ操作があったときに、CPU304により生成され、情報処理装置100に送信される。
First, in step S701, a control signal for a tracking start command is transmitted from the
続いて、ステップS702にて、情報処理装置100から雲台装置200に追尾開始位置命令の制御信号が送信される。追尾開始位置とは、自動追尾撮影を開始する雲台装置200のパン、チルト、ズームの位置であり、ユーザが操作部302を操作することで、予め雲台装置200の記憶部205に保持させておく。
Next, in step S702, the
ステップS703にて、追尾開始位置命令を受信した雲台装置200のCPU204は、パン、チルト、ズームの位置を追尾開始位置に移動する。
In step S703, the
ステップS704にて、パン、チルト、ズームの位置が追尾開始位置に到達したら、雲台装置200のCPU204は、情報処理装置100へ、追尾開始位置に到達したこと及び、カメラ201で撮影した映像信号を送信する。
In step S704, when the pan, tilt, and zoom positions reach the tracking start position, the
ステップS705にて、雲台装置200から映像信号を受信した情報処理装置100のCPU103は、記憶部105に雲台装置200からの映像信号を記録する記録処理を開始する。
In step S705, the
続いて、ステップS706-1にて、CPU103は、GPU102と協働して、受信した映像信号(画像)に含まれる被写体を推定する推定処理を行う。
Next, in step S706-1, the
さらに、ステップS706-2にて、CPU103は、推定結果処理部156及び雲台制御部157によって雲台制御命令を演算し、ステップS707にて、CPU103は、演算した雲台制御命令の制御信号を雲台装置200へ送信する。
Furthermore, in step S706-2, the
ステップS708にて、雲台装置200のCPU204は、駆動部202で受信した制御信号に従ってパン、チルトの位置を制御すると共にカメラ201でズームを制御する。その後、ステップS709にて、CPU204は、カメラ201で撮影した映像信号を情報処理装置100へ送信する。
In step S708, the
以降、ステップS706-1~ステップS709の処理が実行されることで、目標被写体の自動追尾撮影が可能となる。 Then, the processing of steps S706-1 to S709 is executed, enabling automatic tracking and shooting of the target subject.
図8は、本実施形態に係る推定フェーズにおける処理の詳細な流れを示すフローチャートである。尚、この処理は、図5のステップS509の自動追尾モード処理でもある。よって、以下、本処理を自動追尾モード処理という。 Figure 8 is a flowchart showing a detailed flow of processing in the estimation phase according to this embodiment. Note that this processing is also the automatic tracking mode processing of step S509 in Figure 5. Therefore, hereinafter, this processing will be referred to as automatic tracking mode processing.
自動追尾モードが開始し、ステップS800aで、CPU103は、雲台装置200から画像(動画像のフレーム)を情報処理装置100の入力部104で受信する。
The automatic tracking mode starts, and in step S800a, the
ステップS800で、CPU103は、受信した画像に対し、画像処理部154でサイズの変更(リサイズ)を行う。推定部155は、学習済みモデル403に入力データ400として入力する画像データのサイズが大きければ大きいほど、推定処理に時間がかかる。すなわち、ステップS800の処理は、入力データ400のサイズを小さくすることで、推定処理に要する時間を削減する目的がある。本実施形態では、ステップS800でのサイズ変更後における推定処理に要する時間が50ms程度になるように入力データ400をリサイズする。但し、推定処理に要する時間はCPU103やGPU102の演算処理能力に関わるため、この限りではない。
In step S800, the
続いて、ステップS801では、CPU103は、推定対象設定部152から推定対象とするタグ(追尾オブジェクト)を取得する。本実施形態では、推定対象設定部152の初期値として、航空機が設定されているので、ステップS801において、タグとして航空機が取得される。
Next, in step S801, the
続いてステップS802では、CPU103は、ステップS800でリサイズした入力データ400を学習済みモデル403に入力する。
Next, in step S802, the
ステップS803では、CPU103とGPU102が協働して推定部155で推定処理を実行し、出力データ401を出力する。
In step S803, the
続いてステップS804に進み、CPU103は、出力データ401にステップS801で取得したタグが含まれるかを判断する。この結果、CPU103が出力データ401にステップS801で取得したタグが含まれると判断した場合、ステップS805に進み、そうでない場合はステップS890に進む。
Then, the process proceeds to step S804, where the
ステップS890では、CPU103は、雲台装置200に停止指令の制御信号を送信し、ステップS891に進む。
In step S890, the
ステップS891では、CPU103は、モード管理部153により管理されている現在のモードをマニュアルモードに変更し、自動追尾モード処理を終了する。
In step S891, the
このように、ステップS804において、推定部155からの出力データ401に、推定対象設定部152で設定したタグが含まれなかった場合、CPU103は、追尾対象が撮影可能範囲から消失したと判断し、自動追尾モードを終了する。
Thus, in step S804, if the
ステップS805では、CPU103(演算手段)は、出力データ401に含まれる、推定されたオブジェクトの外接枠の左上座標と右下座標から、画面内における推定されたオブジェクトのオブジェクトサイズと中心点座標を演算する。次に、CPU103(制御手段)は、演算された中心点座標と、追尾目標位置の差分を基に、パン、チルトの制御指令を演算し、その指令の制御信号を雲台装置200に送信する。同様に、CPU103(制御手段)は、演算されたオブジェクトサイズと追尾目標サイズを基にズームの制御指令を演算し、その指令の制御信号を雲台装置200に送信する。追尾目標位置と、追尾目標サイズは、予め情報処理装置100の記憶部105に登録しておけばよい。本実施形態では、追尾目標位置として画面内の中心座標が、追尾目標サイズとして画面の30%のサイズが予め登録されているが、これに限らない。また、追尾目標位置と追尾目標サイズは、操作装置300から情報処理装置100に設定できる構成としても良い。
In step S805, the CPU 103 (calculation means) calculates the object size and center point coordinates of the estimated object in the screen from the upper left coordinates and lower right coordinates of the circumscribing frame of the estimated object included in the
以上までの処理により、雲台装置200は情報処理装置100から送信されたパン、チルトの制御指令及びズームの制御指令の制御信号に従って、カメラ201の旋回・変倍制御を行う。また、かかる旋回・変倍制御中にカメラ201で撮影された映像が、情報処理装置100に再び送信される。以下後述する場合を除き(ステップS808でNO)、上記再び雲台装置200から送信された画像を入力データ400とし、ステップS800aからの処理が繰り返される。これにより、CPU103は、カメラ201からフレームを受信する毎に、その受信したフレームに基づいてカメラ201の自動追尾撮影を制御することが実現できる。
By the above processing, the
ところで、離陸中の航空機を、常設された雲台装置200から撮影する場合、航空機は雲台装置200から遠ざかるため、自動追尾モードにおいてはステップS805での上記ズームの制御指令により追尾目標サイズに近づくよう制御する。しかし、カメラ201でかかる自動追尾撮影を継続すると、入力データ400中の航空機のサイズは小さくなり、画像の画質劣化が生じる。その結果推定部155からの出力データ401にある航空機のタグの尤度が低くなる。また、カメラ201でのカメラ201での光学ズーム可能な領域を超え、デジタルズームにより、入力データ400中の航空機のズームを行う場合、画像の画質劣化が生じる。これによっても、推定部155からの出力データ401にある航空機のタグの尤度が低くなる。このような場合、雲台装置200から送信された画像に含まれる被写体に航空機が存在しても学習済みモデル403によるその被写体を航空機と推定する精度が下がるため、自動追尾撮影の継続が難しい。
When an aircraft taking off is photographed from a permanently installed
よってステップS806以降の処理では、以下説明する通り、ステップS805での演算結果、ステップS803で得られた出力データ401、及びステップS800aで受信したフレームのメタ情報の少なくとも1つの情報に応じて推定対象を再設定する。これにより、情報処理装置100による、雲台装置200による航空機の自動追尾撮影の制御を可能とする。
Therefore, in the processing from step S806 onwards, as described below, the estimation target is reset according to at least one of the calculation results from step S805, the
ステップS806では、CPU103は、ステップS805で演算されたオブジェクトサイズが所定値以下(第1の閾値以下)であるか否かを判断する。この結果、CPU103が演算されたオブジェクトサイズが所定値以下であると判断した場合は、ステップS809に進み、そうでない場合は、ステップS807に進む。
In step S806, the
ステップS807では、CPU103は、出力データ401からオブジェクトの尤度を取得し、尤度が所定値以下(第2の閾値以下)である場合は、ステップS809に進み、そうでない場合はステップS808に進む。
In step S807, the
ステップS808では、CPU103は、カメラ201において画質低下要因があるか否かを判断する。この結果、CPU103がカメラ201において画質低下要因があると判断した場合は、ステップS809に進み、そうでない場合はステップS800aに戻る。実施形態では、CPU103は、ステップS800aで受信したフレームの撮影時において、カメラ201がデジタルズームを使用している場合、画質低下要因があると判断する。尚、カメラ201からフレームを取得する際、そのフレームのメタ情報として、撮影時のデジタルズームを使用有無の情報も取得する。
In step S808, the
尚、画質低下要因の有無の判断は、撮影されたフレームの輝度、その撮影の際のカメラ201のゲイン、その撮影の際の時刻を単独又は複合的に行うようにしても良い。例えば、カメラ201からフレームを取得する際、そのフレームのメタ情報として、撮影時の輝度、ゲイン、及び撮影時刻も取得するようにする。これにより、CPU103は、取得したメタ情報から、フレーム撮影時の輝度が低く、カメラ201のゲインが高く、かつ撮影時刻が夜間である場合には、画質低下要因があると判断できる。
The presence or absence of factors that degrade image quality may be determined based on the brightness of the captured frame, the gain of the
ステップS809では、CPU103は、推定対象設定部152で管理される推定対象を再設定する。具体的には、初期値である航空機に加え、航空機と誤認しやすいタグ(本実施形態においては、航空機より実サイズが小さい鳥及び凧のタグ)を設定し、ステップS800aに戻る。尚、誤認しやすいタグについては、追尾目標サイズとして航空機の場合より小さいサイズ、ここでは画面の10%のサイズが予め登録されている。これにより、以降新たに雲台装置200から受信する画像(次フレーム以降の画像)に基づく入力データ400からは、推定部155は、ステップS803において航空機以外に鳥や凧のタグを含む出力データ401を出力することとなる。よって、ステップS804にて推定部155が航空機以外のタグを出力した、すなわち、推定結果が航空機を鳥や凧と誤認した結果となったとしても、航空機の自動追尾撮影を継続することが可能となる。
In step S809, the
尚、本実施形態では推定対象設定部152で管理される推定対象を再設定した際に、CPU103(通知手段)が、シリアル通信部106を介して雲台装置200にその旨を通知してもよい。この場合、雲台装置200は、かかる通知を受信した際、内部で保持する駆動パラメータを変更する。具体的には、推定対象が鳥や凧に再設定された場合、その実サイズは推定対象の初期値である飛行機より小さく、且つ画面内での移動量も小さくなる。そこで、雲台装置200は、設定管理部252で管理されるパン、チルト、ズームの駆動パラメータを変更し、推定対象が再設定される前より微細な制御を実現する。
In this embodiment, when the estimation target managed by the estimation
尚、本実施形態では、ステップS806,S807,S808の判断は、この順で実行されたが、これらの少なくとも1つのみを判断するようにしてもよいし、異なる順で実行するようにしてもよい。 In this embodiment, the determinations of steps S806, S807, and S808 are performed in this order, but it is also possible to determine only one of these, or to perform them in a different order.
尚、本実施形態では航空機が離陸するシーンを自動追尾撮影する例として説明をしたが、これに限らず、航空機が着陸するシーンを自動追尾撮影しても良い。 Note that in this embodiment, an example has been described in which automatic tracking and photography is performed on a scene in which an aircraft is taking off, but this is not limiting, and automatic tracking and photography may also be performed on a scene in which an aircraft is landing.
尚、本実施形態では、情報処理装置100と雲台装置200間をシリアル通信と、有線の映像信号線で接続したが、これに限らず公衆電話回線や、インターネット等の通信回線で接続しても良い。例えば、情報処理装置100はクラウドサーバであってもよい。
In this embodiment, the
さらに、本実施形態では、学習部150も情報処理装置100内に存在したが、学習部150は情報処理装置100と接続する外部装置に存在してもよい。この場合、情報処理装置100は、学習済みモデル403の内部パラメータをその外部装置より取得する。
In addition, in this embodiment, the
尚、上述した各処理部のうち、推定部155については、機械学習された学習済みモデル403を用いて推定処理を実行したが、ルックアップテーブル(LUT)等のルールベースの推定処理を行ってもよい。その場合には、例えば、入力データ400と出力データ401との関係を予めLUTとして作成する。そして、この作成したLUTを情報処理装置100の記憶部105に格納しておくとよい。推定部155の推定処理を行う場合には、この格納されたLUTを参照して、出力データを取得することができる。つまりLUTは、学習済みモデル403と同等の処理をするためのプログラムとして、CPUあるいはGPUなどと協働で動作することにより、推定部155の推定処理を行う。
Note that, among the above-mentioned processing units, the
また、学習部150は、追尾対象及びこれと誤認しやすいもの以外のオブジェクトのタグ(例えば雲。以下、「不正解タグ」という。)に紐づいたオブジェクト映像についても学習用データとして用いて学習するようにしてもよい。この場合、ステップS809で推定対象を再設定する際に不正解タグも加える。その後、ステップS804で出力データ401に含まれるタグが不正解タグしかない場合、ステップS890に進み、情報処理装置100は、追尾対象が撮影可能範囲から消失したと判断し、自動追尾モードを終了する。
The
尚、本実施形態では、学習部150により学習処理がなされる学習モデル、及び推定部の推定処理に用いられる学習済みモデル403は、ニューラルネットワークのアルゴリズムを利用したものであったが、その他のアルゴリズムを利用したものであってもよい。例えば、決定木やSVM(Support Vector Machine)のアルゴリズムを用いたものであってもよい。
In this embodiment, the learning model that is learned by the
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワークまたは記憶媒体を介してシステムまたは装置に供給し、そのシステムまたは装置のコンピュータがプログラムを読出し実行する処理でも実現可能である。コンピュータは、1または複数のプロセッサーまたは回路を有し、コンピュータ実行可能命令を読み出し実行するために、分離した複数のコンピュータまたは分離した複数のプロセッサーまたは回路のネットワークを含みうる。 The present invention can also be realized by providing a program that realizes one or more functions of the above-described embodiments to a system or device via a network or storage medium, and having a computer in the system or device read and execute the program. The computer has one or more processors or circuits, and may include multiple separate computers or a network of multiple separate processors or circuits to read and execute computer-executable instructions.
プロセッサーまたは回路は、中央演算処理装置(CPU)、マイクロプロセッシングユニット(MPU)、グラフィクスプロセッシングユニット(GPU)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートウェイ(FPGA)を含みうる。また、プロセッサーまたは回路は、デジタルシグナルプロセッサ(DSP)、データフロープロセッサ(DFP)、またはニューラルプロセッシングユニット(NPU)を含みうる。 The processor or circuitry may include a central processing unit (CPU), a microprocessing unit (MPU), a graphics processing unit (GPU), an application specific integrated circuit (ASIC), or a field programmable gateway (FPGA). The processor or circuitry may also include a digital signal processor (DSP), a data flow processor (DFP), or a neural processing unit (NPU).
100 情報処理装置
103,204 CPU
106,203 シリアル通信部
150 学習部
152 推定対象設定部
155 推定部
157 雲台制御部
200 雲台装置
201 カメラ
202 駆動部
300 操作装置
NET ネットワーク
100
106, 203
Claims (12)
前記撮像装置で撮影された動画像のフレームを取得する取得手段と、
前記取得したフレーム内に存在するオブジェクトを推定する推定手段と、
前記推定されたオブジェクトが予め設定された追尾オブジェクトである場合、前記取得したフレーム内に存在するオブジェクトを追尾するよう前記撮像装置を制御する制御手段とを備え、
前記制御手段は、前記取得したフレーム内に存在するオブジェクトのサイズが第1の閾値以下である場合、前記追尾オブジェクトを前記予め設定された追尾オブジェクトよりも実サイズが小さいオブジェクトに再設定することを特徴とする情報処理装置。 An information processing device that tracks a target subject by controlling pan, tilt, and zoom of an imaging device that captures a moving image, comprising:
an acquisition means for acquiring frames of a moving image captured by the imaging device;
An estimation means for estimating an object present in the acquired frame;
a control unit that controls the imaging device so as to track an object present in the acquired frame when the estimated object is a preset tracking object;
The information processing device is characterized in that the control means resets the tracking object to an object whose actual size is smaller than the predetermined tracking object when the size of an object present in the acquired frame is equal to or smaller than a first threshold .
前記制御手段は、前記メタ情報に、前記撮像装置による前記フレームの撮影時に前記デジタルズームが使用されていた旨の情報が含まれる場合、前記画質低下要因があると判断することを特徴とする請求項3記載の情報処理装置。 the imaging device performs the zooming using at least one of an optical zoom and a digital zoom;
4. The information processing device according to claim 3, wherein the control means determines that the factor of image quality degradation exists when the meta information includes information indicating that the digital zoom was used when the frame was captured by the imaging device.
前記撮像装置で撮影された動画像のフレームを取得する取得ステップと、
前記取得したフレーム内に存在するオブジェクトを推定する推定ステップと、
前記推定されたオブジェクトが予め設定された追尾オブジェクトである場合、前記取得したフレーム内に存在するオブジェクトを追尾するよう前記撮像装置を制御する制御ステップとを有し、
前記制御ステップは、前記取得したフレーム内に存在するオブジェクトのサイズが第1の閾値以下である場合、前記追尾オブジェクトを前記予め設定された追尾オブジェクトよりも実サイズが小さいオブジェクトに再設定することを特徴とする制御方法。 A method for controlling an information processing device to track a target subject by controlling pan, tilt, and zoom of an imaging device that captures a moving image, comprising:
An acquisition step of acquiring frames of a moving image captured by the imaging device;
an estimation step of estimating an object present in the acquired frame;
and a control step of controlling the imaging device so as to track an object present in the acquired frame when the estimated object is a preset tracking object,
A control method characterized in that the control step resets the tracking object to an object whose actual size is smaller than the predetermined tracking object when the size of an object present in the acquired frame is equal to or smaller than a first threshold .
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020198081A JP7625407B2 (en) | 2020-11-30 | 2020-11-30 | Information processing device, control method thereof, and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020198081A JP7625407B2 (en) | 2020-11-30 | 2020-11-30 | Information processing device, control method thereof, and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2022086194A JP2022086194A (en) | 2022-06-09 |
| JP7625407B2 true JP7625407B2 (en) | 2025-02-03 |
Family
ID=81894195
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020198081A Active JP7625407B2 (en) | 2020-11-30 | 2020-11-30 | Information processing device, control method thereof, and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7625407B2 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7715406B2 (en) * | 2023-02-13 | 2025-07-30 | Necプラットフォームズ株式会社 | Detection device, detection method, and detection program |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010147560A (en) | 2008-12-16 | 2010-07-01 | Victor Co Of Japan Ltd | Target tracker |
| JP2012080222A (en) | 2010-09-30 | 2012-04-19 | Jvc Kenwood Corp | Target tracking device and target tracking method |
| JP2020145556A (en) | 2019-03-05 | 2020-09-10 | キヤノン株式会社 | Imaging device and control method thereof, program, and storage medium |
-
2020
- 2020-11-30 JP JP2020198081A patent/JP7625407B2/en active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010147560A (en) | 2008-12-16 | 2010-07-01 | Victor Co Of Japan Ltd | Target tracker |
| JP2012080222A (en) | 2010-09-30 | 2012-04-19 | Jvc Kenwood Corp | Target tracking device and target tracking method |
| JP2020145556A (en) | 2019-03-05 | 2020-09-10 | キヤノン株式会社 | Imaging device and control method thereof, program, and storage medium |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2022086194A (en) | 2022-06-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN112703533B (en) | Object Tracking | |
| JP4498104B2 (en) | Monitoring device, control method thereof, and program | |
| KR101071352B1 (en) | Apparatus and method for tracking object based on PTZ camera using coordinate map | |
| JP3440916B2 (en) | Automatic tracking device, automatic tracking method, and recording medium recording automatic tracking program | |
| US20240048672A1 (en) | Adjustment of shutter value of surveillance camera via ai-based object recognition | |
| EP3629570A2 (en) | Image capturing apparatus and image recording method | |
| US20250285239A1 (en) | Noise removal for surveillance camera image by means of ai-based object recognition | |
| JP7435621B2 (en) | Image processing device, image processing system, and image processing method | |
| JP2008259161A (en) | Target tracing device | |
| CN108206941A (en) | Method for tracking target, system, terminal device and storage medium | |
| JP7625407B2 (en) | Information processing device, control method thereof, and program | |
| JP5118590B2 (en) | Subject tracking method and imaging apparatus | |
| WO2020184477A1 (en) | Information processing device, method, and recording medium | |
| JP7799431B2 (en) | Information processing device, information processing method, and program | |
| JP7671177B2 (en) | Information processing device, control method thereof, and program | |
| JP2023170173A (en) | Information processing device, control method and program | |
| KR101576426B1 (en) | Apparatus and Method for surveillance using fish eyes lens | |
| JP2023176536A (en) | Information processing device, its control method and program | |
| US12457404B2 (en) | Imaging apparatus, information processing apparatus, information processing method, and program | |
| JP7612627B2 (en) | Main subject determination device, imaging device, main subject determination method, and program | |
| JP2025021026A (en) | Imaging control device, control method, and program | |
| JP2025183868A (en) | Imaging control device, control method and program | |
| US20240428445A1 (en) | Image processing apparatus, control method therefor, storage medium, system, and learned data generation method | |
| JP2023176535A (en) | Information processing apparatus, method for controlling the same, and program | |
| US20250080835A1 (en) | Information processing apparatus, information processing system, information processing method, and storage medium |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231128 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240917 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20241015 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20241212 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20241224 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250122 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7625407 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |