Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP6946231B2 - Object tracking device and object tracking method - Google Patents
[go: Go Back, main page]

JP6946231B2 - Object tracking device and object tracking method - Google Patents

Object tracking device and object tracking method Download PDF

Info

Publication number
JP6946231B2
JP6946231B2 JP2018072320A JP2018072320A JP6946231B2 JP 6946231 B2 JP6946231 B2 JP 6946231B2 JP 2018072320 A JP2018072320 A JP 2018072320A JP 2018072320 A JP2018072320 A JP 2018072320A JP 6946231 B2 JP6946231 B2 JP 6946231B2
Authority
JP
Japan
Prior art keywords
stage
post
layer
frame
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018072320A
Other languages
Japanese (ja)
Other versions
JP2019185210A (en
Inventor
彰夫 石川
彰夫 石川
服部 元
元 服部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2018072320A priority Critical patent/JP6946231B2/en
Publication of JP2019185210A publication Critical patent/JP2019185210A/en
Application granted granted Critical
Publication of JP6946231B2 publication Critical patent/JP6946231B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、動画像に含まれる物体を追跡する物体追跡装置及び物体追跡方法に関する。 The present invention relates to an object tracking device and an object tracking method for tracking an object included in a moving image.

従来、パーティクルフィルタを用いて動画像に含まれる物体を追跡する装置が知られている。特許文献1には、パーティクルフィルタを用いて物体の輪郭形状を追跡する技術が開示されている。 Conventionally, a device for tracking an object included in a moving image using a particle filter has been known. Patent Document 1 discloses a technique for tracking the contour shape of an object using a particle filter.

特開2009−224924号公報JP-A-2009-224924

ところで、パーティクルフィルタを用いて動画像に含まれる物体を追跡する場合、フレーム画像から取得した観測値に基づいて推定した、移動後の各パーティクルの尤度を用いる。この場合において、例えば、大きさ又は向きが変化する物体を追跡する場合、複数のフレーム画像間における物体の差異が大きくなり、尤度を推定する精度が悪くなる。また、類似する複数の物体それぞれを追跡する場合、物体の大きさ又は向きが変化することによって複数の物体それぞれの区別ができなくなり、尤度を推定する精度が悪くなる。その結果として、物体を追跡する精度が悪くなるという問題があった。 By the way, when tracking an object included in a moving image using a particle filter, the likelihood of each particle after movement, which is estimated based on the observed value acquired from the frame image, is used. In this case, for example, when tracking an object whose size or orientation changes, the difference between the objects becomes large between the plurality of frame images, and the accuracy of estimating the likelihood deteriorates. Further, when tracking each of a plurality of similar objects, it becomes impossible to distinguish each of the plurality of objects due to the change in the size or orientation of the objects, and the accuracy of estimating the likelihood deteriorates. As a result, there is a problem that the accuracy of tracking the object is deteriorated.

そこで、本発明はこれらの点に鑑みてなされたものであり、動画像に含まれる物体を追跡する精度を向上させることができる物体追跡装置及び物体追跡方法を提供することを目的とする。 Therefore, the present invention has been made in view of these points, and an object of the present invention is to provide an object tracking device and an object tracking method capable of improving the accuracy of tracking an object included in a moving image.

本発明の第1の態様に係る物体追跡装置は、撮像装置で生成された動画像を取得する動画像取得部と、前記動画像に含まれるフレーム画像である前フレーム画像及び前記動画像に含まれる前記前フレーム画像の後のフレーム画像である現フレーム画像のそれぞれに、入力された動画像に基づいて当該動画像に含まれる物体の種別を出力可能な機械学習モデルに含まれる複数の処理層を伝搬させる伝搬制御部と、前記複数の処理層から選択した後段処理層、及び前記後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化している、前記現フレーム画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の現フレーム出力と前記前フレーム画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の前フレーム出力とを抽出する抽出部と、前記一以上の現フレーム出力に基づいて一以上の現フレーム特徴点を検出し、かつ前記一以上の前フレーム出力に基づいて一以上の前フレーム特徴点を検出する特徴点検出部と、前記前フレーム画像に関連付けて複数の遷移前パーティクルを生成し、前記一以上の現フレーム特徴点の位置と、前記複数の遷移前パーティクルを所定の物体遷移モデルに則って遷移させた複数の遷移後パーティクルの位置とを比較することにより、前記複数の遷移後パーティクルそれぞれの尤度を推定する尤度推定部と、前記尤度推定部が推定した前記尤度に基づいて前記複数の遷移後パーティクルから選択した一部の遷移後パーティクルに基づいて、前記動画像に含まれる物体を追跡する追跡部と、を有する。 The object tracking device according to the first aspect of the present invention includes a moving image acquisition unit that acquires a moving image generated by the imaging device, a front frame image that is a frame image included in the moving image, and the moving image. A plurality of processing layers included in a machine learning model capable of outputting the type of an object included in the moving image based on the input moving image for each of the current frame images which are the frame images after the previous frame image. Is commonly activated in both the treatment layer of the propagation control unit for propagating the image, the post-stage treatment layer selected from the plurality of treatment layers, and the pre-stage treatment layer which is the treatment layer immediately before the post-stage treatment layer. One or more current frame outputs output from the post-processing layer and the pre-processing layer based on the frame image, and one or more pre-frames output from the post-processing layer and the pre-processing layer based on the pre-frame image. An extraction unit that extracts the output, one or more current frame feature points are detected based on the one or more current frame outputs, and one or more previous frame feature points are detected based on the one or more previous frame outputs. A plurality of pre-transition particles are generated in association with the feature point detection unit to perform the previous frame image, and the positions of the one or more current frame feature points and the plurality of pre-transition particles are generated according to a predetermined object transition model. Based on the likelihood estimation unit that estimates the likelihood of each of the plurality of transition particles by comparing the positions of the plurality of transitioned post-transition particles, and the likelihood estimated by the likelihood estimation unit. It has a tracking unit that tracks an object included in the moving image based on a part of the post-transition particles selected from the plurality of post-transition particles.

前記抽出部は、前記現フレーム画像が前記複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段現フレーム出力、及び前記前フレーム画像が前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段前フレーム出力から、共通に活性化している一以上の後段現フレーム出力及び一以上の後段前フレーム出力を抽出する後段抽出部と、前記一以上の後段現フレーム出力及び前記一以上の後段前フレーム出力を活性化させる要因となった前記前段処理層から出力された複数の前段現フレーム出力、及び前記前段処理層から出力された複数の前段前フレーム出力のうち、共通に活性化している一以上の前段現フレーム出力及び一以上の前段前フレーム出力を抽出する前段抽出部と、を有してもよい。 In the extraction unit, a plurality of subsequent current frame outputs output from the subsequent processing layer by propagating the current frame image in the order of the pre-stage processing layer and the post-stage processing layer, which are a part of the plurality of processing layers, and the above-mentioned Since the pre-frame image propagated in the order of the pre-processing layer and the post-processing layer, one or more post-stage current frame outputs and one or more post-stage current frame outputs that are commonly activated from the plurality of post-stage pre-frame outputs output from the post-stage processing layer. A plurality of pre-stage current frames output from the post-stage extraction unit that extracts the post-stage pre-frame output, and the pre-stage processing layer that has been a factor in activating the one or more post-stage current frame outputs and the one or more post-stage front frame outputs. The output and the pre-stage extraction unit that extracts one or more pre-stage current frame outputs and one or more pre-stage pre-frame outputs that are commonly activated among the plurality of pre-stage pre-frame outputs output from the pre-stage processing layer. You may have.

前記前段抽出部は、前記複数の前段現フレーム出力及び前記複数の前段前フレーム出力のうち、活性化している大きさに基づいて、前記一以上の前段現フレーム出力及び前記一以上の前段前フレーム出力を抽出してもよい。 The pre-stage extraction unit has one or more pre-stage current frame outputs and one or more pre-stage pre-frames based on the activated size of the plurality of pre-stage current frame outputs and the plurality of pre-stage pre-frame outputs. The output may be extracted.

前記機械学習モデルは、畳み込みニューラルネットワークを含み、前記後段処理層は、出力層、全結合層、正規化層、プーリング層、及び畳み込み層のうちのいずれかの層であってもよい。
前記前段処理層は、全結合層、正規化層、プーリング層、畳み込み層及び入力層のうちのいずれかの層であってもよい。
The machine learning model includes a convolutional neural network, and the post-processing layer may be any one of an output layer, a fully connected layer, a regularization layer, a pooling layer, and a convolutional layer.
The pretreatment layer may be any one of a fully bonded layer, a normalized layer, a pooling layer, a convolution layer, and an input layer.

前記抽出部は、前記複数の処理層のうち、最後尾の処理層である最後尾層を後段処理層として選択した場合において、前記最後尾層において共通に活性化している前記一以上の現フレーム出力及び前記一以上の前フレーム出力がない場合、前記最後尾層より前の処理層において共通に活性化している前記一以上の現フレーム出力及び前記一以上の前フレーム出力を抽出してもよい。 When the last layer, which is the last treatment layer, is selected as the latter treatment layer among the plurality of treatment layers, the extraction unit commonly activates the one or more current frames in the last treatment layer. When there is no output and the one or more previous frame outputs, the one or more current frame outputs and the one or more previous frame outputs that are commonly activated in the processing layer before the last layer may be extracted. ..

前記尤度推定部は、前記遷移後パーティクルが前記一以上の現フレーム特徴点の位置に近ければ近いほど尤度が大きくなるように推定してもよい。 The likelihood estimation unit may estimate that the closer the post-transition particles are to the positions of one or more current frame feature points, the higher the likelihood.

前記尤度推定部は、前記一以上の現フレーム特徴点の位置と、前記一以上の前フレーム特徴点をパーティクルとして用いた一以上の前記遷移前パーティクルを前記所定の物体遷移モデルに則って遷移させた遷移後パーティクルの位置とを比較することにより、一以上の前記遷移後パーティクルそれぞれの尤度を推定してもよい。 The likelihood estimation unit transitions the positions of the one or more current frame feature points and one or more pre-transition particles using the one or more previous frame feature points as particles according to the predetermined object transition model. The likelihood of each of the one or more post-transition particles may be estimated by comparing the positions of the post-transition particles.

前記尤度推定部は、尤度を推定する場合において、尤度を次回以降に推定する場合と異なる規則に基づいて前記前フレーム画像に配置した前記複数の遷移前パーティクルを生成し、前記一以上の現フレーム特徴点の位置と、前記複数の遷移後パーティクルの位置とを比較することにより、前記複数の遷移後パーティクルそれぞれの尤度を推定してもよい。 In the case of estimating the likelihood, the likelihood estimation unit generates the plurality of pre-transition particles arranged in the front frame image based on a rule different from the case of estimating the likelihood from the next time onward, and the one or more. The likelihood of each of the plurality of post-transition particles may be estimated by comparing the position of the current frame feature point of the current frame with the positions of the plurality of post-transition particles.

前記尤度推定部は、前記一以上の前フレーム特徴点に対応する前記一以上の現フレーム特徴点の位置と、前記複数の遷移後パーティクルの位置とを比較することにより、前記複数の遷移後パーティクルそれぞれの尤度を推定してもよい。 The likelihood estimation unit compares the positions of the one or more current frame feature points corresponding to the one or more previous frame feature points with the positions of the plurality of post-transition particles, thereby performing the plurality of post-transition particles. The likelihood of each particle may be estimated.

前記物体追跡装置は、前記複数の処理層のうち、前記後段処理層として用いる処理層を選択する指示を受け付ける指示受付部をさらに有し、前記抽出部は、前記指示受付部が受け付けた前記指示が示す前記処理層を、前記後段処理層として使用してもよい。 The object tracking device further includes an instruction receiving unit that receives an instruction to select a processing layer to be used as the subsequent processing layer among the plurality of processing layers, and the extraction unit receives the instruction received by the instruction receiving unit. The treated layer indicated by the above may be used as the post-stage treatment layer.

前記抽出部は、前記複数の処理層のうち一つの層を前記後段処理層として選択して前記一以上の現フレーム出力及び前記一以上の前フレーム出力を抽出した後に、前記前段処理層として選択した処理層を前記後段処理層として選択して、別の前記一以上の現フレーム出力及び前記一以上の前フレーム出力を抽出してもよい。 The extraction unit selects one of the plurality of processing layers as the post-stage processing layer, extracts the one or more current frame outputs and the one or more pre-frame outputs, and then selects the pre-stage processing layer. The processed layer may be selected as the subsequent processing layer to extract another one or more current frame outputs and one or more previous frame outputs.

本発明の第2の態様に係る物体追跡方法は、撮像装置で生成された動画像を取得するステップと、前記動画像に含まれるフレーム画像である前フレーム画像及び前記動画像に含まれる前記前フレーム画像の後のフレーム画像である現フレーム画像のそれぞれに、入力された動画像に基づいて当該動画像に含まれる物体の種別を出力可能な機械学習モデルに含まれる複数の処理層を伝搬させるステップと、前記複数の処理層から選択した後段処理層、及び前記後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化している、前記現フレーム画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の現フレーム出力と前記前フレーム画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の前フレーム出力とを抽出するステップと、前記一以上の現フレーム出力に基づいて一以上の現フレーム特徴点を検出し、かつ前記一以上の前フレーム出力に基づいて一以上の前フレーム特徴点を検出するステップと、前記前フレーム画像に関連付けて複数の遷移前パーティクルを生成するステップと、前記一以上の現フレーム特徴点の位置と、前記複数の遷移前パーティクルを所定の物体遷移モデルに則って遷移させた複数の遷移後パーティクルの位置とを比較することにより、前記複数の遷移後パーティクルそれぞれの尤度を推定するステップと、推定した前記尤度に基づいて前記複数の遷移後パーティクルから選択した一部の遷移後パーティクルに基づいて、前記動画像に含まれる物体を追跡するステップと、を有する。 The object tracking method according to the second aspect of the present invention includes a step of acquiring a moving image generated by an imaging device, a front frame image which is a frame image included in the moving image, and the front frame image included in the moving image. Each of the current frame images, which is the frame image after the frame image, propagates a plurality of processing layers included in the machine learning model capable of outputting the type of the object included in the moving image based on the input moving image. Based on the current frame image that is commonly activated in both the step, the post-stage treatment layer selected from the plurality of treatment layers, and the pre-stage treatment layer that is the treatment layer immediately before the post-stage treatment layer. Extract one or more current frame outputs output from the post-processing layer and the pre-processing layer and one or more pre-frame outputs output from the post-processing layer and the pre-processing layer based on the pre-frame image. A step, a step of detecting one or more current frame feature points based on the one or more current frame outputs, and a step of detecting one or more previous frame feature points based on the one or more previous frame outputs, and the previous step. A step of generating a plurality of pre-transition particles in association with a frame image, the positions of one or more current frame feature points, and a plurality of post-transitions in which the plurality of pre-transition particles are transitioned according to a predetermined object transition model. A step of estimating the likelihood of each of the plurality of post-transition particles by comparing the positions of the particles, and a part of the post-transition particles selected from the plurality of post-transition particles based on the estimated likelihood. Based on, it has a step of tracking an object included in the moving image.

前記抽出するステップは、前記現フレーム画像が前記複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段現フレーム出力、及び前記前フレーム画像が前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段前フレーム出力から、共通に活性化している一以上の後段現フレーム出力及び一以上の後段前フレーム出力を抽出する前段抽出ステップと、前記一以上の後段現フレーム出力及び前記一以上の後段前フレーム出力を活性化させる要因となった前記前段処理層から出力された複数の前段現フレーム出力、及び前記前段処理層から出力された複数の前段前フレーム出力のうち、共通に活性化している一以上の前段現フレーム出力及び一以上の前段前フレーム出力を抽出する後段抽出ステップと、を有してもよい。 In the extraction step, a plurality of post-stage current frame outputs output from the post-stage processing layer due to the propagation of the current frame image in the order of the pre-stage processing layer and the post-stage processing layer which are a part of the plurality of processing layers, and One or more subsequent current frame outputs and one or more that are commonly activated from the plurality of subsequent pre-frame outputs output from the post-processing layer due to the propagation of the pre-frame image in the order of the pre-processing layer and the post-processing layer. A pre-stage extraction step for extracting the post-stage front frame output, and a plurality of pre-stage currents output from the pre-stage processing layer that have been a factor in activating the one or more post-stage current frame outputs and the one or more post-stage front frame outputs. A frame output and a post-stage extraction step for extracting one or more pre-stage current frame outputs and one or more pre-stage pre-frame outputs that are commonly activated among a plurality of pre-stage front frame outputs output from the pre-stage processing layer. May have.

前記前段抽出ステップを実行した後に、前記一以上の前段現フレーム出力及び前記一以上の前段前フレーム出力を、前記複数の後段現フレーム出力及び前記複数の後段前フレーム出力として、前記後段抽出ステップを実行してもよい。
前記複数の処理層のそれぞれに対して、前記後段抽出ステップ及び前記前段抽出ステップを実行してもよい。
After executing the pre-stage extraction step, the post-stage extraction step is performed by using the one or more pre-stage current frame outputs and the one or more pre-stage front frame outputs as the plurality of post-stage current frame outputs and the plurality of post-stage front frame outputs. You may do it.
The latter-stage extraction step and the first-stage extraction step may be executed for each of the plurality of processing layers.

本発明によれば、動画像に含まれる物体を追跡する精度を向上させることができるという効果を奏する。 According to the present invention, there is an effect that the accuracy of tracking an object included in a moving image can be improved.

物体追跡処理の概要を説明するための図である。It is a figure for demonstrating the outline of the object tracking process. 機械学習モデルの構成の一例を示す図である。It is a figure which shows an example of the structure of the machine learning model. 物体追跡装置の構成を示す図である。It is a figure which shows the structure of the object tracking apparatus. 抽出部が行う抽出処理について説明するための図である。It is a figure for demonstrating the extraction process performed by an extraction part. 抽出部が行う抽出処理について説明するための図である。It is a figure for demonstrating the extraction process performed by an extraction part. 抽出部が行う抽出処理について説明するための図である。It is a figure for demonstrating the extraction process performed by an extraction part. 抽出部が行う抽出処理について説明するための図である。It is a figure for demonstrating the extraction process performed by an extraction part. 抽出部が行う抽出処理について説明するための図である。It is a figure for demonstrating the extraction process performed by an extraction part. 抽出部が行う抽出処理について説明するための図である。It is a figure for demonstrating the extraction process performed by an extraction part. 物体追跡処理の詳細について説明するための図である。It is a figure for demonstrating the detail of the object tracking process. 物体追跡装置が行う処理の流れを示すフローチャートである。It is a flowchart which shows the flow of the process performed by the object tracking apparatus. 抽出部が行う処理の流れを示すフローチャートである。It is a flowchart which shows the flow of the process performed by the extraction part.

[物体追跡装置1の概要]
図1は、物体追跡処理の概要を説明するための図である。時々刻々と変化する観測対象の内部状態を推定する技術として、時系列フィルタを用いた技術がある。時系列フィルタは、動画像に含まれるフレーム画像から観測した観測ベクトルに基づいて、直接観測できない物体の内部状態を推定する手法であり、例えば、パーティクルフィルタである。
[Overview of Object Tracking Device 1]
FIG. 1 is a diagram for explaining an outline of the object tracking process. As a technique for estimating the internal state of an observation target that changes from moment to moment, there is a technique using a time series filter. The time series filter is a method of estimating the internal state of an object that cannot be directly observed based on the observation vector observed from the frame image included in the moving image, and is, for example, a particle filter.

パーティクルフィルタでは、観測対象の内部状態の確率分布を、粒子(以下、パーティクルという)の分布で表現する。パーティクルフィルタでは、現時刻における状態の事後確率分布を次時刻における状態の事前確率分布として、当該事前確率分布を表すパーティクル(当該事前確率分布に従って生成されたサンプル集合)の状態から推定されたテンプレートの観測(予測サンプル)と、次時刻における実際の画像(実際の観測)とを比較することで各パーティクルの尤度を求める。 In the particle filter, the probability distribution of the internal state of the observation target is expressed by the distribution of particles (hereinafter referred to as particles). In the particle filter, the posterior probability distribution of the state at the current time is used as the prior probability distribution of the state at the next time, and the template estimated from the state of the particles representing the prior probability distribution (sample set generated according to the prior probability distribution). The probability of each particle is obtained by comparing the observation (predicted sample) with the actual image at the next time (actual observation).

そして、パーティクルフィルタでは、求めた尤度と事前確率分布とからパーティクルの事後確率分布を推定する。パーティクルフィルタでは、次時刻以降、上述の処理を繰り返すことで、動的に変化する観測対象(例えば、追跡対象)の状態が逐次的に推定される。 Then, in the particle filter, the posterior probability distribution of the particles is estimated from the obtained likelihood and the prior probability distribution. In the particle filter, the dynamically changing state of the observation target (for example, the tracking target) is sequentially estimated by repeating the above processing after the next time.

パーティクルフィルタでは、以下の(1)から(4)の処理を行う。まず、処理(1)では、各サンプル(各パーティクル)について、1期先の時刻における予測サンプルを生成する。処理(2)では、処理(1)で生成された各予測サンプルについて、重み(尤度)を算出、すなわち、観測モデルに従って、観測ベクトルを得る確率(尤度)を推定する。 In the particle filter, the following processes (1) to (4) are performed. First, in the process (1), a predicted sample at a time one period ahead is generated for each sample (each particle). In the process (2), the weight (likelihood) is calculated for each prediction sample generated in the process (1), that is, the probability (likelihood) of obtaining the observation vector is estimated according to the observation model.

処理(3)では、重み(尤度)に比例する割合で複数の粒子を復元抽出する。このようにして復元抽出された粒子の分布から、事後確率分布(観測対象の内部状態の確率分布)を取得する。処理(4)では、時刻を進めて処理(1)に戻る。このとき、処理(3)で取得した事後確率分布を、次の時刻の事前確率分布とする。 In the process (3), a plurality of particles are restored and extracted at a ratio proportional to the weight (likelihood). The posterior probability distribution (probability distribution of the internal state of the observation target) is obtained from the distribution of the particles restored and extracted in this way. In the process (4), the time is advanced and the process (1) is returned. At this time, the posterior probability distribution acquired in the process (3) is used as the prior probability distribution at the next time.

このように、パーティクルフィルタでは、観測対象の状態を表すパラメータの事前確率分布の予測と、事後確率分布の計算とを繰り返し行うことで、時々刻々変化する、観測対象の状態を表すパラメータを推定する。パーティクルフィルタは、例えば、動画像上の物体(オブジェクト)の位置の追跡に利用される。この場合、パーティクルフィルタでは、物体の位置を表すパラメータから推定される観測(予測サンプル)と、実際の観測(例えば、カメラ等により撮像される画像)とを比較することによって尤度を算出し、算出した尤度に基づいて、パーティクルのリサンプリングを行うことで、観測対象の状態を表すパラメータの事後確率分布を取得することができる。追跡対象の状態を表すパラメータは、例えば、物体の位置を表すパラメータである。 In this way, the particle filter estimates the parameters representing the state of the observation target, which change from moment to moment, by repeatedly predicting the prior probability distribution of the parameters representing the state of the observation target and calculating the posterior probability distribution. .. The particle filter is used, for example, to track the position of an object on a moving image. In this case, in the particle filter, the likelihood is calculated by comparing the observation (prediction sample) estimated from the parameter representing the position of the object with the actual observation (for example, the image captured by a camera or the like). By resampling the particles based on the calculated likelihood, the posterior probability distribution of the parameters representing the state of the observation target can be obtained. The parameter representing the state of the tracked object is, for example, a parameter representing the position of the object.

物体追跡装置1は、機械学習モデルMを用いて、パーティクルフィルタで用いられるパーティクルの移動先ベクトルの尤度を推定することにより、動画像に含まれる物体を追跡する装置である。物体追跡装置1は、例えばコンピュータである。物体は、フレーム画像に含まれる被写体であり、例えば人間又は車両等である。 The object tracking device 1 is a device that tracks an object included in a moving image by estimating the likelihood of a moving destination vector of particles used in a particle filter using a machine learning model M. The object tracking device 1 is, for example, a computer. The object is a subject included in the frame image, for example, a human being or a vehicle.

物体追跡装置1は、撮像装置で生成された動画像を取得する(図1の(1))。撮像装置は、動画像を撮像することができるカメラ又はスマートフォン等である。図1に示す動画像Aは、物体Tである人間が左側から右側に走る様子を写した動画像である。図1に示す動画像Aに含まれる1フレーム目のフレーム画像A1を前フレーム画像とし、2フレーム目のフレーム画像A2を現フレーム画像とする。前フレーム画像は、動画像に含まれる複数のフレーム画像のうちの1つのフレーム画像である。現フレーム画像は、前フレーム画像の後のフレーム画像であり、物体の追跡を行うフレーム画像である。すなわち、現フレーム画像は、直前に尤度の推定を行ったフレーム画像の次に尤度の推定を行う対象となるフレームである。 The object tracking device 1 acquires a moving image generated by the imaging device ((1) in FIG. 1). The image pickup device is a camera, a smartphone, or the like capable of capturing a moving image. The moving image A shown in FIG. 1 is a moving image showing a human being, which is an object T, running from the left side to the right side. The frame image A1 of the first frame included in the moving image A shown in FIG. 1 is used as the front frame image, and the frame image A2 of the second frame is used as the current frame image. The front frame image is one of a plurality of frame images included in the moving image. The current frame image is a frame image after the previous frame image, and is a frame image for tracking an object. That is, the current frame image is a frame for which the likelihood is estimated next to the frame image for which the likelihood was estimated immediately before.

物体追跡装置1は、取得した動画像Aを機械学習モデルMに入力し、当該機械学習モデルMに含まれる複数の処理層を伝搬させる(図1の(2))。機械学習モデルMは、入力された動画像に基づいて当該動画像に含まれる物体の種別を出力するように学習されたモデルである。具体的には、機械学習モデルMは、入力された動画像に基づいて、当該動画像のフレーム画像それぞれに写っている物体の種別をフレーム画像ごとに出力する。 The object tracking device 1 inputs the acquired moving image A into the machine learning model M and propagates a plurality of processing layers included in the machine learning model M ((2) in FIG. 1). The machine learning model M is a model learned to output the type of the object included in the moving image based on the input moving image. Specifically, the machine learning model M outputs the type of the object shown in each frame image of the moving image for each frame image based on the input moving image.

図2は、機械学習モデルMの構成の一例を示す図である。機械学習モデルMは、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)を含む。この場合において、機械学習モデルMは、入力層M1、第1の畳み込み層M2、第2の畳み込み層M3、第1のプーリング層M4、正規化層M5、第3の畳み込み層M6、第2のプーリング層M7、第1の全結合層M8、第2の全結合層M9、及び出力層M10を有する。本明細書においては、隣接する2つの処理層のうち、現フレーム画像及び前フレーム画像が伝搬する際の上流側の処理層を前段処理層と称し、下流側の処理層を後段処理層と称する。 FIG. 2 is a diagram showing an example of the configuration of the machine learning model M. The machine learning model M includes a convolutional neural network (CNN). In this case, the machine learning model M is an input layer M1, a first convolution layer M2, a second convolution layer M3, a first pooling layer M4, a normalization layer M5, a third convolution layer M6, and a second. It has a pooling layer M7, a first fully connected layer M8, a second fully connected layer M9, and an output layer M10. In the present specification, of the two adjacent processing layers, the processing layer on the upstream side when the current frame image and the front frame image propagate is referred to as a pre-stage processing layer, and the processing layer on the downstream side is referred to as a post-stage processing layer. ..

後段処理層となり得る処理層は、第1の畳み込み層M2、第2の畳み込み層M3、第1のプーリング層M4、正規化層M5、第3の畳み込み層M6、第2のプーリング層M7、第1の全結合層M8、第2の全結合層M9、及び出力層M10のうちのいずれかの層である。また、前段処理層となり得る処理層は、入力層M1、第1の畳み込み層M2、第2の畳み込み層M3、第1のプーリング層M4、正規化層M5、第3の畳み込み層M6、第2のプーリング層M7、第1の全結合層M8、及び第2の全結合層M9のうちのいずれかの層である。物体追跡装置1は、取得した動画像を機械学習モデルMに入力し、入力層M1から出力層M10までの各処理層を順伝搬させる、すなわち、推論させることにより、動画像に写っている物体Tの種別を出力させる。 The treatment layers that can be the subsequent treatment layers are the first convolution layer M2, the second convolution layer M3, the first pooling layer M4, the normalization layer M5, the third convolution layer M6, the second pooling layer M7, and the second. It is one of the fully bonded layer M8 of 1, the second fully bonded layer M9, and the output layer M10. The processing layers that can be the pre-stage processing layers are the input layer M1, the first convolution layer M2, the second convolution layer M3, the first pooling layer M4, the normalized layer M5, the third convolution layer M6, and the second. It is any one of the pooling layer M7, the first fully bonded layer M8, and the second fully bonded layer M9. The object tracking device 1 inputs the acquired moving image into the machine learning model M, and forward-propagates each processing layer from the input layer M1 to the output layer M10, that is, infers the object in the moving image. Output the type of T.

図1に戻り、物体追跡装置1は、機械学習モデルMが物体Tの種別(例えば、人間、男性又は女性等)を出力するに至った各処理層における計算結果、すなわち、深層学習による抽象度の高い特徴量を用いて、現フレーム画像及び前フレーム画像に共通する特徴点を検出する(図1の(3))。ここで、物体追跡装置1は、共通する特徴点の検出を、各フレーム画像を順伝搬させた順序とは逆の順序で行う。このようにすることで、物体追跡装置1は、抽象度が高い特徴量に基づく特徴点を検出することができる。 Returning to FIG. 1, the object tracking device 1 has a calculation result in each processing layer from which the machine learning model M outputs the type of the object T (for example, human, male, female, etc.), that is, the degree of abstraction by deep learning. The feature points common to the current frame image and the previous frame image are detected by using the high feature amount of (FIG. 1 (3)). Here, the object tracking device 1 detects common feature points in an order opposite to the order in which each frame image is forward-propagated. By doing so, the object tracking device 1 can detect feature points based on features with a high degree of abstraction.

物体追跡装置1は、共通する特徴点(例えば、顔、体、手足等に含まれる特徴点)を検出することにより、現フレーム画像に写っている物体Tに含まれる特徴点及び前フレーム画像に写っている物体Tに含まれる特徴点に対応関係があることを検出する。対応関係は、特徴点が示す現フレーム画像に含まれる画素と、特徴点が示す前フレーム画像に含まれる画素とが一致又は近似した関係である。 The object tracking device 1 detects the common feature points (for example, the feature points included in the face, body, limbs, etc.) to obtain the feature points included in the object T and the previous frame image shown in the current frame image. It is detected that there is a correspondence between the feature points included in the imaged object T. The correspondence relationship is a relationship in which the pixels included in the current frame image indicated by the feature points and the pixels included in the previous frame image indicated by the feature points match or approximate.

物体追跡装置1は、前フレーム画像に関連付けてパーティクルを生成する(図1の(4))。物体追跡装置1は、物体Tの動きを予測(例えば、物体Tが左側から右側に動く等)して、生成したパーティクルを遷移させる。物体追跡装置1は、検出した前フレーム画像の特徴点と対応関係にある現フレーム画像の特徴点の位置と、遷移させたパーティクルの位置とを比較することにより、各パーティクルの尤度を推定する(図1の(5))。物体追跡装置1は、例えば、前フレーム画像の特徴点と一致した関係にある現フレーム画像の物体Tの顔に関する特徴点の位置と、物体Tの顔の付近にあるパーティクルの位置とを比較することにより、物体Tの顔の付近にあるパーティクルの尤度を推定する。同様に、物体追跡装置1は、体及び手足等の付近にある複数のパーティクルそれぞれの尤度を推定する。 The object tracking device 1 generates particles in association with the previous frame image ((4) in FIG. 1). The object tracking device 1 predicts the movement of the object T (for example, the object T moves from the left side to the right side) and transitions the generated particles. The object tracking device 1 estimates the likelihood of each particle by comparing the position of the feature point of the current frame image corresponding to the detected feature point of the previous frame image with the position of the transitioned particle. ((5) in FIG. 1). The object tracking device 1 compares, for example, the position of the feature point on the face of the object T in the current frame image, which has a relationship consistent with the feature point of the previous frame image, with the position of the particles near the face of the object T. Thereby, the likelihood of the particles near the face of the object T is estimated. Similarly, the object tracking device 1 estimates the likelihood of each of a plurality of particles in the vicinity of the body, limbs, and the like.

物体追跡装置1は、推定した尤度に基づいて、現フレーム画像に含まれる物体Tの位置を推定する(図1の(6))。このように物体追跡装置1は、図1の(1)から(6)の処理を繰り返すことにより、物体Tを追跡する。これにより、物体追跡装置1は、抽象度が高い特徴量に基づいて複数のパーティクルそれぞれの尤度を推定することで、動画像に含まれる物体を追跡する精度を向上させることができる。
以下、物体追跡装置1の詳細について説明する。
The object tracking device 1 estimates the position of the object T included in the current frame image based on the estimated likelihood ((6) in FIG. 1). In this way, the object tracking device 1 tracks the object T by repeating the processes (1) to (6) of FIG. As a result, the object tracking device 1 can improve the accuracy of tracking the object included in the moving image by estimating the likelihood of each of the plurality of particles based on the feature amount having a high degree of abstraction.
Hereinafter, the details of the object tracking device 1 will be described.

[物体追跡装置1の構成]
図3は、物体追跡装置1の構成を示す図である。物体追跡装置1は、操作部11、記憶部12、及び制御部13を有する。
[Configuration of Object Tracking Device 1]
FIG. 3 is a diagram showing the configuration of the object tracking device 1. The object tracking device 1 has an operation unit 11, a storage unit 12, and a control unit 13.

操作部11は、ユーザの操作を受け付ける入力デバイスである。
記憶部12は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)及びハードディスク等の記憶媒体である。記憶部12は、制御部13が実行する各種のプログラムを記憶する。
The operation unit 11 is an input device that accepts user operations.
The storage unit 12 is, for example, a storage medium such as a ROM (Read Only Memory), a RAM (Random Access Memory), and a hard disk. The storage unit 12 stores various programs executed by the control unit 13.

制御部13は、例えばCPU(Central Processing Unit)である。制御部13は、記憶部12に記憶されているプログラムを実行することにより、物体追跡装置1に係る機能を制御する。制御部13は、プログラムを実行することにより、動画像取得部131、伝搬制御部132、抽出部133、指示受付部136、特徴点検出部137、選択部138、尤度推定部139、及び追跡部140として機能する。
動画像取得部131は、撮像装置で生成された動画像を取得する。動画像取得部131は、例えば、HDMI(High-Definition Multimedia Interface)(登録商標)ケーブルにより接続された撮像装置が撮像した動画像を取得する。動画像取得部131は、記憶部12に記憶されている動画像を取得してもよい。動画像取得部131は、取得した動画像を、伝搬制御部132に入力する。
The control unit 13 is, for example, a CPU (Central Processing Unit). The control unit 13 controls the function related to the object tracking device 1 by executing the program stored in the storage unit 12. By executing the program, the control unit 13 executes a moving image acquisition unit 131, a propagation control unit 132, an extraction unit 133, an instruction reception unit 136, a feature point detection unit 137, a selection unit 138, a likelihood estimation unit 139, and a tracking unit. It functions as a unit 140.
The moving image acquisition unit 131 acquires a moving image generated by the imaging device. The moving image acquisition unit 131 acquires, for example, a moving image captured by an imaging device connected by an HDMI (High-Definition Multimedia Interface) (registered trademark) cable. The moving image acquisition unit 131 may acquire the moving image stored in the storage unit 12. The moving image acquisition unit 131 inputs the acquired moving image to the propagation control unit 132.

伝搬制御部132は、動画像取得部131から入力された動画像に含まれる現フレーム画像及び前フレーム画像のそれぞれに、機械学習モデルMに含まれる複数の処理層を伝搬させる。図2に示す例において、伝搬制御部132は、まず、動画像に含まれる複数のフレーム画像それぞれに、機械学習モデルMに含まれる入力層M1から出力層M10までの各処理層を、順に伝搬させる。そして、伝搬制御部132は、機械学習モデルMから出力されたフレーム画像ごとの物体の種別に基づいて、現フレーム画像及び前フレーム画像を選択する。伝搬制御部132は、例えば、動画像に含まれる複数のフレーム画像のうち、種別が同一である物体が連続して写っているフレーム画像群を、現フレーム画像及び前フレーム画像として選択する。伝搬制御部132は、選択した現フレーム画像及び前フレーム画像を示す情報を抽出部133に入力する。 The propagation control unit 132 propagates a plurality of processing layers included in the machine learning model M to each of the current frame image and the previous frame image included in the moving image input from the moving image acquisition unit 131. In the example shown in FIG. 2, the propagation control unit 132 first propagates each processing layer from the input layer M1 to the output layer M10 included in the machine learning model M to each of the plurality of frame images included in the moving image in order. Let me. Then, the propagation control unit 132 selects the current frame image and the previous frame image based on the type of the object for each frame image output from the machine learning model M. The propagation control unit 132 selects, for example, a frame image group in which objects of the same type are continuously captured among a plurality of frame images included in the moving image as the current frame image and the previous frame image. The propagation control unit 132 inputs information indicating the selected current frame image and the previous frame image to the extraction unit 133.

抽出部133は、複数の処理層から選択した後段処理層、及び後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化している、現フレーム画像に基づいて後段処理層及び前段処理層から出力された一以上の現フレーム出力と前フレーム画像に基づいて後段処理層及び前段処理層から出力された一以上の前フレーム出力とを抽出する。抽出部133が行う抽出処理の詳細については後述するが、抽出部133は、後段処理層で共通に活性化している現フレーム出力の一部である後段現フレーム出力及び前フレーム出力の一部である後段前フレーム出力を抽出する後段抽出部134と、前段処理層で共通に活性化している現フレーム出力の一部である前段現フレーム出力及び前フレーム出力の一部である前段前フレーム出力を抽出する前段抽出部135とを有する。 The extraction unit 133 is commonly activated in both the post-stage processing layer selected from the plurality of processing layers and the pre-stage processing layer which is the processing layer immediately before the post-stage processing layer, and the subsequent stage is based on the current frame image. One or more current frame outputs output from the processing layer and the pre-stage processing layer and one or more pre-frame outputs output from the post-stage processing layer and the pre-stage processing layer are extracted based on the pre-frame image. The details of the extraction process performed by the extraction unit 133 will be described later, but the extraction unit 133 is a part of the current frame output and the previous frame output which are a part of the current frame output commonly activated in the subsequent processing layer. The rear stage extraction unit 134 that extracts a certain rear stage front frame output, the front stage current frame output that is a part of the current frame output that is commonly activated in the front stage processing layer, and the front stage front frame output that is a part of the previous stage front frame output. It has a pre-stage extraction unit 135 for extraction.

抽出部133が抽出する現フレーム出力及び前フレーム出力は、処理層に含まれる複数のユニットのうち、活性化しているユニットを示す情報である。ユニットは、フレーム画像に含まれる一以上の画素である。活性化の定義は、例えば、ユニットの出力値又はユニットの出力値と当該ユニットの結合の重みとの積が、所定の閾値を超えた場合でもよいし、出力の大きい順に所定の個数又は所定の割合に含まれた場合であってもよい。また、全結合層以外の処理層においては、例えば、チャンネルごとに出力の大きい順に所定の個数又は所定の割合に含まれた場合であってもよい。チャンネルは、フィルタ毎に畳み込み演算した出力である。 The current frame output and the previous frame output extracted by the extraction unit 133 are information indicating the activated unit among the plurality of units included in the processing layer. A unit is one or more pixels contained in a frame image. The definition of activation may be, for example, when the product of the output value of the unit or the output value of the unit and the weight of the connection of the unit exceeds a predetermined threshold value, or a predetermined number or a predetermined number in descending order of output. It may be included in the ratio. Further, in the processing layer other than the fully connected layer, for example, it may be included in a predetermined number or a predetermined ratio in descending order of output for each channel. The channel is the output calculated by convolution for each filter.

抽出部133は、複数の処理層のうち、最後尾の処理層である最後尾層を後段処理層として選択することが好ましい。しかし、最後尾層において共通に活性化している現フレーム出力及び前フレーム出力がない場合がある。そこで、抽出部133は、複数の処理層のうち、最後尾層を後段処理層として選択した場合において、最後尾層において共通に活性化している一以上の現フレーム出力及び一以上の前フレーム出力がない場合、最後尾層より前の処理層において共通に活性化している一以上の現フレーム出力及び一以上の前フレーム出力を抽出してもよい。 It is preferable that the extraction unit 133 selects the last treatment layer, which is the last treatment layer, as the post-treatment layer among the plurality of treatment layers. However, there are cases where there is no current frame output and previous frame output that are commonly activated in the rearmost layer. Therefore, the extraction unit 133 selects one or more current frame outputs and one or more pre-frame outputs that are commonly activated in the rearmost layer when the rearmost layer is selected as the subsequent processing layer among the plurality of processing layers. If there is no such, one or more current frame outputs and one or more previous frame outputs that are commonly activated in the processing layer before the last layer may be extracted.

例えば、抽出部133が、最後尾層である出力層M10を後段処理層として選択した場合において、出力層M10において共通に活性化している一以上の現フレーム出力及び一以上の前フレーム出力がないとする。この場合において、抽出部133は、出力層M10より前の各処理層に対して、共通に活性化している一以上の現フレーム出力及び一以上の前フレーム出力を繰り返し探索する。抽出部133は、例えば、出力層M10の直前の処理層である第2の全結合層M9において共通に活性化している一以上の現フレーム出力及び一以上の前フレーム出力があった場合、第2の全結合層M9を後段処理層として選択する。そして、抽出部133は、後段処理層として選択した第2の全結合層M9において共通に活性化している一以上の現フレーム出力及び一以上の前フレーム出力を抽出する。このようにすることで、抽出部133は、現フレーム画像と前フレーム画像とで一致する領域が少ない場合であっても、それぞれに写る物体を対応付けることができる。 For example, when the extraction unit 133 selects the output layer M10, which is the rearmost layer, as the post-processing layer, there is no one or more current frame outputs and one or more previous frame outputs that are commonly activated in the output layer M10. And. In this case, the extraction unit 133 repeatedly searches for one or more current frame outputs and one or more previous frame outputs that are commonly activated for each processing layer before the output layer M10. The extraction unit 133 is, for example, when there is one or more current frame outputs and one or more previous frame outputs that are commonly activated in the second fully connected layer M9, which is the processing layer immediately before the output layer M10. The fully bonded layer M9 of 2 is selected as the post-treatment layer. Then, the extraction unit 133 extracts one or more current frame outputs and one or more front frame outputs that are commonly activated in the second fully connected layer M9 selected as the post-processing layer. By doing so, the extraction unit 133 can associate the objects reflected in each of the current frame image and the previous frame image even when there are few matching areas.

抽出部133は、ユーザによって指定された処理層を後段処理層として選択してもよい。具体的には、指示受付部136が、操作部11を介して、複数の処理層のうち、後段処理層として用いる処理層を選択する指示を受け付ける。そして、抽出部133は、指示受付部136が受け付けた指示が示す処理層を、後段処理層として使用する。抽出部133は、図2に示す例において、ユーザが第2の全結合層M9を選択した場合に、指示受付部136が受け付けた指示が示す第2の全結合層M9を、後段処理層として使用する。抽出部133は、抽出した現フレーム出力と前フレーム出力とを特徴点検出部137に入力する。 The extraction unit 133 may select the processing layer specified by the user as the subsequent processing layer. Specifically, the instruction receiving unit 136 receives an instruction to select a processing layer to be used as the subsequent processing layer from the plurality of processing layers via the operation unit 11. Then, the extraction unit 133 uses the processing layer indicated by the instruction received by the instruction reception unit 136 as the subsequent processing layer. In the example shown in FIG. 2, the extraction unit 133 uses the second fully connected layer M9 indicated by the instruction received by the instruction receiving unit 136 as the subsequent processing layer when the user selects the second fully connected layer M9. use. The extraction unit 133 inputs the extracted current frame output and the previous frame output to the feature point detection unit 137.

特徴点検出部137は、一以上の現フレーム出力に基づいて一以上の現フレーム特徴点を検出し、かつ一以上の前フレーム出力に基づいて一以上の前フレーム特徴点を検出する。具体的には、特徴点検出部137は、まず、一以上の現フレーム出力及び一以上の前フレーム出力に基づいて、対応する特徴点を探索する。そして、特徴点検出部137は、対応関係にある一以上の現フレーム出力に基づく一以上の現フレーム特徴点と、一以上の前フレーム出力に基づく一以上の前フレーム特徴点とを検出する。特徴点検出部137は、検出した現フレーム特徴点及び前フレーム特徴点を選択部138に入力する。 The feature point detection unit 137 detects one or more current frame feature points based on one or more current frame outputs, and detects one or more previous frame feature points based on one or more previous frame outputs. Specifically, the feature point detection unit 137 first searches for a corresponding feature point based on one or more current frame outputs and one or more previous frame outputs. Then, the feature point detection unit 137 detects one or more current frame feature points based on one or more current frame outputs and one or more previous frame feature points based on one or more previous frame outputs. The feature point detection unit 137 inputs the detected current frame feature point and the previous frame feature point to the selection unit 138.

選択部138は、特徴点検出部137が特定した一以上の現フレーム特徴点及び一以上の前フレーム特徴点から、相互の対応関係に基づいて一部の現フレーム特徴点及び一部の前フレーム特徴点を選択する。具体的には、選択部138は、誤検出した対応関係を除去し、除去した後の対応関係に基づく一以上の現フレーム特徴点及び一以上の前フレーム特徴点を選択する。対応関係の誤検出は、現フレーム特徴点及び前フレーム特徴点の対応関係に矛盾が生じている状態である。選択部138は、例えば、RANSAC(Random Sampling Consensus)法又は最小2乗メディアン(LMedS:Least Median of Square)法に基づいて絞り込みを行うことにより対応関係を除去する。 The selection unit 138 is composed of one or more current frame feature points and one or more previous frame feature points specified by the feature point detection unit 137, and some current frame feature points and some previous frame feature points based on mutual correspondence. Select a feature point. Specifically, the selection unit 138 removes the erroneously detected correspondence and selects one or more current frame feature points and one or more previous frame feature points based on the correspondence after the removal. False detection of the correspondence relationship is a state in which the correspondence relationship between the current frame feature point and the previous frame feature point is inconsistent. The selection unit 138 removes the correspondence by, for example, narrowing down based on the RANSAC (Random Sampling Consensus) method or the least squares median (LMedS: Least Median of Square) method.

尤度推定部139は、特徴点検出部137が検出した一以上の現フレーム特徴点及び一以上の前フレーム特徴点に基づいて、パーティクルフィルタに用いる尤度を推定する。尤度推定部139が行う尤度推定処理の詳細については後述するが、尤度推定部139は、まず、前フレーム画像に関連付けて複数の遷移前パーティクルを生成し、生成した複数の遷移前パーティクルを所定の物体遷移モデルに則って遷移させる。そして、尤度推定部139は、一以上の前フレーム特徴点に対応する一以上の現フレーム特徴点の位置と、遷移させた複数の遷移後パーティクルの位置とを比較することにより、複数の遷移後パーティクルそれぞれの尤度を推定する。 The likelihood estimation unit 139 estimates the likelihood to be used in the particle filter based on one or more current frame feature points and one or more previous frame feature points detected by the feature point detection unit 137. The details of the likelihood estimation process performed by the likelihood estimation unit 139 will be described later, but the likelihood estimation unit 139 first generates a plurality of pre-transition particles in association with the previous frame image, and the generated plurality of pre-transition particles. Is transitioned according to a predetermined object transition model. Then, the likelihood estimation unit 139 compares the positions of one or more current frame feature points corresponding to one or more previous frame feature points with the positions of the plurality of transitioned post-transition particles, thereby causing a plurality of transitions. Estimate the likelihood of each post-particle.

尤度推定部139は、選択部138が選択した一部の前フレーム特徴点に対応する一部の現フレーム特徴点の位置と、複数の遷移後パーティクルの位置とを比較することにより、複数の遷移後パーティクルそれぞれの尤度を推定してもよい。所定の物体遷移モデルは、物体の動作の特性をモデル化した運動モデルであり、例えば、等速直線運動モデル、又は自己回帰モデル等である。尤度推定部139は、推定した複数の遷移後パーティクルそれぞれの尤度を追跡部140に入力する。 The likelihood estimation unit 139 compares the positions of some of the current frame feature points corresponding to some of the previous frame feature points selected by the selection unit 138 with the positions of the plurality of post-transition particles. The likelihood of each particle after the transition may be estimated. The predetermined object transition model is a motion model that models the characteristics of the motion of the object, and is, for example, a constant velocity linear motion model, an autoregressive model, or the like. The likelihood estimation unit 139 inputs the likelihood of each of the estimated plurality of post-transition particles to the tracking unit 140.

追跡部140は、尤度推定部139が推定した複数の遷移後パーティクルそれぞれの尤度に基づいて複数の遷移後パーティクルから選択した一部の遷移後パーティクルに基づいて、動画像に含まれる物体を追跡する。具体的には、追跡部140は、まず、尤度推定部139が推定した複数の遷移後パーティクルそれぞれの尤度の大きさに基づいて複数の遷移後パーティクルから一部の遷移後パーティクルを選択する。追跡部140は、例えば、尤度推定部139が推定した複数の遷移後パーティクルそれぞれの尤度の大きい順に、所定の数量の遷移後パーティクルを選択する。所定の数量は、予め物体追跡装置1に設定されている。そして、追跡部140は、選択した一部の遷移後パーティクルを重み付き平均によって算出したパラメータに基づいて、現フレーム画像に含まれる物体の位置を推定する。パラメータは、例えば、現フレーム画像に含まれる物体の位置を示す座標値等である。 The tracking unit 140 sets an object included in the moving image based on some of the post-transition particles selected from the plurality of post-transition particles based on the likelihood of each of the plurality of post-transition particles estimated by the likelihood estimation unit 139. Chase. Specifically, the tracking unit 140 first selects some post-transition particles from the plurality of post-transition particles based on the magnitude of the likelihood of each of the plurality of post-transition particles estimated by the likelihood estimation unit 139. .. The tracking unit 140 selects a predetermined number of post-transition particles in descending order of the likelihood of each of the plurality of post-transition particles estimated by the likelihood estimation unit 139. A predetermined quantity is set in the object tracking device 1 in advance. Then, the tracking unit 140 estimates the position of the object included in the current frame image based on the parameter calculated by the weighted average of some of the selected post-transition particles. The parameters are, for example, coordinate values indicating the positions of objects included in the current frame image.

追跡部140は、複数の遷移後パーティクルから選択した一部の遷移後パーティクルそれぞれの尤度の大きさに基づいて、現フレーム画像の後のフレーム画像に含まれる物体を追跡するために用いる複数の遷移前パーティクルを選択する。具体的には、追跡部140は、尤度が大きい遷移後パーティクルを複製し、尤度が小さい遷移後パーティクルを消去する。追跡部140は、複数の遷移後パーティクルから選択した一部の遷移後パーティクルそれぞれの尤度の大きさに基づいて、所定の数量の遷移後パーティクルを選択してもよい。 The tracking unit 140 uses a plurality of tracking units 140 to track an object included in a frame image after the current frame image based on the magnitude of the likelihood of each of some post-transition particles selected from the plurality of post-transition particles. Select pre-transition particles. Specifically, the tracking unit 140 duplicates the post-transition particles having a high likelihood and erases the post-transition particles having a low likelihood. The tracking unit 140 may select a predetermined number of post-transition particles based on the magnitude of the likelihood of each of some post-transition particles selected from the plurality of post-transition particles.

[抽出処理]
続いて、抽出部133が行う抽出処理について説明する。上述のとおり、抽出部133は、後段抽出部134及び前段抽出部135を有する。後段抽出部134は、現フレーム画像が複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより後段処理層から出力された複数の後段現フレーム出力、及び前フレーム画像が前段処理層及び後段処理層の順に伝搬したことにより後段処理層から出力された複数の後段前フレーム出力から、共通に活性化している一以上の後段現フレーム出力及び一以上の後段前フレーム出力を抽出する。
[Extraction process]
Subsequently, the extraction process performed by the extraction unit 133 will be described. As described above, the extraction unit 133 has a rear-stage extraction unit 134 and a front-stage extraction unit 135. The post-stage extraction unit 134 outputs a plurality of post-stage current frames and pre-frame images output from the post-stage processing layer because the current frame image propagates in the order of the pre-stage processing layer and the post-stage processing layer, which are a part of the plurality of processing layers. Is propagated in the order of the pre-processing layer and the post-processing layer, so that one or more post-stage current frame outputs and one or more post-stage pre-frame outputs that are commonly activated from the plurality of post-stage pre-frame outputs output from the post-stage processing layer. Is extracted.

前段抽出部135は、一以上の後段現フレーム出力及び一以上の後段前フレーム出力を活性化させる要因となった前段処理層から出力された複数の前段現フレーム出力、及び前段処理層から出力された複数の前段前フレーム出力のうち、共通に活性化している一以上の前段現フレーム出力及び一以上の前段前フレーム出力を抽出する。 The pre-stage extraction unit 135 is output from a plurality of pre-stage current frame outputs output from the pre-stage processing layer and output from the pre-stage processing layer, which are factors that activate one or more post-stage current frame outputs and one or more post-stage front frame outputs. Of the plurality of previous stage previous frame outputs, one or more previous stage current frame outputs and one or more previous stage previous frame outputs that are commonly activated are extracted.

図4から図9は、抽出部133が行う抽出処理について説明するための図である。図4から図9は、前段処理層から後段処理層に伝搬させた状態を示している。図4から図9において、実線で示すユニットを結合する結合線は、結合するユニットから出力があったことを示し、破線で示す結合線は、結合するユニットから出力が無かったことを示す。また、結合線を示す線の太さは、結合するユニットからの出力の大きさを示す。 4 to 9 are diagrams for explaining the extraction process performed by the extraction unit 133. 4 to 9 show a state of propagation from the pre-stage processing layer to the post-stage processing layer. In FIGS. 4 to 9, the connecting line connecting the units shown by the solid line indicates that there was an output from the connecting unit, and the connecting line shown by the broken line indicates that there was no output from the connecting unit. The thickness of the line indicating the connecting line indicates the magnitude of the output from the unit to be connected.

図4の場合において、後段処理層は、最後尾層(例えば、出力層又は全結合層等)又は抽出部133が選択した最後尾層より前の処理層(全結合層又はプーリング層等)であり、前段処理層は、後段処理層の直前の処理層(例えば、全結合層又はプーリング層等)である。図4においては、後段処理層が出力層M20であり、前段処理層が全結合層M19であるとして説明する。 In the case of FIG. 4, the post-stage treatment layer is a treatment layer (for example, an output layer or a fully connected layer) or a treatment layer before the last layer selected by the extraction unit 133 (such as a fully connected layer or a pooling layer). Yes, the pre-stage treatment layer is a treatment layer immediately before the post-stage treatment layer (for example, a fully bonded layer or a pooling layer). In FIG. 4, it is assumed that the post-stage processing layer is the output layer M20 and the pre-stage processing layer is the fully connected layer M19.

図4(a)は、抽出前の状態であり、図4(b)は抽出後の状態である。現フレーム画像において、出力層M20は、ユニットU5、U8が活性化しており、全結合層M19は、ユニットU2、U5、U6、U7、U8が活性化している。前フレーム画像において、出力層M20は、ユニットU3、U5が活性化しており、全結合層M19は、ユニットU2、U4、U5、U8が活性化している。 FIG. 4A is a state before extraction, and FIG. 4B is a state after extraction. In the current frame image, units U5 and U8 are activated in the output layer M20, and units U2, U5, U6, U7 and U8 are activated in the fully connected layer M19. In the previous frame image, units U3 and U5 are activated in the output layer M20, and units U2, U4, U5 and U8 are activated in the fully connected layer M19.

この場合において、後段抽出部134は、後段処理層である出力層M20から出力された後段現フレーム出力であるユニットU5、U8、及び出力層M20から出力された後段前フレーム出力であるユニットU3、U5を比較する。そして、後段抽出部134は、共通に活性化している後段現フレーム出力のユニットU5及び後段前フレーム出力のユニットU5を抽出する。 In this case, the post-stage extraction unit 134 includes units U5 and U8 which are the post-stage current frame outputs output from the output layer M20 which is the post-stage processing layer, and units U3 which are the post-stage front frame outputs output from the output layer M20. Compare U5. Then, the rear stage extraction unit 134 extracts the unit U5 of the rear stage current frame output and the unit U5 of the rear stage front frame output that are commonly activated.

続いて、前段抽出部135は、後段現フレーム出力のユニットU5を活性化させる要因となった前段処理層である全結合層M19から出力された前段現フレーム出力であるユニットU2、U5、U6、及び後段前フレーム出力のユニットU5を活性化させる要因となった全結合層M19から出力された前段前フレーム出力であるユニットU2、U5、U8を比較する。そして、前段抽出部135は、共通に活性化している前段現フレーム出力のユニットU2、U5、及び前段前フレーム出力のユニットU2、U5を抽出する。 Subsequently, the pre-stage extraction unit 135 includes units U2, U5, U6, which are the pre-stage current frame outputs output from the fully connected layer M19, which is the pre-stage processing layer, which is a factor that activates the unit U5 of the rear-stage current frame output. And the units U2, U5, and U8, which are the front frame outputs of the front stage, which are the factors that activate the unit U5 of the front frame output of the rear stage, are compared. Then, the pre-stage extraction unit 135 extracts the units U2 and U5 of the pre-stage current frame output and the units U2 and U5 of the pre-stage front frame output that are commonly activated.

抽出部133は、出力層M20から全結合層M19までの出力を抽出すると、次の処理層に対する出力を抽出する。具体的には、抽出部133は、処理層ごとに、共通に活性化している現フレーム出力及び前フレーム出力を抽出する処理を、伝搬制御部132が伝搬させた順序とは逆の順序で繰り返し行う。より具体的には、抽出部133は、複数の処理層のうち一つの層を後段処理層として選択して一以上の現フレーム出力及び一以上の前フレーム出力を抽出した後に、前段処理層として選択した処理層を後段処理層として選択して、別の一以上の現フレーム出力及び一以上の前フレーム出力を抽出する。このようにすることで、抽出部133は、現フレーム画像及び前フレーム画像に対する比較の精度を高めることができる。 When the extraction unit 133 extracts the output from the output layer M20 to the fully connected layer M19, the extraction unit 133 extracts the output for the next processing layer. Specifically, the extraction unit 133 repeats the process of extracting the current frame output and the previous frame output that are commonly activated for each processing layer in the order opposite to the order propagated by the propagation control unit 132. conduct. More specifically, the extraction unit 133 selects one of the plurality of processing layers as the post-processing layer, extracts one or more current frame outputs and one or more pre-frame outputs, and then uses the extraction unit 133 as the pre-processing layer. The selected processing layer is selected as the subsequent processing layer, and another one or more current frame outputs and one or more previous frame outputs are extracted. By doing so, the extraction unit 133 can improve the accuracy of comparison with the current frame image and the previous frame image.

図5は、現フレーム画像に基づいて、前段処理層から後段処理層に伝搬させた状態を示している。図6は、前フレーム画像に基づいて、前段処理層から後段処理層に伝搬させた状態を示している。図5及び図6の場合において、後段処理層は、全結合層M18であり、前段処理層は、全結合層以外の処理層(例えば、プーリング層又は畳み込み層等)である。図5及び図6においては、前段処理層がプーリング層M17であるとして説明する。また、図5及び図6において、前段処理層は、3つのチャンネルを有する。上段の第1チャンネルは、ユニットU11、U12、U13、U14、及びU15を含む。中段の第2チャンネルは、ユニットU21、U22、U23、U24、及びU25を含む。下段の第3チャンネルは、ユニットU31、U32、U33、U34、及びU35を含む。 FIG. 5 shows a state in which the image is propagated from the pre-stage processing layer to the post-stage processing layer based on the current frame image. FIG. 6 shows a state in which the image is propagated from the pre-stage processing layer to the post-stage processing layer based on the pre-frame image. In the case of FIGS. 5 and 6, the post-stage treatment layer is a fully-bonded layer M18, and the front-stage treatment layer is a treatment layer other than the fully-bonded layer (for example, a pooling layer or a convolution layer). In FIGS. 5 and 6, the pretreatment layer will be described as the pooling layer M17. Further, in FIGS. 5 and 6, the pretreatment layer has three channels. The first channel in the upper row includes units U11, U12, U13, U14, and U15. The second channel in the middle stage includes units U21, U22, U23, U24, and U25. The lower third channel includes units U31, U32, U33, U34, and U35.

現フレーム画像において、プーリング層M17は、第1チャンネルに含まれるユニットU13及び第2チャンネルに含まれるユニットU21、U24が活性化している。前フレーム画像において、全結合層M18は、第2チャンネルに含まれるユニットU22、U24、U25及び第3チャンネルに含まれるユニットU32、U33が活性化している。 In the current frame image, in the pooling layer M17, the units U13 included in the first channel and the units U21 and U24 included in the second channel are activated. In the front frame image, in the fully connected layer M18, the units U22, U24, U25 included in the second channel and the units U32, U33 included in the third channel are activated.

前段抽出部135は、後段現フレーム出力のユニットU5を活性化させる要因となった前段処理層であるプーリング層M17から出力された前段現フレーム出力、及び後段前フレーム出力のユニットU5を活性化させる要因となったプーリング層M17から出力された前段前フレーム出力を比較する。前段抽出部135は、活性化しているユニットの有無を調べ、活性化している前段現フレーム出力の第1チャンネルに含まれるユニットU13及び第2チャンネルに含まれるU21、U24と、前段前フレーム出力の第2チャンネルに含まれるユニットU22、U24、U25及び第3チャンネルに含まれるU32、U33とに着目する。 The front-stage extraction unit 135 activates the front-stage current frame output output from the pooling layer M17, which is the front-stage processing layer, and the unit U5 of the rear-stage front frame output, which are factors that activate the unit U5 of the rear-stage current frame output. The previous frame output from the pooling layer M17, which is a factor, is compared. The pre-stage extraction unit 135 checks for the presence or absence of an activated unit, and unit U13 included in the first channel of the activated pre-stage current frame output, U21 and U24 included in the second channel, and the pre-stage pre-frame output. Focus on the units U22, U24, U25 included in the second channel and U32, U33 included in the third channel.

そして、前段抽出部135は、前段現フレーム出力と前段前フレーム出力との両方において活性化しているユニットが存在しているチャンネルが第2チャンネルであることから、前段現フレーム出力の第2チャンネルに含まれるユニットU21、U24及び前段前フレーム出力の第2チャンネルに含まれるユニットU22、U24、U25を抽出する。 Then, since the channel in which the unit activated in both the previous stage current frame output and the previous stage previous frame output exists is the second channel, the front stage extraction unit 135 is set to the second channel of the previous stage current frame output. The units U21, U24 included and the units U22, U24, U25 included in the second channel of the front frame output of the previous stage are extracted.

図7の場合において、後段処理層は、プーリング層M16であり、前段処理層は、プーリング層以外の処理層(例えば、畳み込み層又は正規化層等)である。図7においては、前段処理層が畳み込み層M15であるとして説明する。また、図7において、前段処理層は、チャンネルが1つであるとして説明する。現フレーム画像において、プーリング層M16は、ユニットU5が活性化しており、畳み込み層M15は、ユニットU3、U5が活性化している。前フレーム画像において、プーリング層M16は、ユニットU3が活性化しており、畳み込み層M15は、ユニットU3、U4が活性化している。 In the case of FIG. 7, the post-stage treatment layer is the pooling layer M16, and the front-stage treatment layer is a treatment layer other than the pooling layer (for example, a convolution layer or a normalized layer). In FIG. 7, the pre-stage processing layer will be described as the convolution layer M15. Further, in FIG. 7, the pre-stage processing layer will be described as having one channel. In the current frame image, the pooling layer M16 has the unit U5 activated, and the convolution layer M15 has the units U3 and U5 activated. In the pre-frame image, the pooling layer M16 has the unit U3 activated, and the convolution layer M15 has the units U3 and U4 activated.

ここで、抽出部133は、画像の圧縮を行うプーリング層においては、直前の処理層からプーリング層に結合している複数のユニットのうち、チャンネルごとに活性化している程度に基づいて出力を抽出する。具体的には、前段抽出部135は、複数の前段現フレーム出力及び複数の前段前フレーム出力のうち、活性化している大きさに基づいて、一以上の前段現フレーム出力及び一以上の前段前フレーム出力を抽出する。前段抽出部135は、例えば、複数の前段現フレーム出力及び複数の前段前フレーム出力のうち、チャンネルごとに最も大きく活性化している一以上の前段現フレーム出力及び一以上の前段前フレーム出力を抽出する。 Here, in the pooling layer that compresses the image, the extraction unit 133 extracts the output based on the degree of activation for each channel among the plurality of units bonded to the pooling layer from the immediately preceding processing layer. do. Specifically, the pre-stage extraction unit 135 has one or more pre-stage current frame outputs and one or more pre-stage pre-frame outputs based on the activated size of the plurality of pre-stage current frame outputs and the plurality of pre-stage pre-frame outputs. Extract the frame output. The pre-stage extraction unit 135 extracts, for example, one or more pre-stage current frame outputs and one or more pre-stage pre-frame outputs that are most activated for each channel among the plurality of pre-stage current frame outputs and the plurality of pre-stage pre-frame outputs. do.

この場合において、後段抽出部134は、直前の抽出処理において前段処理層として選択したプーリング層M16を選択して、プーリング層M16から出力された後段現フレーム出力のユニットU5、及びプーリング層M16から出力された後段前フレーム出力のユニットU3を抽出する。そして、前段抽出部135は、後段現フレーム出力のユニットU3、U5及び後段前フレーム出力のユニットU3、U4のうち、チャンネルごとに最も大きく活性化している前段現フレーム出力のユニットU5、及び前段前フレーム出力のユニットU4を抽出する。このようにすることで、前段抽出部135は、画像の中で特徴となる領域を特定することができる。 In this case, the post-stage extraction unit 134 selects the pooling layer M16 selected as the pre-stage processing layer in the immediately preceding extraction process, and outputs from the post-stage current frame output unit U5 and the pooling layer M16 output from the pooling layer M16. The unit U3 of the post-stage front frame output is extracted. Then, the front-stage extraction unit 135 has the front-stage current frame output unit U5 and the front-stage front, which are the most activated for each channel among the rear-stage current frame output units U3 and U5 and the rear-stage front frame output units U3 and U4. The frame output unit U4 is extracted. By doing so, the pre-stage extraction unit 135 can specify a characteristic region in the image.

図8の場合において、後段処理層は、畳み込み層M14であり、前段処理層は、畳み込み層を含む他の処理層(例えば、正規化層又はプーリング層等)である。図8においては、前段処理層が正規化層M13であるとして説明する。また、図8において、前段処理層は、チャンネルが1つであるとして説明する。現フレーム画像において、畳み込み層M14は、ユニットU5が活性化しており、正規化層M13は、ユニットU3、U5、U6が活性化している。前フレーム画像において、畳み込み層M14は、ユニットU3が活性化しており、正規化層M13は、ユニットU3、U4、U5が活性化している。 In the case of FIG. 8, the post-stage treatment layer is a convolution layer M14, and the front-stage treatment layer is another treatment layer including the convolution layer (for example, a normalized layer or a pooling layer). In FIG. 8, the pre-stage processing layer will be described as the normalization layer M13. Further, in FIG. 8, the pre-stage processing layer will be described as having one channel. In the current frame image, the convolution layer M14 has the unit U5 activated, and the normalized layer M13 has the units U3, U5, and U6 activated. In the pre-frame image, the convolution layer M14 has the unit U3 activated, and the normalized layer M13 has the units U3, U4, and U5 activated.

この場合において、後段抽出部134は、直前の抽出処理において前段処理層として選択した畳み込み層M14を選択して、畳み込み層M14から出力された後段現フレーム出力のユニットU5、及び畳み込み層M14から出力された後段前フレーム出力のユニットU3を抽出する。 In this case, the post-stage extraction unit 134 selects the convolution layer M14 selected as the pre-stage processing layer in the immediately preceding extraction process, and outputs from the post-stage current frame output unit U5 and the convolution layer M14 output from the convolution layer M14. The unit U3 of the post-stage front frame output is extracted.

続いて、前段抽出部135は、後段現フレーム出力のユニットU5を活性化させる要因となった前段処理層である正規化層M13から出力された前段現フレーム出力、及び後段前フレーム出力のユニットU4を活性化させる要因となった前段処理層である正規化層M13から出力された前段前フレーム出力を比較する。ここで、前段抽出部135は、後段処理層が畳み込み層である場合、後段抽出部134が後段処理層から抽出したユニットに結合する前段処理層の複数のユニットのうち、前段現フレーム出力と前段前フレーム出力とにおいて位置が相対的に同じであり、かつチャンネルが共通するユニットを抽出する。この場合、前段抽出部135は、前段現フレーム出力と前段前フレーム出力とにおいて位置が相対的に同じであり、かつチャンネルが共通するユニットとして、前段現フレーム出力のユニットU5、U6、及び前段前フレーム出力のユニットU3、U4を抽出する。 Subsequently, the front-stage extraction unit 135 includes the front-stage current frame output output from the normalization layer M13, which is the front-stage processing layer, which is a factor that activates the unit U5 of the rear-stage current frame output, and the unit U4 of the rear-stage front frame output. The pre-stage pre-frame output output from the normalization layer M13, which is the pre-stage processing layer that has become a factor for activating the above, is compared. Here, when the post-stage processing layer is a convolutional layer, the pre-stage extraction unit 135 has the pre-stage current frame output and the pre-stage of the plurality of units of the pre-stage processing layer that are coupled to the units extracted from the post-stage processing layer by the post-stage extraction unit 134. Extract units that are relatively the same position as the previous frame output and have the same channel. In this case, the pre-stage extraction unit 135 has the units U5, U6, and the pre-stage front of the pre-stage current frame output as units having relatively the same position in the pre-stage current frame output and the pre-stage front frame output and having a common channel. The frame output units U3 and U4 are extracted.

図9の場合において、後段処理層は、正規化層M12であり、前段処理層は、正規化層以外の処理層(例えば、畳み込み層又はプーリング層等)である。図9においては、前段処理層がプーリング層M11であるとして説明する。また、図9において、前段処理層は、チャンネルが1つであるとして説明する。現フレーム画像において、正規化層M12は、ユニットU5が活性化している。前フレーム画像において、正規化層M12は、ユニットU3が活性化している。 In the case of FIG. 9, the post-stage treatment layer is the normalization layer M12, and the front-stage treatment layer is a treatment layer other than the normalization layer (for example, a convolution layer or a pooling layer). In FIG. 9, the pretreatment layer will be described as the pooling layer M11. Further, in FIG. 9, the pre-stage processing layer will be described as having one channel. In the current frame image, the unit U5 is activated in the normalized layer M12. In the pre-frame image, the normalized layer M12 has the unit U3 activated.

ここで、抽出部133は、画像に対して前処理を行う正規化層においては、後段処理層において活性化しているユニットに結合している前段処理層に含まれる複数のユニットのうち、中心のユニットを抽出する。この場合において、後段抽出部134は、後段処理層として選択した正規化層M12から出力された後段現フレーム出力のユニットU5、及び正規化層M12から出力された後段前フレーム出力のユニットU3を抽出する。 Here, in the normalization layer that preprocesses the image, the extraction unit 133 is the center of the plurality of units included in the pretreatment layer that is bound to the unit that is activated in the post-processing layer. Extract the unit. In this case, the post-stage extraction unit 134 extracts the unit U5 of the post-stage current frame output output from the normalization layer M12 selected as the post-stage processing layer and the unit U3 of the post-stage front frame output output from the normalization layer M12. do.

そして、前段抽出部135は、正規化層M5から出力された後段現フレーム出力のユニットU5に結合しているプーリング層M11のユニットのうち、中心のユニットU5を抽出する。同様に、前段抽出部135は、正規化層M12から出力された後段前フレーム出力のユニットU3に結合しているプーリング層M11のユニットのうち、中心のユニットU3を抽出する。 Then, the front-stage extraction unit 135 extracts the central unit U5 from the units of the pooling layer M11 coupled to the unit U5 of the rear-stage current frame output output from the normalization layer M5. Similarly, the front-stage extraction unit 135 extracts the central unit U3 from the units of the pooling layer M11 coupled to the unit U3 of the rear-stage front frame output output from the normalization layer M12.

抽出部133は、上述の抽出処理を入力層まで繰り返し行うことが好ましい。しかし、抽出部133は、抽出処理を最初の処理層まで行わずに、途中の処理層(例えば、プーリング層又は正規化層等)で終了してもよい。このように、抽出部133は、伝搬制御部132が伝搬させた順序とは逆の順序で抽出処理を行うことにより、抽象度が高い出力を抽出することができる。 It is preferable that the extraction unit 133 repeats the above-mentioned extraction process up to the input layer. However, the extraction unit 133 may end the extraction process at an intermediate process layer (for example, a pooling layer, a normalization layer, or the like) without performing the extraction process up to the first process layer. In this way, the extraction unit 133 can extract an output having a high degree of abstraction by performing the extraction process in the order opposite to the order in which the propagation control unit 132 propagates.

[物体追跡処理]
続いて、物体追跡処理について説明する。図10は、物体追跡処理の詳細について説明するための図である。図10に示す白い丸は、尤度推定部139又は追跡部140が生成したパーティクルであり、黒い丸は、特徴点検出部137が検出した特徴点である。白い丸及び黒い丸それぞれの位置は、フレーム画像に位置する白い丸及び黒い丸それぞれの位置関係を示す。例えば、前フレーム特徴点F1を基準とした場合に、パーティクルP2が最も近く、パーティクルP3が最も遠い関係である。
[Object tracking process]
Subsequently, the object tracking process will be described. FIG. 10 is a diagram for explaining the details of the object tracking process. The white circles shown in FIG. 10 are particles generated by the likelihood estimation unit 139 or the tracking unit 140, and the black circles are the feature points detected by the feature point detection unit 137. The positions of the white circles and the black circles indicate the positional relationship between the white circles and the black circles located in the frame image. For example, when the feature point F1 of the front frame is used as a reference, the particles P2 are the closest and the particles P3 are the farthest.

まず、尤度推定部139は、前フレーム画像に関連付けて複数の遷移前パーティクルを生成する(図10の(1))。図10に示すように、尤度推定部139は、前フレーム画像に遷移前パーティクルP1、P2、P3を生成する。具体的には、尤度推定部139は、追跡部140が選択した遷移前パーティクルP1、P2、P3が存在する場合、遷移前パーティクルP1、P2、P3を前フレーム画像に配置する。一方、尤度推定部139は、追跡部140が生成したパーティクルが存在しない場合、すなわち、尤度を最初に推定する場合、遷移前パーティクルP1、P2、P3を生成して前フレーム画像に配置する。 First, the likelihood estimation unit 139 generates a plurality of pre-transition particles in association with the pre-frame image ((1) in FIG. 10). As shown in FIG. 10, the likelihood estimation unit 139 generates pre-transition particles P1, P2, and P3 in the pre-frame image. Specifically, the likelihood estimation unit 139 arranges the pre-transition particles P1, P2, and P3 in the pre-frame image when the pre-transition particles P1, P2, and P3 selected by the tracking unit 140 are present. On the other hand, the likelihood estimation unit 139 generates pre-transition particles P1, P2, and P3 and arranges them in the previous frame image when the particles generated by the tracking unit 140 do not exist, that is, when the likelihood is estimated first. ..

続いて、尤度推定部139は、配置した複数の遷移前パーティクルを所定の物体遷移モデルに則って遷移させることにより、物体の動きを予測する(図10の(2))。尤度推定部139は、例えば、等速直線運動モデルに則って、遷移前パーティクルP1、P2、P3を遷移後パーティクルP4、P5、P6の位置に遷移させる。 Subsequently, the likelihood estimation unit 139 predicts the movement of the object by making the arranged plurality of pre-transition particles transition according to a predetermined object transition model ((2) in FIG. 10). The likelihood estimation unit 139 shifts the pre-transition particles P1, P2, and P3 to the positions of the post-transition particles P4, P5, and P6, for example, according to a constant velocity linear motion model.

続いて、尤度推定部139は、一以上の前フレーム特徴点に対応する一以上の現フレーム特徴点の位置と、遷移させた後の複数の遷移後パーティクルの位置とを比較することにより、複数の遷移後パーティクルそれぞれの尤度を推定する(図10の(3))。具体的には、尤度推定部139は、一以上の前フレーム特徴点に対応する一以上の現フレーム特徴点の位置に近い遷移後パーティクルに対して尤度が大きくなるように推定する。尤度推定部139は、例えば、前フレーム特徴点F1に対応する現フレーム特徴点F2に近い順として、遷移後パーティクルP4、P5、P6に対して、尤度の大きさが「P5>P4>P6」となるように推定する。 Subsequently, the likelihood estimation unit 139 compares the positions of one or more current frame feature points corresponding to one or more previous frame feature points with the positions of the plurality of post-transition particles after the transition. The likelihood of each of the plurality of post-transition particles is estimated ((3) in FIG. 10). Specifically, the likelihood estimation unit 139 estimates that the likelihood is increased for post-transition particles close to the positions of one or more current frame feature points corresponding to one or more previous frame feature points. The likelihood estimation unit 139 has a likelihood magnitude of “P5> P4> with respect to the post-transition particles P4, P5, and P6 in the order of proximity to the current frame feature point F2 corresponding to the previous frame feature point F1. It is estimated to be "P6".

尤度推定部139は、一以上の前フレーム特徴点に対応しているか否かを問わず、一以上の現フレーム特徴点の位置と、複数の遷移後パーティクルとの位置とを比較することにより、複数の遷移後パーティクルそれぞれの尤度を推定してもよい。尤度推定部139は、例えば、遷移後パーティクルと、現フレーム画像内の複数の現フレーム特徴点のうち遷移後パーティクルに最も近い現フレーム特徴点との近さを尤度として推定してもよい。この場合、尤度推定部139は、現フレーム特徴点の位置と、遷移後パーティクルの位置との距離の逆数を尤度として推定してもよい。また、尤度推定部139は、例えば、遷移後パーティクルと、一以上の現フレーム特徴点との平均的な近さを尤度として推定してもよい。また、尤度推定部139は、例えば、遷移後パーティクルと、当該遷移後パーティクルに対応する遷移前パーティクルの最近傍の前フレーム特徴点と対応関係にある現フレーム特徴点との近さを尤度としてもよい。 The likelihood estimation unit 139 compares the positions of one or more current frame feature points with the positions of a plurality of post-transition particles regardless of whether or not they correspond to one or more previous frame feature points. , The likelihood of each of the plurality of post-transition particles may be estimated. The likelihood estimation unit 139 may estimate, for example, the closeness between the post-transition particles and the current frame feature points closest to the post-transition particles among a plurality of current frame feature points in the current frame image as the likelihood. .. In this case, the likelihood estimation unit 139 may estimate the reciprocal of the distance between the position of the current frame feature point and the position of the post-transition particles as the likelihood. Further, the likelihood estimation unit 139 may estimate, for example, the average closeness between the post-transition particles and one or more current frame feature points as the likelihood. Further, the likelihood estimation unit 139 determines the closeness between the post-transition particles and the current frame feature points corresponding to the nearest previous frame feature points of the pre-transition particles corresponding to the post-transition particles. May be.

ところで、尤度推定部139が尤度を最初に推定する場合、複数の遷移前パーティクルを配置する基準となる尤度を推定した複数の遷移後パーティクルが存在しない。そこで、尤度推定部139は、尤度を最初に推定する場合において、前フレーム画像にランダムに配置した複数の遷移前パーティクルを生成し、一以上の前フレーム特徴点に対応する前記一以上の現フレーム特徴点の位置と、複数の遷移後パーティクルの位置とを比較することにより、複数の遷移後パーティクルそれぞれの尤度を推定する。 By the way, when the likelihood estimation unit 139 first estimates the likelihood, there are no plurality of post-transition particles whose likelihood is estimated as a reference for arranging the plurality of pre-transition particles. Therefore, when the likelihood estimation unit 139 first estimates the likelihood, the likelihood estimation unit 139 generates a plurality of pre-transition particles randomly arranged in the pre-frame image, and the one or more pre-transition particles corresponding to one or more pre-frame feature points. By comparing the positions of the current frame feature points with the positions of the plurality of post-transition particles, the likelihood of each of the plurality of post-transition particles is estimated.

このように初期の遷移前パーティクルを前フレーム画像全体にランダムに配置することにより、追跡部140は、尤度推定部139が推定した尤度に基づいて物体の位置を推定することができる。しかし、遷移前パーティクルを前フレーム画像全体にランダムに配置した場合、物体の位置に配置される遷移前パーティクルの割合が少なくなり、尤度推定部139が尤度を推定する精度が悪くなる可能性がある。そこで、尤度推定部139は、一以上の前フレーム特徴点に対応する一以上の現フレーム特徴点の位置と、一以上の前フレーム特徴点をパーティクルとして用いた一以上の遷移前パーティクルを所定の物体遷移モデルに則って遷移させた遷移後パーティクルの位置とを比較することにより、一以上の遷移後パーティクルそれぞれの尤度を推定してもよい。 By randomly arranging the initial pre-transition particles in the entire front frame image in this way, the tracking unit 140 can estimate the position of the object based on the likelihood estimated by the likelihood estimation unit 139. However, when the pre-transition particles are randomly arranged in the entire previous frame image, the proportion of the pre-transition particles arranged at the position of the object becomes small, and the likelihood estimation unit 139 may deteriorate the accuracy of estimating the likelihood. There is. Therefore, the likelihood estimation unit 139 determines the positions of one or more current frame feature points corresponding to one or more previous frame feature points and one or more pre-transition particles using one or more previous frame feature points as particles. The likelihood of each of one or more post-transition particles may be estimated by comparing the positions of the post-transition particles that have been transitioned according to the object transition model of.

尤度推定部139は、例えば、前フレーム特徴点F1に対応する現フレーム特徴点F2の位置と、前フレーム特徴点F1をパーティクルとして用いた遷移前パーティクルを所定の物体遷移モデルに則って遷移させた遷移後パーティクルの位置とを比較することにより、一以上の遷移後パーティクルそれぞれの尤度を推定してもよい。このように抽象度が高い特徴量に基づく特徴点を初期の遷移前パーティクルとして用いることにより、遷移前パーティクルをランダムに配置する場合に比べて、物体の位置に配置される遷移前パーティクルの割合が多くなり、尤度推定部139は、尤度を推定する精度を向上させることができる。 For example, the likelihood estimation unit 139 transitions the position of the current frame feature point F2 corresponding to the previous frame feature point F1 and the pre-transition particles using the previous frame feature point F1 as particles according to a predetermined object transition model. The likelihood of each of one or more post-transition particles may be estimated by comparing the positions of the post-transition particles. By using feature points based on features with a high degree of abstraction as the initial pre-transition particles, the proportion of pre-transition particles placed at the position of the object is higher than when the pre-transition particles are randomly placed. The number increases, and the likelihood estimation unit 139 can improve the accuracy of estimating the likelihood.

続いて、追跡部140は、尤度推定部139が推定した複数の遷移後パーティクルそれぞれの尤度に基づいて複数の遷移後パーティクルから選択した一部の遷移後パーティクルに基づいて、現フレーム画像に含まれる物体の位置を推定する(図10の(4))。追跡部140は、例えば、尤度推定部139が推定した遷移後パーティクルの尤度の大きい順「P5>P4>P6」に、所定の数量の遷移後パーティクルを選択する。追跡部140は、例えば、所定の数量が2つである場合、尤度推定部139が推定した遷移後パーティクルの尤度の大きい順として、遷移後パーティクルP4、P5を選択する。 Subsequently, the tracking unit 140 sets the current frame image based on some of the post-transition particles selected from the plurality of post-transition particles based on the likelihood of each of the plurality of post-transition particles estimated by the likelihood estimation unit 139. The position of the contained object is estimated ((4) in FIG. 10). The tracking unit 140 selects a predetermined number of post-transition particles in the order of increasing likelihood of post-transition particles estimated by the likelihood estimation unit 139, for example, “P5> P4> P6”. For example, when the predetermined quantity is two, the tracking unit 140 selects the post-transition particles P4 and P5 in descending order of the likelihood of the post-transition particles estimated by the likelihood estimation unit 139.

そして、追跡部140は、選択した一部の遷移後パーティクルP4、P5を重み付き平均によって算出したパラメータに基づいて、現フレーム画像に含まれる物体の位置を推定する。追跡部140は、例えば、現フレーム画像において、推定した物体の位置を四角い枠で示してもよい。 Then, the tracking unit 140 estimates the position of the object included in the current frame image based on the parameters calculated by the weighted average of some of the selected post-transition particles P4 and P5. For example, the tracking unit 140 may indicate the estimated position of the object with a square frame in the current frame image.

続いて、追跡部140は、複数の遷移後パーティクルから選択した一部の遷移後パーティクルそれぞれの尤度の大きさに基づいて、現フレーム画像の後のフレーム画像に含まれる物体を追跡するために用いる複数の遷移前パーティクルを選択する(図10の(5))。追跡部140は、例えば、尤度が大きい遷移後パーティクルP5を、遷移後パーティクルP5、P7、P8のように複製し、尤度が小さい遷移後パーティクルP6を消去する。このように、物体追跡装置1は、物体追跡処理を繰り返すことにより、動画像に含まれる物体を追跡する。 Subsequently, the tracking unit 140 tracks an object included in the frame image after the current frame image based on the magnitude of the likelihood of each of some of the post-transition particles selected from the plurality of post-transition particles. A plurality of pre-transition particles to be used are selected ((5) in FIG. 10). The tracking unit 140 duplicates the post-transition particles P5 having a high likelihood, such as the post-transition particles P5, P7, and P8, and erases the post-transition particles P6 having a low likelihood. In this way, the object tracking device 1 tracks the object included in the moving image by repeating the object tracking process.

[物体追跡装置1の処理]
続いて、物体追跡装置1が行う処理の流れを説明する。図11は、物体追跡装置1が行う処理の流れを示すフローチャートである。本フローチャートは、物体追跡装置1が、記憶部12に動画像が格納され、ユーザによる動画像を圧縮する処理を実行する操作を受け付けたことを契機として開始する。
[Processing of object tracking device 1]
Subsequently, the flow of processing performed by the object tracking device 1 will be described. FIG. 11 is a flowchart showing the flow of processing performed by the object tracking device 1. This flowchart starts when the object tracking device 1 receives an operation of storing a moving image in the storage unit 12 and executing a process of compressing the moving image by the user.

動画像取得部131は、記憶部12に記憶されている動画像を取得する(S1)。動画像取得部131は、取得した動画像を伝搬制御部132に入力する。伝搬制御部132は、動画像取得部131から入力された動画像に含まれるフレーム画像である現フレーム画像及び前フレーム画像のそれぞれを、機械学習モデルMに含まれる入力層M1から出力層M10までの複数の処理層に、入力層M1から順に伝搬させる(S2)。 The moving image acquisition unit 131 acquires the moving image stored in the storage unit 12 (S1). The moving image acquisition unit 131 inputs the acquired moving image to the propagation control unit 132. The propagation control unit 132 transfers each of the current frame image and the previous frame image, which are frame images included in the moving image input from the moving image acquisition unit 131, from the input layer M1 included in the machine learning model M to the output layer M10. It is propagated to the plurality of processing layers in order from the input layer M1 (S2).

抽出部133は、後段処理層及び前段処理層の両方の処理層において共通に活性化している一以上の現フレーム出力及び一以上の前フレーム出力を抽出する処理を行う(S3)。図12は、抽出部133が行う処理の流れを示すフローチャートである。抽出部133は、指示受付部136が、操作部11を介して、複数の処理層のうち、後段処理層として用いる処理層を選択する指示を受け付けたか否かを判定する(S31)。 The extraction unit 133 performs a process of extracting one or more current frame outputs and one or more front frame outputs that are commonly activated in both the processing layers of the post-stage processing layer and the front-stage processing layer (S3). FIG. 12 is a flowchart showing the flow of processing performed by the extraction unit 133. The extraction unit 133 determines whether or not the instruction receiving unit 136 has received an instruction to select a processing layer to be used as the subsequent processing layer from the plurality of processing layers via the operation unit 11 (S31).

抽出部133は、指示受付部136が指示を受け付けたと判定した場合(S31においてYESの場合)、指示受付部136が受け付けた指示が示す処理層を、後段処理層として選択する(S32)。抽出部133は、例えば、指示受付部136が第1の全結合層M8を示す指示を受け付けたと判定した場合、指示受付部136が受け付けた指示が示す第1の全結合層M8を、後段処理層として使用する。一方、抽出部133は、指示受付部136が指示を受け付けていないと判定した場合(S31においてNOの場合)、最後尾層(例えば、出力層M10)で共通に活性化している一以上の現フレーム出力及び一以上の前フレーム出力があるか否かを判定する(S33)。 When the extraction unit 133 determines that the instruction receiving unit 136 has received the instruction (YES in S31), the extraction unit 133 selects the processing layer indicated by the instruction received by the instruction receiving unit 136 as the subsequent processing layer (S32). When, for example, the extraction unit 133 determines that the instruction receiving unit 136 has received the instruction indicating the first fully connected layer M8, the extraction unit 133 processes the first fully connected layer M8 indicated by the instruction received by the instruction receiving unit 136 in a subsequent stage. Used as a layer. On the other hand, when the extraction unit 133 determines that the instruction reception unit 136 is not accepting the instruction (NO in S31), one or more presents that are commonly activated in the rearmost layer (for example, the output layer M10). It is determined whether or not there is a frame output and one or more previous frame outputs (S33).

抽出部133は、出力層M10で共通に活性化している一以上の現フレーム出力及び一以上の前フレーム出力があると判定した場合(S33においてYESの場合)、最後尾層である出力層M10を、後段処理層として使用する(S34)。一方、抽出部133は、出力層M10で共通に活性化している一以上の現フレーム出力及び一以上の前フレーム出力がないと判定した場合(S33においてNOの場合)、出力層M10より前の各処理層に対して、共通に活性化している一以上の現フレーム出力及び一以上の前フレーム出力を繰り返し探索する。そして、抽出部133は、共通に活性化している一以上の現フレーム出力及び一以上の前フレーム出力がある処理層(例えば、第2の全結合層M9)を、後段処理層として使用する(S35)。抽出部133は、選択した後段処理層、及び前段処理層の両方の処理層において共通に活性化している、現フレーム画像に基づいて後段処理層及び前段処理層から出力された一以上の現フレーム出力と前フレーム画像に基づいて後段処理層及び前段処理層から出力された一以上の前フレーム出力とを抽出する。 When the extraction unit 133 determines that there is one or more current frame outputs and one or more previous frame outputs that are commonly activated in the output layer M10 (YES in S33), the output layer M10 which is the last layer. Is used as a post-treatment layer (S34). On the other hand, when the extraction unit 133 determines that there is no one or more current frame outputs and one or more previous frame outputs commonly activated in the output layer M10 (NO in S33), the extraction unit 133 is before the output layer M10. For each processing layer, one or more current frame outputs and one or more previous frame outputs that are commonly activated are repeatedly searched. Then, the extraction unit 133 uses a processing layer having one or more current frame outputs and one or more front frame outputs (for example, the second fully connected layer M9) that are commonly activated as the subsequent processing layer (for example, the second fully connected layer M9). S35). The extraction unit 133 is one or more current frames output from the post-stage processing layer and the pre-stage processing layer based on the current frame image, which are commonly activated in both the selected post-stage processing layer and the pre-stage processing layer. Based on the output and the pre-frame image, the post-stage processing layer and one or more pre-frame outputs output from the pre-stage processing layer are extracted.

具体的には、まず、後段抽出部134は、選択した後段処理層から出力された複数の後段現フレーム出力、及び選択した後段処理層から出力された複数の後段前フレーム出力から、共通に活性化している一以上の後段現フレーム出力及び一以上の後段前フレーム出力を抽出する(S36)。そして、前段抽出部135は、後段抽出部134が抽出した一以上の後段現フレーム出力及び一以上の後段前フレーム出力を活性化させる要因となった前段処理層から出力された複数の前段現フレーム出力、及び前段処理層から出力された複数の前段前フレーム出力のうち、共通に活性化している一以上の前段現フレーム出力及び一以上の前段前フレーム出力を抽出する(S37)。 Specifically, first, the post-stage extraction unit 134 is commonly activated from a plurality of post-stage current frame outputs output from the selected post-stage processing layer and a plurality of post-stage pre-frame outputs output from the selected post-stage processing layer. One or more subsequent-stage current frame outputs and one or more subsequent-stage front frame outputs that have been converted are extracted (S36). Then, the front-stage extraction unit 135 has a plurality of front-stage current frames output from the front-stage processing layer that has been a factor in activating one or more rear-stage current frame outputs and one or more rear-stage front-frame outputs extracted by the rear-stage extraction unit 134. From the output and the plurality of pre-stage pre-frame outputs output from the pre-stage processing layer, one or more pre-stage current frame outputs and one or more pre-stage pre-frame outputs that are commonly activated are extracted (S37).

続いて、抽出部133は、前段処理層より前に別の処理層があるか否かを判定する(S38)。抽出部133は、前段処理層(例えば、第2のプーリング層M7)より前に別の処理層(例えば、第3の畳み込み層M6)があると判定した場合(S38においてYESの場合)、第2のプーリング層M7を後段処理層として選択し(S39)、処理をS36に戻す。一方、抽出部133は、前段処理層(例えば、入力層M1)より前に別の処理層がないと判定した場合(S38においてNOの場合)、抽出した一以上の現フレーム出力及び一以上の前フレーム出力を特徴点検出部137に入力し、抽出処理を終了する。 Subsequently, the extraction unit 133 determines whether or not there is another processing layer before the pre-stage processing layer (S38). When the extraction unit 133 determines that there is another treatment layer (for example, the third convolution layer M6) before the pre-stage treatment layer (for example, the second pooling layer M7) (YES in S38), the first The pooling layer M7 of 2 is selected as the post-treatment layer (S39), and the treatment is returned to S36. On the other hand, when the extraction unit 133 determines that there is no other processing layer before the pre-stage processing layer (for example, the input layer M1) (NO in S38), the extracted one or more current frame outputs and one or more current frame outputs. The previous frame output is input to the feature point detection unit 137, and the extraction process is completed.

図11に戻り、特徴点検出部137は、一以上の現フレーム出力及び一以上の前フレーム出力に基づいて、対応する特徴点を探索し、対応関係にある一以上の現フレーム出力に基づく一以上の現フレーム特徴点と、一以上の前フレーム出力に基づく一以上の前フレーム特徴点とを検出する(S4)。続いて、選択部138は、特徴点検出部137が検出した現フレーム特徴点及び前フレーム特徴点に不適切な特徴点があるか否かを判定する(S5)。選択部138は、例えば、RANSAC法に基づいて絞り込みを行う。 Returning to FIG. 11, the feature point detection unit 137 searches for a corresponding feature point based on one or more current frame outputs and one or more previous frame outputs, and one based on one or more current frame outputs having a corresponding relationship. The above current frame feature points and one or more previous frame feature points based on one or more previous frame outputs are detected (S4). Subsequently, the selection unit 138 determines whether or not there are inappropriate feature points in the current frame feature point and the previous frame feature point detected by the feature point detection unit 137 (S5). The selection unit 138 narrows down based on, for example, the RANSAC method.

選択部138は、現フレーム特徴点及び前フレーム特徴点に不適切な特徴点があると判定した場合(S5においてYESの場合)、不適切な特徴点、すなわち、誤検出した対応関係にある現フレーム特徴点及び前フレーム特徴点を除去し(S6)、除去した後の対応関係に基づく一部の現フレーム特徴点及び一部の前フレーム特徴点を選択する。 When the selection unit 138 determines that the current frame feature point and the previous frame feature point have an inappropriate feature point (YES in S5), the selection unit 138 has an inappropriate feature point, that is, an erroneously detected current corresponding relationship. The frame feature points and the front frame feature points are removed (S6), and some current frame feature points and some front frame feature points based on the correspondence after the removal are selected.

尤度推定部139は、選択部138が、現フレーム特徴点及び前フレーム特徴点に不適切な特徴点がないと判定した場合(S5においてNOの場合)、又は誤検出した対応関係を除去した後に、追跡部140によって生成された複数の遷移前パーティクルがあるか否かを判定する(S7)。尤度推定部139は、追跡部140によって生成された複数の遷移前パーティクルがないと判定した場合(S7においてNOの場合)、複数の遷移前パーティクルを生成する(S8)。尤度推定部139は、一以上の前フレーム特徴点を遷移前パーティクルとして用いてもよい。 The likelihood estimation unit 139 removes the correspondence when the selection unit 138 determines that there are no inappropriate feature points in the current frame feature point and the previous frame feature point (NO in S5) or erroneously detected. Later, it is determined whether or not there are a plurality of pre-transition particles generated by the tracking unit 140 (S7). When the likelihood estimation unit 139 determines that there are no plurality of pre-transition particles generated by the tracking unit 140 (NO in S7), the likelihood estimation unit 139 generates a plurality of pre-transition particles (S8). The likelihood estimation unit 139 may use one or more previous frame feature points as pre-transition particles.

尤度推定部139は、追跡部140によって生成された複数の遷移前パーティクルがあると判定した場合(S7においてYESの場合)、又は複数の遷移前パーティクルを生成した後に、前フレーム画像に複数の遷移前パーティクルを配置する(S9)。尤度推定部139は、例えば、追跡部140によって生成された複数の遷移前パーティクルにおいては、追跡部140が選択した遷移後パーティクルの位置を基準として、前フレーム画像に遷移前パーティクルを配置する。一方、尤度推定部139は、例えば、生成した複数の遷移前パーティクルにおいては、一以上の前フレーム特徴点それぞれの位置に遷移前パーティクルを配置する。 When the likelihood estimation unit 139 determines that there are a plurality of pre-transition particles generated by the tracking unit 140 (YES in S7), or after generating a plurality of pre-transition particles, a plurality of pre-transition particles are generated in the previous frame image. Pre-transition particles are placed (S9). For example, in the plurality of pre-transition particles generated by the tracking unit 140, the likelihood estimation unit 139 arranges the pre-transition particles in the front frame image with reference to the position of the post-transition particles selected by the tracking unit 140. On the other hand, the likelihood estimation unit 139 arranges the pre-transition particles at the positions of one or more pre-transition feature points in the generated plurality of pre-transition particles.

続いて、尤度推定部139は、現フレーム画像において、前フレーム画像に配置した複数の遷移前パーティクルを、所定の物体遷移モデルに則って遷移させる(S10)。尤度推定部139は、例えば、等速直線運動モデルに則って、前フレーム画像に配置した複数の遷移前パーティクルを遷移させる。続いて、尤度推定部139は、一以上の前フレーム特徴点に対応する一以上の現フレーム特徴点の位置と、遷移させた後の複数の遷移後パーティクルの位置とを比較することにより、複数の遷移後パーティクルそれぞれの尤度を推定する(S11)。 Subsequently, the likelihood estimation unit 139 transitions a plurality of pre-transition particles arranged in the pre-frame image in the current frame image according to a predetermined object transition model (S10). The likelihood estimation unit 139 transitions a plurality of pre-transition particles arranged in the pre-frame image according to, for example, a constant velocity linear motion model. Subsequently, the likelihood estimation unit 139 compares the positions of one or more current frame feature points corresponding to one or more previous frame feature points with the positions of the plurality of post-transition particles after the transition. The likelihood of each of the plurality of post-transition particles is estimated (S11).

続いて、追跡部140は、尤度推定部139が推定した複数の遷移後パーティクルそれぞれの尤度に基づいて複数の遷移後パーティクルから選択した一部の遷移後パーティクルに基づいて、現フレーム画像に含まれる物体の位置を推定する(S12)。その後、追跡部140は、複数の遷移後パーティクルから選択した一部の遷移後パーティクルそれぞれの尤度の大きさに基づいて、現フレーム画像の後のフレーム画像に含まれる物体を追跡するために用いる複数の遷移前パーティクルを選択する(S13)。 Subsequently, the tracking unit 140 sets the current frame image based on some of the post-transition particles selected from the plurality of post-transition particles based on the likelihood of each of the plurality of post-transition particles estimated by the likelihood estimation unit 139. The position of the contained object is estimated (S12). After that, the tracking unit 140 is used to track an object included in the frame image after the current frame image based on the magnitude of the likelihood of each of some post-transition particles selected from the plurality of post-transition particles. A plurality of pre-transition particles are selected (S13).

[実施形態における効果]
以上説明したとおり、物体追跡装置1は、取得した動画像に含まれる現フレーム画像及び前フレーム画像のそれぞれに、機械学習モデルMに含まれる複数の処理層を伝搬させる。物体追跡装置1は、伝搬させた順とは逆の順序で後段処理層及び前段処理層の両方の処理層において共通に活性化している一以上の現フレーム出力及び一以上の前フレーム出力を、処理層ごとに抽出し、対応関係にある現フレーム特徴点及び前フレーム特徴点をそれぞれ検出する。そして、物体追跡装置1は、前フレーム特徴点に対応する現フレーム特徴点の位置と、物体の動きを予測した遷移後パーティクルの位置とを比較することにより推定した尤度に基づいて、動画像に含まれる物体を追跡する。
[Effect in Embodiment]
As described above, the object tracking device 1 propagates a plurality of processing layers included in the machine learning model M to each of the current frame image and the previous frame image included in the acquired moving image. The object tracking device 1 outputs one or more current frame outputs and one or more pre-frame outputs that are commonly activated in both the processing layers of the post-stage processing layer and the pre-stage processing layer in the reverse order of the propagation order. Extraction is performed for each processing layer, and the corresponding current frame feature points and previous frame feature points are detected. Then, the object tracking device 1 moves the moving image based on the likelihood estimated by comparing the position of the current frame feature point corresponding to the previous frame feature point with the position of the post-transition particle that predicted the movement of the object. Track the objects contained in.

このようにすることで、物体追跡装置1は、畳み込みニューラルネットワークを含む機械学習モデルMを使用し、深層学習による抽象度が高い特徴量を求めることにより、フレーム画像間における物体の動きを推定することができる。その結果、物体追跡装置1は、動画像に含まれる物体を追跡する精度を向上させることができる。 By doing so, the object tracking device 1 estimates the movement of the object between the frame images by using the machine learning model M including the convolutional neural network and obtaining the features with a high degree of abstraction by deep learning. be able to. As a result, the object tracking device 1 can improve the accuracy of tracking the object included in the moving image.

物体追跡装置1は、例えば、店舗内行動分析等において、個々の客を追跡することができる。物体追跡装置1は、パーティクルフィルタのシステムモデルを適切に設計することにより、複数の客が交錯する場合であっても、個々の客を分離して追跡することができる。また、物体追跡装置1は、例えば、サッカーの試合において、個々のサッカー選手を追跡することができる。物体追跡装置1は、パーティクルフィルタのシステムモデルを適切に設計することにより、個々のサッカー選手を分離して追跡することができる。 The object tracking device 1 can track individual customers in, for example, in-store behavior analysis. By properly designing the system model of the particle filter, the object tracking device 1 can separate and track individual customers even when a plurality of customers are mixed. In addition, the object tracking device 1 can track individual soccer players in, for example, a soccer game. The object tracking device 1 can separate and track individual soccer players by properly designing the system model of the particle filter.

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の分散・統合の具体的な実施の形態は、以上の実施の形態に限られず、その全部又は一部について、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を合わせ持つ。 Although the present invention has been described above using the embodiments, the technical scope of the present invention is not limited to the scope described in the above embodiments, and various modifications and changes can be made within the scope of the gist thereof. be. For example, the specific embodiment of the distribution / integration of the device is not limited to the above embodiment, and all or a part thereof may be functionally or physically distributed / integrated in any unit. Can be done. Also included in the embodiments of the present invention are new embodiments resulting from any combination of the plurality of embodiments. The effect of the new embodiment produced by the combination has the effect of the original embodiment together.

1 物体追跡装置
11 操作部
12 記憶部
13 制御部
131 動画像取得部
132 伝搬制御部
133 抽出部
134 後段抽出部
135 前段抽出部
136 指示受付部
137 特徴点検出部
138 選択部
139 尤度推定部
140 追跡部
1 Object tracking device 11 Operation unit 12 Storage unit 13 Control unit 131 Moving image acquisition unit 132 Propagation control unit 133 Extraction unit 134 Post-stage extraction unit 135 Front-stage extraction unit 136 Instruction reception unit 137 Feature point detection unit 138 Selection unit 139 Likelihood estimation unit 140 Tracking Department

Claims (16)

撮像装置で生成された動画像を取得する動画像取得部と、
前記動画像に含まれるフレーム画像である前フレーム画像及び前記動画像に含まれる前記前フレーム画像の後のフレーム画像である現フレーム画像のそれぞれに、入力された動画像に基づいて当該動画像に含まれる物体の種別を出力可能な機械学習モデルに含まれる処理層であって、複数のユニットをそれぞれ含む複数の処理層を伝搬させる伝搬制御部と、
前記複数の処理層から選択した後段処理層、及び前記後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化している前記ユニットを示すフレーム出力であって前記現フレーム画像に基づいて活性化している前記ユニットを示す前記フレーム出力である一以上の現フレーム出力と前記前フレーム画像に基づいて活性化している前記ユニットを示す前記フレーム出力である一以上の前フレーム出力とを抽出する抽出部と、
前記一以上の現フレーム出力に基づいて一以上の現フレーム特徴点を検出し、かつ前記一以上の前フレーム出力に基づいて一以上の前フレーム特徴点を検出する特徴点検出部と、
前記前フレーム画像に関連付けて複数の遷移前パーティクルを生成し、前記一以上の現フレーム特徴点の位置と、前記複数の遷移前パーティクルを所定の物体遷移モデルに則って遷移させた複数の遷移後パーティクルの位置とを比較することにより、前記複数の遷移後パーティクルそれぞれの尤度を推定する尤度推定部と、
前記尤度推定部が推定した前記尤度に基づいて前記複数の遷移後パーティクルから選択した一部の遷移後パーティクルに基づいて、前記動画像に含まれる物体を追跡する追跡部と、
を有する物体追跡装置。
A moving image acquisition unit that acquires moving images generated by an imaging device,
A front frame image which is a frame image included in the moving image and a current frame image which is a frame image after the previous frame image included in the moving image are added to the moving image based on the input moving image. A processing layer included in a machine learning model that can output the types of included objects, and a propagation control unit that propagates multiple processing layers including multiple units.
A frame output indicating the unit that is commonly activated in both the post-stage treatment layer selected from the plurality of treatment layers and the pre-stage treatment layer that is the treatment layer immediately before the post-stage treatment layer. one or more of the previous frame is the frame output indicating the unit based on the basis of the frame image is the frame output indicating the unit is activated one or more current frame output to the previous frame image is activated An extractor that extracts the output and
A feature point detection unit that detects one or more current frame feature points based on the one or more current frame outputs and detects one or more previous frame feature points based on the one or more previous frame outputs.
After a plurality of transitions in which a plurality of pre-transition particles are generated in association with the pre-frame image, the positions of the one or more current frame feature points and the plurality of pre-transition particles are transitioned according to a predetermined object transition model. A likelihood estimation unit that estimates the likelihood of each of the plurality of post-transition particles by comparing the positions of the particles,
A tracking unit that tracks an object included in the moving image based on some of the post-transition particles selected from the plurality of post-transition particles based on the likelihood estimated by the likelihood estimation unit.
Object tracking device with.
前記抽出部は、
前記現フレーム画像が前記複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層において活性化している前記ユニットを示す前記フレーム出力である複数の後段現フレーム出力、及び前記前フレーム画像が前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層において活性化している前記ユニットを示す前記フレーム出力である複数の後段前フレーム出力から、共通に活性化している一以上の後段現フレーム出力及び一以上の後段前フレーム出力を抽出する後段抽出部と、
前記一以上の後段現フレーム出力及び前記一以上の後段前フレーム出力を活性化させる要因となった前記前段処理層において活性化している前記ユニットを示す前記フレーム出力である複数の前段現フレーム出力、及び前記前段処理層において活性化している前記ユニットを示す前記フレーム出力である複数の前段前フレーム出力のうち、共通に活性化している一以上の前段現フレーム出力及び一以上の前段前フレーム出力を抽出する前段抽出部と、
を有する、
請求項1に記載の物体追跡装置。
The extraction unit
A plurality of subsequent stages of the frame output indicating the unit activated in the subsequent stage processing layer by propagating the current frame image in the order of the pre-stage processing layer and the post-stage processing layer which are a part of the plurality of processing layers. Commonly from the frame output and the plurality of post-stage front frame outputs which are the frame outputs indicating the unit activated in the post-stage processing layer by propagating the pre-frame image in the order of the pre-stage processing layer and the post-stage processing layer. A post-stage extraction unit that extracts one or more active post-stage current frame outputs and one or more post-stage front frame outputs,
A plurality of pre-stage current frame outputs, which are the frame outputs indicating the unit activated in the pre-stage processing layer that has been a factor in activating the one or more post-stage current frame outputs and the one or more post-stage pre-frame outputs. And one or more pre-stage current frame outputs and one or more pre-stage pre-frame outputs that are commonly activated among the plurality of pre-stage pre-frame outputs that are the frame outputs indicating the unit that is activated in the pre-stage processing layer. Pre-stage extraction unit to extract and
Have,
The object tracking device according to claim 1.
前記前段抽出部は、前記複数の前段現フレーム出力及び前記複数の前段前フレーム出力のうち、活性化している大きさに基づいて、前記一以上の前段現フレーム出力及び前記一以上の前段前フレーム出力を抽出する、
請求項2に記載の物体追跡装置。
The pre-stage extraction unit has one or more pre-stage current frame outputs and one or more pre-stage pre-frames based on the activated size of the plurality of pre-stage current frame outputs and the plurality of pre-stage pre-frame outputs. Extract the output,
The object tracking device according to claim 2.
前記機械学習モデルは、畳み込みニューラルネットワークを含み、
前記後段処理層は、出力層、全結合層、正規化層、プーリング層、及び畳み込み層のうちのいずれかの層である、
請求項2又は3に記載の物体追跡装置。
The machine learning model includes a convolutional neural network.
The post-treatment layer is any one of an output layer, a fully connected layer, a normalized layer, a pooling layer, and a convolution layer.
The object tracking device according to claim 2 or 3.
前記前段処理層は、全結合層、正規化層、プーリング層、畳み込み層及び入力層のうちのいずれかの層である、
請求項4に記載の物体追跡装置。
The pretreatment layer is any one of a fully bonded layer, a normalized layer, a pooling layer, a convolution layer, and an input layer.
The object tracking device according to claim 4.
前記抽出部は、前記複数の処理層のうち、最後尾の処理層である最後尾層を後段処理層として選択した場合において、前記最後尾層において共通に活性化している前記ユニットを示す前記フレーム出力である前記一以上の現フレーム出力及び前記一以上の前フレーム出力がない場合、前記最後尾層より前の処理層において共通に活性化している前記ユニットを示す前記フレーム出力である前記一以上の現フレーム出力及び前記一以上の前フレーム出力を抽出する、
請求項1から5のいずれか一項に記載の物体追跡装置。
The extraction unit indicates the unit that is commonly activated in the last layer when the last layer, which is the last treatment layer, is selected as the latter treatment layer among the plurality of treatment layers. When there is no one or more current frame outputs and one or more previous frame outputs, which are outputs, the one or more which is the frame output indicating the unit which is commonly activated in the processing layer before the last layer. Extracts the current frame output of and one or more of the previous frame outputs.
The object tracking device according to any one of claims 1 to 5.
前記尤度推定部は、前記遷移後パーティクルが前記一以上の現フレーム特徴点の位置に近ければ近いほど尤度が大きくなるように推定する、
請求項1から6のいずれか一項に記載の物体追跡装置。
The likelihood estimation unit estimates that the closer the post-transition particles are to the positions of one or more current frame feature points, the higher the likelihood.
The object tracking device according to any one of claims 1 to 6.
前記尤度推定部は、前記一以上の現フレーム特徴点の位置と、前記一以上の前フレーム特徴点をパーティクルとして用いた一以上の前記遷移前パーティクルを前記所定の物体遷移モデルに則って遷移させた遷移後パーティクルの位置とを比較することにより、一以上の前記遷移後パーティクルそれぞれの尤度を推定する、
請求項1から7のいずれか一項に記載の物体追跡装置。
The likelihood estimation unit transitions the positions of the one or more current frame feature points and one or more pre-transition particles using the one or more previous frame feature points as particles according to the predetermined object transition model. The likelihood of each of the one or more post-transition particles is estimated by comparing the positions of the post-transition particles.
The object tracking device according to any one of claims 1 to 7.
前記尤度推定部は、尤度を推定する場合において、尤度を次回以降に推定する場合と異なる規則に基づいて前記前フレーム画像に配置した前記複数の遷移前パーティクルを生成し、前記一以上の現フレーム特徴点の位置と、前記複数の遷移後パーティクルの位置とを比較することにより、前記複数の遷移後パーティクルそれぞれの尤度を推定する、
請求項1から8のいずれか一項に記載の物体追跡装置。
In the case of estimating the likelihood, the likelihood estimation unit generates the plurality of pre-transition particles arranged in the front frame image based on a rule different from the case of estimating the likelihood from the next time onward, and the one or more. By comparing the position of the current frame feature point of the current frame with the position of the plurality of post-transition particles, the likelihood of each of the plurality of post-transition particles is estimated.
The object tracking device according to any one of claims 1 to 8.
前記尤度推定部は、前記一以上の前フレーム特徴点に対応する前記一以上の現フレーム特徴点の位置と、前記複数の遷移後パーティクルの位置とを比較することにより、前記複数の遷移後パーティクルそれぞれの尤度を推定する、
請求項1から9のいずれか一項に記載の物体追跡装置。
The likelihood estimation unit compares the positions of the one or more current frame feature points corresponding to the one or more previous frame feature points with the positions of the plurality of post-transition particles, thereby performing the plurality of post-transition particles. Estimate the likelihood of each particle,
The object tracking device according to any one of claims 1 to 9.
前記複数の処理層のうち、前記後段処理層として用いる処理層を選択する指示を受け付ける指示受付部をさらに有し、
前記抽出部は、前記指示受付部が受け付けた前記指示が示す前記処理層を、前記後段処理層として使用する、
請求項1から10のいずれか一項に記載の物体追跡装置。
Further, it has an instruction receiving unit that receives an instruction to select a processing layer to be used as the subsequent processing layer among the plurality of processing layers.
The extraction unit uses the processing layer indicated by the instruction received by the instruction receiving unit as the subsequent processing layer.
The object tracking device according to any one of claims 1 to 10.
前記抽出部は、前記複数の処理層のうち一つの層を前記後段処理層として選択して前記一以上の現フレーム出力及び前記一以上の前フレーム出力を抽出した後に、前記前段処理層として選択した処理層を前記後段処理層として選択して、別の前記一以上の現フレーム出力及び前記一以上の前フレーム出力を抽出する、
請求項1から11のいずれか一項に記載の物体追跡装置。
The extraction unit selects one of the plurality of processing layers as the post-stage processing layer, extracts the one or more current frame outputs and the one or more pre-frame outputs, and then selects the pre-stage processing layer. The processed layer is selected as the subsequent processing layer, and another one or more current frame outputs and one or more previous frame outputs are extracted.
The object tracking device according to any one of claims 1 to 11.
撮像装置で生成された動画像を取得するステップと、
前記動画像に含まれるフレーム画像である前フレーム画像及び前記動画像に含まれる前記前フレーム画像の後のフレーム画像である現フレーム画像のそれぞれに、入力された動画像に基づいて当該動画像に含まれる物体の種別を出力可能な機械学習モデルに含まれる処理層であって、複数のユニットをそれぞれ含む複数の処理層を伝搬させるステップと、
前記複数の処理層から選択した後段処理層、及び前記後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化している前記ユニットを示すフレーム出力であって前記現フレーム画像に基づいて活性化している前記ユニットを示す前記フレーム出力である一以上の現フレーム出力と前記前フレーム画像に基づいて活性化している前記ユニットを示す前記フレーム出力である一以上の前フレーム出力とを抽出するステップと、
前記一以上の現フレーム出力に基づいて一以上の現フレーム特徴点を検出し、かつ前記一以上の前フレーム出力に基づいて一以上の前フレーム特徴点を検出するステップと、
前記前フレーム画像に関連付けて複数の遷移前パーティクルを生成するステップと、
前記一以上の現フレーム特徴点の位置と、前記複数の遷移前パーティクルを所定の物体遷移モデルに則って遷移させた複数の遷移後パーティクルの位置とを比較することにより、前記複数の遷移後パーティクルそれぞれの尤度を推定するステップと、
推定した前記尤度に基づいて前記複数の遷移後パーティクルから選択した一部の遷移後パーティクルに基づいて、前記動画像に含まれる物体を追跡するステップと、
を有する物体追跡方法。
The steps to acquire the moving image generated by the image pickup device and
A front frame image which is a frame image included in the moving image and a current frame image which is a frame image after the previous frame image included in the moving image are added to the moving image based on the input moving image. A processing layer included in a machine learning model that can output the type of the included object, and a step of propagating a plurality of processing layers including a plurality of units, respectively.
A frame output indicating the unit that is commonly activated in both the post-stage treatment layer selected from the plurality of treatment layers and the pre-stage treatment layer that is the treatment layer immediately before the post-stage treatment layer. one or more of the previous frame is the frame output indicating the unit based on the basis of the frame image is the frame output indicating the unit is activated one or more current frame output to the previous frame image is activated Steps to extract the output and
A step of detecting one or more current frame feature points based on the one or more current frame outputs and detecting one or more previous frame feature points based on the one or more previous frame outputs.
A step of generating a plurality of pre-transition particles in association with the pre-frame image,
By comparing the positions of the one or more current frame feature points with the positions of the plurality of post-transition particles obtained by transitioning the plurality of pre-transition particles according to a predetermined object transition model, the plurality of post-transition particles. Steps to estimate each likelihood and
A step of tracking an object included in the moving image based on some of the post-transition particles selected from the plurality of post-transition particles based on the estimated likelihood.
Object tracking method with.
前記抽出するステップは、
前記現フレーム画像が前記複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層において活性化している前記ユニットを示す前記フレーム出力である複数の後段現フレーム出力、及び前記前フレーム画像が前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層において活性化している前記ユニットを示す前記フレーム出力である複数の後段前フレーム出力から、共通に活性化している一以上の後段現フレーム出力及び一以上の後段前フレーム出力を抽出する前段抽出ステップと、
前記一以上の後段現フレーム出力及び前記一以上の後段前フレーム出力を活性化させる要因となった前記前段処理層において活性化している前記ユニットを示す前記フレーム出力である複数の前段現フレーム出力、及び前記前段処理層において活性化している前記ユニットを示す前記フレーム出力である複数の前段前フレーム出力のうち、共通に活性化している一以上の前段現フレーム出力及び一以上の前段前フレーム出力を抽出する後段抽出ステップと、
を有する、請求項13に記載の物体追跡方法。
The extraction step
A plurality of subsequent stages of the frame output indicating the unit activated in the subsequent stage processing layer by propagating the current frame image in the order of the pre-stage processing layer and the post-stage processing layer which are a part of the plurality of processing layers. Commonly from the frame output and the plurality of post-stage front frame outputs which are the frame outputs indicating the unit activated in the post-stage processing layer by propagating the pre-frame image in the order of the pre-stage processing layer and the post-stage processing layer. A pre-stage extraction step that extracts one or more activated current frame outputs and one or more post-stage pre-frame outputs,
A plurality of pre-stage current frame outputs, which are the frame outputs indicating the unit activated in the pre-stage processing layer that has been a factor in activating the one or more post-stage current frame outputs and the one or more post-stage pre-frame outputs. And one or more pre-stage current frame outputs and one or more pre-stage pre-frame outputs that are commonly activated among the plurality of pre-stage pre-frame outputs that are the frame outputs indicating the unit that is activated in the pre-stage processing layer. The latter extraction step to extract and
13. The object tracking method according to claim 13.
前記前段抽出ステップを実行した後に、前記一以上の前段現フレーム出力及び前記一以上の前段前フレーム出力を、前記複数の後段現フレーム出力及び前記複数の後段前フレーム出力として、前記後段抽出ステップを実行する、
請求項14に記載の物体追跡方法。
After executing the pre-stage extraction step, the post-stage extraction step is performed by using the one or more pre-stage current frame outputs and the one or more pre-stage front frame outputs as the plurality of post-stage current frame outputs and the plurality of post-stage front frame outputs. Run,
The object tracking method according to claim 14.
前記複数の処理層のそれぞれに対して、前記後段抽出ステップ及び前記前段抽出ステップを実行する、
請求項14又は15に記載の物体追跡方法。
The latter-stage extraction step and the first-stage extraction step are executed for each of the plurality of processing layers.
The object tracking method according to claim 14 or 15.
JP2018072320A 2018-04-04 2018-04-04 Object tracking device and object tracking method Active JP6946231B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018072320A JP6946231B2 (en) 2018-04-04 2018-04-04 Object tracking device and object tracking method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018072320A JP6946231B2 (en) 2018-04-04 2018-04-04 Object tracking device and object tracking method

Publications (2)

Publication Number Publication Date
JP2019185210A JP2019185210A (en) 2019-10-24
JP6946231B2 true JP6946231B2 (en) 2021-10-06

Family

ID=68341229

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018072320A Active JP6946231B2 (en) 2018-04-04 2018-04-04 Object tracking device and object tracking method

Country Status (1)

Country Link
JP (1) JP6946231B2 (en)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111047553B (en) * 2019-11-07 2023-04-07 电子科技大学 Characteristic point positioning method for non-contact human body parameter measurement
JP6995258B2 (en) * 2019-12-05 2022-01-14 三菱電機株式会社 Radar signal processor, radar sensor system and signal processing method
US12406380B2 (en) 2020-03-12 2025-09-02 Nec Corporation Image processing apparatus, image processing system, image processing method, and non-transitory computer-readable medium storing image processing program therein
JP7725938B2 (en) * 2021-08-25 2025-08-20 沖電気工業株式会社 Tracking device, tracking system, tracking method, and tracking method program
JP7729117B2 (en) * 2021-08-30 2025-08-26 沖電気工業株式会社 Tracking device, tracking system, tracking method, and tracking method program
CN114419100B (en) * 2022-01-21 2025-04-01 浙江大华技术股份有限公司 Object tracking method, device, storage medium and electronic device
JP7828615B2 (en) * 2024-01-15 2026-03-12 株式会社 インフォファーム Location management system, location management method, and location management program

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4743823B2 (en) * 2003-07-18 2011-08-10 キヤノン株式会社 Image processing apparatus, imaging apparatus, and image processing method
JP4208898B2 (en) * 2006-06-09 2009-01-14 株式会社ソニー・コンピュータエンタテインメント Object tracking device and object tracking method
JP6658331B2 (en) * 2016-06-23 2020-03-04 コニカミノルタ株式会社 Action recognition device and action recognition program

Also Published As

Publication number Publication date
JP2019185210A (en) 2019-10-24

Similar Documents

Publication Publication Date Title
JP6946231B2 (en) Object tracking device and object tracking method
JP4766495B2 (en) Object tracking device and object tracking method
CN114708613B (en) Behavior recognition method, behavior recognition device, computer equipment and storage medium
CN111199554A (en) Target tracking anti-blocking method and device
Seo et al. Effective and efficient human action recognition using dynamic frame skipping and trajectory rejection
CN112381071A (en) Behavior analysis method of target in video stream, terminal device and medium
JP2017162409A (en) Recognizing device, and method, for facial expressions and motions
Zavan et al. Benchmarking parts based face processing in-the-wild for gender recognition and head pose estimation
Zhang et al. Visual saliency based object tracking
Manh et al. Small object segmentation based on visual saliency in natural images
Xie et al. Learning to find good correspondences of multiple objects
CN106529441A (en) Fuzzy boundary fragmentation-based depth motion map human body action recognition method
JP6924128B2 (en) Morphing image generator and morphing image generation method
JP7010780B2 (en) Object area extraction device and object area extraction method
CN114022510A (en) Target long-time tracking method based on content retrieval
JP2022185872A5 (en)
Abdulhamid et al. Enhanced preprocessing stage for feature extraction of deepfake detection based on deep learning methods
CN115620222B (en) Video motion tracking methods, devices, equipment and storage media
CN116868227B (en) Object detection device, object detection method, and recording medium containing the program.
JP6889653B2 (en) Video compression device and video compression method
JP6783742B2 (en) Parameter identification device and parameter identification method
Rahmon et al. Evaluation of different decision fusion mechanisms for robust moving object detection
JP6830052B2 (en) Spatial information generator and spatial information generation method
Ding et al. Investigation on Light-Weight Deep Learning Model for Emotion Recognition Using Facial Expressions
Rao et al. Enhanced Depth Motion Maps for Improved Human Action Recognition from Depth Action Sequences.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200529

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210713

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210811

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210831

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210915

R150 Certificate of patent or registration of utility model

Ref document number: 6946231

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150