JP7700511B2 - Human image data analysis system - Google Patents
Human image data analysis system Download PDFInfo
- Publication number
- JP7700511B2 JP7700511B2 JP2021086077A JP2021086077A JP7700511B2 JP 7700511 B2 JP7700511 B2 JP 7700511B2 JP 2021086077 A JP2021086077 A JP 2021086077A JP 2021086077 A JP2021086077 A JP 2021086077A JP 7700511 B2 JP7700511 B2 JP 7700511B2
- Authority
- JP
- Japan
- Prior art keywords
- image data
- person
- feature
- trained model
- behavior type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Description
本発明は、人物画像データ解析システムに関する。 The present invention relates to a human image data analysis system.
近年、人物画像データを取得して、人物の姿勢を評価することが行われている。例えば、特許文献1には、製造現場における作業者の作業時間を計測するために、作業者の姿勢を判別することが記載されている。作業状況をカメラで取得し、取得した画像データに写る作業者の関節位置を示す特徴点データを含む骨格データを取得する。予め、骨格データ毎に姿勢ラベルが対応づけられている姿勢モデルを記憶しておく。そして、取得した骨格データをもとに、姿勢モデルに予め決められた姿勢ラベルから、画像データに写る人物の姿勢を判別する。
In recent years, image data of a person has been acquired and the posture of the person has been evaluated. For example,
また、作業者の作業時間を計測するために人物の姿勢を判別することの他に、人物の姿勢そのものを評価することも重要である。例えば、人物が正しい姿勢で歩行していることの評価を行うこともある。また、歩行器などの介護機器を用いている人物が、正しい姿勢で歩行器を利用しているか否かの評価を行うことも考えられる。また、歩行をアシストしたり、自立歩行を推進するように動作したりする種々の歩行支援機器が知られている。歩行支援機器を用いている人物が、どのような姿勢であるかを評価することも重要である。 In addition to determining a person's posture to measure the worker's working time, it is also important to evaluate the person's posture itself. For example, an evaluation may be made to see if a person is walking with the correct posture. It is also possible to evaluate whether a person using a care device such as a walker is using the walker with the correct posture. There are also various walking support devices known that assist walking or operate to promote independent walking. It is also important to evaluate the posture of a person using a walking support device.
また、工場などにおける作業者が作業負荷を軽減するためのアクティブパワーアシストスーツを装着する場合に、当該作業者の姿勢を評価することも重要である。作業者の姿勢を評価することにより、作業者がアシストスーツを適切に利用できているか、アシストスーツが適切に機能しているかなどを評価することができる。 In addition, when workers in factories or other places wear active power assist suits to reduce their workload, it is also important to evaluate the posture of the worker. By evaluating the worker's posture, it is possible to evaluate whether the worker is using the assist suit appropriately and whether the assist suit is functioning properly.
上記のように、人物の姿勢を評価することは非常に重要である。そして、特許文献1に記載の方法においては、人物の骨格データから姿勢を判別している。画像データにおいて人物が全身正面を向いている姿勢の場合や、後方を向いている姿勢の場合などには、人物の骨格データから容易に人物の姿勢を判別することができる。
As mentioned above, it is very important to evaluate a person's posture. In the method described in
しかしながら、例えば、胴体が横向き姿勢である場合などには、骨格データのみからでは、人物の姿勢を判別できない場合がある。例えば、胴体が横向き姿勢の場合に、右足が前方に位置するのか、左足が前方に位置するのかを判別することは容易ではない。同様に、胴体が横向き姿勢の場合には、右腕と左腕のどちらが前方に位置するのかを判別することも容易ではない。また、人物が上半身と下半身とをねじれさせた姿勢である場合にも、人物の各部位がどのように位置しているかを判別することは容易ではない。 However, when the torso is oriented sideways, for example, it may not be possible to determine the posture of a person from skeletal data alone. For example, when the torso is oriented sideways, it is not easy to determine whether the right foot or the left foot is positioned forward. Similarly, when the torso is oriented sideways, it is not easy to determine whether the right arm or the left arm is positioned forward. Also, when a person's upper and lower body are twisted, it is not easy to determine how each part of the person is positioned.
本発明は、かかる背景に鑑みてなされたものであり、人物画像データに写る人物の姿勢を高精度に判別することができる人物画像データ解析システムを提供しようとするものである。 The present invention has been made in view of this background, and aims to provide a human image data analysis system that can determine the posture of a person depicted in human image data with high accuracy.
本発明の一態様は、
演算処理装置および記憶装置を備えるコンピュータ装置により構成された人物画像データ解析システムであって、
前記記憶装置は、
人物が含まれる第1人物画像データを説明変数とし、前記第1人物画像データにおける特徴量を目的変数として、機械学習を行うことにより生成された特徴量抽出に関する学習済みモデルを記憶し、
前記第1人物画像データに基づいて抽出された前記特徴量を説明変数とし、時系列の複数枚の前記第1人物画像データにおける前記人物の行動種類を目的変数として、機械学習を行うことにより生成された行動解析に関する学習済みモデルを記憶し、
前記特徴量および前記行動種類を説明変数とし、前記第1人物画像データにおける前記人物の姿勢を表現したキーポイントを目的変数として、機械学習を行うことにより生成されたキーポイント抽出に関する学習済みモデルを記憶し、
前記演算処理装置は、
前記記憶装置に記憶された前記特徴量抽出に関する学習済みモデルを用いて、人物が含まれる第2人物画像データを入力することにより、前記第2人物画像データにおける前記特徴量を抽出する特徴量抽出部と、
前記記憶装置に記憶された前記行動解析に関する学習済みモデルを用いて、前記特徴量抽出部により抽出された前記特徴量を入力することにより、時系列の複数枚の前記第2人物画像データにおける前記人物の前記行動種類を出力する行動種類出力部と、
前記記憶装置に記憶された前記キーポイント抽出に関する学習済みモデルを用いて、前記特徴量抽出部により抽出された前記特徴量および前記行動種類出力部により出力された前記行動種類を入力することにより、前記第2人物画像データにおける前記人物の前記キーポイントを出力するキーポイント出力部と、
を備え、
前記特徴量抽出に関する学習済みモデル、前記行動解析に関する学習済みモデル、および、前記キーポイント抽出に関する学習済みモデルは、学習フェーズにおいて、前記キーポイントの要素および前記行動種類の要素を含む損失関数により学習される、人物画像データ解析システムにある。
本発明の他の態様は、
演算処理装置および記憶装置を備えるコンピュータ装置により構成された人物画像データ解析システムであって、
前記記憶装置は、
人物が含まれる第1人物画像データを説明変数とし、前記第1人物画像データにおける特徴量を目的変数として、機械学習を行うことにより生成された特徴量抽出に関する学習済みモデルを記憶し、
前記第1人物画像データに基づいて抽出された前記特徴量を説明変数とし、時系列の複数枚の前記第1人物画像データにおける前記人物の行動種類を目的変数として、機械学習を行うことにより生成された行動解析に関する学習済みモデルを記憶し、
前記特徴量および前記行動種類を説明変数とし、前記第1人物画像データにおける前記人物の姿勢を表現したキーポイントを目的変数として、機械学習を行うことにより生成されたキーポイント抽出に関する学習済みモデルを記憶し、
前記演算処理装置は、
前記記憶装置に記憶された前記特徴量抽出に関する学習済みモデルを用いて、人物が含まれる時系列の複数枚の第2人物画像データを入力することにより、複数枚の前記第2人物画像データのそれぞれにおける前記特徴量を抽出する特徴量抽出部と、
前記記憶装置に記憶された前記行動解析に関する学習済みモデルを用いて、時系列の複数枚の前記第2人物画像データのそれぞれに基づいて前記特徴量抽出部により抽出された複数枚分の前記特徴量を入力することにより、時系列の複数枚の前記第2人物画像データにおける前記人物の前記行動種類を出力する行動種類出力部と、
前記記憶装置に記憶された前記キーポイント抽出に関する学習済みモデルを用いて、時系列の複数枚の前記第2人物画像データのうち選択された1枚の前記第2人物画像データに基づいて前記特徴量抽出部により抽出された1枚分の前記特徴量、および、前記行動種類出力部により出力された前記行動種類を入力することにより、前記選択された1枚の前記第2人物画像データにおける前記人物の前記キーポイントを出力するキーポイント出力部と、
を備える、人物画像データ解析システムにある。
本発明の他の態様は、
演算処理装置および記憶装置を備えるコンピュータ装置により構成された人物画像データ解析システムであって、
前記記憶装置は、
人物が含まれる第1人物画像データを説明変数とし、前記第1人物画像データにおける特徴量を目的変数として、機械学習を行うことにより生成された特徴量抽出に関する学習済みモデルを記憶し、
前記第1人物画像データに基づいて抽出された1枚分の前記特徴量を説明変数とし、時系列の複数枚の前記第1人物画像データにおける前記人物の行動種類を目的変数として、機械学習を行うことにより生成された行動解析に関する学習済みモデルを記憶し、
前記特徴量および前記行動種類を説明変数とし、前記第1人物画像データにおける前記人物の姿勢を表現したキーポイントを目的変数として、機械学習を行うことにより生成されたキーポイント抽出に関する学習済みモデルを記憶し、
前記演算処理装置は、
前記記憶装置に記憶された前記特徴量抽出に関する学習済みモデルを用いて、人物が含まれる時系列の複数枚の第2人物画像データを順次入力することにより、複数枚の前記第2人物画像データのそれぞれにおける前記特徴量を順次抽出する特徴量抽出部と、
前記記憶装置に記憶された前記行動解析に関する学習済みモデルを用いて、前記特徴量抽出部により抽出された1枚分の前記特徴量を順次入力し、かつ、前回演算処理を行った結果を用いた再帰型演算を行うことにより、今回演算処理の対象である1枚の前記第2人物画像データにおける前記人物の前記行動種類を出力する行動種類出力部と、
前記記憶装置に記憶された前記キーポイント抽出に関する学習済みモデルを用いて、前記特徴量抽出部により抽出された1枚分の前記特徴量および前記行動種類出力部により出力された前記行動種類を入力することにより、今回演算処理の対象である1枚の前記第2人物画像データにおける前記人物の前記キーポイントを出力するキーポイント出力部と、
を備える、人物画像データ解析システムにある。
One aspect of the present invention is
A human image data analysis system including a computer device having a processor and a memory device,
The storage device includes:
storing a trained model for feature extraction generated by performing machine learning using first person image data including a person as an explanatory variable and a feature in the first person image data as a target variable;
storing a trained model for behavior analysis generated by performing machine learning using the feature amount extracted based on the first person image data as an explanatory variable and a behavior type of the person in the multiple first person image data in a time series as a target variable;
storing a trained model for keypoint extraction generated by performing machine learning using the feature amount and the behavior type as explanatory variables and a keypoint representing a posture of the person in the first person image data as a target variable;
The arithmetic processing device includes:
a feature extraction unit that extracts the feature from second person image data including a person by inputting the second person image data using the trained model related to the feature extraction stored in the storage device; and
a behavior type output unit that outputs the behavior type of the person in the plurality of time-series images of the second person image data by inputting the feature amount extracted by the feature amount extraction unit using a trained model related to the behavior analysis stored in the storage device;
a keypoint output unit that outputs the keypoints of the person in the second person image data by inputting the feature extracted by the feature extraction unit and the behavior type output by the behavior type output unit using a trained model related to the keypoint extraction stored in the storage device;
Equipped with
The trained model for feature extraction, the trained model for behavioral analysis, and the trained model for keypoint extraction are in a human image data analysis system, which is trained in a learning phase using a loss function that includes elements of the keypoints and elements of the behavior types .
Another aspect of the present invention is
A human image data analysis system including a computer device having a processor and a memory device,
The storage device includes:
storing a trained model for feature extraction generated by performing machine learning using first person image data including a person as an explanatory variable and a feature in the first person image data as a target variable;
storing a trained model for behavior analysis generated by performing machine learning using the feature amount extracted based on the first person image data as an explanatory variable and a behavior type of the person in the multiple first person image data in a time series as a target variable;
storing a trained model for keypoint extraction generated by performing machine learning using the feature amount and the behavior type as explanatory variables and a keypoint representing a posture of the person in the first person image data as a target variable;
The arithmetic processing device includes:
a feature extraction unit that extracts the feature from each of a plurality of second person image data by inputting a plurality of second person image data in a time series including a person, using the trained model related to the feature extraction stored in the storage device;
a behavior type output unit that outputs the behavior type of the person in the plurality of time-series second person image data by inputting the feature amounts for the plurality of images extracted by the feature amount extracting unit based on each of the plurality of time-series second person image data, using a trained model for the behavior analysis stored in the storage device;
a key point output unit that uses a trained model for the key point extraction stored in the storage device to input the feature amounts for one image selected from the plurality of second person image data in time series, the feature amounts being extracted by the feature amount extractor based on the one image of the second person image data selected from the plurality of second person image data in time series, and the behavior type being output by the behavior type output unit, and outputs the key points of the person in the selected one image of the second person image data;
The present invention relates to a human image data analysis system comprising:
Another aspect of the present invention is
A human image data analysis system including a computer device having a processor and a memory device,
The storage device includes:
storing a trained model for feature extraction generated by performing machine learning using first person image data including a person as an explanatory variable and a feature in the first person image data as a target variable;
storing a learned model for behavior analysis generated by performing machine learning using the feature amount for one image extracted based on the first person image data as an explanatory variable and a behavior type of the person in the multiple first person image data in a time series as a target variable;
storing a trained model for keypoint extraction generated by performing machine learning using the feature amount and the behavior type as explanatory variables and a keypoint representing a posture of the person in the first person image data as a target variable;
The arithmetic processing device includes:
a feature extraction unit that sequentially inputs a plurality of second person image data in a time series including a person, by using the trained model related to the feature extraction stored in the storage device, and sequentially extracts the feature from each of the plurality of second person image data;
a behavior type output unit that uses a trained model for the behavior analysis stored in the storage device to sequentially input the feature amounts for one image extracted by the feature amount extraction unit and to perform a recursive calculation using a result of a previous calculation process, thereby outputting the behavior type of the person in the one image of the second person image data that is the target of a current calculation process;
a keypoint output unit that uses a trained model for the keypoint extraction stored in the storage device to input the feature amounts for one image extracted by the feature amount extraction unit and the behavior type output by the behavior type output unit, and outputs the keypoints of the person in the second person image data for one image that is the subject of a current calculation process;
The present invention relates to a human image data analysis system comprising:
キーポイント出力部は、人物画像データにおける特徴量のみを用いて、当該人物のキーポイントを出力しているのではない。キーポイント出力部は、人物画像データにおける特徴量に加えて、当該人物の行動種類を入力して、人物のキーポイントを出力している。 The keypoint output unit does not output keypoints for a person using only the features in the person's image data. The keypoint output unit inputs the type of behavior of the person in addition to the features in the person's image data, and outputs keypoints for the person.
このように、キーポイント出力部は、人物の行動種類を把握した上で人物のキーポイントを出力することで、人物のキーポイントを高精度に出力することができる。例えば、人物が上半身と下半身とをねじれさせた姿勢である場合には、キーポイントの1つとしての、隣り合う関節位置同士を接続する接続関係が誤って出力される可能性がある。しかし、人物の行動種類を把握することにより、ねじれ姿勢であっても、高精度にキーポイントの1つとしての接続関係を出力することができる。従って、人物の姿勢を高精度に解析することができる。 In this way, the key point output unit can output a person's key points with high accuracy by grasping the type of behavior of the person before outputting the person's key points. For example, if a person has a posture in which the upper and lower halves of the body are twisted, there is a possibility that a connection relationship connecting adjacent joint positions as one of the key points will be erroneously output. However, by grasping the type of behavior of the person, it is possible to output a connection relationship as one of the key points with high accuracy, even in the case of a twisted posture. Therefore, the posture of a person can be analyzed with high accuracy.
(1.人物画像データ解析システムの概要)
人物画像データ解析システムは、人物画像データを取得し、取得した人物画像データに含まれる人物の姿勢を解析する。人物の姿勢は、例えば、立位、座位、臥位、膝立ち位などに分類され、それぞれにおいてさらに詳細に分類される。さらに、人物の姿勢は、静止状態であるか、動作状態であるかによっても異なる。つまり、人物画像データ解析システムは、人物画像データに写っている人物がどのような姿勢であるかを解析する。
(1. Overview of human image data analysis system)
The human image data analysis system acquires human image data and analyzes the posture of the person included in the acquired human image data. The posture of the person is classified into, for example, a standing posture, a sitting posture, a lying posture, a kneeling posture, and the like, and each of these is further classified in detail. Furthermore, the posture of the person also differs depending on whether the person is in a stationary state or in a moving state. In other words, the human image data analysis system analyzes the posture of the person depicted in the human image data.
人物画像データ解析システムにより解析された人物の姿勢情報は、例えば、以下のように利用される。人物が静止状態において、当該人物の姿勢を評価する。例えば、人物が立位姿勢である場合に、適正な立位姿勢であるかの評価を行い、当該人物に対して、適正な立位姿勢となるよう改善させることができる。また、人物が座位姿勢や臥位姿勢である場合において、適正な座位姿勢や臥位姿勢であるかの評価を行い、適正な座具や寝具の選択に用いたり、座具や寝具の開発に用いたりすることができる。 The posture information of a person analyzed by the human image data analysis system is used, for example, as follows. The posture of the person is evaluated when the person is stationary. For example, when the person is standing, an evaluation is made as to whether this is an appropriate standing posture, and the person can be improved to have an appropriate standing posture. Also, when the person is sitting or lying down, an evaluation is made as to whether this is an appropriate sitting or lying down posture, and this can be used to select appropriate seating or bedding, or to develop seating or bedding.
動作時における人物の姿勢を評価するために用いることもできる。立位姿勢から座位姿勢への動作、その逆の動作、座位姿勢から臥位姿勢への動作、その逆の動作などにおける姿勢を評価することができる。また、歩行時、走行時、跳躍時などの姿勢を評価することができ、さらに、スポーツを行っている時の人物の各種姿勢を評価することもできる。 It can also be used to evaluate a person's posture during movement. It can evaluate posture when moving from a standing position to a sitting position, or vice versa, or from a sitting position to a lying position, or vice versa. It can also evaluate posture when walking, running, jumping, etc., and can also evaluate various postures of a person when playing sports.
さらに、歩行器などの介護機器を用いている人物が、正しい姿勢で歩行器を利用しているかの評価を行うこともできる。また、歩行をアシストしたり、自立歩行を推進したりするように駆動する歩行支援機器において、歩行支援機器を用いている人物の姿勢を評価することもできる。人物の姿勢の評価結果を用いて、歩行支援機器が適切に機能しているかの評価を行うことができる。さらに、当該歩行支援機器を用いている人物の姿勢を解析し、解析結果を用いて、歩行支援機器の制御を行うこともできる。 Furthermore, it is also possible to evaluate whether a person using a nursing care device such as a walker is using the walker with the correct posture. Also, in a walking support device that is driven to assist walking or promote independent walking, it is also possible to evaluate the posture of the person using the walking support device. Using the evaluation results of the person's posture, it is possible to evaluate whether the walking support device is functioning properly. Furthermore, it is also possible to analyze the posture of the person using the walking support device, and use the analysis results to control the walking support device.
また、被介護者や工場などの作業者が動作負荷を軽減するためにアクティブパワーアシストスーツを装着している場合に、当該装着者の姿勢を評価することもできる。装着者の姿勢の評価結果を用いて、アシストスーツが適切に機能しているかの評価を行うことができる。さらに、装着者の姿勢を解析し、解析結果を用いて、アシストスーツの制御を行うこともできる。また、工場などの作業者の姿勢を解析することにより、当該作業者の作業時間の評価を行うこともできる。さらに、作業者による作業種類毎の作業時間を評価することもできる。 In addition, when a care recipient or a worker in a factory wears an active power assist suit to reduce the load of movement, the posture of the wearer can also be evaluated. The evaluation results of the wearer's posture can be used to evaluate whether the assist suit is functioning properly. Furthermore, the posture of the wearer can be analyzed, and the analysis results can be used to control the assist suit. Furthermore, by analyzing the posture of a worker in a factory, etc., the working time of the worker can be evaluated. Furthermore, the working time of each type of work performed by the worker can be evaluated.
(2.第一実施形態)
(2-1.人物画像データ解析システム1の推論フェーズにおける構成)
人物画像データ解析システム1の構成について図1~図6を参照して説明する。特に、以下においては、人物画像データ解析システム1の推論フェーズにおける構成について説明する。図1に示すように、人物画像データ解析システム1は、撮像機器2と、解析に用いるコンピュータ装置により構成される。コンピュータ装置は、記憶装置3と、演算処理装置4とを備える。
2. First Embodiment
(2-1. Configuration of human image
The configuration of the person image
撮像機器2は、例えば、時系列に連続した動画像を撮像可能な動画像撮像機器や、時系列に静止画像を撮像可能が静止画像撮像機器などである。撮像機器2は、姿勢解析を行う対象である人物を含むように撮像するために用いられる。記憶装置3は、機械学習により生成された学習済みモデルA,B,C,Dを記憶する。演算処理装置4は、人物画像データ生成部11、特徴量抽出部12、行動種類出力部13、および、キーポイント出力部14を備える。
The
図2に示すように、学習済みモデルAは、機械学習を行うことにより生成された人物画像データ抽出に関する機械学習モデルである。学習済みモデルAは、撮像機器2により撮像された画像データD1(以下、「元画像データ」と称する)を入力した場合に、元画像データD1の中から人物領域D1aを抽出する。元画像データD1は、人物領域D1a、および、人物領域D1aの周辺に位置する周辺領域D1bを含む。人物領域D1aには、人物に加えて、人物が保持している物体も含まれるようにしても良い。 As shown in FIG. 2, trained model A is a machine learning model for extracting human image data that has been generated by performing machine learning. When trained model A receives image data D1 captured by imaging device 2 (hereinafter referred to as "original image data"), it extracts a human area D1a from the original image data D1. The original image data D1 includes a human area D1a and a surrounding area D1b located around the human area D1a. In addition to the person, the human area D1a may also include an object held by the person.
そして、学習済みモデルAは、元画像データD1が入力されると、抽出された人物領域D1aの画像データである人物画像データD2を出力する。学習済みモデルAは、例えば、R-CNN(Regions with Convolutional Neural Networks)などを適用する。学習済みモデルAは、例えば、四角形の領域(バウンディングボックス)などにより、人物領域D1aを抽出する。 When the original image data D1 is input, the trained model A outputs person image data D2, which is image data of the extracted person region D1a. The trained model A applies, for example, R-CNN (Regions with Convolutional Neural Networks) or the like. The trained model A extracts the person region D1a, for example, using a rectangular region (bounding box) or the like.
図3に示すように、学習済みモデルBは、機械学習を行うことにより生成された特徴量抽出に関する機械学習モデルである。学習済みモデルBは、例えば、ニューラルネットワークを含む機械学習アルゴリズム(ディープラーニングを含む)が好適であるが、他の機械学習アルゴリズムを適用しても良い。学習済みモデルBは、学習済みモデルAにより出力された人物が含まれる人物画像データD2を説明変数とし、人物画像データD2における特徴量を目的変数として、機械学習を行うことにより生成された機械学習モデルである。つまり、学習済みモデルBは、人物画像データD2が入力されることにより、人物画像データD2における特徴量を出力する。 As shown in FIG. 3, trained model B is a machine learning model for feature extraction generated by performing machine learning. Trained model B is preferably a machine learning algorithm (including deep learning) including a neural network, but other machine learning algorithms may also be applied. Trained model B is a machine learning model generated by performing machine learning using person image data D2 including a person output by trained model A as an explanatory variable and feature values in person image data D2 as objective variables. In other words, trained model B outputs feature values in person image data D2 by inputting person image data D2.
なお、学習済みモデルBが抽出する特徴量の種類は、予め設定しても良いし、機械学習により自動的に抽出されるようにしても良い。もちろん、特徴量の種類は、機械学習による自動的な抽出と設定者による設定とを併用しても良い。例えば、特徴量の種類は、機械学習により自動的に抽出された後に、設定者による修正設定を行うようにしても良い。 The types of features extracted by trained model B may be set in advance, or may be automatically extracted by machine learning. Of course, the types of features may be automatically extracted by machine learning and set by the setter. For example, the types of features may be automatically extracted by machine learning and then modified by the setter.
学習済みモデルCは、機械学習を行うことにより生成された行動解析に関する機械学習モデルである。学習済みモデルCは、例えば、ニューラルネットワークを含む機械学習アルゴリズム(ディープラーニングを含む)が好適であるが、他の機械学習アルゴリズムを適用しても良い。学習済みモデルCは、時系列の複数枚の人物画像データD2のそれぞれに基づいて学習済みモデルBにより抽出された複数枚分の特徴量を説明変数とし、時系列の複数枚の人物画像データD2における人物の行動種類を目的変数として、機械学習を行うことにより生成された機械学習モデルである。ここで、説明変数としての複数枚分の特徴量についての枚数や時系列の時間などは、任意に設定できる。 The trained model C is a machine learning model for behavioral analysis generated by performing machine learning. For example, a machine learning algorithm (including deep learning) including a neural network is suitable for the trained model C, but other machine learning algorithms may also be applied. The trained model C is a machine learning model generated by performing machine learning using the feature amounts of multiple images extracted by the trained model B based on each of the multiple images of person image data D2 in a time series as explanatory variables, and the behavior type of the person in the multiple images of person image data D2 in a time series as a target variable. Here, the number of images and the time series time for the feature amounts of multiple images as explanatory variables can be set arbitrarily.
人物の行動種類は、例えば、静止状態における立位姿勢、座位姿勢、臥位姿勢、膝立ち位姿勢、動作状態における歩行姿勢、走行姿勢、跳躍姿勢、各種スポーツを行っている時の姿勢などを大分類とすることができる。人物の行動種類は、当該大分類をさらに細かく分類されている。例えば、座位姿勢は、胡座、安座、正座、長座位、端座位、半座位などに分類される。また、臥位姿勢は、仰臥位、側臥位、腹臥位などに分類される。他の姿勢についても細かく分類される。 The types of a person's behavior can be broadly categorized into, for example, standing, sitting, lying, and kneeling postures in a stationary state, and walking, running, jumping, and postures when performing various sports in a moving state. The types of a person's behavior are further categorized into these broad categories. For example, sitting postures are categorized into cross-legged, sitting comfortably, sitting upright, sitting long, sitting on the edge of the bed, and half-sitting. Furthermore, lying postures are categorized into supine, lateral, and prone positions. Other postures are also categorized in more detail.
学習済みモデルCは、時系列の複数枚の人物画像データD2のそれぞれに基づいて学習済みモデルBにより抽出された複数枚分の特徴量が入力されると、図4に示すような、当該人物の行動種類のスコアを生成する。そして、学習済みモデルCは、スコア値が最も高い行動種類を当該人物の行動種類と認定して、当該行動種類を出力する。 When trained model C receives the feature amounts for multiple images extracted by trained model B based on multiple time-series images of person image data D2, trained model C generates a score for the behavior type of the person as shown in FIG. 4. Trained model C then recognizes the behavior type with the highest score value as the behavior type of the person and outputs that behavior type.
学習済みモデルDは、機械学習を行うことにより生成されたキーポイント抽出に関する機械学習モデルである。学習済みモデルDは、例えば、ニューラルネットワークを含む機械学習アルゴリズム(ディープラーニングを含む)が好適であるが、他の機械学習アルゴリズムを適用しても良い。学習済みモデルDは、特徴量および行動種類を説明変数とし、人物画像データD2における人物の姿勢を表現したキーポイントを目的変数として、機械学習を行うことにより生成された機械学習モデルである。特徴量は、学習済みモデルBにより出力される情報である。行動種類は、学習済みモデルCにより出力される情報である。 The trained model D is a machine learning model for keypoint extraction generated by performing machine learning. For example, a machine learning algorithm (including deep learning) including a neural network is suitable for the trained model D, but other machine learning algorithms may also be applied. The trained model D is a machine learning model generated by performing machine learning using feature amounts and behavior types as explanatory variables and keypoints expressing the posture of a person in the person image data D2 as objective variables. The feature amounts are information output by the trained model B. The behavior types are information output by the trained model C.
キーポイントについて、図5を参照して説明する。キーポイントは、図5の黒丸の一部にて示す人物の関節位置を含む。本形態においては、キーポイントは、図5の黒丸の一部にて示すように、人物の目の位置を含むようにしている。さらに、キーポイントは、図5の黒丸同士を接続する線により示す接続関係を含む。例えば、キーポイントは、隣り合う関節位置同士を接続する接続関係、隣り合う目の位置同士を接続する接続関係、目の位置と目の位置に近接する関節位置とを接続する接続関係を含む。つまり、キーポイントは、人物の姿勢を表現するための部位と、各部位の接続関係と、を含む特徴データである。そして、学習済みモデルDは、特徴量および行動種類が入力されると、図5に示すキーポイントを出力する。 Key points will be described with reference to FIG. 5. Key points include the joint positions of a person, as shown by some of the black circles in FIG. 5. In this embodiment, key points include the positions of the person's eyes, as shown by some of the black circles in FIG. 5. Furthermore, key points include connections shown by lines connecting the black circles in FIG. 5. For example, key points include connections connecting adjacent joint positions, connections connecting adjacent eye positions, and connections connecting eye positions and joint positions close to eye positions. In other words, key points are feature data including parts for expressing a person's posture and connections between each part. When features and behavior types are input, the trained model D outputs the key points shown in FIG. 5.
人物画像データ生成部11は、図1および図2に示すように、撮像機器2から元画像データD1を取得する。人物画像データ生成部11は、記憶装置3に記憶された学習済みモデルAを用いて、元画像データD1を入力することにより、元画像データD1の中から人物領域D1aが抽出された人物画像データD2を生成する。
As shown in Figs. 1 and 2, the person image
元画像データD1が動画像データである場合には、人物画像データ生成部11は、取得した動画像データから、時系列からなる複数枚の静止画像データを生成する。そして、人物画像データ生成部11は、生成した時系列(例えば、時刻T1~T10)からなる複数枚の静止画像データのそれぞれを学習済みモデルAに入力し、複数枚の静止画像データのそれぞれにおける人物画像データD2を生成する。つまり、人物画像データ生成部11は、例えば時刻T1~T10における複数枚の人物画像データD2を生成する。
When the original image data D1 is moving image data, the person image
元画像データD1が静止画像データである場合には、人物画像データ生成部11は、取得した時系列(例えばT1~T10)からなる複数枚の静止画像データのそれぞれを学習済みモデルAに入力し、複数枚の静止画像データのそれぞれにおける人物画像データD2を生成する。つまり、この場合も、人物画像データ生成部11は、例えば時刻T1~T10における複数枚の人物画像データD2を生成する。
When the original image data D1 is still image data, the person image
人物画像データD2には、人物の少なくとも胴体が撮像機器2に正対する姿勢の画像データ、人物の少なくとも胴体が背向する姿勢の画像データ、人物の少なくとも胴体が横向きとなる姿勢の画像データなど、種々の画像データが含まれる。ここで言う横向きとは、撮像機器2に対して90°の向きである場合に限られず、撮像機器2に対して完全に正対する場合および完全に背向する場合を除く意味であって、斜め方向を向いている場合を含む。
The person image data D2 includes various image data, such as image data of a person with at least their torso facing directly to the
また、人物画像データD2には、人物が上半身と下半身とがねじれていない姿勢の画像データや、ねじれた姿勢の画像データなども含まれる。人物が歩行中においては、左手および右足が前方に位置し、右手および左足が後方に位置する状態となることがある。このような場合には、人物の上半身と下半身とがねじれた姿勢となっている。 The person image data D2 also includes image data of a person in a posture in which the upper and lower halves of the body are not twisted, as well as image data of a person in a twisted posture. When a person is walking, the left hand and right foot may be positioned forward, and the right hand and left foot may be positioned backward. In such a case, the person's upper and lower body are in a twisted posture.
特徴量抽出部12は、図1および図3に示すように、人物画像データ生成部11により生成された時系列(T1~T10)からなる複数枚の人物画像データD2を取得する。特徴量抽出部12は、記憶装置3に記憶された学習済みモデルBを用いて、時系列(T1~T10)からなる複数枚の人物画像データD2を入力する。そうすると、特徴量抽出部12は、学習済みモデルBの出力として、複数枚の人物画像データD2のそれぞれにおける特徴量、すなわち複数枚分の特徴量を抽出する。
As shown in Figs. 1 and 3, the
行動種類出力部13は、図1および図3に示すように、特徴量抽出部12により抽出された複数枚分の特徴量を取得する。行動種類出力部13は、記憶装置3に記憶された学習済みモデルCを用いて、特徴量抽出部12により時系列(T1~T10)からなる複数枚の人物画像データD2に基づいて抽出された複数枚分の特徴量を学習済みモデルBに入力する処理を行う。
As shown in Figs. 1 and 3, the behavior
そうすると、行動種類出力部13は、時系列(T1~T10)からなる複数枚分の特徴量を用いて、時系列の複数枚の人物画像データD2における人物の行動種類を出力する。具体的には、行動種類出力部13は、図4に示すように、行動種類ごとのスコアを生成し、スコア値が最も高い行動種類を、当該人物の行動種類として出力する。
Then, the behavior
本形態においては、行動種類出力部13は、1枚の人物画像データD2における特徴量ではなく、複数枚の人物画像データD2における特徴量、すなわち複数枚分の特徴量を入力している。つまり、時系列の複数枚の人物画像データD2における人物の位置の変化を判定することにより、行動種類を特定している。
In this embodiment, the behavior
キーポイント出力部14は、図1および図3に示すように、特徴量抽出部12により抽出された特徴量を取得する。特徴量抽出部12は、上述したように、時系列(T1~T10)からなる複数枚の人物画像データD2のそれぞれにおける特徴量、すなわち複数枚分の特徴量を抽出している。
As shown in Figures 1 and 3, the key
ただし、キーポイント出力部14は、時系列(T1~T10)からなる複数枚分の特徴量を用いる必要はない。本形態においては、キーポイント出力部14は、時系列(T1~T10)からなる複数枚の人物画像データD2のうち選択された1枚の人物画像データD2に基づいて抽出された1枚分の特徴量を取得する。例えば、キーポイント出力部14は、時刻T1~T10の中間時刻T5における人物画像データD2に基づいて抽出された特徴量を取得する。なお、キーポイント出力部14が選択する時刻は、任意に決定できる。
However, the
さらに、キーポイント出力部14は、行動種類出力部13により出力された行動種類を取得する。キーポイント出力部14は、記憶装置3に記憶された学習済みモデルCを用いて、取得した特徴量および行動種類を学習済みモデルCに入力する処理を行うことにより、時刻T5の人物画像データD2における人物のキーポイントを出力する。
Furthermore, the key
図5に示すように、キーポイント出力部14は、時刻T5の人物画像データD2における人物のキーポイントとして、関節位置、目の位置、各位置を接続する接続関係を出力する。
As shown in FIG. 5, the key
(2-2.人物画像データ解析システム1の学習フェーズにおける構成)
人物画像データ解析システム1の学習フェーズにおける構成について、図6を参照して説明する。特に、モデルB,C,Dに関する学習フェーズについて説明する。
(2-2. Configuration of human image
The configuration of the human image
まず、学習に使用する訓練データセットを準備する。訓練データセットとして、時系列の複数枚の人物画像データD2からなるユニットを多数準備する。例えば、複数の動画像データは、時系列の複数枚の人物画像データD2からなるユニットを多数含むものであるため、訓練データセットとして好適である。さらに、訓練データセットは、当該人物画像データD2における人物のキーポイント、人物の行動種類についてのラベル情報を含む。 First, a training dataset to be used for learning is prepared. As the training dataset, many units each consisting of multiple time-series images of person image data D2 are prepared. For example, multiple video image data sets are suitable as a training dataset because they contain many units each consisting of multiple time-series images of person image data D2. Furthermore, the training dataset includes label information on key points of people in the person image data D2 and types of behavior of people.
学習に用いる損失関数F(x,y)は、キーポイントの要素x、および、行動種類の要素yを含む。モデルB,C,Dは、訓練データセットを入力して、損失関数F(x,y)を小さくするように学習を行う。損失関数F(x,y)がキーポイントの要素および行動種類の要素を有することにより、モデルB,C,Dは、キーポイントおよび行動種類の正解を出力するように学習される。このようにして学習された学習済みモデルB,C,Dは、記憶装置3に記憶される。
The loss function F(x, y) used in learning includes a keypoint element x and an action type element y. Models B, C, and D input a training dataset and learn to reduce the loss function F(x, y). As the loss function F(x, y) has keypoint elements and action type elements, models B, C, and D are trained to output correct answers for keypoints and action types. The trained models B, C, and D trained in this way are stored in the
上記のような損失関数F(x,y)を用いた学習は、モデルB,C,Dをそれぞれ独立に学習するのではなく、モデルB,C,Dを一体的なモデルのように扱って学習している。従って、モデルB,C,Dは、それぞれ、損失関数(x、y)に影響を受ける部分が効果的に学習されていく。 When learning using the loss function F(x, y) as described above, models B, C, and D are not trained independently, but rather models B, C, and D are trained as a unified model. Therefore, the parts of models B, C, and D that are affected by the loss function (x, y) are trained effectively.
(2-3.効果)
人物画像データ解析システム1において、キーポイント出力部14は、人物画像データD2における特徴量のみを用いて、当該人物のキーポイントを出力しているのではない。キーポイント出力部14は、人物画像データD2における特徴量に加えて、当該人物の行動種類を入力して、人物のキーポイントを出力している。
(2-3. Effects)
In the person image
このように、キーポイント出力部14は、人物の行動種類を把握した上で人物のキーポイントを出力することで、人物のキーポイントを高精度に出力することができる。このことについて、本形態におけるキーポイントの出力結果である図5と、比較例としてのキーポイントの出力結果である図7とを比較して説明する。
In this way, the
図5は、本形態におけるキーポイント出力部14が出力したキーポイントを示す。一方、図7は、行動種類を考慮せずに、人物画像データD2における特徴量のみに基づいて出力されたキーポイントを示す。図5および図7に示すキーポイントに用いた人物画像データD2は、人物が上半身と下半身とをねじれさせた姿勢である。さらに、人物画像データD2は、人物の少なくとも胴体が横向きとなる姿勢の画像データである。
Figure 5 shows key points output by the key
図5に示す人物の下半身において、右股関節と右膝関節とが接続され、左股関節と左膝関節とが接続されている。このように、図5においては、関節同士が正しく接続されている。一方、図7に示す人物の下半身において、右股関節と左膝関節とが接続され、左股関節と右膝関節とが接続されている。つまり、図7においては、関節同士が誤って接続されている。 In the lower body of the person shown in Figure 5, the right hip joint is connected to the right knee joint, and the left hip joint is connected to the left knee joint. Thus, in Figure 5, the joints are correctly connected. On the other hand, in the lower body of the person shown in Figure 7, the right hip joint is connected to the left knee joint, and the left hip joint is connected to the right knee joint. In other words, in Figure 7, the joints are incorrectly connected.
図5および図7に示す人物の下半身において、右股関節は、右膝関節よりも、左膝関節の方が近い位置に位置し、左股関節は、左膝関節よりも、右膝関節の方が近い位置に位置する。そして、人物画像データが人物の胴体が横向きの姿勢であるため、左右股関節と左右膝関節とが、左右の前後位置が反対になっている。図7においては、近い位置に位置する関節同士を接続したものと思われる。 In the lower body of the person shown in Figures 5 and 7, the right hip joint is closer to the left knee joint than the right knee joint, and the left hip joint is closer to the right knee joint than the left knee joint. And because the person's torso is posed sideways in the person's image data, the left and right hip joints and the left and right knee joints are in reversed front-to-back positions. In Figure 7, it appears that joints located close to each other are connected.
図7に示すように、人物が上半身と下半身とをねじれさせた姿勢である場合には、キーポイントの1つとしての、隣り合う関節位置同士を接続する接続関係が誤って出力される可能性がある。関節位置の接続を正しく認識しないと、人物の姿勢を正しく認識できない。しかし、本形態においては、図5に示すように、人物の行動種類を把握することにより、ねじれ姿勢かつ横向き姿勢であっても、高精度にキーポイントの1つとしての接続関係を出力することができる。従って、人物の姿勢を高精度に解析することができる。 As shown in FIG. 7, when a person has a posture in which the upper and lower halves of the body are twisted, there is a possibility that the connection relationship connecting adjacent joint positions as one of the key points may be erroneously output. If the connections of the joint positions are not correctly recognized, the person's posture cannot be correctly recognized. However, in this embodiment, as shown in FIG. 5, by grasping the type of behavior of the person, it is possible to output the connection relationship as one of the key points with high accuracy even if the person is in a twisted posture and lying sideways. Therefore, the person's posture can be analyzed with high accuracy.
行動種類出力部13は、時系列の複数枚分の特徴量を入力することにより、人物の行動種類を出力している。従って、行動種類出力部13は、時系列の複数枚の人物画像データD2を用いることで、高精度に人物の行動種類を特定することができる。その結果、人物のキーポイントを高精度に出力できる。
The behavior
また、学習済みモデルB,C,Dは、学習フェーズにおいて、キーポイントの要素および行動種類の要素を含む損失関数F(x,y)により学習されている。つまり、キーポイント出力部14が行動種類を考慮したキーポイントを高精度に出力できるように、学習済みモデルB,C,Dが学習される。このようにして学習された学習済みモデルB,C,Dを用いて、人物のキーポイントを出力することから、高精度なキーポイントを出力できる。
In addition, in the learning phase, the trained models B, C, and D are trained using a loss function F(x, y) that includes keypoint elements and behavior type elements. In other words, the trained models B, C, and D are trained so that the
また、人物画像データ解析システム1は、撮像機器2により撮像された元画像データD1そのものを特徴量抽出部12に入力するのではなく、元画像データD1から人物領域D1aが抽出された人物画像データD2を特徴量抽出部12に入力している。このように、人物領域D1aを抽出した人物画像データD2を生成することにより、人物画像データD2における人物のキーポイントを高精度に出力することにつながる。
In addition, the person image
(3.第二実施形態)
第二実施形態の人物画像データ解析システム1の推論フェーズの構成について、図1および図8を参照して説明する。
3. Second Embodiment
The configuration of the inference phase of the human image
図1に示すように、人物画像データ解析システム1は、学習済みモデルA,B,C,Dを記憶する記憶装置3、および、演算処理装置4を備える。演算処理装置4は、人物画像データ生成部11、特徴量抽出部12、行動種類出力部13、および、キーポイント出力部14を備える。
As shown in FIG. 1, the human image
学習済みモデルA,B,Dは、第一実施形態における学習済みモデルA,B,Dと同一である。学習済みモデルCは、再帰型アルゴリズムを適用する。例えば、学習済みモデルCは、RNN(Recurrent Neural Network)、LSTM(Long Short Term Memory)などを適用する。 Trained models A, B, and D are the same as trained models A, B, and D in the first embodiment. Trained model C applies a recursive algorithm. For example, trained model C applies a recurrent neural network (RNN), long short term memory (LSTM), etc.
つまり、学習済みモデルCは、特徴量抽出部12により1枚の人物画像データD2に基づいて抽出された1枚分の特徴量を順次入力した場合に、前回演算処理を行った結果を用いた再帰型演算を行うことにより、今回演算処理の対象である1枚の人物画像データD2における人物の行動種類を出力する機械学習モデルである。
In other words, the trained model C is a machine learning model that, when the feature amounts for one image extracted by the
本形態において、演算処理装置4を構成する各部の処理は、以下のようになる。特徴量抽出部12は、学習済みモデルAを用いて、時系列の複数枚の人物画像データD2を順次入力することにより、複数枚の人物画像データD2のそれぞれにおける特徴量を順次抽出する。つまり、特徴量抽出部12は、順次、演算処理の対象となる1枚の人物画像データD2の特徴量を抽出する。
In this embodiment, the processing of each part constituting the
行動種類出力部13は、学習済みモデルCを用いて、特徴量抽出部12により1枚の人物画像データD2に基づいて抽出された1枚分の特徴量を順次入力し、かつ、前回演算処理を行った結果を用いた再帰型演算を行うことにより、今回演算処理の対象である1枚の人物画像データD2における人物の行動種類を出力する。
The behavior
キーポイント出力部14は、学習済みモデルDを用いて、今回演算処理の対象である1枚分の特徴量、および、今回演算処理の対象を含む人物画像データD2における人物の行動種類を入力することにより、今回演算処理の対象である1枚の人物画像データD2における人物のキーポイントを出力する。
The key
行動種類出力部13が、再帰型演算を行うことにより、今回演算処理の対象である1枚分の特徴量を用いて、人物の行動種類を出力できる。従って、特徴量抽出部12、行動種類出力部13、および、キーポイント出力部14における処理が、今回演算処理の対象としての1枚の人物画像データD2の入力により実行される。従って、時系列の人物画像データを順次入力する度に、当該人物画像データにおける人物のキーポイントを出力することができる。つまり、リアルタイムに人物のキーポイントを出力できる。その結果、リアルタイムに、人物の姿勢を解析することができる。
By performing recursive calculations, the behavior
1 人物画像データ解析システム
3 記憶装置
4 演算処理装置
11 人物画像データ生成部
12 特徴量抽出部
13 行動種類出力部
14 キーポイント出力部
D1 元画像データ
D2 人物画像データ
REFERENCE SIGNS
Claims (8)
前記記憶装置は、
人物が含まれる第1人物画像データを説明変数とし、前記第1人物画像データにおける特徴量を目的変数として、機械学習を行うことにより生成された特徴量抽出に関する学習済みモデルを記憶し、
前記第1人物画像データに基づいて抽出された前記特徴量を説明変数とし、時系列の複数枚の前記第1人物画像データにおける前記人物の行動種類を目的変数として、機械学習を行うことにより生成された行動解析に関する学習済みモデルを記憶し、
前記特徴量および前記行動種類を説明変数とし、前記第1人物画像データにおける前記人物の姿勢を表現したキーポイントを目的変数として、機械学習を行うことにより生成されたキーポイント抽出に関する学習済みモデルを記憶し、
前記演算処理装置は、
前記記憶装置に記憶された前記特徴量抽出に関する学習済みモデルを用いて、人物が含まれる第2人物画像データを入力することにより、前記第2人物画像データにおける前記特徴量を抽出する特徴量抽出部と、
前記記憶装置に記憶された前記行動解析に関する学習済みモデルを用いて、前記特徴量抽出部により抽出された前記特徴量を入力することにより、時系列の複数枚の前記第2人物画像データにおける前記人物の前記行動種類を出力する行動種類出力部と、
前記記憶装置に記憶された前記キーポイント抽出に関する学習済みモデルを用いて、前記特徴量抽出部により抽出された前記特徴量および前記行動種類出力部により出力された前記行動種類を入力することにより、前記第2人物画像データにおける前記人物の前記キーポイントを出力するキーポイント出力部と、
を備え、
前記特徴量抽出に関する学習済みモデル、前記行動解析に関する学習済みモデル、および、前記キーポイント抽出に関する学習済みモデルは、学習フェーズにおいて、前記キーポイントの要素および前記行動種類の要素を含む損失関数により学習される、人物画像データ解析システム。 A human image data analysis system including a computer device having a processor and a memory device,
The storage device includes:
storing a trained model for feature extraction generated by performing machine learning using first person image data including a person as an explanatory variable and a feature in the first person image data as a target variable;
storing a trained model for behavior analysis generated by performing machine learning using the feature amount extracted based on the first person image data as an explanatory variable and a behavior type of the person in the multiple first person image data in a time series as a target variable;
storing a trained model for keypoint extraction generated by performing machine learning using the feature amount and the behavior type as explanatory variables and a keypoint representing a posture of the person in the first person image data as a target variable;
The arithmetic processing device includes:
a feature extraction unit that extracts the feature from second person image data including a person by inputting the second person image data using the trained model related to the feature extraction stored in the storage device; and
a behavior type output unit that outputs the behavior type of the person in the plurality of time-series images of the second person image data by inputting the feature amount extracted by the feature amount extraction unit using a trained model related to the behavior analysis stored in the storage device;
a keypoint output unit that outputs the keypoints of the person in the second person image data by inputting the feature extracted by the feature extraction unit and the behavior type output by the behavior type output unit using a trained model related to the keypoint extraction stored in the storage device;
Equipped with
A human image data analysis system, wherein the trained model for feature extraction, the trained model for behavior analysis, and the trained model for keypoint extraction are trained in a learning phase using a loss function that includes elements of the keypoints and elements of the behavior types .
前記行動種類出力部は、前記行動解析に関する学習済みモデルを用いて、時系列の複数枚の前記第2人物画像データのそれぞれに基づいて抽出された複数枚分の前記特徴量を入力することにより、前記行動種類を出力し、
前記キーポイント出力部は、前記キーポイント抽出に関する学習済みモデルを用いて、時系列の複数枚の前記第2人物画像データのうち選択された1枚の前記第2人物画像データに基づいて抽出された1枚分の前記特徴量、および、前記行動種類を入力することにより、前記選択された1枚の前記第2人物画像データにおける前記人物の前記キーポイントを出力する、請求項1に記載の人物画像データ解析システム。 the feature extraction unit extracts the feature from each of the second person image data by inputting the second person image data in a time series using a trained model for the feature extraction;
the behavior type output unit outputs the behavior type by inputting the feature amounts for a plurality of images extracted based on each of the plurality of second person image data in time series using a trained model related to the behavior analysis; and
2. The human image data analysis system of claim 1 , wherein the keypoint output unit uses a trained model for the keypoint extraction to input the feature amount for one image extracted based on the one image of the second human image data selected from the plurality of images of the second human image data in a time series, and the behavior type, thereby outputting the keypoints of the person in the one image of the second human image data selected.
前記行動種類出力部は、前記行動解析に関する学習済みモデルを用いて、抽出された1枚分の前記特徴量を順次入力し、かつ、前回演算処理を行った結果を用いた再帰型演算を行うことにより、今回演算処理の対象である1枚の前記第2人物画像データにおける前記人物の前記行動種類を出力し、
前記キーポイント出力部は、前記キーポイント抽出に関する学習済みモデルを用いて、1枚分の前記特徴量および前記行動種類を入力することにより、今回演算処理の対象である1枚の前記第2人物画像データにおける前記人物の前記キーポイントを出力する、請求項1に記載の人物画像データ解析システム。 the feature extraction unit sequentially inputs the plurality of second person image data in time series using a trained model for the feature extraction, thereby sequentially extracting the feature from each of the plurality of second person image data;
the behavior type output unit sequentially inputs the extracted feature amounts for one image using a trained model for the behavior analysis, and performs a recursive calculation using a result of a previous calculation process, thereby outputting the behavior type of the person in the one image of the second person image data that is a target of a current calculation process;
2. The human image data analysis system of claim 1, wherein the keypoint output unit uses a trained model for the keypoint extraction to input the feature amounts and the behavior type for one image, and outputs the keypoints of the person in the second human image data piece that is the subject of a current calculation process.
前記記憶装置は、
人物が含まれる第1人物画像データを説明変数とし、前記第1人物画像データにおける特徴量を目的変数として、機械学習を行うことにより生成された特徴量抽出に関する学習済みモデルを記憶し、
前記第1人物画像データに基づいて抽出された前記特徴量を説明変数とし、時系列の複数枚の前記第1人物画像データにおける前記人物の行動種類を目的変数として、機械学習を行うことにより生成された行動解析に関する学習済みモデルを記憶し、
前記特徴量および前記行動種類を説明変数とし、前記第1人物画像データにおける前記人物の姿勢を表現したキーポイントを目的変数として、機械学習を行うことにより生成されたキーポイント抽出に関する学習済みモデルを記憶し、
前記演算処理装置は、
前記記憶装置に記憶された前記特徴量抽出に関する学習済みモデルを用いて、人物が含まれる時系列の複数枚の第2人物画像データを入力することにより、複数枚の前記第2人物画像データのそれぞれにおける前記特徴量を抽出する特徴量抽出部と、
前記記憶装置に記憶された前記行動解析に関する学習済みモデルを用いて、時系列の複数枚の前記第2人物画像データのそれぞれに基づいて前記特徴量抽出部により抽出された複数枚分の前記特徴量を入力することにより、時系列の複数枚の前記第2人物画像データにおける前記人物の前記行動種類を出力する行動種類出力部と、
前記記憶装置に記憶された前記キーポイント抽出に関する学習済みモデルを用いて、時系列の複数枚の前記第2人物画像データのうち選択された1枚の前記第2人物画像データに基づいて前記特徴量抽出部により抽出された1枚分の前記特徴量、および、前記行動種類出力部により出力された前記行動種類を入力することにより、前記選択された1枚の前記第2人物画像データにおける前記人物の前記キーポイントを出力するキーポイント出力部と、
を備える、人物画像データ解析システム。 A human image data analysis system including a computer device having a processor and a memory device,
The storage device includes:
storing a trained model for feature extraction generated by performing machine learning using first person image data including a person as an explanatory variable and a feature in the first person image data as a target variable;
storing a trained model for behavior analysis generated by performing machine learning using the feature amount extracted based on the first person image data as an explanatory variable and a behavior type of the person in the multiple first person image data in a time series as a target variable;
storing a trained model for keypoint extraction generated by performing machine learning using the feature amount and the behavior type as explanatory variables and a keypoint representing a posture of the person in the first person image data as a target variable;
The arithmetic processing device includes:
a feature extraction unit that extracts the feature from each of a plurality of second person image data by inputting a plurality of second person image data in a time series including a person , using the trained model related to the feature extraction stored in the storage device;
a behavior type output unit that outputs the behavior type of the person in the plurality of time-series second person image data by inputting the feature amounts for the plurality of images extracted by the feature amount extracting unit based on each of the plurality of time-series second person image data, using a trained model for the behavior analysis stored in the storage device;
a key point output unit that uses a trained model for the key point extraction stored in the storage device to input the feature amounts for one image selected from the plurality of second person image data in time series, the feature amounts being extracted by the feature amount extractor based on the one image of the second person image data selected from the plurality of second person image data in time series , and the behavior type being output by the behavior type output unit, and outputs the key points of the person in the selected one image of the second person image data;
A human image data analysis system comprising:
前記記憶装置は、
人物が含まれる第1人物画像データを説明変数とし、前記第1人物画像データにおける特徴量を目的変数として、機械学習を行うことにより生成された特徴量抽出に関する学習済みモデルを記憶し、
前記第1人物画像データに基づいて抽出された1枚分の前記特徴量を説明変数とし、時系列の複数枚の前記第1人物画像データにおける前記人物の行動種類を目的変数として、機械学習を行うことにより生成された行動解析に関する学習済みモデルを記憶し、
前記特徴量および前記行動種類を説明変数とし、前記第1人物画像データにおける前記人物の姿勢を表現したキーポイントを目的変数として、機械学習を行うことにより生成されたキーポイント抽出に関する学習済みモデルを記憶し、
前記演算処理装置は、
前記記憶装置に記憶された前記特徴量抽出に関する学習済みモデルを用いて、人物が含まれる時系列の複数枚の第2人物画像データを順次入力することにより、複数枚の前記第2人物画像データのそれぞれにおける前記特徴量を順次抽出する特徴量抽出部と、
前記記憶装置に記憶された前記行動解析に関する学習済みモデルを用いて、前記特徴量抽出部により抽出された1枚分の前記特徴量を順次入力し、かつ、前回演算処理を行った結果を用いた再帰型演算を行うことにより、今回演算処理の対象である1枚の前記第2人物画像データにおける前記人物の前記行動種類を出力する行動種類出力部と、
前記記憶装置に記憶された前記キーポイント抽出に関する学習済みモデルを用いて、前記特徴量抽出部により抽出された1枚分の前記特徴量および前記行動種類出力部により出力された前記行動種類を入力することにより、今回演算処理の対象である1枚の前記第2人物画像データにおける前記人物の前記キーポイントを出力するキーポイント出力部と、
を備える、人物画像データ解析システム。 A human image data analysis system including a computer device having a processor and a memory device,
The storage device includes:
storing a trained model for feature extraction generated by performing machine learning using first person image data including a person as an explanatory variable and a feature in the first person image data as a target variable;
storing a learned model for behavior analysis generated by performing machine learning using the feature amount for one image extracted based on the first person image data as an explanatory variable and a behavior type of the person in the multiple first person image data in a time series as a target variable;
storing a trained model for keypoint extraction generated by performing machine learning using the feature amount and the behavior type as explanatory variables and a keypoint representing a posture of the person in the first person image data as a target variable;
The arithmetic processing device includes:
a feature extraction unit that sequentially inputs a plurality of second person image data in a time series including a person , by using the trained model related to the feature extraction stored in the storage device, and sequentially extracts the feature from each of the plurality of second person image data;
a behavior type output unit that uses a trained model for the behavior analysis stored in the storage device to sequentially input the feature amounts for one image extracted by the feature amount extraction unit and to perform a recursive calculation using a result of a previous calculation process , thereby outputting the behavior type of the person in the one image of the second person image data that is the target of a current calculation process ;
a keypoint output unit that uses a trained model for the keypoint extraction stored in the storage device to input the feature amounts for one image extracted by the feature amount extraction unit and the behavior type output by the behavior type output unit, and outputs the keypoints of the person in the second person image data for one image that is the subject of a current calculation process ;
A human image data analysis system comprising:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021086077A JP7700511B2 (en) | 2021-05-21 | 2021-05-21 | Human image data analysis system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021086077A JP7700511B2 (en) | 2021-05-21 | 2021-05-21 | Human image data analysis system |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2022178935A JP2022178935A (en) | 2022-12-02 |
| JP7700511B2 true JP7700511B2 (en) | 2025-07-01 |
Family
ID=84238838
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021086077A Active JP7700511B2 (en) | 2021-05-21 | 2021-05-21 | Human image data analysis system |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7700511B2 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2026074650A1 (en) * | 2024-10-02 | 2026-04-09 | 三菱電機株式会社 | Estimation device, power conversion device, motor drive device, and refrigeration cycle application apparatus |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2011100175A (en) | 2009-11-04 | 2011-05-19 | Nippon Hoso Kyokai <Nhk> | Device and program for deciding personal action |
| US20170344829A1 (en) | 2016-05-31 | 2017-11-30 | Microsoft Technology Licensing, Llc | Skeleton -based action detection using recurrent neural network |
| JP2019219836A (en) | 2018-06-19 | 2019-12-26 | Kddi株式会社 | Program, apparatus, and method for describing trajectory of displacement of human skeleton position from video data |
-
2021
- 2021-05-21 JP JP2021086077A patent/JP7700511B2/en active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2011100175A (en) | 2009-11-04 | 2011-05-19 | Nippon Hoso Kyokai <Nhk> | Device and program for deciding personal action |
| US20170344829A1 (en) | 2016-05-31 | 2017-11-30 | Microsoft Technology Licensing, Llc | Skeleton -based action detection using recurrent neural network |
| JP2019219836A (en) | 2018-06-19 | 2019-12-26 | Kddi株式会社 | Program, apparatus, and method for describing trajectory of displacement of human skeleton position from video data |
Non-Patent Citations (3)
| Title |
|---|
| Jiagang Zhu,Action Machine: Toward Person-Centric Action Recognition in Videos,IEEE Signal Processing Letters,Volume: 26, Issue: 11, November 2019,IEEE,2019年10月20日,p1633-1637 |
| 原 健翔 Kensho HARA,Hough Forestsを用いたスケール変化に頑健な行動検出 Robust Action Detection Using Hough Forests under Scale Changes,電子情報通信学会技術研究報告 Vol.115 No.517 IEICE Technical Report,日本,一般社団法人電子情報通信学会 The Institute of Electronics,Information and Communication Engineers,第115巻 |
| 岩田 紗希,超低解像度FIR画像系列中での人物位置と行動の違いに着目した骨格推定法,精密工学会誌,2021年01月05日,87巻1号,p.99-106 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2022178935A (en) | 2022-12-02 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111274998B (en) | Parkinson's disease finger knocking action recognition method and system, storage medium and terminal | |
| Alhimale et al. | The implementation of an intelligent and video-based fall detection system using a neural network | |
| Fieraru et al. | Learning complex 3D human self-contact | |
| CN112970074A (en) | Physical activity quantification and monitoring | |
| JP2020034849A (en) | Work support device, work support method, and work support program | |
| US11779260B2 (en) | Cognitive function evaluation method, cognitive function evaluation device, and non-transitory computer-readable recording medium in which cognitive function evaluation program is recorded | |
| CN114757293B (en) | Human-machine integration risk warning method and system based on motion recognition and human-machine distance | |
| JP2021086322A5 (en) | ||
| He et al. | An expert-knowledge-based graph convolutional network for skeleton-based physical rehabilitation exercises assessment | |
| WO2021064963A1 (en) | Exercise recognition method, exercise recognition program, and information processing device | |
| JP7700511B2 (en) | Human image data analysis system | |
| KR102719871B1 (en) | Apparatus and method for diagnosing disease | |
| CN118394212A (en) | Construction method of scene interactive AI rehabilitation evaluation training and health monitoring system | |
| TWI861643B (en) | Information processing device and information processing method | |
| Fourati et al. | Relevant body cues for the classification of emotional body expression in daily actions | |
| Surasak et al. | Leveraging support vector machine for sports injury classification | |
| Salim et al. | Human activity recognition using the human skeleton provided by kinect | |
| Yunardi et al. | Enhancing Surveillance Vision-Based Human Action Recognition Using Skeleton Joint Swing and Angle Feature and Modified AlexNet-LSTM. | |
| Mishra et al. | XAI-based gait analysis of patients walking with Knee-Ankle-Foot orthosis using video cameras | |
| Pe et al. | Systematic comparison of machine learning for activity recognition in cross-subject vs. NonCross-subject scenarios: A preliminary analysis | |
| KR20210129861A (en) | Apparatus and method for determining musculoskeletal disease | |
| Venture | Human characterization and emotion characterization from gait | |
| CN113780158B (en) | Intelligent concentration detection method | |
| KR20240053841A (en) | Method for motion classification and evaluation based on motion features and apparatus thereof | |
| Boufama et al. | A deep-learning approach for task recognition of industrial workers and RULA score calculation |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240209 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20241118 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20250107 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20250219 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250520 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250602 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7700511 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |