JP7560950B2 - Image processing system and control program - Google Patents
Image processing system and control program Download PDFInfo
- Publication number
- JP7560950B2 JP7560950B2 JP2020050251A JP2020050251A JP7560950B2 JP 7560950 B2 JP7560950 B2 JP 7560950B2 JP 2020050251 A JP2020050251 A JP 2020050251A JP 2020050251 A JP2020050251 A JP 2020050251A JP 7560950 B2 JP7560950 B2 JP 7560950B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- distance
- pixel
- group
- gradation value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Description
本発明は、人物のジェスチャを検出する画像処理システム及び制御プログラムに関する。 The present invention relates to an image processing system and control program for detecting human gestures.
近年、監視空間を撮像した画像に基づいて、人物のジェスチャを検出する画像処理システムが開発されている。 In recent years, image processing systems have been developed that detect human gestures based on images captured in a monitored space.
特許文献1には、強度変化する光を物体に発し、その光の物体による反射光を外光から分離して検出し、光の物体による反射光画像を検出する情報入力装置が開示されている。
特許文献2には、物体の所定の周期による往復動作を認識する携帯式コンピュータが開示されている。この携帯式コンピュータは、物体を撮影したイメージ・センサから連続する複数のフレームを受け取る。次にこの携帯式コンピュータは、背景画像と各フレームが含むブラー画像を比較し、対応する画素の階調値の差を計算して2値化した差分画像から物体の動作を認識する。
画像処理システムでは、監視空間内の人物のジェスチャを精度良く検出することが望まれている。 In an image processing system, it is desirable to accurately detect gestures made by people in a monitored space.
本発明が解決しようとする課題は、撮影画像において動いた物体の動作を認識し易い画像を生成する画像処理システム及び制御プログラムを提供することである。また、監視空間内の人物が手を前に出して行うジェスチャを精度良く認識することができる画像処理システム及び制御プログラムを提供することである。 The problem that this invention aims to solve is to provide an image processing system and control program that generates an image in which the movement of a moving object in a captured image is easily recognized. Also, to provide an image processing system and control program that can accurately recognize a gesture made by a person in a monitored space with their hand out in front of them.
上述の課題を解決するため、本発明は、その一態様として、監視空間内の基準位置から物体までの距離に関する情報を階調値とする距離画像を順次取得する距離画像取得手段と、順次取得される距離画像に対応した、監視空間内の濃淡に関する情報を階調値とする2次元画像を順次取得する2次元画像取得手段と、距離画像取得手段により所定期間に取得された複数の距離画像内で同一位置に配置された画素又は領域のグループ毎に、グループの中で階調値が相対的に小さい画素又は領域を特定し、グループ毎に特定された画素又は領域を含む距離画像に対応する2次元画像内の、特定された画素又は領域に対応する画素又は領域を用いて、所定期間に取得された複数の2次元画像が合成された処理画像を生成する合成手段と、を有することを特徴とする画像処理システムを提供する。 In order to solve the above-mentioned problems, as one aspect of the present invention, an image processing system is provided that includes: a distance image acquisition means for sequentially acquiring distance images whose gradation values are information relating to the distance from a reference position to an object in a monitored space; a two-dimensional image acquisition means for sequentially acquiring two-dimensional images whose gradation values are information relating to the shading in the monitored space corresponding to the sequentially acquired distance images; and a synthesis means for identifying, for each group of pixels or regions arranged at the same position in a plurality of distance images acquired by the distance image acquisition means over a predetermined period of time, a pixel or region having a relatively small gradation value in the group, and generating a processed image in which a plurality of two-dimensional images acquired over a predetermined period of time are synthesized using a pixel or region corresponding to the identified pixel or region in a two-dimensional image corresponding to the distance image including the pixel or region identified for each group.
上記の画像処理システムにおいて、合成手段は、グループ毎に特定された画素又は領域を含む距離画像に対応する2次元画像内の、特定された画素又は領域に対応する画素又は領域の階調値を、そのグループに対応する画素又は領域の階調値として処理画像を生成することが好ましい。 In the above image processing system, it is preferable that the synthesis means generates a processed image by using the gradation value of a pixel or area corresponding to a specified pixel or area in a two-dimensional image corresponding to a distance image including the pixels or areas specified for each group as the gradation value of the pixel or area corresponding to that group.
上記の画像処理システムにおいて、合成手段は、グループ毎に特定された画素又は領域を含む距離画像に対応する2次元画像内の、特定された画素又は領域に対応する画素又は領域の階調値を、そのグループに対応する画素又は領域の第1成分の階調値とし、距離画像内でそのグループ毎に特定された画素又は領域の階調値を、そのグループに対応する画素又は領域の第2成分の階調値とするように処理画像を生成することが好ましい。 In the above image processing system, it is preferable that the synthesis means generates a processed image such that the gradation value of a pixel or region corresponding to a specified pixel or region in a two-dimensional image corresponding to a distance image including the pixels or regions specified for each group is set to the gradation value of the first component of the pixel or region corresponding to that group, and the gradation value of a pixel or region specified for each group in the distance image is set to the gradation value of the second component of the pixel or region corresponding to that group.
上記の画像処理システムにおいて、入力された学習用処理画像に含まれる人物のジェスチャ動作に関する情報を出力するように学習されたモデルに処理画像を入力し、モデルから出力された情報に基づいて、監視空間内の人物のジェスチャ動作を検出する検出手段をさらに有することが好ましい。 In the above image processing system, it is preferable that the system further includes a detection means for inputting the processed image into a model trained to output information about the gesture movements of a person contained in the input learning processed image, and detecting the gesture movements of a person in the monitored space based on the information output from the model.
上記の画像処理システムにおいて、距離画像又は2次元画像内で人物を含む人物領域を検出する人物領域検出手段をさらに有し、合成手段は、検出された人物領域に対応するグループに限り、そのグループ毎に特定された画素又は領域を含む距離画像に対応する2次元画像内の、特定された画素又は領域に対応する画素又は領域を用いて、処理画像を生成することが好ましい。 In the above image processing system, it is preferable that the system further includes a person area detection means for detecting a person area including a person in the distance image or the two-dimensional image, and the synthesis means generates a processed image using pixels or areas corresponding to the identified pixels or areas in the two-dimensional image corresponding to the distance image including the pixels or areas identified for each group, only for the groups corresponding to the detected person areas.
上記の画像処理システムにおいて、処理画像に基づいて、監視空間内に存在する人物の前方でなされた所定のジェスチャ動作を検出する検出手段をさらに有することが好ましい。 In the above image processing system, it is preferable that the system further includes a detection means for detecting a predetermined gesture movement made in front of a person present in the monitored space based on the processed image.
また、上述の課題を解決するため、本発明は、他の一態様として、監視空間内の基準位置から物体までの距離に関する情報を階調値とする距離画像を順次取得する距離画像取得手段と、距離画像取得手段により所定期間に取得された複数の距離画像内で同一位置に配置された画素又は領域のグループ毎に、グループの中で階調値が相対的に小さい画素又は領域を特定し、グループ毎に特定された画素又は領域を用いて、所定期間に取得された複数の距離画像を合成して処理画像を生成する処理画像生成手段と、を有することを特徴とする画像処理システムを提供する。 In addition, in order to solve the above-mentioned problems, in another aspect, the present invention provides an image processing system characterized by having a distance image acquisition means for sequentially acquiring distance images in which information relating to the distance from a reference position to an object in a monitored space is used as a gradation value, and a processed image generation means for identifying, for each group of pixels or regions located at the same position in multiple distance images acquired by the distance image acquisition means over a predetermined period of time, a pixel or region with a relatively small gradation value within the group, and using the pixels or regions identified for each group, synthesizing the multiple distance images acquired over the predetermined period of time to generate a processed image.
また、上述の課題を解決するため、本発明は、他の一態様として、監視空間内の基準位置から物体までの距離に関する情報を階調値とする距離画像を順次取得し、順次取得した距離画像に対応して、監視空間内の濃淡に関する情報を階調値とする2次元画像を順次取得し、所定期間に取得した複数の距離画像内で同一位置に配置された画素又は領域のグループ毎に、グループの中で階調値が相対的に小さい画素又は領域を特定し、グループ毎に特定された画素又は領域を含む距離画像に対応する2次元画像内の、特定された画素又は領域に対応する画素又は領域を用いて、所定期間に取得した複数の2次元画像を合成して処理画像を生成する、ことをコンピュータに実行させることを特徴とする制御プログラムを提供する。 In addition, in order to solve the above-mentioned problems, in another aspect, the present invention provides a control program that causes a computer to execute the following steps: sequentially acquire distance images in which information relating to the distance from a reference position to an object in a monitored space is used as a gradation value; sequentially acquire two-dimensional images in which information relating to the shading in the monitored space is used as a gradation value corresponding to the sequentially acquired distance images; identify, for each group of pixels or regions arranged at the same position in a plurality of distance images acquired over a predetermined period, a pixel or region in the group that has a relatively small gradation value; and generate a processed image by synthesizing the plurality of two-dimensional images acquired over the predetermined period using pixels or regions corresponding to the identified pixels or regions in the two-dimensional images corresponding to the distance images including the pixels or regions identified for each group.
また、上述の課題を解決するため、本発明は、他の一態様として、監視空間内の基準位置から物体までの距離に関する情報を階調値とする距離画像を順次取得し、所定期間に取得した複数の距離画像内で同一位置に配置された画素又は領域のグループ毎に、グループの中で階調値が相対的に小さい画素又は領域を特定し、グループ毎に特定された画素又は領域を用いて、所定期間に取得した複数の距離画像を合成して処理画像を生成する、ことをコンピュータに実行させることを特徴とする制御プログラムを提供する。 In order to solve the above-mentioned problems, in another aspect, the present invention provides a control program that causes a computer to execute the following steps: sequentially acquire distance images in which information relating to the distance from a reference position to an object in a monitored space is used as a gradation value; for each group of pixels or regions located at the same position in multiple distance images acquired over a specified period, identify pixels or regions with relatively small gradation values within the group; and use the pixels or regions identified for each group to synthesize the multiple distance images acquired over the specified period to generate a processed image.
本発明によれば、撮影画像において動いた物体の動作を認識し易い画像を生成する画像処理システム及び制御プログラムを提供することができる。また、監視空間内の人物が手を前に出して行うジェスチャを精度良く認識することができる画像処理システム及び制御プログラムを提供することができる。 The present invention provides an image processing system and control program that generates an image in which the movement of a moving object in a captured image is easily recognized. It also provides an image processing system and control program that can accurately recognize a gesture made by a person in a monitored space with their hand out in front of them.
以下、図面を参照しつつ、本発明の様々な実施形態について説明する。ただし、本発明の技術的範囲は、それらの実施形態に限定されず、特許請求の範囲に記載された発明とその均等物に及ぶ点に留意されたい。また、各図において同一、又は相当する機能を有するものは、同一符号を付し、その説明を省略又は簡潔にすることもある。 Various embodiments of the present invention will be described below with reference to the drawings. However, please note that the technical scope of the present invention is not limited to these embodiments, but extends to the inventions described in the claims and their equivalents. In addition, in each drawing, parts having the same or equivalent functions are given the same reference numerals, and their description may be omitted or simplified.
(画像処理システム1の概要)
図1は、画像処理システム1のブロック図である。画像処理システム1は、監視空間内の人物、例えば入院患者又は被介護者の見守り等に用いられ、見守り対象者による手を振る動作等をジェスチャとして検出して、見守り者が使用する外部装置に通知する。画像処理システム1は、撮像装置2、距離センサ3、画像処理装置4等を有する。
(Overview of image processing system 1)
1 is a block diagram of an
撮像装置2は、画像生成手段の一例であり、監視空間を撮像した2次元画像を順次生成する。2次元画像は、監視空間内の濃淡に関する情報(輝度値または色値等)を階調値とする複数の画素が2次元に配置された画像である。撮像装置2は、発光器、2次元検出器、結像光学系及びA/D変換器等を有する。発光器は、例えば約890nmの波長を持つ近赤外光を監視空間に向けて照射する。2次元検出器は、CCD(Charge-Coupled Device)素子、C-MOS(Complementary MOS)など、近赤外光に感度を有する光電変換器を有する。結像光学系は、2次元検出器上に監視場所の像を結像する。A/D変換器は、2次元検出器から出力された電気信号を増幅し、アナログ/デジタル(A/D)変換する。
The
撮像装置2は、一定の時間間隔(例えば1/30秒)毎に発光器に近赤外光を照射させながら監視空間を撮像し、各画素が近赤外光の強度を表す輝度値を階調値として有する近赤外光画像を2次元画像として生成し、画像処理装置4へ出力する。人間は近赤外光を直接視認することができないので、撮像装置2は、監視空間内の人物の視覚に影響を与えない。このため、画像処理システム1は、例えば入院患者または被介護者の見守りを行う場合に、入院患者または被介護者の就寝を妨げることなく、見守りを行うことができる。
The
尚、2次元検出器は、可視光に感度を有する光電変換器を有し、各画素が可視光の輝度値、RGB値又はCMY値を階調値として有する可視光画像を2次元画像として生成してもよい。この場合、発光器は省略されてもよい。 The two-dimensional detector may have a photoelectric converter that is sensitive to visible light, and generate a two-dimensional visible light image in which each pixel has a luminance value, RGB value, or CMY value of visible light as a gradation value. In this case, the light emitter may be omitted.
距離センサ3は、距離画像生成手段の一例であり、距離画像を順次生成する。距離画像は、監視空間内の基準位置から物体の対応する位置までの距離に関する情報を階調値とする複数の画素が2次元に配置された画像である。基準位置は、距離センサ3の配置位置である。距離センサ3は、撮像装置2が撮影を行う毎に、撮像装置2の発光器が近赤外線を照射するタイミングとずらしたタイミングで、撮像装置2の撮影範囲に向けて近赤外線を照射する。距離センサ3は、2次元画像内の各画素に対応する監視空間内の各位置に探査信号を順次照射する。例えば、距離センサ3は、撮像装置2の撮影範囲を水平方向及び垂直方向に2次元画像の水平方向及び垂直方向の画素数で等間隔に分割し、分割した各領域内の位置を2次元画像内の各画素に対応する位置として設定する。距離センサ3は、探査信号が照射された走査方位に沿って到来する反射信号を受光し、反射信号の強度に応じた値を持つ受光信号を生成する。
The
距離センサ3は、探査信号の位相情報と、現時点で探査信号が照射されている方向を表す角度情報と、受光信号とに基づいて、走査方位ごとに、距離センサ3から反射信号を反射した物体までの距離を測定し、走査方位とその距離との関係を示す測距データを生成する。例えば、距離センサ3は、Time Of Flight法に従って、受光信号から求めた反射信号の位相と探査信号の位相との差を求め、その差に基づいて距離を測定する。距離センサ3は、測距データに示される各走査方位に対応する距離に応じた値を、各走査方位に対応する画素の階調値とした距離画像を生成し、画像処理装置4へ出力する。例えば、距離センサ3は、予め定められた距離範囲(例えば0.5m~7m)を256段階に等間隔に区分して0から255までの各値を割り当てる。距離センサ3は、測距データに示される各走査方位に対応する距離が属する区分に割り当てられた値を、各走査方位に対応する画素の階調値として設定する。対応する物体までの距離が短いほど階調値が小さくなり、対応する物体までの距離が長いほど階調値が大きくなるように、各階調値は設定される。
Based on the phase information of the exploration signal, the angle information indicating the direction in which the exploration signal is currently being irradiated, and the received light signal, the
尚、距離センサ3は、近赤外光やミリ波・レーザーなどを照射して物体に反射して返ってくる時間を計測するTOF・LiDAR方式、ステレオカメラなどを用いて三角測量を行う方式等の他の公知の方式に従って距離を測定してもよい。
In addition, the
このように、距離センサ3は、順次生成される2次元画像に対応して、距離画像を順次生成する。即ち、撮像装置2は、順次生成される距離画像に対応して、2次元画像を順次生成する。
In this way, the
尚、撮像装置2と距離センサ3は、離間して配置し、撮影及び測定してもよい。その場合、処理部12が、監視空間内の同一位置に対応する画素が2次元画像及び距離画像内で同一位置に配置されるように、2次元画像又は距離画像を補正する。画像処理装置4は、2次元画像及び距離画像の各画素の関係が示されるテーブルを記憶部9に予め記憶しておき、処理部12は、記憶部9に記憶されたテーブルを参照して画像を補正する。
The
また、撮像装置2と距離センサ3の一部または全部が共通に用いられてもよい。例えば、撮像装置2及び距離センサ3は、共通の発光器及び/又は受光器を用いて2次元画像及び距離画像を生成してもよい。
Furthermore, a part or all of the
画像処理装置4は、デスクトップコンピュータ、ワークステーション、ノートパソコン等の一般的なコンピュータである。画像処理装置4は、インタフェース部5、入力部6、表示部7、通信部8、記憶部9、処理部12、データバスBを有する。
The
インタフェース部5は、撮像装置2及び距離センサ3とデータ通信を行うためのインタフェース回路を有し、撮像装置2及び距離センサ3と電気的に接続して、各種の制御信号又は画像信号を送受信する。なお、画像処理装置4が撮像装置2及び距離センサ3を有していてもよい。
The
入力部6は、(キーボード、マウス等の)入力装置、及び、入力装置から信号を取得するインタフェース回路を有し、画像処理装置4を操作するオペレータからの入力操作を受け付ける。
The
表示部7は、液晶、有機EL(Electro-Luminescence)等のディスプレイ及びディスプレイに画像データを出力するインタフェース回路を有し、各種の情報をディスプレイに表示する。
The
通信部8は、出力手段の一例であり、例えばTCP/IP等に準拠した通信インタフェース回路を有し、インターネット等の通信ネットワークに接続する。通信部8は、通信ネットワークから受信したデータを処理部12へ出力し、処理部12から入力されたデータを通信ネットワークに送信する。
The
記憶部9は、ROM、RAM等の半導体メモリ、磁気ディスク又はCD-ROM、DVD-ROM等の光ディスクドライブ及びその記録媒体を有する。また、記憶部9は、画像処理装置4を制御するための制御プログラム及び各種データを記憶し、処理部12との間でこれらの情報を入出力する。コンピュータプログラムは、CD-ROM、DVD-ROM等のコンピュータ読み取り可能な可搬型記録媒体から公知のセットアッププログラム等を用いて記憶部9にインストールされてもよい。また、記憶部9は、データとして、モデル10、背景画像11を記憶する。
The
モデル10は、入力された画像に対して、その画像に検出対象となるジェスチャが含まれている確からしさを示す評価値を出力するように事前学習された判定モデルである。評価値は、その画像に検出対象となるジェスチャが含まれている可能性が高いほど高くなるように定められる。
背景画像11は、無人状態の監視空間が撮影されて生成された2次元画像である。背景画像11は、定期的に、または、監視空間内に人物が存在しないと判定されたタイミングで、適宜更新されてもよい。
The
処理部12は、CPU、MPU等のプロセッサと、ROM、RAM等のメモリと、その周辺回路とを有し、画像処理装置4の各種信号処理を実行する。なお、処理部12として、DSP、LSI、ASIC、FPGA等が用いられてもよい。処理部12は、距離画像取得手段13、2次元画像取得手段14、人物領域検出手段15、抽出手段16、処理画像生成手段17、検出手段18、出力制御手段19、学習手段20等を有する。
The processing unit 12 has a processor such as a CPU or MPU, memories such as a ROM or RAM, and peripheral circuits, and executes various signal processing of the
(画像処理システム1のジェスチャ検出動作)
図2は、画像処理システム1の動作シーケンスを示すフローチャートである。この動作シーケンスは、記憶部9に記憶されている制御プログラムに基づいて、主に処理部12により、画像処理装置4の各要素と協働して実行される。この動作シーケンスは、距離画像及び2次元画像が生成される時間間隔ごとに実行される。
(Gesture Detection Operation of Image Processing System 1)
2 is a flowchart showing an operation sequence of the
まず、距離画像取得手段13は、距離センサ3が生成した最新の距離画像を取得する(ステップS1)。距離画像取得手段13は、監視空間内の基準位置から物体までの距離に関する情報を階調値とする距離画像を順次取得する。距離画像取得手段13は、取得した距離画像を、取得した時刻と関連付けて記憶部9に記憶させる。
First, the distance image acquisition means 13 acquires the latest distance image generated by the distance sensor 3 (step S1). The distance image acquisition means 13 sequentially acquires distance images in which information relating to the distance from a reference position to an object in the monitored space is used as a gradation value. The distance image acquisition means 13 stores the acquired distance images in the
次に、2次元画像取得手段14は、撮像装置2が生成した最新の2次元画像を取得する(ステップS2)。2次元画像取得手段14は、順次取得される距離画像に対応した、監視空間内の濃淡に関する情報を階調値とする2次元画像を順次取得する。2次元画像取得手段14は、取得した2次元画像を、取得した時刻と関連付けて記憶部9に記憶させる。このように、距離画像取得手段13は、距離センサ3が順次生成した距離画像を順次取得し、2次元画像取得手段14は、距離センサ3が順次生成した距離画像に対応して撮像装置2が順次生成した2次元画像を順次取得する。
Then, the two-dimensional image acquisition means 14 acquires the latest two-dimensional image generated by the imaging device 2 (step S2). The two-dimensional image acquisition means 14 sequentially acquires two-dimensional images whose gradation values are information about the shading in the monitored space, corresponding to the sequentially acquired distance images. The two-dimensional image acquisition means 14 stores the acquired two-dimensional images in the
次に、人物領域検出手段15は、2次元画像内で人物を含む人物領域を検出する(ステップS3)。 Next, the person area detection means 15 detects a person area that includes a person within the two-dimensional image (step S3).
人物領域検出手段15は、2次元画像内の各画素の階調値と、記憶部9に記憶されている背景画像11内の対応する各画素の階調値との差の絶対値を算出し、算出した差の絶対値が所定閾値以上となる画素の領域を差分領域として抽出する。人物領域検出手段15は、同一物体による差分領域をラベリングによりグループ化し、変化領域として検出する。即ち、人物領域検出手段15は、一枚の2次元画像から抽出した差分領域の内、相互に隣接(8連結)する画素をグループ化し、相互に近接する(所定範囲内に位置する)グループを、大きさ又は位置関係に基づいて結合し、結合した領域を変化領域として結合する。
The person area detection means 15 calculates the absolute value of the difference between the gradation value of each pixel in the two-dimensional image and the gradation value of each corresponding pixel in the
尚、人物領域検出手段15は、フレーム間差分を用いて変化領域を検出してもよい。その場合、人物領域検出手段15は、最新の2次元画像内の各画素の輝度値と、直前の2次元画像内の対応する各画素の輝度値との差の絶対値を算出し、算出した差の絶対値が所定閾値以上となる画素の領域を差分領域として抽出する。 The person area detection means 15 may detect changed areas using inter-frame differences. In this case, the person area detection means 15 calculates the absolute value of the difference between the luminance value of each pixel in the latest two-dimensional image and the luminance value of each corresponding pixel in the immediately preceding two-dimensional image, and extracts, as a difference area, a pixel area where the absolute value of the calculated difference is equal to or greater than a predetermined threshold value.
次に、人物領域検出手段15は、変化領域の大きさ、縦横比等の特徴量に基づいて、その変化領域に写っている物体が人物らしいか否かを判定する。人物領域検出手段15は、変化領域の大きさが人物の大きさに相当する所定範囲内であり、且つ、変化領域の縦横比が人物の縦横比に相当する所定範囲内であるか否かにより、その変化領域に写っている物体が人物らしいか否かを判定する。なお、各変化領域の大きさは、2次元画像内の位置、及び、記憶部9に記憶されている撮像装置2の設置情報等を用いて実際の大きさに変換される。人物領域検出手段15は、変化領域が人物らしい場合、その変化領域を人物領域として検出する。
Then, the person area detection means 15 judges whether the object in the changed area is likely to be a person based on the feature quantities such as the size and aspect ratio of the changed area. The person area detection means 15 judges whether the object in the changed area is likely to be a person based on whether the size of the changed area is within a predetermined range corresponding to the size of a person and whether the aspect ratio of the changed area is within a predetermined range corresponding to the aspect ratio of a person. The size of each changed area is converted to an actual size using the position in the two-dimensional image and the installation information of the
尚、人物領域検出手段15は、2次元画像内で人物領域を検出する場合と同様にして、距離画像内で人物領域を検出してもよい。また、人物領域検出手段15は、判定モデルに従って、画像内に含まれる人物領域を検出してもよい。その場合、画像処理装置4は、例えばディープラーニング等の公知の機械学習技術により、人物が含まれる複数の学習用画像を用いて学習された判定モデルを記憶部9に記憶しておく。判定モデルは、学習用画像が入力された場合に、学習用画像に含まれる人物領域の位置が出力されるように事前学習される。機械学習技術として、例えば、入力層、複数の中間層及び出力層から構成される多層構造のニューラルネットワーク等を用いる。入力層には、学習用画像が入力される。中間層の各ノードは、入力層の各ノードから出力された画像から特徴ベクトルを抽出し、抽出した各特徴ベクトルに重みを乗算した値の総和を出力する。出力層は、中間層の各ノードから出力された各特徴ベクトルに重みを乗算した値の総和を出力する。判定モデルは、各重みを調整しながら、出力層からの出力値と学習用画像に含まれる人物領域の位置との差分が小さくなるように学習する。人物領域検出手段15は、2次元画像又は距離画像を判定モデルに入力し、判定モデルから出力された出力値から2次元画像又は距離画像内の人物領域を検出する。
Note that the person area detection means 15 may detect a person area in the distance image in the same manner as when detecting a person area in a two-dimensional image. The person area detection means 15 may also detect a person area included in an image according to a judgment model. In this case, the
次に、抽出手段16は、所定期間に生成された所定数の距離画像内で同一位置に配置された画素のグループ毎に、グループの中で階調値が最小である画素を抽出する(ステップS4)。所定数は2以上であり、例えば10である。 Next, the extraction means 16 extracts the pixel with the smallest gradation value in each group of pixels that are arranged at the same position in a predetermined number of distance images generated during a predetermined period (step S4). The predetermined number is 2 or more, for example 10.
抽出手段16は、記憶部9に記憶されている距離画像の中から、直近の所定数の距離画像を読み出す。抽出手段16は、読み出した各距離画像の、人物領域検出手段15により検出された人物領域に対応する領域内で、同一位置に配置された画素をグループ化する。即ち、各グループには、所定数(読み出した距離画像と同数)の画素が含まれる。なお、抽出手段16は、読み出した各距離画像の全領域内で、同一位置に配置された画素をグループ化してもよい。抽出手段16は、各グループの中で階調値が最小である画素、即ち対応する物体までの距離が最も短い画素を抽出する。
The extraction means 16 reads out a predetermined number of the most recent distance images from the distance images stored in the
尚、抽出手段16は、階調値が閾値以下である画素に限り、各グループの中で階調値が最小である画素を抽出してもよい。また、抽出手段16は、背景及び人物よりも手前に位置する物体が撮像された画素に限り、各グループの中で階調値が最小である画素を抽出してもよい。その場合、画像処理装置4は、無人状態の監視空間内で距離を測定して生成された背景距離画像を予め記憶部9に記憶しておく。抽出手段16は、距離画像内の各画素の内、背景距離画像内の対応する画素の階調値より小さい階調値を有する画素に限り、各グループの中で階調値が最小である画素を抽出する。さらに、抽出手段16は、距離画像内の各画素の内、所定時間前(例えば、抽出手段16により読み出された直近の所定数の距離画像の直前の距離画像)に人物領域検出手段15により検出された人物領域に対応する距離画像内の領域内の各画素の階調値の平均値より小さい階調値を有する画素に限り、各グループの中で階調値が最小である画素を抽出する。各グループの中で階調値が閾値以下である画素がなかった場合、抽出手段16は、階調値が最小である画素の代わりに、予め定められた画素(例えば最新の距離画像内の画素)を抽出する。これらにより、抽出手段16は、動きがあった背景(例えば風で揺らいだ植物等)が撮影された画素を抽出対象から除外することができる。その結果、画像処理システム1は、人物のジェスチャをより精度良く検出することができる。尚、人物領域に対応する距離画像内の各画素の階調値の平均値は、人物領域全体の階調値の平均値ではなく、人物領域の上半身(上半分)や頭部領域の階調値の平均値としてもよい。
The extraction means 16 may extract the pixel with the smallest gradation value in each group only from pixels whose gradation value is equal to or less than the threshold value. The extraction means 16 may also extract the pixel with the smallest gradation value in each group only from pixels in which an object located in front of the background and the person is captured. In this case, the
尚、抽出手段16は、グループ毎に抽出する画素は階調値が最小の画素でなくてもよい。例えば、抽出手段16は、画素を抽出する際、グループの中で階調値が相対的に小さい画素を抽出してもよい。例えば、抽出手段16は、グループの中で最小の階調値ではなく、所定番目(2番目または3番目等)に小さい階調値等、相対的に小さい階調値を有する画素を抽出する。例えば、抽出対象の画素の周囲の画素(例えば、上下左右の4近傍)との差分が所定以上である画素が所定数以上(例えば、上下左右の画素うち3つの画素との差分が所定以上)である場合、抽出対象の画素は2番目または3番目や、周囲の階調値同士で近い値の画素の中央値や平均値等、相対的に小さい階調値を有する画素を抽出する。このようにすれば、例えば、基準位置から同じ距離に位置する物体を測定しているはずが、距離センサ3のノイズ等の理由により、一時的に周囲領域の階調値とは異なる最小の階調値を有することになった画素を抽出対象から除外することができる。また、抽出手段16は、グループ毎に画素を抽出する際、その画素の階調値に加えて、その画素に隣接する他の画素の階調値を参照して、その画素の抽出の要否を判定してもよい。この場合、抽出手段16は、グループ毎に画素を抽出する際の指標として、その画素そのものの階調値に加えて、その画素に隣接する画素の階調値を参照する。例えば、抽出手段16は、ある画素についての指標として、その画素の階調値と、その画素の上下左右に隣接する4つの画素の階調値から代表値(平均値、中央値、最頻値等)を算出する。更に、抽出手段16は、距離画像取得手段により所定期間に取得された複数の距離画像内で同一位置に配置された画素に代わって、複数の画素からなる領域をグループ化してもよい。この場合、抽出手段16は、領域毎に、その領域に属する画素の階調値の代表値を算出する。抽出手段16は、領域に属する画素に関する抽出を行う際、その画素そのものの階調値の代わりに、その画素が属する領域の代表値を用いて、抽出する画素を選択する。
Note that the pixel extracted by the extraction means 16 for each group does not have to be the pixel with the smallest gradation value. For example, when extracting pixels, the extraction means 16 may extract pixels with relatively small gradation values in the group. For example, the extraction means 16 extracts pixels with relatively small gradation values, such as a predetermined (second or third) smallest gradation value, rather than the smallest gradation value in the group. For example, if there are a predetermined number or more pixels (for example, differences between three of the pixels on the top, bottom, left and right sides of the pixel to be extracted that are greater than or equal to a predetermined value) that have a difference greater than or equal to a predetermined value with respect to the surrounding pixels (for example, differences between the three pixels on the top, bottom, left and right sides of the pixel to be extracted that are greater than or equal to a predetermined value), the pixel to be extracted is the second or third pixel, or a pixel with a relatively small gradation value, such as the median or average value of the surrounding pixels with similar gradation values. In this way, for example, a pixel that is supposed to be measuring an object located at the same distance from the reference position but that temporarily has a minimum gradation value different from the gradation value of the surrounding area due to noise of the
次に、処理画像生成手段17は、撮像装置2により所定期間に生成された2次元画像、及び/又は、距離センサ3により所定期間に生成された距離画像から処理画像を生成する(ステップS5)。処理画像生成手段17は、抽出手段16により抽出された階調値が最小の画素を含む距離画像に対応する2次元画像(グループ毎に特定された画素又は領域を含む距離画像に対応する2次元画像)の抽出された画素に対応する画素、及び/又は、距離画像にて抽出された階調値が最小の画素を用いて、所定期間に取得された複数の2次元画像、及び/又は、距離画像が合成された処理画像を生成する。
Then, the processed image generating means 17 generates a processed image from the two-dimensional images generated by the
例えば、処理画像生成手段17は、撮像装置2により所定期間に生成された2次元画像から処理画像を生成する。その場合、処理画像生成手段17は、抽出手段16によりグループ毎に抽出された各画素を含む各距離画像を抽出する。処理画像生成手段17は、抽出した距離画像に対応する2次元画像について、抽出手段16により抽出された画素に対応する画素の階調値を特定する。処理画像生成手段17は、2次元画像内で特定した階調値を処理画像内のそのグループに対応する画素の階調値として設定することにより処理画像を生成する。
For example, the processed image generating means 17 generates a processed image from two-dimensional images generated by the
なお、抽出手段16が領域のグループ毎に領域を抽出した場合、処理画像生成手段17は、抽出手段16によりグループ毎に特定された各領域を含む各距離画像を抽出する。処理画像生成手段17は、抽出した距離画像に対応する2次元画像について、抽出手段16により抽出された領域に対応する各画素の階調値を処理画像内のそのグループに対応する領域内の各画素の階調値として設定することにより処理画像を生成する。 When the extraction means 16 extracts areas for each group of areas, the processed image generation means 17 extracts each distance image including each area identified for each group by the extraction means 16. The processed image generation means 17 generates a processed image by setting the gradation value of each pixel corresponding to the area extracted by the extraction means 16 as the gradation value of each pixel in the area corresponding to that group in the processed image for a two-dimensional image corresponding to the extracted distance image.
また、処理画像生成手段17は、距離センサ3により所定期間に生成された距離画像から処理画像を生成してもよい。その場合、処理画像生成手段17は、抽出手段16によりグループ毎に抽出された距離画像内の各画素の階調値を特定する。処理画像生成手段17は、距離画像内で特定した階調値を処理画像内のそのグループに対応する画素の階調値として設定することにより処理画像を生成する。
The processed image generating means 17 may also generate a processed image from a distance image generated by the
また、抽出手段16が領域のグループ毎に領域を抽出した場合、処理画像生成手段17は、抽出手段16によりグループ毎に特定された距離画像内の各領域に対応する各画素の階調値を処理画像内のそのグループに対応する領域内の各画素の階調値として設定することにより処理画像を生成する。 In addition, when the extraction means 16 extracts areas for each group of areas, the processed image generation means 17 generates a processed image by setting the gradation value of each pixel corresponding to each area in the distance image identified for each group by the extraction means 16 as the gradation value of each pixel in the area corresponding to that group in the processed image.
また、処理画像生成手段17は、撮像装置2により所定期間に生成された2次元画像及び距離センサ3により所定期間に生成された距離画像から処理画像を生成してもよい。その場合、処理画像生成手段17は、抽出手段16によりグループ毎に抽出された各画素を含む各距離画像を抽出する。処理画像生成手段17は、抽出した距離画像に対応する2次元画像について、抽出手段16により抽出された画素に対応する画素の階調値を特定する。また、処理画像生成手段17は、抽出手段16によりグループ毎に抽出された距離画像内の各画素の階調値を特定する。処理画像生成手段17は、2次元画像内で特定した階調値を処理画像内のそのグループに対応する画素の第1成分の階調値として設定し、2次元画像内で特定した階調値を処理画像内のそのグループに対応する画素の第2成分の階調値として設定することにより処理画像を生成する。処理画像は、例えばRGB各色の成分を有する画像であり、第1成分は例えばG成分であり、第2成分は例えばR成分である。尚、第1成分、第2成分はRGB各色の成分の内の他の成分でもよい。また、第1成分、第2成分はCMYの各成分の内の何れかの成分でもよい。また、第1成分、第2成分は人間の視覚に関連して定められない成分でもよい。
The processed image generating means 17 may generate a processed image from a two-dimensional image generated by the
上述したように、抽出手段16は、人物領域検出手段15により検出された人物領域に対応するグループに限り、グループの中で階調値が最小である画素を抽出している。即ち、処理画像生成手段17は、検出された人物領域に対応するグループに限り、グループ毎に抽出された画素及び/又はその画素に対応する2次元画像内の画素の階調値を、そのグループに対応する画素の階調値とするように処理画像を生成する。処理画像生成手段17は、検出された人物領域に対応しない画素については、予め定められた画像(例えば最新の2次元画像及び/又は距離画像)内の画素の階調値を、そのグループに対応する画素の階調値とする。これにより、処理画像生成手段17は、処理画像を生成する処理の負荷を軽減させるとともに、人物に対応する領域に限定して複数の画像を合成した処理画像を生成することができる。なお、抽出手段16及び処理画像生成手段17の両方を含むものを合成手段と呼ぶ。合成手段は、グループ毎に特定された画素又は領域を含む距離画像に対応する二次元画像内の、特定された画素又は領域に対応する画素又は領域を用いて、所定期間に取得された複数の二次元画像が合成された処理画像を生成する。特に、合成手段は、グループ毎に特定された画素又は領域を含む距離画像に対応する2次元画像内の、特定された画素又は領域に対応する画素又は領域の階調値を、そのグループに対応する画素又は領域の階調値として処理画像を生成する。または、合成手段は、グループ毎に特定された画素又は領域を用いて、所定期間に取得された複数の距離画像を合成して処理画像を生成する。また、合成手段は、グループ毎に特定された画素又は領域の階調値を、そのグループに対応する画素又は領域の階調値として処理画像を生成する。または、合成手段は、グループ毎に特定された画素又は領域を含む距離画像に対応する2次元画像内の、特定された画素又は領域に対応する画素又は領域の階調値を、そのグループに対応する画素又は領域の第1成分の階調値とし、距離画像内でそのグループ毎に特定された画素又は領域の階調値を、そのグループに対応する画素又は領域の第2成分の階調値とするように処理画像を生成する。合成手段は、検出された人物領域に対応するグループに限り、そのグループ毎に特定された画素又は領域を含む距離画像に対応する2次元画像内の、特定された画素又は領域に対応する画素又は領域を用いて、処理画像を生成する。 As described above, the extraction means 16 extracts pixels with the smallest gradation value from the group only for the group corresponding to the person area detected by the person area detection means 15. That is, the processed image generation means 17 generates a processed image only for the group corresponding to the detected person area so that the gradation value of the pixel extracted for each group and/or the pixel in the two-dimensional image corresponding to the pixel is set to the gradation value of the pixel corresponding to the group. For pixels not corresponding to the detected person area, the processed image generation means 17 sets the gradation value of the pixel in a predetermined image (e.g., the latest two-dimensional image and/or distance image) to the gradation value of the pixel corresponding to the group. In this way, the processed image generation means 17 can reduce the processing load of generating the processed image and generate a processed image in which multiple images are synthesized, limited to the area corresponding to the person. Note that a combination means includes both the extraction means 16 and the processed image generation means 17. The combination means generates a processed image in which multiple two-dimensional images acquired during a predetermined period are synthesized using a pixel or area corresponding to a specified pixel or area in a two-dimensional image corresponding to a distance image including the pixel or area specified for each group. In particular, the synthesis means generates a processed image by using the gradation value of a pixel or region corresponding to a specified pixel or region in a two-dimensional image corresponding to a distance image including a pixel or region specified for each group as the gradation value of the pixel or region corresponding to the group. Alternatively, the synthesis means generates a processed image by synthesizing a plurality of distance images acquired during a predetermined period using the pixel or region specified for each group. Also, the synthesis means generates a processed image by using the gradation value of a pixel or region specified for each group as the gradation value of a pixel or region corresponding to the group. Alternatively, the synthesis means generates a processed image by using the gradation value of a pixel or region corresponding to a specified pixel or region in a two-dimensional image corresponding to a distance image including a pixel or region specified for each group as the gradation value of the first component of the pixel or region corresponding to the group, and the gradation value of a pixel or region specified for each group in the distance image as the gradation value of the second component of the pixel or region corresponding to the group. The synthesis means generates a processed image by using the pixel or region corresponding to a specified pixel or region in a two-dimensional image corresponding to a distance image including a pixel or region specified for each group only for the group corresponding to the detected person region.
図3は、距離画像、2次元画像及び処理画像の対応関係について説明するための図である。図3には、時刻T1、T2、T3にそれぞれ生成された距離画像D1~D3及び2次元画像E1~E3と、距離画像D1~D3及び2次元画像E1~E3から生成された処理画像F3が示されている。 Figure 3 is a diagram for explaining the correspondence between distance images, two-dimensional images, and processed images. Figure 3 shows distance images D1-D3 and two-dimensional images E1-E3 generated at times T1, T2, and T3, respectively, and a processed image F3 generated from the distance images D1-D3 and two-dimensional images E1-E3.
図3に示した例において、距離画像D1~D3の各画素P1及び各画素P2はそれぞれ同一位置に配置されており、同一グループに分類される。仮に、距離画像D1~D3の各画素P1の中で階調値が最小である画素が距離画像D1の画素P1であり、距離画像D1~D3の各画素P2の中で階調値が最小である画素が距離画像D3の画素P2であるものとする。その場合、距離画像D1に対応する2次元画像E1の画素P1の階調値が処理画像F3の画素P1の第1成分(G成分)の階調値として設定され、距離画像D1の画素P1の階調値が処理画像F3の画素P1の第2成分(R成分)の階調値として設定される。また、距離画像D3に対応する2次元画像E3の画素P2の階調値が処理画像F3の画素P2の第1成分(G成分)の階調値として設定され、距離画像D3の画素P2の階調値が処理画像F3の画素P2の第2成分(R成分)の階調値として設定される。 In the example shown in FIG. 3, pixels P1 and P2 in distance images D1 to D3 are located at the same position and are classified into the same group. Suppose that the pixel with the smallest gradation value among pixels P1 in distance images D1 to D3 is pixel P1 in distance image D1, and the pixel with the smallest gradation value among pixels P2 in distance images D1 to D3 is pixel P2 in distance image D3. In this case, the gradation value of pixel P1 in two-dimensional image E1 corresponding to distance image D1 is set as the gradation value of the first component (G component) of pixel P1 in processed image F3, and the gradation value of pixel P1 in distance image D1 is set as the gradation value of the second component (R component) of pixel P1 in processed image F3. In addition, the gradation value of pixel P2 in two-dimensional image E3 corresponding to distance image D3 is set as the gradation value of the first component (G component) of pixel P2 in processed image F3, and the gradation value of pixel P2 in distance image D3 is set as the gradation value of the second component (R component) of pixel P2 in processed image F3.
図4は、2次元画像から生成される処理画像の一例を示す。2次元画像21~23は、時刻T1、T2、T3の各時刻において、監視空間内で人物が撮像装置2に向けて手を振っている状況を撮像した画像である。一般に、人物が所定位置に向けて手を振る場合、その人物は手を所定位置側に押し出して手を振る。そのため、手は背景又は人物より所定位置に近い側に配置される。したがって、処理画像24は、2次元画像21~23内でそれぞれ手が写っている領域25~27が含まれるように生成される。
Figure 4 shows an example of a processed image generated from a two-dimensional image. Two-
図5は、距離画像から生成される処理画像の一例を示す。距離画像31~33は、時刻T1、T2、T3の各時刻において、監視空間内で人物が距離センサ3に向けて手を振っている状況が測定されて生成された距離画像である。一般に、人物が所定位置に向けて手を振る場合、その人物は手を所定位置側に押し出して手を振る。そのため、手は背景又は人物より所定位置に近い側に配置される(図5において、色が濃くなるほど近い)。したがって、処理画像24は、距離画像31~33内でそれぞれ手が写っている領域35~37が背景や人物とは異なる階調値で生成される。
Figure 5 shows an example of a processed image generated from a distance image.
図6は、2次元画像及び距離画像から生成された処理画像の一例である。この処理画像では、距離画像から抽出した階調値がR成分の階調値として設定され、2次元画像から抽出した階調値がG成分の階調値として設定されている。一般に、撮像装置から物体までの距離が短いほど、その物体が写っている画像は明瞭になり、撮像装置から物体までの距離が長いほどその物体が写っている画像がぼやけて、物体のエッジが不明瞭になる。そのため、この処理画像では、撮像装置から離れた背景について、2次元画像から抽出されたG成分はぼやけてしまっている。しかしながら、この背景のエッジは、距離画像から抽出されたR成分によって明瞭となっている。一方、この処理画像では、撮像装置の近傍に存在する人物について、2次元画像から抽出されたG成分により、人物の服装の質感等のテクスチャが明瞭となり、人物が手を振っている様子、及び、肘を支点として少しずつ動いている腕の姿勢が明瞭に表現されている。このように、画像処理システム1は、2次元画像及び距離画像から処理画像を生成することにより、2次元画像において失われやすい遠方の細部に関する情報を、距離情報によって補完して、背景のエッジを明瞭化することができる。
Figure 6 is an example of a processed image generated from a two-dimensional image and a distance image. In this processed image, the gradation value extracted from the distance image is set as the gradation value of the R component, and the gradation value extracted from the two-dimensional image is set as the gradation value of the G component. In general, the shorter the distance from the imaging device to the object, the clearer the image in which the object is captured, and the longer the distance from the imaging device to the object, the blurrier the image in which the object is captured, and the unclearer the edges of the object. Therefore, in this processed image, the G component extracted from the two-dimensional image is blurred for the background away from the imaging device. However, the edges of this background are made clear by the R component extracted from the distance image. On the other hand, in this processed image, for a person present near the imaging device, the G component extracted from the two-dimensional image makes the texture of the person's clothing, etc. clear, and the appearance of the person waving his/her hand and the posture of his/her arm moving little by little with his/her elbow as the fulcrum are clearly expressed. In this way, by generating a processed image from a two-dimensional image and a distance image,
図7は、2次元画像から生成された処理画像の一例である。図6に示すように、このように生成された処理画像には、濃淡に関する情報によって、人物のテクスチャが明瞭となり、人物が手を振っている様子、及び、肘を支点として少しずつ動いている腕の姿勢が明瞭に表現されている。 Figure 7 is an example of a processed image generated from a two-dimensional image. As shown in Figure 6, the processed image generated in this way has clearer texture of the person due to the information on shading, and clearly shows the person waving their hand and the posture of their arm moving little by little with their elbow as the fulcrum.
図8は、距離画像から生成された処理画像の一例である。図7に示すように、このように生成された処理画像には、距離に関する情報が含まれるため、背景と人物とのエッジが明瞭に表現され、さらに背景及び人物と手のエッジも明瞭に表現されている。 Figure 8 is an example of a processed image generated from a distance image. As shown in Figure 7, the processed image generated in this way contains information about distance, so the edges between the background and the person are clearly depicted, and furthermore, the edges between the background and the person and their hands are also clearly depicted.
次に、検出手段18は、処理画像生成手段17により生成された処理画像についての評価値を取得する(ステップS6)。検出手段18は、入力された学習用処理画像に含まれる人物のジェスチャ動作に関する情報を出力するように学習されたモデル10に処理画像を入力し、モデル10から出力された情報に基づいて、監視空間内の人物のジェスチャ動作を検出する。
Then, the detection means 18 obtains an evaluation value for the processed image generated by the processed image generation means 17 (step S6). The detection means 18 inputs the processed image to the
例えば、検出手段18は、記憶部9に記憶されたモデル10を用いて、処理画像についての評価値を取得する。モデル10は、学習手段20により生成される。学習手段20は、例えばディープラーニング等の公知の機械学習技術を用いて、複数の学習用処理画像と、各学習用処理画像に検出対象のジェスチャが含まれている確からしさを示す評価値及び検出対象のジェスチャ動作が含まれる領域の位置との関係性を学習する。検出対象のジェスチャは、例えば手を振る動作である。特に、検出手段18は、人の手など人体の一部を用いて行われるジェスチャ動作のうち人体の身体の前方(距離画像の階調値が人体の階調値よりも小さい領域)でなされた所定のジェスチャ動作を検出する。なお、検出対象のジェスチャは、手招き等の周期的な動作でもよい。また、検出対象のジェスチャは、複数でもよく、例えば手を振る動作及び手招きする動作の両方でもよい。各学習用処理画像は、様々な状態(立ち上がった状態、座った状態又は横たわった状態等)の物体による様々な大きさのジェスチャが含まれる画像又はジェスチャが含まれない画像から、処理画像と同様にして生成された画像である。学習手段20は、学習した関係性をモデル10として記憶部9に記憶する。
For example, the detection means 18 obtains an evaluation value for the processed image using the
入力層には、学習用処理画像が入力される。中間層の各ノードは、入力層の各ノードから出力された画像から特徴ベクトルを抽出し、抽出した各特徴ベクトルに重みを乗算した値の総和を出力する。出力層は、中間層の各ノードから出力された各特徴ベクトルに重みを乗算した値の総和を出力する。学習手段20は、各重みを調整しながら、出力層からの出力値と、正解値、及び、検出対象のジェスチャが含まれる領域の位置との差分が小さくなるように学習する。正解値は、例えばその学習用処理画像に検出対象のジェスチャが含まれる場合は1に設定され、検出対象のジェスチャが含まれない場合は0に設定される。尚、なお、モデル10は、DPM(Deformable Part Model)、R-CNN(Regions with Convolutional Neural Networks)、YOLO等の他の機械学習技術により学習されてもよい。また、モデル10は、画像処理装置4とは別の外部のコンピュータで生成され、画像処理装置4に送信されてもよい。その場合、学習手段20を省略されてもよい。
The learning processing image is input to the input layer. Each node of the intermediate layer extracts a feature vector from the image output from each node of the input layer, and outputs the sum of values obtained by multiplying each extracted feature vector by a weight. The output layer outputs the sum of values obtained by multiplying each feature vector output from each node of the intermediate layer by a weight. The learning means 20 adjusts each weight while learning so that the difference between the output value from the output layer, the correct answer value, and the position of the area including the gesture to be detected is small. For example, the correct answer value is set to 1 when the learning processing image includes the gesture to be detected, and is set to 0 when the gesture to be detected is not included. Note that the
検出手段18は、記憶部9に記憶されたモデル10に、処理画像を入力し、モデル10から出力された出力値を処理画像についての評価値及びジェスチャが検出された領域の位置として取得する。
The detection means 18 inputs the processed image into the
尚、検出手段18は、処理画像内で動きがある領域を切り出し、切り出した画像をモデル10に入力して評価値を算出してもよい。静止している物体では、距離センサ3からの距離が変化しないため、その物体内の位置毎に抽出手段16によって階調値が最小である画素が抽出される距離画像に、ばらつきが発生する可能性がある。一方、動いている物体では、物体内の全領域について、階調値が最小である画素は一つの距離画像からまとめて抽出される可能性が高い。そこで、検出手段18は、所定期間に生成された複数の距離画像毎に、各距離画像からステップS4で抽出手段16により抽出された画素を特定する。検出手段18は、各距離画像内で特定した画素の内、相互に密に隣接しながら連結し且つ所定サイズ以上である画素の領域に対応する処理画像内の領域を動きがある領域として検出する。これにより、検出手段18は、動きがある領域に限定してジェスチャを検出することができ、ジェスチャをより精度良く検出することができる。
The detection means 18 may cut out an area in the processed image where there is movement, and input the cut-out image to the
また、検出手段18は、パターンマッチング技術を用いて評価値を算出してもよい。その場合、画像処理装置4は、サンプル用の処理画像内で検出対象のジェスチャが写っている複数の画像のパターンを予め記憶部9に記憶しておく。検出手段18は、ステップS5で生成された処理画像内の所定の大きさの領域を、その位置をずらしながら切り出して、記憶部9に記憶しておいた画像のパターンとの類似の程度を評価値として取得する。類似の程度は、例えば正規化相互相関値である。
The detection means 18 may also calculate the evaluation value using a pattern matching technique. In this case, the
次に、検出手段18は、取得した評価値に基づいて、人物の検出対象のジェスチャを検出する(ステップS7)。検出手段18は、評価値が予め定められた閾値以上である場合、処理画像に検出対象のジェスチャが含まれると判定し、評価値が閾値未満である場合、処理画像に検出対象のジェスチャが含まれないと判定する。このように、検出手段18は、処理画像に基づいて、監視空間内の人物のジェスチャを検出する。特に、検出手段18は、学習用処理画像が入力された場合に学習用処理画像に含まれる人物のジェスチャに関する情報を出力するように学習されたモデル10に処理画像を入力し、モデル10から出力された情報に基づいて、監視空間内の人物のジェスチャを検出する。
Then, the detection means 18 detects the gesture of the person to be detected based on the acquired evaluation value (step S7). If the evaluation value is equal to or greater than a predetermined threshold, the detection means 18 determines that the processed image contains the gesture of the person to be detected, and if the evaluation value is less than the threshold, the detection means 18 determines that the processed image does not contain the gesture of the person to be detected. In this way, the detection means 18 detects the gesture of the person in the monitored space based on the processed image. In particular, the detection means 18 inputs the processed image to the
次に、検出手段18は、検出対象のジェスチャを検出したか否かを判定する(ステップS8)。検出対象のジェスチャを検出しなかった場合、検出手段18は、特に処理を実行せずに、一連のステップを終了する。 Next, the detection means 18 determines whether or not the gesture to be detected has been detected (step S8). If the gesture to be detected has not been detected, the detection means 18 ends the series of steps without performing any particular processing.
一方、検出対象のジェスチャを検出した場合、検出手段18は、ジェスチャが検出された領域の近傍に人物が存在するか否かを判定する(ステップS9)。検出手段18は、ステップS6で取得したジェスチャが検出された領域の位置と、ステップS3で検出された人物領域に対応する処理画像内の領域との間の距離を算出する。検出手段18は、算出した距離が予め定められた距離閾値未満である場合、ジェスチャが検出された領域の近傍に人物が存在すると判定し、検出されたジェスチャは人物によって行われたジェスチャであると判定する。一方、検出手段18は、算出した距離が距離閾値以上である場合、ジェスチャが検出された領域の近傍に人物が存在しないと判定し、検出されたジェスチャは人物によって行われたジェスチャでないと判定し、一連のステップを終了する。これにより、検出手段18は、監視空間内の人物以外の物体の動きを、検出対象のジェスチャとして誤って検出することを防止できる。 On the other hand, when the detection means 18 detects a gesture to be detected, the detection means 18 judges whether or not a person is present in the vicinity of the area where the gesture was detected (step S9). The detection means 18 calculates the distance between the position of the area where the gesture was detected acquired in step S6 and the area in the processed image corresponding to the person area detected in step S3. If the calculated distance is less than a predetermined distance threshold, the detection means 18 judges that a person is present in the vicinity of the area where the gesture was detected and that the detected gesture is a gesture performed by a person. On the other hand, if the calculated distance is equal to or greater than the distance threshold, the detection means 18 judges that no person is present in the vicinity of the area where the gesture was detected and that the detected gesture is not a gesture performed by a person, and ends the series of steps. This allows the detection means 18 to prevent erroneous detection of the movement of an object other than a person in the monitored space as the gesture to be detected.
ジェスチャが検出された領域の近傍に人物が存在すると判定された場合、出力制御手段19は、検出されたジェスチャに関する情報を、通信部8を介して出力して外部装置に通知し(ステップS10)、一連のステップを終了する。ジェスチャに関する情報は、人物による検出対象のジェスチャが検出されたこと、ジェスチャの種類、ジェスチャが検出された時刻、ジェスチャの継続時間、ジェスチャが検出された領域等を含む。なお、出力制御手段19は、検出されたジェスチャに関する情報を、表示部7に表示し又は不図示の音出力装置から出力してもよい。
When it is determined that a person is present near the area where the gesture is detected, the output control means 19 outputs information about the detected gesture via the
尚、ステップS3の処理は、省略されてもよい。この場合、抽出手段16は、距離画像及び2次元画像内の全画素を対象としてステップS4の処理を実行する。 The process of step S3 may be omitted. In this case, the extraction means 16 performs the process of step S4 on all pixels in the distance image and the two-dimensional image.
また、ステップS9の処理は、省略されてもよい。この場合、モデル10が、各学習用処理画像に人物による検出対象となるジェスチャが含まれている確からしさを示す評価値を出力するように事前学習され、検出手段18は、判定モデル10により、人物によって行われたジェスチャを検出してもよい。
The processing of step S9 may also be omitted. In this case, the
(画像処理システム1の効果)
以上説明してきたように、画像処理システム1は、所定期間内で、監視空間内の物体が最も手前側に存在していた時に撮像又は測定された画素を用いて生成した処理画像に基づいて検出対象ジェスチャを検出する。これにより、画像処理システム1は、手前側で動きが発生した領域に着目して、手前側で動きが発生するジェスチャを精度良く検出することができる。したがって、画像処理システム1は、監視空間内の人物のジェスチャを精度良く検出することが可能となる。特に、画像処理システム1は、ナースコールの手段として、見守り対象者に身体の前に手を出して手を振る動作等をしてもらう場合、その動作等を精度良く検出することができ、見守り者に通知することが可能となる。
(Effects of Image Processing System 1)
As described above, the
また、画像処理システム1は、距離画像及び2次元画像に基づいて処理画像を生成する。画像処理システム1は、2次元画像に基づいて処理画像を生成することにより、物体の形状及びテクスチャについての情報を処理画像に含ませることができる。また、距離センサ3は近赤外光の反射率が低い物体までの距離を測定できない可能性があるが、画像処理システム1は、2次元画像に基づいて処理画像を生成することにより、信頼性の高い処理画像を生成することができる。一方、画像処理システム1は、距離画像に基づいて処理画像を生成することにより、背景と人物の輝度が近似している場合でも、背景と人物とが明瞭に区別された処理画像を生成することができる。このように、輝度と距離とは処理画像を生成する際に補完的な役割を果たすので、画像処理システム1は、距離画像及び2次元画像に基づいて生成された処理画像を用いることにより、ジェスチャをより精度良く検出することができる。また、距離画像を用いることで、人物と手が重なって動いていていたとしても、人物と手が明瞭に区分された処理画像を生成することができ、ジェスチャをより精度良く検出することができる。
The
1 画像処理システム、2 撮像装置、3 距離センサ、4 画像処理装置、8 通信部、9 記憶部、12 処理部 1 Image processing system, 2 Imaging device, 3 Distance sensor, 4 Image processing device, 8 Communication unit, 9 Memory unit, 12 Processing unit
Claims (9)
前記順次取得される距離画像に対応した、前記監視空間内の濃淡に関する情報を階調値とする2次元画像を順次取得する2次元画像取得手段と、
前記距離画像取得手段により所定期間に取得された複数の距離画像内で同一位置に配置された画素又は領域のグループ毎に、前記グループの中で階調値が相対的に小さい画素又は領域を特定し、前記グループ毎に特定された画素又は領域を含む距離画像に対応する2次元画像内の、前記特定された画素又は領域に対応する画素又は領域を用いて、所定期間に取得された複数の2次元画像が合成された処理画像を生成する合成手段と、
を有することを特徴とする画像処理システム。 a distance image acquisition means for sequentially acquiring distance images in which information regarding a distance from a reference position to an object in a monitored space is used as a gradation value;
a two-dimensional image acquisition means for sequentially acquiring two-dimensional images, the two-dimensional images having gradation values representing information on shading within the monitored space, corresponding to the sequentially acquired distance images;
a synthesis means for identifying, for each group of pixels or regions arranged at the same position in a plurality of distance images acquired by the distance image acquisition means during a predetermined period of time, a pixel or region having a relatively small gradation value within the group, and generating a processed image in which the plurality of two-dimensional images acquired during the predetermined period of time are synthesized using a pixel or region corresponding to the identified pixel or region in a two-dimensional image corresponding to the distance image including the pixel or region identified for each group;
1. An image processing system comprising:
前記合成手段は、前記検出された人物領域に対応するグループに限り、当該グループ毎に特定された画素又は領域を含む距離画像に対応する2次元画像内の、前記特定された画素又は領域に対応する画素又は領域を用いて、前記処理画像を生成する、請求項1~4の何れか一項に記載の画像処理システム。 a person area detection unit that detects a person area including a person in the distance image or the two-dimensional image,
The image processing system according to any one of claims 1 to 4, wherein the synthesis means generates the processed image using pixels or areas corresponding to the identified pixels or areas in a two-dimensional image corresponding to a distance image including the pixels or areas identified for each group, only for the group corresponding to the detected person area.
前記距離画像取得手段により所定期間に取得された複数の距離画像内で同一位置に配置された画素又は領域のグループ毎に、前記グループの中で相対的に短い距離を示す階調値の画素又は領域を特定し、
前記グループ毎に特定された画素又は領域の階調値を用いて、所定期間に取得された複数の距離画像を合成して処理画像を生成する処理画像生成手段と、
を有することを特徴とする画像処理システム。 a distance image acquisition means for sequentially acquiring distance images in which information regarding a distance from a reference position to an object in a monitored space is used as a gradation value;
identifying, for each group of pixels or regions arranged at the same position in a plurality of distance images acquired by the distance image acquisition means during a predetermined period, a pixel or region having a gradation value indicating a relatively short distance within the group;
a processed image generating means for generating a processed image by synthesizing a plurality of distance images acquired during a predetermined period using the gradation values of the pixels or regions specified for each group;
1. An image processing system comprising:
前記順次取得した距離画像に対応して、前記監視空間内の濃淡に関する情報を階調値とする2次元画像を順次取得し、
所定期間に取得した複数の距離画像内で同一位置に配置された画素又は領域のグループ毎に、前記グループの中で階調値が相対的に小さい画素又は領域を特定し、
前記グループ毎に特定された画素又は領域を含む距離画像に対応する2次元画像内の、前記特定された画素又は領域に対応する画素又は領域を用いて、所定期間に取得した複数の2次元画像を合成して処理画像を生成する、
ことをコンピュータに実行させることを特徴とする制御プログラム。 Sequentially acquiring distance images in which information regarding the distance from a reference position to an object in a monitored space is used as a grayscale value;
Sequentially acquiring two-dimensional images in which information regarding shading in the monitored space is used as a gradation value in response to the sequentially acquired distance images;
Identifying, for each group of pixels or regions arranged at the same position in a plurality of distance images acquired during a predetermined period, a pixel or region having a relatively small gradation value within said group;
generating a processed image by synthesizing a plurality of two-dimensional images acquired during a predetermined period using pixels or regions corresponding to the identified pixels or regions in a two-dimensional image corresponding to a distance image including the pixels or regions identified for each group;
A control program that causes a computer to execute the above steps.
所定期間に取得した複数の距離画像内で同一位置に配置された画素又は領域のグループ毎に、前記グループの中で相対的に短い距離を示す階調値の画素又は領域を特定し、
前記グループ毎に特定された画素又は領域の階調値を用いて、所定期間に取得した複数の距離画像を合成して処理画像を生成する、
ことをコンピュータに実行させることを特徴とする制御プログラム。 Sequentially acquiring distance images in which information regarding the distance from a reference position to an object in a monitored space is used as a grayscale value;
identifying, for each group of pixels or regions that are arranged at the same position in a plurality of distance images acquired during a predetermined period, a pixel or region that has a gradation value that indicates a relatively short distance within the group;
generating a processed image by synthesizing a plurality of distance images acquired during a predetermined period using the gradation values of the pixels or regions identified for each group;
A control program that causes a computer to execute the above steps.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020050251A JP7560950B2 (en) | 2020-03-19 | 2020-03-19 | Image processing system and control program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020050251A JP7560950B2 (en) | 2020-03-19 | 2020-03-19 | Image processing system and control program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2021149691A JP2021149691A (en) | 2021-09-27 |
| JP7560950B2 true JP7560950B2 (en) | 2024-10-03 |
Family
ID=77849016
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020050251A Active JP7560950B2 (en) | 2020-03-19 | 2020-03-19 | Image processing system and control program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7560950B2 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7234324B1 (en) | 2021-09-28 | 2023-03-07 | 三菱電機インフォメーションシステムズ株式会社 | NOTIFICATION RECEIVING DEVICE, NOTIFICATION METHOD AND NOTIFICATION RECEIVING PROGRAM |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2018189880A1 (en) | 2017-04-14 | 2018-10-18 | 株式会社ソニー・インタラクティブエンタテインメント | Information processing device, information processing system, and image processing method |
| JP2019200522A (en) | 2018-05-15 | 2019-11-21 | 国立大学法人 鹿児島大学 | Personal identification system, personal identification method and program |
-
2020
- 2020-03-19 JP JP2020050251A patent/JP7560950B2/en active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2018189880A1 (en) | 2017-04-14 | 2018-10-18 | 株式会社ソニー・インタラクティブエンタテインメント | Information processing device, information processing system, and image processing method |
| JP2019200522A (en) | 2018-05-15 | 2019-11-21 | 国立大学法人 鹿児島大学 | Personal identification system, personal identification method and program |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2021149691A (en) | 2021-09-27 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Brenner et al. | RGB-D and thermal sensor fusion: A systematic literature review | |
| US11789545B2 (en) | Information processing device and method, program and recording medium for identifying a gesture of a person from captured image data | |
| EP2467805B1 (en) | Method and system for image analysis | |
| JP6125188B2 (en) | Video processing method and apparatus | |
| EP2404283B1 (en) | Processing images of at least one living being | |
| JP3143819B2 (en) | Eyelid opening detector | |
| US10192134B2 (en) | Color identification using infrared imaging | |
| KR102041191B1 (en) | Method and apparatus for recognating hand motion | |
| KR102673019B1 (en) | Identification devices and electronic devices | |
| JP7560950B2 (en) | Image processing system and control program | |
| JP7375806B2 (en) | Image processing device and image processing method | |
| JP7560949B2 (en) | Image processing system and control program | |
| US20160073087A1 (en) | Augmenting a digital image with distance data derived based on acoustic range information | |
| US20190147280A1 (en) | Image processing method and electronic apparatus for foreground image extraction | |
| JP7606819B2 (en) | Image processing system and control program | |
| JP2020012667A (en) | Identification apparatus, identification method and program | |
| CN108527366B (en) | Robot following method and device based on depth of field distance | |
| KR102905106B1 (en) | System for deep learning based dynamic gesture recognition | |
| JP7124760B2 (en) | Image processing device and image processing method | |
| RU2189628C2 (en) | Remote control method | |
| JP2008040724A (en) | Image processing apparatus and image processing method | |
| JP2008262272A (en) | Skin color model generation apparatus and program | |
| JP2011158447A (en) | Image processing apparatus and method, program, and electronic apparatus | |
| JP2020027579A (en) | Operation signal input device | |
| JP2015064831A (en) | Image processing apparatus, imaging apparatus, and image processing program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230317 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240220 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240227 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240426 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240625 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240822 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240903 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240920 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7560950 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |