Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7459151B2 - Information processing device, information processing system, information processing method, and program - Google Patents
[go: Go Back, main page]

JP7459151B2 - Information processing device, information processing system, information processing method, and program - Google Patents

Information processing device, information processing system, information processing method, and program Download PDF

Info

Publication number
JP7459151B2
JP7459151B2 JP2022018960A JP2022018960A JP7459151B2 JP 7459151 B2 JP7459151 B2 JP 7459151B2 JP 2022018960 A JP2022018960 A JP 2022018960A JP 2022018960 A JP2022018960 A JP 2022018960A JP 7459151 B2 JP7459151 B2 JP 7459151B2
Authority
JP
Japan
Prior art keywords
detection
image
information processing
attribute
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022018960A
Other languages
Japanese (ja)
Other versions
JP2023026293A (en
Inventor
智也 本條
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to PCT/JP2022/028516 priority Critical patent/WO2023017723A1/en
Publication of JP2023026293A publication Critical patent/JP2023026293A/en
Priority to US18/438,006 priority patent/US20240265729A1/en
Application granted granted Critical
Publication of JP7459151B2 publication Critical patent/JP7459151B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Studio Devices (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像から物体を検出する技術に関する。 The present invention relates to a technique for detecting an object from an image.

近年、監視カメラ等の撮像装置により撮像された画像を用いて物体の検出や追尾、属性の推定等を行う画像解析や、そのような画像解析の結果を用いた物体数の推定が様々なシーンで行われている。物体の検出では、例えば、検出対象の物体の位置及び大きさ、物体の属性、物体の信頼度等を出力する。物体の検出において、一つの物体に対して複数の検出結果が生じる場合がある。それにより、検出結果の信頼性低下や統計データの信頼性低下などにつながるという課題がある。そのような課題に対し、特許文献1には、検出処理枠ごとに出力された検出枠の位置及び大きさに基づいて、他の検出枠と重複する重複度合いが閾値以上となる検出枠を、検出枠の性質に応じて統合し最終的な物体検出枠として出力する技術が開示されている。 In recent years, image analysis that uses images captured by imaging devices such as surveillance cameras to detect and track objects, estimate attributes, etc., and estimation of the number of objects using the results of such image analysis has become popular in various scenes. It is being carried out in In object detection, for example, the position and size of the object to be detected, the attributes of the object, the reliability of the object, etc. are output. In object detection, multiple detection results may occur for one object. This poses a problem in that it leads to lower reliability of detection results and lower reliability of statistical data. To address such issues, Patent Document 1 discloses that based on the position and size of the detection frame output for each detection processing frame, a detection frame whose degree of overlap with other detection frames is equal to or greater than a threshold value is A technique has been disclosed that integrates detection frames according to their properties and outputs them as a final object detection frame.

特開2018-180945号公報Japanese Patent Application Publication No. 2018-180945

特許文献1に開示された技術では、検出結果の信頼性が低い場合でもその検出結果を使用して検出枠の統合を行い最終的な物体検出枠として出力するため、最終的な物体検出枠の信頼性が低くなってしまうことがある。本発明は、このような事情に鑑みてなされたものであり、画像を用いた物体の検出において、最終的により適切な検出結果を出力できるようにすることを目的とする。 In the technology disclosed in Patent Document 1, even if the reliability of the detection result is low, the detection results are used to integrate the detection frames and output as the final object detection frame. Reliability may be reduced. The present invention has been made in view of the above circumstances, and an object of the present invention is to finally output a more appropriate detection result in detecting an object using an image.

本発明に係る情報処理装置は、第1の画像から、第1の属性と前記第1の属性とは異なる第2の属性とのそれぞれに対応する物体の検出を行う検出手段と、前記検出手段により前記第1の画像から検出される検出領域であって、前記第1の属性に対応する物体が検出される第1の検出領域と、前記第2の属性に対応する物体が検出される第2の検出領域と、の重なりを判定する判定手段と、前記判定手段により前記第1の検出領域と前記第2の検出領域とが重なると判定されたことに応じて、前記第1の画像において前記第1の検出領域と前記第2の検出領域とが重なる領域を含む領域を拡大することにより得られる第2の画像に対して前記検出手段が物体検出を行った結果、前記第2の画像から前記第1の属性または前記第2の属性に対応する物体が検出された場合、前記第2の画像に対する物体検出の検出結果に基づいて、前記第1の画像に対する前記検出手段による物体検出の検出結果を修正する修正手段とを有することを特徴とする。 An information processing apparatus according to the present invention includes a detection means for detecting, from a first image, an object corresponding to a first attribute and a second attribute different from the first attribute, and the detection means A detection area detected from the first image by a first detection area in which an object corresponding to the first attribute is detected, and a second detection area in which an object corresponding to the second attribute is detected. a determination means for determining whether the first detection region and the second detection region overlap, and a determining means for determining whether the first detection region and the second detection region overlap, As a result of the detection means performing object detection on a second image obtained by enlarging an area including an area where the first detection area and the second detection area overlap, the second image When an object corresponding to the first attribute or the second attribute is detected, the object detection by the detection means for the first image is performed based on the detection result of the object detection for the second image. The present invention is characterized by comprising a correction means for correcting the detection result.

本発明によれば、画像を用いた物体の検出において、最終的により適切な検出結果を出力することが可能となる。 According to the present invention, in detecting an object using an image, it is possible to finally output a more appropriate detection result.

第1の実施形態による情報処理装置の構成例を示す図である。FIG. 1 is a diagram illustrating a configuration example of an information processing device according to a first embodiment. 第1の実施形態による情報処理装置の機能構成例を示す図である。1 is a diagram illustrating an example of a functional configuration of an information processing device according to a first embodiment; FIG. 第1の実施形態による物体検出処理を説明するフローチャートである。7 is a flowchart illustrating object detection processing according to the first embodiment. 第1の実施形態による物体検出処理を説明する図である。FIG. 3 is a diagram illustrating object detection processing according to the first embodiment. 第2の実施形態による情報処理装置の構成例を示す図である。FIG. 3 is a diagram illustrating a configuration example of an information processing device according to a second embodiment. 第2の実施形態による情報処理装置の機能構成例を示す図である。FIG. 7 is a diagram illustrating an example of a functional configuration of an information processing device according to a second embodiment. 第2の実施形態による物体検出処理を説明するフローチャートである。It is a flow chart explaining object detection processing by a 2nd embodiment. 第2の実施形態による物体検出処理を説明する図である。13A to 13C are diagrams illustrating an object detection process according to the second embodiment. 第3の実施形態による情報処理装置の機能構成例を示す図である。FIG. 7 is a diagram illustrating an example of a functional configuration of an information processing device according to a third embodiment. 第3の実施形態による物体検出処理を説明するフローチャートである。It is a flow chart explaining object detection processing by a 3rd embodiment. 第3の実施形態による物体検出処理を説明する図である。13A to 13C are diagrams illustrating an object detection process according to a third embodiment. 第4の実施形態による情報処理装置の機能構成例を示す図である。FIG. 13 is a diagram illustrating an example of a functional configuration of an information processing device according to a fourth embodiment. 第4の実施形態による物体検出処理を説明するフローチャートである。It is a flow chart explaining object detection processing by a 4th embodiment. 第4の実施形態による物体検出処理を説明する図である。It is a figure explaining object detection processing by a 4th embodiment.

以下、本発明の実施形態を図面に基づいて説明する。 Embodiments of the present invention will be described below based on the drawings.

[第1の実施形態]
図1は、本実施形態による情報処理装置100の構成例を示すブロック図である。本実施形態における情報処理装置100は、監視カメラ等の撮像装置によって撮像された画像から、検出対象の物体の検出を行う物体検出機能を有する。以下では、一例として人物の顔を検出する場合について説明するが、これに限定されるものではなく、画像を解析して所定の物体を検出する任意のシステムに適用することができる。
[First embodiment]
FIG. 1 is a block diagram showing a configuration example of an information processing apparatus 100 according to this embodiment. The information processing device 100 in this embodiment has an object detection function that detects an object to be detected from an image captured by an imaging device such as a surveillance camera. In the following, a case will be described in which a person's face is detected as an example, but the present invention is not limited to this, and can be applied to any system that analyzes an image and detects a predetermined object.

本実施形態による情報処理装置100は、CPU101、メモリ102、通信インターフェース(I/F)部103、表示部104、入力部105、及び記憶部106を有する。CPU101、メモリ102、通信I/F部103、表示部104、入力部105、及び記憶部106は、システムバスを介して通信可能に接続されている。なお、本実施形態による情報処理装置100は、これ以外の構成をさらに有していてもよい。 The information processing device 100 according to this embodiment includes a CPU 101, a memory 102, a communication interface (I/F) section 103, a display section 104, an input section 105, and a storage section 106. The CPU 101, memory 102, communication I/F section 103, display section 104, input section 105, and storage section 106 are communicably connected via a system bus. Note that the information processing device 100 according to the present embodiment may further include configurations other than this.

CPU(Central Processing Unit)101は、情報処理装置100の全体の制御を司る。CPU101は、例えばシステムバスを介して接続される各機能部の動作を制御する。メモリ102は、CPU101が処理に利用するデータ、プログラム等を記憶する。また、メモリ102は、CPU101の主メモリ、ワークエリア等としての機能を有する。CPU101がメモリ102に記憶されたプログラムに基づき処理を実行することにより、後述する図2に示す情報処理装置100の機能構成及び後述する図3に示すフローチャートの処理が実現される。 The CPU (Central Processing Unit) 101 is responsible for the overall control of the information processing device 100. The CPU 101 controls the operation of each functional unit connected via, for example, a system bus. The memory 102 stores data, programs, etc. that the CPU 101 uses for processing. The memory 102 also functions as the main memory, work area, etc. of the CPU 101. The CPU 101 executes processing based on the programs stored in the memory 102, thereby realizing the functional configuration of the information processing device 100 shown in FIG. 2, which will be described later, and the processing of the flowchart shown in FIG. 3, which will be described later.

通信I/F部103は、情報処理装置100をネットワークに接続するインターフェースである。表示部104は、液晶ディスプレイ等の表示部材を有し、CPU101による処理の結果等を表示する。入力部105は、マウス又はボタン等の操作部材を有し、ユーザの操作を情報処理装置100に入力する。記憶部106は、例えば、CPU101がプログラムに係る処理を行う際に必要な各種データ等を記憶する。また、記憶部106は、例えば、CPU101がプログラムに係る処理を行うことにより得られた各種データ等を記憶する。なお、CPU101が処理に利用するデータ、プログラム等を記憶部106に記憶するようにしてもよい。 The communication I/F unit 103 is an interface that connects the information processing device 100 to a network. The display unit 104 includes a display member such as a liquid crystal display, and displays the results of processing by the CPU 101 and the like. The input unit 105 has an operation member such as a mouse or a button, and inputs a user's operation to the information processing apparatus 100. The storage unit 106 stores, for example, various data necessary when the CPU 101 performs processing related to a program. Further, the storage unit 106 stores, for example, various data obtained by the CPU 101 performing processing related to a program. Note that data, programs, etc. used by the CPU 101 for processing may be stored in the storage unit 106.

図2は、情報処理装置100の機能構成例を示すブロック図である。情報処理装置100は、画像取得部201、物体検出部202、重なり判定部203、画像抽出部204、結果修正部205、結果出力部206、及び記憶部207を有する。 FIG. 2 is a block diagram showing an example of the functional configuration of the information processing device 100. The information processing device 100 includes an image acquisition section 201 , an object detection section 202 , an overlap determination section 203 , an image extraction section 204 , a result modification section 205 , a result output section 206 , and a storage section 207 .

画像取得部201は、物体検出を行う対象となる画像を取得する。本実施形態では、物体検出を行う対象となる画像は、通信I/F部103を通じて外部から取得する。以下では、この画像取得部201が取得した、物体検出を行う対象となる画像のデータを単に「入力画像」とも呼ぶ。以下の説明では、入力画像は、一例として水平方向(横方向)の幅が1080ピクセルであり、垂直方向(縦方向)の高さが720ピクセルである、1080×720ピクセルのRGB画像とする。なお、入力画像は、1080×720ピクセルのRGB画像に限定されるものではなく、任意の画像を入力画像とすることができ、例えば水平方向の幅や垂直方向の高さが異なっていてもよい。 The image acquisition unit 201 acquires an image to be subjected to object detection. In this embodiment, an image to be subjected to object detection is acquired from the outside through the communication I/F unit 103. Hereinafter, the data of the image that is the object of object detection, which is acquired by the image acquisition unit 201, will also be simply referred to as an "input image." In the following description, the input image is, for example, a 1080×720 pixel RGB image with a horizontal direction (horizontal direction) width of 1080 pixels and a vertical direction (vertical direction) height of 720 pixels. Note that the input image is not limited to an RGB image of 1080 x 720 pixels, and any image can be used as the input image, and for example, the width in the horizontal direction and the height in the vertical direction may be different. .

物体検出部202は、画像から複数の属性(クラス)に係る物体検出を行う。本実施形態では、物体検出部202は、画像取得部201によって取得された画像から人物の顔を検出する。また、物体検出部202は、画像に含まれる「メガネ着用の顔」と「メガネ非着用の顔」とを検出できるように学習が行われた機械学習モデルを用いて、検出結果を出力する。「メガネ着用の顔」と「メガネ非着用の顔」との検出は、例えば下記文献1に記載の技術を適用することで実現できる。
(文献1)J.Redmon,A.Farhadi,”YOLO9000:Better
Faster Stronger”,Computer Vision and Pa
ttern Recognition (CVPR) 2016.
The object detection unit 202 performs object detection based on a plurality of attributes (classes) from an image. In this embodiment, the object detection unit 202 detects a person's face from the image acquired by the image acquisition unit 201. Further, the object detection unit 202 outputs a detection result using a machine learning model that has been trained to be able to detect a "face wearing glasses" and a "face not wearing glasses" included in an image. Detection of "faces wearing glasses" and "faces not wearing glasses" can be realized by applying the technology described in Document 1 below, for example.
(Reference 1) J. Redmon, A. Farhadi, “YOLO9000:Better
Faster Stronger”, Computer Vision and Pa
ttern Recognition (CVPR) 2016.

ここで、物体検出部202が出力する検出結果は、検出した顔の位置及び大きさ、顔の属性(クラス)、及び検出の信頼度であるとする。顔の位置及び大きさは、例えば顔を囲む矩形枠を規定する座標(例えば、矩形の左上座標(x1,y1)及び右下座標(x2,y2))により出力される。また、顔の属性は、メガネ着用の顔であるか又はメガネ非着用の顔であるかを示す。また、検出の信頼度は、例えば、信頼度が最も低い場合を0とし、信頼度が最も高い場合を1として、0~1の実数で出力される。以下では、顔を囲む矩形枠、顔の属性、及び検出の信頼度のそれぞれを、単に、「検出枠」、「属性」、「信頼度」とも呼ぶ。なお、検出結果の出力方法は、前述した例に限定されるものではなく、検出した顔の位置及び大きさ、顔の属性、及び検出の信頼度がそれぞれ認識できればよい。 Here, it is assumed that the detection results output by the object detection unit 202 are the position and size of the detected face, the attribute (class) of the face, and the reliability of detection. The position and size of the face are output, for example, as coordinates defining a rectangular frame surrounding the face (for example, upper left coordinates (x1, y1) and lower right coordinates (x2, y2) of the rectangle). Further, the attribute of the face indicates whether the face is wearing glasses or not. Furthermore, the detection reliability is output as a real number between 0 and 1, with 0 being the lowest reliability and 1 being the highest reliability, for example. Below, the rectangular frame surrounding the face, the attributes of the face, and the detection reliability are also simply referred to as "detection frame," "attribute," and "reliability." Note that the method for outputting the detection results is not limited to the example described above, and it is sufficient that the position and size of the detected face, the attributes of the face, and the reliability of detection can be recognized.

重なり判定部203は、物体検出部202によって得られた検出結果について異なる属性の検出結果の重なりを判定する。重なり判定部203は、物体検出部202によって得られた全検出結果のうち、任意の2つの検出枠を組として、組毎に検出枠の重なり率を算出する。重なり判定部203は、算出した重なり率が閾値以上である、すなわち検出枠の領域が所定の割合以上重なった検出枠の組があれば重なりありと判定し、その検出結果の組を出力する。本実施形態では、重なり率は、IoU(Intersection over Union)で計算するものとし、閾値は一例として0.5とする。つまり、2つの検出枠の領域の共通部分を領域の和集合で割ったときの商が0.5以上であれば重なり判定部203は重なりありと判定する。閾値以上重なった検出枠の組がない場合には、重なり判定部203は、重なりなしと判定する。 The overlap determination unit 203 determines whether or not the detection results obtained by the object detection unit 202 overlap with the detection results of different attributes. The overlap determination unit 203 sets any two detection frames among all the detection results obtained by the object detection unit 202, and calculates the overlap rate of the detection frames for each set. The overlap determination unit 203 determines that there is an overlap if the calculated overlap rate is equal to or greater than a threshold, that is, if there is a set of detection frames whose detection frame areas overlap by a predetermined ratio or more, and outputs the set of detection results. In this embodiment, the overlap rate is calculated using IoU (Intersection over Union), and the threshold is set to 0.5 as an example. In other words, if the quotient when the common part of the areas of the two detection frames is divided by the union of the areas is 0.5 or more, the overlap determination unit 203 determines that there is an overlap. If there is no set of detection frames that overlap by the threshold or more, the overlap determination unit 203 determines that there is no overlap.

画像抽出部204は、重なり判定部203による判定結果に基づき、入力画像と重なり判定部203により重なりありと判定された検出結果の組とを用いて、入力画像から指定された領域を抽出する。画像抽出部204は、抽出した領域の画像(以下、「抽出画像」とも呼ぶ)と、入力画像に対する抽出する領域の左上の座標を出力する。本実施形態では、抽出する領域の左上座標を(x1-((x2-x1)/10),y1-((y2-y1)/10))、右下座標を(x2+((x2-x1)/10),y2+((y2-y1)/10))とし、検出枠の和集合に対してマージンを取って抽出する。画像抽出部204は、抽出画像と、抽出する領域の左上座標(x1-((x2-x1)/10),y1-((y2-y1)/10))とを出力する。ここで、(x1,y1)は2つの検出枠の和集合を包含する矩形領域の左上座標であり、(x2,y2)は2つの検出枠の和集合を包含する矩形領域の右下座標である。なお、抽出する領域が入力画像の範囲を超えた領域については、例えば白色で塗りつぶすものとする。 Based on the judgment result by the overlap judgment unit 203, the image extraction unit 204 extracts a specified area from the input image using the input image and a set of detection results judged to have overlap by the overlap judgment unit 203. The image extraction unit 204 outputs an image of the extracted area (hereinafter also referred to as the "extracted image") and the upper left coordinates of the area to be extracted relative to the input image. In this embodiment, the upper left coordinates of the area to be extracted are (x1-((x2-x1)/10), y1-((y2-y1)/10)), the lower right coordinates are (x2+((x2-x1)/10), y2+((y2-y1)/10)), and a margin is taken for the union of the detection frames to extract. The image extraction unit 204 outputs the extracted image and the upper left coordinates of the area to be extracted (x1-((x2-x1)/10), y1-((y2-y1)/10)). Here, (x1, y1) is the upper left coordinate of the rectangular area that contains the union of the two detection frames, and (x2, y2) is the lower right coordinate of the rectangular area that contains the union of the two detection frames. Note that any area to be extracted that exceeds the range of the input image will be filled in with white, for example.

結果修正部205は、物体検出部202による抽出画像に対する検出結果を、抽出画像に対する検出結果の数に応じて入力画像の検出結果に反映する。結果修正部205は、まず入力画像の検出結果のうち、抽出した領域を算出した際に使用された検出結果を削除する。次に、結果修正部205は、抽出画像に対する検出結果の数が1つである場合、抽出画像で得られた検出結果に置き換える。また、結果修正部205は、抽出画像に対する検出結果の数が2つ以上である場合、検出枠が2つの検出枠の和集合を包含する矩形領域であって、顔の属性が「メガネ着用不明」、検出の信頼度が1である検出結果を生成して置き換える。 The result modification unit 205 reflects the detection result for the extracted image by the object detection unit 202 on the detection result for the input image according to the number of detection results for the extracted image. The result modification unit 205 first deletes the detection result used when calculating the extracted region from among the detection results of the input image. Next, if the number of detection results for the extracted image is one, the result modification unit 205 replaces it with the detection result obtained for the extracted image. In addition, when the number of detection results for the extracted image is two or more, the result correction unit 205 determines that the detection frame is a rectangular area that includes the union of the two detection frames, and the face attribute is "Unknown for wearing glasses." ”, a detection result with a detection reliability of 1 is generated and replaced.

結果出力部206は、入力画像に検出結果を重畳した画像を出力する。本実施形態では、結果出力部206は、例えば、検出結果に基づいて属性に応じた検出枠を入力画像に重畳した画像を出力する。記憶部207は、情報処理装置100の各機能部201~206での処理に用いるデータや処理結果として得られるデータ等を記憶する。 The result output unit 206 outputs an image obtained by superimposing the detection result on the input image. In this embodiment, the result output unit 206 outputs, for example, an image in which a detection frame according to the attribute is superimposed on the input image based on the detection result. The storage unit 207 stores data used in processing in each of the functional units 201 to 206 of the information processing device 100, data obtained as a processing result, and the like.

次に、図3及び図4を参照して、情報処理装置100が行う処理について説明する。図3は、第1の実施形態による物体検出処理を説明するフローチャートである。図4は、第1の実施形態による物体検出処理を説明する図である。 Next, processing performed by the information processing apparatus 100 will be described with reference to FIGS. 3 and 4. FIG. 3 is a flowchart illustrating object detection processing according to the first embodiment. FIG. 4 is a diagram illustrating object detection processing according to the first embodiment.

ステップS301において、画像取得部201は、入力画像(物体検出を行う対象となる画像)を取得する。入力画像410の一例を図4(a)に示す。本実施形態では、入力画像410は、前述したように1080×720ピクセルの画像であるとする。 In step S301, the image acquisition unit 201 acquires an input image (an image to be subjected to object detection). An example of the input image 410 is shown in FIG. 4(a). In this embodiment, the input image 410 is assumed to be a 1080×720 pixel image as described above.

ステップS302において、物体検出部202は、入力画像を用いて検出対象である人物の顔を検出する顔検出処理を行い、入力画像から「メガネ着用の顔」と「メガネ非着用の顔」とを検出する。入力画像に対する顔検出処理の検出結果の例を図4(b)に示し、検出結果を入力画像に重畳した画像の例を図4(c)に示す。図4(b)に示した例では、検出結果として4つの検出結果A~Dが得られ、それぞれ検出枠の左上座標(x1,y1)及び右下座標(x2,y2)と、属性(「メガネ着用」又は「メガネ非着用」)と、信頼度とが出力される。また、図4(c)に示した例では、入力画像410に対して検出結果A~Dに対応する検出枠411~414が重畳して表示されている。この例では、メガネ着用の顔として検出された検出結果A、Dに対応する検出枠411、414が破線の矩形枠で表示され、メガネ非着用の顔として検出された検出結果B、Cに対応する検出枠412、413が実線の矩形枠で表示されている。 In step S302, the object detection unit 202 performs face detection processing to detect the face of the person to be detected using the input image, and distinguishes a "face wearing glasses" and a "face without glasses" from the input image. To detect. FIG. 4B shows an example of the detection result of the face detection process on the input image, and FIG. 4C shows an example of an image obtained by superimposing the detection result on the input image. In the example shown in FIG. 4(b), four detection results A to D are obtained, and each detects the upper left coordinates (x1, y1) and lower right coordinates (x2, y2) of the detection frame, and the attribute (" "wearing glasses" or "not wearing glasses") and the reliability are output. Further, in the example shown in FIG. 4(c), detection frames 411 to 414 corresponding to detection results A to D are displayed superimposed on the input image 410. In this example, detection frames 411 and 414 corresponding to detection results A and D detected as faces wearing glasses are displayed as rectangular frames with broken lines, and detection frames 411 and 414 corresponding to detection results B and C detected as faces not wearing glasses are displayed. Detection frames 412 and 413 are displayed as solid rectangular frames.

ステップS303において、重なり判定部203は、入力画像に対する検出結果の内の任意の2つの検出結果を組として、入力画像に対する検出結果の各組合せについて検出枠の重なり率を計算する。本例では、検出結果Aの検出枠の左上座標が(20,200)であり、右下座標が(320,500)である。また、検出結果Bの検出枠の左上座標が(40,210)であり、右下座標が(340,510)である。したがって、検出結果Aと検出結果Bの検出枠の重なり率は、
IoU(A,B)=((320-40)×(500-210))÷(300×300+300×300-((320-40)×(500-210)))≒0.82
となる。その他の組み合わせにおいて、検出枠の重なり率は0となる。
In step S303, the overlap determination unit 203 calculates the overlap rate of detection frames for each combination of detection results for the input image, using any two detection results among the detection results for the input image as a set. In this example, the upper left coordinates of the detection frame of detection result A are (20, 200), and the lower right coordinates are (320, 500). Further, the upper left coordinates of the detection frame of detection result B are (40, 210), and the lower right coordinates are (340, 510). Therefore, the overlap rate of the detection frames of detection result A and detection result B is
IoU (A, B) = ((320-40) x (500-210)) ÷ (300 x 300 + 300 x 300 - ((320-40) x (500-210))) ≒ 0.82
becomes. In other combinations, the detection frame overlap rate is 0.

ステップS304において、重なり判定部203は、ステップS303で算出した重なり率が閾値以上となった検出結果の組み合わせがあるか否かを判定する。重なり判定部203は、検出枠の重なり率が閾値以上となった検出結果の組み合わせがあると判定した場合(ステップS304でYES)、重なり率が閾値以上となった検出結果の組み合わせを出力し、ステップS305に移行する。一方、重なり判定部203は、検出枠の重なり率が閾値以上となった検出結果の組み合わせがないと判定した場合(ステップS304でNO)、ステップS309に移行する。本実施形態の例では、重なり率の閾値は0.5であるとする。重なり判定部203は、ステップS303において算出した重なり率が0.5以上となった検出結果の組が存在する場合にはステップS305に移行し、存在しない場合にはステップS309に移行する。本例では、検出結果Aと検出結果Bの検出枠の重なり率が0.5以上であるので、重なり判定部203は、重なり率が0.5以上となった組み合わせ(A,B)を出力し、ステップS305に移行する。 In step S304, the overlap determination unit 203 determines whether there is a combination of detection results for which the overlap rate calculated in step S303 is equal to or greater than a threshold value. If the overlap determination unit 203 determines that there is a combination of detection results in which the overlap rate of the detection frames is equal to or greater than the threshold (YES in step S304), the overlap determination unit 203 outputs the combination of detection results in which the overlap ratio is equal to or greater than the threshold; The process moves to step S305. On the other hand, if the overlap determination unit 203 determines that there is no combination of detection results in which the overlap rate of the detection frames is equal to or greater than the threshold (NO in step S304), the process proceeds to step S309. In the example of this embodiment, the threshold value of the overlap rate is assumed to be 0.5. The overlap determining unit 203 moves to step S305 if there is a set of detection results for which the overlap rate calculated in step S303 is 0.5 or more, and moves to step S309 if there is not. In this example, since the overlap rate of the detection frames of detection result A and detection result B is 0.5 or more, the overlap determination unit 203 outputs the combination (A, B) with an overlap rate of 0.5 or more. Then, the process moves to step S305.

ステップS305において、画像抽出部204は、入力画像とステップS304で出力された検出結果の組を用いて、入力画像から指定された領域を抽出し、抽出画像と、入力画像に対する抽出する領域の左上の座標を出力する。詳細には、まず、画像抽出部204は、検出結果の組から2つの検出枠の和集合に対する外接矩形を算出する。本例では、組み合わせ(A,B)について外接矩形を算出する。図4(b)に示したように、検出結果Aの検出枠の左上座標が(20,200)、右下座標が(320,500)であり、検出結果Bの検出枠の左上座標が(40,210)、右下座標が(340,510)である。したがって、組み合わせ(A,B)の外接矩形は、左上座標が(20,200)となり、右下座標が(340,510)となる。次に、画像抽出部204は、算出した外接矩形に基づいて、抽出する領域の左上座標及び右下座標を算出する。本例では、組み合わせ(A,B)の外接矩形は、左上座標が(20,200)、右下座標が(340,510)である。したがって、抽出する領域の左上座標は、(20-((340-20)/10),(200-((510-200)/10)=(-12,169)となる。また、抽出する領域の右下座標は、(340+((340-20)/10),510+((510-200)/10))=(372,541)となる。抽出する領域の左上座標が(-12,169)となり、右下座標が(372,541)となるので、抽出画像は、水平方向の幅が384ピクセルとなり、垂直方向の高さが372ピクセルとなる。これをもとに抽出した抽出画像420の例を図4(d)に示す。 In step S305, the image extraction unit 204 extracts the specified region from the input image using the set of the input image and the detection result output in step S304, and extracts the specified region from the input image and the upper left corner of the region to be extracted with respect to the input image. Output the coordinates of. Specifically, first, the image extraction unit 204 calculates a circumscribing rectangle for the union of two detection frames from a set of detection results. In this example, a circumscribed rectangle is calculated for the combination (A, B). As shown in FIG. 4(b), the upper left coordinates of the detection frame of detection result A are (20, 200), the lower right coordinates are (320, 500), and the upper left coordinates of the detection frame of detection result B are ( 40,210), and the lower right coordinates are (340,510). Therefore, in the circumscribed rectangle of the combination (A, B), the upper left coordinates are (20, 200) and the lower right coordinates are (340, 510). Next, the image extraction unit 204 calculates the upper left coordinate and lower right coordinate of the area to be extracted based on the calculated circumscribed rectangle. In this example, the circumscribed rectangle of the combination (A, B) has upper left coordinates (20,200) and lower right coordinates (340,510). Therefore, the upper left coordinates of the area to be extracted are (20-((340-20)/10), (200-((510-200)/10) = (-12,169). Also, the area to be extracted is The lower right coordinate of is (340+((340-20)/10),510+((510-200)/10))=(372,541).The upper left coordinate of the area to be extracted is (-12,169 ), and the lower right coordinates are (372, 541), so the extracted image has a horizontal width of 384 pixels and a vertical height of 372 pixels. Based on this, the extracted image 420 An example of this is shown in FIG. 4(d).

ステップS306において、物体検出部202は、ステップS305で抽出した抽出画像を用いて顔検出処理を行い、抽出画像から「メガネ着用の顔」と「メガネ非着用の顔」とを検出する。抽出画像に対する顔検出処理の検出結果の例を図4(e)に示し、検出結果を抽出画像に重畳した画像の例を図4(f)に示す。図4(e)に示した例では、検出結果Eが得られ、検出枠の左上座標(x1,y1)及び右下座標(x2,y2)と、属性と、信頼度とが出力される。また、図4(f)に示した例では、メガネ着用の顔として検出された検出結果Eに対応する検出枠421が破線の矩形枠で抽出画像420に重畳して表示されている。 In step S306, the object detection unit 202 performs face detection processing using the extracted image extracted in step S305, and detects a "face wearing glasses" and a "face not wearing glasses" from the extracted image. FIG. 4E shows an example of the detection result of the face detection process on the extracted image, and FIG. 4F shows an example of an image in which the detection result is superimposed on the extracted image. In the example shown in FIG. 4E, a detection result E is obtained, and the upper left coordinates (x1, y1) and lower right coordinates (x2, y2) of the detection frame, attributes, and reliability are output. In the example shown in FIG. 4F, a detection frame 421 corresponding to the detection result E detected as a face wearing glasses is displayed as a broken rectangular frame superimposed on the extracted image 420.

ステップS307において、結果修正部205は、ステップS306で得られた抽出画像に対する検出結果を、入力画像の検出結果に反映する。本例では、抽出画像の検出結果(ここでは検出結果E)が1つであるため、結果修正部205は、抽出画像に対応づいた検出結果A及び検出結果Bを削除し、抽出画像の検出結果Eで置き換える。このとき、検出結果Eの検出枠の座標を、入力画像に対する抽出する領域の左上座標(-12,169)を基準として、入力画像における座標に変換する。抽出画像における検出結果Eの検出枠の左上座標が(42,36)であり、右下座標が(342,336)であるので、入力画像における検出結果Eの検出枠の左上座標は(30,205)であり、右下座標は(330,505)である。変換した結果を含む入力画像の最終結果の例を図4(g)に示す。 In step S307, the result modification unit 205 reflects the detection result for the extracted image obtained in step S306 on the detection result of the input image. In this example, since there is one detection result (here, detection result E) for the extracted image, the result correction unit 205 deletes the detection result A and detection result B associated with the extracted image, and Replace with result E. At this time, the coordinates of the detection frame of the detection result E are converted into coordinates in the input image with the upper left coordinates (-12, 169) of the area to be extracted in the input image as a reference. Since the upper left coordinates of the detection frame of the detection result E in the extracted image are (42, 36) and the lower right coordinates are (342, 336), the upper left coordinates of the detection frame of the detection result E in the input image are (30, 205), and the lower right coordinates are (330, 505). An example of the final result of the input image including the converted result is shown in FIG. 4(g).

ステップS308において、結果出力部206は、検出枠の重なり率が閾値以上となった検出結果のすべての組み合わせについて処理を完了したか否かを判定する。結果出力部206は、重なり率が閾値以上となった検出結果のすべての組み合わせについて処理が完了したと判定した場合(ステップS308でYES)、ステップS309に移行する。一方、結果出力部206は、重なり率が閾値以上となった検出結果の組み合わせにおいて未処理の組み合わせがあると判定した場合(ステップS308でNO)、ステップS305に移行し、未処理の組み合わせについてステップS305以降の処理を実行する。 In step S308, the result output unit 206 determines whether processing has been completed for all combinations of detection results in which the detection frame overlap rate is equal to or greater than a threshold value. If the result output unit 206 determines that processing has been completed for all combinations of detection results for which the overlap rate is equal to or greater than the threshold (YES in step S308), the process proceeds to step S309. On the other hand, if the result output unit 206 determines that there is an unprocessed combination among the combinations of detection results for which the overlap rate is equal to or higher than the threshold (NO in step S308), the process proceeds to step S305, and steps are performed for the unprocessed combinations. Processing from S305 onwards is executed.

ステップS309において、結果出力部206は、図4(g)に示したような入力画像に対する最終の検出結果を入力画像に重畳した画像を出力して、処理を終了し次の入力画像の処理に移行する。入力画像に対する最終の検出結果を入力画像に重畳した画像の例を図4(h)に示す。図4(h)に示した例では、入力画像410に対して検出結果C、D、Eに対応する検出枠413、414、421が重畳して表示されている。この例では、メガネ着用の顔として検出された検出結果D、Eに対応する検出枠414、421が破線の矩形枠で表示され、メガネ非着用の顔として検出された検出結果Cに対応する検出枠413が実線の矩形枠で表示されている。 In step S309, the result output unit 206 outputs an image in which the final detection result for the input image as shown in FIG. 4(g) is superimposed on the input image, ends the process, and starts processing the next input image. Transition. An example of an image in which the final detection result for the input image is superimposed on the input image is shown in FIG. 4(h). In the example shown in FIG. 4(h), detection frames 413, 414, and 421 corresponding to detection results C, D, and E are displayed superimposed on the input image 410. In this example, detection frames 414 and 421 corresponding to detection results D and E detected as faces wearing glasses are displayed as rectangular frames with broken lines, and detection frames 414 and 421 corresponding to detection results C detected as faces not wearing glasses are displayed. A frame 413 is displayed as a solid rectangular frame.

第1の実施形態によれば、入力画像に対する物体検出において、異なる属性の検出結果の重なりが生じた場合に、重なりが生じた領域を抽出した抽出画像に対して物体検出を行い、抽出画像に対する検出結果を用いて入力画像の検出結果を修正する。これにより、入力画像に対する物体検出の検出結果として、最終的により適切な検出結果を出力することができる。 According to the first embodiment, in object detection for an input image, when detection results of different attributes overlap, object detection is performed for the extracted image in which the overlapped area is extracted, and The detection results of the input image are corrected using the detection results. As a result, it is possible to finally output a more appropriate detection result as the object detection result for the input image.

(変形例)
なお、物体検出部202において、検出対象とする物体の種類や物体検出を行う画像のサイズは任意でよい。また、検出したい物体を検出することができる技術であれば、物体検出部202は、文献1に開示されている技術に限らず、様々な技術を適用可能である。また、重なり判定部203において、検出対象の種類が3種類以上であった場合には、任意の2種類の検出結果の組み合わせに対して、前述した重なりの判定手法を適用可能である。
(Modified example)
Note that in the object detection unit 202, the type of object to be detected and the size of the image on which object detection is performed may be arbitrary. Moreover, the object detection unit 202 is not limited to the technique disclosed in Document 1, and can apply various techniques as long as the technique can detect the object to be detected. Furthermore, in the case where there are three or more types of detection targets in the overlap determination unit 203, the above-described overlap determination method can be applied to a combination of any two types of detection results.

結果修正部205は、抽出画像に対する検出結果の数が2つ以上の場合、前述した処理に限らず、以下のような他の処理を行うようにしても良い。例えば、顔の属性に対しては検出の信頼度が最も高い検出結果の顔の属性を用いても良いし、また、検出結果そのもの(検出枠、属性、及び信頼度)を検出の信頼度が最も高い検出結果そのもので置き換えても良い。このとき、入力画像に対する検出結果と抽出画像に対する検出結果との中で最も信頼度が高いものを選択しても良い。 When there are two or more detection results for the extracted image, the result correction unit 205 is not limited to the above-mentioned processing, and may perform other processing such as the following. For example, the face attributes of the detection result with the highest detection reliability may be used for the face attributes, or the detection result itself (detection frame, attributes, and reliability) may be replaced with the detection result with the highest detection reliability. In this case, the detection result with the highest reliability may be selected from the detection results for the input image and the detection results for the extracted image.

さらに、画像抽出部204において抽出する領域は、検出枠の和集合が含まれる矩形領域であれば任意で良い。例えば、検出枠の和集合に対する外接矩形に対するマージンを0としてもよいし、物体検出部202の仕様に基づいて所定のマージンを設定しても良い。例えば、入力画像の横幅に対して物体検出部202での検出精度が最も向上する物体の横幅の割合が50%であった場合、検出枠の和集合が含まれる矩形領域の幅が入力画像の幅の50%となるようにマージンを設定しても良い。また、画像抽出部204は、入力画像から指定された領域を抽出するだけでなく、抽出画像に対して画像を左右反転させたり、画像をx方向又はy方向にシフトさせたり、輝度や色相等の画素値を変更させたりするようにしても良い。 Furthermore, the region extracted by the image extraction unit 204 may be any rectangular region that includes the union of the detection frames. For example, the margin for the circumscribing rectangle for the union of the detection frames may be set to 0, or a predetermined margin may be set based on the specifications of the object detection unit 202. For example, if the ratio of the width of the object that maximizes the detection accuracy of the object detection unit 202 to the width of the input image is 50%, the margin may be set so that the width of the rectangular region that includes the union of the detection frames is 50% of the width of the input image. Furthermore, the image extraction unit 204 may not only extract a specified region from the input image, but may also flip the image from left to right with respect to the extracted image, shift the image in the x or y direction, or change pixel values such as brightness and hue.

また、入力画像の検出結果で重なりが生じた場合に2回目の検出を行わず(すなわちステップS305及びステップS306の処理をスキップする)、結果修正部205が直接検出結果を生成し、重なりが生じた検出結果と置き換えてもよい。例えば、新しい検出枠は、重なった検出枠の和集合を包含する矩形領域とし、顔の属性は結果不明を示す「メガネ着用不明」とし、検出の信頼度は1とするような検出結果を生成して、重なりが生じた検出結果と置き換えてもよい。さらに、抽出画像に対する検出結果が空の場合には、同様に結果修正部205により直接検出結果を生成し、重なりが生じた検出結果と置き換えてもよい。 Furthermore, when an overlap occurs in the detection results of the input images, the result correction unit 205 directly generates the detection result without performing the second detection (that is, skips the processing of steps S305 and S306), and the overlap occurs. It may be replaced with the detected result. For example, the new detection frame is a rectangular area that includes the union of the overlapping detection frames, the face attribute is "unknown glasses worn" indicating that the result is unknown, and a detection result is generated in which the detection reliability is set to 1. Then, the detection result may be replaced with a detection result in which an overlap occurs. Furthermore, if the detection result for the extracted image is empty, the result modification unit 205 may similarly generate a detection result directly to replace the detection result with overlap.

[第2の実施形態]
前述した第1の実施形態では1つの情報処理装置によって物体検出処理を行っていたが、第2の実施形態では複数の情報処理装置によって物体検出処理を行う場合について説明する。以下の第2の実施形態に係る説明において、第1の実施形態と同様の点については説明を省略する。
[Second embodiment]
In the first embodiment described above, the object detection process is performed by one information processing apparatus, but in the second embodiment, a case will be described in which the object detection process is performed by a plurality of information processing apparatuses. In the following description of the second embodiment, descriptions of points similar to those of the first embodiment will be omitted.

図5は、本実施形態による情報処理装置100及び情報処理装置500を有する情報処理システムの構成例を示すブロック図である。図5において、図1に示した構成要素と同一の機能を有する構成要素には同一の符号を付し、重複する説明は省略する。本実施形態における情報処理装置100及び情報処理装置500は、監視カメラ等の撮像装置によって撮像された画像から、検出対象の物体の検出を行う物体検出機能を有する。以下では、一例として人物の顔を検出する場合について説明するが、これに限定されるものではなく、画像を解析して所定の物体を検出する任意のシステムに適用することができる。 FIG. 5 is a block diagram showing a configuration example of an information processing system including the information processing device 100 and the information processing device 500 according to this embodiment. In FIG. 5, components having the same functions as those shown in FIG. The information processing device 100 and the information processing device 500 in this embodiment have an object detection function that detects an object to be detected from an image captured by an imaging device such as a surveillance camera. In the following, a case will be described in which a person's face is detected as an example, but the present invention is not limited to this, and can be applied to any system that analyzes an image and detects a predetermined object.

情報処理装置100と情報処理装置500とは、ネットワーク510を通じて接続されている。情報処理装置500は、CPU501、メモリ502、通信I/F部503、及び記憶部504を有する。CPU501、メモリ502、通信I/F部503、及び記憶部504は、システムバスを介して通信可能に接続されている。なお、本実施形態による情報処理装置500は、これ以外の構成をさらに有していてもよい。情報処理装置100は第1の情報処理装置の一例であり、情報処理装置500は第2の情報処理装置の一例である。また、通信I/F部103は第1の通信手段の一例であり、通信I/F部503は第2の通信手段の一例である。 Information processing device 100 and information processing device 500 are connected through network 510. The information processing device 500 includes a CPU 501, a memory 502, a communication I/F section 503, and a storage section 504. The CPU 501, memory 502, communication I/F section 503, and storage section 504 are communicably connected via a system bus. Note that the information processing device 500 according to the present embodiment may further include configurations other than this. The information processing device 100 is an example of a first information processing device, and the information processing device 500 is an example of a second information processing device. Furthermore, the communication I/F section 103 is an example of a first communication means, and the communication I/F section 503 is an example of a second communication means.

CPU501は、情報処理装置500の全体の制御を司る。CPU501は、例えばシステムバスを介して接続される各機能部の動作を制御する。メモリ502は、CPU501が処理に利用するデータ、プログラム等を記憶する。また、メモリ502は、CPU501の主メモリ、ワークエリア等としての機能を有する。CPU501がメモリ502に記憶されたプログラムに基づき処理を実行することにより、後述する図6に示す情報処理装置500の機能構成及び後述する図7に示すフローチャートの処理の一部が実現される。 The CPU 501 is responsible for the overall control of the information processing device 500. The CPU 501 controls the operation of each functional unit connected via, for example, a system bus. The memory 502 stores data, programs, etc. that the CPU 501 uses for processing. The memory 502 also functions as the main memory, work area, etc. of the CPU 501. The CPU 501 executes processing based on the programs stored in the memory 502, thereby realizing a part of the functional configuration of the information processing device 500 shown in FIG. 6, which will be described later, and the processing of the flowchart shown in FIG. 7, which will be described later.

通信I/F部503は、情報処理装置500をネットワーク510に接続するインターフェースである。記憶部504は、例えば、CPU501がプログラムに係る処理を行う際に必要な各種データ等を記憶する。また、記憶部504は、例えば、CPU501がプログラムに係る処理を行うことにより得られた各種データ等を記憶する。なお、CPU501が処理に利用するデータ、プログラム等を記憶部504に記憶するようにしてもよい。 Communication I/F unit 503 is an interface that connects information processing device 500 to network 510. The storage unit 504 stores, for example, various data necessary when the CPU 501 performs processing related to a program. Further, the storage unit 504 stores, for example, various data obtained by the CPU 501 performing processing related to a program. Note that data, programs, and the like used by the CPU 501 for processing may be stored in the storage unit 504.

図6は、情報処理装置500の機能構成例を示すブロック図である。情報処理装置500は、画像取得部601、物体検出部602、画像加工部603、結果出力部604、及び記憶部605を有する。 FIG. 6 is a block diagram showing an example of the functional configuration of the information processing device 500. The information processing device 500 includes an image acquisition section 601, an object detection section 602, an image processing section 603, a result output section 604, and a storage section 605.

画像取得部601は、物体検出を行う対象となる画像を取得する。本実施形態では、情報処理装置500において物体検出を行う対象となる画像は抽出画像であり、画像取得部601は、ネットワーク510経由で通信I/F部603を通じて情報処理装置100から抽出画像を取得する。 The image acquisition unit 601 acquires an image to be subjected to object detection. In this embodiment, the image on which object detection is performed in the information processing device 500 is an extracted image, and the image acquisition unit 601 acquires the extracted image from the information processing device 100 via the communication I/F unit 603 via the network 510. do.

物体検出部602は、画像から複数の属性(クラス)に係る物体検出を行う。物体検出部602は、物体検出部202と同様にして、抽出画像に含まれる「メガネ着用の顔」と「メガネ非着用の顔」とを検出する。本実施形態では、物体検出部602は、一例として水平方向(横方向)の幅及び垂直方向(縦方向)の高さがともに448ピクセルである448×448ピクセルのRGB画像から検出を行うものとする。その他は物体検出部202と同様である。 The object detection unit 602 detects objects based on a plurality of attributes (classes) from an image. Similar to the object detection unit 202, the object detection unit 602 detects a “face wearing glasses” and a “face not wearing glasses” included in the extracted image. In this embodiment, the object detection unit 602 detects, for example, an RGB image of 448 x 448 pixels, in which the width in the horizontal direction (horizontal direction) and the height in the vertical direction (vertical direction) are both 448 pixels. do. The rest is the same as the object detection unit 202.

画像加工部603は、抽出画像を指定サイズに変形し、変形後の画像と、縦及び横それぞれの変形倍率を出力する。なお、画像を変形させる際のアルゴリズムは一般的に知られているバイキュービック法等の任意の手法を用いることができる。また、画像を拡大する際には超解像技術を用いてもよい。本実施形態の例では、画像加工部603は、抽出画像を448×448ピクセルの画像に変形する。この場合、抽出画像の幅がwピクセル、高さがhピクセルであれば、縦の変形倍率は(448/w)となり、横の変形倍率は(448/h)となる。 The image processing unit 603 transforms the extracted image into a specified size, and outputs the transformed image and the vertical and horizontal transformation magnifications. Note that an arbitrary method such as a generally known bicubic method can be used as an algorithm for transforming an image. Furthermore, super-resolution technology may be used when enlarging an image. In the example of this embodiment, the image processing unit 603 transforms the extracted image into an image of 448×448 pixels. In this case, if the width of the extracted image is w pixels and the height is h pixels, the vertical transformation magnification is (448/w) and the horizontal transformation magnification is (448/h).

結果出力部604は、画像加工部603から出力される変形倍率を用いて、物体検出部602から出力される検出結果の検出枠を変形前の抽出画像における座標に補正して出力する。本実施形態の例では、左上座標(x1,y1)と右下座標(x2,y2)の検出枠に対し、縦及び横の変形倍率がそれぞれwm、hmである場合、補正された左上座標は(x1/wm,y1/hm)となり、右下座標は(x2/wm,y2/hm)となる。記憶部605は、情報処理装置500の各機能部601~604での処理に用いるデータや処理結果として得られるデータ等を記憶する。 The result output unit 604 uses the transformation magnification output from the image processing unit 603 to correct the detection frame of the detection result output from the object detection unit 602 to the coordinates in the extracted image before transformation, and outputs the result. In the example of this embodiment, when the vertical and horizontal deformation magnifications are wm and hm, respectively, for the detection frame with the upper left coordinates (x1, y1) and the lower right coordinates (x2, y2), the corrected upper left coordinates are (x1/wm, y1/hm), and the lower right coordinates are (x2/wm, y2/hm). The storage unit 605 stores data used in processing in each of the functional units 601 to 604 of the information processing device 500, data obtained as a processing result, and the like.

次に、図3、図7及び図8を参照して、情報処理装置100、500が行う処理について説明する。図7は、第2の実施形態による物体検出処理を説明するフローチャートである。図8は、図7に示すフローチャートの処理を説明する図である。 Next, processing performed by the information processing apparatuses 100 and 500 will be described with reference to FIGS. 3, 7, and 8. FIG. 7 is a flowchart illustrating object detection processing according to the second embodiment. FIG. 8 is a diagram illustrating the processing of the flowchart shown in FIG. 7.

第2の実施形態による物体検出処理において、図3に示したステップS301~ステップS306の処理、及びステップS308~S309の処理は、第1の実施形態による物体検出処理と同様である。第2の実施形態による物体検出処理は、図3に示したステップS307での処理が第1の実施形態による物体検出処理と異なる。図3に示したステップS307の処理に対応する処理の、第2の実施形態における詳細な処理の流れを、図7を参照して説明する。 In the object detection process according to the second embodiment, the processes of steps S301 to S306 and steps S308 to S309 shown in FIG. 3 are similar to the object detection process according to the first embodiment. The object detection process according to the second embodiment differs from the object detection process according to the first embodiment in the process of step S307 shown in FIG. 3. A detailed process flow in the second embodiment of the process corresponding to the process of step S307 shown in FIG. 3 will be described with reference to FIG. 7.

ステップS701において、情報処理装置100の結果修正部205は、ステップS306で得られた抽出画像に対する検出結果の数が2つ以上であるか否かを判定する。結果修正部205は、抽出画像に対する検出結果の数が2つ以上であると判定した場合(ステップS701でYES)にはステップS702に移行し、2つ以上でないと判定した場合(ステップS701でNO)にはステップS706に移行する。 In step S701, the result correction unit 205 of the information processing apparatus 100 determines whether the number of detection results for the extracted image obtained in step S306 is two or more. If the result correction unit 205 determines that the number of detection results for the extracted image is two or more (YES in step S701), the process proceeds to step S702, and if it determines that there are not two or more (NO in step S701), the result correction unit 205 proceeds to step S702. ), the process moves to step S706.

ステップS702において、情報処理装置500の画像取得部601は、情報処装置100から抽出画像を受信する。受信した抽出画像710の一例を図8(a)に示す。ここで、本例において抽出画像710は、図4(d)に示した第1の実施形態における抽出画像420と同様とし、水平方向の幅が384ピクセルであり、垂直方向の高さが372ピクセルの画像であるとする。 In step S702, the image acquisition unit 601 of the information processing device 500 receives the extracted image from the information processing device 100. An example of the received extracted image 710 is shown in FIG. 8(a). Here, the extracted image 710 in this example is similar to the extracted image 420 in the first embodiment shown in FIG. 4(d), and has a horizontal width of 384 pixels and a vertical height of 372 pixels. Suppose that the image is .

ステップS703において、情報処理装置500の画像加工部603は、ステップS702で受信した抽出画像を所定のサイズに変形し、変形後の画像と、縦及び横それぞれの変形倍率を出力する。本例では、画像加工部603は、ステップS702で受信した384×372ピクセルの抽出画像を448×448ピクセルの画像に変形する。したがって、縦方向の変形倍率は(448/384)となり、横方向の変形倍率は(448/372)となる。 In step S703, the image processing unit 603 of the information processing device 500 transforms the extracted image received in step S702 to a predetermined size and outputs the transformed image and the vertical and horizontal transformation magnifications. In this example, the image processing unit 603 transforms the 384 x 372 pixel extracted image received in step S702 into an image of 448 x 448 pixels. Therefore, the vertical transformation magnification is (448/384) and the horizontal transformation magnification is (448/372).

ステップS704において、情報処理装置500の物体検出部602は、変形後の抽出画像を用いて顔検出処理を行い、変形後の抽出画像から「メガネ着用の顔」と「メガネ非着用の顔」とを検出する。変形後の抽出画像に対する顔検出処理の検出結果の例を図8(b)に示し、変形後の抽出画像に検出結果を重畳した画像の例を図8(c)に示す。図8(b)に示した例では、1つの検出結果Fが得られ、検出枠の左上座標(x1,y1)及び右下座標(x2,y2)と、属性と、信頼度とが出力される。なお、図8(b)における検出枠の座標は、変形後の抽出画像における座標である。また、図8(c)に示した例では、メガネ着用の顔として検出された検出結果Fに対応する検出枠721が破線の矩形枠で変形後の抽出画像720に重畳して表示されている。 In step S704, the object detection unit 602 of the information processing device 500 performs face detection processing using the extracted image after deformation, and distinguishes a “face wearing glasses” and a “face without glasses” from the extracted image after deformation. Detect. FIG. 8B shows an example of the detection result of the face detection process on the extracted image after deformation, and FIG. 8C shows an example of an image obtained by superimposing the detection result on the extracted image after deformation. In the example shown in FIG. 8(b), one detection result F is obtained, and the upper left coordinates (x1, y1) and lower right coordinates (x2, y2) of the detection frame, attributes, and reliability are output. Ru. Note that the coordinates of the detection frame in FIG. 8(b) are the coordinates in the extracted image after deformation. Furthermore, in the example shown in FIG. 8(c), a detection frame 721 corresponding to detection result F detected as a face wearing glasses is displayed as a rectangular frame with a broken line superimposed on the extracted image 720 after deformation. .

ステップS705において、情報処理装置500の結果出力部606は、縦横の変形倍率を用いて、ステップS704で出力された検出結果の検出枠の座標を変形前の抽出画像における座標を補正して出力する。すなわち、結果出力部606は、448×448ピクセルの変形後の画像における検出枠の座標を、縦横の変形倍率448/384及び448/372を用いて、384×372ピクセルの変形前の画像における座標に変換し、情報処理装置100に出力する。変換した検出結果の例を図8(d)に示し、検出結果を384×372ピクセルの抽出画像に重畳した画像の例を図8(e)に示す。図8(d)に示した例では、検出結果Fの検出枠の左上座標(x1,y1)及び右下座標(x2,y2)がそれぞれ変形倍率に応じて変換されている。また、図8(e)に示した例では、メガネ着用の顔として検出された検出結果Fに対応する検出枠711が破線の矩形枠で変形前の抽出画像710に重畳して表示されている。 In step S705, the result output unit 606 of the information processing device 500 corrects the coordinates of the detection frame of the detection result output in step S704 using the vertical and horizontal deformation magnification, and outputs the corrected coordinates in the extracted image before deformation. . That is, the result output unit 606 converts the coordinates of the detection frame in the 448 x 448 pixel image after transformation into the coordinates of the 384 x 372 pixel image before transformation, using vertical and horizontal transformation magnifications of 448/384 and 448/372. and output to the information processing device 100. An example of the converted detection result is shown in FIG. 8(d), and an example of an image obtained by superimposing the detection result on the extracted image of 384×372 pixels is shown in FIG. 8(e). In the example shown in FIG. 8(d), the upper left coordinates (x1, y1) and lower right coordinates (x2, y2) of the detection frame of the detection result F are respectively transformed according to the deformation magnification. Furthermore, in the example shown in FIG. 8(e), a detection frame 711 corresponding to detection result F detected as a face wearing glasses is displayed as a broken rectangular frame superimposed on the extracted image 710 before transformation. .

ステップS706において、情報処理装置100の結果修正部205は、ステップS705で情報処理装置500の結果出力部604から出力された抽出画像に対する検出結果を、入力画像の検出結果に反映する。本例では、抽出画像の検出結果(ここでは検出結果F)が1つであるため、結果修正部205は、抽出画像に対応づいた検出結果A及び検出結果Bを削除し、抽出画像の検出結果Fで置き換える。 In step S706, the result correction unit 205 of the information processing apparatus 100 reflects the detection result for the extracted image outputted from the result output unit 604 of the information processing apparatus 500 in step S705 to the detection result of the input image. In this example, since there is one detection result (here, detection result F) for the extracted image, the result correction unit 205 deletes detection result A and detection result B associated with the extracted image, and Replace with result F.

第2の実施形態によれば、物体検出において異なる属性の検出結果の重なりが生じた場合に、重なりが生じた領域の画像に対して物体検出を行い、その検出結果を用いて入力画像の検出結果を修正する。これにより、入力画像に対する物体検出の検出結果として、最終的により適切な検出結果を出力することができる。 According to the second embodiment, when overlap occurs between detection results of different attributes in object detection, object detection is performed on the image of the overlapping area, and the detection result is used to correct the detection result of the input image. This makes it possible to finally output a more appropriate detection result as the detection result of object detection for the input image.

(変形例)
なお、本実施形態では2つの情報処理装置100、500がネットワーク510を通じて接続されている構成としている。しかし、これに限定されるものではなく、例えば情報処理装置100がカメラなどのエッジデバイスで、情報処理装置500がエッジデバイスの外部端子(USB等)に接続されたデバイスであっても良い。また、情報処理装置100がPC(パーソナル・コンピュータ)で情報処理装置500がクラウド上に存在していても良い。
(Modified example)
Note that in this embodiment, two information processing apparatuses 100 and 500 are connected through a network 510. However, the present invention is not limited thereto, and for example, the information processing apparatus 100 may be an edge device such as a camera, and the information processing apparatus 500 may be a device connected to an external terminal (such as a USB) of the edge device. Further, the information processing device 100 may be a PC (personal computer), and the information processing device 500 may exist on a cloud.

また、物体検出部602は、物体検出部202と同様に「メガネ着用の顔」と「メガネ非着用の顔」とを検出するようにしているが、例えば「メガネ着用の顔」と「メガネ非着用の顔」の内の一方だけを検出する検出器であってもよい。例えば「メガネ着用の顔」だけを検出する検出器とした場合、「メガネ着用の顔」が検出されれば検出結果を「メガネ着用の顔」とし、「メガネ着用の顔」が検出されなければ検出結果を「メガネ非着用の顔」とすることができる。また他にも、顔を検出する検出器と、メガネの着用の有無を判別する判別器の2種類に分かれていても良い。 In addition, the object detection unit 602 is configured to detect a “face wearing glasses” and a “face not wearing glasses” similarly to the object detection unit 202, but for example, a “face wearing glasses” and a “face not wearing glasses” are detected. The detector may detect only one of the "faces worn". For example, if the detector detects only "faces wearing glasses", if a "face wearing glasses" is detected, the detection result will be "face wearing glasses", and if a "face wearing glasses" is not detected, then the detection result will be "faces wearing glasses". The detection result can be a "face without glasses." Alternatively, the detector may be divided into two types: a detector for detecting a face and a discriminator for determining whether or not glasses are worn.

[第3の実施形態]
前述した実施形態では単一の入力画像を用いて処理を行っていたが、第3の実施形態では撮影タイミングの異なる2つの入力画像を用いて処理を行う場合について説明する。以下の第3の実施形態に係る説明において、第1の実施形態と同様の点については説明を省略する。本実施形態による情報処理装置100の構成は、図1に示した第1の実施形態における構成例と同様である。
[Third embodiment]
In the embodiments described above, processing was performed using a single input image, but in the third embodiment, a case will be described in which processing is performed using two input images captured at different timings. In the following description of the third embodiment, description of the same points as in the first embodiment will be omitted. The configuration of the information processing apparatus 100 according to this embodiment is similar to the configuration example in the first embodiment shown in FIG.

図9は、情報処理装置100の機能構成例を示すブロック図である。図9において、図2に示した構成要素と同一の機能を有する構成要素には同一の符号を付し、重複する説明は省略する。情報処理装置100は、画像取得部201、物体検出部202、重なり判定部203、画像抽出部904、結果修正部905、結果出力部206、記憶部207、及び対応付け部908を有する。 FIG. 9 is a block diagram showing an example of the functional configuration of the information processing device 100. In FIG. 9, components having the same functions as those shown in FIG. 2 are denoted by the same reference numerals, and redundant explanations will be omitted. The information processing device 100 includes an image acquisition unit 201, an object detection unit 202, an overlap determination unit 203, an image extraction unit 904, a result modification unit 905, a result output unit 206, a storage unit 207, and a correlation unit 908.

画像抽出部904は、画像抽出部204と同様に、重なり判定部203による判定結果に基づき、入力画像と重なり判定部203により重なりありと判定された検出結果の組とを用いて、入力画像から指定された領域を抽出する。画像抽出部904は、抽出画像と、入力画像に対する抽出する領域の左上の座標を出力する。画像抽出部904は、さらに、抽出画像に対する検出結果の数が2つ以上である場合、検出枠の和集合を新たに検出枠とした検出結果を出力する。このとき、顔の属性が「メガネ着用不明」、検出の信頼度が1とする。なお、検出枠の座標は、第1の実施形態と同様の方法で、入力画像における座標に変換する。 Similar to the image extraction unit 204, the image extraction unit 904 uses the input image and a set of detection results determined to be overlapping by the overlap determination unit 203 to extract information from the input image based on the determination result by the overlap determination unit 203. Extract the specified area. The image extraction unit 904 outputs the extracted image and the upper left coordinates of the region to be extracted with respect to the input image. Furthermore, if the number of detection results for the extracted image is two or more, the image extraction unit 904 outputs a detection result with the union of the detection frames as a new detection frame. At this time, it is assumed that the face attribute is "unknown to wear glasses" and the detection reliability is 1. Note that the coordinates of the detection frame are converted into coordinates in the input image using the same method as in the first embodiment.

対応付け部908は、過去の検出結果と現在の検出結果との対応付けを行う。対応付け部908は、検出結果(以下、「今回の検出結果」あるいは「今回の検出枠」とも呼ぶ)を、保持している追尾情報と対応付けて追尾情報を更新し、検出結果の属性を追尾情報に基づいて更新する。追尾情報として、追尾IDと追尾IDに対応する検出枠の座標(左上座標及び右下座標)、属性、及び属性の統計情報が記憶される。ここで、属性の統計情報とは、過去における既定回数分の属性の履歴(登場回数)を指す。本実施形態の例では、既定回数を2回とし、例えば前回の属性がメガネ着用であり、今回の属性がメガネ非着用であった場合、属性の統計情報として、メガネ着用が1、メガネ非着用が1となる。属性がメガネ着用不明である場合、属性の統計情報には追加しない。 The matching unit 908 matches the past detection results with the current detection results. The matching unit 908 matches the detection results (hereinafter also referred to as "current detection results" or "current detection frames") with the tracking information stored therein, updates the tracking information, and updates the attributes of the detection results based on the tracking information. As the tracking information, a tracking ID, coordinates of the detection frame corresponding to the tracking ID (upper left coordinates and lower right coordinates), attributes, and attribute statistical information are stored. Here, the attribute statistical information refers to the history (number of appearances) of the attribute for a preset number of times in the past. In the example of this embodiment, the preset number is set to 2, and for example, if the previous attribute was wearing glasses and the current attribute was not wearing glasses, the attribute statistical information is set to 1 for wearing glasses and 1 for not wearing glasses. If the attribute is unknown as to whether or not wearing glasses, it is not added to the attribute statistical information.

また、対応付け部908は、過去の検出結果の属性に係る情報に基づいて、今回(現在)の検出結果の属性を更新する。具体的には、対応付け部908は、属性の統計情報に基づいて、その時点で最も出現頻度の高い(出現回数の多い)属性をその検出結果の属性として更新する。出現頻度が等しい場合には、今回の検出結果での属性が優先される。今回の検出結果と保持している追尾情報と対応付けについては、例えば、各追尾IDに対応する検出枠の座標と、今回の検出結果の検出枠の座標とに基づいて行う。本実施形態では、各追尾IDに対応する検出枠の中心座標と、今回の任意の検出枠の中心座標との距離を全組み合わせについて計算し、距離が閾値(本実施形態では100とする)以下かつ最も距離が短い追尾IDと今回の検出結果の組み合わせを対応付ける。また、追尾IDに対応する座標を今回の検出枠の中心座標に更新する。今回の検出結果と対応づかなかった追尾IDは削除される。追尾IDと対応づかなかった今回の検出結果が存在する場合、新たに追尾IDが生成されて追尾情報に追加される。 Furthermore, the association unit 908 updates the attributes of the current (current) detection results based on information regarding the attributes of past detection results. Specifically, the association unit 908 updates the attribute that appears most frequently (has a large number of appearances) at that time as the attribute of the detection result, based on the attribute statistical information. If the appearance frequencies are the same, the attribute in the current detection result takes precedence. The correspondence between the current detection result and the retained tracking information is performed based on, for example, the coordinates of the detection frame corresponding to each tracking ID and the coordinates of the detection frame of the current detection result. In this embodiment, the distance between the center coordinates of the detection frame corresponding to each tracking ID and the center coordinates of any current detection frame is calculated for all combinations, and the distance is less than or equal to a threshold (100 in this embodiment). The tracking ID with the shortest distance is associated with the combination of the current detection result. Additionally, the coordinates corresponding to the tracking ID are updated to the center coordinates of the current detection frame. Tracking IDs that do not correspond to the current detection result are deleted. If there is a current detection result that does not correspond to the tracking ID, a new tracking ID is generated and added to the tracking information.

結果修正部905は、抽出画像に対する検出結果を入力画像の検出結果に反映する。結果修正部905は、入力画像の検出結果のうち、抽出した領域を算出した際に使用された検出結果を削除し、抽出画像で得られた検出結果に置き換える。 The result correction unit 905 reflects the detection result for the extracted image on the detection result for the input image. The result modification unit 905 deletes the detection result used when calculating the extracted area from among the detection results of the input image, and replaces it with the detection result obtained from the extracted image.

次に、図3、図10及び図11を参照して、情報処理装置100が行う物体検出処理について説明する。図10は、第3の実施形態による物体検出処理を説明するフローチャートである。図11は、図10に示すフローチャートの処理を説明する図である。 Next, object detection processing performed by the information processing apparatus 100 will be described with reference to FIGS. 3, 10, and 11. FIG. 10 is a flowchart illustrating object detection processing according to the third embodiment. FIG. 11 is a diagram illustrating the processing of the flowchart shown in FIG. 10.

第3の実施形態による物体検出処理において、図3に示したステップS301~ステップS306の処理、及びステップS308~S309の処理は、第1の実施形態による物体検出処理と同様である。第3の実施形態による物体検出処理は、図3に示したステップS307での処理が第1の実施形態による物体検出処理と異なる。図3に示したステップS307の処理に対応する処理の、第3の実施形態における詳細な処理の流れを、図10を参照して説明する。 In the object detection process according to the third embodiment, the processes of steps S301 to S306 and steps S308 to S309 shown in FIG. 3 are similar to the object detection process according to the first embodiment. The object detection process according to the third embodiment differs from the object detection process according to the first embodiment in the process of step S307 shown in FIG. 3. A detailed process flow in the third embodiment of the process corresponding to the process of step S307 shown in FIG. 3 will be described with reference to FIG. 10.

ステップS1001において、結果修正部905は、ステップS306で得られた抽出画像に対する検出結果の数が2つ以上であるか否かを判定する。結果修正部905は、抽出画像に対する検出結果の数が2つ以上であると判定した場合(ステップS1001でYES)にはステップS1002に移行し、2つ以上でないと判定した場合(ステップS1001でNO)にはステップS1005に移行する。この例では、入力画像に対する検出結果が図4(b)に示したようになっており、抽出画像に対する検出結果として図11(a)に示すように2つの検出結果(検出結果G及び検出結果H)が存在する場合を想定する。なお、図11(a)において、検出枠の座標は、抽出画像の座標系での座標である。 In step S1001, the result correction unit 905 determines whether the number of detection results for the extracted image obtained in step S306 is two or more. If the result correction unit 905 determines that the number of detection results for the extracted image is two or more (YES in step S1001), the process proceeds to step S1002, and if it determines that there are not two or more (NO in step S1001), the result correction unit 905 moves to step S1002. ), the process moves to step S1005. In this example, the detection results for the input image are as shown in FIG. 4(b), and the detection results for the extracted image are two detection results (detection result G and detection result G) as shown in FIG. 11(a). Assume that H) exists. Note that in FIG. 11A, the coordinates of the detection frame are the coordinates in the coordinate system of the extracted image.

ステップS1002において、画像抽出部904は、ステップS305の処理と同様にして、ステップS304で出力された検出結果の組から2つの検出枠の和集合に対する外接矩形を算出し、算出した外接矩形を検出枠とした検出結果を出力する。本実施形態の例では、画像抽出部904は、検出結果G、Hの組から2つの検出枠の和集合に対する外接矩形を算出し、算出した外接矩形を検出枠とした検出結果Iを出力する。図11(a)に示した検出結果より、抽出画像の座標系において2つの検出結果の検出枠の和集合に対する外接矩形は、左上座標が(32,31)となり、右下座標が(352,341)となる。抽出画像の座標系から入力画像の座標系へ変換することにより、入力画像の座標系において2つの検出結果の検出枠の和集合に対する外接矩形は、図11(b)に示すように左上座標が(20,200)となり、右下座標が(340,510)となる。 In step S1002, the image extraction unit 904 calculates a circumscribing rectangle for the union of two detection frames from the set of detection results output in step S304, and detects the calculated circumscribed rectangle, in a similar manner to the process in step S305. Output the detection results as a frame. In the example of this embodiment, the image extraction unit 904 calculates a circumscribed rectangle for the union of two detection frames from the set of detection results G and H, and outputs a detection result I with the calculated circumscribed rectangle as a detection frame. . From the detection results shown in FIG. 11(a), in the coordinate system of the extracted image, the circumscribed rectangle for the union of the detection frames of the two detection results has the upper left coordinates (32, 31) and the lower right coordinates (352, 341). By converting from the coordinate system of the extracted image to the coordinate system of the input image, the circumscribed rectangle for the union of the detection frames of the two detection results in the coordinate system of the input image has the upper left coordinate as shown in FIG. 11(b). (20,200), and the lower right coordinates are (340,510).

ステップS1003において、対応付け部908は、ステップS1002で画像抽出部904から出力された検出結果と、保持している追尾情報とを対応付ける。本実施形態の例では、対応付け部908は、ステップS1002で出力された検出結果Iと、保持している追尾情報とを対応付ける。図11(c)に示すような追尾情報を保持しているものとして、検出結果Iとの対応付けを一例として説明する。検出結果Iの検出枠の中心座標は(180,355)であり、追尾ID1の検出枠の中心座標は(170,350)である。したがって、検出結果Iと追尾ID1との検出枠の中心座標間の距離Lは、
L=((180-170)^2+(355-350)^2)^(1/2)≒11.2
となり、閾値である100よりも小さいため、対応付けの候補となる。また、検出結果Iと追尾ID2及び追尾ID3とについても同様に計算を行うと中心座標間の距離は100よりも大きくなるため、対応付けの候補とならない。この結果、検出結果Iと追尾ID1とが対応付けられる。
In step S1003, the association unit 908 associates the detection result output from the image extraction unit 904 in step S1002 with the retained tracking information. In the example of this embodiment, the association unit 908 associates the detection result I output in step S1002 with the retained tracking information. Assuming that tracking information as shown in FIG. 11(c) is held, the association with detection result I will be explained as an example. The center coordinates of the detection frame for detection result I are (180, 355), and the center coordinates of the detection frame for tracking ID 1 are (170, 350). Therefore, the distance L between the center coordinates of the detection frame of the detection result I and the tracking ID 1 is:
L=((180-170)^2+(355-350)^2)^(1/2)≒11.2
Since it is smaller than the threshold value of 100, it becomes a candidate for association. Furthermore, if the detection result I, tracking ID2, and tracking ID3 are similarly calculated, the distance between the center coordinates will be greater than 100, and therefore they will not be candidates for association. As a result, the detection result I and the tracking ID1 are associated.

ステップS1004において、対応付け部907は、追尾情報に基づいて検出結果の属性を更新する。検出結果Iは追尾ID1と対応づいており、追尾IDの属性の統計情報(図11(c))よりメガネ着用の回数がメガネ非着用の回数より大きいことから、検出結果Iの属性はメガネ着用となる。 In step S1004, the association unit 907 updates the attribute of the detection result based on the tracking information. Detection result I is associated with tracking ID 1, and the statistical information on the attribute of the tracking ID (FIG. 11(c)) shows that the number of times glasses are worn is greater than the number of times glasses are not worn, so the attribute of detection result I is glasses worn.

ステップS1005において、結果修正部905は、第1の実施形態と同様に、抽出画像に対する検出結果を、入力画像の検出結果に反映する。ここでは、結果修正部205は、検出結果A及び検出結果Bを削除し、検出結果Iに置き換える。 In step S1005, the result modification unit 905 reflects the detection result for the extracted image on the detection result for the input image, similarly to the first embodiment. Here, the result modification unit 205 deletes detection result A and detection result B, and replaces them with detection result I.

第3の実施形態によれば、画像を用いた物体検出において異なる属性の検出結果の重なりが生じても、最終的により適切な検出結果を出力することができる。 According to the third embodiment, even if detection results of different attributes overlap in object detection using images, a more appropriate detection result can be finally output.

(変形例)
なお、対応付け部908における過去の入力画像の検出結果と現在の入力画像の検出結果との対応付け方法は、物体追尾処理で一般的に用いられる手法が適用できる。また、本実施形態では2回分の属性を統計情報として保持するようにしているが、それ以上の回数分の属性を統計情報として保持するようにしても本実施形態と同様にして処理が可能である。また、本実施形態では属性の統計情報を既定回数分の属性の履歴(登場回数)としているが、登場回数ではなく信頼度の累積としてもよい。
(Modified example)
Note that as a method for associating the detection results of past input images with the detection results of the current input image in the associating unit 908, a method generally used in object tracking processing can be applied. Furthermore, in this embodiment, attributes for two times are held as statistical information, but even if attributes for more than two times are held as statistical information, processing can be performed in the same manner as in this embodiment. be. Further, in this embodiment, the attribute statistical information is the attribute history (the number of appearances) for a predetermined number of times, but it may be an accumulation of reliability instead of the number of appearances.

[第4の実施形態]
前述した第1の実施形態では、1回目の顔検出に使用した画像から抽出画像を生成したが、第4の実施形態では1回目の顔検出に使用した画像の元となる画像から抽出画像を生成する場合について説明する。以下の第4の実施形態に係る説明において、第1の実施形態と同様の点については説明を省略する。本実施形態による情報処理装置100の構成は、図1に示した第1の実施形態における構成例と同様である。
[Fourth embodiment]
In the first embodiment described above, the extracted image is generated from the image used for the first face detection, but in the fourth embodiment, the extracted image is generated from the original image of the image used for the first face detection. The case of generation will be explained. In the following description of the fourth embodiment, descriptions of points similar to those of the first embodiment will be omitted. The configuration of the information processing apparatus 100 according to this embodiment is similar to the configuration example in the first embodiment shown in FIG.

図12は、情報処理装置100の機能構成例を示すブロック図である。図12において、図2に示した構成要素と同一の機能を有する構成要素には同一の符号を付し、重複する説明は省略する。情報処理装置100は、画像取得部1201、物体検出部1202、重なり判定部203、画像抽出部204、結果修正部205、結果出力部206、記憶部207、及び画像加工部1208を有する。 Fig. 12 is a block diagram showing an example of the functional configuration of the information processing device 100. In Fig. 12, components having the same functions as those shown in Fig. 2 are given the same reference numerals, and duplicated explanations are omitted. The information processing device 100 has an image acquisition unit 1201, an object detection unit 1202, an overlap determination unit 203, an image extraction unit 204, a result correction unit 205, a result output unit 206, a memory unit 207, and an image processing unit 1208.

画像取得部1201は、物体検出を行う対象となる画像(入力画像)を取得する。また、画像取得部1201は、取得した画像から所定の範囲を抽出する。本実施形態では、物体検出を行う対象となる画像(入力画像)は、通信I/F部103を通じて外部から取得するものとし、一例として1080×720ピクセルのRGB画像とする。また、画像取得部1201は、その入力画像から一例として左上座標(30,0)、右下座標(750,720)の範囲を抽出するものとする。 The image acquisition unit 1201 acquires an image (input image) to be subjected to object detection. Furthermore, the image acquisition unit 1201 extracts a predetermined range from the acquired image. In this embodiment, an image (input image) to be subjected to object detection is acquired from the outside through the communication I/F unit 103, and is, for example, an RGB image of 1080×720 pixels. Furthermore, it is assumed that the image acquisition unit 1201 extracts, for example, a range of upper left coordinates (30, 0) and lower right coordinates (750, 720) from the input image.

物体検出部1202は、第1の実施形態における物体検出部202と同様に、画像から複数の属性(クラス)に係る物体検出を行う。本実施形態では、物体検出部1202は、一例として水平方向(横方向)の幅及び垂直方向(縦方向)の高さがともに224ピクセルである、224×224ピクセルのRGB画像から検出を行うものとする。その他は第1の実施形態における物体検出部202と同様である。 The object detection unit 1202 performs object detection based on a plurality of attributes (classes) from an image, similar to the object detection unit 202 in the first embodiment. In this embodiment, the object detection unit 1202 performs detection from an RGB image of 224 x 224 pixels, for example, where the width in the horizontal direction (horizontal direction) and the height in the vertical direction (vertical direction) are both 224 pixels. shall be. The rest is the same as the object detection unit 202 in the first embodiment.

画像加工部1208は、画像を指定サイズに変形し、変形後の画像と、縦及び横それぞれの変形倍率を出力する。なお、画像を変形させる際のアルゴリズムは一般的に知られているバイキュービック法等の任意の手法を用いることができる。また、画像を拡大する際には超解像技術を用いてもよい。本実施形態の例では、画像加工部1208は、画像を224×224ピクセルの画像に変形する。この場合、変形前の画像の幅がwピクセル、高さがhピクセルであれば、縦の変形倍率は(224/w)となり、横の変形倍率は(224/h)となる。 The image processing unit 1208 transforms the image to a specified size and outputs the transformed image and the vertical and horizontal transformation magnifications. Any algorithm, such as the commonly known bicubic algorithm, can be used for transforming the image. Super-resolution technology may be used to enlarge the image. In this embodiment, the image processing unit 1208 transforms the image to an image of 224 x 224 pixels. In this case, if the width of the image before transformation is w pixels and the height is h pixels, the vertical transformation magnification is (224/w) and the horizontal transformation magnification is (224/h).

結果修正部205は、物体検出部1202による抽出画像に対する検出結果を、抽出画像に対する検出結果の数に応じて入力画像の検出結果に反映する。その他は第1の実施形態における結果修正部205と同様である。 The result modification unit 205 reflects the detection result for the extracted image by the object detection unit 1202 on the detection result for the input image according to the number of detection results for the extracted image. The rest is the same as the result correction unit 205 in the first embodiment.

次に、図13及び図14を参照して、情報処理装置100が行う処理について説明する。図13は、第4の実施形態による物体検出処理を説明するフローチャートである。図14は、第4の実施形態による物体検出処理を説明する図である。 Next, processing performed by the information processing apparatus 100 will be described with reference to FIGS. 13 and 14. FIG. 13 is a flowchart illustrating object detection processing according to the fourth embodiment. FIG. 14 is a diagram illustrating object detection processing according to the fourth embodiment.

ステップS1301において、画像取得部1201は、入力画像(物体検出を行う対象となる画像)を取得し、取得した入力画像から左上座標(30,0)、右下座標(750,720)の範囲を抽出して720×720ピクセルの画像を取得する。入力画像1401の一例を図14(a)に示し、入力画像1401から抽出した720×720ピクセルの画像1402の一例を図14(b)に示す。 In step S1301, the image acquisition unit 1201 acquires an input image (an image to be subjected to object detection), and extracts a range of upper left coordinates (30,0) and lower right coordinates (750,720) from the acquired input image. Extract to obtain a 720x720 pixel image. An example of an input image 1401 is shown in FIG. 14(a), and an example of an image 1402 of 720×720 pixels extracted from the input image 1401 is shown in FIG. 14(b).

ステップS1302において、画像加工部1208は、ステップS1301で取得した720×720ピクセルの画像を224×224ピクセルの画像(以下、第1の処理対象画像)に変形する。このとき、縦方向の変形倍率と横方向の変形倍率はともに(224/720)となる。第1の処理対象画像1403の一例を図14(c)に示す。 In step S1302, the image processing unit 1208 transforms the 720×720 pixel image acquired in step S1301 into a 224×224 pixel image (hereinafter referred to as a first processing target image). At this time, both the vertical deformation magnification and the horizontal deformation magnification are (224/720). An example of the first processing target image 1403 is shown in FIG. 14(c).

ステップS1303において、物体検出部1202は、図3に示したステップS302と同様にして、第1の処理対象画像を用いて人物の顔を検出する顔検出処理を行い、第1の処理対象画像から「メガネ着用の顔」と「メガネ非着用の顔」とを検出する。第1の処理対象画像に対する顔検出処理の検出結果の例を図14(d)に示す。図14(d)に示した例では、3つの検出結果A~Cが得られ、それぞれ検出枠の左上座標(x1,y1)及び右下座標(x2,y2)と、属性と、信頼度とが出力される。なお、図14(d)における検出枠の座標は、第1の処理対象画像における座標である。 In step S1303, the object detection unit 1202 performs face detection processing to detect human faces using the first processing target image, similar to step S302 shown in FIG. 3, and detects "faces with glasses" and "faces without glasses" from the first processing target image. An example of the detection results of the face detection processing for the first processing target image is shown in FIG. 14(d). In the example shown in FIG. 14(d), three detection results A to C are obtained, and the upper left coordinates (x1, y1) and lower right coordinates (x2, y2) of the detection frame, attributes, and reliability are output for each. Note that the coordinates of the detection frame in FIG. 14(d) are coordinates in the first processing target image.

ステップS1304において、重なり判定部203は、第1の処理対象画像に対する検出結果の内の任意の2つの検出結果を組として、第1の処理対象画像に対する検出結果の各組合せについて検出枠の重なり率を計算する。本例では、検出結果Aの検出枠の左上座標が(0,62)であり、右下座標が(85,156)である。また、検出結果Bの検出枠の左上座標が(0,65)であり、右下座標が(91,159)である。したがって、検出結果Aと検出結果Bの検出枠の重なり率は、
IoU(A,B)=((85-0)×(156-65))÷((85-0)×(156-62)+(91-0)×(159-65)-((85-0)×(156-65)))≒0.88
となる。その他の組み合わせにおいて、検出枠の重なり率は0となる。
In step S1304, the overlap determination unit 203 sets any two of the detection results for the first processing target image as a pair, and calculates the overlap rate of the detection frames for each combination of the detection results for the first processing target image. In this example, the upper left coordinates of the detection frame of detection result A are (0, 62) and the lower right coordinates are (85, 156). The upper left coordinates of the detection frame of detection result B are (0, 65) and the lower right coordinates are (91, 159). Therefore, the overlap rate of the detection frames of detection results A and B is
IoU(A,B) = ((85-0) x (156-65)) ÷ ((85-0) x (156-62) + (91-0) x (159-65) - ((85-0) x (156-65))) ≒ 0.88
In other combinations, the overlap rate of the detection windows is 0.

ステップS1305において、重なり判定部203は、ステップS1304で算出した重なり率が閾値以上となった検出結果の組み合わせがあるか否かを判定する。重なり判定部203は、検出枠の重なり率が閾値以上となった検出結果の組み合わせがあると判定した場合(ステップS1305でYES)、重なり率が閾値以上となった検出結果の組み合わせを出力し、ステップS1306に移行する。一方、重なり判定部203は、検出枠の重なり率が閾値以上となった検出結果の組み合わせがないと判定した場合(ステップS1305でNO)、ステップS1311に移行する。本実施形態の例では、重なり率の閾値は0.5であるとする。重なり判定部203は、ステップS1304において算出した重なり率が0.5以上となった検出結果の組が存在する場合にはステップS1306に移行し、存在しない場合にはステップS1311に移行する。本例では、検出結果Aと検出結果Bの検出枠の重なり率が0.5以上であるので、重なり判定部203は、重なり率が0.5以上となった組み合わせ(A,B)を出力し、ステップS1306に移行する。 In step S1305, the overlap determination unit 203 determines whether there is a combination of detection results for which the overlap rate calculated in step S1304 is equal to or greater than a threshold value. If the overlap determination unit 203 determines that there is a combination of detection results in which the overlap rate of the detection frames is equal to or higher than the threshold (YES in step S1305), the overlap determination unit 203 outputs the combination of detection results in which the overlap ratio is equal to or higher than the threshold; The process moves to step S1306. On the other hand, if the overlap determination unit 203 determines that there is no combination of detection results in which the overlap rate of the detection frames is equal to or greater than the threshold (NO in step S1305), the process proceeds to step S1311. In the example of this embodiment, the threshold value of the overlap rate is assumed to be 0.5. The overlap determining unit 203 moves to step S1306 if there is a set of detection results for which the overlap rate calculated in step S1304 is 0.5 or more, and moves to step S1311 if there is not. In this example, since the overlap rate of the detection frames of detection result A and detection result B is 0.5 or more, the overlap determination unit 203 outputs the combination (A, B) with an overlap rate of 0.5 or more. Then, the process moves to step S1306.

ステップS1306において、画像抽出部204は、入力画像とステップS1305で出力された検出結果の組を用いて、入力画像から指定された領域を抽出し、抽出画像と、入力画像に対する抽出する領域の左上の座標を出力する。詳細には、まず、画像抽出部204は、検出結果の組から2つの検出枠の座標を、入力画像から抽出した範囲と変形倍率の情報を使用して入力画像の座標に変換する。本例では、検出結果Aの検出枠の左上座標が(0,62)であるので、変形倍率(224/720)を使用して、入力画像における検出結果Aの左上座標は、(30+0÷(224/720),0+62÷(224/720))=(30,199)となる。他の座標も同様に計算した結果を図14(e)に示す。 In step S1306, the image extraction unit 204 extracts the specified region from the input image using the set of the input image and the detection result output in step S1305, and extracts the specified region from the input image and the upper left corner of the region to be extracted with respect to the input image. Output the coordinates of. Specifically, first, the image extraction unit 204 converts the coordinates of two detection frames from the set of detection results into the coordinates of the input image using information on the range and transformation magnification extracted from the input image. In this example, the upper left coordinates of the detection frame of detection result A are (0, 62), so using the transformation magnification (224/720), the upper left coordinates of detection result A in the input image are (30+0÷( 224/720), 0+62÷(224/720))=(30,199). The results of calculations for other coordinates are shown in FIG. 14(e).

次に、画像抽出部204は、検出結果の組から2つの検出枠の和集合に対する外接矩形を算出し、算出した外接矩形に基づいて、抽出する領域の左上座標及び右下座標を算出する。詳細については、図3に示したステップS305での処理と同様である。本例では、抽出する領域の左上座標は(1,168)、右下座標は(352,542)となる。このようにして算出した、抽出する領域の左上座標及び右下座標をもとに入力画像から抽出した抽出画像1404の例を図14(f)に示す。抽出する領域の左上座標が(1,168)、右下座標が(352,542)であるので、抽出画像1404は351×374ピクセルの画像である。 Next, the image extraction unit 204 calculates a circumscribing rectangle for the union of the two detection frames from the set of detection results, and calculates the top left and bottom right coordinates of the area to be extracted based on the calculated circumscribing rectangle. Details are the same as in step S305 shown in FIG. 3. In this example, the top left coordinate of the area to be extracted is (1, 168), and the bottom right coordinate is (352, 542). FIG. 14(f) shows an example of an extracted image 1404 extracted from the input image based on the top left and bottom right coordinates of the area to be extracted calculated in this way. Since the top left coordinates of the area to be extracted are (1, 168) and the bottom right coordinates are (352, 542), the extracted image 1404 is an image of 351 x 374 pixels.

ステップS1307において、画像加工部1208は、ステップS1306で抽出した351×374ピクセルの画像を224×224ピクセルの画像(以下、第2の処理対象画像)に変形する。このとき、横方向の変形倍率は(224/351)となり、縦方向の変形倍率は(224/374)となる。第2の処理対象画像の一例を図14(g)に示す。 In step S1307, the image processing unit 1208 transforms the 351×374 pixel image extracted in step S1306 into a 224×224 pixel image (hereinafter referred to as a second processing target image). At this time, the deformation magnification in the horizontal direction is (224/351), and the deformation magnification in the vertical direction is (224/374). An example of the second processing target image is shown in FIG. 14(g).

ステップS1308において、物体検出部1202は、図3に示したステップS306と同様にして、第2の処理対象画像を用いて人物の顔を検出する顔検出処理を行い、第2の処理対象画像から「メガネ着用の顔」と「メガネ非着用の顔」とを検出する。第2の処理対象画像に対する顔検出処理の検出結果の例を図14(h)に示す。図14(h)に示した例では、1つの検出結果Eが得られ、検出枠の左上座標(x1,y1)及び右下座標(x2,y2)と、属性と、信頼度とが出力される。なお、図14(h)における検出枠の座標は、第2の処理対象画像における座標である。 In step S1308, the object detection unit 1202 performs face detection processing to detect a person's face using the second processing target image in the same manner as step S306 shown in FIG. A "face wearing glasses" and a "face not wearing glasses" are detected. An example of the detection result of the face detection process for the second processing target image is shown in FIG. 14(h). In the example shown in FIG. 14(h), one detection result E is obtained, and the upper left coordinates (x1, y1) and lower right coordinates (x2, y2) of the detection frame, attributes, and reliability are output. Ru. Note that the coordinates of the detection frame in FIG. 14(h) are the coordinates in the second processing target image.

ステップS1309において、結果修正部205は、ステップS1308で得られた第2の処理対象画像に対する検出結果に基づいて、抽出画像に対する検出結果を、入力画像の検出結果に反映する。詳細には、図3に示したステップS307と同様にして、結果修正部205は、第2の処理対象画像に対する検出結果の座標を、入力画像の座標に変換する。このとき、結果修正部205は、ステップS1306で得られた入力画像に対する抽出する領域の左上座標とステップS1307で得られた変形倍率の情報を使用して、第2の処理対象画像に対する検出結果の座標を入力画像の座標に変換する。入力画像における検出結果Eの例を図14(i)に示す。 In step S1309, the result modification unit 205 reflects the detection result for the extracted image in the detection result for the input image, based on the detection result for the second processing target image obtained in step S1308. Specifically, similar to step S307 shown in FIG. 3, the result correction unit 205 converts the coordinates of the detection result for the second processing target image into the coordinates of the input image. At this time, the result correction unit 205 uses the upper left coordinates of the region to be extracted in the input image obtained in step S1306 and the information on the deformation magnification obtained in step S1307 to modify the detection result for the second processing target image. Convert coordinates to input image coordinates. An example of the detection result E in the input image is shown in FIG. 14(i).

ステップS1310において、結果出力部206は、検出枠の重なり率が閾値以上となった検出結果のすべての組み合わせについて処理を完了したか否かを判定する。結果出力部206は、重なり率が閾値以上となった検出結果のすべての組み合わせについて処理が完了したと判定した場合(ステップS1310でYES)、ステップS1311に移行する。結果出力部206は、重なり率が閾値以上となった検出結果の組み合わせにおいて未処理の組み合わせがあると判定した場合(ステップS1310でNO)、ステップS1306に移行し、未処理の組み合わせについてステップS1306以降の処理を実行する。 In step S1310, the result output unit 206 determines whether processing has been completed for all combinations of detection results in which the detection frame overlap rate is equal to or greater than a threshold value. If the result output unit 206 determines that processing has been completed for all combinations of detection results for which the overlap rate is equal to or greater than the threshold (YES in step S1310), the process proceeds to step S1311. If the result output unit 206 determines that there is an unprocessed combination among the combinations of detection results for which the overlap rate is equal to or higher than the threshold (NO in step S1310), the process proceeds to step S1306, and the unprocessed combinations are processed from step S1306 onwards. Execute the process.

ステップS1311において、結果出力部206は、入力画像に対する最終の検出結果を入力画像に重畳した画像を出力して、処理を終了し次の入力画像の処理に移行する。 In step S1311, the result output unit 206 outputs an image in which the final detection result for the input image is superimposed on the input image, ends the process, and proceeds to process the next input image.

第4の実施形態によれば、2回目の検出処理で使用される抽出画像を、1回目の検出処理で使用した画像ではなく、入力画像から抽出する。これにより、画像変形処理等により1回目の検出処理で使用した画像が入力画像よりも解像度が低くなってしまった場合等において、入力画像に対する物体検出の検出結果として、最終的により適切な検出結果を出力することができる。また、入力画像から1回目の検出処理で使用する画像を切り出した際に検出対象物の一部が見切れてしまった場合等においても、入力画像に対する物体検出の検出結果として、最終的により適切な検出結果を出力することができる。 According to the fourth embodiment, the extracted image used in the second detection process is extracted from the input image rather than the image used in the first detection process. As a result, even if the image used in the first detection process has a lower resolution than the input image due to image transformation processing, etc., the final detection result of object detection for the input image will be more appropriate. can be output. In addition, even if a part of the object to be detected is cut out when cutting out the image to be used in the first detection process from the input image, the final result of object detection for the input image will be more appropriate. Detection results can be output.

(変形例)
なお、画像取得部1201は、入力画像から1つの領域を抽出するとしたが、複数の領域を抽出するようにして、ステップS1302~ステップS1311の処理を領域ごとに繰り返すようにしてもよい。また、前述した第2の実施形態及び第3の実施形態に、本実施形態の処理を組み込むことも可能である。
(Modified example)
Although the image acquisition unit 1201 extracts one region from the input image, it may extract a plurality of regions and repeat the processing from step S1302 to step S1311 for each region. Furthermore, it is also possible to incorporate the processing of this embodiment into the second embodiment and third embodiment described above.

[その他の実施形態]
本発明は、前述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
[Other embodiments]
The present invention provides a system or device with a program that implements one or more functions of the embodiments described above via a network or a storage medium, and one or more processors in a computer of the system or device reads and executes the program. This can also be achieved by processing. It can also be realized by a circuit (for example, ASIC) that realizes one or more functions.

100、500:情報処理装置 201、601、1201:画像取得部 202、602、1202:物体検出部 203:重なり判定部 204、904:画像抽出部 205、905:結果修正部 206、604:結果出力部 207、605:記憶部 603、1208:画像加工部 908:対応付け部 100, 500: Information processing device 201, 601, 1201: Image acquisition unit 202, 602, 1202: Object detection unit 203: Overlap determination unit 204, 904: Image extraction unit 205, 905: Result correction unit 206, 604: Result output Sections 207, 605: Storage section 603, 1208: Image processing section 908: Correspondence section

Claims (12)

第1の画像から、第1の属性と前記第1の属性とは異なる第2の属性とのそれぞれに対応する物体の検出を行う検出手段と、
前記検出手段により前記第1の画像から検出される検出領域であって、前記第1の属性に対応する物体が検出される第1の検出領域と、前記第2の属性に対応する物体が検出される第2の検出領域と、の重なりを判定する判定手段と、
前記判定手段により前記第1の検出領域と前記第2の検出領域とが重なると判定されたことに応じて、前記第1の画像において前記第1の検出領域と前記第2の検出領域とが重なる領域を含む領域を拡大することにより得られる第2の画像に対して前記検出手段が物体検出を行った結果、前記第2の画像から前記第1の属性または前記第2の属性に対応する物体が検出された場合、前記第2の画像に対する物体検出の検出結果に基づいて、前記第1の画像に対する前記検出手段による物体検出の検出結果を修正する修正手段と
を有することを特徴とする情報処理装置。
Detection means for detecting objects corresponding to each of a first attribute and a second attribute different from the first attribute from a first image;
a detection area detected from the first image by the detection means, a first detection area in which an object corresponding to the first attribute is detected; and a detection area in which an object corresponding to the second attribute is detected; a determining means for determining an overlap between the second detection area and the second detection area;
In response to the determining means determining that the first detection area and the second detection area overlap, the first detection area and the second detection area overlap in the first image. As a result of the detection means performing object detection on a second image obtained by enlarging an area including an overlapping area, the detection means corresponds to the first attribute or the second attribute from the second image. and a correction means for correcting the detection result of the object detection performed by the detection means on the first image based on the detection result of the object detection on the second image when an object is detected. Information processing device.
前記判定手段は、前記第1の画像において、前記第1の検出領域と前記第2の検出領域とが所定の割合以上重なっている場合に、前記判定手段により前記第1の検出領域と前記第2の検出領域とが重なると判定することを特徴とする請求項に記載の情報処理装置。 The determining means is configured to determine whether the first detection area and the second detection area overlap each other by a predetermined ratio or more in the first image. The information processing apparatus according to claim 1, wherein the information processing apparatus determines that two detection areas overlap. 前記第1の画像は、撮像装置が撮像することにより取得される撮像画像であることを特徴とする請求項1又は2に記載の情報処理装置。 The information processing device according to claim 1 or 2 , wherein the first image is a captured image obtained by capturing an image with an imaging device. 前記第2の画像は、前記第1の検出領域と前記第2の検出領域との和集合を含む領域に対応する画像であることを特徴とする請求項1~の何れか1項に記載の情報処理装置。 4. The information processing apparatus according to claim 1, wherein the second image is an image corresponding to an area including a union of the first detection area and the second detection area. 前記第2の画像は、前記第1の検出領域と前記第2の検出領域との和集合と、所定のマージンとを含むことを特徴とする請求項に記載の情報処理装置。 The information processing apparatus according to claim 4 , wherein the second image includes a union of the first detection area and the second detection area, and a predetermined margin. 過去の検出結果と現在の検出結果との対応付けを行い、過去の検出結果に対応する属性に係る情報に基づいて、現在の検出結果に対応する属性を更新する対応付け手段を有することを特徴とする請求項1~の何れか1項に記載の情報処理装置。 It is characterized by having an association means for associating past detection results with current detection results and updating the attributes corresponding to the current detection results based on information regarding the attributes corresponding to the past detection results. The information processing device according to any one of claims 1 to 5 . 前記対応付け手段は、所定の過去の画像の検出結果における属性の統計情報を取得し、前記統計情報において最も出現頻度の高い属性を現在の検出結果の属性とすることを特徴とする請求項に記載の情報処理装置。 6. The associating means obtains statistical information of attributes in the detection results of predetermined past images, and sets the attribute with the highest frequency of appearance in the statistical information as the attribute of the current detection result. The information processing device described in . 前記第1の属性及び前記第2の属性は、それぞれ、メガネ着用及びメガネ非着用を示すことを特徴とする請求項1~の何れか1項に記載の情報処理装置。 8. The information processing apparatus according to claim 1, wherein the first attribute and the second attribute indicate wearing of glasses and non-wearing of glasses, respectively. 第1の情報処理装置と第2の情報処理装置とを有する情報処理システムであって、
前記第1の情報処理装置は、
第1の画像から、第1の属性と前記第1の属性とは異なる第2の属性とのそれぞれに対応する物体の検出を行う第1の検出手段と、
前記第1の検出手段により前記第1の画像から検出される検出領域であって、前記第1の属性に対応する物体が検出される第1の検出領域と、前記第2の属性に対応する物体が検出される第2の検出領域との重なりを判定する判定手段と、
前記判定手段により前記第1の検出領域と前記第2の検出領域とが重なると判定された場合、前記第1の画像において前記第1の検出領域と前記第2の検出領域とが重なる領域を含む領域に対応する第2の画像を抽出する抽出手段と、
前記第2の画像を用いて前記第2の情報処理装置が物体検出を行った結果、前記第2の画像から前記第1の属性または前記第2の属性に対応する物体が検出された場合、前記第2の画像に対する物体検出の検出結果に基づいて、前記第1の画像に対する前記第1の検出手段による物体検出の検出結果を修正する修正手段と、
前記抽出手段が抽出した前記第2の画像を前記第2の情報処理装置に出力する第1の通信手段と、を有し、
前記第2の情報処理装置は、
前記第1の通信手段により出力される前記第2の画像を拡大することにより得られる画像から、前記第1の属性と前記第2の属性とのそれぞれに対応する物体の検出を行う第2の検出手段と、
前記第2の検出手段による前記画像に対する物体検出の検出結果を、前記第2の画像に対する物体検出の検出結果として前記第1の情報処理装置に出力する第2の通信手段と、を有することを特徴とする情報処理システム。
An information processing system including a first information processing device and a second information processing device,
The first information processing device includes:
a first detection means for detecting objects corresponding to each of a first attribute and a second attribute different from the first attribute from a first image;
a detection area detected from the first image by the first detection means, in which an object corresponding to the first attribute is detected; and a detection area corresponding to the second attribute. determining means for determining an overlap with a second detection area in which the object is detected;
When the determination means determines that the first detection area and the second detection area overlap, the area where the first detection area and the second detection area overlap in the first image is determined. Extracting means for extracting a second image corresponding to the region including;
When the second information processing device performs object detection using the second image and an object corresponding to the first attribute or the second attribute is detected from the second image, a correction means for correcting a detection result of object detection by the first detection means for the first image based on a detection result of object detection for the second image;
a first communication means for outputting the second image extracted by the extraction means to the second information processing device;
The second information processing device includes:
A second method for detecting an object corresponding to each of the first attribute and the second attribute from an image obtained by enlarging the second image output by the first communication means. detection means;
a second communication means for outputting a detection result of object detection on the image by the second detection means to the first information processing device as a detection result of object detection on the second image . An information processing system characterized by:
前記第1の情報処理装置は、撮像装置であり、
前記第2の情報処理装置は、前記撮像装置に接続される他の装置である
ことを特徴とする請求項に記載の情報処理システム。
The first information processing device is an imaging device,
The information processing system according to claim 9 , wherein the second information processing device is another device connected to the imaging device.
第1の画像から、第1の属性と前記第1の属性とは異なる第2の属性とのそれぞれに対応する物体の検出を行う検出工程と、
前記検出工程において前記第1の画像から検出される検出領域であって、前記第1の属性に対応する物体が検出される第1の検出領域と、前記第2の属性に対応する物体が検出される第2の検出領域と、の重なりを判定する判定工程と、
前記判定工程において前記第1の検出領域と前記第2の検出領域とが重なると判定されたことに応じて、前記第1の画像において前記第1の検出領域と前記第2の検出領域とが重なる領域を含む領域を拡大することにより得られる第2の画像に対して前記検出工程において物体検出を行った結果、前記第2の画像から前記第1の属性または前記第2の属性に対応する物体が検出された場合、前記第2の画像に対する物体検出の検出結果に基づいて、前記第1の画像に対する前記検出工程における物体検出の検出結果を修正する修正工程と
を有することを特徴とする情報処理方法。
a detection step of detecting objects corresponding to each of a first attribute and a second attribute different from the first attribute from the first image;
A detection area detected from the first image in the detection step, a first detection area in which an object corresponding to the first attribute is detected, and a first detection area in which an object corresponding to the second attribute is detected. a determination step of determining an overlap between the second detection area and the second detection area;
In response to determining that the first detection area and the second detection area overlap in the determination step, the first detection area and the second detection area overlap in the first image. As a result of performing object detection in the detection step on a second image obtained by enlarging an area including an overlapping area, the object corresponds to the first attribute or the second attribute from the second image. If an object is detected, the method further comprises a correction step of correcting the detection result of object detection in the detection step for the first image based on the detection result of the object detection for the second image. Information processing method.
コンピュータを、請求項1~の何れか1項に記載の情報処理装置として機能させるためのプログラム。 A program for causing a computer to function as the information processing device according to any one of claims 1 to 8 .
JP2022018960A 2021-08-13 2022-02-09 Information processing device, information processing system, information processing method, and program Active JP7459151B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2022/028516 WO2023017723A1 (en) 2021-08-13 2022-07-22 Information processing device, information processing system, information processing method, and program
US18/438,006 US20240265729A1 (en) 2021-08-13 2024-02-09 Information processing apparatus, information processing system, information processing method, and storage medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021132089 2021-08-13
JP2021132089 2021-08-13

Publications (2)

Publication Number Publication Date
JP2023026293A JP2023026293A (en) 2023-02-24
JP7459151B2 true JP7459151B2 (en) 2024-04-01

Family

ID=85252581

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022018960A Active JP7459151B2 (en) 2021-08-13 2022-02-09 Information processing device, information processing system, information processing method, and program

Country Status (1)

Country Link
JP (1) JP7459151B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2025177902A (en) * 2024-05-24 2025-12-05 ミネベアミツミ株式会社 Information processing method, analysis device, imaging system, and analysis system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010176504A (en) 2009-01-30 2010-08-12 Canon Inc Image processor, image processing method, and program
JP2020198053A (en) 2019-06-05 2020-12-10 コニカミノルタ株式会社 Information processing device, information processing method, person search system, and person search method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010176504A (en) 2009-01-30 2010-08-12 Canon Inc Image processor, image processing method, and program
JP2020198053A (en) 2019-06-05 2020-12-10 コニカミノルタ株式会社 Information processing device, information processing method, person search system, and person search method

Also Published As

Publication number Publication date
JP2023026293A (en) 2023-02-24

Similar Documents

Publication Publication Date Title
CN103003842B (en) Moving object detection device, moving object detection method, moving object tracking device, moving object tracking method
JP4597391B2 (en) Facial region detection apparatus and method, and computer-readable recording medium
US10304164B2 (en) Image processing apparatus, image processing method, and storage medium for performing lighting processing for image data
US9256324B2 (en) Interactive operation method of electronic apparatus
WO2017190646A1 (en) Facial image processing method and apparatus and storage medium
JP2012234494A (en) Image processing apparatus, image processing method, and program
CN112396050B (en) Image processing method, device and storage medium
US11720745B2 (en) Detecting occlusion of digital ink
JP2018055367A (en) Image processing device, image processing method, and program
CN114973344A (en) Face detection method, face detection device, terminal equipment and computer readable storage medium
JP2016099643A (en) Image processing device, image processing method, and image processing program
KR102767791B1 (en) Method for warping costume based on cloth-removed image
JP7459151B2 (en) Information processing device, information processing system, information processing method, and program
JP7385416B2 (en) Image processing device, image processing system, image processing method, and image processing program
JP5051671B2 (en) Information processing apparatus, information processing method, and program
EP4550275A1 (en) Image processing apparatus, image processing method, program, and storage medium
US9159118B2 (en) Image processing apparatus, image processing system, and non-transitory computer-readable medium
JP2020035098A (en) Image processing system and information processing method and program
US20240331192A1 (en) Information processing apparatus, orientation estimation method, and storage medium
WO2022185403A1 (en) Image processing device, image processing method, and program
US20240265729A1 (en) Information processing apparatus, information processing system, information processing method, and storage medium
KR102899168B1 (en) Method for estimating three dimension hand pose and augmentation system
JP7799426B2 (en) Information processing device, control method and program for information processing device
JP7799427B2 (en) Information processing device, control method and program for information processing device
US11508083B2 (en) Image processing apparatus, image processing method, and non-transitory computer-readable storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220704

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230516

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230713

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20231017

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240112

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20240125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240319

R151 Written notification of patent or utility model registration

Ref document number: 7459151

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151