JP7464509B2 - OBJECT DETECTION DEVICE, OBJECT DETECTION SYSTEM AND OBJECT DETECTION METHOD - Google Patents
OBJECT DETECTION DEVICE, OBJECT DETECTION SYSTEM AND OBJECT DETECTION METHOD Download PDFInfo
- Publication number
- JP7464509B2 JP7464509B2 JP2020194858A JP2020194858A JP7464509B2 JP 7464509 B2 JP7464509 B2 JP 7464509B2 JP 2020194858 A JP2020194858 A JP 2020194858A JP 2020194858 A JP2020194858 A JP 2020194858A JP 7464509 B2 JP7464509 B2 JP 7464509B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- object detection
- domain
- unit
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Description
本開示は、オブジェクト検出装置、オブジェクト検出システム及びオブジェクト検出方法に関する。 The present disclosure relates to an object detection device, an object detection system, and an object detection method.
近年、IT化の進展に伴い、社会に多数のセンサが配置され、極めて大量のデータが蓄積されている。そうした中、集積された画像データを活用する様々な方策が検討されている。特に、写真、動画、画像等の映像コンテンツが増える中、その映像におけるオブジェクトを自在に特定し、オブジェクトのカテゴリーや位置を正確に検出するニーズが高まっている。 In recent years, with the advancement of IT, numerous sensors have been installed in society and an extremely large amount of data has been accumulated. In this context, various methods for utilizing accumulated image data are being considered. In particular, as the amount of video content, such as photographs, videos, and images, increases, there is a growing need to freely identify objects in the video and accurately detect the object category and position.
オブジェクト検出手段の一つとして、いわゆる深層ニューラルネットワーク(Deep Neural Network;DNN)が知られている。DNNの発展により、オブジェクト検出は、例えばX線画像解析等、様々な場面で活用することが可能となった。 One of the object detection methods is the so-called deep neural network (DNN). With the development of DNN, object detection can now be used in a variety of situations, such as X-ray image analysis.
しかし、DNNで高精度のオブジェクト検出を実現するためには、DNNを訓練するためのラベル付き学習データが大量に必要となり、DNNを応用する場面によっては、このようなラベル付き学習データを入手することが困難な場合や、膨大なコストや労力を要する場合がある。そのため、入手が比較的に容易なドメインの学習データは大量に入手されるのに対して、入手が困難なドメインの学習データは少量となり、学習データが少ないドメインでのオブジェクト検出精度が限定される。 However, to achieve highly accurate object detection using a DNN, a large amount of labeled learning data is required to train the DNN. Depending on the application of the DNN, it may be difficult to obtain such labeled learning data or it may require enormous cost and effort. As a result, while there is a large amount of learning data available for domains that are relatively easy to obtain, there is only a small amount of learning data available for domains that are difficult to obtain, and the accuracy of object detection in domains with little training data is limited.
上記の課題を解決するために、入手しやすいドメインのラベル付き学習データを活用し、DNNを訓練する手段として、例えば特開2019-032821号公報(特許文献1)がある。 To solve the above problems, for example, JP 2019-032821 A (Patent Document 1) discloses a method for training a DNN using easily available labeled learning data from a domain.
特許文献1には「コストがかかり、退屈であり、ミスを起こしやすい手作業による訓練データのラベル付けの必要性を減らす方法を提供する。方法は、対象カメラにより撮影された画像を画風目標画像として用い、あらゆる写実的な入力画像を変換後画像に変換する画風変換を行う画風変換ネットワークを訓練する。変換後画像は、入力画像の内容を有し、入力画像の写実品質が維持されており、画風目標画像の画風と一致する画風である。訓練済みの画風変換ネットワークを用いて、原訓練データセットの訓練画像を変換後訓練画像に変換し、各変換後訓練画像を原訓練データセットの対応する訓練画像の訓練ラベルでラベル付けして、水増し訓練データセットを作成し、水増し訓練データセットを用いて、特定の作業を行うようにディープニューラルネットワーク(DNN)を訓練する」技術が記載されている。
特許文献1では、画風変換ネットワークを用いて、特定のソースドメインに対応するラベル付き画像をターゲットのドメイン(特許文献1に記載の「目標画風」)に変換することで、当該ターゲットドメインに対応するラベル付き画像を取得し、このように取得した画像データを用いてDNNを訓練することが記載されている。
しかし、特許文献1は、ターゲットドメインターゲットドメインに変換した疑似ターゲットドメインの画像(特許文献1に記載の「画風目標画像」)と、実際のターゲットドメインとの間で良好な近似精度が実現できることを前提としており、X線画像等のような、ソースドメインとターゲットドメインとの差が大きい(いわゆる「ドメインギャップ」が存在する)画像の場合、ターゲットドメインに変換した疑似ターゲットドメインの画像のラベルを用いてDNNを訓練したとしても、ターゲットドメインの画像に対するオブジェクト検出精度が限定されてしまう。
However,
そこで、本開示は、入手しやすいドメインのラベル付き学習データを活用し、ソースドメインとターゲットドメインとのドメインギャップを短縮させた上でDNNを訓練する。これによって、本開示は、X線画像等のような、ソースドメインとターゲットドメインとの差が大きい画像の場合であっても、高精度なオブジェクト検出手段を提供することを目的とする。 Therefore, the present disclosure utilizes easily available labeled learning data from domains to train a DNN after shortening the domain gap between the source domain and the target domain. In this way, the present disclosure aims to provide a highly accurate object detection means even for images with a large difference between the source domain and the target domain, such as X-ray images.
上記の課題を解決するために、代表的な本開示のオブジェクト検出装置の一つは、X線画像におけるオブジェクトを検出するためのオブジェクト検出装置であって、ソースドメインに対応するソースドメイン画像と、ターゲットドメインに対応するターゲットドメイン画像とを含む入力画像セットを受け付ける画像入力部と、前記入力画像セットに対するドメイン変換処理を行い、前記ソースドメイン画像を前記ターゲットドメインに変換した疑似ターゲットドメイン画像と、前記ターゲットドメイン画像を前記ソースドメイン画像に変換した疑似ソースドメイン画像とを含む変換画像セットを生成するドメイン変換部と、前記入力画像セットと、前記変換画像セットとで画像ペアを生成するペア生成部と、前記画像ペアに含まれる各画像について、特徴マップを抽出する特徴抽出部と、前記特徴マップに基づいて、前記画像ペアに含まれる各画像におけるオブジェクトのカテゴリー及び位置を示す予測結果を生成する検出予測部と、所定のX線画像を解析することで、前記X線画像におけるオブジェクトのカテゴリー及び位置を示す検出結果を生成するオブジェクト検出部とを含む。 In order to solve the above problem, one representative object detection device of the present disclosure is an object detection device for detecting objects in X-ray images, and includes an image input unit that accepts an input image set including a source domain image corresponding to a source domain and a target domain image corresponding to a target domain, a domain conversion unit that performs a domain conversion process on the input image set to generate a converted image set including a pseudo target domain image obtained by converting the source domain image to the target domain and a pseudo source domain image obtained by converting the target domain image to the source domain image, a pair generation unit that generates image pairs using the input image set and the converted image set, a feature extraction unit that extracts a feature map for each image included in the image pair, a detection prediction unit that generates a prediction result indicating the category and position of an object in each image included in the image pair based on the feature map, and an object detection unit that analyzes a specified X-ray image to generate a detection result indicating the category and position of an object in the X-ray image.
本開示によれば、入手しやすいドメインのラベル付き学習データを活用し、ソースドメインとターゲットドメインとのドメインギャップを短縮させた上でDNNを訓練することで、X線画像等のような、ソースドメインとターゲットドメインとの差が大きい画像の場合であっても、高精度なオブジェクト検出手段を提供することができる。
上記以外の課題、構成及び効果は、以下の発明を実施するための形態における説明により明らかにされる。
According to the present disclosure, by utilizing labeled learning data from easily available domains and shortening the domain gap between the source domain and the target domain before training a DNN, it is possible to provide a highly accurate object detection means even in the case of images with large differences between the source domain and the target domain, such as X-ray images.
Other objects, configurations and effects will become apparent from the following description of the preferred embodiment of the invention.
以下、図面を参照して、本開示の実施形態について説明する。なお、この実施形態により本開示が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。 Hereinafter, an embodiment of the present disclosure will be described with reference to the drawings. Note that the present disclosure is not limited to this embodiment. In addition, in the description of the drawings, the same parts are denoted by the same reference numerals.
上述したように、DNNを訓練するためのラベル付き学習データが大量に必要となり、DNNを応用する場面によっては、このようなラベル付き学習データを入手することが困難な場合や、膨大なコストや労力を要する場合がある。そのため、入手が比較的に容易なドメインの学習データは大量に入手されるのに対して、入手が困難なドメインの学習データは少量となり、学習データが少ないドメインでのオブジェクト検出精度が限定される。
従って、入手が困難なターゲットドメインの学習データを収集せずに、入手しやすいドメイン(以下、「ソースドメイン」という;英:「source domain」)のラベル付き学習データのみを活用し、任意のターゲットドメイン(英:「target domain」)に対して高精度のオブジェクト検出結果を生成できるDNNを訓練する手段があれば望ましい。
As described above, a large amount of labeled learning data is required to train a DNN, and depending on the application of the DNN, it may be difficult to obtain such labeled learning data or it may require huge costs and labor. Therefore, while a large amount of learning data is available for domains that are relatively easy to obtain, the amount of learning data for domains that are difficult to obtain is small, and the object detection accuracy in domains with little learning data is limited.
It would therefore be desirable to have a means to train a DNN that can generate highly accurate object detection results for any target domain (English: “target domain”) using only labeled training data from a domain that is readily available (hereafter referred to as the “source domain”), without collecting training data from the target domain that is difficult to obtain.
ここでの「ドメイン」とは、画像の表示を規定するパラメータの集合を意味する。例えば、画像の色、鮮鋭度(シャープネス)、解像度、明るさ、コントラスト等の各種表示設定は、画像のドメインを規定するパラメータとなる。つまり、ドメインとは、データの集まりを意味するものである。
ソースドメインに対応するソースドメイン画像と、ターゲットドメインに対応するターゲットドメイン画像とで、上述した表示設定のパラメータが大きく相違すると、ソースドメインとターゲットドメインとの間でいわゆる「ドメインギャップ」が存在する。
Here, "domain" refers to a set of parameters that define the display of an image. For example, various display settings such as color, sharpness, resolution, brightness, and contrast of an image are parameters that define the domain of an image. In other words, a domain refers to a collection of data.
When the display setting parameters described above differ significantly between a source domain image corresponding to the source domain and a target domain image corresponding to the target domain, a so-called "domain gap" exists between the source domain and the target domain.
このようなドメインギャップが存在すると、例えばオブジェクト検出用のDNNがソースドメインのラベル付きデータによって訓練されたとしても、ラベル無しのドメインであるターゲットドメインの画像に対しては高精度のオブジェクト検出結果を生成することができない。 When such a domain gap exists, for example, even if a DNN for object detection is trained with labeled data in the source domain, it cannot generate highly accurate object detection results for images in the target domain, which is an unlabeled domain.
そこで、上記の課題を鑑み、本開示の実施形態では、ラベル付きのソースドメイン画像及びラベル無しのターゲットドメイン画像を含む入力画像セットに加えて、ソースドメイン画像をターゲットドメインに変換した疑似ターゲットドメイン画像と、ターゲットドメイン画像をソースドメインに変換した疑似ソースドメイン画像とを含む変換画像セット用いてオブジェクト検出用のDNNを訓練する。これによって、本開示の実施形態では、ソースドメインとターゲットドメインとのドメインギャップを短縮すると共に、ターゲットドメインの画像についても高精度のオブジェクト検出結果を生成することができる。 In view of the above problems, in an embodiment of the present disclosure, in addition to an input image set including labeled source domain images and unlabeled target domain images, a DNN for object detection is trained using a transformed image set including pseudo target domain images in which source domain images are transformed into the target domain, and pseudo source domain images in which target domain images are transformed into the source domain. As a result, in an embodiment of the present disclosure, it is possible to shorten the domain gap between the source domain and the target domain, and to generate highly accurate object detection results for images in the target domain.
次に、図1を参照して、本開示の実施形態を実施するためのコンピュータシステム300について説明する。本明細書で開示される様々な実施形態の機構及び装置は、任意の適切なコンピューティングシステムに適用されてもよい。コンピュータシステム300の主要コンポーネントは、1つ以上のプロセッサ302、メモリ304、端末インターフェース312、ストレージインタフェース314、I/O(入出力)デバイスインタフェース316、及びネットワークインターフェース318を含む。これらのコンポーネントは、メモリバス306、I/Oバス308、バスインターフェースユニット309、及びI/Oバスインターフェースユニット310を介して、相互的に接続されてもよい。
Next, referring to FIG. 1, a
コンピュータシステム300は、プロセッサ302と総称される1つ又は複数の汎用プログラマブル中央処理装置(CPU)302A及び302Bを含んでもよい。ある実施形態では、コンピュータシステム300は複数のプロセッサを備えてもよく、また別の実施形態では、コンピュータシステム300は単一のCPUシステムであってもよい。各プロセッサ302は、メモリ304に格納された命令を実行し、オンボードキャッシュを含んでもよい。
ある実施形態では、メモリ304は、データ及びプログラムを記憶するためのランダムアクセス半導体メモリ、記憶装置、又は記憶媒体(揮発性又は不揮発性のいずれか)を含んでもよい。メモリ304は、本明細書で説明する機能を実施するプログラム、モジュール、及びデータ構造のすべて又は一部を格納してもよい。例えば、メモリ304は、オブジェクト検出アプリケーション350を格納していてもよい。ある実施形態では、オブジェクト検出アプリケーション350は、後述する機能をプロセッサ302上で実行する命令又は記述を含んでもよい。
In some embodiments,
ある実施形態では、オブジェクト検出アプリケーション350は、プロセッサベースのシステムの代わりに、またはプロセッサベースのシステムに加えて、半導体デバイス、チップ、論理ゲート、回路、回路カード、および/または他の物理ハードウェアデバイスを介してハードウェアで実施されてもよい。ある実施形態では、オブジェクト検出アプリケーション350は、命令又は記述以外のデータを含んでもよい。ある実施形態では、カメラ、センサ、または他のデータ入力デバイス(図示せず)が、バスインターフェースユニット309、プロセッサ302、またはコンピュータシステム300の他のハードウェアと直接通信するように提供されてもよい。
In some embodiments, the
コンピュータシステム300は、プロセッサ302、メモリ304、表示システム324、及びI/Oバスインターフェースユニット310間の通信を行うバスインターフェースユニット309を含んでもよい。I/Oバスインターフェースユニット310は、様々なI/Oユニットとの間でデータを転送するためのI/Oバス308と連結していてもよい。I/Oバスインターフェースユニット310は、I/Oバス308を介して、I/Oプロセッサ(IOP)又はI/Oアダプタ(IOA)としても知られる複数のI/Oインタフェースユニット312,314,316、及び318と通信してもよい。
表示システム324は、表示コントローラ、表示メモリ、又はその両方を含んでもよい。表示コントローラは、ビデオ、オーディオ、又はその両方のデータを表示装置326に提供することができる。また、コンピュータシステム300は、データを収集し、プロセッサ302に当該データを提供するように構成された1つまたは複数のセンサ等のデバイスを含んでもよい。
The
例えば、コンピュータシステム300は、心拍数データやストレスレベルデータ等を収集するバイオメトリックセンサ、湿度データ、温度データ、圧力データ等を収集する環境センサ、及び加速度データ、運動データ等を収集するモーションセンサ等を含んでもよい。これ以外のタイプのセンサも使用可能である。表示システム324は、単独のディスプレイ画面、テレビ、タブレット、又は携帯型デバイスなどの表示装置326に接続されてもよい。
For example,
I/Oインタフェースユニットは、様々なストレージ又はI/Oデバイスと通信する機能を備える。例えば、端末インタフェースユニット312は、ビデオ表示装置、スピーカテレビ等のユーザ出力デバイスや、キーボード、マウス、キーパッド、タッチパッド、トラックボール、ボタン、ライトペン、又は他のポインティングデバイス等のユーザ入力デバイスのようなユーザI/Oデバイス320の取り付けが可能である。ユーザは、ユーザインターフェースを使用して、ユーザ入力デバイスを操作することで、ユーザI/Oデバイス320及びコンピュータシステム300に対して入力データや指示を入力し、コンピュータシステム300からの出力データを受け取ってもよい。ユーザインターフェースは例えば、ユーザI/Oデバイス320を介して、表示装置に表示されたり、スピーカによって再生されたり、プリンタを介して印刷されたりしてもよい。
The I/O interface unit provides the ability to communicate with various storage or I/O devices. For example, the
ストレージインタフェース314は、1つ又は複数のディスクドライブや直接アクセスストレージ装置322(通常は磁気ディスクドライブストレージ装置であるが、単一のディスクドライブとして見えるように構成されたディスクドライブのアレイ又は他のストレージ装置であってもよい)の取り付けが可能である。ある実施形態では、ストレージ装置322は、任意の二次記憶装置として実装されてもよい。メモリ304の内容は、ストレージ装置322に記憶され、必要に応じてストレージ装置322から読み出されてもよい。I/Oデバイスインタフェース316は、プリンタ、ファックスマシン等の他のI/Oデバイスに対するインターフェースを提供してもよい。ネットワークインターフェース318は、コンピュータシステム300と他のデバイスが相互的に通信できるように、通信経路を提供してもよい。この通信経路は、例えば、ネットワーク330であってもよい。
The
ある実施形態では、コンピュータシステム300は、マルチユーザメインフレームコンピュータシステム、シングルユーザシステム、又はサーバコンピュータ等の、直接的ユーザインターフェースを有しない、他のコンピュータシステム(クライアント)からの要求を受信するデバイスであってもよい。他の実施形態では、コンピュータシステム300は、デスクトップコンピュータ、携帯型コンピュータ、ノートパソコン、タブレットコンピュータ、ポケットコンピュータ、電話、スマートフォン、又は任意の他の適切な電子機器であってもよい。
In some embodiments,
次に、図2を参照して、本開示の実施形態に係るオブジェクト検出システムについて説明する。 Next, an object detection system according to an embodiment of the present disclosure will be described with reference to FIG.
図2は、本開示の実施形態に係るオブジェクト検出システム200の構成の一例を示す図である。図2に示すように、本開示に係るオブジェクト検出システム200は、主にX線装置211、通信ネットワーク202、及びオブジェクト検出装置201からなる。X線装置211及びオブジェクト検出装置201は、通信ネットワーク202を介して接続されている。
FIG. 2 is a diagram showing an example of the configuration of an
通信ネットワーク202は、例えばローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、衛星ネットワーク、ケーブルネットワーク、Wi―Fiネットワーク、またはそれらの任意の組み合わせを含むものであってもよい。また、X線装置211とオブジェクト検出装置201の接続は、有線であってもよく、無線であってもよい。
The
X線装置211は、X線画像を撮影する装置である。X線装置211は、例えばX線を放射するX線発生器と、反射するX線を検出し、解析するX線検出器とからなる。本開示に係るX線装置211の種類は特に限定されず、荷物用のX線装置であってもよく、後方散乱X線検査装置であってもよく、医療用のX線装置であってもよい。X線装置211は、所定の被写体のX線画像を撮影し、通信ネットワーク202を介してオブジェクト検出装置201に送信するように構成されている。
なお、図2では、X線画像を処理する構成として、X線装置211を含む場合の構成を一例として示しているが、本開示はこれに限定されず、X線装置211は、例えば任意のカメラ、センサ、又はオブジェクト検出の対象となる入力画像を提供する他の装置であってもよい。
The
Note that FIG. 2 shows an example of a configuration for processing X-ray images that includes an
オブジェクト検出装置201は、例えばX線装置211から送信されるX線画像におけるオブジェクトのカテゴリー及び位置を検出するためのコンピューティングデバイスである。オブジェクト検出装置201は、例えばデスクトップコンピュータ、サーバコンピュータ、ラップトップコンピューター、タブレットコンピュータ、ワークステーション、携帯端末、または他の種類のコンピューティングデバイスとして構成されてもよい。
The object detection device 201 is a computing device for detecting the category and location of an object in, for example, an X-ray image transmitted from the
図2に示すように、オブジェクト検出装置201は、メモリ207に格納された命令を実行するためのプロセッサ203と、オブジェクト検出装置201の内部・外部デバイス間の通信を制御するためのI/Oインターフェース204と、通信ネットワーク202を介しての通信を制御するためのネットワークインターフェース205と、ユーザからの入力を受け付けるためのユーザI/Oインターフェース206と、本開示の実施形態に係るオブジェクト検出手段のそれぞれの機能を実行するための機能部を格納するメモリ207と、これらの構成要素の双方通信を制御するためのバス212とを含む。
As shown in FIG. 2, the object detection device 201 includes a
また、図2に示すように、オブジェクト検出装置201のメモリ207は、ソースドメインに対応するソースドメイン画像と、ターゲットドメインに対応するターゲットドメイン画像とを含む入力画像セットや、X線装置から送信されるX線画像等を受け付ける画像入力部208と、入力画像セットに対するドメイン変換処理を行い、ソースドメイン画像をターゲットドメインに変換した疑似ターゲットドメイン画像と、ターゲットドメイン画像をソースドメイン画像に変換した疑似ソースドメイン画像とを含む変換画像セットを生成するドメイン変換部210と、高精度の疑似ターゲットドメイン画像及び疑似ソースドメイン画像を生成するようにドメイン変換部210を学習するドメイン変換学習部215と、検出精度を向上させるようにオブジェクト検出部220を学習するオブジェクト検出学習部225と、学習された後、X線装置211から送信されるX線画像におけるオブジェクトのカテゴリーや位置を検出するオブジェクト検出部220と、ソースドメイン画像を格納するためのソースドメイン画像ストレージ部230と、ターゲットドメイン画像を格納するためのターゲットドメイン画像ストレージ部235と、疑似ソースドメイン画像を格納するための疑似ソースドメイン画像ストレージ部240と、疑似ターゲットドメイン画像を格納するための疑似ターゲットドメイン画像ストレージ部245とを含む。
As shown in FIG. 2, the
本開示の実施形態に係るオブジェクト検出部220は、深層ニューラルネットワークとして構成されてもよい。後述するように、ラベル付きのソースドメイン画像及びラベル無しのターゲットドメイン画像を含む入力画像セットに加えて、ソースドメイン画像をターゲットドメインに変換した疑似ターゲットドメイン画像と、ターゲットドメイン画像をソースドメインに変換した疑似ソースドメイン画像とを含む変換画像セット用いてオブジェクト検出部220となる深層ニューラルネットワークを訓練することで、ソースドメインとターゲットドメインとのドメインギャップを短縮すると共に、ターゲットドメインの画像についても高精度のオブジェクト検出結果を生成することができる。
The
なお、オブジェクト検出装置201に含まれるそれぞれの機能部は、図1に示すコンピュータシステム300におけるオブジェクト検出アプリケーション350を構成するソフトウエアモジュールであってもよく、独立した専用ハードウェアデバイスであってもよい。また、上記の機能部は、同一のコンピューティング環境に実施されてもよく、分散されたコンピューティング環境に実施されてもよい。
Each functional unit included in the object detection device 201 may be a software module constituting the
以上説明したオブジェクト検出システム200によれば、入手しやすいドメインのラベル付き学習データを活用し、ソースドメインとターゲットドメインとのドメインギャップを短縮させた上でDNNを訓練することで、通信ネットワーク202を介してX線装置211等の外部装置から受信したX線画像におけるオブジェクトのカテゴリー及び位置を検出することができる。
According to the
次に、図3を参照して、本開示の実施形態に係るX線画像について説明する。 Next, referring to FIG. 3, we will explain the X-ray image according to an embodiment of the present disclosure.
図3は、本開示の実施形態に係るX線画像の一例を示す図である。
上述したように、本開示の実施形態に係るオブジェクト検出装置(例えば、図2に示すオブジェクト検出装置201)は、ソースドメイン(例えば、ラベル付き学習データが豊富なドメイン)に対応するラベル付き画像であるソースドメイン画像と、ターゲットドメイン(例えば、ラベル付き学習データが少ないドメイン)に対応するラベル無し画像であるターゲットドメイン画像とを入力とする。これらのソースドメイン画像と、ターゲットドメイン画像は、後述するように、オブジェクト検出装置を訓練する際に用いられる学習データの一部となる。
FIG. 3 is a diagram illustrating an example of an X-ray image according to an embodiment of the present disclosure.
As described above, an object detection device according to an embodiment of the present disclosure (e.g., the object detection device 201 shown in FIG. 2 ) receives as input a source domain image, which is a labeled image corresponding to a source domain (e.g., a domain with a wealth of labeled training data), and a target domain image, which is an unlabeled image corresponding to a target domain (e.g., a domain with a small amount of labeled training data). These source domain image and target domain image become part of the training data used to train the object detection device, as described below.
図3は、本開示の実施形態に係るソースドメイン画像361及びターゲットドメイン画像362の一例を示す。ソースドメイン画像361は、ラベル付きの画像であるため、ソースドメイン画像361における各オブジェクトのカテゴリー及び位置を示すメタデータは、ソースドメイン画像361に添付されている。
一方、ターゲットドメイン画像362は、ラベル無しの画像であるため、ターゲットドメイン画像362における各オブジェクトのカテゴリー及び位置が不明である。
3 illustrates an example of a
On the other hand, the
ソースドメイン画像361及びターゲットドメイン画像362は、例えば、異なるX線装置によって撮影された、又は、同一のX線装置で異なる撮影設定で撮影されたため、ドメインが異なるX線画像となっている。このため、ソースドメイン画像361とターゲットドメイン画像362とで、色、鮮鋭度(シャープネス)等、様々な表示設定が相違しており、ソースドメインとターゲットドメインとの間でいわゆる「ドメインギャップ」が存在する。
The
このようなドメインギャップが存在すると、例えばオブジェクト検出用のDNNがソースドメインのラベル付きデータによって訓練されたとしても、ラベル無しのドメインであるターゲットドメインの画像に対しては高精度のオブジェクト検出結果を生成することができない。
そこで、後述するように、本開示では、ソースドメインとターゲットドメインとの距離を短縮し、ドメインギャップを縮小することで、ラベル無しのドメインの画像に対しても、高精度のオブジェクト検出結果を生成することが可能となる。
When such a domain gap exists, for example, even if a DNN for object detection is trained with labeled data in the source domain, it cannot generate highly accurate object detection results for images in the target domain, which is an unlabeled domain.
Therefore, as described below, in the present disclosure, by shortening the distance between the source domain and the target domain and reducing the domain gap, it becomes possible to generate highly accurate object detection results even for images in an unlabeled domain.
次に、図4を参照して、本開示の実施形態に係るオブジェクト検出装置におけるオブジェクト検出学習部の論理構成について説明する。 Next, with reference to FIG. 4, the logical configuration of the object detection learning unit in the object detection device according to an embodiment of the present disclosure will be described.
図4は、本開示の実施形態に係るオブジェクト検出装置201におけるオブジェクト検出学習部225の論理構成を示す図である。
上述したように、本開示の実施形態に係るオブジェクト検出装置201におけるオブジェクト検出学習部225は、検出精度を向上させるようにオブジェクト検出部(例えば、図2に示すオブジェクト検出部220)のパラメータを調整することでオブジェクト検出部を訓練するための機能部である。
FIG. 4 is a diagram illustrating a logical configuration of the object detection learning unit 225 in the object detection device 201 according to an embodiment of the present disclosure.
As described above, the object detection learning unit 225 in the object detection device 201 according to an embodiment of the present disclosure is a functional unit for training the object detection unit (e.g., the
図4に示すように、オブジェクト検出学習部225は、ペア生成部365、特徴抽出部368、画像乖離度計算部369、適応損失計算部370、検出予測部371、検出損失計算部372、及びパラメータ更新部373を含む。
As shown in FIG. 4, the object detection learning unit 225 includes a
まず、ペア生成部365は、ソースドメイン画像361と、ターゲットドメイン画像362とを含む入力画像セットと、当該入力画像セットに対するドメイン変換処理を施すことによって得られる、疑似ソースドメイン画像363と、疑似ターゲットドメイン画像364とを含む変換画像セットとを入力する。図3を参照して説明したように、ソースドメイン画像361は、所定のソースドメインに対応するラベル付き画像であり、ターゲットドメイン画像362は、ソースドメインと異なるドメインであるターゲットドメインに対応するラベル無し画像である。
なお、図4では、説明の便宜上、ペア生成部365は、ソースドメイン画像361と、ターゲットドメイン画像362、疑似ソースドメイン画像363、及び疑似ターゲットドメイン画像364を1つずつ入力する場合を一例として示しているが、本開示はこれに限定されない。実際には、ペア生成部365は、ソースドメイン画像361と、ターゲットドメイン画像362、疑似ソースドメイン画像363、及び疑似ターゲットドメイン画像364のそれぞれについて、複数の画像を含むバッチを入力してもよい。
First, the
4, for convenience of explanation, the
疑似ソースドメイン画像363は、上述したドメイン変換部(例えば、図2に示すドメイン変換部210)を用いて、ターゲットドメイン画像362をソースドメインに変換することで得られた画像である。
なお、疑似ソースドメイン画像363は、ラベル無しの画像であるターゲットドメイン画像362から変換された画像であるため、ターゲットドメイン画像362と同様に、ラベル無しの画像である。
The pseudo
Note that the pseudo
疑似ターゲットドメイン画像364は、上述したドメイン変換部を用いて、ソースドメイン画像361をターゲットドメインに変換することで得られた画像である。
なお、疑似ターゲットドメイン画像364は、ラベル付きの画像であるソースドメイン画像361から変換された画像であるため、ソースドメイン画像361と同様に、ラベル付きの画像である。また、本開示では、入力画像セットに対するドメイン変換処理を施すことで得られる変換画像セットにおける各画像を「疑似」と呼ぶのは、実際のソースドメイン及びターゲットドメインと完全には一致しないからである。
The pseudo
Note that the pseudo
ソースドメイン画像361と、ターゲットドメイン画像362と、疑似ソースドメイン画像363と、疑似ターゲットドメイン画像364とを入力したペア生成部365は、画像ペアを生成する。より具体的には、ペア生成部365は、入力画像セットに含まれる各画像と、変換画像セットに含まれる各画像とを組み合わせたペアを生成してもよい。また、ペア生成部365は、
入力画像セットと、変換画像セットとの中から、撮影内容(オブジェクトのカテゴリーや配置)が所定の類似度基準を満たす画像をポジティブペア366とし、入力画像セットと、変換画像セットとの中から、撮影内容が所定の類似度基準を満たさない画像をネガティブペア367とする。
なお、画像ペアの詳細については、図6を参照して説明するため、ここではその説明を省略する。
The
From the input image set and the transformed image set, images whose photographic contents (object category and arrangement) satisfy a predetermined similarity standard are designated as
The image pair will be described in detail with reference to FIG. 6, and therefore will not be described here.
特徴抽出部368は、ペア生成部によって生成された画像ペアを入力した後、これらの画像ペアに含まれる各画像について、特徴マップを抽出する。ここでは、画像ペアに含まれる各画像の特徴マップを抽出する手段は、例えばいわゆる畳み込みニューラルネットワーク等の既存の手段を用いてもよく、本開示では特に限定されない。特徴抽出部368によって作成される各画像の特徴マップは、画像乖離度計算部369と、検出予測部371とに転送される。
The
画像乖離度計算部369は、各画像ペアに含まれるそれぞれの画像の特徴マップを比較することで、当該画像ペアのそれぞれの画像の特徴分布の乖離度を計算する。ここでの乖離度とは、画像の特徴分布の距離を示す値であり、画像ペアの特徴分布の乖離度が大きい程、上述したドメインギャップが大きいことを示す。
なお、画像ペアの特徴分布の乖離度の計算の詳細については後述するため、ここではその説明を省略する。
The image
The details of the calculation of the degree of deviation of the feature distribution of an image pair will be described later, and therefore will not be described here.
適応損失計算部370は、ペア生成部365によって生成される画像ペアの中で、ポジティブペアの乖離度を減算させる第1の適応損失パラメータと、ネガティブペアの乖離度を向上させる第2の適応損失パラメータとを計算する。
なお、適応損失パラメータの計算の詳細については後述するため、ここではその説明を省略する。
The adaptive
The calculation of the adaptive loss parameters will be described in detail later, and therefore will not be described here.
検出予測部371は、特徴抽出部368によって生成された各画像ペアの特徴マップから、各画像におけるオブジェクトのカテゴリー及び位置を予測し、オブジェクトの予測したカテゴリー及び位置を示す予測結果を生成する。ここでの検出予測部371として、例えばオブジェクト検出部220を構成する深層ニューラルネットワークを訓練前の状態で用いてもよい。
The
検出損失計算部372は、検出予測部371によって生成された予測結果と、オブジェクトの実際のカテゴリー及び実際の位置を示すグラウンドトゥルースとを比較することで、検出予測部371による検出損失を示す検出損失パラメータを計算する。
なお、検出損失パラメータの計算の詳細については後述するため、ここではその説明を省略する。
The detection
The details of the calculation of the detection loss parameter will be described later, and therefore will not be described here.
パラメータ更新部373は、適応損失計算部370によって計算される第1の適応損失パラメータ及び第2の適応損失パラメータと、検出損失計算部372によって計算される検出損失パラメータに基づいて、オブジェクト検出部(例えば、図2に示すオブジェクト検出部220)を構成する深層ニューラルネットワークのパラメータを調整することで、オブジェクト検出部を訓練する。
The
以上説明したオブジェクト検出学習部225の構成によれば、適応損失パラメータと、検出損失パラメータとに基づいてオブジェクト検出部を訓練することで、オブジェクト検出部は、予測結果とグラウンドトゥルースとの差を最小化するように学習され、ターゲットドメインの画像についても、高精度のオブジェクト検出結果を生成することができるようになる。また、このように、入手しやすいドメインのラベル付き学習データのみを用いてオブジェクト検出部を訓練することができるため、入手が困難なターゲットドメインの学習データを収集することが不要となり、深層ニューラルネットワークによるオブジェクト検出手段を導入するコストを抑えることができる。 According to the configuration of the object detection learning unit 225 described above, by training the object detection unit based on the adaptation loss parameter and the detection loss parameter, the object detection unit is trained to minimize the difference between the prediction result and the ground truth, and can generate highly accurate object detection results for images in the target domain. In this way, the object detection unit can be trained using only labeled learning data from easily available domains, eliminating the need to collect learning data from the target domain that is difficult to obtain, and reducing the cost of introducing an object detection means using a deep neural network.
次に、図5を参照して、本開示の実施形態に係るドメイン変換部によるドメイン変換処理について説明する。 Next, referring to FIG. 5, the domain conversion process performed by the domain conversion unit according to an embodiment of the present disclosure will be described.
図5は、本開示の実施形態に係るドメイン変換部210によるドメイン変換処理の一例を示す図である。上述したように、本開示の実施形態に係るドメイン変換部210は、ソースドメイン(例えば、ラベル付き学習データが豊富なドメイン)に対応するラベル付き画像であるソースドメイン画像505をターゲットドメインに変換した疑似ターゲットドメイン画像511と、ターゲットドメイン(例えば、ラベル付き学習データが少ないドメイン)に対応するラベル無し画像であるターゲットドメイン画像507をソースドメインに変換した疑似ソースドメイン画像509とを生成する。
FIG. 5 is a diagram illustrating an example of a domain conversion process by the
図5は、本開示の実施形態に係るソースドメイン画像505、ターゲットドメイン画像507、疑似ソースドメイン画像509、及び疑似ターゲットドメイン画像511の一例をしている。また、図5に示す各画像における三角及び丸は、画像における2種類のカテゴリーのオブジェクト(例えば、水筒と腕時計)を示している。
なお、図5では、説明の便宜上、2種類のカテゴリーのオブジェクトを含む画像を一例として示しているが、本開示はこれに限定されず、任意の数のカテゴリーを含む画像であってもよい。
5 shows an example of a
Note that, for convenience of explanation, FIG. 5 shows an example of an image including objects of two categories, but the present disclosure is not limited to this, and the image may include any number of categories.
ソースドメイン画像505とターゲットドメイン画像507とは、例えば、異なるX線装置によって撮影された、又は、同一のX線装置で異なる撮影設定で撮影されたため、ドメインが異なるX線画像となっている。このため、ソースドメイン画像505とターゲットドメイン画像507とで、色、鮮鋭度(シャープネス)等、様々な表示設定が相違しており、ソースドメインとターゲットドメインとの間ではドメインギャップが存在し、それぞれの画像の特徴分布が大きく乖離している。
The
このようなドメインギャップが存在すると、例えばオブジェクト検出用のDNNがソースドメインのラベル付きデータによって訓練されたとしても、ラベル無しのドメインであるターゲットドメインの画像に対しては高精度のオブジェクト検出結果を生成することができない。
そこで、本開示では、ドメイン変換部を用いて、それぞれの画像に対するドメイン変換処理を行うことで、ドメインギャップを短縮し、ソースドメインとターゲットドメインとを接近させることができる。
When such a domain gap exists, for example, even if a DNN for object detection is trained with labeled data in the source domain, it cannot generate highly accurate object detection results for images in the target domain, which is an unlabeled domain.
Therefore, in the present disclosure, a domain conversion unit is used to perform domain conversion processing on each image, thereby shortening the domain gap and bringing the source domain and the target domain closer to each other.
本開示に係るドメイン変換処理では、ドメイン変換部は、画像におけるオブジェクトの位置等を変えずに、それぞれの画像の色、明るさ、鮮鋭度(シャープネス)等の表示設定パラメータを、他方の画像のドメインに整合させるように調整する。より具体的には、ドメイン変換部210は、ソースドメイン画像505の色、明るさ、鮮鋭度等をターゲットドメインに整合させるように調整し、疑似ターゲットドメイン画像511を生成する。同様に、ドメイン変換部210は、ターゲットドメイン画像507の色、明るさ、鮮鋭度等の表示設定パラメータをソースドメインに整合させるように調整し、疑似ソースドメイン画像509を生成する。
In the domain conversion process according to the present disclosure, the domain conversion unit adjusts the display setting parameters such as color, brightness, sharpness, etc. of each image to match the domain of the other image without changing the positions of objects in the images. More specifically, the
このドメイン変換処理によれば、画像間のドメインギャップが短縮される。また、このように画像間のドメインギャップが短縮された画像をオブジェクト検出用のDNNを訓練するために用いることで、例えばターゲットドメインに対応する大量の学習データを収集しなくても、ターゲットドメインの画像にについて高精度のオブジェクト検出結果を生成することが可能となる。 This domain conversion process reduces the domain gap between images. In addition, by using images with a reduced domain gap to train a DNN for object detection, it becomes possible to generate highly accurate object detection results for images in the target domain, for example, without collecting a large amount of training data corresponding to the target domain.
次に、図6を参照して、本開示の実施形態に係る画像ペア生成部による画像ペア生成処理について説明する。 Next, the image pair generation process performed by the image pair generation unit according to an embodiment of the present disclosure will be described with reference to FIG. 6.
図6は、本開示の実施形態に係るペア生成部による画像ペア生成処理の一例を示す図である。上述したように、本開示の実施形態に係る画像ペア生成部(例えば、図4に示す画像ペア生成部365)は、ソースドメイン画像と、ターゲットドメイン画像とを含む入力画像セットと、疑似ソースドメイン画像と、疑似ターゲットドメイン画像とを含む変換画像セットとを入力し、入力画像セットに含まれる各画像と、変換画像セットに含まれる各画像とを組み合わせたペアを生成してもよい。
FIG. 6 is a diagram showing an example of an image pair generation process by a pair generation unit according to an embodiment of the present disclosure. As described above, an image pair generation unit according to an embodiment of the present disclosure (e.g., image
一例として、ソースドメイン画像605A、ソースドメイン画像605B、及びソースドメイン画像605Cとの3つのソースドメイン画像と、これらの3つのソースドメイン画像をターゲットドメインに変換した疑似ターゲットドメイン画像610A、疑似ターゲットドメイン画像610B、及び疑似ターゲットドメイン画像610Cとの3つのターゲットドメイン画像があるとする。この場合、画像ペア生成部は、ソースドメイン画像605Aと疑似ターゲットドメイン画像610A、ソースドメイン画像605Aと疑似ターゲットドメイン画像610B、ソースドメイン画像605Aと疑似ターゲットドメイン画像610C、ソースドメイン画像605Bと疑似ターゲットドメイン画像610A、ソースドメイン画像605Bと疑似ターゲットドメイン画像610B、ソースドメイン画像605Bと疑似ターゲットドメイン画像610C、ソースドメイン画像605Cと疑似ターゲットドメイン画像610A、ソースドメイン画像605Cと疑似ターゲットドメイン画像610B、及びソースドメイン画像605Cと疑似ターゲットドメイン画像610Cとの9つの画像ペアを生成する。
As an example, suppose there are three source domain images, source domain image 605A,
また、画像ペア生成部は、この9つのペアの中から、撮影内容(オブジェクトの形状や配置)が所定の類似度基準を満たす画像をポジティブペア612とし、撮影内容が所定の類似度基準を満たさない画像をネガティブペア614とする。ここでの類似度基準とは、ユーザに予め設定されてもよい。また、画像の類似度は、既存の画像類似度アルゴリズムによって判定されてもよく、ここでは特に限定されない。
図5では、ポジティブペア612は実線で示され、ネガティブペア614は点線で示される。このように、それぞれのソースドメイン画像と、当該ソースドメイン画像から生成された疑似ターゲットドメイン画像とがポジティブペア612となり、それ以外の画像の組み合わせはネガティブペア614となる。
Furthermore, from among these nine pairs, the image pair generating unit selects images whose photographed contents (shape and arrangement of objects) satisfy a predetermined similarity standard as a
5,
より具体的には、ソースドメイン画像605Aと疑似ターゲットドメイン画像610A、ソースドメイン画像605Bと疑似ターゲットドメイン画像610B、及びソースドメイン画像605Cと疑似ターゲットドメイン画像610Cとがポジティブペア612となり、ソースドメイン画像605Aと疑似ターゲットドメイン画像610B、ソースドメイン画像605Aと疑似ターゲットドメイン画像610C、ソースドメイン画像605Bと疑似ターゲットドメイン画像610A、ソースドメイン画像605Bと疑似ターゲットドメイン画像610C、ソースドメイン画像605Cと疑似ターゲットドメイン画像610A、及びソースドメイン画像605Cと疑似ターゲットドメイン画像610Bとがネガティブペア614となる。
More specifically, the source domain image 605A and the pseudo
後述するように、ペア生成部によって生成される画像ペアの中で、ポジティブペア612の乖離度を減算させ、ネガティブペア614の乖離度を向上させることで、オブジェクトのカテゴリーの識別力(つまり、検出精度)を高めつつ、ドメインギャップを短縮することができる。
As described below, by subtracting the degree of deviation of the
次に、図7を参照して、本開示の実施形態に係るドメインギャップ短縮について説明する。 Next, referring to FIG. 7, we will explain domain gap shortening according to an embodiment of the present disclosure.
図7は、本開示の実施形態に係るドメインギャップ短縮の一例を示す図である。上述したように、本開示の実施形態に係る適応損失計算部(例えば、図3に示す適応損失計算部370)と、検出損失計算部(例えば、図3に示す検出損失計算部372)とによって生成されるパラメータに基づいてオブジェクト検出部のパラメータを更新することで、異なるドメインに対応する画像のドメインギャップを短縮することができる。
FIG. 7 is a diagram illustrating an example of domain gap shortening according to an embodiment of the present disclosure. As described above, the parameters of the object detection unit are updated based on parameters generated by an adaptive loss calculation unit (e.g., adaptive
図7は、適応損失計算部及び検出損失計算部によるドメインギャップ短縮の一例を示す。上述したように、適応損失計算部は、ペア生成部によって生成される画像ペアの中で、ポジティブペアの乖離度を減算させる第1の適応損失パラメータと、ネガティブペアの乖離度を向上させる第2の適応損失パラメータとを計算し、オブジェクト検出部は、これらのパラメータに基づいて訓練される。
これにより、図7に示すように、ポジティブペアの乖離度を減算させると、ソースドメイン画像505及び疑似ターゲットドメイン画像511と、ターゲットドメイン画像507及び疑似ソースドメイン画像509との間で、同一のカテゴリーの特徴分布が互いに接近する。また、ネガティブペアの乖離度を向上させると、ソースドメイン画像505及び疑似ターゲットドメイン画像511と、ターゲットドメイン画像507及び疑似ソースドメイン画像509との間で、異なるカテゴリーの特徴分布が更に乖離する。
7 shows an example of domain gap shortening by the adaptive loss calculation unit and the detection loss calculation unit. As described above, the adaptive loss calculation unit calculates a first adaptive loss parameter that reduces the disparity of a positive pair and a second adaptive loss parameter that improves the disparity of a negative pair among the image pairs generated by the pair generation unit, and the object detection unit is trained based on these parameters.
7, when the deviation degree of the positive pair is subtracted, the feature distributions of the same category between the
また、検出損失計算部は、上述したように、検出予測部によって生成された予測結果と、オブジェクトの実際のカテゴリー及び実際の位置を示すグラウンドトゥルースとを比較することで、検出損失パラメータを計算し、オブジェクト検出部は、このパラメータに基づいて訓練される。これにより、オブジェクト検出部は、異なるカテゴリーをより高精度で認識できるようになる。 As described above, the detection loss calculation unit also calculates a detection loss parameter by comparing the prediction result generated by the detection prediction unit with ground truth indicating the actual category and actual location of the object, and the object detection unit is trained based on this parameter. This allows the object detection unit to recognize different categories with higher accuracy.
このように、適応損失計算部及び検出損失計算部によるパラメータを用いてオブジェクト検出部のパラメータを更新し、画像のドメインギャップを短縮することで、オブジェクト検出部は、ラベル無しのターゲットドメインの画像に対しても、高精度のオブジェクト検出結果を生成することができるようになる。 In this way, by updating the parameters of the object detection unit using the parameters from the adaptive loss calculation unit and the detection loss calculation unit and shortening the image domain gap, the object detection unit can generate highly accurate object detection results even for unlabeled target domain images.
次に、図8を参照して、本開示の実施形態に係るオブジェクト検出部訓練方法について説明する。 Next, with reference to FIG. 8, a method for training an object detection unit according to an embodiment of the present disclosure will be described.
図8は、本開示の実施形態に係るオブジェクト検出部訓練方法800の一例を示す図である。図8に示すオブジェクト検出部訓練方法800は、例えば図2に示すオブジェクト検出装置201の各機能部によって実行され、オブジェクト検出部を学習させるための方法である。
FIG. 8 is a diagram illustrating an example of an object detection
まず、ステップS810では、画像入力部(例えば、図2に示す画像入力部208)は、
ソースドメインに対応するソースドメイン画像とターゲットドメインに対応するターゲットドメイン画像とを含む入力画像セットを受け付ける。ここで、ソースドメイン画像と、ターゲットドメイン画像とは、例えば学習用にユーザに選択された画像であってもよく、過去にオブジェクト検出装置に接続されているX線装置から送信された画像の中で、学習用に選択された画像であってもよい。
なお、ソースドメイン画像及びターゲットドメイン画像の詳細については、図3を参照して説明したため、ここではその説明を省略する。
First, in step S810, an image input unit (for example, the
An input image set including a source domain image corresponding to the source domain and a target domain image corresponding to the target domain is accepted, where the source domain image and the target domain image may be, for example, images selected by a user for training, or may be images previously transmitted from an X-ray device connected to the object detection device and selected for training.
The details of the source domain image and the target domain image have been described with reference to FIG. 3, and therefore will not be described here.
次に、ステップS820では、ドメイン変換部(例えば、図2に示すドメイン変換部210)は、ステップS810で画像入力部によって受け付けられた入力画像セットに対するドメイン変換処理を行い、ソースドメイン画像をターゲットドメインに変換した疑似ターゲットドメイン画像と、ターゲットドメイン画像をソースドメイン画像に変換した疑似ソースドメイン画像とを含む変換画像セットを生成する。
なお、ドメイン変換処理の詳細については、図5を参照して説明したため、ここではその説明を省略する。
Next, in step S820, a domain conversion unit (e.g., the
The details of the domain conversion process have been described with reference to FIG. 5, and therefore will not be described here.
次に、ステップS830では、ペア生成部(例えば、図4に示すペア生成部365)は、ソースドメイン画像と、ターゲットドメイン画像と、疑似ソースドメイン画像と、疑似ターゲットドメイン画像とを入力し、画像ペアを生成する。例えば、上述したように、ペア生成部は、入力画像セットと、変換画像セットとの中から、撮影内容(オブジェクトのカテゴリーや配置)が所定の類似度基準を満たす画像をポジティブペアとし、入力画像セットと、変換画像セットとの中から、撮影内容が所定の類似度基準を満たさない画像をネガティブペアとする。
なお、画像ペアを生成する処理の詳細については、図6を参照して説明したため、ここではその説明を省略する。
Next, in step S830, a pair generation unit (for example, the
The details of the process for generating image pairs have been described with reference to FIG. 6, and therefore will not be described here.
次に、ステップS840では、特徴抽出部(例えば、図4に示す特徴抽出部368)は、ステップS830で生成された画像ペアに含まれる各画像について、特徴マップを抽出する。ここでの特徴抽出部は、画像におけるオブジェクトのカテゴリー及び配置に応じて特徴マップを抽出するように、学習された畳み込みニューラルネットワークであってもよい。また、ここでの特徴マップとは、例えば1次元ベクトルであってもよく、2次元又は3次元のマトリックス表現であってもよい。
Next, in step S840, a feature extraction unit (e.g.,
次に、ステップS850では、画像乖離度計算部(例えば、図4に示す画像乖離度計算部369)は、ステップS840で生成された特徴マップを用いて、各画像ペアの乖離度を計算する。ここでの乖離度とは、画像の特徴分布の距離を示す値であり、画像ペアの特徴分布の乖離度が大きい程、上述したドメインギャップが大きいことを示す。ここでの乖離度を計算する手法として、例えば数式1に示すように、多次元空間に投影される2つのベクトル間の角度のコサインを計算するコサイン類似度法を用いてもよい。
例えば、第1の画像に対応する第1の特徴マップ及び第2の画像に対応する第2の特徴マップとを含むポジティブペアがあり、第3の画像に対応する第3の特徴マップ及び第4の画像に対応する第4の特徴マップを含むネガティブペアがある場合、画像乖離度計算部は、第1の特徴マップと第2の特徴マップとの乖離度である第1の乖離度を計算し、第3の特徴マップと第4の特徴マップとの乖離度である第2の乖離度を計算してもよい。
Next, in step S850, an image disparity calculation unit (for example, the image
For example, if there is a positive pair including a first feature map corresponding to a first image and a second feature map corresponding to a second image, and a negative pair including a third feature map corresponding to a third image and a fourth feature map corresponding to a fourth image, the image discrepancy calculation unit may calculate a first discrepancy that is the discrepancy between the first feature map and the second feature map, and may calculate a second discrepancy that is the discrepancy between the third feature map and the fourth feature map.
次に、適応損失計算部(例えば、図4に示す適応損失計算部370)は、ポジティブペアに含まれる画像の乖離度(例えば、第1の乖離度)を減算させるための第1の適応損失パラメータを計算し、ネガティブペアに含まれる画像の乖離度(例えば、第2の乖離度)を向上させるための第2の適応損失パラメータを計算する。
Next, an adaptation loss calculation unit (e.g., the adaptation
ポジティブペアに含まれる画像の乖離度を減算させるのは、撮影内容(オブジェクトのカテゴリー及び配置)が類似している画像について、ドメインギャップを短縮させるためのドメイン不変特徴(domain invariant features;つまり、ドメインによって変化しない特徴)を特徴抽出部に抽出させるように訓練するためである。これにより、ソースドメインと疑似ターゲットドメイン、及びターゲットドメインと疑似ソースドメインとの特徴分布が接近する。
また、ネガティブペアに含まれる画像の乖離度を向上させるのは、撮影内容(オブジェクトのカテゴリー及び配置)が類似していない画像について、異なる特徴を特徴抽出部に抽出させるように訓練するためである。これにより、異なるオブジェクトの識別力(つまり、検出精度)を向上させることができる。
The deviation of the positive pair images is subtracted to train the feature extractor to extract domain invariant features to reduce the domain gap for images with similar shooting contents (object categories and arrangements), thereby approximating the feature distributions between the source domain and the pseudo target domain, and between the target domain and the pseudo source domain.
The purpose of improving the dissimilarity of images in the negative pair is to train the feature extractor to extract different features for images that are dissimilar in content (object categories and placement), thereby improving the discrimination (i.e., detection accuracy) of different objects.
ここでの適応損失パラメータは、例えば以下の数式2から求められる。
なお、以下の数式2は、ソースドメイン及び疑似ターゲットドメインの適応損失パラメータLadp
S,T’
を計算するための数式であるが、ターゲットドメイン及び疑似ソースドメインの適応損失パラメータLadp
S’,Tを計算するために用いられてもよい。
なお、分母に示されるネガティブペアの乖離度は、複数のネガティブペアの乖離度の和であってもよい。1つのポジティブペアに対して、多数のネガティブペアの乖離度を合わせて数式2の分母とすることで、異なるオブジェクトの識別力(つまり、検出精度)を更に向上させることができる。
The adaptive loss parameter here is calculated, for example, from the following Equation 2.
The following Equation 2 is the adaptive loss parameter L adp S,T′ of the source domain and the pseudo target domain.
, which may be used to calculate the adaptive loss parameters L adp S',T in the target domain and pseudo source domain.
The deviation of the negative pair shown in the denominator may be the sum of the deviations of multiple negative pairs. By adding up the deviations of multiple negative pairs for one positive pair and using them as the denominator of Equation 2, the ability to distinguish between different objects (i.e., detection accuracy) can be further improved.
次に、ステップS860では、検出予測部(例えば、図4に示す検出予測部371)は、ステップS840で生成された各画像ペアの特徴マップを用いて、各画像におけるオブジェクトのカテゴリー及び位置を予測し、オブジェクトの予測したカテゴリー及び位置を示す予測結果を生成する。ここでの検出予測部は、例えば所定の対象領域(Region of Interest、 ROI)についての領域提案を生成するRPN(Region Proposal Network)と、各ROIのカテゴリーを特定する分類器(classification head)と、各ROIのバウンディングボックスの座標を調整するためのボックス回帰器(Box regression head)とを含むFaster R-CNNであってもよい。
Next, in step S860, a detection prediction unit (e.g.,
次に、検出損失計算部(例えば、図4に示す検出損失計算部372)は、検出予測部
によって生成された予測結果と、オブジェクトの実際のカテゴリー及び実際の位置を示すグラウンドトゥルースとを比較することで、検出予測部による検出損失パラメータを計算する。ここでの検出損失パラメータは、検出予測部によって生成された予測結果と、オブジェクトの実際のカテゴリー及び実際の位置を示すグラウンドトゥルースとの距離を計算することで得られるRPN損失、分類損失(classification loss)、及び回帰損失(Regression loss)を含んでもよい。
なお、ここでの検出損失パラメータは、ラベル付きのデータ(つまり、ソースドメイン画像及び疑似ターゲットドメイン画像)についてのみ計算される。
Next, a detection loss calculation unit (e.g., the detection
Note that the detection loss parameter here is calculated only on labeled data (i.e., source domain images and pseudo target domain images).
次に、ステップS870では、パラメータ更新部(例えば、図4に示すパラメータ更新部373)は、適応損失計算部によって計算される第1の適応損失パラメータ及び第2の適応損失パラメータと、検出損失計算部によって計算される検出損失に基づいて、オブジェクト検出部のパラメータを調整することで、オブジェクト検出部を訓練する。
Next, in step S870, a parameter update unit (e.g.,
以上説明したオブジェクト検出部訓練方法800によれば、適応損失パラメータと、検出損失パラメータとに基づいてオブジェクト検出部のパラメータを調整することで、オブジェクト検出部は、予測結果とグラウンドトゥルースとの差を最小化するために訓練され、例えばラベル付き学習データが少ないターゲットドメインの画像についても、高精度のオブジェクト検出結果を生成することができるようになる。
According to the object detection
次に、図9を参照して、本開示の実施形態に係るオブジェクト検出処理について説明する。 Next, the object detection process according to an embodiment of the present disclosure will be described with reference to FIG.
図9は、本開示の実施形態に係るオブジェクト検出処理900の一例を示す図である。図9に示すオブジェクト検出処理900は、例えば図8に示すオブジェクト検出部訓練方法800で訓練されたオブジェクト検出装置の各機能部によって実行され、所定のX線画像におけるオブジェクトのカテゴリー及び位置を検出するための処理である。
FIG. 9 is a diagram illustrating an example of an
まず、ステップS910では、画像入力部(例えば、図2に示す画像入力部208)は、
ターゲットドメイン画像を受け付ける。ここでは、画像入力部は、例えばターゲットドメインでのX線画像を取得するように構成されたX線装置から送信される画像を入力してもよい。
First, in step S910, an image input unit (for example, the
A target domain image is received, where the image input may for example input an image sent from an X-ray device configured to acquire an X-ray image in the target domain.
次に、ステップS920では、特徴抽出部(例えば、図4に示す特徴抽出部368)は、ステップS910で画像入力部によって受け付けられたターゲットドメイン画像について、特徴マップを抽出する。上述したように、ここでの特徴抽出部は、画像におけるオブジェクトのカテゴリー及び配置に応じて特徴マップを抽出するように、学習された畳み込みニューラルネットワークであってもよい。また、ここでの特徴マップとは、例えば1次元ベクトルであってもよく、2次元又は3次元のマトリックス表現であってもよい。
Next, in step S920, a feature extraction unit (e.g.,
次に、ステップS930では、オブジェクト検出部(例えば、図2に示すオブジェクト検出部220)は、ステップS920で抽出された特徴マップに基づいて、ターゲットドメイン画像における各オブジェクトのカテゴリー及び位置を検出し、これらの各オブジェクトのカテゴリー及び位置を示すデータを検出結果として生成する。
Next, in step S930, an object detection unit (e.g., object
次に、ステップS940では、オブジェクト検出部は、ステップS930で生成した検出結果情報を出力する。ここでは、オブジェクト検出部は、検出結果を、例えば通信ネットワークを介して、所定の通知先(X線装置の管理者等)に送信してもよい。 Next, in step S940, the object detection unit outputs the detection result information generated in step S930. Here, the object detection unit may transmit the detection result to a predetermined notification destination (such as the administrator of the X-ray device) via, for example, a communication network.
以上説明したオブジェクト検出処理900によれば、オブジェクト検出装置は、ラベル無し学習データが少ないターゲットドメインのX線画像についても、高精度のオブジェクト検出結果を生成することができる。
According to the
以上、本開示の実施の形態について説明したが、本開示は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。 Although the embodiments of the present disclosure have been described above, the present disclosure is not limited to the above-described embodiments, and various modifications are possible without departing from the spirit of the present disclosure.
200 オブジェクト検出システム
201 オブジェクト検出装置
202 通信ネットワーク
203 プロセッサ
204 I/Oインターフェース
205 ネットワークインターフェース
206 ユーザI/Oインターフェース
207 メモリ
208 画像入力部
210 ドメイン変換部
211 X線装置
215 ドメイン変換学習部
220 オブジェクト検出部
225 オブジェクト検出学習部
230 ソースドメイン画像ストレージ部
235 ターゲットドメイン画像ストレージ部
240 疑似ソースドメイン画像ストレージ部
245 疑似ターゲットドメイン画像ストレージ部
361 ソースドメイン画像
362 ターゲットドメイン画像
363 疑似ソースドメイン画像
364 疑似ターゲットドメイン画像
365 ペア生成部
366 ポジティブペア
367 ネガティブペア
368 特徴抽出部
369 画像乖離度計算部
370 適応損失計算部
371 検出予測部
372 検出損失計算部
373 パラメータ更新部
200 Object detection system 201
Claims (8)
ソースドメインに対応するソースドメイン画像と、ターゲットドメインに対応するターゲットドメイン画像とを含む入力画像セットを受け付ける画像入力部と、
前記入力画像セットに対するドメイン変換処理を行い、前記ソースドメイン画像を前記ターゲットドメインに変換した疑似ターゲットドメイン画像と、前記ターゲットドメイン画像を前記ソースドメイン画像に変換した疑似ソースドメイン画像とを含む変換画像セットを生成するドメイン変換部と、
前記入力画像セットと、前記変換画像セットとで画像ペアを生成するペア生成部と、
前記画像ペアに含まれる各画像について、特徴マップを抽出する特徴抽出部と、
前記特徴マップに基づいて、前記画像ペアに含まれる各画像におけるオブジェクトのカテゴリー及び位置を示す予測結果を生成する検出予測部と、
所定のX線画像を解析することで、前記X線画像におけるオブジェクトのカテゴリー及び位置を示す検出結果を生成するオブジェクト検出部と、
を含むことを特徴とするオブジェクト検出装置。 1. An object detection apparatus for detecting an object in an X-ray image, comprising:
an image input unit for accepting a set of input images including a source domain image corresponding to a source domain and a target domain image corresponding to a target domain;
A domain conversion unit that performs a domain conversion process on the input image set to generate a converted image set including a pseudo target domain image obtained by converting the source domain image into the target domain and a pseudo source domain image obtained by converting the target domain image into the source domain image;
a pair generation unit that generates image pairs using the input image set and the transformed image set;
a feature extractor for extracting a feature map for each image in the image pair;
a detection and prediction unit that generates a prediction result indicating a category and a position of an object in each image of the image pair based on the feature map;
an object detector configured to analyze a given X-ray image to generate detection results indicative of categories and locations of objects in the X-ray image;
1. An object detection device comprising:
前記入力画像セットと、前記変換画像セットとの中から、撮影内容が所定の類似度基準を満たす第1の画像及び第2の画像をポジティブペアとし、
前記入力画像セットと、前記変換画像セットとの中から、撮影内容が所定の類似度基準を満たさない第3の画像及び第4の画像をネガティブペアとする、
ことを特徴とする、請求項1に記載のオブジェクト検出装置。 The pair generation unit
A first image and a second image, the contents of which satisfy a predetermined similarity criterion, are determined as a positive pair from among the input image set and the converted image set;
A third image and a fourth image, the photographed contents of which do not satisfy a predetermined similarity standard, are set as a negative pair from among the input image set and the converted image set.
The object detection device according to claim 1 .
前記ポジティブペアに含まれる第1の画像について第1の特徴マップを抽出し、
前記ポジティブペアに含まれる第2の画像について第2の特徴マップを抽出し、
前記ネガティブペアに含まれる第3の画像について第3の特徴マップを抽出し、
前記ネガティブペアに含まれる第4の画像について第4の特徴マップを抽出し、
前記オブジェクト検出装置は、
前記第1の特徴マップと前記第2の特徴マップとの乖離度である第1の乖離度を計算し、
前記第3の特徴マップと前記第4の特徴マップとの乖離度である第2の乖離度を計算する画像乖離度計算部と、
を更に含むことを特徴とする、請求項2に記載のオブジェクト検出装置。 The feature extraction unit is
extracting a first feature map for a first image in the positive pair;
extracting a second feature map for a second image in the positive pair;
extracting a third feature map for a third image in the negative pair;
extracting a fourth feature map for a fourth image in the negative pair;
The object detection device includes:
calculating a first degree of discrepancy between the first feature map and the second feature map;
an image disparity calculation unit that calculates a second disparity between the third feature map and the fourth feature map;
The object detection apparatus according to claim 2 , further comprising:
前記ポジティブペアに含まれる第1の画像及び第2の画像について、前記第1の乖離度を減算させるための第1の適応損失パラメータを計算し、
前記ネガティブペアに含まれる第3の画像及び第4の画像について、前記第2の乖離度を向上させるための第2の適応損失パラメータを計算するための適応損失計算部と、
を更に含むことを特徴とする、請求項3に記載のオブジェクト検出装置。 The object detection device includes:
Calculating a first adaptive loss parameter for subtracting the first discrepancy for the first image and the second image included in the positive pair;
an adaptation loss calculation unit for calculating a second adaptation loss parameter for improving the second discrepancy for a third image and a fourth image included in the negative pair;
The object detection apparatus according to claim 3 , further comprising:
前記検出損失パラメータと、前記第1の適応損失パラメータ及び前記第2の適応損失パラメータとを用いて、前記オブジェクト検出部のパラメータを更新することで前記オブジェクト検出部を訓練するパラメータ更新部と、
を更に含むことを特徴とする、請求項4に記載のオブジェクト検出装置。 a detection loss calculation unit for calculating a detection loss parameter indicative of a detection loss by the object detection unit by comparing the prediction result with a ground truth indicative of an actual category and an actual location of the object;
a parameter update unit that uses the detection loss parameter, the first adaptation loss parameter, and the second adaptation loss parameter to update parameters of the object detection unit to train the object detection unit;
The object detection apparatus according to claim 4 , further comprising:
ことを特徴とする、請求項5に記載のオブジェクト検出装置。 The object detection unit is a deep neural network.
The object detection device according to claim 5 .
X線画像を解析し、オブジェクトを検出するためのオブジェクト検出装置と、
前記X線画像を撮影し、前記オブジェクト検出装置に送信するためのX線装置とが通信ネットワークを介して接続されており、
前記オブジェクト検出装置は、
ソースドメインに対応するソースドメイン画像と、ターゲットドメインに対応するターゲットドメイン画像とを含む入力画像セットを受け付ける画像入力部と、
前記入力画像セットに対するドメイン変換処理を行い、前記ソースドメイン画像を前記ターゲットドメインに変換した疑似ターゲットドメイン画像と、前記ターゲットドメイン画像を前記ソースドメイン画像に変換した疑似ソースドメイン画像とを含む変換画像セットを生成するドメイン変換部と、
前記入力画像セットと、前記変換画像セットとで画像ペアを生成するペア生成部と、
前記画像ペアに含まれる各画像について、特徴マップを抽出する特徴抽出部と、
前記特徴マップに基づいて、前記画像ペアに含まれる各画像におけるオブジェクトのカテゴリー及び位置を示す予測結果を生成する検出予測部と、
前記X線装置から受信した前記X線画像を解析することで、前記X線画像におけるオブジェクトのカテゴリー及び位置を示す検出結果を生成し、前記検出結果を所定の通知先に送信するオブジェクト検出部と、
を含むことを特徴とするオブジェクト検出システム。 1. An object detection system for detecting an object in an X-ray image, comprising:
an object detection device for analyzing the X-ray image and detecting an object;
an X-ray device for capturing the X-ray image and transmitting the X-ray image to the object detection device is connected via a communication network;
The object detection device includes:
an image input unit for accepting a set of input images including a source domain image corresponding to a source domain and a target domain image corresponding to a target domain;
A domain conversion unit that performs a domain conversion process on the input image set to generate a converted image set including a pseudo target domain image obtained by converting the source domain image into the target domain and a pseudo source domain image obtained by converting the target domain image into the source domain image;
a pair generation unit that generates image pairs using the input image set and the transformed image set;
a feature extractor for extracting a feature map for each image in the image pair;
a detection and prediction unit that generates a prediction result indicating a category and a position of an object in each image of the image pair based on the feature map;
an object detection unit that analyzes the X-ray image received from the X-ray device to generate a detection result indicating a category and a position of an object in the X-ray image and transmits the detection result to a predetermined notification destination;
1. An object detection system comprising:
ソースドメインに対応するソースドメイン画像と、ターゲットドメインに対応するターゲットドメイン画像とを含む入力画像セットを受け付ける工程と、
前記入力画像セットに対するドメイン変換処理を行い、前記ソースドメイン画像を前記ターゲットドメインに変換した疑似ターゲットドメイン画像と、前記ターゲットドメイン画像を前記ソースドメイン画像に変換した疑似ソースドメイン画像とを含む変換画像セットを生成する工程と、
前記入力画像セットと、前記変換画像セットとの中から、撮影内容が所定の類似度基準を満たす第1の画像及び第2の画像をポジティブペアとし、前記入力画像セットと、前記変換画像セットとの中から、撮影内容が所定の類似度基準を満たさない第3の画像及び第4の画像をネガティブペアとすることで画像ペアを生成する工程と、
前記ポジティブペアに含まれる第1の画像について第1の特徴マップを抽出し、前記ポジティブペアに含まれる第2の画像について第2の特徴マップを抽出し、前記ネガティブペアに含まれる第3の画像について第3の特徴マップを抽出し、前記ネガティブペアに含まれる第4の画像について第4の特徴マップを抽出する工程と、
前記第1の特徴マップと前記第2の特徴マップとの乖離度である第1の乖離度を計算し、
前記第3の特徴マップと前記第4の特徴マップとの乖離度である第2の乖離度を計算する工程と、
前記ポジティブペアに含まれる第1の画像及び第2の画像について、前記第1の乖離度を減算させるための第1の適応損失パラメータを計算し、前記ネガティブペアに含まれる第3の画像及び第4の画像について、前記第2の乖離度を向上させるための第2の適応損失パラメータを計算する工程と、
前記第1の特徴マップ、前記第2の特徴マップ、前記第3の特徴マップ、及び前記第4の特徴マップに基づいて、前記画像ペアに含まれる各画像におけるオブジェクトのカテゴリー及び位置を示す予測結果を生成する工程と、
前記予測結果と、前記オブジェクトの実際のカテゴリー及び実際の位置を示すグラウンドトゥルースとを比較することで、オブジェクト検出による検出損失を示す検出損失パラメータを計算する工程と、
前記検出損失パラメータと、前記第1の適応損失パラメータ及び前記第2の適応損失パラメータとを用いて、オブジェクト検出用の深層ニューラルネットワークのパラメータを更新することでオブジェクト検出用の深層ニューラルネットワークを訓練する工程と、
訓練済みの前記オブジェクト検出用の深層ニューラルネットワークを用いて、所定のX線画像を解析することで、前記X線画像におけるオブジェクトのカテゴリー及び位置を示す検出結果を生成する工程と、
を含むことを特徴とするオブジェクト検出方法。 1. An object detection method for detecting an object in an X-ray image, comprising:
accepting a set of input images including a source domain image corresponding to a source domain and a target domain image corresponding to a target domain;
performing a domain transformation process on the input image set to generate a transformed image set including a pseudo target domain image obtained by transforming the source domain image into the target domain and a pseudo source domain image obtained by transforming the target domain image into the source domain image;
generating image pairs by selecting a first image and a second image from the input image set and the transformed image set, the first image and the second image having contents that satisfy a predetermined similarity criterion as a positive pair, and selecting a third image and a fourth image from the input image set and the transformed image set, the third image and the fourth image having contents that do not satisfy a predetermined similarity criterion as a negative pair;
extracting a first feature map for a first image in the positive pair, extracting a second feature map for a second image in the positive pair, extracting a third feature map for a third image in the negative pair, and extracting a fourth feature map for a fourth image in the negative pair;
calculating a first degree of discrepancy between the first feature map and the second feature map;
calculating a second degree of discrepancy between the third feature map and the fourth feature map;
Calculating a first adaptive loss parameter for subtracting the first discrepancy for a first image and a second image included in the positive pair, and calculating a second adaptive loss parameter for improving the second discrepancy for a third image and a fourth image included in the negative pair;
generating a prediction indicative of a category and a location of an object in each image of the image pair based on the first feature map, the second feature map, the third feature map, and the fourth feature map;
calculating a detection loss parameter indicative of a detection loss due to object detection by comparing the prediction result with a ground truth indicative of an actual category and an actual location of the object;
training a deep neural network for object detection by updating parameters of the deep neural network for object detection using the detection loss parameters, the first adaptive loss parameters, and the second adaptive loss parameters;
analyzing a given X-ray image using the trained deep neural network for object detection to generate detection results indicative of object categories and locations in the X-ray image;
1. A method for detecting an object, comprising:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020194858A JP7464509B2 (en) | 2020-11-25 | 2020-11-25 | OBJECT DETECTION DEVICE, OBJECT DETECTION SYSTEM AND OBJECT DETECTION METHOD |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020194858A JP7464509B2 (en) | 2020-11-25 | 2020-11-25 | OBJECT DETECTION DEVICE, OBJECT DETECTION SYSTEM AND OBJECT DETECTION METHOD |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2022083513A JP2022083513A (en) | 2022-06-06 |
| JP7464509B2 true JP7464509B2 (en) | 2024-04-09 |
Family
ID=81855610
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020194858A Active JP7464509B2 (en) | 2020-11-25 | 2020-11-25 | OBJECT DETECTION DEVICE, OBJECT DETECTION SYSTEM AND OBJECT DETECTION METHOD |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7464509B2 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN114462487B (en) * | 2021-12-28 | 2025-07-29 | 浙江大华技术股份有限公司 | Target detection network training and detection method, device, terminal and storage medium |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2019021313A (en) | 2017-07-14 | 2019-02-07 | シナプス テクノロジー コーポレイション | Item detection |
-
2020
- 2020-11-25 JP JP2020194858A patent/JP7464509B2/en active Active
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2019021313A (en) | 2017-07-14 | 2019-02-07 | シナプス テクノロジー コーポレイション | Item detection |
Non-Patent Citations (2)
| Title |
|---|
| John B. Sigman, et al.,Background Adaptive Faster R-CNN for Semi-Supervised Convolutional Object Detection of Threats in X-Ray Images,arxiv,米国,2020年10月02日,https://arxiv.org/pdf/2010.01202.pdf |
| Yuhu Shan, et al.,Pixel and Feature Level Based Domain Adaption for Object Detection in Autonomous Driving,arxiv,米国,2019年08月11日,https://arxiv.org/pdf/1810.00345.pdf |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2022083513A (en) | 2022-06-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US12020497B2 (en) | Facial recognition using 3D model | |
| CN106778867B (en) | Target detection method and device, neural network training method and device | |
| US10204423B2 (en) | Visual odometry using object priors | |
| JP6624794B2 (en) | Image processing apparatus, image processing method, and program | |
| US8442269B2 (en) | Method and apparatus for tracking target object | |
| WO2019011249A1 (en) | Method, apparatus, and device for determining pose of object in image, and storage medium | |
| US10891740B2 (en) | Moving object tracking apparatus, moving object tracking method, and computer program product | |
| TWI826201B (en) | Object detection method, object detection apparatus, and non-transitory storage medium | |
| US11244475B2 (en) | Determining a pose of an object in the surroundings of the object by means of multi-task learning | |
| US20180352186A1 (en) | Method for estimating a timestamp in a video stream and method of augmenting a video stream with information | |
| CN105719352A (en) | 3D point-cloud super-resolution face fusion method and data processing device using method | |
| CN115471863A (en) | Three-dimensional posture acquisition method, model training method and related equipment | |
| CN118898869B (en) | Violence behavior detection method, electronic equipment and storage medium | |
| JP7464509B2 (en) | OBJECT DETECTION DEVICE, OBJECT DETECTION SYSTEM AND OBJECT DETECTION METHOD | |
| CN114596475B (en) | Training method of homography flow estimation model, homography flow estimation method and device | |
| JP7577608B2 (en) | Location determination device, location determination method, and location determination system | |
| KR20230053262A (en) | A 3D object recognition method based on a 2D real space image and a computer program recorded on a recording medium to execute the same | |
| JP2022129792A (en) | Area conversion apparatus, area conversion method, and area conversion system | |
| JP7464188B2 (en) | Image processing device and image processing method | |
| US12524909B2 (en) | Plane detection and identification for city-scale localization | |
| PANÁČEK | Al-based Detection of Anthropological Landmarks on 3D Facial Scans | |
| Betta et al. | Metrological characterization of 3D biometric face recognition systems in actual operating conditions | |
| TWI908672B (en) | Image prediction device and method | |
| CN113674346A (en) | Image detection method, apparatus, electronic device, and computer-readable storage medium | |
| JP7749285B1 (en) | Program, information processing device, method and system |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230511 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240301 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240312 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240328 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7464509 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |