Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP6922005B2 - コンピュータビジョンのシステムおよび方法 - Google Patents
[go: Go Back, main page]

JP6922005B2 - コンピュータビジョンのシステムおよび方法 - Google Patents

コンピュータビジョンのシステムおよび方法 Download PDF

Info

Publication number
JP6922005B2
JP6922005B2 JP2020007450A JP2020007450A JP6922005B2 JP 6922005 B2 JP6922005 B2 JP 6922005B2 JP 2020007450 A JP2020007450 A JP 2020007450A JP 2020007450 A JP2020007450 A JP 2020007450A JP 6922005 B2 JP6922005 B2 JP 6922005B2
Authority
JP
Japan
Prior art keywords
branch
image
output
convolution
stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020007450A
Other languages
English (en)
Other versions
JP2020119568A (ja
Inventor
リウィッキ ステファン
リウィッキ ステファン
シポラ ロベルト
シポラ ロベルト
プラサド パウデル カルマタ ルドラ
プラサド パウデル カルマタ ルドラ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JP2020119568A publication Critical patent/JP2020119568A/ja
Application granted granted Critical
Publication of JP6922005B2 publication Critical patent/JP6922005B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0495Quantised networks; Sparse networks; Compressed networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

諸実施形態はコンピュータビジョンのシステムおよび方法に関する。
多数のコンピュータビジョンタスク、たとえば物体の認識およびレジストレーションは、画像の領域にラベルが与えられる、画像のセグメンテーションを必要とする。セマンティックセグメンテーションは、詳細な画素レベルの仕様を提供し、これは、障害物検出および正確な境界検出をしばしば必要とするアプリケーションに特に適する。そのようなアプリケーションは、自律車両および運転者支援、組み込みデバイス、ならびにウェアラブルデバイスを含むが、これに限定はされない。
近代のセマンティックセグメンテーション方法は、非常に正確な結果を達成するが、しばしば、効率の低下という犠牲を払う。畳み込みニューラルネットワーク(CNN)の最近の開発は、これらのネットワークによって達成される結果の顕著な改善を示す。しかし、これらの有効性は、モデルに含まれるオペレーションおよびパラメータの数に大きく依存する。最近のセマンティックセグメンテーション方法は、処理がハイエンドグラフィックス処理ユニット(GPU)上で実行される場合であっても、単一の画像の物体分類を実行するのに1秒超を要する。これらの方法の複雑さは、リアルタイムアプリケーションでのそれらの展開を妨げる。
自律運転は、複雑なタスクであり、物体の検出および分類は、他のタイムクリティカルなタスクの前処理ステップにすぎない。そのようなシステムは、しばしば、リアルタイムよりも高速の能力を有するシステムから利益を得る。したがって、物体の検出および分類システムが、物体分類の精度を損なうことなく、リアルタイムよりも高速の性能が可能である、セマンティックセグメンテーションの新しい手法が必要である。
車両で実施される実施形態に係るシステムの図。 図1のシステム内で使用され得るニューラルネットワークの簡潔なフロー図。 物体分類用の高速ニューラルネットワークの詳細なフロー図。 一実施形態によるネットワークアーキテクチャの概略図。 一実施形態によるピラミッドプーリングモジュールアーキテクチャの概略図。 物体分類用のニューラルネットワークの例のトレーニングプロセスのフロー図。 パラメータ枝刈りプロセスを示すフロー図。 一実施形態による都市景観に対するトレーニング曲線の図。 都市景観妥当性検査セットに関する視覚的比較の図。第1列は入力RGB画像、第2の列はグラウンドトゥルースラベル、最後の列はFast−SCNNの出力である。 Fast−SCNNのセグメンテーション結果の視覚的比較の図。第1列は入力RGB画像、第2の列はFast−SCNNの出力、最後の列はスキップ接続の寄与を0にした後のFast−SCNNの出力である。 一実施形態に従って使用され得るデバイスの概略図。
一実施形態では、
画像を受け取ることと、
第1の特徴マップを作るために共通の処理ステージを用いて前記画像を処理することと、
前記第1の特徴マップを並列処理ステージに入力することと、ここで前記第2の処理ステージは、第1の特徴マップを受け取る第1および第2の並列分岐を備え、
セマンティックセグメント化された画像を作るために第1および第2の分岐の出力を結合することとを備え、
共通の処理ステージは、ニューラルネットワークを備え、ニューラルネットワークは、第1の特徴マップを作るために分離可能(separable)な畳み込みを実行し、画像をダウンサンプリングするように構成された少なくとも1つの分離可能な畳み込みモジュールを有し、前記第1の分岐は、分離可能な畳み込みを実行するように構成された少なくとも1つの分離可能な畳み込みモジュールを備えるニューラルネットワークを備える、
画像をセグメント化する画像処理方法が提供される。
開示されるシステムは、コンピュータ技術に結び付けられ、コンピューティングの領域から生じる技術的問題、すなわち、リアルタイムセマンティックセグメンテーションの提供という技術的問題に対処する。開示されるシステムは、2つの並列分岐を有する並列処理ステージに先行する共通の処理ステージによって、この技術的問題を解決する。共通の処理ステージは、画像をダウンサンプリングし、低レベルの特徴を計算する。したがって、共通の処理ステージは2つの特徴をサービスし、それにより低レベルの特徴が抽出されることを可能にし、また、画像からコンテキスト情報を抽出するように構成された分岐に入力することを可能にするために、画像をダウンサンプリングする。
上記方法は、リアルタイムセマンティックセグメンテーションを可能にし、実際に、高解像度画像データ(1024×2048画素)に対してリアルタイムセマンティックセグメンテーションを超える結果を生み出すことができる。したがって、上記方法は、少メモリ組み込みデバイス上での効率的な計算に適する。上の実施形態は、高速セグメンテーション用の2分岐方法を使用する。第1の「共通の」処理ステージは、多重解像度分岐の浅い低レベル特徴(shallow low level feature)を同時に計算する「ダウンサンプリングを学習する」モジュールと考えられ得る。
このアーキテクチャは、高解像度での空間詳細とより低い解像度で抽出される深い特徴(deep feature)との組合せを可能にする。
上の実施形態では、第1の分岐は、画像またはシーンを構成する物体を分類するか他の形で識別することを目指し、シーン内に存在する物体にラベルを割り当てる。対して、第2の分岐は、主に、高解像度セグメンテーション結果の物体境界に関する情報を維持する処理を担う。
上の実施形態では、第1の分岐は、深層ネットワークを備える。
上記の実施形態のモデルは、以下の理由から計算コストを削減する。
i)コンテキスト処理では、より複雑で抽象的な特徴を学習する必要があり、したがってより深いネットワークが必要である。しかし、より高解像度の入力は不要であり、ゆえにコンテキスト分岐上でより低解像度の入力を使用することによってモデルコストが低減される。
ii)境界処理では、高解像度入力の必要がある。しかし、大きい視野を見る必要はなく、ゆえに詳細分岐内で少数の層を使用することによってモデルコストが低減される。
iii)したがって、上で述べたように2つの異なる目的のために2つの分岐を動作させることは、全体的なモデルコストを下げる。
iv)第2の分岐は、スキップ接続と考えられることができ、発明者らは、第1および第2の分岐が、初期処理ステージを共有できることを理解した。
v)画像処理ネットワークが、少容量になるように設計された。
一実施形態では、第2の分岐は、第1の特徴マップが第1の分岐の出力と結合されることを可能にするためにスキップ接続として機能する。いくつかの実施形態では、特徴マップは、未変更で第2の分岐を通過される。他の実施形態では、第1の特徴マップは、たとえば、第1の分岐の出力と結合される前に第1の特徴マップの解像度を変更するために、1つまたは複数のニューラルネットワーク層を通過される。一実施形態では、第2の分岐は、1つまたは複数の2D畳み込み層を備える。
一実施形態では、第1および第2の分岐からの出力は、1つのステージのみで結合される。一実施形態では、2つの分岐だけがある。
第1の分岐は、コンテキスト情報が抽出されることを可能にする複数のモジュールを備え、第1の分岐は、深層ネットワークを備え、第1の分岐内の層の個数は、共通処理ステージ内の層の個数より多い。
一実施形態では、上記システムは、深さ方向(depth-wise)の分離可能な畳み込みを使用して、標準的な畳み込み(Conv2d)を、空間畳み込みまたはチャネル方向(channel-wise)畳み込みとしても知られる深さ方向の畳み込み(DWConv)とそれに続く1×1点方向(1 x 1 point-wise)畳み込み層とに因数分解する。したがって、チャネル間(cross-channel)相関および空間相関は、独立に計算され、これは、パラメータの数を劇的に低減し、より少数の浮動小数点演算と高速の実行時間とをもたらす。したがって、計算コストおよびメモリ要件が削減される。
一実施形態では、第1および第2の分岐の出力は、1つのステージのみで結合される。第1および第2の分岐の出力は、1回だけ結合される。
一実施形態では、第1および第2の分岐の出力は、融合ステージで結合され、前記融合ステージは、第1の分岐の出力をアップサンプリングすることと、第1の分岐のアップサンプリングされた出力を第2の分岐の出力に加算することとを備え、加算することは、第1の分岐のアップサンプリングされた出力と第2の分岐との対応する値を加算することを備える。
さらなる実施形態では、第1および第2の分岐の出力は、加算によって結合される。一実施形態では、サイズa*b*cの第2の特徴マップ(アップサンプリングの後の低解像度から)は、サイズa*b*cの結合された特徴マップCを作成するために、両方の数を加算することによってサイズa*b*cの第2の特徴マップと結合される。連結(concatenation)は不要であり、これは、メモリフットプリントを小さく保つことを可能にする。
第1の分岐からのアップサンプリングされた出力は、第2の分岐からの出力への加算の前に深さ方向畳み込みを受け、ここで深さ方向畳み込みは、1より大きい膨張係数(dilation factor)を用いて実行される。
さらなる実施形態では、1より大きい膨張係数を有する深さ方向畳み込みを受けた第1の分岐からのアップサンプリングされた出力、および第2の分岐からの出力は、加算の前に2次元畳み込みを受ける。
一実施形態では、第1の分岐内の深さ方向畳み込みモジュールは、ボトルネックアーキテクチャモジュールである。ボトルネックアーキテクチャモジュールは、特徴拡張(feature expansion)を実施し、その後に深さ方向畳み込みが行われ、その後に点畳み込みが行われる。したがって、これらはまた、深さ方向の分離可能な畳み込みを実施しているとも考えられ得る。
一実施形態では、第1の分岐の深さ方向畳み込みモジュールは、ボトルネック残差アーキテクチャモジュールである。複数の残差ボトルネックアーキテクチャモジュールが存在し得る。残差ボトルネックアーキテクチャモジュールからの出力チャネルの個数は、複数の残差ボトルネックアーキテクチャモジュール内の後続モジュールでは増加し得る。
第1の特徴マップは、前記深さ方向畳み込みモジュールによって処理される前に、標準的な畳み込みを受け得る。最終的な標準畳み込みモジュールは、残差ボトルネックアーキテクチャモジュールの後に設けられ得る。
一実施形態では、ピラミッドプーリングモジュールが、最終的な標準畳み込みモジュールと残差ボトルネックアーキテクチャモジュールとの間に設けられる。
共通の処理ステージは、複数の深さ方向の分離可能畳み込みモジュールを備えることができる。画像は、共通の処理ステージ内の前記深さ方向の分離可能畳み込みモジュールによって処理される前に、標準的な畳み込みを受け得る。
一実施形態では、共通の処理ステージは、低レベル特徴の共有が有効であり、効率的に実施されることを保証するために、3つの層を備える。一実施形態では、第1の層は、標準的な畳み込み層(Conv2D)であり、残りの2つの層は、深さ方向の分離可能な畳み込み層(DSConv)である。DSConvは、計算的により効率的であるが、入力画像だけが3つのチャネルを有し、DSConvの計算的な影響をこのステージで重大なものにするので、Conv2Dがここで使用される。
一実施形態では、共通の処理ステージの層は、ストライド2を使用し、これに、バッチ正規化とReLUとが続く。畳み込み層および深さ方向層の空間カーネルサイズは、3×3である。一実施形態では、深さ方向畳み込みと点方向畳み込みとの間の非線形性が、省略される。
一実施形態では、第1および第2の分岐の結合された出力は、分類器によって処理される。一実施形態では、分類器は、少なくとも1つの分離可能な畳み込みモジュールを備える。分類器は、softmax層を備えることができる。少なくとも1つの分離可能な畳み込みモジュールは、深さ方向の分離可能な畳み込みモジュールである。
一実施形態では、浮動小数点乗算が、整数演算または2進演算と比較して高コストなので、ランタイムは、DCNNフィルタおよびアクティブ化値に関する量子化技法を使用して、さらに削減され得る。
一実施形態では、2進量子化技法が使用され得る。
さらに、一実施形態では、事前にトレーニングされたネットワークのサイズを低減するために枝刈り(pruning)が適用され、その結果、より高速のランタイムと、より小さいパラメータセットと、より小さいメモリフットプリントとをもたらす。
一実施形態では、モデルをトレーニングする方法が提供され、前記モデルは、画像をセマンティックセグメント化するモデルであり、モデルは、
第1の特徴マップを作るための共通の処理ステージと、
並列処理ステージと、ここで前記第2の処理ステージは、第1の特徴マップを受け取る第1および第2の並列分岐を備え、
セマンティックセグメント化された画像を作るために第1および第2の分岐の出力を結合することと
を備え、共通の処理ステージはニューラルネットワークを備え、ニューラルネットワークは、第1の特徴マップを作るために、分離可能な畳み込みを実行し、画像をダウンサンプリングするように構成された少なくとも1つの分離可能な畳み込みモジュールを有し、前記第1の分岐は、分離可能な畳み込みを実行するように構成された少なくとも1つの分離可能な畳み込みモジュールを備えるニューラルネットワークを備え、
トレーニング方法は、
トレーニングデータを提供することと、ここでトレーニングデータは、画像および前記画像に関するセマンティックセグメント化された情報を備え、
入力として前記画像を使用し、出力としてセマンティックセグメント化された情報を使用して前記モデルをトレーニングすることとを備え、ここで2つのステージは一緒にトレーニングされる。
さらなる実施形態では、パラメータ枝刈りが、トレーニング中に実施され得る。
さらなる実施形態では、トレーニング方法は、前記第1の分岐に対して第2の出力を加えるためにトレーニング中にモデルを適応させることをさらに備え、方法は、入力として画像を使用してトレーニングすることと、出力と第2の出力との両方でのセマンティックセグメント化された情報の両方との比較によって損失を決定することと、両方の出力からの決定された損失を使用することによってトレーニング中に重みを更新することとをさらに備える。
一実施形態では、
インターフェースとプロセッサと
を備え、
前記インターフェースは、画像入力を有し、第1の画像を受け取るように適応され、前記プロセッサは、
第1の特徴マップを作るために共通の処理ステージを用いて前記画像を処理し、
並列処理ステージに前記第1の特徴マップを入力し、前記第2の処理ステージは、第1の特徴マップを受け取る第1および第2の並列分岐を備え、
セマンティックセグメント化された画像を作るために第1および第2の分岐の出力を結合する
ように適応され、ここで、共通の処理ステージは、ニューラルネットワークを備え、ニューラルネットワークは、第1の特徴マップを作るために分離可能な畳み込みを実行し、画像をダウンサンプリングするように構成された少なくとも1つの分離可能な畳み込みモジュールを有し、前記第1の分岐は、分離可能な畳み込みを実行するように構成された少なくとも1つの分離可能な畳み込みモジュールを備えるニューラルネットワークを備える
画像をセグメント化する画像処理システムが提供される。
一実施形態では、このシステムは車両上で実施され、このシステムがその上で実施され得る車両は、このシステムに入力高解像度画像を供給する1つまたは複数のスチールデジタルカメラおよびまたはビデオデジタルカメラを備えた自律車両と半自律車両とを含むがこれに限定されない。一実施形態では、このシステムは、車両上に配置されたグラフィックス処理ユニットまたは中央処理装置上で実現される。このシステムの目的は、車両の周囲の物体を分類し、車両の最終目的地に向かう車両の安全なナビゲーションを容易にすることである。
したがって、さらなる実施形態では、車両の検出システムであって、前記検出システムすなわち、上で説明した画像処理システムを備える検出システムは、前記画像を受信し、前記画像をセグメント化することによって前記画像から物体を決定するように適応される、検出システムが提供される。
図1は、システムが車両とともに移動するように車両に搭載されて提供された物体分類ネットワークの実施形態を示すのに使用される。図1は、自動車1の概略を示し、自動車1は、衝突回避システムを備える。衝突回避システムは、4つのカメラ3、5、7、9を備え、カメラ3、5、7、9は、自動車1の各コーナーに設けられる。カメラのそれぞれは、観察可能な世界のより広い広がりをカメラが見ることを可能にする、広い視野(FOV)を有する。一実施形態では、各カメラ3、5、7、9は、幅広いパノラマ画像を作る、非常に広角の魚眼レンズを与えられ得る。各カメラからの画像は、別々に作られるが、前部カメラ3および5のFOVは、視界が遮られる自動車1の前の部分内のエリアを残さないように、オーバーラップしてもよい。後部カメラ7および9のFOVも、視界が遮られる自動車1の背後の部分内のエリアを残さないように、オーバーラップしてもよい。
このシステムの一実施形態では、各カメラ3、5、7、9からの画像は、単一の中央処理装置(CPU)またはGPUによって別々に処理される。このシステムのさらなる実施形態では、各カメラ3、5、7、9は、別々のCPUまたはGPUを与えられ、この別々のCPUまたはGPUは、画像を処理し、処理された画像を自動車1の中央CPUに転送する。
上記実施形態は、運転のための自律システムに関係する。しかし、この画像処理方法は、画像のセマンティックセグメンテーションを必要とするすべてのシステム、たとえばウェアラブル技術などにも適用され得る。
図2は、物体の識別と分類とに関する、一実施形態によるシステムのフロー図を示す。
一実施形態では、物体分類システムは、多重分岐アーキテクチャを有する畳み込みニューラルネットワークとエンコーダ−デコーダフレームワークとの組合せを備え、異なる解像度レベルでの初期畳み込みは、分岐によって共有される。
図2には、ニューラルネットワークが2つの分岐を備える実施形態による、多重分岐畳み込みニューラルネットワークのアーキテクチャが示されている。第1の分岐は、シーンの大域(global)コンテキストを取り込む処理を担い、第2の分岐は、空間詳細を用いて大域コンテキストを洗練させる処理を担う。シーンの局所(local)コンテキストは、フル解像度画像から抽出され、したがって、分岐は、少数の畳み込み層を備える。大域コンテキストは、前記分岐内のより多数の畳み込み層を可能にする、より低い画像解像度で取り込まれる。さらに、システムのこの実施形態では、エンコーダ−デコーダフレームワークも使用される。ニューラルネットワークのアーキテクチャ内にスキップ接続を統合することは、浅い低レベルの特徴が2つの分岐について同時に抽出されることを可能にする、2つの分岐の初期層が共有されることを可能にする。スキップ接続は、ランタイム効率のために1回だけ使用される。さらに、高解像度分岐での(すなわち、共有される初期層での)プーリング畳み込み動作の使用は、ネットワークの低解像度分岐のために画像をより低解像度にダウンサンプリングする必要を回避する。スキップ接続は、ネットワークの初期層内で抽出されるシーンの局所コンテキストが、低解像度サブネットワーク分岐によって抽出される大域特徴とマージされることを可能にする。
ステップS201では、カメラ3、5、7、9が、シーンの画像を取り込み、ここでシーンは、1つまたは複数の物体を備える場合がある。一実施形態では、シーンは、街路シーンである。取り込まれた画像は、物体分類システムに入力され、ここで、シーン内の物体は、その結果として、ニューラルネットワークによって識別され、ラベルを付与される。
一実施形態では、ステップ201の後に、「ダウンサンプリングを学習する」モジュールが設けられる。入力画像は、フル解像度で「ダウンサンプリングを学習する」モジュールに供給される。ニューラルネットワークは、ステップS203で、シーンの局所コンテキストを抽出し、入力画像のダウンサンプリングされた表現を生成する。
ステップS203の後に、一実施形態では、画像の経路は、2つの独立のサブネットワーク分岐に分かれる。低解像度の分岐である第1の分岐では、画像のダウンサンプリングされた表現が供給され、ステップS205で、シーンの大域コンテキストが、畳み込みニューラルネットワークによって抽出される。第2の分岐は、2つの分岐の特徴が結合されるステップS207で、空間詳細の回復を可能にするスキップ接続として実施される。
図2では、「ダウンサンプリングを学習する」モジュールは、ニューラルネットワークの多重解像度分岐の浅い低レベルの特徴を計算する。一実施形態に従ってこれがどのように達成されるのかは、図3のステップS303およびS305を参照して説明される。
入力画像は、3次元行列フォーマットで表現され得る。各画素は、3つのチャネルを備え、各チャネルは、3つの色すなわち赤、緑、および青(RGB)のうちの1つの強度に関連する数値を保持する。標準計算では、2D畳み込みが、h*w*cフィルタを使用して使用され得、hは高さ、wは幅、cはチャネルである。h*w*3(RGBを有する画像に対する畳み込み)は、h*w*1(DW畳み込み)に類似するので、標準畳み込みが、ここでは申し分ない。通常は、特徴チャネルの個数がCNNでは素早く増加し、したがって、h*w*32/64/128が、めずらしくはないことに留意されたい。一実施形態では、深さ方向畳み込みが、増加する個数のチャネルと共に使用される。
ステップS303では、畳み込みニューラルネットワークの第1の層は、前の段落で説明したように、より効率的な物体分類を達成するために、2次元プーリング畳み込み層である。プーリング層は、出力される特徴マップの次元が層のストライドに対する相対的な比率だけ減らされる、ダウンサンプリング動作を実行する。層のストライドは、畳み込みカーネルが画像にまたがってスキャンされる時に畳み込みカーネルがどれほど移動されるのかであると考えられ得る。たとえば、ストライド1(1画素)を有するプーリング畳み込み層は、特徴マップの空間次元に影響しないが、ストライド2を有するプーリング畳み込み層は、特徴マップの次元を2倍だけダウンサンプリングする。より小さい特徴マップは、より高速の推論を生じることができるが、犠牲にされた予測正確さを犠牲にする。
この実施形態では、第1の畳み込み層は、入力ボリュームに複数のフィルタまたはカーネルを適用する。各フィルタはシーンと比較され、2次元特徴マップが生成される。特徴マップは、フィルタとシーン内の物体または特徴との間の一致の結果として引き起こされるアクティブ化の空間的配置を表す。すべての特徴マップが、深さ次元に沿って積み重ねられ、出力ボリュームを作る。たとえば、32個の出力チャネルからなる畳み込みニューラルネットワークは、32個のフィルタを入力ボリュームに適用し、32の深さ次元を有する出力ボリュームをレンダリングするために積み重ねられる32個の特徴マップを生成する。
一実施形態では、物体分類は、複数の深さ方向の分離可能な畳み込み層を利用するニューラルネットワークを用いて実行される。深さ方向畳み込みでは、2次元畳み込みが、各入力チャネルに対して別々に実行され、入力チャネルごとの特徴マップが生成される。すべての特徴マップは、畳み込み手順の終りに一緒に積み重ねられる。たとえば、カメラ3、5、7、9は、各画素が、1つは赤、1つは緑、1つは青の3つの値のセットを備えるカラーデジタル画像をニューラルネットワークに供給する。画像が深さ方向の分離可能な畳み込み層を用いて処理される時に、2次元畳み込みが、色ごとに別々に実行される。
深さ方向畳み込みとそれに続く点方向畳み込みは、標準畳み込み層と比較して、物体検出の正確さを大幅には低下させない。情報は、まずチャネル方向レベルで計算され、これに、チャネル方向の情報を結合する、より安価な標準畳み込みが続く。畳み込みは、カーネル1×1のみを使用するので、より高速であり、より少数のパラメータを必要とする。
一実施形態による「ダウンサンプリングを学習する」モジュール内の畳み込み層のパラメータが、表1に提示されている。
Figure 0006922005
一実施形態では、プーリング畳み込み層403は、フル解像度画像401に32個のフィルタを適用し、32個の特徴マップを生成する。
ステップS305では、3×3のカーネルサイズを有する2つの深さ方向の分離可能な畳み込みが使用される。各深さ方向の分離可能な畳み込みブロックは、深さ方向畳み込み層とそれに続く1×1点方向畳み込み層とを備える。図4では、各深さ方向の分離可能な畳み込みの2つの層が、単一のブロックとして表されている。
第1の深さ方向の分離可能な畳み込みブロック405は、32個の入力チャネルと、48個の出力チャネルと、ストライド2とを有する。
第2の深さ方向の分離可能な畳み込みブロック407は、48個の入力チャネルと、64個の出力チャネルと、ストライド2とを有する。
したがって、この実施形態では、「ダウンサンプリングを学習する」モジュールは、5つのニューラルネットワーク層を備える。
図2では、第1のサブネットワーク分岐は、適当なラベルを用いてシーン内の物体にラベルを付けると説明された。これが一実施形態に従ってどのように達成されるのかが、図3のステップS307およびS309を参照して説明される。
「ダウンサンプリングを学習する」モジュールの出力では、画像次元すなわち長さhおよび幅wが、n分の1に縮小される。したがって、画像は、n2分の1でダウンサンプリングされる。このシステムの計算時間および物体分類の達成される正確さは、両方とも、因数nの値に反比例する。
nという因数は、2と32との間の範囲にわたる可能性があり、「ダウンサンプリングを学習する」モジュールに備えられるプーリング層の個数によって決定される。
物体分類のためのネットワークの上で説明された実施形態では、入力画像の空間次元は、n=8分の1に縮小される。したがって、画像は、「ダウンサンプリングを学習する」モジュールの出力で64分の1でダウンサンプリングされている。
一実施形態では、深さ方向畳み込み層は、ボトルネックブロック内で使用され得る。ボトルネック残差ブロックは、表2に従って、入力を、c個のチャネルから、高さh、幅w、拡張係数t、畳み込みタイプのカーネルサイズ/ストライドs、および非線形関数fを有するc’個のチャネルに転送する。
ボトルネックブロックでは、入力ボリュームは、拡張され、その後、深さ方向畳み込み層とそれに続く点方向畳み込みを用いてフィルタリングされる。
一般に、まず、点方向畳み込みが適用される(行1)。その後、深さ方向畳み込みおよび点方向畳み込み(行2および行3が適用される)。
一実施形態では、以下の処理が続く。
Conv2d 1/1
(1×1×c×t*c個のパラメータ)
(h×w×1×1×c×t*c個の動作)
Conv2d 3/s
(3×3×t*c×c’個のパラメータ)
(h/s×w/s×3×3×t*c×c’個の動作)
しかし、代替の実施形態では、以下が使用され得る。
Conv2d 1/1
(1×1×c×t*c個のパラメータ)
(h×w×1×1×c×t*c個の動作)
DWConv 3/s
(3×3×1×t*c個のパラメータ)
(h/s×w/s×3×3×1×t*c個の動作)
Conv2d 1/1
(1×1×t*c×c’個のパラメータ)
(h/s×w/s×1×1×t*c×c’個の動作)
上の代替実施形態では、より少数の計算が要求され、パラメータは、より少数である。
より高解像度での特徴の学習およびより低解像度へのそれらの射影は、特徴学習手順に利益を与える。さらに、ボトルネックブロックでの深さ方向畳み込みの利用は、計算効率をもたらし、メモリフットプリントを大幅に削減する。
さらなる実施形態では、残差接続が、ボトルネックブロックに組み込まれ、ボトルネック残差ブロックを形成する。残差接続は、入力ボリュームおよび出力ボリュームが同一の空間次元および同一個数の特徴マップを有する場合に限って、ボトルネックブロック内で使用され得る。残差接続は、ボトルネックブロックの入力からその出力に接続された直線の層を表す。追加の接続層は、乗算層にまたがるより効率的な勾配伝搬を可能にし、ニューラルネットワークのトレーニングを改善する。
一実施形態では、ステップS307で物体分類システムに使用されるボトルネック残差ブロックは、表2に示された構造を有する。第1の層は、特徴マップの個数をt倍だけ増加させることによって入力ボリュームの次元を拡張する標準的な2次元畳み込み層である。
Figure 0006922005
ボトルネック残差ブロックの第2の層では、深さ方向畳み込みフィルタが、シーンから特徴を抽出するのに使用される。深さ方向畳み込みは、ストライドsを有し、したがって、特徴マップの出力次元は、空間的にs倍だけ縮小される。ストライドが1である畳み込み層では、特徴マップの空間サイズは影響を受けない。空間サイズの縮小は、後続のネットワーク層内での計算の回数を効果的に減少させる。畳み込みは、各深さで別々に計算されるので、DWconvは、標準的な畳み込みに対して大幅に改善する。空間サイズの縮小は、後続のネットワーク層内での計算(パラメータではない)の数を効果的に減少させる。
点方向畳み込みがそれに続く深さ方向畳み込みは、標準的な畳み込み層と比較して、物体検出の正確さを大幅には低下させない。この情報は、まずチャネル方向レベルで計算され、これに、チャネル方向情報を結合する、より安価な標準的な畳み込みが続く。畳み込みはカーネル1×1のみを使用するので、より高速であり、より少数のパラメータを必要とする。
最後に、ボトルネック残差ブロックでは、深さ方向の分離可能な畳み込み層によって生成された出力ボリュームが、2次元畳み込みの第2の層を使用して、その元々の低次元表現に戻って射影され得る。第1および第2の2次元畳み込みに使用される拡張係数tは、この2つの層に関して同一である。
一実施形態では、ステップS307のボトルネック残差ブロックには、ピラミッドプーリングモジュールS309が続く。ピラミッドプーリングモジュールは、画像をより微細なレベルからより粗なレベルへの区分に分割し、それらの中の局所特徴を集約する。空間ピラミッドプーリングは、テストのために任意のサイズの画像/ウィンドウから表現を生成することと、トレーニング中に、変化するサイズまたはスケールの画像を供給することとを可能にする。
ピラミッドプーリングモジュールが、図5に、より詳細に示されている。ここでは、それは、4つのカーネルからなり、各カーネルの解像度は、それぞれ32×64、16×32、8×16、および4×8である。カーネルは、ステップS307の特徴マップ出力に対して均等に分布される。結果の4つの特徴マップは、単一の特徴マップ出力を生成するために、双線形(bilinearly)にアップサンプリングされ、一緒に加算される。特徴マップが加算されることに留意することが重要である。これは、メモリ内にすべての解像度を記憶する必要を回避する。
表3は、一実施形態に従って大域コンテキストを取り込むのに使用され得る層の詳細を示す。
Figure 0006922005
これは、図4にも絵図的に示されている。「ダウンサンプリングを学習する」モジュールの後で、ネットワークは、2つの分岐に分岐する。第1のネットワーク分岐は、9つのボトルネック残差ブロック409、411、413、415、417、419、421、423、425、および427と、これに続くピラミッドプーリングモジュール427とを備える。第2の分岐447は、スキップ接続を表す。
当業者によって了解されるように、ボトルネック残差演算子は、実際には、表2を参照して上で説明したように複数の層を介して実施される。しかし、図4では、簡易的に、ボトルネック残差演算子が単一のエンティティとして図示されている。
Figure 0006922005
第1および第2のボトルネック残差層409および411は、64個の入力チャネルと、64個の出力チャネルと、ストライド1と、6の拡張係数(t)とを有する。
第3のボトルネック残差層413は、64個の入力チャネルと、64個の出力チャネルと、ストライド2と、6の拡張係数とを有する。
第4および第5のボトルネック残差層415および417は、64個の入力チャネルと、64個の出力チャネルと、ストライド1と、6の拡張係数とを有する。
第6のボトルネック残差層419は、64個の入力チャネルと、96個の出力チャネルと、ストライド2と、6の拡張係数とを有する。
第7および第8のボトルネック残差層421および423は、96個の入力チャネルと、96個の出力チャネルと、ストライド1と、6の拡張係数とを有する。
第9のボトルネック残差層425は、96個の入力チャネルと、128個の出力チャネルと、ストライド2と、6の拡張係数とを有する。
大域特徴抽出器の最後の層は、ピラミッドプーリング層427である。ピラミッドプーリング層427は、128個の入力チャネルと128個の出力チャネルとを有する。
一実施形態では、ダウンサンプリングを学習するモジュールは、主に、大域特徴抽出器によって抽出された大域コンテキストを洗練する処理を担う。より高い正確さおよびよりよい物体分類結果を達成するために、ダウンサンプリングを学習するモジュール内の深さ方向の分離可能なブロックは、直接に使用される。深さ方向の分離可能な畳み込みのボトルネック実施態様は、達成される分類正確さより動作の速度が重要である場合に、多数の層からなるネットワーク分岐を好むが、直接手法は、低下した動作速度を犠牲にして、物体分類のより高い精度をもたらす。しかし、ダウンサンプリングを学習することにおけるより少数のネットワーク層は、より多数の動作を補償する。
一実施形態では、図3のステップS309で、単一の特徴融合モジュールが、ネットワークの2つの分岐の出力ボリュームをマージするのに使用される。特徴マップをマージするプロセスは、システムメモリ内に特徴を保持することを含む。単一の特徴融合ユニットは、低解像度デバイス要件に従う、より効率的な設計を考慮に入れたものである。
一実施形態では、2つの分岐の出力ボリュームは、特徴マップの数と空間次元との両方において異なる。より低解像度の分岐の特徴マップの空間次元は、フル解像度の分岐の特徴マップの空間次元より小さい。したがって、より低解像度のサブネットワーク分岐の出力は、アップサンプリング層429によって処理され、特徴マップは、4倍でアップスケーリングされる。特徴融合モジュールのアーキテクチャは、表5にも表されている。
Figure 0006922005
さらなる実施形態では、アップサンプリング層に、1とは異なる膨張係数を有する深さ方向畳み込み層431が続く。膨張畳み込み層は、特徴マップ上の物体の間の空間を増大させる。膨張させる深さ方向畳み込みは、カーネルのサイズだけに影響し、具体的には、カーネルのサイズが、指数関数的に増大される。たとえば、1の膨張係数を有する深さ方向畳み込みは、3×3の元々のカーネルサイズを有するが、2の膨張係数を有する畳み込みは、7×7のカーネルサイズを有し、4の膨張係数を有する畳み込みは、15×15のカーネルサイズを有する。膨張が、カーネルサイズ7×7のものであるが、これが9つの計算だけを有することに留意されたい。
出力ボリュームの合計は、ボリュームが同一の空間次元と同一個数の特徴マップとを有する場合に限って実施され得る。したがって、2次元畳み込みの層が、2つの分岐の出力、それぞれ433および435が一緒に加算される前に、これらを一般化するのに使用される。この2つの畳み込み層は、2つの分岐の特徴マップが同一の次元を有することを保証する。
上で説明された実施形態では、畳み込み層433は、128個の入力チャネルおよび128個の出力チャネルを有するが、畳み込み層435は、48個の入力チャネルおよび128個の出力チャネルを有する。
最終ステップでは、特徴マップは、437で単に直接に一緒に加算される。したがって、メモリ内に記憶される必要があるパラメータの個数は、増加しない。
一実施形態では、特徴融合ユニットには、分類器モジュール、図3のステップS311が続く。分類器のアーキテクチャは、表4と図4のブロック439、441、443、445、および447に関して説明され得る。分類器は、2つの深さ方向の分離可能な畳み込み演算439および441と点方向畳み込み443とを使用する。点方向畳み込み層443は、使用される都市景観セグメンテーションデータセット内の19個のクラスのうち1つごとに1つの出力チャネルの、19個の出力チャネルのみを備える。分類器の最後の2つの層は、画像の当初の空間次元を復元するアップサンプリング層445と、クラスラベルごとに確率スコアを作るsoft−max畳み込み層447である。特徴融合モジュールの後に配置される分類器の追加の畳み込み層は、物体分類のシステムの正確さを改善する。
一実施形態による分類器モジュール内の畳み込み層のパラメータが、表5に提示されている。
Figure 0006922005
図6は、入力画像内に示された物体にラベルを付けることのできる、物体分類ニューラルネットワークをトレーニングする例のプロセスのフロー図を示す。ニューラルネットワークは、トレーニングの多数のサンプルを処理することと、すべてのサンプルについて、ニューラルネットワークによって生成された出力とトレーニングサンプル内で指定されるターゲット出力との間の誤差に従って各パラメータの重みを調整することとによってトレーニングされ得る。トレーニングされた後に、ニューラルネットワークは、システム、たとえば図2のニューラルネットワークシステム内で展開され得る。トレーニング手順は、1つまたは複数のコンピュータによって実行され得る。
ステップS601では、トレーニングシステムが、トレーニングデータのセットを入手する。各データセットは、トレーニング画像とターゲット出力とを備える。入力画像は、1つまたは複数の物体を示す画像の表現である。たとえば、画像は、自律車両または半自律車両の付近に配置された物体を含むことができる。トレーニングデータセットによって表されるトレーニング画像は、互いとは異なり、同様の物体を含んでも含まなくてもよい。トレーニングデータセットは、ニューラルネットワークをトレーニングするのに使用され得る、有限個数のシーンを備える。一実施形態では、標準的なデータ増補技法が、数サンプル画像を拡張するのに使用され得る。増補技法は、0.5から2までの範囲内のランダムなスケール係数と、水平フリップと、変更された色相と、変更された飽和度と、変更された輝度と、変更されたコントラストとを含むが、これに限定はされない。
トレーニングデータセットのトレーニングターゲット出力は、ニューラルネットワークによって生成されるべき物体分類ネットワークの所望の出力を表す。ターゲット出力は、ニューラルネットワークの実際の出力と比較され、重み付けパラメータは、ターゲット出力と生成された出力との間の誤差が縮小されるようにするために調整される。ステップS603では、ニューラルネットワークが、内部パラメータの現在値を使用してサンプル入力画像を処理し、出力画像を生成する。
ステップS605では、ニューラルネットワークの予測された出力が、トレーニングデータセットのターゲット出力と比較され、予測の誤差が推定される。
その結果、ステップS607では、各内部パラメータの重みが、予測された出力とターゲット出力との間の誤差が最小値まで減らされるようにするために調整される。
ステップ609では、ニューラルネットワークが、トレーニングデータの異なるセットを与えられ、トレーニングは、トレーニング手順を繰り返し、予測された出力とターゲット出力とのより小さい誤差が達成されるようにするために、ニューラルネットワークの内部パラメータを調整するために、ステップS603に戻る。
一実施形態では、モデルは、交差エントロピー損失を使用してトレーニングされ、トレーニング中に、重み付き補助損失(weighted auxiliary loss)が、ダウンサンプリングを学習するモジュールおよび大域特徴抽出モジュールの終りで使用される。この形での損失の重み付けは、セマンティックセグメンテーションの意味のある特徴がダウンサンプリングを学習するモジュールおよび大域特徴抽出モジュールによって抽出され、ネットワークの他の副部分とは独立に学習されることを保証する。一実施形態では、補助損失の重みに0.4がセットされた。一実施形態では、これが、407および427の後に追加の出力を生成することによって達成される(すなわち、新しいsoftmax層が、このステージに導入され、ネットワークの分岐からフォークする)。softmax層の出力が評価される(タスクはセグメンテーションでもある)。3つの層の出力が、重みを更新するのに使用される。勾配降下法が使用され、これが0と1との間の確率値を与えるので、softmaxが、トレーニング中に使用される。推論中に、softmaxとargmaxとの両方の関数が単調に増加するので、高コストのsoftmax計算が、argmaxに置換される。argmaxは、1または0、すなわち、物体が存在するまたは存在しない、を用いてデータにラベルを付ける。
ニューラルネットワークのトレーニングプロセスの一実施形態では、ネットワーク枝刈りが実施される。トレーニングの最初のステージでは、特徴マップの個数が2倍にされ、トレーニングは、上で説明された手順を使用して行われる。パラメータの個数は、元々のサイズの1.75倍、1.5倍、1.25倍、および1倍に徐々に減らされ、ここで、トレーニング手順は、パラメータのそれぞれの減少の後に繰り返される。ネットワーク枝刈りは、同一の性能を保ちながらネットワーク内のパラメータの個数を効果的に削減する。これは、ニューラルネットワークアーキテクチャ内で使用されていない特徴を除去することによって達成される。さらに、ネットワーク枝刈りは、必要な特徴だけがネットワークによって学習されるので、より効率的な学習を可能にする。
したがって、枝刈りは、通常、パラメータを減らすのに使用される。しかし、本明細書で説明される実施形態では、パラメータの個数が許容できるものなので、枝刈りは、性能を高めるために実行される。したがって、ネットワークの表現力は、2倍にされる(パラメータの個数を2倍にする)。今や、ネットワークは、より多数のフィルタが存在する(個数を2倍にする)ので、はるかにより低速である。しかし、枝刈りは、フィルタの元の個数にもう一度達するのに使用される。ここで、枝刈りは、フィルタの個数を拡大し(より多数を可能にし)、その後、良好である1回を選択する。
したがって、ニューラルネットワークのトレーニングプロセスのこの実施形態では、フィルタの個数は、トレーニング手順の初めに2倍にされる。これがどのように行われるのかは、図7を参照して説明される。
ステップS701では、層ごとのフィルタの個数が2倍にされる。ステップS703では、フィルタのチャネル数が、前の層の出力のチャネル数と一致させられる。たとえば、各層が、入力サイズh×wと出力サイズh’×w’を有するものとする。すべてのこれらの層が、使用されるフィルタの個数に関する深さ/チャネルを有する。すなわち、h×w×cを与えられて、サイズ3×3(たとえば)のc’個のフィルタが、h’×w’×c’を作るのに使用され得る。ステップS701と同様に、前の層のフィルタの個数が2倍にされる場合に、h×w×2c個の入力があり、サイズ3×3×2cの2c’個のフィルタが使用される。
ステップS705では、ネットワークが、図6に関して説明されたようにトレーニングされる。ステップS707では、容量に達したかどうかすなわち、フィルタのターゲット数に達したかどうかが決定される。
ステップS709では、第1の層内の最弱のフィルタ(画像入力を有する)が、識別され、除去される。これらのフィルタは、多数の異なる行列を識別する可能性があり、一実施形態では、l1和が使用される。たとえば、上の次元を使用すると、h×w×1.5cが、今は入力である。次の層のフィルタは、サイズ3×3×2cであり、したがって、ステップS711では、前の層の除去されるフィルタに関係する重みが、サイズ3×3×1.5cのフィルタを得るために除去される。その後、ステップS813では、現在の層内の最弱のフィルタが、決定され、このプロセスが継続される。
ステップS715では、ステップS711およびS713でのフィルタの除去によって影響を受ける層がまだあるかどうかを調べるためにチェックされる。ある場合には、このプロセスはステップS711にループバックする。最弱のフィルタおよび重みのすべてが除去された後に、このプロセスは、トレーニングステップS707に戻る。ネットワークがトレーニングされた後に、フィルタの個数がさらに減らされる(たとえば、ここでは、フィルタの個数が、2×から1.75×に、1.5×に、1.25×に、1×に減らされる)べきかについてチェックされる。さらなる削減が要求される場合には、このプロセスは、さらなるフィルタを除去するためにステップS709に移る。そうではない場合には、このプロセスは終了し、ネットワークは、トレーニングされ、枝刈りされる。
一実施形態では、バッチ正規化が、トレーニング中にダウンサンプリングを学習するモジュールのすべての層の後で使用される。バッチ正規化は、ニューラルネットワークの各層が他の層とはより独立に学習することを可能にする。バッチ正規化は、前の層の特徴マップ内のアクティブ化をスケーリングする。ニューラルネットワーク全体のすべてのアクティブ化が、所与の範囲内なので、大きすぎる値または小さすぎる値に関連するアクティブ化はない。これは、より高い学習速度と改善された特徴学習とを可能にする。
一実施形態では、ニューラルネットワークノードのセットの脱落が、soft−max層の前に実施される。脱落は、ネットワーク内のニューロンの間の相互に依存する学習を減らすトレーニング手法である。トレーニング中に、ノードのランダムなセットが、ネットワークから脱落され、その結果、ネットワークの縮小された版が作成されるようになる。ネットワークの縮小された版は、ニューラルネットワークの他のセクションとは独立に学習し、したがって、ニューロンが互いの間の共依存関係を展開するのを防ぐ。
上を実証するために、上の切除研究が、都市景観データセットを使用して行われ[ M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth, および B. Schiele、The Cityscapes dataset for semantic urban scene understanding. CVPR、2016年]、都市景観テストセット、すなわち都市景観ベンチマークサーバに関する性能を報告する。
実験は、CUDA 9.0およびcuDNN V7を用い、Nvidia Titan X(Maxwell、3072個のCUDAコア)またはNvidiaTitan Xp(Pascal、3840個のCUDAコア)を有するワークステーション上で実行された。ReLUが、ReLU6と比較して、達成される、より高速のトレーニングおよびよりよい正確さとに起因して、非線形性関数として使用された。トレーニング中に、バッチ正規化が、すべての層で使用され、脱落が、soft−max層の前のみで使用される。推論中に、バッチ正規化のパラメータは、親層の重みおよびバイアスとマージされる。深さ方向畳み込み層では、我々は、l2正則化が不要であることを見出した。一実施形態では、他の層に関して、l2正則化は0.00004である。
ラベル付けされたトレーニングデータが制限されたので、ランダムスケール0.5から2までと、水平フリップと、変更された色相と、変更された飽和度と、変更された輝度と、変更されたコントラストという標準的なデータ増補技法が、すべての実験で適用された。
Fast−SCNNのモデルは、Pythonを使用するTensorFlow機械学習プラットフォームを用いてトレーニングされる。0.9の運動量およびバッチサイズ12を有する確率的勾配降下法(SGD)が使用される。さらに、ポリ学習レート(poly learning rate)が、ベースレート0.045および電力0.98を用いて適用された。エポックの最大個数は、事前トレーニングが使用されないので1000にセットされる。
都市景観は、ドイツ内の50の異なる都市からの街路シーン内の画像の多様なセットを含む、セマンティックセグメンテーションの大規模データセットである。合計して、それは、25000枚の注釈付き1024×2048画素画像であり、そのうちの5000枚は、高い画素正確さでのラベルを有し、20000枚は、弱く注釈付けされている。本明細書で提示される実験では、5000枚の画像だけすなわち、都市景観評価サーバ上で評価され得る2975枚の画像のトレーニングセットと、500枚の画像の妥当性検査セットと、1525枚の試験画像とが、高いラベル品質を伴って使用された。
一実施形態では、ImageNetを用いる事前トレーニングが使用された。
都市景観は、30個のクラスラベルをも付与するが、19個のクラスだけが、評価に使用される。結果は、平均インターセクションオーバユニオン(mean intersection−over−union)(mIoU)として報告され、ランタイム評価は、転送推論時間(forward inference time)を測定するためにシングルスレッド式CPUおよびGPU内で実行される。バーンインのために、100フレームが使用され、フレーム毎秒(fps)測定のために、100フレームの平均値が報告される。
fast−SCNNの全体的な性能は、都市景観の差し控えられたテストセットに対して評価される。表6には、Nvidia Titan X(Maxwell、3072個のCUDA)と、「*」によって表されるNvidia Titan Xp(Pascal、3840個のCUDAコア)との両方に関して、異なる解像度でのfps単位で比較されたランタイムがある。fast−SCNNの2つの版すなわち、soft−max出力(我々のprob)および物体ラベル出力(我々のcls)が示されている。
Figure 0006922005
都市景観テストセットを使用するFast−SCNNのクラスおよびカテゴリmIoUが、表7に提示されている。Fast−SCNNは、68.0% mIoUを達成する。このモデルは、少メモリ組み込みデバイス用に設計され、1.1百万パラメータだけを使用する。Fast−SCNNの結果は、定量分析のために図9に表示されている。第1の列には、入力RGB画像があり、第2の列は、グラウンドトゥルースラベルであり、第3の列は、Fast−SCNNの出力である。
Figure 0006922005
Figure 0006922005
Fast−SCNNが、少ない容量を有するように特に設計されているので、少メモリであることの理由は、組み込みデバイス上での実行を可能にし、よりよい一般化が期待される。提案されるネットワークの性能は、事前トレーニングの有無を伴い、追加の弱くラベル付けされたデータの有無に関連して評価された。結果は、表9に提示されている。事前トレーニングに関して、ImageNetデータベースが使用され、特徴融合モデルは、平均プーリングによって置換され、分類モジュールは、softmax層だけを備える。ImageNetに対する事前トレーニングは、しばしば、正確さと一般性とを押し上げる。ImageNet事前トレーニングを用いるFast−SCNNの正確さは、都市景観の妥当性検査セットに関して69.15% mIoUであるが、Fast−SCNNは、事前トレーニングなしで68.62% mIoUを達成する。
さらに、都市景観の都市道路とImageNetの分類タスクとの間のオーバーラップが制限されるので、Fast−SCNNが、両方の領域の制限された能力に起因して利益を得ない可能性があると仮定することは、穏当である。したがって、都市景観によって付与される追加の20000個の粗にラベル付けされた画像が、類似する領域からのものなので、組み込まれた。それでも、粗なトレーニングデータ(ImageNetありまたはImageNetなし)を用いてトレーニングされたFast−SCNNは、互いと同様に、事前トレーニングなしの元々のFast−SCNNに対するわずかな改善のみを伴って実行する。
低容量Fast−SCNNが、Imagenetを用いる事前トレーニングから大きくは利益を得ないと結論することができる。同様の結果が、積極的なデータ増補およびより多数のエポックを使用することによって達成され得る。
Figure 0006922005
図9に、トレーニング曲線を示す。粗データを用いるFast−SCNNは、弱いラベル品質のゆえに反復に関して低速でトレーニングする。ImageNet事前トレーニング版の両方は、早期エポック(トレーニングセットのみに関して400エポックまで、追加の粗にラベル付けされたデータを用いてトレーニングされる時に100エポックまで)に関してよりよく実行する。これは、Fast−SCNNが一からトレーニングされる時に、同様の正確さに達するためにより長くトレーニングされる必要があることを意味する。
上の実施形態は、高解像度画像(1024×2048画素)に関するリアルタイムより高速の物体分類(91.0fps)のためのネットワークに関する。多重分岐ネットワークの計算コストの共有は、ランタイム効率をもたらす。上のアーキテクチャでは、スキップ接続が、空間詳細の回復に関して有益であることを示す。スキップ接続は、小さいサイズの境界および物体の周囲で特に有益である、図10。
さらに、上の研究は、十分に長くトレーニングされた場合に、追加の補助タスクに対するモデルの大規模事前トレーニングが、低容量ディープ畳み込みニューラルネットワークに関して必要ではないことを示す。
図11は、実施形態に従って方法を実施するのに使用され得るハードウェアの概略図である。これが、一例にすぎず、他の配置が使用され得ることに留意されたい。
ハードウェアは、計算セクション900を備える。この特定の例では、このセクションの構成要素は、一緒に説明される。しかし、これらが、必ずしも同一位置に配置されないことを了解されたい。
コンピューティングシステム900の構成要素は、処理ユニット913(中央処理装置、CPUなど)と、システムメモリ901と、システムメモリ901を含む様々なシステム構成要素を処理ユニット913に結合するシステムバス911とを含むがこれに限定されない。システムバス911は、メモリバスもしくはメモリコントローラと、周辺バスと、様々なバスアーキテクチャのいずれかを使用するローカルバスなどとを含む複数のタイプのバス構造のいずれとすることもできる。計算セクション900は、バス911に接続された外部メモリ915をも含む。
システムメモリ901は、読取専用メモリなど、揮発性メモリ/または不揮発性メモリの形のコンピュータ記憶媒体を含む。スタートアップ中などにコンピュータ内の要素の間での情報の転送を助けるルーチンを含む基本入出力システム(BIOS)903が、通常はシステムメモリ901内に記憶される。さらに、システムメモリは、CPU 913によって使用中のオペレーティングシステム905と、アプリケーションプログラム907と、プログラムデータ909とを含む。
また、インターフェース925が、バス911に接続される。インターフェースは、コンピュータシステムがさらなるデバイスから情報を受信するためのネットワークインターフェースとすることができる。インターフェースは、ユーザがある種のコマンドなどに応答することを可能にするユーザインターフェースとすることもできる。
この例では、ビデオインターフェース917が設けられる。ビデオインターフェース917は、グラフィックス処理メモリ921に接続されたグラフィックス処理ユニット919を備える。
グラフィックス処理ユニット(GPU)919は、この多重並列呼出しの動作に起因して、上で説明される方法に特によく適する。したがって、一実施形態では、処理は、CPU913とGPU919との間で分割され得る。
一実施形態では、GPUは、低電力GPUチップであるNVIDIA Jetson TX2である。
一実施形態では、専用コンピューティングデバイス900は、各カメラ(図1参照)へのリンクを設けられる。上で図2から図4までに関して説明されるアーキテクチャは、浮動小数点計算の必要を回避し、したがって、コンピューティングデバイスは、車両上のカメラと結合されるなど、低電力位置によく適する。
上で説明されるアーキテクチャは、GPUを使用する携帯電話機にも特に役立つ。
ある種の実施形態が説明されたが、これらの実施形態は、例としてのみ提示され、本発明の範囲を限定することは意図されていない。実際に、本明細書で説明される新規のデバイスおよび方法は、様々な他の形で具現化され得、さらに、本明細書で説明されるデバイス、方法、および製品の形態における様々な省略、置換、および変更が、本発明の趣旨から逸脱せずに行われ得る。添付の特許請求の範囲およびその均等物は、本発明の範囲および趣旨に含まれ得るものとしてそのような形態または修正を包含することが意図されている。

Claims (19)

  1. 画像を受け取ることと、
    第1の特徴マップを作るために共通の処理ステージを用いて前記画像を処理することと、
    前記第1の特徴マップを受け取る第1および第2の並列分岐を備える並列処理ステージに前記第1の特徴マップを入力することと、
    セマンティックセグメント化された画像を作るために前記第1および第2の分岐の出力を融合ステージで結合することと
    を備え、
    前記融合ステージは、前記第1の分岐の前記出力をアップサンプリングすることと、前記第1の分岐の前記アップサンプリングされた出力を前記第2の分岐の前記出力に加算することと、を備え、前記第1の分岐の前記アップサンプリングされた出力は、前記第2の分岐の前記出力への加算の前に深さ方向畳み込みを受け、
    前記共通の処理ステージは、ニューラルネットワークを備え、前記ニューラルネットワークは、第1の特徴マップを作るために分離可能な畳み込みを実行し、前記画像をダウンサンプリングするように構成された少なくとも1つの分離可能な畳み込みモジュールを有し、前記第1の分岐は、分離可能な畳み込みを実行するように構成された少なくとも1つの分離可能な畳み込みモジュールを備えるニューラルネットワークを備える、
    画像をセグメント化する画像処理方法。
  2. 第2の分岐は、前記第1の特徴マップが前記第1の分岐の前記出力と結合されることを可能にするためにスキップ接続として機能する、請求項1に記載の画像処理方法。
  3. 前記第1および第2の分岐からの前記出力は、1つのステージのみで結合される、請求項1または2に記載の画像処理方法。
  4. 前記第1の分岐内の層の数は、前記共通処理ステージ内の層の数より多い、請求項1から3のいずれかに記載の画像処理方法。
  5. 前記加算することは、アップサンプリングされ、深さ方向畳み込みされ前記第1の分岐の出力と前記第2の分岐との対応する値を加算することを備える、請求項1からのいずれかに記載の画像処理方法。
  6. 前記融合ステージにおける前記深さ方向畳み込みは、1より大きい膨張係数を用いて実行される、請求項に記載の画像処理方法。
  7. 前記第1の分岐のアップサンプリングされた出力は、1より大きい膨張係数を有する深さ方向畳み込みを受け、前記第2の分岐の前記出力は、加算の前に2次元畳み込みを受ける、請求項に記載の画像処理方法。
  8. 前記第1および第2の分岐の前記結合された出力は、分類器によって処理される、請求項1からのいずれかに記載の画像処理方法。
  9. 前記第1の分岐のステージ内の前記分離可能な畳み込みモジュールは、深さ方向畳み込みモジュールである、請求項1からのいずれかに記載の画像処理方法。
  10. 前記第1の分岐内の前記分離可能な畳み込みモジュールは、深さ方向の分離可能な畳み込みモジュールである、請求項1からのいずれかに記載の画像処理方法。
  11. 前記第1の分岐内の前記分離可能な畳み込みモジュールは、ボトルネックアーキテクチャモジュールである、請求項1から10のいずれかに記載の画像処理方法。
  12. 複数のボトルネック残差アーキテクチャモジュールが存在する、請求項11に記載の画像処理方法。
  13. 前記複数のボトルネック残差アーキテクチャモジュールの後にピラミッドプーリングモジュールが設けられる、請求項12に記載の画像処理方法。
  14. モデルをトレーニングする方法であって、前記モデルは、画像をセマンティックセグメント化するモデルであり、前記モデルは、
    第1の特徴マップを作るための共通の処理ステージと、
    前記第1の特徴マップを受け取る第1および第2の並列分岐を備える並列処理ステージと、
    セマンティックセグメント化された画像を作るために前記第1および第2の分岐の出力を結合する融合ステージと、
    を備え、
    前記融合ステージは、前記第1の分岐の前記出力をアップサンプリングすることと、前記第1の分岐の前記アップサンプリングされた出力を前記第2の分岐の前記出力に加算することと、を備え、前記第1の分岐の前記アップサンプリングされた出力は、前記第2の分岐の前記出力への加算の前に深さ方向畳み込みを受け、
    前記共通の処理ステージはニューラルネットワークを備え、前記ニューラルネットワークは、第1の特徴マップを作るために、分離可能な畳み込みを実行し、前記画像をダウンサンプリングするように構成された少なくとも1つの分離可能な畳み込みモジュールを有し、前記第1の分岐は、分離可能な畳み込みを実行するように構成された少なくとも1つの分離可能な畳み込みモジュールを備えるニューラルネットワークを備え、
    前記トレーニングする方法は、
    トレーニングデータを提供することと、ここで前記トレーニングデータは、画像および前記画像に関するセマンティックセグメント化された情報を備え、
    入力として前記画像を使用し、出力として前記セマンティックセグメント化された情報を使用して前記モデルをトレーニングすることと、ここで前記共通の処理ステージおよび前記並列処理ステージは一緒にトレーニングされる、
    を含む、方法。
  15. トレーニング中にフィルタの個数を適応させることと、より重要性の低いフィルタを破棄するためにその個数を減らすこととをさらに備える、請求項14に記載の方法。
  16. 前記共通の処理ステージおよび/または第1の処理分岐ステージに対して少なくとも1つの追加出力を加えるためにトレーニング中に前記モデルを適応させることをさらに備え、前記方法は、入力として前記画像を使用してトレーニングすることと、前記出力と前記少なくとも1つの追加出力との両方での前記セマンティックセグメント化された情報の両方との比較によって損失を決定することと、両方の出力からの前記決定された損失を使用することによってトレーニング中に重みを更新することとをさらに備える、請求項14に記載の方法。
  17. インターフェースとプロセッサと
    を備え、
    前記インターフェースは、画像入力を有し、画像を受け取るように適応され、
    前記プロセッサは、
    第1の特徴マップを作るために共通の処理ステージを用いて前記画像を処理し、
    前記第1の特徴マップを受け取る第1および第2の並列分岐を備える並列処理ステージに前記第1の特徴マップを入力し、
    セマンティックセグメント化された画像を作るために前記第1および第2の分岐の出力を融合ステージで結合するように適応され、
    前記融合ステージは、前記第1の分岐の前記出力をアップサンプリングすることと、前記第1の分岐の前記アップサンプリングされた出力を前記第2の分岐の前記出力に加算することと、を備え、前記第1の分岐の前記アップサンプリングされた出力は、前記第2の分岐の前記出力への加算の前に深さ方向畳み込みを受け、
    前記共通の処理ステージは、ニューラルネットワークを備え、前記ニューラルネットワークは、第1の特徴マップを作るために分離可能な畳み込みを実行し、前記画像をダウンサンプリングするように構成された少なくとも1つの分離可能な畳み込みモジュールを有し、前記第1の分岐は、分離可能な畳み込みを実行するように構成された少なくとも1つの分離可能な畳み込みモジュールを備えるニューラルネットワークを備える、
    画像をセグメント化する画像処理システム。
  18. 車両の検出システムであって、前記検出システムは、画像を受け取り、前記画像をセグメント化することによって前記画像から物体を決定するように適応された、請求項17の画像処理システムを含む、検出システム。
  19. 請求項1から16のいずれかの方法をコンピュータに実行させるように適応されたコンピュータ可読命令を担持する非一時的キャリアメディア。
JP2020007450A 2019-01-22 2020-01-21 コンピュータビジョンのシステムおよび方法 Active JP6922005B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB1900883.8 2019-01-22
GB1900883.8A GB2580671B (en) 2019-01-22 2019-01-22 A computer vision system and method

Publications (2)

Publication Number Publication Date
JP2020119568A JP2020119568A (ja) 2020-08-06
JP6922005B2 true JP6922005B2 (ja) 2021-08-18

Family

ID=65656010

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020007450A Active JP6922005B2 (ja) 2019-01-22 2020-01-21 コンピュータビジョンのシステムおよび方法

Country Status (3)

Country Link
US (1) US11315253B2 (ja)
JP (1) JP6922005B2 (ja)
GB (1) GB2580671B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20250238894A1 (en) * 2023-03-06 2025-07-24 Boe Technology Group Co., Ltd. Image super-resolution method, device, and storage medium

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220156554A1 (en) * 2019-06-04 2022-05-19 Northeastern University Lightweight Decompositional Convolution Neural Network
US11704555B2 (en) * 2019-06-24 2023-07-18 Baidu Usa Llc Batch normalization layer fusion and quantization method for model inference in AI neural network engine
KR102780560B1 (ko) * 2020-01-21 2025-03-12 삼성디스플레이 주식회사 잔상 방지 방법 및 이를 포함하는 표시 장치
CN111261283B (zh) * 2020-01-21 2023-05-09 浙江理工大学 基于金字塔型卷积层的心电信号深度神经网络建模方法
US11947989B2 (en) * 2020-02-14 2024-04-02 SparkCognition, Inc. Process flow for model-based applications
CN111488887B (zh) * 2020-04-09 2023-04-18 腾讯科技(深圳)有限公司 基于人工智能的图像处理方法、装置
CN111340141A (zh) * 2020-04-20 2020-06-26 天津职业技术师范大学(中国职业培训指导教师进修中心) 一种基于深度学习的作物幼苗与杂草检测方法及系统
US11657279B2 (en) * 2020-06-16 2023-05-23 National Taiwan University Of Science And Technology Electronic device and method for document segmentation
CN112329610B (zh) * 2020-11-03 2024-07-12 中科九度(北京)空间信息技术有限责任公司 一种基于边缘注意力机制融合网络的高压线检测方法
EP4300440B1 (en) 2020-11-09 2025-12-31 Samsung Electronics Co., Ltd. IMAGE SEGMENTATION METHOD AND APPARATUS
CN112633402B (zh) * 2020-12-30 2024-05-03 南京大学 一种实现动态计算的高精度高比例的分类模型及分类方法
KR20220100476A (ko) * 2021-01-08 2022-07-15 주식회사 모아이스 골프 스윙에 관한 정보를 추정하기 위한 방법, 디바이스 및 비일시성의 컴퓨터 판독 가능한 기록 매체
CN112837320B (zh) * 2021-01-29 2023-10-27 华中科技大学 一种基于并行空洞卷积的遥感影像语义分割方法
CN112966624B (zh) * 2021-03-16 2025-02-25 北京主线科技有限公司 一种车道线检测方法、装置、电子设备和存储介质
CN113128345A (zh) * 2021-03-22 2021-07-16 深圳云天励飞技术股份有限公司 多任务属性识别方法及设备、计算机可读存储介质
KR20220132375A (ko) * 2021-03-23 2022-09-30 현대모비스 주식회사 차량 영상의 화소를 분류하는 행렬 곱셈 가속기에 최적화된 임베디드 의미 분할 네트워크 장치
BR112023018634A2 (pt) * 2021-03-25 2023-10-10 Qualcomm Inc Aprendizado residual difundido
CN113269734B (zh) * 2021-05-14 2023-04-07 成都市第三人民医院 一种基于元学习特征融合策略的肿瘤图像检测方法及装置
CN113420641B (zh) * 2021-06-21 2024-06-14 梅卡曼德(北京)机器人科技有限公司 图像数据处理方法、装置、电子设备和存储介质
CN113688864B (zh) * 2021-07-14 2022-05-27 淮阴工学院 一种基于分裂注意力的人-物交互关系分类方法
KR102687000B1 (ko) * 2021-07-30 2024-07-22 주식회사 마크애니 이미지에 표시된 대상체의 색상 검출 방법 및 장치
CN115705633B (zh) * 2021-08-05 2026-01-23 中移(成都)信息通信科技有限公司 模型训练方法、装置及存储介质
CN113743524A (zh) * 2021-09-14 2021-12-03 哈尔滨理工大学 一种基于双通道特征融合的图像语义分割方法
CN114022354B (zh) * 2021-09-18 2025-06-10 原力图新(重庆)科技有限公司 图像处理方法、电子设备及计算机程序产品
CN113947144B (zh) * 2021-10-15 2022-05-17 北京百度网讯科技有限公司 用于对象检测的方法、装置、设备、介质和程序产品
US12488576B2 (en) * 2021-12-07 2025-12-02 X Development Llc Hierarchical context in risk assessment using machine learning
US12333798B2 (en) * 2022-03-16 2025-06-17 Maxar Space Llc Convolutional neural network (CNN) for automatic target recognition in a satellite
CN114581671B (zh) * 2022-04-24 2024-09-06 湖南师范大学 一种图像的语义分割方法、装置及计算机可读存储介质
WO2024096938A2 (en) * 2022-07-22 2024-05-10 Numerica Corporation Multi-target detection using convex sparsity prior
CN115376024B (zh) * 2022-08-02 2025-09-09 国网江苏省电力有限公司盐城供电分公司 一种输电线路电力配件语义分割方法
CN115661636B (zh) * 2022-09-27 2025-09-05 西安电子科技大学 基于特征分离卷积神经网络的sar图像目标检测方法
CN115761238B (zh) * 2022-12-19 2024-09-17 桂林电子科技大学 基于多分支深度可分离空洞卷积的实时语义分割方法
CN116030348B (zh) * 2023-01-10 2024-10-25 淮阴工学院 一种基于LS-YOLOv5网络的绿豆叶斑病病斑检测方法及装置
CN116563315A (zh) * 2023-03-28 2023-08-08 上海师范大学 一种医学图像腺体分割方法
CN116935099A (zh) * 2023-06-19 2023-10-24 中国移动通信集团有限公司研究院 图像处理方法、装置、电子设备及可读存储介质
CN116994243B (zh) * 2023-07-31 2024-04-02 安徽省农业科学院农业经济与信息研究所 一种轻量级农业害虫检测方法及系统
US20250063261A1 (en) * 2023-08-18 2025-02-20 Tobii Technologies Limited Demosaicing module for an image signal processing pipeline
CN117593639B (zh) * 2023-11-21 2024-05-28 北京天鼎殊同科技有限公司 公路及其附属物的提取方法、装置、设备及介质
CN117456191B (zh) * 2023-12-15 2024-03-08 武汉纺织大学 一种基于三分支网络结构的复杂环境下语义分割方法
CN118212416B (zh) * 2024-04-08 2025-02-25 天津理工大学 一种用于自动驾驶的交通场景图像实时语义分割方法
CN120496063B (zh) * 2025-04-30 2026-01-06 梧州学院 一种适用于水稻茎秆截面小维管束检测方法
CN120912600B (zh) * 2025-10-09 2026-02-06 南昌华翔汽车内外饰件有限公司 车辆塑料件的检测方法、系统、存储介质及计算机

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7444383B2 (en) 2000-06-17 2008-10-28 Microsoft Corporation Bounded-deferral policies for guiding the timing of alerting, interaction and communications using local sensory information
EP2256667B1 (en) 2009-05-28 2012-06-27 Honda Research Institute Europe GmbH Driver assistance system or robot with dynamic attention module
JP5716343B2 (ja) 2010-10-01 2015-05-13 トヨタ自動車株式会社 車両の物体認識システム
US9499197B2 (en) 2014-10-15 2016-11-22 Hua-Chuang Automobile Information Technical Center Co., Ltd. System and method for vehicle steering control
US20180225554A1 (en) 2017-02-06 2018-08-09 Honda Motor Co., Ltd. Systems and methods of a computational framework for a driver's visual attention using a fully convolutional architecture
WO2018170393A2 (en) * 2017-03-17 2018-09-20 Portland State University Frame interpolation via adaptive convolution and adaptive separable convolution
CN108510473A (zh) * 2018-03-09 2018-09-07 天津工业大学 结合深度可分离卷积与通道加权的fcn视网膜图像血管分割
CN109101878B (zh) * 2018-07-01 2020-09-29 浙江工业大学 一种用于秸秆燃值估计的图像分析系统及图像分析方法
US11600006B2 (en) * 2018-10-26 2023-03-07 Here Global B.V. Deep neural network architecture for image segmentation
US10769744B2 (en) * 2018-10-31 2020-09-08 Kabushiki Kaisha Toshiba Computer vision system and method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20250238894A1 (en) * 2023-03-06 2025-07-24 Boe Technology Group Co., Ltd. Image super-resolution method, device, and storage medium

Also Published As

Publication number Publication date
GB2580671A (en) 2020-07-29
US20200234447A1 (en) 2020-07-23
JP2020119568A (ja) 2020-08-06
US11315253B2 (en) 2022-04-26
GB2580671B (en) 2022-05-04
GB201900883D0 (en) 2019-03-13

Similar Documents

Publication Publication Date Title
JP6922005B2 (ja) コンピュータビジョンのシステムおよび方法
JP6818806B2 (ja) コンピュータビジョンシステム及び方法
Emara et al. Liteseg: A novel lightweight convnet for semantic segmentation
US11461998B2 (en) System and method for boundary aware semantic segmentation
CN116188999B (zh) 一种基于可见光和红外图像数据融合的小目标检测方法
US10832097B2 (en) Device and a method for image classification using a convolutional neural network
CN107506707B (zh) 采用嵌入式系统中的小规模卷积神经网络模块的人脸检测
US10510146B2 (en) Neural network for image processing
EP3427195B1 (en) Convolutional neural networks, particularly for image analysis
CN107909026B (zh) 基于小规模卷积神经网络年龄和/或性别评估方法及系统
Yang et al. Real-time pedestrian and vehicle detection for autonomous driving
CN111598030A (zh) 一种航拍图像中车辆检测和分割的方法及系统
CN112200189B (zh) 基于SPP-YOLOv3的车型识别方法、装置及计算机可读存储介质
US20220111860A1 (en) Detecting objects and determining behaviors of objects
Hua et al. Convolutional networks with bracket-style decoder for semantic scene segmentation
CN115512302A (zh) 基于改进YOLOX-s模型的车辆检测方法及系统
JP2022123903A (ja) 物体検出システムおよび物体検出方法
CN115017931A (zh) 一种批量qr码实时提取方法及系统
Hussain et al. Image segmentation for autonomous driving using u-net inception
CN115082867B (zh) 用于对象检测的方法和系统
CN113780189A (zh) 一种基于U-Net改进的车道线检测方法
KR20220146750A (ko) 그룹 확장 컨벌루션 모듈 기반 시멘틱 분할 네트워크 시스템 및 방법
Rao et al. A Deep Learning Approach Towards Building Intelligent Transport System
JP2020038572A (ja) 画像学習プログラム、画像学習方法、画像認識プログラム、画像認識方法、学習データセットの生成プログラム、学習データセットの生成方法、学習データセット、及び画像認識装置
Rakhmonov et al. Airy YOLOv5 for Disabled Sign Detection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200302

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210511

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210526

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210629

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210728

R151 Written notification of patent or utility model registration

Ref document number: 6922005

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151