JP7229982B2

JP7229982B2 - ビデオシーケンスの画像をエンコードする方法及びシステム

Info

Publication number: JP7229982B2
Application number: JP2020196810A
Authority: JP
Inventors: ヴィクトルエドパルム，
Original assignee: アクシスアーベー
Priority date: 2019-12-03
Filing date: 2020-11-27
Publication date: 2023-02-28
Anticipated expiration: 2040-11-27
Also published as: KR20210069564A; TWI801764B; CN112911293B; TW202126047A; KR102446097B1; US20210168373A1; CN112911293A; JP2021103876A; EP3833028A1; US11303903B2; EP3833028B1

Description

本発明は、ビデオコーディングの分野に関する。特に、本発明は、ビデオシーケンスの画像をエンコードする方法及びシステムに関する。

ビデオフレームのシーケンスをエンコードする際には、ビデオフレームのそれぞれをピクセルのブロックに分割し、そのフレームをブロック毎にエンコードするのが一般的なプラクティスである。これらのブロックは、Ｈ．２６４／ＭＰＥＧ－４ＡＶＣではマクロブロックとして知られており、Ｈ．２６５／ＨＥＶＣではコーディングユニットとして知られている。ブロックは、Ｉブロックと時に呼ばれるイントラブロック、又は、Ｐ若しくはＢブロックと時に呼ばれるインターブロックとしてエンコードされてよい。

ブロックがイントラコードされる場合、ピクセル値は、例えば、同じフレームにおける、隣接するブロックのエッジから推定することにより、現在のフレームのみのピクセル値を参照してエンコードされる。これは、リファレンスフレームにおける、マッチングのとれたピクセルのブロックを参照してエンコードされる、インターコードされたブロックとは対照的である。具体的には、ピクセルのブロックをインターコードすることは、リファレンスフレームにおける、マッチングのとれたピクセルのブロックを指し示す動きベクトルをエンコードすることと、ピクセルのブロックとマッチングのとれたピクセルのブロックとの間の残りをエンコードすることと、を含む。ピクセルのブロックの動きベクトルをエンコードすることをより効率的にするために、これは通常、隣接するピクセルのブロックの動きベクトルに対して、例えば、同じフレームにおける、以前にエンコードされた隣接するブロックの動きベクトルに対して、エンコードされる。

イントラフレームと呼ばれるいくつかのフレームでは、ピクセルのブロックのすべてがイントラコードされる。インターフレームと呼ばれる他のフレームでは、ピクセルのブロックのいくつかがイントラコードされ、他がインターコードされる。インターフレームでは、ピクセルのブロックを、イントラコードされたブロック又はインターコードされたブロックとしてエンコードするかについての決定が、ブロック毎に基づいて行われる。この決定は通常、イントラコーディング及びインターコーディングのどちらであれば、エンコードする代償が最も低いか、に基づいて行われる。ブロックをイントラコードする代償は、予め定められた値を単位として与えられてよい。一方、ブロックをインターコードする代償は、動きベクトル及び残りをエンコードする、組み合わせた代償として判定される。

ピクセルのブロックをイントラコード又はインターコードするかを、ブロック毎に基づいて決定するこのアプローチには、いくつかの欠点がある。具体的には、ブロックレベルでは最適に見えるような決定は、いくつかのシチュエーションにおいて、フレームレベルでは最適なものとして次点の場合があり、ついには、フレームをエンコードする代償が不必要に高いものとなる場合がある。

そのようなシチュエーションの一例として、対象が、以前にエンコードされたフレームから、かなりの距離を動いた、多数のピクセルのブロックに広がる場合がある。対象内のピクセルのブロックに対して、モーションの検索では、かなりの長さを有する、以前にエンコードされたフレームから、対象のモーションに相当する、候補となる動きベクトルが見つかる可能性が高い。長い動きベクトルは、エンコードに対する代償が大きいため、いずれの単一のピクセルのブロックに対して長い動きベクトルを使用することに対しては、よい決定とならない場合がある。特にこれは、より高い圧縮レベルの場合にあてはまる。なぜなら、残りは、理論的に、高圧縮レベルに対してより少なくなるが、動きベクトルをエンコードする代償は、圧縮レベルに関わらず、同じままであるためである。その代わりに、既存のブロック毎での方法では、対象内のブロックを、より短い動きベクトルを伴う、イントラコードされたブロックとして、又は、インターコードされたブロックとしてエンコードすることが決定される。しかし、フレームレベルでのよりよい決定を行うには、動きベクトルは、互いに対してエンコードされる、ということを念頭において、長い動きベクトルをエンコードする追加的代償が必要となることが多かった。したがって、改善の余地がある。

上記を鑑み、したがって、本発明の目的は、ビデオシーケンスにおける、以前にエンコードされた画像から、かなりの距離を動いた対象を描く画像をエンコードする合計ビットの代償を減らすことである。

本発明の第１の態様によると、上記の目的は、ビデオシーケンスの画像をエンコードする方法により達成される。この方法は、
ビデオシーケンスにおけるモーションを解析し、そのビデオシーケンスにおける、以前にエンコードされた画像から、閾値より長い距離ベクトルを伴って動いたその画像における、コヒーレントな領域を特定することと、
その画像におけるピクセルのブロックを、ピクセルのブロックのそれぞれに対してエンコードすることであって、
ブロックマッチングを行い、リファレンスイメージにおける、マッチングのとれたピクセルのブロックを指し示す動きベクトルを見いだし、ピクセルのブロックとマッチングのとれたピクセルのブロックとの間の残りを計算することと、
動きベクトルをエンコードする代償と、残りをエンコードする代償と、を計算することであって、
そのコヒーレントな領域における、ピクセルのブロックの少なくとも１つに対して、動きベクトルをエンコードする代償は、その画像における、隣接するピクセルのブロックの動きベクトルに対する動きベクトルをエンコードする代償として計算される代わりに、そのコヒーレントな領域の距離ベクトルに対する動きベクトルをエンコードする代償として計算される、代償を計算することと、
動きベクトルをエンコードする代償と、残りをエンコードする代償と、を組み合わせた場合に、その組み合わせた代償が、そのピクセルのブロックをイントラコードする代償未満の場合は、ピクセルのブロックを、インターコードされたブロックとしてエンコードすることと、により、ピクセルのブロックをエンコードすることと、
を含む。

このアプローチにより、ピクセルのブロックをイントラコードするか、又は、インターコードするかについての決定が、ブロックレベルにて行われる。依然として、動きベクトルをエンコードする代償が、コヒーレントな領域における、ピクセルのブロックの少なくとも１つに対して計算される方法を変えることにより、そのコヒーレントな領域における、ブロックの１つ又はそれ以上に対する長い動きベクトルをエンコードする追加的代償を担うよう、エンコーダを「だます」ことができる。そのようにして、コヒーレントな領域をエンコードする実際の合計ビットの代償が減らされてよい。

より詳細には、動きベクトルをエンコードする代償は通常、その画像における、隣接するピクセルのブロックの動きベクトルに関して評価される。代償を計算するこの方法は、動きベクトルをエンコードする実際のビットの代償に相当する。したがって、エンコーダは通常、画像における、隣接するピクセルのブロックの動きベクトルに類似する動きベクトルをエンコードする代償が低いことを考慮する。

しかし、コヒーレントな領域における、ピクセルのブロックの少なくとも１つに対して、動きベクトルをエンコードする代償は、その代わりに、そのコヒーレントな領域の距離ベクトルに関して評価される。このようにして、コヒーレントな領域における、ピクセルのブロックの少なくとも１つに対して、エンコーダは、そのコヒーレントな領域の距離ベクトルに類似する動きベクトルをエンコードする代償が低いことを信じることとなる。結果として、エンコーダは、そのコヒーレントな領域の距離ベクトルに等しい又はこれに近い動きベクトルを伴うピクセルのブロックの少なくとも１つをインターコードするという決定を行う可能性が、より高い。実際には、しかし、ピクセルのブロックの少なくとも１つの動きベクトルをエンコードする実際のビットの代償は依然として、隣接するピクセルのブロックの動きベクトルに対して、動きベクトルをエンコードする代償となる。このようにして、エンコーダは、したがって、コヒーレントな領域における、ピクセルのブロックの少なくとも１つに対して、長くて代償が大きい動きベクトルをエンコードする追加的代償を担うよう「だまされ」る。コヒーレントな領域における他のピクセルのブロックの動きベクトルが続いて、ピクセルのブロックの少なくとも１つの、長くて代償が大きい動きベクトルに対して、低い代償にてエンコードされてよい。したがって、ついには、コヒーレントな領域をエンコードする実際の合計ビットの代償が減らされてよい。

画像における、コヒーレントな領域とは、その画像における、隣接するピクセルの領域を意味する。特定されたコヒーレントな領域は、ほぼ同じ量を同じ方向に動いた、その画像におけるエリアに相当する。コヒーレントな領域は、例えば、ビデオに描かれた移動物体に相当してよい。コヒーレントな領域はまた、例えば、画像が、カメラをパンすること及び／又はチルトすることより撮像された場合の、画像全体に相当してよい。

ビデオシーケンスにおける、以前にエンコードされた画像とは、エンコードする順序における、現在の画像より前の、ビデオシーケンスにおける画像を意味する。これは、Ｐタイプのコーディングの場合では、ビデオシーケンスにおける前の画像であり得、Ｂタイプのコーディングの場合では、ビデオシーケンスにおける将来の画像であり得る。

コヒーレントな領域の距離ベクトルとは、一般的に、ビデオシーケンスにおける、以前にエンコードされた画像から、その画像における、そのコヒーレントな領域の動きの量及び方向を示すベクトルを意味する。距離ベクトルは、コヒーレントな領域における、ピクセルの動きの平均量及び方向に相当してよい。距離ベクトルは、画像における、コヒーレントな領域の位置から、以前にエンコードされた画像における、そのコヒーレントな領域の位置までを指し示す。

リファレンスイメージとは、一般的に、ビデオシーケンスの現在の画像がエンコードされていることに関する画像を意味する。リファレンスイメージは、ビデオシーケンスにおける、以前にエンコードされた画像に相当してよい。具体的には、リファレンスイメージは、ビデオシーケンスにおける、以前にエンコードされた画像から計算されてよい。例えば、リファレンスイメージは、ビデオコーディングにおける一般的なプラクティスとして、以前にエンコードされた画像を最初にエンコードし、続いて、それを再度、デコードすることにより計算されてよい。

動きベクトルを、別のベクトルに対してエンコードするとは、一般的に、その動きベクトルと、その別のベクトルと、の間の差がエンコードされることを意味する。動きベクトルを、別のベクトルに対してエンコードする代償は、したがって、その動きベクトルと、その別のベクトルと、の間の差をエンコードする代償として計算されてよい。

動きベクトルをエンコードする代償が、距離ベクトルに対して計算される、コヒーレントな領域における、ピクセルのブロックの少なくとも１つは、エンコードされるコヒーレントな領域における、最初のピクセルのブロックを含んでよい。より詳細には、コヒーレントな領域における、ピクセルのブロックは、所定の順序にてエンコードされてよい。ここでは、コヒーレントな領域における、ピクセルのブロックの少なくとも１つは、所定の順序にしたがって最初にエンコードされる、コヒーレントな領域における、ピクセルのブロックを含んでよい。例えば、ピクセルのブロックは、ラスタースキャン順にエンコードされてよい。ラスタースキャン順に最初に現れる、コヒーレントな領域におけるピクセルのブロックは、ピクセルのブロックの少なくとも１つに含まれる。このようにして、コヒーレントな領域の距離ベクトルに相当する長い動きベクトルをエンコードする追加的代償は、そのコヒーレントな領域における、最初にエンコードされたピクセルのブロックに対して、すでに使われている。コヒーレントな領域における、後にエンコードされたピクセルのブロックの動きベクトルが続いて、その長い動きベクトルに対して、低い代償にてエンコードされてよい。

いくつかの場合では、コヒーレントな領域における、ピクセルのブロックのその少なくとも１つは、所定の順序にしたがって最初にエンコードされた、そのコヒーレントな領域における、ピクセルのブロックのみを含む。これは、長い動きベクトルをエンコードする追加的代償のみが一度使われる、という点において好適である。これは、Ｈ．２６５／ＨＥＶＣ標準での場合のように、インターコードされたブロックの動きベクトルが、その画像における、その、以前にエンコードされた隣接するピクセルのブロックのいずれの１つに対してエンコードされる場合に、十分となり得る。

他の場合では、画像における、隣接するピクセルのブロックの動きベクトルは、その画像における、多数（通常は奇数）の、以前にエンコードされた隣接するピクセルのブロックの動きベクトルのメジアンに相当する。

これは、例えば、Ｈ．２６４／ＭＰＥＧ－４ＡＶＣ標準での場合である。ここでは、インターコードされたブロックの動きベクトルは、その画像における、３つの、以前にエンコードされた隣接するピクセルのブロックの動きベクトルのメジアンに対してエンコードされている。それらの他の場合では、コヒーレントな領域における、ピクセルのブロックの少なくとも１つは、好ましくは、ピクセルのブロックを、２つ又はそれ以上含む。

より一般的には、コヒーレントな領域における、ピクセルのブロックのその少なくとも１つは、その領域内の、以前にエンコードされた隣接するピクセルのブロックを所定の数未満だけ有する、そのコヒーレントな領域における、ピクセルのブロックのすべてを含んでよい。この要件により、長い動きベクトルをエンコードする追加的代償があるブロックの数が最低限に維持され、同時にこれは、コヒーレントな領域内の残りのブロックすべての動きベクトルが、以前にエンコードされた長い動きベクトルに対して、低い代償にてエンコードされることを可能にする。

上記の、Ｈ．２６５／ＨＥＶＣの場合について、追加的代償は、その領域において、以前にエンコードされた隣接するブロックがなければ、その領域におけるブロックに対してのみ使われる。その場合には、所定の数は、したがって、１に等しい。Ｈ．２６４／ＭＰＥＧ－４ＡＶＣの場合について、３つを超える隣接するブロックの動きベクトルのメジアンが計算され、追加的代償が、その領域における、以前にエンコードされた、２つの隣接するブロックより少ないブロックに対して使われる。その場合には、所定の数は、したがって、２に等しい。

好ましくは、領域に対する、エンコードする代償を最適にするため、コヒーレントな領域における、ピクセルのブロックの少なくとも１つは、その領域内の、以前にエンコードされた隣接するピクセルのブロックを所定の数未満だけ有する、そのコヒーレントな領域における、ピクセルのブロックのみを含む。

いくつかの場合では、コヒーレントな領域における、ピクセルのブロックの少なくとも１つは、そのコヒーレントな領域における、ピクセルのブロックのすべてを含んでよい。このアプローチは、どのエンコーディング標準が採用されるかに関わらずに使用されてよい。

ブロックマッチングを行うことは、動きベクトル検索ウィンドウを使用し、リファレンスイメージにおける、マッチングのとれたピクセルのブロックを指し示す動きベクトルを見いだすことを含んでよい。検索ウィンドウは、隣接するピクセルのブロックの動きベクトルの周囲にその中心が置かれてよい。つまり、検索ウィンドウは、隣接するブロックの動きベクトルが指し示す、リファレンスイメージにおける、ピクセルのブロックにその中心を有する。検索ウィンドウのそのようなポジショニングは通常、画像における、ピクセルのブロックに対して使用される。しかし、コヒーレントな領域における、ピクセルのブロックの少なくとも１つに対して、検索ウィンドウは、その代わりに、そのコヒーレントな領域の距離ベクトルの周囲にその中心が置かれてよい。そのようにして、ブロックマッチングにより、コヒーレントな領域における、ピクセルのブロックの少なくとも１つに対する距離ベクトルに相当する動きベクトルを見いだす可能性が、より高まる。

検索ウィンドウの上記のポジショニングはまた、動きベクトルをエンコードする代償の計算を実施するために、都合よく使用されてもよい。具体的には、ピクセルのブロックの動きベクトルをエンコードする代償は、動きベクトル検索ウィンドウの中心がその周囲に置かれているベクトルに対する動きベクトルをエンコードする代償として計算されてよい。コヒーレントな領域における、ピクセルのブロックの少なくとも１つに対して、検索ウィンドウは、そのコヒーレントな領域の距離ベクトルの周囲にその中心が置かれている。したがって、それらのブロックに対して、動きベクトルをエンコードする代償は、そのコヒーレントな領域の距離ベクトルに対して計算される。これは、検索ウィンドウが、画像における、隣接するピクセルのブロックの動きベクトルの周囲にその中心が置かれている、その画像における他のピクセルのブロックとは対照的であり、動きベクトルをエンコードする代償は、その結果として、隣接するピクセルのブロックの動きベクトルに対して計算される。

ビデオシーケンスは、移動可能な視野を有するカメラにより撮像されてよい。ここでは、ビデオシーケンスにおけるモーションを解析することは、視野の動きに関わる、カメラからの入力に基づく。例えば、カメラは、パン及びチルト機能を持つカメラであってよい。視野全体のモーションは、画像におけるグローバルなモーションを導くため、その画像におけるコヒーレントな領域は、その場合には、画像全体として特定されてよく、距離ベクトルは、以前にエンコードされた画像から、その画像におけるグローバルなモーションの量及び方向に相当する。視野のモーションが既知となると、そのグローバルなモーションが生じてよい。

ビデオシーケンスにおけるモーションを解析することは、対象検出アルゴリズムを使用して、ビデオシーケンスにおける対象及びそれらのモーションを検出することを含んでよい。例えば、ディープラーニング技術に基づく対象検出アルゴリズムが、この目的に使用されてよい。

画像におけるコヒーレントな領域のサイズは、そのコヒーレントな領域の距離ベクトルの長さに依存する閾値より大きくともよい。このようにして、コヒーレントな領域における、ピクセルのブロックの少なくとも１つに対して、長い動きベクトルをエンコードするために使われる追加的代償が、そのコヒーレントな領域における残りのピクセルのブロックに対しての、エンコードする代償を低くすることにより得たものに対して、均衡してよい。距離ベクトルの長さと共に、エンコードする追加的代償が増えると、この方法の効果を得るために、より長い距離ベクトルに対して、コヒーレントな領域をより大きくしなければならない場合がある。領域サイズ閾値がしたがって、距離ベクトルの長さに応じて増える。

この方法は、画像に含まれるコヒーレントな領域が１つを超える場合に、さらに拡張する。具体的には、この方法は、
ビデオシーケンスにおけるモーションを解析し、そのビデオシーケンスにおける、以前にエンコードされた画像から、閾値より長い第２の距離ベクトルを伴って動いたその画像における、第２のコヒーレントな領域を特定することをさらに含んでよく、
その第２のコヒーレントな領域における、ピクセルのブロックの少なくとも１つに対して、動きベクトルをエンコードする代償は、その画像における、隣接するピクセルのブロックの動きベクトルに対する動きベクトルをエンコードする代償として計算される代わりに、第２のコヒーレントな領域の第２の距離ベクトルに対する動きベクトルをエンコードする代償として計算される。

第２の態様によると、ビデオシーケンスの画像をエンコードするシステムが提供される。このシステムは、
ビデオシーケンスにおけるモーションを解析し、そのビデオシーケンスにおける、以前にエンコードされた画像から、閾値より長い距離ベクトルを伴って動いたその画像における、コヒーレントな領域を特定するよう構成されているアナライザと、
その画像におけるピクセルのブロックを、ピクセルのブロックのそれぞれに対してエンコードするよう構成されているエンコーダであって、
ブロックマッチングを行い、リファレンスイメージにおける、マッチングのとれたピクセルのブロックを指し示す動きベクトルを見いだし、ピクセルのブロックとマッチングのとれたピクセルのブロックとの間の残りを計算することと、
動きベクトルをエンコードする代償と、残りをエンコードする代償と、を計算することであって、
そのコヒーレントな領域における、ピクセルのブロックの少なくとも１つに対して、動きベクトルをエンコードする代償は、その画像における、隣接するピクセルのブロックの動きベクトルに対する動きベクトルをエンコードする代償として計算される代わりに、そのコヒーレントな領域の距離ベクトルに対する動きベクトルをエンコードする代償として計算される、代償を計算することと、
動きベクトルをエンコードする代償と、残りをエンコードする代償と、を合わせた場合に、その代償が、そのピクセルのブロックをイントラコードする代償未満の場合は、ピクセルのブロックを、インターコードされたブロックとしてエンコードすることと、により、ピクセルのブロックをエンコードするよう構成されているエンコーダと、
を含む。

第３の態様によると、プロセッサにより実行されると、そのプロセッサに、第１の態様に係る方法を実施させるコンピュータコード命令を保存している、非一時的コンピュータ可読媒体が提供される。

第２及び第３の態様は一般に、第１の態様と同じ特徴及び利点を有してよい。本発明は更に、特に明白に言及していない限り、すべての可能な特徴の組み合わせに関連することに留意されたい。

本発明の、上記及び更なる目的、特徴、並びに利点は、添付図面を参照しての、本発明の実施形態の、以下に記載する例示的且つ非限定の詳細説明を通して良好に理解される。ここでは、同様のコンポーネントには同じ参照番号が用いられる。

図１は、実施形態に係る、ビデオシーケンスの画像をエンコードするシステムを模式的に示す。図２は、実施形態に係る、ビデオシーケンスの画像をエンコードする方法のフローチャートである。図３及び図４はそれぞれ、図１に示すシステムのアナライザにより、ビデオシーケンスの画像において特定されたコヒーレントな領域と、関連付けられた距離ベクトルと、を模式的に示す。図３及び図４はそれぞれ、図１に示すシステムのアナライザにより、ビデオシーケンスの画像において特定されたコヒーレントな領域と、関連付けられた距離ベクトルと、を模式的に示す。図５は、画像における第１の形状のコヒーレントな領域の内側と外側のピクセルのブロックを模式的に示す。図６は、画像における、第２の形状のコヒーレントな領域の内側と外側のピクセルのブロックを模式的に示す。図７は、実施形態に係る、画像におけるピクセルのブロックの動きベクトルに対する、通常の代償の計算を模式的に示す。図８は、実施形態に係る、画像におけるピクセルのブロックの動きベクトルに対する、変更した代償の計算を模式的に示す。図９は、実施形態に係る、ビデオシーケンスの画像をエンコードする方法のフローチャートである。図１０及び図１１は、実施形態に係る、ブロックマッチングと、動きベクトルの代償の計算と、を行うことに関係して使用される動きベクトル検索ウィンドウを示す。図１０及び図１１は、実施形態に係る、ブロックマッチングと、動きベクトルの代償の計算と、を行うことに関係して使用される動きベクトル検索ウィンドウを示す。

本発明を、添付図面を参照して以下に更に詳細に説明する。ここでは、本発明の実施形態を示す。

図１は、ビデオシーケンス１０６をエンコードするシステム１００を示す。このシステムは、アナライザ１０２と、エンコーダ１０４と、を含む。システム１００は、ビデオシーケンス１０６を撮像するビデオカメラに実装されてよい。ビデオカメラは、パン－チルト－ズームカメラなどの、移動可能な視野を有するビデオカメラであってよい。

エンコーダ１０４は、ビデオシーケンス１０６を受け取り、それをエンコードし、エンコードされたビデオシーケンス１１０を出力するよう構成されている。エンコーダ１０４の一般的な目的は、ビデオシーケンス１０６をできるだけ効率よく、すなわち、ビデオの品質を犠牲にすることなく、ビットをできるだけ少なく使用してエンコードすることである。

この目的を達成するために、エンコーダ１０４は、アナライザ１０２から入力１０８をさらに受け取る。入力１０８は、ビデオシーケンス１０８における画像のそれぞれに対して、その画像におけるコヒーレントな領域の１つ又はそれ以上と、それらのコヒーレントな領域のそれぞれに対する距離ベクトルと、を示してよい。距離ベクトルは、ビデオシーケンス１０６における、以前にエンコードされた画像から、コヒーレントな領域がどれほど遠くに、どの方向に動いたかを示す。閾値距離は、その閾値距離より長い距離ベクトルに関連付けられたコヒーレントな領域のみが、エンコーダ１０４に転送される入力１０８に含まれるように設定されてよい。さらに、サイズ閾値は、コヒーレントな領域がそのサイズ閾値より大きい場合に、そのコヒーレントな領域のみが入力１０８に含まれるように設定されてよい。サイズ閾値は、所定の関係にしたがって、コヒーレントな領域の距離ベクトルの長さに依存してよい。典型的には、サイズ閾値は、距離ベクトルの長さが伸びるにしたがって増える。

追加的な入力１０８を使用することにより、エンコーダ１０４は、そのようなコヒーレントな領域がある画像を、より効率的にエンコードし得る。これを、図２のフローチャートを参照してより詳細に説明する。このフローチャートは、ビデオシーケンス１０６における画像をエンコードする際の、システム１００の作動を例示する。

ステップＳ１０２では、アナライザ１０２が、ビデオシーケンス１０６におけるモーションを解析する。特に、アナライザ１０２は、ビデオシーケンス１０６の画像における対象を検出し、その対象が、フレーム間をどのように動くかを解析してよい。この目的のために、アナライザ１０２は、いずれの既知の対象検出アルゴリズム又は対象追跡アルゴリズムを実装してよい。例えば、アナライザ１０２は、そのような対象検出及び／又は対象追跡アルゴリズムを実装するディープラーニングネットワークを含んでよい。このプロセスをさらに例示するために、図３は、ビデオシーケンス１０６の、３つの連続する画像１０６－１、１０６－２、及び１０６－３を示す。それらのそれぞれでは、アナライザ１０２が、対象３０２を検出している。検出された対象３０２はそれぞれ、３つの画像１０６－１、１０６－２、及び１０６－３において、３０２－１、３０２－２、及び３０２－３とする。対象３０２は、その画像におけるコヒーレントな領域として見られてよい。ここでは、ピクセルが、２つの連続する画像間を、ほぼ同じ量にて同じ方向に動いている。対象３０２が検出されると、アナライザ１０２は、画像１０６－１、１０６－２、及び１０６－３間のその動きを見いだしてよい。具体的には、アナライザ１０２は、対象３０２が、以前にエンコードされた画像から、どれほど遠くに、どの方向に動いたかを見いだしてよい。この例では、以前にエンコードされた画像が、そのビデオシーケンスにおける前の画像に相当することが想定される。これは、Ｐタイプのコーディングの場合にあたる。Ｂタイプのコーディングについては、以前にエンコードされた画像は、その代わりに、そのビデオシーケンスにおける将来のフレームである。例えば、アナライザ１０２は、以前にエンコードされた画像１０６－１における対象３０２－１の位置と、現在の画像１０６－２における対象３０２－２の位置と、の間の差を計算してよい。その差は、距離ベクトル３０４－２を単位として表されてよい。この計算の目的のために、対象３０２－１及び３０２－２の中心が、対象の位置として使用されてよい。ここに示すように、距離ベクトル３０４－２は、以前にエンコードされた画像１０６－１における、そのコヒーレントな領域の位置に戻ってこれを指し示す。例示の目的のために、以前にエンコードされた画像１０６－１における対象３０２－１の位置を、点線を使用して、画像１０６－２に示す。同様にして、距離ベクトル３０４－３が、そのシーケンスにおける画像１０６－３に対して計算されてよい。

ビデオシーケンス１０６が、移動可能な視野を有するビデオカメラにより撮像された場合、アナライザ１０２は、追加的に、又は、代替的に、ビデオカメラの動きに基づいて、ビデオシーケンス１０６におけるモーションを解析してよい。この目的のために、アナライザ１０２は、カメラの視野の動きに関する入力１１２をカメラから受け取ってよい。入力１１２は、例えば、カメラのパン及びチルトの動きに関係してよい。視野の動きは、ビデオシーケンス１０６の画像におけるグローバルなモーションを導く。アナライザ１０２は、入力１１２により表されるカメラの動きから、画像におけるグローバルなモーションを計算し、距離ベクトルを単位としてそれを表してよい。これにより、この場合では、アナライザ１０２は、画像全体を、ほぼ同じ量のモーションを同じ方向に有するコヒーレントな領域として特定してよい。

これを、図４にさらに示す。これは、ビデオシーケンス１０６の３つの連続する画像１０６－４、１０６－５、及び１０６－６を示す。この例では、カメラの視野が右方向にパンされていることが想定される。これは、画像１０６－４、１０６－５、及び１０６－６における、左へのグローバルなモーションを導く。画像のそれぞれに対して、画像全体は、したがって、２つの画像間を同じように動くコヒーレントな領域として見られてよい。アナライザ１０２は、そのコヒーレントな領域のグローバルなモーションを、距離ベクトル４０４－１、４０４－２、及び４０４－３を単位として表してよい。図３の例と同様に、距離ベクトル４０４－１、４０４－２、及び４０４－３は、以前にエンコードされた画像におけるコヒーレントな領域の位置と、現在の画像におけるその位置と、の間の差として計算されてよい。したがって、距離ベクトルは、以前にエンコードされた画像におけるコヒーレントな領域の位置に戻って、これを指し示す。

アナライザ１０２が、画像におけるコヒーレントな領域の１つ又はそれ以上と、それらに関連付けられた距離ベクトルと、を特定すると、アナライザ１０２はその情報を、エンコーダ１０４への入力１０８として提供してよい。

エンコーダ１０４は続いて、画像のエンコードに進んでよい。一般的に、エンコーダ１０４は、画像を、イントラコードされた画像、若しくは、時に知られているＩフレームとして、又は、インターコードされた画像、若しくは、時に知られているＰ又はＢフレームとして、エンコードしてよい。画像をイントラコード又はインターコードするかは、写真のグループ（ｇｒｏｕｐ－ｏｆ－ｐｉｃｔｕｒｅ又はＧＯＰ）構造により規定されてよい。これは、ビデオシーケンス１０６における、イントラコード及びインターコードされた画像の順序を規定する。この場合では、画像がインターコードされることが想定される。

エンコーダ１０４は、ブロック毎に画像をエンコードする。特に、画像は、８×８ピクセル、１６×１６ピクセル、３２×３２ピクセルのブロックなどの、特定のサイズのピクセルのブロックに分割され、順次エンコードされてよい。そのようなピクセルのブロックは、マクロブロック又はコーディングユニットとして当業者に知られている。エンコーダ１０４は、これらのピクセルのブロックを、所定の順序にてエンコードしてよい。所定の順序は、典型的には、ラスタースキャン方向に相当する。

ステップＳ１０４では、エンコーダ１０４は、したがって、エンコードする画像において、別のピクセルのブロックがあるか否かをチェックする。これがある場合、エンコーダ１０４は、処理される次のブロックに関して、ステップＳ１０６、Ｓ１０７、Ｓ１０８ａ又はＳ１０８ｂ、Ｓ１１０、及びＳ１１２を実施する。そうでなければ、この方法は終了し、システム１００は、ビデオシーケンス１０６における次の画像を解析してエンコードする。

画像をインターコードする場合、いくつかのブロックがイントラコードされてよく、一方、他がインターコードされる。具体的には、より詳細に後述するように、エンコーダ１０４は、ブロックのそれぞれに対して、それがイントラコードされるべきか、又は、インターコードされるべきかを決定する。その決定は、ブロックをエンコードする代償を最小限にするよう行われ、例えば、そのブロックをエンコードすることに必要なビット数にて表される。つまり、エンコーダ１０４は、ステップＳ１０６、Ｓ１０７、Ｓ１０８ａ又はＳ１０８ｂ、及びＳ１１０にて、ピクセルのブロックをインターコードする代償を計算し、ステップＳ１１２にて、ピクセルのブロックをインターコードするか、又は、イントラコードするか、に関する決定を行う。

ステップＳ１０６にて、エンコーダ１０４は、ブロックマッチング手順を始める。これは、リファレンスフレームにおいて、「ベスト」マッチングのとれたピクセルのブロックを見いだすことを目的とする。リファレンスフレームは、典型的には、ビデオシーケンス１０６における、以前にエンコードされた画像の、エンコードされ、続いてデコードされたバージョンに相当する。具体的には、エンコーダ１０４は、ベストマッチとなる、リファレンスイメージにおけるピクセルのブロックを見いだすために、現在処理されている画像におけるピクセルのブロックを、リファレンスイメージにおける、複数の候補となるピクセルのブロックとマッチさせてよい。リファレンスフレームにおける候補となるピクセルのブロックは、リファレンスフレームにおける検索ウィンドウに含まれてよい。リファレンスフレームにおける候補となるピクセルのブロックのそれぞれに対して、エンコーダ１０４は、動きベクトル及び残り、すなわち、ブロック間のピクセル毎の差、を計算してよい。

２つのブロック間の良好なマッチをなすものが何であるかを評価するために、エンコーダ１０４は、典型的には、代償関数を使用する。代償関数を最小限にする、リファレンスイメージにおける、候補となるピクセルのブロックが、ベストマッチとして選択される。エンコーダ１０４は、候補となるピクセルのブロックの、動きベクトルをエンコードする代償と、残りをエンコードする代償と、の組み合わせである代償関数を使用してよい。この発明に関するコンセプトによると、変更した代償の計算及び通常の代償の計算と以下に呼ぶ、動きベクトルをエンコードする代償を計算する２つの異なるアプローチが、画像における異なるピクセルのブロックに使用される。

ステップＳ１０７では、エンコーダ１０４は、ステップＳ１０６にて見いだした動きベクトルをエンコードする代償を計算することに、変更した代償の計算又は通常の代償の計算を使用すべきかをチェックする。画像におけるピクセルのブロックの大半に対して、通常の代償の計算が適用される。しかし、コヒーレントな領域のそれぞれ内のピクセルのブロックの少なくとも１つに対して、変更した代償の計算が使用される。

このチェックを行うために、エンコーダ１０４は、ブロックが、通常の代償の計算又は変更した代償の計算にしたがうべきである場合のための、一式のルールを有してよい。これらのルールは、各種の実施形態のグループに対して異なってよい。これらのルールはまた、通常の代償の計算がどのように行われるかに関連してもよい。

第１の実施形態のグループでは、エンコーダ１０４は、ステップＳ１０７にて、現在処理されているブロックが、エンコードされるコヒーレントな領域内の最初のブロックであるか否かをチェックする。この原理を、図５に例示する。これは、エンコードされる画像５０６を模式的に示す。画像５０６は、複数のピクセルのブロック５０１を含む。さらに、影付きエリアにより示すように、その画像における、コヒーレントな領域５０２がある。ブロック５０１のいくつかは、コヒーレントな領域５０２の外側にある。一方、他は、コヒーレントな領域５０２内にある。一般的に、ブロックにおけるピクセルのすべてが、コヒーレントな領域５０２内にある場合は、ピクセルのブロックは、コヒーレントな領域５０２内にあるとされてよい。代替的に、ブロックにおけるピクセルの大半が、コヒーレントな領域５０２内にある場合は、ピクセルのブロックは、コヒーレントな領域５０２内にあるとされてよい。画像５０６のピクセルのブロック５０１は、矢印５０４が示すような所定の順序にてエンコードされてよい。この場合では、ブロック５０１は、ラスタースキャン方向にエンコードされる。ブロックをこの順序にてエンコードする際には、ピクセルのブロック５０１ａは、エンコードされるコヒーレントな領域５０２内の最初のブロックとなる。したがって、この例では、エンコーダ１０４は、ピクセルのブロック５０１ａに対しては、変更した代償の計算を使用する。一方、他のピクセルのブロックのすべてに対しては、通常の代償の計算を使用する。この例では、コヒーレントな領域を１つのみ示す。しかし、画像内にあるコヒーレントな領域が、１つを超える場合、エンコーダ１０４は、それら領域のそれぞれ内の最初のエンコードされたブロックには、変更した代償の計算を適用し、その画像における他のピクセルのブロックのすべてには、通常の代償の計算を適用する、ということが理解されるであろう。

第２の実施形態のグループでは、エンコーダ１０４は、ステップＳ１０７にて、現在処理されているブロックが、コヒーレントな領域内にあるか否か、そして、そのコヒーレントな領域内に、いずれの以前にエンコードされた隣接するピクセルのブロックがないかをチェックする。一般的に、ピクセルのブロックは、画像において、隣接するピクセルのブロックを最多で９つ有してよい。それらブロックのいくつかは、コヒーレントな領域内にあってよく、いくつかは、コヒーレントな領域の外側にあってよい。さらに、隣接するブロックのいくつかは、すでにエンコードされていてよい。一方、他は、これからエンコードされる。

図５に戻ってこれを参照する。ピクセルのブロック５０１ａは、隣接するピクセルのブロックを９つ有する。これらの内の４つ（上の３つと左の１つ）は、ブロック５０１ａの前にエンコードされる。しかし、これらの以前にエンコードされたブロックはどれも、コヒーレントな領域内にない。したがって、ピクセルのブロック５０１ａは、領域５０２内にて、いずれの以前にエンコードされた隣接するピクセルのブロックを有しない。エンコーダ１０４は、したがって、ピクセルのブロック５０１ａに、変更した代償の計算を適用する。しかし、ブロック５０１ｂについては、シチュエーションが異なる。ブロック５０１ｂもまた、以前にエンコードされた隣接するピクセルのブロック（上の３つと左の１つ）を４つ有する。これらの内の１つ、すなわちブロック５０１ａは、コヒーレントな領域５０２内にある。したがって、エンコーダ１０４は、ブロック５０１ｂには、変更した代償の計算を適用しない。画像５０６におけるブロックのそれぞれに対して、この実践が実施される場合、この場合では、変更した代償の計算のみが、ピクセルのブロック５０１ａに適用されることもまた明らかとなる。

しかし、コヒーレントな領域の形状によっては、第１及び第２の実施形態のグループは、常に同じ結果となるものではない。そのような一例を、図６に示す。これは、複数のピクセルのブロック６０１と、コヒーレントな領域６０２と、を有する画像６０６を示す。この場合では、第１の実施形態のグループでは、ピクセルのブロック６０１ａにのみ、変更した代償の計算が適用される。なぜならこれは、コヒーレントな領域６０２内の、最初のエンコードされたブロックだからである。しかし、第２の実施形態のグループではまた、ブロック６０１ａに加えて、ピクセルのブロック６０１ｂにも、変更した代償の計算が適用される。なぜならこれは、コヒーレントな領域６０２内に、以前にエンコードされた隣接するブロックを有しないからである。第２の実施形態のグループは、したがって、コヒーレントな領域の形状に関して言えば、よりフレキシブルである。

第３の実施形態のグループでは、エンコーダ１０４は、ステップＳ１０７にて、現在処理されているブロックがコヒーレントな領域内にあるか否か、そして、そのコヒーレントな領域内にある、以前にエンコードされた隣接するピクセルのブロックが、２つより少ないか否か、をチェックする。このルールを満たすブロックに対して、エンコーダ１０４は、変更した代償の計算を適用する。一方、残りのブロックには、通常の代償の計算が適用される。このルールが、図５の例に適用される場合、ブロック５０１ａ、５０１ｂ、及び５０１ｃはすべて、このルールを満たすということが明らかとなる。なぜならこれらは、その領域内に、以前にエンコードされた隣接するブロックを持たないか、持ったとしても１つのみであるからである。図６の例では、ブロック６０１ａ及び６０１ｂがこのルールを満たし、したがって、変更した代償の計算が適用される。

第４の実施形態のグループでは、エンコーダ１０４は、ステップＳ１０７にて、現在処理されているブロックが、コヒーレントな領域５０２内にあるか否かをチェックする。このルールを満たすブロックに対して、エンコーダ１０４は、変更した代償の計算を適用する。コヒーレントな領域の外側のブロックに対して、エンコーダ１０４は、通常の代償の計算を適用する。第４の実施形態のグループでは、エンコーダ１０４は、したがって、コヒーレントな領域５０２内のブロックのすべてに、変更した代償の計算を適用する。

後述するように、これらの異なる実施形態のグループは、異なるシチュエーションにおいて好適である。例えば、第２の実施形態のグループは、典型的には、エンコーダ１０４が、ピクセルのブロックを、Ｈ．２６５／ＨＥＶＣコーディングを使用してインターコードするよう構成されている場合に適用される。なぜなら、Ｈ．２６５／ＨＥＶＣコーディングは、典型的には、その、以前にエンコードされた隣接するブロックのいずれの１つの動きベクトルに関して、ブロックの動きベクトルをコードするからである。したがって、領域におけるブロックのそれぞれが、変更した代償の計算が適用された、その領域における、以前にエンコードされた隣接するブロックを１つ有していれば十分である。同様に、第３の実施形態のグループは、典型的には、エンコーダ１０４が、ピクセルのブロックを、Ｈ．２６４／ＭＰＥＧ－４ＡＶＣコーディングを使用してインターコードするよう構成されている場合に適用される。なぜなら、Ｈ．２６４／ＭＰＥＧ－４ＡＶＣコーディングは、典型的には、その、以前にエンコードされた隣接するブロックの内の３つの動きベクトルのメジアンに関して、動きベクトルをコードするからである。したがって、領域におけるブロックのそれぞれが、変更した代償の計算が適用された、その領域における、以前にエンコードされた隣接するブロックを２つ有していれば十分である。第４の実施形態のグループは、これが、エンコーダ１０４により使用されるエンコーディング標準に関わらずに適用されてよい、という点において好適である。これは、変更した代償の計算が適用されるブロックの選択は、エンコーダ１０４がどのようにして、以前にエンコードされた隣接するブロックの動きベクトルを選択するか、について関連しないからである。第１の実施形態のグループは、どのブロックが、変更した代償の計算を使用して処理されるべきかを決定することに関して言えば、第２の実施形態のグループの簡易版として見られてよい。

エンコーダ１０４が、ステップＳ１０７にて、変更した代償の計算を、現在処理されているピクセルのブロックに適用しない、とした場合には、エンコーダ１０４は、ステップＳ１０８ａに進み、リファレンスイメージにおける、候補となるピクセルのブロックのそれぞれの動きベクトルをエンコードする代償を、通常の方法にて計算する。より詳細には、動きベクトルをエンコードする代償は、その画像における、隣接するピクセルのブロックの動きベクトルに対する、動きベクトルをエンコードする代償として計算される。具体的には、隣接するピクセルのブロックは、以前にエンコードされた隣接するピクセルのブロックであってよい。

この手順を、図７にさらに示す。これは、図５の例から続くものである。ステップＳ１０７では、エンコーダ１０４は、ピクセルのブロック５０１ｄの、候補となる動きベクトル７０８ａに、通常の代償の計算を適用すべきであることを、（３つの実施形態のグループのそれぞれにおいて）決定した。代償の計算を行うために、動きベクトル７０８ａは、以前にエンコードされた隣接するピクセルのブロックの動きベクトル７１０と比較され、それら２つのベクトル間の差をエンコードする代償が計算される。例えば、差をエンコードする代償は、差の長さに等しく（又は、比例して）設定されてよく、この例では、１つのブロックの長さに等しく設定されてよい。これにより、エンコーダ１０４は、ブロック５０１ｄの候補となる動きベクトル７０８ａをエンコードする代償は１に等しい、という結論に至ってよい。候補となる動きベクトル７０８ｂ又は７０８ｃに対して、動きベクトルをエンコードする代償は、その代わりに、それぞれ、２及び３に等しいものであった（マンハッタン（Ｍａｎｈａｔｔａｎ）タイプの距離計算が使用されることを想定して）。したがって、通常の代償の計算が適用される場合、エンコーダ１０４は、隣接するブロックのそれらに類似する動きベクトルをエンコードする代償が低い、ということを見いだす。

画像における、隣接するピクセルのブロックの動きベクトルをどのように選択するかは、各種の実施形態のグループにおいて異なる。

第２の実施形態のグループでは、以前にエンコードされた隣接するピクセルのブロックのいずれの１つの動きベクトルが選択されてよい。特に、現在処理されているピクセルのブロックの動きベクトルに最も類似する、隣接する動きベクトルが選択されてよい。このアプローチは、典型的には、エンコーダ１０４が、Ｈ．２６５／ＨＥＶＣ標準にしたがってインターコーディングを行うよう構成される場合に使用される。

第３の実施形態のグループでは、隣接するピクセルのブロックの動きベクトルは、その代わりに、多数の、以前にエンコードされた隣接するピクセルのブロックの動きベクトルのメジアンに相当する。動きベクトルのメジアンは、動きベクトルにおける要素のそれぞれに対するメジアンを計算することにより計算される。メジアンの計算を簡素にするために、奇数の、以前にエンコードされた隣接するブロックの動きベクトルのメジアンが選ばれてよい。典型的には、この奇数は、３に等しくともよい。例えば、ブロックがラスタースキャン方向にエンコードされる場合、上、右上、及び左に隣接するブロックの動きベクトルのメジアンが使用されてよい。隣接するピクセルのブロックの動きベクトルを選択するこの方法は、典型的には、エンコーダ１０４が、Ｈ．２６４／ＭＰＥＧ－４ＡＶＣ標準にしたがってインターコーディングを行うよう構成される場合に使用される。

第１の実施形態のグループでは、以前にエンコードされた隣接するブロックの動きベクトルは、第２及び第３の実施形態のグループのいずれの１つの様式にて選択されてよい。好ましくは、しかし、これは、第２の実施形態のグループでのように選択される。

第４の実施形態のグループは、以前にエンコードされた隣接するブロックの動きベクトルがどのように選択されるかに関して、フレキシブルである。例えば、以前にエンコードされた隣接するピクセルのブロックの動きベクトルは、第２の実施形態のグループでのように（Ｈ．２６５／ＨＥＶＣエンコーディングでのように）、又は、第３の実施形態のグループでのように（Ｈ．２６４でのように）、若しくは、使用されるエンコーディング標準により規定されるように、選択されてよい。

エンコーダ１０４が、その代わりに、ステップＳ１０７にて、変更した代償の計算を、現在処理されているピクセルのブロックに適用する、とする場合には、エンコーダ１０４は、ステップＳ１０８ｂに進み、ステップＳ１０６にて見いだした、候補となる動きベクトルのそれぞれをエンコードする代償を、変更された様式にて計算する。より詳細には、以前にエンコードされた隣接するブロックの動きベクトルに対して、ブロックの動きベクトルをエンコードする代償を計算する代わりに、コヒーレントな領域の距離ベクトルに対して、代償が評価される。

これを、図８にさらに示す。これは、図５及び図７の例から続くものである。ステップＳ１０７にて、エンコーダ１０４は、ブロック５０１ａの、候補となる動きベクトル８０８に対して、変更した代償の計算を使用することを、（４つの実施形態のグループのそれぞれにおいて）決定した。代償の計算を行うために、エンコーダ１０４は、ステップＳ１０６にて、ブロック５１０ａに対して計算された、候補となる動きベクトル８０８を、コヒーレントな領域５０２の距離ベクトル５０４と比較し、これら２つのベクトル間の差をエンコードする代償を計算する。通常の代償の計算について説明したものと同様に、差をエンコードする代償は、差の長さに等しく（又は、比例して）設定されてよく、この例では、１つのブロックの長さに等しく設定されてよい。したがって、変更した代償の計算が適用される場合、エンコーダ１０４は、距離ベクトル５０４に類似する動きベクトルをエンコードする代償が低い、ということを見いだす。

図８の例を一歩さらに進むと、ブロック５０１ｂに対する代償の計算がどのように行われるか、が考慮され得る。第１及び第２の実施形態のグループでは、エンコーダ１０４は、ブロック５０１ｂに対して、通常の代償の計算を使用する。エンコーダ１０４は、したがって、以前にエンコードされた隣接するブロックの動きベクトルに対する、ブロック５０１ｂの動きベクトルをエンコードする代償を計算する。具体的には、エンコーダ１０４は、ブロック５０１ａの動きベクトルに対する、ブロック５０１ｂの動きベクトルに対する代償を計算してよい。エンコーダ１０４は、ブロック５０１ａに対して、変更した代償の計算を使用したため、エンコーダ１０４は、距離ベクトル５０４に類似する動きベクトルを使用して、ブロック５０１ａをエンコードした可能性が高い。したがって、この場合でも、通常の代償の計算により、距離ベクトル５０４に類似する動きベクトルに対して、低い代償がアサインされる。そのコヒーレントな領域における後続のブロックについても、同様である。ブロック５０１ｂに対して、変更した代償の計算及び通常の代償の計算により、したがって、ブロック５０１ｂに対しても、本質的に同じ結果となる。これは、ブロック５０１ｂと、そのコヒーレントな領域内の後続のブロックと、に、変更した代償の計算を適用する必要がない理由を説明する。

これは、第３の実施形態のグループでは異なる。その場合には、エンコーダ１０４は、ブロック５０１ｂに対しても、変更した代償の計算を適用する。したがって、動きベクトルに対する代償は、ブロック５０１ｂに対する距離ベクトル５０４に対して計算される。これにより、距離ベクトル５０４に類似する動きベクトルに対して、低い代償が計算される。この場合では、通常の代償の計算は、以前にエンコードされた隣接するブロックの動きベクトルの選択が異なることにより、異なる結果をもたらす。より具体的には、第３の実施形態のグループでは、エンコーダ１０４は、典型的には、現在のブロックの動きベクトルを、３つの、以前にエンコードされた隣接するブロックの動きベクトルのメジアンと比較する。例えば、メジアンは、ブロック５０１ｂの、上、右上、及び左に隣接するブロックの動きベクトルから計算されてよい。これらのブロックの１つのみ、すなわち、ブロック５０１ａ、が、距離ベクトル５０４に類似する動きベクトルを有するため、結果としてのメジアンの動きベクトルは、距離ベクトル５０４とはまったく異なる可能性が最も高い。結果として、通常の代償の計算により、距離ベクトル５０４に類似する動きベクトルをエンコードする代償が高くなる。

さらに、第４の実施形態のグループでは、エンコーダ１０４は、コヒーレントな領域５０２内のブロックのすべてに、変更した代償の計算を適用する。これにより、コヒーレントな領域５０２における、ピクセルのブロックのそれぞれに対する距離ベクトル５０４に類似する動きベクトルに対して、低い代償が計算される。

ステップＳ１１０にて、エンコーダ１０４は、現在処理されているピクセルのブロックと、そのリファレンスイメージにおける、候補となるピクセルのブロックのそれぞれと、の間の残りをエンコードする代償を計算する。例えば、エンコーダ１０４は、残りのサイズを定量化する測定値を計算してよい。例えば、絶対差の合計、差を二乗したものの合計、又は、いずれの同様の測定値を使用して、残りを定量化してよい。

ステップＳ１１にて、エンコーダ１０４は続いて、現在処理されているピクセルのブロックに対してマッチングのとれたブロックを見いだすことにより、ブロックマッチング手順を完了してよい。より詳細には、マッチングのとれたピクセルのブロックは、動きベクトル及び残りをエンコードする、組み合わせた代償を最小限にする、リファレンスイメージにおける、候補となるピクセルのブロックである。例えば、エンコーダ１０４は、動きベクトルをエンコードする代償と、残りをエンコードする代償と、の加重した合計を形成することにより、代償を組み合わせてよい。合計の加重値は、予め定められてよい。上記の実施形態のグループのいずれを使用することにより、コヒーレントな領域５０２内のブロックに対してマッチングのとれたピクセルのブロックが、そのコヒーレントな領域の距離ベクトル５０４に類似する動きベクトルに関連付けられる可能性が高くなる。

ステップＳ１１２にて、エンコーダ１０４はさらに進み、現在処理されているピクセルのブロックをインターコードするか、又は、イントラコードするか、を判定する。エンコーダ１０４は、この決定を、ピクセルのブロックをインターコード又はイントラコードする代償が低いか、に基づいて行う。インターコードする代償が低い場合、エンコーダ１０４はそのブロックをインターコードし、そうでなければ、そのブロックはイントラコードされる。ブロックをインターコードする代償は、ステップＳ１１１にて判定された、マッチングのとれたピクセルのブロックの動きベクトル及び残りをエンコードする、組み合わせた代償である。エンコーダ１０４は、ブロックをイントラコードする代償をさらに計算してよい。イントラコードする代償は、履歴データから判定されるような、ブロックをイントラコードする平均代償に相当してよい、予め定められた値を単位として与えられてよい。

エンコーダ１０４が、ブロックをインターコードするという決定に至った場合、エンコーダ１０４はさらに進み、マッチングのとれたピクセルのブロックに相当する動きベクトル及び残りをエンコードする。動きベクトルをエンコードする際には、エンコーダ１０４は、それを、その画像における、隣接するピクセルのブロックの動きベクトルに対してエンコードする。特に、これは、ブロックの動きベクトルに、通常の代償の計算（ステップＳ１０８ａ）又は変更した代償の計算（Ｓ１０８ｂ）が適用されたか否かに関わらない。画像における、隣接するピクセルのブロックの動きベクトルが、異なる実施形態のグループに対してどのように計算されるか、に関して、上記が参照される。

図７及び図８の例に戻る。エンコーダ１０４が、ブロック５０１ｄからブロック５０１ａをエンコードすることから進むと、その画像におけるモーションの量に大きな変化があることに留意されたい。エンコーダ１０４が、ブロック５０１ａを処理する際に、通常の代償の計算を適用していた場合、候補となる動きベクトル１０８をエンコードする代償が、非常に高くなる、ということを見いだす可能性が高い。結果として、エンコーダ１０４は、候補となる動きベクトル１０８を使用してブロック５０１ａをインターコードすることをしないであろう。しかし、上記の実施形態のいずれを使用して、変更した代償の計算がその代わりに、ブロック５０１ａを処理する際に使用される。結果として、エンコーダ１０４は、その代わりに、候補となる動きベクトル１０８をエンコードする代償が低い、ということを見いだす。なぜなら、それが、距離ベクトル５０４に近いからである。エンコーダ１０４は、したがって、ブロック５０１ａを、距離ベクトルに類似する、候補となる動きベクトルを使用してインターコードするようになる。この決定は、エンコーダ１０４に、ブロック５０１ａに対して、追加ビットの代償を担わせる。なぜなら、実際には、動きベクトル１０８をエンコードする代償が大きいためである。しかし、この追加ビットの代償を担うことには価値があってよい。なぜなら、エンコーダ１０４は、コヒーレントな領域５０２内の後続のブロックの少なくともいくつかをエンコードする際に、ビットを節約するからである。これは、動きベクトルをエンコードすることが、前のブロックの動きベクトルに関して行われるからである。図７及び図８の例では、ビットの節約はすでに、第２の実施形態のグループでの次のブロック５０１ｂにて始まっている。一方、第３の実施形態のグループでは、追加ビットの代償は、コヒーレントな領域５０２における最初の行にあるブロックのそれぞれに対して発生しており、ビットの節約は、コヒーレントな領域５０２における次の行にあるブロックを処理する際に始まる。

上述するように、ステップＳ１０６にて始まるブロックマッチングでは、リファレンスイメージにおける、マッチングのとれたブロックを検索する際に、動きベクトル検索ウィンドウが使用されてよい。現在処理されているピクセルのブロックの位置に関する検索ウィンドウのポジショニングは、動きベクトルをエンコードする代償の計算を実施するために使用されてよい。この実施は、上記の第１、第２、第３、及び第４の実施形態のグループのいずれか１つに適用されてよい。このことについて、図９のフローチャートを参照してさらに説明する。

図９のアプローチを使用するため、変更した代償の計算が、現在処理されているピクセルのブロックに使用されるべきか否かをチェックするステップＳ１０７が、ステップＳ１０６にて始まるブロックマッチングを実施する前に行われる。具体的には、エンコーダ１０４は、ステップＳ１０７でのチェックの結果を使用して、動きベクトル検索ウィンドウを、現在処理されているブロックの位置に関してどこに配置するかを決定する。ステップＳ１０７でのチェックを、第１、第２、第３、及び第４の実施形態のグループに対してどのように行うかについては、上述されている。

通常の代償の計算が使用されるべきブロックに対して、エンコーダ１０４は、ステップＳ１０６ａにて、以前にエンコードされた隣接するピクセルのブロックの動きベクトルの周囲にその中心が置かれている、リファレンスイメージにおける検索ウィンドウを使用して、ブロックマッチングを行う。特に、エンコーダ１０４は、現在処理されている画像におけるピクセルのブロックを、そのリファレンスイメージにおける検索ウィンドウ内の、候補となるピクセルのブロックとマッチさせてよい。これを、図１０にさらに示す。これは、ブロック５０１ｄに関してブロックマッチングを行う際に、エンコーダ１０４が使用する検索ウィンドウ１０００を示す。以前にエンコードされた隣接するブロックの動きベクトル７１０は、検索ウィンドウの中心を、ブロック５０１ｄの位置に関連付ける。以前にエンコードされた隣接するピクセルのブロックの動きベクトルを、第１、第２、第３、及び第４の実施形態のグループに対してどのように選択するか、については上述されている。

変更した代償の計算が使用されるべきブロックに対して、エンコーダ１０４は、その代わりに、距離ベクトルの周囲にその中心が置かれている、リファレンスイメージにおける検索ウィンドウを使用して、ブロックマッチングを行う。これを、図１１にさらに示す。これは、ブロック５０１ａに関してブロックマッチングを行う際に、エンコーダ１０４が使用する検索ウィンドウ１１００を示す。距離ベクトル５０４は、検索ウィンドウの中心を、ブロック５０１ｄの位置に関連付ける。そのような検索ウィンドウを使用することにより、距離ベクトルに類似する動きベクトルを、エンコーダ１０４が見いだす機会が増す。

エンコーダ１０４は続いて進み、ステップＳ１０８にて、ステップＳ１０６ａ及びＳ１０６ｂのいずれかにて見いだされた、候補となる動きベクトルの、動きベクトルをエンコードする代償を計算する。具体的には、エンコーダ１０４は、検索ウィンドウの中心がその周囲に置かれているベクトルに対して、候補となる動きベクトルのそれぞれをエンコードする代償を計算する。したがって、通常の代償の計算が適用されるべきブロックに対して、エンコーダ１０４は、隣接するピクセルのブロックの動きベクトルに対する代償を計算する（図２のステップＳ１０８ａを参照されたい）。変更した代償の計算が適用されるべきブロックに対して、エンコーダ１０４は、その代わりに、距離ベクトルに対する代償を計算する（図２のステップＳ１０８ｂを参照されたい）。

上記から理解されるように、アナライザ１０２及びエンコーダ１０４は、したがって、ビデオシーケンスの画像をエンコードする方法を実施するよう構成されている。アナライザ１０２及びエンコーダ１０４はそれぞれ、ハードウェアにて、ソフトウェアにて、又は、それらの組み合わせにて実装されてよい。

ハードウェアの実装では、アナライザ１０２及びエンコーダ１０４のそれぞれは、その機能を提供する専門の、具体的に設計された回路に相当してよい。この回路は、１つ又はそれ以上の特定用途向け集積回路、若しくは、１つ又はそれ以上のフィールドプログラマブルゲートアレイなどの、１つ又はそれ以上の集積回路の形態であってよい。例示を目的として、エンコーダ１０４は、したがって、使用時に、動きベクトルをエンコードする代償を計算する回路を含んでよい。

ソフトウェアの実装では、回路は、その代わりに、不揮発性メモリなどの、（非一時的）コンピュータ可読媒体上に保存されたコンピュータコード命令と関連して、アナライザ１０２及びエンコーダ１０４に、ここに開示するいずれの方法を実施させるマイクロプロセッサなどの、プロセッサの形態であってよい。不揮発性メモリの例として、読み取り専用メモリ、フラッシュメモリ、強誘電性ランダムアクセスメモリ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ又はＲＡＭ）、磁気コンピュータストレージデバイス、光学ディスク、などが挙げられる。ソフトウェアの場合では、アナライザ１０２及びエンコーダ１０４のそれぞれは、したがって、プロセッサにより実行されると、システム１００に、アナライザ１０２及びエンコーダ１０４のそれぞれの機能を実施させる、コンピュータ可読媒体上に保存されたコンピュータコード命令の部位に相当してよい。

ハードウェアの実装及びソフトウェアの実装の組み合わせもまた可能であるということが理解されるであろう。これは、アナライザ１０２及び１０４のいくつかの機能がハードウェアにて実装され、その他がソフトウェアにて実装されるということを意味する。

当業者であれば、上記の実施形態を多くの方法にて変更でき、上記の実施形態に示すような、本発明の利点を依然として使用できることが理解されるであろう。例えば、上記の実施形態が、画像における１つのコヒーレントな領域を主に示す一方で、この方法は、画像において、コヒーレントな領域が１つを超える場合にも、自然に拡張する。さらに、Ｈ．２６４及びＨ．２６５標準を使用して、コーディングに適用可能な、隣接するピクセルのブロックの動きベクトルを選択する、２つの異なる方法をそれぞれ説明した。しかし、他の最新のコーデック標準は、どのピクセルのブロックの動きベクトルがエンコードされるかに関して、動きベクトルの候補を選択する他の方法を使用し得る、ということが理解される。これは、特定の隣接するピクセルのブロックの動きベクトルを指し示すことにより、又は、絶対動きベクトルを計算することにより、同じピクセルのブロックにて、リファレンスイメージにおける動きベクトルに基づいて、動きベクトルの候補を選択することを含む。例示したそれら以外の最新のコーデック標準が使用される場合、動きベクトルの候補を選択するアプローチは、使用されるコーデック標準に規定されるように実施される、ということが理解される。本発明は従って、ここに示す実施形態に限定されるべきではなく、特許請求の範囲によってのみ定義されるべきである。更に、当業者が理解するように、ここに示す実施形態は組み合わせることも可能である。

Claims

ビデオシーケンスの画像（５０６）をエンコードする方法であって、
前記ビデオシーケンス（１０６）におけるモーションを解析（Ｓ１０２）し、前記ビデオシーケンス（１０６）における、以前にエンコードされた画像から、閾値より長い距離ベクトル（５０４）を伴って動いた前記画像（５０６）における、コヒーレントな領域（５０２）を特定することと、
前記画像におけるピクセルのブロックを、ピクセルのブロック（５０１ａ、５０１ｄ）のそれぞれに対してエンコードすることであって、
ブロックマッチング（Ｓ１０６、Ｓ１１１、Ｓ１０６ａ、Ｓ１０６ｂ）を行い、リファレンスイメージにおける、マッチングのとれたピクセルのブロックを指し示す動きベクトル（７０８ａ、８０８）を見いだし、前記ピクセルのブロック（５０１ａ、５０１ｄ）と前記マッチングのとれたピクセルのブロックとの間の残りを計算することと、
前記動きベクトル（７０８ａ、８０８）をエンコードする代償（Ｓ１０８ａ、Ｓ１０
８ｂ、Ｓ１０８）と、前記残りをエンコードする代償（Ｓ１１０）と、を計算することであって、
前記コヒーレントな領域（５０２）における、前記ピクセルのブロックの少なくとも１つ（５０１ａ、５０１ｂ、５０１ｃ）に対して、前記動きベクトル（８０８）をエンコードする前記代償は、前記画像における、隣接するピクセルのブロック（５０１ｄ）の動きベクトル（７０８ａ）に対する前記動きベクトルをエンコードする代償として計算される代わりに、前記コヒーレントな領域（５０２）の前記距離ベクトル（５０４）に対する前記動きベクトル（８０８）をエンコードする代償として計算される、代償を計算することと、
前記動きベクトルをエンコードする前記代償と、前記残りをエンコードする前記代償と、を組み合わせた場合に、その組み合わせた代償が、前記ピクセルのブロックをイントラコードする代償未満の場合は、前記ピクセルのブロック（５０１ａ、５０１ｄ）を、インターコードされたブロックとしてエンコード（Ｓ１１２）し、前記動きベクトル（８０８）を前記画像における隣接するピクセルのブロック（５０１ｄ）の動きベクトル（７０８ａ）に対してエンコードすることと、により、ピクセルのブロックをエンコードすることと、
を含む方法。
前記コヒーレントな領域（５０２）における、前記ピクセルのブロックの少なくとも１つ（５０１ａ、５０１ｂ、５０１ｃ）に対して、前記動きベクトル（８０８）をエンコードする前記代償を計算することにおいて、
前記コヒーレントな領域（５０２）における、前記ピクセルのブロック（５０１ａ、５０１ｂ、５０１ｃ）は、所定の順序（５０４）にてエンコードされ、
前記コヒーレントな領域における、前記ピクセルのブロックの少なくとも１つ（５０１ａ、５０１ｂ、５０１ｃ）は、前記所定の順序にしたがって最初にエンコードされた、前記コヒーレントな領域における、前記ピクセルのブロック（５０１ａ）を含む、
請求項１に記載の方法。
前記コヒーレントな領域（５０２）における、前記ピクセルのブロックの少なくとも１つ（５０１ａ、５０１ｂ、５０１ｃ）に対して、前記動きベクトル（８０８）をエンコードする前記代償を計算することにおいて、
前記コヒーレントな領域における、前記ピクセルのブロックの少なくとも１つ（５０１ａ、５０１ｂ、５０１ｃ）は、前記所定の順序（５０４）にしたがって最初にエンコードされた、前記コヒーレントな領域（５０２）における、前記ピクセルのブロック（５０１ａ）のみを含む、請求項２に記載の方法。
前記コヒーレントな領域（５０２）における、前記ピクセルのブロックの少なくとも１つ（５０１ａ、５０１ｂ、５０１ｃ）に対して、前記動きベクトル（８０８）をエンコードする前記代償を計算することにおいて、
前記コヒーレントな領域（５０２）における、前記ピクセルのブロックの少なくとも１つ（５０１ａ、５０１ｂ、５０１ｃ）は、前記領域内の、以前にエンコードされた隣接するピクセルのブロックを所定の数未満だけ有する、前記コヒーレントな領域における、前記ピクセルのブロック（５０１ａ、５０１ｂ、５０１ｃ）のすべてを含む、請求項１から請求項３のいずれか一項に記載の方法。
前記コヒーレントな領域（５０２）における、前記ピクセルのブロックの少なくとも１つ（５０１ａ、５０１ｂ、５０１ｃ）に対して、前記動きベクトル（８０８）をエンコードする前記代償を計算することにおいて、
前記コヒーレントな領域（５０２）における、前記ピクセルのブロックの少なくとも１つは、前記領域内の、以前にエンコードされた隣接するピクセルのブロックを所定の数未満だけ有する、前記コヒーレントな領域における、前記ピクセルのブロック（５０１ａ、５０１ｂ、５０１ｃ）のみを含む、請求項４に記載の方法。
前記コヒーレントな領域（５０２）における、前記ピクセルのブロックの少なくとも１つ（５０１ａ、５０１ｂ、５０１ｃ）に対して、前記動きベクトル（８０８）をエンコードする前記代償を計算することにおいて、
前記コヒーレントな領域（５０２）における、前記ピクセルのブロックの少なくとも１つは、前記コヒーレントな領域（５０２）における、前記ピクセルのブロックのすべてを含む、請求項１、請求項２、又は請求項４のいずれか一項に記載の方法。
前記画像（５０６）における、隣接するピクセルのブロックの動きベクトル（７０８ａ）は、前記画像（５０６）における、以前にエンコードされた隣接するピクセルのブロックの動きベクトルのメジアンに相当する、請求項１から請求項６のいずれか一項に記載の方法。
前記ブロックマッチング（Ｓ１０６）を行うことは、動きベクトル検索ウィンドウ（１０００、１１００）を使用し、前記リファレンスイメージにおける、マッチングのとれたピクセルのブロックを指し示す前記動きベクトルを見いだすこと含み、
前記コヒーレントな領域（５０２）における、前記ピクセルのブロックの少なくとも１つ（５０１ａ、５０１ｂ、５０１ｃ）に対して、前記検索ウィンドウ（１１００）は、隣接するピクセルのブロックの前記動きベクトル（７０８ａ）の周囲にその中心が置かれている代わりに、前記コヒーレントな領域の距離ベクトル（５０４）の周囲にその中心が置かれている、
請求項１から請求項７のいずれか一項に記載の方法。
前記ピクセルのブロック（５０１ａ、５０１ｄ）の前記動きベクトル（７０８ａ、８０８）をエンコードする前記代償は、前記動きベクトル検索ウィンドウ（１０００、１１００）の中心がその周囲に置かれているベクトル（７１０、５０４）に対する前記動きベクトル（７０８ａ、８０８）をエンコードする代償として計算される、請求項８に記載の方法。
前記ビデオシーケンス（１０６）は、移動可能な視野を有するカメラにより撮像され、
前記ビデオシーケンス（１０６）におけるモーションを前記解析（Ｓ１０２）することは、前記視野の動きに関わる前記カメラからの入力（１１２）に基づく、
請求項１から請求項９のいずれか一項に記載の方法。
前記ビデオシーケンスにおけるモーションを前記解析（Ｓ１０２）することは、対象検出アルゴリズムを使用して、前記ビデオシーケンス（１０６）における対象及びそれらのモーションを検出することを含む、請求項１から請求項９のいずれか一項に記載の方法。
前記画像（５０６）における、前記コヒーレントな領域（５０２）のサイズは、前記コヒーレントな領域（５０２）の前記距離ベクトル（５０４）の長さに依存する閾値より大きい、請求項１から請求項１１のいずれか一項に記載の方法。
前記ビデオシーケンス（１０６）におけるモーションを解析し、前記ビデオシーケンスにおける、以前にエンコードされた画像から、閾値より長い第２の距離ベクトルを伴って動いた前記画像における、第２のコヒーレントな領域を特定することをさらに含み、
前記第２のコヒーレントな領域における、ピクセルのブロックの少なくとも１つに対して、前記動きベクトルをエンコードする前記代償は、前記画像における、隣接するピクセルのブロックの動きベクトルに対する前記動きベクトルをエンコードする代償として計算される代わりに、前記第２のコヒーレントな領域の前記第２の距離ベクトルに対する前記動きベクトルをエンコードする代償として計算される、
請求項１から請求項１２のいずれか一項に記載の方法。
ビデオシーケンスの（１０６）画像（５０６）をエンコードするシステム（１００）であって、
前記ビデオシーケンス（１０６）におけるモーションを解析し、前記ビデオシーケンス（１０６）における、以前にエンコードされた画像から、閾値より長い距離ベクトル（５０４）を伴って動いた前記画像（５０６）における、コヒーレントな領域（５０２）を特定するよう構成されているアナライザ（１０２）と、
前記画像におけるピクセルのブロックを、ピクセルのブロックのそれぞれに対してエンコードするよう構成されているエンコーダ（１０４）であって、
ブロックマッチングを行い、リファレンスイメージにおける、マッチングのとれたピクセルのブロックを指し示す動きベクトル（７０８ａ、８０８）を見いだし、前記ピクセルのブロック（５０１ａ、５０１ｄ）と前記マッチングのとれたピクセルのブロックとの間の残りを計算することと、
前記動きベクトル（７０８ａ、８０８）をエンコードする代償と、前記残りをエンコードする代償と、を計算することであって、
前記コヒーレントな領域（５０２）における、前記ピクセルのブロックの少なくとも１つ（５０１ａ、５０１ｂ、５０１ｃ）に対して、前記動きベクトル（８０８）をエンコードする前記代償は、前記画像における、隣接するピクセルのブロックの動きベクトル（７０８ａ）に対する前記動きベクトルをエンコードする代償として計算される代わりに、前記コヒーレントな領域の前記距離ベクトル（５０４）に対する前記動きベクトルをエンコードする代償として計算される、代償を計算することと、
前記動きベクトル（７０８ａ、８０８）をエンコードする前記代償と、前記残りをエンコードする前記代償と、を合わせた場合に、その合わせた代償が、前記ピクセルのブロック（５０１ａ、５０１ｄ）をイントラコードする代償未満の場合は、前記ピクセルのブロック（５０１ａ、５０１ｄ）を、インターコードされたブロックとしてエンコードし、前記動きベクトル（８０８）を前記画像における隣接するピクセルのブロック（５０１ｄ）の動きベクトル（７０８ａ）に対してエンコードすることと、により、ピクセルのブロックをエンコードするよう構成されているエンコーダ（１０４）と、
を含む、システム（１００）。
プロセッサにより実行されると、前記プロセッサに、請求項１から請求項１３のいずれか一項に記載の方法を実施させるコンピュータコード命令を保存している、非一時的コンピュータ可読媒体。