JP6831389B2 - Processing of multiple HDR image sources - Google Patents
Processing of multiple HDR image sources Download PDFInfo
- Publication number
- JP6831389B2 JP6831389B2 JP2018545548A JP2018545548A JP6831389B2 JP 6831389 B2 JP6831389 B2 JP 6831389B2 JP 2018545548 A JP2018545548 A JP 2018545548A JP 2018545548 A JP2018545548 A JP 2018545548A JP 6831389 B2 JP6831389 B2 JP 6831389B2
- Authority
- JP
- Japan
- Prior art keywords
- brightness
- image
- images
- hdr
- dynamic range
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/46—Colour picture communication systems
- H04N1/56—Processing of colour picture signals
- H04N1/60—Colour correction or control
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Processing (AREA)
- Controls And Circuits For Display Device (AREA)
- Transforming Electric Information Into Light Information (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Studio Devices (AREA)
- Picture Signal Circuits (AREA)
Description
本発明は、少なくともいくつかは高いダイナミックレンジを有する異なる輝度特性を有する、異なるソースからの複数の画像の合成(又は時間的に連続する画像のビデオ)を正確に処理する方法及び装置に関する。 The present invention relates to methods and devices for accurately processing the composition of multiple images (or video of temporally continuous images) from different sources, at least some of which have different luminance characteristics with high dynamic range.
数年前まで、すべてのビデオは、最近では標準ダイナミックレンジ(SDR)とも呼ばれる、いわゆる低ダイナミックレンジ(LDR)原理に従って符号化されていた。つまり、キャプチャされたシーンが何であれ、符号化の最大値(例えば、8ビットルマY’=255又はアナログディスプレイ駆動の100%電圧)は、標準基準の100ニットである表示ピーク明度PB_D(すなわち、ディスプレイにレンダリングできる最も明るい白色)のLDRディスプレイ上の白色のレンダリングに対応して標準化定義されるべきである。人々が実際には少し暗い又は明るいディスプレイを購入した場合、視聴者の視覚システムは、(例えばホラー映画の夜景がある場合)例えばいらいらするほど明るすぎるのではなく画像が適切となるように適応すると思われる。これは相対レンダリングのパラダイムであり、符号化された画像の最大輝度の色をそれが何であれ常にディスプレイのピーク明度にマッピングする。これは、レンダリング又はビデオ/画像消費側で実際に利用可能なディスプレイが実際は100ニットよりもあまり明るくない場合には機能するが、ディスプレイがはるかに明るい、例えば10倍明るく、すなわちPB_D=1000ニットの場合には望ましくない結果をもたらす場合がある。 Until a few years ago, all videos were encoded according to the so-called low dynamic range (LDR) principle, nowadays also called standard dynamic range (SDR). That is, whatever the captured scene, the maximum value of encoding (eg, 8-bit Luma Y'= 255 or 100% voltage driven by an analog display) is the standard 100 knit display peak brightness PB_D (ie, display). It should be standardized and defined for white rendering on LDR displays (the brightest white that can be rendered in). If people actually buy a slightly darker or brighter display, the viewer's visual system (for example, if there is a night view of a horror movie) adapts the image to be appropriate rather than being too bright, for example, annoyingly. Seem. This is a relative rendering paradigm that always maps the maximum brightness color of the encoded image to the peak brightness of the display, whatever it may be. This works if the display actually available on the rendering or video / image consumer side is not really much brighter than 100 nits, but the display is much brighter, say 10 times brighter, ie PB_D = 1000 nits. In some cases it can have undesired consequences.
もちろん、完全に均一な照明であっても様々なオブジェクトの反射が既に100:1のコントラスト比を与え、様々な領域の照明に違いがあるので、これは、誰もが協調して作業するうえで正確に厳密に規定されたテレビシステム比色分析であり、実際のプログラム作成のためには、これは典型的には、シーン照明設定の厳密な制御を維持することを意味する。典型的には、(虹彩設定を選択することによって)光を照射して露光し、おおよそコード白色すなわち最大ルマコードにマッピングされたシーンの(明るく照らされた部分の)白色は符号化ピーク明度PB_Cに対応し、典型的には、シーン内のさらに明るいオブジェクト又は領域について、そのPB_C輝度値にクリップすることができる。典型的には、カメラ、特に2000年代初期のデジタルカメラの初期の世代では、非常に明るい領域と暗い領域の両方を同時に捕捉することに問題があった、すなわち、例えば部屋の窓又は車の窓の外に見えるシーンの一部は、典型的には白色にクリッピングされる(それらの平方根ルマコード値R’=G’=B’=255に対応する赤色、緑色及び青色の付加的な色成分R=G=B=max)。 Of course, even with perfectly uniform lighting, the reflections of different objects already give a contrast ratio of 100: 1, and there are differences in lighting in different areas, so this is for everyone to work together. Is a television system colorimetric analysis that is precisely and strictly defined in, and for actual programming, this typically means maintaining tight control of the scene lighting settings. Typically, the light is radiated and exposed (by selecting the iris setting), and the approximately code white, that is, the white (in the brightly illuminated area) of the scene mapped to the maximum Luma code, has a coded peak brightness of PB_C. Correspondingly, typically, brighter objects or areas in the scene can be clipped to their PB_C brightness values. Typically, cameras, especially the early generations of digital cameras in the early 2000s, had problems capturing both very bright and dark areas at the same time, i.e., for example, room windows or car windows. Some of the scenes visible outside of are typically clipped to white (their red, green, and blue additional color components R corresponding to their square root Lumacode values R'= G'= B'= 255. = G = B = max).
しかしながら、最近では、高ダイナミックレンジカメラ(及び重要なことに新しいHDR画像キャプチャ又は一般的な画像作成態様)及びHDRディスプレイの両方が出現し始めており、他のビデオ及び/又は画像技術、例えば画像符号化、画像合成などは、これらの新しい技術レベル要求に合わせて調整しなければならない。このアプリケーションでは、ダイナミックレンジがピーク明度(すなわち、最も明るいレンダリングされた輝度)のみに最初に指定される場合、レンジの下端は実際にはゼロであると仮定し(実際には、表示フロントプレート又はシネマスクリーンの光反射、例えば0.1ニットのような視聴状態に依存する)、これらのさらなる詳細は特定の説明とは無関係であることに留意すべきである。最も暗い画像の色について技術的に特定のことがなされていない場合には、最初に高い表示ピーク明度に単純化する高いダイナミックレンジのディスプレイが特にSDRディスプレイのような低いダイナミックレンジのディスプレイと異なるように最も暗いピクセル色をレンダリングすべきである特別な理由はないと言える。ダイナミックレンジを定義するにはいくつかの態様があり、以下の説明で一般的に使用されている最も自然なものはディスプレイにレンダリングされた輝度ダイナミックレンジ、すなわち最も明るい色の輝度に対する最も暗い色の輝度であることにも留意すべきである(もちろん実際には暗いシーンの中の単一の明るいピクセルはあまり印象的ではないなどの精神視覚的側面も関与する可能性があるが、以下のいくつかの技術的説明では、これを放棄して人間にとって必要なものに準拠する技術要素の設計のみが説明される)。ピクセル色を含み得る任意の画像としてHDR画像を定義することができ、上記のように特に明るいピクセル色については、SDR画像符号化では符号化できない。このようなSDR画像又はビデオ符号化の測色が(静止画のsRGB OETFに対応するビデオRec.709OETFで)固定されているので、8ビットルマ符号化が1000:1のみの、すなわち0.1ニットから100ニットを超えないダイナミックレンジに対応できることが数学的に確かめられた。したがって、例えば通常のSDRシーンの白色よりも2倍明るく、つまり最大200ニットに表示レンダリングされるシーンの輝度を符号化すること可能にすることを望む場合、HDR画像又はビデオ符号化の新しいフォームが必要である(新しいSMPTE2084は、より明るいシーンの輝度を符号化できるOETFすなわち例えばルマとして最大10,000ニット、例えばHEVC圧縮のようなビデオ圧縮に対して「通常」ルマとしてさらに処理される10又は8ビットルマの通常のテレビ視聴条件でディスプレイに少なくともどのようにレンダリングするかの例である)。人間の視覚システムは、はるかに高いダイナミックレンジを処理することができ、世界の様々な実用的なHDRシーン(例えば洞窟内又は小さな窓がある暗い部屋から見える日差しのあるシーン)にも存在するため、画像の「メリハリ」を高めるために高ダイナミックレンジのビデオ処理連鎖のニーズがある。典型的に屋内照明は屋外照度の1/100であるため、黒いオブジェクトが入射光の約1%を反射することを知ると、これは既に10,000:1のダイナミックレンジ(DR)を必要とすることを意味する。しかしながら、人間が暗い視野での夜景の中で最も黒い色の1%を感知できるのであれば、符号化された画像コンテンツの1,000,000:1のDRは正常である(いくつかのカメラが達成でき、例えば対数的に測定できる)。もちろん、例えば大きな洞穴が内部から見える場合、原理的にはある状況において、クリッピングされた最小の黒色として周囲の洞窟形状を実際にレンダリングすることを芸術的に選択することができるが、他のシナリオでは、例えば洞窟で何らかの行動が起こると画像内のピクセルの最も明るい領域から最も暗い領域までのすべての符号化された異なるグレー値を本当に望む又は必要とする(一部の洞窟形状の部分的な外見の一部は、前景と背景の心理的な検出が逆転して破れた紙切れのように見えるので黒くクリッピングするとかなり奇妙に見え、したがってより多くの洞窟内部の暗い色をレンダリングすることによってそれを避けることができる)。そのため、0.01から10,000ニットまでの表示レンダリングレンジは実際には素晴らしいHDRレンジであるが、上記のように100ニットPBの2倍以上の2つの要因の符号化又はレンダリングは、どのように従来のSDRビデオの考え方とは違った処理をするかを注意深く見る対応するニーズとともに既にHDR技術として適格である。符号化システム自体は、参照ディスプレイをそれに関連付けない限りもともとダイナミックレンジを持たないことにも留意すべきであり、これは、例えばR’=G’=B’=Y’=255は、100ニット又は1000ニットなどのPBに対応すべきであることを示す。以前からの共通の間違いは、符号化された画像のダイナミックレンジが、使用されるビットの量に強く結びついていると考えることである。これは、例えばピクセルウェルの光電子変換のより大きな範囲にまたがるより多くのビットを必要とするカメラのADCのような線形符号化の場合には当てはまるが、また、少なくともいくらか高い符号化精度すなわち高いダイナミックレンジのためのビットを有することは良いことであるが、必要なビット量はまた、光電気変換関数(OETF)とも呼ばれるルマコード割り当て関数の選択された形状にも依存する。そのため、10ビットのY’CbCrで符号化された画像は、最大PB_C値まで符号化可能な色を有するHDR画像、及び、高精度のSDR画像の両方になる可能性がある。どのタイプの画像であるか、すなわちすべての符号化されたルマを対応する輝度として表示できるように十分に高いPB_Dのディスプレイにルマをどのようにレンダリングすべきかについては、典型的には、例えば受信した画像のニットにおける共符号化されたPB_C値のようなメタデータを読み出すことによって決定される。PB_Cは、実際には、画像が色等級分けされた理想的な基準ディスプレイのPB_Dとしても解釈可能であり、すなわち、そのディスプレイでは暗すぎる又は明るすぎるのではなく最適な見た目になる。 However, recently, both high dynamic range cameras (and, importantly, new HDR image capture or common image creation modes) and HDR displays have begun to emerge, with other video and / or image technologies such as image coding. The conversion, image composition, etc. must be adjusted to meet these new technical level requirements. In this application, if the dynamic range is initially specified only for peak brightness (ie, the brightest rendered brightness), it is assumed that the bottom edge of the range is actually zero (actually, the display front plate or It should be noted that the light reflections of the cinema screen, eg, depending on viewing conditions such as 0.1 knit), these further details are irrelevant to the particular description. High dynamic range displays that initially simplify to high display peak brightness may differ from low dynamic range displays, especially SDR displays, unless technically specific is done for the colors of the darkest images. It can be said that there is no particular reason why the darkest pixel color should be rendered. There are several ways to define dynamic range, the most natural of which is commonly used in the discussion below is the brightness dynamic range rendered on the display, that is, the darkest color to the brightness of the brightest color. It should also be noted that it is brightness (of course, psycho-visual aspects such as a single bright pixel in a dark scene may not be very impressive, but some of the following: In that technical description, only the design of technical elements that abandon this and conform to what humans need is explained). An HDR image can be defined as any image that can include pixel colors, and especially bright pixel colors as described above cannot be encoded by SDR image coding. Since the color measurement of such SDR image or video coding is fixed (in the video Rec.709 OETF corresponding to the sRGB OETF of the still image), the 8-bit Luma coding is only 1000: 1, that is, 0.1 knit. It was mathematically confirmed that it can handle a dynamic range that does not exceed 100 knits. So, for example, if you want to be able to encode the brightness of a scene that is displayed and rendered up to 200 knits, which is twice as bright as the white of a normal SDR scene, a new form of HDR image or video coding is available. Required (the new SMPTE 2084 is an OETF capable of encoding the brightness of brighter scenes, ie up to 10,000 knits as Luma, for example 10 or 10 which are further processed as "normal" Luma for video compression such as HEVC compression. An example of at least how to render on a display under normal 8-bit Luma TV viewing conditions). Because the human visual system can handle much higher dynamic range and is also present in various practical HDR scenes in the world (eg in a cave or in a dark room with small windows in the sun). , There is a need for a high dynamic range video processing chain to enhance the "sharpness" of the image. Since indoor lighting is typically 1 / 100th of outdoor illumination, knowing that a black object reflects about 1% of the incident light, this already requires a dynamic range (DR) of 10,000: 1. Means to do. However, a 1,000,000: 1 DR of encoded image content is normal if humans can perceive 1% of the darkest color in the night view in a dark field of view (some cameras). Can be achieved, for example, can be measured logarithmically). Of course, for example, if a large cave is visible from the inside, in principle in some situations you can artistically choose to actually render the surrounding cave shape as the smallest clipped black, but in other scenarios. So, for example, when something happens in a cave, we really want or need all the different encoded gray values from the brightest to the darkest areas of the pixels in the image (partial of some cave shapes). Some of the appearance looks pretty weird when clipping black as the psychological detection of the foreground and background looks like a torn piece of paper, thus rendering it more dark inside the cave. Can be avoided). So while the display rendering range from 0.01 to 10,000 nits is actually a great HDR range, how do you encode or render two factors that are more than double the 100 nit PB as described above? It is already qualified as an HDR technology with a corresponding need to carefully watch whether it processes differently from the conventional SDR video concept. It should also be noted that the coding system itself does not originally have a dynamic range unless the reference display is associated with it, for example R'= G'= B'= Y'= 255 is 100 knits or Indicates that it should correspond to PB such as 1000 knits. A common mistake from before is to think that the dynamic range of the encoded image is strongly tied to the amount of bits used. This is true for linear coding, such as camera ADCs, which require more bits across a larger range of pixelwell photoelectron conversions, but also at least somewhat higher coding accuracy or higher dynamics. It is good to have bits for the range, but the amount of bits required also depends on the selected shape of the Lumacode allocation function, also known as the analog-to-digital converter (OETF). Therefore, a 10-bit Y'CbCr-encoded image can be both an HDR image with colors that can be encoded up to the maximum PB_C value and a high-precision SDR image. What type of image is, that is, how to render the Luma on a display with PB_D high enough to display all the encoded Luma as the corresponding brightness, is typically received, for example. It is determined by reading metadata such as the co-coded PB_C value in the knit of the image. PB_C can also actually be interpreted as PB_D for an ideal reference display in which the image is color graded, i.e., the display will have an optimal appearance rather than being too dark or too bright.
したがって、例えば最大1000ニットまでのレンダリングされた輝度を有する画像を符号化することができる画像の符号化は、良質のHDRを得るための良い出発点であり、読者は他の詳細が言及されていない限り以下の教示の一部を要約する必要がある場合にそのような設定を覚えておくことができる。 So, for example, coding an image that can encode an image with rendered brightness up to 1000 knits is a good starting point for getting good HDR, and the reader has mentioned other details. Unless you need to summarize some of the following teachings, you can remember such settings.
したがって、実際には、非常に高いダイナミックレンジを有するシーンがあり(例えば、窓を通して外側の10、000ニット以上の輝度を持つ日光に照らされたオブジェクトを同時に見ながら屋内で1ニットほどの暗いオブジェクトを撮影する)、ディスプレイは良くなっているので(100ニットよりも2倍明るいPB、現在は1000ニットが現れ、数千ニットのPBが想定されている)、オリジナルと全く同じではないが少なくとも非常に自然な又は少なくとも満足できることは重要であるが、これらの画像をきれいにレンダリング可能になることが目標である。したがって、HDRは、最も明るい及び暗い色についてだけでなくその間のすべての輝度についても、すなわち実際には最終的に人間の精神視覚的外観に関する。もちろん、技術的には、単なる符号化のような一部のHDR処理技術にとって、それは人間が現れる色を正確に見るためにディスプレイを正しく動かすことによって起こる必要があるものなので、ディスプレイ上にレンダリングされる技術的輝度の観点から必要な外観を定式化することができる。しかしながら、出願人は、多用途のHDR技術システムを設計したい場合には、(読者が以下のストーリー全体を理解し何を意味しているか理解するために)単なる符号化の直接の1対1接続視聴の常習的なパラダイムを廃止する必要があることを強調したい。Rec.709では、放送者は、標準(単独の)SDRモニタを用いてモニタにどのようにレンダリングされているかを見ることによってどの輝度を撮影しているかを見ることができ、100ニットPB_DのSDRディスプレイは単一の趣のみがあるのでどこでも同じ家のすべてのテレビにレンダリングされる。今でもする必要がある唯一のことは、近似的に平方根関数を適用することによって、レンダリングされる(カメラ測定された)輝度をルマコードに変換することであり(なぜならそのようなコードは利用可能な変換技術の技術的詳細をより良く使用するので)、受信機側において逆(EOTF)関数は、作成側と同じ視聴環境の実質的に同じTVで復号されたコンテンツを見ている視聴者が望むようにプログラムを体験することを保証する。それはまだHDR10の視野である。異なる形状のEOTFがRec.709で使用されるが、作成された側で視覚化可能な基準ディスプレイにレンダリングされた色は、受信されたルマに固定された数式を単に適用することによって、受信側において依然として同一の輝度でレンダリングされる。しかしながら、実際のHDRの世界は、異なる視聴者が異なるPB_Dの異なるディスプレイを有し、視聴部屋のランプの量が異なるなど、非常に変化しやすい。まさにHDR10で符号化されたHDR映画は、(重要な動作はビデオの比較的暗い部分でしばしば行われるにもかかわらず)HDR映画が明るい周囲照明の下で見ることが困難になる比較的暗い多くのピクセルを含むので批判された。HDR10は、ディスプレイメーカーがそれを解決することを望んでおり、それに対する解決策を提示していない。しかしながら、出願人は、これは一般的にHDRシーン画像のタイプに依存する複雑な問題であり、コンテンツ作成者がHDR画像色の最終的な(可変である、すなわちある輝度と所望の色のルマ表現との間の1対1で直接接続された逆固定計算ではない)ディスプレイレンダリングの発言権を有することを可能にするメカニズムを持つべきであると考える。 Therefore, in reality, there are scenes with a very high dynamic range (for example, a dark object of about 1 knit indoors while simultaneously viewing a sunlight-lit object with a brightness of 10,000 knits or more outside through a window. The display is better (PB twice brighter than 100 nits, now 1000 nits are appearing and thousands of nits are expected), so it's not exactly the same as the original, but at least very Natural or at least satisfying is important, but the goal is to be able to render these images nicely. Therefore, HDR relates not only to the brightest and darkest colors, but also to all the brightness in between, that is, in fact ultimately to the psycho-visual appearance of humans. Of course, technically, for some HDR processing techniques, such as just encoding, it is rendered on the display because it needs to happen by moving the display correctly in order to see the colors that humans appear in exactly. The required appearance can be formulated from the viewpoint of technical brightness. However, if the applicant wants to design a versatile HDR technology system, it is just a direct one-to-one connection of encoding (to help the reader understand the entire story below and what it means). I would like to emphasize that the habitual viewing paradigm needs to be abolished. Rec. At 709, the broadcaster can see what brightness he is shooting by seeing how it is rendered on the monitor using a standard (single) SDR monitor, and the 100 knit PB_D SDR display Since it has only a single taste, it is rendered on all TVs in the same house everywhere. The only thing that still needs to be done is to convert the rendered (camera-measured) brightness to Lumacode by approximately applying the square root function (because such code is available). (Because it makes better use of the technical details of the conversion technology), the inverse (EOTF) function on the receiver side is desired by viewers viewing the decrypted content on substantially the same TV in the same viewing environment as the creator. Guarantee that you will experience the program as. It is still the field of view of HDR10. EOTFs of different shapes are Rec. The colors used in 709, but rendered on a reference display that can be visualized on the created side, are still rendered with the same brightness on the receiving side by simply applying a fixed formula to the received Luma. Will be done. However, the actual HDR world is very variable, such as different viewers having different displays with different PB_Ds and different amounts of lamps in the viewing room. Exactly HDR10-encoded HDR movies are often relatively dark, making it difficult for HDR movies to be seen in bright ambient lighting (although important movements are often performed in the relatively dark parts of the video). It was criticized for containing the pixels of. HDR10 wants display makers to solve it and does not offer a solution to it. However, the applicant has found that this is a complex issue that generally depends on the type of HDR scene image, and the content creator has the final (variable, i.e., certain brightness and desired color of Luma) of the HDR image color. We think that we should have a mechanism that allows us to have a say in display rendering (not an inverse fixed calculation that is directly connected to the representation on a one-to-one basis).
読者は、視聴者が典型的には異なる状況で(明るいアフリカの風景に実際に立っているのではなく夜間に弱く照明されたリビングルーム、暗い家屋又は映画館に座って)コンテンツを見ているため、シーン内の輝度と最終的にテレビ(又は他のディスプレイ)にレンダリングされた輝度との間には同一性がないことも理解すべきである。実際には、少なくとも例えば10億ニットの太陽のようなオブジェクトを正確にレンダリングすることはTVにはできずそれによって盲目になりたい視聴者もいない(小さなスクリーンを見るとき、角度又はそれによって決定されるグレアは4*pi立体角周囲環境と同じではないので、そのことを考慮しなければならない)。出願人は、符号化及び通信から開始してマスタHDR色等級分けを定義することによって、カメラによって撮影された相対RGB値からディスプレイにレンダリングされる適切な輝度のこの変換を解決した。このHDR等級分けされた画像セットは、アーティストがもし利用可能な基準モニタを持っており、例えば典型的な視聴環境に座って5000ニットPBディスプレイに対してHDR画像を完全に等級分けすることができれば、アーティストの望むように作成することができる(アーティストに言及するが、本発明の技術的側面をどのようにすべきか、アーティストが要求事項のコミュニケーション及び制御を行うことを可能にすることは、読者にはっきりと明らかにすべきである)。しかしながら、それは話の半分にすぎない、すなわち(新しい要求のビデオセットでは)HDRシーンの芸術的で魅力的な外観画像を一貫して決めることができ(そして、同じ視界状況の制約の下で全く同じ5000ニットPB_Dのディスプレイを視聴する場合、その画像を忠実に表示することができる)。5000ニットHDR画像を得た消費者が1000ニットディスプレイしか持たない場合、何が起こるか以下で説明する(ディスプレイの調整)。これは全く別の問題であり、直接的な1対1の通信アプローチで処理できるものとは全く異なるので、1つの基準ディスプレイPB_Dを有する単一の参照システムが何であるべきかを熟考し始めることができる。 Readers typically see content in different situations (sit in a weakly lit living room, dark house or cinema at night rather than actually standing in a bright African landscape). Therefore, it should also be understood that there is no identity between the brightness in the scene and the brightness finally rendered on the television (or other display). In practice, it is not possible for a TV to accurately render an object such as at least a billion knit sun, and no viewer wants to be blinded by it (when looking at a small screen, it is determined by the angle or it. Glare is not the same as the 4 * pi solid angle ambient environment, so that must be taken into account). Applicants have resolved this conversion of appropriate brightness rendered on the display from relative RGB values taken by the camera by defining a master HDR color classification starting with coding and communication. This HDR graded image set has a reference monitor available to the artist, for example if they can sit in a typical viewing environment and fully grade HDR images against a 5000 knit PB display. It can be created as the artist desires (referring to the artist, but what the technical aspects of the invention should be, allowing the artist to communicate and control the requirements is the reader. Should be clearly clarified). However, that's only half the story, ie (in the new demanding video set) it is possible to consistently determine the artistic and attractive appearance image of the HDR scene (and quite under the same visibility constraints). When viewing the same 5000 knit PB_D display, the image can be faithfully displayed). What happens if the consumer who obtained the 5000 knit HDR image has only a 1000 knit display is described below (display adjustment). This is a completely different issue, quite different from what can be handled by a direct one-to-one communication approach, so start pondering what a single reference system with one reference display PB_D should be. Can be done.
この出願が「高ダイナミックレンジ」画像について語るならば、それは、少なくとも1000ニットPB_Dディスプレイに表示するのに適した画像コンテンツを有する画像であることを意味する(もちろん、コンテンツは100ニット又は500ニットのディスプレイに表示することもできるが、例えば、ランプが理想的によりも暗くなるので完全なものではない)。したがって、この画像には、より高いPB_Dディスプレイに表示されたときに視覚的に興味深いコンテンツがある、すなわち平均よりもはるかに明るい画像オブジェクトがある(又は逆にY=1として正規化する最も明るい色と比較される、SDR画像の典型よりもはるかに暗い少なくともいくつかのオブジェクト)。例えば屋内のシーンは、元のシーンで500ニット以上になる明度を有し、明るい温室又は数ニット以下の狭いトンネル領域があるかどうかによって、外の明度が現実世界で数千ニットになる。ディスプレイでは、屋内を100ニット以下にレンダリングし、ディスプレイが有するそれ以上の利用可能なものを屋外オブジェクトに対して最適に使用する、例えば最大1500ニット以上(PB_D>=1500ニット)にレンダリング可能なディスプレイを有する場合には、例えば「曇りの日」の映画又はプログラムであれば最大500ニットにレンダリングし、晴れた屋外であれば最大1500ニットにレンダリングする。したがって、レンダリング中でさえも、(1500/2)/(100/2)又は少なくとも500/100の明るい画像領域と暗い画像領域との間の比率が存在する(これは、典型的には、異なって照明された領域、すなわち、オブジェクトの反射による領域内のコントラストが最大100:1、典型的には30:1の領域の中間点として定義可能である)。これを連続関数でルマコードと関連付けると、それらのルマも離れて広がるが、コンテンツを指定するのにはあまり役に立たない(それらはOETFの形状、及び場合によって技術的な要求に依存する)。この出願が(HDR画像よりも)低い又は低いダイナミックレンジの画像について言及する場合、少なくとも1ストップ(乗算係数2)低い、典型的には少なくとも2−3ストップ(4倍又は8倍以上)であるピーク明度を有する(又は実際にはPBの基準ディスプレイに関連する)画像(おそらく全く同じ元のカメラで撮影されたシーン画像、すなわち同じシーンのHDR画像の異なる等級分けの外観)について話す。SDR画像は、100ニットの標準規定PB_Cに準拠する。それらの中のすべてのオブジェクトのコントラスト比は、典型的には100:1以下又は最大1000:1以下であり、すなわち、より均一な輝度又はルマヒストグラムを典型的に見る。 If this application speaks of a "high dynamic range" image, it means that the image has image content suitable for display on at least 1000 knit PB_D displays (of course, the content is 100 knit or 500 knit). It can be shown on a display, but it is not perfect, for example, because the lamp will be darker than ideal). Therefore, this image has visually interesting content when displayed on a higher PB_D display, i.e. the brightest color that normalizes as Y = 1 and has image objects that are much brighter than average. At least some objects that are much darker than typical of SDR images compared to). For example, an indoor scene may have a brightness of 500 knits or more in the original scene, and the outside brightness may be thousands of knits in the real world, depending on whether there is a bright greenhouse or a narrow tunnel area of a few knits or less. In the display, the indoor is rendered to 100 nits or less, and the more available ones of the display are optimally used for the outdoor object, for example, a display capable of rendering up to 1500 nits or more (PB_D> = 1500 nits). For example, a movie or program of "cloudy day" is rendered to a maximum of 500 knits, and a sunny outdoor is rendered to a maximum of 1500 knits. Therefore, even during rendering, there is a ratio between (1500/2) / (100/2) or at least 500/100 bright and dark image areas (which is typically different). It can be defined as the midpoint of an illuminated area, i.e., an area with a maximum contrast of 100: 1, typically 30: 1 due to object reflection). When this is associated with the Luma code in a continuous function, those Luma also spread apart, but are not very useful for specifying content (they depend on the shape of the OETF and, in some cases, technical requirements). When this application refers to an image with a lower or lower dynamic range (than an HDR image), it is at least 1 stop (multiplication factor 2) lower, typically at least 2-3 stops (4x or 8x or more). We talk about images that have peak brightness (or are actually related to the reference display of the PB) (perhaps scene images taken with the exact same original camera, i.e. different graded appearances of HDR images of the same scene). The SDR image complies with the 100 knit standard PB_C. The contrast ratios of all the objects in them are typically 100: 1 or less or up to 1000: 1 or less, i.e. typically see a more uniform brightness or Luma histogram.
ルマコードを定義する必要がある(最終的にレンダリングされるべきである)画像ピクセル輝度ダイナミックレンジを知っている場合に必要な第2のことは、コードを実際にどのように分配するか、すなわちどのコード割り当て関数で対応するルマコードY’(典型的には関連する基準ディスプレイのPB_Dにマッピングする10ビット符号化では1023だけでなく例えばルマコード743がどの輝度に対応すべきか)をオブジェクト又はピクセル輝度Yに又はその逆に関連付けるかである。 The second thing you need to know if you know the image pixel luminance dynamic range where you need to define the Luma code (which should be finally rendered) is how the code is actually distributed, that is, which The corresponding Luma code Y'in the code assignment function (typically which brightness the Luma code 743 should correspond to in addition to 1023 in the 10-bit coding that maps to PB_D of the associated reference display) to the object or pixel brightness Y. Or vice versa.
過去2−5年の間に、いくつかの企業がHDRビデオ(すなわち、動画像又は言い換えれば時間的に連続する画像のセット)を符号化する異なる態様を提案してきた。2016年に予定されている第1の製品への急激な動きがあるので、HDR画像の符号化と処理が複雑であるにもかかわらず、一部のコーナーがカットされている。これにより、異なる基本的な考え方に基づいた異なる符号化技術が生まれた。最終的に決定されないということは、すべての画像処理システムがその違いを考慮する必要があり、(5年前のSDRビデオ時代の唯一の測色の単純さと比較して確実に)かなり複雑になる可能性がある。 Over the last 2-5 years, several companies have proposed different aspects of encoding HDR video (ie, moving images or, in other words, sets of temporally continuous images). Due to the rapid move to the first product scheduled for 2016, some corners have been cut despite the complexity of coding and processing HDR images. This gave rise to different coding techniques based on different basic ideas. The fact that it is not ultimately determined is quite complicated (certainly compared to the only colorimetric simplicity of the SDR video era five years ago), as all image processing systems have to take that difference into account. there is a possibility.
Dolby Laboratories Inc.は、安価なチップを入れるためにいくらか高価な2層システム(すなわちビデオ圧縮におけるスケーラビリティコンセプトに沿って1枚のHDR画像を作成するために基本画像と補正画像が必要である)を開始したが、単層符号化も設計し、SMPTE ST.2084として最近標準化された、いわゆる知覚量子化器PQである基本的なEOTFを提供している。この技術は、https://www.smpte.org/sites/default/files/2014−05−06−EOTF−Miller−1−2−handout.pdfでうまく説明されている。 Dolby Laboratories Inc. Started a somewhat expensive two-layer system to accommodate cheap chips (ie, a basic image and a corrected image are needed to create a single HDR image in line with the scalability concept in video compression), Single-layer coding was also designed, and SMPTE ST. It provides a basic EOTF, the so-called perceptual quantizer PQ, recently standardized as the 2084. This technique is available at https: // www. smpte. org / systems / default / files / 2014-05-06-EOTF-Miller-1--2-handout. Well explained in pdf.
その背後にある考え方は、シーン輝度をルマコードにカメラ変換するために従来使用されていた古典的な平方根(又は正確にはRec.709)光電子変換又は変換関数OETF(平方電力EOTFの逆数)は、どれくらいのビットを使用しても(又は、20ストップ以上のシーンの主等級分けのように実際の生活で発生する可能性がある高ダイナミックレンジの場合、少なくとも14ビット以下のような実用的な数字に対しては)HDR画像で発生する可能性のある異なる領域間の高コントラスト比には適していない。しかしながら、それは良いインスピレーションであった。もともとはCRT電子銃の偶発的な物理的挙動のために設計されていたが、平方根関数は人間の視覚がシーンの輝度を視覚明度コードに変換する態様に密接に従っているので、コードを最大限に活用するには良い態様であった(次のコードが次の心理視覚明度の印象に対応するので、あまりにも多くのコードがとにかく容易に認識できないほど無駄にならず、さらに悪いことに、滑らかで正確な輝度勾配を正確に符号化するコードがあまりにも少ない領域は存在しない)。今度は、連続する輝度間隔(例えば、1ストップ明るく)ごとに、ドルビーでは通常10,000ニットであるコード化可能な最大明度までルマコードの量をほぼ等しくするこの曲線を一般化することができる(これは、あまりにも明るすぎると不満を言っている人がいるので、実用的なディスプレイレンダリングには実際に十分なはずであり、実験であるが大きな領域であっても20,000ニットを超える点滅領域でさえも印象的な画像を作ることができ、もちろんすべては様々な画像オブジェクトの輝度を可能な範囲に沿ってどのように割り当てるかに依存し、常に画像の種類ごとに最大PBまで満たす必要はないことが分かっており、危険であるかもしれない痛いほど明るい画像について不満を言う人は、夜の満月も5000ニットであり、月を見つめて盲目になった人はいないことを認識しなければならない)。 The idea behind it is that the classical square root (or Rec. 709 to be exact) optoelectronic conversion or conversion function OETF (inverse to square power EOTF), which was conventionally used to convert scene brightness to Lumacode, Practical numbers such as at least 14 bits or less for high dynamic range that can occur in real life, no matter how many bits are used (or for main grading of scenes with 20 stops or more). Not suitable for high contrast ratios between different regions that can occur in HDR images. However, it was a good inspiration. Originally designed for the accidental physical behavior of CRT electron guns, the square root function maximizes the code because it closely follows the way human vision translates scene brightness into visual brightness code. It was a good way to take advantage (the next code corresponds to the impression of the next psycho-visual brightness, so too much code isn't wasted so much that it's just not easily recognizable anyway, and worse, it's smooth. There is no region where there are too few codes to accurately encode the exact luminance gradient). This curve can now be generalized for each successive luminance interval (eg, one stop brighter) to approximately equalize the amount of Lumacode to the maximum codeable brightness, which is usually 10,000 knits in Dolby (for example, one stop brighter). This should actually be enough for practical display rendering, as some people complain that it's too bright, and it's experimental but flashes over 20,000 knits even in large areas. Even regions can produce impressive images, of course all depend on how the brightness of various image objects is allocated along the possible range and always need to meet up to PB for each image type. Those who complain about painfully bright images that may be dangerous, knowing that there isn't, should be aware that the full moon at night is also 5000 knits and no one is blinded by staring at the moon. Must).
そこで、ドルビーは基準EOTFを標準化し、画像内のすべてのオブジェクト/ピクセルに対してルマを定義するためにその逆数をOETFとして(又は、さらなる動作を望む場合にはほぼ逆数)使用することができ、通常のHEVC符号化技術を適用した後、それらのコード(YCbCrとして古典的に符号化された色であるが、RGB符号化も使用できる)を例えばBlu−ray(登録商標)ディスクに記録することができる。次に、BDでマスタHDR等級分けがあり、それはアーティストが望むように、例えばそれを復号化することができる5000ニットのTVによってレンダリングされる。そのため、コンシューマの敷地においてあるシーンのHDR画像(のみ)をコンシューマディスプレイに表示するためにエンドツーエンド、1対1を提供するメカニズムがある。もちろん、BDを介してと以下で言う場合、提示された概念が大きな適用性を有するので、例えば衛星放送、インターネットビデオ配信などのようなすべての他の画像又はビデオ通信メカニズムも意味することが当業者には理解されるであろう。この2084EOTFは、HDR10符号化のためのルマ−輝度マッピング関数としても選ばれている。 So Dolby can standardize the reference EOTF and use its inverse as OETF (or nearly inverse if more behavior is desired) to define Luma for every object / pixel in the image. , After applying conventional HEVC coding techniques, record those codes (classically encoded colors as YCbCr, but RGB encoding can also be used) on, for example, Blu-ray® discs. be able to. Then there is a master HDR grading on the BD, which is rendered by a 5000 knit TV that can decode it, for example, as the artist desires. Therefore, there is a mechanism that provides end-to-end, one-to-one to display an HDR image (only) of a scene on a consumer's premises on a consumer display. Of course, when we say via BD below, it is true that all other image or video communication mechanisms, such as satellite broadcasting, internet video distribution, etc., are also meant, as the concepts presented have great applicability. The vendor will understand. The 2084EOTF has also been selected as the Luma-luminance mapping function for HDR10 coding.
英国放送局BBCは、HDRビデオ符号化の異なる態様を設計している。(基準ディスプレイのEOTFを標準化するディスプレイ側ではなくカメラ視野から開始したため)それらは幾分異なる形状を有する標準化されたOETFを備える。彼らの見解と技術はhttp://downloads.bbc.co.uk/rd/pubs/whp/whp−pdf−files/WHP283.pdfにおいてうまく説明されている。 The British Broadcasting Corporation BBC is designing different aspects of HDR video coding. They have standardized OETFs with somewhat different shapes (because they started from the camera field of view rather than the display side which standardizes the EOTF of the reference display). Their views and techniques are http: // downloads. bbc. co. uk / rd / pubs / www / www-pdf-files / WHP283. Well explained in pdf.
それらは、古典的な100ニットのRec.709OETFの中間グレー(Y’=0,5)まで古典的な平方根Rec.709OETF関数形状に厳密に従うOETFを定義し、白いオブジェクトの色のシーンより明るい色を利用可能なコードに絞ることができるように輝度が高い場合は対数になる。それは、HDR性がやや多すぎるシーンについて良いLDR出力画像を作成する必要がある場合にカメラが長い間既にやってきたことに触発された。つまり、約200:1のピクセル輝度コントラスト比率の代わりに、例えば明るすぎるいくつかの領域を有し、Y’=255にマッピングすべきシーンの白よりも4倍明るい明度に絞り込もうとしたため、輝度Y=100ニットにレンダリングされた。シーンの白いオブジェクトは灰色っぽくレンダリングされるが、脳は全体の画像内の明るいピクセル領域を見て解釈するので、時には精神視覚的に受け入れられる。(例えば虹彩を変えることによって)単にカメラの露出を下げることによってそのような明るいシーン輝度を常にディスプレイPBにマッピングすることができるが、ニュースリーダの顔が暗すぎる場合がある。カメラが行ったのは例えばY’=80%又は他の何らかのニーポイントまで曲線に従ったことであり、そこから傾斜が小さい曲線を使用するので、残りの20%のコードにおいて非常に多くの高いシーン輝度を表すことができる。すなわち、暗いピクセルの輝度を多少低くするカメラの特定のログ曲線を使用することができる(視聴者は、比較的暗い(おそらく影の)領域に人が立っており、いずれにしても明るいディスプレイ上で明度を適切に調整することができると理解するので、おそらく高コントラストのシーンでは必ずしも問題にならないように少し顔を暗くする)が、実際に明るいピクセルの色についてのいくつかのコードを自由にすると、通常は例えばソフトクリッピングされて少し粗く表現される。このようにして、最終的には十分に明るくレンダリングする必要のある色と、明るい色のためにはまだ妥当な視覚的品質との間にバランスがとられる。しかし問題は、撮影された相対的シーン輝度を各カメラが異なる態様で(もちろん本質的には絶対的な)ルマコードに対数的にマッピングしたことであり、これはカメラが依然として非常に優れたLDRカメラのみである場合にはまだ合理的であったが、おそらく20ストップの複雑なHDRシーンを撮影することになっている本当に良いHDRカメラであるカメラにとってはより問題が多い。だからBBCはすべての実用的な目的のために固定された曲線を定義したかった。それでも、その固定されたOETF曲線を輝度マッピング曲線としてマスタHDRの等級分けされた画像に入力として適用することにより、ある程度合理的なSDRバージョンが得られ、この画像をブロードキャストすると、従来のディスプレイはSDR画像を直接レンダリングすることができ、HDRディスプレイは固定逆曲線を適用してマスタHDR画像を再構成することができる。BBC方式の利点は、従来のようにすべてが機能するため、技術の変更がほとんどないことである(しかし、これは過度に欺瞞的であり、作成中又は少なくともいくつかのビデオの合成中に支払うべき価格が付いてくる)。 They are the classic 100 knit Rec. Classic square root Rec. Up to mid-gray (Y'= 0.5) of 709 OETF. 709 OETF Function Defines an OETF that strictly follows the shape and is logarithmic if the brightness is high so that brighter colors than the white object color scene can be narrowed down to available codes. It was inspired by the fact that cameras have been around for a long time when it was necessary to create good LDR output images for scenes with a little too much HDR. That is, instead of a pixel luminance contrast ratio of about 200: 1, we tried to narrow down to a brightness that is four times brighter than the white of the scene that should be mapped to Y'= 255, for example, because it has some areas that are too bright. Rendered to brightness Y = 100 knits. White objects in the scene are rendered grayish, but are sometimes psychovisually acceptable because the brain sees and interprets the bright pixel areas in the entire image. Such bright scene brightness can always be mapped to the display PB by simply reducing the camera exposure (eg by changing the iris), but the newsreader's face may be too dark. What the camera did was to follow the curve to, for example, Y'= 80% or some other knee point, from which it uses a curve with a small slope, so there are so many highs in the remaining 20% of the code. It can represent the scene brightness. That is, you can use a specific log curve of the camera that slightly reduces the brightness of dark pixels (the viewer is standing in a relatively dark (probably shadowy) area, and on a bright display anyway I understand that I can adjust the brightness properly with, so I'll probably darken my face a bit so that it doesn't necessarily matter in high contrast scenes), but I'm free to do some code about the colors of the actually bright pixels. Then, for example, it is soft clipped and expressed a little coarsely. In this way, there is a balance between the colors that ultimately need to be rendered bright enough and the visual quality that is still reasonable for the bright colors. The problem, however, is that each camera logarithmically mapped the captured relative scene brightness to the Lumacode in a different way (of course, essentially absolute), which is still a very good LDR camera. It was still reasonable if it was only, but it is more problematic for a camera that is a really good HDR camera that is supposed to shoot complex HDR scenes with 20 stops. So the BBC wanted to define a fixed curve for all practical purposes. Nevertheless, by applying the fixed OETF curve as a brightness mapping curve to the graded image of the master HDR as input, a somewhat reasonable SDR version is obtained, and when this image is broadcast, the conventional display will SDR. The image can be rendered directly and the HDR display can apply a fixed inverse curve to reconstruct the master HDR image. The advantage of the BBC method is that there are few technical changes as everything works as before (but this is overly deceptive and pays during production or at least some video compositing). Comes with a price to pay).
それらは様々な異なる出発点を有し、例えばドルビーはプロフェッショナル映画市場により焦点を当てているかもしれず、BBCはショーのフィールド作成、テレビ機器の配備などの実用的なテレビの要件により焦点を当てているかもしれない。しかしながら、この特許出願にとって興味深い大きな違いは、BBCは、ピクセル輝度(又は実際の色)を相対的に表現すべきだと考えたが、ドルビーはそれらを絶対的に表現すべきであると考えたことである。これは、最適なレンダリングを行うために交差させる必要があるギャップのシーン参照側に立つかディスプレイ参照側に立つかを決めるので、考え方の大きな違いである。それは合成する必要がある2つの画像においてどの輝度が符号化されるかの大きな違いであるが、さらに進んで、それは、そのような代替哲学が、本質的なアプローチ及び特性の観点から、その合成が起こる必要があることをどのように規定するかに影響を及ぼす。 They have a variety of different starting points, for example Dolby may be more focused on the professional film market, and the BBC is more focused on practical television requirements such as show field creation, television equipment deployment, etc. There may be. However, an interesting big difference for this patent application was that the BBC thought that pixel brightness (or actual colors) should be represented relatively, while Dolby thought they should be represented absolutely. That is. This is a big difference in thinking, as it determines whether the gaps that need to be crossed for optimal rendering stand on the scene reference side or the display reference side. It is a big difference in which brightness is encoded in the two images that need to be combined, but going further, it is that such alternative philosophies combine in terms of the essential approach and characteristics. Affects how to define what needs to happen.
そこでBBCは、相対的にマスタ等級分けされた(又は少なくとも露出及びおそらくガンマ曲線を選択するなどの外観の決定もしてカメラで撮影された)HDR輝度及びルマを定義した基本的なOETFを定義することによって問題にアプローチし、ディスプレイにレンダリングされる適切な輝度は、ディスプレイPB_Dと視聴環境の明度の両方に依存するシステムガンマを適用することによって計算されるべきである。これは、ディスプレイメーカーがシーンの白色レベルの12倍までの輝度を含むが実際のシーンのコンテンツ及びカメラの虹彩設定に依存しないBBC符号化されたコンテンツを取得した場合、2つのうちのいずれかを行うことができることを意味する。彼はBBCの相対哲学を用いることができ、ディスプレイPB_Dが何であっても、常にPB_CのコードをディスプレイPB_Dにマッピングすることができる(実際にはどのPB_Dを有しているかに応じてガンマ明るさ及びコントラスト修正関数を適用するが、少なくとも白は白にレンダリングされ、これは、そのような過度に明るい領域は存在しないが霧のあるシーンのような比較的暗いピクセル色のみが存在する場合には、このような暗く符号化された色もPB_Dよりも暗くレンダリングされるという容易な較正態様が確立されるという少なくとも1つの利点を有するが、一方でシーンの最も明るい部分は、可変のPB_D輝度でレンダリングされる。これは画像データを合成するのに適しているように見えまるが、本当にそうであろうか?)。すなわち、彼はこの符号化された画像輝度データが例えば1000ニットの正確な絶対輝度PB_D値又はその周辺に対して適しており、テレビが例えば(ブラインド全領域マッピングによって)500ニットPB_Dのみを有している場合、自身の内部格下げを行うと主張することができる。しかしながらドルビーは、少なくとも高品質の5000ニットSim2又はパルサーディスプレイを持っていれば、輝度をレンダリングすべき絶対条件を指定すべきであり、マスタEOTF0−10000ニットの輝度参照範囲に沿って必要なオブジェクト輝度を定義できる限りこの画像が芸術的にどのように生成されたかは重要ではないと考えた。したがって、例えばホラー映画の中に暗い顔がある場合、絶対的な方法では、この画像は、例えば15ニットでレンダリングすべきであり、低ダイナミックレンジディスプレイと高ダイナミックレンジディスプレイの両方でレンダリングすることができると通常は言われる。しかしながら、相対的な方法では、たとえ100ニットの15%もまた5000ニットの15%を意味するということにまではならないとしても、ガンマ関数に依存するディスプレイPBはそれをいくらか修正するので、この顔の明度は調整されるが、顔が最終的にディスプレイにレンダリングされる輝度はそれほど正確には決定されない。これは、レンダリング側で多大な変更が発生する場合、アーティストが何を好きなのか考えさせることになり、より正確な絶対レンダリングには利点がある(ディスプレイのフルダイナミックレンジを使用する場合、もちろん視聴者の感度はそれに対応して適応するが、コンテンツが例えば900ニットまで、少なくとも例えば99%の画像ピクセルまでのレンダリングを必要とする場合、典型的にはHDRディスプレイのサブレンジを使用する)。実際に存在するPB_Dが符号化のPB_Cよりも低い、すなわち画像を最適にするためにレンダリングされる必要がある輝度である場合、まだいくつかのダウン等級分け戦略が必要であるので、絶対輝度符号化も完全な答えを持たず、特定のHDRシーン又はシーンタイプの再等級分けニーズの出現に対してあまりにも盲目的ではないほうがよい。読者は、このような異なる哲学が、EOTFを決定する異なるコードを導くだけでなく、画像の異なる処理、すなわちオブジェクトピクセルの輝度を曲線又は対応する基準輝度範囲に沿って様々な領域にどのように割り当てるかも導くと考えることができる。そして、特定のPB_Cを持つ入力画像の一部を低いPB_Dのディスプレイにマッピングするという比較的簡単な問題がある場合にもしそれが既に困難な議論につながるのであれば、意思でいくらか設計可能であると考えることができ(例えば、r曲線と呼ぶものを使う場合、明るさを幾分増強した形状であるためより明るい輝度に対して傾斜がますます小さくなり、すなわち円又は楕円の最初の4分の1のようにSDR輝度レンジの小さなサブレンジ内にそれらを効果的に圧縮する)、最も暗い色をさらに少し増強するためにHDRからSDRへの輝度マッピング曲線の暗い色のための増強部分を伸ばすことができるので、入力輝度レンジ又は曲線の一部の例えば誰かのコートの典型的なオブジェクトの明度を増加させ、読者は、異なる画像、異なるダイナミックレンジ、通常は異なる照明、及び潜在的に異なる符号化が行われたオブジェクトの明度を調和させることを望む場合、物事がより複雑になることを想像することができる。 So the BBC defines a basic OETF that defines HDR brightness and Luma that are relatively master graded (or at least taken with a camera with appearance determinations such as selecting exposure and possibly gamma curves). By approaching the problem, the appropriate brightness rendered on the display should be calculated by applying system gamma, which depends on both the display PB_D and the brightness of the viewing environment. This means that if the display maker gets BBC-encoded content that contains up to 12 times the white level of the scene but does not depend on the actual scene content and the camera's iris settings, then either of the two Means you can do it. He can use the relative philosophy of BBC and can always map the code of PB_C to display PB_D no matter what the display PB_D is (gamma brightness depending on which PB_D actually has). And apply the contrast correction function, but at least white is rendered to white, which means that there are no such overly bright areas but only relatively dark pixel colors such as foggy scenes. , Such darkly encoded colors also have at least one advantage of establishing an easy calibration mode in which they are rendered darker than PB_D, while the brightest part of the scene is with variable PB_D brightness. Rendered. This looks good for compositing image data, but is it really?). That is, he finds that this encoded image brightness data is suitable for, for example, an accurate absolute brightness PB_D value of 1000 knits or its periphery, and the television has only 500 knits PB_D, for example (by blind full area mapping). If so, you can claim to downgrade yourself. However, Dolby should specify the absolute conditions under which the brightness should be rendered, at least if he has a high quality 5000 knit Sim2 or pulsar display, and the required object brightness along the brightness reference range of the master EOTF 0-10000 knit. I thought it was not important how this image was generated artistically as far as I could define. So, for example, if you have a dark face in a horror movie, in absolute terms this image should be rendered, for example in 15 knits, and can be rendered on both low and high dynamic range displays. It is usually said that it can be done. However, in a relative way, even if 15% of 100 knits does not mean 15% of 5000 knits, this face because the display PB, which relies on the gamma function, modifies it somewhat. The brightness of is adjusted, but the brightness at which the face is finally rendered on the display is not determined very accurately. This makes the artist think about what they like when significant changes occur on the rendering side, which is beneficial for more accurate absolute rendering (when using the full dynamic range of the display, of course, viewing). The sensitivity of the person adapts accordingly, but typically uses a subrange of an HDR display if the content requires rendering, for example up to 900 knits, at least up to 99% of the image pixels). If the actual PB_D is lower than the encoded PB_C, i.e. the brightness that needs to be rendered to optimize the image, then some downgrading strategy is still needed, so the absolute brightness code. Rendering also does not have a complete answer and should not be too blind to the emergence of reclassification needs for a particular HDR scene or scene type. The reader can see how these different philosophies not only lead to different codes that determine EOTF, but also different processing of the image, i.e., the brightness of the object pixels in different regions along the curve or the corresponding reference brightness range. It can be thought that the allocation will also lead. And if you have the relatively simple problem of mapping a portion of the input image with a particular PB_C to a lower PB_D display, and if that already leads to a difficult discussion, you can design some at will. (For example, when using what is called an r-curve, the shape has a slightly increased brightness, so the slope becomes smaller and smaller for brighter brightness, that is, the first quarter of a circle or ellipse. Effectively compress them into smaller subranges of the SDR brightness range, such as 1), stretch the enhancements for dark colors in the HDR to SDR brightness mapping curve to further enhance the darkest colors. Because it can increase the brightness of a typical object in the input luminance range or part of the curve, eg someone's coat, the reader can see different images, different dynamic ranges, usually different lighting, and potentially different codes. You can imagine things getting more complicated if you want to reconcile the brightness of the object that has been transformed.
ドルビーのような出願人もまた、我々が0−5000ニットと定義したマスタEOTFを定義することが最善であると考える。1つの理由は、明るいアフリカのシーンで撮影された画像は、基本的にノルウェーの秋とは絶対的に異なることであり、すべての種類の数学的な(少なくとも輝度に影響を及ぼす)色変換を適用して最終的に適切な明度の外観を得ることはできるが、なぜ基準輝度レンジのルマ値及び対応する絶対輝度におけるこの違いを既に符号化していないのだろうか?(それらのルマを心理視覚明るさと相関するように設計することが有利であり、HDR10もBBCも有していない異なるダイナミックレンジの画像に対応するマスタ開始HDR画像から等級分けを行う場合に、適切な追加の曲線形状において芸術的な要求を容易に符号化することができる。)しかしながら、最も重要なのは、(それが異なるPBのディスプレイで起こったとしても)最終的にピクセル色の最終レンダリングのみがあり、少なくとも関連する(ピーク明度だけでなくEOTFとしてのグレースケールの振る舞いによって定義される)基準ディスプレイがなければ、画像は単なる(望ましくは正しくデコードできる)数字のセットでありそれ以上のものではない。それは、HDR画像の最後の経験に関するものであり、その時点までにどのように設計されたかについてではなく、グレーダが基準ディスプレイで見るものでもある。明示的に定義された開始画像を作成側で作成するのは可能なはずである。したがって、これを固定する基準EOTFを標準化することから始めなければならず(そうでなければ、例えば色等級分けに使用されるコンピュータ内のデジタルルマ番号は未定義となる)、そして、その上にさらなるシステムを構築することができる(ある種の相対性をシステムに戻すことを望んだとしても、少なくともそれは次に相対的に制御可能であり、いくつかの共通の好ましい基準輝度測定システムに基づいて決定される)。 Applicants like Dolby also consider it best to define a master EOTF that we have defined as 0-5000 knits. One reason is that images taken in bright African scenes are basically absolutely different from Norwegian autumn, with all sorts of mathematical (at least affecting brightness) color conversions. You can apply it to finally get the look of the right brightness, but why haven't you already encoded this difference in the Luma value of the reference brightness range and the corresponding absolute brightness? (It is advantageous to design those lumas to correlate with psychovisual brightness, which is appropriate when grading from master-initiated HDR images corresponding to images with different dynamic ranges that have neither HDR10 nor BBC. Artistic demands can be easily encoded in additional curved shapes.) However, most importantly, only the final rendering of the final pixel color (even if it happens on a different PB display) Yes, and at least without the relevant reference display (defined by grayscale behavior as an EOTF as well as peak brightness), the image is just a set of numbers (preferably correctly decoded) and nothing more. .. It's about the last experience of HDR images, not about how they were designed up to that point, but what the grader sees on the reference display. It should be possible for the creator to create an explicitly defined start image. Therefore, we must start by standardizing the reference EOTF that fixes this (otherwise, for example, the digital Luma number in the computer used for color grading is undefined), and on top of that. Further systems can be built (even if one wishes to return some relativity to the system, at least it is then relatively controllable, based on some common preferred reference brightness measurement systems. It is determined).
ここで、何らかの新しいことが必要な基本的なHDRの実態のバックグラウンドを上に要約したところで、作成者が何らかの理由で1つ又は他の方法で符号化しなければならないと決定した異なる画像を利用できるように、より実用的な状況に移行する。 Now that we have summarized the background of the basic HDR reality that needs something new above, we use a different image that the author has decided for some reason that it must be encoded in one or another way. Move to a more practical situation so that you can.
ドルビーEOTF対BBC EOTF(本出願人はドルビーPQと非常によく似たEOTFを設計した、又はドルビーPQを使用できる)の動作の違いは、図1で見ることができる。OETF113は、PQ EOTFである(10000ニットまでグラフを示すと他の2つの曲線が不明瞭に小さくなるため、1000ニットまでの部分しか示していない)。BBC OETF112は相対的な曲線であるため、符号化すべき絶対輝度について議論することができるが、それは通常は500ニットまでである(又はおそらく1000ニットまでであるがエラーを示し始めてあまり適切ではなくなる場合がある)。Rec.709曲線は最大100ニットまでの絶対輝度を符号化することだけができ、様々な理由で遠い未来にはまだ多くのSDRコンテンツが存在する可能性があることを覚えておく必要がある(例えばHDRバージョンに簡単に変換できないなど)。ビット深度の議論を避けたいのでY軸上には相対ルマを示しており、これはこの出願にはあまり関係ない(すべての符号化が3つの色チャネルに対して10ビットを使用するので、最大ルマ1023は、1023/1023=1.0になると仮定する)。0.5(すなわち512、又は8ビットでは128)の入力ルマを得る場合、使用される符号化方法に応じて、対応する輝度としての何かを意味することが明らかである(0.7前後のどこかで10倍異なる可能性があるので、ピクセルルマ置き換えスイッチを単純に行うと突然非常に暗い又は非常に明るい置き換えられたピクセルを生成する可能性がある)。図1Bでは、相対的な0−1.0の入力輝度にも曲線を定義すると、曲線がどのように異なるかを示している。符号化された画像のルマで始まる場合、レンダリングされる輝度は逆曲線から計算することができることは明らかである。 Differences in behavior between Dolby EOTF vs. BBC EOTF (applicants have designed an EOTF very similar to Dolby PQ or can use Dolby PQ) can be seen in FIG. OETF113 is a PQ EOTF (only the portion up to 1000 knits is shown because the other two curves are obscured when the graph is shown up to 10000 knits). Since the BBC OETF112 is a relative curve, it is possible to discuss the absolute brightness to be encoded, but it is usually up to 500 nits (or perhaps up to 1000 nits, but if it starts to show errors and becomes less appropriate. There is). Rec. It should be remembered that the 709 curve can only encode absolute brightness up to 100 knits and for various reasons there may still be a lot of SDR content in the distant future (eg HDR). Not easily converted to version, etc.). Since we want to avoid the discussion of bit depth, we show a relative luma on the Y axis, which is not very relevant to this application (maximum because all coding uses 10 bits for 3 color channels). Luma 1023 is assumed to be 1023/1023 = 1.0). When obtaining an input Luma of 0.5 (ie 512, or 128 for 8 bits), it is clear that it means something as a corresponding brightness, depending on the coding method used (around 0.7). A simple pixel Luma replacement switch can suddenly produce very dark or very bright replaced pixels, as it can be 10 times different somewhere). FIG. 1B shows how the curves differ when a curve is also defined for the relative 0-1.0 input luminance. If it starts with the Luma of the encoded image, it is clear that the rendered brightness can be calculated from the inverse curve.
様々な符号化品質、チップ再設計コストなどの後の色エラーのような実用的な問題をすべて無視すると、単一のHDR画像セットのみを伝達する必要がある場合、3つの符号化メカニズムがうまく動作すると言え、研究、開発、標準化の第1の段階で焦点を当てた部分である。 Ignoring all practical issues like color errors after various coding qualities, chip redesign costs, etc., three coding mechanisms work well when only a single HDR image set needs to be transmitted. Although it works, it is the part focused on in the first phase of research, development and standardization.
しかしながら、実用的なHDR処理システムにはもっと多くのものが必要であり、そうでなければ、ユーザにはシステム設計者として果たすことができないこまごました事項及び疑問が残される。 However, a practical HDR processing system needs more, or the user is left with a lot of quirks and questions that he cannot fulfill as a system designer.
出願人は、現場での典型的な単一種類のディスプレイ(5000ニットPBのディスプレイを有する必要がある人、又はおそらく1000ニットPBのテレビのみを買うことができる100ニットのレガシーTVを持っていない人)について、単一の標準HDRビデオの通信(符号化)及び使用(最終的には適切なレンダリング)だけを処理することができない符号化システムを設計したが、そのシステムは、特定のディスプレイごとに最適な(再)等級分け画像を計算することができることによって、現場で様々なPB_Dを有する様々な考えられるディスプレイタイプを処理することができ、その技術を出願人は同調性又はディスプレイチューニングと呼ぶ。主な特徴、及び特に復号器251は、(この出願に必要な限り)図2に要約されている。
Applicants do not have a typical single type display in the field (those who need to have a 5000 knit PB display, or perhaps a 100 knit legacy TV that can only buy a 1000 knit PB TV) For people), we designed an encoding system that could not handle only the communication (encoding) and use (eventually proper rendering) of a single standard HDR video, but the system was per specific display. By being able to calculate the optimal (re) graded image for, it is possible to process various possible display types with different PB_D in the field, the technique referred to by the applicant as synchronism or display tuning. .. The main features, and in particular the
出願人は、視聴環境に依存する最終的な外観の最適化は、BBCが提案する最終的なガンマではなく、(受信機、例えばテレビ又はBDプレーヤの内部によって計算されるが)、テレビ(すなわち、その設計者)によって単独で決定されるのではなく、実際のディスプレイピーク明度及び視聴周囲明度のような受信側の要因に基づくのみで決定されるのではなく、画像が複雑であるため画像コンテンツ自体にも依存するメカニズムによって、ディスプレイ側で行うことができるというアプローチをとり、レンダリング側の特性に対する最適化もそうである。これは、コンテンツの作成とコンテンツの使用との間の古くて困難なギャップをクロスする。受信側は、実際に利用可能な表示能力を実際に知っている唯一の側であるが、作成側は、芸術的な要求のようなコンテンツについて間違いなく知っている唯一の側である。受信側で色の見た目を最適化するためにテレビの代わりに映画ディレクタやDOPを売ることができない場合、少なくとも作成者に少なくとも大まかには意図をパラメータ的に指定させることができ、画像作成者は「私がこのPB_Dのディスプレイを持っている場合、私は少なくともこのように様々なピクセル輝度をレンダリングすることを好む」ということを数学的に指定することができる。 Applicants say that the final appearance optimization, which depends on the viewing environment, is not the final gamma proposed by the BBC, but rather the television (though calculated by the interior of the receiver, eg, television or BD player), television (ie, the BD player). Image content due to the complexity of the image, not determined solely by the designer), but solely on the basis of receiving factors such as actual display peak brightness and viewing ambient brightness. It takes the approach that it can be done on the display side by a mechanism that depends on itself, and so is the optimization for the characteristics on the rendering side. This crosses the old and difficult gap between content creation and content use. The receiver is the only one who actually knows the display capabilities that are actually available, while the creator is definitely the only one who knows about the content, such as artistic demands. If the receiver cannot sell a movie director or DOP instead of a TV to optimize the color appearance, then at least the creator can be at least roughly parameterized with the intent, and the image creator It can be mathematically specified that "if I have this PB_D display, I at least prefer to render various pixel brightness in this way".
出願人の技術者は、画像コンテンツに依存する部分は、アーティストの色グレーダが、(ディスプレイのピーク明度の)考えられるレンジの2つの端部において異なるダイナミックレンジ又は実際にはPB_Cに対応する(単なる)2つの外観のために少なくともオブジェクトピクセル輝度を変更する最適な色変換に従って指定できるようにすることによって処理することができることを主張する(ただし自動画像解析関数も使用することができ、すなわち現在の画像の確立された輝度特性に基づいて輝度マッピング関数を決定することもできる)。したがって、HDR外観画像は、出願人が5000ニットを選択したやや高いPB_Cに対応すべきであり(出願人は別のPB_Cも差し支えなく使用することができるが)、低DR画像はレガシーSDRディスプレイを使用している人の当初の既存市場の例えば90%を満足するので100ニットSDR等級分けであってもよい。特定のシーンでは、色グレーダは、「私が100ニットPBしか持っていなければ、レンダリングされた画像においてランプオブジェクトをきれいに明るく表示するために4000ニットでレンダリングされた画像にランプを置くが、これは、95−100ニットにおいて室内の低い輝度すなわち例えば10から90ニットの間のオブジェクトを十分に明るくレンダリングするために表示輝度レンジに十分な輝度空間があることを最初に望む場合には今は不可能であるから、おそらくすべてのランプのピクセルを正確に100ニットにする」と言うことができる。例えば、5000ニットと100ニットの両方のディスプレイレンダリングに対して夜景を適切に暗くして街灯を十分に明るくするために同じことを行うことができる。読者は、(特にICの複雑さのようなさらなる制約を伴う)HDRとSDRの両方で夜間に適切に見える、すなわち(例えば、明るくない影の場所に座っている黒人)オブジェクトの正しい輝度の夜間等級分けは些細なことではないことを熟考するために少し立ち止まるべきであるが、(もちろんディスプレイが仕様にほぼ準拠していて、全く別のイメージをそれ自身によって作成していない場合には)少なくとも完璧主義ではない場合は合理的に行うことができる。 The applicant's technician said that the part that depends on the image content is that the artist's color grader corresponds to different dynamic ranges (simply PB_C) at the two ends of the possible range (of the peak brightness of the display). ) Claim that it can be processed by allowing it to be specified according to the optimal color transformation that changes at least the object pixel brightness for the two appearances (although automatic image analysis functions can also be used, i.e. the current The brightness mapping function can also be determined based on the established brightness characteristics of the image). Therefore, the HDR appearance image should correspond to the slightly higher PB_C that the applicant chose 5000 nits (although the applicant can use another PB_C without hesitation), and the low DR image is a legacy SDR display. It may be 100 knit SDR grading as it satisfies, for example, 90% of the original existing market of the user. In certain scenes, the color grader says, "If I only have 100 knit PB, I would put the lamp on the image rendered with 4000 nits to make the lamp object look nice and bright in the rendered image. Now not possible if you first want to have enough brightness space in the display brightness range to render low brightness in the room at 95-100 nits, i.e. objects between 10 and 90 nits, for example. So maybe every lamp pixel is exactly 100 knits. " For example, the same can be done to properly darken the night view and brighten the streetlights sufficiently for both 5000 and 100 knit display renderings. The reader looks good at night in both HDR and SDR (especially with additional constraints such as IC complexity), i.e. the correct brightness of the object (eg, black sitting in a dark shadowed area) at night. Grading should be stopped a bit to ponder that it's not trivial, but at least (unless, of course, the display is mostly spec-compliant and you haven't created a completely different image by yourself). If it is not perfectionism, it can be done reasonably.
1つは画像をレンダリングするための高品質HDRディスプレイを有する状況のためであり、もう1つは従来の100ニットSDRディスプレイのためであるこれらの2つの等級分けされた画像(M_HDR及びM_LDR、その輝度分布の外観は典型的には人間によって決定される)を得て、出願人は、2つのフルセットの画像を符号化して通信すること、すなわち2つのチャネルなどを必要とするデュアル符号化の必要性を避けたかった。また、出願人は、2つの異なるDR等級分けされた画像を、既存のMPEGタイプのDCTベースの符号化で符号化できるようにもしたかったので、実際に通信される画像のセット(例えば、必ずしもそうではないが、画像のSDRシーケンス)から画像を計算するのに使用するために、ビデオ画像の2つのシーケンスのうちの1つを色変換関数(F_L)でパラメータ的に定義することを決定した。したがって、例えばビデオ符号化器203によって符号化されたHEVC符号化ビデオ信号SのようなマスタHDR画像M_HDRを、いくつかのビデオ通信システム250を介して通信することができる(当業者は、本システムが、例えばプロのビデオ供給サービスからコンピュータである受信機への又はホームネットワーク又はプロの証券化ケーブルベースの通信システムにおいて接続されたコンシューマ装置間の航空放送のような多くのシステムで使用することができ、受信機は映画館のプロの装置、又はインターネットベースのシステムなどであることを理解する)。符号化器はまた、色変換関数F_Lを定義するすべてのパラメータを例えばSEIメッセージ又は同様のものであるメタデータとして追加する。又は、その逆に、受信側で例えばM_HDRのような高いダイナミックレンジの画像を再計算することを可能にする関数と共にマスタLDR等級分けM_LDRを送信することができる。
One is for situations with a high quality HDR display for rendering images, and the other is for conventional 100 knit SDR displays. These two graded images (M_HDR and M_LDR, their). The appearance of the luminance distribution is typically determined by humans), and the applicant can encode and communicate two full sets of images, i.e. dual-encoded, which requires two channels, etc. I wanted to avoid the need. The applicant also wanted to be able to encode two different DR graded images with existing MPEG type DCT-based encoding, so a set of images that are actually communicated (eg, not necessarily). Although not, it was decided to parameterize one of the two sequences of the video image with the color conversion function (F_L) for use in calculating the image from the SDR sequence of the image). .. Thus, a master HDR image M_HDR, such as, for example, the HEVC-encoded video signal S encoded by the
したがって、作成(又はトランスコーディング)側では、例えば、前もって作成されたマスタHDR画像M_HDR、典型的には5000ニットのPB_C(これは同じ色等級分け装置上で同時に行われてもよいし、別の態様で予め決定されてもよい)からマスタLDR外観画像M_LDRを得るために、要望通りに様々な色変換関数F_Lを決定して適用するように構成された色変換ユニット202を含むいくつかの色等級分け装置201がある。画像処理の一例として、読者はWO2014/056679を参照することができ、この出願の教示はそのようにすることができる国においてそれらの全体が本明細書に組み込まれる。変換の一例として、色度に影響を及ぼさないがピクセル輝度(以下に述べるすべての議論は理解を容易にするために輝度変換に焦点を当てる)にのみ影響を及ぼす関数を想像することができ、これは、高い輝度を幾分下方に曲げ、相対的な0−1.0HDR入力(x軸)の暗い色を関数のLDR出力プロットにブーストして、相対的に暗い100ニットディスプレイ(r形状曲線)で十分に明るく見えるようにする。しかしながら、LDR画像とHDR画像との2つの関連する最適な外観を作ることができる限り、いくつかのオブジェクトの輝度をカスタマイズ可能かつ潜在的に局所的にのみ微調整するより複雑な関数、及び、彩度のような色度面を変換することも可能である。
Thus, on the creation (or transcoding) side, for example, a pre-created master HDR image M_HDR, typically 5000 knits of PB_C, which may be done simultaneously on the same color classification device or another. Several colors, including a
ここで、この符号化技術で次にできることは、実際に接続されたピーク明度が例えばPB_D=1500ニットのディスプレイ280に対して正確に等級分けされた外観を有するM_MDR中間ダイナミックレンジ画像が必要なため、実際に5000ニットM_HDR画像を再計算する必要がない場合であり、本ディスプレイチューニングアルゴリズムを用いて、受信したM_HDR(又は他の実施形態/出願ではM_LDR)画像から正確に等級分けされたM_MDR画像を得ることができる。受信側は、通常の(例えば線形RGB又はYCbCr)画像M_HDRと、M_HDRをM_LDRに変更するために必要な色変換関数(F_L又はその逆形状のミラー関数)とを出力する古典的な例えばHEVC複合器260を含む。このすべての情報に基づいて、色処理ユニット270(この例示的な実施形態では、例えばSettopbox内のTVとは別個のもの、又はビデオオンデマンドプロバイダのサーバなどであると仮定するが、TVの内部にあってもよい)内の色チューニングユニット271は、受信した画像から必要なM_MDR画像を決定するために必要な最適関数F*_Lを決定するだけでなく、最終的にそれらの中間ダイナミックレンジ画像M_MDRを出力する。F_L SDRからHDRへの輝度変換関数に基づくSDRからMDRへの輝度変換のための適切なF*_L関数を得るためのディスプレイチューニングアルゴリズムは、例えば視聴環境の詳細を考慮するなど、どの実施形態の変形が望ましいかに応じて非常に複雑であり得るが、本出願を理解するために、これらすべての詳細は必要以上のものであるので、読者は、何らかの入力される符号化画像及びMDR画像から得るために適用する輝度関数F*_L、例えばガンマ関数があることに留意することができる。
Here, the next thing that can be done with this coding technique is that an M_MDR intermediate dynamic range image with an actually connected peak brightness that has an accurately graded appearance for, for example, a PB_D = 1500
このメカニズムでは、単一の考えられる種類のHDRディスプレイだけでなく(例えば誰もが1000ニットPB_Dディスプレイを購入する必要があり、誰も3000ニットPB_Dディスプレイを購入することができず、少なくとも測色制度に配慮していない場合にきれいに見える画像を得ることができない)、任意の考えられるディスプレイについて、最適なHDR画像レンダリングが可能になったが、この追加の技術的専門知識は、完全に柔軟なHDR処理エコシステムではまだ不十分である。これまでに要約された技術は、単一の撮影されたHDRシーンから単一のHDRセットのビデオ画像を取得して様々な消費サイトに正確に出力すること、及び利用可能な単一のテレビで適切にレンダリングする態様のみに焦点を当てている。これは新しいHDRビデオ技術の準備をするために難しい仕事であったので、さらなる側面が遅れて後で扱われた。 With this mechanism, not only a single conceivable type of HDR display (eg everyone needs to buy a 1000 knit PB_D display, no one can buy a 3000 knit PB_D display, at least a color measurement system Optimal HDR image rendering is now possible for any possible display, but this additional technical expertise is fully flexible HDR. The processing ecosystem is still inadequate. The technologies summarized so far have been to capture a single HDR set of video images from a single shot HDR scene and accurately output them to various consumer sites, and on a single television available. The focus is only on aspects that render properly. This was a difficult task to prepare for the new HDR video technology, so further aspects were delayed and dealt with later.
しかしながら今日ではビデオプログラミングはより複雑である。あらゆる種類の異なるサイトから供給を得たいし、(ヘリコプターからのライフニュースの供給、又はヘルメットに結びつけられたGoProでアクションを撮影するスポーツマンでさえ)簡単なポータブルデバイスで(消費者でさえ)ビデオコンテンツを作成するのが簡単になり、例えばインターネットのような通信手段を介して簡単にそれを通信することができる。実際には、少なくとも理論的には、消費者による大きな展開がテイクオフのために依然として必要であるため、テレビはインターネット接続を備えたコンピュータのようになり、ビジュアル情報として提示される様々なデータソースを使用又は共同供給させることが可能になっている。例えば、同じディスプレイの領域であるか又は隣接するディスプレイであるかどうかにかかわらず、ディスプレイレンダリングされた領域でビデオゲームをプレイすると同時に裏でニュースプログラムを見るなど、ビデオの様々な用途が期待されている。 However, video programming is more complicated today. Video (even consumers) on a simple portable device (even a sportsman who wants to get supply from different sites of all kinds and shoots action with a life news supply from a helicopter or a GoPro tied to a helmet) The content is easy to create and can be easily communicated via a means of communication such as the Internet. In fact, at least in theory, a big consumer deployment is still needed for takeoff, so the TV becomes like a computer with an internet connection and various data sources presented as visual information. It can be used or jointly supplied. Expected to have a variety of uses for video, such as playing a video game in a display-rendered area and watching a news program behind the scenes, for example, whether in the same display area or adjacent displays. There is.
この問題はLDR領域で始まったが、すべてのビデオが同じRec.709測色で定義されており、多かれ少なかれ同様に照らされ露出されていたので、そこまで難しくなかった。そして、例えばゲームのコンピュータグラフィックスでさえも同様に定義されていた。しかし、今日では、HDRビデオ又は画像は、提供したいものであるので何であってもよく、複数の画像(部分)投稿を処理して特に合成するための優れたフレームワーク戦略が生まれない場合、将来の混乱を予測することができる。上記の通り、以前はすべてのビデオが同じLDRフレームワークで定義されていた、すなわちすべての最大ルマコードが同じ100ニットレンダリング輝度に対応し、最大以下のルマに対応する輝度は単一の既存のRec.709EOTFの手段によって復号することができた。 This problem started in the LDR area, but all videos are the same Rec. It wasn't that difficult as it was defined in 709 colorimetry and was more or less similarly illuminated and exposed. And even computer graphics for games, for example, were defined as well. But today, HDR video or images can be anything you want to provide, and in the future if you don't have a good framework strategy for processing and synthesizing multiple image (partial) posts in particular. Can predict confusion. As mentioned above, previously all videos were defined in the same LDR framework, that is, all maximum Luma codes correspond to the same 100 knit rendering brightness, and the brightness corresponding to Luma below the maximum is a single existing Rec. .. It could be decoded by the means of 709 EOTF.
カメラはいくつかの「マイナーな」設定微調整を行う可能性があるため、(特に複雑な作成又は外部放送及び他のフィールド作成では)いくつかの関心事と注意深い処理の必要があった。重要なものは、典型的にはホワイトバランス(すなわち、ニュートラルな白色の色彩的な側面、すなわち、白色オブジェクトがあまりにも青みを帯びているか又は黄色がかっているか否か、それは異なるカメラフィード間で切り替えると目立つようになる)及び露出設定であった。カメラの1つの同じシーンの撮影の露出を低下させると、そのカメラは、暗すぎる画像を与えるとすぐに検出される。特に、目立つ同じショーのプロフェッショナルなマルチカメラ作成の場合、ニュース番組においてライブレポートへ移動すると、(特にそれが素人の携帯電話のビデオの場合)異なる撮影であるか又は少なくとも全く異なる見た目のシーンの撮影(時間的に挟まれているかピクチャインピクチャであるか否か)である(例えばよく照らされた米国のスタジオではなく、カイロの夜景など)ことを予想する。ここで、区別すべき2つの状況がある。もちろん、夜のシーンと砂漠の正午のシーンとを切り替える場合、視聴者は、例えば視聴者を驚かせない又は視聴者が目を細めない砂漠のシーンについてそれは合理的な違いであるが、平均的なシーンの明度又はシーン内のオブジェクトの輝度の違いを予測する。しかし一方で、カメラ露出とレンダリングディスプレイの最終的な明度との組み合わせを用いることによって、夜のように又は明るく見える任意のシーンを作ることができる。SDR時代には、それは、カメラマンが不都合な露出選択をしなければならない場合、奇妙な画像を導く場合があった。例えば奥行きがある部屋の窓から遠くに立っている人は、窓の近くのものよりもはるかに暗くなる。カメラマンは、暗い領域の人物のために露出して、その人物がうまくカラフルに見えるようにするために、画像の左側とそこにあるすべてのルームオブジェクトが完全に白にクリッピングされ、視聴者に不快な「ハーフ画像」を見せることになる。しかしながら、少なくとも測色は合理的に定義された。このような色が出てくることは分かっており、それはそのような画像が混合されているか単独でレンダリングされているか否かに無関係に同じであると分かっていた。HDR時代には、すべての領域を白くクリッピングするのではなく符号化可能にすることによって、例えば室内の明るい部分が特定のシーンの俳優又はプレゼンタの輝度にどれくらい明るく対応しているかに依存して露出を下げることによって、このような問題を解決したいと考えていた。しかしながら、それは、ビデオコンテンツを調和的に混合することを望む場合、問題として意地悪く戻ってくるので、以下の実施形態の技術が必要になる。 Since the camera may make some "minor" setting tweaks, it required some concerns and careful handling (especially in complex creations or external broadcasts and other field creations). What matters is typically white balance (ie, the neutral white chromatic aspect, that is, whether the white object is too bluish or yellowish, it switches between different camera feeds. It became noticeable) and the exposure setting. If you reduce the exposure of one of the cameras to shoot the same scene, the camera will be detected as soon as it gives an image that is too dark. Especially for professional multi-camera creation of the same show that stands out, moving to a live report in a news program will shoot different shots (especially if it's a video on an amateur cell phone) or at least shoot scenes that look completely different. Expect to be (whether it's timed or picture-in-picture) (for example, a night view of Cairo, not a well-lit US studio). Here, there are two situations to distinguish. Of course, when switching between a night scene and a desert noon scene, the viewer is a reasonable difference, for example, for a desert scene that does not surprise or squint the viewer, but on average. Predict the difference in the brightness of the scene or the brightness of the objects in the scene. However, on the other hand, the combination of camera exposure and the final brightness of the rendered display can be used to create any scene that looks like night or bright. In the SDR era, it could lead to strange images if the photographer had to make inconvenient exposure selections. For example, a person standing far from a window in a deep room will be much darker than one near the window. The photographer exposes the person in the dark area so that the person looks nice and colorful, the left side of the image and all the room objects there are clipped completely white, which is offensive to the viewer. I will show you a "half image". However, at least colorimetry was reasonably defined. We knew that such colors would come out, and that they were the same regardless of whether such images were mixed or rendered alone. In the HDR era, by making all areas codeable rather than clipping white, for example, exposure depends on how bright the bright parts of the room correspond to the brightness of the actor or presenter in a particular scene. I wanted to solve such a problem by lowering. However, it comes back nasty as a problem if you want to harmoniously mix the video content, so the techniques of the following embodiments are needed.
さらに、最近のより複雑なカメラには、例えば黒ガンマなどの追加の設定がある。2つの異なるカメラを完全に一致させることは容易ではない(同じブランドであれば、少なくとも例えばスイッチをオフにする又は同様のすべての「エキゾチック」なパラメータを設定することができる)が、少なくともそれは、色差に対して特別な目を持ちこれらの測色設定すべてを遠隔からカメラ制御するエンジニア(又は技術ディレクタ)であるカメラシェーダの仕事であった。これは、実際のカメラオペレータが十分に難しい仕事であるフレーミングに集中することを可能にし、特に、俳優がシーンを飛び回るなどのいくつかの作成ではそうである。いずれにしても、SDRフレームワークでは、たとえ少し間違っていたとしても、コンテンツ作成者が、様々な拡散反射率にほぼ対応する100:1の限定されたレンジと相まって、少なくとも彼の主題が合理的に照らされていること(すなわち、白色の少なくとも10%、又はルマ又は視覚明度の印象として中間グレー以下で約1ストップ)を確認したという事実と、他のオブジェクトの輝度と比較して間違って配置されたオブジェクトの輝度との不正確な組み合わせは、一般的にあまりにも不調和ではない(少なくとも、批判的な視聴者は、例えば黒が少し乳白色の灰色になるなど何かが間違っていると感じる場合があるが、HDR作成で起こる可能性のあるものとして、大きな明度の違いを伴って実際に強く明るく見えるもの又は輝くものは何もない)。 In addition, more complex cameras these days have additional settings, such as black gamma. It's not easy to match two different cameras exactly (for the same brand, you can at least switch off or set all similar "exotic" parameters), but at least it does. It was the job of a camera shader, an engineer (or technical director) who had a special eye for color differences and remotely controlled all of these color measurement settings. This allows the actual camera operator to focus on framing, which is a difficult task enough, especially in some creations such as actors flying around the scene. In any case, in the SDR framework, at least his subject matter is rational, coupled with a limited range of 100: 1 that corresponds roughly to various diffuse reflectances, even if it is a bit wrong. Misplaced compared to the brightness of other objects, with the fact that it was confirmed to be illuminated by (ie, at least 10% of white, or about 1 stop below mid-gray as an impression of luma or visual brightness). The inaccurate combination with the brightness of the object is generally not too inconsistent (at least, critical viewers feel something is wrong, for example black becomes a little milky gray. In some cases, nothing that can actually occur in HDR creation that actually looks strong and bright with a large difference in brightness).
しかしながら、新興のHDR時代には、そのような単一の0−100ニットのLDR基準レンジはなく、カメラ(及び他のシステム)もそのレンジ内で比較的単純に作用しない(すなわち典型的には非極端な色変換を行う)。図1から分かるように、明らかではないが将来的には可能性のあるHDRコーデックの1つだけを使用することを選択したとしても、まだLDRコーデックで定義されたコンテンツが存在する。そして5000ニットと100ニットとの違いは非常に極端であるので、「マイナーな」見た目の変更とは言えない(実際には専門家によってのみ気付かれることもある)が、非常に目立ち、潜在的に非常にいらいらさせる変化である(テレビのような様々なデバイスが将来の広大な色空間の広大な輝度範囲に沿ったデザイナーの好みに従って動作するなら、可変性がさらに極端になり、望ましくないことが予測される)。 However, in the emerging HDR era, there is no such single 0-100 knit LDR reference range, and cameras (and other systems) do not work relatively simply within that range (ie typically). Perform non-extreme color conversion). As can be seen from FIG. 1, even if one chooses to use only one of the HDR codecs, which is not clear but has potential in the future, there is still content defined in the LDR codec. And the difference between 5000 knits and 100 knits is so extreme that it's not a "minor" look change (which may actually only be noticed by experts), but it's very noticeable and potential. This is a very annoying change (if various devices such as televisions operate according to designer preferences along the vast brightness range of the vast color space of the future, the variability becomes even more extreme and undesirable. Is expected).
この問題は、単一のソースから単一のプログラムを見ている場合にはそれほど目立たない。例えば、誰かが暗い環境で高いPB_DディスプレイのHDRコンテンツを見ていると、色がやや明るすぎるかもしれないが、少なくとも視聴者の目は適応可能である。例えば2つのビデオのPIP(picture−in−picture)提示によって画像を判断するための基準がある場合、違いは常に非常に明確になる。 This problem is less noticeable when looking at a single program from a single source. For example, if someone is looking at HDR content on a high PB_D display in a dark environment, the colors may be a little too bright, but at least the viewer's eyes are adaptable. For example, if there is a criterion for judging an image by presenting PIP (picture-in-picture) of two videos, the difference is always very clear.
画像は今日どこからでも来るので、必ずしもすべてが画像の外観を決めるディレクタの制御下になく、制御されたフレームワークにおいてそれらによって表示されないが、ディスプレイ側において潜在的に最初に一緒に来ることもあり(例えば専用のコマーシャルが挿入される)、様々な元のHDR画像の合成を調整するための緊急に良いフレームワークが必要になる。 Images come from everywhere today, so not everything is under the control of the director who determines the appearance of the image and is not displayed by them in a controlled framework, but can potentially come together first on the display side (on the display side). There is an urgent need for a good framework for coordinating the composition of various original HDR images (eg a dedicated commercial is inserted).
したがって上記のように、(新規)HDR技術の大部分は、レンダリングされた輝度に変換することができる明示的に定義されたピクセルルマを通信することによってHDR画像情報を全く通信可能にすることに焦点を当てている。コンテンツのPB_Cよりも低いPB_Dを持つディスプレイがある場合、そのディスプレイに輝度をPB_Cまでレンダリングすることができないので、何かをする必要がある。線形圧縮(相対的に白から白にマッピングすること、すなわち、符号化された輝度PB_Cを有する画像内のピクセルを実際に輝度PB_Dのディスプレイにレンダリングすること)が可能であるが、レンダリングされた画像は最適ではないように見える可能性がある(例えば画像の一部の暗い部分が暗すぎるように見える場合があり、おそらくアクションが起こっていても目に見えない)。したがって、例えばr形状曲線を用いて暗い輝度を合理的に見えるように維持するよりスマートな輝度マッピングを試みることができる。例えばTVの内部で一般的なガマットマッピング技術が可能であるが、これらはブラインドであり、すなわち特別なHDR画像に適合しないため、厳格には最適ではない。 Thus, as mentioned above, most of the (new) HDR technology focuses on making HDR image information totally communicable by communicating explicitly defined pixel luma that can be converted to rendered brightness. I'm guessing. If you have a display with a PB_D lower than the PB_C of the content, you need to do something because the brightness cannot be rendered to PB_C on that display. Linear compression (relatively white-to-white mapping, i.e. rendering pixels in an image with encoded luminance PB_C to actually render on a display with luminance PB_D) is possible, but the rendered image. May appear to be suboptimal (for example, some dark areas of the image may appear too dark and probably invisible even if action is taking place). Therefore, smarter brightness mapping can be attempted, for example using r-shape curves to keep dark brightness reasonably visible. For example, common gamut mapping techniques are possible inside a TV, but they are not strictly optimal as they are blind, i.e. not compatible with special HDR images.
US20150245004は、2つの画像を混合することができ、そのうちの少なくとも1つはHDR画像であり、もう1つはSDR画像であってもよいことを教示する。この出願では、色空間の不一致(すなわち、他の加法混色の原色がsRGBの通常のビデオ定義よりもDCI P3カラー定義で使用されているためRGB三角形の幅であるが、ここでの主なエッセンスであるもの、すなわち画像ピクセルの輝度、及び画像符号化の対応するダイナミックレンジに加えて選択することができるので、色彩的側面は本出願の説明とは無関係である)、及び、ダイナミックレンジの不一致の両方があることを記述している。この出願は、ビデオミキシングの仕組みについてはあまり詳しく述べられていないが、(0029)において、混合は、ディスプレイ装置の色空間すなわちこの出願の命名においてPB_Dで終わるダイナミックレンジで起こり得ることを述べている。さらに、この処理は、異なる変換関数TF又はガンマ補正(0027)に変換することに関連するように見える。最後に、合成ユニットがビデオコンテンツのダイナミックレンジを評価することができ、おそらく入力画像の統計的分析が行われ得る(0028)ことをさらに詳細に教示していないことに対応するという非常に一般的な教示が(0036)にある。当業者は、既存の知識に照らしてこれを解釈するであろう。入力ビデオの統計的性質、すなわち輝度ヒストグラムの終点を調べ、そのヒストグラムを特に利用可能な表示範囲に対して最適化するSDRビデオ最適化の教示が実際に存在する。例えば、様々な理由により、撮影された画像内の黒又は最も暗いピクセルが、例えば0の代わりに30ルマになるなど、おそらくそうである(又はおそらくそうでなければならない)よりも明るいことは珍しくない(オーバーフロー保護範囲、表示光の漏れ、照明に依存する可視性の問題などについての複雑な詳細は再度無視する)。次に、ヒストグラムを引き伸ばして、30の代わりに0である画像ルマを最小にすることができ、これにより、画像構造のコントラストが向上し、より良い黒が得られるので、きれいな画像が得られ、特に暗いサラウンド視聴に適している。 US201550245004 teaches that two images can be mixed, at least one of which may be an HDR image and the other may be an SDR image. In this application, the width of the RGB triangle is the main essence of the color space mismatch (ie, because the other additive primary colors are used in the DCI P3 color definition rather than the usual video definition of sRGB. The color aspect is irrelevant to the description of the present application, as it can be selected in addition to the brightness of the image pixels and the corresponding dynamic range of the image coding), and the dynamic range mismatch. It states that there are both. Although this application does not elaborate much on the mechanics of video mixing, it states in (0029) that mixing can occur in the color space of the display device, i.e. the dynamic range ending in PB_D in the naming of this application. .. Furthermore, this process appears to be related to conversion to a different conversion function TF or gamma correction (0027). Finally, it corresponds to the fact that the compositing unit can evaluate the dynamic range of the video content and probably does not teach in more detail that statistical analysis of the input image can be done (0028). There is a teaching in (0036). Those skilled in the art will interpret this in the light of existing knowledge. There are actually teachings of SDR video optimization that examine the statistical properties of the input video, i.e. the end points of the luminance histogram, and optimize the histogram for a particularly available display range. For example, for a variety of reasons, it is unusual for black or darkest pixels in a captured image to be brighter than they are (or probably must be), for example, 30 Luma instead of 0. No (again ignore complex details about overflow protection coverage, display light leaks, lighting-dependent visibility issues, etc.). The histogram can then be stretched to minimize the image Luma, which is 0 instead of 30, which improves the contrast of the image structure and gives a better black, resulting in a clean image. Especially suitable for dark surround viewing.
実際には、さらに発明された詳細を教示されることなくビデオミキサを設計する必要がある場合、当業者は、図13で説明するように考慮すべき以下の2つの選択肢を有することができる(図1で説明されるように、ルマコードを混合することは別として、これは純粋なSDR画像混合に対しては素晴らしくてシンプルであるが、画像を別々に定義した場合にはそれほど明白又はスマートではない)。教示が異なる変換関数のために変換する必要があると言う場合、当業者は図13aにおいて自然に設計された混合システムを考える。この混合において、例えば最大50,000ニットの十分に大きいある範囲の自然輝度(1301)を有し、実際には、コード定義のOETF形状が何であれ、それらを輝度に変換する。両方の画像が(物理的に一意に定義された)輝度を含んでいれば、原理的にそれらを混合することはもちろん可能であるが、実用的な心理的視覚的及び芸術的考慮が与えられると、それが十分であるかどうかが問題である。第2に、例えば700ニットのPB_Dの共通の予め設定されたディスプレイダイナミックレンジ(1302)にマッピングする場合[単純化するためにOETFのステップ及び対応する輝度についての純粋な理由をスキップする]、次に考え得る別の自然なマッピング(例えば相対マッピングのパラダイムなど)は、ディスプレイの能力に合わせて(「画像の統計的性質」に基づいて)画像を調整する(すなわち、画像のダイナミックレンジをディスプレイのダイナミックレンジに向ける)ことである。これを行う自然な態様は、例えば線形的にレンジを拡張する(すなわち、白から白へのマッピングに対応する)ことである。いくつかのガンマ形状マッピング関数を適用することもできるが、問題はそのガンマ係数をどのようにすべきか、そしてその理由である。しかしながら、これはまさに既にいくつかのケースで正確に避けたいと思う結果を生み出している。例えば雪が降っている風景のSDR画像を700ニットに伸ばすと、それは鬱陶しいほど明るくなる。 In practice, if it is necessary to design a video mixer without being taught further invented details, one of ordinary skill in the art may have two options to consider as described in FIG. Apart from mixing Lumacode, as illustrated in Figure 1, this is nice and simple for pure SDR image mixing, but not so obvious or smart when the images are defined separately. Absent). If the teaching says that it needs to be transformed for a different transformation function, those skilled in the art will consider a naturally designed mixing system in FIG. 13a. In this mixture, it has a sufficiently large range of natural brightness (1301), eg, up to 50,000 knits, and in fact converts them to brightness whatever the code-defined OETF shape. If both images contain brightness (physically uniquely defined), it is of course possible to mix them in principle, but with practical psychological visual and artistic considerations. And the question is whether it is enough. Second, for example when mapping to a common preset display dynamic range (1302) of 700 knit PB_D [skip OETF steps and pure reasons for corresponding brightness for simplification], then: Another possible natural mapping (such as the relative mapping paradigm) adjusts the image to the capabilities of the display (based on the "statistical properties of the image") (ie, adjusts the dynamic range of the image of the display. Toward the dynamic range). A natural way to do this is, for example, to linearly extend the range (ie, correspond to a white-to-white mapping). It is possible to apply some gamma shape mapping functions, but the question is what the gamma coefficient should be and why. However, this has already produced results that we want to avoid exactly in some cases. For example, if you stretch an SDR image of a snowy landscape to 700 knits, it becomes annoyingly bright.
さらに、これらの自然マッピングシステムは、最も明るい色をマッピングすべき場所のように、エンドポイントに関する考慮からのみ完全ではないが、このような技術は、上述のようにおそらくHDRの最も重要な側面、つまり(正確に制御された)ダイナミックレンジのエンドポイント間のすべてのオブジェクトの輝度の分布を完全に無視する(現在、この点はいまだ多くの人が理解していないように思われ、低いダイナミックレンジのディスプレイで正しくレンダリングされた画像は、例えばコントラスト及びHDR効果などの高DRディスプレイでの制御の悪い画像よりもよく見えることがしばしばあるが、ほとんど専門家ではないにしてもHDRは単に白の輝度値を黒で割ったものでどのような技術でも到達することができると主張していると思われる)。ダイナミックレンジは、HDRのPB_C=5000ニットのマスタ等級分けの雪の例に焦点を当てることによって、単に技術的なエンドポイントに関するものではないことを容易に理解することができる。グレーダは、例えば、太陽の下の雪の最も明るい部分を800ニットにマッピングするが、別のグレーダはわずか550ニットにするかもしれず、したがって、この画像のためにコーデックの能力の大部分が使用されないので、これは本質的に低いダイナミックレンジの状況のように見える。SDRの等級分けでは、通常、グレーダは雪の最も明るいピクセルを100ニットにすると仮定される。MDRの等級分けされた画像では、様々な画像コンテンツのもしかしたら非常に複雑な混合ではなく、1つの画像のみをレンダリングする場合でも、最も明るいピクセルをどの輝度にすべきかを検討することができる。だから、雪のピクセルが最終的にレンダリングされるべき最終的な(混合)輝度をどのように知るのか、それがSDR画像から来ているのかどうか、それが最大1.0で相対的に符号化されているか、又は「いくつかの」HDR画像符号化から来ているのか、最も重要な決定要因ではない可能性があるのでOETF形状を無視した場合でさえ、雪のピクセルは一見したところ例えば0.126の相対輝度である程度恣意的に出現する。 Moreover, although these natural mapping systems are not perfect only from endpoint considerations, such as where the brightest colors should be mapped, such techniques are probably the most important aspect of HDR, as mentioned above. That is, it completely ignores the brightness distribution of all objects between endpoints with a (precisely controlled) dynamic range (currently this point still seems to be unknown to many and has a low dynamic range. Images that are rendered correctly on the display often look better than poorly controlled images on high DR displays, such as contrast and HDR effects, but HDR is simply white brightness, if not very expert. It seems to claim that any technique can be reached by dividing the value by black). By focusing on the example of HDR master grading snow with PB_C = 5000 knits, it is easy to understand that the dynamic range is not just about technical endpoints. A grader, for example, maps the brightest part of the snow under the sun to 800 knits, but another grader may make only 550 knits, so most of the codec's capabilities are not used for this image. So this looks like a situation with a low dynamic range in nature. SDR grading usually assumes that the grader has 100 knits for the brightest pixels of the snow. With MDR graded images, it is possible to consider what brightness the brightest pixels should be, even when rendering only one image, rather than a possibly very complex mixture of different image content. So how do snow pixels know the final (mixed) brightness to be finally rendered, whether it comes from an SDR image, it is relatively encoded up to 1.0 Even if the OETF shape is ignored, the snow pixels are seemingly 0, for example, as they may not be the most important determinants, whether they are or come from "some" HDR image coding. Appears somewhat arbitrarily with a relative brightness of .126.
図14は、任意の技術的なシステムのダイナミックレンジに焦点を合わせるだけの方法、例えばガマットマッピングのブラインド輝度変換がどのように機能するのかのような、符号化が主にエンドポイントによって定義される範囲のものとして理論的基準ディスプレイ又は実際のディスプレイなどに対応するかどうかにおいて見過ごされる別の重要な点を明らかにしている。特にHDRにおいては、オブジェクトの照明は、例えばSDRニューススタジオにおいてしっかりと制御される必要はないが、原則として何でもよい。森の中の空いた場所を過ぎて例えば草原の領域の太陽の下を歩くと、森の内部が既に黒く見えると視覚的に認識し得る。それはもちろん、全くそうではない、なぜならそれは黒くそこにある木は他の場所と同じように茶色であり、やぶは新緑のようであるからであるが、局所照明は太陽の完全な光と空がある木のないフリースポットの局所照明よりも例えば1/20又はそれ以下であるから、1/20は人間にとって近くで見るまでは心理視覚的に黒のように見える。 FIG. 14 shows a method that simply focuses on the dynamic range of any technical system, eg, how the blind brightness conversion of Gamat mapping works, the coding is primarily defined by the endpoint. It reveals another important point that is overlooked in whether it corresponds to a theoretical reference display or an actual display as a gamut. Especially in HDR, the lighting of objects does not need to be tightly controlled, for example in an SDR news studio, but in principle anything can be used. If you walk past an empty space in the forest, for example in the sun in a grassland area, you can visually recognize that the interior of the forest already looks black. That is, of course, not at all, because it is black and the trees there are brown like anywhere else, and the bushes are like fresh green, but the local lighting is the full light of the sun and the sky. Since it is, for example, 1/20 or less than the local illumination of a free spot without trees, 1/20 looks psychologically black to humans until viewed closer.
したがって、Tシャツのようなオブジェクトは、同じ映画であっても異なる輝度を持つことがある(言い換えれば、それは例えば1000ニットのPB_C_HDRのレンジのどこにでも落ちる可能性があり、グレーダはマスタ等級分けではバリエーションを幾分制限することを決定することができるが、元のシーンのカメラで撮影された相対的な輝度と自然なほぼ1対1の関係を用いて説明する)。太陽の下では、Tシャツは青い空のかなりの立体角によってほとんどが照らされる開始の半影よりも+−5倍明るくなる。確かに100ニットは、芸術的には「曇った日」の良いHDRディスプレイへのレンダリングを期待するものであり、500ニットは本当に日光が出たら現れるかもしれない。さらに人が森に入ると、その人に光を当てることができる空の領域が木の葉によってブロックされるので、特定のオブジェクト、この場合は人のTシャツの輝度は、例えば100ニットになり、それゆえ明るいTシャツよりも50倍暗く、それゆえこの特定のHDRシーンのレンダリングではやや黒く見える可能性が高い。おそらく、家庭での視聴のための映画的なHDR等級分けにおいて、輝度は例えば所与の値の半分に控えめに等級分けされるが、様々な輝度の分布は同じ点を証明する。 Therefore, objects such as T-shirts can have different brightness even in the same movie (in other words, it can fall anywhere in the range of 1000 knit PB_C_HDR, for example, graders are master graded. It can be decided to limit the variation somewhat, but it will be explained using the natural approximately one-to-one relationship with the relative brightness taken by the camera in the original scene). In the sun, the T-shirt is + -5 times brighter than the starting penumbra, which is mostly illuminated by the considerable solid angle of the blue sky. Indeed, 100 knits are artistically expected to render to a good HDR display on a "cloudy day", and 500 knits may appear in the real sunlight. Furthermore, as a person enters the forest, the area of the sky that can shed light on that person is blocked by the leaves, so that the brightness of a particular object, in this case a person's T-shirt, will be, for example, 100 knits. It is therefore 50 times darker than a bright T-shirt and is therefore likely to appear slightly black in the rendering of this particular HDR scene. Perhaps in cinematic HDR grading for home viewing, brightness is conservatively graded, for example, to half a given value, but the various brightness distributions prove the same.
したがって、今の問題は、上記の比較的静的な混合態様のいずれかを使用すると、実行中のビデオに(その輝度の詳細とともに)これらの様々なTシャツのレンダリングを散在させることであり、これは常に「自動的に」合理的に良いものであるのか、もしそうでない場合は何をすべきか、ということである。 Therefore, the problem now is that using any of the above relatively static mixing aspects will scatter the rendering of these various T-shirts (along with their brightness details) in the running video. This is always "automatically" reasonably good, and if not, what to do.
(潜在的に非常に)異なるダイナミックレンジを有する画像の合成を合理的に調整する方法を必要とする上記の問題は、複数の画像(Im_HDR、Im_LDR)の2つの画像又は2つのビデオであって、そのうちの1つが高ダイナミックレンジの画像又はビデオである2つの画像又は2つのビデオを合成するための装置(301)を有することによって解決され得る。複数の画像(Im_HDR、Im_LDR)のうちの2つの画像又は2つのビデオであって、そのうちの1つが高ダイナミックレンジの画像又はビデオである2つの画像又は2つのビデオを合成するための装置(301)は、
複数の画像のうちの2つの画像又は2つのビデオのうちの少なくとも1つの画像又はビデオの最大輝度と、複数の画像のうちの2つの画像又は2つのビデオをレンダリングするためのディスプレイのピーク明度とのうちの少なくとも1つに基づいて決定される最大輝度(LMC)を少なくとも特徴とする合成輝度ダイナミックレンジ(CombRng)を確立するダイナミックレンジ確立ユニット(302)であって、ダイナミックレンジ確立ユニットが、合成輝度ダイナミックレンジ(CombRng)におけるアンカー輝度(anc)を決定する輝度アンカー決定ユニット(303)をさらに含む、ダイナミックレンジ確立ユニット(302)と、
2つの画像又はビデオの少なくとも1つに少なくとも輝度変換を実行する色変換ユニット(310)であって、色変換ユニット(310)は、2つの画像又はビデオの第1の画像又はビデオ(Im1_LDR)を供給する第1のソース(350)から少なくとも1つのソースアンカー輝度(L_SA1)を読み出すソースアンカー輝度読み出しユニット(311)を含み、色変換ユニットは、第1の画像又はビデオに適用される色変換(FF_1)を確立し、その色変換は、ソースアンカー輝度(L_SA1)がアンカー輝度(anc)の近傍の出力輝度にマッピングされるという性質を有することによって、ソースアンカー輝度(L_SA1)の値に依存する、色変換ユニット(310)と、
複数の画像のうちの2つの画像又は2つのビデオを合成して、少なくとも1つの出力画像(Im_o)を形成する画像合成ユニット(320)とを含む。第1に、疑念を避けるために、画像の合成より、空間的又はビデオの場合にはおそらく時間的にも画像コンテンツをまとめる様々な考えられる選択肢を意味する。合成は、広いラテン語の元の意味で「2つを一緒にする」と理解されなければならず、このテキストでは1ピクセルあたり2つのソースを重み付け加算するために取っている例えば混合の限定された意味で理解してはならない。当業者であれば、この発明の様々な実施形態が、とりわけ様々なピクチャインピクチャの合成で生じるビデオの良好な(輝度の調和的又は協調的マッチング)合成、フェードのような混合の合成、又は例えば映画中の定期的なコマーシャルへのカットなどのような時間的散在、の必要性を解決することを理解する(一般に、これは現在、例えばあたかもそれがページであるかのように第1の画像をひっくり返し下にある画像のピクセルを表示することに対応する時間的変化量で、第1の画像の少なくともいくつかのピクセルを第2の画像の一部に空間的にインターリーブすることを含むが、本発明は、ピクセル色、特にそれらの知覚された明度が正確に対応することを確実にする)。画像の空間領域を他の(一部又は全部の)第2の画像に置き換えた場合、及び、第1のビデオの画像の間又は後に別のビデオシーケンスの画像を時間的に示す場合の両方において、点滅するコンテンツなどがある場合は特に、あまりにも明度の不一致があってはならない(すなわち、画像の1つが、例えばその主ヒストグラムローブ又はキーオブジェクトに関して他のものよりも過度に明るく見えてはならない)。このようなシナリオでは、(空の表現の)合成画像のダイナミックレンジである合成輝度ダイナミックレンジ(CombRng)を、合成画像データで満たされるように確立することができる(例えば、時間的に散在又は連続する2つの最大レンジであるとみなすことができる)。
The above problem, which requires a method of reasonably adjusting the composition of images with (potentially very) different dynamic ranges, is two images or two videos of multiple images (Im_HDR, Im_LDR). It can be solved by having a device (301) for synthesizing two images or two videos, one of which is a high dynamic range image or video. A device (301) for synthesizing two images or two videos of two images or two videos of a plurality of images (Im_HDR, Im_LDR), one of which is a high dynamic range image or video. ) Is
The maximum brightness of two of the images or at least one of the two videos or video, and the peak brightness of the display for rendering the two images or two videos of the multiple images. A dynamic range establishment unit (302) that establishes a combined luminance dynamic range (CombRng) characterized by at least a maximum luminance (LMC) determined based on at least one of the above, wherein the dynamic range establishing unit is a composite. A dynamic range establishment unit (302) further including a luminance anchor determining unit (303) that determines the anchor luminance (anc) in the luminance dynamic range (CombRng).
A color conversion unit (310) that performs at least a luminance conversion on at least one of two images or videos, wherein the color conversion unit (310) converts the first image or video (Im1_LDR) of the two images or videos. The color conversion unit includes a source anchor luminance readout unit (311) that reads at least one source anchor luminance (L_SA1) from the first source (350) to be supplied, and the color conversion unit is a color conversion applied to the first image or video. FF_1) is established and its color conversion depends on the value of the source anchor luminance (L_SA1) by having the property that the source anchor luminance (L_SA1) is mapped to the output luminance in the vicinity of the anchor luminance (anc). , Color conversion unit (310),
It includes an image compositing unit (320) that synthesizes two images or two videos of a plurality of images to form at least one output image (Im_o). First, to avoid doubt, rather than compositing images, it means various possible options for organizing image content either spatially or perhaps temporally in the case of video. Compositing must be understood in the broad Latin original sense of "combining the two", and in this text we are taking to weight add two sources per pixel, for example a limited mix. Don't understand in a sense. To those skilled in the art, various embodiments of the invention are particularly good (harmonious or coordinated matching of brightness) composition of video resulting from the composition of various picture-in-pictures, composition of mixed mixture such as fades, or Understand that it solves the need for temporal clutter, such as regular cuts into commercials in a movie (generally, this is now the first, for example, as if it were a page. The amount of change over time corresponding to flipping the image to display the pixels of the underlying image, including spatially interleaving at least some pixels of the first image into part of the second image. However, the present invention ensures that pixel colors, especially their perceived brightness, correspond exactly). Both when the spatial region of the image is replaced with another (part or all) second image, and when the image of another video sequence is shown temporally between or after the image of the first video. There should be no too much lightness mismatch, especially if there is flashing content etc. (ie, one of the images should not appear too brighter than the other, for example with respect to its main histogram lobe or key object. ). In such a scenario, the composite brightness dynamic range (CombRng), which is the dynamic range of the composite image (in the representation of the sky), can be established to be filled with the composite image data (eg, temporally scattered or continuous). Can be considered as the two maximum ranges to do).
当業者には、高ダイナミックレンジの画像が何か、すなわち100ニットのピーク明度に対して定義されたレガシーLDR画像ではない画像、すなわち古典的なLDR方式では合成できない画像であるのはなぜなのか明らかである(2つの異なる画像符号化フレームワークで定義された画像オブジェクト又はピクセル輝度間にある程度の不一致があるように思われる)。当業者には、装置が2つの静止画像(又は例えば5)しか得られない場合、典型的には出力画像(Im_o)は1つの静止画像となることは明らかである。連続する画像の2つ以上のビデオが合成される場合、出力ビデオ、すなわち何らかの形のそれらの画像の連続が生成され、例えば各ビデオが各時刻の画像を有する場合、結果のビデオは、元の2つの画像シーケンスと対応する時刻に正確に同じ量の画像を有するアルファブレンドされた混合ビデオであってもよく、又は結果のビデオは、異なる時刻の画像を有してもよく、例えば第1のビデオの100%の長さ、第2のビデオの+50%の長さを有し、その様々な画像がいくつかの時刻に混合して割り当てられる。 To those of us, what is a high dynamic range image, that is, an image that is not a legacy LDR image defined for a peak brightness of 100 knits, that is, an image that cannot be combined by the classical LDR method? Obviously (there seems to be some discrepancy between image objects or pixel brightness defined by two different image coding frameworks). It will be apparent to those skilled in the art that if the device obtains only two still images (or, eg, 5), the output image (Im_o) will typically be one still image. If two or more videos of successive images are combined, an output video, i.e. some form of sequence of those images, is generated, for example if each video has an image at each time, the resulting video will be the original. The two image sequences may be alpha-blended mixed videos that have exactly the same amount of images at the corresponding times, or the resulting video may have images at different times, eg, the first. It has 100% length of the video and + 50% length of the second video, and its various images are mixed and assigned at several times.
この特許の教示を可読かつ簡潔に保つために、その教示は輝度ダイナミックレンジの違いをどのように処理するか、及びこれが視聴者に与える明度の印象を最優先にしているので、あえて単に輝度の変換を行う実施例を示す(読者は画像がグレースケール画像であると装うことができる)。しかしながら、もちろん当業者は、実際には典型的には色変換が行われることを理解する、例えば輝度が線形RGB色定義にどのように対応するか、及び、例えばWO2014/056679のように線形RGB上に色を変換することによって所望の輝度を有するピクセルをどのように生成するか、の両方を理解することができる。簡潔さのためにビデオについて何か以下で言う場合、当業者は静止画像にも適用できることを理解する。場合によっては、リアルタイム性の観点から、ビデオはより簡単な処理態様を望む場合があり、それが混合のためのエレガントな迅速な解決策が提示される理由である。人間はHDR画像が正確に何であるか、様々な混合、提示に何が必要であるかを最良に判断することができるので、実施形態のより良い実行は人間のアーティストの介入で動作するものもあるが、他の実施形態では画像解析アルゴリズムによる自動注釈で動作する。 In order to keep the teachings of this patent readable and concise, the teachings give top priority to how to handle differences in brightness dynamic range and the impression of brightness that it gives the viewer, so I dare to simply say An example of performing the conversion is shown (the reader can pretend that the image is a grayscale image). However, of course, those skilled in the art will understand that in practice color conversion is typically performed, such as how luminance corresponds to a linear RGB color definition, and linear RGB, such as WO2014 / 056679. You can understand both how to produce pixels with the desired brightness by converting the color on top. When saying something about video for brevity below, one of ordinary skill in the art understands that it can also be applied to still images. In some cases, from a real-time perspective, video may want a simpler mode of processing, which is why an elegant and quick solution for mixing is offered. Better execution of embodiments may work with the intervention of a human artist, as humans can best determine what the HDR image is exactly, what is needed for various mixing and presentation. However, in other embodiments, it operates with automatic annotation by an image analysis algorithm.
装置は、非常に複雑な合成問題がより管理しやすいものになる理由の一部である新たなダイナミックレンジである最適な合成輝度ダイナミックレンジを確立することができる必要がある。以下に説明するように、これは単純に既に存在する、すなわち既に発明され定義されているダイナミックレンジの1つである必要はない、すなわち必ずしもソース画像のダイナミックレンジではなく、コンテンツが意図された表示(いくつかの作成側装置は、現場で予想される表示が典型的な代表例である、消費者の構内において良好な基準表示が何であるかの妥当な推定値を有することができるが、いくつかの実施形態では分からないかもしれない)にレンダリングされるべき最終的なディスプレイのダイナミックレンジでもない(それがたとえ合成中に知られていても、これはすべての実施形態にとって真ではない)。その合成輝度ダイナミックレンジは、合成プレゼンテーションが視聴者に最良の視覚的品質又は影響を与えるようにすべきである。それはもちろん、定義されたコンテンツの様々な側面に依存する。メインコンテンツ(特許請求の範囲が読みやすくなるので第2の画像又はビデオと呼ぶ)が例えば映画である場合、映画制作者は例えば映画を乱されることを好まない。例えば、明るいコマーシャルの後に視聴者は映画の暗いシーンで何が起こっているか分からなくなるようなことはすべきではない。このようなシナリオでは、典型的には、2つのビデオのうちの輝度特性が歪んだ一方があり、他方の入力ビデオとより調和するようになるので、したがって合成ビデオ、映画は最も重要な(又は主要な)ビデオであり、(可能であれば)輝度が大きく歪まないようにする必要がある。しかしながら、コマーシャルプロデューサやスポンサも、コマーシャルが最終的なレンダリングで可能な限り最高に出てくるのを見たいと考える。色変換ユニット(310)及び/又は合成ユニット(320)は、コマーシャルが映画を越えることはできないが、例えばLDRコマーシャルもまた不必要に暗くレンダリングしてはならないというポリシーを実施する。例えば、映画の中の他の関連するオブジェクトに比べて顔があまりきれいに見えずにほとんど黒に見える場合がある。上で述べたように、人間の視覚システムがその明るい領域でグレー値の解釈を適応させると、森林は非常に明るい日差しの領域に比べて黒く見え得る。したがって、HDR映画又はブロードキャスト(又はゲームなど)の中で、非常に明るい、例えば2000ニットという重要な(大きな)領域が存在し、特に合成SDRピクセルに近接している場合、およそ20ニットのみのSDRオブジェクトは黒く見え、それゆえ合成する前にいくらか明るくすることが望まれる。また、例えば顔の特徴又は他のオブジェクトの細部の視認性は、オブジェクトの平均輝度及びコントラストと共に減少する。単一の画像であっても、いくつかの状況では、オブジェクトの輝度分布(例えば、HDRレンダリングのピクセル輝度ヒストグラム)が完全に最適ではないと不平を言う人がいることを経験したが、あまりにも明るすぎるシナリオでは、視覚的適応と人間の脳は、単一の画像がレンダリングされている場合、脳がその単一の画像内のすべてのオブジェクトが何であるべきかを決定し調節することができるから、通常は相対的に寛容である。しかしながら、オブジェクトが別の画像で空間的に構成されている場合、視聴者は、コンテンツがフレーム内にあっても、差異が深刻であることに気付くことになる。なぜなら脳は、画像のコンテンツの一部をシーンの明度分布の基準として判断し、シーンは通常PIPとしてあまり切り離されず、むしろ滑らかな照明変化を有するからである。示されるように、どちらが良い明度の合成であるかを一見して知ることは容易ではない。例えば映画の作成者は、どのローカルコマーシャルが(例えばケーブルオペレータによって)挿入されるのか、又は(おそらく自宅のコンピュータ又はコンテンツを管理する中央の家庭用機器によってストリーミングされる)映画を見ながら視聴者がどのような第2の画像をいくつかの画像ソースから例えばPIPに選択するかを知らないので、少なくとも、別々のビデオの作成中にはそれはできない。また、例えば比較的明るいオブジェクトの視覚的重要性は、とりわけその大きさに依存することにも留意されたい。2つの画像を利用可能にすることにより、装置はよりスマートな合成決定を行うことができる。例えばそれがSDR画像である場合に例えばHDRコンテンツをより第1の画像のようにするために最大レンダリング可能輝度(LMC)を下げる必要がある場合がある。これは、ピクセル又はオブジェクト輝度(オブジェクトは意味的に関連するピクセルのスマートにグループ化されたセットである)のさらなる特性を見ることに依存する。例えば、最も明るいオブジェクトがランプである場合、しばらくの間、合成ダイナミックレンジ(CombRng)内のランプの明度を下げることができる。これは最も壮大なHDRではないが、HDR画像はきれいに明るくランプをレンダリングするためにまだ使用することができ、特に合成画像(LMC)よりも低いピーク明度(LM_MDR)を有する接続されたディスプレイの場合、非常に明るい符号化可能なランプはいずれにしてもコーデックの輝度で正確にレンダリングすることはできない。したがって、ダイナミックレンジの高い映画がまだあるが、合成の状況により適したダイナミックレンジがある。 The device needs to be able to establish an optimal composite brightness dynamic range, which is a new dynamic range that is part of the reason why very complex composite problems become more manageable. As explained below, this simply does not have to be one of the dynamic ranges already present, i.e. already invented and defined, i.e. not necessarily the dynamic range of the source image, but the intended display of the content. (Some creator devices can have reasonable estimates of what a good reference display is on a consumer's premises, where the expected display in the field is typical. Nor is it the dynamic range of the final display to be rendered (which may not be apparent in that embodiment) (even if it is known during compositing, this is not true for all embodiments). Its composite brightness dynamic range should ensure that the composite presentation has the best visual quality or impact on the viewer. It, of course, depends on various aspects of the defined content. If the main content (referred to as a second image or video because the claims are easier to read) is, for example, a movie, the filmmaker does not like, for example, disturbing the movie. For example, after a bright commercial, the viewer should not lose track of what is happening in the dark scenes of the movie. In such a scenario, synthetic video, cinema is therefore the most important (or) because typically one of the two videos will have a distorted luminance characteristic and will be more in harmony with the input video of the other. It is the main (major) video and needs to be (if possible) not significantly distorted in brightness. However, commercial producers and sponsors also want to see the commercials come out as best as possible in the final render. The color conversion unit (310) and / or the compositing unit (320) enforce a policy that commercials cannot cross movies, but for example LDR commercials must also not be rendered unnecessarily dark. For example, the face may not look very clean and look almost black compared to other related objects in the movie. As mentioned above, when the human visual system adapts the interpretation of gray values in its bright areas, forests can appear black compared to areas of very bright sunlight. Therefore, in an HDR movie or broadcast (or game, etc.), there is a very bright, eg 2000 knit, important (large) area, especially if it is in close proximity to synthetic SDR pixels, an SDR of only about 20 knits. The object looks black, so it is desirable to make it somewhat brighter before compositing. Also, for example, the visibility of facial features or details of other objects decreases with the average brightness and contrast of the objects. I've experienced some people complain that the brightness distribution of an object (eg, a pixel brightness histogram for HDR rendering) isn't perfectly optimal, even for a single image, in some situations, too. In too bright scenarios, visual adaptation and the human brain can, when a single image is rendered, allow the brain to determine and adjust what all objects in that single image should be. Therefore, it is usually relatively tolerant. However, if the object is spatially composed of different images, the viewer will notice that the difference is significant even if the content is within the frame. This is because the brain determines a part of the content of the image as a reference for the brightness distribution of the scene, and the scene is usually not so separated as PIP, but rather has a smooth illumination change. As shown, it is not easy to tell at a glance which is the better lightness composition. For example, a movie creator can see which local commercial is inserted (eg by a cable operator) or while watching a movie (perhaps streamed by a home computer or a central home appliance that manages content). You can't do that, at least while creating separate videos, because you don't know what second image to choose from several image sources, for example PIP. It should also be noted that, for example, the visual importance of a relatively bright object depends, among other things, on its size. By making the two images available, the device can make smarter compositing decisions. For example, if it is an SDR image, it may be necessary to reduce the maximum renderable brightness (LMC), for example, to make the HDR content more like the first image. This relies on seeing additional properties of pixel or object brightness, where an object is a smartly grouped set of semantically related pixels. For example, if the brightest object is a lamp, the brightness of the lamp within the composite dynamic range (CombRng) can be reduced for some time. This is not the most spectacular HDR, but HDR images can still be used to render lamps clean and bright, especially for connected displays with lower peak brightness (LM_MDR) than composite images (LMC). In any case, a very bright encodeable lamp cannot be rendered accurately with the brightness of the codec. Therefore, there are still movies with a high dynamic range, but there is a dynamic range that is more suitable for the composition situation.
実際、2つの典型的な代替シナリオを考えることができる。一般的に、合成ダイナミックレンジ、すなわち少なくともその上部輝度(LMC)は、一方では少なくとも2つの画像の入力のニーズ、他方では、レンダリングの何かが既に確認されているなら画像合成をレンダリングすべき想定されたディスプレイのダイナミックレンジ(少なくともピーク明度)のニーズ(すなわち、典型的なHDRディスプレイの適切に提示された画像コンテンツのHDRニーズ)を見る装置によって規定される。したがって、いくつかの実施形態では、これらを使用するためにどのように調整すべきかに関してまだ何も言われていない又はそれほど賢明なことが言われていないなら、2つの画像だけに基づいてCombRngを決定する必要がある(しかしながら、いくつかの実施形態では予想される典型的な使用に向けて既にチューニングが行われている場合があり、例えばPB_C=5000ニットのマスタHDR画像が主により低いダイナミックレンジのディスプレイに示され、SDR画像素材にかなり散在していることが予想される場合、例えば通信用ビデオ圧縮のためにPB_C=5000ニットよりも低いダイナミックレンジで、例えば予想される典型的な消費側のディスプレイの例えば1000ニットのピーク明度の1.5倍で合成又は合成可能(受信側では、いくらかの画像情報が依然として輝度変換される必要があることを意味する)画像を早くも作成することを考え、それゆえ合成ダイナミックレンジは、例えば1500ニットのPB_Cを有する)。第1の典型的な例は次に、HDR映画、すなわち連続する画像の2つの入力ビデオのより大きいダイナミックレンジを有し、SDRコンテンツは、主要なコンテンツであるHDR映画と合理的に調和する(又は最終的なプレゼンテーションの場で調和可能になる)ように、輝度変換されるか又は少なくとも1つ又は複数のソースアンカー値を共同通信されたメタデータに置くことによって適切に注釈を付けられる。しかしながら、代替的な典型的なシナリオは、想定される典型的なディスプレイレンダリング及び/又はSDRコンテンツ挿入のいずれかにより則した低いダイナミックレンジにHDRコンテンツを事前に変換することができる。例えば750ニットのPB_Dのレンダリングのための実際のディスプレイを有する場合、そのようなシステムは、例えば両方のビデオ(全く異なる作成現場及び時間に発生する場合があり、一貫性のあるアンカーの力である)の輝度を変換して(又は輝度変換を決定するためのアンカー輝度で注釈を付けて)、例えば1500又は2000ニットのPB_C又はおそらく1000ニットのPB_Cの合成DRでそれらを調和することができる。この合成された又は合成可能なコンテンツは、必要なPB_D=750ニットで規定されたディスプレイダイナミックレンジに容易に格下げすることができる。 In fact, two typical alternative scenarios can be considered. In general, the composite dynamic range, or at least its top brightness (LMC), is an assumption that, on the one hand, the input needs of at least two images, and on the other hand, the composite should be rendered if something in the rendering has already been identified. It is defined by a device that sees the dynamic range (at least peak brightness) needs of the displayed display (ie, the HDR needs of properly presented image content in a typical HDR display). Therefore, in some embodiments, if nothing has been said or is so wise about how to adjust for their use, the CombRng will be based on only two images. It needs to be determined (however, in some embodiments it may have already been tuned for the expected typical use, for example a master HDR image of PB_C = 5000 knit has a lower dynamic range primarily. If it is shown on the display and is expected to be significantly scattered in the SDR image material, for example with a dynamic range lower than PB_C = 5000 knits for communication video compression, eg the typical consumer side expected. To create an image that can be combined or combined at 1.5 times the peak brightness of, for example, 1000 knits on the display (meaning that some image information still needs to be converted in brightness on the receiving side). Think, therefore the synthetic dynamic range has, for example, 1500 knits of PB_C). The first typical example then has a larger dynamic range of the HDR movie, i.e. the two input videos of the continuous image, and the SDR content reasonably harmonizes with the main content HDR movie ( It is appropriately annotated by being brightness-converted or by placing at least one or more source anchor values in the co-communicated metadata so that it can be harmonized in the final presentation. However, an alternative typical scenario can pre-convert HDR content to a lower dynamic range that is more compliant with either of the typical display rendering and / or SDR content insertion envisioned. For example, if you have a real display for rendering 750 knit PB_D, such a system is, for example, both videos (which can occur at completely different production sites and times, and is a consistent anchor force. ) Can be converted (or annotated with anchor brightness to determine the brightness conversion) and harmonized with a synthetic DR of, for example, 1500 or 2000 knits of PB_C or perhaps 1000 knits of PB_C. This synthesized or compositable content can be easily downgraded to the display dynamic range defined by the required PB_D = 750 knit.
特に、出願人は、実際には実際の符号化された(すなわち典型的なDCT圧縮画像の色成分において最終的かつ固定的に定義されたピクセル色を有する)画像としてではなく、任意の一次画像からのそのような二次画像の様々な可能なピクセル輝度を計算するための関数として、(様々な)最終の(再等級分けされた)異なるダイナミックレンジの外観画像が通信されるフレームワークを設計したので、これらの関数は再定義することができ、したがってより複雑な定義を伝達することができる(例えば、少なくともいくつかの特別な画像オブジェクトに対する画像輝度が、様々な状況、例えば様々な合成ダイナミックレンジの下でどのように計算されるべきかの詳細)。古典的な画像又はビデオ符号化は、使用されるべき、すなわちレンダリングすべき(!)ピクセル輝度とともに「その」画像を単に符号化して通信するが、出願人は、全く異なる画像(すなわち、オブジェクトの必要な空間構造及びテクスチャを有するが正しい測色を有さない、特に正確な画像オブジェクト又はピクセル輝度を有さない)を送信することができ、次にこの出願では合成画像である最終画像の正しい輝度を最終的にどのように生成するかの方法の処方は、合成輝度ダイナミックレンジCombRng上のすべてのピクセル輝度で定義される。 In particular, the applicant is not actually as an actual encoded image (ie, having a final and fixedly defined pixel color in the color components of a typical DCT compressed image), but any primary image. Designed a framework in which (various) final (re-graded) different dynamic range appearance images are communicated as a function for calculating the various possible pixel brightness of such secondary images from. So these functions can be redefined and thus convey more complex definitions (eg, image brightness for at least some special image objects, in different situations, eg different synthetic dynamics). Details of how it should be calculated under the range). Classic image or video coding simply encodes and communicates the "that" image with pixel brightness to be used, ie rendered (!), But the applicant is of a completely different image (ie, of the object). It is possible to send (with the required spatial structure and texture but not the correct color measurement, especially not the exact image object or pixel brightness), and then in this application the correct final image, which is a composite image. The formulation of how the brightness is ultimately produced is defined by all pixel brightness over the synthetic brightness dynamic range CombRng.
例えば(例えば、あまり正確に暗くされていない場合に)比較的明るいLDR画像の合成により、合成された出力画像の全体的な(又はHDR画像の少なくとも暗い部分の局所的な)明度は、HDR画像から排他的に来る暗い部分をあまりよく見ることができないようになっているので、同様に、例えば(ダイナミックレンジIm2_Rngの)ダイナミックレンジ画像である画像のうちの1つの最小値(LmiH)と比較して合成レンジの最小値(LmiC)を増加させる理由があり得る。すなわち、それらを明るい黒でCombRngに色変換することによって、それらを適切に明るくすることができる(これは合成レンジの選択により発生し、さらにHDR画像そのものをスマートに処理する必要はない、すなわちそれはCombRngへの単純な色変換によってさえ適切に明るくなる)。 For example, by compositing a relatively bright LDR image (for example, if it is not darkened very accurately), the overall (or local) brightness of the composited output image at least in the dark part of the HDR image is the HDR image. Similarly, the minimum value (LmiH) of one of the images, which is a dynamic range image (of dynamic range Im2_Rng), is also compared, since the dark part that comes exclusively from is not so well visible. There may be a reason to increase the minimum value (LmiC) of the synthesis range. That is, they can be properly brightened by color-converting them to CombRng with bright black (this is caused by the choice of compositing range, and the HDR image itself does not need to be processed smartly, ie it is. Even a simple color conversion to CombRng will brighten properly).
したがって、読者は、画像処理連鎖の様々なポイント、例えば最終的なコンテンツが典型的にはコンテンツ供給者の制御下にある装置によって定義されるいくつかのコンテンツ作成側において、画像消費の画像連鎖の一部又はいくつかの画像消費側に入る(例えばエンドユーザの責任のもとでのみ、例えばエンドユーザが自分のリモートコントロール又はコンピュータコントロールを使用して2つのタイプのコンテンツを混合する)前に、どのように適切な合成ダイナミックレンジを人間によって、潜在的に半自動的に、又は自動的に確立するのかを理解することができる。一般に、そのような装置は、画像のコンテンツ(すなわちHDR品質、すなわち様々なコンテンツがどのPB_Cを有するか、PB_Cで終わるダイナミックレンジ上の様々なオブジェクト又はピクセル輝度の分布も、どのような明るいオブジェクト[例えばHDR効果]があるか、外観に非常に不快な変更を加えることなく容易に輝度歪みが生じ得るかどうか)だけでなく、これらの画像の最終使用の必要性すなわち典型的には表示レンダリング(例えば画像がSDRディスプレイ消費者の設置されたベースに供給される場合、低いCombRngが適切になる)の両方を見る。自動的に行われると、アルゴリズムは、ヒューマンコンバイナが方法論として使用するもの(すなわち、合成された画像及び/又はそのためのメタデータを生成し、例えば最終的に合成される2つの画像又はビデオの少なくとも1つのソースアンカーポイントであるLMC値及び少なくとも1つのアンカーポイントを指定する)に似ているヒューリスティックモデルを使用する。CombRngの暗い側では、例えば明るい画像オブジェクトの最も明るい領域からの眩しさ、予想されるディスプレイ漏れ光、及び典型的なディスプレイ面プレート反射などのために暗い色の環境光依存マスキングのような側面に基づいてそのような可視性をモデリングすることによって、最も暗い色がまだ比較的よく見えるものであると判断される。唯一のディスプレイと予想される典型的な(例えば薄暗いライト付きのホームシネマ)視聴環境と比較したこのモデルの新しい要素は、二次的な画像コンテンツの導入である。しかしながら、一般的にCombRngの確立が典型的には最初に(適切なアンカーの決定前に)行われるため、この見積もりは粗い場合がある(例えば、SDR画像の最も明るい部分、潜在的に明るい部分でさえ、映画の暗い部分の次に幾何学的に落ちるかどうかにかかわらず、SDRコンテンツが導入されている場所を正確にチェックせず、したがって、いくつかの実施形態は、CombRngの上限輝度及び下限輝度を確立するときにそのすべてを考慮に入れることができるが、潜在的にかなりマスキングする可能性があり、例えば直接的又は反復的な決定において、後者は良好なアンカー輝度が何であるか、及び対応する適切なCombRng限界輝度を繰り返しチェックする)。 Thus, the reader is at various points in the image processing chain, eg, at some content creators whose final content is defined by a device typically under the control of the content supplier, of the image consumption image chain. Before entering some or some image consumers (eg, only at the end user's responsibility, eg, the end user mixes the two types of content using their remote or computer controls). It is possible to understand how the appropriate synthetic dynamic range is potentially semi-automatically or automatically established by humans. In general, such a device is an image content (ie HDR quality, that is, what PB_C the various contents have, various objects on the dynamic range ending in PB_C, or the distribution of pixel brightness, any bright object [ Whether there is an HDR effect, for example, or whether brightness distortion can easily occur without making very unpleasant changes to the appearance), as well as the need for final use of these images, ie typically display rendering (typically display rendering). For example, if the image is fed to the installed base of the SDR display consumer, a low CombRng would be appropriate). When done automatically, the algorithm produces what the human combiner uses as a methodology (ie, a composited image and / or metadata for it, eg, at least two images or videos that are finally composited. Use a heuristic model that resembles one source anchor point (specifying an LMC value and at least one anchor point). On the dark side of CombRng, on sides such as ambient light dependent masking of dark colors due to, for example, glare from the brightest areas of bright image objects, expected display leakage, and typical display surface plate reflections. By modeling such visibility on the basis, it is determined that the darkest colors are still relatively well visible. A new element of this model compared to the typical (eg home cinema with dim lights) viewing environment expected to be the only display is the introduction of secondary image content. However, this estimate can be rough (eg, the brightest, potentially bright, part of the SDR image, as the establishment of CombRng is typically done first (before determining the appropriate anchor). Even does not accurately check where the SDR content is introduced, whether or not it falls geometrically next to the dark part of the movie, and therefore some embodiments have a CombRng upper brightness limit and All of them can be taken into account when establishing the lower limit brightness, but can potentially be quite masked, for example in direct or iterative decisions, the latter is what a good anchor brightness is. And the corresponding appropriate CombRng limit brightness is repeatedly checked).
いろいろな用途で粗い合成が既に適している場合があるので(例えば、映画の視聴者が最終的に映画を楽しむことを望んでいる場合、中断したり追加の画像と合成したりすべきではないが、もしそうした場合、たとえそれが合成画像の全体的な画像印象の評価において心理視覚的にのみであり、合成前がどのようであったかと比べて映画の輝度の変化が実際にはなくても、その主要なビデオコンテンツの比色測定には常に歪みがあることを認識すべきである)、典型的なコンテンツに基づいてヒューリスティックな低い輝度LmiCを迅速に計算するために既に適切であり得る。例えば、ヒストグラムがSDRコンテンツの大部分が10ニットと100ニットとの間にあることを示し、合成画像の表示領域の約半分が50ニット以上の輝度を有するSDRピクセルによって占められている場合、装置は、その合成のために例えば0.01ニットどころか0.1ニットよりも深い黒を必要としないことを確立することができる(ディスプレイの典型的なヒューリスティックアルゴリズムは、より暗い画像構造がそのような条件の下ではうまく見られないと判断するため)。合成レンジのこの確立を非常に興味深いものにするのは、(HDR映画の元のコンテンツ作成者は、映画を暗い部屋の例えば非常に深い黒をレンダリングすることができるOLEDディスプレイ上で楽しむ場合のために、0.0001ニットまでの定義された超黒を持つ映画を作っているかもしれないが)、合成装置(例えばSTB又はTV自体)が、合成画像にHDR映画ピクセルを配置する前に、HDR映画(又は一般的には主要コンテンツ)DRと合成ダイナミックレンジとの間、特にこれらのダイナミックレンジの下位部分に条件付けられた適切な輝度マッピングを決定することによって、HDR映画の最も暗い色を幾分明るくすることを決定することができることである。輝度レンジの明るい側では、アルゴリズムは通常、元のHDR画像に対してどのぐらいのクリッピング又はコントラスト圧縮がまだ適切であるかを決定することを含む(これは例えば太陽に照らされた雲に対してレンダリングされた内部構造を有する必要のないランプでは異なり、[理想的には符号化された受信画像に基づいて最終画像の決定が合理的にシンプルであるように、符号化された輝度では主にすべてのピクセルの最終的なレンダリング輝度が最終的にどのようになるべきかが決定される]ように、理想的には最終レンダリングされた画像に十分なコントラスト及び今後任意の画像符号化を有し、それゆえ、実際に合成画像ピクセルに変換される前に、合成画像内に既に存在するか、又は事前合成定義されたHDR画像であるかにかかわらず、最も明るい画像の色に対してより少ない圧縮を行い、ルマコードのより大きなサブセットを有する明るい領域を定義する)。必要に応じて、例えばいらいらさせるほど暗く見えてはいけない挿入された(予想される映画作成者のために、例えば特定のチャンネルで映画を知っていると、それゆえ映画のこの潜在的に再等級分けされた定義はコマーシャルと一緒に提供される)コマーシャルでは、少なくともSDR画像が合成のために変換されるので、SDR画像の最も明るい輝度とあまり離れていない明るい輝度のやや小さな領域で曇りを絞ることが必要である。この画像のニーズを依然として最も適切に(一般的には、すなわちSDR画像の少なくとも一部、及びHDR画像のいくつかの重要な部分又はオブジェクトの両方)及び例えば様々な導入されたSDRコマーシャルのためにチューニングすることができるようにするには、理想的には、HDR画像は、それらの雲のための例えば3つの多数の重要な輝度を指定し、それらの間で合成装置は、様々な雲領域を典型的には暗く変更することができる(これによって、例えば雷雲の濃い灰色の部分のコントラストも減少する)。しかしながら、これはアンカーの輝度がここで教示されるように現れる場所であり、教示の現在の部分は、合成レンジが当然そのように低いLMC値で終わらないことを説明するだけであり、それは主要な画像の外観を破壊し始める(例えば映画が雷雨雲に関する場合、雲の一部が強く照らされていれば、例えば太陽に照らされた雲の縁及び雲の膨らんだ部分は太陽によって照らされるのではなく環境光だけに照らされ、典型的には素晴らしい異なる灰色を有するので、それらははるかに暗くなり、これらの雲がCombRngの上位のサブレンジで例えば10ルマだけで圧縮されなければならないようにCombRngがなっている場合、ディスプレイによる補正の試みとして強力な関数的輝度伸長を用いても、これらの雲の価値のある良好なHDRレンダリングは決して得られないので、この映画の中核的な側面は失われる)。しかしながらそうでなければ、合成装置は、HDR画像の明るさとコントラストの質をいくらか低下させることを決定し、(特に、例えばいくつかのコンテンツが太陽の下にありいくつかのコンテンツが影の中にあるサッカーの試合のような要求の少ないHDRシーンからの場合)HDR画像を合成すべき典型的又は実際のより低いダイナミックレンジの画像と調和させることができる。 Coarse compositing may already be suitable for a variety of purposes (for example, if a movie viewer wants to enjoy the movie in the end, it should not be interrupted or composited with additional images. If so, even if it is only psychologically and visually in the evaluation of the overall image impression of the composite image and there is actually no change in the brightness of the movie compared to what it was before the composite. It should be recognized that there is always distortion in the colorimetric measurement of that major video content), which may already be appropriate for quickly calculating a heuristic low brightness LmiC based on typical content. For example, if the histogram shows that most of the SDR content is between 10 knits and 100 knits, and about half of the display area of the composite image is occupied by SDR pixels with a brightness of 50 knits or more. Can establish that it does not require deeper black than 0.1 knit, for example 0.01 knit, for its composition (a typical heuristic algorithm for displays is such that darker image structures are such. To judge that it does not look good under the conditions). What makes this establishment of the compositing range very interesting is (for the original content creator of HDR movies, if they enjoy the movie on an OLED display that can render, for example, very deep black in a dark room. Although you may be making a movie with a defined ultra-black up to 0.0001 knit, HDR before the synthesizer (eg STB or TV itself) places HDR movie pixels in the composite image. Some of the darkest colors of HDR movies by determining the appropriate brightness mapping conditioned between the movie (or generally the main content) DR and the composite dynamic range, especially the lower parts of these dynamic ranges. It is possible to decide to make it brighter. On the bright side of the brightness range, the algorithm usually involves determining how much clipping or contrast compression is still appropriate for the original HDR image (this includes, for example, for sunlit clouds). Unlike lamps that do not need to have a rendered internal structure, [ideally for encoded brightness, so that the determination of the final image is reasonably simple based on the encoded received image. Ideally, the final rendered image should have sufficient contrast and any future image coding so that the final rendered brightness of all pixels is determined. Therefore, less than the color of the brightest image, whether it is already present in the composite image or a pre-synthesized HDR image before it is actually converted to composite image pixels. Compress to define a bright area with a larger subset of Lumacode). If necessary, inserted, for example, should not look annoyingly dark (for the expected filmmaker, for example, knowing the film on a particular channel, therefore this potentially regrade of the film (Separated definitions are provided with the commercial) In commercials, at least the SDR image is converted for compositing, so the cloudiness is reduced in a slightly smaller area of bright brightness that is not too far from the brightest brightness of the SDR image. It is necessary. This image need remains most appropriate (generally, that is, at least part of the SDR image, and both some important parts or objects of the HDR image) and, for example, for various introduced SDR commercials. Ideally, the HDR image would specify a number of important brightness, eg, three for those clouds, among which the synthesizer would have different cloud regions to be able to tune. Can typically be changed to darker (which also reduces the contrast of the dark gray areas of the thundercloud, for example). However, this is where the brightness of the anchors appears as taught here, and the current part of the teaching only explains that the synthetic range naturally does not end with such a low LMC value, which is the main (For example, if the movie is about a thundercloud, if part of the cloud is strongly illuminated, for example, the edge of the sunlit cloud and the bulge of the cloud will be illuminated by the sun. Illuminated only by ambient light, they typically have a nice different gray, so they are much darker and CombRng so that these clouds must be compressed with only 10 Luma, for example, in the upper subrange of CombRng. If this is the case, the core aspect of this movie is lost, as using strong functional brightness extension as a display correction attempt will never give good HDR renderings worth these clouds. Will be). However, if not, the synthesizer decides to reduce the quality of the brightness and contrast of the HDR image somewhat (especially, for example, some content is in the sun and some content is in the shadows). (From a less demanding HDR scene, such as a soccer match) HDR images can be harmonized with typical or actual lower dynamic range images to be combined.
もちろん、ダイナミックレンジ(少なくとも最大値、場合によっては正確に指定された非ゼロ最小値も)は、画像の最終的な見た目にとって非常に重要な(起動)特性を決定するものであるが、これは、オブジェクト又はピクセルの明度をどのようにそのレンジ内に配置するかを完全に完成させるものではない。単純な画像処理方法では、必要なのはダイナミックレンジの上限と下限であると実際に主張し、マッピングを行う(これは単純な線形圧縮よりもあまり賢明ではないことが多い、すなわち白の入力コンテンツを白の最終レンジにマッピングし、黒の入力コンテンツを黒の最終レンジにマッピングする)。それはかなり変化することがあり、特にダイナミックレンジの大きな潜在的なものを、非常にクリティカルなシーンで使用し始めると、例えば洞窟の中で同時に多くの深い黒、そして小さな亀裂を通って外側に見られる多くの日光のある色の両方、そして霧を通り抜けている人のようなオブジェクト内のコントラストの重要な制御を必要とするオブジェクトさえも表現可能な輝度が必要になる。しかしながら、上述したように、発明者は、HDR画像の外観の良好な制御、特に合成画像の外観の制御は、CombRngの範囲の間の輝度のすべて又は少なくとも多く、又は少なくとも最も重要なものの良好な制御に重要に関連しており、そのため、良好なHDR画像処理システム、特に実際に起こり得るあらゆる状況のためにさらなる困難な人間の介入なしに適切な外観の最終合成画像を生成することができる装置を有するためには何か他のものも必要であると考える(各STB又はテレビで同じハリウッドディレクタを販売して、視聴者にとって適切な最終的な合成輝度を決定させることができないため)。画像コンテンツ合成の少なくとも最も実用的なケースにおいて合理的に高品質の結果を得るためにクリティカル又は複雑なニーズがあろうがなかろうがコンテンツ作成者によってうまくオーダーメイドすることができる素早いメカニズムが必要である。 Of course, the dynamic range (at least the maximum, and in some cases the precisely specified nonzero minimum) determines the (launch) characteristics that are very important to the final appearance of the image. It does not completely complete how the lightness of an object or pixel is placed within its range. Simple image processing methods actually claim that they need upper and lower dynamic ranges and do the mapping (which is often less wise than simple linear compression, i.e. white input content white. Map to the final range of black and map the black input content to the final range of black). It can vary considerably, especially when you start using potential with a large dynamic range in a very critical scene, seeing outside through many deep blacks at the same time, and small cracks, for example in a cave. Both of the many sunshine colors that are used, and even objects that require significant control of contrast within an object, such as a person passing through fog, need expressive brightness. However, as mentioned above, the inventor has found that good control of the appearance of HDR images, especially control of the appearance of composite images, is good for all or at least more of the brightness during the range of CombRng, or at least the most important one. It is importantly related to control and is therefore a good HDR image processing system, especially a device that can produce a final composite image of the proper appearance without further difficult human intervention for any situation that may actually occur. I think that something else is needed to have (because it is not possible to sell the same Hollywood director on each STB or TV to determine the final composite brightness that is appropriate for the viewer). In order to obtain reasonably high quality results, at least in the most practical cases of image content composition, there is a need for a quick mechanism that can be successfully tailored by the content creator, with or without critical or complex needs. is there.
したがって、十分に合成を制御するための第2の構成要素は、装置がアンカー輝度(anc)を決定することである。これは様々なことであり得るが、典型的には、意味的に重要なオブジェクトの意味的に関連する輝度である。例えば、それは特定の態様で照らされる特に典型的に重要なオブジェクトであり、全HDR画像レンジのサブレンジに輝度を与える。それは、その周囲の他の輝度を決定するためにある合成レンジにおいて良好であると期待できる輝度となる(すなわち、この輝度は、輝度の総和が適切な明度であるか、あまりにも暗すぎないか、又はあまりにも明るいかを決定する)。言い換えれば、特定の合成レンジに対して正しいものは何でもアンカーの輝度を正しくレンダリングすると、他の輝度も悪いものではなくなる(図16では、作成アーティストの望みに従ってどのようにしてより多くの技術的構成要素を用いてそれらを制御してますます良くなるのかを説明する)。 Therefore, a second component for adequately controlling the composition is that the device determines the anchor brightness (anc). This can be a variety of things, but is typically the semantically relevant brightness of a semantically important object. For example, it is a particularly typically important object that is illuminated in a particular mode, giving brightness to a subrange of the entire HDR image range. It is the brightness that can be expected to be good in some synthesis range to determine the other brightness around it (ie, is this brightness the sum of the brightness is adequate brightness or is it too dark? , Or is it too bright). In other words, whatever is correct for a particular compositing range, if the anchor's brightness is rendered correctly, the other brightness will not be bad (in Figure 16, how more technical configurations are made according to the wishes of the creator Explain how you can control them with elements and get better).
図15は、かなり異なる照明の2つの領域、すなわち薄暗い照明(図15aのシーンのジオメトリを参照)の建物(Ins)とかなり明るい照明の日当たりの良い外側領域(Outs)を有する典型的なHDRシーンを示している。コンテンツグレーダが物理的なシーン輝度から典型的なテレビ視聴(薄暗い環境)のために適切に見えるHDR画像を作成するためには、屋内の明るさをSDR画像のように等級分けすること、すなわち屋内の最も明るいオブジェクトに対して最大100ニットを等級分けするのが賢明である。現実世界の屋外の輝度は約100倍明るく、最大10,000ニットであるが、(視聴者が典型的にそのようなハイエンドの10,000ニットのPB_Dディスプレイを有するとしても)それはテレビのレンダリングには明るすぎるという経験を有している。したがって、グレーダは、例えばHDRのこのシーンを(金属上の小さな鏡面反射を除く)最も明るいオブジェクトに対して最大1200ニット、典型的な平均外側輝度に対して250ニットのマスタHDRレンジ(DRH)の(外側のピクセル輝度サブレンジSDROUにおいて)明るい外側輝度にするために選択することができる。 FIG. 15 shows a typical HDR scene with two regions of significantly different lighting: a building (Ins) with dim lighting (see the geometry of the scene in FIG. 15a) and a sunny outer region (Outs) with fairly bright lighting. Is shown. In order for the content grader to create an HDR image that looks good for typical television viewing (dim environment) from physical scene brightness, it is necessary to grade the indoor brightness like an SDR image, ie indoors. It is wise to grade up to 100 knits for the brightest objects in. The outdoor brightness in the real world is about 100 times brighter, up to 10,000 nits, but it's for TV rendering (even if the viewer typically has such a high-end 10,000 nit PB_D display). Has the experience of being too bright. Thus, the grader will perform this scene of HDR, for example, in a master HDR range (DRH) of up to 1200 knits for the brightest object (excluding small specular reflections on metal) and 250 knits for typical average outside brightness It can be selected for bright outer brightness (in the outer pixel brightness subrange HDROU).
アンカー輝度を有するパワーは図15cに示されている。この例では、簡単にして、内側ピクセル輝度サブレンジSDRINのより暗い輝度を、すべての状況下で等しい輝度でレンダリングすることができると仮定している(合成レンジでは安定した変化しない輝度のセットを形成するが、もちろん常にそうである必要はない、例えばSDRコマーシャルが多くの明るい色を含む場合、装置は、HDRマスタソース画像材料の内部ピクセルを特徴付ける下部アンカーポイントAncS_insを使用して、実際に最も暗いピクセルをいくらか上げることができるが、少なくともこの第1のマスタHDR画像のピクセル輝度を(すなわち、屋外の明るいピクセルのセットの第2のアンカーポイントAncS_outsとともに)合成レンジに正確に輝度配置するために1つのアンカーポイントのみが使用されるシナリオを用いて実施形態のコア原理を説明する)。第1に、典型的なグレー値出現につながる典型的な光反射スペクトルを有する興味深いオブジェクトの任意の輝度が使用されるが、そのようなanc値の周囲のピクセルの輝度を決定することを望むときに、合理的に類似する照明の領域に対応するすべての画像輝度のヒストグラムのサブローブにおいて平均的明るさのアンカー位置を使用することは通常悪くない。読者は、図16を参照すると、何らかの理由で、装置がこのような領域に例えばより多くの光を当てて「再点灯」することを望む場合に、実際の反射オブジェクトはその上を照らす照明が増えればもっと輝くように、その周囲の輝度はアンカーポイントで連続的に明るくなることを想像することができる。代表的なanc値を計算する際の自動決定の場合、合理的な平均から結果があまりにも多く逸脱する例えば非常に明るい日差しの雲の縁の輝度を持たないように注意すべきであり、したがって、典型的には人間が符号化された画像と一緒にアンカー輝度を決定して伝えることができれば、最良の結果を得ることができることに留意されたい。したがって、読者は、2つの種類のanc値、すなわち第1の結果(すなわち、anc定義の同じ意味論的意味に対応する画像の輝度がそのようなanc輝度値に近いが、(異なって照らされ異なって符号化された)ソースダイナミックレンジにおいてレンダリングされたときに最終的に合成画像に落ちる又は書き込まれる合成レンジにおける位置)、及び、入力画像のすべて又は少なくとも大部分のための第2の(対応する)ancS値(いくつかの画像に注釈付きancが欠けている場合、装置はある値、例えば最も典型的なSDRコンテンツにとってあまりにも不合理であってはならないSDR値を推定しなければならない)があることを理解すべきである。このようなanc値が定義されていれば(合成の1つと意味的に異なるものであっても、例えば係数4でそれを乗算することによって合成の1つに関連付けることができるもの)、入力コンテンツを合成フレームワークと調和させることができ、したがって、他のすべての画像コンテンツと調和させることができる。
The power with anchor brightness is shown in FIG. 15c. This example simply assumes that the darker brightness of the inner pixel brightness subrange SDRIN can be rendered with equal brightness under all circumstances (forming a stable, unchanging set of brightness in the composite range). But, of course, it doesn't have to be always the case, for example, if the SDR commercial contains many bright colors, the device is actually the darkest, using the lower anchor point AncS_ins, which characterizes the internal pixels of the HDR master source image material. The pixels can be raised somewhat, but at least the pixel brightness of this first master HDR image (ie, along with the second anchor point AncS_outs of a set of bright outdoors) is accurately placed in the
読者は、例えば優れたHDR品質の合成PB_CS=2000ニットについて、anc値(すなわち画像合成の結果のanc値、及び2つの画像の実際の混合前に準備されているレンジ)を、決定された合成輝度ダイナミックレンジすなわち典型的には少なくともそのピーク明度とどのように調整するかを確認することができる。ダイナミックレンジ確立ユニット(302)によって優れた品質の合成レンジ(CmbRngSup)が選択された場合、マスタHDRコンテンツのダイナミックレンジに近い高品質ダイナミックレンジが利用可能となる。したがって、結果的に得られる(「平均明るさ、2番目のサブローブ、屋外色が合成画像内に落ちるべき位置」という意味論タイプの)anc値を250ニットに配置することも理にかなっている(装置は、テレビ映画の明るい領域レンダリングのための典型的なルールに従い、これもマスタHDR画像のマスタグレーダの(およそ)250ニット選択につながった基礎であった)。この合成状況は、外部ピクセルの関連するHDR輝度の大部分が、コンテンツ作成者が意図したように、すなわちマスタHDR入力画像で符号化されたものと同じ輝度で良好にレンダリングされ、唯一例えば鏡面反射は2000ニット未満に幾分か減光する必要があるという結果をもたらす。これは、上記の第1のタイプのシナリオの一例であり、合成レンジは、輝度歪みなしに導かれ実質的にレンダリングされる元のマスタHDRビデオコンテンツに従うので、SDRコンテンツを調和させるだけでよい(これはSDR画像の対応する1つ又は複数のanc値を調べることによって行われる)。 The reader has determined the composition of the anc value (ie, the anc value of the result of the image composition, and the range prepared prior to the actual mixing of the two images), for example for a synthetic PB_CS = 2000 knit with excellent HDR quality. You can see the brightness dynamic range, or typically at least its peak brightness and how to adjust it. When an excellent quality composite range (CmbRngSup) is selected by the dynamic range establishment unit (302), a high quality dynamic range close to the dynamic range of the master HDR content becomes available. Therefore, it also makes sense to place the resulting ank value (of the semantic type "average brightness, second sublobe, position where the outdoor color should fall in the composite image") at 250 knits. (The device followed typical rules for bright area rendering of television movies, which was also the basis that led to the (approximately) 250 knit selection of the master grader for master HDR images). In this compositing situation, most of the associated HDR brightness of the external pixels is rendered well as the content creator intended, i.e. with the same brightness as encoded in the master HDR input image, and only specular reflection, for example. The result is that it needs to be somewhat dimmed to less than 2000 knits. This is an example of the first type of scenario described above, as the compositing range follows the original master HDR video content that is guided and effectively rendered without luminance distortion, so it is only necessary to harmonize the SDR content ( This is done by examining the corresponding one or more anc values in the SDR image).
劣った品質の合成レンジ(ComRngInf)について、装置は、HDRマスタ画像についても、必要な品質低下を既に考慮に入れることができる。ここで、装置は、Anc_Outs値の位置を下げる必要があり、これは例えば典型的には領域間及び領域内のコントラストのヒューリスティックな見積もりのニーズとともに行われる(特定の画像及びシーンを見ることなく、アンカー輝度の良好な位置についてのいくつかのグローバルな値が決定され、これは、今後映画の様々なHDRショットについて一貫して機能すべきである)。第2の結果のanc位置Anc_Outs2は、どのレンジの量が100ニットよりも上にあるか、又は言い換えればCombRngにおける輝度位置に配置されたSDRINの低い輝度より上にあるかに依存すべきであり(例えば、ストップでは、明るい日当たりの良い照明の中の反射オブジェクトだけでなくランプ又は鏡面反射などそれらが何であれすべてのHDR効果を位置確認するために10倍が3ストップであり、典型的には高品質のHDR画像のために顧客が見たい値すなわち明るすぎたり暗すぎたりしない大きなオブジェクト領域も考慮に入れる)、そのため、明るい領域又はその部分が100ニットよりも十分にコントラストがあり(実際に日焼けした外観を有するように例えば係数5−10が良い値であり、これは2つのanc値の除算として公式化され得る)、オブジェクト、炎、爆発、又はレーザービームなどの小さな鏡面反射領域、及び映画に実際に含まれて1000ニットのPB_C_Infの上限値近くに等級分けされてレンダリングされるもののような明るいHDR効果のための十分な余地も依然としてある。自動方法のいくつかの実施形態は、誤差推定値を計算することによって機能する。例えば、領域内のテクスチャは、より高い又はより低い領域内コントラストの必要性を示す複雑さとともに分析することができる。 For inferior quality composite ranges (ComRngInf), the device can already take into account the required quality degradation for HDR master images as well. Here, the device needs to lower the position of the Anc_Outs value, which is typically done, for example, with the need for heuristic estimates of contrast between and within regions (without looking at specific images and scenes). Several global values have been determined for good anchor brightness positions, which should work consistently for various HDR shots of the movie in the future). The second result, the anc position Anc_Outs2, should depend on which range amount is above 100 knits, or in other words above the low brightness of the SDRIN placed at the brightness position in CombRng. (For example, at stops, 10x is 3 stops to locate all HDR effects, whatever they are, not only reflective objects in bright sunny lighting, but also lamps or specular reflections, typically It also takes into account the values that the customer wants to see for a high quality HDR image, i.e. large object areas that are neither too bright nor too dark), so the bright areas or areas are well contrasted (in fact) better than 100 knits. For example, a coefficient of 5-10 is a good value to have a tanned appearance, which can be formulated as the division of two anc values), small specular regions such as objects, flames, explosions, or laser beams, and movies. There is still ample room for bright HDR effects, such as those actually included in and rendered near the upper limit of 1000 knits of PB_C_Inf. Some embodiments of the automated method work by calculating error estimates. For example, textures within a region can be analyzed with complexity indicating the need for higher or lower intra-regional contrast.
したがって、例えば映画メーカーが作成している映画(少なくとも1つのanc値で注釈付けし、おそらく典型的な適切なCombRngに既に輝度マッピングしている)及び期待されるSDRコンテンツの典型的な平均変形の2つの画像のみが既知である場合、装置は、図17に示すように、合成前の再明色化においてHDR画像の輝度歪み圧縮及びSDR画像の歪み又は不整合性に対する誤差を少なくとも計算することができる。このような歪み誤差は、実際の(最適な)輝度マッピングを適用して元の画像表現及びそのダイナミックレンジから合成レンジにおける再色付けされた画像へすべてのオブジェクト又は領域輝度をマッピングする場合に、PB_Co1、PB_Co2などを有するCombRngへのダウングレードが必要なときに、及び/又は実際の画像すなわち残りの苦労を考慮に入れて、例えば1つ又は複数の典型的なHDRシーンに対するピクセル輝度の確率を有し、そのようなシーンが(主に画像の最も明るい領域で)どのように歪む必要があるかを評価する典型的な平均シナリオについて計算することができる。図17では、エラーE_cmpが例えば雲の構造の画像の少なくとも1つの部分又はオブジェクトの圧縮とどのように関連し得るかが概略的に示されている。人間のグレーダ行動を模倣する様々な実際的な実施形態は、例えばテクスチャを抽出し、局所領域のテクスチャ測定値及び他の空間的及び/又は統計的測定値を計算することによって、より小さなサブレンジへのダウングレードがどのように問題になるかを推定する。例えば雲の場合、テクスチャアナライザは鮮明な境界がないことを発見し、雲の鑑賞は典型的な幾何学的形状の側面ではなく、主に(多くの)グレー値の(滑らかな)分布によって生じる(例えばスコットランドのキルトテクスチャの線形パターンは、より少ないルマコードでより多くの圧縮又はポスタリゼーションを可能にする)。すなわち、多く細かく等級分けされて滑らかに分布したグレー値がより限定されたセット及び不正確な明度にマッピングされる場合、装置がこれをあまりにも広範囲に行うことを妨げるいくつかのエラーが迅速に生じることを期待し、特に主画像が重要な比色測定の重要性を有する場合、例えば消費者は、映画の細かく等級分けされた芸術的な色品質を楽しむことができなければならないので、例えばいくつかのコマーシャルのしばしば極端で派手な粗い等級分けに縮小されるべきではない(アンカー輝度を提供する主なコンセプトに加えて、いくつかの実施形態は、コンテンツ作成者がアンカー間又はアンカー周囲でどれくらいの歪みを許容するかをさらにメタデータで示すことを可能にし、例えばAncS_outs/10及びAncS_outs*10の間のレンジは、好ましくは例えば係数2又は係数3によって圧縮又は伸張すべきではない)。 So, for example, a movie produced by a movie maker (annotated with at least one anc value and probably already brightness-mapped to a typical suitable CombRng) and a typical average variant of expected SDR content. If only two images are known, the apparatus shall at least calculate the error for luminance distortion compression of the HDR image and distortion or inconsistency of the SDR image in the pre-composite rebrightening, as shown in FIG. Can be done. Such distortion errors are PB_Co1 when applying the actual (optimal) brightness mapping to map all object or region brightness from the original image representation and its dynamic range to the recolored image in the composite range. When downgrading to CombRng with PB_Co2 etc. is needed and / or taking into account the actual image ie the remaining struggle, there is a probability of pixel brightness for, for example, one or more typical HDR scenes. You can then calculate for a typical average scenario that evaluates how such a scene needs to be distorted (mainly in the brightest areas of the image). FIG. 17 schematically shows how error E_cmp can be associated with compression of at least one portion or object of, for example, an image of a cloud structure. Various practical embodiments that mimic human grader behavior, for example, to smaller subranges by extracting textures and calculating texture measurements and other spatial and / or statistical measurements of local areas. Estimate how downgrading is a problem. In the case of clouds, for example, the texture analyzer finds that there are no sharp boundaries, and cloud appreciation is mainly caused by the (smooth) distribution of (many) gray values rather than the sides of a typical geometry. (For example, a linear pattern of Scottish quilt textures allows for more compression or posterization with less Lumacode). That is, when many finely graded and smoothly distributed gray values are mapped to a more limited set and inaccurate brightness, some errors quickly prevent the device from doing this too extensively. Expecting to occur, especially if the main image has important colorimetric measurement importance, for example, because consumers must be able to enjoy the finely graded artistic color quality of the movie, for example. Some commercials should not be reduced to the often extreme and flashy coarse grading (in addition to the main concept of providing anchor brightness, in some embodiments the content creator is between or around the anchors. It allows further metadata to indicate how much distortion is tolerated, for example the range between AncS_outs / 10 and AncS_outs * 10 should preferably not be compressed or decompressed by, for example, a factor 2 or 3).
図17は、このような誤差方程式に基づく一実施形態における輝度調和に至るために誤差を定式化する態様をより具体的に説明する例を示す。HDR建物画像とソフトドリンクのSDRコマーシャルとを混合して、そのレンジに加えて、シーン画像の輝度分布のヒストグラムを示す(hist_HDRはそれぞれ低ダイナミックレンジコマーシャル画像hist_SDRのヒストグラム、水平方向はある値Liに等しい輝度を有する画像ピクセルの総数におけるピクセル数のカウントN(Li)である)。例えば1000ニットのPB_CombまでのCombRngの小さい上位のサブレンジにおけるHDR画像の圧縮は、エラーE_cmpを導く。このエラーは、例えばSDRコンテンツを明るくするためのエラー又は想定されるディスプレイの典型的なレンジのCombRngの非互換性に対応するエラーとバランスをとることができる。例えば、世界中の誰もが1000ニットPB_Dのディスプレイを持っていると考えれば、マスタコンテンツの変更はとにかく生じる必要があるから、このエラーE−cmpはゼロに正規化することができる。しかしながら、それでもやはり、例えば1500ニットのCombRngはより良い、すなわち映画コンテンツの視覚的品質を非常に高く重要視する場合に1000ニット合成よりも高品質であることを示す負のエラーを有する。SDRコンテンツの明るさを逸脱して計算することができるエラーは別として、これはあまり重要ではなく(なぜなら一方ではSDRパラダイムでは、視聴者は異なる明るさに素早く適応できるはずであるが、他方では潜在的に「間違って」レンダリングされたSDR画像の明るさ−例えばこの特別な画像のために例えば1000ニットの最も明るいピクセルのHDRモニタにレンダリングされるときに多くの専門家又は非専門家の視聴者によって明るすぎると判定される−はそれ自体ではなくマスタHDR画像に関連して判定されるからである)、以下のエラーを評価することができる。SDR輝度ミスマッチエラー(E_MM)を決定することができ、これはCombRngのAnc_HDR値、すなわち理想的にはHDR画像のソース画像anc値(AncS_outs)がマッピングされる場所と、SDRソースアンカー輝度AncB_SDRの輝度(D_AncSDR)に実際にマッピングされる場所との間の差と同じように単純に行われる。すなわち、この例では、D_AncSDRがAnc_HDRと等しければヒューリスティックに従って最良調和が起こる。これがなぜ機能するかは、このタイプのHDR画像が十分に広い範囲の明るい外側のピクセルを含んでいるからである(その理由でコンテンツ作成者が上側のアンカー輝度AncS_outsを定義したからである)。このHDR映画シーンを見ているときに視聴者は既に明るい輝度に慣れているので、(例えばPIP)SDRコマーシャルのためにほぼ等しく明るいピクセルを導入することは不快感が少なく、例えば洞窟や地下室で5分ユーザが暗い輝度のみを見ているときには(この場合、そのような明るいコマーシャルの導入は、おそらく視聴者を驚かせるか、少なくとも色彩的に映画シーンの残りの楽しみを少なくともかなり損なうであろう)。このシステムは、SDRコンテンツの作成者が特定のタイプのアンカーを使用する場合、つまり、平均以上の明るさと平均以下の明るさの2種類のみを使用するように単純な場合に特に適している。輝度が実際にSDR輝度の0.1−100ニットのレンジにどのように分布するかにかかわらず、作成者はそれがどのようなSDR画像であるか、したがってそれをどのようにレンダリングすべきか、特に本発明に従ってHDR画像の様々な考えられるサブレンジとどのように調和すべきかを示すことができる。例えば、SDR画像は、曇り又は暗いシーン(「平均以下の輝度」)の通常のコンテンツであるか、又は日当たりの良いシーンを表すと思われるルマであってもよい。コマーシャルのメーカーは、色が明るく鮮やかに見える「日当たりの良い」シーンとして示されることを望んでいると仮定し、合成における明るく鮮やかなものはもちろん他の画像の色が何であるかにも依存する。 FIG. 17 shows an example for more specifically explaining an aspect of formulating an error in order to reach luminance harmony in one embodiment based on such an error equation. The HDR building image and the SDR commercial of the soft drink are mixed, and in addition to the range, a histogram of the brightness distribution of the scene image is shown (hist_HDR is a histogram of the low dynamic range commercial image hist_SDR, respectively, and the horizontal direction is a certain value Li. Count N (Li) of the number of pixels in the total number of image pixels with equal brightness). For example, compression of HDR images in the upper subrange with a small CombRng up to 1000 knits of PB_Comb leads to error E_cmp. This error can be balanced with, for example, an error for brightening SDR content or an error corresponding to a CombRng incompatibility in a typical range of expected displays. For example, assuming that everyone in the world has a 1000 knit PB_D display, this error E-cmp can be normalized to zero because changes in the master content need to occur anyway. However, nonetheless, for example, 1500 knit CombRng has a negative error indicating that it is better, i.e., higher quality than 1000 knit synthesis when the visual quality of the movie content is very high and important. Aside from errors that can be calculated outside the brightness of the SDR content, this is less important (because in the SDR paradigm on the one hand the viewer should be able to quickly adapt to different brightness, but on the other hand. Potentially "wrongly" rendered SDR image brightness-for example for this special image many professional or non-professional viewing when rendered on an HDR monitor with the brightest pixels of 1000 knits, for example (Because it is determined by the person to be too bright-because it is determined in relation to the master HDR image rather than itself), the following error can be evaluated. An SDR brightness mismatch error (E_MM) can be determined, which is where the Anc_HDR value of CombRng, ideally the source image anc value (AncS_outs) of the HDR image, is mapped and the brightness of the SDR source anchor brightness AncB_SDR. It is done as simply as the difference between the location actually mapped to (D_AncSDR). That is, in this example, if D_AncSDR is equal to Anc_HDR, the best harmonization occurs according to heuristics. This works because this type of HDR image contains a sufficiently wide range of bright outer pixels (because the content creator defined the upper anchor brightness AncS_outs). Since viewers are already accustomed to bright brightness when watching this HDR movie scene, introducing nearly equally bright pixels for SDR commercials (eg PIP) is less uncomfortable, for example in a cave or basement. 5 minutes When the user is only looking at dark brightness (in this case, the introduction of such bright commercials will probably surprise the viewer, or at least chromatically undermine the rest of the enjoyment of the movie scene, at least considerably. ). This system is particularly suitable when the creator of SDR content uses a particular type of anchor, i.e., when it is as simple as using only two types, above average and below average brightness. Regardless of how the brightness is actually distributed in the 0.1-100 knit range of SDR brightness, the author decides what SDR image it is and therefore how to render it. In particular, according to the present invention, it is possible to show how to harmonize with various possible subranges of HDR images. For example, the SDR image may be the normal content of a cloudy or dark scene (“subaverage brightness”), or a luma that appears to represent a sunny scene. Assuming that the commercial makers want the colors to appear bright and vibrant as "sunny" scenes, it depends on what the colors of the other images are, as well as the bright and vibrant ones in the composition. ..
読者は、合成されるべき画像の調整におけるアンカー輝度のパワーを既に理解することができる。このようなシンプルなシステムであっても、コマーシャルコンテンツの作成者は自分の画像を「十分に明るく」レンダリングすべきであるとの関心を持っていると仮定するが(しかしながら、彼はおそらく画像全体のコンテンツにおける彼の明るすぎる一部のレンダリングで視聴者を悩ますことには関心を持たないであろう)、もちろんHDR映画作成者の(多くの、同等も、又はいくつかのシナリオではそれほど多くない)重要な画質の要求もあり、合成は、HDR映画が「暗い」コンテンツのみを有し、HDRコンテンツ作成者がより低いAncS_insのみを含む場合に、即時に合理的に機能することができる。装置は、少なくとも映画内のこのシーンが(あまりにも多くの重要な)明るい領域を有さないことを理解し、したがって視聴者は、例えばこの非限定的な簡単な説明の例ではSDRサブレンジSDRINのみであるより暗いコンテンツに適応する。したがって、装置は、その状況において(たとえそれが「明るいSDRコンテンツ」であるとしても)AncB_SDRを低いAnc_ins又はその近傍にマッピングするならば、調和のとれた合成を作ることができる。近傍とは、装置内に固定されているか、又は例えば1/3又は1/2からそれぞれ2倍又は3倍のancの間anc値の上又は下のanc値のカスタマイズ可能な一般的な乗法的な割合を意味する。近傍の範囲は、(合成装置による実行時又は作成側の実行時に例えば明示的に通信された近傍輝度境界を用いて)例えばマッピングされたときのオブジェクトの許容される輝度エラー、アンカーのタイプの違い又はアンカーの予想される変動性などのような側面の様々な実施形態に基づいて決定することができる。しかしながら明らかに、AncB_SDRが例えば100ニットの20%であり、3×25ニット(すなわちAnc_insの近傍の上限位置)にマッピングされたら、合成は、SDRコンテンツが露骨に白から白にすなわち100ニットから1000ニットまでマッピングされ、平均AncB_SDRを200ニット(!)にレンダリングし、すべてのSDR画像オブジェクトが気に入るには明るすぎるように見えるおそれがある線形伸長の場合よりも、はるかに調和的になる(完璧主義は通常達成する必要がないので、むしろ現実的な態様で合理的に動くシステムは現実のシステムを実現する複雑さと見た目の正確さとの間でバランスをとる)(原則として、実際のヒストグラム輝度、例えばモード、すなわちヒストグラムの最も生じる輝度値の下でもancを指定することができるが、いずれにしても実際の輝度は過度に明るく同様にレンダリングすることに留意されたい)。 The reader can already understand the power of anchor brightness in adjusting the image to be composited. Even with such a simple system, it is assumed that the creator of the commercial content is interested in rendering his image "bright enough" (however, he probably is the whole image). You wouldn't be interested in annoying the viewer with some of his overly bright renderings of the content, of course, not so much in HDR filmmakers (many, equivalent, or in some scenarios). ) There is also an important image quality requirement, and compositing can work immediately and rationally if the HDR movie has only "dark" content and the HDR content creator contains only the lower AncS_ins. The device at least understands that this scene in the movie does not have (too many important) bright areas, so the viewer, for example, only the SDR subrange SDRIN in this non-limiting brief description example. Adapts to darker content. Thus, the device can make a harmonious composition if it maps AncB_SDR to low Anc_ins or its vicinity (even if it is "bright SDR content") in that situation. A neighborhood is a general customizable general multiplication of anc values above or below anc values that are fixed within the device or, for example, between 1/3 or 1/2 and 2 or 3 times anc, respectively. Means a ratio. The neighborhood range is the permissible brightness error of the object, the difference in anchor type, for example when mapped (using, for example, an explicitly communicated neighborhood brightness boundary) during execution by the synthesizer or execution by the creator. Alternatively, it can be determined based on various embodiments of aspects such as the expected variability of the anchor. Obviously, however, if AncB_SDR is, for example, 20% of 100 knits and is mapped to 3x25 knits (ie, the upper limit position near Anc_ins), the composition is that the SDR content is blatantly white to white or 100 knits to 1000. It maps to knits, renders the average AncB_SDR to 200 knits (!), And is much more harmonious than in the case of linear stretch, where all SDR image objects can appear too bright to like (perfectness). Rather, a system that works reasonably in a realistic manner balances the complexity and visual accuracy of realizing a real system, as it usually does not need to be achieved) (in principle, the actual histogram brightness, eg, It is possible to specify anc under the mode, i.e. the most occurring brightness value of the histogram, but keep in mind that the actual brightness is overly bright and renders as well).
図15bに戻ると、アンカー及び任意のCombRngの異なる相対位置におけるそれらの配置が様々な輝度マッピングにどのように関連する(それらに影響を及ぼす)かを興味深く示す。関数TL_CSは、元のマスタHDR画像輝度をCombRngの輝度にマッピングするための輝度マッピングである(すなわち、ピクセル置換、アルファブレンディングなどの画像合成を行う準備ができている)。出願人は、相対軸システム、すなわち入力輝度及び出力輝度又はルマが1.0で終わる輝度変換を行うことが非常に有用であることを見出した(ルマが垂直座標として使用され、マッピングがOETF、例えばSMPTE2084又は後方互換性のある画像通信のためのRec.709のようないくつかの固定定義OETFを考慮して定義される)。これは、縦軸に数値化すべきビット数(1.0はちょうど最高の輝度コード値、すなわち最も明るいコード化可能な色である)に議論を迂回するためルマにとって非常に有用である。(例えば入力)輝度軸に関しては、これが輝度の相対的処理の残余であるか否かを依然として考察することができるが、いずれの場合も、必要な曲線は、(このバージョンは常に対応する絶対輝度フレームワークと数学的に同じにすることができるので)画像変換に必要な任意のダイナミックレンジに対して任意に定義することができる。暗いピクセルの絶対輝度を同一に保ちたい場合、低いピーク明度を有する相対軸システムにおいて、これは輝度マッピング関数TL_CSのその部分を対角線の上に上げることに対応することを理解しており、CombRngの残りの上側のサブレンジを優れた品質の合成レンジではあまりにも過度ではない程度に圧縮する態様を明確に理解することができる。しかしながら、劣悪な品質の合成の場合、明るいHDRオブジェクトの圧縮は、その劣った合成レンジへの対応する輝度マッピング関数の形状すなわちTL_CIから分かるように、より厳しくなければならない。いずれにしても、合成レンジのピーク輝度と良好なアンカーポイントのこの状況は、一般的にHDRショットがどのようなものであっても、典型的にこの形状になる明るさの圧縮を行う必要があることを明確にする(この実施形態の正確な実現性は以下に詳述される)。また、2つの関数を合成することによって、優れたCombRngから劣ったCombRngに相対的に変換する必要がある場合、暗いピクセルを相対的に明るくする必要があるが、これは視覚的には明るいHDR領域の圧縮に最も相当することも理解する(相対的な百分率のサブレンジは、全体的に利用可能なレンジに加えて、画像の一部の符号化又はレンダリング品質の良好な尺度である)。いずれにしても、最も典型的な実際の実施形態において出願人が輝度変換をどのように定義しているか、特に非常に有用な特性について図16を用いて説明する。 Returning to FIG. 15b, it is interesting to show how their placement of anchors and any CombRng at different relative positions is related to (affects) various luminance mappings. The function TL_CS is a luminance mapping for mapping the original master HDR image luminance to the luminance of CombRng (ie, ready to perform image compositing such as pixel replacement, alpha blending, etc.). Applicants have found it very useful to perform a relative axis system, i.e. a brightness conversion where the input and output brightness or Luma ends in 1.0 (Luma is used as vertical coordinates and the mapping is OETF, Defined with some fixed definition OETFs in mind, such as SMPTE 2084 or Rec. 709 for backwards compatible image communication). This is very useful for Luma as it bypasses the discussion of the number of bits to be quantified on the vertical axis (1.0 is just the highest luminance code value, i.e. the brightest codeable color). With respect to the (eg input) luminance axis, it can still be considered whether this is the remnant of the relative processing of luminance, but in each case the required curve is (this version always corresponds to the absolute luminance). It can be arbitrarily defined for any dynamic range required for image conversion (because it can be mathematically the same as the framework). If you want to keep the absolute brightness of dark pixels the same, in a relative axis system with low peak brightness, we understand that this corresponds to raising that part of the brightness mapping function TL_CS diagonally, in CombRng. It is possible to clearly understand how the remaining upper subrange is compressed to the extent that it is not too excessive in a good quality synthetic range. However, in the case of poor quality compositing, the compression of bright HDR objects must be more stringent, as evidenced by the shape of the corresponding luminance mapping function to its inferior compositing range, TL_CI. In any case, this situation of peak brightness in the composite range and good anchor points generally requires compression of brightness to typically have this shape, no matter what the HDR shot is. Clarify that (the exact feasibility of this embodiment is detailed below). Also, if it is necessary to relatively convert a good CombRng to a poor CombRng by synthesizing the two functions, the dark pixels need to be relatively bright, which is a visually bright HDR. We also understand that it corresponds best to area compression (relative percentage subranges are a good measure of the coding or rendering quality of some of the images, in addition to the overall available range). In any case, how the applicant defines the luminance conversion in the most typical practical embodiment, particularly very useful properties, will be described with reference to FIG.
HDR画像の固定表現を単に考慮するHDR10のようなHDRビデオ処理(実際には単に符号化)方法は、(それらはすべてのHDRオブジェクト明度分布を画像輝度に入れることができ、OETFが固定されるよう選択されている場合にはルマが送信されたときにOETFの通信は必要ないので)1つの固定輝度変換関数を伝達することすら必要ない。HDRオブジェクトの輝度分布、すなわちBBCのハイブリッドログガンマのような他のダイナミックレンジへの再等級分けの可能性についての単純な見解を有する技術は、例えばLUTとして固定関数を使用して通信することができる。 HDR video processing (actually just encoding) methods such as HDR10 that simply consider a fixed representation of the HDR image (they can put all HDR object brightness distributions into the image brightness and the OETF is fixed). It is not even necessary to transmit one fixed brightness conversion function (because OETF communication is not required when the Luma is transmitted) if it is selected. Techniques that have a simple view of the brightness distribution of HDR objects, i.e. the possibility of regrading to other dynamic ranges such as the BBC's Hybrid Log Gamma, can communicate using fixed functions, for example as LUTs. it can.
出願人は、コンテンツ作成者及びユーザ(テレビメーカー及び/又はエンド視聴者)の両方がHDRの完全な品質を(階層的に)発揮できること、すなわちコンテンツ作成者がHDR画像コンテンツについての希望を(彼がどれほど批判的であるか、どれくらいの時間と予算を費やしているかによって、粗いものから細かいものへと)徐々に示すことができ、ビデオ消費側もこれらの仕様に従うことを希望する精度、又はエンドシステムが例えば細かい等級分け関数で指定されたオブジェクトのコントラストから多少ずらすことによって画像上の色処理の微妙な風味を加えることを望むかどうか決定することができるシステムを設計することを望んでいる。 The applicant hopes that both the content creator and the user (TV maker and / or end viewer) can (hierarchically) demonstrate the full quality of HDR, that is, the content creator wishes for HDR image content. Depending on how critical you are and how much time and budget you spend, you can gradually show (from coarse to fine), and the accuracy or end that video consumers also want to follow these specifications. We want to design a system that can determine if the system wants to add a subtle flavor of color processing on the image, for example by slightly shifting it from the contrast of the object specified by the fine grading function.
図16は、例えば典型的には人間のグレーダが一連の連続する関数を使用して輝度の再等級分けの必要性を階層的に指定することができる出願人の優先システムの1つを用いて合成を行った際のアンカーのパワーの例を示している。 FIG. 16 uses one of the applicant's priority systems, for example, where a human grader can typically specify the need for brightness reclassification hierarchically using a series of consecutive functions. An example of the power of the anchor when synthesizing is shown.
知覚的に一様に(ほぼ対数的に)数値化される入力及び出力レンジを考える。これは、例えば過度に極端に暗い、極端に暗い、非常に暗い、暗いなどから非常に明るいまで視覚的に等間隔の明度レベルのセットを生成する。グレーダがオブジェクトの輝度をこれらのレベルの1つとほぼ等しくすることによって画像の外観を定義することができると想像することができ、例えば良好な品質のHDR画像は、例えばPB_Cの90%から100%の間の非常に明るい輝度のサブレンジ内のランプの輝度を持つべきである。もちろん出力の低いダイナミックレンジ、ここでは輝度の合成レンジ(L_Cmb_out)は、非常に明るい輝度として現れるレベルまで広く伸びることはないが、グレーダはそれらのランプピクセル輝度を例えばとても明るい利用可能な最高レベルにマッピングすることに頼る。これは輝度マッピング関数形状の一部を形成し、読者はグレーダ(又は画像解析ヒューリスティックを用いた自動システム)が完全な輝度マッピング関数形状にどのように至るかを理解することができる。 Consider an input and output range that is perceptually uniformly (almost logarithmically) quantified. This produces a set of visually evenly spaced lightness levels, from, for example, overly extremely dark, extremely dark, very dark, dark, etc. to very bright. It can be imagined that the grader can define the appearance of an image by making the brightness of the object approximately equal to one of these levels, for example a good quality HDR image is 90% to 100% of PB_C, for example. Should have the brightness of the lamp within a very bright brightness subrange between. Of course, the low output dynamic range, here the combined brightness range (L_Cmb_out), does not extend widely to the level that appears as very bright brightness, but graders bring their lamp pixel brightness to, for example, the very bright highest available levels. Rely on mapping. This forms part of the brightness mapping function shape, allowing the reader to understand how the grader (or an automated system using image analysis heuristics) leads to a complete brightness mapping function shape.
このような2つの軸を単に定義することが、1つのダイナミックレンジに定義された輝度をすぐに出力輝度、例えば小さい出力ダイナミックレンジ(これはこのグラフの対角線である関数と同等である)にマッピングするための典型的な(むしろ鈍いが)明白な態様である。この戦略は、任意のソース画像の白色を出力ダイナミックレンジの可能な限り最も明るい(符号化可能又はレンダリング可能な)色にマッピングし、対数的な定義も黒色と白色の間のグレー値を入力画像から出力画像に合理的に広げるため黒色を黒色にマッピングするので、実際には「半分妥当な」出力輝度を形成する。 Simply defining these two axes maps the brightness defined in one dynamic range to the output brightness, eg, the smaller output dynamic range (which is equivalent to the diagonal function in this graph). This is a typical (rather dull) obvious aspect for doing so. This strategy maps the white color of any source image to the brightest (encodeable or renderable) color possible in the output dynamic range, and the logarithmic definition also inputs a gray value between black and white. Since black is mapped to black to reasonably spread from to the output image, it actually forms a "half-reasonable" output brightness.
しかしながら、これは間違った明度とコントラストを持つむしろ見栄えのしない画像を与え、それはアーティストが任意の特定のHDRシーンの構成に芸術的なニーズをうまく適合させることを可能にすることは言うまでもない(建物シーンの例えばPB_C=5000ニットの符号化の最も明るいピクセルと最も暗いピクセルは、例えば背後にオブジェクトがほとんどない暗い部屋のデスクランプの画像の場合と同じ値を有し、もちろんこれら2つの画像の画像構成と意味は非常に異なり、様々なオブジェクト又はピクセル輝度の等級分け及び再等級分けに関する非常に異なるニーズをもたらす)。 However, it goes without saying that this gives a rather unattractive image with the wrong brightness and contrast, which allows the artist to successfully adapt his artistic needs to the composition of any particular HDR scene (buildings). The brightest and darkest pixels of the scene, for example PB_C = 5000 knit encoding, have the same values as, for example, the image of a desk lamp in a dark room with few objects behind, and of course the images of these two images. The composition and meaning are very different, resulting in very different needs for grading and re-grading different object or pixel brightness).
したがって、本出願人は、単独の画像使用、すなわち元の5000ニットのマスタHDR画像の近似への再構成、又は例えば750ニットPB_Dディスプレイを駆動するために最適なMDR画像を得るための最適なディスプレイ調整のために、少なくとも2つの連続する関数を指定することができる輝度マッピング定義システムを発明した。第1に、粗い再等級分け関数F_CRS_MDRは、現在のHDR画像及びその詳細についてより良い初期外観を有するために、すべての知覚サブレンジの明度を全体的に再割当てする。HDRシーンのピクセル輝度のうち最も明るい半分が出力輝度、例えばSDRディスプレイを駆動するためのSDR画像の輝度、又はマスタHDR画像が5000ニットのPB_Cを有するときに合成の教示とより良く一致する1000ニットのMDR画像の輝度のやや小さなサブレンジに圧縮されるほぼr形状の曲線を理解する。シーンのニーズに応じて、グレーダはその形状を適合することができる。例えば、2つのピクセルのいくつかの鏡面反射スポット又は輝度の上半分に電球のみがある場合、グレーダは原理的には、その特定のシーンの視覚的品質を著しく低下させることはないので、入力輝度の上半分について1.0でクリップする関数さえも定義することができる。しかしながら、上半分に太陽に照らされた雲が含まれていれば、曲線の局所的な勾配を少しでも下げても、重大な品質エラーが発生する可能性がある。読者は、相対輝度軸について話していることに留意する必要があり、したがって、出力が例えばSDRレンジの場合、非常に暗い輝度、中輝度、及び非常に明るい輝度を同時に忠実にレンダリングするために利用可能な多くのルマコード及び対応する輝度が存在しない(例えば図16bに概略的に示されるように黒人が隠れている視聴者に近い3D内の領域の暗いキッチン、通常通り照らされている中間室、及び窓を通して見える再び太陽に照らされたオブジェクトを有する3つの異なる照明領域画像を考慮し、夜間の通りにある明るいショップ窓、すなわち建物の例とは異なる意味を有するが、同様に扱うことができるサブレンジを有するか、又はコンテンツ作成者がそのように決定した場合にはそうでない他の典型的な2領域の例が図16cに示されている)。 Therefore, Applicants can use a single image, i.e. reconstruct to an approximation of the original 5000 knit master HDR image, or an optimal display to obtain an optimal MDR image, eg, to drive a 750 knit PB_D display. For adjustment, we have invented a brightness mapping definition system that can specify at least two consecutive functions. First, the coarse regrading function F_CRS_MDR totally reassigns the lightness of all perceptual subranges to have a better initial appearance for the current HDR image and its details. The brightest half of the pixel brightness of the HDR scene is the output brightness, for example the brightness of the SDR image to drive the SDR display, or 1000 knits that better matches the synthetic teaching when the master HDR image has 5000 knits of PB_C. Understand the nearly r-shaped curves that are compressed into a slightly smaller subrange of the brightness of the MDR image. Depending on the needs of the scene, the grader can adapt its shape. For example, if there are only light bulbs in some specular spots or the upper half of the brightness of the two pixels, the grader in principle does not significantly reduce the visual quality of that particular scene, so the input brightness. You can even define a function that clips at 1.0 for the upper half. However, if the upper half contains sunlit clouds, even a slight reduction in the local slope of the curve can result in serious quality errors. It should be noted that the reader is talking about the relative brightness axis, and therefore, when the output is in the SDR range, for example, it is used to faithfully render very dark, medium and very bright brightness at the same time. There are not as many Lumacodes and corresponding brightness as possible (eg, a dark kitchen in an area in 3D close to the viewer where blacks are hiding, as outlined in Figure 16b, an intermediate room illuminated as usual, And considering three different illuminated area images with re-sunlit objects visible through the window, it has a different meaning than the bright shop window in the night street, i.e. a building, but can be treated similarly. An example of two other typical regions that have subranges or do not if the content creator so decides is shown in Figure 16c).
図16cは、指定された粗い等級分け関数F_CRS_MDRのみを用いて輝度マッピング関数の再等級分けを調整することによって十分に等級分けが可能であるように十分に「単純」である(HDRは複雑さに影響する)。 FIG. 16c is sufficiently “simple” to allow sufficient grading by adjusting the re-grading of the luminance mapping function using only the specified coarse grading function F_CRS_MDR (HDR is complex). Affects).
しかしながら、より複雑な3つの領域のシーン(R1は明るい昼間の屋外の通りで窓を通して見える家のようなオブジェクトを示しており、中間領域R2は普通に明るい又は薄暗い、すなわち典型的なSDR輝度であり、R3は消灯している、すなわち暗い輝度である)については、すべての輝度サブレンジ及び対応するオブジェクト明度を、特に低いダイナミックレンジの小さなサブレンジ(例えばSDRレンジなど)に合理的にマッピングすることはより困難になる。そのような場合、グレーダは、追加の曲線、すなわち粗い等級分けから生じる相対輝度に適用される、すなわち示されるようにその粗い曲線形状から実質的に等しく逸脱する細かい等級分け曲線F_FINGRを使用することが最適であると見出す。しかしながら、このような戦略は、図16cの夜間の内部点灯のショップ窓のような「単純な」HDRシーンにも適用することができる。ショップ窓とそのオブジェクトを十分に印象的なコントラストで明るくして実際に輝かしいように見せるため(協調的に、しかしこの単独の画像を例えば5000ニットHDRディスプレイと1000ニットHDRディスプレイの両方にレンダリングするときには依然として100ニットのPB_D SDRディスプレイ上にディスプレイの制限された能力が許す限り合理的に近似して十分に良好となる)、及び、(少なくともマスタHDR等級分けにおいて)比較的暗い夜間の通りのオブジェクトピクセルを十分に明るく見えるようにするために、グレーダは、上端部が比較的平坦なF_CRS_MDR関数を生成することができる。これは、ショップ窓と暗い通りの両方について合理的な外観を全体的に、すなわち合理的な全体画像の外観を提供する。しかしながら、ショップ窓には、例えばショップ窓の中の炎、又はマネキンの白い首又はシャツの強く照らされた一部など、輝度、コントラスト、又は色のいずれか1つの性質に関して良好に現れない特定のオブジェクトが含まれる。したがって、グレーダは、補正曲線(すなわち、細かい等級分け曲線F_FINGR)を定義することができ、これは、例えばそのシャツの輝度に対応する輝度レンジのある部分において、例えば明度を低下させて、例えばより多くの内部オブジェクトコントラスト又はカラフルさ又はその関数が効果として実現するものを取得する(シーンの他の領域における類似の輝度を有する他のオブジェクトの変更を避けるために、空間的に局所化された様々な輝度マッピングが含まれることさえあるが、本システムのさらなる複雑さを説明することは本出願を理解するための必要性を超える)。 However, a scene with three more complex regions (R1 represents a house-like object visible through a window in a bright daytime outdoor street, and intermediate region R2 is normally bright or dim, i.e. with typical SDR brightness. Yes, for R3 is off, i.e. dark brightness), it is reasonable to map all brightness subranges and corresponding object brightness to smaller subranges with particularly low dynamic range (eg SDR range). It becomes more difficult. In such cases, the grader should use an additional curve, the fine graded curve F_FINGR, which applies to the relative brightness resulting from the coarse grade, i.e. deviates substantially equally from the coarse curve shape as shown. Finds the best. However, such a strategy can also be applied to "simple" HDR scenes, such as the nighttime internally lit shop window of FIG. 16c. To brighten the shop window and its objects with a sufficiently striking contrast to make them look really brilliant (cooperatively, but when rendering this single image on both a 5000 knit HDR display and a 1000 knit HDR display, for example) Still good enough to reasonably approximate as the limited capabilities of the display allow on a 100 knit PB_D SDR display), and relatively dark night street object pixels (at least in master HDR grading) To make it look bright enough, the grader can generate an F_CRS_MDR function with a relatively flat top. This provides a reasonable overall look for both shop windows and dark streets, i.e. a reasonable overall image look. However, certain items that do not appear well on the shop window with respect to any one property of brightness, contrast, or color, such as the flame in the shop window, or the white neck of a mannequin or a strongly illuminated part of a shirt. Contains objects. Thus, the grader can define a correction curve (ie, a finer classification curve F_FINGR), which can, for example, reduce the brightness in some part of the brightness range corresponding to the brightness of the shirt, eg, more. Many internal objects get the contrast or colorfulness or what its function achieves as an effect (spatially localized variety to avoid modification of other objects with similar brightness in other areas of the scene). Brightness mapping may even be included, but explaining the further complexity of the system goes beyond the need to understand this application).
面白いことに、粗い関数は、簡単なグレーダアクションですべてのオブジェクトの輝度を素早くほぼ正確に配置する(例えば、本実施形態の1つでは、1.0で始まる明るさの上部及び0.0で始まる関数の下部の勾配を決定する2つのダイヤルを回すことだけが必要であり、コーダは、本発明及び本出願の様々なHDR画像合成装置及びアプリケーションによって使用することができる滑らかな粗い等級分け曲線を自動的に決定する)。しかしながら、「実際の等級付け」は、グレーダが望むどんな細かい等級分けの曲線形状も決定することを可能にすることにより、画像オブジェクトの様々なピクセルの輝度、ひいては対応するオブジェクト内及びオブジェクト間のコントラストを微調整することによって開始することができる。 Interestingly, the coarse function quickly and nearly accurately arranges the brightness of all objects with a simple gradient action (for example, in one of the embodiments, at the top of the brightness starting at 1.0 and at 0.0. It is only necessary to turn the two dials to determine the gradient at the bottom of the starting function, and the coder can be used by the various HDR image synthesizers and applications of the present invention and the present application with a smooth coarse grading curve. Is automatically determined). However, "actual grading" allows the grading to determine any finely graded curve shape desired by the grader, thereby allowing the brightness of the various pixels of the image object and thus the contrast within and between the corresponding objects. Can be started by fine-tuning.
通常の復号器又はディスプレイチューナーは、単にそのままこの2つの曲線を使用する。符号化の方向に進むと(HDR画像情報をレガシーディスプレイにレンダリング可能なSDR画像として実際に通信する後方互換性のあるシステムを使用する場合)、最初に粗い、次に細かい等級分け関数を適用すると、符号化器の入力であったこの特定のHDRシーンのHDRマスタ等級分け画像に対応する最適な外観のSDR画像を生成する。復号化側では、実際には与えられた典型的なレンダリング状況下で最適になるように指定されたこれらの2つの最適関数間のリンクであるので、受信したSDR画像からマスタHDR画像近似を再構成するために、まさにこの細かい等級分け関数と粗い等級分け関数の逆関数が使用される。すなわち、HDRディスプレイを有する場合にはHDR画像をレンダリングし、典型的な視聴環境下で視聴されるSDRディスプレイを有する場合にはそのペアのSDR画像をレンダリングする(これらの2つの等級分けされた画像PB_Cからかなり逸脱したPB_Dのディスプレイを有する場合、本ディスプレイチューニングを用いてマスタHDR画像に適切に対応する中間ダイナミックレンジ外観画像を生成する、すなわち少なくとも低いディスプレイ能力が許容する範囲にそのオブジェクト輝度の外観を十分に近似させる)。 A normal decoder or display tuner simply uses these two curves as is. Going in the direction of encoding (when using a backwards compatible system that actually communicates HDR image information as a renderable SDR image on a legacy display), first apply a coarse and then fine grading function. , Generates an optimal appearance SDR image corresponding to the HDR master graded image of this particular HDR scene that was the input of the encoder. On the decoding side, the master HDR image approximation is re-applied from the received SDR image, as it is actually the link between these two optimal functions specified to be optimal under a given typical rendering situation. To construct it, the inverse of this very fine and coarse grading function is used. That is, if you have an HDR display, you render an HDR image, and if you have an SDR display that is viewed under typical viewing environments, you render that pair of SDR images (these two graded images). If you have a display with PB_D that deviates significantly from PB_C, this display tuning is used to generate an intermediate dynamic range appearance image that corresponds appropriately to the master HDR image, i.e., at least the appearance of that object brightness to the extent that low display capabilities allow. Sufficiently approximate).
しかしながら、今や、コンテンツを合成する必要がある状況にあり、すなわち典型的には少なくとも1つの輝度及びおそらくすべての画像の輝度を再び変更してそれらを調和させる必要がある。このような2つの曲線における等級分けの必要性の分割は、十分な局所コントラストのようなオブジェクト関連のニーズを、(合成に対して最適化されていても)利用可能な出力ダイナミックレンジ内の様々なサブレンジの一般的な圧縮から分離することができるので、非常に強力である。 However, there is now a situation where content needs to be composited, i.e. typically at least one brightness and perhaps all images need to be re-changed to harmonize them. The division of the need for grading on these two curves varies within the available output dynamic range (even if optimized for compositing) with object-related needs such as sufficient local contrast. It is very powerful because it can be separated from the general compression of various subranges.
したがって、アンカー輝度によって定義された粗い関数は、線形セグメントだけで構成されていても、例えばHDR映画を単に選択された合成レンジと実質的に同じピーク明度を有するダイナミックレンジにレンダリングするための元の粗い関数F_CRS_MDRよりも明らかに混合のために良好な等級分けであるので、サブレンジの代替の粗い配分として使用することができる。今や様々な実施形態は、F_CRS_MDR曲線の様々なサブセグメントの形状を相関させることができるが、通常はそれほど必要ではない。重要なのは、合成装置が、細かい曲線形状をなお本質的に維持しながら新たに割り当てられた様々な最適レベルに細かい等級分けの詳細を適用できる(すなわち、雲又は洞窟内部のようなマスタHDR画像の様々な意味的サブ領域をCombRngの様々なサブ領域にもたらす)ことである。したがって、偏差曲線を新しい位置(入力HDR輝度をF_Cmbである合成レンジにマッピングするための最適な粗い曲線に沿って)にシフトさせて、新たな合成に最適な細かい等級分け曲線F_FINCMBを実現することができる。これは、例えば単にマスタ輝度を同等にする、すなわち垂直ライン上で乗法的なずれ量をシフトさせることによって行うことができる。 Therefore, the coarse function defined by the anchor brightness is the original for rendering an HDR movie, for example, into a dynamic range with substantially the same peak brightness as the selected composite range, even if it consists of only linear segments. It can be used as an alternative coarse distribution of subranges, as it is clearly better graded for mixing than the coarse function F_CRS_MDR. Various embodiments can now correlate the shape of the various subsegments of the F_CRS_MDR curve, but are usually less necessary. Importantly, the synthesizer can apply fine-grading details to the various newly assigned optimum levels while still essentially maintaining the fine-curved shape (ie, for master HDR images such as inside clouds or caves. Bringing various semantic sub-regions to various sub-regions of CombRng). Therefore, the deviation curve should be shifted to a new position (along the optimal coarse curve for mapping the input HDR brightness to the composite range of F_Cmb) to achieve the finest graded curve F_FINCMB optimal for the new composite. Can be done. This can be done, for example, by simply equalizing the master luminance, i.e. shifting the multiplicative deviation on the vertical line.
読者は、このようなアンカーベースのシステムは複雑な輝度の再等級分けの要求であっても、なお比較的簡単でそれゆえ実行可能な態様で、様々なコンテンツを調和させるために非常に強力であることを理解し始めるべきである。 The reader finds that such an anchor-based system is very powerful for harmonizing various contents in a relatively simple and therefore feasible manner, even for complex brightness regrading requirements. You should start to understand that there is.
ここでは、装置がHDR画像及び合成レンジ内の関連する態様におけるそのようなアンカー輝度を自律的に決定するより簡単な実施形態を最初に説明する。最終的にはCombRngにおいてアンカー輝度を有することが重要であるが、これはいくつかの実施形態ではHDR画像内にある場合と容易に等しくすることができる(他の実施形態ではあまり容易ではなく、その場合HDR画像のコンテンツ作成者はそれを明白にL_S2A1として共符号化することができる)。例えば顔を持つという重要な例でその原理を説明する(もちろん、人は重要なので、多くの画像やビデオには少なくとも1人の俳優又は司会者などがおり、彼らは典型的にはコンテンツ作成者によって合理的にうまく照らされるが、LDR領域では何が合理的に良いのか、それが本当に必要なのかは決して正確には決まっていない)。しかしながら、当業者は、アンカー輝度に関する教示が一般的であるので、例えば中間のグレー輝度のような顔を有していないとしても他の画像に対して他のアンカー輝度を有することができることを理解すべきである。読者は、LDR時代には中間グレーはユニークで非常に正確なものであったが(符号化の途中で典型的には平均的に見えるグレーとしてレンダリングされ、白の約18%のオブジェクト反射率又は相対的な白に対する白のレンダリングであるためPB_Dの約18%に相当する入射照明を有する元のシーンに対応する)、HDRでは全くユニークではないということを理解すべきである(特に非常に正確なライティングとキャプチャの態様でLDRのストレートジャケットでHDRコンテンツの再度の使用を強制したくないが、シーンを自由に照明し自由にコンテンツを芸術的に等級分けすることを望む場合、相対的に暗く照明された画像又は画像の暗い領域に中間グレーの反射オブジェクトが存在し、比較的明るく照明された画像又は領域に同じグレーのオブジェクトが存在する可能性があるからである)。 Here, a simpler embodiment in which the device autonomously determines such anchor brightness in HDR images and related aspects within the composite range will be described first. Ultimately it is important to have anchor brightness in CombRng, but in some embodiments this can be easily equalized as it is in the HDR image (not so easily in other embodiments). In that case, the content creator of the HDR image can explicitly co-encode it as L_S2A1). Explain the principle with an important example of having a face, for example (of course, because people are important, many images and videos have at least one actor or moderator, who are typically content creators. It is reasonably well illuminated by, but in the LDR area it is by no means exactly what is reasonably good and whether it is really needed). However, those skilled in the art will understand that since teachings about anchor brightness are common, they can have other anchor brightness for other images even if they do not have a face such as intermediate gray brightness. Should. Readers have found that in the LDR era, intermediate grays were unique and very accurate (rendered as typically average-looking grays in the middle of encoding, with an object reflectivity of about 18% of white or It should be understood that HDR is not quite unique (especially very accurate), as it is a rendering of white relative to white, which corresponds to the original scene with incident illumination corresponding to about 18% of PB_D). Relatively dark if you don't want to force the HDR content to be used again with the LDR straight jacket in a straightforward lighting and capture manner, but want to freely illuminate the scene and freely grade the content artistically. There may be an intermediate gray reflective object in the illuminated image or dark area of the image, and the same gray object in the relatively brightly illuminated image or area).
(各装置が任意の画像入力のそれぞれの特定の輝度状況が何であるかを迅速に理解できるように)これらのアンカー輝度のいくつかが標準化されていると有利であるが、第1の画像が第2の画像よりも別のタイプのアンカーで指定されたとしても、又は装置がCombRngを特定するのに最適であると決定する(ただ1つの場合の)アンカーとは画像のアンカーが異なる場合、それらの様々な仕様は依然としておおよそ関連する可能性がある。例えば、黒が正確に指定されていない場合(もちろんHDRと同様に様々な白及び輝きがあり様々な黒がある)、装置は状況(PB_D又はディスプレイの他の能力、及び場合によっては視聴環境)に応じて、(それが第1のアンカー輝度ancであるか又は補助的な第2のアンカー輝度であろうがなかろうが)装置がメインミドルグレーとして決定したものよりも例えば2.5ストップ又は4ストップ低くそれがレンダリングされると仮定する。黒は、記述することができ(すなわち、ビデオ符号化し)、処理、例えばより低い又はより高い精度でレンダリングすることができる。コンテンツの作成者が黒の中で何が起こっているか気にする、例えば茂みに隠れている犯罪者の重大な行為があり、それは視聴者によって「半分知覚される」すなわち目立ちすぎることなく見逃されないようにすべきである場合、そのサブレンジ又は色処理体制に対する追加的な記述メタデータで画像又はビデオに注釈付けすべきである。特に、作成者は、黒に対して少なくとも1つのアンカー輝度を定義すべきである。現在のHDRシーンでは暗い地下に写真のような背景テクスチャがあるだけで、それらがよく見られるかそれほどよく見られなくても多かれ少なかれ同等の意味品質でレンダリングされるため作成者があまり気にしない場合、作成者は、黒色の典型的な受信側又は中間側の最適化に頼ることができ、レンダリング装置は、それが依然として合理的に黒く見える限り(すなわち深い黒色、良好な黒色、又は乳白黒色)、それらを様々な輝度レベルでレンダリングすることができる。 It would be advantageous if some of these anchor brightnesses were standardized (so that each device could quickly understand what each particular brightness situation of any image input was), but the first image If specified by a different type of anchor than the second image, or if the image anchor is different from the anchor (in the case of only one) that the device determines to be optimal for identifying the CombRng. Those various specifications may still be roughly related. For example, if black is not specified correctly (of course there are different whites and shines and different blacks as in HDR), the device is in a situation (PB_D or other capabilities of the display, and in some cases the viewing environment). Depending on (whether it is the first anchor brightness anc or the auxiliary second anchor brightness), for example 2.5 stops or more than what the device determined as the main middle gray. Suppose it is rendered 4 stops lower. Black can be described (ie, video-encoded) and processed, eg, rendered with lower or higher accuracy. There is a serious act of a criminal hiding in a bush, for example, where the creator of the content cares about what is happening in the black, which is "half-perceived" by the viewer or overlooked without being too noticeable. If not, the image or video should be annotated with additional descriptive metadata for its subrange or color processing regime. In particular, the author should define at least one anchor brightness for black. In today's HDR scenes, there are only photographic background textures in the dark underground, and the creators don't care too much because they are rendered with more or less the same semantic quality, whether they are common or not. If the author can rely on a typical receiver or intermediate optimization of black, the renderer can rely on the renderer as long as it still looks reasonably black (ie deep black, good black, or opalescent black and white). ), They can be rendered at different brightness levels.
したがって、ユーザが本発明の主要な点を容易に把握できるように簡単な例を挙げて言えば、合成輝度ダイナミックレンジ(CombRng)におけるアンカー輝度(anc)は、合成された(出力)画像において顔が適切に見えるようにするために顔の輝度をどのようにすべきか指定する。これはもちろん、顔がよく照らされているか、強く照らされているか、又は影になっているかに依存する。これは、例えばコマーシャル、BD解説、又はテレビ電話会話などにおける俳優又は人が、映画内のものよりもはるかに明るくないということを避ける。もちろん、装置は、必ずしも2つの顔輝度を正確に並べる必要がない手段を有するが、オフセット輝度でレンダリングする(例えば、主要なHDR映画の俳優が意図的に非常に暗い場合にいるが、HDR映画の残りの部分は(非常に)明るい場合、コマーシャルはその映画俳優の輝度特質に必ず暗くなる必要はなく、合成装置のいくつかの実施形態は、例えば映画の暗いシーンがどれくらい長く既に撮影されたのかのようなヒューリスティックを使用することによって、例えば以前のかなりの異なるanc輝度又は例えば昼光のシーンのタイプの経過時間を維持することによって、さらに決定することができることに留意すべきであり、いくつかの実施形態は、さらなるメタデータ、例えば暗いシーンがどのぐらい残っているかを示す第2のデータ要素を有する映画シーンの始めのancでanc輝度に注釈を付けることさえ可能であるが、コンテンツ作成者の中には多くの注釈を行うことによるトラブルに巻き込まれたくない場合があると仮定して実施形態の本質を説明し、ポインタを使って画像又はヒストグラムのような別の表現のどこかをクリックする単純な行為を行って、現在のanc値を定義し、これはもちろんユーザインタフェースで行うことができ、人間のanc値の選択の検証として赤い疑似カラーのanc値付近のレンジ又はその近傍の画像におけるすべての輝度を示すことによって示すことができる)。 Therefore, to give a simple example so that the user can easily grasp the main points of the present invention, the anchor brightness (ank) in the composite brightness dynamic range (CombRng) is the face in the composite (output) image. Specifies what the brightness of the face should be so that it looks good. This, of course, depends on whether the face is well illuminated, strongly illuminated, or in the shadows. This avoids that the actor or person in, for example, a commercial, BD commentary, or videophone conversation is not much brighter than in the movie. Of course, the device has a means that does not necessarily have to align the two face brightness exactly, but renders with offset brightness (eg, when the major HDR movie actors are intentionally very dark, but the HDR movie If the rest of the movie is (very) bright, the commercial does not necessarily have to be darkened by the brightness characteristics of the movie actor, and some embodiments of the synthesizer, for example, how long a dark scene in a movie has already been shot. It should be noted that by using a heuristic as such, it can be further determined, for example by maintaining a significantly different anc brightness earlier or, for example, the elapsed time of the daylight scene type. It is even possible to annotate the anc brightness at the beginning anc of a movie scene with additional metadata, eg, a second data element indicating how much dark scene remains, but content creation. Explain the essence of the embodiment, assuming that some people do not want to get into trouble with many annotations, and use pointers to somewhere else in the representation, such as an image or a histogram. A simple click action is taken to define the current anc value, which can of course be done in the user interface and is in or near the range near the red pseudo-colored anc value as a validation of human anc value selection. It can be indicated by showing all the brightness in the image).
したがって、装置は、状況の詳細に応じて、良好な顔のレンダリング輝度(この説明の例のanc)が実際にはどこにあるべきかを知る(さしあたり約36%の波長にわたって平均した分光反射率を有する白人顔を仮定し、もちろん例えば5%の反射率の他の皮膚タイプは、その局所照明下で関連するCombRngの輝度位置に落ちる)。読者は、さらなる詳細に煩わされることなく、CombRngが現在の説明ではまさにHDR画像のダイナミックレンジ(図4のIm2_Rng)であるという様々な重要な側面の想定をより容易に理解することができ、装置は、最も重要な顔の輝度はその範囲に沿っていることを知る。上述したように、装置の様々な実施形態において、最適なCombRngの様々な代替的決定が可能であり、これは一方では既に知られているか推定可能な限り少なくともいくつかの入力画像の輝度特性(符号化可能な輝度レンジ、実際にレンジ内のコンテンツなど)に依存し、他方では、画像コンテンツの実際に確立された又は期待される使用、例えば視聴環境(すなわち、実際には一般的な画像、平均画像又はテスト画像、及び特定の現在の画像の典型的な外観)においてコンテンツがレンダリングされるディスプレイの輝度能力に依存する。顔は単に1つの色又は輝度を有するわけではない傾向があるので(一部の映画では顔が青などに塗られていることは言うまでもない)、これは既に複雑である。LDR画像であっても様々な顔を研究すると、多くの顔は通常照明領域と陰影領域との間のコントラストがより少なく、すなわち正常であるが、原理的にLDRレンジの限界までピクセルルマを含むことができることを理解する(すなわち、非常にコントラストのあるキャプチャ又は等級分けにおいて、顔の暗い部分の少なくともいくつかのピクセルは例えばバックライト付き撮影でほぼゼロであり、ハイライトは255にクリッピングされ、消費者のコンテンツでは顔の半分がクリッピングされた白として侵食されて見えることさえある)。ここでは、例えば現実の現場作成においてコンテンツを明るく照らされた画像と特別に照らされた画像に分けることができる(現代では、ニュース番組などにおいて非専門家によって作成された画像を組み込むことさえあり、それが夜景である場合には、実際に顔がひどく照らされる可能性がある)。そのような複雑な状況では、正確なレンダリング又は合成をあきらめてもよいと言えるかもしれないが、一方では、ある画像コンテンツが第1の場所でより異常に(良いキャプチャ習慣から逸脱して)撮影され、適切なanc値を使用して後でそれを整えることにより多くの恩恵を受けることができると言うことができる(例えば、現場のカメラマンが、例えば何らかの理由でシーンの暗い部分に立たなければならない人を照らすことができない場合など不都合な状況に遭遇し、少ないDR能力のカメラしかない場合、撮影画像を完全ではない態様で最適化する必要があるが、少なくともancメカニズムを用いて、例えば作成ハウスなどにコンテンツを伝達する前に、カメラディスプレイ上に又はポータブルコンピューティングデバイス上でスタイラスを用いるように単純に、この画像の(エキゾチックな)詳細に素早く注釈を付けることができる)。例えば暗い夜間シーンを昼間のシーンであるかのように写すことができるカメラのような良好なカメラ及び他の画像処理装置の出現により、今後数年間、例えばいまだに古い悪い品質の携帯電話でニュースコンテンツを提供する人もおり、様々な作成基準及びレベルが存在するため、(HDR)画像処理の複雑さが増すだけであることが予想される。だから最善の解決策は、すべてのそのような状況をうまく処理できる技術を作ることである。例えば、ギャング映画は、例えばコントラストのある顔及び髪の毛又は素っ気ない顔への強烈なハイライトがあるシネノワールなど激しい照明を有する場合がある。トークショーは、時には一般人にとってはほとんど気付かない影があるコントラストの弱い態様で照明され、女性をより明るく均一な照明で照らす場合がある。それは、例えば重要であるがむしろ符号化された画像に含まれるもの(コントラストがどのようにマスタ等級分けされるか)が撮影されたときのシーンの顔の4:1の元の照明比(最も明るい顔の半分と最も暗い顔の半分)ではないことにも留意すべきである。このコントラストは、典型的にはカメラ内のRAW輝度からのルママッピングを受けており、画像がセルロイド画像又は映画からのスキャンである場合、最終的なコントラストは、現像、プッシュなどの側面に依存し得る。 Therefore, the device knows where good facial rendering brightness (anc in the example of this description) should really be, depending on the details of the situation (for the time being, the spectral reflectance averaged over a wavelength of about 36%). Assuming a white face with, of course, other skin types with a reflectance of 5%, for example, fall to the brightness position of the relevant CombRng under its local illumination). Without being bothered by further details, the reader can more easily understand the assumptions of various important aspects that CombRng is exactly the dynamic range of the HDR image (Im2_Rng in FIG. 4) in the current description, and the device. Knows that the most important facial brightness is in that range. As mentioned above, in various embodiments of the apparatus, various alternative determinations of optimal CombRng are possible, on the one hand, the brightness characteristics of at least some input images that are already known or can be estimated. Depends on the encodeable brightness range, the content that is actually within the range, etc., and on the other hand, the actual established or expected use of the image content, such as the viewing environment (ie, the image that is actually common). It depends on the brightness capability of the display on which the content is rendered (typically the average or test image, and the typical appearance of a particular current image). This is already complicated, as the face tends not to have just one color or brightness (not to mention that in some movies the face is painted blue or the like). When studying various faces, even in LDR images, many faces usually have less contrast between the illuminated and shaded areas, i.e. normal, but in principle contain pixelulma to the limit of the LDR range. Understand that (ie, in very contrasting captures or grading, at least some pixels in the dark areas of the face are nearly zero, for example in backlit shots, and highlights are clipped to 255 and consumed. In his content, half of his face may even appear eroded as clipped white). Here, for example, in real-life on-site creation, content can be divided into brightly illuminated images and specially illuminated images (in modern times, even incorporating images created by non-experts in news programs, etc. If it's a night view, the face can actually be badly illuminated). In such complex situations, it may be safe to give up accurate rendering or compositing, but on the other hand, some image content is shot more abnormally (out of good capture habits) in the first place. It can be said that many benefits can be gained by using the appropriate anc value and trimming it later (for example, if the on-site photographer does not stand in the dark part of the scene, for example for some reason). If you encounter an inconvenient situation, such as when you cannot illuminate a stylus, and you have only a camera with low DR capability, you need to optimize the captured image in a non-perfect manner, but at least create it using the anc mechanism, for example. You can quickly annotate the (exotic) details of this image simply as using a stylus on a camera display or on a portable computing device before transmitting the content to a house or the like). With the advent of good cameras and other image processors, such as cameras that can capture dark night scenes as if they were daytime scenes, news content in the next few years, for example still old bad quality mobile phones. It is expected that the complexity of (HDR) image processing will only increase due to the existence of various production criteria and levels. So the best solution is to create a technology that can handle all such situations well. For example, a gangster movie may have intense lighting, such as a cinenoir with intense highlights on a contrasting face and hair or a dull face. Talk shows are sometimes illuminated in low-contrast fashion with shadows that are barely noticeable to the general public, sometimes illuminating women with brighter, more uniform lighting. It is, for example, the original illumination ratio of 4: 1 on the face of the scene when what is important but rather contained in the encoded image (how the contrast is master graded) was taken (most). It should also be noted that it is not half the bright face and half the darkest face). This contrast typically undergoes Luma mapping from RAW brightness in the camera, and if the image is a scan from a celluloid image or movie, the final contrast depends on aspects such as development, push, etc. obtain.
この態様を顔色のレンジがあるものとして特定する、例えば図4の説明例では、LDR画像の顔色は柔らかく照らされており(したがって輝度R_f小さなレンジ)、HDR画像内の顔はホラー映画であるので厳しく照明を受け、より大きなレンジR_f2を導き、例えば人はスポットライトでまれに照明された廊下を歩くことができ、平均値の前後で時間とともに顔が暗く及び明るくなる。また、顔がどのように幾何学的に照らされているかが関係する。例えば禿げた頭に小さな白いスポットが存在し、この画像がCombRng内の他のHDR映画とあまりにも明るく不適切に混合された場合、頭にランプが突き出ているように見えるという発言を聞く場合がある(視聴者はそのような人物が素早く画像の中で動き、潜在的に話の一部を失うか又は少なくとも画像の間違った部分に気を散らすときに、そのような混乱した認識をする可能性がある)。しかしながら、2ピクセルの小さなスポットは必ずしも大きな問題ではない。これは、通常、典型的な顔の色を決定するために無視することができる。HDRディスプレイにレンダリングされると、その人は非常に明るいランプで照らされているように見えるが、少なくともスポットは小さい(例えば2ピクセル)。もし鼻全体、目、又は顔の半分全体に同じことが起これば、もっと戸惑うかもしれない。 This aspect is specified as having a range of complexion, for example, in the explanatory example of FIG. 4, the complexion of the LDR image is softly illuminated (thus, the brightness R_f is small range), and the face in the HDR image is a horror movie. Severely illuminated, leading to a larger range R_f2, for example, one can walk in a corridor rarely illuminated by spotlights, and the face becomes darker and brighter over time before and after the average value. It also has to do with how the face is geometrically illuminated. For example, if you have a small white spot on your bald head and this image is too bright and improperly mixed with other HDR movies in CombRng, you may hear a statement that the lamp appears to stick out on your head. There is (the viewer can make such a confusing perception when such a person moves quickly in the image and potentially loses part of the story or at least distracts from the wrong part of the image. There is sex). However, a small spot of 2 pixels is not necessarily a big problem. This can usually be ignored to determine a typical face color. When rendered on an HDR display, the person appears to be illuminated by a very bright lamp, but at least the spots are small (eg 2 pixels). If the same thing happens to the entire nose, eyes, or half of the face, it may be more confusing.
したがって、コンテンツ内の顔の輝度(例えば、最初のL_SA1、例えばLDR画像)を示すことができることにより、作成者は、どこに顔の輝度があるかだけでなく、潜在的にどの輝度分布タイプであるかを容易かつ迅速に示すことができる。例えば、髪の毛に小さなハイライトのみがある場合、実際の顔の暗いピクセルの平均をL_SA1として使用し、明るくレンダリングされたいくつかのピクセルはよく見える。一方、顔の半分(又は半分以上)が強く照明されている場合、その平均値又は他の特徴的な輝度値をL_SA1として使用し、残りは暗くレンダリングされ、これは典型的にはこの顔がマージされるすべてのコンテンツをマージするためにより良い態様である。この場合、作成者は、例えば通常の照明の上のXストップなど顔が実際には変則的に明るく照らされた顔であることを追加のメタデータで示すことができる。そのような情報は、合成装置によって、この顔を(およそ)どの輝度にレンダリングすべきであるか(CombRngにおけるanc位置の上又は下)を判断するために有利に使用することができる。白人(白色)の顔の通常の照明は、波長全体で平均して36%の反射率を与える反射スペクトルから取得することができる。これは、中間グレーの18%を上回る1ストップである(これらの2つの関連する値を作成する)。上記のように、古典的なLDRフレームワークでは、この中間グレーをディスプレイピーク明度の約18%にレンダリングする、例えば12%の場合もある。もちろん、他のレースは、肌の種類によって少し暗くレンダリングする必要があり、そうしないと映画の俳優の肌の種類を実際に検出することはそれを望む人にとって難しく、それが混乱を招く可能性があるからである。例えば、黒い皮膚は、5%程度の低い反射率である、すなわち典型的な白人よりも3ストップだけ暗い。レンダリングに関しては、素敵な「明るい」顔になるように、100ニットのピーク輝度の36%よりもLDRレンジにおいていくらか明るく顔をレンダリングする。例えば、画像作成者は、例えばルマの正規化された符号化において85%又は80%であるこの顔オブジェクトの「平均」又は基準輝度のルマコードをメタデータの第1フィールドに示すことができ(EOTFを介してルマを絶対輝度に計算することができる)、第2の現場において、これは、シーン内のその場所の残りの部分とその画像などより2ストップ明るく照らされたことを意味する「2SB」型の顔輝度であることを示すことができる。読者は、異なる符号化メカニズムによって同じことが達成され得ることを理解する、例えば顔の色(例えば最も明るいもの、又は95%のもの、又は顔の中の最も明るいものであって髪のハイライトではないもの)をまだ含んだkストップ明るい輝度である第2のアンカーポイントL_S2A1pkS、及び、このHDR画像又はビデオ画像のショットにおけるこの顔のいくらかの暗い端部を指定する第3のアンカーポイントL_S2A1mkSも符号化することができる。したがって、様々なタイプのアンカーポイントは、(システムを実装する様々な標準によって合意されるように)標準的に理解できる態様で示すことができ、例えば「顔36」、「顔18」、「顔72」、「顔5」、「暗い中間グレー」、「中間黒」、「深い中間黒」などの列挙型のセット、又は例えば「顔」+「1ストップ以上」+「暗い」などの階層的なデータの連続注釈のいずれかを使用することができ、顔は、特定の種類の照明を有する画像のその部分に存在する平均光量の36%の反射、又は、より重要なのは正しいレンダリングされたシーンの外観を与えるためにそれらのピクセルのレンダリングに使用されるディスプレイのダイナミックレンジの特定のサブレンジを意味する。「暗い」は、例えば10−100ニットレンジのほとんどの又はすべてのディスプレイに典型的にレンダリングされる中間の明るい色であり、その下には少なくとも1つの黒色領域、及び好ましくは照明がやや劣る「黒色」の領域、すなわち典型的にHDRの芸術シーンレンダリングにおいて例えば城で主人公が単にキャンドルを歩いているときに見られる深い影のある風景のために使用される最大10で除算した暗い照明値(又は典型的には1−10ニットの輝度)、及び通常の1/100までの深い黒色の領域、暗い照明(すなわち0.xから1ニットの輝度)があるべきである。暗い照明の上には、「明るい」領域を追加すると、うまく制御された高品質のHDRシーンの素晴らしい結果を得ることができるはずであり(TV視聴のために約10倍の明るい屋外をレンダリングし、実際のシーンでは100倍以上の明るさ、つまり100−1000ニットの輝度になる)、「極端な明るさ」については、例えばランプ、爆発など、すなわち例えば1000−10,000ニットの上限サブレンジを有するハイエンドHDRディスプレイを有することを依然として興味深くする効果をレンダリングすることができる。ディスプレイチューニング(画像構造の絶対符号化の後にディスプレイ関連性の正しいレベルを再度導入することによってシーン参照された画像符号化とディスプレイ参照された画像符号化との間のギャップを最終的に橋渡しする)のため、又はこの出願のように正しい画像の合成のための制御は、5つのシーンで正確な差別化された制御を可能とし、十分でなければならない。実際には、現実に存在するか又はアーティストが作ることができるHDRシーンのタイプの調査を行う場合、しばしば例えば図16cの夜間の店のような2つの領域画像を見ることになり(1つの領域は一様に照明された画像でありもちろん典型的にSDR符号化可能である)、図16bのような3つの領域画像に遭遇する可能性はやや低く、5つの異なる照明方式の完全なパワーが必要な場合、実際に複雑なHDRシーンを作成している(おそらくいくつかの映画ではコマーシャルとして冒頭にのみ現れるHDRの最終的な可能性を示している)。しかしながら、読者は今、この原理がより小さい又はより複雑な実施形態に限定されないことを理解するであろう。コンテンツグレーダが1つのanc値のみを指定する場合、そのanc値に対する様々な画像コンテンツの調和は既に可能である。これは、典型的には、画像内に例えば単独の俳優又は司会者などのクリティカルオブジェクトが1つだけ存在する場合に発生する(しかしながら上述のように、この俳優はたとえ非常にコントラストがあるように照らされても典型的な照明と輝度を1つしか持たないが、理論的には0ニットとPB_Cの間の任意のものになり得る)。アンカータイプに特に必要なものが何もない場合、合成装置は中間グレー値に関連する通常のアンカー、及び典型的には「暗い」通常のレンダリング輝度で動作すると想定される。そのため、1つのanc値のみを注釈するコンテンツ作成者は、典型的には俳優の(シーン及びその画像のその領域の局所照明における)中間グレー位置のための代表値を使用すべきであり、例えば2つのモードのヒストグラムでは太陽の中に存在し、次にそのタイプに例えば「明るい」という注釈を付け、これによりこの単純な少量の情報でも合成装置は何をすべきかをきちんと判断することができる(例えば映画があまり乱されるべきではない場合、「明るい」俳優をとにかく映画内の暗いPIPとしてコマーシャルにレンダリングすることを決定することができ、又は明度の印象を許容するために、例えば(明るい+暗い/2)、例えば(30+300)/2ニットで明るい俳優を暗いレベルよりやや上にレンダリングすることができ、標準がさらなるメタデータの通信を可能にし、このメタデータが記入されている場合、例えばコマーシャルのようなコンテンツの作成者は、好みの「明るい」レンダリングから過度に逸脱したくないことを示すことができるが、例えばエンド視聴者がUIを使って映画を楽しみたいことを示している、すなわち映画のヒストグラムにおいて明るい挿入コンテンツの妨害エラーを低減することが好ましいというような様々な理由から、装置はこれを無視することができる)。 Thus, by being able to indicate the brightness of the face in the content (eg, the first L_SA1, eg the LDR image), the creator can not only see where the brightness of the face is, but also potentially which brightness distribution type. Can be shown easily and quickly. For example, if the hair has only small highlights, the average of the dark pixels of the actual face is used as L_SA1 and some brightly rendered pixels look good. On the other hand, if half (or more than half) of the face is heavily illuminated, its mean or other characteristic brightness value is used as L_SA1 and the rest is rendered dark, which is typically this face. This is a better way to merge all the content to be merged. In this case, the creator can show with additional metadata that the face is actually an anomalous brightly lit face, for example an X-stop on normal lighting. Such information can be advantageously used by the synthesizer to determine (approximately) to what brightness this face should be rendered (above or below the anc position in CombRng). Normal illumination of a white (white) face can be obtained from a reflection spectrum that gives an average reflectance of 36% across wavelengths. This is one stop above 18% of the mid-gray (creating these two related values). As mentioned above, the classic LDR framework renders this intermediate gray to about 18% of the display peak brightness, for example 12%. Of course, other races need to be rendered a bit darker depending on the skin type, otherwise it's difficult for anyone who wants to actually detect the skin type of a movie actor, which can be confusing. Because there is. For example, black skin has a low reflectance of about 5%, that is, 3 stops darker than a typical white person. In terms of rendering, the face is rendered somewhat brighter in the LDR range than 36% of the peak brightness of 100 knits for a nice "bright" face. For example, the image creator can indicate in the first field of the metadata the Luma code of the "average" or reference brightness of this face object, which is, for example, 85% or 80% in the normalized encoding of Luma (EOTF). In the second scene, this means that the rest of the place in the scene and its image etc. were illuminated by 2 stops brighter than "2SB". It can be shown that the face brightness is of the type. The reader understands that the same can be achieved by different coding mechanisms, such as the color of the face (eg the brightest, or 95%, or the brightest in the face and hair highlights. A second anchor point L_S2A1pkS, which is a k-stop bright brightness that still contains (but not), and a third anchor point L_S2A1mksS that specifies some dark edges of this face in this HDR or video image shot. It can be encoded. Thus, different types of anchor points can be presented in a standardly understandable manner (as agreed by the various standards that implement the system), eg, "face 36", "face 18", "face". An enumerated set such as "72", "Face 5", "Dark Intermediate Gray", "Intermediate Black", "Deep Intermediate Black", or hierarchically such as "Face" + "1 stop or more" + "Dark" You can use any of the continuous annotations of the data, the face will reflect 36% of the average amount of light present in that part of the image with a particular type of illumination, or more importantly the correctly rendered scene. Means a specific subrange of the dynamic range of the display used to render those pixels to give the appearance of. "Dark" is an intermediate light color that is typically rendered on most or all displays in the 10-100 knit range, for example, under which there is at least one black area, and preferably slightly less illuminated ". Dark lighting values divided by up to 10 used in areas of "black", i.e. typically used for deep shadowed landscapes seen when the protagonist is simply walking a candle in a castle, for example in HDR art scene rendering ( Or typically there should be 1-10 knit brightness), and a deep black area up to 1/100 of the normal, dark illumination (ie 0.x to 1 knit brightness). Adding a "bright" area on top of dark lighting should give you great results for well-controlled, high-quality HDR scenes (rendering about 10 times brighter outdoors for TV viewing). In an actual scene, the brightness is 100 times or more, that is, the brightness is 100-1000 knits.) For "extreme brightness", for example, a lamp, an explosion, etc., that is, an upper limit subrange of 1000-10,000 knits, for example. It is possible to render effects that still make it interesting to have a high-end HDR display with. Display tuning (finally bridging the gap between scene-referenced image coding and display-referenced image coding by reintroducing the correct level of display relevance after absolute coding of the image structure) Controls for correct image composition, as in this application, or for correct image composition, must allow and be sufficient for accurate differentiated control in the five scenes. In practice, when investigating the types of HDR scenes that actually exist or can be created by the artist, one often sees two area images, such as the night shop in Figure 16c (one area). Is a uniformly illuminated image and of course typically SDR-encoded), the chances of encountering a three-region image as shown in Figure 16b are somewhat low, and the full power of five different illumination schemes. If you want, you're actually creating a complex HDR scene (perhaps some movies show the ultimate potential of HDR appearing only at the beginning as a commercial). However, the reader will now understand that this principle is not limited to smaller or more complex embodiments. If the content grader specifies only one anc value, it is already possible to harmonize various image contents with that anc value. This typically occurs when there is only one critical object in the image, for example a single actor or moderator (however, as mentioned above, this actor is even very contrasting. It has only one typical illumination and brightness when illuminated, but can theoretically be anything between 0 knit and PB_C). If nothing is specifically required for the anchor type, the synthesizer is expected to operate with normal anchors associated with intermediate gray values, and typically "dark" normal rendering brightness. Therefore, content creators who annotate only one anc value should typically use the representative value for the mid-gray position (in the local illumination of the scene and its area of the image) of the actor, eg. The two-mode histogram is present in the sun, then annotating that type, for example, "bright", which allows the synthesizer to make a good decision on what to do with this simple small amount of information. (For example, if the movie shouldn't be too disturbed, it can be decided to render the "bright" actor commercially as a dark PIP in the movie anyway, or to allow the impression of lightness, for example (bright). + Dark / 2), for example (30 + 300) / 2 knit, can render a bright actor slightly above the dark level, and the standard allows further metadata communication, if this metadata is filled in. Authors of content, such as commercials, can show that they don't want to deviate too much from their favorite "bright" rendering, but for example, end viewers want to enjoy a movie using the UI. The device can ignore this for a variety of reasons, i.e. it is preferable to reduce jamming errors in brightly inserted content in cinematic histograms).
もちろん、グレーダがさらにanc値に注釈を付ける場合、グレーダは例えばグレーダの「深い黒」を指定して、合成装置は、明るい観察環境で最終的にレンダリング可能な悪い黒のために準備されているかどうかにかかわらず、その最終的な合成においてこれを考慮に入れることができる(すなわち、実際のシステムへのディスプレイチューニングの前に理想的なレンダリングシステムの理論上完全なフレームワークにおいて合成が行われる)。 Of course, if the grader further annotates the anc value, the grader specifies, for example, the "deep black" of the grader, and is the synthesizer prepared for bad black that can ultimately be rendered in a bright observation environment? Regardless, this can be taken into account in its final compositing (ie, compositing takes place in the theoretically complete framework of an ideal rendering system prior to display tuning to the actual system). ..
したがって、顔色をおおよそどこに置くかを示しているアンカー輝度(anc)(この実施形態の説明を簡単にするためにHDR顔色は既にその輝度レベルにあると仮定するので、HDR画像から顔色を得ることは、複雑な輝度マッピングの考慮を必要としない些細なことである)、及び、少なくとも主顔色がLDR画像内にある場所(ソースアンカー輝度L_SA1)を識別する態様の両方を有することによって、装置は、出力画像として合成画像で正確に合成された両方の画像のすべての顔色を比較的単純に配置することができる。そして、最も簡単な実施形態であっても、(顔から始まる)周囲の色及び他のすべての画像色は、そのアンカー輝度(anc)を中心に比較的良好に自動的に落ちる。他の色に対する哲学も、これらの技術的なレンダリングシナリオについてより詳細に機能する必要はないので、比較的シンプルである。他のすべての色が中間グレーの周りで約2−2.5ストップの範囲に収まる(例えば、白は典型的には線形輝度において90%又は5倍明るい)と、良好な画像が得られる。印刷物はしばしば非常に深い黒を得ることができず、実用的なLDRテレビは、テレビのフロントガラスでの光の反射を考慮して典型的には32:1(ピーク白色対なお合理的に区別できる深い黒色)に制限されていた。画像オブジェクトコンテンツが5ストップであることは、暗い色、特に重要な黒が中間グレーから2−2.5ストップ以内にあることを確認した場合、よく照らされたLDRシーンの暗い側でも合理的に問題ないことを意味する。原理的にはこれらすべては、HDR画像処理では、特に合成とレンダリングでは何も意味しないため、改善されたメカニズム、及び特に複雑さの観点では(画像は何でも含むことができる)意味的に何が関係しているのかの人間の案内、よって何が良い合成であるかが必要である。より複雑な実施形態は、アンカー輝度ancによって位置決めされる理解しやすいこの例では顔である主オブジェクトの周りに他のオブジェクト輝度をスマートに配置する態様のスマートに調整された選択を行うことができる。例えばアンカーポイントがレンジの限界であるなどの注釈を付けることができる。疑念を避けるために、ビデオを意味するときは、単に時間的に連続した画像を意味し、及び、特定の戦略を映画の全体に同様に適用すべきであるということに限定せず、むしろその映画の一部、例えば同じシーンの画像のショットだけに適用することができる(すなわち、例えば異なるオブジェクト輝度特性を有する新しいコマーシャルが後で合成される場合には確かに、異なる時間の瞬間にCombRngが異なる可能性がある)。本発明の実施形態の大部分の特徴は、スチール又はビデオが使用されているかどうかにかかわらず、少なくとも空間的な合成に関して類似しているので、退屈で読みにくい公式化を避けるために、2つの実施形態のうちの1つを区別する必要がない場合に説明においてビデオ又は画像を使用することができ、読者はもう一方も読み取ることができることを理解すべきである。第1の(ソースアンカー)輝度を第2の輝度(合成レンジアンカーanc)にマッピングする関数の決定は、様々な実施形態のために読者に十分に明確であるべきである。上述したように、例えば、合成装置の色変換ユニットを、対角線から必要な位置までの特定の入力(ソース画像)輝度を上げ、そのラインを入力レンジと出力レンジの最大値と最小値(0及び[PB_C_image_1;LMC])に接続する2部分線形関数を作るように簡単に構成することができるが、画像の輝度を再処理して異なるダイナミックレンジ又は明度などに対してより適切にする特定の形状の関数を備えている場合は、例えばその関数を線形にスケーリングして、ancSの点がY軸のanc出力値になるようすることができる。正確なアンカーコロケーションを使用する必要はないが、そのanc値の周りの(過度に大きくない)近傍で動作する同様のシステムをどのように構築できるかも明らかでなければならない。使用可能な近傍は、コンテンツ作成者がソースメタデータ内で示したもの(例えば、このアンカーはその正確な値の20%の偏差でレンダリングされる)と、合成装置が状況に応じて決定するものと間の任意の合成として確立することができる(上述のように、例えばコマーシャル内の顔は、簡単な計算において、例えば150ニットでレンダリングされる計算から出てくるが、合成装置は様々なプログラムルールに従って多少なりともそこから逸脱することを決定することができる、例えば画像の非常に重要な中央位置に配置されることが望まれるPIPをいくらか、例えば合成すべきすべての画像部分のすべての情報を有する唯一の装置である合成装置、及び合成画像が表示されるべきレンダリングシステム及び環境さえも、合成画像コンテンツの現在の総表示に対して最適又は合理的であると判断する程度に明るくすることを決定することができる)。さらに何も指定されていない場合、理想的なアンカー位置の2倍以下又は2倍以上の係数は、現実的な態様で合理的に近傍になり得る。 Therefore, we obtain the complexion from the HDR image because we assume that the HDR complexion is already at that luminance level for the sake of brevity of this embodiment. Is a trivial matter that does not require the consideration of complex luminance mappings), and by having at least an aspect of identifying where the principal complexion is in the LDR image (source anchor luminance L_SA1). As an output image, all complexions of both images that are accurately composited in the composite image can be arranged relatively simply. And even in the simplest embodiment, the ambient color (starting with the face) and all other image colors are automatically dropped relatively well around their anchor brightness (anc). Philosophy for other colors is also relatively simple, as it does not need to work in more detail for these technical rendering scenarios. A good image is obtained when all other colors fall within the range of about 2-2.5 stops around the mid-gray (eg, white is typically 90% or 5 times brighter in linear brightness). Printed matter often fails to obtain very deep black, and practical LDR televisions typically have a 32: 1 (peak white vs. still reasonably distinct) considering the reflection of light on the windshield of the television. It was limited to the deep black color that can be produced. Having 5 stops of image object content makes sense even on the dark side of a well-lit LDR scene, given that dark colors, especially important blacks, are within 2-2.5 stops from mid-gray. It means that there is no problem. In principle all of this means nothing in HDR image processing, especially in compositing and rendering, so in terms of improved mechanics, and especially in terms of complexity (images can contain anything), what is semantically We need human guidance on what is involved, and thus what is a good composition. A more complex embodiment can make a smartly tuned selection of aspects in which the other object brightness is smartly placed around the main object, which is the face in this easy-to-understand example, positioned by the anchor brightness anc. .. You can annotate, for example, that the anchor point is the limit of the range. To avoid doubt, when we mean video, we are not limited to simply referring to temporally continuous images, and that a particular strategy should be applied to the whole movie as well, but rather that. It can only be applied to parts of a movie, eg shots of images of the same scene (ie, for example, when new commercials with different object brightness characteristics are later combined, certainly at different time moments CombRng Can be different). Since most of the features of the embodiments of the present invention are similar, at least with respect to spatial composition, whether steel or video is used, two embodiments are to avoid boring and confusing formulation. It should be understood that video or images can be used in the description where it is not necessary to distinguish one of the forms, and the reader can read the other as well. The determination of the function that maps the first (source anchor) brightness to the second brightness (composite range anchor anc) should be clear enough to the reader for various embodiments. As described above, for example, the color conversion unit of the synthesizer increases the brightness of a specific input (source image) from the diagonal line to the required position, and sets the line as the maximum and minimum values (0 and) of the input range and output range. A specific shape that can be easily configured to create a bipartial linear function that connects to [PB_C_image_1; LMC]), but reprocesses the brightness of the image to make it more suitable for different dynamic ranges or brightness etc. If the function is provided, for example, the function can be linearly scaled so that the point of ancS becomes the anc output value of the Y-axis. It is not necessary to use accurate anchor collocations, but it must also be clear how similar systems can be built that operate in the vicinity (not overly large) around their anc value. The available neighborhoods are those shown by the content creator in the source metadata (for example, this anchor is rendered with a deviation of 20% of its exact value) and what the synthesizer determines in context. It can be established as an arbitrary composition between and (as mentioned above, for example a face in a commercial comes out of a simple calculation, for example a calculation rendered in 150 knits, but the composition device is a variety of programs. You can decide to deviate from it in any way according to the rules, for example some PIPs that are desired to be placed in a very important center position of the image, for example all information of all parts of the image to be composited. The only device that has the, and even the rendering system and environment in which the composite image should be displayed, should be bright enough to determine that it is optimal or reasonable for the current total display of the composite image content. Can be determined). If nothing is specified, coefficients less than or equal to twice or more than twice the ideal anchor position can be reasonably close in a realistic manner.
最後に、出願人の実施形態が画像の最終的な外観を指定する関数で動作することができるので、様々な実施形態において、実際に合成画像を作成する実際の装置(例えば、合成装置)である必要はないことに言及したい。例えば、合成装置がSTBである場合、例えば標準がその画像に必要なものに十分であればHDMI(登録商標)にわたって符号化されたHDR10のTVに既に完全に最適に合成された画像を送ることができ、TVは音の出ないディスプレイとして直接レンダリングする。しかしながら、STBは、状況を判断し準備し、必要なすべてのデータ、すなわち少なくともいくつかの画像データといくつかの変換を送信することもできる(それは合成画像を計算するための最適な変換FFとなった場合に十分であるべきであるが、他の実施形態ではアンカー値、おそらくSTBによってテレビに決定されたさらなるアンカー輝度値でさえも送信することもできる)。その場合、TVは、合成を一意的に実行するためのすべての情報を有する、すなわちPIPの合成では、ピクセル選択を行うだけでなく、合成画像バッファに格納する前に、受け取った対応するSDR画像ピクセルにFF_1を適用し、FF_2をHDR画像ピクセルの輝度に適用して、合成画像におけるそれらのピクセルの正確な輝度を得る。合成装置の最も単純な実施形態は、ただ1つの良好なアンカー位置を決定する。例えば、テレビが何を表示しているか、それがどのように設定されているか(例えばユーザの明度制御によって)などに依存して、現在の状況下において例えばanc_1D=30ニットの素晴らしい見た目の画像をレンダリングすべきである暗い光の平均グレーアンカー値を決定するだけである。もちろん、これは画像合成に対して最良の制御をもたらさないが、第1のコンテンツが暗い夜にアクションが起こっているアンカー(例えば黒の平均輝度値)を示し、第2のコンテンツが明るく派手なコマーシャルを示している場合、この単純な合成装置の実施形態は、既に両方の画像をそのanc_1D値の周りにかなり合理的に調和させることができるはずである。もちろん、より複雑な合成装置の実施形態は、何種類かのコンテンツに対して良好な合成状況であるかを判断し、上記の5つのanc値の明度タイプ(深い黒から極度の明るさ)に対して最適なanc値を指定する。次にこの装置は、そのソースのanc値(及び例えば必要であれば黒がどのようにグレー表示され得るかを示す再グレーディング関数のような潜在的なさらなるメタデータ)を調べて指定されたHDRの状況又は効果の種類を見ることによって、状況がどのようなものであっても入力されたコンテンツをCombRngの異なる照明サブレンジに強力に調和させることができる(低い明るさ、例えば十分ではないディスプレイピーク輝度のレンダリングシステムが超高輝度を明るさよりも十分明るく壮大にレンダリングするような予想されるさらなる処理のために合成が行われ又は準備されている場合、合成は最も明るい画像ピクセルについてのポスタリゼーションの何らかの形式に向かって揺れることがあり、画像ピクセルの色自体の最良の理論的合成ではないが、そのような品質の低いシステムにとっては良い合成である)。したがって、合成レンジ内のアンカー輝度は、典型的には、周囲の他の輝度を決定するための少なくとも1つの良好な輝度として決定され、(良好な品質の画像レンダリングの一般的なニーズ、及び/又は実際の又は構想されたコンテンツ及び/又はディスプレイ能力の詳細に基づいて)合成装置によって決定され、ソースアンカーはソース画像ダイナミックレンジにおいて同様のことを行い、典型的には、作成者が自分の画像にとって重要であると考えるもの、すなわち少なくともどの特定の重要なオブジェクト及びその周囲のピクセル領域が様々な考えられる使用シナリオの下で、特に画像合成において、(少なくとも輝度について)レンダリングされ、よく制御された状態で使用されるべきであるかに従って決定される。特定のオブジェクト、すなわち画像の空間的及び時間的サブ部分に適したアンカー輝度をどのように定義するかが理解され、例えば雨の日に昼間の光の下で家の居間で起きる最初のシーンと、地下の中央にある1つの実用的な電球によって照らされる地下の次のシーンのように、映画が異なるシーンから新しい画像(のショット)に変化したときにアンカーを再定義する必要があることが明らかである(両方のシーンは、例えば俳優のシャツなどのアンカーで示すことができる同様のオブジェクトを有するが、当然のことながらマスタ画像には異なって等級分けされた輝度があり、多様なディスプレイのための最終的なMDR画像では異なるレンダリングが必要である)。 Finally, in various embodiments, in an actual device (eg, a synthesizer) that actually creates the composite image, since the applicant's embodiment can operate with a function that specifies the final appearance of the image. I want to mention that it doesn't have to be. For example, if the compositing device is an STB, for example, if the standard is sufficient for the image, then send the already fully optimally composited image to the HDR10 TV encoded over HDMI®. The TV renders directly as a silent display. However, the STB can also determine and prepare the situation and send all the necessary data, at least some image data and some transformations (it is the optimal transformation FF for calculating the composite image). It should be sufficient if this happens, but in other embodiments it is possible to transmit an anchor value, perhaps even an additional anchor brightness value determined by the STB to the television). In that case, the TV has all the information to uniquely perform the compositing, i.e., in PIP compositing, not only does the pixel selection occur, but the corresponding SDR image received before being stored in the compositing image buffer. FF_1 is applied to the pixels and FF_1 is applied to the brightness of the HDR image pixels to obtain the exact brightness of those pixels in the composite image. The simplest embodiment of the synthesizer determines only one good anchor position. For example, depending on what the TV is displaying, how it is set (eg by controlling the brightness of the user), etc., in the current situation, for example, anc_1D = 30 knit, a nice looking image. It only determines the average gray anchor value of the dark light that should be rendered. Of course, this doesn't give the best control over image composition, but the first content shows an anchor where the action is taking place on a dark night (eg the average brightness value of black) and the second content is bright and flashy. When presenting a commercial, this simple synthesizer embodiment should already be able to fairly reasonably harmonize both images around its anc_1D value. Of course, a more complex embodiment of the compositing device determines if there is a good compositing situation for some types of content and shifts to the above five anc value brightness types (deep black to extreme brightness). On the other hand, specify the optimum anc value. The device then examines the source anc value (and potential additional metadata, such as a regrading function that indicates how black can be grayed out if necessary) and the specified HDR. By looking at the situation or type of effect of, the input content can be strongly harmonized to the different lighting subranges of CombRng in any situation (low brightness, eg not enough display peaks). If the composition is done or prepared for the expected further processing such that the brightness rendering system renders the ultra-brightness much brighter and more spectacular than the brightness, the composition is some of the posterization for the brightest image pixels. It can fluctuate towards the format and is not the best theoretical composition of the image pixel colors themselves, but it is a good composition for such poor quality systems). Therefore, the anchor brightness within the composite range is typically determined as at least one good brightness for determining the other brightness of the surroundings (general needs for good quality image rendering, and / Determined by the synthesizer (or based on the details of the actual or envisioned content and / or display capability), the source anchor does the same in the source image dynamic range, typically the creator of his image. What we consider important to us, at least any particular important object and the pixel area around it, is rendered and well controlled (at least for brightness) under various possible usage scenarios, especially in image composition. Determined according to whether it should be used in the state. It is understood how to define anchor brightness suitable for a particular object, the spatial and temporal subpart of the image, for example with the first scene that occurs in the living room of a house under daylight on a rainy day. It may be necessary to redefine the anchor as the movie changes from a different scene to a new image (shot), such as the next scene in the basement illuminated by one practical light bulb in the center of the basement. Obviously (both scenes have similar objects that can be represented by anchors, such as actors' shirts, but of course the master image has differently graded brightness and of a variety of displays. The final MDR image for this requires different rendering).
色変換ユニット(310)は、少なくとも1つのソースアンカー輝度(L_SA1)と等しい第1の画像又はビデオ(Im1_LDR)のピクセルの色の入力輝度に色変換(FF_1)を適用した結果として決定される出力輝度(LF1_o)が、アンカー輝度(anc)と等しくなるように、色変換(FF_1)を決定すると有利である。したがって、合成される少なくとも2つの画像(又はビデオ)の輝度を調整する1つの態様は、すべての画像に対して選択されたアンカー輝度が同じであり、最終的な画像合成(例えば、PIP又はアルファブレンディング)が行われる出力画像(Im_o)の合成ダイナミックレンジにおける適切なアンカー輝度(anc)の値に設定されるように合成戦略を設計することである。当業者であれば、特性としてFF_1(L_i=L_SA1)=ancを有し、次にancの周囲のすべての輝度をそれぞれL_SA1にマッピングする関数を装置がどのように計算することができるかを理解する。特に、線形輝度色空間で作業するので(コンテンツ作成者は画像ダイナミックレンジについて異なって等級分けされた画像、及び通信される場合には対応する再等級分け輝度変換関数の詳細を作成するので、輝度軸に沿ったオブジェクト輝度配置に関するスマートな選択は、少なくとも画像の1つを処理する復号器251によって主に行われる)、しばしば単に線形マッピングを使用する(又は時にはガンマ関数のような不均一に広がったコントラストに対する単純な非線形性を使用することがある)。図18aで説明されるように、暗い画像の場合にいくつかの係数によって入力画像の符号化によって決定された輝度を(線形調光係数を用いて)どのように暗くしなければならないかを理解することができ、元のアンカーL_SA1よりも明るい画像輝度を入力するために、やや異なる同様のマッピングが行われる。
The color conversion unit (310) is an output determined as a result of applying color conversion (FF_1) to the input brightness of the pixel color of the first image or video (Im1_LDR) equal to at least one source anchor brightness (L_SA1). It is advantageous to determine the color conversion (FF_1) so that the luminance (LF1_o) is equal to the anchor luminance (anc). Therefore, one aspect of adjusting the brightness of at least two images (or videos) to be combined is that the selected anchor brightness is the same for all images and the final image composition (eg, PIP or alpha). The composition strategy is designed so that it is set to an appropriate anchor brightness (anc) value in the composition dynamic range of the output image (Im_o) at which blending is performed. Those skilled in the art will understand how the device can calculate a function that has FF_1 (L_i = L_SA1) = anc as a characteristic and then maps all the brightness around the anc to L_SA1 respectively. To do. In particular, because you work in a linear luminance color space (content creators create differently graded images for image dynamic range, and the corresponding regrading luminance conversion function details when communicated, so luminance. Smart choices regarding object brightness placement along the axis are mainly made by the
線形関数の場合には、関数を決定できることを容易に理解することができる(例えば1.0に正規化された軸システムではx軸=LDR画像の線形入力輝度であり、y軸はCombRngにおいて輝度に正規化される)、すなわちL_out=FF_1(L_in)=C*(L−L_SA1)+ancとなる。Cはコントラスト定数であり、装置は2つの画像をより調和させるためにさらに最適化することができる。これは、2つの画像の意味論、例えばヒストグラム及び空間輝度分布(例えば、画像の上部のランプのような小さな形状など)、画像の平均明度関係などを見て決定することができる。例えば、HDR映画が主として、人が影の中を歩いており高明度部分が単一のランプのみである暗い地下室からなる場合、(HDR画像の大部分の)関連コントラストはあまり高くない。したがって、非常にコントラストが高いLDRコマーシャルと合成しなければならない場合、そのコマーシャルのコントラストを暗い環境で視覚システムが知覚して予期する低いコントラストにより沿うように幾分低下させることを望む(例えば、図18cのように太陽に照らされの屋外のオブジェクト又は電球のピクセルに意味的に含まれるものは何でも、最も明るい相対色に対してFF_1の緩やかな傾斜部分を適用することによって、LDRコマーシャルの最も明るい部分を制約することができる)。一方、Cを1よりも少し上げると、コントラストが非常に高いHDR映画の最大又はHDR平均明度に示されていなくても、コマーシャルの鮮やかさを高めることができる(つまり、すべての考えられるSDR画像輝度が割り当てられるHDR CombRngの局所サブレンジにおけるコントラストを制御することができる)。もちろん、読者は、装置が、例えばポイント(L_SA1、anc)のすぐ下の相対的に高いコントラストを有するが、その傾きの減少を開始し、いくつかの閾値黒L_out=L_bなどにおいて水平になる関数のような他のFF輝度(色)変換も行うことができることを理解する。実際原理的には、ソースアンカー輝度をアンカー輝度に概略的にマッピングする限り、合成装置によって任意の関数を決定することができるが、典型的には、様々な輝度サブレンジを再等級分けするための部分的な輝度マッピング関数形状のように、合成装置が従う仕様を作成側が伝達するか、又は(様々なピクセル間、又は領域間のコントラスト、テクスチャレンダリングの品質などを識別して最適化することによって)合成装置の実施形態がより美しく見える合成を提案することを可能にする重要な内部画像分析ユニットを有しない限り、得られる関数は比較的単純である(例えばマルチリニアセグメント関数は通常、少なくとも重要でないHDRシーン画像では良好な結果をもたらす)。 In the case of a linear function, it is easy to understand that the function can be determined (for example, in an axis system normalized to 1.0, x-axis = linear input luminance of the LDR image, and y-axis is the luminance at CombRng). (Normalized to), that is, L_out = FF_1 (L_in) = C * (L-L_SA1) + anc. C is a contrast constant and the device can be further optimized to better match the two images. This can be determined by looking at the semantics of the two images, such as the histogram and spatial brightness distribution (eg, a small shape like a lamp at the top of the image), the average brightness relationship of the images, and so on. For example, if an HDR movie consists primarily of a dark basement where a person is walking in the shadows and the high brightness area is only a single lamp, the relevant contrast (most of the HDR images) is not very high. Therefore, if it must be combined with a very high contrast LDR commercial, it is desirable to reduce the contrast of that commercial somewhat to match the low contrast perceived and expected by the visual system in a dark environment (eg, Figure). The brightest of LDR commercials, such as 18c, by applying a gently sloping portion of FF_1 to the brightest relative color, whatever is semantically contained in the pixels of a sunlit outdoor object or light bulb. Part can be constrained). On the other hand, raising C slightly above 1 can increase the vividness of the commercial (ie, all possible SDR images, even if it is not shown at the maximum or HDR average brightness of a very high contrast HDR movie. The contrast in the local subrange of HDR CommRng to which brightness is assigned can be controlled). Of course, the reader can read that the device has a relatively high contrast, eg, just below the point (L_SA1, anc), but begins to decrease its slope and becomes horizontal at some threshold black L_out = L_b, etc. Understand that other FF luminance (color) conversions such as can also be performed. In practice, in principle, any function can be determined by the synthesizer as long as the source anchor brightness is roughly mapped to the anchor brightness, but typically for regrading the various brightness subranges. By communicating the specifications that the synthesizer follows, such as partial brightness mapping function shapes, or by identifying and optimizing (contrast between different pixels or regions, quality of texture rendering, etc.) Unless the synthesizer embodiment has an important internal image analysis unit that allows it to propose a more beautiful looking composition, the resulting function is relatively simple (eg, multilinear segment functions are usually at least important). Good results for non-HDR scene images).
色変換ユニット(310)は、第2の入力輝度(LT1_i)に色変換(FF_1)を適用した結果として決定される第2の出力輝度(LT2_o)を出力輝度(LF1_o)で割った輝度比が、第2の入力輝度(LT1_i)をソースアンカー輝度(L_SA1)で割った比の定数(C)倍になるように、色変換(FF_1)を決定すると有利である。上記のように、より単純な実施形態は、全体(部分)輝度レンジ(処理される画像の入力輝度)に対するCの固定値を決定することができるが、Cを入力輝度L_i(C=CF(L_i))の可変関数にもすることができる。部分的な輝度レンジは、(受信したさらなるメタデータ処方又はそれ自体によって案内されるかどうかにかかわらず)合成装置によって様々な態様で定義することができ、例えば、主ヒストグラムローブの範囲を決定することができ、又はancS/kとk*ancSとの間のLDR画像の輝度のためにレンジを決定することができ、kは例えば4に等しく、LDR輝度の残りは、図18cの2つの破線部分関数などにマッピングされる。より多くの可変関数FFの例として、重要な情報(例えば、強く照明された顔)がある場合、LDR画像の最も明るい部分のコントラストを(例えばヒストグラムのパーセントなどのような一定のL_itの上に)上げることができるが、メインアクションの関連性の低い情報のみである場合には、例えば装置が(例えばanc+d_ancにマッピングすることによって)第1の混合された例えばLDR画像の平均輝度を幾分増加させることができるが、CombRngにおいて輝度マッピングされたLDR画像に過度に明るくレンダリングされたハイライトでHDR映画を超えないように、代わりにその明るい領域のコントラストを減少させることもできる。これはとりわけ、人間の脳で計算された予想される明度分布により対応することを可能にする。したがって、例えばLT2_oを(例えばancに等しい)LF1_oよりも上のある特定のパーセンテージ、例えば150%のLF1_o、又はLF1_oより上のkストップとして選択することができ、その輝度区間などに対してC1を指定する。典型的には重要でない画像(例えばSDRコマーシャル)の1つのそのような(少なくとも1つ以上の)サブ領域のスマートな適合は、総合的な合成の調和のとれた外観を大きく改善することができる。 The color conversion unit (310) has a brightness ratio obtained by dividing the second output brightness (LT2_o) determined as a result of applying the color conversion (FF_1) to the second input brightness (LT1_i) by the output brightness (LF1_o). It is advantageous to determine the color conversion (FF_1) so that the ratio of the second input luminance (LT1_i) divided by the source anchor luminance (L_SA1) is multiplied by the constant (C). As described above, in a simpler embodiment, a fixed value of C with respect to the overall (partial) luminance range (input luminance of the processed image) can be determined, where C is the input luminance L_i (C = CF (C = CF). It can also be a variable function of L_i)). The partial luminance range can be defined in various ways by the synthesizer (whether guided by the additional metadata formulation received or itself), eg, determining the range of the main histogram lobe. The range can be determined for the brightness of the LDR image between ancS / k and k * ancS, where k is, for example, 4 and the rest of the LDR brightness is the two dashed lines in FIG. 18c. It is mapped to a partial function. As an example of more variable function FF, if there is important information (eg, a strongly illuminated face), the contrast of the brightest part of the LDR image (eg, on a constant L_it, such as a percentage of the histogram). ) Can be increased, but if there is only irrelevant information in the main action, eg the device increases the average brightness of the first mixed eg LDR image somewhat (eg by mapping to anc + d_ank). However, the contrast in the bright areas can be reduced instead so that the highlights rendered overly bright in the brightness-mapped LDR image in CombRng do not exceed the HDR movie. This makes it possible, among other things, to respond more to the expected lightness distribution calculated in the human brain. Thus, for example, LT2_o can be selected as a certain percentage above LF1_o (equivalent to, for example, anc), such as 150% LF1_o, or k-stop above LF1_o, and C1 for its luminance interval, etc. specify. A smart fit of one such (at least one or more) subregion of a typically non-essential image (eg, an SDR commercial) can greatly improve the harmonious appearance of the overall composition. ..
色変換ユニット(310)は、少なくとも1つのソースアンカー輝度(L_SA1)に基づいて輝度オフセット(d_anc)を決定する偏差決定ユニット(312)を含み、色変換ユニットは、少なくとも1つのソースアンカー輝度(L_SA1)と等しい第1の画像又はビデオ(Im1_LDR)のピクセルの色の入力輝度に色変換(FF_1)を適用した結果として決定される出力輝度(LF1_o)が、アンカー輝度(anc)+輝度オフセット(d_anc)と等しくなるように、色変換(FF_1)を決定すると有利である。上述したように、このようなオブジェクト関連の輝度の態様の間には、例えば、顔の照明(例えば非常にコントラストが強い)、及び顔の輝度と画像の残りとの関係のようなかなりの違いがある。したがって、装置は、正確に出力輝度ancでLDRの顔(又は任意のダイナミックレンジの第1の画像アンカーオブジェクト、又は領域及び対応する輝度のサブレンジ)をレンダリングするのではなくむしろ例えば2倍の明るさでレンダリングするほうが適切であると判断することができる。これはとりわけ、(例えば典型的には、アンカータイプのコード化で示される)顔の照明のタイプに基づいて決定され、例えばソースアンカー輝度(L_SA1)が、非常に明るく照明された顔の半分の平均輝度として決定され、顔が大きなサイズで最終画像にレンダリングされる場合、装置は、例えば50%の負のd_ancを決めることを決定することができる。これらのプログラムルール及び計算の背後にあるヒューリスティックな考察は、例えば明るい領域は周囲の暗い領域を過度に放射し、又は過度に目立って注意を引き、又は映画などのように視聴者が見ている主なものである画像の残りと比較して単に刺激的に明るくなることを考慮する。この考察は、HDR映画画像の明度構成を評価することもできる。例えばその画像は、開いているガレージのドアから見えるように暗い屋内の領域と明るい屋外の領域とで構成され得る。相対的にはるかに明るいLDRコマーシャルのPIPが暗部に置かれることになっている場合、それは、2つの画像間のコントラスト及び2つの画像の隣接するオブジェクトにおいて脳によってそこから見られる局所的なコントラストが過大にならないように暗くすべきである(すなわち、LDRにおける顔の平均輝度、又はLDR画像を特徴付けるさらなるアンカー輝度を、LDR画像の単一の代表輝度で、ancと第2のHDR映画画像の暗い領域の局所平均輝度との間の中間に重み付けするために、比較的大きいd_anc)。しかしながら、明るいPIPがHDR映画の晴れた屋外部分の近くに表示される場合、正のd_ancで明るくする必要がある。したがって、一般に、これらの偏差d_ancは、理想的な状況(例えば両方の画像において顔が中間の灰色の背景によって囲まれている場合)において(例えば2つの顔の)理想的な合成であるもの、及び、合成が生じる場所(例えば、小さなサイズX、YのPIP)の周りで少なくともメイン画像(すなわちこの例では、LDRコマーシャルを貼り付けるHDR映画)の実際の状況が全体的(すなわち、平均輝度、サイズ、例えばテクスチャ測定による内部複雑のような潜在的により多くの意味的特徴など、どのような種類のオブジェクトを含むか)及び局所的であるものに基づいて計算される。したがって、オフセットは、2つの画像について調和するものに基づいて一般的に決定され、様々な実施形態では、画像自体の特性(コントラスト、ソースアンカー位置その近傍のオブジェクトコンテンツのタイプ及び、その周辺のコンテンツ、幾何学的サイズなど)及び合成(PIPが画像の右下に小さな重要度の低い場所に配置されているか否か、又はブレンドミックスなどにおいて部分的な情報によって混合がどのように輝くかなど)に依存する。より簡単な実施形態は、それ自体がまあまあ良い比較的単純な調和構造を単に使用するが(特に、anc+d_anc値は、コマーシャルであると判断されると例えば過度のコントラストのリスクを軽減するために最適化できる)、より高度な合成は、第2の画像情報がどこにどのように正確に配置されるか、又は合成のさらなる特性でさえより正確に見ることができる。 The color conversion unit (310) includes a deviation determination unit (312) that determines the luminance offset (d_anc) based on at least one source anchor luminance (L_SA1), and the color conversion unit includes at least one source anchor luminance (L_SA1). The output luminance (LF1_o) determined as a result of applying the color conversion (FF_1) to the input luminance of the pixel color of the first image or video (Im1_LDR) equal to) is the anchor luminance (anc) + luminance offset (d_anc). ), It is advantageous to determine the color conversion (FF_1). As mentioned above, there are significant differences between such object-related brightness aspects, such as facial lighting (eg, very high contrast), and the relationship between facial brightness and the rest of the image. There is. Therefore, the device does not render the LDR face (or the first image anchor object of any dynamic range, or the area and the corresponding brightness subrange) exactly at the output brightness anc, but rather, for example, twice the brightness. It can be judged that it is more appropriate to render with. This is determined, among other things, based on the type of facial illumination (eg, typically indicated by the anchor type encoding), eg, the source anchor brightness (L_SA1) is half that of a very brightly illuminated face. If determined as average brightness and the face is rendered in a large size in the final image, the device can determine, for example, to determine a negative d_anc of 50%. The heuristic considerations behind these programming rules and calculations are, for example, bright areas radiating excessively radiating surrounding dark areas, or excessively noticeable attention, or viewed by the viewer, such as in a movie. Consider simply stimulating brightening compared to the rest of the main image. This consideration can also evaluate the brightness composition of HDR movie images. For example, the image may consist of a dark indoor area and a bright outdoor area visible through an open garage door. If a relatively much brighter LDR commercial PIP is to be placed in the dark, it is the contrast between the two images and the local contrast seen from it by the brain in adjacent objects of the two images. It should be darkened so as not to be excessive (ie, the average brightness of the face in the LDR, or the additional anchor brightness that characterizes the LDR image, with a single representative brightness of the LDR image, anc and the darkness of the second HDR movie image. Relatively large d_ank) to weight in the middle between the region's local average brightness. However, if the bright PIP is displayed near the sunny outdoor part of the HDR movie, it needs to be brightened with a positive d_anc. Thus, in general, these deviations d_anc are ideal composites (eg, of two faces) in an ideal situation (eg, when the face is surrounded by an intermediate gray background in both images). And the actual situation of at least the main image (ie, in this example, the HDR movie pasting the LDR commercial) around where the compositing occurs (eg, PIPs of small sizes X, Y) is overall (ie, average brightness, It is calculated based on the size (what kind of object it contains, such as potentially more semantic features such as internal complexity by texture measurement) and what is local. Therefore, the offset is generally determined based on what harmonizes the two images, and in various embodiments the characteristics of the image itself (contrast, source anchor position, the type of object content in the vicinity, and the content around it). , Geometric size, etc.) and composition (whether the PIP is placed in a small, less important place in the lower right corner of the image, or how the mix shines with partial information, such as in a blend mix). Depends on. A simpler embodiment simply uses a relatively simple harmonized structure that is reasonably good in itself (especially to reduce the risk of excessive contrast if the anc + d_ank value is determined to be commercial, for example). (Can be optimized), more advanced compositing allows more accurate viewing of where and how the second image information is placed, or even additional properties of compositing.
色変換ユニット(310)は、2つの画像又はビデオの第2の画像又はビデオ(Im1_HDR)を供給する第2のソース(351)から得られた少なくとも1つの第2のソースアンカー輝度(L_S2A1)を読み出し、偏差決定ユニット(312)は、少なくとも1つの第2ソースアンカー輝度(L_S2A1)に基づいて輝度オフセット(d_anc)を決定すると有利である。(特許請求の範囲において画像2と呼ぶ)主画像の輝度構造が既知の輝度構造を有し、したがって容易に変換してCombRngにおいて基本的な基準を形成することができる簡単な実施形態を説明した。HDR画像が主要な画像であり、歪みが最小限に抑えられるべきであり、したがってそれは主にその方向に変換される第2のコンテンツである場合、合成の有用な態様である。HDR画像が、すべてのランバート反射オブジェクト(例えばスタジオトークショー)にはIm_HDRのダイナミックレンジIm2_Rngの0−400ニットのレンジ(これは、例えばCombRngの0−300ニットレンジ、又はCombRngの同じ0−400レンジに対応する)内になるように常に厳密に指定される輝度が与えられることを保証するために生成されたタイプであることを知っていれば、これは生じる場合があり、上記のすべては主に、例えば金属に対する小さな鏡面反射のようなハイライトである。そのシナリオでは、下部がLDRテレビ制作によく似た態様で制作され、HDR効果がほとんどライトであり、それらの正確な輝度について過度に重要ではない特定の種類のHDRシーンを有する(例えばはっきりと見えるだけでなく、その外部オブジェクトはいくつかの芸術的ムードを伝えるために特定の輝度を有するべきである窓を通るオブジェクトではない)。この場合、問題は主にLDRのコマーシャルをHDRトークショーの主に400ニットまでの部分の照明状況に調整することであり、明るい領域に正確に何があるのかもある程度調整される(例えば、LDRコマーシャル内の(識別された又は仮定された)小さなハイライト領域を明るくして、HDRトークショーに実際に存在するこれらのハイライトの輝度にさらに対応するように、倍数定数Cを有する上記のコントラストメカニズム、又は輝度マッピング関数の任意の一般的な決定及び適用を使用することができる)。 The color conversion unit (310) provides at least one second source anchor luminance (L_S2A1) obtained from a second source (351) that supplies a second image or video (Im1_HDR) of the two images or videos. It is advantageous for the readout and deviation determination unit (312) to determine the luminance offset (d_anc) based on at least one second source anchor luminance (L_S2A1). We have described a simple embodiment in which the luminance structure of the main image (referred to as image 2 in the claims) has a known luminance structure and can therefore be easily transformed to form a basic reference in CombRng. .. This is a useful aspect of compositing when the HDR image is the primary image and distortion should be minimized and therefore it is primarily the second content that is transformed in that direction. HDR images are in the 0-400 knit range of Im_HDR dynamic range Im2_Rng (which is, for example, the 0-300 knit range of CombRng, or the same 0-400 range of CombRng) for all Lambertian reflective objects (eg studio talk shows). This can happen if you know that it is the type generated to ensure that you are always given the exact specified brightness to be within (corresponding), all of the above are mostly Highlights, such as small specular reflections on metal. In that scenario, the bottom is produced in a manner very similar to LDR television production, the HDR effect is mostly light, and has certain types of HDR scenes that are not overly important for their exact brightness (eg clearly visible). Not only that, its external objects are not objects that pass through windows that should have a certain brightness to convey some artistic mood). In this case, the problem is mainly adjusting the LDR commercial to the lighting conditions of the HDR talk show mainly up to 400 knits, and to some extent what exactly is in the bright area (eg LDR commercial). The above contrast mechanism, which has a multiple constant C, brightens small highlight areas (identified or assumed) within and further corresponds to the brightness of these highlights that are actually present in the HDR talk show. Alternatively, any general determination and application of the brightness mapping function can be used).
しかしながら、一般に、HDRコンテンツは何でも良い。例えば、その顔は400ニットの約25%にぴったりと照らされないかもしれないが、俳優がまばらに置かれたランプを持つ暗い坑道を走っているならば、輝度軸全体に落ちる。したがって、いずれのコンテンツでもコンテンツに注釈を付けるすべての人が、HDR画像も少なくとも1つの第2のソースアンカー輝度(L_S2A1)でその顔の1つ又は複数が輝度軸上にある場所を示すようにすると有利である。装置は、L_S2A1を読み取ることによって、HDRの第2の画像内で顔の輝度がどこであるかを検証することができるので、両方の画像が最終的な合成で調和することがより確実である(図4のマッチングの説明例を参照)。HDR画像は、最良の最終的な合成状況(特にCombRng)が何であれ、例えば映画が暗い周囲などの代わりに屋外に表示される可能性が最も高いことを考慮して、最適に変換することができる。例えばFF関数は、特に暗いオブジェクトのテクスチャのレンダリングが映画の最適な映画的視聴と比較して劣化するように視聴状況がなっている場合には、異なる顔照明を少ない程度に変調することができる。 However, in general, the HDR content can be anything. For example, its face may not be exactly illuminated by about 25% of 400 knits, but if the actor is running in a dark mine with sparsely placed lamps, it falls across the brightness axis. Thus, for anyone who annotates the content in any content, the HDR image also has at least one second source anchor luminance (L_S2A1) to indicate where one or more of its faces are on the luminance axis. Then it is advantageous. By reading L_S2A1, the device can verify where the brightness of the face is within the second image of HDR, so it is more certain that both images will be harmonized in the final compositing ( See an example of matching in FIG. 4). HDR images can be optimally converted, taking into account that whatever the best final compositing situation (especially CombRng) is, the movie is most likely to be displayed outdoors instead of, for example, dark surroundings. it can. For example, the FF function can modulate different facial lighting to a lesser extent, especially if the viewing conditions are such that the rendering of the texture of dark objects deteriorates compared to the optimal cinematic viewing of the movie. ..
色変換ユニットは、第1の画像又はビデオを、第1の画像又はビデオの符号化に関連するダイナミックレンジから、少なくとも乗算係数2だけ異なるピーク明度を有するダイナミックレンジにマッピングするために第1の画像又はビデオ(Im1_LDR)におけるオブジェクトの輝度分布の変化を指定する第1の色再マッピング関数(F1_L)にも依存して第1の画像又はビデオに適用される色変換(FF_1)を確立し、又は、色変換ユニットは、第2の画像又はビデオを、第2の画像又はビデオの符号化に関連するダイナミックレンジから、少なくとも乗算係数2だけ異なるピーク明度を有するダイナミックレンジにマッピングするために第2の画像又はビデオ(Im2_LDR)におけるオブジェクトの輝度分布の変化を指定する第2の色再マッピング関数(F2_L)にも依存して第2の画像又はビデオに適用される色変換(FF_2)を確立すると有利である。上で説明したように、基本的なHDRビデオ又は画像符号化フレームワークでは、高ダイナミックレンジから低ダイナミックレンジへ(又はその逆へ)移動する際に、オブジェクトの輝度分布がどのように変化すべきかを通信された色変換関数で示す(少なくとも輝度変換を定義するが、例えばLDRの外観において暗くする必要があるオブジェクトの彩度を上げ、十分に活発に見えるようにするために彩度変換も必要になる場合があり、その関数は典型的には、例えば1つの極端な又は中間の等級分けを、例えば5000ニットPB_Cから他の例えば100ニットPB_Cへどのように変換するか、少なくともPB_Cの係数2と異なるダイナミックレンジの外観を指定する)(これは一般に、HDRシーンの意味的特質を考慮に入れて、劣るPBディスプレイ又はコーデックのより低い能力に向けた複雑な最適化である)。すなわち、マスタ5000ニットHDR等級分け画像から例えば100ニットの画像、又は1200ニットのディスプレイを駆動するのに最適な中程度のダイナミックレンジの画像に変換する場合である。典型的には、作成者は、例えばハイライトと暗い領域を徐々に暗くするなど、外観をどのように変更したいかを決定することができる。 The color conversion unit maps the first image or video from the dynamic range associated with the encoding of the first image or video to a dynamic range having a peak brightness that differs by at least a multiplication factor of 2. Alternatively, establish a color transformation (FF_1) applied to the first image or video depending on the first color remapping function (F1_L) that specifies the change in the brightness distribution of the object in the video (Im1_LDR), or The color conversion unit is used to map the second image or video from the dynamic range associated with the coding of the second image or video to a dynamic range having a peak brightness that differs by at least a multiplication factor of 2. It is advantageous to establish a color transformation (FF_2) applied to the second image or video depending on the second color remapping function (F2_L) that specifies the change in the brightness distribution of the object in the image or video (Im2_LDR). Is. As explained above, in a basic HDR video or image coding framework, how the brightness distribution of an object should change as it moves from high dynamic range to low dynamic range (or vice versa). Is shown by the communicated color conversion function (at least the brightness conversion is defined, but the saturation conversion is also needed to increase the saturation of the object that needs to be darkened in the appearance of the LDR, for example, so that it looks sufficiently active. The function typically translates, for example, one extreme or intermediate grade from, for example, 5000 knit PB_C to another, for example, 100 knit PB_C, at least a coefficient of PB_C of 2. (Specify a different dynamic range appearance) (this is generally a complex optimization for the lower capabilities of inferior PB displays or codecs, taking into account the semantic characteristics of the HDR scene). That is, when converting from a master 5000 knit HDR graded image to, for example, a 100 knit image or a medium dynamic range image optimal for driving a 1200 knit display. Typically, the creator can decide how he wants to change the appearance, for example by gradually darkening the highlights and dark areas.
合成フレームワークのパワーは、異なる(単独)最適レンダリング画像ダイナミックレンジではなく、とりわけどれくらい正確に合成の比色を制御したいかに依存して合成ダイナミックレンジにマッピングする新しい種類の関数をどのように定式化するかを決定できることである(これは、とりわけコンテンツ制作者、所有者、又はディストリビュータ、視聴者、例えば映画を注意して鑑賞しようとする視聴者、又はディスプレイメーカーによる要求を定量化するパラメータとともに、それ自体によって様々な外部パラメータ設定に依存する可能性がある)。もちろん、合成の全体的な外観は、特定の合成及びその中に含まれるものによって異なるが、(最も明るいサブレンジ、例えばルマの上部20%に、慎重な再等級分けを望む雲又はそれほど重要ではないオブジェクトがあるか否かにかかわらず)再等級分け関数自体が、合成装置がある程度従うことを望む興味深い再等級分けの必要性又は要求を含んでいないことを意味しない。 The power of the compositing framework is not the different (single) optimal rendered image dynamic range, but how to formulate a new kind of function that maps to the compositing dynamic range, especially depending on how accurately you want to control the compositing colorimetrics. It is possible to decide whether to do it (this is especially with parameters that quantify the demands of the content creator, owner, or distributor, viewer, eg, the viewer who is willing to watch the movie, or the display maker. It may itself depend on various external parameter settings). Of course, the overall appearance of the composition depends on the particular composition and what is contained therein, but (in the brightest subrange, eg the upper 20% of Luma, clouds that desire careful re-grading or less important. It does not mean that the regrading function itself (with or without objects) does not contain any interesting regrading needs or requirements that the synthesizer wants to follow to some extent.
ここで、上述した単純線形関数FFを用いてアンカー輝度ancの周囲の画像の入力輝度をマッピングすると、F_Lの詳細は不要となる。しかしながら、より洗練されたマッピングは、線形戦略によって変わる可能性があり、具体的にはその輝度のサブレンジにおけるその特定のHDRシーンの特定の画像の関数F_Lにおいてコンテンツ作成者が暗黙のうちに必要としていることに従って行うべきである。例えば、作成者がより暗い輝度を黒に素早く消滅させることを好む場合、色変換ユニット(310)は、最適関数FFを決定する際にこれを考慮に入れることができ、例えば線形関数よりもLDR輝度の大きな割合を黒色に素早くクリッピングすることにより、より明るい領域(例えば顔色ancの周囲)のコントラストの一部を伸ばすことができる。したがって、装置は、F_L関数のセットの少なくとも輝度変換関数の関数形状を評価することができ(理解を簡単にするために、読者は、1.0入力輝度に正規化され1.0出力輝度に正規化された1つの任意形状の関数マッピングであると仮定することができる)、その形状の一部を使用してCombRngにマッピングする最終関数の形状を設計する。このような関数では、それ自体によって又は他の画像の他の部分における他の考えられる輝度との関係によって、画像の部分を再等級分けするための様々な要求が与えられることに留意すべきである。例えば、画像の幾何学的領域に対して、その画像の残りの部分が大きくブーストされ得る同じ輝度を有するピクセルであるとしても、そこに存在する輝度を例えば過度にブーストすべきではないことを指定することができる。任意のそのような部分的な関数形状は、原理的に示すことができる(例えば、出願人が開発した先の実施形態は、矩形のような特定の幾何学的領域内に落ちる特性を満たし、例えばL_minとL_maxとの間の輝度を有する画像におけるピクセルのサブセットの列挙を可能にし、例えばL_min+kとL_max−lとの間にあるHDR画像のその領域の輝度に対して、kとlの定数を用いて所望のマッピング挙動の部分関数を定義することができる)。例えば、これらの輝度L_out=B*L_in+Oに対して単独の又はパラメータ化されたブースティング関数を与えることができ、B及びOは、LMCのような様々な特性の関数、又はHDR画像からのデータが置かれる矩形を取り囲む合成出力画像の輝度の平均などであってもよい。任意の分割された再等級分け挙動は、最終的な合成に先立って関数仕様で示されもよく、又は合成画像が作成された後に(全体の少なくとも一部が合成されたコンテンツに対して)分解可能にさえすることができる。 Here, if the input brightness of the image around the anchor brightness anc is mapped using the simple linear function FF described above, the details of F_L become unnecessary. However, more sophisticated mappings can vary with linear strategies, specifically as the content creator implicitly needs in the function F_L of a particular image of that particular HDR scene in that brightness subrange. You should do it according to what you are doing. For example, if the author prefers to quickly eliminate darker brightness to black, the color conversion unit (310) can take this into account when determining the optimal function FF, eg LDR rather than linear function. By quickly clipping a large proportion of the brightness to black, it is possible to extend part of the contrast in a brighter area (eg, around the complexion anc). Therefore, the device can evaluate at least the functional shape of the luminance conversion function of the set of F_L functions (for ease of understanding, the reader can normalize to 1.0 input luminance to 1.0 output luminance. It can be assumed that it is a function mapping of one normalized arbitrary shape), and a part of that shape is used to design the shape of the final function to be mapped to CombRng. It should be noted that such a function gives various requirements for regrading parts of an image by itself or in relation to other possible brightness in other parts of the image. is there. For example, for a geometric area of an image, specify that the brightness present there should not be over-boosted, for example, even if the rest of the image is pixels with the same brightness that can be greatly boosted. can do. Any such partial functional shape can be shown in principle (eg, the previous embodiment developed by the applicant satisfies the property of falling within a particular geometric area, such as a rectangle. Allows enumeration of a subset of pixels in an image having a brightness between, for example, L_min and L_max, for example, a constant of k and l for the brightness of that region of the HDR image between L_min + k and L_max-l. Can be used to define a partial function of the desired mapping behavior). For example, a single or parameterized boosting function can be given to these brightness L_out = B * L_in + O, where B and O are functions of various properties such as LMC, or data from HDR images. It may be the average brightness of the composite output image surrounding the rectangle in which is placed. Any subdivided reclassification behavior may be indicated in the functional specification prior to the final compositing, or decomposed (for at least part of the composited content) after the compositing image has been created. You can even make it possible.
ダイナミックレンジ確立ユニット(302)は、2つの画像又はビデオのうちの少なくとも1つにおける輝度に依存して、合成輝度ダイナミックレンジ(CombRng)を確立すると有利である。すべての実施形態が最終的な視聴環境の詳細を必要とするか又は考慮することができるわけではない。例えば出力画像は、様々なユーザへの送信のためにいくつかのマスタ制御室で混合される。最終的な状況は、知られておらず、(ある視聴者が例えば電車内で視聴しており、別の視聴者が屋根裏に作成した映画部屋で視聴している場合)かなり変わり得る。その場合、両画像(又は2より多くが混合される場合はすべて)の特性は常に関連性があるから、両画像の特性に基づいて合成が最適化されていると有利である。もちろん読者は、うまく適用されると合成のパラダイムがさらに拡張可能であることを理解する。例えば、第1のコンテンツ作成者は2つの画像ソースを混合するが、これは、完全により多くのコンテンツを混合できないことを意味するものではない。それは、事後に又は第1の作成者の予想と共に両方で生じる可能性があり、少なくともいくつかの合成装置の実施形態は、このような状況をすべて満たす必要がある。例えば、最初のコンテンツ作成者は何が起こるべきかについての最初の発言をするので、自身のコンテンツに最適なCombRng(及び/又はanc)を決定することができるが、おそらくいくつかのエンティティが将来いくつかの典型的な追加の特性(例えば、ニュース情報を底部に有するティッカーテープ、又は映画館の部屋又は店舗又は博物館の状況では、第1のレンダリングされた画像コンテンツなどの他に又はこれに部分的にまたがって第2の画像情報を投影する第2のプロジェクタであり、この第2のコンテンツは、ダイナミックレンジ、平均明度、平均明度の時間的進化などのダイナミクスを有する)のいくつかの画像コンテンツを追加することが予想される。第2のコンテンツミキサは、例えば最終的な合成画像又はその提示に関する追加情報があることを考えれば、CombRngを維持する、又はおそらくこれを細かく調整するほうが良いなど第1のコンテンツ作成者の指示に従うほうが良いかどうかを依然として決定することができる。2つのクラスの実施形態が可能である。より単純なクラスでは、2つの画像は既にこの段階で不可分に混合されており(例えば最終PIP合成)、最終的な受信側はそのレンダリングの詳細(レンダリングされるディスプレイのディスプレイPB、平均周囲明度など)に従って全体画像を最適化するだけである。すなわち、理解を容易にするために、この合成された画像を取り、レンダリングされるべき最終出力輝度を得るために、その輝度に平方根関数として適用する。これは、混合画像が既に調和された明度を有しており、視聴環境が意図されたものと大きく異ならないので、多くのシナリオで十分である。 It is advantageous for the dynamic range establishment unit (302) to establish a composite luminance dynamic range (CombRng) depending on the luminance in at least one of the two images or videos. Not all embodiments require or can take into account the details of the final viewing environment. For example, the output images are mixed in several master control rooms for transmission to various users. The final situation is unknown and can vary considerably (when one viewer is watching, for example, on a train, and another is watching in a movie room created in the attic). In that case, it is advantageous that the composition is optimized based on the characteristics of both images, since the characteristics of both images (or all cases where more than two are mixed) are always related. Of course, the reader understands that the synthetic paradigm is even more extensible when applied successfully. For example, the first content creator mixes two image sources, but this does not mean that more content cannot be mixed completely. It can occur both after the fact or with the expectations of the first author, and at least some synthesizer embodiments need to meet all of these situations. For example, the first content creator makes the first statement about what should happen, so you can determine the best CommRng (and / or anc) for your content, but perhaps some entities will be in the future. Some typical additional characteristics (eg, ticker tape with news information at the bottom, or in the context of a movie theater room or store or museum, other or part of it, such as the first rendered image content. It is a second projector that projects a second image information across a target, and this second content has dynamics such as dynamic range, average brightness, and temporal evolution of average brightness). Is expected to be added. The second content mixer follows the instructions of the first content creator, for example, given that there is additional information about the final composite image or its presentation, it is better to maintain CombRng, or perhaps fine-tune it. You can still decide if it is better. Two classes of embodiments are possible. In a simpler class, the two images are already inseparably mixed at this stage (eg final PIP compositing) and the final receiver is the rendering details (display PB of the rendered display, average ambient brightness, etc.) ) To optimize the whole image. That is, for ease of understanding, this composited image is taken and applied as a square root function to that brightness to obtain the final output brightness to be rendered. This is sufficient for many scenarios, as the mixed image already has harmonious brightness and the viewing environment is not significantly different from what was intended.
より高度な実施形態は、受信側で2つの画像のオブジェクト/ピクセル輝度分布の再決定を可能にし、いくつかの実施形態では、少なくともある程度は元の画像の再決定を含む(例えば、それらの基本的な符号化、又は少なくとも上述の分解性である元の輝度の等級分け)。例えば、いくつかの実施形態は、ある輝度分布態様でPIP合成を指定することができるが、CombRngの仕様と関数FFとを共符号化して、2つの画像の少なくとも1つをCombRng内の正しく調和した輝度にする。例えば、5000ニットPBに線形にスケーリングされた輝度とともにLDR PIPをHDRサラウンド画像に単に入れると、受信側で正しい処理を行わなければ、もちろんひどい外観の合成が得られることが想像できる。しかしながら、受信側は、合成されたレンダリングをその側で、すなわち調和したPIP画像で正確にするために必要なすべての情報を得る。受信側は、知っていることすべて(すなわち、例えばその領域に対して受け取った部分的な輝度マッピング関数、又はその矩形領域の特別な追加のanc値など、又は例えばそのような領域が周囲のピクセルなどに比べてかなり明るいように見えることなど自身の側で決定することができること)を考慮に入れて、その矩形におけるピクセル輝度を適切に変更することによって行うことができる。当業者であれば、これらの関数FFは異なるダイナミックレンジそれ自体のために再等級分けする関数F_Lではないことを理解する、例えば単独のLDR画像を例えば1500PBのMDRディスプレイのダイナミックレンジに合理的に適切にマッピングする単純な関数ではなく、むしろHDR画像と調和されたLDR画像に対して2つの画像の特性を一緒に考慮して良好な混合を与えることを作成側(又は任意の場所に設置された合成装置)が指定する関数であることを理解する。 More advanced embodiments allow the receiver to redetermine the object / pixel luminance distribution of the two images, and some embodiments include, at least to some extent, the redetermination of the original image (eg, their basics). Coding, or at least the degradability of the original brightness as described above). For example, in some embodiments, PIP synthesis can be specified in certain luminance distribution modes, but the CombRng specification and the function FF are co-coded so that at least one of the two images is properly harmonized within the CombRng. Make it brighter. For example, if you simply put the LDR PIP in an HDR surround image with brightness linearly scaled to 5000 knit PB, you can of course imagine that if you don't do the right thing on the receiving side, you'll get a terrible look composition. However, the receiver gets all the information needed to make the combined rendering accurate on that side, i.e. in a harmonious PIP image. The receiver knows everything (ie, for example, a partial luminance mapping function received for that area, or a special additional anc value for that rectangular area, or, for example, pixels around that area. It can be done by appropriately changing the pixel brightness in the rectangle, taking into account that it looks much brighter than the above, etc.). Those skilled in the art will understand that these functions FF are not the functions F_L that regrade for the different dynamic ranges themselves, eg, a single LDR image reasonably to the dynamic range of an MDR display, eg 1500 PB. Rather than a simple function that maps properly, it is installed on the creator side (or anywhere) to give a good mix of the characteristics of the two images together for the LDR image harmonized with the HDR image. Understand that it is a function specified by the synthesizer).
ダイナミックレンジ確立ユニット(302)は、少なくとも1つの出力画像(Im_o)がレンダリングされるディスプレイのピーク明度に依存して、及び好ましくは視聴環境の明度特性にも依存して、合成輝度ダイナミックレンジ(CombRng)を確立すると有利である。本発明の装置の実施形態が、例えばテレビ又はコンピュータのようなエンドレンダリングサイト装置又はシステムに組み込まれる場合、視聴の詳細に応じて合成をさらに指定することが適切な場合がある。LDR画像が暗い環境でそのまま見られるときにLDR画像が過度に明るく見える場合には、特にその映画がその特定の視聴状況に対して既に最適化されているため、映画と合成したときにその暗い視聴周囲に対して明るすぎる可能性がある(図3に示すように、適切なMDRの自動的に再等級分けされた外観画像Im2_MDRは、同一のコンテンツ予約を有するか又は同じ放送されたコンテンツを視聴するすべての視聴者が受信する例えば5000ニットのIm_HDRから暗い周囲において視聴される例えば1200ニットPBディスプレイに対して計算される)。部分画像は、適切なMDRダイナミックレンジ(Im1_LM及びIm2_HM)で混合することができる。これは、例えばある画像の最も暗いピクセルを明るい観察環境で見ることが困難である場合、特に観察者が他の合成された画像から(おそらく空間的に隣接している)明るいコンテンツによって気を散らしている場合、特に重要であり、少なくとも1つの画像(例えば主要画像)におけるより暗いピクセルの追加のanc値は、最終的な合成の最適性を大幅に改善することができる。当業者はもちろん、2つの画像を合成して提示するには最適化は典型的には単一の画像の最適化とは異なる必要があり、観察者が知覚するように全体の状況に依存することを理解する(もちろん、実際的には、装置の位置付けられた市場価格を考慮して余裕がある複雑さに基づいて最適化を多かれ少なかれ正確に行う装置を構築し、より単純な実施形態のいくつかは既にかなり合理的な仕事を行う)。明るすぎる単独のLDRコマーシャルを見ると、暗い視聴環境であっても、視聴者は画面上に見えるものによって大きく視界に適応する。しかしながら、2つの画像を合成すると、人間の視覚がどのようなものに適応するかは些細な先験的なものではないので、したがって、レンダリングされたピクセル輝度の合成について脳が感じる輝度及び明度に関連し(彼が主要な映画を悪く見始めることはありそうもない)、したがって、コンテンツ作成者が最小限の必要とされる情報と指針を少なくとも示すことができるシステムが望まれる(実用的な技術システムは、複雑さ、例えばコンテンツ作成者が費やした労力及び計算を行う必要があるICのコストと、少なくともいくつかの最小限必要な色変換を処理してシステム挙動を単に悪いものではなく少なくとも半分妥当なものにすることができる必要との間でバランスを常にとり、典型的には標準化された様々な実施形態は、どのようなシナリオにおいてさらにどの特定の制御関数でどのくらいまで機能するかを決定する)。したがって、当業者は、少なくともディスプレイの能力に依存してCombRng(及び典型的なアンカー輝度、及び線形でない場合にはFF関数の特定の形状、又は線形の場合には倍数定数C)を決定することが有利であることを理解する(そのPBはほとんどの状況で十分であるが、省電力などの観点から完全に使用されない場合にはさらに特性が組み込まれる)。そして、視聴者の周辺環境の明度を評価するために装置が接続されている場合、より多くのことをしたくなる。例えば、照度計を使用することができるが、受信側の部屋のどこか、例えば画像化された視聴環境の様々な領域について輝度計に較正され、既にいくつかのTVに入っているディスプレイに接続されたカメラを使用するほうが良い。これにより、視聴者が画像をどのように経験するかを概算することができる。より単純なバージョン、又は、例えばTVの裏側の(見回る)領域の様々な輝度を各側で1TV幅までチェックするカメラなど高度なバージョンを使用することができる。 The dynamic range establishment unit (302) depends on the peak brightness of the display on which at least one output image (Im_o) is rendered, and preferably also on the brightness characteristics of the viewing environment, the combined brightness dynamic range (CombRng). ) Is advantageous. When embodiments of the device of the invention are incorporated into an end-rendering site device or system, such as a television or computer, it may be appropriate to further specify the composition depending on the viewing details. If the LDR image looks excessively bright when viewed as is in a dark environment, it is dark when combined with the movie, especially because the movie has already been optimized for that particular viewing situation. It may be too bright for the viewing surroundings (as shown in FIG. 3, the automatically regrade appearance image Im2_MDR of the appropriate MDR has the same content reservation or the same broadcast content. Calculated from, for example, 5000 knit Im_HDR received by all viewers to view, for example 1200 knit PB displays viewed in dark surroundings). Partial images can be mixed in the appropriate MDR dynamic range (Im1_LM and Im2_HM). This is distracted by bright content (perhaps spatially adjacent), especially from other composited images, especially when it is difficult to see the darkest pixels of one image in a bright viewing environment. If so, the additional anc value of darker pixels in at least one image (eg, the main image) can significantly improve the optimality of the final composition. Those skilled in the art, of course, need to optimize the optimization to combine and present the two images, typically different from the optimization of a single image, depending on the overall situation as the observer perceives. Understand that (in practice, of course, constructing a device that optimizes more or less accurately based on the complexity it can afford, taking into account the positioned market price of the device, and in a simpler embodiment. Some already do pretty reasonable work). Looking at a single LDR commercial that is too bright, the viewer adapts greatly to what is visible on the screen, even in a dark viewing environment. However, when two images are combined, what human vision adapts to is not a trivial a priori, and therefore the brightness and brightness that the brain feels about the composition of the rendered pixel brightness. A system is desired that is relevant (he is unlikely to start watching a major movie badly) and therefore allows content creators to provide at least the minimum required information and guidance (practical). The technical system handles complexity, such as the effort spent by the content creator and the cost of the IC that needs to be calculated, and at least some minimal required color conversions to make the system behave at least not badly. Always balancing with the need to be half-reasonable, typically standardized various embodiments further work in what particular control function and to what extent. decide). Therefore, one of ordinary skill in the art will determine the CombRng (and typical anchor brightness, and the specific shape of the FF function if not linear, or the multiple constant C if linear), at least depending on the capabilities of the display. Understand that is advantageous (its PB is sufficient in most situations, but further characteristics are incorporated if it is not fully used in terms of power saving etc.). And if the device is connected to evaluate the brightness of the viewer's surroundings, they want to do more. For example, an illuminometer can be used, but somewhere in the receiving room, eg, various areas of the imaged viewing environment, are calibrated to the luminance meter and connected to a display already on some TVs. It is better to use a calibrated camera. This makes it possible to estimate how the viewer will experience the image. A simpler version can be used, or an advanced version, such as a camera that checks the various brightness of the (look around) area behind the TV up to 1TV width on each side.
輝度アンカー決定ユニット(303)は、合成輝度ダイナミックレンジ(CombRng)、2つの画像又はビデオの少なくとも1つの輝度、少なくとも1つの出力画像(Im_o)がレンダリングされるディスプレイのピーク明度、及び視聴環境の明度特性、のうちの少なくとも1つに依存してアンカー輝度(anc)を決定すると有利である。また、少なくとも1つのアンカー輝度ancを確立するべきであり、そこから両方の画像の輝度の分布が調和された態様で分配され得る。読者は、様々な実施形態がいずれかの順序でCombRng及びancの決定を行うことができることを理解すべきである。例えば、いくつかの実施形態は、(実際の又は予想される)ディスプレイの能力及び視聴環境の明度特性に応じて、例えば典型的には現在の映画又は画像のショットごとの状況などに対して、最初に良いCombRngが何であるかを確立する。 The brightness anchor determination unit (303) is a composite brightness dynamic range (CombRng), at least one brightness of two images or videos, the peak brightness of the display on which at least one output image (Im_o) is rendered, and the brightness of the viewing environment. It is advantageous to determine the anchor brightness (anc) depending on at least one of the characteristics. Also, at least one anchor brightness anc should be established from which the brightness distributions of both images can be distributed in a harmonious manner. The reader should understand that various embodiments can make CombRng and anc decisions in any order. For example, in some embodiments, depending on the capabilities of the display (actual or expected) and the brightness characteristics of the viewing environment, for example, typically for the current movie or image shot-by-shot situation, etc. First establish what a good CommRng is.
例えば、いくつかの実施形態は、映画を開始する前に、映画の第1の画像、又は映画全体を通してサンプリングされた画像の特徴的なセットを分析する。或いは、映画は共符号化されたメタデータを有し、そこから装置は第1の画像を復号化する前に、合理的な少なくとも初期のCombRngを確立することができる。例えばメタデータは、映画の平均輝度が400ニットまでのより低い範囲で200ニットであることを指定することができ、最も極端なシーケンス、例えば砂漠で撮影したショットでは、空又は砂のようなオブジェクトの輝度を900ニット(及び平均600ニット)まで拡散する(好ましくはそれを行うのに十分な能力を有する任意のMDRディスプレイにレンダリングされるべきである)。次に、画像合成装置の実施形態は、CombRngにおいて(特に、様々なPBのディスプレイにサービスする場合には)固定された明るすぎる領域を、例えば(小さい鏡面反射スポット、ランプ、又はシーンの非常に明るく照射された部分のような画像の詳細を含む上の明るい領域であろうとなかろうと)輝度の上部の100%をすべてのハイライトのために使用することができるように、その映画のための最も過度の要件である900ニットの200%まで予約すべきであることを決定することができる。もちろん、より高度な仕様は、プログラム又は映画、又はその一部でどのような種類のHDR効果が典型的であるか符号化することによって、CombRngの明るい輝度の領域を正確に決定する際に役立つ。一対のこのようなサブレンジと動作させると、特にこれらのレンジのための一対の良好なアンカー輝度で補完されている場合に、(それらが主にコンテンツの必要性を示しているか、予見されたレンダリングの能力を示しているか、又はその両方を示しているかによらず)強力で汎用性がある。 For example, some embodiments analyze a first image of a movie, or a characteristic set of images sampled throughout the movie, before starting the movie. Alternatively, the cinema has co-encoded metadata from which the device can establish a reasonable at least early CombRng before decoding the first image. For example, the metadata can specify that the average brightness of the movie is 200 nits in the lower range up to 400 nits, and in the most extreme sequences, for example shots taken in the desert, objects like the sky or sand. Diffuses the brightness to 900 knits (and an average of 600 knits) (preferably should be rendered on any MDR display that has sufficient capacity to do so). Next, an embodiment of the image compositing apparatus captures a fixed, over-bright region in CombRng (especially when servicing displays of various PBs), eg (small specular spots, lamps, or very scenes). For that movie so that the top 100% of the brightness can be used for all highlights (whether in the bright areas above or not, including image details such as brightly illuminated areas). It can be determined that up to 200% of the 900 knits, which is the most excessive requirement, should be reserved. Of course, the more advanced specifications help in accurately determining the bright brightness region of CombRng by encoding what kind of HDR effect is typical in a program or movie, or part thereof. .. Working with a pair of such subranges, especially when complemented by a pair of good anchor brightness for these ranges (they primarily indicate the need for content or foreseeable rendering). Powerful and versatile (whether or not it shows the ability of
最適なCombRngを決定した後、装置はそれに基づいて、例えば顔の色のアンカー輝度をどこにすべきかを決定することができる。例えば、レンジの半分が十分に照らされたランバートオブジェクトの場合、ピーク輝度のその50%の40%を顔輝度のanc点として使用することを決定できる。しかしながら、いくつかの実施形態は、逆に動作することができる。すべてのレンダリング特性を考慮に入れて、装置は、視聴者にとって適切に明るく見えるように顔又は主領域のランバートオブジェクトの中間グレーに適したanc輝度を決定することができる。次に装置は、その周りに適切なCombRngを構築することができる。例えば、装置は最も要求の多いHDR画像を調べて、顔の輝度の20倍までの明るいオブジェクト(ランプを参照)を見る。次いで装置は、その輝度値におけるレンジの最大値を設定する又はその値の例えば80%は2組の画像の合成レンダリングに十分でなければならないことを決定し、(どちらも特定の実施形態の合成で使用される)Im_HDRのそれぞれのIm2_MDRの高い値は通常、合成ダイナミックレンジの最大LMCにクリッピングされる。これは、コンテンツを例えば低いダイナミックレンジ能力と調和させたい場合に、特に例えばHDR映画が主要なコンテンツではないが、例えば大部分が他の画像領域を例えば情報とともに示すコンピュータディスプレイ上のPIPである場合に非常に有用であり得る。したがって、簡単な実施形態では、顔色よりも2倍明るいオブジェクトを生成し、合成画像又は画像(Im_o)に追加する準備ができたときに、一般にいずれかの画像(すなわち、第1及び第2のHDR画像、又はLDR画像が合成で使用される場合にはLDR画像)のいずれかのアンカー輝度がそれぞれの画像ピクセルにおいても2倍明るくなる。又は、より進んだ色変換(又は合成のいくつかは、合成計算においてピクセル輝度を重み付け又は変更する場合がある)によって、いくつかの輝度をより暗く又はより明るくすることができる。同様の考慮が装置によって行われてCombRngの下限輝度LmiCが生じてもよく、例えば(今やオリジナルの少なくとも1つよりもはるかに明るいオブジェクトを有する)合成画像が過度に暗い又は過度にコントラストが強い外観などにならないように、ソース画像の少なくとも1つより幾分明るくなる。 After determining the optimal CombRng, the device can determine where, for example, the anchor brightness of the face color should be based on it. For example, in the case of a Lambert object whose half of the range is fully illuminated, it can be determined to use 40% of that 50% of the peak brightness as the anc point of the face brightness. However, some embodiments can work in reverse. Taking into account all rendering characteristics, the device can determine the anc brightness suitable for the mid-gray of the Lambert object in the face or main area so that it looks appropriately bright to the viewer. The device can then build a suitable CombRng around it. For example, the device examines the most demanding HDR images and sees bright objects (see lamps) up to 20 times the brightness of the face. The device then sets a maximum range at that brightness value or determines that, for example, 80% of that value must be sufficient for composite rendering of the two sets of images (both of which are composites of a particular embodiment). The high value of each Im2_MDR of Im_HDR (used in) is usually clipped to the maximum LMC of the composite dynamic range. This is the case if you want to harmonize the content with, for example, low dynamic range capabilities, especially if the HDR movie is not the main content, but most of it is a PIP on a computer display that shows other image areas, for example, with information. Can be very useful. Thus, in a simple embodiment, when an object that is twice as bright as the complexion is generated and is ready to be added to the composite image or image (Im_o), it is generally one of the images (ie, the first and second). The anchor brightness of either the HDR image or the LDR image when the LDR image is used in compositing is twice as bright in each image pixel. Alternatively, some brightness can be made darker or brighter by more advanced color conversion (or some of the compositing may weight or change the pixel luminance in the compositing calculation). Similar considerations may be made by the device to result in a lower limit brightness LmiC of CombRng, eg, the appearance of a composite image (now having a much brighter object than at least one of the originals) being overly dark or overly contrasting. It will be slightly brighter than at least one of the source images so that it does not become.
さらなる実施形態は、(ICの一部として小さかろうと、又は消費者又はプロフェッショナルシステム全体のように大きかろうと)対応する装置又は方法として実現されてもよい。 Further embodiments may be implemented as corresponding devices or methods (whether small as part of an IC or large as a consumer or professional system as a whole).
複数の画像(Im_HDR、Im_LDR)の2つの画像又は2つのビデオであって、そのうちの1つが高ダイナミックレンジの画像又はビデオである2つの画像又は2つのビデオを合成するための方法は、
最大輝度(LMC)を少なくとも特徴とする合成輝度ダイナミックレンジ(CombRng)を確立する確立ステップであって、確立ステップが、合成輝度ダイナミックレンジ(CombRng)におけるアンカー輝度(anc)を決定する決定ステップをさらに含む、確立ステップと、
2つの画像又はビデオの少なくとも1つに少なくとも輝度変換から構成される色変換(FF_1)を適用する適用ステップであって、その色変換は、2つの画像又はビデオの第1の画像又はビデオ(Im1_LDR)を供給する第1のソース(350)から読み出されるソースアンカー輝度(L_SA1)の値に基づいて確立される、適用ステップと、
画像を合成輝度ダイナミックレンジ(CombRng)におけるそれらのピクセル色を用いて合成して、少なくとも1つの出力画像(Im_o)を形成する形成ステップとを含む。
A method for synthesizing two images or two videos of two images or two videos of multiple images (Im_HDR, Im_LDR), one of which is a high dynamic range image or video.
An establishment step for establishing a composite luminance dynamic range (CombRng) characterized by at least maximum brightness (LMC), the establishment step further comprising a determination step for determining anchor luminance (ank) in the composite luminance dynamic range (CombRng). Including, establishment steps and
An application step of applying a color conversion (FF_1) consisting of at least a luminance conversion to at least one of two images or videos, wherein the color conversion is the first image or video (Im1_LDR) of the two images or videos. ), And an application step established based on the value of the source anchor luminance (L_SA1) read from the first source (350) to supply.
It includes a forming step of synthesizing the images using their pixel colors in the composite luminance dynamic range (CombRng) to form at least one output image (Im_o).
請求項10に記載の方法において、色変換(FF_1)は、少なくとも1つのソースアンカー輝度(L_SA1)と等しい第1の画像又はビデオ(Im1_LDR)のピクセルの色の入力輝度に色変換(FF_1)を適用した結果として決定される出力輝度(LF1_o)が、アンカー輝度(anc)と等しくなるように又はアンカー輝度(anc)から決定された差(d_anc)だけオフセットした輝度と等しくなるように、決定される。 In the method of claim 10, the color conversion (FF_1) performs color conversion (FF_1) to the input brightness of the pixel color of the first image or video (Im1_LDR) equal to at least one source anchor brightness (L_SA1). The output brightness (LF1_o) determined as a result of the application is determined to be equal to the anchor brightness (anc) or to be equal to the brightness offset by the difference (d_anc) determined from the anchor brightness (anc). To.
2つの画像を合成する方法において、色変換(FF_1)は、第2の入力輝度(LT1_i)に色変換(FF_1)を適用した結果として決定される第2の出力輝度(LT2_o)を出力輝度(LF1_o)で割った輝度比が、第2の入力輝度(LT1_i)をソースアンカー輝度(L_SA1)で割った比の定数(C)倍になるように、決定される。上述したように、アンカー輝度の周囲の画像に生じる他の輝度は、単にアンカー輝度の周りにマッピングされてもよいし、又はより正確に決定された態様でマッピングされてもよい。 In the method of synthesizing the two images, the color conversion (FF_1) outputs the second output brightness (LT2_o) determined as a result of applying the color conversion (FF_1) to the second input brightness (LT1_i). The luminance ratio divided by LF1_o) is determined to be a constant (C) times the ratio of the second input luminance (LT1_i) divided by the source anchor luminance (L_SA1). As mentioned above, other brightness that occurs in the image around the anchor brightness may simply be mapped around the anchor brightness, or may be mapped in a more accurately determined manner.
2つの画像を合成する方法において、複数の画像のうちの第2の画像又はビデオの色変換(FF_2)は、2つの画像又はビデオの第2の画像又はビデオ(Im1_HDR)を供給する第2のソース(351)から得られた少なくとも1つの第2のソースアンカー輝度(L_S2A1)に基づいて決定される。様々な明度レンジ(例えば、明るい光、明るい影、深い影、ランプなど)を出力画像CombRngの出力レンジにおいて最適に調整して互いにマッピングすることができるように、第1の画像だけでなく第2の画像の様々なアンカー輝度を決定することができる。 In the method of synthesizing two images, the color conversion (FF_2) of the second image or video of the plurality of images supplies the second image or video (Im1_HDR) of the two images or video. Determined based on at least one second source anchor brightness (L_S2A1) obtained from the source (351). A second image as well as a first image so that different brightness ranges (eg bright light, bright shadows, deep shadows, lamps, etc.) can be optimally adjusted and mapped to each other in the output range of the output image CombRng. Various anchor brightness of the image can be determined.
2つの画像を合成する方法において、少なくとも2つの画像又はビデオのそれぞれに適用される色変換(FF_1、FF_2)の少なくとも1つは、それぞれの画像が、それが符号化される対応するダイナミックレンジから少なくとも2倍以上又はそれ以下のダイナミックレンジにどのように変換されるかを示す少なくとも1つの受信関数(F1_L、F2_L)に少なくとも部分的に基づいて決定される。上述のように、これらの関数は、シーン内のすべてのオブジェクトの明度が(その元のダイナミックレンジ、すなわち受信した入力画像のルマコードY’を規定するEOTFに対応する基準ディスプレイのPBと少なくとも2倍異なる)任意のダイナミックレンジでどのぐらい正確に見えるかを決定する。したがって、その情報は、例えばやや低いダイナミックレンジに再等級分けする必要がある場合にも使用することができる(例えばCombRngがIm_MDRのMDRレンジより少し小さい)。これは、それ自身で使用される少なくとも1つの画像又はビデオの調整された輝度になるためのスマートさのほとんどを行うが、合成画像コンテンツの提示のためにCombRngにマッピングされた画像の最初のピクセル輝度のセットを大まかに決定するための良い出発点である。いずれの実施形態でも検査され使用されている関数F1_L及びF2_Lそれぞれの形状特性においてコンテンツの作成者によって指定されているから、(例えばオブジェクト分割アルゴリズム及び対応する輝度レンジに従ってスマートに決定されるか、又は例えばCombRngを5等分又は等しくないサブレンジに分割し、2つの入力画像輝度レンジ及びそれらの対応するサブレンジについて同じことをすることによって大まかに決定されるかいずれにしても)例えば合成装置又は方法によって決定されたヒューリスティックな線形ストレッチのようないくらか単純化されたさらなる微調整、又はそれらのオブジェクト又は輝度サブレンジ内の画像における特定の必要な輝度調整を考慮した高度なさらなる微調整が生じる場合がある。 In the method of synthesizing two images, at least one of the color transformations (FF_1, FF_2) applied to each of the two images or videos is from the corresponding dynamic range in which each image is encoded. It is determined at least in part based on at least one receiving function (F1_L, F2_L) indicating how it is converted to a dynamic range of at least twice or more. As mentioned above, these functions have at least twice the brightness of all objects in the scene (that is, the PB of the reference display corresponding to the EOTF that defines the Lumacode Y'of the received input image. Determines how accurate it looks in any dynamic range (different). Therefore, that information can also be used, for example, when it is necessary to regrade to a slightly lower dynamic range (eg, CombRng is slightly smaller than the MDR range of Im_MDR). This does most of the smartness to get the adjusted brightness of at least one image or video used by itself, but the first pixel of the image mapped to CombRng for the presentation of composite image content. It's a good starting point for roughly determining the set of brightness. Since the shape characteristics of the functions F1_L and F2_L, which are inspected and used in both embodiments, are specified by the creator of the content (eg, are smartly determined according to the object partitioning algorithm and the corresponding luminance range) or For example, by dividing the CommRng into 5 equal parts or unequal subranges and roughly determined by doing the same for the two input image luminance ranges and their corresponding subranges), eg, by a synthesizer or method. Somewhat simplified further tweaks, such as determined heuristic linear stretches, or advanced further tweaks that take into account the specific required brightness adjustments in those objects or images within the brightness subrange may occur.
上記の方法の1つに記載の2つの画像を合成する方法において、合成輝度ダイナミックレンジ(CombRng)及びアンカー輝度(anc)のうちの少なくとも1つは、2つの画像のうちの少なくとも1つにおけるオブジェクトの輝度分布依存性質、2つの画像の少なくとも1つの輝度特性を要約する情報、合成された少なくとも1つの出力画像(Im_o)がレンダリングされるディスプレイのダイナミックレンジ、及び出力画像が見られる視聴環境のための明度測定値のセットからの少なくとも1つの要因に基づいて決定される。 In the method of synthesizing two images according to one of the above methods, at least one of the combined luminance dynamic range (CombRng) and anchor luminance (ank) is an object in at least one of the two images. Luminance distribution-dependent property of, information summarizing at least one luminance characteristic of two images, the dynamic range of the display on which at least one composited output image (Im_o) is rendered, and the viewing environment in which the output image is viewed. It is determined based on at least one factor from the set of brightness measurements of.
上記のすべては、インターネットなどを介して接続された他の国のサーバに構成要素が存在する場合がある消費者装置又はプロフェッショナルシステムであろうが、様々なシステム及び形態に組み込まれ得る。 All of the above may be incorporated into various systems and forms, whether they are consumer devices or professional systems whose components may be present on servers in other countries connected via the Internet or the like.
CombRngの仕様(例えば、その上位輝度LMC、及びその下限輝度LmiC)、及び/又は例えば顔の典型的なアンカー輝度、場合によっては同様に画像ピクセル輝度をどのようにしてCombRngにマッピングするかを指示する少なくとも1つの色変換関数などのメタデータが画像に補足されると有利である。 Specifies how to map the CombRng specifications (eg, its upper brightness LMC and its lower limit brightness LmiC) and / or, for example, the typical anchor brightness of a face, and in some cases the image pixel brightness to CommRng as well. It is advantageous if the image is supplemented with metadata such as at least one color conversion function.
受信されたときに画像の照明選択が様々な画像の合成を望む装置によって理解することができるように、コンテンツ作成者が少なくとも1つの意味的に関連性のある(好ましくは事前に合意されたタイプの)アンカー輝度で画像に注釈を付けることも有利である。 At least one semantically relevant (preferably a pre-agreed type) by the content creator so that the lighting choices of the image when received can be understood by the device wishing to combine the various images. It is also advantageous to annotate the image with anchor brightness.
これらの方法のそれぞれは、コンピュータプログラムとして実施すること有利であり、コンピュータプログラムは、コードが実行されたときに上記の方法のいずれかの実施形態のすべてのステップが実行されるように、プロセッサがコードを実行できるようにするソフトウェアコードを含む例えばコンピュータプログラムなどの物理的なキャリアを介して通信され得る。 Each of these methods is advantageous to implement as a computer program, which allows the processor to perform all steps of any embodiment of any of the above methods when the code is executed. It can be communicated via a physical carrier, such as a computer program, that contains software code that allows the code to be executed.
発明による方法及び装置のこれらの及び他の態様は、以下に説明される実施態様及び実施形態及び添付の図面から明らかとなるものであり、これらを参照して説明する。これらの図面は、単により一般的なコンセプトを例示する非限定の特定の図を単に提供するものであり、破線はその構成要素が任意選択であることを示すために使用され、破線以外の構成要素についても必ずしも必須ではない。また、必須と説明された要素がオブジェクトの内部に隠れていることを示す場合又はオブジェクト/領域の選択(及び、ディスプレイ上での見せ方)などの無形物の場合にも破線を使用可能である。 These and other aspects of the methods and devices according to the invention will be apparent from the embodiments and embodiments described below and the accompanying drawings, which will be described with reference to them. These drawings merely provide a specific, non-limiting diagram that exemplifies a more general concept, the dashed lines are used to indicate that the components are optional, and configurations other than the dashed lines. The elements are not always required. Dashed lines can also be used to indicate that an element described as required is hidden inside an object, or for intangible objects such as object / area selection (and how it appears on the display). ..
図1及び図2は既に上記で説明され、図2は、同じシーンのHDRビデオ、より正確にはLDRグレード画像及びHDR(典型的には5000ニットPB)グレード画像を好ましくはどのように符号化するかを示しており、これは、(受信したLDR画像に輝度変換関数を適用することによって)符号化して、端部としてLDR及びHDRグレーディングにまたがるダイナミックレンジの範囲内又は範囲外の任意の場所でディスプレイピーク明度のための最適に再グレードされた画像を生成することができる。 1 and 2 have already been described above, where FIG. 2 preferably encodes an HDR video of the same scene, more precisely an LDR grade image and an HDR (typically 5000 knit PB) grade image. Indicates whether to encode (by applying a brightness conversion function to the received LDR image) and anywhere within or outside the dynamic range that spans the LDR and HDR grading as the edges. Can produce optimally regrade images for display peak brightness.
図3は、HDR画像、又はビデオ、ハーモニック合成装置又は方法のほとんどの実施形態の根本的ないくつかの基本的な構成要素をより高いレベルで説明している。以下ではPIPの例を用いて状況を説明するが、例えば異なるソースからインターリーブされたビデオの時間的連続性において等級分けの明度を調整するのに同じ技法を使用することもできる。例えば、LDRコマーシャルのための良好なCombRngレベルを確立し、HDR画像の輝度をそれに向かって徐々に適応させることができる(様々なビデオの時間的進化に関して様々な追加のメタデータを送ることができる)。当業者は、非常に異なる状態であり異なって定義された輝度(ルマコードは言うまでもなく)の2つの画像が対応し関連する(結合すべき)類似の輝度を有するものに変換されると、より複雑な態様、例えばアルファブレンディングでコンテンツの混合を開始することができ、又は顔の一部を適切に調整された輝度などを有するいくつかのコンピュータ生成の顔構造と置き換えることができると理解するであろう。例えば、第1の画像のCombRngにマッピングされた顔輝度(例えば、異なって照らされた顔の両側)がxとyであり、第2の画像のそれがx+e1とy+e2であり、e1とe2が十分に小さい偏差である場合、L_out_comb=alpha*L_im1_comb+(1−alpha)*L_Im2_combのような混合式を適用することができ、L_im1_comb、L_Im2_combはそれぞれ、(それぞれFF関数を使用して)CombRngに色変換した後の第1及び第2の画像のピクセル輝度であり、alphaは0.0と1.0の間の実数であり、L_out_combは出力画像Im_o、すなわちCombRngをダイナミックレンジとして有する合成画像におけるその混合ピクセルの最終輝度である。 FIG. 3 illustrates at a higher level some of the underlying components of most embodiments of HDR images, or video, harmonic synthesizers or methods. The situation is illustrated below using the example of PIP, but the same technique can also be used to adjust the brightness of the grading, for example in the temporal continuity of videos interleaved from different sources. For example, a good CommRng level for LDR commercials can be established and the brightness of the HDR image can be gradually adapted towards it (various additional metadata can be sent with respect to the temporal evolution of different videos). ). Those skilled in the art will be more complex when two images in very different states and with differently defined intensities (not to mention Lumacode) are converted into those with similar intensities that correspond and are related (to be combined). It is understood that a mixture of contents can be initiated in various aspects, such as alpha blending, or that a portion of the face can be replaced with some computer-generated facial structure having properly adjusted brightness, etc. Let's go. For example, the face brightness mapped to CombRng in the first image (eg, both sides of a differently illuminated face) is x and y, that in the second image is x + e1 and y + e2, and e1 and e2 are. If the deviation is small enough, a mixed formula such as L_out_comb = alpha * L_im1_comb + (1-alpha) * L_Im2_comb can be applied, and L_im1_comb and L_Im2_comb are each colored to CombRng (using the FF function). The pixel brightness of the first and second images after conversion, alpha is a real number between 0.0 and 1.0, and L_out_comb is the output image Im_o, that is, in a composite image having CombRng as the dynamic range. The final brightness of the mixed pixel.
読者は、作成者が元の画像に対して可能な限り完全に制御できる場合(特に、意図したレンダリング環境の詳細を知る必要がある場合もある)、もちろん要望に応じて完全に満足するまで任意の手段を用いて合成画像を微調整することができることを理解することができる。しかしながら、本実施形態は、例えば、すべてを手作業で微調整する時間がないため、又は最適な外観を定義する入力や変数が制御できない又は知られていないため、それほど簡単又は可能ではない多くの状況を提供する。何かがいつも画像処理状況で変わることがあり、そのため、これは最新のHDR処理技術が提供すべきものである。すなわち、少なくとも本実施形態は、例えば新しい要望に応じて様々な瞬時の比色微調整を行うことができるより汎用性のある用途を可能にし、元の画像の外観情報の一部を保持することができる。重要なのは、各段階で画像の少なくとも最も重要な側面の一部を保持することである。もちろん、エンドユーザはビデオを完全に再度色付けすることを決定することができるが、すべてのコンテンツ作成者の努力は無視され失われ、それは実際誰の役にも立たない(例えば、テレビメーカーは、画像レンダリングに自分の好みを幾分か追加したいと考えるが、必ずしもその画像に関するすべてのもの、特にコンテンツ作成者が画像について指定したものを無視することによってそうする必要はなく、しかし一方で、受信側は、たとえ状況が明らかに不適切であると思われるとしても、画像比色に関して全く何も言うことがないと感じるべきではない)。 The reader is optional if the creator has as much control over the original image as possible (especially if he needs to know the details of the intended rendering environment), of course until he is completely satisfied on request. It can be understood that the composite image can be fine-tuned by using the above means. However, this embodiment is not so easy or possible, for example, because there is no time to manually tweak everything, or because the inputs and variables that define the optimal appearance are uncontrollable or unknown. Provide the situation. Something can always change depending on the image processing situation, so this is what the latest HDR processing technology should provide. That is, at least the present embodiment enables a more versatile application in which various instantaneous colorimetric fine adjustments can be performed, for example, in response to new demands, and retains a part of the appearance information of the original image. Can be done. The important thing is to retain at least some of the most important aspects of the image at each stage. Of course, the end user can decide to completely recolor the video, but the efforts of all content creators are ignored and lost, which is actually useless to anyone (for example, TV makers, You want to add some of your taste to image rendering, but you don't necessarily have to do so by ignoring everything about the image, especially what the content creator has specified for the image, but on the other hand, receiving The side should not feel that there is nothing to say about image coloration, even if the situation seems apparently inappropriate).
復号器251は、図2で説明したものと同様であり、すなわち、説明したHDR符号化方法(様々な可能な画像グローバル又はローカル実施形態に従って輝度マッピング関数を抽出し、そこから新しいMDR再等級分け画像を決定する)に従って(HDR、LDR)画像の等級分けを処理することができる。もちろん、読者は、これが可能な実現化のうちの1つを単に説明することであることを理解しており、装置は通常、あらゆる種類のHDR又はLDRビデオ又は画像を処理(すなわち、複合及び合成)することができる、すなわちIm_HDRはPQ EOTF又はBBC−HLG法などによっても定義できる。しかしながら、この例では、いくつかの(第2の)画像ソース351(例えば、衛星放送チャンネル、又はインターネットを介したビデオストレージへの接続、又は接続されたカメラなど)から、混合すべき2つの画像のうちの第2の画像が得られると仮定する(例えば、主要な、最も重要な(主な)プログラムは、正確に芸術的に色等級分けされたHDR映画である)。例えば、それは画像がPQ EOTFで変換され、次にDCT符号化され、いくつかのHEVCプロファイル及びレベルに従って符号化される5000ニットPB HDR等級分けである。このHDR画像を100ニットLDR画像にダウングレードする関数F2_Lを含むメタデータも通信される。復号器は、接続されたディスプレイのための最適な画像、例えば2500ニットMDR画像、Im2_MDRを作ることができる。これはこの映画では正しい等級分けであり、他の(第1の)画像データと合成されずに空間的に又は時間的に散在しているか否かそれ自身で監視される。
The
図7では、本実施形態の1つによれば、第1のダイナミックレンジの外観から第2のダイナミックレンジの外観へのそのような再等級分けをどのように行うことができるか要約する。L_inが実際の(HDR画像をレンダリングする際にディスプレイにレンダリングされる)輝度0−5000ニットに対応する[0.0−1.0]HDR入力輝度に正規化されていると仮定する。L_outは、正規化されるがPB=100ニット(すなわちSDR輝度)に対応するLDR輝度である。このHDRをこのLDR画像にマッピングする関数702は、特定の輝度変換におけるF2_L色の例である(単純な理解のために単にグレースケール画像を有すると仮定することができるが、この態様で必要な色変換をRGB色に適用することができることも示す)。例えば3400ニットのMDRディスプレイのPB_MDRに対応する最適な再等級分け関数703を導出したいと仮定する。斜線701は、5000ニット入力画像をPB=5000ニットのディスプレイに最適な画像にマッピングしたい場合、HDR画像がそのディスプレイに対して既に最適に等級分けされているので(すなわち、それが同一性変換によって記号的に変換されているため)、必要な輝度マッピングになる。例えば垂直な誘導方向DIRを確立する。3400ニットのディスプレイPBに対するスケーリングされた関数は、F(Ls)の間にある任意の入力輝度Lsについて、すなわち最適に決定されたダウングレード関数F(F2_L)がその輝度点及びLsに存在しても、値F*(Ls)を与えるべきである。この点をLs+FI(PB_MDR、Ls)*(F(Ls)−Ls)と決定することができ、FIは0と1の間の値を与える関数であり、より単純なシナリオではk(PB_MDR)*Lsとして乗法的に書くこともできるPB_MDRの関数のみである。どの関数が正確に使用されるかは、使用された実施形態の再等級分け原理に依存し、読者は、例えば視聴環境の詳細に依存する(又は視聴者の嗜好も考慮される)が、多かれ少なかれ複雑な様々な実施形態が存在し得ることを想像することができる。しかしながら、その詳細は、この出願で説明する必要があるものを超えており、既に十分に複雑である(読者は、いくつかの再等級分け関数が確立され、入力画像に適用され、MDRディスプレイのための正しい画像オブジェクト輝度を有する正確に再等級分けされた画像を得ることができることを理解すべきである)。
FIG. 7 summarizes how such regrading from the appearance of the first dynamic range to the appearance of the second dynamic range can be performed according to one of the present embodiments. It is assumed that L_in is normalized to the [0.0-1.0] HDR input brightness corresponding to the actual 0-5000 knit brightness (rendered on the display when rendering the HDR image). L_out is the LDR brightness that is normalized but corresponds to PB = 100 knits (ie, SDR brightness). The
上記の第1の画像は何でもよいが、LDRコマーシャルを用いて原理を説明し、本実施形態の原理は他のコンテンツと同様である。少なくとも2つの画像のダイナミックレンジの大きな差異だけではなく、LDRコマーシャルにおけるオブジェクト輝度の極端な分布のために(すなわち、2500ニットはCombRngにとって最良のLMC値ではないが別の値が選択され得る)、この2500MDRは、100ニットのLDRコマーシャルと混合する場合、適切な等級分けではない(すなわち、2500は適切なPBではない)。高ダイナミックレンジは、「高い」すなわち明るいだけでなく、「動的」という点でも、すなわち輝度軸上のどこに作成者が画像内の様々な意味オブジェクト及び/又は領域を割り当てたかという点でも理解するべきである。一般的な誤解とは対照的に、単に高輝度で画像を表示することは、むしろフラットなLDR−ishの外観及び苛立たしい明るさをもたらす可能性があるので、グレー値の間の全部又は多くをより厳密に制御することが望ましい。例えば、コマーシャルの作成者は、100ニットLDRスクリーンに高い視覚的インパクトを与えるために、LDRコマーシャルをより明るく派手にする。しかし、このインパクトは、(このようなディスプレイを購入した視聴者のための5000ニットPB_Dディスプレイはもちろん)2500ニットのダイナミックレンジであっても高すぎるので、例えば映画にきれいな明るいランプを表示する必要性とLDR等級分けの極端さの両方を考慮したCombRngはそのような場合に例えば1500ニットLMCで必要となる。この装置は、LDR画像の全体コントラストを測定するなどの方法を用いることができ、例えばLDR画像におけるk%=例えば80%の輝度より上のピクセルの量がどれだけ大きいか、どのくらいの頻度で平均輝度が高いか極端か、又はk%より上のピクセルの量がどのように変化するかなどをカウントし、そこから極端な基準を決定し、このLDRコマーシャルの最も明るい部分がCombRngにマッピングされたときに最終的にどの程度明るくなるかを決定し、例えばLMCがどのようなものでなければならないかを決定する(例えば、LDRピクセルのうち最も明るいピクセルは、どの非線形性が使用されるかに依存して、又は顔の輝度を配置するためにどの程度の明るさが必要であるかに依存して、300ニットになり得、HDR映画の最も明るいランバーシアンピクセル(すなわち、その映画のより低いレンジにおいて、例えばHDR映画のためのそのメイン領域の符号化された中間グレーの5倍として識別される)は、例えば、大体k倍すなわち200又は450になり、明るいランプは300ニットの5倍になり、LMC=1500ニットを与える。) The first image above may be anything, but the principle will be described using LDR commercials, and the principle of this embodiment is similar to other contents. Due to the large difference in dynamic range of at least two images, as well as the extreme distribution of object brightness in LDR commercials (ie 2500 knit is not the best LMC value for CombRng, but another value can be chosen). This 2500 MDR is not properly graded when mixed with 100 knit LDR commercials (ie 2500 is not a suitable PB). High dynamic range is understood not only in terms of "high" or bright, but also in terms of "dynamic", that is, where on the luminance axis the author has assigned various semantic objects and / or areas in the image. Should be. In contrast to common misconceptions, simply displaying an image in high brightness can result in a rather flat LDR-ish appearance and annoying brightness, so all or more between gray values. It is desirable to control the. For example, the creator of a commercial makes the LDR commercial brighter and more flashy in order to give a high visual impact to the 100 knit LDR screen. However, this impact is too high even with a dynamic range of 2500 nits (not to mention the 5000 nit PB_D display for viewers who purchased such a display), so there is a need to display a clean bright lamp in a movie, for example. CombRng, which takes into account both the extremes of LDR grading and LDR grading, is required in such cases, for example with a 1500 knit LMC. The device can use methods such as measuring the overall contrast of the LDR image, for example, how large the amount of pixels above k% = eg 80% brightness in the LDR image, and how often it averages. Counting how bright or extreme, or how the amount of pixels above k% changes, etc., and determining the extreme criteria from which, the brightest part of this LDR commercial was mapped to CombRng. Sometimes it determines how bright it will eventually be, for example what the LMC should be (eg, the brightest of the LDR pixels is which non-linearity is used. Depending on whether it depends, or how much brightness is needed to place the brightness of the face, it can be 300 knits, the brightest Lambersian pixels in an HDR movie (ie the lower of that movie). In the range, for example identified as 5 times the encoded mid-gray of its main area for HDR movies) is, for example, approximately k times or 200 or 450, and bright lamps are 5 times 300 knits. And give LMC = 1500 knits.)
当業者であれば、CombRng(又はanc)に至る様々な態様があることを理解しており、例えばそれは主にHDR映画によって決定され、次にLDR画像をそのCombRngにマッピングされたHDR映画とどのように調整するか(上述の第1の記述された例のように)、又はここで例示されるようにLDR画像特性によって主に又は大部分が決定され、最も明るいHDRオブジェクトがLDR画像内の最も明るい色又は平均色より上にどれだけ伸びるかを決定するとき、又は2つの合理的な最適値が見つかるまで反復的に決定するときに、HDR画像の十分な品質を保護する。それはすべて特定の状況の必要性、及び特定の合成装置の実施形態の挙動に依存する。2つの画像のうちのどれが最も高い重要性を有するかは、様々な態様で予め設定することができ、例えば視聴者は、いくつかの実施形態では、リモートコントロールを用いて、どのような画像が合成されても映画の邪魔を最小限にしたいことを示すことができ、又はコンテンツ作成者は、その合成装置が最終的に決定するコンテンツについての指示を与えることができる。 Those skilled in the art understand that there are various aspects leading up to CombRng (or anc), such as which is mainly determined by the HDR movie and then the LDR image is mapped to that CombRng. The brightest HDR object in the LDR image is largely or largely determined by the LDR image characteristics as illustrated here (as in the first described example above). Sufficient quality of HDR images is protected when determining how much to extend above the brightest or average color, or when iteratively determining until two reasonable optimal values are found. It all depends on the needs of the particular situation and the behavior of the embodiments of the particular synthesizer. Which of the two images has the highest importance can be preset in various ways, for example, the viewer, in some embodiments, using a remote control, what kind of image. Can indicate that they want to minimize the obstruction of the movie even if they are synthesized, or the content creator can give instructions on the content that the synthesizer ultimately determines.
図3に戻って、第1の画像ソース350は、例えばRec.709に従って標準的な態様で符号化されたLDR画像Im1_LDRと仮定した第1の画像を供給する(当然そこには図示されていない復号器ユニットが存在し得る)。最近のビデオの場合、HDRに変換するための独自の関数F1_Lで注釈が付けられ、古いSDRビデオの場合には注釈が付けられていない。すなわち、そのメタデータに関連する関数F1_Lを有し、本来の100ニットDRよりも他のダイナミックレンジへの芸術的な最適な変換を可能にする。関数が欠落している場合、合成装置は、平均的に合理的にうまく機能する関数及び推定を常に適用することができる。やはり、画像ソース350は、様々なソースであり、例えば視聴者の家の正面玄関にあるセキュリティカメラは、誰かがドアベルなどを鳴らしたときなどに画像をPIPする。
Returning to FIG. 3, the
説明したように、様々な考えられるアルゴリズムのうちの1つに従って、ダイナミックレンジ確立ユニット(302)は、例えば第1及び第2の画像の輝度特性のような状況を分析し、上記の例ではLmiC=0ニット、LMC=1500ニットで適切な合成輝度ダイナミックレンジ(CombRng)を確立する。輝度アンカー決定部(303)は、アンカー輝度(anc)を決定する。例えば、輝度アンカー決定部(303)は、第1の画像に関連付けられたメタデータにおける第1の画像ソースから、タイプ「顔輝度」のソースアンカー輝度(L_SA1)を読み出し、この値は例えば45ニットである。画像の少なくとも1つの顔が重要であることが分かっている場合は、CombRngの中でどれが良い顔色ancかを確立する必要がある(もちろん、他の実施例では、指定された場所でソースアンカー輝度を調べることなく、ancを最初に決定することができ、又はアンカー輝度が例えば明るい屋外のサブ領域において平均グレーであることを見た場合に、CombRngについて、全体的な平均グレー及びCombRng内の色の全体的な中立的なレンダリングと比較して明るい外部輝度を位置付けるd_anc位置を決定する)。実施形態の複雑さに依存して、典型的な実施形態は、タイプ顔色の第2のソースアンカー輝度L_S2A1のどの値が、顔色が映画のこのショットにどのように現在あるかを示すことを確認したい。上側のレンジは明るく点灯したオブジェクト又は領域、又はランプのようなHDR効果に使用されるから、正規化された輝度軸ではこれは当然低い値になる。それでも、拡散オブジェクトの範囲における例えば最大400ニットの合理的な値が180ニットであり、30ニットの値しか見つからない場合には、本質的に暗い顔か薄暗い顔、或いはその両方であることを知る。いずれにせよ、たとえその顔がコマーシャルよりも暗く見えても、anc値を例えば180*1500/2500に置くことを決めた場合にそれはもっと暗くなる。したがって、30ニットにいくらか近いanc値を計算し、LDRの顔輝度を例えば0.8*180*1500/2500ニット値又はその付近に配置し、例えば0.3*180*1500/2500のanc値近辺にHDR顔色をマッピングすることを望む。これは、物語に従ってHDR映画のために、どちらも最適なanc値に従って調整すべきであるので、LDR画像に対して顔を適切に薄暗くし、顔を適切に暗くすることを保証する。もちろん、例えば特にHDR点灯領域の中間グレーのような他の又は追加のアンカー輝度を考慮することによって同じことを行うことができる。 As described, according to one of a variety of possible algorithms, the dynamic range establishment unit (302) analyzes situations such as the luminance characteristics of the first and second images, LmiC in the above example. An appropriate combined luminance dynamic range (CombRng) is established with = 0 knit and LMC = 1500 knit. The brightness anchor determination unit (303) determines the anchor brightness (anc). For example, the luminance anchor determination unit (303) reads the source anchor luminance (L_SA1) of type "face luminance" from the first image source in the metadata associated with the first image, and this value is, for example, 45 knits. Is. If at least one face in the image is known to be important, then it is necessary to establish which is the best complexion anc in the CommbRng (of course, in other embodiments, the source anchor at the specified location). The anc can be determined first without examining the brightness, or if the anchor brightness is seen to be average gray in, for example, a bright outdoor subregion, for CombRng, within the overall average gray and CommRng. Determines the d_anc position that positions the bright external brightness compared to the overall neutral rendering of the color). Depending on the complexity of the embodiment, a typical embodiment confirms which value of the second source anchor brightness L_S2A1 of the type complexion indicates how the complexion is currently in this shot of the movie. Want to. This is of course a low value on the normalized luminance axis, since the upper range is used for HDR effects such as brightly lit objects or areas, or lamps. Still, if a reasonable value of, for example, up to 400 knits in the range of diffuse objects is 180 knits and only a value of 30 knits is found, then we know that the face is essentially dark, dim, or both. .. In any case, even if the face looks darker than the commercial, it will be darker if you decide to set the anc value to, for example, 180 * 1500/2500. Therefore, an anc value somewhat close to 30 knits is calculated and the face brightness of the LDR is placed at or near, for example, 0.8 * 180 * 1500/2500 knit values, for example an anc value of 0.3 * 180 * 1500/2500. I would like to map the HDR complexion in the vicinity. This ensures that the face is properly dim and the face is properly dim for the LDR image, as both should be adjusted according to the optimal anc value for the HDR movie according to the story. Of course, the same can be done by considering other or additional anchor brightness, such as intermediate gray, especially in the HDR lighting area.
アンカー輝度ancを有するCombRngを確立してから行う唯一のことは一般的に、anc値又はその周辺に向けられるべきであるために決定される1つの特定の輝度値に従って2つの画像をそのダイナミックレンジに最適にマッピングすることである。これを行う1つの態様は、輝度マッピング関数のラインの傾きである最適に決定されたコントラスト値Cを用いて輝度の線形割り当てを行い、次にクリッピングが生じるまで線形方程式を計算することによって輝度を割り当てることである(クリッピングの量はC値とともに制御することができ、CombRng内のある値、すなわち最大値LMC以下の値にクリップすることができることに留意されたい)。この例におけるCombRngへのダウンマッピングは、復号器251が使用するのと同じ計算を考慮することによって、すなわち典型的には人間のグレーダによって決定されるように画像のより明るい部分及び暗い部分のために必要な挙動を符号化する特徴を有する少なくとも輝度マッピング(F2_L)を使用することによっても行うことができる。例えば、CombRngを知ると、復号器251によって5000ニットのHDR画像Im2_HDRから直接にマッピングされた第2の画像に対応するピクセルを有することができる。色変換ユニット(310)は、すべての必要なピクセル色変換を行い、特に少なくとも適切な輝度調整を行うので、合成ユニット(320)は、単純なアルゴリズムを適用することができる(すべての比色最適化が既に行われているため、例えば単純加算加重又はピクセル置換又は切り替えユニット)。ソースアンカー輝度読み出しユニット(311)は、例えばLDR画像の顔輝度、又は画像化されたシーン中の黒の良好な平均値などの、2つの画像のうちの1つに関連する1つのソースアンカー輝度を少なくとも読み出す。上述のように、いくつかの実施形態では、両方又は一般的にはすべての画像から、画像内の特定の輝度領域の特徴であるいくつかのソースアンカー輝度(例えば、特別なグレー値、又は平均的な明るさ又は暗い空の輝度などの共通の意味的に重要なオブジェクトに関連するグレー値)を読み出す。単純ではないシナリオでは、(ancに固定された)ただ1つの同様のアンカー輝度を同等にすることに基づいて2つの画像の輝度をマッピングするのではなく、むしろancに比べて出力輝度をスマートに位置決めしたいので、偏差決定ユニット(312)は、適切な輝度オフセット(d_anc)を決定する。例示されているように、これは、例えばコマーシャルは非常に明るくコントラストの高い顔を含んでおり、ホラー映画は濁った暗い顔を含んでいるので、例えばancが暗い映画の顔の輝度に近いと決定された場合、LDRコマーシャルの顔の顔色をどこにマッピングするかについて十分に大きな正のオフセットd_ancが求められる。中間的に正確に輝度マッピングされた画像Im2_HM及びIm1_LMは、次いで合成ユニット(320)に入り、次いで線形RGBであるか又はY’CbCrに再計算されたものであろうとなかろうとマッピングされたHDR色(すなわち、Im2_HM)又はLDR Im1_LM色を出力画像Im_oに入れるピクセルの(x、y)位置に依存するピクセルスイッチャのようにシンプルになる。
The only thing to do after establishing a CombRng with an anchor brightness anc is generally to have the dynamic range of the two images according to one particular brightness value determined to be directed to or around the anc value. Is to map optimally to. One way to do this is to make a linear assignment of the luminance using the optimally determined contrast value C, which is the slope of the line of the luminance mapping function, and then calculate the luminance by calculating the linear equation until clipping occurs. Is to allocate (note that the amount of clipping can be controlled with the C value and can be clipped to a value within CommRng, i.e. a value below the maximum LMC). The down-mapping to CombRng in this example takes into account the same calculations used by the
図4は、輝度ダイナミックレンジ上のマッピングを示すことによって、選択された例のすべてをさらに明確にしている。Im1_Rngは、LDRの第1の画像のLDR 0−100ニットダイナミックレンジであり、すなわち、最小輝度Lmi_L=0ニットと最大輝度LM_L=100ニットとの間でなければならない符号化された輝度を有する。Im2_Rngは、例えば、LMH=5000ニットのHDR画像のダイナミックレンジである(又は、上記の例ではLMHが2500ニットになるディスプレイが最適化されたMDR画像であり得る)。このことから、CombRngがIm2_Rng又はディスプレイDi_Rngのレンジと同じ又は近くなければならない必要はないことが既に分かる。このディスプレイレンジは比較のために示されているが、いくつかの実施形態では合成でも使用されず、むしろ、Im_oはディスプレイ調整色変換ユニットに行き、定義された合成出力画像Im_oを例えば1400ニット又はどのような値であってもディスプレイダイナミックレンジ上の例えば3000ニットにマッピングする(当業者であれば、例えば合成が他の装置、例えばケーブルヘッドエンドで行われ、特定のユーザが例えば950ニットの限定されたPBのHDRディスプレイを有する場合、又は、混合がすべての視聴者の場所で発生し、視聴者が例えば7000ニットの高いPBのディスプレイを有する場合、LMCがLM_MDRよりも高いシナリオが存在し得ることを理解するが、現在はPB=1200ニット以下のニュース番組のようなHDR番組及びLDR画像のコンテンツを受け取る場合、LMCはLM_MDR=7000ニットよりもはるかに小さいと判定される)。LDRのコマーシャルは既にそれと十分に調和しているので、調整関数は例えばHDR映画のコンテンツ(すなわち、F2_L)のためのものとなり得る。もちろん、より複雑な実施形態は、両方の画像をディスプレイダイナミックレンジに直接的に最適化する。読者は、例えば視聴者のテレビの特徴がまだ知られていないプロダクション又はビデオ送信サイトにおいてCombRngが例えばディスプレイダイナミックレンジにならない状況があることを理解するであろう。それはHDR市場が作り出した複雑さの1つであり、それは要求に応じる必要がある。LDR時代にはすべてのテレビがほぼ同等(PBは約100ニット)であったため、ビデオ処理は単純であったが、今は一部の視聴者は1000ニットのHDRテレビを有し、他の視聴者は7000ニットのHDRテレビを有し、その他の視聴者はレガシーSDR100ニットのTVを有し、他の視聴者は例えば500ニットのPBのIpad又は携帯電話で画像を見たい(まだ様々な画像コンテンツのすべての詳細を明らかにし始めていない)。それらの大きな多様性によって、これらのディスプレイダイナミックレンジは、2つの画像を合成し両方を最適に表現するためにすべてが最も適切なCombRngであるとは限らないことを理解されたい。しかしながら、特に最後に1000ニットのテレビ又はモニタにレンダリングしなければならない場合、LDRを最大5000ニットの画像2HDRダイナミックレンジまでアップグレードして合成し、その後、再び大幅にダウングレードして、特にF2_L関数を使用したときにより明るいLDR色の重要な部分を失うリスクがあることが最適であろうか?
FIG. 4 further clarifies all of the selected examples by showing mappings over the luminance dynamic range. Im1_Rng is the LDR 0-100 knit dynamic range of the first image of the LDR, i.e. has a coded brightness that must be between the minimum brightness Lmi_L = 0 knit and the maximum brightness LM_L = 100 knit. Im2_Rng is, for example, the dynamic range of an HDR image with LMH = 5000 nits (or in the above example, a display with an LMH of 2500 nits could be an optimized MDR image). From this it is already known that the CombRng need not have to be the same as or close to the range of Im2_Rng or Display Di_Rng. Although this display range is shown for comparison, it is also not used in compositing in some embodiments, rather Im_o goes to the display adjustment color conversion unit and the defined composite output image Im_o is eg 1400 knit or Any value is mapped to, for example, 3000 knits on the display dynamic range (for those skilled in the art, for example, the synthesis is done on another device, such as a cable headend, and a particular user is limited to, for example, 950 knits There can be scenarios where the LMC is higher than the LM_MDR if you have an HDR display of PB, or if mixing occurs at all viewer locations and the viewer has a high PB display, eg, 7000 nits. Understand that, currently, when receiving HDR program and LDR image content such as news programs with PB = 1200 nits or less, LMC is determined to be much smaller than LM_MDR = 7000 nits). The LDR commercial is already in good harmony with it, so the adjustment function can be, for example, for HDR movie content (ie, F2_L). Of course, a more complex embodiment optimizes both images directly for display dynamic range. The reader will understand that there are situations where the CommRng is not, for example, in the display dynamic range, for example in a production or video transmission site where the characteristics of the viewer's television are not yet known. It's one of the complexity created by the HDR market, which needs to be met. Video processing was simple because all TVs were about the same (PB is about 100 knits) in the LDR era, but now some viewers have 1000 knit HDR TVs and others watch. One has a 7000 knit HDR TV, the other viewer has a
この点について、HDR映画のメイン領域500においてPIP501の例を使用する(ただし、同様の問題が例えば一時的なマスキング及び適応などで起こる)図5を用いてもう少し説明する。
This point will be explained a little more with reference to FIG. 5 using the example of PIP501 in the
古典的なLDRコンバイナは、Y’CbCr(すなわちルマ+2クロミナンス座標)、非線形R’G’B’、線形RGB、又は原理的には任意の色空間において合成を行うことができる(ビデオ速度で作業する必要があるシステムに対してこれはあまり一般的ではないが、計算リソースを節約したい)。グレー値の画像があると仮定することにする。 Classic LDR combiners can synthesize in Y'CbCr (ie Luma + 2 chrominance coordinates), non-linear R'G'B', linear RGB, or in principle any color space (working at video speed). This is less common for systems that need to be, but want to save computational resources). Let's assume you have an image with a gray value.
ピクセルごとにピクセルのルマコードY’を単純に切り替えた場合、それらはHDR及びLDR画像に対して非常に異なるように決定されるので、非常に悪い結果をもたらす(基本的に処理装置の主要な誤認問題になる)。例えば、LDR PIP(ディレクタの解説であるとする)の窓510に見えるすべてのものは、LDRに対して明るすぎ、そのビデオ単独ではとにかく面白くないから、最大ルマコードY’=255又は正規化された1.0でクリップされている。オリジナルのHDR映画(例えば暗い夜景)のピクセルの正規化されたピクセルルマのいくつかが、LDR画像の正規化されたルマで置き換えられるルマ符号化において合成画像Im_oをレンダリングする場合、例えばPQ HDR EOTFで符号化することによって、PIPが過度に明るく見える(窓の色は例えばPB_D=4000ニットのようにレンダリングされ、代わりに原則的には、うまく調和された外のオブジェクトの色、又は少なくとも刺激の少ない明るいクリップされた色を有する)。これは、ブリージング又は光の広がりとも呼ばれる過剰放射502につながる。これがディスプレイの物理的性質(例えばバックライトLEDの量が少ない、ディスプレイ前面板における相互反射)に起因していない場合、人間の目の眩しさにより、明るい領域をブロックするために手を使うことなくHDRディスプレイ上の非常に明るい領域を見るのが難しいという事態を招く。要するに、視聴者はそのようなことを望んでおらず、技術的に可能であるならばそのようなことがないことを望む。少なくとも、LDR PIPの輝度とHDR映画の夜景の暗い領域がよく調和していないことは明らかである。しかしながら、その逆も生じる。PIPがHDR映画において太陽の近く又はその他の非常に明るい部分にある場合は、暗すぎることがある。例えばはっきりと白であるはずの色があまりにも灰色に見えると見苦しくなり得る。右側に示すようにPIPの顔の輝度を暗いHDRの顔の輝度に近づけることによって減少させると、(コントラスト比で)LDR画像内の他のオブジェクトの輝度が顔色に関連するという事実によって、それらもより適切に暗くなる。したがって、すべての色が比較的うまく調整されているように見えるはずである。
If you simply switch the pixel's Lumacode Y'per pixel, they will be determined to be very different for HDR and LDR images, resulting in very bad results (basically a major misconception of the processor). It becomes a problem). For example, everything visible in the
適切なLDRサブレンジをPIP画像(すなわち、それが何であってもHDR CombRngになる0−100ニット輝度のサブレンジ)に割り当てること、つまり3000ニットの(相対)ディスプレイPBではなく、100ニットのLDR PBに最大化されたRec.709でそれを正しく復号することに対応し、次いで、(CombRngが利用可能なディスプレイDRと等しいと仮定して)これらのLDRピクセルがディスプレイダイナミックレンジで最大100ニットの輝度を有するようにすることによって、すべての問題を解決することができると単純に考えるかもしれない。しかしながら、上述のように、これはある状況では良い選択かもしれないが、ディスプレイのダイナミックレンジが実際にどのようなものであるかに依存する(相対的に見れば、ランダムな関係になる)。非常に明るい日差しのシーンでは、3000ニットのディスプレイに最大100ニットのLDR PIPに隣接して1500ニット輝度の隣接オブジェクトが存在することがある。これにより、PIPはむしろ残念ながら暗くなり、その色は鮮やかではなく濁って見え、これはコマーシャルのために支払った人が望むものではない。HDR画像ダイナミックレンジ(Im2_Rng)で合成する場合も同様のことが起こり得る。したがって、適切な混合は些細なことではない、すなわち本発明のような良好なフレームワークが必要であることが理解されるであろう。また、2つのHDR画像を有する場合、たとえEOTFが異なっていなくても、コンテンツ作成者がその利用可能なレンジをどのように使用したか、すなわち、測色的に全システム(コンテンツ作成ルールなど)をどのように設計したかは分からない。例えば5000対4000のニットのようにたとえ2つの符号化のPBが大きく異なっていなくても、例えば屋内のシーンのランバーシアンの反射オブジェクトがある低いレンジに関して、作成者は大きく異なる決定を下すことがある(例えばきれいにデザインされたHDRシーンで特定の物語を魅力的に見せるための理由に対して、他の作成者は他のダイナミックレンジ、例えば画像にはまだHDRパンチがあるポータブルディスプレイでの視聴に容易に変換可能なニュース番組を作成する)。第1の作成者は、(4000ニットシステムで)最大300ニットまでのものを定義し、一方、第2の画像の作成者は、例えば宇宙ステーションの屋内のシーンについて(5000ニットシステムで)最大900ニットと決定する。それは、あなたが明るい又は不気味な暗い宇宙ステーションが好きかどうかと同じように時には単純である。たとえ顔の輝度のライティング又は少なくともレンダリングに関して非常に厳しい規則を守ったとしても、例えば合成において適切に調和された顔を有さない拡散白色(すなわち、300又は900ニット)の50%は、相当に、奇妙に、異なって、鮮やかに見える。例えばスイミングプールがやや鮮やかに内側から光るように見えたり、又は鈍く地味な水に見えたり、夜のシーンがどんなに暗くなるか、昼にどのぐらい霞むか、特にそれがシーンの他のオブジェクトに関連し、ストーリーとムードが伝達される場合には飲料自動販売機の前の明るいポスターの輝度について誰かが気になるなど、HDR画像に含まれる多くの他の測色的に重要なオブジェクトにも同様のことが起こる可能性がある。 Assigning the appropriate LDR subrange to a PIP image (ie, a subrange of 0-100 knit brightness that will be HDR CombRng whatever it is), i.e. to a 100 knit LDR PB instead of a 3000 knit (relative) display PB. Maximized Rec. Corresponding to decoding it correctly at 709, then by allowing these LDR pixels (assuming CombRng equals the available display DR) to have a brightness of up to 100 knits in the display dynamic range. You might simply think that you can solve all the problems. However, as mentioned above, this may be a good choice in some situations, but it depends on what the dynamic range of the display really is (relatively, it's a random relationship). In very bright sunshine scenes, a 3000 knit display may have adjacent objects with 1500 knit brightness adjacent to a maximum of 100 knit LDR PIP. This makes PIP rather unfortunately dark and its color looks muddy rather than bright, which is not what the person who paid for the commercial wants. The same thing can happen when compositing in the HDR image dynamic range (Im2_Rng). Therefore, it will be understood that proper mixing is not trivial, i.e. a good framework like the present invention is needed. Also, if you have two HDR images, how the content creator used the available range, even if the EOTFs are not different, that is, the entire system (content creation rules, etc.) in terms of colorimetry. I don't know how I designed it. Even if the PBs of the two encodings are not significantly different, for example a 5000 vs. 4000 knit, the author can make very different decisions, for example with respect to a low range with Lambersian reflective objects in an indoor scene. For some reasons (for example, to make a particular story look attractive in a well-designed HDR scene, other authors have other dynamic ranges, such as viewing on a portable display where the image still has HDR punch. Create easily convertible news programs). The first creator defines up to 300 knits (on a 4000 knit system), while the creator of the second image defines up to 900 (on a 5000 knit system), for example, for an indoor scene on a space station. Decide on a knit. It's sometimes as simple as whether you like a bright or eerie dark space station. Even if very strict rules regarding face brightness lighting or at least rendering are followed, for example 50% of diffuse whites (ie, 300 or 900 knits) that do not have a properly harmonious face in composition are considerable. Looks strange, different and vivid. For example, a swimming pool may appear to shine slightly brightly from the inside, or it may appear dull and sober water, how dark the night scene may be, how hazy it may be during the day, especially when it relates to other objects in the scene. And so does many other colorimetrically important objects in HDR images, such as someone worried about the brightness of a bright poster in front of a beverage vending machine when the story and mood are conveyed. Can happen.
図6は、CombRngへの色変換の2つの可能な例を示す。入力画像として、相対入力輝度L_inを有する合成すべき画像の1つがある。説明したように、装置は、CombRngの出力輝度L_out_combをすべての考えられる入力輝度に対して割り当てる色変換関数(FF_1)を決定する必要がある。例えばLUTにロードされたこの関数を有すると、連続する画像の入力ピクセル色の処理を開始することができる。第1の単純な線形決定は、入力画像内の顔色輝度L_SA1Fcについての2つのパラメータanc_FC及び乗法コントラスト定数Cによって決定される線形関数601を生成する。この関数は、望ましいかもしれないし、望ましくないかもしれない黒又は白でクリップすることができる(最終的にコンテンツ作成者又は装置製造者である決定者がそれをどれほど単純に望むかに依存する)。より複雑な実施形態では、それを改善することができる。輝度マッピング関数602は、2つの重要なアンカー輝度のみに基づいて所望のマッピングをうまく構成する態様を示す。その使用は一般的にはそれほど難しいものではないが、非常に良い結果を生み出す。おそらく、このコマーシャルLDR画像は、背景に明るすぎるピクセルを有する。特定の写真合成規則を適用する場合、例えば平均的な灰色の背景、又は非常に明るい又は白い背景、又は潜在的に暗い背景などの暗い又は明るい背景に対して主要人物を撮影することを選択することができる。実際の背景が何であるかに依存することはビデオではよくある(例えば、ビデオが白い背景に対してモデルを撮影するファッションフォトグラファーに関するレポートである場合、ビデオは撮影される白い壁又は背景の前で話すファッションフォトグラファーを示す)。スタジオでは、背景がデザインされていることがある。天気予報では、気象予報者は、視聴者、非専門家によって提出された写真のレンダリングの前(仮想典型的には緑色のスクリーンのそばに)に立っている場合がある。又は何らかの理由などのため映画で誰かが明るい広告スクリーン、例えばLEDスクリーンの前に座っている場合がある。これは、過去にはLDR天気予報できれいに調整されたLDR写真が表示されていたが、視聴者はすぐにまだLDR方式で生成されたHDR写真を表示のために送信し、又は数年後には誰かがHDRプログラムで混合されて表示される非常に低品質のLDR写真を送信するかもしれないので、どこかを調整する必要性の他の例である。いずれにしても、曲線602では、PIP化されるLDR画像に多くの明るすぎるピクセルが存在すると考えられる。関数602の出力値をいくらかの白に対して下げる必要があるだけでなく、例えば最も明るい入力輝度に対してソフトクリッピングを開始する必要がある。したがって、曲線601は、明るすぎる結果をもたらす。装置(301)は、入力画像における3種類のソースアンカー輝度を読み出し、それらをCombRng出力画像内のそれぞれのアンカー輝度に割り当てることによってこれを行った。すなわち、コンテンツ作成者は、拡散白色に対する良好な基準レベル、すなわち画像内のどの輝度が白である(すなわち、例えば90%の反射率を有する)ランバーシアン反射オブジェクトに対応し、平均的に点灯しているかも指定する。装置は、このLDR画像に対して、線形輝度変換曲線601がもたらすものよりも明白に低い、CombRngにおけるLDR画像の拡散白色のanc_DW輝度を割り当てる。したがって、合成装置は、今は、合成画像内の明るいピクセルに対する特定のニーズとして決定され与えられたものであれば、そのような明るい画像ピクセルをどのように輝度変換するかをスマートに決定することができる。例えばこの場合、クリッピングを回避するために、黒アンカー輝度L_SA1RBkをコンテンツ内に先験的に指定し、合成時に適切な黒アンカー輝度anc_RBkを決定することによって、同じような適切な振る舞いを暗い側で指定することができる。装置は、例えば関数をこのanc_RBk点から絶対的な黒(すなわち0.0)まで直線的に続行し、それをanc_DWより上まで非常に小さい傾きで上昇させることを決定することができる。又は、装置は、L_SA1RBkソース黒アンカー輝度の知識を使って、特定のレンダリング状況に合わせて黒を最適化することができる。
FIG. 6 shows two possible examples of color conversion to CombRng. As the input image, there is one of the images to be combined having the relative input luminance L_in. As described, the apparatus needs to determine a color conversion function (FF_1) that assigns the output luminance L_out_comb of CombRng to all possible input luminances. For example, having this function loaded in the LUT can start processing the input pixel colors of successive images. The first simple linear determination produces a
図8を用いて考えられるより複雑な例を説明する、すなわち、本発明の装置及び方法の実施形態のいくつかがどのようにして様々なアンカー輝度に基づいてマルチセグメント関数を設計できるだけでなく、メタデータの作成側からの画像と共同通信して色変換関数(F2_L、及び利用可能な場合はF1_L)で指定された再等級分けの振る舞いに基づいて、輝度変換曲線(FF)の部分の形状を決定することができるかを説明する。 A more complex example may be illustrated with reference to FIG. 8, i.e., not only can some of the embodiments of the devices and methods of the invention design multi-segment functions based on various anchor brightness. The shape of the part of the luminance conversion curve (FF) based on the reclassification behavior specified by the color conversion function (F2_L, and F1_L if available) in joint communication with the image from the metadata creator. Explain if you can determine.
3つのアンカー輝度の間で決定する関数(FF)は以前のように(線形補間又は非線形補間によって)再び起こるが、装置は、受信したメタデータ(F2_L)からコンテンツ作成者による等級分けに関して得られた知識に基づいて、図8Bの高度輝度変換関数810の輝度変換挙動を決定しようとすることを仮定することができる。F2_Lは、その本来のダイナミックレンジ(DR1)から予め指定された他のダイナミックレンジ(DR2)への第2の画像の輝度変換である(第2の画像に対する輝度変換であるが、合成出力画像に合成される他のすべての画像についても同様である)、すなわち、入力輝度L_DR1_im2は出力輝度L_DR2_im2に関連し、これは同じ画像化されたHDRシーンに対する別のダイナミックレンジの外観である。このグラフから、(anc_DWとanc_RBkの間に)主要部分があることが分かり、これは(合成状況に対して)良好に十分に明るくコントラストの良い輝度で良好に表現される(レンダリングされる)が、黒(L_SA1RBk以下)は、いくつかのダイナミックレンジに対応する少なくともいくつかの外観では、関数が急速にゼロに落ちてクリップするので、簡単に破棄することができる。すなわち、この例では最も暗い輝度のサブレンジにおいて非常に重要なオブジェクトがない。装置は、例えばこれらの暗い黒について関数を素早く落とすことによって、適切な関数810を決定するためにこれを使用することができ、合成希望がどれほど暗い又はコントラストが強いか、又は合成画像内の少なくとも第2の画像部分に基づいて(例えば、第2の画像内又は例えば出力画像Im_oにおけるスケーリングなど適切な合成後にあるL_SA1RBk以下の輝度を有するピクセルの量に基づいて)これを決定することができる。すなわち、合成装置は、受信した2つの等級分けされた画像符号化の再等級分け挙動(すなわち、受信した輝度マッピング関数の形状の一部において例えば5000ニットPB_C等級分けされた画像のマスタからSDR100ニット等級分けへの再等級分けの際に最も暗いピクセル輝度がどのように扱われるか)を見て、ある程度類似した部分形状を決定する。
The function (FF) that determines between the three anchor brightness reoccurs as before (by linear or non-linear interpolation), but the device is obtained from the received metadata (F2_L) with respect to the classification by the content creator. Based on the knowledge obtained, it can be assumed that the luminance conversion behavior of the advanced
最も明るいピクセルの可能性も示す。曲線F2_Lの不連続性は、2つの領域、例えば屋内シーンのランバーシアンのオブジェクト、及びランプ(又は同様の状況)を表す明るい色が明確に存在することを示している。特にランプがある場合は、特にMDRディスプレイ及び/又はCombRngで使用可能なダイナミックレンジに依存して、最終的な輝度をより自由に割り当てることができることを意味する。したがって、装置は、これらのピクセル輝度についての適切な平均レベルL_RefBを決定し、そのような810曲線形状を確定することができる。図8Aは、受信したマスタHDR及びSDRの等級分け間のマッピングのための受信輝度マッピング関数F2_Lが、対応する明るい部分(802)及び暗い部分(801)の関数形状及び挙動とともにどのように見えるかを示す。 It also shows the possibility of the brightest pixel. The discontinuity of the curve F2_L indicates that there is a clear presence of bright colors representing the two regions, eg, the Lambersian objects in the indoor scene, and the ramp (or similar situation). This means that the final brightness can be more freely assigned, especially in the presence of lamps, especially depending on the dynamic range available on the MDR display and / or CombRng. Therefore, the device can determine the appropriate average level L_RefB for these pixel luminances and determine such an 810 curve shape. FIG. 8A shows how the received luminance mapping function F2_L for mapping between the received master HDR and SDR classifications looks along with the functional shapes and behaviors of the corresponding bright and dark areas (802) and dark areas (801). Is shown.
当業者であれば、本発明の様々な実施形態を、多くのシステム、多くの組み合わせシナリオに、様々な組み合わせにおける様々な構成要素とともに適用できることを理解するが、2つの図を用いていくつかの可能性のある例をさらに説明する。 Those skilled in the art will appreciate that different embodiments of the invention can be applied to many systems, many combination scenarios, with different components in different combinations, but with some two figures. A possible example will be further described.
図9は、テレビ制作システムの一例を示す。これは、マルチカメラスタジオ作成(第1のカメラ901及び第2のカメラ902)であり、いくつかのライブコンテンツは、野外撮影地などから来る。また、これはOBバンなどによる野外作成でもよい。技術ディレクタは、カメラフィードと、例えばHDRやLDRなどの他のビデオを混在させる必要があり、HDRビデオはもちろん、単一タイプ(ユニバーサル単一Rec.709標準が存在する)のLDRビデオと対照的に様々なタイプ及び特性である。技術ディレクタは、生産管理室にある合成決定装置903で最適な合成を決定したい。技術ディレクタは合成を決定するが、この例では、この合成が必ずしも固定的に定義されたIm_oになる必要はないことを示している(むしろ、技術ディレクタは適切な合成を決定するだけであるが、その合成の詳細は様々な態様でビデオ通信パイプラインからさらに下の様々な受信サイトへ通信することができ、受信側は例えば技術ディレクタが希望するものと若干異なるように合成を再決定したいと希望することもある、すなわち、合成の前に粗い画像及び関数及び他のメタデータとして合成が通信されてもよい)。この場合、(例えば、決定されたPIP合成を決定するためのスケーリング関数を有する)2つの画像を含むメタデータを有する画像信号910は、決定されたCombRng、anc、及び場合によっては同様にFF_1及びFF_2色変換とともに画像をマッピングするためにCombRngに通信され、任意の受信機(例えば、伝送制御室のようないくつかの中間ノードにおける伝送受信機904)は、実際に最終的な合成を適用することができる。(CombRng、anc、FF_1、又はFF_2のうちの少なくとも1つの)潜在的な再決定を可能にするために、作成側は、例えば明るいシーンが多く含まれているかどうか、平均ムービーの明るさよりも3倍の明るさが必要であること(すなわち最終的なCombRngでこのコンテンツをどのような輝度マッピングを所望するか)、オブジェクト又は領域の輝度に関する詳細、又は例えば輝度レンジ及び/又は空の場所などのようなセマンティック情報、などのメタデータをビデオにさらに伝達する。
FIG. 9 shows an example of a television production system. This is a multi-camera studio creation (
図10は、別の考えられる実施形態、すなわち中間結合装置(1001)を示す。これは、例えば、ケーブルプロバイダなどの伝送制御室に設置される。中間結合装置は、(ディレクタに従ってそれらを適切に結合するために図9で作成され最終的な画像として又は十分なメタデータを有する初期画像として通信された)主要な作成物、すなわちIm_Prod及び例えばローカルコマーシャル供給ImLocCommから画像を得ることができる。中間合成装置(1001)は、潜在的にダイナミックレンジ変換も行うことができ、例えば5000ニットのIm_Prodを、例えばいくつかの予め確立されたビデオ通信システムでのさらなる配信などの目的により適しているPB=3000ニットで符号化された出力画像に変換することができる。後者は、装置1001が後に混合される2つの別個の画像ストリームを出力する場合にもちろん興味深いが、この例では最終的に適切な画像ストリームが生成される(最終的な受信機によって表示調整のみされる)と仮定し、それは典型的には既に5000ニットとは異なるLMCを有する。
FIG. 10 shows another possible embodiment, namely the intermediate coupling device (1001). It is installed, for example, in a transmission control room such as a cable provider. The intermediate coupling device is the main creation (created in FIG. 9 to properly couple them according to the director and communicated as the final image or as an initial image with sufficient metadata), namely Im_Prod and eg local. Images can be obtained from the commercial feed IMLocCom. The intermediate synthesizer (1001) can also potentially perform dynamic range conversions, for example a PB of 5000 knits, which is more suitable for purposes such as further distribution in some pre-established video communication systems. It can be converted into an output image encoded with = 3000 knits. The latter is of course interesting if the
読者はまた、コンシューマ側のシステムがどのようにして同様にHDR画像又はビデオを合成することができるか、例えば映画をコンピュータで受信した画像と一緒にセットトップボックス、パーソナルコンピュータなどのICにおいて合成することができるのか、又はビデオ会議室などでどのように使用できるのかも理解することができる。図3のIm_oはテレビに出力することができ、画像の1つはBDプレーヤなどを介してブルーレイディスクで受信することができる。 Readers can also synthesize HDR images or videos in the same way by consumer systems, eg, movies are combined with computer-received images in ICs such as set-top boxes, personal computers, etc. You can also understand if it can be done or how it can be used in a video conference room or the like. Im_o of FIG. 3 can be output to a television, and one of the images can be received on a Blu-ray disc via a BD player or the like.
図11と図12は、CombRngを決定する態様をいくつか示している。輝度軸は、画像がレンダリングされた場合に人間の視覚明度と明るさの印象とのより良い相関を与えるために、底が2のLog単位で与えられている。様々なピクセル輝度を決定するためのアルゴリズムも、そのような対数表現で有利に定式化することができ、実際に好ましいビデオ符号化の実施形態のいくつかは、そのような知覚的に均一化された輝度表現でも動作する。これらの実施形態では、装置は既にanc_FCの良好な値を決定している。例えば、装置は、HDRレンダリングについても、約30ニットのLDR値が良好な値になると仮定する。装置は、合成の詳細と2つの画像の輝度分布状況を合成して見て、LMC及びLmiCの良好な選択肢に到達する。装置は、この点について視聴者の制御設定によって選択され変更される規則を有する。第1の2つの例は、高いダイナミックレンジ画像(太い線で示されたIm2)が主画像であり、低いダイナミックレンジ画像(必ずしもSDRでない)Im1がPIPであり、例えば領域の1/4(Im2のシーン内のオブジェクトと比較してIm1のオブジェクト又は領域の視覚的支配を示すことができる制御パラメータの1つ)を占める。これらの例では、装置は、HDR Im2の外観が優位になることを望むので、最初にIm2のCombRng及び配置を決定し、ガイドとして調和的にIm1を配置する。これらの実施形態では、顔色は最適な最終顔色anc_FCに既に割り当てられているので、残りの問題は残りの輝度を割り当てることである。これは、CombRngの端点及びそこから生じる他の輝度に輝度調整してフィットさせる色変換関数と、明るさインパクト要求としてこれらの関数の形状を変化させるために許容された変化性との両方によって影響を受ける。図11Aにおいて、HDR Im2は、anc_FCの周りにレンダリングされた場合に顔を有する典型的なシーンに既によく適合しているヒストグラムを有する、すなわち、Im2の顔は通常照らされている。黒へのロングテールによってシーンに暗い領域があることが分かる、例えば、これは俳優の背後のどこかの照明されていない部屋である。いくつかのレンダリングではピクセル色の一部は見分けがつかないほど暗いので見えないが、少なくともそれらは符号化され、装置によって計算されるので、最終的なレンダリング装置(例えば、テレビはそのMDRレンジへの表示調整、及び最も暗い領域のベンダー固有の明るさ処理を行う)は、このデータを適切に使用することができる。明るい輝度モードHiLaIm2が存在することがさらに分かり、これは例えばいくつかの構造体(例えば、ランプが金属製の照明器具内でどのように反射するか)を理想的に見たいランプに対応する。PIP化される画像Im1は、白(そのコードで最も明るい輝度)付近に高ピクセルカウントピークHiModIm1を有する特性がある。これは、(anc_FC付近のモードから分かるように典型的な顔色が典型的に明るい画像であるべき合理的に大きな領域を有する)人が、例えば白い近いか又は潜在的に最大の白色にクリッピングされたライトボックスの大きな明るいスクリーンの前に立っているからである。このピークは明るすぎて合成に邪魔になる可能性が高い。しかしながら、この第1の例では、顔色が両方の画像内の通常の位置にあり、HDR画像内に合理的に明るい色が既に多く存在し(例えばランプのメインセットの下、及び顔よりも100倍明るいいくつかのハイライトHiLaIm2の拡散照明されたオブジェクトの両方のモード)、Im2においても生じたことが分かる通常の輝度である、すなわち不調和的すぎないから、HiModIm1を通常の位置に置くことができる(すなわち、線形輝度表現に復号されたときにIm1において符号化されたCombRngのアンカーの上の同じ数のストップであり、この例では、顔輝度がその通常のLDR位置にあるので、約100ニットの通常の復号化された値である)。これはまた、Im2のハイライトを通常の位置に保つことができることも意味している(なぜなら、すべての一致した色がこの画像に対して起こった場所のハイライトを有する現在のHDR画像輝度分布プロファイルにフィットするため再マッチングや再調整が不要であるからである)、すなわち、この装置は、LMCを、HiLaIm2輝度モードの上限、又はPBまでの輝度を持たない場合にHDR Im2レンジのピーク明るさに選択することができる。これは必ずしもそうであるとは限らないが、例えばHDR画像処理連鎖のラインをさらに下回る典型的な使用に関してさらなる詳細が知られていなければ合理的な選択であり得る。図11Bでは、同様の状況(同じIm1がPIP化される)があるが、今度はIm2が異なるヒストグラム(例えば、映画の後ショット)を有する。ここで、顔は、(すなわち他の画像コンテンツとの合成なしにそれらが単独でレンダリングされる場合)比較的暗く、例えば4ニットでレンダリングされる。例えば人が影に立っていることもある。この例では、装置はPIP内の顔を暗くすることを望まないが、Im1の顔に対してもより調整された暗さを望む。装置は、HDR画像の顔の輝度、すなわち8ニット上にワンストップするanc_FCの設定を取り、(この映画シーンの芸術的意図を維持するために暗い外観を保持すべきであるので)anc_FCの下にワンストップするIm2の顔をレンダリングし、及び(とりわけPIPの大きさに依存して)anc_FCの上にワンストップするLDRコマーシャルIm1の顔をCombRngにレンダリングする(まだ明瞭に明るい画像部分であるが、不調和すぎるほど明るくない)ことを決定する。Im1のすべてのオブジェクト輝度の比率を維持する場合(アンカー輝度anc_FCによる線形マッピング)、HiModIm1の大きな領域の輝度は、やがて約100ではなく60ニット未満に下がる。それでも、装置が明るさのインパクトを判断する場合(例えば顔色anc_FC、及びこのHiModIm1輝度のようなIm2の重要な部分又はオブジェクトのいくつかの基準色の間のコントラストCHLを計算することによって、又は空間分析によって、例えば重要なIm2の中央領域とより真剣に対比するようにIm1の大きく近いハイライト領域を重み付けすることによって、純粋に輝度で判断することができる)、Im1の大きな明るい領域がIm2の大部分のやや暗い外観と比較して明るすぎると考えるかもしれない。したがって、装置は、このモードのHiModIm1の輝度を1ストップ下げて30ニットにすることを決定するが、これは右上隅の小さなPIPに対して気を散らしすぎるものではない。上に示したように、装置は、例えば輝度変換のためのコントラスト係数Cをanc_FCより上のCombRngに下げる、又はIm1の最も明るい可能性のあるピクセルのいくつかの所望の最大位置LAMXに基づいて計算することができ、いくつかの拡散白色アンカー輝度を配置することによって潜在的にさらに決定されるいくつかの非線形関数などの様々な態様でそれを行うことができる。装置は、本実施形態では、黒輝度サブ領域においてもいくつかの調和処理を行っていることに留意されたい。HDR画像の黒が非常に深くなるので(少なくともアルゴリズムがディスプレイ最適化に先立って適用され、ディスプレイが接続された状態で実行される、又はディスプレイ内で実行される場合、いくつかのディスプレイがこれをレンダリングすることができ、もちろん装置はディスプレイが実際に十分な視覚的品質すなわち可視性でレンダリングできるものを考慮に入れると仮定する)、装置はIm1の黒も深くして、両方の黒のセットをより調和させることができる。それは、例えばIm1のためにLa_Bk(いくつかの黒の区切り文字)として符号化されたものより低いすべての輝度を広げることによって、例えば局所的なコントラストを2倍に伸ばすことによって行うことができる。図11Bから分かるように、この例では、HDR画像の最も明るい領域の維持は依然として有用である、すなわち、この問題はより深く落ちる輝度サブ領域でIm1を調整することが大部分であったから、LMCはIm2をディスプレイに忠実にレンダリングするのに必要な最大値に再び決定される。装置は、この例では、LmiCをIm2の最も暗い色よりも幾分上に制限するように選択したことに留意されたい。例えばXは、暗すぎる色がいずれにしても合成の視聴者によって無視されると判断するのでanc_FCの下で止まる。CombRngにマッピングする色変換は、これを考慮に入れて最も暗い色を明るくして、それらをCombRng内にもたらすことができる。 11 and 12 show some aspects of determining CombRng. The brightness axis is given in Log units with a base of 2 to give a better correlation between human visual brightness and the impression of brightness when the image is rendered. Algorithms for determining various pixel brightness can also be formulated advantageously in such logarithmic representations, and some of the practically preferred video coding embodiments are such perceptually homogenized. It also works with brightness expression. In these embodiments, the device has already determined a good value for anc_FC. For example, the device assumes that the LDR value of about 30 knits is also good for HDR rendering. The device synthesizes the details of the composition and the brightness distribution of the two images to reach a good choice of LMC and LmiC. The device has rules selected and modified in this regard by the viewer's control settings. In the first two examples, the high dynamic range image (Im2 shown by the thick line) is the main image and the low dynamic range image (not necessarily SDR) Im1 is the PIP, for example 1/4 of the area (Im2). It occupies one of the control parameters that can show the visual control of an Im1 object or area as compared to the objects in the scene. In these examples, the device wants the appearance of HDR Im2 to be dominant, so it first determines the CombRng and placement of Im2 and then places Im1 harmoniously as a guide. In these embodiments, the complexion has already been assigned to the optimal final complexion anc_FC, so the remaining problem is to allocate the remaining brightness. This is influenced by both the color conversion functions that adjust and fit the endpoints of CombRng and the other brightness resulting from them, and the variability allowed to change the shape of these functions as a brightness impact requirement. Receive. In FIG. 11A, HDR Im2 has a histogram that already fits well into a typical scene with a face when rendered around anc_FC, i.e. the face of Im2 is normally illuminated. The long tail to black reveals that there are dark areas in the scene, for example, this is an unlit room somewhere behind the actor. In some renders some of the pixel colors are indistinguishably dark and invisible, but at least they are encoded and calculated by the device so that the final render device (eg, the TV is in its MDR range). Display adjustments and vendor-specific brightness processing in the darkest areas) can use this data appropriately. It is further found that there is a bright brightness mode HiLaIm2, which corresponds to a lamp that ideally wants to see, for example, some structure (eg, how the lamp reflects in a metal luminaire). The image Im1 to be PIP-ized has a characteristic of having a high pixel count peak HiModIm1 near white (the brightest brightness in the code). This is because a person (with a reasonably large area where a typical complexion should typically be a bright image, as can be seen from the mode near anc_FC) is clipped to, for example, near white or potentially maximum white. Because he stands in front of the big bright screen of the light box. This peak is too bright and is likely to interfere with the composition. However, in this first example, the complexion is in the normal position in both images and there are already reasonably many bright colors in the HDR image (eg under the main set of lamps and 100 than the face). Some highlights of HiLaIm2 (both modes of diffusely illuminated object), normal brightness that can be seen to have occurred in Im2, i.e. not too dissonant, so put HiModIm1 in the normal position. Is possible (ie, the same number of stops on the CombRng anchors encoded in Im1 when decoded into a linear luminance representation, in this example the face luminance is at its normal LDR position, so about It is a normal decoded value of 100 knits). This also means that Im2 highlights can be kept in their normal position (because the current HDR image brightness distribution has highlights where all matching colors happened to this image). (Because no rematching or readjustment is required to fit the profile), that is, the device does not have the upper limit of the HiLaIm2 brightness mode, or the brightness up to PB, the peak brightness of the HDR Im2 range. You can choose any more. This is not always the case, but it can be a reasonable choice unless further details are known, for example, for typical use further below the lines of the HDR image processing chain. In FIG. 11B, there is a similar situation (the same Im1 is PIPed), but this time Im2 has a different histogram (eg, a post-movie shot). Here, the faces are relatively dark (ie, when they are rendered alone without compositing with other image content), eg, rendered in 4 knits. For example, a person may be in the shadow. In this example, the device does not want to darken the face in the PIP, but also wants a more tuned darkness for the Im1 face. The device takes the face brightness of the HDR image, i.e. anc_FC, which is a one-stop setting on 8 knits, and under anc_FC (because it should retain a dark appearance to maintain the artistic intent of this movie scene). Renders a one-stop Im2 face on and (especially depending on the size of PIP) a one-stop LDR commercial Im1 face on anc_FC to CombRng (although it is still a clearly bright image portion). , Not bright enough to be too discordant). If the ratio of all object brightness of Im1 is maintained (linear mapping by anchor brightness anc_FC), the brightness of a large area of HiModIm1 will eventually drop to less than 60 knits instead of about 100. Nevertheless, if the device determines the impact of brightness (eg by calculating the contrast CHL between some reference colors of important parts of Im2 or objects such as complexion anc_FC and this HiModIm1 brightness, or space. By analysis, for example, the large bright area of Im1 can be judged purely by brightness by weighting the large and close highlight area of Im1 so as to contrast more seriously with the important central area of Im2). You might think it's too bright compared to most of the slightly darker appearance. Therefore, the device decides to reduce the brightness of HiModIm1 in this mode by one stop to 30 knits, which is not too distracting for the small PIP in the upper right corner. As shown above, the device reduces, for example, the contrast factor C for brightness conversion to CombRng above anc_FC, or based on some desired maximum position LAMX of some of the brightest possible pixels of Im1. It can be calculated and done in various ways, such as some non-linear functions that are potentially further determined by placing some diffuse white anchor brightness. It should be noted that in this embodiment, the apparatus also performs some harmonization processing in the black luminance sub-region. Since the black of the HDR image will be very deep (at least if the algorithm is applied prior to display optimization and is run with the display connected or inside the display, some displays will do this. It can be rendered, and of course the device assumes that the display actually takes into account what can be rendered with sufficient visual quality or visibility), the device also deepens the Im1 black and sets both blacks. Can be more harmonious. It can be done, for example, by widening all brightness lower than that encoded as La_Bk (some black delimiters) for Im1, eg, by doubling the local contrast. As can be seen from FIG. 11B, in this example, maintaining the brightest region of the HDR image is still useful, i.e., because this problem was mostly to adjust Im1 in the deeper falling luminance subregion, LMC. Is again determined to the maximum value needed to render Im2 faithfully to the display. It should be noted that the device was chosen to limit LmiC somewhat above the darkest color of Im2 in this example. For example, X stops under anc_FC because it determines that a color that is too dark is ignored by the composite viewer anyway. Color conversions that map to CombRng can take this into account, brightening the darkest colors and bringing them into CombRng.
図12Aは、(すなわちコマーシャルの簡単な説明において)Im1が支配的な画像になる例を示す。おそらく、視聴者は、コマーシャルが始まったときに映画が小さくなることを望まないが、PIPは、例えば視聴者が見たいと思う第2のチャンネルで何か重要なことが始まったら、視聴する第2のチャンネルとするか、又は最初に見たIm2映画スイッチを小さなPIPに含めることができる(例えば、このIm1の画像は、重要なニュース項目が予想されるため視聴者が見逃したくないニュースの開始に対応する)。ここで、Im1がSDR画像であると仮定するが、誰かが、明るいディスプレイに余地があるのでより高いダイナミックレンジで非常に明るくレンダリングするように指定する(例えばコマーシャルのコンテンツの作成者が、メタデータにおいて「500ニットの最も明るい輝度を少なくとも1000ニットのPBのディスプレイにレンダリングする」というように指定してする場合があり、又は、視聴者が、たとえSDRであってもコンテンツの明るさをどのように動的又は控えめに見せたいかを示すユーザ設定を選択する場合もある)。したがって、Rec.709に従って通常のように復号した場合、ヒストグラムIm1Natを得られるが、実際にはCombRngを取得してヒストグラムIm1adjをIm1の値とともに500ニットまでの合成でレンダリングする(合成装置によって少なくともSDRコンテンツ作成者の要求に完全に従うと、例えば無料のコンテンツ閲覧モードに設定されているため、コマーシャルオーナーによって支払われる)。図12Aは、計算実施形態を示しており、例えば若い視聴者は自分のシステムを動的モードに設定する。Im1から来る大きな明るい領域と鮮明に対比できるようにするために、装置は、明るいランプを例えば8000ニットに設定する必要がある(少なくともこの中間指定CombRngでは、ディスプレイの調整が生じる可能性がある)、すなわち(たとえ元のIm2復号では例えば4000ニットであったとしても)LMCを8000ニットに設定する必要がある。図12Bは、(過度に明るい画像を見たくないので)視聴者が自分のシステムを控えめに設定しているため、第1の可能性と対照的な実施形態である。これはSDRコンテンツの明るさが先導しており十分に明るい別の調和の検討であるため、読者はこれがCombRngのLMCの導出とは非常に異なる結果であると分かる。Im1からの非常に明るい非常に多くのピクセルが既にあるので、合成画像Im_oの全体的な高い明るさを判定又は経験するのに寄与し、装置は、明るいHDRモードHiLaIm2の輝度を低下させることを望み、(たとえ映画が例えば10,000PB_Dの等級分けディスプレイでマスタ等級分けされ、例えばSMPTE2084 EOTFルマ割り当てで、5000ニットのPB_C HDR画像として通信されたとしても)結果としてLMCをたったの2000にする。HDR画像の最も明るいランプとIm1の明るい広い領域(5つ以上ではなく2つのストップ)との間のコントラストが少なくなるが、すなわちHDR映画はPIPがポップアップしたときにパンチの一部を失うが、少なくとも全体画像は過度に明るくない。視聴者は、このような合成の態様を望む場合がある。 FIG. 12A shows an example where Im1 is the dominant image (ie, in a brief description of the commercial). Perhaps viewers don't want the movie to get smaller when the commercial starts, but PIP will watch it, for example, when something important starts on the second channel that the viewer wants to see. Channel 2 or the first Im2 movie switch you saw can be included in a small PIP (for example, this Im1 image is the start of news that viewers don't want to miss because important news items are expected. Corresponds to). Let's assume that Im1 is an SDR image, but someone specifies that it renders very brightly with a higher dynamic range because there is room for a bright display (eg, the creator of the commercial content has the metadata. In some cases, the brightest brightness of 500 knits is rendered on a display of at least 1000 knits of PB, or how the viewer determines the brightness of the content, even if it is SDR. You may also choose a user setting that indicates whether you want to look dynamic or unobtrusive). Therefore, Rec. When decoded normally according to 709, the histogram Im1Nat can be obtained, but in reality, CombRng is acquired and the histogram Im1adj is rendered with the value of Im1 by compositing up to 500 knits (at least by the compositing device of the SDR content creator). If you fully follow the request, you will be paid by the commercial owner, for example because you are set to free content viewing mode). FIG. 12A shows a calculation embodiment, for example, a young viewer sets his system in dynamic mode. In order to be able to sharply contrast with the large bright areas coming from Im1, the device needs to set the bright lamps to, for example, 8000 nits (at least with this intermediate designation CombRng, display adjustments may occur). That is, the LMC needs to be set to 8000 knits (even if the original Im2 decoding was, for example, 4000 knits). FIG. 12B is an embodiment that contrasts with the first possibility because the viewer has set his system conservatively (because he does not want to see an overly bright image). Since this is another harmonization study that is bright enough, led by the brightness of the SDR content, the reader finds that this is a very different result from the derivation of CombRng's LMC. Since there are already so many very bright pixels from Im1, it contributes to determining or experiencing the overall high brightness of the composite image Im_o, and the device reduces the brightness of the bright HDR mode HiLaIm2. Hopefully (even if the movie is master graded, for example on a 10,000 PB_D grading display, and communicated as a 5000 knit PB_C HDR image, for example with the SMPTE2084 EOTF Luma assignment), the result is an LMC of only 2000. The contrast between the brightest lamp in the HDR image and the bright wide area of Im1 (2 stops instead of 5 or more) is reduced, i.e. the HDR movie loses some of the punch when the PIP pops up, At least the whole image is not overly bright. Viewers may desire such a compositing aspect.
また、レンジCombRngがanc_FCの前に指定された場合、装置は、両方の画像内のピクセル及びオブジェクトの輝度の様々な態様を見る、例えば1つ又は複数の対応する典型的な輝度を指定することができる。例えば、装置は、中間グレーのk倍以上又は復号された画像のピーク輝度の1倍以上の両方の画像のピクセルのパーセンテージを見て、両方の画像のこれらの値から、いくつかの典型的な輝度の良好な値、合成LMCで少なくとも開始するのに可能な最大輝度が何であるか決定する。装置の実施形態が、各画像について最も明るいオブジェクト輝度の1つの典型的な値を使用する場合、CombRngにマッピングされたときにそれらがどのように関係するか、すなわち例えばどのような輝度コントラストがあるのかを決定することができ、より調和のとれたコントラストを提案する。もちろん、シーン内のほとんどの色の中間グレー代表値(中間グレーは、シーンのいくつかの典型的な照明では実際10%の反射率となり得るが、例えば画像のピクセルのモード、多数値、又は平均などを示すために使用することもできる)のようなさらなる値は、合成画像内の例えばIm2の最も明るい部分とIm1の中間グレー部分など様々な領域間コントラストがどのようになるかを決定し、それらの間の調和のとれた関係を選択するのに役立つ。例えば、いくつかの装置の実施形態は、明るさ、暗さ、及びCombRngのいくつかの典型的な輝度サブ領域に割り当てられた平均領域とともにいくつかの典型的なコントラスト値を常に選択するように構成され(もちろんLMCが約1000ニット、約2000ニット、約5000ニット、又は約10000ニットであるか否かに依存して異なる)、これらの値は、例えば夜景、明るいニュース番組、夜の自然などいくつかの特徴的な画像タイプが検出されたときに、逸脱する可能性がある(例えば、CombRngにおいてマッピングkがより高く停止する)。良好な顔又は灰色の明るさ(又は明るい光領域)に対する良好なanc値を決定するとき、装置は、視聴者がどのような視聴環境に座っているかを測定することができる。例えば、テレビ内の前向きカメラは、環境の明るさ特性を1つ又は複数の特性値で要約することができ、anc_FC値など、及びアンカー輝度などと比較した他の輝度のために必要なコントラストをスケーリングするために方程式で使用することができる(例えば、1つ又は複数のストップを上下させる)。例えば、カメラは、(顔検出による)観察者が、ある局所的な照明の下でコーチに座っているのを把握することができ、典型的にはあまり照明が当たっていない壁や他のオブジェクトである第2の領域を決定することができる。実施形態によって単一の特徴的な環境明るさ値を導出しなければならない場合、局所的な照明が典型的に上から来ており視聴者がいる環境の経験には影響が少ないので(例えば脳がその環境において深い黒として確立するものでありディスプレイがちょうどその一部を形成する)、周囲の壁の明るさは計算において高い値になる(例えばa*周囲平均_L+b*局所平均_L)。これらの様々な説明から、様々な実施形態において、CombRng、1つ又は複数のanc輝度、輝度マッピング関数形状、及び、実際に最終的にはそれぞれの状況に合わせた調和のとれた出力画像の全体に到達する様々な態様があることが読者に明確になったはずである。 Also, if the range CombRng is specified before anc_FC, the device sees various aspects of the brightness of the pixels and objects in both images, eg one or more corresponding typical brightness. Can be done. For example, the device looks at the percentage of pixels in both images that are at least k times the intermediate gray or at least 1 times the peak brightness of the decoded image, and from these values in both images, some typical. A good value of brightness, at least what is the maximum brightness possible to start with a synthetic LMC. If embodiments of the device use one typical value of the brightest object brightness for each image, how they relate when mapped to CombRng, ie what brightness contrast is there, for example. It is possible to determine whether or not, and propose a more harmonious contrast. Of course, the mid-gray representatives of most colors in the scene (mid-gray can actually have a reflectance of 10% for some typical lighting in the scene, but for example, the pixel mode, multi-value, or average of the image. Further values such as (which can also be used to indicate) determine what the contrast between various regions in the composite image will be, for example the brightest part of Im2 and the intermediate gray part of Im1. Helps to choose a harmonious relationship between them. For example, some device embodiments may always select some typical contrast values along with brightness, darkness, and average areas assigned to some typical brightness subregions of CombRng. Consists (of course depends on whether the LMC is about 1000 knits, about 2000 knits, about 5000 knits, or about 10000 knits), these values are, for example, night view, bright news program, night nature, etc. Deviations can occur when some characteristic image types are detected (eg, mapping k stops higher at CombRng). When determining a good anc value for a good face or gray brightness (or bright light region), the device can measure what viewing environment the viewer is sitting in. For example, a forward-looking camera in a television can summarize the brightness characteristics of the environment with one or more characteristic values, such as the anchor_FC value, and the contrast required for other brightness compared to the anchor brightness, etc. It can be used in equations to scale (eg, move one or more stops up and down). For example, a camera can see an observer (by face detection) sitting on a coach under some local lighting, typically a less illuminated wall or other object. A second region can be determined. If the embodiment has to derive a single characteristic environmental brightness value, local lighting typically comes from above and has little effect on the experience of the environment with the viewer (eg brain). Is established as deep black in the environment and the display forms just part of it), and the brightness of the surrounding walls is calculated to be high (eg a * ambient average_L + b * local average_L). From these various descriptions, in various embodiments, the CombRng, one or more anc brightness, the brightness mapping function shape, and, in fact, the entire harmonious output image tailored to each situation. It should be clear to the reader that there are various ways to reach.
図18は、混合すべき画像又は画像部分(又はそれぞれの関数FF_xを有するそれらの一部又は全部)の少なくとも1つの輝度に適用される決定された色変換関数FFの一般的な典型的な可能性を説明しているにすぎず、これらの例から、読者は、本発明及びその様々な実施形態の一般的な概念に従うさらなる可能性を想像することができる。例えば、図18aは、2つの部分(この例ではレンジの正確な終点で終了するが他のシナリオで逸脱する可能性がある)からなるFF_1関数を決定する2つの簡単な態様を示す。ソースアンカー(L_SA1)と等しい入力画像の輝度に関数を適用した出力結果輝度(LF1_o)がancと正確に等しくなければならない場合、この装置の内部プログラムから関数を引き出す。出力輝度LT2_vが近傍に入ることができる場合、Y値anc/kの点を通る類似の幾分異なる2つのセグメント関数FFを決定することができ、ここでkは1.5、2、3又は4である。 FIG. 18 is a general typical possibility of a determined color conversion function FF applied to at least one luminance of an image or image portion to be mixed (or some or all of them having the respective function FF_x). Only explaining sex, from these examples, the reader can imagine further possibilities according to the general concept of the present invention and its various embodiments. For example, FIG. 18a shows two simple aspects of determining an FF_1 function consisting of two parts (in this example it ends at the exact end of the range but may deviate in other scenarios). If the output result luminance (LF1_o), which applies the function to the luminance of the input image equal to the source anchor (L_SA1), must be exactly equal to anc, the function is extracted from the internal program of this device. If the output luminance LT2_v can be in the neighborhood, we can determine two similar and somewhat different segment functions FF passing through a point with a Y value of anc / k, where k is 1.5, 2, 3 or It is 4.
図18bは、複雑な形状の関数を例えば黒色のためのS字曲線で通常の/薄暗い照明の中間グレーアンカーの周りに設計することができることを示している。合成装置は、例えば典型的には他の実際に受信されたものからダイナミックレンジ画像の1つを得るために本発明の符号化原理に従って通信された再等級分け輝度関数(例えば、細かい等級分け関数)を見ることによって、このような輝度マッピング関数部を提案することができる。合成装置が黒色に対してこのようなSタイプの動作を予想した場合、装置は、黒色の中央には良好な強いコントラストを有している必要がある重要なオブジェクト領域があるようであり、最も深い黒は、関数がそれらの大部分が最小の黒(0、又は最小の黒が起こるものは何でも)にクリップされていることを示しているのでほとんど無視することができるようであると理解することができる。したがって、いくらかスマートな合成プログラムの実施形態は、その決定されたFF形状でこの挙動に従うが、マッピングはマスタHDRの輝度の5000ニットレンジと100ニットSDRレンジとの間にはなく500ニットCombRngにあるので、関数は再形成される(したがって中間の黒が最も良くレンダリングされていることを大体確実にする同様の必要性に従って黒をいくらか変換する必要があるがこれはやや異なっている)。同様に、明部の関数についても、合成装置は、重大な画像オブジェクトの輝度のサブレンジに対応する形状詳細により正確に又はより少ない度合いで追従することを決定することができる。図18cは、合成装置が、例えば合成されるSDR画像のいくつかの「中間レンジ」のコントラストCを制御する例を示し、この例では、装置は、この実施形態では明るすぎるSDRピクセルレンダリングを招くので、(出力画像Im_Cmbの)CombRngの最大値までわざわざFF関数の上部を伸張しないことを決定する。(読者は、HDR画像輝度ヒストグラムは典型的には、例えば20個の小さな鏡面パッチの20×5ピクセルしか含まない最も明るい輝度のローブを有する遠方広がりローブを有し、SDR画像は、例えばクリッピングされた白い屋外の風景の潜在的に大きな画像領域でさえ最大PB_C=100ニット付近の多くの輝度を有する密に束ねられたヒストグラムを含み、確かに比較的薄暗い又は暗いHDR映画では、合成ピクセルのそれらの領域は、映画視聴の喜びを壊さないためにPB_Comb=2000ニットのように明るくレンダリングするべきではないと理解すべきである)。初期の合成装置の実施形態は、ソフトウェア又はハードウェアにそのような感知可能な予めプログラムされたルールを2つしか持たないが、将来のさらなる実施形態は、最終的にバランスのとれた合成画像とするために複雑な分析を行うことができることを理解すべきである。したがって、様々な異なるシステムの実施形態は、(よく知られていない)混合が実際に起こるずっと前に、コンテンツのアンカー輝度の良好な値を選択することによって、エレガントであまり煩雑でない態様で、コンテンツが必要とするものを人間が特定できるようにするために、画像又はビデオの混合を正しく処理するコア装置を中心に設計することができる。混合装置では種々の実施形態を実施することができ、例えば装置は同じタイプのアンカーを使用する(しかし、いくつかの装置は異なるアンカータイプを使用することを決定し、2つの画像の調和したマッピングをそれらのアンカータイプから混合ダイナミックレンジの利用可能な輝度に変換することを決定することもできる)。当業者であれば、実際には前者の状況は、例えば一種のスレーブモードで動作する混合装置で実施することができ、少なくとも例えばその重大な顔のアンカー輝度が何であるかを定義する主ビデオをチェックし、(例えば最終的なレンダリング特性を考慮して)何が混合ダイナミックレンジにおける良好な顔の輝度であるかを確立し、(顔を含んでいないとしても)第1の画像における重要な顔の輝度と調和するように(すなわち、それがどのように合成ダイナミックレンジで表されたか)第2の画像を輝度変換することを理解することができる。混合装置が導かれる第2の戦略の例は、例えばユーザがテレビで写真を見ている場合に、(写真のレンダリングが(ほぼ)準拠しなければならない全体的な典型的な明るさに対する代表的な単一値としてアンカー輝度を定義することによって、また典型的には例えば他の画像データが入ってきて調和して混合される前に、明るすぎない(柔らかい表示の)合成ダイナミックレンジをそのレンジにマッピングされた写真輝度で既に定義しているプレゼンテーションのダイナミックレンジによって、写真が現在そのレンジのほぼ半分を使用している、すなわち第2のコンテンツが望むならば明るいピクセルのために合成ダイナミックレンジにいくらかの余裕があるにもかかわらず、それらのピクセルのほとんどすべてがPB_Comb_PhotView/2より低い輝度を有するように指定することによって)それに対する何らかの基準を設定する。第2の画像コンテンツ(第1のコンテンツは、決定された輝度マッピングに従って既にマッピングされている写真である)の混合は、コンテンツのアンカー値を見ることによって装置によって発生し(これは、写真視聴のアンカータイプと異なるが、混合装置の例えばanc_face_inmix=1.3*anc_photviewapplicという式の計算によってそれに関連する)、例えば0又はkニット及びPB_Comb_PhotViewの間の輝度を有する写真視聴合成ダイナミックレンジを確立する。様々な状況に対応できる一般的な単一の(すべての状況が可能な)HDR画像コンテンツ混合システムを持つことは非常に便利であり、様々な種類における決定は、状況に最適なもの及びどんなときでも装置に既に知られているものに依存する。 FIG. 18b shows that complex shaped functions can be designed around intermediate gray anchors for normal / dim lighting, for example with an S-curve for black. The synthesizer typically has a re-grading luminance function (eg, a fine-grading function) communicated according to the coding principles of the present invention to obtain one of the dynamic range images from other actually received ones. ), It is possible to propose such a brightness mapping function unit. If the synthesizer anticipates such S-type behavior against black, the device appears to have an important object area in the center of the black that needs to have good strong contrast, most Understand that deep black seems to be almost negligible as the functions indicate that most of them are clipped to the smallest black (0, or whatever the smallest black occurs). be able to. Thus, some smart compositing program embodiments follow this behavior with their determined FF shape, but the mapping is at 500 knit CombRng rather than between the 5000 knit range and 100 knit SDR range of master HDR brightness. So the function is reformed (thus we need to transform some black according to a similar need to roughly ensure that the middle black is rendered best, but this is a bit different). Similarly, for the bright function, the synthesizer can determine to follow the shape details corresponding to the brightness subrange of the critical image object more accurately or to a lesser extent. FIG. 18c shows an example in which a synthesizer controls, for example, some "intermediate range" contrast C of an SDR image to be composited, in which the device leads to SDR pixel rendering that is too bright in this embodiment. Therefore, it is decided not to bother to extend the upper part of the FF function to the maximum value of CombRng (of the output image Im_Cmb). (For the reader, the HDR image brightness histogram typically has a far-spread lobe with the brightest lobe containing only 20 x 5 pixels of, for example, 20 small mirror patches, and the SDR image is clipped, for example. Even potentially large image areas of white outdoor landscapes contain tightly bundled histograms with many intensities up to PB_C = 100 knits, and certainly those of composite pixels in relatively dim or dark HDR movies. It should be understood that this area should not be rendered as bright as PB_Comb = 2000 knit so as not to destroy the joy of watching the movie). Early synthesizer embodiments have only two such perceptible pre-programmed rules in software or hardware, but further embodiments in the future will eventually have a balanced composite image. It should be understood that complex analyzes can be performed to do this. Therefore, various different system embodiments are in an elegant and less cumbersome manner, by choosing a good value for the anchor brightness of the content long before the (unknown) mixing actually occurs. Can be designed around a core device that correctly handles the mixing of images or videos so that humans can identify what they need. Various embodiments can be implemented in the mixing device, for example the device uses the same type of anchor (but some devices have decided to use different anchor types and coordinated mapping of the two images. Can also be determined to convert from those anchor types to the available brightness of the mixed dynamic range). For those of us, in practice the former situation can be carried out, for example, in a mixer operating in a kind of slave mode, at least for example the main video defining what the critical facial anchor brightness is. Check to establish what is good face brightness in the mixed dynamic range (eg considering the final rendering characteristics) and important faces in the first image (even if they do not contain faces). It can be understood that the brightness of the second image is transformed to match the brightness of (ie, how it was represented by the composite dynamic range). An example of a second strategy in which a mixer is guided is representative of the overall typical brightness (where the rendering of a photo must be (almost) compliant, for example, when the user is watching the photo on a television. By defining the anchor brightness as a single value, and typically, for example, a composite dynamic range that is not too bright (for a soft display) before other image data comes in and is harmoniously mixed. Due to the dynamic range of the presentation already defined by the photo brightness mapped to, the photo is currently using almost half of that range, ie the composite dynamic range for bright pixels if the second content is desired. Despite some margin, we set some criteria for it (by specifying that almost all of those pixels have a brightness lower than PB_Comb_PhotoView / 2). Mixing of the second image content (the first content is a photo that has already been mapped according to a determined luminance mapping) is generated by the device by looking at the anchor value of the content (this is the photo viewing Different from the anchor type, but related to it by the calculation of the mixing device, eg, anc_face_inmix = 1.3 * anc_photoviewaplic), eg, establishes a photographic viewing composite dynamic range with brightness between 0 or k knit and PB_Comb_PhotoView. It is very convenient to have a general single (all situations are possible) HDR image content mixing system that can handle different situations, and the decisions in different types are best suited for the situation and when But it depends on what is already known to the device.
例えば、最終的なレンダリングシステムがまだ分かっていない場合、ミキサが2つの画像コンテンツを調和させる必要があるときにできる最良のことは、それらがどのように最良に混合されているかを少なくとも見ることである(例えば画像の1つが過度な(多分大きい)高輝度領域を有し、他の画像コンテンツを楽しむために暗くする必要があるか否か)。その場合、(例えば消費者のテレビにおける)最終的なディスプレイ最適化段階は、それらがどのように(一般的に)最適に混合されるべきか既に示された画像を考慮に入れて、さらに複雑な最適化を行う必要がある。しかし、レンダリング環境が既に知られている実施形態では、特に強い要求がある場所では、ミキサは最終的な外観(すなわち、大ファクタディスプレイで決定されたCombRngの視覚品質ニーズ、及び例えば異なるマッピングを行うことによって画像の1つを完全にソールレンダリングすることによる何らかの犠牲)に対してバランスをとる。レンダリング能力がCombRngの決定において主要な重要性を有する場合、典型的には、少なくともいくつかの典型的な考慮事項が例えばHDR画像の期待される特性に関して使用される(例えば合成装置のソフトウェアのルールは、「一般的な」典型的なHDR画像の大部分はおそらく例えば500ニット以下(+−)に存在し、明るいオブジェクトは例えば最大1500ニットの表示輝度になるように割り当てられた場合レンダリング可能でなければならないと決定する)。ディスプレイが例えばPB_D=1000nitのみの能力を有する場合、それは良質のHDR画像のいくつかの誤った非最適なレンダリングに対応する(すなわち例えば1400ニットの明るさの増加はやや暗すぎる)。このような場合には利用可能なディスプレイの実際のPB_Dは、レンダリングの前に画像コンテンツを混合するためのCombRngのPB_Cの決定に大きな影響を及ぼすが、合成装置は、CombRngのPBが1000ニットより幾分大きい、例えば15%高いすなわち1150ニットと判断することを決定することができる(そして、それをディスプレイにレンダリング可能な範囲にマッピングするのに混合画像の最終的な表示調整を適用する)。もちろん、理想的なより良い実施形態では、CombRngの最適化及び合成ダイナミックレンジ内の適切なanc点も考慮に入れ、すべての知られているファクタ(すなわち理想的なコンテンツレンダリングの必要性、現在のHDR画像混合フェーズのすべての実際的な要求及び制限)のバランスをとる。最適なanc点決定は、典型的には、以前に最適なCombRngを定義した後に利用可能な(可能である)ものを見ることである(しかし教示されているように、例えば画像が意味的にどのような種類のコンテンツを含むか、いくつかの実施形態ではひょっとしたらエンド視聴者がそのような画像コンテンツに期待するものなどの様々な他のファクタを含む)。したがって、様々な実施形態は、様々なancタイプのオプションを有し、合成すべきソース画像すなわち典型的には主要な画像の少なくとも1つにおいて決定されたもの(すなわち、例えば良好な顔色のような結合すべき画像の少なくとも1つにおいて示されたものと同じタイプのCombRngにおけるanc輝度であるが、しかし理解すべきなのは合成状況において最適なCombRngにおいては各画像をそれ自体にレンダリングする場合とは異なることである)に最も近いものを状況のすべての物理的特性(例えばコンテンツのピクセル輝度分布及び表示能力)を与えられた感知可能なanc値が何であるかの装置のオンザフライ決定などのために選択するシステムを介して、(ソース画像アンカータイプとして指定されているものであれば)常にすべてを適切な顔輝度に関係付ける装置内の固定設定にまたがる様々な態様でancを確立することができる。後者の種類の実施形態は、例えば与えられた特定のレンダリング制限で顔色を最適に決定しなければならず、例えばどのように暗くするとディスプレイが暗いオブジェクトを良好に表示し、その上に顔の輝度を落とすことがソース画像の暗い領域において顔にとって特に重要である場合に良好である。したがって、明確にするために、装置のいくつかの実施形態は、一般的には装置を動作させるために必要なのはそれらが装置によって関連付けられることだけであるから、現在入力されている2つの画像は顔色タイプのanc輝度で定義することができるが、いくつかのanc値(例えば良好な平均輝度)を決定することによって動作することができる(すなわち、装置は、特に最初に独立して確立された十分に使用可能なanc値よりも顔が例えば50%明るい場合には、十分に良好な画像が得られると判断するので、入力画像の典型的な顔の輝度はCombRngの「平均タイプ」のanc値の近傍にマッピングすることができる)。したがって、ソース画像のancタイプ及びCombRngは関連しているか関連可能であるべきである。ancは、最適かつエレガントな態様で、画像のすべての比色分析の複雑さを要約することができ、多くの状況でいずれにしても合成のための1つの調整ポイントのみが必要である。完全性を期するために、ダイナミックレンジのanc値はエンドポイントの輝度ではなく、むしろそれに追加される情報であることを意味する。輝度ダイナミックレンジを確立することに関して、当業者は、どのように高輝度を決定するか、及び最低輝度を体系的にゼロニットにしない実施形態で、画像の暗い領域における関連する画像コンテンツの量、暗い色を表示するためのレンダリングシステムの能力など既知のファクタのバランスのとれたニーズに依存してどのように低輝度を確立するのかを理解する。 For example, if the final rendering system is not yet known, the best thing a mixer can do when it needs to reconcile two image contents is to at least see how they are best mixed. There is (eg, whether one of the images has an excessive (possibly large) high brightness area and needs to be darkened to enjoy the other image content). In that case, the final display optimization stage (eg in consumer television) is even more complex, taking into account the images already shown how they should (generally) be optimally mixed. It is necessary to perform appropriate optimization. However, in embodiments where the rendering environment is already known, the mixer performs the final appearance (ie, the visual quality needs of CombRng determined on a large factor display, and eg different mappings, where there is a particularly strong demand. By doing so, it balances against some sacrifice by completely sole rendering one of the images). When rendering capability has a major importance in determining CombRng, typically at least some typical considerations are used, for example with respect to the expected properties of HDR images (eg software rules for synthesizers). Most of the "general" typical HDR images are probably present, for example below 500 knits (+-), and bright objects can be rendered, for example, when assigned to display brightness up to 1500 knits. Decide that it must be). If the display has the ability of only PB_D = 1000 nits, for example, it corresponds to some false non-optimal rendering of good HDR images (ie the increase in brightness of 1400 nits is a little too dark). In such cases, the actual PB_D of the available display has a significant effect on the determination of CombRng's PB_C for mixing the image content prior to rendering, but the compositing device has a CombRng PB of less than 1000 knits. It can be determined to be somewhat larger, eg 15% higher or 1150 knit (and apply the final display adjustment of the mixed image to map it to the renderable range on the display). Of course, in an ideal better embodiment, all known factors (ie, the need for ideal content rendering, the current need for content rendering, are also taken into account, taking into account the optimization of CombRng and the appropriate anc points within the synthetic dynamic range. Balance all practical requirements and limitations of the HDR image mixing phase). The optimal anc point determination is typically to look at what is available (but possible) after previously defining the optimal CombRng (but as taught, eg images are semantically). What kind of content is included, and in some embodiments, various other factors, such as what the end viewer would expect from such image content). Thus, different embodiments have different anc type options and are determined in at least one of the source images to be synthesized, typically the main image (ie, such as good complexion). Anc brightness in CombRng of the same type as shown in at least one of the images to be combined, but it should be understood that in CombRng optimal in the compositing situation, each image is different from rendering to itself. The closest thing to (that is) is selected for device on-the-fly determination of what the perceptible anc value is given all the physical characteristics of the situation (eg pixel brightness distribution and display capability of the content). Through the system, anc can be established in various ways across fixed settings in the device that always relate everything to proper facial brightness (if specified as the source image anchor type). In the latter type of embodiment, for example, the complexion must be optimally determined with a given specific rendering limit, for example, how dark the display will display dark objects well, and the brightness of the face on it. It is good when dropping is especially important for the face in the dark areas of the source image. Therefore, for clarity, the two images currently input are because some embodiments of the device generally only need to be associated by the device in order to operate the device. Although it can be defined by the complexion type anc brightness, it can be operated by determining some anc value (eg good average brightness) (ie, the device was established independently, especially first). If the face is, for example, 50% brighter than a sufficiently usable ank value, it is judged that a sufficiently good image can be obtained, so that the typical face brightness of the input image is the "average type" anc of CombRng. Can be mapped near the value). Therefore, the anc type and CombRng of the source image should be related or relevant. Anc can summarize the complexity of all colorimetric analysis of an image in an optimal and elegant manner, and in many situations only one adjustment point for compositing is needed anyway. For completeness, the dynamic range anc value means that it is not the brightness of the endpoint, but rather the information added to it. With respect to establishing a brightness dynamic range, one of ordinary skill in the art will determine the amount of relevant image content in the dark areas of the image, dark, in embodiments where the high brightness is determined and the minimum brightness is not systematically zero knit. Understand how low brightness is established depending on the balanced needs of known factors such as the ability of the rendering system to display colors.
本明細書に開示のアルゴリズムの構成要素は、実用上、(全部又は一部が)ハードウェア(例えば、特定用途向けICの部品)又は特殊なデジタルシグナルプロセッサ若しくは一般的なプロセッサ等で動作するソフトウェアとして実現されるようになっていてもよい。 The components of the algorithm disclosed herein are, in practice (all or part) software that runs on hardware (eg, application-specific IC components) or special digital signal processors or general processors. It may be realized as.
当業者であれば、本提示により、任意選択として改良し、他の構成要素と組み合わせて実現可能な構成要素及び方法の(任意選択としての)ステップが装置の各手段に対応する具合及びその逆を理解可能であるものとする。本出願において、単語「装置(apparatus)」は、その最も広い意味すなわち特定の目的の実現を可能にする手段群で使用しているため、例えばIC(の微小な回路部)、専用電化製品(ディスプレイを備えた電化製品等)、又はネットワーク化システムの一部等が可能である。また、「装置(arrangement)」は、最も広い意味での使用を意図するため、特に、単一の装置、装置の一部、協働する装置(の一部)の一群等を含んでいてもよい。 Those skilled in the art will appreciate that the steps (as an optional option) of the components and methods that can be improved as optional and feasible in combination with other components correspond to each means of the device and vice versa. Should be understandable. In this application, the word "apparatus" is used in its broadest sense, that is, a group of means that enable the realization of a specific purpose, and therefore, for example, an IC (a minute circuit part), a dedicated electric appliance ( (Electrical appliances equipped with a display, etc.), or a part of a networked system, etc. are possible. In addition, since "arrangement" is intended to be used in the broadest sense, it may include a single device, a part of a device, a group of (a part of) a collaborative device, and the like. Good.
コンピュータプログラムの意味としては、(中間言語及び最終的なプロセッサ言語への翻訳等の中間変換段階を含み得る)一連のロード段階後に汎用又は専用プロセッサを有効にするコマンドの一群の任意の物理的実現を明示的に含むことにより、コマンドをプロセッサに入力して、発明の特徴的機能のいずれかを実行することが了解されるものとする。特に、コンピュータプログラムは、例えばディスク若しくはテープ等の担体上のデータ、メモリ中に存在するデータ、ネットワーク接続(有線若しくは無線)を介して伝搬するデータ、又は紙面上のプログラムコードとして実現されていてもよい。また、プログラムコードのほか、プログラムに必要な特徴的データがコンピュータプログラムとして具現化されていてもよい。 The meaning of a computer program is any physical realization of a set of commands that enable a generic or dedicated processor after a series of load steps (which may include intermediate conversion steps such as translation into an intermediate language and the final processor language). By explicitly including, it is understood that a command may be entered into the processor to perform any of the characteristic functions of the invention. In particular, a computer program may be realized as data on a carrier such as a disk or tape, data existing in memory, data propagated via a network connection (wired or wireless), or program code on paper. Good. In addition to the program code, characteristic data required for the program may be embodied as a computer program.
この方法の動作に必要なステップの一部は、データ入力及び出力ステップ等、コンピュータプログラムにおける記述の代わりに、プロセッサの機能として既に存在していてもよい。 Some of the steps required for the operation of this method may already exist as a function of the processor, such as data input and output steps, instead of the description in the computer program.
上述の実施形態は、本発明の制限ではなく、説明を行っていることに留意するものとする。当業者であれば、特許請求の範囲の他の領域への提示例のマッピングを容易に実現可能であるが、簡素化のため、これらすべての選択肢については詳しく説明していない。特許請求の範囲における組み合わせのような本発明の要素の組み合わせのほか、要素の他の組み合わせも可能である。要素の如何なる組み合わせも、単一の専用要素で実現可能である。 It should be noted that the above embodiments are not limited to the present invention but are described. Those skilled in the art can easily realize the mapping of the examples presented to other areas of the claims, but for the sake of simplicity, all of these options are not described in detail. In addition to combinations of elements of the invention, such as combinations within the claims, other combinations of elements are possible. Any combination of elements can be realized with a single dedicated element.
特許請求の範囲における括弧内の如何なる参照記号も、特許請求の範囲の制限を意図していない。単語「含む(comprising)」は、特許請求の範囲に挙げられていない要素又は態様の存在を除外するものではない。要素の前の単語「a」又は「an」は、複数の当該要素の存在を除外するものではない。 No reference symbol in parentheses in the claims is intended to limit the scope of the claims. The word "comprising" does not preclude the existence of elements or embodiments not listed in the claims. The word "a" or "an" before an element does not preclude the existence of a plurality of such elements.
Claims (15)
複数の画像のうちの前記2つの画像又は前記2つのビデオのうちの少なくとも1つの画像又はビデオの最大輝度と、複数の画像のうちの前記2つの画像又は前記2つのビデオをレンダリングするためのディスプレイのピーク明度とのうちの少なくとも1つに基づいて決定される最大輝度を少なくとも特徴とする合成輝度ダイナミックレンジを確立するダイナミックレンジ確立ユニットであって、前記ダイナミックレンジ確立ユニットが、前記合成輝度ダイナミックレンジにおけるアンカー輝度を決定する輝度アンカー決定ユニットをさらに含む、ダイナミックレンジ確立ユニットと、
前記2つの画像又はビデオの少なくとも1つに少なくとも輝度変換を実行する色変換ユニットであって、前記色変換ユニットは、前記2つの画像又はビデオの第1の画像又はビデオを供給する第1のソースからのメタデータから少なくとも1つのソースアンカー輝度を読み出すソースアンカー輝度読み出しユニットを含み、前記色変換ユニットは、前記第1の画像又はビデオに適用される色変換を確立し、前記色変換は、前記ソースアンカー輝度が前記アンカー輝度の近傍の出力輝度にマッピングされるという性質を有することによって、前記ソースアンカー輝度の値に依存する、色変換ユニットと、
複数の画像のうちの前記2つの画像又は2つのビデオを合成して、少なくとも1つの出力画像を形成する画像合成ユニットと
を含む、装置。 A device for synthesizing two images or two videos of a plurality of images, wherein one of the two images or two videos is an image or video with a high dynamic range.
The maximum brightness of the two images of the plurality of images or at least one of the two videos or the video, and a display for rendering the two images or the two videos of the plurality of images. A dynamic range establishment unit that establishes a combined luminance dynamic range characterized by at least a maximum brightness determined based on at least one of the peak brightness of the above, wherein the dynamic range establishment unit is the composite luminance dynamic range. A dynamic range establishment unit, further including a brightness anchor determination unit that determines the anchor brightness in
A color conversion unit that performs at least a luminance conversion on at least one of the two images or videos, wherein the color conversion unit is a first source that supplies the first image or video of the two images or videos. The color conversion unit includes a source anchor brightness reading unit that reads at least one source anchor brightness from the metadata from the first image or video, the color conversion establishing the color conversion applied to the first image or video. A color conversion unit that depends on the value of the source anchor brightness by having the property that the source anchor brightness is mapped to the output brightness in the vicinity of the anchor brightness.
An apparatus including an image compositing unit that synthesizes the two images or two videos of a plurality of images to form at least one output image.
複数の画像のうちの前記2つの画像又は前記2つのビデオのうちの少なくとも1つの画像又はビデオの最大輝度、及び、複数の画像のうちの前記2つの画像又は前記2つのビデオをレンダリングするためのディスプレイのピーク明度の少なくとも1つに基づいて決定される最大輝度を少なくとも特徴とする合成輝度ダイナミックレンジを確立するステップであって、前記確立するステップが、前記合成輝度ダイナミックレンジにおけるアンカー輝度を決定するステップをさらに含む、確立するステップと、
前記2つの画像又はビデオの少なくとも1つに少なくとも輝度変換から構成される色変換を適用するステップであって、前記色変換は、前記2つの画像又はビデオの第1の画像又はビデオを供給する第1のソースからのメタデータから読み出されるソースアンカー輝度の値に基づいて確立され、前記色変換は、前記ソースアンカー輝度が前記アンカー輝度の近傍の出力輝度にマッピングされるという性質を有する、適用するステップと、
複数の画像のうちの前記2つの画像又は2つのビデオを前記合成輝度ダイナミックレンジにおけるそれらのピクセル色を用いて合成して、少なくとも1つの出力画像を形成するステップと
を有する、方法。 A method for synthesizing the two images or two videos of a plurality of images, wherein one of the two images or two videos is an image or video with a high dynamic range.
For rendering the maximum brightness of the two images of the plurality of images or at least one image or video of the two videos, and the two images of the plurality of images or the two videos. A step of establishing a composite luminance dynamic range characterized by at least a maximum brightness determined based on at least one of the peak brightness of the display, wherein the establishing step determines the anchor luminance in the composite luminance dynamic range. Steps to establish, including more steps,
A step of applying a color conversion consisting of at least a luminance conversion to at least one of the two images or videos, wherein the color conversion supplies a first image or video of the two images or videos. Established based on the value of the source anchor brightness read from the metadata from one source, the color transformation applies, which has the property that the source anchor brightness is mapped to an output brightness in the vicinity of the anchor brightness. Steps and
A method comprising the steps of synthesizing the two images or two videos of a plurality of images using their pixel colors in the composite luminance dynamic range to form at least one output image.
Applications Claiming Priority (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP15196054.9 | 2015-11-24 | ||
| EP15196054 | 2015-11-24 | ||
| US201662383692P | 2016-09-06 | 2016-09-06 | |
| US62/383,692 | 2016-09-06 | ||
| PCT/EP2016/077373 WO2017089146A1 (en) | 2015-11-24 | 2016-11-11 | Handling multiple hdr image sources |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JP2019506817A JP2019506817A (en) | 2019-03-07 |
| JP2019506817A5 JP2019506817A5 (en) | 2019-12-19 |
| JP6831389B2 true JP6831389B2 (en) | 2021-02-17 |
Family
ID=65638024
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2018545548A Active JP6831389B2 (en) | 2015-11-24 | 2016-11-11 | Processing of multiple HDR image sources |
Country Status (5)
| Country | Link |
|---|---|
| JP (1) | JP6831389B2 (en) |
| ES (1) | ES2979319T3 (en) |
| PL (1) | PL3381179T3 (en) |
| RU (1) | RU2723676C2 (en) |
| ZA (1) | ZA201804211B (en) |
Families Citing this family (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP3451677A1 (en) * | 2017-09-05 | 2019-03-06 | Koninklijke Philips N.V. | Graphics-safe hdr image luminance re-grading |
| WO2021108719A1 (en) * | 2019-11-27 | 2021-06-03 | Dolby Laboratories Licensing Corporation | Rate-control-aware reshaping in hdr imaging |
| CN111915517B (en) * | 2020-07-23 | 2024-01-26 | 同济大学 | Global positioning method suitable for RGB-D camera under indoor illumination unfavorable environment |
| CN112949502B (en) * | 2021-03-05 | 2024-03-29 | 浙江大华技术股份有限公司 | Method, system and electronic device for detecting swimming pool safety officer looking around |
| JP2023130222A (en) * | 2022-03-07 | 2023-09-20 | キヤノン株式会社 | Image processing device, control method and program |
| JP7851160B2 (en) * | 2022-03-16 | 2026-04-24 | キヤノン株式会社 | Image processing device, control method, and program |
| CN120356440B (en) * | 2025-06-10 | 2025-11-11 | 京东方科技集团股份有限公司 | A TFT-LCD liquid crystal display based on intelligent control |
Family Cites Families (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8135230B2 (en) * | 2007-07-30 | 2012-03-13 | Dolby Laboratories Licensing Corporation | Enhancing dynamic ranges of images |
| CN102422322B (en) * | 2009-05-11 | 2015-01-21 | 杜比实验室特许公司 | Method and apparatus for reproducing the color appearance of an image from a source environment at a device in a target environment |
| US8606009B2 (en) * | 2010-02-04 | 2013-12-10 | Microsoft Corporation | High dynamic range image generation and rendering |
| JP6009538B2 (en) * | 2011-04-28 | 2016-10-19 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | Apparatus and method for encoding and decoding HDR images |
| PL4421797T3 (en) * | 2011-09-27 | 2025-09-01 | Koninklijke Philips N.V. | Apparatus and method for dynamic range transforming of images |
| EP2769540B1 (en) * | 2011-10-20 | 2018-11-28 | Dolby Laboratories Licensing Corporation | Method and system for video equalization |
| CN105009567B (en) * | 2013-02-21 | 2018-06-08 | 杜比实验室特许公司 | For synthesizing the system and method for the appearance of superposed graph mapping |
| KR102223751B1 (en) * | 2013-07-12 | 2021-03-05 | 소니 주식회사 | Player device, play method, and recording medium |
| CN105684412B (en) * | 2013-10-22 | 2017-04-26 | 杜比实验室特许公司 | Guided color grading for extended dynamic range images |
| US9973723B2 (en) * | 2014-02-24 | 2018-05-15 | Apple Inc. | User interface and graphics composition with high dynamic range video |
| US9230338B2 (en) * | 2014-03-05 | 2016-01-05 | Dolby Laboratories Licensing Corporation | Graphics blending for high dynamic range video |
| WO2015175549A1 (en) * | 2014-05-12 | 2015-11-19 | Apple Inc. | Techniques for hdr/wcr video coding |
| US10567826B2 (en) * | 2014-11-10 | 2020-02-18 | Koninklijke Philips N.V. | Method for encoding, video processor, method for decoding, video decoder |
| US10542304B2 (en) * | 2015-02-03 | 2020-01-21 | Sony Corporation | Transmission device, transmission method, reception device, and reception method |
-
2016
- 2016-11-11 ES ES16797820T patent/ES2979319T3/en active Active
- 2016-11-11 JP JP2018545548A patent/JP6831389B2/en active Active
- 2016-11-11 PL PL16797820.4T patent/PL3381179T3/en unknown
- 2016-11-11 RU RU2018122765A patent/RU2723676C2/en active
-
2018
- 2018-06-22 ZA ZA2018/04211A patent/ZA201804211B/en unknown
Also Published As
| Publication number | Publication date |
|---|---|
| ZA201804211B (en) | 2021-05-26 |
| PL3381179T3 (en) | 2024-06-10 |
| JP2019506817A (en) | 2019-03-07 |
| RU2018122765A3 (en) | 2020-02-27 |
| ES2979319T3 (en) | 2024-09-25 |
| RU2018122765A (en) | 2019-12-26 |
| RU2723676C2 (en) | 2020-06-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10902567B2 (en) | Handling multiple HDR image sources | |
| JP7343629B2 (en) | Method and apparatus for encoding HDR images | |
| US20230177659A1 (en) | Encoding and decoding hdr videos | |
| JP6596125B2 (en) | Method and apparatus for creating a code mapping function for encoding of HDR images, and method and apparatus for use of such encoded images | |
| JP6831389B2 (en) | Processing of multiple HDR image sources | |
| JP6495552B2 (en) | Dynamic range coding for images and video | |
| US9754629B2 (en) | Methods and apparatuses for processing or defining luminance/color regimes | |
| JP7632919B2 (en) | Graphics-safe HDR image luminance regrading | |
| KR102014127B1 (en) | Brightness region-based apparatuses and methods for hdr image encoding and decoding | |
| JP2020520145A (en) | Optimizing Saturation of Decoded High Dynamic Range Images | |
| US20240221135A1 (en) | Display-Optimized HDR Video Contrast Adapation | |
| KR102279842B1 (en) | Methods and apparatuses for encoding hdr images | |
| US12462359B2 (en) | Display-optimized HDR video contrast adaptation | |
| JP2025519098A (en) | Blending secondary graphic elements in HDR images | |
| BR112018010367B1 (en) | APPARATUS FOR COMBINING TWO IMAGES OR TWO VIDEOS OF IMAGES, AND METHOD FOR COMBINING TWO IMAGES OR TWO VIDEOS OF IMAGES | |
| BR112017002313B1 (en) | ENCODER FOR ENCODING A HIGH DYNAMIC RANGE INPUT VIDEO, METHOD FOR ENCODING A HIGH DYNAMIC RANGE INPUT VIDEO, VIDEO DECODER FOR DECODING A HIGH DYNAMIC RANGE VIDEO, VIDEO DECODER FOR DECODING A SET OF IMAGES HIGH-RANGE VIDEO DYNAMIC AND VIDEO DECODING METHOD FROM A SET OF HIGH DYNAMIC RANGE VIDEO IMAGES |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191106 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191106 |
|
| RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20200309 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20200319 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201125 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210105 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210128 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6831389 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |