WO2023172002A1 - 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체 - Google Patents
영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체 Download PDFInfo
- Publication number
- WO2023172002A1 WO2023172002A1 PCT/KR2023/003020 KR2023003020W WO2023172002A1 WO 2023172002 A1 WO2023172002 A1 WO 2023172002A1 KR 2023003020 W KR2023003020 W KR 2023003020W WO 2023172002 A1 WO2023172002 A1 WO 2023172002A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- motion vector
- block
- current
- prediction block
- reference picture
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/105—Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/109—Selection of coding mode or of prediction mode among a plurality of temporal predictive coding modes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/513—Processing of motion vectors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/577—Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
Definitions
- the present invention relates to a video encoding/decoding method, device, and recording medium storing bitstreams. Specifically, the present invention relates to an image encoding/decoding method and device using a decoder side motion vector refinement (DMVR) method, and a recording medium storing a bitstream.
- DMVR decoder side motion vector refinement
- motion information such as motion vectors and reference picture information from neighboring blocks of the current block can be used for prediction of the current block.
- DMVR decoder side motion vector refinement
- the purpose of the present invention is to provide a video encoding/decoding method and device with improved encoding/decoding efficiency.
- Another object of the present invention is to provide a recording medium that stores a bitstream generated by the video decoding method or device provided by the present invention.
- An image decoding method includes determining a first basic motion vector of a current block for a first reference picture and a second basic motion vector of the current block for a second reference picture, a first Determining a first basic motion vector of the current block with respect to a reference picture and a second basic motion vector of the current block with respect to the second reference picture, by correcting the first basic motion vector by a first differential motion vector , determining a first corrected motion vector, and determining a second corrected motion vector by correcting the second basic motion vector by a second differential motion vector; Based on the weighted sum of the first prediction block and the second prediction block, determining a first prediction block and a second prediction block of the current block, and determining a final prediction block for the current block. It includes steps to:
- the distance between the current picture including the current block and the first reference picture and the current picture and the second reference picture If the distances of the reference pictures are different, the first correction motion vector and the second correction motion vector may be determined.
- the weighted sum of the first prediction block and the second prediction block is a weight value determined according to the distance between the current picture and the first reference picture and the distance between the current picture and the second reference picture. It can be decided by .
- the first weight applied to the first prediction block is proportional to the distance between the current picture and the second reference picture
- the second weight applied to the second prediction block is proportional to the distance between the current picture and the second reference picture. and may be proportional to the distance between the first reference picture and the first reference picture.
- the ratio of the size of the first differential motion vector and the size of the second differential motion vector is the current picture and It may be proportional to the ratio of the distance between the first reference picture and the distance between the current picture and the second reference picture.
- the sizes of the first differential motion vector and the second differential motion vector may be limited to within a predetermined range.
- the first correction motion vector and the second prediction block are minimized so that distortion between the first prediction block indicated by the first correction motion vector and the second prediction block indicated by the second correction motion vector is minimized.
- a corrective motion vector may be determined.
- the first corrected motion vector and the second corrected motion vector may be determined so that distortion is minimized.
- the distortion may be calculated based on a final template determined by weighting the first template and the second template and the current template.
- the first weight applied to the first prediction block is proportional to the distortion of the second template and the current template
- the second weight applied to the second prediction block is proportional to the distortion of the second template and the current template. and may be proportional to the distortion of the current template.
- the weighted sum of the first prediction block and the second prediction block may be determined by a weight value determined based on the picture type of the current picture including the current block.
- the weighted sum of the first prediction block and the second prediction block may be determined by a weight value determined based on weight value information generated by parsing a bitstream.
- An image encoding method includes determining a first basic motion vector of a current block for a first reference picture and a second basic motion vector of the current block for a second reference picture, determining a first corrected motion vector by correcting a first basic motion vector by a first differential motion vector, and determining a second corrected motion vector by correcting the second basic motion vector by a second differential motion vector, Based on the first correction motion vector and the second correction motion vector, determining a first prediction block and a second prediction block of the current block, and a weighted sum of the first prediction block and the second prediction block Based on this, determining a final prediction block for the current block.
- a non-transitory computer-readable recording medium stores a bitstream generated by the video encoding method.
- the transmission method according to an embodiment of the present invention transmits a bitstream generated by the video encoding method.
- the present invention proposes a method for improving decoder side motion vector refinement (DMVR).
- the frequency of application of the decoding-side motion vector correction method can be increased by changing the application conditions of the decoding-side motion vector correction method.
- coding efficiency can be improved by increasing the accuracy of the motion vector correction method on the decoding side and increasing the accuracy of the final prediction block.
- FIG. 1 is a block diagram showing the configuration of an encoding device to which the present invention is applied according to an embodiment.
- Figure 2 is a block diagram showing the configuration of a decoding device according to an embodiment to which the present invention is applied.
- Figure 3 is a diagram schematically showing a video coding system to which the present invention can be applied.
- Figure 4 shows an example of a method for determining one of various inter-screen prediction methods in the inter-screen prediction mode.
- Figure 5 shows an example of motion vector correction on the decoding side when the temporal distance between the current picture and the L0 reference picture is the same as the temporal distance between the current picture and the L1 reference picture.
- Figure 6 shows motion vector correction on the decoding side when the temporal distance between the current picture and the L0 reference picture and the temporal distance between the current picture and the L1 reference picture are not the same.
- Figure 7 explains motion vector correction on the decoding side based on the template matching method.
- Figure 8 is a flowchart of a decoding-side motion vector correction method according to an embodiment.
- Figure 9 exemplarily shows a content streaming system to which an embodiment according to the present invention can be applied.
- An image decoding method includes determining a first basic motion vector of a current block for a first reference picture and a second basic motion vector of the current block for a second reference picture, a first Determining a first basic motion vector of the current block with respect to a reference picture and a second basic motion vector of the current block with respect to the second reference picture, by correcting the first basic motion vector by a first differential motion vector , determining a first corrected motion vector, and determining a second corrected motion vector by correcting the second basic motion vector by a second differential motion vector; Based on the weighted sum of the first prediction block and the second prediction block, determining a first prediction block and a second prediction block of the current block, and determining a final prediction block for the current block. It includes steps to:
- first and second may be used to describe various components, but the components should not be limited by the terms.
- the above terms are used only for the purpose of distinguishing one component from another.
- a first component may be named a second component, and similarly, the second component may also be named a first component without departing from the scope of the present invention.
- the term and/or includes any of a plurality of related stated items or a combination of a plurality of related stated items.
- each component is listed and included as a separate component for convenience of explanation, and at least two of each component can be combined to form one component, or one component can be divided into a plurality of components to perform a function, and each of these components can perform a function.
- Integrated embodiments and separate embodiments of the constituent parts are also included in the scope of the present invention as long as they do not deviate from the essence of the present invention.
- the terms used in the present invention are only used to describe specific embodiments and are not intended to limit the present invention. Singular expressions include plural expressions unless the context clearly dictates otherwise. Additionally, some of the components of the present invention may not be essential components that perform essential functions in the present invention, but may be merely optional components to improve performance. The present invention can be implemented by including only essential components for implementing the essence of the present invention excluding components used only to improve performance, and a structure including only essential components excluding optional components used only to improve performance. is also included in the scope of rights of the present invention.
- the term “at least one” may mean one of numbers greater than 1, such as 1, 2, 3, and 4. In embodiments, the term “a plurality of” may mean one of two or more numbers, such as 2, 3, and 4.
- video may refer to a single picture that constitutes a video, or may refer to the video itself.
- encoding and/or decoding of a video may mean “encoding and/or decoding of a video,” or “encoding and/or decoding of one of the videos that make up a video.” It may be possible.
- the target image may be an encoding target image that is the target of encoding and/or a decoding target image that is the target of decoding. Additionally, the target image may be an input image input to an encoding device or may be an input image input to a decoding device. Here, the target image may have the same meaning as the current image.
- image may be used with the same meaning and may be used interchangeably.
- target block may be an encoding target block that is the target of encoding and/or a decoding target block that is the target of decoding. Additionally, the target block may be a current block that is currently the target of encoding and/or decoding. For example, “target block” and “current block” may be used with the same meaning and may be used interchangeably.
- a Coding Tree Unit may be composed of two chrominance component (Cb, Cr) coding tree blocks related to one luminance component (Y) coding tree block (CTB). .
- sample may represent the basic unit constituting the block.
- FIG. 1 is a block diagram showing the configuration of an encoding device to which the present invention is applied according to an embodiment.
- the encoding device 100 may be an encoder, a video encoding device, or an image encoding device.
- a video may contain one or more images.
- the encoding device 100 can sequentially encode one or more images.
- the encoding device 100 includes an image segmentation unit 110, an intra prediction unit 120, a motion prediction unit 121, a motion compensation unit 122, a switch 115, a subtractor 113, A transform unit 130, a quantization unit 140, an entropy encoding unit 150, an inverse quantization unit 160, an inverse transform unit 170, an adder 117, a filter unit 180, and a reference picture buffer 190. It can be included.
- the encoding device 100 can generate a bitstream including encoded information through encoding of an input image and output the generated bitstream.
- the generated bitstream can be stored in a computer-readable recording medium or streamed through wired/wireless transmission media.
- the image segmentation unit 110 may divide the input image into various forms to increase the efficiency of video encoding/decoding.
- the input video consists of multiple pictures, and one picture can be hierarchically divided and processed for compression efficiency, parallel processing, etc.
- one picture can be divided into one or multiple tiles or slices and further divided into multiple CTUs (Coding Tree Units).
- one picture may first be divided into a plurality of sub-pictures defined as a group of rectangular slices, and each sub-picture may be divided into the tiles/slices.
- subpictures can be used to support the function of partially independently encoding/decoding and transmitting a picture.
- bricks can be created by dividing tiles horizontally.
- a brick can be used as a basic unit of intra-picture parallel processing.
- one CTU can be recursively divided into a quad tree (QT: Quadtree), and the end node of the division can be defined as a CU (Coding Unit).
- CU can be divided into PU (Prediction Unit), which is a prediction unit, and TU (Transform Unit), which is a transformation unit, and prediction and division can be performed. Meanwhile, CUs can be used as prediction units and/or transformation units themselves.
- each CTU may be recursively partitioned into not only a quad tree (QT) but also a multi-type tree (MTT).
- CTU can begin to be divided into a multi-type tree from the end node of QT, and MTT can be composed of BT (Binary Tree) and TT (Triple Tree).
- MTT can be composed of BT (Binary Tree) and TT (Triple Tree).
- the MTT structure can be divided into vertical binary split mode (SPLIT_BT_VER), horizontal binary split mode (SPLIT_BT_HOR), vertical ternary split mode (SPLIT_TT_VER), and horizontal ternary split mode (SPLIT_TT_HOR).
- the minimum block size (MinQTSize) of the quad tree of the luminance block can be set to 16x16
- the maximum block size (MaxBtSize) of the binary tree can be set to 128x128, and the maximum block size (MaxTtSize) of the triple tree can be set to 64x64.
- the minimum block size (MinBtSize) of the binary tree and the minimum block size (MinTtSize) of the triple tree can be set to 4x4, and the maximum depth (MaxMttDepth) of the multi-type tree can be set to 4.
- a dual tree that uses different CTU division structures for the luminance and chrominance components can be applied.
- the luminance and chrominance CTB (Coding Tree Blocks) within the CTU can be divided into a single tree that shares the coding tree structure.
- the encoding device 100 may perform encoding on an input image in intra mode and/or inter mode.
- the encoding device 100 may perform encoding on the input image in a third mode (eg, IBC mode, Palette mode, etc.) other than the intra mode and inter mode.
- a third mode eg, IBC mode, Palette mode, etc.
- the third mode may be classified as intra mode or inter mode for convenience of explanation. In the present invention, the third mode will be classified and described separately only when a detailed explanation is needed.
- intra mode may mean intra-screen prediction mode
- inter mode may mean inter-screen prediction mode.
- the encoding device 100 may generate a prediction block for an input block of an input image. Additionally, after the prediction block is generated, the encoding device 100 may encode the residual block using the residual of the input block and the prediction block.
- the input image may be referred to as the current image that is currently the target of encoding.
- the input block may be referred to as the current block that is currently the target of encoding or the encoding target block.
- the intra prediction unit 120 may use samples of blocks that have already been encoded/decoded around the current block as reference samples.
- the intra prediction unit 120 may perform spatial prediction for the current block using a reference sample and generate prediction samples for the input block through spatial prediction.
- intra prediction may mean prediction within the screen.
- non-directional prediction modes such as DC mode and Planar mode and directional prediction modes (e.g., 65 directions) can be applied.
- the intra prediction method can be expressed as an intra prediction mode or an intra prediction mode.
- the motion prediction unit 121 can search for the area that best matches the input block from the reference image during the motion prediction process and derive a motion vector using the searched area. . At this time, the search area can be used as the area.
- the reference image may be stored in the reference picture buffer 190.
- it when encoding/decoding of the reference image is processed, it may be stored in the reference picture buffer 190.
- the motion compensation unit 122 may generate a prediction block for the current block by performing motion compensation using a motion vector.
- inter prediction may mean inter-screen prediction or motion compensation.
- the motion prediction unit 121 and the motion compensation unit 122 can generate a prediction block by applying an interpolation filter to some areas in the reference image.
- the motion prediction and motion compensation methods of the prediction unit included in the coding unit based on the coding unit include skip mode, merge mode, and improved motion vector prediction ( It is possible to determine whether it is in Advanced Motion Vector Prediction (AMVP) mode or Intra Block Copy (IBC) mode, and inter-screen prediction or motion compensation can be performed depending on each mode.
- AMVP Advanced Motion Vector Prediction
- IBC Intra Block Copy
- AFFINE mode of sub-PU-based prediction based on the inter-screen prediction method, AFFINE mode of sub-PU-based prediction, Subblock-based Temporal Motion Vector Prediction (SbTMVP) mode, and Merge with MVD (MMVD) mode of PU-based prediction, Geometric Partitioning Mode (GPM) ) mode can also be applied.
- HMVP History based MVP
- PAMVP Packet based MVP
- CIIP Combined Intra/Inter Prediction
- AMVR Adaptive Motion Vector Resolution
- BDOF Bi-Directional Optical-Flow
- BCW Bi-predictive with CU Weights
- BCW Local Illumination Compensation
- TM Template Matching
- OBMC Overlapped Block Motion Compensation
- the subtractor 113 may generate a residual block using the difference between the input block and the prediction block.
- the residual block may also be referred to as a residual signal.
- the residual signal may refer to the difference between the original signal and the predicted signal.
- the residual signal may be a signal generated by transforming, quantizing, or transforming and quantizing the difference between the original signal and the predicted signal.
- the remaining block may be a residual signal in block units.
- the transform unit 130 may generate a transform coefficient by performing transformation on the remaining block and output the generated transform coefficient.
- the transformation coefficient may be a coefficient value generated by performing transformation on the remaining block.
- the transform unit 130 may skip transforming the remaining blocks.
- Quantized levels can be generated by applying quantization to the transform coefficients or residual signals.
- the quantized level may also be referred to as a transform coefficient.
- the 4x4 luminance residual block generated through intra-screen prediction is transformed using a DST (Discrete Sine Transform)-based basis vector, and the remaining residual blocks are transformed using a DCT (Discrete Cosine Transform)-based basis vector.
- DST Discrete Sine Transform
- DCT Discrete Cosine Transform
- RQT Residual Quad Tree
- the transform block for one block is divided into a quad tree form, and after performing transformation and quantization on each transform block divided through RQT, when all coefficients become 0,
- cbf coded block flag
- MTS Multiple Transform Selection
- RQT Multiple Transform Selection
- SBT Sub-block Transform
- LFNST Low Frequency Non-Separable Transform
- a secondary transform technology that further transforms the residual signal converted to the frequency domain through DCT or DST, can be applied.
- LFNST additionally performs transformation on the 4x4 or 8x8 low-frequency area in the upper left corner, allowing the residual coefficients to be concentrated in the upper left corner.
- the quantization unit 140 may generate a quantized level by quantizing a transform coefficient or a residual signal according to a quantization parameter (QP), and output the generated quantized level. At this time, the quantization unit 140 may quantize the transform coefficient using a quantization matrix.
- QP quantization parameter
- a quantizer using QP values of 0 to 51 can be used.
- 0 to 63 QP can be used.
- a DQ (Dependent Quantization) method that uses two quantizers instead of one quantizer can be applied. DQ performs quantization using two quantizers (e.g., Q0, Q1), but even without signaling information about the use of a specific quantizer, the quantizer to be used for the next transformation coefficient is determined based on the current state through a state transition model. It can be applied to be selected.
- the entropy encoding unit 150 can generate a bitstream by performing entropy encoding according to a probability distribution on the values calculated by the quantization unit 140 or the coding parameter values calculated during the encoding process. and bitstream can be output.
- the entropy encoding unit 150 may perform entropy encoding on information about image samples and information for decoding the image. For example, information for decoding an image may include syntax elements, etc.
- the entropy encoding unit 150 may use encoding methods such as exponential Golomb, CAVLC (Context-Adaptive Variable Length Coding), and CABAC (Context-Adaptive Binary Arithmetic Coding) for entropy encoding. For example, the entropy encoding unit 150 may perform entropy encoding using a Variable Length Coding/Code (VLC) table.
- VLC Variable Length Coding/Code
- the entropy encoding unit 150 derives a binarization method of the target symbol and a probability model of the target symbol/bin, and then uses the derived binarization method, probability model, and context model. Arithmetic coding can also be performed using .
- the table probability update method may be changed to a table update method using a simple formula. Additionally, two different probability models can be used to obtain more accurate symbol probability values.
- the entropy encoder 150 can change a two-dimensional block form coefficient into a one-dimensional vector form through a transform coefficient scanning method to encode the transform coefficient level (quantized level).
- Coding parameters include information (flags, indexes, etc.) encoded in the encoding device 100 and signaled to the decoding device 200, such as syntax elements, as well as information derived from the encoding or decoding process. It may include and may mean information needed when encoding or decoding an image.
- signaling a flag or index may mean that the encoder entropy encodes the flag or index and includes it in the bitstream, and the decoder may include the flag or index from the bitstream. This may mean entropy decoding.
- the encoded current image can be used as a reference image for other images to be processed later. Accordingly, the encoding device 100 can restore or decode the current encoded image, and store the restored or decoded image as a reference image in the reference picture buffer 190.
- the quantized level may be dequantized in the dequantization unit 160. It may be inverse transformed in the inverse transform unit 170.
- the inverse-quantized and/or inverse-transformed coefficients may be combined with the prediction block through the adder 117.
- a reconstructed block may be generated by combining the inverse-quantized and/or inverse-transformed coefficients with the prediction block.
- the inverse-quantized and/or inverse-transformed coefficient refers to a coefficient on which at least one of inverse-quantization and inverse-transformation has been performed, and may refer to a restored residual block.
- the inverse quantization unit 160 and the inverse transform unit 170 may be performed as reverse processes of the quantization unit 140 and the transform unit 130.
- the restored block may pass through the filter unit 180.
- the filter unit 180 includes a deblocking filter, a sample adaptive offset (SAO), an adaptive loop filter (ALF), a bilateral filter (BIF), and an LMCS (Luma). Mapping with Chroma Scaling) can be applied to restored samples, restored blocks, or restored images as all or part of the filtering techniques.
- the filter unit 180 may also be referred to as an in-loop filter. At this time, in-loop filter is also used as a name excluding LMCS.
- the deblocking filter can remove block distortion occurring at the boundaries between blocks. To determine whether to perform a deblocking filter, it is possible to determine whether to apply a deblocking filter to the current block based on the samples included in a few columns or rows included in the block. When applying a deblocking filter to a block, different filters can be applied depending on the required deblocking filtering strength.
- Sample adaptive offset can correct the offset of the deblocked image with the original image on a sample basis. You can use a method of dividing the samples included in the image into a certain number of regions, then determining the region to perform offset and applying the offset to that region, or a method of applying the offset by considering the edge information of each sample.
- Bilateral filter can also correct the offset from the original image on a sample basis for the deblocked image.
- the adaptive loop filter can perform filtering based on a comparison value between the restored image and the original image. After dividing the samples included in the video into predetermined groups, filtering can be performed differentially for each group by determining the filter to be applied to that group. Information related to whether to apply an adaptive loop filter may be signaled for each coding unit (CU), and the shape and filter coefficients of the adaptive loop filter to be applied may vary for each block.
- CU coding unit
- LMCS Luma Mapping with Chroma Scaling
- LM luma-mapping
- CS chroma scaling
- This refers to a technology that scales the residual value of the color difference component according to the luminance value.
- LMCS can be used as an HDR correction technology that reflects the characteristics of HDR (High Dynamic Range) images.
- the reconstructed block or reconstructed image that has passed through the filter unit 180 may be stored in the reference picture buffer 190.
- the restored block that has passed through the filter unit 180 may be part of a reference image.
- the reference image may be a reconstructed image composed of reconstructed blocks that have passed through the filter unit 180.
- the stored reference image can then be used for inter-screen prediction or motion compensation.
- Figure 2 is a block diagram showing the configuration of a decoding device according to an embodiment to which the present invention is applied.
- the decoding device 200 may be a decoder, a video decoding device, or an image decoding device.
- the decoding device 200 includes an entropy decoding unit 210, an inverse quantization unit 220, an inverse transform unit 230, an intra prediction unit 240, a motion compensation unit 250, and an adder 201. , it may include a switch 203, a filter unit 260, and a reference picture buffer 270.
- the decoding device 200 may receive the bitstream output from the encoding device 100.
- the decoding device 200 may receive a bitstream stored in a computer-readable recording medium or receive a bitstream streamed through a wired/wireless transmission medium.
- the decoding device 200 may perform decoding on a bitstream in intra mode or inter mode. Additionally, the decoding device 200 can generate a restored image or a decoded image through decoding, and output the restored image or a decoded image.
- the decoding device 200 can decode the input bitstream to obtain a reconstructed residual block and generate a prediction block.
- the decoding device 200 may generate a restored block to be decoded by adding the restored residual block and the prediction block.
- the block to be decrypted may be referred to as the current block.
- the entropy decoding unit 210 may generate symbols by performing entropy decoding according to a probability distribution for the bitstream.
- the generated symbols may include symbols in the form of quantized levels.
- the entropy decoding method may be the reverse process of the entropy encoding method described above.
- the entropy decoder 210 can change one-dimensional vector form coefficients into two-dimensional block form through a transform coefficient scanning method in order to decode the transform coefficient level (quantized level).
- the intra prediction unit 240 may generate a prediction block by performing spatial prediction on the current block using sample values of already decoded blocks surrounding the decoding target block.
- the intra prediction unit 240 applied to the decoding device may use the same technology as the intra prediction unit 120 applied to the above-described encoding device.
- the motion compensation unit 250 may generate a prediction block by performing motion compensation on the current block using a motion vector and a reference image stored in the reference picture buffer 270.
- the motion compensator 250 may generate a prediction block by applying an interpolation filter to a partial area in the reference image.
- To perform motion compensation based on the coding unit, it can be determined whether the motion compensation method of the prediction unit included in the coding unit is skip mode, merge mode, AMVP mode, or current picture reference mode, and each mode Motion compensation can be performed according to .
- the motion compensation unit 250 applied to the decoding device may use the same technology as the motion compensation unit 122 applied to the above-described encoding device.
- the adder 201 may generate a restored block by adding the restored residual block and the prediction block.
- the filter unit 260 may apply at least one of inverse-LMCS, deblocking filter, sample adaptive offset, and adaptive loop filter to the reconstructed block or reconstructed image.
- the filter unit 260 applied to the decoding device may apply the same filtering technology as the filtering technology applied to the filter unit 180 applied to the above-described encoding device.
- the filter unit 260 may output a restored image.
- the reconstructed block or reconstructed image may be stored in the reference picture buffer 270 and used for inter prediction.
- the restored block that has passed through the filter unit 260 may be part of the reference image.
- the reference image may be a reconstructed image composed of reconstructed blocks that have passed through the filter unit 260.
- the stored reference image can then be used for inter-screen prediction or motion compensation.
- Figure 3 is a diagram schematically showing a video coding system to which the present invention can be applied.
- a video coding system may include an encoding device 10 and a decoding device 20.
- the encoding device 10 may transmit encoded video and/or image information or data in file or streaming form to the decoding device 20 through a digital storage medium or network.
- the encoding device 10 may include a video source generator 11, an encoder 12, and a transmitter 13.
- the decoding device 20 may include a receiving unit 21, a decoding unit 22, and a rendering unit 23.
- the encoder 12 may be called a video/image encoder
- the decoder 22 may be called a video/image decoder.
- the transmission unit 13 may be included in the encoding unit 12.
- the receiving unit 21 may be included in the decoding unit 22.
- the rendering unit 23 may include a display unit, and the display unit may be composed of a separate device or external component.
- the video source generator 11 may acquire video/image through a video/image capture, synthesis, or creation process.
- the video source generator 11 may include a video/image capture device and/or a video/image generation device.
- a video/image capture device may include, for example, one or more cameras, a video/image archive containing previously captured video/images, etc.
- Video/image generating devices may include, for example, computers, tablets, and smartphones, and are capable of generating video/images (electronically). For example, a virtual video/image may be created through a computer, etc., and in this case, the video/image capture process may be replaced by the process of generating related data.
- the encoder 12 can encode the input video/image.
- the encoder 12 can perform a series of procedures such as prediction, transformation, and quantization for compression and encoding efficiency.
- the encoder 12 may output encoded data (encoded video/image information) in the form of a bitstream.
- the detailed configuration of the encoding unit 12 may be the same as that of the encoding device 100 of FIG. 1 described above.
- the transmission unit 13 may transmit encoded video/image information or data output in the form of a bitstream to the reception unit 21 of the decoding device 20 through a digital storage medium or network in the form of a file or streaming.
- Digital storage media may include various storage media such as USB, SD, CD, DVD, Blu-ray, HDD, and SSD.
- the transmission unit 13 may include elements for creating a media file through a predetermined file format and may include elements for transmission through a broadcasting/communication network.
- the receiving unit 21 may extract/receive the bitstream from the storage medium or network and transmit it to the decoding unit 22.
- the decoder 22 can decode the video/image by performing a series of procedures such as inverse quantization, inverse transformation, and prediction corresponding to the operations of the encoder 12.
- the detailed configuration of the decoding unit 22 may be the same as that of the decoding device 200 of FIG. 2 described above.
- the rendering unit 23 may render the decrypted video/image.
- the rendered video/image may be displayed through the display unit.
- FIG. 4 illustrates an example 400 of a method for determining one of various inter-prediction methods in the inter-prediction mode.
- the inter-prediction mode of the current block is merge mode or AMVP (Advanced Motion Vector Prediction). It is determined whether it is a mode or not.
- AMVP Advanced Motion Vector Prediction
- Merge mode is an inter-screen prediction mode that obtains motion information such as the motion vector and reference picture of the current block from adjacent blocks of the current block.
- AMVP mode a predicted motion vector is obtained from neighboring blocks of the current block, and other motion information, such as a differential motion vector and reference picture information excluding the predicted motion vector, is obtained by parsing the bitstream. Therefore, AMVP mode is different from merge mode in which all motion information of neighboring blocks is used to predict the current block.
- step 420 it is determined whether the inter-screen prediction mode of the current block is the subblock merge mode. If the inter-screen prediction mode of the current block is the sub-block merge mode, in step 422, the current block is divided into a plurality of sub-blocks according to the sub-block merge mode, and each sub-block moves according to the Affine transform. Can be predicted based on vectors.
- step 430 it is determined whether the inter-screen prediction mode of the current block is the regular merge mode. If the inter-prediction mode of the current block is not a general merge mode, in step 432, it is determined whether the inter-prediction mode of the current block is a combined intra inter prediction (CIIP) mode.
- CIIP combined intra inter prediction
- the inter-screen prediction mode of the current block is determined to be a geometric partition mode.
- Geometric partition mode is an inter-screen prediction mode that divides the current block into two partitions based on a predetermined boundary and determines the final prediction block of the current block by combining two prediction blocks for the two partitions.
- the inter-prediction mode of the current block is determined as the inter-prediction mode within the combined screen. According to the combined intra-screen inter-prediction mode, the final prediction block of the current block can be determined by combining a prediction block based on intra-prediction of the current block and a prediction block based on inter-screen prediction of the current block.
- step 440 it is determined whether the inter-screen prediction mode of the current block is Merge mode with Motion Vector Difference (MMVD).
- MMVD Motion Vector Difference
- the final motion vector of the current block is determined by adding the differential motion vector to the motion vector obtained from the neighboring block.
- the direction of the differential motion vector may be limited to one of +x, -x, +y, and -y.
- the size of the differential motion vector may be limited to being selected from a limited number of predetermined size candidates.
- the current block is predicted according to the differential motion vector merge mode. And if the current block is bi-directionally predicted, the prediction block of the current block may be adjusted according to the Bi-Directional Optical Flow (BDOF) mode in step 446.
- BDOF Bi-Directional Optical Flow
- step 444 the general merge mode is applied to the current block. And if the current block is bi-predicted, the motion vector of the current block may be corrected according to the decoding side motion vector correction mode in step 450. And in step 452, like step 446, the prediction block of the current block may be adjusted by the bidirectional optical flow mode.
- Decoding-side motion vector correction is a method of correcting a motion vector through a two-way matching-based motion vector search process without parsing additional information when decoding a two-way motion vector derived from a general merge mode. According to motion vector correction on the decoding side, motion vector accuracy can be improved in general merge mode. And, accordingly, the encoding efficiency of the general merge mode can be improved.
- the decoding-side motion vector correction mode is explained as being applied only in the general merge mode, but depending on the embodiment, the decoding side may also be used in the sub-block merge mode, geometric partition mode, combined intra-screen inter-screen prediction mode, and differential motion vector merge mode.
- a motion vector correction mode may be applied.
- the inter-screen prediction mode of the current block may be determined in steps 410, 420, 430, 432, and 440 of FIG. 4. For example, a merge flag in step 410, a subblock merge flag in step 420, a general merge flag in step 430, a combined intra-picture inter-picture prediction flag in step 432, and a differential motion vector merge flag in step 440 are respectively generated from the bitstream. Can be parsed.
- the bidirectional motion vector predicted in the general merge mode is corrected through motion search based on bilateral matching (BM).
- BM bilateral matching
- neighboring blocks of a reference block may be searched from the initial motion vector to find the optimal reference block.
- a motion vector that minimizes the degree of distortion between two reference blocks located in two reference pictures is searched from the initial motion vector based on bilateral matching (BM).
- Decoding-side motion vector correction is not applied to all bidirectional motion vectors predicted in the general merge mode, but can be applied only to cases where one or more predetermined conditions are all satisfied. The above predetermined conditions are explained below.
- decoding-side motion vector correction when a coding unit (CU) block is in merge mode, decoding-side motion vector correction may be applied. Additionally, when the coding unit block is not in the sub-block merge mode to which inter-screen prediction according to affine transform is applied, motion vector correction on the decoding side may be applied. Additionally, when merge mode with motion vector difference (MMVD) is not applied to the coding unit block, decoding-side motion vector correction may be applied.
- MMVD motion vector difference
- decoding-side motion vector correction when the coding unit block is in bi-prediction mode, decoding-side motion vector correction may be applied. Additionally, according to one embodiment, when two reference pictures referenced by a coding unit block are located in opposite temporal directions from the current picture, decoding-side motion vector correction may be applied. For example, when the first reference picture among two reference pictures temporally precedes the current picture and the second reference picture temporally lags the current picture, decoding-side motion vector correction may be applied.
- decoding-side motion vector correction when the temporal distance between two reference pictures and the current picture is the same, decoding-side motion vector correction can be applied.
- the temporal distance may mean the size of the POC (Picture Order Count) difference between the reference picture and the current picture.
- the distance between pictures represents the size of the temporal distance and POC difference.
- decoding-side motion vector correction may be applied even when the temporal distance between two reference pictures and the current picture is different.
- more motion vector correction on the decoding side can be applied in the general merge mode. Accordingly, by relaxing the performance conditions, more motion vector correction on the decoding side can be performed, thereby improving coding efficiency.
- motion vector correction on the decoding side may be applied.
- whether to apply motion vector correction on the decoding side may be determined depending on the size of the coding unit block. For example, when the size of a coding unit block is larger than a predetermined size, decoding-side motion vector correction may be applied.
- the predetermined size can be expressed as the number of luminance samples included in the coding unit block. And the predetermined size may be a power of 2, such as 64, 128, 256, 512, or 1024.
- whether to apply motion vector correction on the decoding side may be determined depending on the width and height of the coding unit block. For example, when the height and/or width of the coding unit block is greater than a predetermined value, decoding-side motion vector correction may be applied.
- the predetermined value may be a power of 2, such as 4, 8, 16, or 32.
- decoding-side motion vector correction may be applied.
- the final prediction block of the coding unit block is determined as the weighted average of two prediction blocks obtained from bidirectional prediction.
- the bidirectional coding unit weight value is used to determine the weighted average of the two prediction blocks.
- decoding-side motion vector correction may be set to be applied even when the bidirectional coding unit weight values applied to the two prediction blocks are different.
- decoding-side motion vector correction when combined intra inter prediction (CIIP) is not applied, decoding-side motion vector correction may be applied.
- CIIP intra inter prediction
- combined intra-screen inter-prediction it is a prediction method that determines the final prediction block by performing a weighted average of the first prediction block derived from intra-prediction and the second prediction block derived from inter-screen prediction for one block.
- the conditions for performing decoding-side motion vector correction may include at least one of the plurality of conditions described above.
- the frequency of decoding-side motion vector correction may decrease. Conversely, as the conditions for performing decoding-side motion vector correction decrease, the frequency of decoding-side motion vector correction may increase. Therefore, depending on the conditions of motion vector correction on the decoding side, the frequency of motion vector correction and the resulting encoding efficiency of merge mode can be determined.
- Figure 5 shows an example of motion vector correction on the decoding side when the temporal distance between the current picture and the L0 reference picture is the same as the temporal distance between the current picture and the L1 reference picture.
- the current block 500 and the L0 reference picture 520 have a POC distance of N.
- the current block 500 and the L1 reference picture 540 also have a POC distance of N. Accordingly, the distance between the current block 500 and the L0 reference picture 520 and the distance between the current block 500 and the L1 reference picture 540 are the same.
- the current block 500 can obtain initial motion vectors MV0 (522) and MV1 (542) in the L0 and L1 directions based on the motion information of neighboring blocks.
- MV0 (522) and MV1 (542) point to the first reference blocks (524 and 544), respectively.
- MV0 522 and MV1 542 are the initial motion vectors in the L0 and L1 directions respectively derived from the general merge mode.
- MV0' (528) is a motion vector obtained by correcting MV0 (522), the initial motion vector in the L0 direction, by MV diff (526).
- MV1' (548) is a motion vector obtained by correcting MV1 (542), the initial motion vector in the L1 direction, by - MV diff (546).
- MV diff (526) and -MV diff (546) are the L0 differential motion vector and L1 differential motion vector, respectively.
- the L0 differential motion vector and the L1 differential motion vector have the same size, but the directions are set to be opposite.
- MV0 '528' and MV1' (548) may be determined as the final motion vector of the current block 502.
- various distortion measurement methods can be used, such as the sum of absolute difference (SAD) or the sum of squared error (SSE) between two reference blocks.
- a prediction block In bi-prediction with Coding Unit-level weight (BCW), adaptive weighting values are applied to two prediction blocks derived from motion vectors in the L0 direction and L1 direction, so that the prediction block can be created.
- a prediction block In bidirectional prediction using coding unit weight values, a prediction block can be calculated using Equation 1.
- P0 and P1 represent a prediction block motion-compensated from the L0 reference picture and a prediction block motion-compensated from the L1 reference picture, respectively.
- w refers to the weight value applied to each reference block, and the value of w is determined differently depending on whether the current picture is a low delay picture or not. If the current picture is a low-latency picture, five weight values (w ⁇ ⁇ -2, 3, 4, 5, 10 ⁇ ) can be used. If the current picture is not a low-latency picture, three weight values (w ⁇ ⁇ 3, 4, 5 ⁇ ) can be used.
- weight value information can be derived from the merge candidate block. If the current block is not in merge mode, weight value information may be parsed after motion vector difference information is parsed.
- Equation 2 represents a method of generating the final prediction block using the decoding-side motion vector correction method.
- P L0 , P L1 , and Pred Final are a prediction block indicated by the MV0' motion vector in the L0 reference picture, a prediction block indicated by the MV1' motion vector in the L1 reference picture, and a prediction block generated using the two prediction blocks, respectively. Indicates the final prediction block. As shown in Figure 5, since the temporal distance between the current picture and the L0 reference picture and the temporal distance between the current picture and the L1 reference picture are the same, the same weight value is assigned to the prediction blocks (P L0 and P L1 ) generated from each reference picture. A final prediction block may be generated.
- the method of generating a prediction block according to the decoding-side motion vector correction method according to an embodiment can be used only when the temporal distance between the current picture and the L0 reference picture and the temporal distance between the current picture and the L1 reference picture are the same.
- a prediction block may be generated by averaging the two prediction blocks generated from the two reference pictures.
- the final prediction block can be generated by assigning different weight values to the prediction block P L0 of L0 and the prediction block P L1 of L1.
- the final prediction block is generated in bi-prediction with CU-level weight (BCW) using the coding unit weight value. Equation 1 for can be used.
- weight value information may be derived from the merge candidate block. Otherwise, weight value information may be parsed from the bitstream when not in merge mode.
- a prediction block may be generated according to the determined weight value. For example, five weight values (w ⁇ ⁇ -2, 3, 4, 5, 10 ⁇ ) used in low-latency pictures can be used to generate a prediction block. Alternatively, three weight values (w ⁇ ⁇ 3, 4, 5 ⁇ ), which are used in cases where the picture is not a low-latency picture, can be used to generate a prediction block. Alternatively, an arbitrary predetermined weight value can be used. At this time, the number of weighting values used may be arbitrarily determined.
- weight value information determined by the encoder is transmitted and parsed.
- the method of transmitting/parsing the weight value information is a fixed length code (FLC), unary code, or truncated binary code, taking into account the weight value used.
- FLC fixed length code
- unary code unary code
- truncated binary code taking into account the weight value used.
- the bidirectional coding unit weight value may be determined based on the temporal distance between the current picture and the L0 reference picture and the temporal distance between the current picture and the L1 reference picture.
- the decoding-side motion vector correction method is applied to the current block. Correction methods may be applied.
- Figure 6 shows motion vector correction on the decoding side when the temporal distance between the current picture and the L0 reference picture and the temporal distance between the current picture and the L1 reference picture are not the same.
- the current picture 600 is a picture at time t
- the L0 reference picture 620 and L1 reference picture 640 are pictures at time t-M (t-M > 0) and time t+N (t+N > 0), respectively. is (t-M ⁇ t+N).
- M and N are different (M ⁇ N) arbitrary positive integer values. Therefore, as shown in FIG. 6, the temporal distance between the L0 reference picture 620 and the current picture 600 and the temporal distance between the L1 reference picture 640 and the current picture 600 are not the same.
- the L0 direction motion vector MV0 (622) and the L1 direction motion vector MV1 (642) derived from the general merge mode are initial motion vectors.
- MV0 (622) and MV1 (642) point to the first reference blocks (624 and 644), respectively.
- the motion vector MV0' (628) is determined by correcting MV0 (622) by MV diff_L0 (626).
- the motion vector MV1' (648) is determined by correcting MV1 (642) by MV diff_L1 (646).
- MV diff_L1 (646) can be determined from MV diff_L0 (626) by considering the ratio of the temporal distance between the current picture and the L0 reference picture and the temporal distance between the current picture and the L1 reference picture.
- the motion vectors MV0' (628) and MV1' (648) can be derived as final motion vectors in the L0 direction and L1 direction, respectively, when the distortion between the block P L0 (630) and the block P L1 (650) is minimal.
- Equation 3 shows a method of calculating MV diff_L1 corresponding to MV diff_L0 by considering the ratio of the temporal distance between the current picture and the L0 reference picture and the temporal distance between the current picture and the L1 reference picture.
- M and N mean the temporal distance between the current picture and the L0 reference picture and the temporal distance between the current picture and the L1 reference picture, respectively.
- M and N are different random positive integer values.
- MV diff_L1_x , MV diff_L1_y , MV diff_L0_x , and MV diff_L0_y are the x-direction motion information of MV diff_L1 , the y-direction motion information of MV diff_L1 , the x-direction motion information of MV diff_L0 , and the y-direction motion of MV diff_L0 , respectively. Indicates information.
- MV diff_L1 corresponding to MV diff_L0 is calculated symmetrically considering the temporal distance between the current picture and the L0 reference picture and the ratio (M:N) of the temporal distance between the current picture and the L1 reference picture.
- the motion information of MV diff_L1 was calculated by reflecting the ratio of the temporal distance between the current picture and the L0 reference picture and the temporal distance between the current picture and the L1 reference picture in the motion information of MV diff_L0 .
- the motion information of MV diff_L0 may be calculated by reflecting the ratio of the temporal distance between the current picture and the L0 reference picture and the temporal distance between the current picture and the L1 reference picture.
- MV diff_L1_x and MV diff_L1_y determined in Equation 3 are added to MV diff_L0_x and MV diff_L0_y As determined by multiplying N/M, the values of MV diff_L1_x and MV diff_L1_y may be non-integer values. Therefore, according to one embodiment, MV diff_L1_x and MV diff_L1_y may be adjusted to values in integer units. At this time, MV diff_L1_x and MV diff_L1_y can be integerized according to a rounding or truncation process. Alternatively, MV diff_L1_x and MV diff_L1_y may be adjusted to a predetermined precision other than integer units according to a rounding or truncation process. The predetermined precision may be 1/2, 1/4, etc.
- the absolute values of MV diff_L1_x , MV diff_L1_y , MV diff_L0_x , and MV diff_L0_y may be limited to a predetermined range.
- the predetermined range may be determined in units of 1, 2, 4, or 8 integer samples, etc.
- the predetermined ranges of MV diff_L1_x and MV diff_L1_y may be determined differently from the predetermined ranges of MV diff_L0_x and MV diff_L0_y by considering the ratio of M and N.
- the absolute values of MV diff_L1_x , MV diff_L1_y , MV diff_L0_x , and MV diff_L0_y can be set to be equal to or less than one of 1, 2, 4, or 8.
- motion vector accuracy can be improved by correcting the motion vector by considering the ratio of the temporal distance between the current picture and the L0 reference picture and the temporal distance between the current picture and the L1 reference picture.
- a bidirectional coding unit weight value may be determined by considering the temporal distance between the current picture and the L1 reference picture. And, a final prediction block may be generated according to the determined weight value.
- the corrected motion vectors MV0' and MV1' are as shown in Equation 2.
- the final prediction block for the current block may be generated by using the same weight value for the indicated prediction blocks P L0 and P L1 .
- the L0 and L1 direction motion vectors MV0 and MV1 may be determined as the initial motion vectors. And using the motion vector MV0' in which MV0, the motion vector in the L0 direction, is corrected by MV diff_L0 , and the motion vector MV1' in which the motion vector in the L1 direction, MV1, is corrected by MV diff_L1 , prediction blocks P L0 and L1 in the L0 direction are generated.
- the prediction block P L1 of can be determined.
- the final prediction block is calculated using different weight values according to the ratio of the temporal distance between the current picture and the L0 reference picture and the temporal distance between the current picture and the L1 reference picture.
- Equation 4 generates each prediction block using the motion vector corrected in the decoder, and considers the temporal distance between the current picture and the L0 reference picture and the temporal distance between the current picture and the L1 reference picture. Indicates how to generate the final prediction block by assigning weight values.
- M and N mean the temporal distance between the current picture and the L0 reference picture and the temporal distance between the current picture and the L1 reference picture, respectively.
- M and N are different (M ⁇ N) arbitrary positive integer values.
- the weight value of P L0 (N/(M+N)) and the weight value of P L1 (M/(M+N)) are the temporal distance between the current picture and the L0 reference picture and the current picture and L1 It is calculated by considering the ratio of the temporal distance of the reference picture. According to Equation 4, a larger weight value (N/(M+N)>M/(M+N)) is assigned to the prediction block (P L0 ) of the reference picture that is closer to the current picture.
- a smaller weight value (N/(M+N)>M/(M+N)) is assigned to the prediction block (P L1 ) of the current picture and a farther reference picture.
- the weight value used in Equation 4 is derived by considering the ratio of the temporal distance between the current picture and the L0 reference picture and the temporal distance between the current picture and the L1 reference picture, so there is no need to explicitly obtain weight value information from the bitstream.
- weight value information can be parsed from the bitstream even when the temporal distance between the current picture and the L0 reference picture and the temporal distance between the current picture and the L1 reference picture are not the same.
- the weight value is determined considering the characteristics of the pictures, or weight value information is obtained from the bitstream. Thus, the weight value can be determined.
- a predetermined arbitrary weight value may be used to generate a prediction block. That is, the weighting value used in low-delay pictures may be applied, or the weighting value used in cases where it is not a low-delay picture may be applied. Alternatively, an arbitrary predetermined weight value may be applied. At this time, the number of weight values used may be arbitrarily determined.
- Weight value information determined by the encoder can be parsed from the bitstream.
- the method of transmitting/parsing the weight value information is any efficient method such as a fixed length code (FLC), unary code, or truncated binary code, considering the weight value used. method may be used.
- FLC fixed length code
- unary code unary code
- truncated binary code considering the weight value used. method may be used.
- decoding-side motion vector correction and final prediction block generation may be performed using a template matching method.
- the template matching (TM) method can be applied instead of the bilateral matching (BM) method. Regardless of whether the temporal distance between the current picture and the L0 reference picture and the temporal distance between the current picture and the L1 reference picture are the same, the template matching method can be applied to the motion vector correction method on the decoding side.
- Figure 7 explains a decoding-side motion vector correction method based on the template matching method.
- the current picture 700 is a picture at time t
- the L0 reference picture 720 and L1 reference picture 740 are pictures at time t-M (t-M > 0) and time t+N (t+N > 0), respectively.
- M and N are different (M ⁇ N) arbitrary positive integer values. Therefore, as shown in Figure 7, the temporal distance between the L0 reference picture 720 and the current picture 700 and the temporal distance between the L1 reference picture 740 and the current picture 700 are not the same as M and N, respectively.
- the final motion vector MV0 is obtained by comparing the current template 704, L0 reference template 732, and L1 reference template 752 based on the template matching method.
- ' (728) and MV1' (748) may be determined.
- a final prediction block may be generated.
- the motion vector MV0 (722) in the L0 direction and the motion vector MV1 (742) in the L1 direction derived from the general merge mode are determined as the initial motion vectors.
- a motion vector that minimizes the degree of distortion of the current template 704, the L0 reference template 732, and the L1 reference template 752 can be searched based on the two initial motion vectors.
- the motion vectors with the least distortion can be determined as the final motion vectors MV0' (728) and MV1' (748).
- the MV diff_L1 can be calculated from MV diff_L0 by considering the ratio of the temporal distance between the current picture and the L0 reference picture and the temporal distance between the current picture and the L1 reference picture.
- MV diff_L1 can be calculated according to Equation 3 described above. Contrary to Equation 3, MV diff_L0 may be calculated based on the ratio of MV diff_L1 and the temporal distance between the current picture and the L0 reference picture and the temporal distance between the current picture and the L1 reference picture.
- a motion vector that minimizes inter-template distortion is searched for in two reference pictures centered on the initial motion vectors MV0 and MV1.
- the search is performed based on MV diff_L0 and MV diff_L1 , which represent the corrected motion vector of the initial motion vector.
- the MV diff_L0 and MV diff_L1 have opposite signs, and the ratio of the sizes of MV diff_L0 and MV diff_L1 can be determined according to the ratio of the temporal distance between the L0 reference picture and the current picture and the temporal distance between the L1 reference picture and the current picture. there is.
- the corrected motion vectors MV0' and MV1' are determined.
- the reference template (L0 reference template) of the block indicated by MV0' and the reference template (L1 reference template) of the block indicated by MV1' are used to create a final template.
- (final template) is created.
- the degree of distortion between the final generated template and the current template is determined.
- the degree of distortion is calculated for MV0' and MV1' candidates for a certain range of MV diff_L0 and MV diff_L1 , respectively.
- MV0' and MV1', which have the minimum distortion are determined as the final motion vectors.
- any distortion measurement method such as sum of absolute difference (SAD) or sum of squared error (SSE) can be used. Equation 5 and Equation 6 show how to calculate the final template from the L0 reference template and the L1 reference template.
- Template L0 , Template L1 , and Template final represent the L0 reference template, L1 reference template, and final template, respectively.
- the final template is calculated as the average of the templates of the two reference pictures, regardless of the ratio of the temporal distance between the L0 reference picture and the current picture and the temporal distance between the L1 reference picture and the current picture.
- the final template is calculated from the L0 reference template and the L1 reference template according to the ratio of the temporal distance between the L0 reference picture and the current picture and the temporal distance between the L1 reference picture and the current picture.
- the final template can be calculated using any of Equation 5 and Equation 6.
- the template matching-based decoding-side motion vector correction method can be applied to correction of the bidirectional motion vector predicted in general merge mode.
- the motion vectors MV0' (728) and MV1 (728) are obtained by correcting MV0 (722) by MV diff_L0 (726)
- a motion vector MV1' (748) is obtained by correcting 742) by MV diff_L1 (746).
- the L0 reference template 732 of the block indicated by the motion vector MV0' 728 in the L0 reference picture 720, and the L1 reference template 752 of the block indicated by the motion vector MV1' 748 in the L1 reference picture 740. ) is determined. If the distortion between the L0 reference template 732 and the current template 704 is defined as D L0 and the distortion between the L1 reference template 752 and the current template 704 is defined as D L1 , the final prediction block is calculated using Equation 7. It can be.
- the weight value (D L1 /(D L0 +D L1 )) of the prediction block P L0 in the L0 direction is calculated using the distortion D L1 between the L1 reference template and the current template.
- the weight value (D L0 /(D L0 +D L1 )) of the prediction block P L1 in the L1 direction is calculated using the distortion D L0 between the L0 reference template and the current template.
- the difference in these weight values is due to the fact that the smaller the distortion value, the greater the similarity between the current signal and the reference signal, and conversely, the larger the distortion value, the smaller the similarity between the current signal and the reference signal.
- the distortion of the current template and the reference template can be determined based on any distortion measurement method, such as sum of absolute difference (SAD) or sum of squared error (SSE).
- Embodiments of the decoding-side motion vector correction method described above can be combined within a range that does not conflict with each other.
- the distance ratio between two reference pictures and the current picture can be considered.
- the decoding-side motion vector correction method may be performed without considering the distance ratio between the two reference pictures and the current picture.
- a two-way matching method or a template matching method may be used.
- weight value may be determined by transmitting/parsing weight value information from the bitstream.
- the weight value may be determined based on the template matching-based distortion value.
- any of the various methods mentioned above may be used for motion vector correction, and any of the various methods mentioned above may be used to determine the weight value. That is, the motion vector correction method and the weight value determination method can be selected and used independently of each other.
- any combination of the decoding-side motion vector correction method for selecting a bidirectional prediction block in the decoder and the method for determining weight values to generate the final prediction block can be implemented.
- Figure 8 is a flowchart of a decoding-side motion vector correction method according to an embodiment.
- a first basic motion vector of the current block for a first reference picture and a second basic motion vector of the current block for a second reference picture are determined.
- the first reference picture and the second reference picture are located in different temporal directions from the current block.
- a first corrected motion vector is determined by correcting the first basic motion vector by a first differential motion vector
- a second corrected motion vector is determined by correcting the second basic motion vector by the second differential motion vector. is decided.
- the first correction motion vector and the second correction motion A vector can be determined. Or, regardless of the relationship between the distance between the current picture including the current block and the first reference picture and the distance between the current picture and the second reference picture, the first corrected motion vector and the second corrected motion vector are determined. You can.
- the ratio of the size of the first differential motion vector and the size of the second differential motion vector is the distance between the current picture and the first reference picture and the distance between the current picture and the second reference picture. It can be set to be proportional to the ratio.
- the sizes of the first differential motion vector and the second differential motion vector are limited to within a predetermined range.
- the first corrected motion vector and the second corrected motion vector may be determined.
- the first template of the first prediction block indicated by the first correction motion vector, the second template of the second prediction block indicated by the second correction motion vector, The first correction motion vector and the second correction motion vector may be determined so that distortion between the template and the current template of the current block is minimized.
- the distortion may be calculated based on the current template and a final template determined by weighting the first template and the second template.
- the first weight applied to the first template is proportional to the distance between the current picture and the second reference picture
- the first weight value applied to the first template is proportional to the distance between the current picture and the second reference picture.
- the second weight value applied to the template may be set to be proportional to the distance between the current picture and the first reference picture.
- a weighted average value of the first template and the second template may be determined based on the set first and second weight values.
- step 806 a first prediction block and a second prediction block of the current block are determined based on the first correction motion vector and the second correction motion vector.
- a final prediction block for the current block is determined based on the weighted sum of the first prediction block and the second prediction block.
- the weighted sum of the first prediction block and the second prediction block is a weight value determined according to the distance between the current picture and the first reference picture and the distance between the current picture and the second reference picture. It can be decided by .
- the first weight applied to the first prediction block is proportional to the distance between the current picture and the second reference picture
- the second weight applied to the second prediction block is proportional to the distance between the current picture and the second reference picture. and may be set to be proportional to the distance between the first reference picture and the first reference picture.
- the first weight applied to the first prediction block is proportional to the distortion of the second template and the current template
- the second weight applied to the second prediction block is proportional to the distortion of the second template and the current template. and may be determined to be proportional to the distortion of the current template.
- the weighted sum of the first prediction block and the second prediction block may be determined by a weight value determined based on the picture type of the current picture including the current block.
- the weighted sum of the first prediction block and the second prediction block may be determined by a weight value determined based on weight value information generated by parsing a bitstream.
- the current block may be restored based on the final prediction block of the current block restored according to the decoding-side motion vector correction method of FIG. 8.
- the current block may be encoded based on the final prediction block of the current block restored according to the decoding-side motion vector correction method of FIG. 8.
- a computer-readable recording medium storing a bitstream generated by a video encoding method applied to the decoding-side motion vector correction method of FIG. 8 may be provided.
- the bitstream generated by the video encoding method applied to the decoding-side motion vector correction method of FIG. 8 can be stored in a computer-recordable recording medium. Additionally, the bitstream generated by the video encoding method applied to the decoding-side motion vector correction method of FIG. 8 can be transmitted from the video encoding device to the video decoding device.
- a bitstream of video data stored in a computer-recordable recording medium can be decoded by a video decoding method applied to the decoding-side motion vector correction method of FIG. 8. Additionally, the bitstream transmitted from the video encoding device to the video decoding device can be decoded by the video decoding method applied to the decoding-side motion vector correction method of FIG. 8.
- Figure 9 is a diagram illustrating a content streaming system to which an embodiment according to the present invention can be applied.
- a content streaming system to which an embodiment of the present invention is applied may largely include an encoding server, a streaming server, a web server, a media storage, a user device, and a multimedia input device.
- the encoding server compresses content input from multimedia input devices such as smartphones, cameras, CCTV, etc. into digital data, generates a bitstream, and transmits it to the streaming server.
- multimedia input devices such as smartphones, cameras, CCTV, etc. directly generate bitstreams
- the encoding server may be omitted.
- the bitstream may be generated by an image encoding method and/or an image encoding device to which an embodiment of the present invention is applied, and the streaming server may temporarily store the bitstream in the process of transmitting or receiving the bitstream.
- the streaming server transmits multimedia data to the user device based on a user request through a web server, and the web server can serve as a medium to inform the user of what services are available.
- the web server delivers it to a streaming server, and the streaming server can transmit multimedia data to the user.
- the content streaming system may include a separate control server, and in this case, the control server may control commands/responses between each device in the content streaming system.
- the streaming server may receive content from a media repository and/or encoding server. For example, when receiving content from the encoding server, the content can be received in real time. In this case, in order to provide a smooth streaming service, the streaming server may store the bitstream for a certain period of time.
- Examples of the user devices include mobile phones, smart phones, laptop computers, digital broadcasting terminals, personal digital assistants (PDAs), portable multimedia players (PMPs), navigation, slate PCs, Tablet PC, ultrabook, wearable device (e.g. smartwatch, smart glass, head mounted display), digital TV, desktop There may be computers, digital signage, etc.
- PDAs personal digital assistants
- PMPs portable multimedia players
- navigation slate PCs
- Tablet PC ultrabook
- wearable device e.g. smartwatch, smart glass, head mounted display
- digital TV desktop There may be computers, digital signage, etc.
- Each server in the content streaming system may be operated as a distributed server, and in this case, data received from each server may be distributedly processed.
- an image can be encoded/decoded using at least one or a combination of at least one of the above embodiments.
- the order in which the above embodiments are applied may be different in the encoding device and the decoding device. Alternatively, the order in which the above embodiments are applied may be the same in the encoding device and the decoding device.
- the above embodiments can be performed for each luminance and chrominance signal.
- the above embodiments for luminance and chrominance signals can be performed in the same way.
- the above embodiments may be implemented in the form of program instructions that can be executed through various computer components and recorded on a computer-readable recording medium.
- the computer-readable recording medium may include program instructions, data files, data structures, etc., singly or in combination.
- Program instructions recorded on the computer-readable recording medium may be specially designed and configured for the present invention, or may be known and usable by those skilled in the computer software field.
- the bitstream generated by the encoding method according to the above embodiment may be stored in a non-transitory computer-readable recording medium. Additionally, the bitstream stored in the non-transitory computer-readable recording medium can be decoded using the decoding method according to the above embodiment.
- examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical recording media such as CD-ROMs and DVDs, and magneto-optical media such as floptical disks. -optical media), and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, etc.
- Examples of program instructions include not only machine language code such as that created by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.
- the hardware device may be configured to operate as one or more software modules to perform processing according to the invention and vice versa.
- the present invention can be used in devices that encode/decode images and recording media that store bitstreams.
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
본 발명에서, 제1 참조 픽처에 대한 현재 블록의 제1 기초 움직임 벡터 및 제2 참조 픽처에 대한 상기 현재 블록의 제2 기초 움직임 벡터를 결정하는 단계, 제1 기초 움직임 벡터를 제1 차분 움직임 벡터만큼 보정함으로써, 제1 보정 움직임 벡터를 결정하고, 제2 기초 움직임 벡터를 제2 차분 움직임 벡터만큼 보정함으로써, 제2 보정 움직임 벡터를 결정하는 단계, 제1 보정 움직임 벡터 및 제2 보정 움직임 벡터에 기초하여, 현재 블록의 제1 예측 블록 및 제2 예측 블록을 결정하는 단계 및 제1 예측 블록 및 제2 예측 블록의 가중합에 기초하여, 현재 블록에 대한 최종 예측 블록을 결정하는 단계를 포함하는 비디오 복호화 방법이 제공된다.
Description
본 발명은 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체에 관한 것이다. 구체적으로, 본 발명은 복호화측 움직임 벡터 보정 방법(Decoder side motion vector refinement, DMVR)을 이용한 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체에 관한 것이다.
최근 UHD(Ultra High Definition) 영상과 같은 고해상도, 고품질의 영상에 대한 수요가 다양한 응용 분야에서 증가하고 있다. 영상 데이터가 고해상도, 고품질이 될수록 기존의 영상 데이터에 비해 상대적으로 데이터량이 증가하기 때문에 기존의 유무선 광대역 회선과 같은 매체를 이용하여 영상 데이터를 전송하거나 기존의 저장 매체를 이용해 저장하는 경우, 전송 비용과 저장 비용이 증가하게 된다. 영상 데이터가 고해상도, 고품질화 됨에 따라 발생하는 이러한 문제들을 해결하기 위해서는 더 높은 해상도 및 화질을 갖는 영상에 대한 고효율 영상 부호화(encoding)/복호화(decoding) 기술이 요구된다.
화면 간 예측 모드 중 머지 모드 (Merge mode)에서, 현재 블록의 주변 블록으로부터 움직임 벡터, 참조 픽처 정보 등의 움직임 정보가 현재 블록의 예측에 사용될 수 있다. 만약 머지 모드에서, 두 개의 참조 픽처를 참조하는 양방향 화면 간 예측이 적용될 경우, 복호화측 움직임 벡터 보정(Decoder side motion vector refinement, DMVR)이 적용될 수 있다. 복호화측 움직임 벡터 보정을 통해, 머지 모드에서도 주변 블록으로부터 획득된 움직임 벡터가 보정됨으로써, 현재 블록의 예측 정확도가 향상될 수 있다.
본 발명은 부호화/복호화 효율이 향상된 영상 부호화/복호화 방법 및 장치를 제공하는 것을 목적으로 한다.
또한, 본 발명은 본 발명에서 제공된 영상 복호화 방법 또는 장치에 의해 생성된 비트스트림을 저장한 기록 매체를 제공하는 것을 목적으로 한다.
본 발명의 일 실시예에 따른 영상 복호화 방법은, 제1 참조 픽처에 대한 현재 블록의 제1 기초 움직임 벡터 및 제2 참조 픽처에 대한 상기 현재 블록의 제2 기초 움직임 벡터를 결정하는 단계, 제1 참조 픽처에 대한 상기 현재 블록의 제1 기초 움직임 벡터 및 상기 제2 참조 픽처에 대한 상기 현재 블록의 제2 기초 움직임 벡터를 결정하는 단계, 상기 제1 기초 움직임 벡터를 제1 차분 움직임 벡터만큼 보정함으로써, 제1 보정 움직임 벡터를 결정하고, 상기 제2 기초 움직임 벡터를 제2 차분 움직임 벡터만큼 보정함으로써, 제2 보정 움직임 벡터를 결정하는 단계, 상기 제1 보정 움직임 벡터 및 상기 제2 보정 움직임 벡터에 기초하여, 상기 현재 블록의 제1 예측 블록 및 제2 예측 블록을 결정하는 단계, 및 상기 제1 예측 블록 및 상기 제2 예측 블록의 가중합에 기초하여, 상기 현재 블록에 대한 최종 예측 블록을 결정하는 단계를 포함한다.
일 실시 예에 따르면, 상기 제1 보정 움직임 벡터 및 상기 제2 보정 움직임 벡터를 결정하는 단계에 있어서, 상기 현재 블록이 포함된 현재 픽처와 상기 제1 참조 픽처의 거리와 상기 현재 픽처와 상기 제2 참조 픽처의 거리가 다른 경우, 상기 제1 보정 움직임 벡터 및 상기 제2 보정 움직임 벡터가 결정될 수 있다.
일 실시 예에 따르면, 상기 제1 예측 블록 및 상기 제2 예측 블록의 가중합은, 상기 현재 픽처와 상기 제1 참조 픽처의 거리와 상기 현재 픽처와 상기 제2 참조 픽처의 거리에 따라 결정된 가중 값에 의하여 결정될 수 있다.
일 실시 예에 따르면, 상기 제1 예측 블록에 적용되는 제1 가중 값은 상기 현재 픽처와 상기 제2 참조 픽처의 거리에 비례하고, 상기 제2 예측 블록에 적용되는 제2 가중 값은 상기 현재 픽처와 상기 제1 참조 픽처의 거리에 비례할 수 있다.
일 실시 예에 따르면, 상기 제1 보정 움직임 벡터 및 상기 제2 보정 움직임 벡터를 결정하는 단계에 있어서, 상기 제1 차분 움직임 벡터의 크기와 상기 제2 차분 움직임 벡터의 크기의 비는 상기 현재 픽처와 상기 제1 참조 픽처의 거리와 상기 현재 픽처와 상기 제2 참조 픽처의 거리의 비에 비례할 수 있다.
일 실시 예에 따르면, 상기 제1 차분 움직임 벡터 및 상기 제2 차분 움직임 벡터의 크기는 소정의 범위 내로 한정될 수 있다.
일 실시 예에 따르면, 상기 제1 보정 움직임 벡터가 가리키는 상기 제1 예측 블록과 상기 제2 보정 움직임 벡터가 가리키는 상기 제2 예측 블록 간의 왜곡이 최소가 되도록, 상기 제1 보정 움직임 벡터 및 상기 제2 보정 움직임 벡터가 결정될 수 있다.
일 실시 예에 따르면, 상기 제1 보정 움직임 벡터가 가리키는 상기 제1 예측 블록의 제1 템플릿, 상기 제2 보정 움직임 벡터가 가리키는 상기 제2 예측 블록의 제2 템플릿, 및 상기 현재 블록의 현재 템플릿 간의 왜곡이 최소가 되도록, 상기 제1 보정 움직임 벡터 및 상기 제2 보정 움직임 벡터가 결정될 수 있다.
일 실시 예에 따르면, 상기 왜곡은, 상기 제1 템플릿과 상기 제2 템플릿을 가중 평균함으로써 결정된 최종 템플릿과 상기 현재 템플릿에 기초하여 계산될 수 있다.
일 실시 예에 따르면, 상기 제1 템플릿과 상기 제2 템플릿을 가중 평균함에 있어서, 상기 제1 템플릿에 적용되는 제1 가중 값은 상기 현재 픽처와 상기 제2 참조 픽처의 거리에 비례하고, 상기 제2 템플릿에 적용되는 제2 가중 값은 상기 현재 픽처와 상기 제1 참조 픽처의 거리에 비례할 수 있다.
일 실시 예에 따르면, 상기 제1 예측 블록에 적용되는 제1 가중 값은 상기 제2 템플릿과 상기 현재 템플릿의 왜곡에 비례하고, 상기 제2 예측 블록에 적용되는 제2 가중 값은 상기 제1 템플릿과 상기 현재 템플릿의 왜곡에 비례할 수 있다.
일 실시 예에 따르면, 상기 제1 예측 블록 및 상기 제2 예측 블록의 가중합은, 상기 현재 블록이 포함된 현재 픽처의 픽처 타입에 기초하여 결정된 가중 값에 의하여 결정될 수 있다.
일 실시 예에 따르면, 상기 제1 예측 블록 및 상기 제2 예측 블록의 가중합은, 비트스트림을 파싱함으로써 생성된 가중 값 정보에 기초하여 결정된 가중 값에 의하여 결정될 수 있다.
본 발명의 일 실시예에 따른 영상 부호화 방법은, 제1 참조 픽처에 대한 현재 블록의 제1 기초 움직임 벡터 및 제2 참조 픽처에 대한 상기 현재 블록의 제2 기초 움직임 벡터를 결정하는 단계, 상기 제1 기초 움직임 벡터를 제1 차분 움직임 벡터만큼 보정함으로써, 제1 보정 움직임 벡터를 결정하고, 상기 제2 기초 움직임 벡터를 제2 차분 움직임 벡터만큼 보정함으로써, 제2 보정 움직임 벡터를 결정하는 단계, 상기 제1 보정 움직임 벡터 및 상기 제2 보정 움직임 벡터에 기초하여, 상기 현재 블록의 제1 예측 블록 및 제2 예측 블록을 결정하는 단계, 및 상기 제1 예측 블록 및 상기 제2 예측 블록의 가중합에 기초하여, 상기 현재 블록에 대한 최종 예측 블록을 결정하는 단계를 포함한다.
본 발명의 일 실시예에 따른 비 일시적 컴퓨터 판독가능한 기록 매체는, 상기 비디오 부호화 방법에 의하여 생성된 비트스트림을 저장한다.
본 발명의 일 실시예에 따른 전송 방법은, 상기 비디오 부호화 방법에 의하여 생성된 비트스트림을 전송한다.
본 발명에 대하여 위에서 간략하게 요약된 특징들은 후술하는 본 발명의 상세한 설명의 예시적인 양상일 뿐이며, 본 발명의 범위를 제한하는 것은 아니다.
본 발명은 복호화측 움직임 벡터 보정 방법(Decoder side motion vector refinement, DMVR)을 개선하는 방법을 제안한다.
본 발명에서, 복호화측 움직임 벡터 보정 방법의 적용 조건을 변경하여 복호화측 움직임 벡터 보정 방법의 적용 빈도를 높일 수 있다.
또한 복호화측 움직임 벡터 보정 방법에 있어서, 양방향 움직임 벡터에 동일한 가중 값을 적용하는 대신 서로 다른 가중 값을 적용하는 방법이 제안된다.
또한 복호화측 움직임 벡터 보정 방법에 있어서, 쌍방 일치 대신 템플릿 매칭 방법을 기반으로 움직임 벡터를 보정하는 방법이 제안된다.
제안하는 방법을 사용하여 복호화측 움직임 벡터 보정 방법의 정확도를 높이고 최종 예측 블록의 정확도를 높여 부호화 효율이 향상될 수 있다.
도 1은 본 발명이 적용되는 부호화 장치의 일 실시예에 따른 구성을 나타내는 블록도이다.
도 2는 본 발명이 적용되는 복호화 장치의 일 실시예에 따른 구성을 나타내는 블록도이다.
도 3은 본 발명이 적용될 수 있는 비디오 코딩 시스템을 개략적으로 나타내는 도면이다.
도 4는 화면 간 예측 모드에 있어서, 다양한 화면 간 예측 방법 중 하나를 결정하는 방법의 일 실시 예를 도시한다.
도 5는 현재 픽처와 L0 참조 픽처의 시간적 거리와 현재 픽처와 L1 참조 픽처의 시간적 거리가 동일한 경우, 복호화측 움직임 벡터 보정의 일 실시 예를 나타낸다.
도 6은 현재 픽처와 L0 참조 픽처의 시간적 거리와 현재 픽처와 L1 참조 픽처의 시간적 거리가 동일하지 않은 경우, 복호화측 움직임 벡터 보정을 도시한다.
도 7은 템플릿 매칭 방법 기반의 복호화측 움직임 벡터 보정을 설명한다.
도 8는 일 실시 예에 따른 복호화측 움직임 벡터 보정 방법의 순서도이다.
도 9는 본 발명에 따른 실시예가 적용될 수 있는 컨텐츠 스트리밍 시스템을 예시적으로 나타낸다.
본 발명의 일 실시예에 따른 영상 복호화 방법은, 제1 참조 픽처에 대한 현재 블록의 제1 기초 움직임 벡터 및 제2 참조 픽처에 대한 상기 현재 블록의 제2 기초 움직임 벡터를 결정하는 단계, 제1 참조 픽처에 대한 상기 현재 블록의 제1 기초 움직임 벡터 및 상기 제2 참조 픽처에 대한 상기 현재 블록의 제2 기초 움직임 벡터를 결정하는 단계, 상기 제1 기초 움직임 벡터를 제1 차분 움직임 벡터만큼 보정함으로써, 제1 보정 움직임 벡터를 결정하고, 상기 제2 기초 움직임 벡터를 제2 차분 움직임 벡터만큼 보정함으로써, 제2 보정 움직임 벡터를 결정하는 단계, 상기 제1 보정 움직임 벡터 및 상기 제2 보정 움직임 벡터에 기초하여, 상기 현재 블록의 제1 예측 블록 및 제2 예측 블록을 결정하는 단계, 및 상기 제1 예측 블록 및 상기 제2 예측 블록의 가중합에 기초하여, 상기 현재 블록에 대한 최종 예측 블록을 결정하는 단계를 포함한다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다. 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 예시적으로 제공될 수 있다. 후술하는 예시적 실시예들에 대한 상세한 설명은, 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 실시예를 실시할 수 있기에 충분하도록 상세히 설명된다. 다양한 실시예들은 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 실시예의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 예시적 실시예들의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다.
본 발명에서 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
본 발명의 실시예에 나타나는 구성부들은 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성부들이 분리된 하드웨어나 하나의 소프트웨어 구성단위로 이루어짐을 의미하지 않는다. 즉, 각 구성부는 설명의 편의상 각각의 구성부로 나열하여 포함한 것으로 각 구성부 중 적어도 두 개의 구성부가 합쳐져 하나의 구성부로 이루어지거나, 하나의 구성부가 복수 개의 구성부로 나뉘어져 기능을 수행할 수 있고 이러한 각 구성부의 통합된 실시예 및 분리된 실시예도 본 발명의 본질에서 벗어나지 않는 한 본 발명의 권리범위에 포함된다.
본 발명에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 본 발명의 일부의 구성 요소는 본 발명에서 본질적인 기능을 수행하는 필수적인 구성 요소는 아니고 단지 성능을 향상시키기 위한 선택적 구성 요소일 수 있다. 본 발명은 단지 성능 향상을 위해 사용되는 구성 요소를 제외한 본 발명의 본질을 구현하는데 필수적인 구성부만을 포함하여 구현될 수 있고, 단지 성능 향상을 위해 사용되는 선택적 구성 요소를 제외한 필수 구성 요소만을 포함한 구조도 본 발명의 권리범위에 포함된다.
실시예에서 용어 "적어도 하나(at least one)"는 1, 2, 3 및 4와 같은 1 이상의 개수들 중 하나를 의미할 수 있다. 실시예에서 용어 "복수(a plurality of)"는 2, 3 및 4와 같은 2 이상의 개수들 중 하나를 의미할 수 있다.
이하, 도면을 참조하여 본 발명의 실시 형태에 대하여 구체적으로 설명한다. 본 명세서의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 명세서의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략하고, 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
용어 설명
이하에서, “영상”은 동영상(video)을 구성하는 하나의 픽처(picture)를 의미할 수 있으며, 동영상 자체를 나타낼 수도 있다. 예를 들면, "영상의 부호화 및/또는 복호화"는 "동영상의 부호화 및/또는 복호화"를 의미할 수 있으며, "동영상을 구성하는 영상들 중 하나의 영상의 부호화 및/또는 복호화"를 의미할 수도 있다.
이하에서, "동영상" 및 "비디오"는 동일한 의미로 사용될 수 있으며, 서로 교체되어 사용될 수 있다. 또한, 대상 영상은 부호화의 대상인 부호화 대상 영상 및/또는 복호화의 대상인 복호화 대상 영상일 수 있다. 또한, 대상 영상은 부호화 장치로 입력된 입력 영상일 수 있고, 복호화 장치로 입력된 입력 영상일 수 있다. 여기서, 대상 영상은 현재 영상과 동일한 의미를 가질 수 있다.
이하에서, "영상(image)", "픽처(picture)", "프레임(frame)" 및 "스크린(screen)"은 동일한 의미로 사용될 수 있으며, 서로 교체되어 사용될 수 있다.
이하에서, “대상 블록”은 부호화의 대상인 부호화 대상 블록 및/또는 복호화의 대상인 복호화 대상 블록일 수 있다. 또한, 대상 블록은 현재 부호화 및/또는 복호화의 대상인 현재 블록일 수 있다. 예를 들면, "대상 블록" 및 "현재 블록"은 동일한 의미로 사용될 수 있으며, 서로 교체되어 사용될 수 있다.
이하에서, "블록" 및 "유닛"은 동일한 의미로 사용될 수 있으며, 서로 교체되어 사용될 수 있다. 또한, “유닛”은 블록과 구분하여 지칭하기 위해 휘도(Luma) 성분 블록과 그에 대응하는 색차(Chroma) 성분 블록을 포함한 것을 의미할 수 있다. 일 예로, 부호화 트리 유닛(Coding Tree Unit, CTU)은 하나의 휘도 성분(Y) 부호화 트리 블록(Coding Tree Block, CTB)과 관련된 두 색차 성분(Cb, Cr) 부호화 트리 블록들로 구성될 수 있다.
이하에서, “샘플”, “화소” 및 “픽셀”은 동일한 의미로 사용될 수 있으며, 서로 교체되어 사용될 수 있다. 여기서, 샘플은 블록을 구성하는 기본 단위를 나타낼 수 있다.
이하에서, “인터” 및 “화면 간”은 동일한 의미로 사용될 수 있으며, 서로 교체되어 사용될 수 있다.
이하에서, “인트라” 및 “화면 내”는 동일한 의미로 사용될 수 있으며, 서로 교체되어 사용될 수 있다.
도 1은 본 발명이 적용되는 부호화 장치의 일 실시예에 따른 구성을 나타내는 블록도이다.
부호화 장치(100)는 인코더, 비디오 부호화 장치 또는 영상 부호화 장치일 수 있다. 비디오는 하나 이상의 영상들을 포함할 수 있다. 부호화 장치(100)는 하나 이상의 영상들을 순차적으로 부호화할 수 있다.
도 1을 참조하면, 부호화 장치(100)는 영상 분할부(110), 인트라 예측부(120), 움직임 예측부(121), 움직임 보상부(122), 스위치(115), 감산기(113), 변환부(130), 양자화부(140), 엔트로피 부호화부(150), 역양자화부(160), 역변환부(170), 가산기(117), 필터부(180) 및 참조 픽처 버퍼(190)를 포함할 수 있다.
또한, 부호화 장치(100)는 입력 영상에 대한 부호화를 통해 부호화된 정보를 포함하는 비트스트림을 생성할 수 있고, 생성된 비트스트림을 출력할 수 있다. 생성된 비트스트림은 컴퓨터 판독가능한 기록 매체에 저장될 수 있거나, 유/무선 전송 매체를 통해 스트리밍될 수 있다.
영상 분할부(110)는 동영상 부호화/복호화의 효율을 높이기 위해, 입력 영상을 다양한 형태로 분할할 수 있다. 즉, 입력 동영상은 다수의 픽처로 구성되어 있고 하나의 픽처는 압축 효율, 병렬처리 등을 위하여 계층적으로 분할되어 처리될 수 있다. 예를 들어, 하나의 픽처를 하나 또는 다수개의 타일(tile) 또는 슬라이스(slice)로 분할하고 다시 다수개의 CTU (Coding Tree Unit)로 분할할 수 있다. 또 다른 방식으로, 먼저 하나의 픽처를 직사각형 모양의 슬라이스의 그룹으로 정의되는 다수개의 서브픽처(sub-picture)로 분할하고, 각 서브픽처를 상기 타일/슬라이스로 분할할 수도 있다. 여기서, 서브픽처는 픽처를 부분적으로 독립 부호화/복호화 및 전송하는 기능을 지원하기 위하여 활용될 수 있다. 여러 개의 서브픽처는 각각 개별적으로 복원 가능하기에 멀티 채널 입력을 하나의 픽처로 구성하는 응용에 있어서 편집이 용이하다는 장점을 가지게 된다. 또한, 타일을 횡방향으로 분할하여 브릭(brick)을 생성할 수도 있다. 여기서, 브릭(brick)은 픽처내 병렬처리의 기본 단위로 활용할 수 있다. 또한, 하나의 CTU는 쿼드 트리(QT: Quadtree)로 재귀적으로 분할될 수 있고, 분할의 말단 노드를 CU (Coding Unit)라고 정의할 수 있다. CU는 예측 단위인 PU(Prediction Unit)와 변환 단위인 TU (Transform Unit)로 분할되어 예측과 분할이 수행될 수 있다. 한편, CU는 예측 단위 및/또는 변환 단위 그 자체로 활용할 수 있다. 여기서, 유연한 분할을 위하여 각 CTU는 쿼드 트리(QT) 뿐만 아니라 멀티타입 트리(MTT: Multi-Type Tree)로 재귀적으로 분할될 수도 있다. CTU는 QT의 말단 노드에서 멀티타입 트리로 분할이 시작될 수 있으며 MTT는 BT(Binary Tree)와 TT(Triple Tree)로 구성될 수 있다. 예를 들어, MTT구조에는 수직 이진 분할모드(SPLIT_BT_VER), 수평 이진 분할모드(SPLIT_BT_HOR), 수직 삼항 분할모드(SPLIT_TT_VER), 수평 삼항 분할모드(SPLIT_TT_HOR)로 구분될 수 있다. 또한, 분할 시 휘도 블록의 쿼드 트리의 최소 블록 크기(MinQTSize)는 16x16이고 바이너리 트리의 최대블록 크기(MaxBtSize)는 128x128, 트리플 트리의 최대 블록 크기(MaxTtSize)는 64x64로 설정할 수 있다. 또한, 바이너리 트리의 최소 블록 크기(MinBtSize)와 트리플 트리의 최소 블록 크기(MinTtSize)는 4x4, 멀티 타입 트리의 최대 깊이(MaxMttDepth)는 4로 지정할 수 있다. 또한 I 슬라이스의 부호화 효율을 높이기 위하여 휘도와 색차 성분의 CTU 분할 구조를 서로 다르게 사용하는 듀얼 트리(dual tree)를 적용할 수도 있다. 반면 P와 B슬라이스에서는 CTU 내의 휘도와 색차 CTB (Coding Tree Block)들이 코딩 트리 구조를 공유하는 싱글 트리(single tree)로 분할할 수 있다.
부호화 장치(100)는 입력 영상에 대해 인트라 모드 및/또는 인터 모드로 부호화를 수행할 수 있다. 또는, 부호화 장치(100)는 입력 영상에 대해 상기 인트라 모드 및 인터 모드가 아닌 제3의 모드 (예, IBC 모드, Palette 모드 등)로 부호화를 수행할 수도 있다. 단, 상기 제3의 모드가 인트라 모드 또는 인터 모드와 유사한 기능적 특징을 가지는 경우, 설명의 편의를 위해 인트라 모드 또는 인터 모드로 분류하기도 한다. 본 발명에서는 상기 제3의 모드에 대한 구체적인 설명이 필요한 경우에만 이를 별도로 분류하여 기술할 것이다.
예측 모드로 인트라 모드가 사용되는 경우 스위치(115)는 인트라로 전환될 수 있고, 예측 모드로 인터 모드가 사용되는 경우 스위치(115)는 인터로 전환될 수 있다. 여기서 인트라 모드는 화면 내 예측 모드를 의미할 수 있으며, 인터 모드는 화면 간 예측 모드를 의미할 수 있다. 부호화 장치(100)는 입력 영상의 입력 블록에 대한 예측 블록을 생성할 수 있다. 또한, 부호화 장치(100)는 예측 블록이 생성된 후, 입력 블록 및 예측 블록의 차분(residual)을 사용하여 잔여 블록을 부호화할 수 있다. 입력 영상은 현재 부호화의 대상인 현재 영상으로 칭해질 수 있다. 입력 블록은 현재 부호화의 대상인 현재 블록 혹은 부호화 대상 블록으로 칭해질 수 있다.
예측 모드가 인트라 모드인 경우, 인트라 예측부(120)는 현재 블록의 주변에 이미 부호화/복호화된 블록의 샘플을 참조 샘플로서 이용할 수 있다. 인트라 예측부(120)는 참조 샘플을 이용하여 현재 블록에 대한 공간적 예측을 수행할 수 있고, 공간적 예측을 통해 입력 블록에 대한 예측 샘플들을 생성할 수 있다. 여기서 인트라 예측은 화면 내 예측을 의미할 수 있다.
인트라 예측 방식으로, DC 모드, Planar 모드와 같은 무방향성 예측 모드와 방향성 예측 모드 (예, 65개 방향)가 적용될 수 있다. 여기서, 인트라 예측 방식은 인트라 예측 모드 또는 화면 내 예측 모드로 표현될 수 있다.
예측 모드가 인터 모드인 경우, 움직임 예측부(121)는, 움직임 예측 과정에서 참조 영상으로부터 입력 블록과 가장 매치가 잘 되는 영역을 검색할 수 있고, 검색된 영역을 이용하여 움직임 벡터를 도출할 수 있다. 이때, 상기 영역으로 탐색 영역을 사용할 수 있다. 참조 영상은 참조 픽처 버퍼(190)에 저장될 수 있다. 여기서, 참조 영상에 대한 부호화/복호화가 처리되었을 때 참조 픽처 버퍼(190)에 저장될 수 있다.
움직임 보상부(122)는 움직임 벡터를 이용하는 움직임 보상을 수행함으로써 현재 블록에 대한 예측 블록을 생성할 수 있다. 여기서 인터 예측은 화면 간 예측 혹은 움직임 보상을 의미할 수 있다.
상기 움직임 예측부(121)과 움직임 보상부(122)는 움직임 벡터의 값이 정수 값을 가지지 않을 경우에 참조 영상 내의 일부 영역에 대해 보간 필터(Interpolation Filter)를 적용하여 예측 블록을 생성할 수 있다. 화면 간 예측 혹은 움직임 보상을 수행하기 위해 부호화 유닛을 기준으로 해당 부호화 유닛에 포함된 예측 유닛의 움직임 예측 및 움직임 보상 방법이 스킵 모드(Skip Mode), 머지 모드(Merge Mode), 향상된 움직임 벡터 예측(Advanced Motion Vector Prediction; AMVP) 모드, 인트라 블록 카피(Intra Block Copy; IBC) 모드 중 어떠한 방법인지 여부를 판단할 수 있고, 각 모드에 따라 화면 간 예측 혹은 움직임 보상을 수행할 수 있다.
또한, 상기 화면 간 예측 방법을 기초로, sub-PU 기반 예측의 AFFINE 모드, SbTMVP (Subblock-based Temporal Motion Vector Prediction) 모드, 및 PU 기반 예측의 MMVD(Merge with MVD) 모드, GPM(Geometric Partitioning Mode) 모드를 적용할 수도 있다. 또한, 각 모드의 성능 향상을 위하여 HMVP(History based MVP), PAMVP(Pairwise Average MVP), CIIP(Combined Intra/Inter Prediction), AMVR(Adaptive Motion Vector Resolution), BDOF(Bi-Directional Optical-Flow), BCW(Bi-predictive with CU Weights), LIC (Local Illumination Compensation), TM(Template Matching), OBMC(Overlapped Block Motion Compensation) 등을 적용할 수도 있다.
감산기(113)는 입력 블록 및 예측 블록의 차분을 사용하여 잔여 블록을 생성할 수 있다. 잔여 블록은 잔여 신호로 칭해질 수도 있다. 잔여 신호는 원 신호 및 예측 신호 간의 차이(difference)를 의미할 수 있다. 또는, 잔여 신호는 원신호 및 예측 신호 간의 차이를 변환(transform)하거나, 양자화하거나, 또는 변환 및 양자화함으로써 생성된 신호일 수 있다. 잔여 블록은 블록 단위의 잔여 신호일 수 있다.
변환부(130)는 잔여 블록에 대해 변환(transform)을 수행하여 변환 계수(transform coefficient)를 생성할 수 있고, 생성된 변환 계수를 출력할 수 있다. 여기서, 변환 계수는 잔여 블록에 대한 변환을 수행함으로써 생성된 계수 값일 수 있다. 변환 생략(transform skip) 모드가 적용되는 경우, 변환부(130)는 잔여 블록에 대한 변환을 생략할 수도 있다.
변환 계수 또는 잔여 신호에 양자화를 적용함으로써 양자화된 레벨(quantized level)이 생성될 수 있다. 이하, 실시예들에서는 양자화된 레벨도 변환 계수로 칭해질 수 있다.
일 예로, 화면내 예측을 통해 생성된 4x4 휘도 잔차 블록은 DST(Discrete Sine Transform) 기반 기저 벡터를 통해 변환하며, 나머지 잔차 블록에 대해서는 DCT(Discrete Cosine Transform) 기반의 기저 벡터를 사용하여 변환을 수행할 수 있다. 또한 RQT(Residual Quad Tree) 기술을 통하여 하나의 블록에 대하여 변환 블록을 쿼드 트리 형태로 분할하며 RQT를 통해 분할된 각 변환 블록에 대하여 변환과 양자화를 수행하고 난 후 모든 계수가 0이 되는 경우의 부호화 효율을 높이기 위해 cbf(coded block flag)를 전송할 수 있다.
또 다른 대안으로는, 여러 변환 기저를 선택적으로 사용하여 변환을 수행하는 MTS(Multiple Transform Selection) 기술을 적용할 수도 있다. 즉, CU를 RQT를 통해 TU로 분할하지 않고, SBT(Sub-block Transform) 기술을 통해 TU분할과 유사한 기능을 수행할 수 있다. 구체적으로, SBT는 화면 간 예측 블록에만 적용되며 RQT와 달리 현재 블록을 수직 혹은 수평 방향으로 ½ 혹은 ¼ 크기로 분할한 뒤 그 중 하나의 블록에 대해서만 변환을 수행할 수 있다. 예를 들어, 수직으로 분할된 경우 맨 왼쪽 혹은 맨 오른쪽 블록에 대해 변환을 수행하고, 수평으로 분할된 경우 맨 위쪽 혹은 맨 아래쪽 블록에 대하여 변환을 수행할 수 있다.
또한 DCT 또는 DST를 통해 주파수 영역으로 변환된 잔차 신호를 추가 변환하는 2차 변환 (secondary transform) 기술인 LFNST(Low Frequency Non-Separable Transform)를 적용할 수도 있다. LFNST는 좌측 상단의 4x4 또는 8x8의 저주파수 영역에 대해서 변환을 추가적으로 수행하여 잔차 계수를 좌측 상단으로 집중시킬 수 있게 된다.
양자화부(140)는 변환 계수 또는 잔여 신호를 양자화 매개변수 (QP, Quantization parameter)에 따라 양자화함으로써 양자화된 레벨을 생성할 수 있고, 생성된 양자화된 레벨을 출력할 수 있다. 이때, 양자화부(140)에서는 양자화 행렬을 사용하여 변환 계수를 양자화할 수 있다.
일 예로, 0~51 QP 값을 사용하는 양자화기를 사용할 수 있다. 또는, 영상의 크기가 보다 크고 높은 부호화 효율이 요구되는 경우에는, 0~63 QP를 사용할 수도 있다. 또한 하나의 양자화기를 사용하는 것이 아닌 두 개의 양자화기를 사용하는 DQ(Dependent Quantization) 방법을 적용할 수도 있다. DQ는 두개의 양자화기(예, Q0, Q1)를 사용하여 양자화를 수행하되, 특정 양자화기 사용에 대한 정보를 시그널링 하지 않더라도, 상태 전이 모델을 통해 현재 상태에 기반하여 다음 변환 계수에 사용할 양자화기가 선택되도록 적용할 수 있다.
엔트로피 부호화부(150)는, 양자화부(140)에서 산출된 값들 또는 부호화 과정에서 산출된 부호화 파라미터(Coding Parameter) 값들 등에 대하여 확률 분포에 따른 엔트로피 부호화를 수행함으로써 비트스트림(bitstream)을 생성할 수 있고, 비트스트림을 출력할 수 있다. 엔트로피 부호화부(150)는 영상의 샘플에 관한 정보 및 영상의 복호화를 위한 정보에 대한 엔트로피 부호화를 수행할 수 있다. 예를 들면, 영상의 복호화를 위한 정보는 구문 요소(syntax element) 등을 포함할 수 있다.
엔트로피 부호화가 적용되는 경우, 높은 발생 확률을 갖는 심볼(symbol)에 적은 수의 비트가 할당되고 낮은 발생 확률을 갖는 심볼에 많은 수의 비트가 할당되어 심볼이 표현됨으로써, 부호화 대상 심볼들에 대한 비트열의 크기가 감소될 수 있다. 엔트로피 부호화부(150)는 엔트로피 부호화를 위해 지수 골롬(exponential Golomb), CAVLC(Context-Adaptive Variable Length Coding), CABAC(Context-Adaptive Binary Arithmetic Coding)과 같은 부호화 방법을 사용할 수 있다. 예를 들면, 엔트로피 부호화부(150)는 가변 길이 부호화(Variable Length Coding/Code; VLC) 테이블을 이용하여 엔트로피 부호화를 수행할 수 있다. 또한 엔트로피 부호화부(150)는 대상 심볼의 이진화(binarization) 방법 및 대상 심볼/빈(bin)의 확률 모델(probability model)을 도출한 후, 도출된 이진화 방법, 확률 모델, 문맥 모델(Context Model)을 사용하여 산술 부호화를 수행할 수도 있다.
관련하여, CABAC을 적용함에 있어서, 복호화 장치에서 저장되는 확률 테이블의 크기를 줄이고자, 테이블 확률 업데이트 방식을 간단한 수식을 통한 테이블 업데이트 방식으로 변경하여 적용할 수도 있다. 또한 더 정확한 심볼의 확률 값을 얻기 위하여 2개의 서로 다른 확률 모델을 사용할 수도 있다.
엔트로피 부호화부(150)는 변환 계수 레벨(양자화된 레벨)을 부호화하기 위해 변환 계수 스캐닝(Transform Coefficient Scanning) 방법을 통해 2차원의 블록 형태(form) 계수를 1차원의 벡터 형태로 변경할 수 있다.
부호화 파라미터(Coding Parameter)는 구문 요소 (syntax element)와 같이 부호화 장치(100)에서 부호화되어 복호화 장치(200)로 시그널링되는 정보(플래그, 색인 등)뿐만 아니라, 부호화 과정 혹은 복호화 과정에서 유도되는 정보를 포함할 수 있으며, 영상을 부호화하거나 복호화할 때 필요한 정보를 의미할 수 있다.
여기서, 플래그 혹은 색인을 시그널링(signaling)한다는 것은 인코더에서는 해당 플래그 혹은 색인을 엔트로피 부호화(Entropy Encoding)하여 비트스트림(Bitstream)에 포함하는 것을 의미할 수 있고, 디코더에서는 비트스트림으로부터 해당 플래그 혹은 색인을 엔트로피 복호화(Entropy Decoding)하는 것을 의미할 수 있다.
부호화된 현재 영상은 이후에 처리되는 다른 영상에 대한 참조 영상으로서 사용될 수 있다. 따라서, 부호화 장치(100)는 부호화된 현재 영상을 다시 복원 또는 복호화할 수 있고, 복원 또는 복호화된 영상을 참조 영상으로 참조 픽처 버퍼(190)에 저장할 수 있다.
양자화된 레벨은 역양자화부(160)에서 역양자화(dequantization)될 수 있고. 역변환부(170)에서 역변환(inverse transform)될 수 있다. 역양자화 및/또는 역변환된 계수는 가산기(117)를 통해 예측 블록과 합해질 수 있다, 역양자화 및/또는 역변환된 계수와 예측 블록을 합함으로써 복원 블록(reconstructed block)이 생성될 수 있다. 여기서, 역양자화 및/또는 역변환된 계수는 역양자화 및 역변환 중 적어도 하나 이상이 수행된 계수를 의미하며, 복원된 잔여 블록을 의미할 수 있다. 상기 역양자화부(160) 및 역변환부(170)는 양자화부(140) 및 변환부(130)의 역과정으로 수행될 수 있다.
복원 블록은 필터부(180)를 거칠 수 있다. 필터부(180)는 디블록킹 필터(deblocking filter), 샘플 적응적 오프셋(Sample Adaptive Offset; SAO), 적응적 루프 필터(Adaptive Loop Filter; ALF), 양방향 필터 (Bilateral filter; BIF), LMCS (Luma Mapping with Chroma Scaling) 등을 복원 샘플, 복원 블록 또는 복원 영상에, 전부 또는 일부 필터링 기술로 적용할 수 있다. 필터부(180)는 인-루프 필터(in-loop filter)로 칭해질 수도 있다. 이때, 인-루프 필터(in-loop filter)는 LMCS를 제외하는 명칭으로 사용하기도 한다.
디블록킹 필터는 블록들 간의 경계에서 발생한 블록 왜곡을 제거할 수 있다. 디블록킹 필터를 수행할지 여부를 판단하기 위해 블록에 포함된 몇 개의 열 또는 행에 포함된 샘플을 기초로 현재 블록에 디블록킹 필터 적용할지 여부를 판단할 수 있다. 블록에 디블록킹 필터를 적용하는 경우 필요한 디블록킹 필터링 강도에 따라 서로 다른 필터를 적용할 수 있다.
샘플 적응적 오프셋을 이용하여 부호화 에러를 보상하기 위해 샘플 값에 적정 오프셋(offset) 값을 더할 수 있다. 샘플 적응적 오프셋은 디블록킹을 수행한 영상에 대해 샘플 단위로 원본 영상과의 오프셋을 보정할 수 있다. 영상에 포함된 샘플을 일정한 수의 영역으로 구분한 후 오프셋을 수행할 영역을 결정하고 해당 영역에 오프셋을 적용하는 방법 또는 각 샘플의 에지 정보를 고려하여 오프셋을 적용하는 방법을 사용할 수 있다.
양방향 필터 (Bilateral filter; BIF) 또한 디블록킹을 수행한 영상에 대해 샘플 단위로 원본 영상과의 오프셋을 보정할 수 있다.
적응적 루프 필터는 복원 영상 및 원래의 영상을 비교한 값에 기반하여 필터링을 수행할 수 있다. 영상에 포함된 샘플을 소정의 그룹으로 나눈 후 해당 그룹에 적용될 필터를 결정하여 그룹마다 차별적으로 필터링을 수행할 수 있다. 적응적 루프 필터를 적용할지 여부에 관련된 정보는 부호화 유닛(Coding Unit, CU) 별로 시그널링될 수 있고, 각각의 블록에 따라 적용될 적응적 루프 필터의 모양 및 필터 계수는 달라질 수 있다.
LMCS(Luma Mapping with Chroma Scaling)에서, 루마 매핑(LM, Luma-mapping)은 piece-wise 선형 모델을 통해 휘도 값을 재맵핑 하는 것을 의미하고, 크로마 스케일링(CS, Chroma scaling)은 예측 신호의 평균 휘도 값에 따라 색차 성분의 잔차 값을 스케일링해주는 기술을 의미한다. 특히, LMCS는 HDR(High Dynamic Range) 영상의 특성을 반영한 HDR 보정 기술로 활용될 수 있다.
필터부(180)를 거친 복원 블록 또는 복원 영상은 참조 픽처 버퍼(190)에 저장될 수 있다. 필터부(180)를 거친 복원 블록은 참조 영상의 일부일 수 있다. 말하자면, 참조 영상은 필터부(180)를 거친 복원 블록들로 구성된 복원 영상일 수 있다. 저장된 참조 영상은 이후 화면 간 예측 혹은 움직임 보상에 사용될 수 있다.
도 2는 본 발명이 적용되는 복호화 장치의 일 실시예에 따른 구성을 나타내는 블록도이다.
복호화 장치(200)는 디코더, 비디오 복호화 장치 또는 영상 복호화 장치일 수 있다.
도 2를 참조하면, 복호화 장치(200)는 엔트로피 복호화부(210), 역양자화부(220), 역변환부(230), 인트라 예측부(240), 움직임 보상부(250), 가산기(201), 스위치 (203), 필터부(260) 및 참조 픽처 버퍼(270)를 포함할 수 있다.
복호화 장치(200)는 부호화 장치(100)에서 출력된 비트스트림을 수신할 수 있다. 복호화 장치(200)는 컴퓨터 판독가능한 기록 매체에 저장된 비트스트림을 수신하거나, 유/무선 전송 매체를 통해 스트리밍되는 비트스트림을 수신할 수 있다. 복호화 장치(200)는 비트스트림에 대하여 인트라 모드 또는 인터 모드로 복호화를 수행할 수 있다. 또한, 복호화 장치(200)는 복호화를 통해 복원된 영상 또는 복호화된 영상을 생성할 수 있고, 복원된 영상 또는 복호화된 영상을 출력할 수 있다.
복호화에 사용되는 예측 모드가 인트라 모드인 경우 스위치(203)가 인트라로 전환될 수 있다. 복호화에 사용되는 예측 모드가 인터 모드인 경우 스위치(203)가 인터로 전환될 수 있다.
복호화 장치(200)는 입력된 비트스트림을 복호화하여 복원된 잔여 블록(reconstructed residual block)을 획득할 수 있고, 예측 블록을 생성할 수 있다. 복원된 잔여 블록 및 예측 블록이 획득되면, 복호화 장치(200)는 복원된 잔여 블록과 및 예측 블록을 더함으로써 복호화 대상이 되는 복원 블록을 생성할 수 있다. 복호화 대상 블록은 현재 블록으로 칭해질 수 있다.
엔트로피 복호화부(210)는 비트스트림에 대한 확률 분포에 따른 엔트로피 복호화를 수행함으로써 심볼들을 생성할 수 있다. 생성된 심볼들은 양자화된 레벨 형태의 심볼을 포함할 수 있다. 여기에서, 엔트로피 복호화 방법은 상술된 엔트로피 부호화 방법의 역과정일 수 있다.
엔트로피 복호화부(210)는 변환 계수 레벨(양자화된 레벨)을 복호화하기 위해 변환 계수 스캐닝 방법을 통해 1차원의 벡터 형태 계수를 2차원의 블록 형태로 변경할 수 있다.
양자화된 레벨은 역양자화부(220)에서 역양자화될 수 있고, 역변환부(230)에서 역변환될 수 있다. 양자화된 레벨은 역양자화 및/또는 역변환이 수행된 결과로서, 복원된 잔여 블록으로 생성될 수 있다. 이때, 역양자화부(220)는 양자화된 레벨에 양자화 행렬을 적용할 수 있다. 복호화 장치에 적용되는 역양자화부(220) 및 역변환부(230)는 전술한 부호화 장치에 적용되는 역양자화부(160) 및 역변환부(170)와 동일한 기술을 적용할 수 있다.
인트라 모드가 사용되는 경우, 인트라 예측부(240)는 복호화 대상 블록 주변의 이미 복호화된 블록의 샘플 값을 이용하는 공간적 예측을 현재 블록에 대해 수행함으로써 예측 블록을 생성할 수 있다. 복호화 장치에 적용되는 인트라 예측부(240)는 전술한 부호화 장치에 적용되는 인트라 예측부(120)와 동일한 기술을 적용할 수 있다.
인터 모드가 사용되는 경우, 움직임 보상부(250)는 움직임 벡터 및 참조 픽처 버퍼(270)에 저장되어 있는 참조 영상을 이용하는 움직임 보상을 현재 블록에 대해 수행함으로써 예측 블록을 생성할 수 있다. 상기 움직임 보상부(250)는 움직임 벡터의 값이 정수 값을 가지지 않을 경우에 참조 영상 내의 일부 영역에 대해 보간 필터를 적용하여 예측 블록을 생성할 수 있다. 움직임 보상을 수행하기 위해 부호화 유닛을 기준으로 해당 부호화 유닛에 포함된 예측 유닛의 움직임 보상 방법이 스킵 모드, 머지 모드, AMVP 모드, 현재 픽처 참조 모드 중 어떠한 방법인지 여부를 판단할 수 있고, 각 모드에 따라 움직임 보상을 수행할 수 있다. 복호화 장치에 적용되는 움직임 보상부(250)는 전술한 부호화 장치에 적용되는 움직임 보상부(122)와 동일한 기술을 적용할 수 있다.
가산기(201)는 복원된 잔여 블록 및 예측 블록을 가산하여 복원 블록을 생성할 수 있다. 필터부(260)는 Inverse-LMCS, 디블록킹 필터, 샘플 적응적 오프셋 및 적응적 루프 필터 등 적어도 하나를 복원 블록 또는 복원 영상에 적용할 수 있다. 복호화 장치에 적용되는 필터부(260)는 전술한 부호화 장치에 적용되는 필터부(180)에 적용된 필터링 기술과 동일한 기술을 적용할 수 있다.
필터부(260)는 복원 영상을 출력할 수 있다. 복원 블록 또는 복원 영상은 참조 픽처 버퍼(270)에 저장되어 인터 예측에 사용될 수 있다. 필터부(260)를 거친 복원 블록은 참조 영상의 일부일 수 있다. 말하자면, 참조 영상은 필터부(260)를 거친 복원 블록들로 구성된 복원 영상일 수 있다. 저장된 참조 영상은 이후 화면 간 예측 혹은 움직임 보상에 사용될 수 있다.
도 3은 본 발명이 적용될 수 있는 비디오 코딩 시스템을 개략적으로 나타내는 도면이다.
일 실시예에 따른 비디오 코딩 시스템은 부호화 장치(10) 및 복호화 장치(20)를 포함할 수 있다. 부호화 장치(10)는 부호화된 비디오(video) 및/또는 영상(image) 정보 또는 데이터를 파일 또는 스트리밍 형태로 디지털 저장매체 또는 네트워크를 통하여 복호화 장치(20)로 전달할 수 있다.
일 실시예에 따른 부호화 장치(10)는 비디오 소스 생성부(11), 부호화부(12), 전송부(13)를 포함할 수 있다. 일 실시예에 따른 복호화 장치(20)는 수신부(21), 복호화부(22) 및 렌더링부(23)를 포함할 수 있다. 상기 부호화부(12)는 비디오/영상 부호화부라고 불릴 수 있고, 상기 복호화부(22)는 비디오/영상 복호화부라고 불릴 수 있다. 전송부(13)는 부호화부(12)에 포함될 수 있다. 수신부(21)는 복호화부(22)에 포함될 수 있다. 렌더링부(23)는 디스플레이부를 포함할 수도 있고, 디스플레이부는 별개의 디바이스 또는 외부 컴포넌트로 구성될 수도 있다.
비디오 소스 생성부(11)는 비디오/영상의 캡쳐, 합성 또는 생성 과정 등을 통하여 비디오/영상을 획득할 수 있다. 비디오 소스 생성부(11)는 비디오/영상 캡쳐 디바이스 및/또는 비디오/영상 생성 디바이스를 포함할 수 있다. 비디오/영상 캡쳐 디바이스는 예를 들어, 하나 이상의 카메라, 이전에 캡쳐된 비디오/영상을 포함하는 비디오/영상 아카이브 등을 포함할 수 있다. 비디오/영상 생성 디바이스는 예를 들어 컴퓨터, 타블렛 및 스마트폰 등을 포함할 수 있으며 (전자적으로) 비디오/영상을 생성할 수 있다. 예를 들어, 컴퓨터 등을 통하여 가상의 비디오/영상이 생성될 수 있으며, 이 경우 관련 데이터가 생성되는 과정으로 비디오/영상 캡쳐 과정이 갈음될 수 있다.
부호화부(12)는 입력 비디오/영상을 부호화할 수 있다. 부호화부(12)는 압축 및 부호화 효율을 위하여 예측, 변환, 양자화 등 일련의 절차를 수행할 수 있다. 부호화부(12)는 부호화된 데이터(부호화된 비디오/영상 정보)를 비트스트림(bitstream) 형태로 출력할 수 있다. 상기 부호화부(12)의 상세 구성은 전술한 도 1의 부호화 장치(100)와 동일하게 구성하는 것도 가능하다.
전송부(13)는 비트스트림 형태로 출력된 부호화된 비디오/영상 정보 또는 데이터를 파일 또는 스트리밍 형태로 디지털 저장매체 또는 네트워크를 통하여 복호화 장치(20)의 수신부(21)로 전달할 수 있다. 디지털 저장 매체는 USB, SD, CD, DVD, 블루레이, HDD, SSD 등 다양한 저장 매체를 포함할 수 있다. 전송부(13)는 미리 정해진 파일 포맷을 통하여 미디어 파일을 생성하기 위한 엘리먼트를 포함할 수 있고, 방송/통신 네트워크를 통한 전송을 위한 엘리먼트를 포함할 수 있다. 수신부(21)는 상기 저장매체 또는 네트워크로부터 상기 비트스트림을 추출/수신하여 복호화부(22)로 전달할 수 있다.
복호화부(22)는 부호화부(12)의 동작에 대응하는 역양자화, 역변환, 예측 등 일련의 절차를 수행하여 비디오/영상을 복호화할 수 있다. 상기 복호화부(22)의 상세 구성은 전술한 도 2의 복호화 장치(200)와 동일하게 구성하는 것도 가능하다.
렌더링부(23)는 복호화된 비디오/영상을 렌더링할 수 있다. 렌더링된 비디오/영상은 디스플레이부를 통하여 디스플레이될 수 있다.
도 4는 화면 간 예측 모드에 있어서, 다양한 화면 간 예측 방법 중 하나를 결정하는 방법의 일 실시 예(400)를 도시한다.
일 실시 예(400)에 따르면, 현재 블록이 화면 간 예측에 의하여 예측 부호화 또는 복호화되는 경우, 단계 410에서, 현재 블록의 화면 간 예측 모드가 머지(merge) 모드인지 또는 AMVP (Advanced Motion Vector Prediction) 모드인지 여부가 판단된다.
머지 모드는 현재 블록의 움직임 벡터 및 참조 픽처 등의 움직임 정보를 현재 블록의 인접 블록으로부터 획득하는 화면 간 예측 모드이다. 반면, AMVP 모드에 따르면, 현재 블록의 주변 블록으로부터 예측 움직임 벡터가 획득되고, 예측 움직임 벡터를 제외한 차분 움직임 벡터 및 참조 픽처 정보 등 다른 움직임 정보는 비트스트림을 파싱함으로써 획득된다. 따라서, AMVP 모드는 주변 블록의 움직임 정보가 모두 현재 블록의 예측에 이용되는 머지 모드와 차이가 있다.
만약 현재 블록의 화면 간 예측 모드가 머지 모드일 경우, 단계 420에서 현재 블록의 화면 간 예측 모드가 서브 블록 머지 (Subblock Merge) 모드인지 여부가 판단된다. 만약 현재 블록의 화면 간 예측 모드가 서브 블록 머지 모드인 경우, 단계 422에서, 현재 블록은 서브 블록 머지 모드에 따라 복수의 서브 블록으로 분할되고, 각 서브 블록은 어파인 (Affine) 변환에 따른 움직임 벡터에 기초하여 예측될 수 있다.
만약 현재 블록의 화면 간 예측 모드가 서브 블록 머지 모드가 아닌 경우, 단계 430에서, 현재 블록의 화면 간 예측 모드가 일반 머지 (Regular Merge) 모드인지 여부가 판단된다. 만약 현재 블록의 화면 간 예측 모드가 일반 머지 모드가 아닌 경우, 단계 432에서 현재 블록의 화면 간 예측 모드가 결합한 화면 내 화면 간 예측(combined intra inter prediction, CIIP) 모드인지 여부가 판단된다.
만약 현재 블록의 화면 간 예측 모드가 화면 내 화면 간 예측 모드가 아닌 경우, 단계 434에서, 현재 블록의 화면 간 예측 모드는 기하 파티션 (Geometric Partition) 모드로 결정된다. 기하 파티션 모드는 현재 블록을 소정의 경계를 기준으로 두 개의 파티션으로 분할하고, 두 개의 파티션에 대한 두 개의 예측 블록을 조합하여 현재 블록의 최종 예측 블록을 결정하는 화면 간 예측 모드이다. 단계 436에서, 현재 블록의 화면 간 예측 모드는 결합한 화면 내 화면 간 예측 모드로 결정된다. 결합한 화면 내 화면 간 예측 모드에 따르면, 현재 블록의 화면 내 예측에 따른 예측 블록과 현재 블록의 화면 간 예측에 따른 예측 블록을 조합함으로써 현재 블록의 최종 예측 블록이 결정될 수 있다.
만약 현재 블록의 화면 간 예측 모드가 일반 머지 모드인 경우, 단계 440에서 현재 블록의 화면 간 예측 모드가 차분 움직임 벡터 머지 모드 (Merge mode with Motion Vector Difference, MMVD) 인지 여부가 판단된다. 차분 움직임 벡터 머지 모드에 의하면, 주변 블록으로부터 획득된 움직임 벡터에 차분 움직임 벡터를 더함으로써, 현재 블록의 최종 움직임 벡터가 결정된다. 차분 움직임 벡터 머지 모드에서, 차분 움직임 벡터의 방향은 +x, -x, +y, -y 중 하나로 제한될 수 있다. 또한 차분 움직임 벡터 머지 모드에서, 차분 움직임 벡터의 크기는 제한된 개수의 소정의 크기 후보 중에서 선택되는 것으로 제한될 수 있다
만약 현재 블록의 화면 간 예측 모드가 차분 움직임 벡터 머지 모드일 경우, 현재 블록은 차분 움직임 벡터 머지 모드에 따라 예측된다. 그리고 현재 블록이 양방향 예측된 경우, 단계 446에서 양방향 옵티컬 플로우 (Bi-Directional Optical Flow, BDOF) 모드에 의하여, 현재 블록의 예측 블록이 조정될 수 있다.
만약 현재 블록의 화면 간 예측 모드가 차분 움직임 벡터 머지 모드가 아닐 경우, 단계 444에서, 현재 블록에 일반 머지 모드가 적용된다. 그리고 현재 블록이 양방향 예측된 경우, 단계 450에서 복호화측 움직임 벡터 보정 모드에 따라, 현재 블록의 움직임 벡터가 보정될 수 있다. 그리고 단계 452에서, 단계 446과 마찬가지로, 양방향 옵티컬 플로우 모드에 의하여, 현재 블록의 예측 블록이 조정될 수 있다.
복호화측 움직임 벡터 보정은, 일반 머지 모드에서 유도한 양방향 움직임 벡터의 복호화에 있어서, 추가 정보를 파싱하지 않고, 쌍방 일치 기반의 움직임 벡터 탐색 과정을 통해 움직임 벡터를 보정하는 방법이다. 복호화측 움직임 벡터 보정에 따라, 일반 머지 모드에서 움직임 벡터의 정확도가 향상될 수 있다. 그리고, 이에 따라 일반 머지 모드의 부호화 효율이 향상될 수 있다.
도 4에서는 복호화측 움직임 벡터 보정 모드가 일반 머지 모드에서만 적용되는 것으로 설명되었지만, 실시 예에 따라, 서브 블록 머지 모드, 기하 파티션 모드, 결합한 화면 내 화면 간 예측 모드, 차분 움직임 벡터 머지 모드에도 복호화측 움직임 벡터 보정 모드가 적용될 수 있다.
비트스트림으로부터 파싱된 플래그 정보에 기초하여, 도 4의 단계 410, 420, 430, 432, 및 440에서 현재 블록의 화면 간 예측 모드가 결정될 수 있다. 예를 들어, 단계 410에서, 머지 플래그, 단계 420에서 서브 블록 머지 플래그, 단계 430에서 일반 머지 플래그, 단계 432에서 결합한 화면 내 화면 간 예측 플래그, 단계 440에서 차분 움직임 벡터 머지 플래그가 비트스트림으로부터 각각 파싱될 수 있다.
이하, 본 발명에서, 단계 450에서 설명된 복호화측 움직임 벡터 보정에 대한 실시 예들이 자세히 설명된다. 본 발명에서, 복호화측 움직임 벡터 보정의 수행 조건에 대한 다양한 실시 예가 제공된다. 또한 복호화측 움직임 벡터 보정에서 쌍방 일치를 기반으로 움직임 벡터를 탐색하는 대신, 템플릿 매칭(template matching, TM)을 기반으로 움직임 벡터가 탐색하는 실시 예가 제공된다. 그리고 복호화측 움직임 벡터 보정에서 서로 다른 부호화 단위 가중 값이 사용되는 실시 예가 제공된다.
도 4에 따른 복호화측 움직임 벡터 보정 (DMVR)의 일 실시 예에서, 일반 머지 모드로 예측된 양방향 움직임 벡터는 쌍방 일치 (Bilateral matching, BM) 기반의 움직임 탐색을 통해 보정된다. 일 실시 예에 따르면, 최적의 참조 블록을 찾기 위하여 초기 움직임 벡터로부터 참조 블록의 주변 블록들이 탐색될 수 있다. 이 때, 쌍방 일치(Bilateral Matching, BM)를 기반으로 두 참조 픽처에 위치한 두 참조 블록 간의 왜곡 (Distortion) 정도를 최소화하는 움직임 벡터가 초기 움직임 벡터로부터 탐색된다.
복호화측 움직임 벡터 보정은 일반 머지 모드로 예측된 모든 양방향 움직임 벡터에 적용하지 않고 하나 이상의 소정의 조건이 모두 만족되는 경우에 대해서만 적용될 수 있다. 상기 소정의 조건이 이하 설명된다.
일 실시 예에 따르면, 부호화 단위 (coding unit, CU) 블록이 머지 모드일 때, 복호화측 움직임 벡터 보정이 적용될 수 있다. 또한, 부호화 단위 블록이 어파인 변환에 따른 화면 간 예측이 적용되는 서브 블록 머지 모드가 아닐 때, 복호화측 움직임 벡터 보정이 적용될 수 있다. 또한, 부호화 단위 블록에 대하여 차분 움직임 벡터 머지 모드(merge mode with motion vector difference, MMVD)가 적용되지 않을 때, 복호화측 움직임 벡터 보정이 적용될 수 있다.
일 실시 예에 따르면, 부호화 단위 블록은 쌍예측 모드(Bi-prediction mode)일 때, 복호화측 움직임 벡터 보정이 적용될 수 있다. 또한 일 실시 예에 따르면, 부호화 단위 블록이 참조하는 2개의 참조 픽처가 각각 현재 픽처로부터 시간적으로 반대 방향에 위치할 때, 복호화측 움직임 벡터 보정이 적용될 수 있다. 예를 들어, 2개의 참조 픽처 중 제1 참조 픽처가 현재 픽처로부터 시간적으로 선행하고, 제2 참조 픽처가 현재 픽처로부터 시간적으로 후행할 때, 복호화측 움직임 벡터 보정이 적용될 수 있다.
일 실시 예에 따르면, 두 참조 픽처와 현재 픽처 간의 시간적 거리가 동일할 때, 복호화측 움직임 벡터 보정이 적용될 수 있다. 상기 시간적 거리는 참조 픽처와 현재 픽처 간의 POC (Picture Order Count) 차이의 크기를 의미할 수 있다. 본 발명에서 픽처 간의 거리는 상기 시간적 거리 및 POC 차이의 크기를 나타낸다.
실시 예에 따라, 두 참조 픽처와 현재 픽처 간의 시간적 거리가 다를 경우에도, 복호화측 움직임 벡터 보정이 적용될 수 있다. 시간적 거리 동일 조건을 적용하지 않음으로써, 일반 머지 모드에서 복호화측 움직임 벡터 보정이 더 많이 적용될 수 있다. 따라서, 상기 수행 조건의 완화로 복호화측 움직임 벡터 보정이 더 많이 수행됨에 따라 부호화 효율이 향상될 수 있다.
일 실시 예에 따르면, 두 참조 픽처는 단기 참조 픽처 (short-term reference picture)일 때, 복호화측 움직임 벡터 보정이 적용될 수 있다.
일 실시 예에 따르면, 부호화 단위 블록의 크기에 따라 복호화측 움직임 벡터 보정의 적용 여부가 결정될 수 있다. 예를 들어, 부호화 단위 블록의 크기가 소정의 크기보다 클 때, 복호화측 움직임 벡터 보정이 적용될 수 있다. 소정의 크기는 부호화 단위 블록에 포함된 휘도 샘플의 개수로 표현될 수 있다. 그리고 소정의 크기는 64, 128, 256, 512, 1024 와 같이 2의 제곱수일 수 있다.
일 실시 예에 따르면, 부호화 단위 블록의 너비와 높이에 따라 복호화측 움직임 벡터 보정의 적용 여부가 결정될 수 있다. 예를 들어, 부호화 단위 블록의 높이 및/또는 너비가 소정의 값보다 클 때, 복호화측 움직임 벡터 보정이 적용될 수 있다. 상기 소정의 값은 4, 8, 16, 32 와 같이 2의 제곱수일 수 있다.
일 실시 예에 따르면, 부호화 단위 블록의 두 개의 예측 블록에 적용되는 양방향 부호화 단위 가중 값들이 서로 동일할 때, 복호화측 움직임 벡터 보정이 적용될 수 있다. 부호화 단위 블록의 최종 예측 블록은 양방향 예측으로부터 획득되는 두 개의 예측 블록의 가중 평균으로 결정된다. 이 때, 양방향 부호화 단위 가중 값은, 두 개의 예측 블록의 가중 평균을 결정하기 위하여 사용된다. 다만 실시 예에 따라, 두 개의 예측 블록에 적용되는 양방향 부호화 단위 가중 값들이 서로 다른 경우에도 복호화측 움직임 벡터 보정이 적용되도록 설정될 수 있다.
일 실시 예에 따르면, 결합한 화면 내 화면 간 예측(combined intra inter prediction, CIIP)이 적용되지 않는 경우에, 복호화측 움직임 벡터 보정이 적용될 수 있다. 결합한 화면 내 화면 간 예측에 따르면, 하나의 블록에 대하여 화면 내 예측으로부터 도출된 제1 예측 블록과 화면 간 예측으로부터 도출된 제2 예측 블록을 가중 평균함으로써, 최종 예측 블록을 결정하는 예측 방법이다.
일 실시 예에 따르면, 복호화측 움직임 벡터 보정이 수행되기 위한 조건에 상기 설명된 복수의 조건 중 적어도 하나가 포함될 수 있다.
복호화측 움직임 벡터 보정이 수행되기 위한 조건이 증가할 수록 복호화측 움직임 벡터 보정의 빈도가 감소할 수 있다. 반대로, 복호화측 움직임 벡터 보정이 수행되기 위한 조건이 감소할 수록 복호화측 움직임 벡터 보정의 빈도가 증가할 수 있다. 따라서, 복호화측 움직임 벡터 보정의 조건에 따라, 움직임 벡터 보정의 빈도 및 그에 따른 머지 모드의 부호화 효율이 결정될 수 있다.
도 5는 현재 픽처와 L0 참조 픽처의 시간적 거리와 현재 픽처와 L1 참조 픽처의 시간적 거리가 동일한 경우, 복호화측 움직임 벡터 보정의 일 실시 예를 나타낸다.
도 5에서 현재 블록(500)과 L0 참조 픽처(520)는 N의 POC 거리를 가진다. 그리고 현재 블록(500)과 L1 참조 픽처(540) 역시 N의 POC 거리를 가진다. 따라서, 현재 블록(500)과 L0 참조 픽처(520) 간의 거리와 현재 블록(500)과 L1 참조 픽처(540) 간의 거리는 동일하다.
현재 블록(500)은 주변 블록의 움직임 정보에 기초하여, L0 및 L1 방향의 초기 움직임 벡터 MV0 (522)과 MV1 (542)를 획득할 수 있다. MV0 (522)과 MV1 (542)은 각각 최초 참조 블록(524, 544)를 가리킨다. 경우에 따라, 최초 참조 블록(524, 544) 주변에 현재 블록의 예측에 더 적합한 참조 블록이 있을 수 있는 바, 쌍방 일치에 기반하여 더 적합한 참조 블록을 가리키는 움직임 벡터가 탐색된다.
앞서 설명된 바와 같이, MV0 (522)과 MV1 (542)은 각각 일반 머지 모드에서 유도한 L0 및 L1 방향의 초기 움직임 벡터이다. MV0' (528)는 L0 방향의 초기 움직임 벡터인 MV0 (522)를 MVdiff (526)만큼 보정한 움직임 벡터이다. 그리고 MV1' (548)은 L1 방향의 초기 움직임 벡터인 MV1 (542)을 - MVdiff (546)만큼 보정한 움직임 벡터이다. MVdiff (526)와 - MVdiff (546)는 각각 L0 차분 움직임 벡터와 L1 차분 움직임 벡터이다. L0 차분 움직임 벡터와 L1 차분 움직임 벡터는 크기가 동일하나, 방향은 반대로 설정된다.
L0 참조 픽처(520)에서 MV0'(528)이 지시하는 참조 블록(530)과 L1 참조 픽처(540)에서 MV1'(548)이 지시하는 참조 블록(550) 간의 왜곡이 최소가 될 경우, MV0'(528)과 MV1'(548)이 현재 블록(502)의 최종 움직임 벡터로 결정될 수 있다. 이 때, 두 참조 블록 간의 절대 차이의 합 (sum of absolute difference, SAD) 혹은 제곱 오차의 합 (sum of squared error, SSE) 등 다양한 왜곡 (Distortion) 측정 방법이 사용될 수 있다.
최종적으로, MV0'(528)과 MV1'(548)가 왜곡이 최소가 되는 최종 움직임 벡터일 때, 최종 움직임 벡터 MV0' (528)과 MV1' (548)을 사용하여 두 예측 블록 PL0(530)과 PL1(550)이 결정된다.
이하, 부호화 단위 가중 값을 사용하는 양방향 예측 (Bi-prediction with Coding Unit-level weight, BCW)이 설명된다.
부호화 단위 가중 값을 사용하는 양방향 예측 (Bi-prediction with Coding Unit-level weight, BCW)에서, L0 방향과 L1 방향의 움직임 벡터로부터 유도된 두 개의 예측 블록에 적응적 가중 값을 적용함으로써 예측 블록이 생성될 수 있다. 부호화 단위 가중 값을 사용하는 양방향 예측에서, 수학식 1을 사용하여 예측 블록이 계산될 수 있다.
여기서, P0과 P1은 각각 L0 참조 픽처로부터 움직임 보상된 예측 블록과 L1 참조 픽처로부터 움직임 보상된 예측 블록을 나타낸다. w는 각 참조 블록에 적용되는 가중 값을 의미하고, w의 값은 현재 픽처가 저지연 (low delay) 픽처인지 아닌지에 따라 다르게 결정된다. 만약 현재 픽처가 저지연 픽처이면 5개의 가중 값(w ∈ {-2, 3, 4, 5, 10})이 사용될 수 있다. 만약 현재 픽처가 저지연 픽처가 아니면 3개의 가중 값(w ∈ {3, 4, 5})이 사용될 수 있다.
부호화 단위 가중 값을 사용하는 양방향 예측에서, 현재 부호화 단위 (coding unit, CU) 블록이 머지 모드(merge mode)일 경우, 가중 값 정보는 머지 후보 블록으로부터 유도될 수 있다. 현재 블록이 머지 모드가 아닌 경우, 움직임 벡터 차분 정보가 파싱된 후, 가중 값 정보가 파싱될 수 있다.
수학식 2는 복호화측 움직임 벡터 보정 방법을 사용하여 최종 예측 블록을 생성하는 방법을 나타낸다.
수학식 2에서 PL0, PL1 그리고 PredFinal는 각각 L0 참조 픽처에서 MV0' 움직임 벡터가 지시하는 예측 블록, L1 참조 픽처에서 MV1' 움직임 벡터가 지시하는 예측 블록 그리고 두 예측 블록을 사용하여 생성한 최종 예측 블록을 나타낸다. 도 5에서 보듯이 현재 픽처와 L0 참조 픽처의 시간적 거리와 현재 픽처와 L1 참조 픽처의 시간적 거리가 동일하므로 각각의 참조 픽처에서 생성한 예측 블록(PL0과 PL1)에 동일한 가중 값을 할당하여 최종 예측 블록이 생성될 수 있다.
일 실시 예에 따른 복호화측 움직임 벡터 보정 방법에 따라 예측 블록을 생성하는 방법은 현재 픽처와 L0 참조 픽처의 시간적 거리와 현재 픽처와 L1 참조 픽처의 시간적 거리가 동일한 경우에만 사용될 수 있다. 이 때, 두 참조 픽처로부터 생성한 두 예측 블록을 평균하여 예측 블록이 생성될 수 있다. 하지만, 모든 경우에 대해 평균을 사용하여 예측 블록을 생성할 경우, 부호화 효율에 한계가 있을 수 있다. 따라서 최종 예측 블록을 생성할 때, L0의 예측 블록 PL0와 L1의 예측 블록 PL1에 서로 다른 가중 값을 할당하여 최종 예측 블록이 생성될 수 있다. 이 때, 두 예측 블록에 적응적 가중 값을 할당하여 최종 예측 블록을 생성하기 위하여, 부호화 단위 가중 값을 사용하는 양방향 예측(Bi-prediction with CU-level weight, BCW)에서 최종 예측 블록을 생성하기 위한 수학식 1이 사용될 수 있다.
부호화 단위 가중 값을 사용하는 양방향 예측에 있어서, 현재 픽처가 저지연 (low delay) 픽처인지 여부에 따라 서로 다른 가중 값이 사용될 수 있다. 부호화 단위 가중 값을 사용하는 양방향 예측에서, 가중 값 결정은 현재 부호화 단위 (coding unit, CU) 블록이 머지 모드인 경우, 가중 값 정보는 머지 후보 블록으로부터 유도될 수 있다. 그렇지 않은 경우, 머지 모드가 아닌 경우 가중 값 정보가 비트스트림으로부터 파싱될 수 있다.
일 실시 예에 따르면, 부호화 단위 가중 값을 사용하는 양방향 예측에 있어서, 상기 결정된 가중 값에 따라 예측 블록이 생성될 수 있다. 예를 들어, 예측 블록 생성에 저지연 픽처에서 사용하는 5개의 가중 값(w ∈ {-2, 3, 4, 5, 10})이 사용될 수 있다. 또는 예측 블록 생성에 저지연 픽처가 아닌 경우에 사용하는 3개의 가중 값(w ∈ {3, 4, 5})이 사용될 수 있다. 또는 미리 정한 임의의 가중 값을 사용할 수 있다. 이 때 사용되는 가중 값의 개수는 임의로 결정될 수 있다.
일 실시 예에 따르면, 부호화기에서 결정된 가중 값 정보는 전송 및 파싱된다. 이 때, 가중 값 정보의 전송/파싱 방법은 사용한 가중 값을 고려하여 고정 길이 코드(fixed length code, FLC), 단항 코드(unary code), 혹은 절삭형 이진 코드(truncated binary code) 등의 방법이 사용될 수 있다.
대신, 양방향 부호화 단위 가중 값은 현재 픽처와 L0 참조 픽처의 시간적 거리와 현재 픽처와 L1 참조 픽처의 시간적 거리에 기초하여 결정될 수 있다.
이하, 현재 픽처와 L0 참조 픽처의 시간적 거리와 현재 픽처와 L1 참조 픽처의 시간적 거리가 동일하지 않은 경우, 복호화측 움직임 벡터 보정을 적용하는 방법 및 최종 예측 블록을 생성하는 방법이 설명된다.
만약 복호화측 움직임 벡터 보정 방법의 적용 조건에 현재 픽처와 L0 참조 픽처의 시간적 거리와 현재 픽처와 L1 참조 픽처의 시간적 거리가 동일할 조건이 요구된다면, 현재 픽처와 L0 참조 픽처의 시간적 거리와 현재 픽처와 L1 참조 픽처의 시간적 거리가 동일하지 않은 경우, 현재 블록에 복호화측 움직임 벡터 보정이 적용되지 않는다. 하지만, 복호화측 움직임 벡터 보정 방법의 적용 조건에 상기 조건이 제외된다면, 현재 픽처와 L0 참조 픽처의 시간적 거리와 현재 픽처와 L1 참조 픽처의 시간적 거리가 동일하지 않은 경우에도 현재 블록에 복호화측 움직임 벡터 보정 방법이 적용될 수 있다.
따라서, 현재 픽처와 L0 참조 픽처의 시간적 거리와 현재 픽처와 L1 참조 픽처의 시간적 거리가 동일하지 않은 경우, 복호화측 움직임 벡터 보정 및 최종 예측 블록 도출을 위한, 다양한 실시 예가 논의될 수 있다. 본 발명에서, 복호화측 움직임 벡터 보정을 위하여, L0 차분 움직임 벡터와 L1 차분 움직임 벡터의 관계에 대한 실시 예가 이하 논의된다. 또한, 본 발명에서 최종 예측 블록을 결정함에 있어서 필요한 가중 값에 대한 실시 예가 이하 논의된다.
이하, 도 6은 현재 픽처와 L0 참조 픽처의 시간적 거리와 현재 픽처와 L1 참조 픽처의 시간적 거리가 동일하지 않은 경우, 복호화측 움직임 벡터 보정을 도시한다.
도 6에서 현재 픽처(600)는 t 시간의 픽처이고 L0 참조 픽처(620)와 L1 참조 픽처(640)는 각각 t-M 시간(t-M > 0)과 t+N 시간(t+N > 0)의 픽처이다(t-M < t+N). 여기서 M과 N은 서로 다른 (M < N) 임의의 양의 정수 값이다. 따라서 도 6에서 보듯이 L0 참조 픽처(620)와 현재 픽처(600) 간의 시간적 거리와 L1 참조 픽처(640)와 현재 픽처(600) 간의 시간적 거리는 동일하지 않다.
도 6에 따르면, 일반 머지 모드에서 유도한 L0 방향 움직임 벡터 MV0 (622) 및 L1 방향 움직임 벡터 MV1 (642)는 초기 움직임 벡터이다. MV0 (622)과 MV1 (642)은 각각 최초 참조 블록(624, 644)를 가리킨다. 그리고 MV0 (622)을 MVdiff_L0 (626)만큼 보정함으로써 움직임 벡터 MV0' (628)이 결정된다. 그리고 MV1 (642)을 MVdiff_L1 (646)만큼 보정함으로써 움직임 벡터 MV1' (648)가 결정된다. MVdiff_L1 (646)은 현재 픽처와 L0 참조 픽처의 시간적 거리와 현재 픽처와 L1 참조 픽처의 시간적 거리의 비를 고려하여 MVdiff_L0 (626)로부터 결정될 수 있다. 상기 움직임 벡터 MV0' (628)와 MV1' (648)는 블록 PL0 (630)와 블록 PL1 (650) 간의 왜곡이 가장 작을 경우, 각각 L0 방향과 L1 방향의 최종 움직임 벡터로 유도될 수 있다. 수학식 3은 현재 픽처와 L0 참조 픽처의 시간적 거리와 현재 픽처와 L1 참조 픽처의 시간적 거리의 비를 고려하여 MVdiff_L0에 대응하는 MVdiff_L1을 계산하는 방법을 나타낸다.
수학식 3에서, M과 N은 각각 현재 픽처와 L0 참조 픽처의 시간적 거리와 현재 픽처와 L1 참조 픽처의 시간적 거리를 의미한다. 여기서 M과 N은 서로 다른 임의의 양의 정수 값이다. 또한 수학식 3에서, MVdiff_L1_x, MVdiff_L1_y, MVdiff_L0_x, 그리고 MVdiff_L0_y는 각각 MVdiff_L1의 x 방향 움직임 정보, MVdiff_L1의 y 방향 움직임 정보, MVdiff_L0의 x 방향 움직임 정보 그리고 MVdiff_L0의 y 방향 움직임 정보를 나타낸다. 수학식 3에서 보듯이 MVdiff_L0에 대응하는 MVdiff_L1은 현재 픽처와 L0 참조 픽처의 시간적 거리와 현재 픽처와 L1 참조 픽처의 시간적 거리의 비(M : N)를 고려하여 대칭으로 계산한다. 최종 L1 방향의 움직임 벡터인 MV1에 계산된 MVdiff_L1 (MVdiff_L1_x 와 MVdiff_L1_y)만큼 보정한 움직임 벡터 MV1'을 L1 방향의 최종 움직임 벡터로 유도할 수 있다. 수학식 3에서는 MVdiff_L0의 움직임 정보에 현재 픽처와 L0 참조 픽처의 시간적 거리와 현재 픽처와 L1 참조 픽처의 시간적 거리의 비를 반영하여 MVdiff_L1의 움직임 정보를 계산하였지만, 반대로 MVdiff_L1의 움직임 정보에 현재 픽처와 L0 참조 픽처의 시간적 거리와 현재 픽처와 L1 참조 픽처의 시간적 거리의 비를 반영하여 MVdiff_L0의 움직임 정보를 계산할 수도 있다.
수학식 3에서 결정된 MVdiff_L1_x 및 MVdiff_L1_y는 MVdiff_L0_x 및 MVdiff_L0_y 에 N/M을 곱하여 결정되는 바, MVdiff_L1_x 및 MVdiff_L1_y 의 값은 정수가 아닌 값일 수 있다. 따라서 일 실시 예에 따르면, MVdiff_L1_x 및 MVdiff_L1_y는 정수 단위의 값으로 조정될 수 있다. 이 때, MVdiff_L1_x 와 MVdiff_L1_y는 반올림 또는 버림 프로세스에 따라 정수화될 수 있다. 또는 MVdiff_L1_x 및 MVdiff_L1_y는 반올림 또는 버림 프로세스에 따라 정수 단위가 아닌 소정의 정밀도로 조정될 수 있다. 상기 소정의 정밀도는 1/2, 1/4 등일 수 있다.
일 실시 예에 따르면, MVdiff_L1_x, MVdiff_L1_y, MVdiff_L0_x, 그리고 MVdiff_L0_y의 절대값은 소정의 범위로 제한될 수 있다. 상기 소정의 범위는 1, 2, 4, 8 정수 샘플 단위 등으로 결정될 수 있다. 또한 MVdiff_L1_x 및 MVdiff_L1_y의 소정의 범위는 M과 N의 비율을 고려하여 MVdiff_L0_x 및 MVdiff_L0_y 의 소정의 범위와 다르게 결정될 수 있다. 예를 들어, MVdiff_L1_x, MVdiff_L1_y, MVdiff_L0_x, 그리고 MVdiff_L0_y의 절대값은 1, 2, 4, 8 중 하나보다 같거나 작도록 설정될 수 있다.
앞서 설명된 바와 같이, 현재 픽처와 L0 참조 픽처의 시간적 거리와 현재 픽처와 L1 참조 픽처의 시간적 거리의 비를 고려하여 움직임 벡터를 보정함으로써, 움직임 벡터 정확도가 향상될 수 있다.
이하, 최종 예측 블록을 결정함에 있어서 필요한 가중 값에 대한 실시 예가 이하 논의된다.
도 6과 같이 현재 픽처와 L0 참조 픽처의 시간적 거리와 현재 픽처와 L1 참조 픽처의 시간적 거리가 동일하지 않은 경우, 복호화측 움직임 벡터 보정 방법을 적용할 때, 현재 픽처와 L0 참조 픽처의 시간적 거리와 현재 픽처와 L1 참조 픽처의 시간적 거리를 고려하여 양방향 부호화 단위 가중 값이 결정될 수 있다. 그리고, 상기 결정된 가중 값에 따라 최종 예측 블록이 생성될 수 있다.
일 실시 예에 따르면, 도 5와 같이, 현재 픽처와 L0 참조 픽처의 시간적 거리와 현재 픽처와 L1 참조 픽처의 시간적 거리가 동일한 경우, 수학식 2과 같이, 보정된 움직임 벡터 MV0' 및 MV1'이 지시하는 예측 블록 PL0과 PL1에 동일한 가중 값을 사용하여 현재 블록에 대한 최종 예측 블록이 생성될 수 있다.
그러나 도 6과 같이 현재 픽처와 L0 참조 픽처의 시간적 거리와 현재 픽처와 L1 참조 픽처의 시간적 거리가 동일하지 않은 경우, 현재 픽처와 L0 참조 픽처의 시간적 거리와 현재 픽처와 L1 참조 픽처의 시간적 거리를 고려하여 각각의 예측 블록에 적용할 가중 값이 결정될 수 있다.
앞서 설명된 바와 같이, L0 및 L1 방향 움직임 벡터 MV0과 MV1가 초기 움직임 벡터로 결정될 수 있다. 그리고 L0 방향의 움직임 벡터인 MV0을 MVdiff_L0 만큼 보정한 움직임 벡터 MV0'과 L1 방향의 움직임 벡터인 MV1을 MVdiff_L1 만큼 보정한 움직임 벡터 MV1'을 사용하여, L0 방향의 예측 블록 PL0과 L1 방향의 예측 블록 PL1이 결정될 수 있다.
최종 예측 블록은 현재 픽처와 L0 참조 픽처의 시간적 거리와 현재 픽처와 L1 참조 픽처의 시간적 거리의 비율에 따른 서로 다른 가중 값을 사용하여 계산된다. 이하, 수학식 4는 복호기에서 보정된 움직임 벡터를 사용하여 각 예측 블록을 생성하고 현재 픽처와 L0 참조 픽처의 시간적 거리와 현재 픽처와 L1 참조 픽처의 시간적 거리를 고려하여 각각의 예측 블록에 서로 다른 가중 값을 할당하여 최종 예측 블록을 생성하는 방법을 나타낸다.
수학식 4에서 M과 N은 각각 현재 픽처와 L0 참조 픽처의 시간적 거리와 현재 픽처와 L1 참조 픽처의 시간적 거리를 의미한다. 여기서 M과 N은 서로 다른 (M < N) 임의의 양의 정수 값이다. 수학식 4에서 보듯이 PL0의 가중 값(N/(M+N))과 PL1의 가중 값(M/(M+N))은 현재 픽처와 L0 참조 픽처의 시간적 거리와 현재 픽처와 L1 참조 픽처의 시간적 거리의 비를 고려하여 계산한다. 수학식 4에 따르면, 현재 픽처와 더 가까운 참조 픽처의 예측 블록(PL0)에는 더 큰 가중 값(N/(M+N)>M/(M+N))이 할당된다. 반대로, 현재 픽처와 더 먼 참조 픽처의 예측 블록(PL1)에는 더 작은 가중 값(N/(M+N)>M/(M+N))이 할당된다. 수학식 4에서 사용한 가중 값은 현재 픽처와 L0 참조 픽처의 시간적 거리와 현재 픽처와 L1 참조 픽처의 시간적 거리의 비를 고려하여 유도하므로 비트스트림으로부터 명시적으로 가중 값 정보를 획득할 필요가 없다.
일 실시 예에 의하면, 현재 픽처와 L0 참조 픽처의 시간적 거리와 현재 픽처와 L1 참조 픽처의 시간적 거리가 동일하지 않은 경우에도 가중 값 정보가 비트스트림으로부터 파싱될 수 있다. 실시 예에 따라, 현재 픽처와 L0 참조 픽처의 시간적 거리와 현재 픽처와 L1 참조 픽처의 시간적 거리가 서로 다른 경우에도, 픽처들의 특성을 고려하여 가중 값이 결정되거나, 비트스트림으로부터 가중 값 정보를 획득하여 가중 값이 결정될 수 있다.
또한 예측 블록 생성을 위하여 미리 정한 임의의 가중 값이 사용될 수 있다. 즉, 저지연 픽처에서 사용하는 가중 값이 적용될 수도 있고, 또는 저지연 픽처가 아닌 경우에 사용하는 가중 값이 적용될 수 있다. 또는 미리 정한 임의의 가중 값이 적용될 수 있다. 이 때 사용하는 가중 값의 수도 임의로 결정될 수 있다.
부호화기에서 결정된 가중 값 정보는 비트스트림으로부터 파싱될 수 있다. 이 때, 가중 값 정보의 전송/파싱 방법은 사용한 가중 값을 고려하여 고정 길이 코드(fixed length code, FLC), 단항 코드(unary code), 혹은 절삭형 이진 코드(truncated binary code) 등 임의의 효율적인 방법이 사용될 수 있다.
일 실시 예에 따르면, 템플릿 매칭 방법을 사용하여 복호화측 움직임 벡터 보정 및 최종 예측 블록 생성이 수행될 수 잇다.
복호화측 움직임 벡터 보정 방법에 있어서, 쌍방 일치 (Bilateral matching, BM) 방법 대신 템플릿 매칭 (Template matching, TM) 방법이 적용될 수 있다. 현재 픽처와 L0 참조 픽처의 시간적 거리와 현재 픽처와 L1 참조 픽처의 시간적 거리의 동일성 여부와 상관없이, 템플릿 매칭 방법이 복호화측 움직임 벡터 보정 방법에 적용될 수 있다.
도 7은 템플릿 매칭 방법 기반의 복호화측 움직임 벡터 보정 방법을 설명한다.
도 7에서 현재 픽처(700)는 t 시간의 픽처이고 L0 참조 픽처(720)와 L1 참조 픽처(740)는 각각 t-M 시간(t-M > 0)과 t+N 시간(t+N > 0)의 픽처이다(t-M < t+N). 여기서 M과 N은 서로 다른 (M < N) 임의의 양의 정수 값이다. 따라서 도 7에서 보듯이 L0 참조 픽처(720)와 현재 픽처(700) 간의 시간적 거리와 L1 참조 픽처(740)와 현재 픽처(700) 간의 시간적 거리는 각각 M과 N으로 동일하지 않다.
도 7에서, 템플릿 매칭 방법을 기반으로 현재 템플릿(current template) (704), L0 참조 템플릿 (L0 reference template) (732), L1 참조 템플릿 (L1 reference template) (752)을 비교함으로써 최종 움직임 벡터 MV0' (728) 및 MV1' (748)이 결정될 수 있다. 그리고 결정된 최종 움직임 벡터 MV0' (728) 및 MV1' (748)로부터 유도된 예측 블록 PL0 (730) 및 PL1 (750)에 기초하여, 최종 예측 블록이 생성될 수 있다.
템플릿 매칭 기반 복호화측 움직임 벡터 보정 방법에서, 일반 머지 모드에서 유도한 L0 방향의 움직임 벡터 MV0 (722)과 L1 방향의 움직임 벡터 MV1 (742)는 초기 움직임 벡터로 결정된다. 그리고 현재 템플릿 (704), L0 참조 템플릿 (732), 및 L1 참조 템플릿 (752)의 왜곡 정도를 최소화하는 움직임 벡터가 상기 두 초기 움직임 벡터를 중심으로 탐색될 수 있다. 그리고 상기 왜곡이 가장 적은 움직임 벡터들이 최종 움직임 벡터 MV0' (728) 및 MV1' (748)로 결정될 수 있다.
상기 MVdiff_L1는 현재 픽처와 L0 참조 픽처의 시간적 거리와 현재 픽처와 L1 참조 픽처의 시간적 거리의 비를 고려하여 MVdiff_L0로부터 계산될 수 있다. MVdiff_L1은 앞서 설명된 수학식 3에 따라 계산될 수 있다. 수학식 3과 반대로, MVdiff_L0이 MVdiff_L1와 현재 픽처와 L0 참조 픽처의 시간적 거리와 현재 픽처와 L1 참조 픽처의 시간적 거리의 비에 기초하여 계산될 수도 있다.
본 발명의 템플릿 매칭 기반 복호화측 움직임 벡터 보정 방법에 따르면, 초기 움직임 벡터 MV0과 MV1를 중심으로 템플릿간 왜곡이 최소화되는 움직임 벡터가 두 참조 픽처에서 검색된다. 이 때, 상기 검색은 초기 움직임 벡터의 보정 움직임 벡터를 나타내는 MVdiff_L0와 MVdiff_L1에 기초하여 수행된다. 상기 MVdiff_L0와 MVdiff_L1는 서로 반대의 부호를 가지며, L0 참조 픽처와 현재 픽처 간의 시간적 거리와 L1 참조 픽처와 현재 픽처 간의 시간적 거리의 비율에 따라, MVdiff_L0와 MVdiff_L1의 크기의 비율이 결정될 수 있다. 상기 MVdiff_L0와 MVdiff_L1를 각각 MV0과 MV1에 더함으로써, 보정된 움직임 벡터 MV0'과 MV1'가 결정된다.
보정된 움직임 벡터 MV0'과 MV1'에 의한 왜곡을 구하기 위하여, MV0'이 지시하는 블록의 참조 템플릿(L0 reference template)과 MV1'이 지시하는 블록의 참조 템플릿(L1 reference template)을 사용하여 최종 템플릿(final template)이 생성된다. 그리고 생성된 최종 템플릿과 현재 템플릿 (current template) 간의 왜곡의 정도가 결정된다. 일정 범위의 MVdiff_L0와 MVdiff_L1에 대한 MV0'과 MV1' 후보들에 대하여 왜곡의 정도가 각각 계산된다. 그리고 왜곡이 최소가 되는 MV0'과 MV1'이 최종 움직임 벡터로 결정된다. 이 때, 절대 차이의 합 (sum of absolute difference, SAD) 혹은 오차의 제곱 합 (sum of squared error, SSE) 등 임의의 왜곡 측정 방법이 사용될 수 있다. 수학식 5와 수학식 6은 L0 참조 템플릿(L0 reference template)과 L1 참조 템플릿(L1 reference template)으로부터 최종 템플릿(final template)을 계산하는 방법을 나타낸다.
수학식 5과 수학식 6에서 TemplateL0, TemplateL1, 그리고 Templatefinal은 각각 L0 참조 템플릿(L0 reference template), L1 참조 템플릿(L1 reference template), 그리고 최종 템플릿을 나타낸다. 수학식 5에 따르면, L0 참조 픽처와 현재 픽처 간의 시간적 거리와 L1 참조 픽처와 현재 픽처 간의 시간적 거리의 비율과 상관없이 두 참조 픽처의 템플릿의 평균으로 최종 템플릿이 계산된다. 반면, 수학식 6에 따르면, L0 참조 픽처와 현재 픽처 간의 시간적 거리와 L1 참조 픽처와 현재 픽처 간의 시간적 거리의 비율에 따라, L0 참조 템플릿과 L1 참조 템플릿으로부터 최종 템플릿이 계산된다. 최종 템플릿은 수학식 5 및 수학식 6 중 임의의 방법을 사용하여 계산될 수 있다.
템플릿 매칭 기반 복호화측 움직임 벡터 보정 방법은 일반 머지 모드로 예측된 양방향 움직임 벡터의 보정에 적용될 수 있다.
이하, 템플릿 매칭 기반 가중 값 결정 방법의 실시 예들이 설명된다.
도 7에 따르면, L0 방향의 초기 움직임 벡터 MV0 (722)과 L1 방향의 초기 움직임 벡터 MV1 (742)로부터 MV0 (722)을 MVdiff_L0 (726)만큼 보정한 움직임 벡터 MV0' (728)와 MV1 (742)을 MVdiff_L1 (746)만큼 보정한 움직임 벡터 MV1' (748)이 획득된다. 그리고 L0 참조 픽처(720)에서 움직임 벡터 MV0' (728)가 나타내는 블록의 L0 참조 템플릿 (732)과 및 L1 참조 픽처(740)에서 움직임 벡터 MV1' (748)가 나타내는 블록의 L1 참조 템플릿 (752)이 결정된다. L0 참조 템플릿(732)과 현재 템플릿(704) 간의 왜곡을 DL0라 하고 L1 참조 템플릿(752)과 현재 템플릿(704) 간의 왜곡을 DL1이라 정의하면 최종 예측 블록은 수학식 7을 사용하여 계산될 수 있다.
수학식 7에 따르면, L0 방향의 예측 블록 PL0의 가중 값(DL1/(DL0+DL1))은 L1 참조 템플릿과 현재 템플릿 간의 왜곡 DL1을 사용하여 계산된다. 그리고 반대로 L1 방향의 예측 블록 PL1의 가중 값(DL0/(DL0+DL1))은 L0 참조 템플릿과 현재 템플릿 간의 왜곡 DL0를 사용하여 계산된다. 이러한 가중 값의 차이는 왜곡 값이 작을수록 현재 신호와 참조 신호의 유사도가 크고, 반대로 왜곡 값이 클수록 현재 신호와 참조 신호의 유사도가 작은 것에서 기인한다. 현재 템플릿과 참조 템플릿의 왜곡은 절대 차이의 합 (sum of absolute difference, SAD) 혹은 오차의 제곱 합 (sum of squared error, SSE) 등 임의의 왜곡 측정 방법에 기초하여 결정될 수 있다.
상기 설명된 복호화측 움직임 벡터 보정 방법에 관한 실시예들은 서로 상충되지 않는 범위 내에서 조합될 수 있다.
복호화측 움직임 벡터 보정 방법에 있어서, 두 참조 픽처와 현재 픽처의 거리 비가 고려될 수 있다. 또는 두 참조 픽처와 현재 픽처의 거리 비를 고려하지 않고 복호화측 움직임 벡터 보정 방법이 수행될 수 있다. 또한 복호화측 움직임 벡터 보정 방법에 있어서, 쌍방 일치 방법 또는 템플릿 매칭 방법이 사용될 수 있다.
움직임 벡터 보정을 위한 가중 값 결정 방법에 있어서, 두 참조 픽처와 현재 픽처 간의 거리 정보가 고려될 수 있다. 또는 비트스트림으로부터 가중 값 정보를 전송/파싱함으로써 가중 값이 결정될 수 있다. 또는 템플릿 매칭 기반 왜곡 값을 기반으로 가중 값이 결정될 수 있다.
따라서 움직임 벡터 보정을 위해 앞에서 언급한 다양한 방법 중 임의의 방법이 사용될 수 있고, 또한 가중 값 결정을 위해 앞에서 언급한 다양한 방법 중 임의의 방법이 사용될 수 있다. 즉, 움직임 벡터 보정 방법과 가중 값 결정 방법은 서로 독립적으로 선택하여 사용될 수 있다.
그러므로 복호기에서 양방향 예측 블록을 선택하기 위한 복호화측 움직임 벡터 보정 방법과 최종 예측 블록을 생성하기 위해 가중 값을 결정하는 방법의 임의의 조합이 구현될 수 있다.
도 8는 일 실시 예에 따른 복호화측 움직임 벡터 보정 방법의 순서도이다.
단계 802에서, 제1 참조 픽처에 대한 현재 블록의 제1 기초 움직임 벡터 및 제2 참조 픽처에 대한 상기 현재 블록의 제2 기초 움직임 벡터가 결정된다. 일 실시예에 따르면, 상기 제1 참조 픽처와 상기 제2 참조 픽처는 상기 현재 블록으로부터 서로 다른 시간적 방향에 위치한다.
단계 804에서, 상기 제1 기초 움직임 벡터를 제1 차분 움직임 벡터만큼 보정함으로써, 제1 보정 움직임 벡터가 결정되고, 상기 제2 기초 움직임 벡터를 제2 차분 움직임 벡터만큼 보정함으로써, 제2 보정 움직임 벡터가 결정된다.
일 실시 예에 따르면, 상기 현재 블록이 포함된 현재 픽처와 상기 제1 참조 픽처의 거리와 상기 현재 픽처와 상기 제2 참조 픽처의 거리가 다른 경우, 상기 제1 보정 움직임 벡터 및 상기 제2 보정 움직임 벡터가 결정될 수 있다. 또는 상기 현재 블록이 포함된 현재 픽처와 상기 제1 참조 픽처의 거리와 상기 현재 픽처와 상기 제2 참조 픽처의 거리의 관계와 상관 없이, 상기 제1 보정 움직임 벡터 및 상기 제2 보정 움직임 벡터가 결정될 수 있다.
일 실시 예에 따르면, 상기 제1 차분 움직임 벡터의 크기와 상기 제2 차분 움직임 벡터의 크기의 비는 상기 현재 픽처와 상기 제1 참조 픽처의 거리와 상기 현재 픽처와 상기 제2 참조 픽처의 거리의 비에 비례하도록 설정될 수 있다.
일 실시 예에 따르면, 상기 제1 차분 움직임 벡터 및 상기 제2 차분 움직임 벡터의 크기는 소정의 범위 내로 한정된다.
일 실시 예에 따르면, 쌍방 일치 기반의 움직임 벡터 탐색에 따라, 상기 제1 보정 움직임 벡터가 가리키는 상기 제1 예측 블록과 상기 제2 보정 움직임 벡터가 가리키는 상기 제2 예측 블록 간의 왜곡이 최소가 되도록, 상기 제1 보정 움직임 벡터 및 상기 제2 보정 움직임 벡터가 결정될 수 있다.
일 실시 예에 따르면, 템플릿 일치 기반의 움직임 벡터 탐색에 따라, 상기 제1 보정 움직임 벡터가 가리키는 상기 제1 예측 블록의 제1 템플릿, 상기 제2 보정 움직임 벡터가 가리키는 상기 제2 예측 블록의 제2 템플릿, 및 상기 현재 블록의 현재 템플릿 간의 왜곡이 최소가 되도록, 상기 제1 보정 움직임 벡터 및 상기 제2 보정 움직임 벡터가 결정될 수 있다. 상기 왜곡은, 상기 제1 템플릿과 상기 제2 템플릿을 가중 평균함으로써 결정된 최종 템플릿과 상기 현재 템플릿에 기초하여 계산될 수 있다.
일 실시 예에 따르면, 상기 제1 템플릿과 상기 제2 템플릿을 가중 평균함에 있어서, 상기 제1 템플릿에 적용되는 제1 가중 값은 상기 현재 픽처와 상기 제2 참조 픽처의 거리에 비례하고, 상기 제2 템플릿에 적용되는 제2 가중 값은 상기 현재 픽처와 상기 제1 참조 픽처의 거리에 비례하도록 설정될 수 있다. 그리고 상기 설정된 제1 가중 값과 제2 가중 값에 기초하여 상기 제1 템플릿과 상기 제2 템플릿의 가중 평균 값이 결정될 수 있다.
단계 806에서, 상기 제1 보정 움직임 벡터 및 상기 제2 보정 움직임 벡터에 기초하여, 상기 현재 블록의 제1 예측 블록 및 제2 예측 블록이 결정된다.
단계 808에서, 상기 제1 예측 블록 및 상기 제2 예측 블록의 가중합에 기초하여, 상기 현재 블록에 대한 최종 예측 블록이 결정된다.
일 실시 예에 따르면, 상기 제1 예측 블록 및 상기 제2 예측 블록의 가중합은, 상기 현재 픽처와 상기 제1 참조 픽처의 거리와 상기 현재 픽처와 상기 제2 참조 픽처의 거리에 따라 결정된 가중 값에 의하여 결정될 수 있다.
일 실시 예에 따르면, 상기 제1 예측 블록에 적용되는 제1 가중 값은 상기 현재 픽처와 상기 제2 참조 픽처의 거리에 비례하고, 상기 제2 예측 블록에 적용되는 제2 가중 값은 상기 현재 픽처와 상기 제1 참조 픽처의 거리에 비례하도록 설정될 수 있다.
일 실시 예에 따르면, 상기 제1 예측 블록에 적용되는 제1 가중 값은 상기 제2 템플릿과 상기 현재 템플릿의 왜곡에 비례하고, 상기 제2 예측 블록에 적용되는 제2 가중 값은 상기 제1 템플릿과 상기 현재 템플릿의 왜곡에 비례하도록 결정될 수 있다.
일 실시 예에 따르면, 상기 제1 예측 블록 및 상기 제2 예측 블록의 가중합은, 상기 현재 블록이 포함된 현재 픽처의 픽처 타입에 기초하여 결정된 가중 값에 의하여 결정될 수 있다.
일 실시 예에 따르면, 상기 제1 예측 블록 및 상기 제2 예측 블록의 가중합은, 비트스트림을 파싱함으로써 생성된 가중 값 정보에 기초하여 결정된 가중 값에 의하여 결정될 수 있다.
복호화기에서, 도 8의 복호화측 움직임 벡터 보정 방법에 따라 복원된 현재 블록의 최종 예측 블록에 기초하여, 현재 블록이 복원될 수 있다. 부호화기에서, 도 8의 복호화측 움직임 벡터 보정 방법에 따라 복원된 현재 블록의 최종 예측 블록에 기초하여, 현재 블록이 부호화될 수 있다.
도 8의 복호화측 움직임 벡터 보정 방법에 적용된 비디오 부호화 방법에 의하여 생성된 비트스트림이 저장된 컴퓨터로 판독가능한 기록매체가 제공될 수 있다. 도 8의 복호화측 움직임 벡터 보정 방법에 적용된 비디오 부호화 방법에 의하여 생성된 비트스트림은 컴퓨터로 기록가능한 기록매체에 저장될 수 있다. 또한 도 8의 복호화측 움직임 벡터 보정 방법에 적용된 비디오 부호화 방법에 의하여 생성된 비트스트림은 비디오 부호화 장치에서 비디오 복호화 장치로 전송될 수 있다.
컴퓨터로 기록가능한 기록매체에 저장된 비디오 데이터에 대한 비트스트림은 도 8의 복호화측 움직임 벡터 보정 방법에 적용된 비디오 복호화 방법에 의하여 복호화 될 수 있다. 또한, 비디오 부호화 장치로부터 비디오 복호화 장치로 전송된 비트스트림은 도 8의 복호화측 움직임 벡터 보정 방법에 적용된 비디오 복호화 방법에 의하여 복호화 될 수 있다.
도 9는 본 발명에 따른 실시예가 적용될 수 있는 컨텐츠 스트리밍 시스템을 예시적으로 나타내는 도면이다.
도 9에 도시된 바와 같이, 본 발명의 실시예가 적용된 컨텐츠 스트리밍 시스템은 크게 인코딩 서버, 스트리밍 서버, 웹 서버, 미디어 저장소, 사용자 장치 및 멀티미디어 입력 장치를 포함할 수 있다.
상기 인코딩 서버는 스마트폰, 카메라, CCTV 등과 같은 멀티미디어 입력 장치들로부터 입력된 컨텐츠를 디지털 데이터로 압축하여 비트스트림을 생성하고 이를 상기 스트리밍 서버로 전송하는 역할을 한다. 다른 예로, 스마트폰, 카메라, CCTV 등과 같은 멀티미디어 입력 장치들이 비트스트림을 직접 생성하는 경우, 상기 인코딩 서버는 생략될 수도 있다.
상기 비트스트림은 본 발명의 실시예가 적용된 영상 부호화 방법 및/또는 영상 부호화 장치에 의해 생성될 수 있고, 상기 스트리밍 서버는 상기 비트스트림을 전송 또는 수신하는 과정에서 일시적으로 상기 비트스트림을 저장할 수 있다.
상기 스트리밍 서버는 웹 서버를 통한 사용자 요청에 기반하여 멀티미디어 데이터를 사용자 장치에 전송하고, 상기 웹 서버는 사용자에게 어떠한 서비스가 있는지를 알려주는 매개체 역할을 할 수 있다. 사용자가 상기 웹 서버에 원하는 서비스를 요청하면, 상기 웹 서버는 이를 스트리밍 서버에 전달하고, 상기 스트리밍 서버는 사용자에게 멀티미디어 데이터를 전송할 수 있다. 이때, 상기 컨텐츠 스트리밍 시스템은 별도의 제어 서버를 포함할 수 있고, 이 경우 상기 제어 서버는 상기 컨텐츠 스트리밍 시스템 내 각 장치 간 명령/응답을 제어하는 역할을 수행할 수 있다.
상기 스트리밍 서버는 미디어 저장소 및/또는 인코딩 서버로부터 컨텐츠를 수신할 수 있다. 예를 들어, 상기 인코딩 서버로부터 컨텐츠를 수신하는 경우, 상기 컨텐츠를 실시간으로 수신할 수 있다. 이 경우, 원활한 스트리밍 서비스를 제공하기 위하여 상기 스트리밍 서버는 상기 비트스트림을 일정 시간동안 저장할 수 있다.
상기 사용자 장치의 예로는, 휴대폰, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 디지털방송용 단말기, PDA(personal digital assistants), PMP(portable multimedia player), 네비게이션, 슬레이트 PC(slate PC), 태블릿 PC(tablet PC), 울트라북(ultrabook), 웨어러블 디바이스(wearable device, 예를 들어, 워치형 단말기 (smartwatch), 글래스형 단말기 (smart glass), HMD(head mounted display)), 디지털 TV, 데스크탑 컴퓨터, 디지털 사이니지 등이 있을 수 있다.
상기 컨텐츠 스트리밍 시스템 내 각 서버들은 분산 서버로 운영될 수 있으며, 이 경우 각 서버에서 수신하는 데이터는 분산 처리될 수 있다.
상기의 실시 예들은 부호화 장치 및 복호화 장치에서 동일한 방법 또는 상응하는 방법으로 수행될 수 있다. 또한, 상기 실시 예들 중 적어도 하나 혹은 적어도 하나의 조합을 이용해서 영상을 부호화/복호화할 수 있다.
상기 실시 예들이 적용되는 순서는 부호화 장치와 복호화 장치에서 상이할 수 있다. 또는, 상기 실시 예들이 적용되는 순서는 부호화 장치와 복호화 장치에서 동일할 수 있다.
상기 실시 예들은 휘도 및 색차 신호 각각에 대하여 수행될 수 있다. 또는, 휘도 및 색차 신호에 대한 상기 실시예들이 동일하게 수행될 수 있다.
상기 실시 예들에서, 방법들은 일련의 단계 또는 유닛으로서 순서도를 기초로 설명되고 있으나, 본 발명은 단계들의 순서에 한정되는 것은 아니며, 어떤 단계는 상술한 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다. 또한, 당해 기술 분야에서 통상의 지식을 가진 자라면 순서도에 나타난 단계들이 배타적이지 않고, 다른 단계가 포함되거나, 순서도의 하나 또는 그 이상의 단계가 본 발명의 범위에 영향을 미치지 않고 삭제될 수 있음을 이해할 수 있을 것이다.
상기 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.
상기 실시예에 따른 부호화 방법에 의해 생성된 비트스트림은 비 일시적인 컴퓨터 판독 가능한 기록 매체에 저장될 수 있다. 또한, 상기 비 일시적인 컴퓨터 판독 가능한 기록 매체에 저장되는 비트스트림은 상기 실시예에 따른 복호화 방법에 의해 복호화될 수 있다.
여기서, 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.
본 발명은 영상을 부호화/복호화하는 장치 및 비트스트림을 저장한 기록 매체에 이용될 수 있다.
Claims (16)
- 비디오 복호화 방법에 있어서,제1 참조 픽처에 대한 현재 블록의 제1 기초 움직임 벡터 및 제2 참조 픽처에 대한 상기 현재 블록의 제2 기초 움직임 벡터를 결정하는 단계;상기 제1 기초 움직임 벡터를 제1 차분 움직임 벡터만큼 보정함으로써, 제1 보정 움직임 벡터를 결정하고, 상기 제2 기초 움직임 벡터를 제2 차분 움직임 벡터만큼 보정함으로써, 제2 보정 움직임 벡터를 결정하는 단계;상기 제1 보정 움직임 벡터 및 상기 제2 보정 움직임 벡터에 기초하여, 상기 현재 블록의 제1 예측 블록 및 제2 예측 블록을 결정하는 단계; 및상기 제1 예측 블록 및 상기 제2 예측 블록의 가중합에 기초하여, 상기 현재 블록에 대한 최종 예측 블록을 결정하는 단계를 포함하는 비디오 복호화 방법.
- 제1 항에 있어서,상기 제1 보정 움직임 벡터 및 상기 제2 보정 움직임 벡터를 결정하는 단계에 있어서,상기 현재 블록이 포함된 현재 픽처와 상기 제1 참조 픽처의 거리와 상기 현재 픽처와 상기 제2 참조 픽처의 거리가 다른 경우, 상기 제1 보정 움직임 벡터 및 상기 제2 보정 움직임 벡터가 결정되는 것을 특징으로 하는 비디오 복호화 방법.
- 제1 항에 있어서,상기 제1 예측 블록 및 상기 제2 예측 블록의 가중합은,상기 현재 픽처와 상기 제1 참조 픽처의 거리와 상기 현재 픽처와 상기 제2 참조 픽처의 거리에 따라 결정된 가중 값에 의하여 결정되는 것을 특징으로 하는 비디오 복호화 방법.
- 제3 항에 있어서,상기 제1 예측 블록에 적용되는 제1 가중 값은 상기 현재 픽처와 상기 제2 참조 픽처의 거리에 비례하고, 상기 제2 예측 블록에 적용되는 제2 가중 값은 상기 현재 픽처와 상기 제1 참조 픽처의 거리에 비례하는 것을 특징으로 하는 비디오 복호화 방법.
- 제1 항에 있어서,상기 제1 보정 움직임 벡터 및 상기 제2 보정 움직임 벡터를 결정하는 단계에 있어서,상기 제1 차분 움직임 벡터의 크기와 상기 제2 차분 움직임 벡터의 크기의 비는 상기 현재 픽처와 상기 제1 참조 픽처의 거리와 상기 현재 픽처와 상기 제2 참조 픽처의 거리의 비에 비례하는 것을 특징으로 하는 비디오 복호화 방법.
- 제1 항에 있어서,상기 제1 차분 움직임 벡터 및 상기 제2 차분 움직임 벡터의 크기는 소정의 범위 내로 한정되는 것을 특징으로 하는 비디오 복호화 방법.
- 제1 항에 있어서,상기 제1 보정 움직임 벡터가 가리키는 상기 제1 예측 블록과 상기 제2 보정 움직임 벡터가 가리키는 상기 제2 예측 블록 간의 왜곡이 최소가 되도록, 상기 제1 보정 움직임 벡터 및 상기 제2 보정 움직임 벡터가 결정되는 것을 특징으로 하는 비디오 복호화 방법.
- 제1 항에 있어서,상기 제1 보정 움직임 벡터가 가리키는 상기 제1 예측 블록의 제1 템플릿, 상기 제2 보정 움직임 벡터가 가리키는 상기 제2 예측 블록의 제2 템플릿, 및 상기 현재 블록의 현재 템플릿 간의 왜곡이 최소가 되도록, 상기 제1 보정 움직임 벡터 및 상기 제2 보정 움직임 벡터가 결정되는 것을 특징으로 하는 비디오 복호화 방법.
- 제8 항에 있어서,상기 왜곡은,상기 제1 템플릿과 상기 제2 템플릿을 가중 평균함으로써 결정된 최종 템플릿과 상기 현재 템플릿에 기초하여 계산되는 것을 특징으로 하는 비디오 복호화 방법.
- 제9 항에 있어서,상기 제1 템플릿과 상기 제2 템플릿을 가중 평균함에 있어서,상기 제1 템플릿에 적용되는 제1 가중 값은 상기 현재 픽처와 상기 제2 참조 픽처의 거리에 비례하고, 상기 제2 템플릿에 적용되는 제2 가중 값은 상기 현재 픽처와 상기 제1 참조 픽처의 거리에 비례하는 것을 특징으로 하는 비디오 복호화 방법.
- 제8 항에 있어서,상기 제1 예측 블록에 적용되는 제1 가중 값은 상기 제2 템플릿과 상기 현재 템플릿의 왜곡에 비례하고, 상기 제2 예측 블록에 적용되는 제2 가중 값은 상기 제1 템플릿과 상기 현재 템플릿의 왜곡에 비례하는 것을 특징으로 하는 비디오 복호화 방법.
- 제1 항에 있어서,상기 제1 예측 블록 및 상기 제2 예측 블록의 가중합은,상기 현재 블록이 포함된 현재 픽처의 픽처 타입에 기초하여 결정된 가중 값에 의하여 결정되는 것을 특징으로 하는 비디오 복호화 방법.
- 제1 항에 있어서,상기 제1 예측 블록 및 상기 제2 예측 블록의 가중합은,비트스트림을 파싱함으로써 생성된 가중 값 정보에 기초하여 결정된 가중 값에 의하여 결정되는 것을 특징으로 하는 비디오 복호화 방법.
- 비디오 부호화 방법에 있어서,제1 참조 픽처에 대한 현재 블록의 제1 기초 움직임 벡터 및 제2 참조 픽처에 대한 상기 현재 블록의 제2 기초 움직임 벡터를 결정하는 단계;상기 제1 기초 움직임 벡터를 제1 차분 움직임 벡터만큼 보정함으로써, 제1 보정 움직임 벡터를 결정하고, 상기 제2 기초 움직임 벡터를 제2 차분 움직임 벡터만큼 보정함으로써, 제2 보정 움직임 벡터를 결정하는 단계;상기 제1 보정 움직임 벡터 및 상기 제2 보정 움직임 벡터에 기초하여, 상기 현재 블록의 제1 예측 블록 및 제2 예측 블록을 결정하는 단계; 및상기 제1 예측 블록 및 상기 제2 예측 블록의 가중합에 기초하여, 상기 현재 블록에 대한 최종 예측 블록을 결정하는 단계를 포함하는 비디오 부호화 방법.
- 비디오 부호화 방법에 의하여 생성된 비트스트림을 저장한 컴퓨터로 판독가능한 기록매체에 있어서,상기 비디오 부호화 방법은,제1 참조 픽처에 대한 현재 블록의 제1 기초 움직임 벡터 및 제2 참조 픽처에 대한 상기 현재 블록의 제2 기초 움직임 벡터를 결정하는 단계;상기 제1 기초 움직임 벡터를 제1 차분 움직임 벡터만큼 보정함으로써, 제1 보정 움직임 벡터를 결정하고, 상기 제2 기초 움직임 벡터를 제2 차분 움직임 벡터만큼 보정함으로써, 제2 보정 움직임 벡터를 결정하는 단계;상기 제1 보정 움직임 벡터 및 상기 제2 보정 움직임 벡터에 기초하여, 상기 현재 블록의 제1 예측 블록 및 제2 예측 블록을 결정하는 단계; 및상기 제1 예측 블록 및 상기 제2 예측 블록의 가중합에 기초하여, 상기 현재 블록에 대한 최종 예측 블록을 결정하는 단계를 포함하는 기록매체.
- 비디오 부호화 방법에 의하여 생성된 비트스트림을 전송하는 비트스트림 전송 방법에 있어서,상기 비디오 부호화 방법에 기초하여 영상을 부호화하는 단계; 및상기 부호화된 영상이 포함된 비트스트림을 전송하는 단계를 포함하고,상기 비디오 부호화 방법은,제1 참조 픽처에 대한 현재 블록의 제1 기초 움직임 벡터 및 제2 참조 픽처에 대한 상기 현재 블록의 제2 기초 움직임 벡터를 결정하는 단계;상기 제1 기초 움직임 벡터를 제1 차분 움직임 벡터만큼 보정함으로써, 제1 보정 움직임 벡터를 결정하고, 상기 제2 기초 움직임 벡터를 제2 차분 움직임 벡터만큼 보정함으로써, 제2 보정 움직임 벡터를 결정하는 단계;상기 제1 보정 움직임 벡터 및 상기 제2 보정 움직임 벡터에 기초하여, 상기 현재 블록의 제1 예측 블록 및 제2 예측 블록을 결정하는 단계; 및상기 제1 예측 블록 및 상기 제2 예측 블록의 가중합에 기초하여, 상기 현재 블록에 대한 최종 예측 블록을 결정하는 단계를 포함하는 비트스트림 전송 방법.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2022-0030592 | 2022-03-11 | ||
KR20220030592 | 2022-03-11 | ||
KR1020230028852A KR20230133775A (ko) | 2022-03-11 | 2023-03-06 | 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체 |
KR10-2023-0028852 | 2023-03-06 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023172002A1 true WO2023172002A1 (ko) | 2023-09-14 |
Family
ID=87935353
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2023/003020 WO2023172002A1 (ko) | 2022-03-11 | 2023-03-06 | 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체 |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2023172002A1 (ko) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190095348A (ko) * | 2017-01-04 | 2019-08-14 | 삼성전자주식회사 | 비디오 복호화 방법 및 그 장치 및 비디오 부호화 방법 및 그 장치 |
KR20200027487A (ko) * | 2011-06-21 | 2020-03-12 | 한국전자통신연구원 | 인터 예측 방법 및 그 장치 |
KR20210153548A (ko) * | 2020-06-10 | 2021-12-17 | 주식회사 케이티 | 비디오 신호 부호화/복호화 방법 및 장치, 그리고 비트스트림을 저장한 기록 매체 |
KR20220003027A (ko) * | 2019-06-21 | 2022-01-07 | 항조우 힉비젼 디지털 테크놀로지 컴퍼니 리미티드 | 인코딩 및 디코딩 방법, 장치 및 그 기기 |
-
2023
- 2023-03-06 WO PCT/KR2023/003020 patent/WO2023172002A1/ko unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200027487A (ko) * | 2011-06-21 | 2020-03-12 | 한국전자통신연구원 | 인터 예측 방법 및 그 장치 |
KR20190095348A (ko) * | 2017-01-04 | 2019-08-14 | 삼성전자주식회사 | 비디오 복호화 방법 및 그 장치 및 비디오 부호화 방법 및 그 장치 |
KR20220003027A (ko) * | 2019-06-21 | 2022-01-07 | 항조우 힉비젼 디지털 테크놀로지 컴퍼니 리미티드 | 인코딩 및 디코딩 방법, 장치 및 그 기기 |
KR20210153548A (ko) * | 2020-06-10 | 2021-12-17 | 주식회사 케이티 | 비디오 신호 부호화/복호화 방법 및 장치, 그리고 비트스트림을 저장한 기록 매체 |
Non-Patent Citations (1)
Title |
---|
Z. LV (VIVO), C. ZHOU (VIVO), J. ZHANG (VIVO): "Non-EE2: Template Matching-based OBMC Design", 25. JVET MEETING; 20220112 - 20220121; TELECONFERENCE; (THE JOINT VIDEO EXPLORATION TEAM OF ISO/IEC JTC1/SC29/WG11 AND ITU-T SG.16 ), 13 January 2022 (2022-01-13), XP030300298 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020166897A1 (ko) | Dmvr 기반의 인터 예측 방법 및 장치 | |
WO2020184991A1 (ko) | Ibc 모드를 이용한 영상 부호화/복호화 방법, 장치 및 비트스트림을 전송하는 방법 | |
WO2021137597A1 (ko) | Ols에 대한 dpb 파라미터를 사용하는 영상 디코딩 방법 및 그 장치 | |
WO2021015512A1 (ko) | Ibc를 이용한 영상 부호화/복호화 방법, 장치 및 비트스트림을 전송하는 방법 | |
WO2024005616A1 (ko) | 영상 인코딩/디코딩 방법 및 장치, 그리고 비트스트림을 저장한 기록 매체 | |
WO2020055208A1 (ko) | 인트라 예측을 수행하는 영상 예측 방법 및 장치 | |
WO2019031842A1 (ko) | 영상 처리 방법 및 이를 위한 장치 | |
WO2023172002A1 (ko) | 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체 | |
WO2024043666A1 (ko) | 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체 | |
WO2024144118A1 (ko) | 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체 | |
WO2019194462A1 (ko) | 인터 예측 모드 기반 영상 처리 방법 및 이를 위한 장치 | |
WO2023171988A1 (ko) | 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체 | |
WO2023239147A1 (ko) | 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체 | |
WO2024210648A1 (ko) | 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체 | |
WO2024147600A1 (ko) | 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체 | |
WO2024080849A1 (ko) | 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체 | |
WO2023200206A1 (ko) | 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체 | |
WO2024005456A1 (ko) | 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체 | |
WO2024210624A1 (ko) | 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체 | |
WO2024191219A1 (ko) | 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체 | |
WO2024191221A1 (ko) | 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체 | |
WO2024025370A1 (ko) | 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체 | |
WO2024191196A1 (ko) | 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체 | |
WO2023249353A1 (ko) | 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체 | |
WO2023200214A1 (ko) | 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 23767103 Country of ref document: EP Kind code of ref document: A1 |