ES2981908T3

ES2981908T3 - Métodos y dispositivos para aplicar de forma selectiva el flujo óptico bidireccional y el refinamiento del vector de movimiento en el decodificador para la codificación de video

Info

Publication number: ES2981908T3
Application number: ES20752247T
Authority: ES
Inventors: Xiaoyu Xiu; Xianglin Wang; Tsung-Chuan Ma; Yi-Wen Chen
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-02-08
Filing date: 2020-02-08
Publication date: 2024-10-11
Anticipated expiration: 2040-02-08
Also published as: CN113965746B; CN116886925B; CN116828185A; FI3909247T3; US20210368166A1; CN113424537A; EP4333435A2; WO2020163837A1; KR102409275B1; JP2024114809A; EP3909247A4; EP4333435A3; CN114286101B; CN115209159B; MX2021009529A; EP3909247A1; KR20210132247A; JP7339395B2; PL3909247T3; CN111294598A

Abstract

Los métodos de aplicación selectiva de flujo óptico bidireccional (BDOF) y refinamiento de vector de movimiento del lado del decodificador (DMVR) en bloques codificados entre modos empleados en estándares de codificación de video, como el diseño de codificación de video versátil (VVC) ahora vigente, se llevan a cabo en un dispositivo informático. En un método, cuando un bloque actual es elegible para ambas aplicaciones de DMVR y BDOF en función de una pluralidad de condiciones predefinidas, el dispositivo informático utiliza un criterio predefinido para clasificar el bloque actual y luego utiliza la clasificación para aplicar BDOF o DMVR, pero no ambos, en el bloque. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Métodos y dispositivos para aplicar de forma selectiva el flujo óptico bidireccional y el refinamiento del vector de movimiento en el decodificador para la codificación de video

Campo de la invención

La presente descripción en general se refiere a la codificación y compresión de video. De manera más específica, esta descripción se refiere a sistemas y métodos para realizar la codificación de videos con el uso de aplicaciones selectivas de flujo óptico bidireccional y refinamiento del vector de movimiento en el decodificador en bloques codificados en inter-modo.

Antecedentes de la invención

Esta sección proporciona información de antecedentes relacionada con la presente descripción. La información contenida en esta sección no necesariamente se debe interpretar en el sentido de que forma parte de la técnica anterior.

Se pueden usar diversas técnicas de codificación de video para comprimir datos de video. La codificación de video se puede realizar de acuerdo con uno o varios estándares de codificación de video. Algunos estándares de codificación de video ilustrativos incluyen la codificación de video versátil (VVC, por sus siglas en inglés), la codificación de modelos de prueba de exploración conjunta (JEM, por sus siglas en inglés), la codificación de videos de alta eficiencia (H.265/HEVC, por sus siglas en inglés), la codificación avanzada de video (H.264/AVC, por sus siglas en inglés) y la codificación de grupo de expertos en imágenes en movimiento (MPEG, por sus siglas en inglés).

La codificación de video por lo general usa métodos de predicción (por ejemplo, inter-predicción, intra-predicción o similares) que aprovechan la redundancia inherente en las imágenes o secuencias de video. Un objetivo de las técnicas de codificación de video es comprimir los datos de video en un formato que use una menor velocidad de bits y, al mismo tiempo, evitar o minimizar las degradaciones de la calidad del video.

Los métodos predictivos que se usan en la codificación de video normalmente incluyen realizar predicciones espaciales (intra-fotograma) y/o predicciones temporales (inter-fotograma) para reducir o eliminar la redundancia inherente en los datos de video, y normalmente se asocian con la codificación de video basada en bloques.

En la codificación de video basada en bloques, la señal de video de entrada se procesa bloque por bloque. Para cada bloque (también conocido como unidad de codificación (CU, por sus siglas en inglés)), se puede realizar una predicción espacial y/o una predicción temporal.

La predicción espacial (también conocida como “intra-predicción”) usa píxeles de las muestras de bloques contiguos ya codificados (que se denominan muestras de referencia) en la misma imagen/segmento de video para predecir el bloque actual. La predicción espacial reduce la redundancia espacial inherente en la señal de video.

Durante el proceso de decodificación, el flujo de bits se somete primero a una decodificación de entropía en la unidad de decodificación de entropía. El modo de codificación y la información de predicción se envían a la unidad de predicción espacial (en la intra-codificación) o a la unidad de predicción temporal (en la inter-codificación) para formar el bloque de predicción. Los coeficientes residuales de transformada se envían a la unidad de cuantificación inversa y a la unidad de transformada inversa para reconstruir el bloque residual. Después, se hace la suma del bloque de predicción y el bloque residual. El bloque reconstruido también se puede someter a un filtrado en bucle antes de almacenarlo en el almacén de imágenes de referencia. Posteriormente, el video reconstruido en el almacenamiento de imágenes de referencia se envía para accionar un dispositivo de visualización, y también se usa para predecir futuros bloques de video.

En los estándares de codificación de video más recientes, tal como el diseño de la versión actual del VVC, se han introducido nuevas herramientas de codificación en inter-modo, tal como el flujo óptico bidireccional (BDOF, por sus siglas en inglés) y el refinamiento del vector de movimiento en el decodificador (DMVR, por sus siglas en inglés). Estas nuevas herramientas de codificación en inter-modo por lo general ayudan a aumentar la eficiencia de la predicción con compensación de movimiento y, por tanto, mejoran la ganancia de codificación. Sin embargo, tal mejora puede ir acompañada del costo asociado a un aumento en la complejidad y la latencia.

Para lograr un equilibrio adecuado entre la mejora y el costo asociado a las nuevas herramientas de codificación en inter-modo, el diseño de la versión actual del VVC presenta restricciones en lo que respecta a cuándo habilitar las nuevas herramientas de codificación en inter-modo, tales como DMVR y BDOF, en un bloque codificado en inter-modo.

Sin embargo, las restricciones presentes en el diseño de la versión actual del VVC no necesariamente logran el mejor equilibrio entre la mejora y el costo. Por un lado, las restricciones presentes en el diseño de la versión actual del VVC permiten que tanto el DMVR como el BDOF se apliquen en el mismo bloque codificado en inter-modo, lo que aumenta la latencia debido a la dependencia entre las operaciones de las dos herramientas. Por otro lado, las restricciones presentes en el diseño de la versión actual del VVC pueden ser excesivamente permisivas en determinados casos en lo que respecta al DMVR, lo que da como resultado un aumento innecesario en la complejidad y la latencia, mientras que en algunos casos es poco permisivo en lo que respecta al BDOF, lo que da como resultado una oportunidad perdida de mejorar la ganancia de codificación.

Breve descripción de la invención

En esta sección se proporciona una breve descripción general de la descripción, pero no se trata de una descripción exhaustiva de su alcance total o de todos sus atributos.

De acuerdo con un primer aspecto de la presente descripción, un método de codificación de video se realiza en un dispositivo de cómputo que tiene uno o más procesadores y memoria que almacena una pluralidad de programas que se ejecutarán a través del o los procesadores. El método incluye clasificar un bloque actual elegible para ambas aplicaciones de DMVR y BDOF con base en una pluralidad de condiciones predefinidas en una de dos clases predefinidas, a saber, la clase DMVR y la clase BDOF, con el uso de un criterio predefinido basado en la información de modo del bloque actual. El método también incluye usar la clasificación del bloque actual al aplicar el DMVR o el BDOF, pero no ambos, al bloque actual.

De acuerdo con un segundo aspecto de la presente descripción, un método de codificación de video se realiza en un dispositivo de cómputo que tiene uno o más procesadores y memoria que almacena una pluralidad de programas que se ejecutarán a través del o los procesadores. El método incluye determinar si la predicción ponderada se habilita para un bloque actual elegible para la codificación por DMVR con base en una pluralidad de condiciones predefinidas. El método también incluye determinar si se usan diferentes ponderaciones al promediar las muestras de predicción de la lista 0 y las muestras de predicción de la lista 1 para el bloque actual. El método también incluye determinar si se deshabilita alguna aplicación de DMVR en el bloque actual con base en las dos determinaciones.

De acuerdo con un tercer aspecto de la presente descripción, un método de codificación de video se realiza en un dispositivo de cómputo que tiene uno o más procesadores y memoria que almacena una pluralidad de programas que se ejecutarán a través del o los procesadores. El método incluye habilitar la aplicación de BDOF en un bloque actual cuando el bloque actual se codifica como un modo de fusión de sub-bloques.

De acuerdo con un cuarto aspecto de la presente solicitud, un dispositivo de cómputo incluye uno o más procesadores, memoria y una pluralidad de programas almacenados en la memoria. Los programas, cuando se ejecutan a través del o los procesadores, hacen que el dispositivo de cómputo realice las operaciones antes descritas en los tres primeros aspectos de la presente solicitud.

Breve descripción de los dibujos

A continuación, se describirán conjuntos de realizaciones ilustrativas y no limitativas de la presente descripción junto con los dibujos anexos. Los expertos en la técnica relevante pueden implementar variaciones en la estructura, el método o la funcionalidad con base en los ejemplos que aquí se presentan, y tales variaciones se encuentran dentro del alcance de la presente descripción. En los casos en que no exista ningún conflicto, las enseñanzas de las diferentes realizaciones se pueden combinar entre sí, aunque no es necesario hacerlo.

La Figura 1 es un diagrama de bloques que muestra de forma ilustrativa un codificador de video híbrido basado en bloques que se puede usar junto con muchos estándares de codificación de video.

La Figura 2 es un diagrama de bloques que muestra de forma ilustrativa un decodificador de video que se puede usar junto con muchos estándares de codificación de video.

La Figura 3 es una ilustración de las divisiones de bloque en una estructura de árbol de múltiples tipos que se pueden usar junto con muchos estándares de codificación de video.

La Figura 4 es una ilustración del proceso del flujo óptico bidireccional (BDOF).

La Figura 5 es una ilustración de la coincidencia bilateral usada en el refinamiento del vector de movimiento en el decodificador (DMVR).

La Figura 6 es un diagrama de flujo que ilustra la operación del primer aspecto de la presente descripción.

La Figura 7 es un diagrama de flujo que ilustra la operación del segundo aspecto de la presente descripción.

La Figura 8 es un diagrama de flujo que ilustra la operación del tercer aspecto de la presente descripción.

Descripción detallada de la invención

Los términos usados en la presente descripción tienen por objeto ilustrar ejemplos específicos y no el de limitar la presente descripción. Las formas en singular “un/uno/una” y “el/la” que se usan en la presente descripción, así como en las reivindicaciones anexas, también hacen referencia a las formas en plural, a menos que otros significados se definan claramente en el contexto. Se debe observar que el término “y/o”, en la forma usada en la presente, hace referencia a todas las posibles combinaciones de uno o más elementos enumerados asociados.

Se entenderá que, aunque los términos “primero”, “segundo”, “tercero”, etc., se pueden usar en la presente para describir diversos tipos de información, la información no se debe ver limitada en virtud de tales términos. Estos términos sólo se usan para hacer la distinción entre una clase de información de otra. Por ejemplo, sin apartarse del alcance de la presente descripción, la primera información se puede denominar como segunda información; de igual modo, la segunda información también se puede denominar primera información. Como se usa en este documento, el término “si” se puede entender como “cuando” o “después de” o “en respuesta a”, dependiendo del contexto.

La referencia a lo largo de la especificación a “una realización”, “otra realización” o similar, ya sea en singular o en plural, significa que uno o más atributos, estructuras o características particulares que se describen en relación con una realización ejemplar, se incluyen por lo menos en una realización de la presente descripción. De este modo, la aparición de las frases “en una realización”, “en otra realización” o similares, ya sea en singular o en plural, en distintas partes a lo largo de esta especificación, no necesariamente se refieren todas a la misma realización. Además, los atributos, estructuras o características particulares en una o más realizaciones se pueden combinar de cualquier forma adecuada.

De manera conceptual, muchos estándares de codificación de video son similares, incluidos los que se mencionaron anteriormente en la sección de antecedentes. Por ejemplo, prácticamente todos los estándares de codificación de video usan un procesamiento basado en bloques y comparten diagramas de bloques de codificación de video similares para lograr la compresión del video.

La Figura 1 muestra de forma ilustrativa un diagrama de bloques de un codificador de video híbrido basado en bloques 100 que se puede usar junto con muchos estándares de codificación de video. En el codificador 100, un fotograma de video se divide en una pluralidad de bloques de video para su procesamiento. Para cada bloque de video dado, se forma una predicción con base ya sea en un enfoque de inter-predicción o en un enfoque de intrapredicción. En la inter-predicción, uno o más predictores se forman a través de la estimación del movimiento y la compensación del movimiento, con base en los píxeles de los fotogramas previamente reconstruidos. En la intrapredicción, los predictores se forman con base en los píxeles reconstruidos en un fotograma actual. A través de la decisión de modo, se puede elegir un mejor predictor para predecir un bloque actual.

Un residual de predicción, el cual representa la diferencia entre un bloque de video actual y su predictor, se envía a un circuito de transformada 102. Después, los coeficientes de transformada se envían del circuito de transformada 102 a un circuito de cuantificación 104 para la reducción de entropía. Posteriormente, los coeficientes cuantificados se alimentan al circuito de codificación de entropía 106 para generar un flujo de bits de video comprimidos. Como se muestra en la Figura 1, la información relacionada con la predicción 110 y que proviene de un circuito de inter-predicción y/o de un circuito de intra-predicción 112, tal como información de la división de bloques de video, vectores de movimiento, índice de imágenes de referencia y modo intra-predicción, también se alimenta a través del circuito de codificación de entropía 106 y se guarda en un flujo de bits de video comprimidos 114.

En el codificador 100, también se necesitan circuitos relacionados con el decodificador para la reconstrucción de píxeles para fines de predicción. En primer lugar, un residual de predicción se reconstruye a través de una cuantificación inversa 116 y un circuito de transformada inversa 118. Este residual de predicción reconstruido se combina con un predictor de bloque 120 para generar píxeles reconstruidos sin filtrar para un bloque de video actual.

La predicción temporal (también referida como “inter-predicción” o “predicción con compensación de movimiento”) usa píxeles reconstruidos de las imágenes de video ya codificadas para predecir el bloque de video actual. La predicción temporal reduce la redundancia temporal inherente en la señal de video. Una señal de predicción temporal para una CU determinada usualmente se señaliza mediante uno o más vectores de movimiento (MV, por sus siglas en inglés) que indican la cantidad y la dirección de movimiento entre la CU actual y su referencia temporal. De igual modo, si se admiten múltiples imágenes de referencia, adicionalmente se envía un índice de imagen de referencia, el cual se usa para identificar de qué imagen de referencia en el almacenamiento de imágenes de referencia proviene la señal de predicción temporal.

Después de realizar la predicción espacial y/o temporal, un circuito de decisión de modo intra/inter en el codificador 100 elige el mejor modo de predicción, por ejemplo con base en el método de optimización de la distorsión de velocidad. Después, el predictor de bloque se sustrae del bloque de video actual y el residual de predicción resultante se descorrelaciona con el uso del circuito de transformada 102 y el circuito de cuantificación 104. A los coeficientes residuales cuantificados resultantes se les aplica una cuantificación inversa mediante el circuito de cuantificación inversa 116, así como una transformada inversa mediante el circuito de transformada inversa 118, para formar el residual reconstruido, el cual después se agrega nuevamente al bloque de predicción para formar la señal reconstruida de la CU. Un filtrado adicional en bucle 115, tal como un filtro de desbloqueo, una desviación adaptativa de acuerdo con la muestra (SAO, por sus siglas en inglés) y/o un filtro en bucle adaptativo (ALF, por sus siglas en inglés), se puede aplicar, a la CU reconstruida antes de colocarla en el almacenamiento de imágenes de referencia de la memoria intermedia de imágenes 117 y usarla para codificar futuros bloques de video. Para formar el flujo de bits de video de salida, tanto un modo de codificación (inter o intra), como la información de modo de predicción, la información de movimiento y los coeficientes residuales cuantificados se envían a la unidad de codificación de entropía 106 para su posterior compresión y empaquetado para formar el flujo de bits.

Por ejemplo, un filtro de desbloqueo está disponible en AVC y HEVC, así como en la versión actual del VVC. En el HEVC, se define un filtro en bucle adicional denominado SAO (desviación adaptativa de acuerdo con la muestra) para mejorar aún más la eficiencia de codificación. En la versión actual del estándar VVC, otro filtro en bucle denominado ALF (filtro de bucle adaptativo) está sujeto a una investigación activa y existe una alta probabilidad de que se incluya en el estándar final.

Estas operaciones del filtro en bucle son opcionales. La realización de estas operaciones ayuda a mejorar la eficiencia de codificación y la calidad visual. Las operaciones también se pueden desactivar como una decisión presentada por el codificador 100 con el fin de evitar la complejidad computacional.

Se debe señalar que la intra-predicción por lo general se basa en píxeles reconstruidos sin filtrar, mientras que la inter-predicción se basa en píxeles reconstruidos filtrados si el codificador 100 activa estas opciones de filtrado.

La Figura 2 es un diagrama de bloques que muestra de forma ilustrativa un decodificador de video 200 que se puede usar junto con muchos estándares de codificación de video. Este decodificador 200 es similar a la sección relacionada con la reconstrucción que reside en el codificador 100 de la Figura 1. En el decodificador 200 (Figura 2), un flujo de bits de video entrante 201 primero se decodifica a través de una decodificación de entropía 202 para derivar los niveles de coeficiente cuantificados y la información relacionada con la predicción. Después, los niveles de coeficiente cuantificados se procesan a través de una cuantificación inversa 204 y una transformada inversa 206 para obtener un residual de predicción reconstruido. un mecanismo de predicción de bloques, implementado en un selector de modo intra/inter 212 se configura para realizar una intra-predicción 208 o una compensación de movimiento 210 con base en la información de predicción decodificada. Un conjunto de píxeles reconstruidos sin filtrar se obtiene al sumar el residual de predicción reconstruido de la transformada inversa 206 y un resultado predictivo generado por el mecanismo de predicción de bloques, con el uso de una sumadora 214.

El bloque reconstruido también se puede someter a un filtrado en bucle 209 antes de almacenarlo en la memoria intermedia de imágenes 213, la cual funciona como un almacenamiento de imágenes de referencia. Posteriormente, el video reconstruido en la memoria intermedia de imágenes se puede enviar para accionar un dispositivo de visualización, y también se puede usar para predecir futuros bloques de video. En situaciones en las que se activa un filtro en bucle 209, se realiza una operación de filtrado en esos píxeles reconstruidos para derivar una salida de video reconstruido 222.

En estándares de codificación de video, tales como el HEVC, los bloques se pueden dividir con base en árboles cuaternarios. En los estándares de codificación de video más recientes, tales como la versión actual del VVC, se emplean más métodos de división y una unidad de árbol de codificación (CTU, por sus siglas en inglés) se puede dividir en unidades de codificación (CU) para adaptarse a las distintas características locales con base en árboles cuaternarios, árboles binarios o árboles ternarios. La separación de la CU, la unidad de predicción (PU) y la unidad de transformada (TU) no existe en la mayoría de los modos de codificación en la versión actual del VVc , y cada CU siempre se usa como la unidad básica tanto para la predicción como para la transformada sin divisiones adicionales. Sin embargo, en algunos modos de codificación específicos, tal como el modo de intra-codificación de sub-divisiones, cada CU aún puede contener múltiples TU. En la estructura de árbol de múltiples tipos, una CTU se divide primero en una estructura de árbol cuaternario. Después, cada nodo de hoja de árbol cuaternario también se puede dividir en una estructura de árbol binario y ternario.

La Figura 3 muestra los cinco tipos de división empleados en la versión actual del VVC, a saber, la partición cuaternaria 301, la partición binaria horizontal 302, la partición binaria vertical 303, la partición ternaria horizontal 304 y la partición ternaria vertical 305. En situaciones en las que se usa la estructura de árbol de múltiples tipos, una CTU se divide primero en una estructura de árbol cuaternario. Después, cada nodo de hoja de árbol cuaternario también se puede dividir en una estructura de árbol binario y ternario.

Con el uso de una o más de las particiones de bloque ejemplares 301, 302, 303, 304 o 305 de la Figura 3, la predicción espacial y/o la predicción temporal se puede realizar con el uso de la configuración que se muestra en la Figura 1. La predicción espacial (o “intra-predicción”) usa píxeles de las muestras de bloques contiguos ya codificados (que se denominan muestras de referencia) en la misma imagen/segmento de video para predecir el bloque de video actual. La predicción espacial reduce la redundancia espacial inherente en la señal de video.

En los estándares de codificación de video más recientes, tal como la nueva versión del VVC, se han introducido nuevas herramientas de codificación en inter-modo, y dos ejemplos de las nuevas herramientas de codificación en inter-modo son: el flujo óptico bidireccional (BDOF) y el refinamiento de vector de movimiento en el decodificador (DMVR).

La bi-predicción convencional en la codificación de video es una combinación simple de dos bloques de predicción temporal obtenidos de las imágenes de referencia que ya se reconstruyeron. Sin embargo, debido a la limitación de la compensación de movimiento basada en bloques, podría haber un ligero movimiento restante que se puede observar entre las muestras de dos bloques de predicción, lo que reduce de este modo la eficiencia de predicción con compensación de movimiento. Para solucionar este problema, el BDOF se aplica en el diseño de la nueva versión del VVC para reducir la afectación de ese movimiento en cada muestra que se encuentre dentro de un bloque.

La Figura 4 es una ilustración del proceso del BDOF. El BDOF es un refinamiento de movimiento basado en muestras que se realiza adicionalmente a las predicciones con compensación de movimiento basadas en bloques cuando se usa la bi-predicción. El refinamiento de movimiento de cada sub-bloque 401 de 4 x 4 se calcula al minimizar una diferencia entre las muestras de predicción 402 y 403 de la lista 0 (L0) de imágenes de referencia y de la lista 1 (L1) de imágenes de referencia después de aplicar el BDOF dentro de una ventana de 6 x 6 alrededor del sub-bloque. Con base en el refinamiento de movimiento derivado de este modo, las muestras de bi-predicción final de la CU se calculan al interpolar las muestras de predicción de L0/L1 a lo largo de la trayectoria de movimiento con base en el modelo de flujo óptico.

El DMVR es una técnica de bi-predicción para bloques de fusión con dos MV inicialmente señalizadas que también se pueden refinar mediante la predicción de coincidencia bilateral.

La Figura 5 es una ilustración de la coincidencia bilateral usada en el DMVR. La coincidencia bilateral se usa para derivar información de movimiento de la CU 501 actual mediante la búsqueda de la coincidencia más cercana entre dos bloques 503 y 504 a lo largo de la trayectoria de movimiento 502 de la CU 501 actual en dos imágenes de referencia 505 y 506 diferentes. La función de costos usada en el proceso de coincidencia es la suma de diferencias absolutas (SAD, por sus siglas en inglés) determinada por sub-muestreo en filas. Una vez realizado el proceso de coincidencia, los MV 507 y 508 refinados se usan para la compensación de movimiento en la etapa de predicción, en el cálculo de la intensidad de contorno en el filtro de desbloqueo, la predicción de vector de movimiento temporal para imágenes posteriores y la predicción de vector de movimiento espacial en CTU cruzada para las CU posteriores. En el supuesto de una trayectoria de movimiento continuo, los vectores de movimiento MV0 507 y MV1 508 que apuntan hacia los dos bloques de referencia 503 y 504 deben ser proporcionales a las distancias temporales, es decir, TD0509 y TD1 510 (por sus siglas en inglés), entre la imagen actual 511 y las dos imágenes de referencia 505 y 506. En un caso especial, cuando la imagen actual 511 se encuentra temporalmente entre las dos imágenes de referencia 505 y 506 y la distancia temporal desde la imagen actual 511 hasta las dos imágenes de referencia 505 y 506 es la misma, la coincidencia bilateral se convierte en un MV bidireccional basado en espejo.

Para conseguir un equilibrio adecuado, por una parte, entre el aumento de la eficacia de codificación que las herramientas de codificación en inter-modo más recientes pueden aportar, tales como el BDOF y el DMVR, y, por otra parte, el aumento de la complejidad y la latencia asociadas con las herramientas de codificación en inter-modo más recientes, el diseño de la versión actual del VVC incluye restricciones en lo que respecta a cuándo se puede habilitar el BDOF o el DMVR para un bloque actual.

En el diseño de la versión actual del VVC, la función del BDOF se habilita solo cuando se mantienen todas las condiciones predefinidas del BDOF que se mencionan en la siguiente tabla:

En el diseño de la versión actual del VVC, la función del DMVR se habilita solo cuando se mantienen todas las condiciones predefinidas del DMVR que se mencionan en la siguiente tabla:

Las restricciones anteriores presentes en el diseño de la versión actual del VVC, aunque contribuyen a conseguir el equilibrio deseado entre la eficiencia de la codificación, por un lado, y la complejidad y la latencia, por otro lado, no resuelven por completo el problema.

Otro problema que presenta el diseño de la versión actual del VVC consiste en que, aunque ya se aplican varias restricciones a la habilitación del BDOF y DMVR, en algunos casos las dos herramientas de refinamiento de inter predicción en el decodificador, BDOF y DMVR, se pueden habilitar al codificar un bloque. En el diseño de la versión actual del VVC, cuando se habilitan las dos herramientas de refinamiento de inter-predicción en el decodificador, el BDOF depende de las muestras finales de DMVR con compensación de movimiento, lo que crea problemas de latencia para el diseño de hardware.

Un segundo problema que presenta el diseño de la versión actual del VVC es que, aunque ya se aplican varias restricciones a la habilitación del DMVR, las restricciones en su conjunto siguen siendo excesivamente permisivas en lo que respecta a la habilitación del DMVR, ya que existen casos en los que deshabilitar el DMVR y la consiguiente reducción de la complejidad y la latencia podrían conseguir un mejor equilibrio entre la eficiencia de la codificación, por un lado, y la complejidad y la latencia, por otro lado; sin embargo, el diseño de la versión actual del VVC habilitará el DMVR en estos casos.

Un tercer problema que presenta el diseño de la versión actual del VVC consiste en que las restricciones ya aplicadas a la habilitación de BDOF son en su conjunto poco permisivas en lo que respecta a la habilitación del BDOF, ya que existen casos en los que la habilitación del BDOF y el consiguiente aumento de la ganancia de codificación conseguirían un mejor equilibrio entre la eficiencia de la codificación, por un lado, y la complejidad y la latencia, por otro lado; sin embargo, el diseño de la versión actual del VVC no habilitará el BDOF en estos casos.

De acuerdo con un primer aspecto de la presente descripción, un bloque actual elegible para ambas aplicaciones de DMVR y BDOF con base en una pluralidad de condiciones predefinidas, el bloque actual se clasificará en una de dos clases predefinidas, a saber, la clase DMVR y la clase BDOF, con el uso de un criterio predefinido basado en la información de modo del bloque actual. Posteriormente, la clasificación del bloque actual se usará al aplicar el DMVR o el BDOF, pero no ambos, en el bloque actual. Este método se puede combinar con la versión actual del VVC, además de las condiciones predefinidas antes mencionadas, o se puede implementar de forma independiente.

La Figura 6 es un diagrama de flujo que ilustra la operación del primer aspecto de la presente descripción. Al procesar un bloque actual (601), la operación de este aspecto de la presente descripción puede aplicar una pluralidad de condiciones predefinidas en el bloque actual (602), y determinar si el bloque actual es elegible para ambas aplicaciones de DMVR y BDOF con base en la pluralidad de condiciones predefinidas (603). Si se determina que el bloque actual no es elegible para ambas aplicaciones de DMVR y BDOF con base en la pluralidad de condiciones predefinidas, la operación de este aspecto de la presente descripción puede continuar con el proceso presente en el diseño de la versión actual del VVC (604). Por otro lado, si se determina que el bloque actual es elegible para ambas aplicaciones de DMVR y BDOF con base en la pluralidad de condiciones predefinidas, la operación de este aspecto de la presente descripción puede clasificar el bloque actual en una de dos clases predefinidas, a saber, la clase DMVR y la clase BDOF, con el uso de un criterio predefinido basado en la información de modo del bloque actual (605). Posteriormente, la operación de este aspecto de la presente descripción se puede aplicar tanto al DMVR como al BDOF, pero no a ambos, en el bloque actual, con el uso del resultado de la clasificación del bloque actual (606). La aplicación de DMVR o de BDOF, pero no de ambos, en el bloque actual, con el uso del resultado de la clasificación del bloque actual (606), puede incluir continuar en la clase de DMVR (aplicando el DMVR, pero no el BDOF) si el bloque actual se clasifica en la clase DMVR (607) y continuar en la clase BDOF (aplicando el BDOF, pero no el DMVR) si el bloque actual se clasifica en la clase BDOF (608).

La pluralidad de condiciones predefinidas con base en las cuales el bloque actual es elegible para ambas aplicaciones de DMVR y BDOF puede ser, pero no es necesario, la pluralidad de condiciones predefinidas de BDOF y de condiciones predefinidas de DMVR que se describen en las tablas anteriores.

La información de modo usada como base para el criterio predefinido incluye, a título enunciativo y no limitativo, el modo de predicción, tal como usar o no el modo de fusión, el índice de modo de fusión, los vectores de movimiento, la forma de bloque, el tamaño de bloque y los valores de las muestras de predicción.

De acuerdo con una o más realizaciones de la presente descripción, el uso de la clasificación del bloque actual al aplicar el DMVR o el BDOF, pero no ambos, en el bloque actual, opcionalmente comprende señalizar un indicador para indicar la clasificación del bloque actual, es decir, en algunos ejemplos de esta realización, se señaliza un indicador para especificar si se aplica el BDOF o el DMVR al bloque, mientras que en algunos otros ejemplos de esta realización, no se señaliza ningún indicador.

De acuerdo con una o más realizaciones de la presente descripción, el uso de la clasificación del bloque actual al aplicar el DMVR o el BDOF, pero no ambos, en el bloque actual, también comprende aplicar el DMVR, pero no el BDOF, ya sea con la lista de candidatos de fusión existente o con una lista de candidatos de fusión generada por separado, en el bloque actual, cuando el bloque actual se clasifica en la clase DMVR. Es decir, en algunos ejemplos de esta realización, se genera una lista de candidatos de fusión por separado y se usa exclusivamente cuando el bloque actual se clasifica en la clase DMVR y el DMVR se aplica en el bloque actual. Se señaliza una sintaxis para indicar este modo de fusión de DMVR y también se señaliza un índice de fusión si el tamaño de la lista de candidatos de fusión de DMVR es mayor a uno. En algunos otros ejemplos de esta realización, no se genera ningún candidato de fusión por separado cuando el bloque actual se clasifica en la clase DMVR y el DMVR se aplica en el bloque actual, y la aplicación de DMVR en el bloque actual usa la lista de candidatos de fusión existente, y no se usa ninguna sintaxis ni señalización adicional.

De acuerdo con una o más realizaciones de la presente descripción, el uso de la clasificación del bloque actual al aplicar el DMVR o el BDOF, pero no ambos, en el bloque actual, también comprende aplicar el BDOF, pero no el DMVR, ya sea con la lista de candidatos de fusión existente o con una lista de candidatos de fusión generada por separado, en el bloque actual, cuando el bloque actual se clasifica en la clase BDOF. Es decir, en algunos ejemplos de esta realización, se genera una lista de candidatos de fusión por separado y se usa exclusivamente cuando el bloque actual se clasifica en la clase BDOF y el BDOF se aplica en el bloque actual. Se señaliza una sintaxis para indicar este modo de fusión de BDOF y también se señaliza un índice de fusión si el tamaño de la lista de candidatos de fusión de BDOF es mayor a uno. En algunos otros ejemplos de esta realización, no se genera ningún candidato de fusión por separado cuando el bloque actual se clasifica en la clase BDOF y el BDOF se aplica en el bloque actual, y la aplicación de BDOF en el bloque actual usa la lista de candidatos de fusión existente, y no se usa ninguna sintaxis ni señalización adicional.

De acuerdo con otra realización del primer aspecto de la presente descripción, clasificar el bloque actual en una de dos clases predefinidas, a saber, la clase DMVR y la clase BDOF, con el uso de un criterio predefinido basado en la información de modo del bloque actual, comprende clasificar el bloque actual en una clase DMVR cuando se cumple el criterio predefinido, y clasificar el bloque actual en la clase BDOF cuando no se cumple el criterio predefinido.

De acuerdo con otra realización del primer aspecto de la presente descripción, clasificar el bloque actual en una de dos clases predefinidas, a saber, la clase DMVR y la clase BDOF, con el uso de un criterio predefinido basado en la información de modo del bloque actual, comprende clasificar el bloque actual en la clase BDOF cuando se cumple el criterio predefinido, y clasificar el bloque actual en la clase DMVR cuando no se cumple el criterio predefinido.

De acuerdo con otra realización del primer aspecto de la presente descripción, el criterio predefinido comprende determinar si se elige el modo regular para el bloque actual.

De acuerdo con otra realización del primer aspecto de la presente descripción, el criterio predefinido comprende determinar si el índice de fusión codificado del bloque actual posee una propiedad matemática predefinida.

En otro ejemplo, la propiedad matemática predefinida comprende la propiedad de ser igual o mayor a un número de umbral predefinido.

De acuerdo con otra realización del primer aspecto de la presente descripción, el criterio predefinido comprende determinar si los vectores de movimiento del bloque actual cumplen una prueba predefinida.

En un ejemplo, la prueba predefinida comprende determinar si la suma de las magnitudes de todos los componentes del vector de movimiento es mayor a un número de umbral predefinido.

De acuerdo con otra realización del primer aspecto de la presente descripción, el criterio predefinido comprende determinar si el bloque actual tiene una forma predefinida.

En un ejemplo, la forma predefinida es la forma de un cuadrado.

De acuerdo con otra realización del primer aspecto de la presente descripción, el criterio predefinido comprende determinar si el tamaño de bloque del bloque actual posee una propiedad matemática predefinida.

En un ejemplo, la propiedad matemática predefinida comprende la propiedad de ser igual o mayor a un número de umbral predefinido.

De acuerdo con otra realización del primer aspecto de la presente descripción, el criterio predefinido comprende determinar si la suma de diferencias absolutas o la suma de diferencias cuadradas (SAD o SSD) entre las muestras de predicción de la lista 0 y las muestras de predicción de la lista 1 del bloque actual posee una propiedad matemática predefinida.

En un ejemplo, la propiedad matemática predefinida comprende la propiedad de ser mayor a un número de umbral predefinido.

De acuerdo con un segundo aspecto de la presente descripción, cuando un bloque actual es elegible para la codificación por DMVR con base en una pluralidad de condiciones predefinidas, se realiza una primera determinación con respecto a si la predicción ponderada se habilita para el bloque actual, y se realiza una segunda determinación con respecto a si se usan diferentes ponderaciones al promediar las muestras de predicción de la lista 0 y las muestras de predicción de la lista 1 para el bloque actual, y si se deshabilita una aplicación de DMVR en el bloque actual se puede determinar con base en la primera y segunda determinaciones. Este método se puede combinar con la versión actual del VVC, además de las condiciones predefinidas antes mencionadas, o se puede implementar de forma independiente.

La Figura 7 es un diagrama de flujo que ilustra un método ejemplar del segundo aspecto de la presente descripción. Al procesar un bloque actual (701), la operación de este aspecto de la presente descripción puede aplicar una pluralidad de condiciones predefinidas en el bloque actual (702), y determinar si el bloque actual es elegible para la codificación por DMVR con base en la pluralidad de condiciones predefinidas (703). Si se determina que el bloque actual no es elegible para la codificación por DMVR con base en la pluralidad de condiciones predefinidas, la operación de este aspecto de la presente descripción puede continuar con el proceso presente en el diseño de la versión actual del VVC (704). Por otra parte, si se determina que el bloque actual es elegible para la codificación por DMVR con base en la pluralidad de condiciones predefinidas, la operación de este aspecto de la presente descripción puede determinar si la predicción ponderada se habilita para el bloque actual (705) y también determinar si se usan diferentes ponderaciones al promediar las muestras de predicción de la lista 0 y las muestras de predicción de la lista 1 para el bloque actual (706), y, posteriormente, determinar si se deshabilita una aplicación de DMVR en el bloque actual con base en las dos determinaciones (707).

La pluralidad de condiciones predefinidas con base en las cuales el bloque actual es elegible para la codificación por DMVR puede ser, pero no es necesario, la pluralidad de condiciones predefinidas de DMVR que se describen en la tabla anterior.

De acuerdo con una realización del segundo aspecto de la presente descripción, determinar si se deshabilita la aplicación de DMVR en el bloque actual con base en las dos determinaciones comprende deshabilitar la aplicación de DMVR en el bloque actual cuando se determina que la predicción ponderada se habilita para el bloque actual.

De acuerdo con otra realización del segundo aspecto de la presente descripción, determinar si se deshabilita la aplicación de DMVR en el bloque actual con base en las dos determinaciones comprende deshabilitar la aplicación de DMVR en el bloque actual cuando se determina que diferentes ponderaciones se usan al promediar las muestras de predicción de la lista 0 y las muestras de predicción de la lista 1 para el bloque actual.

De acuerdo con otra realización del segundo aspecto de la presente descripción, determinar si se deshabilita la aplicación de DMVR en el bloque actual con base en las dos determinaciones comprende deshabilitar la aplicación de DMVR en el bloque actual cuando se determina que la predicción ponderada se habilita para el bloque actual y, al mismo tiempo, se determina que diferentes ponderaciones se usan al promediar las muestras de predicción de la lista 0 y las muestras de predicción de la lista 1 para el bloque actual.

De acuerdo con un tercer aspecto de la presente descripción, la aplicación de BDOF en un bloque actual se puede habilitar cuando el bloque actual se codifica como un modo de fusión de sub-bloques. Este método se puede combinar con la versión actual del VVC, además de las condiciones predefinidas antes mencionadas, o se puede implementar de forma independiente.

La Figura 8 es un diagrama de flujo que ilustra la operación del tercer aspecto de la presente descripción. Mientras se procesa un bloque actual (801), la operación de este aspecto de la presente descripción puede determinar si el bloque actual se codifica como un modo de fusión de sub-bloques (802). Si se determina que el bloque actual no se codifica como un modo de fusión de sub-bloques, la operación de este aspecto de la presente descripción puede continuar con el proceso presente en el diseño de la versión actual del VVC (803). Por otra parte, si se determina que el bloque actual se codifica como un modo de fusión de sub-bloques, la operación de este aspecto de la presente descripción puede habilitar la aplicación de BDOF en el bloque actual (804).

En uno o más ejemplos, las funciones descritas se pueden implementar en el hardware, software, firmware o en cualquier combinación de los mismos. Si se implementan en el software, las funciones se pueden almacenar o transmitir en un medio legible por ordenador, como una o más instrucciones o código, y ejecutar a través de una unidad de procesamiento basada en hardware. Los medios legibles por ordenador pueden incluir medios de almacenamiento legibles por ordenador, los cuales corresponden a un medio tangible, como los medios de almacenamiento de datos, o medios de comunicación, incluido cualquier medio que facilite la transferencia de un programa de cómputo de un lugar a otro, por ejemplo, de acuerdo con un protocolo de comunicación. De esta manera, los medios legibles por ordenador por lo general pueden corresponder a (1) medios de almacenamiento tangibles y legibles por ordenador que no sean transitorios o (2) un medio de comunicación, tal como una señal o una onda portadora. Los medios de almacenamiento de datos pueden ser cualquier medio disponible al que pueda acceder uno o más ordenadores o uno o más procesadores para recuperar instrucciones, código y/o estructuras de datos para poner en práctica las implementaciones que se describen en la presente solicitud. Un producto de programa de cómputo puede incluir un medio legible por ordenador.

Además, los métodos antes descritos se pueden implementar con el uso de un aparato que incluya uno o más circuitos, lo cual incluye circuitos integrados de aplicación específica (ASIC), procesadores de señales digitales (DSP), dispositivos de procesamiento de señales digitales (DSPD), dispositivos lógicos programables (PLD), matrices de puertas programables en campo (FPGA), controladores, microcontroladores, microprocesadores u otros componentes electrónicos; (por sus siglas en inglés, respectivamente). El aparato puede usar los circuitos en combinación con otros componentes de hardware o software para realizar los métodos antes descritos. Cada módulo, submódulo, unidad o subunidad anteriormente descrito se puede implementar por lo menos parcialmente con el uso de uno o más circuitos.

Otras realizaciones de la invención serán aparentes para los expertos en la técnica a partir de la consideración de la especificación y la práctica de la invención que se da a conocer en este documento. El objeto de esta solicitud es abarcar cualquier variación, uso o adaptación de la invención al apegarse a los principios generales de la misma y al incluir esas desviaciones de la presente descripción en la medida en que provengan de una práctica conocida o habitual en la técnica. Se pretende que la especificación y los ejemplos se consideren para fines ilustrativos solamente, en donde el verdadero alcance y espíritu de la invención se indican mediante las reivindicaciones anexas.

Se apreciará que la presente invención no se limita a los ejemplos exactos antes descritos e ilustrados en los dibujos que la acompañan, y se pueden hacer diversas modificaciones y cambios sin apartarse del alcance de la misma. Se pretende que el alcance de la invención se limite solamente por las siguientes anexas.

Claims

REIVINDICACIONES

1. Un método para la codificación de video, el cual comprende:

en respuesta a un bloque actual que satisface una pluralidad de condiciones predefinidas que se usan para determinar que el que el bloque actual es elegible para el refinamiento del vector de movimiento del lado del decodificador, DMVR ponderada está habilitada para el bloque actual, y determinar si se usan diferentes ponderaciones al promediar las muestras predichas de la lista 0 y las muestras de predicción de la lista 1 para el bloque actual; y

determinar si se desactiva una aplicación de DMVR en el bloque actual con base en al menos una de las dos determinaciones,

en donde la pluralidad de condiciones predefinidas comprende:

el bloque actual usa la predicción bidireccional, con un vector de movimiento, MV, que apunta a una imagen de referencia anterior de referencia hacia delante que está antes de la imagen actual en el orden de visualización y otro MV que apunta a una imagen de referencia hacia atrás que está después de la imagen actual en el orden de visualización. que está después de la imagen actual en el orden de visualización, en donde la distancia entre la imagen actual y la imagen de referencia anterior y la distancia entre la imagen actual y la imagen de referencia posterior de referencia hacia atrás;

el bloque actual se codifica como modo de fusión y un candidato a fusión seleccionado es un candidato a fusión regular;

la altura del bloque actual es igual o mayor a 8;

el área del bloque actual es igual o mayor a 64;

el bloque actual no está codificado como modo afín;

el bloque actual no está codificado como modo de fusión de sub-bloques; y

el bloque actual no está codificado como modo fusión con diferencias de vector de movimiento, MMVD.

2. El método de la reivindicación 1, en donde determinar si deshabilitar la aplicación de DMVR en el bloque actual con base en al menos una de las dos determinaciones comprende deshabilitar la aplicación de DMVR en el bloque actual cuando se determina que la predicción ponderada está habilitada para el bloque actual.

3. El método de la reivindicación 1, en donde determinar si se deshabilita la aplicación de DMVR en el bloque actual con base en al menos una de las dos determinaciones comprende deshabilitar la aplicación de DMVR en el bloque actual cuando se determinan diferentes pesos a usar al promediar la lista 0 de muestras predichas y la lista 1 de muestras de predicción para el bloque actual.

4. El método de la reivindicación 1, en donde determinar si deshabilitar la aplicación de DMVR en el bloque actual basándose en al menos una de las dos determinaciones comprende deshabilitar la aplicación de DMVR en el bloque actual cuando se determina que la predicción ponderada está habilitada para el bloque actual y al mismo tiempo se determinan diferentes ponderaciones a usar cuando se promedian las muestras predichas de la lista 0 y las muestras predichas de la lista 1 para el bloque actual.

5. Un dispositivo informático que comprende:

uno o más procesadores;

un almacenamiento no transitorio acoplado a uno o más procesadores; y

una pluralidad de programas almacenados en el almacenamiento no transitorio que, cuando son ejecutados por el uno o más procesadores, hacen que el dispositivo informático realice el método de cualquiera de las reivindicaciones 1 a 4.

6. Un medio de almacenamiento no transitorio legible por ordenador que almacena una pluralidad de programas para ser ejecutados por un dispositivo informático que tiene uno o más procesadores, en donde la pluralidad de programas, cuando son ejecutados por el uno o más procesadores, hacen que el dispositivo informático realice el método de cualquiera de las reivindicaciones 1 a 4.

7. Un producto de programa de ordenador que comprende instrucciones que, cuando son ejecutadas por un dispositivo informático, hacen que éste dispositivo informático lleve a cabo el método de cualquiera de las reivindicaciones 1 a 4.