WO2011138472A1

WO2011138472A1 - Método de generación de mapas de profundidad para conversión de imágenes animadas 2d en 3d

Info

Publication number: WO2011138472A1
Application number: PCT/ES2010/070308
Authority: WO
Inventors: David MARIMÓN SANJUAN; Xavier Grasa Gras
Original assignee: Telefonica, S.A.
Priority date: 2010-05-07
Filing date: 2010-05-07
Publication date: 2011-11-10
Also published as: US20130286017A1; EP2595116A1; AR081016A1

Abstract

Una imagen animada en 2D se compone de una serie de imágenes fijas denominadas trama actual (K), trama anterior (K-1) y así sucesivamente. El método genera mapas de profundidad que permiten convertir imágenes 2D en 3D. Para ello, el método comprende una primera etapa de generación de una pirámide de versiones escaladas de la trama actual, así como de la trama anterior. Una segunda etapa de cálculo del flujo óptico entre las pirámides actual y anterior. Una tercera etapa de cálculo de mapa de profundidad orientado a puntos de imagen. Una cuarta etapa de generación de segmentos de imagen en la trama actual. Una quinta etapa de cálculo de mapa de profundidad orientado a dichos segmentos, obteniéndose un mapa de profundidad orientado a segmentos, y una sexta etapa de integración de mapas orientados a segmentos relativos a trama actual y anterior, obteniéndose el mapa definitivo para la trama actual.

Description

MÉTODO DE GENERACIÓN DE MAPAS DE PROFUNDIDAD PARA CONVERSIÓN DE IMÁGENES ANIMADAS 2D EN 3D .

OBJETO DE LA INVENCIÓN

La presente invención, tal y como se expresa en el enunciado de esta memoria descriptiva, se refiere a un método de generación para mapas de profundidad para conversión de imágenes animadas 2D en 3D cuya finalidad esencial es la conversión de un video 2D en un video 3D siguiendo la normativa MPEG-C parte 3 (MPEG = MOVING PICTURE EXPERT GROUP; Grupo de expertos de imágenes en movimiento) . La experiencia del usuario con videos codificados con esta normativa, usando pantallas autoestereoscópicas revela la importancia de respetar los bordes de los objetos para una mejor experiencia visual. En este sentido, la invención está especialmente diseñada para respetar los bordes, proponiendo un nuevo modelo de asignación de profundidades coherente con unos segmentos de imagen que se establecen en cada imagen fija de la correspondiente animación; habiéndose prestado especial atención al algoritmo de segmentación, empleado en la cuarta etapa del método propuesto, para respetar los bordes de los objetos.

Los mapas de profundidad que se generan con el método de la invención, pueden emplearse tanto para visionado directo de las imágenes 2D en un sistema 3D, como para la transmisión de archivos de video con incorporación de información relativa a su visionado tridimensional.

ANTECEDENTES DE LA INVENCIÓN

La introducción de los sistemas de visualización de 3D en el mercado y el crecimiento de la generación de contenidos visuales ha promovido la necesidad de un método normalizado para intercambiar información visual de 3D. Como respuesta a este hecho, el MPEG ha lanzado recientemente la especificación ISO/IEC 23002-3, también conocida como MPEG-C parte 3 [1] . Esta especificación está enfocada en la codificación de contenidos 3D formateados con lo que se llama "video 2D más profundidad". Tal formato consiste en la composición lado por lado de cada trama de video con una mitad izquierda que es el contenido visual 2D y una mitad derecha que es el mapa de profundidad.

Las principales ventajas de este formato de codificación son:

• Independencia respecto a la tecnología de captura.

• Independencia respecto a la tecnología de presentación en pantalla.

• Compatibilidad hacia atrás con 2D.

• Buena eficiencia de compresión (baja sobrecarga) .

La profundidad se codifica con un valor de N bits. El mapa de profundidad representa el valor de la profundidad asociado con cada punto de imagen del contenido visual de 2D. Con el mapa de profundidad disponible, es posible generar múltiples vistas de la escena dependiendo de la posición del espectador.

Los mapas de profundidad pueden generarse directamente con cámaras estereoscópicas o usando cámaras de Tiempo-de- Vuelo basadas en luz infrarroja. Otra alternativa es la conversión del contenido de vídeo que existe en 2D en "vídeo 2D más profundidad".

Existen varias técnicas en la investigación relacionada para estimar la estructura 3D usando un flujo de vídeo o un par de imágenes de la misma escena. Estas pueden dividirse en las siguientes categorías. Ejemplos particulares de cada una de las categorías pueden encontrarse en [ 2 ] :

· Basadas en características: estos algoritmos establecen correspondencias entre algunas características seleccionadas extraídas de las imágenes, tales como los puntos de imagen de los bordes, segmentos de líneas o curvas. Su principal ventaja es obtener una información precisa y manipular cantidades de datos razonablemente pequeñas, ganando de este modo en tiempo y complejidad de espacio.

• Basadas en áreas: en estos planteamientos, se proporcionan mapas de profundidad densos correlacionando los niveles de grises de regiones de la imagen en las vistas que se están considerando, asumiendo que presentan alguna similitud.

• Basadas en la fase: otra clase de métodos se basan en la información de fase de Fourier, que puede considerarse como una clase de método de áreas basada en el gradiente, con la derivada temporal aproximada por la diferencia entre las imágenes izquierda y derecha de la fase de Fourier. También se usan métodos jerárquicos en este punto para no quedar atrapados en algunos mínimos locales.

• Basadas en la energía: una última clase de planteamiento, consiste en resolver el problema de correspondencia en una formulación de regularización y minimi zación .

Este campo de investigación se ha concentrado principalmente en calcular un flujo óptico preciso entre parejas de imágenes. En adelante, en este documento resaltamos algunos ejemplos que se centran en la generación de mapas de profundidad densa o mapas de disparidad usando una sola cámara, no un par estéreo. Ernst et al. [ 3 ] han presentado una patente sobre el cálculo de mapas de profundidad. Su método comienza con el cálculo de un árbol de segmentos (segmentación jerárquica) . El árbol se analiza desde la parte superior a la parte inferior comenzando desde el nodo raíz. Para cada segmento, se genera un conjunto de vectores de movimiento candidatos. A cada vector de movimiento se asigna una penalización de acuerdo con otros vectores de movimiento en los bloques vecinos. Se asigna la profundidad de cada uno de los segmentos de acuerdo con el vector de movimiento que se selecciona. Ideses et al. [4] proponen mapear el flujo óptico calculado con los vectores de movimiento de un codificador MPEG que funciona en tiempo real. El flujo óptico se mapea directamente como un mapa de profundidad orientado a puntos de imagen. El inconveniente de este método es que la profundidad no es consistente con los objetos. En efecto, sólo los puntos de imagen en los bordes del objeto donde la profundidad real cambia abruptamente tienen un flujo óptico significativo y, por lo tanto, profundidad. Li et al. [5] presentan otro método para obtener un mapa de profundidad denso usando la estructura a partir del movimiento. Su método se divide en dos etapas. En primer lugar, se calcula la reconstrucción proyectiva y Euclidea a partir de puntos característicos con seguimiento. En segundo lugar, se hace la suposición de que la escena está formada por superficies planas orientadas a piezas descritas por triángulos que unen tres puntos de 3D. Los principales inconvenientes en este caso vienen de regiones con poca textura (es decir, con un pequeño número de puntos de características) y en la transición entre el primer plano y el fondo impuesto por la suposición de planicidad.

Ejemplos de tecnología que estiman una estructura 3D o directamente mapas de profundidad, existen como aplicaciones industriales o máquinas. Entre otros, resaltamos el software Boujou de 2d3 [6] . Boujou es una solución industrial para el seguimiento de cámara y de objetos ganadora de un premio Emmy. Esta solución es capaz de generar una malla 3D de una superficie siguiendo el movimiento de la cámara. Este método es similar a [5] . Otro producto disponible para la edición de películas es el WOWvx BlueBox de Philips [7] . Esta herramienta proporciona al usuario la posibilidad de editar el mapa de profundidad de un fotograma clave que determina el comienzo de una toma en la secuencia de video. Esta herramienta de edición es completamente manual. Una vez que está listo el mapa de profundidad correspondiente al fotograma clave, la herramienta es capaz de seguir los objetos en la secuencia durante la toma (es decir, hasta el siguiente fotograma clave) . Este seguimiento permite generar mapas de profundidad para cada trama dentro de la toma. Son necesarias algunas correcciones manuales en el caso de que el sistema de seguimiento falle. Este proceso es tedioso porque la generación del mapa de profundidad y la corrección son manuales.

Respecto de los problemas e inconvenientes que se dan con las soluciones existentes en el estado de la técnica, cabe indicar lo siguiente:

Hay varias limitaciones en los métodos y tecnología mencionados anteriormente.

En el caso de las técnicas basadas en características, su principal inconveniente es la escasez de información de profundidad recuperada ya que sólo produce información de la profundidad en las características pero no del espacio intermedio .

Los métodos basados en el área y en la fase se adaptan para áreas relativamente texturadas; sin embargo, generalmente asumen que la escena observada está localmente paralela al frente, lo cual causa problemas para superficies sesgadas y en particular cerca de los contornos de oclusión de los objetos. Finalmente, el proceso de emparejamiento no tiene en cuenta la información de bordes que es realmente una información muy importante que debe usarse para obtener mapas densos fiables y precisos.

El caso de los métodos basados en la energía y los que estiman la estructura 3D subyacente de la escena es que se necesita la calibración (al menos ligera) de la cámara. En muchos casos, también cuentan con una geometría epipolar que tiene también varias limitaciones cuando el movimiento de la cámara está muy limitado dentro de una toma determinada o cuando la cámara gira alrededor de su eje perpendicular .

Referencias .

[1] A. Bourge, J. Gobert, F . Bruls. MPEG-C Part 3: Enabling the Introduction of Video Plus Depth Contents, Proc. of the IEEE Workshop on Content generation and coding for 3D-television, 2006.

[2] L. Alvarez, R. Deriche, J. Sánchez, J. Weickert.

Dense Disparity Map Estimation Respecting Image Discontinuities : A PDE and Scale-Space Based Approach, Tech. Report, INRIA Sophia-Antipolis,

France, 2000.

[3] Ernst, F., Wilinski, P., Van Overveld, C. (2006). Method of and units for motion or depth estimation and image processing apparatus provided with such motion estimation unit. U.S. Patent No. 7,039,110

B2. Washington, DC : U.S. Patent and Trademark Office .

[4] I. Ideses, L.P. Yaroslavsky, B. Fishbain, Real- time 2D to 3D video conversión, Journal of Real- time Image Processing, 2:3-9, Springer, 2007.

[5] Li, P., Farin, D., Klein Gunnewiek, R., and de With, P. On Creating Depth Maps from Monoscopic Video using Structure from Motion. Proc. of the 27th Symp. on Information Theory in the BENELUX (WIC2006), vol.l, June 8-9, 2006, Noordwijk, the

Netherlands

[6] Boujou from 2d3. http : //www .2d3. com/product/ ?v=l [7] WOWvx BlueBox from Philips . http//www . business- sites .philips . com/3dsolutions /products/wowvxbluebo x/index . page

[8] Parallax. http : //en . wikipedia .org/wiki/Parallax

[9] Berthold K.P. Horn and Brian G. Schunck.

Determining Optical Flow. Artificial Intelligence, 17, pp . 185- 203, 1981

DESCRIPCIÓN DE LA INVENCIÓN

Para lograr los objetivos y evitar los inconvenientes indicados en anteriores apartados, la invención consiste en un método de generación de mapas de profundidad para conversión de imágenes animadas 2D en 3D, donde la imagen animada 2D se compone de una serie de imágenes fijas que se secuencian con una frecuencia para dar sensación de movimiento, donde se denomina trama actual a la imagen fija en un determinado momento, trama anterior a la imagen fija previa a la trama actual y así sucesivamente; donde los mapas de profundidad generados son utilizados para una acción seleccionada entre el visionado directo de las imágenes 2D en un sistema 3D, la transmisión de archivos de vídeo con incorporación de información relativa a su visionado tridimensional y combinación de ambas.

Novedosamente, según la invención, para realizar la referida generación de mapas de profundidad se mapea el paralaje a una profundidad determinada, determinando el flujo óptico para establecer los cambios de coordenadas sufridos por al menos un punto de imagen con igual valor de al menos un parámetro seleccionado entre luminancia, frecuencia de color, saturación de color y combinación cualquiera de los mismos, al pasar de una imagen fija a la siguiente, para lo cual el método de la invención comprende las siguientes seis etapas:

- una primera etapa de generación de una pirámide de versiones escaladas de la trama actual y una pirámide de versiones escaladas de la trama anterior; donde la pirámide de versiones escaladas de la trama actual comprende unas versiones jerarquizadas de la trama actual y la pirámide de versiones escaladas de la trama anterior comprende unas versiones jerarquizadas de la trama anterior; donde las versiones jerarquizadas se llevan a cabo mediante variaciones controladas de al menos uno de los parámetros de la imagen fija correspondiente;

- una segunda etapa de cálculo del flujo óptico entre la pirámide de versiones escaladas de la trama actual y la pirámide de versiones escaladas de la trama anterior; donde dicho cálculo del flujo óptico se lleva a cabo mediante un algoritmo estándar de emparejamiento y comparación de bloques de puntos de imagen entre dos imágenes; obteniéndose unos mapas de profundidad parciales con diferentes grados de resolución;

- una tercera etapa de cálculo de mapa de profundidad orientado a puntos de imagen que es llevado a cabo mediante la adición de dichos mapas de profundidad parciales después de que se redimensionan y se asignan ponderaciones para dar un grado de relevancia a cada uno de dichos mapas parciales; donde las ponderaciones asignadas a cada mapa de profundidad están basadas en el valor de su grado de resolución;

- una cuarta etapa de generación de unos segmentos de la trama actual, en la que dicha trama actual es dividida en segmentos en función de al menos una característica relativa a la imagen de las diversas zonas de la trama actual, siendo dicha característica relativa la coherencia del color;

- una quinta etapa de cálculo de mapa de profundidad orientado a segmentos de la trama actual, en la que se asigna un valor de profundidad único a cada segmento establecido en la cuarta etapa, siendo dicho valor de profundidad el valor medio de los puntos de imagen comprendidos en cada segmento del mapa de profundidad orientado a puntos de imagen calculado en la tercera etapa; obteniéndose un mapa de profundidad orientado a segmentos de la trama actual; y

una sexta etapa de integración de mapas de profundidad orientados a segmentos relativos a la trama actual y a la trama anterior, siendo el mapa de profundidad orientado a segmentos de la trama anterior el resultado de aplicar las etapas 1 a 5 del método sobre la trama anterior y sobre una trama previa a la anterior; consistiendo dicha integración en una suma ponderada del mapa de profundidad orientado a segmentos de la trama actual con el mapa de profundidad orientado a segmentos de la trama anterior; obteniéndose un mapa de profundidad para la trama actual definitivo .

Según la realización preferente de la invención, en la primera etapa la pirámide de versiones escaladas de una imagen se genera escalando hacia abajo la trama de la que se parte varias veces en la versión de intensidades de niveles de grises de la imagen, de manera que en cada nivel de la pirámide, las versiones escaladas tienen la mitad de anchura y mitad de altura en puntos de imagen respecto del nivel anterior, y de manera que cada vez que se escala una imagen, en primer lugar se filtra con un filtro Gaussiano de un tamaño fijo, y a continuación se muestrea hacia abajo rechazando las filas y columnas pares, efectuándose este filtrado para mejorar la estabilidad y realizándose la generación de la pirámide de versiones escaladas sobre las tramas de video anterior y actual; en tanto que para acelerar el proceso, la pirámide correspondiente a la trama actual se guarda para que cuando la primera etapa del método sea aplicada a una trama siguiente a la actual se disponga ya de la pirámide correspondiente a la trama que es anterior a dicha trama siguiente. Además, según la realización preferente de la invención, en la segunda etapa el flujo óptico se calcula emparejando los bloques de puntos de imagen entre dos imágenes, presentando dichos bloques un tamaño fijo y de manera que un bloque se forma por unos primeros valores de intensidad de los puntos de imagen de una primera imagen correspondiente a un nivel de la pirámide generada en la primera etapa para una de las tramas, estableciéndose el mejor emparejamiento mediante el bloque de unos segundos valores de intensidad de los puntos de imagen de una segunda imagen correspondiente a un nivel de la pirámide generada en la primera etapa para la otra de las tramas y que tenga dichos segundos valores de intensidad más próximos a los referidos primeros valores; siendo el flujo óptico la distancia en los ejes X e Y en puntos de imagen desde las coordenadas del bloque en la primera imagen a las coordenadas de la mejor coincidencia en la segunda imagen, de manera que el resultado son dos mapas, uno para el eje X y otro para el eje Y.

Según la realización preferente de la invención, en la tercera etapa todos los mapas de profundidad parciales se redimensionan a la dimensión de la trama de la que se parte en el método, y para generar el mapa de profundidad orientado a puntos de imagen se añaden todos los mapas de profundidad parciales, otorgándose un peso diferente a cada uno de ellos, y de manera que cuanto más bajo es el grado de resolución de un mapa de profundidad parcial, mayor es el peso que se le otorga.

Por otra parte, y también para la realización preferente de la invención, en la sexta etapa la integración de mapas de profundidad es llevada a cabo mediante la siguiente expresión:

D=a*D_s(t-l) + (1- ) *D_S (t) ; donde D_s (t) indica el mapa de profundidad orientado a segmentos relativo a una trama actual; D_s(t-1) indica el mapa de profundidad orientado a segmentos relativo a una trama anterior; D es el mapa integrado resultante y es una proporción de integración.

En la realización preferente de la invención, el método de la misma se optimiza con los valores que se indican a continuación:

Imágenes originales con un tamaño de 960 x 540 puntos de imagen.

Cinco niveles en las pirámides de versiones escaladas de las tramas anterior y actual de la primera etapa.

Un tamaño de bloque de 20 x 20 puntos de imagen para el cálculo del flujo óptico de la segunda etapa. - Una proporción de integración = 0,8 en la sexta etapa .

Por otra parte, para otras realizaciones de la invención, el método de la misma puede presentar algunas variaciones como las que se indican a continuación.

Asi, en una de esas variaciones, el flujo óptico calculado para la entrada de la tercera etapa, comprende el cálculo del flujo óptico entre la trama anterior y la trama actual mediante bloques de puntos de imagen de tamaño variable; calculándose este flujo óptico n veces para una misma imagen fija o trama filtrada con un filtro Gaussiano de diferente tamaño cada vez de esas n veces; siendo n un número natural que coincide con el número de niveles de cada una de las pirámides de la primera etapa del método; siendo dicho tamaño variable de los bloques de puntos de imagen directamente proporcional a la varianza del filtro Gaussiano e inversamente proporcional al valor de n.

En otra de las mencionadas variaciones del método de la invención, la integración de mapas de profundidad de la sexta etapa es llevada a cabo mediante la siguiente expresión :

D=a*D'_s(t-l) + (I-a) *D_S (t) ;

donde D_s (t) indica el mapa de profundidad orientado a segmentos relativo a una trama actual; D es el mapa integrado resultante; es una proporción de integración; y D'_s (t-1) es un mapa de profundidad trasladado que se obtiene mediante el traslado, punto por punto de imagen, del mapa de profundidad orientado a segmentos relativo a una trama anterior D_s (t-1) a un mapa de profundidad accesorio D'_s que es un mapa de profundidad orientado a segmentos obtenido a partir de los flujos ópticos conseguidos en la segunda etapa, donde únicamente se consideran los mapas de profundidad parciales que presentan mayor grado de resolución y son relativos a una trama actual .

Sobre las ventajas de la invención respecto del estado de la técnica actual, cabe indicar que el método de la invención está especialmente diseñado para respetar los bordes de los segmentos de imagen que se establezcan, proponiendo un nuevo modelo de asignación de profundidad coherente con esos segmentos, habiéndose prestado especial atención al algoritmo de segmentación que se utiliza en la cuarta etapa para el respeto de los mencionados bordes de los segmentos de imagen u objetos de la misma. En comparación con la referencia [5] del apartado antecedentes de la invención de este documento, el problema con las áreas de transición entre el primer plano y el fondo, o simplemente entre los objetos, se resuelve mediante el tratamiento propuesto orientado a segmentos de los mapas de profundidad que establece la quinta etapa del método de la invención. Además, otra cuestión que surge cuando se convierte un video 2D a 3D es el contenido heterogéneo que tiene que convertirse. Asi, aunque no hay ningún conocimiento a priori de si la escena delante de la cámara es estática o se están moviendo algunos objetos, en la invención se hace la suposición, para tratar con objetos en movimiento, de que los objetos que se mueven están más cerca de la cámara si su tamaño es mayor, para lo cual la invención aplica un factor de ponderación o una asignación de ponderaciones, tal y como se describió en la tercera etapa del método, introduciéndose ese factor de ponderación para la contribución de cada uno de los niveles en la pirámide en el momento de calcular el mapa de profundidad orientado a puntos de imagen; con lo que los objetos con mayor tamaño aparecen como bloques completos en las resoluciones más bajas. Asi, según el método de la invención, las resoluciones más bajas tienen una contribución más alta (un mayor peso) para el mapa de profundidad. Con ello, se proporciona una flexibilidad que posibilita tratar tanto escenas estáticas, donde los segmentos de imagen y sus subsegmentos tienen movimientos coherentes, como escenas dinámicas, donde los objetos o segmentos de imagen describen diferentes movimientos. Con ello, se supera una limitación del método de árbol basado en segmentación, perteneciente al estado de la técnica según la referencia [3] del apartado antecedentes de la invención de este documento, pudiendo evitarse inconvenientes relativos a una excesiva rigidez en la correspondiente escena.

A continuación, para facilitar una mejor comprensión de esta memoria descriptiva y formando parte integrante de la misma, se acompañan unas figuras en las que con carácter ilustrativo y no limitativo se ha representado el objeto de la invención. BREVE DESCRIPCION DE LAS FIGURAS

Figura 1.- Es un diagrama de bloques funcionales de un método de generación de mapas de profundidad para conversión de imágenes animadas 2D en 3D, realizado según la presente invención y mostrando parte de sus etapas componentes, concretamente las etapas primera a quinta de dicho método.

Figura 2.- Es un diagrama de bloques funcionales que representa a la sexta y última etapa del método referido en la anterior figura 1, relacionándola además con las etapas previas del aludido método.

DESCRIPCIÓN DE UN EJEMPLO DE REALIZACIÓN DE LA INVENCIÓN

Seguidamente se hace una descripción de un ejemplo de la invención en la que se hace alusión a las referencias de las figuras .

Asi, el método de generación de mapas de profundidad para conversión de imágenes animadas 2D en 3D según este ejemplo de la invención queda ilustrado en las figuras 1 y 2, aportándose primeramente un listado con el significado de las referencias:

1: Primera etapa del método; generación de la pirámide de versiones escaladas.

2: Segunda etapa del método; cálculo del flujo óptico entre las pirámides actual y anterior.

3: Tercera etapa del método; cálculo del mapa de profundidad orientado a puntos de imagen.

4: Cuarta etapa del método; generación de los segmentos de la trama actual.

5: Quinta etapa del método; cálculo del mapa de profundidad orientado a segmentos de imagen.

6: Sexta etapa del método; integración de mapas de profundidad actual y anterior. 1A: Primera etapa del método aplicada a una trama anterior .

IB: Primera etapa del método aplicada a una trama actual .

5A: Cálculo del mapa de profundidad orientado a segmentos en la quinta etapa del método.

5B: Mapa de profundidad obtenido en la quinta etapa del método, referido a una trama actual.

1 a 5A: Etapas primera a quinta del método para una trama actual.

1' a 5A' : Etapas primera a quinta del método referidas a una trama anterior.

5B ' : Mapa de profundidad orientado a segmentos que se obtiene en las etapas primera a quinta del método, referido a una trama anterior.

6A: Proceso de integración de mapas de la sexta etapa del método.

6B : Mapa de profundidad definitivo obtenido en la sexta etapa del método para una trama actual.

K: Trama actual.

K-l: Trama anterior.

K-2 : Trama previa a la anterior.

La invención descrita por esta patente se basa en el concepto de paralaje. La paralaje es un desplazamiento aparente de un objeto visto a lo largo de dos diferentes lineas de visión. Un cambio en la posición de un observador de una escena produce diferentes niveles de paralaje. De forma más precisa, los objetos que están próximos al observador tienen paralajes mayores y viceversa. En la invención presentada en este punto, se mapea la paralaje a una profundidad. Un posible planteamiento para calcular la paralaje de un observador en movimiento es determinando el flujo óptico. El flujo óptico consiste en calcular los vectores del movimiento entre dos imágenes (que en nuestro caso son dos tramas consecutivas de un video) . Los vectores del movimiento determinan el cambio en las coordenadas de un punto de imagen, o un conjunto de puntos de imagen, que tienen el mismo contenido en ambas imágenes. Por contenido, entendemos luminancia, color y cualquier otra información que identifique un punto de imagen, o un conjunto de puntos de imagen.

Nuestra invención propone un método para calcular el flujo óptico entre las tramas actual y anterior de un modo piramidal. El mapa de profundidad se obtiene añadiendo el resultado de procesar el flujo óptico en diferentes escalas. Una vez que está disponible el mapa de profundidad orientado a puntos de imagen, el método genera un mapa de profundidad con respecto a segmentos de imagen. A cada segmento en la imagen se le asigna un valor de profundidad diferente. Este valor de profundidad es la media de los valores del mapa de profundidad orientado a puntos de imagen. Adicionalmente, el mapa de profundidad se integra a lo largo del tiempo para producir resultados más coherentes .

La generación del mapa de profundidad de una trama o señal de video, correspondiente a un fotograma o imagen fija de video, según el presente ejemplo de la invención se puede dividir en las referidas etapas 1 a 6 que se explican con más detalle a continuación:

1. Generación de la pirámide de versiones escaladas .

La pirámide de versiones escaladas de una imagen se genera escalando hacia abajo la imagen original varias veces. Este proceso se hace en la versión de intensidades de niveles de grises de la imagen. En cada nivel de la pirámide, las versiones escaladas tienen la mitad de tamaño (mitad de ancho y mitad de altura en puntos de imagen) del nivel anterior. Cada vez que se escala una imagen, en primer lugar se filtra con un filtro Gaussiano de un tamaño fijo (5x5 puntos de imagen) y a continuación se muestrea hacia abajo rechazando las filas y columnas pares. Este pre-filtrado se hace para generar resultados más estables. La generación de la pirámide de versiones escaladas se realiza sobre las tramas de video anterior y actual. Para acelerar el proceso, la pirámide correspondiente a la trama actual se guarda para la siguiente trama.

2. Cálculo del flujo óptico entre la pirámide actual y la anterior.

El flujo óptico se calcula emparejando los bloques de puntos de imagen entre dos imágenes. Un bloque se forma por los valores de intensidad de los puntos de imagen de una imagen. El mejor emparejamiento es el bloque de la segunda imagen que más se parece al de la primera imagen. El flujo óptico es la distancia en los ejes X e Y en puntos de imagen desde las coordenadas del bloque (i,j) en la primera imagen a las coordenadas de la mejor coincidencia en la segunda imagen. El resultado son dos mapas, uno para el eje X O_x(i,j) y otro para el eje Y 0_Y(i,j). El algoritmo utilizado para calcular el flujo óptico se describe en la referencia [9] del apartado "Antecedentes de la Invención" de este documento.

Llamemos a una imagen de la pirámide anterior como I_k donde k es el nivel de la pirámide desde k=0 (la imagen original) a N-l, siendo N el número de niveles en la pirámide. Lo mismo se aplica a cualquier imagen en la pirámide actual, nombrada J_k. El proceso es iterativo y comienza con la resolución más baja (k=N-l) . En cada una de las iteraciones el flujo óptico (O_x(i,j) y 0_Y(i,j)) calculado en el nivel anterior se usa como información anterior acerca del emparejamiento más probable. De forma más precisa, el emparejamiento de cierto bloque A en I_k determina un flujo óptico global en todos los sub-bloques dentro de A en el siguiente nivel Ik-i- Este es el flujo óptico utilizado como estimación inicial cuando se procesa el siguiente nivel de la pirámide, es decir, emparejando Ijt-i con Jk-i . El cálculo termina con el último nivel de la pirámide (k=0) .

Para cada nivel de resolución, se obtiene un mapa de profundidad parcial D_0F,_A tomando la norma del flujo óptico para cada uno de los puntos de imagen. Expresado matemáticamente, esto es: j) = N O_x,_k(i,j) + 0_Yfk(i,j)

3. Cálculo del mapa de profundidad orientado a puntos de imagen D_p.

Todos los mapas de profundidad D_0F,_A (k=0,..,N-l) se redimensionan a la dimensión de la trama de video original. Para generar el mapa de profundidad orientado a puntos de imagen, se añaden todos los mapas de profundidad parciales. En esta adición, se da un peso diferente a cada uno de los mapas. Más concretamente, se da una mayor relevancia (mayor peso) a los mapas de profundidad de resoluciones más bajas. El resultado es un mapa de profundidad de espacio-escala D_p.

4. Generación de los segmentos de la trama actual

La generación del mapa de profundidad tiene que ser muy cuidadoso con los bordes. Si no se hace ningún esfuerzo por considerar los bordes, se podría generar un efecto molesto cuando se presenta el vídeo + profundidad en 3D. En efecto, podría percibirse un efecto de aura alrededor de los objetos.

En el proceso de segmentación, se presta una atención especial a los bordes de los extremos. La trama actual se segmenta en las regiones de color coherente. La frontera de los segmentos no sobrepasa un borde incluso si el color de ambos segmentos es similar. Identificamos los segmentos como R_Í donde i es el Índice desde i=l hasta M, donde M es el número de segmentos en la imagen.

5. Cálculo del mapa de profundidad orientado a segmentos D_S .

El objetivo de este cálculo es asignar un valor de profundidad único a cada uno de los segmentos R± de la imagen. Para cada uno de los segmentos R±, se calcula el valor medio de los puntos de imagen del mapa de profundidad del espacio de escalas (D_p) , resultando d . El resultado de este proceso es un conjunto de M valores de profundidad, uno para cada uno de los segmentos. El mapa de profundidad D_s se forma con los segmentos extraídos desde la imagen de la trama actual. A todos los puntos de imagen dentro de cada segmento i¾ se les asigna el valor medio de profundidad correspondiente di.

6. Integración de los mapas de profundidad actual y anterior .

Para generar mapas de profundidad que son coherentes a lo largo del tiempo, se integran los resultados de los mapas de profundidad anteriores. Para cada una de las tramas, el mapa de profundidad integrado es una suma ponderada del actual D_s y el anterior D_s. La formula utilizada es D =a*D_s(t-l) + (l-a)*D_s(t) donde t indica la trama actual.

El proceso descrito con las etapas 1 a 6 puede realizarse con algunas variaciones. A continuación describimos las posibles variaciones y el mejor modo para el proceso descrito anteriormente.

El proceso descrito anteriormente se ha probado que produce los mejores resultados con:

• Imágenes originales con un tamaño de 960x540 puntos de imagen. • Cinco niveles en la pirámide (etapa 1) .

• Un tamaño de bloque de 20x20 puntos de imagen para el cálculo del flujo óptico (etapa 2) .

• Una proporción de integración a=0.8 (etapa 6) .

Las etapas 1 y 2 pueden intercambiarse con el siguiente procedimiento. En lugar de usar un bloque de tamaño fijo en la etapa 2, es posible calcular el flujo óptico con la misma imagen varias veces (tantas como niveles habría en la pirámide) pero con un bloque que cambia su tamaño. De este modo, en el nivel más bajo (k=N- 1) el procedimiento usaría un bloque de gran tamaño, mientras que para el nivel más alto, el bloque tendría el menor tamaño. Para cada uno de los niveles, se calcularía el flujo óptico con la imagen original filtrada con un filtro Gaussiano de diferente tamaño. El tamaño del bloque es directamente proporcional a la varianza del filtro Gaussiano y, por lo tanto, a su tamaño.

La etapa 6 puede intercambiarse con el siguiente procedimiento. Dado el flujo óptico de la más alta resolución (k=0) , el mapa de profundidad en la trama anterior D_s(t-1) puede trasladarse punto por punto de imagen dentro de D'_s. Matemáticamente expresado, esto sería O'_s(i, , t-1) = D'_s(O_x,o(i,j) , O_Y,₀(i,j) , t-1) , donde 0_Xro(i_fj) y 0_Yro(i,j) son el resultado de la etapa 2 en la trama actual. Una vez que se obtiene el mapa de profundidad trasladado Ό'_s, la integración con el mapa de profundidad actual es equivalente a lo descrito anteriormente, a saber D =a*D'₃(t-l) + (1-a) *D₃(t) .

Claims

RE..VINDICACIONES

1.- MÉTODO DE GENERACIÓN DE MAPAS DE PROFUNDIDAD PARA CONVERSIÓN DE IMÁGENES ANIMADAS 2D EN 3D, donde la imagen animada 2D se compone de una serie de imágenes fijas que se secuencian con una frecuencia para dar sensación de movimiento, y donde se denomina trama actual (K) a la imagen fija de un determinado momento, trama anterior (K-l) a la imagen fija previa a la trama actual y asi sucesivamente; donde los mapas de profundidad generados son utilizados para una acción seleccionada entre el visionado directo de las imágenes 2D en un sistema 3D, la transmisión de archivos de video con incorporación de información relativa a su visionado tridimensional y combinación de ambas; caracterizado porque dicho método comprende las siguientes seis etapas:

- una primera etapa (1) de generación de una pirámide de versiones escaladas de la trama actual (IB) y una pirámide de versiones escaladas de la trama anterior (1A); donde la pirámide de versiones escaladas de la trama actual comprende unas versiones jerarquizadas de la trama actual y la pirámide de versiones escaladas de la trama anterior comprende unas versiones jerarquizadas de la trama anterior; donde las versiones jerarquizadas se llevan a cabo mediante variaciones controladas de al menos uno de los parámetros de la imagen fija correspondiente;

- una segunda etapa (2) de cálculo del flujo óptico entre la pirámide de versiones escaladas de la trama actual (IB) y la pirámide de versiones escaladas de la trama anterior (1A); donde dicho cálculo del flujo óptico se lleva a cabo mediante un algoritmo estándar de emparejamiento y comparación de bloques de puntos de imagen entre dos imágenes; obteniéndose unos mapas de profundidad parciales con diferentes grados de resolución; una tercera etapa (3) de cálculo de mapa de profundidad orientado a puntos de imagen que es llevado a cabo mediante la adición de dichos mapas de profundidad parciales después de que se redimensionan y se asignan ponderaciones para dar un grado de relevancia a cada uno de dichos mapas parciales; donde las ponderaciones asignadas a cada mapa de profundidad están basadas en el valor de su grado de resolución;

- una cuarta etapa (4) de generación de unos segmentos de la trama actual (K) , en la que dicha trama actual (K) es dividida en segmentos en función de al menos una característica relativa a la imagen de las diversas zonas de la trama actual, siendo dicha característica relativa la coherencia del color;

- una quinta etapa (5) de cálculo de mapa de profundidad orientado a segmentos de la trama actual (5A) , en la que se asigna un valor de profundidad único a cada segmento establecido en la cuarta etapa (4), siendo dicho valor de profundidad el valor medio de los puntos de imagen comprendidos en cada segmento del mapa de profundidad orientado a puntos de imagen calculado en la tercera etapa (3) ; obteniéndose un mapa de profundidad orientado a segmentos de la trama actual (5B) ; y,

una sexta etapa (6) de integración de mapas de profundidad (5B, 5B ' ) orientados a segmentos relativos a la trama actual (5B) y a la trama anterior (5B'); siendo el mapa de profundidad orientado a segmentos de la trama anterior el resultado de aplicar las etapas 1 a 5 del método sobre la trama anterior (K-l) y sobre una trama previa a la anterior (K-2); consistiendo dicha integración en una suma ponderada del mapa de profundidad orientado a segmentos de la trama actual (5B) con el mapa de profundidad orientado a segmentos de la trama anterior (5B'); obteniéndose un mapa de profundidad definitivo (6B)para la trama actual.

2. - MÉTODO DE GENERACIÓN DE MAPAS DE PROFUNDIDAD PARA CONVERSIÓN DE IMÁGENES ANIMADAS 2D EN 3D, según la reivindicación 1, caracterizado porque en la primera etapa (1) la pirámide de versiones escaladas de una imagen (1A, IB) se genera escalando hacia abajo la trama de la que se parte (K, K-l) varias veces en la versión de intensidades de niveles de grises de la imagen, de manera que en cada nivel de la pirámide, las versiones escaladas tienen la mitad de anchura y mitad de altura en puntos de imagen respecto del nivel anterior, y de manera que cada vez que se escala una imagen, en primer lugar se filtra con un filtro Gaussiano de un tamaño fijo, y a continuación se muestrea hacia abajo rechazando las filas y columnas pares, efectuándose este filtrado para mejorar la estabilidad y realizándose la generación de la pirámide de versiones escaladas sobre las tramas de video anterior (1A) y actual (IB); en tanto que, para acelerar el proceso, la pirámide correspondiente a la trama actual (IB) se guarda para que cuando la primera etapa (1) del método sea aplicada a una trama siguiente a la actual se disponga ya de la pirámide correspondiente a la trama que es anterior a dicha trama siguiente .

3. - MÉTODO DE GENERACIÓN DE MAPAS DE PROFUNDIDAD PARA CONVERSIÓN DE IMÁGENES ANIMADAS 2D EN 3D, según la reivindicación 1 6 2, caracterizado porque en la segunda etapa (2) el flujo óptico se calcula emparejando los bloques de puntos de imagen entre dos imágenes, presentando dichos bloques un tamaño fijo y de manera que un bloque se forma por unos primeros valores de intensidad de los puntos de imagen de una primera imagen correspondiente a un nivel de la pirámide generada en la primera etapa (1) para una de las tramas (K, K-l), estableciéndose el mejor emparejamiento mediante el bloque de unos segundos valores de intensidad de los puntos de imagen de una segunda imagen correspondiente a un nivel de la pirámide generada en la primera etapa (1) para la otra de las tramas (K-l, K) y que tenga dichos segundos valores de intensidad más próximos a los referidos primeros valores; siendo el flujo óptico la distancia en los ejes X e Y en puntos de imagen desde las coordenadas del bloque (i, j) en la primera imagen a las coordenadas de la mejor coincidencia en la segunda imagen, de manera que el resultado son dos mapas, uno para el eje X y otro para el eje Y.

4. - MÉTODO DE GENERACIÓN DE MAPAS DE PROFUNDIDAD PARA CONVERSIÓN DE IMÁGENES ANIMADAS 2D EN 3D, según una cualquiera de las reivindicaciones anteriores, caracterizado porque en la tercera etapa (3) todos los mapas de profundidad parciales se redimensionan a la dimensión de la trama de la que se parte en el método (K, K-l), y para generar el mapa de profundidad orientado a puntos de imagen se añaden todos los mapas de profundidad parciales, otorgándose un peso diferente a cada uno de ellos, y de manera que cuanto más bajo es el grado de resolución de un mapa de profundidad parcial, mayor es el peso que se le otorga.

5. - MÉTODO DE GENERACIÓN DE MAPAS DE PROFUNDIDAD PARA CONVERSIÓN DE IMÁGENES ANIMADAS 2D EN 3D, según una cualquiera de las reivindicaciones anteriores, caracterizado porque la integración de mapas de profundidad de la sexta etapa (6) es llevada a cabo mediante la siguiente expresión:

D=a*D_s(t-l) + (1- ) *D_S (t) ;

donde D_s (t) indica el mapa de profundidad orientado a segmentos relativo a una trama actual; D_s(t-1) indica el mapa de profundidad orientado a segmentos relativo a una trama anterior; D es el mapa integrado resultante y es una proporción de integración.

6. - MÉTODO DE GENERACIÓN DE MAPAS DE PROFUNDIDAD PARA CONVERSIÓN DE IMÁGENES ANIMADAS 2D EN 3D, según la reivindicación 5, caracterizado porque dicho método se optimiza con: imágenes originales (K, K-l, K-2) con un tamaño de 960 x 540 puntos de imagen; cinco niveles en las pirámides de versiones escaladas de las tramas anterior (1A) y actual (IB) de la primera etapa ( 1 ) ; un tamaño de bloque de 20 x 20 puntos de imagen para el cálculo de flujo óptico de la segunda etapa (2); y, una proporción de integración = 0,8 en la sexta etapa (6) .

7. - MÉTODO DE GENERACIÓN DE MAPAS DE PROFUNDIDAD PARA CONVERSIÓN DE IMÁGENES ANIMADAS 2D EN 3D, según una cualquiera de las reivindicaciones anteriores, caracterizado porque el flujo óptico calculado para la entrada de la tercera etapa comprende el cálculo del flujo óptico entre la trama anterior (K-l) y la trama actual (K) mediante bloques de puntos de imagen de tamaño variable; calculándose este flujo óptico n veces para una misma imagen fija o trama (K, K-l) filtrada con un filtro Gaussiano de diferente tamaño cada vez de esas n veces; siendo n un número natural que coincide con el número de niveles de cada una de las pirámides de la primera etapa del método; siendo dicho tamaño variable de los bloques de puntos de imagen directamente proporcional a la varianza del filtro Gaussiano e inversamente proporcional al valor de n .

8. - MÉTODO DE GENERACIÓN DE MAPAS DE PROFUNDIDAD PARA CONVERSIÓN DE IMÁGENES ANIMADAS 2D EN 3D, según una cualquiera de las reivindicaciones 1 a 4, 6 6 7, caracterizado porque la integración de mapas de profundidad de la sexta etapa (6) es llevada a cabo mediante la siguiente expresión: D= *D'_s(t-l) + (1-a) *D_s(t) ; donde D_s(t) indica el mapa de profundidad orientado a segmentos relativo a una trama actual; D es el mapa integrado resultante; es una proporción de integración; y D' s (t-1) es un mapa de profundidad trasladado que se obtiene mediante el traslado, punto por punto de imagen, del mapa de profundidad orientado a segmentos relativo a una trama anterior D_s (t-1) a un mapa de profundidad accesorio D'_s que es un mapa de profundidad orientado a segmentos obtenido a partir de los flujos ópticos conseguidos en la segunda etapa, donde únicamente se consideran los mapas de profundidad parciales que presentan mayor grado de resolución y son relativos a una trama actual.