WO2011138472A1 - Método de generación de mapas de profundidad para conversión de imágenes animadas 2d en 3d - Google Patents
Método de generación de mapas de profundidad para conversión de imágenes animadas 2d en 3d Download PDFInfo
- Publication number
- WO2011138472A1 WO2011138472A1 PCT/ES2010/070308 ES2010070308W WO2011138472A1 WO 2011138472 A1 WO2011138472 A1 WO 2011138472A1 ES 2010070308 W ES2010070308 W ES 2010070308W WO 2011138472 A1 WO2011138472 A1 WO 2011138472A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image
- depth map
- stage
- depth
- oriented
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 88
- 230000003287 optical effect Effects 0.000 claims abstract description 41
- 238000004364 calculation method Methods 0.000 claims description 23
- 230000010354 integration Effects 0.000 claims description 19
- 238000006243 chemical reaction Methods 0.000 claims description 15
- 230000033001 locomotion Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 13
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000009471 action Effects 0.000 claims description 2
- 238000010348 incorporation Methods 0.000 claims description 2
- 239000013598 vector Substances 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- KRQUFUKTQHISJB-YYADALCUSA-N 2-[(E)-N-[2-(4-chlorophenoxy)propoxy]-C-propylcarbonimidoyl]-3-hydroxy-5-(thian-3-yl)cyclohex-2-en-1-one Chemical compound CCC\C(=N/OCC(C)OC1=CC=C(Cl)C=C1)C1=C(O)CC(CC1=O)C1CCCSC1 KRQUFUKTQHISJB-YYADALCUSA-N 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
Definitions
- MPEG MOVING PICTURE EXPERT GROUP; Expert group of moving images.
- the user experience with videos encoded with this regulation, using autostereoscopic screens reveals the importance of respecting the edges of objects for a better visual experience.
- the invention is specially designed to respect the edges, proposing a new depth allocation model consistent with image segments that are established in each still image of the corresponding animation; special attention being paid to the segmentation algorithm, used in the fourth stage of the proposed method, to respect the edges of the objects.
- the depth maps that are generated with the method of the invention can be used both for direct viewing of 2D images in a 3D system, and for the transmission of video files incorporating information related to their three-dimensional viewing.
- the depth is encoded with a value of N bits.
- the depth map represents the depth value associated with each image point of 2D visual content. With the depth map available, it is possible to generate multiple views of the scene depending on the position of the viewer.
- Depth maps can be generated directly with stereoscopic cameras or using Time-of-Flight cameras based on infrared light. Another alternative is the conversion of the video content that exists in 2D into "2D video more depth”.
- these algorithms establish correspondences between some selected characteristics extracted from the images, such as the image points of the images. edges, line segments or curves. Its main advantage is to obtain accurate information and manipulate reasonably small amounts of data, thus gaining time and space complexity.
- Phase-based other kinds of methods are based on Fourier phase information, which can be considered as a kind of gradient-based method of areas, with the approximate temporal derivative of the difference between the left and right images of the Fourier phase. Hierarchical methods are also used at this point so as not to get caught in some local minimums.
- [4] propose mapping the calculated optical flow with the motion vectors of an MPEG encoder that operates in real time.
- the optical flow is mapped directly as a depth map oriented to image points.
- the drawback of this method is that the depth is not consistent with the objects. Indeed, only the image points at the edges of the object where the real depth changes abruptly have a significant optical flow and, therefore, depth.
- Li et al. [5] present another method to obtain a dense depth map using the structure from the movement. His method is divided into two stages. First, projective reconstruction and Euclidea are calculated from characteristic points with follow-up. Secondly, the assumption is made that the scene is formed by flat surfaces oriented to pieces described by triangles that join three 3D points. The main drawbacks in this case come from regions with little texture (that is, with a small number of characteristic points) and in the transition between the foreground and the background imposed by the assumption of flatness.
- Boujou is an industrial solution for camera and object tracking winner of an Emmy award. This solution is capable of generating a 3D mesh of a surface following the movement of the camera. This method is similar to [5].
- Another product available for movie editing is Philips WOWvx BlueBox [7].
- This tool provides the user can edit the depth map of a keyframe that determines the beginning of a shot in the video sequence. This editing tool is completely manual. Once the depth map corresponding to the keyframe is ready, the tool is able to follow the objects in the sequence during the shot (that is, until the next keyframe). This tracking allows generating depth maps for each frame within the shot. Some manual corrections are necessary in case the monitoring system fails. This process is tedious because the depth map generation and correction are manual.
- Area-based and phase-based methods are adapted for relatively textured areas; however, they generally assume that the observed scene is locally parallel to the front, which causes problems for skewed surfaces and in particular near the contours of occlusion of objects. Finally, the pairing process does not take into account the edge information that is really very important information that should be used to obtain reliable and accurate dense maps.
- the invention consists of a method of generating depth maps for conversion of 2D animated images into 3D, where the 2D animated image is composed of a series of still images that are sequenced with a frequency to give a sensation of movement, where the current image is called the fixed image at a given time, the previous frame to the fixed image prior to the current frame and so on; where the generated depth maps are used for an action selected between the direct viewing of 2D images in a 3D system, the transmission of video files with the incorporation of information related to their three-dimensional viewing and combination of both.
- the parallax is mapped to a specific depth, determining the optical flow to establish the changes of coordinates suffered by at least one image point with the same value of at least one parameter. selected from luminance, color frequency, color saturation and any combination thereof, when moving from a still image to the following, for which the method of the invention comprises the following six steps:
- a third stage of depth map calculation oriented to image points that is carried out by adding said partial depth maps after resizing and assigning weights to give a degree of relevance to each of said maps partial; where the weights assigned to each depth map are based on the value of their degree of resolution;
- a fifth stage of depth map calculation oriented to segments of the current frame, in which a unique depth value is assigned to each segment established in the fourth stage, said value being depth the average value of the image points included in each segment of the depth map oriented to image points calculated in the third stage; obtaining a depth map oriented to segments of the current plot;
- the pyramid of scaled versions of an image is generated by scaling down the frame from which it is split several times in the grayscale intensities version of the image, so that at each level of the pyramid, the scaled versions are half width and half height in image points with respect to the previous level, and so that each time an image is scaled, it is first filtered with a Gaussian filter of a fixed size, and then it is sampled downwards rejecting the even rows and columns, this filtering being carried out to improve stability and the generation of the pyramid of scaled versions being performed on the previous and current video frames; while to accelerate the process, the pyramid corresponding to the current frame is saved so that when the first stage of the method is applied to a frame following the current one, the pyramid corresponding to the frame that is prior to said frame is already available next.
- the optical flow is calculated by matching the blocks of image points between two images, said blocks having a fixed size and so that a block is formed by first intensity values of the image points of a first image corresponding to a level of the pyramid generated in the first stage for one of the frames, the best pairing being established by the block of a few second intensity values of the image points of a corresponding second image at a level of the pyramid generated in the first stage for the other of the frames and having said second intensity values closer to the aforementioned first values; the optical flow being the distance in the X and Y axes at image points from the coordinates of the block in the first image to the coordinates of the best match in the second image, so that the result is two maps, one for the axis X and another for the Y axis.
- partial depth maps are resized to the plot dimension from which the method is based, and to generate the depth map oriented to image points all are added.
- Partial depth maps giving each of them a different weight, and so that the lower the degree of resolution of a partial depth map, the greater the weight given to it.
- D a * D s (tl) + (1-) * D S (t); where D s (t) indicates the segment-oriented depth map relative to a current frame; D s (t-1) indicates the segment-oriented depth map relative to a previous frame; D is the resulting integrated map and is a proportion of integration.
- An integration ratio 0.8 in the sixth stage.
- the method thereof may have some variations such as those indicated below.
- the optical flow calculated for the input of the third stage comprises the calculation of the optical flow between the previous frame and the current frame by means of blocks of image points of variable size; this optical flow is calculated n times for the same still image or frame filtered with a Gaussian filter of different size each time of those n times; n being a natural number that coincides with the number of levels of each of the pyramids of the first stage of the method; said variable size of the image point blocks being directly proportional to the Gaussian filter variance and inversely proportional to the value of n.
- D s (t) indicates the segment-oriented depth map relative to a current frame
- D is the resulting integrated map; it is a proportion of integration
- D ' s (t-1) is a translated depth map that is obtained by moving, point by point image, the segment-oriented depth map relative to a previous frame D s (t-1) to a map of accessory depth D ' s which is a segment-oriented depth map obtained from the optical flows achieved in the second stage, where only partial depth maps that have a higher degree of resolution and are relative to a current frame are considered .
- the method of the invention is specially designed to respect the edges of the image segments that are established, proposing a new depth allocation model consistent with those segments , having paid special attention to the segmentation algorithm that is used in the fourth stage to respect the aforementioned edges of the image segments or objects thereof.
- the problem with the transition areas between the foreground and the background, or simply between the objects is solved by the proposed treatment oriented to segments of the depth maps establishing the fifth stage of the method of the invention.
- another issue that arises when a 2D video is converted to 3D is the heterogeneous content that has to be converted.
- Figure 1. It is a functional block diagram of a method of generating depth maps for conversion of 2D 2D animated images, made according to the present invention and showing part of its component stages, specifically the first to fifth stages of said method. .
- Figure 2. It is a functional block diagram that represents the sixth and last stage of the method referred to in the previous figure 1, also relating it to the previous stages of the aforementioned method.
- IB First stage of the method applied to a current frame.
- 5B Depth map obtained in the fifth stage of the method, referring to a current plot.
- 1 to 5A First to fifth stages of the method for a current frame.
- 5B ' Segment-oriented depth map that is obtained in the first to fifth stages of the method, referring to an earlier frame.
- parallax is an apparent displacement of an object seen along two different lines of vision.
- a change in the position of an observer of a scene produces different levels of parallax. More precisely, objects that are close to the observer have larger parallaxes and vice versa.
- parallax is mapped to a depth.
- a possible approach to calculate the parallax of a moving observer is determining the optical flow The optical flow consists in calculating the motion vectors between two images (which in our case are two consecutive frames of a video). Motion vectors determine the change in the coordinates of an image point, or a set of image points, that have the same content in both images. By content, we understand luminance, color and any other information that identifies an image point, or a set of image points.
- Our invention proposes a method to calculate the optical flow between the current and previous frames in a pyramidal way.
- the depth map is obtained by adding the result of processing the optical flow at different scales. Once the depth map oriented to image points is available, the method generates a depth map with respect to image segments. Each segment in the image is assigned a different depth value. This depth value is the average of the depth map values oriented to image points. Additionally, the depth map is integrated over time to produce more consistent results.
- the pyramid of scaled versions of an image is generated by scaling down the original image several times. This process is done in the grayscale intensities version of the image.
- the scaled versions are half the size (half width and half height in image points) of the previous level.
- Each time an image is scaled it is first filtered with a Gaussian filter of a fixed size (5x5 image points) and then sampled down rejecting even rows and columns. This pre-filtering is done to generate more stable results.
- the generation of the pyramid of scaled versions is done on the previous and current video frames. To speed up the process, the pyramid corresponding to the current frame is saved for the next frame.
- the optical flow is calculated by matching the blocks of image points between two images.
- a block is formed by the intensity values of the image points of an image.
- the best match is the block of the second image that most closely resembles that of the first image.
- the optical flow is the distance on the X and Y axes at image points from the coordinates of the block (i, j) in the first image to the coordinates of the best match in the second image.
- the result is two maps, one for the XO axis x (i, j) and one for the Y 0 Y axis (i, j).
- the algorithm used to calculate the optical flow is described in reference [9] of the "Background of the Invention" section of this document.
- the pairing of a certain block A in I k determines a global optical flow in all sub-blocks within A at the next level Ik-i- This is the optical flow used as an initial estimate when processing the next level of the pyramid, that is, matching Ijt-i with Jk -i.
- the calculation ends with the last level of the pyramid (k 0).
- all partial depth maps are added.
- a different weight is given to each of the maps. More specifically, greater depth (greater weight) is given to depth maps of lower resolutions. The result is a space-scale depth map D p .
- the depth map generation has to be very careful with the edges. If no effort is made to consider the edges, an annoying effect could be generated when the video + 3D depth is presented. Indeed, an aura effect could be perceived around the objects.
- the purpose of this calculation is to assign a unique depth value to each of the R ⁇ segments of the image. For each of the R ⁇ segments, the average value of the image points of the scale map of the scale space (D p ) is calculated, resulting in d. The result of this process is a set of M depth values, one for each of the segments.
- the depth map D s is formed with the segments extracted from the image of the current frame. All image points within each segment i3 ⁇ 4 are assigned the corresponding average depth value di.
- the results of the previous depth maps are integrated.
- the integrated depth map is a weighted sum of the current D s and the previous D s .
- Step 6 can be exchanged with the following procedure.
- D s (t-1) D' s (O x , or (i, j), O Y , 0 (i, j), t-1), where 0 Xr or (i f j) and 0 Yr or (i, j) are the result of stage 2 in the current frame.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Graphics (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Processing Or Creating Images (AREA)
- Image Generation (AREA)
Abstract
Una imagen animada en 2D se compone de una serie de imágenes fijas denominadas trama actual (K), trama anterior (K-1) y así sucesivamente. El método genera mapas de profundidad que permiten convertir imágenes 2D en 3D. Para ello, el método comprende una primera etapa de generación de una pirámide de versiones escaladas de la trama actual, así como de la trama anterior. Una segunda etapa de cálculo del flujo óptico entre las pirámides actual y anterior. Una tercera etapa de cálculo de mapa de profundidad orientado a puntos de imagen. Una cuarta etapa de generación de segmentos de imagen en la trama actual. Una quinta etapa de cálculo de mapa de profundidad orientado a dichos segmentos, obteniéndose un mapa de profundidad orientado a segmentos, y una sexta etapa de integración de mapas orientados a segmentos relativos a trama actual y anterior, obteniéndose el mapa definitivo para la trama actual.
Description
MÉTODO DE GENERACIÓN DE MAPAS DE PROFUNDIDAD PARA CONVERSIÓN DE IMÁGENES ANIMADAS 2D EN 3D .
OBJETO DE LA INVENCIÓN
La presente invención, tal y como se expresa en el enunciado de esta memoria descriptiva, se refiere a un método de generación para mapas de profundidad para conversión de imágenes animadas 2D en 3D cuya finalidad esencial es la conversión de un video 2D en un video 3D siguiendo la normativa MPEG-C parte 3 (MPEG = MOVING PICTURE EXPERT GROUP; Grupo de expertos de imágenes en movimiento) . La experiencia del usuario con videos codificados con esta normativa, usando pantallas autoestereoscópicas revela la importancia de respetar los bordes de los objetos para una mejor experiencia visual. En este sentido, la invención está especialmente diseñada para respetar los bordes, proponiendo un nuevo modelo de asignación de profundidades coherente con unos segmentos de imagen que se establecen en cada imagen fija de la correspondiente animación; habiéndose prestado especial atención al algoritmo de segmentación, empleado en la cuarta etapa del método propuesto, para respetar los bordes de los objetos.
Los mapas de profundidad que se generan con el método de la invención, pueden emplearse tanto para visionado directo de las imágenes 2D en un sistema 3D, como para la transmisión de archivos de video con incorporación de información relativa a su visionado tridimensional.
ANTECEDENTES DE LA INVENCIÓN
La introducción de los sistemas de visualización de 3D en el mercado y el crecimiento de la generación de contenidos visuales ha promovido la necesidad de un método normalizado para intercambiar información visual de 3D. Como respuesta a este hecho, el MPEG ha lanzado recientemente la especificación ISO/IEC 23002-3, también conocida como MPEG-C parte 3 [1] . Esta especificación está
enfocada en la codificación de contenidos 3D formateados con lo que se llama "video 2D más profundidad". Tal formato consiste en la composición lado por lado de cada trama de video con una mitad izquierda que es el contenido visual 2D y una mitad derecha que es el mapa de profundidad.
Las principales ventajas de este formato de codificación son:
• Independencia respecto a la tecnología de captura.
• Independencia respecto a la tecnología de presentación en pantalla.
• Compatibilidad hacia atrás con 2D.
• Buena eficiencia de compresión (baja sobrecarga) .
La profundidad se codifica con un valor de N bits. El mapa de profundidad representa el valor de la profundidad asociado con cada punto de imagen del contenido visual de 2D. Con el mapa de profundidad disponible, es posible generar múltiples vistas de la escena dependiendo de la posición del espectador.
Los mapas de profundidad pueden generarse directamente con cámaras estereoscópicas o usando cámaras de Tiempo-de- Vuelo basadas en luz infrarroja. Otra alternativa es la conversión del contenido de vídeo que existe en 2D en "vídeo 2D más profundidad".
Existen varias técnicas en la investigación relacionada para estimar la estructura 3D usando un flujo de vídeo o un par de imágenes de la misma escena. Estas pueden dividirse en las siguientes categorías. Ejemplos particulares de cada una de las categorías pueden encontrarse en [ 2 ] :
· Basadas en características: estos algoritmos establecen correspondencias entre algunas características seleccionadas extraídas de las imágenes, tales como los puntos de imagen de los
bordes, segmentos de líneas o curvas. Su principal ventaja es obtener una información precisa y manipular cantidades de datos razonablemente pequeñas, ganando de este modo en tiempo y complejidad de espacio.
• Basadas en áreas: en estos planteamientos, se proporcionan mapas de profundidad densos correlacionando los niveles de grises de regiones de la imagen en las vistas que se están considerando, asumiendo que presentan alguna similitud.
• Basadas en la fase: otra clase de métodos se basan en la información de fase de Fourier, que puede considerarse como una clase de método de áreas basada en el gradiente, con la derivada temporal aproximada por la diferencia entre las imágenes izquierda y derecha de la fase de Fourier. También se usan métodos jerárquicos en este punto para no quedar atrapados en algunos mínimos locales.
• Basadas en la energía: una última clase de planteamiento, consiste en resolver el problema de correspondencia en una formulación de regularización y minimi zación .
Este campo de investigación se ha concentrado principalmente en calcular un flujo óptico preciso entre parejas de imágenes. En adelante, en este documento resaltamos algunos ejemplos que se centran en la generación de mapas de profundidad densa o mapas de disparidad usando una sola cámara, no un par estéreo. Ernst et al. [ 3 ] han presentado una patente sobre el cálculo de mapas de profundidad. Su método comienza con el cálculo de un árbol de segmentos (segmentación jerárquica) . El árbol se analiza desde la parte superior a la parte inferior comenzando desde el nodo raíz. Para cada segmento, se genera un conjunto de vectores de movimiento candidatos. A cada
vector de movimiento se asigna una penalización de acuerdo con otros vectores de movimiento en los bloques vecinos. Se asigna la profundidad de cada uno de los segmentos de acuerdo con el vector de movimiento que se selecciona. Ideses et al. [4] proponen mapear el flujo óptico calculado con los vectores de movimiento de un codificador MPEG que funciona en tiempo real. El flujo óptico se mapea directamente como un mapa de profundidad orientado a puntos de imagen. El inconveniente de este método es que la profundidad no es consistente con los objetos. En efecto, sólo los puntos de imagen en los bordes del objeto donde la profundidad real cambia abruptamente tienen un flujo óptico significativo y, por lo tanto, profundidad. Li et al. [5] presentan otro método para obtener un mapa de profundidad denso usando la estructura a partir del movimiento. Su método se divide en dos etapas. En primer lugar, se calcula la reconstrucción proyectiva y Euclidea a partir de puntos característicos con seguimiento. En segundo lugar, se hace la suposición de que la escena está formada por superficies planas orientadas a piezas descritas por triángulos que unen tres puntos de 3D. Los principales inconvenientes en este caso vienen de regiones con poca textura (es decir, con un pequeño número de puntos de características) y en la transición entre el primer plano y el fondo impuesto por la suposición de planicidad.
Ejemplos de tecnología que estiman una estructura 3D o directamente mapas de profundidad, existen como aplicaciones industriales o máquinas. Entre otros, resaltamos el software Boujou de 2d3 [6] . Boujou es una solución industrial para el seguimiento de cámara y de objetos ganadora de un premio Emmy. Esta solución es capaz de generar una malla 3D de una superficie siguiendo el movimiento de la cámara. Este método es similar a [5] . Otro producto disponible para la edición de películas es el WOWvx BlueBox de Philips [7] . Esta herramienta proporciona
al usuario la posibilidad de editar el mapa de profundidad de un fotograma clave que determina el comienzo de una toma en la secuencia de video. Esta herramienta de edición es completamente manual. Una vez que está listo el mapa de profundidad correspondiente al fotograma clave, la herramienta es capaz de seguir los objetos en la secuencia durante la toma (es decir, hasta el siguiente fotograma clave) . Este seguimiento permite generar mapas de profundidad para cada trama dentro de la toma. Son necesarias algunas correcciones manuales en el caso de que el sistema de seguimiento falle. Este proceso es tedioso porque la generación del mapa de profundidad y la corrección son manuales.
Respecto de los problemas e inconvenientes que se dan con las soluciones existentes en el estado de la técnica, cabe indicar lo siguiente:
Hay varias limitaciones en los métodos y tecnología mencionados anteriormente.
En el caso de las técnicas basadas en características, su principal inconveniente es la escasez de información de profundidad recuperada ya que sólo produce información de la profundidad en las características pero no del espacio intermedio .
Los métodos basados en el área y en la fase se adaptan para áreas relativamente texturadas; sin embargo, generalmente asumen que la escena observada está localmente paralela al frente, lo cual causa problemas para superficies sesgadas y en particular cerca de los contornos de oclusión de los objetos. Finalmente, el proceso de emparejamiento no tiene en cuenta la información de bordes que es realmente una información muy importante que debe usarse para obtener mapas densos fiables y precisos.
El caso de los métodos basados en la energía y los que estiman la estructura 3D subyacente de la escena es que se
necesita la calibración (al menos ligera) de la cámara. En muchos casos, también cuentan con una geometría epipolar que tiene también varias limitaciones cuando el movimiento de la cámara está muy limitado dentro de una toma determinada o cuando la cámara gira alrededor de su eje perpendicular .
Referencias .
[1] A. Bourge, J. Gobert, F . Bruls. MPEG-C Part 3: Enabling the Introduction of Video Plus Depth Contents, Proc. of the IEEE Workshop on Content generation and coding for 3D-television, 2006.
[2] L. Alvarez, R. Deriche, J. Sánchez, J. Weickert.
Dense Disparity Map Estimation Respecting Image Discontinuities : A PDE and Scale-Space Based Approach, Tech. Report, INRIA Sophia-Antipolis,
France, 2000.
[3] Ernst, F., Wilinski, P., Van Overveld, C. (2006). Method of and units for motion or depth estimation and image processing apparatus provided with such motion estimation unit. U.S. Patent No. 7,039,110
B2. Washington, DC : U.S. Patent and Trademark Office .
[4] I. Ideses, L.P. Yaroslavsky, B. Fishbain, Real- time 2D to 3D video conversión, Journal of Real- time Image Processing, 2:3-9, Springer, 2007.
[5] Li, P., Farin, D., Klein Gunnewiek, R., and de With, P. On Creating Depth Maps from Monoscopic Video using Structure from Motion. Proc. of the 27th Symp. on Information Theory in the BENELUX (WIC2006), vol.l, June 8-9, 2006, Noordwijk, the
Netherlands
[6] Boujou from 2d3. http : //www .2d3. com/product/ ?v=l
[7] WOWvx BlueBox from Philips . http//www . business- sites .philips . com/3dsolutions /products/wowvxbluebo x/index . page
[8] Parallax. http : //en . wikipedia .org/wiki/Parallax
[9] Berthold K.P. Horn and Brian G. Schunck.
Determining Optical Flow. Artificial Intelligence, 17, pp . 185- 203, 1981
DESCRIPCIÓN DE LA INVENCIÓN
Para lograr los objetivos y evitar los inconvenientes indicados en anteriores apartados, la invención consiste en un método de generación de mapas de profundidad para conversión de imágenes animadas 2D en 3D, donde la imagen animada 2D se compone de una serie de imágenes fijas que se secuencian con una frecuencia para dar sensación de movimiento, donde se denomina trama actual a la imagen fija en un determinado momento, trama anterior a la imagen fija previa a la trama actual y así sucesivamente; donde los mapas de profundidad generados son utilizados para una acción seleccionada entre el visionado directo de las imágenes 2D en un sistema 3D, la transmisión de archivos de vídeo con incorporación de información relativa a su visionado tridimensional y combinación de ambas.
Novedosamente, según la invención, para realizar la referida generación de mapas de profundidad se mapea el paralaje a una profundidad determinada, determinando el flujo óptico para establecer los cambios de coordenadas sufridos por al menos un punto de imagen con igual valor de al menos un parámetro seleccionado entre luminancia, frecuencia de color, saturación de color y combinación cualquiera de los mismos, al pasar de una imagen fija a la siguiente, para lo cual el método de la invención comprende las siguientes seis etapas:
- una primera etapa de generación de una pirámide de versiones escaladas de la trama actual y una pirámide de
versiones escaladas de la trama anterior; donde la pirámide de versiones escaladas de la trama actual comprende unas versiones jerarquizadas de la trama actual y la pirámide de versiones escaladas de la trama anterior comprende unas versiones jerarquizadas de la trama anterior; donde las versiones jerarquizadas se llevan a cabo mediante variaciones controladas de al menos uno de los parámetros de la imagen fija correspondiente;
- una segunda etapa de cálculo del flujo óptico entre la pirámide de versiones escaladas de la trama actual y la pirámide de versiones escaladas de la trama anterior; donde dicho cálculo del flujo óptico se lleva a cabo mediante un algoritmo estándar de emparejamiento y comparación de bloques de puntos de imagen entre dos imágenes; obteniéndose unos mapas de profundidad parciales con diferentes grados de resolución;
- una tercera etapa de cálculo de mapa de profundidad orientado a puntos de imagen que es llevado a cabo mediante la adición de dichos mapas de profundidad parciales después de que se redimensionan y se asignan ponderaciones para dar un grado de relevancia a cada uno de dichos mapas parciales; donde las ponderaciones asignadas a cada mapa de profundidad están basadas en el valor de su grado de resolución;
- una cuarta etapa de generación de unos segmentos de la trama actual, en la que dicha trama actual es dividida en segmentos en función de al menos una característica relativa a la imagen de las diversas zonas de la trama actual, siendo dicha característica relativa la coherencia del color;
- una quinta etapa de cálculo de mapa de profundidad orientado a segmentos de la trama actual, en la que se asigna un valor de profundidad único a cada segmento establecido en la cuarta etapa, siendo dicho valor de
profundidad el valor medio de los puntos de imagen comprendidos en cada segmento del mapa de profundidad orientado a puntos de imagen calculado en la tercera etapa; obteniéndose un mapa de profundidad orientado a segmentos de la trama actual; y
una sexta etapa de integración de mapas de profundidad orientados a segmentos relativos a la trama actual y a la trama anterior, siendo el mapa de profundidad orientado a segmentos de la trama anterior el resultado de aplicar las etapas 1 a 5 del método sobre la trama anterior y sobre una trama previa a la anterior; consistiendo dicha integración en una suma ponderada del mapa de profundidad orientado a segmentos de la trama actual con el mapa de profundidad orientado a segmentos de la trama anterior; obteniéndose un mapa de profundidad para la trama actual definitivo .
Según la realización preferente de la invención, en la primera etapa la pirámide de versiones escaladas de una imagen se genera escalando hacia abajo la trama de la que se parte varias veces en la versión de intensidades de niveles de grises de la imagen, de manera que en cada nivel de la pirámide, las versiones escaladas tienen la mitad de anchura y mitad de altura en puntos de imagen respecto del nivel anterior, y de manera que cada vez que se escala una imagen, en primer lugar se filtra con un filtro Gaussiano de un tamaño fijo, y a continuación se muestrea hacia abajo rechazando las filas y columnas pares, efectuándose este filtrado para mejorar la estabilidad y realizándose la generación de la pirámide de versiones escaladas sobre las tramas de video anterior y actual; en tanto que para acelerar el proceso, la pirámide correspondiente a la trama actual se guarda para que cuando la primera etapa del método sea aplicada a una trama siguiente a la actual se disponga ya de la pirámide correspondiente a la trama que es anterior a dicha trama siguiente.
Además, según la realización preferente de la invención, en la segunda etapa el flujo óptico se calcula emparejando los bloques de puntos de imagen entre dos imágenes, presentando dichos bloques un tamaño fijo y de manera que un bloque se forma por unos primeros valores de intensidad de los puntos de imagen de una primera imagen correspondiente a un nivel de la pirámide generada en la primera etapa para una de las tramas, estableciéndose el mejor emparejamiento mediante el bloque de unos segundos valores de intensidad de los puntos de imagen de una segunda imagen correspondiente a un nivel de la pirámide generada en la primera etapa para la otra de las tramas y que tenga dichos segundos valores de intensidad más próximos a los referidos primeros valores; siendo el flujo óptico la distancia en los ejes X e Y en puntos de imagen desde las coordenadas del bloque en la primera imagen a las coordenadas de la mejor coincidencia en la segunda imagen, de manera que el resultado son dos mapas, uno para el eje X y otro para el eje Y.
Según la realización preferente de la invención, en la tercera etapa todos los mapas de profundidad parciales se redimensionan a la dimensión de la trama de la que se parte en el método, y para generar el mapa de profundidad orientado a puntos de imagen se añaden todos los mapas de profundidad parciales, otorgándose un peso diferente a cada uno de ellos, y de manera que cuanto más bajo es el grado de resolución de un mapa de profundidad parcial, mayor es el peso que se le otorga.
Por otra parte, y también para la realización preferente de la invención, en la sexta etapa la integración de mapas de profundidad es llevada a cabo mediante la siguiente expresión:
D=a*Ds(t-l) + (1- ) *DS (t) ;
donde Ds (t) indica el mapa de profundidad orientado a segmentos relativo a una trama actual; Ds(t-1) indica el mapa de profundidad orientado a segmentos relativo a una trama anterior; D es el mapa integrado resultante y es una proporción de integración.
En la realización preferente de la invención, el método de la misma se optimiza con los valores que se indican a continuación:
Imágenes originales con un tamaño de 960 x 540 puntos de imagen.
Cinco niveles en las pirámides de versiones escaladas de las tramas anterior y actual de la primera etapa.
Un tamaño de bloque de 20 x 20 puntos de imagen para el cálculo del flujo óptico de la segunda etapa. - Una proporción de integración = 0,8 en la sexta etapa .
Por otra parte, para otras realizaciones de la invención, el método de la misma puede presentar algunas variaciones como las que se indican a continuación.
Asi, en una de esas variaciones, el flujo óptico calculado para la entrada de la tercera etapa, comprende el cálculo del flujo óptico entre la trama anterior y la trama actual mediante bloques de puntos de imagen de tamaño variable; calculándose este flujo óptico n veces para una misma imagen fija o trama filtrada con un filtro Gaussiano de diferente tamaño cada vez de esas n veces; siendo n un número natural que coincide con el número de niveles de cada una de las pirámides de la primera etapa del método; siendo dicho tamaño variable de los bloques de puntos de imagen directamente proporcional a la varianza del filtro Gaussiano e inversamente proporcional al valor de n.
En otra de las mencionadas variaciones del método de la invención, la integración de mapas de profundidad de la
sexta etapa es llevada a cabo mediante la siguiente expresión :
D=a*D's(t-l) + (I-a) *DS (t) ;
donde Ds (t) indica el mapa de profundidad orientado a segmentos relativo a una trama actual; D es el mapa integrado resultante; es una proporción de integración; y D's (t-1) es un mapa de profundidad trasladado que se obtiene mediante el traslado, punto por punto de imagen, del mapa de profundidad orientado a segmentos relativo a una trama anterior Ds (t-1) a un mapa de profundidad accesorio D's que es un mapa de profundidad orientado a segmentos obtenido a partir de los flujos ópticos conseguidos en la segunda etapa, donde únicamente se consideran los mapas de profundidad parciales que presentan mayor grado de resolución y son relativos a una trama actual .
Sobre las ventajas de la invención respecto del estado de la técnica actual, cabe indicar que el método de la invención está especialmente diseñado para respetar los bordes de los segmentos de imagen que se establezcan, proponiendo un nuevo modelo de asignación de profundidad coherente con esos segmentos, habiéndose prestado especial atención al algoritmo de segmentación que se utiliza en la cuarta etapa para el respeto de los mencionados bordes de los segmentos de imagen u objetos de la misma. En comparación con la referencia [5] del apartado antecedentes de la invención de este documento, el problema con las áreas de transición entre el primer plano y el fondo, o simplemente entre los objetos, se resuelve mediante el tratamiento propuesto orientado a segmentos de los mapas de profundidad que establece la quinta etapa del método de la invención. Además, otra cuestión que surge cuando se convierte un video 2D a 3D es el contenido heterogéneo que tiene que convertirse. Asi, aunque no hay ningún conocimiento a priori de si la escena delante de la cámara
es estática o se están moviendo algunos objetos, en la invención se hace la suposición, para tratar con objetos en movimiento, de que los objetos que se mueven están más cerca de la cámara si su tamaño es mayor, para lo cual la invención aplica un factor de ponderación o una asignación de ponderaciones, tal y como se describió en la tercera etapa del método, introduciéndose ese factor de ponderación para la contribución de cada uno de los niveles en la pirámide en el momento de calcular el mapa de profundidad orientado a puntos de imagen; con lo que los objetos con mayor tamaño aparecen como bloques completos en las resoluciones más bajas. Asi, según el método de la invención, las resoluciones más bajas tienen una contribución más alta (un mayor peso) para el mapa de profundidad. Con ello, se proporciona una flexibilidad que posibilita tratar tanto escenas estáticas, donde los segmentos de imagen y sus subsegmentos tienen movimientos coherentes, como escenas dinámicas, donde los objetos o segmentos de imagen describen diferentes movimientos. Con ello, se supera una limitación del método de árbol basado en segmentación, perteneciente al estado de la técnica según la referencia [3] del apartado antecedentes de la invención de este documento, pudiendo evitarse inconvenientes relativos a una excesiva rigidez en la correspondiente escena.
A continuación, para facilitar una mejor comprensión de esta memoria descriptiva y formando parte integrante de la misma, se acompañan unas figuras en las que con carácter ilustrativo y no limitativo se ha representado el objeto de la invención.
BREVE DESCRIPCION DE LAS FIGURAS
Figura 1.- Es un diagrama de bloques funcionales de un método de generación de mapas de profundidad para conversión de imágenes animadas 2D en 3D, realizado según la presente invención y mostrando parte de sus etapas componentes, concretamente las etapas primera a quinta de dicho método.
Figura 2.- Es un diagrama de bloques funcionales que representa a la sexta y última etapa del método referido en la anterior figura 1, relacionándola además con las etapas previas del aludido método.
DESCRIPCIÓN DE UN EJEMPLO DE REALIZACIÓN DE LA INVENCIÓN
Seguidamente se hace una descripción de un ejemplo de la invención en la que se hace alusión a las referencias de las figuras .
Asi, el método de generación de mapas de profundidad para conversión de imágenes animadas 2D en 3D según este ejemplo de la invención queda ilustrado en las figuras 1 y 2, aportándose primeramente un listado con el significado de las referencias:
1: Primera etapa del método; generación de la pirámide de versiones escaladas.
2: Segunda etapa del método; cálculo del flujo óptico entre las pirámides actual y anterior.
3: Tercera etapa del método; cálculo del mapa de profundidad orientado a puntos de imagen.
4: Cuarta etapa del método; generación de los segmentos de la trama actual.
5: Quinta etapa del método; cálculo del mapa de profundidad orientado a segmentos de imagen.
6: Sexta etapa del método; integración de mapas de profundidad actual y anterior.
1A: Primera etapa del método aplicada a una trama anterior .
IB: Primera etapa del método aplicada a una trama actual .
5A: Cálculo del mapa de profundidad orientado a segmentos en la quinta etapa del método.
5B: Mapa de profundidad obtenido en la quinta etapa del método, referido a una trama actual.
1 a 5A: Etapas primera a quinta del método para una trama actual.
1' a 5A' : Etapas primera a quinta del método referidas a una trama anterior.
5B ' : Mapa de profundidad orientado a segmentos que se obtiene en las etapas primera a quinta del método, referido a una trama anterior.
6A: Proceso de integración de mapas de la sexta etapa del método.
6B : Mapa de profundidad definitivo obtenido en la sexta etapa del método para una trama actual.
K: Trama actual.
K-l: Trama anterior.
K-2 : Trama previa a la anterior.
La invención descrita por esta patente se basa en el concepto de paralaje. La paralaje es un desplazamiento aparente de un objeto visto a lo largo de dos diferentes lineas de visión. Un cambio en la posición de un observador de una escena produce diferentes niveles de paralaje. De forma más precisa, los objetos que están próximos al observador tienen paralajes mayores y viceversa. En la invención presentada en este punto, se mapea la paralaje a una profundidad. Un posible planteamiento para calcular la paralaje de un observador en movimiento es determinando el
flujo óptico. El flujo óptico consiste en calcular los vectores del movimiento entre dos imágenes (que en nuestro caso son dos tramas consecutivas de un video) . Los vectores del movimiento determinan el cambio en las coordenadas de un punto de imagen, o un conjunto de puntos de imagen, que tienen el mismo contenido en ambas imágenes. Por contenido, entendemos luminancia, color y cualquier otra información que identifique un punto de imagen, o un conjunto de puntos de imagen.
Nuestra invención propone un método para calcular el flujo óptico entre las tramas actual y anterior de un modo piramidal. El mapa de profundidad se obtiene añadiendo el resultado de procesar el flujo óptico en diferentes escalas. Una vez que está disponible el mapa de profundidad orientado a puntos de imagen, el método genera un mapa de profundidad con respecto a segmentos de imagen. A cada segmento en la imagen se le asigna un valor de profundidad diferente. Este valor de profundidad es la media de los valores del mapa de profundidad orientado a puntos de imagen. Adicionalmente, el mapa de profundidad se integra a lo largo del tiempo para producir resultados más coherentes .
La generación del mapa de profundidad de una trama o señal de video, correspondiente a un fotograma o imagen fija de video, según el presente ejemplo de la invención se puede dividir en las referidas etapas 1 a 6 que se explican con más detalle a continuación:
1. Generación de la pirámide de versiones escaladas .
La pirámide de versiones escaladas de una imagen se genera escalando hacia abajo la imagen original varias veces. Este proceso se hace en la versión de intensidades de niveles de grises de la imagen. En cada nivel de la pirámide, las versiones escaladas tienen la mitad de tamaño (mitad de ancho y mitad de altura en puntos de imagen) del
nivel anterior. Cada vez que se escala una imagen, en primer lugar se filtra con un filtro Gaussiano de un tamaño fijo (5x5 puntos de imagen) y a continuación se muestrea hacia abajo rechazando las filas y columnas pares. Este pre-filtrado se hace para generar resultados más estables. La generación de la pirámide de versiones escaladas se realiza sobre las tramas de video anterior y actual. Para acelerar el proceso, la pirámide correspondiente a la trama actual se guarda para la siguiente trama.
2. Cálculo del flujo óptico entre la pirámide actual y la anterior.
El flujo óptico se calcula emparejando los bloques de puntos de imagen entre dos imágenes. Un bloque se forma por los valores de intensidad de los puntos de imagen de una imagen. El mejor emparejamiento es el bloque de la segunda imagen que más se parece al de la primera imagen. El flujo óptico es la distancia en los ejes X e Y en puntos de imagen desde las coordenadas del bloque (i,j) en la primera imagen a las coordenadas de la mejor coincidencia en la segunda imagen. El resultado son dos mapas, uno para el eje X Ox(i,j) y otro para el eje Y 0Y(i,j). El algoritmo utilizado para calcular el flujo óptico se describe en la referencia [9] del apartado "Antecedentes de la Invención" de este documento.
Llamemos a una imagen de la pirámide anterior como Ik donde k es el nivel de la pirámide desde k=0 (la imagen original) a N-l, siendo N el número de niveles en la pirámide. Lo mismo se aplica a cualquier imagen en la pirámide actual, nombrada Jk. El proceso es iterativo y comienza con la resolución más baja (k=N-l) . En cada una de las iteraciones el flujo óptico (Ox(i,j) y 0Y(i,j)) calculado en el nivel anterior se usa como información anterior acerca del emparejamiento más probable. De forma más precisa, el emparejamiento de cierto bloque A en Ik
determina un flujo óptico global en todos los sub-bloques dentro de A en el siguiente nivel Ik-i- Este es el flujo óptico utilizado como estimación inicial cuando se procesa el siguiente nivel de la pirámide, es decir, emparejando Ijt-i con Jk-i . El cálculo termina con el último nivel de la pirámide (k=0) .
Para cada nivel de resolución, se obtiene un mapa de profundidad parcial D0F,A tomando la norma del flujo óptico para cada uno de los puntos de imagen. Expresado matemáticamente, esto es: j) = N Ox,k(i,j) + 0Yfk(i,j)
3. Cálculo del mapa de profundidad orientado a puntos de imagen Dp.
Todos los mapas de profundidad D0F,A (k=0,..,N-l) se redimensionan a la dimensión de la trama de video original. Para generar el mapa de profundidad orientado a puntos de imagen, se añaden todos los mapas de profundidad parciales. En esta adición, se da un peso diferente a cada uno de los mapas. Más concretamente, se da una mayor relevancia (mayor peso) a los mapas de profundidad de resoluciones más bajas. El resultado es un mapa de profundidad de espacio-escala Dp.
4. Generación de los segmentos de la trama actual
La generación del mapa de profundidad tiene que ser muy cuidadoso con los bordes. Si no se hace ningún esfuerzo por considerar los bordes, se podría generar un efecto molesto cuando se presenta el vídeo + profundidad en 3D. En efecto, podría percibirse un efecto de aura alrededor de los objetos.
En el proceso de segmentación, se presta una atención especial a los bordes de los extremos. La trama actual se segmenta en las regiones de color coherente. La frontera de los segmentos no sobrepasa un borde incluso si el color de
ambos segmentos es similar. Identificamos los segmentos como RÍ donde i es el Índice desde i=l hasta M, donde M es el número de segmentos en la imagen.
5. Cálculo del mapa de profundidad orientado a segmentos DS .
El objetivo de este cálculo es asignar un valor de profundidad único a cada uno de los segmentos R± de la imagen. Para cada uno de los segmentos R±, se calcula el valor medio de los puntos de imagen del mapa de profundidad del espacio de escalas (Dp) , resultando d . El resultado de este proceso es un conjunto de M valores de profundidad, uno para cada uno de los segmentos. El mapa de profundidad Ds se forma con los segmentos extraídos desde la imagen de la trama actual. A todos los puntos de imagen dentro de cada segmento i¾ se les asigna el valor medio de profundidad correspondiente di.
6. Integración de los mapas de profundidad actual y anterior .
Para generar mapas de profundidad que son coherentes a lo largo del tiempo, se integran los resultados de los mapas de profundidad anteriores. Para cada una de las tramas, el mapa de profundidad integrado es una suma ponderada del actual Ds y el anterior Ds. La formula utilizada es D =a*Ds(t-l) + (l-a)*Ds(t) donde t indica la trama actual.
El proceso descrito con las etapas 1 a 6 puede realizarse con algunas variaciones. A continuación describimos las posibles variaciones y el mejor modo para el proceso descrito anteriormente.
El proceso descrito anteriormente se ha probado que produce los mejores resultados con:
• Imágenes originales con un tamaño de 960x540 puntos de imagen.
• Cinco niveles en la pirámide (etapa 1) .
• Un tamaño de bloque de 20x20 puntos de imagen para el cálculo del flujo óptico (etapa 2) .
• Una proporción de integración a=0.8 (etapa 6) .
Las etapas 1 y 2 pueden intercambiarse con el siguiente procedimiento. En lugar de usar un bloque de tamaño fijo en la etapa 2, es posible calcular el flujo óptico con la misma imagen varias veces (tantas como niveles habría en la pirámide) pero con un bloque que cambia su tamaño. De este modo, en el nivel más bajo (k=N- 1) el procedimiento usaría un bloque de gran tamaño, mientras que para el nivel más alto, el bloque tendría el menor tamaño. Para cada uno de los niveles, se calcularía el flujo óptico con la imagen original filtrada con un filtro Gaussiano de diferente tamaño. El tamaño del bloque es directamente proporcional a la varianza del filtro Gaussiano y, por lo tanto, a su tamaño.
La etapa 6 puede intercambiarse con el siguiente procedimiento. Dado el flujo óptico de la más alta resolución (k=0) , el mapa de profundidad en la trama anterior Ds(t-1) puede trasladarse punto por punto de imagen dentro de D's. Matemáticamente expresado, esto sería O's(i, , t-1) = D's(Ox,o(i,j) , OY,0(i,j) , t-1) , donde 0Xro(ifj) y 0Yro(i,j) son el resultado de la etapa 2 en la trama actual. Una vez que se obtiene el mapa de profundidad trasladado Ό's, la integración con el mapa de profundidad actual es equivalente a lo descrito anteriormente, a saber D =a*D'3(t-l) + (1-a) *D3(t) .
Claims
1.- MÉTODO DE GENERACIÓN DE MAPAS DE PROFUNDIDAD PARA CONVERSIÓN DE IMÁGENES ANIMADAS 2D EN 3D, donde la imagen animada 2D se compone de una serie de imágenes fijas que se secuencian con una frecuencia para dar sensación de movimiento, y donde se denomina trama actual (K) a la imagen fija de un determinado momento, trama anterior (K-l) a la imagen fija previa a la trama actual y asi sucesivamente; donde los mapas de profundidad generados son utilizados para una acción seleccionada entre el visionado directo de las imágenes 2D en un sistema 3D, la transmisión de archivos de video con incorporación de información relativa a su visionado tridimensional y combinación de ambas; caracterizado porque dicho método comprende las siguientes seis etapas:
- una primera etapa (1) de generación de una pirámide de versiones escaladas de la trama actual (IB) y una pirámide de versiones escaladas de la trama anterior (1A); donde la pirámide de versiones escaladas de la trama actual comprende unas versiones jerarquizadas de la trama actual y la pirámide de versiones escaladas de la trama anterior comprende unas versiones jerarquizadas de la trama anterior; donde las versiones jerarquizadas se llevan a cabo mediante variaciones controladas de al menos uno de los parámetros de la imagen fija correspondiente;
- una segunda etapa (2) de cálculo del flujo óptico entre la pirámide de versiones escaladas de la trama actual (IB) y la pirámide de versiones escaladas de la trama anterior (1A); donde dicho cálculo del flujo óptico se lleva a cabo mediante un algoritmo estándar de emparejamiento y comparación de bloques de puntos de imagen entre dos imágenes; obteniéndose unos mapas de profundidad parciales con diferentes grados de resolución; una tercera etapa (3) de cálculo de mapa de profundidad orientado a puntos de imagen que es llevado a cabo mediante la adición de dichos mapas de profundidad parciales después de que se redimensionan y se asignan ponderaciones para dar un grado de relevancia a cada uno de dichos mapas parciales; donde las ponderaciones asignadas a cada mapa de profundidad están basadas en el valor de su grado de resolución;
- una cuarta etapa (4) de generación de unos segmentos de la trama actual (K) , en la que dicha trama actual (K) es dividida en segmentos en función de al menos una característica relativa a la imagen de las diversas zonas de la trama actual, siendo dicha característica relativa la coherencia del color;
- una quinta etapa (5) de cálculo de mapa de profundidad orientado a segmentos de la trama actual (5A) , en la que se asigna un valor de profundidad único a cada segmento establecido en la cuarta etapa (4), siendo dicho valor de profundidad el valor medio de los puntos de imagen comprendidos en cada segmento del mapa de profundidad orientado a puntos de imagen calculado en la tercera etapa (3) ; obteniéndose un mapa de profundidad orientado a segmentos de la trama actual (5B) ; y,
una sexta etapa (6) de integración de mapas de profundidad (5B, 5B ' ) orientados a segmentos relativos a la trama actual (5B) y a la trama anterior (5B'); siendo el mapa de profundidad orientado a segmentos de la trama anterior el resultado de aplicar las etapas 1 a 5 del método sobre la trama anterior (K-l) y sobre una trama previa a la anterior (K-2); consistiendo dicha integración en una suma ponderada del mapa de profundidad orientado a segmentos de la trama actual (5B) con el mapa de profundidad orientado a segmentos de la trama anterior (5B'); obteniéndose un mapa de profundidad definitivo (6B)para la trama actual.
2. - MÉTODO DE GENERACIÓN DE MAPAS DE PROFUNDIDAD PARA CONVERSIÓN DE IMÁGENES ANIMADAS 2D EN 3D, según la reivindicación 1, caracterizado porque en la primera etapa (1) la pirámide de versiones escaladas de una imagen (1A, IB) se genera escalando hacia abajo la trama de la que se parte (K, K-l) varias veces en la versión de intensidades de niveles de grises de la imagen, de manera que en cada nivel de la pirámide, las versiones escaladas tienen la mitad de anchura y mitad de altura en puntos de imagen respecto del nivel anterior, y de manera que cada vez que se escala una imagen, en primer lugar se filtra con un filtro Gaussiano de un tamaño fijo, y a continuación se muestrea hacia abajo rechazando las filas y columnas pares, efectuándose este filtrado para mejorar la estabilidad y realizándose la generación de la pirámide de versiones escaladas sobre las tramas de video anterior (1A) y actual (IB); en tanto que, para acelerar el proceso, la pirámide correspondiente a la trama actual (IB) se guarda para que cuando la primera etapa (1) del método sea aplicada a una trama siguiente a la actual se disponga ya de la pirámide correspondiente a la trama que es anterior a dicha trama siguiente .
3. - MÉTODO DE GENERACIÓN DE MAPAS DE PROFUNDIDAD PARA CONVERSIÓN DE IMÁGENES ANIMADAS 2D EN 3D, según la reivindicación 1 6 2, caracterizado porque en la segunda etapa (2) el flujo óptico se calcula emparejando los bloques de puntos de imagen entre dos imágenes, presentando dichos bloques un tamaño fijo y de manera que un bloque se forma por unos primeros valores de intensidad de los puntos de imagen de una primera imagen correspondiente a un nivel de la pirámide generada en la primera etapa (1) para una de las tramas (K, K-l), estableciéndose el mejor emparejamiento mediante el bloque de unos segundos valores de intensidad de los puntos de imagen de una segunda imagen correspondiente a un nivel de la pirámide generada en la primera etapa (1) para la otra de las tramas (K-l, K) y que tenga dichos segundos valores de intensidad más próximos a los referidos primeros valores; siendo el flujo óptico la distancia en los ejes X e Y en puntos de imagen desde las coordenadas del bloque (i, j) en la primera imagen a las coordenadas de la mejor coincidencia en la segunda imagen, de manera que el resultado son dos mapas, uno para el eje X y otro para el eje Y.
4. - MÉTODO DE GENERACIÓN DE MAPAS DE PROFUNDIDAD PARA CONVERSIÓN DE IMÁGENES ANIMADAS 2D EN 3D, según una cualquiera de las reivindicaciones anteriores, caracterizado porque en la tercera etapa (3) todos los mapas de profundidad parciales se redimensionan a la dimensión de la trama de la que se parte en el método (K, K-l), y para generar el mapa de profundidad orientado a puntos de imagen se añaden todos los mapas de profundidad parciales, otorgándose un peso diferente a cada uno de ellos, y de manera que cuanto más bajo es el grado de resolución de un mapa de profundidad parcial, mayor es el peso que se le otorga.
5. - MÉTODO DE GENERACIÓN DE MAPAS DE PROFUNDIDAD PARA CONVERSIÓN DE IMÁGENES ANIMADAS 2D EN 3D, según una cualquiera de las reivindicaciones anteriores, caracterizado porque la integración de mapas de profundidad de la sexta etapa (6) es llevada a cabo mediante la siguiente expresión:
D=a*Ds(t-l) + (1- ) *DS (t) ;
donde Ds (t) indica el mapa de profundidad orientado a segmentos relativo a una trama actual; Ds(t-1) indica el mapa de profundidad orientado a segmentos relativo a una trama anterior; D es el mapa integrado resultante y es una proporción de integración.
6. - MÉTODO DE GENERACIÓN DE MAPAS DE PROFUNDIDAD PARA CONVERSIÓN DE IMÁGENES ANIMADAS 2D EN 3D, según la reivindicación 5, caracterizado porque dicho método se optimiza con: imágenes originales (K, K-l, K-2) con un tamaño de 960 x 540 puntos de imagen; cinco niveles en las pirámides de versiones escaladas de las tramas anterior (1A) y actual (IB) de la primera etapa ( 1 ) ; un tamaño de bloque de 20 x 20 puntos de imagen para el cálculo de flujo óptico de la segunda etapa (2); y, una proporción de integración = 0,8 en la sexta etapa (6) .
7. - MÉTODO DE GENERACIÓN DE MAPAS DE PROFUNDIDAD PARA CONVERSIÓN DE IMÁGENES ANIMADAS 2D EN 3D, según una cualquiera de las reivindicaciones anteriores, caracterizado porque el flujo óptico calculado para la entrada de la tercera etapa comprende el cálculo del flujo óptico entre la trama anterior (K-l) y la trama actual (K) mediante bloques de puntos de imagen de tamaño variable; calculándose este flujo óptico n veces para una misma imagen fija o trama (K, K-l) filtrada con un filtro Gaussiano de diferente tamaño cada vez de esas n veces; siendo n un número natural que coincide con el número de niveles de cada una de las pirámides de la primera etapa del método; siendo dicho tamaño variable de los bloques de puntos de imagen directamente proporcional a la varianza del filtro Gaussiano e inversamente proporcional al valor de n .
8. - MÉTODO DE GENERACIÓN DE MAPAS DE PROFUNDIDAD PARA CONVERSIÓN DE IMÁGENES ANIMADAS 2D EN 3D, según una cualquiera de las reivindicaciones 1 a 4, 6 6 7, caracterizado porque la integración de mapas de profundidad de la sexta etapa (6) es llevada a cabo mediante la siguiente expresión: D= *D's(t-l) + (1-a) *Ds(t) ; donde Ds(t) indica el mapa de profundidad orientado a segmentos relativo a una trama actual; D es el mapa integrado resultante; es una proporción de integración; y D' s (t-1) es un mapa de profundidad trasladado que se obtiene mediante el traslado, punto por punto de imagen, del mapa de profundidad orientado a segmentos relativo a una trama anterior Ds (t-1) a un mapa de profundidad accesorio D's que es un mapa de profundidad orientado a segmentos obtenido a partir de los flujos ópticos conseguidos en la segunda etapa, donde únicamente se consideran los mapas de profundidad parciales que presentan mayor grado de resolución y son relativos a una trama actual.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP10851028.0A EP2595116A1 (en) | 2010-05-07 | 2010-05-07 | Method for generating depth maps for converting moving 2d images to 3d |
US13/876,129 US20130286017A1 (en) | 2010-05-07 | 2010-05-07 | Method for generating depth maps for converting moving 2d images to 3d |
PCT/ES2010/070308 WO2011138472A1 (es) | 2010-05-07 | 2010-05-07 | Método de generación de mapas de profundidad para conversión de imágenes animadas 2d en 3d |
ARP110101560A AR081016A1 (es) | 2010-05-07 | 2011-05-05 | Metodo de generacion de mapas de profundidad para conversion de imagenes animadas 2d en 3d |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/ES2010/070308 WO2011138472A1 (es) | 2010-05-07 | 2010-05-07 | Método de generación de mapas de profundidad para conversión de imágenes animadas 2d en 3d |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2011138472A1 true WO2011138472A1 (es) | 2011-11-10 |
Family
ID=44903645
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/ES2010/070308 WO2011138472A1 (es) | 2010-05-07 | 2010-05-07 | Método de generación de mapas de profundidad para conversión de imágenes animadas 2d en 3d |
Country Status (4)
Country | Link |
---|---|
US (1) | US20130286017A1 (es) |
EP (1) | EP2595116A1 (es) |
AR (1) | AR081016A1 (es) |
WO (1) | WO2011138472A1 (es) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140160239A1 (en) * | 2012-12-06 | 2014-06-12 | Dihong Tian | System and method for depth-guided filtering in a video conference environment |
EP2747028A1 (en) | 2012-12-18 | 2014-06-25 | Universitat Pompeu Fabra | Method for recovering a relative depth map from a single image or a sequence of still images |
EP2600618A3 (en) * | 2011-12-01 | 2015-04-01 | Sony Corporation | System and method for generating robust depth maps utilizing a multi-resolution procedure |
US9213883B2 (en) * | 2012-01-10 | 2015-12-15 | Samsung Electronics Co., Ltd. | Method and apparatus for processing depth image |
CN110322499A (zh) * | 2019-07-09 | 2019-10-11 | 浙江科技学院 | 一种基于多层特征的单目图像深度估计方法 |
CN111540003A (zh) * | 2020-04-27 | 2020-08-14 | 浙江光珀智能科技有限公司 | 一种深度图像的生成方法及装置 |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101640404B1 (ko) * | 2010-09-20 | 2016-07-18 | 엘지전자 주식회사 | 휴대 단말기 및 그 동작 제어방법 |
US8666119B1 (en) * | 2011-11-29 | 2014-03-04 | Lucasfilm Entertainment Company Ltd. | Geometry tracking |
JP2013172190A (ja) * | 2012-02-17 | 2013-09-02 | Sony Corp | 画像処理装置、および画像処理方法、並びにプログラム |
US9332243B2 (en) | 2012-10-17 | 2016-05-03 | DotProduct LLC | Handheld portable optical scanner and method of using |
US10674135B2 (en) * | 2012-10-17 | 2020-06-02 | DotProduct LLC | Handheld portable optical scanner and method of using |
JP6439214B2 (ja) * | 2013-02-18 | 2018-12-19 | 株式会社P2P Bank | 画像処理装置、画像処理方法、画像処理用コンピュータプログラムおよび画像処理用コンピュータプログラムを格納した情報記録媒体 |
US9311550B2 (en) * | 2013-03-06 | 2016-04-12 | Samsung Electronics Co., Ltd. | Device and method for image processing |
RU2560086C1 (ru) * | 2014-07-02 | 2015-08-20 | Самсунг Электроникс Ко., Лтд. | Система и способ для временного дополнения видео |
KR102286572B1 (ko) * | 2015-03-04 | 2021-08-06 | 한국전자통신연구원 | 2d 동영상으로부터 새로운 3d 입체 동영상 제작을 위한 장치 및 방법 |
US9933264B2 (en) * | 2015-04-06 | 2018-04-03 | Hrl Laboratories, Llc | System and method for achieving fast and reliable time-to-contact estimation using vision and range sensor data for autonomous navigation |
US10121259B2 (en) * | 2015-06-04 | 2018-11-06 | New York University Langone Medical | System and method for determining motion and structure from optical flow |
CN108234988A (zh) * | 2017-12-28 | 2018-06-29 | 努比亚技术有限公司 | 视差图生成方法、装置和计算机可读存储介质 |
US10949700B2 (en) * | 2018-01-10 | 2021-03-16 | Qualcomm Incorporated | Depth based image searching |
US20210097669A1 (en) * | 2018-03-23 | 2021-04-01 | Oregon State University | Recovery of dropouts in surface maps |
US10917568B2 (en) * | 2018-12-28 | 2021-02-09 | Microsoft Technology Licensing, Llc | Low-power surface reconstruction |
CN110633706B (zh) * | 2019-08-02 | 2022-03-29 | 杭州电子科技大学 | 一种基于金字塔网络的语义分割方法 |
CN112508958B (zh) * | 2020-12-16 | 2022-07-19 | 桂林电子科技大学 | 一种轻量多尺度的生物医学图像分割方法 |
CN113489858A (zh) * | 2021-07-07 | 2021-10-08 | 曜芯科技有限公司 | 成像系统以及相关成像方法 |
CA3224568A1 (en) * | 2021-07-29 | 2023-02-02 | Adam KAFKA | Systems and methods of image processing and rendering thereof |
CN116523951B (zh) * | 2023-07-03 | 2023-09-05 | 瀚博半导体(上海)有限公司 | 多层并行光流估计方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003005727A1 (en) * | 2001-07-06 | 2003-01-16 | Koninklijke Philips Electronics N.V. | Methods of and units for motion or depth estimation and image processing apparatus provided with such motion estimation unit |
CN101556696A (zh) * | 2009-05-14 | 2009-10-14 | 浙江大学 | 基于阵列摄像机的深度图实时获取算法 |
US20090268985A1 (en) * | 2008-04-29 | 2009-10-29 | Earl Quong Wong | Reduced Hardware Implementation For A Two-Picture Depth Map Algorithm |
US20100073364A1 (en) * | 2008-09-25 | 2010-03-25 | Samsung Electronics Co., Ltd. | Conversion method and apparatus with depth map generation |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2184713A1 (en) * | 2008-11-04 | 2010-05-12 | Koninklijke Philips Electronics N.V. | Method and device for generating a depth map |
US8659592B2 (en) * | 2009-09-24 | 2014-02-25 | Shenzhen Tcl New Technology Ltd | 2D to 3D video conversion |
US8537200B2 (en) * | 2009-10-23 | 2013-09-17 | Qualcomm Incorporated | Depth map generation techniques for conversion of 2D video data to 3D video data |
-
2010
- 2010-05-07 EP EP10851028.0A patent/EP2595116A1/en not_active Withdrawn
- 2010-05-07 US US13/876,129 patent/US20130286017A1/en not_active Abandoned
- 2010-05-07 WO PCT/ES2010/070308 patent/WO2011138472A1/es active Application Filing
-
2011
- 2011-05-05 AR ARP110101560A patent/AR081016A1/es unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003005727A1 (en) * | 2001-07-06 | 2003-01-16 | Koninklijke Philips Electronics N.V. | Methods of and units for motion or depth estimation and image processing apparatus provided with such motion estimation unit |
US20090268985A1 (en) * | 2008-04-29 | 2009-10-29 | Earl Quong Wong | Reduced Hardware Implementation For A Two-Picture Depth Map Algorithm |
US20100073364A1 (en) * | 2008-09-25 | 2010-03-25 | Samsung Electronics Co., Ltd. | Conversion method and apparatus with depth map generation |
CN101556696A (zh) * | 2009-05-14 | 2009-10-14 | 浙江大学 | 基于阵列摄像机的深度图实时获取算法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2600618A3 (en) * | 2011-12-01 | 2015-04-01 | Sony Corporation | System and method for generating robust depth maps utilizing a multi-resolution procedure |
US9213883B2 (en) * | 2012-01-10 | 2015-12-15 | Samsung Electronics Co., Ltd. | Method and apparatus for processing depth image |
US20140160239A1 (en) * | 2012-12-06 | 2014-06-12 | Dihong Tian | System and method for depth-guided filtering in a video conference environment |
US9681154B2 (en) * | 2012-12-06 | 2017-06-13 | Patent Capital Group | System and method for depth-guided filtering in a video conference environment |
EP2747028A1 (en) | 2012-12-18 | 2014-06-25 | Universitat Pompeu Fabra | Method for recovering a relative depth map from a single image or a sequence of still images |
CN110322499A (zh) * | 2019-07-09 | 2019-10-11 | 浙江科技学院 | 一种基于多层特征的单目图像深度估计方法 |
CN110322499B (zh) * | 2019-07-09 | 2021-04-09 | 浙江科技学院 | 一种基于多层特征的单目图像深度估计方法 |
CN111540003A (zh) * | 2020-04-27 | 2020-08-14 | 浙江光珀智能科技有限公司 | 一种深度图像的生成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
US20130286017A1 (en) | 2013-10-31 |
EP2595116A1 (en) | 2013-05-22 |
AR081016A1 (es) | 2012-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2011138472A1 (es) | Método de generación de mapas de profundidad para conversión de imágenes animadas 2d en 3d | |
Martin-Brualla et al. | Lookingood: Enhancing performance capture with real-time neural re-rendering | |
Sun et al. | Layered RGBD scene flow estimation | |
US10726560B2 (en) | Real-time mobile device capture and generation of art-styled AR/VR content | |
US10719939B2 (en) | Real-time mobile device capture and generation of AR/VR content | |
Feng et al. | Object-based 2D-to-3D video conversion for effective stereoscopic content generation in 3D-TV applications | |
Liao et al. | Video stereolization: Combining motion analysis with user interaction | |
Jiang et al. | Spatio-temporal video segmentation of static scenes and its applications | |
Bleyer et al. | Stereo matching—State-of-the-art and research challenges | |
KR102152432B1 (ko) | 동적 3차원 모델을 이용한 실사 콘텐츠 생성 시스템 및 방법 | |
CN102572482A (zh) | 基于fpga的立体视频到多视点视频的3d重构方法 | |
Chaurasia et al. | Passthrough+ real-time stereoscopic view synthesis for mobile mixed reality | |
US20230217001A1 (en) | System and method for generating combined embedded multi-view interactive digital media representations | |
Wang et al. | Disparity manipulation for stereo images and video | |
Kompatsiaris et al. | 3-D model-based segmentation of videoconference image sequences | |
Ramachandran et al. | Multiview synthesis from stereo views | |
Klaudiny et al. | Cooperative patch-based 3D surface tracking | |
Lee et al. | Depth map boundary enhancement using random walk | |
Uliyar et al. | Pixel resolution plenoptic disparity using cost aggregation | |
CN108230382A (zh) | 基于Spearman相关性系数和动态规划融合的立体匹配算法 | |
Zhang et al. | Efficient variational light field view synthesis for making stereoscopic 3D images | |
Bilir et al. | Non-rigid 3D shape tracking from multiview video | |
Su | Learning to handle occlusion for motion analysis and view synthesis | |
Tsekourakis et al. | Consistent 3D background model estimation from multi-viewpoint videos | |
Luo et al. | KeystoneDepth: Visualizing History in 3D |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 10851028 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
REEP | Request for entry into the european phase |
Ref document number: 2010851028 Country of ref document: EP |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2010851028 Country of ref document: EP |
|
WWE | Wipo information: entry into national phase |
Ref document number: 13876129 Country of ref document: US |