KR20210126934A

KR20210126934A - 광원 정보를 출력하는 방법 및 장치

Info

Publication number: KR20210126934A
Application number: KR1020200044635A
Authority: KR
Inventors: 하인우; 조창호; 김재윤; 윤성의; 홍성훈
Original assignee: 삼성전자주식회사; 한국과학기술원
Priority date: 2020-04-13
Filing date: 2020-04-13
Publication date: 2021-10-21
Also published as: US11663796B2; US20210319252A1

Abstract

일 실시예에 따른 광원 정보를 출력하는 방법 및 장치는 입력 영상을 수신하고, 입력 영상을 신경망에 인가함으로써 입력 영상에서 적어도 하나의 객체를 검출하고, 적어도 하나의 객체 별로 대응되는 광원의 광원 정보를 추정하여 출력한다.

Description

광원 정보를 출력하는 방법 및 장치{METHOD AND APPARATUS OF OUTPUTTING LIGHT SOURCE INFORMATION}

아래의 실시예들은 광원 정보를 출력하는 방법 및 장치에 관한 것이다.

3차원 영상에 가상 객체 및/또는 증강 현실 객체를 합성하여 게임, 의료 등의 콘텐츠에 활용하는 서비스가 증가하고 있다. 3차원 영상에 가상 객체 및/또는 증강 현실 객체를 합성하는 경우에 보다 자연스러운 표현을 위해 광원(light source)에 의한 영향이 고려되어야 한다. 광원을 추정하고, 추정된 광원을 가상 객체에 적용하여 3차원 렌더링을 수행함으로써 보다 자연스럽게 3차원 영상을 합성할 수 있다.

일 실시예에 따르면, 광원 정보를 출력하는 방법은 입력 영상을 수신하는 단계; 상기 입력 영상을 신경망에 인가함으로써, 상기 입력 영상에서 적어도 하나의 객체를 검출하고, 상기 적어도 하나의 객체 별로 대응되는 광원의 광원 정보를 추정하는 단계; 및 상기 광원 정보를 출력하는 단계를 포함한다.

상기 광원 정보를 추정하는 단계는 상기 입력 영상 내에 상기 광원이 포함되는지 여부와 무관하게, 상기 적어도 하나의 객체 별로 대응되는 광원의 광원 정보를 추정하는 단계를 포함할 수 있다.

상기 광원 정보를 추정하는 단계는 상기 입력 영상에서 검출된 적어도 하나의 객체에 대응하는 객체 영역 을 기초로, 상기 객체 영역에 대응되는 광원의 광원 정보를 추정하는 단계를 포함할 수 있다.

상기 신경망은 바운딩 박스(bounding box)에 의해 상기 입력 영상에 포함된 상기 적어도 하나의 객체를 검출하고, 상기 입력 영상에서 상기 적어도 하나의 객체에 대응하는 객체 영역을 포함하는 객체 정보를 검출하며, 이와 동시에 또는 별도로, 상기 적어도 하나의 객체에 대응되는 광원의 빛의 밝기를 기초로, 상기 광원의 광원 정보를 추정하도록 학습될 수 있다.

상기 신경망은 상기 광원의 빛의 밝기가 미리 설정된 기준보다 높은 경우에 상기 광원의 광원 정보를 추정하도록 학습될 수 있다.

상기 객체 정보는 상기 적어도 하나의 객체의 위치, 상기 적어도 하나의 객체의 크기, 및 상기 적어도 하나의 객체의 클래스 중 적어도 하나를 포함할 수 있다.

상기 광원 정보는 상기 광원의 위치, 상기 광원까지의 거리(distance), 상기 광원의 밝기(intensity), 및 상기 광원의 조사 방향 중 적어도 하나를 포함할 수 있다.

상기 신경망은 상기 광원의 형태 및 상기 광원에 의한 빛을 전달하는 매개체의 형태 중 적어도 하나에 대응하여 미리 정의된 템플릿(template)에 기초하여 상기 광원을 추정하도록 학습될 수 있다.

상기 신경망은 상기 광원의 조사 방향에 대응하여 객체 별로 그림자가 발생하는 방향이 미리 레이블링(labeling)된 템플릿에 기초하여 상기 광원 정보를 추정하도록 학습될 수 있다.

상기 광원 정보는 상기 적어도 하나의 객체 별로 대응되는 광원의 상대적인 위치, 상기 광원까지의 거리, 상기 광원의 밝기, 및 상기 적어도 하나의 객체에 대한 상기 광원의 조사 방향 각각에 대응하는 조명 파라미터(light parameter)를 포함할 수 있다.

상기 광원은 직접광(direct light) 및 간접광(indirect light) 중 적어도 하나를 포함할 수 있다.

상기 입력 영상은 적어도 하나의 광원, 및 상기 적어도 하나의 객체 중 적어도 하나를 포함하는 순차적인 부분 영상들을 포함할 수 있다.

상기 광원 정보를 추정하는 단계는 상기 순차적인 부분 영상들에 포함된 상기 적어도 하나의 객체의 영역에서 빛의 변화에 따라 발생한 그림자의 변화를 더 고려하여, 상기 광원 정보를 추정하는 단계를 포함할 수 있다.

상기 광원 정보를 출력하는 장치는 사용자로부터 3차원 객체에 대한 선택을 입력받는 단계; 및 상기 광원 정보를 기초로, 상기 입력 영상에 상기 3차원 객체를 렌더링하는 단계를 더 포함할 수 있다.

상기 광원 정보를 추정하는 단계는 상기 입력 영상을 그리드(grid) 별로 구획화하여 상기 그리드 별 광원 정보를 추정하는 단계를 포함하고, 상기 3차원 객체를 렌더링하는 단계는 상기 그리드 별 광원 정보를 기초로, 상기 입력 영상에서 상기 3차원 객체를 배치할 위치를 결정하는 단계; 및 상기 결정된 위치에 상기 3차원 객체를 렌더링하는 단계를 포함할 수 있다.

상기 신경망은 컨볼루션 LSTM(Convolutional Long Short-Term Memory) 신경망, 심층 신경망(Deep Neural Network; DNN), 및 순환 신경망(Recurrent Neural Network; RNN) 중 적어도 하나를 포함할 수 있다.

일 실시예에 따르면, 광원 정보를 출력하는 장치는 입력 영상을 수신하는 통신 인터페이스; 및 상기 입력 영상을 신경망에 인가함으로써, 상기 입력 영상에서 적어도 하나의 객체를 검출하고, 상기 적어도 하나의 객체 별로 대응되는 광원의 광원 정보를 추정하는 프로세서를 포함하고, 상기 통신 인터페이스는 상기 광원 정보를 출력한다.

상기 프로세서는 상기 입력 영상 내에 상기 광원이 포함되는지 여부와 무관하게, 상기 적어도 하나의 객체 별로 대응되는 광원의 광원 정보를 추정할 수 있다.

상기 프로세서는 상기 입력 영상에서 검출된 적어도 하나의 객체에 대응하는 객체 영역을 기초로, 상기 객체 영역에 대응되는 광원의 광원 정보를 추정할 수 있다.

도 1은 일 실시예에 따른 광원 정보를 출력하는 방법을 설명하기 위한 도면.
도 2는 일 실시예에 따른 광원 정보를 출력하는 방법을 나타낸 흐름도.
도 3은 일 실시예에 따라 광원 정보를 추정하는 신경망의 동작을 설명하기 위한 도면.
도 4는 일 실시예에 따라 광원 정보를 추정하는 신경망의 구조를 설명하기 위한 도면.
도 5는 일 실시예에 따른 광원 정보를 이용하여 3차원 객체를 렌더링하는 과정을 설명하기 위한 도면
도 6은 일 실시예에 따른 광원 정보를 출력하는 장치의 블록도.

실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 실시될 수 있다. 따라서, 실시예들은 특정한 개시 형태로 한정되는 것이 아니며, 본 명세서의 범위는 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 또한, 어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.

실시예에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 실시예를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

도 1은 일 실시예에 따른 광원 정보를 출력하는 방법을 설명하기 위한 도면이다. 도 1을 참조하면, 다수의 광원들(110, 120) 및 적어도 하나의 객체(140)를 포함하는 실내에서 카메라를 통해 촬영한 영상(150)이 도시된다. 실내에 있는 광원들(110, 120) 중 광원(120)은 영상(150) 내에 포함되고, 광원(110)은 영상(150) 외부에 존재한다.

일 실시예에서 '광원'은 일정 밝기 이상의 빛을 발생하는 물체로서, 직접광(direct light) 뿐만 아니라 간접광(indirect light)을 모두 포함하는 의미로 이해될 수 있다. 일정 밝기 이하의 세기를 갖는 주변광(ambient light)은 3차원 객체의 렌더링 시에 컬러에 거의 영향을 못 주기 때문에 일 실시예에서는 광원으로 포함하지 않을 수 있다. 다시 말해, 출력 장치는 광원에 의한 빛이 일정 밝기 이상의 세기를 가진다면, 직접광 또는 간접광 여부에 상관없이 광원으로 검출하고 그 이하라면 직접광이라도 광원으로 검출하지 않을 수 있다. 광원의 빛의 세기는 예를 들어, 빛의 밝기를 나타내는 룩스(lux) 또는 RGB 컬러를 기준으로 측정될 수 있다.

일 실시예에서, 광원은 예를 들어, 자연 상태나 우리의 주변에 존재하는 모든 광선들을 뜻하는 자연광(natural light) 및 전력을 이용하여 만든 각종 조명 기구가 내는 인공적인 빛을 뜻하는 인공광(artificial light)을 모두 포함하는 의미로 이해될 수 있다. 자연광은 예를 들어, 태양광, 달빛, 촛불, 모닥불 등을 포함할 수 있다. 또한, 인공광은 예를 들어, 네온 사인이나 가로등 불빛, 건물의 형광등, 백열등, 할로겐 램프, 마그네슘 등, 및 자동차 불빛 등을 포함할 수 있다.

일 실시예에 따른 광원 정보를 출력하는 장치(이하, '출력 장치')는 영상(150)에 포함된 적어도 하나의 객체(140)를 검출하고, 해당 객체(140)를 기반으로 광원을 찾아 광원 정보를 추정할 수 있다. 일 실시예에 따른 출력 장치는 객체 검출(object detection) 및 광원 추정(light estimation)을 동시에 또는 별도로 수행할 수 있다.

일 실시예에 따르면, 영상(150)은 크게 배경 영역과 적어도 하나의 객체(140)를 포함하는 객체 영역으로 구분될 수 있다. '배경 영역'은 예를 들어, 바닥(130)과 같이 아무런 객체를 포함하지 않는 영역으로서 해당 영상(150)의 대부분을 차지하지만, 광원 정보에 대한 아무런 단서(clue)를 제공하지 못한다. '객체 영역'은 예를 들어, 쇼파, 의자, 텔레비젼, 침대, 탁자 등과 같이 영상(150) 내 포함된 적어도 하나의 객체(140)에 대응하는 영역에 해당할 수 있다. 객체 영역은 예를 들어, 객체(140)에 발생하는 명암(shading), 및/또는 그림자(shadow) 형태 등과 같이 광원의 빛이 객체(140)에 미치는 다양한 영향을 포함함으로써 광원의 위치 등과 같은 광원 정보에 대한 많은 단서를 제공할 수 있다. 이때, 객체(140)에 영향을 주는 광원은 하나일 수도 있고, 복수 개일 수도 있다.

영상(150)에서 객체(140)의 어느 지점에서 보여지는 컬러는 객체의 형태와 재질(material), 광원 및 시점(viewpoint) 등과 같은 다양한 요소들에 영향을 받을 수 있다. 이러한 객체(140)의 컬러 정보를 포함하는 컬러 영상은 알베도(albedo)(또는 반사(reflectance)), 명암 및 그림자 등을 포함할 수 있다. 알베도는 객체의 형태와 재질에 의해 결정되는 객체 고유의 컬러 성분 내지 재질 특성으로서, 광원 및 시점과는 무관하다.

일 실시예에서는 예를 들어, 미리 학습된 신경망을 이용하여 광원 정보에 대한 단서를 제공할 수 있는 객체(140) 또는 객체(140)를 포함하는 객체 영역을 검출하고, 객체(140) 또는 객체 영역에서 발생한 명암 및 그림자 등을 고려하여 객체(140)에 영향을 주는 광원의 광원 정보를 추정할 수 있다. 여기서, '명암'은 광원에 의해 빛이 조사되는 객체 자체에 생성되는 음영에 해당할 수 있다. 명암은 광원에서 조사된 빛이 객체의 표면 법선(surface normal)과 반응하여 나타나는 조명 특성 값을 나타낸다. 명암은 광원의 조사 방향과 객체 표면의 표면 법선 간의 벡터 내적에 의해 결정되는 명암 값에 대한 정보를 나타낼 수 있다. 표면 법선은 3차원 객체에서 표면의 법선(normal) 방향 성분을 나타낸다. 명암의 변화를 통해 객체 표면의 표면 법선의 변화가 추정될 수 있다. '그림자'는 광원에 의해 빛이 조사되는 객체에 의해 객체 이외의 영역에 생성되는 음영에 해당할 수 있다. 본 명세서에서 명암은 명암 정보라고도 불릴 수 있고, 그림자는 그림자 정보라고도 불릴 수 있다.

이하, 설명의 편의를 위해 객체 영역은 영상(150)에서 객체가 실제 차지하는 영역뿐만 아니라, 객체에 나타나는 명암, 및 객체의 그림자가 차지하는 그림자 영역을 모두 포함하는 의미로 이해될 수 있다.

예를 들어, 영상(150)에서 객체(140)의 우측으로 그림자가 생성되었다고 하자. 이 경우, 그림자는 객체(140)를 중심으로 광원의 반대 방향에 형성되므로, 출력 장치는 광원이 객체(140)의 좌측에 존재한다고 추정할 수 있다.

이 밖에도, 3차원 공간 상의 위치를 얻기 위해서는 기준이 필요한데, 영상(150)에서 배경 영역을 기준으로 위치를 설정하기 보다는 객체(140)를 기준으로 설정하는 것이 공간 상의 위치를 보다 명확하게 표현할 수 있다.

일 실시예에 따른 출력 장치는 영상(150)에 포함된 적어도 하나의 객체(140) 및/또는 해당 객체(140)를 포함하는 객체 영역을 검출하고, 객체 별로 대응되는 광원 정보를 추정할 수 있다. 이때, 광원 정보는 예를 들어, 적어도 하나의 광원의 위치, 광원까지의 거리(distance; d), 광원의 밝기(intensity; i) 및/또는 광원의 조사 방향(

, ψ) 등을 포함할 수 있다.

출력 장치는 예를 들어, 영상(150)에서 인접한 픽셀(pixel) 간의 그림자 값의 변화율을 계산하고, 그림자 값의 변화율이 미리 설정된 기준보다 큰 영역을 그림자의 경계 영역을 탐색할 수 있다. 출력 장치는 그림자의 경계 영역에 포함된 픽셀들로부터 객체(140)의 경계를 향하는 벡터의 방향에 광원이 존재한다고 광원의 위치(x, y)를 추정할 수 있다.

출력 장치는 객체(140)의 명암 정보를 이용하여 광원의 위치(x, y)를 보다 정확하게 추정할 수 있다. 객체(140)와 광원의 거리가 가까울 수록 명암 값이 크고, 객체(140)의 표면 법선이 객체(140)로부터 광원까지의 방향과 일치할수록 명암 값이 크다는 점을 이용하여, 출력 장치는 명암 정보로부터 광원의 위치를 추정할 수 있다.

출력 장치는 예를 들어, 명암 정보에 포함된 최대 명암 값을 기초로 광원의 위치를 추정할 수 있다. 객체의 명암 정보(예를 들어, 명암 값)는 픽셀의 위치에 따라 점진적으로 변할 수 있다. 출력 장치는 최대 명암 값을 가지는 픽셀의 법선 벡터가 가리키는 방향에 광원이 존재할 확률이 높다고 판단할 수 있다. 예를 들어, 출력 장치는 이상적인 확산 반사 표면 또는 이상적인 확산 라디에이터에서 관찰되는 복사 강도 또는 광도는 입사광 방향과 표면 법선 사이의 각도 θ의 코사인에 정비례한다는 램버트 법칙(Lambertian's Law)을 기초로 광원의 위치(x, y)를 추정할 수 있다. 광원의 위치(x, y)는 예를 들어, 영상(150) 내에 포함된 적어도 하나의 객체 별로 대응되는 광원의 위치일 수 있다. 광원의 위치는 객체(140)에 대한 광원의 상대적인 위치로서, 예를 들어, 2차원 위치(x, y)일 수도 있고, 3차원 상대 위치(x, y, z)일 수도 있다.

또한, 출력 장치는 그림자의 경계 영역에 포함된 픽셀들의 그림자 값을 이용하여 광원의 밝기를 추정할 수 있다. 예를 들어, 출력 장치는 인접한 픽셀들 간의 그림자 값의 변화율이 클수록 광원의 단위 면적당 밝기가 더 큰 것으로 추정할 수 있다.

이때, 광원 정보는 예를 들어, 영상(150) 내에 포함된 광원(120) 뿐만 아니라, 영상(150) 외부에 존재하는 광원(110)에 의한 영향을 모두 포함할 수 있다. 영상(150) 내에는 광원(120)만이 존재하지만, 실제 해당 공간에서 광원은 벽에 위치하는 광원(120)뿐만 천장에 위치하는 광원(110) 또한 존재한다. 따라서, 해당 공간에 위치하는 객체(140)는 영상(150) 내에 포함된 광원(120) 뿐만 아니라 영상(150)에 포함되지 않은 광원(110)에 의한 영향 또한 함께 받고 있는 상태이다.

출력 장치는 해당 광원이 영상(150) 내에 포함되는지 여부와 무관하게, 영상(150)으로부터 파악된 객체(140) 및/또는 객체 영역에 대한 정보를 기준으로 적어도 하나의 객체 별로 대응되는 광원의 광원 정보를 추정할 수 있다. 다시 말해, 출력 장치는 영상(150)으로부터 객체(140)에 대응되는 광원(110)과 광원(120)을 함께 고려하여 광원 정보를 추정할 수 있다. 출력 장치는 광원 정보를 외부로 출력하거나, 또는 광원 정보를 가상 객체 또는 증강 현실 객체 등에 적용하여 렌더링을 수행함으로써 보다 자연스럽게 3차원 영상을 합성할 수 있다. 출력 장치가 광원 정보를 추정하는 방법은 아래의 도면들을 참조하여 구체적으로 설명한다.

도 2는 일 실시예에 따른 광원 정보를 출력하는 방법을 나타낸 흐름도이다. 도 2를 참조하면, 일 실시예에 따른 출력 장치는 입력 영상을 수신한다(210). 출력 장치는 영상 센서 또는 깊이 센서를 이용하여 직접 입력 영상을 획득할 수도 있고, 통신 인터페이스(도 6의 통신 인터페이스(610) 참조)를 통해 입력 영상을 수신할 수도 있다. 입력 영상은 컬러 영상을 포함할 수 있다. 또는 입력 영상은 컬러 영상 및 깊이 영상을 포함할 수 있다. 입력 영상에 깊이 영상이 더 포함되는 경우 출력 장치는 광원의 위치를 더욱 정확하게 추정할 수 있다. 입력 영상은 예를 들어, HDR 카메라로 촬영된 360도 영상일 수 있다.

컬러 영상은 영상 센서를 통해 획득될 수 있다. 영상 센서는 객체에 대한 컬러 영상(또는 컬러 프레임)을 획득하는 장치로서, 예를 들어, 비전 센서, CMOS(Complementary Metal-Oxide-Semiconductor) 영상 센서, CCD(Charge-Coupled Device) 영상 센서 또는 스테레오 카메라 등일 수 있다. 컬러 영상은 RGB 컬러 픽셀들을 포함하고, 각 컬러 픽셀은 컬러 값을 가진다.

깊이 영상은 깊이 센서를 통해 획득될 수 있다. 깊이 센서는 컬러 영상의 객체와 동일한 객체에 대한 깊이 영상(또는 깊이 프레임)을 획득하는 장치로서, 예를 들어, 투광한 적외선 패턴을 통해 깊이 정보를 얻는 키넥트(Kinect) 센서, TOF(time-of-flight) 깊이 카메라 또는 광 3D 스캐너 등일 수 있다. 깊이 영상은 컬러 영상에 대응하고, 깊이 픽셀들을 포함할 수 있다. 각 깊이 픽셀은 객체에 대한 거리 정보를 나타내는 깊이 값을 가진다. 영상 센서에 의해 획득된 컬러 영상 및 깊이 센서에 의해 획득된 깊이 영상은 출력 장치에 제공될 수 있다. 이 때, 컬러 센서 및 깊이 센서는 각각 컬러 영상들의 스트림(stream) 및 깊이 영상들의 스트림을 출력 장치에 전달할 수 있다.

예를 들어, 영상 센서로서 스테레오 카메라(stereo camera)가 이용되는 경우, 스테레오 카메라는 좌영상과 우영상을 포함하는 스테레오 영상을 출력 장치에게 제공할 수 있다. 이때, 출력 장치는 잘 알려진 스테레오 매칭(stereo matching) 기법을 통해 스테레오 영상으로부터 깊이 영상을 생성함으로써, 별도의 깊이 센서로부터 깊이 영상을 제공받지 않고도 스테레오 영상으로부터 컬러 영상(좌영상 및 우영상)과 깊이 영상을 함께 획득할 수 있다.

출력 장치는 단계(210)에서 수신한 입력 영상을 신경망에 인가함으로써, 입력 영상에서 적어도 하나의 객체를 검출하고, 적어도 하나의 객체 별로 대응되는 광원의 광원 정보를 추정한다(220). 이때, 신경망은 예를 들어, 바운딩 박스(bounding box)에 의해 입력 영상에 포함된 적어도 하나의 객체를 검출하고, 입력 영상에서 적어도 하나의 객체에 대응하는 객체 영역을 포함하는 객체 정보를 검출할 수 있다. 이와 동시에, 또는 별도로, 신경망은 적어도 하나의 객체에 대응되는 광원의 빛의 밝기를 기초로 광원의 광원 정보를 추정하도록 학습될 수 있다.

신경망은 예를 들어, 광원의 형태 및 광원에 의한 빛을 전달하는 매개체의 형태 중 적어도 하나에 대응하여 미리 정의된 템플릿(template)에 기초하여 광원을 추정하도록 학습될 수 있다. 이때, 광원의 형태는 예를 들어, 태양광, 달빛, 촛불, 모닥불 등과 같은 자연광의 형태뿐만 아니라, 네온사인이나 가로등 불빛, 건물의 형광등, 백열등, 할로겐 램프, 마그네슘 등, 및 자동차 불빛 등과 같은 인공광의 형태를 모두 포함할 수 있다. 여기서, 광원에 의한 빛을 전달하는 매개체는 예를 들어, 전등 케이스, 형광등 커버, 태양광이 통과하는 다양한 형태의 창문 등과 같이 광원의 빛을 통과시켜 객체에 광원의 영향을 전달하는 대상에 해당할 수 있다.

신경망은 예를 들어, 광원의 빛의 세기(또는 밝기)가 미리 설정된 기준보다 높은 경우에 광원의 광원 정보를 추정하도록 학습될 수 있다. 이는 일정 크기 이하의 빛의 세기를 갖는 주변광은 렌더링 시에 컬러에 거의 영향을 주지 않으므로 이를 광원에서 배제하기 위함이다.

단계(220)에서 출력 장치는 입력 영상에서 검출된 적어도 하나의 객체를 신경망에 인가함으로써, 적어도 하나의 객체를 포함하는 객체 영역에 대응되는 광원의 광원 정보를 추정할 수 있다. 이때, 신경망은 광원의 조사 방향에 대응하여 객체 별로 그림자가 발생하는 방향이 미리 레이블링(labeling)된 템플릿에 기초하여 광원 정보를 추정하도록 학습될 수 있다.

신경망에 의해 광원 정보가 추정되는 과정은 아래의 도 3을 참조하여 구체적으로 설명한다.

실시예에 따라서, 입력 영상은 적어도 하나의 적어도 하나의 광원, 및 적어도 하나의 객체 중 적어도 하나를 포함하는 순차적인 부분 영상들을 포함할 수도 있다. 입력 영상이 순차적인 부분 영상들을 포함하는 경우에 광원 정보를 추정하는 방법은 아래의 도 4를 참조하여 구체적으로 설명한다.

출력 장치는 단계(220)에서 추정한 광원 정보를 출력한다(230). 출력 장치는 예를 들어, 광원 정보를 적어도 하나의 객체 별로 대응되는 광원의 상대적인 위치, 광원까지의 거리, 광원의 밝기, 및 적어도 하나의 객체에 대한 광원의 조사 방향 각각에 대응하는 조명 파라미터(light parameter)의 형태로 출력할 수도 있다.

도 3은 일 실시예에 따라 광원 정보를 추정하는 신경망의 동작을 설명하기 위한 도면이다. 도 3을 참조하면, 입력 영상(310)이 신경망(330)에 인가된 경우에 신경망(330)을 통해 출력되는 객체 별 광원 정보(350, 360)가 도시된다. 입력 영상(310)은 예를 들어, 객체 1 및 객체 2를 포함할 수 있다.

신경망(330)은 예를 들어, 비선형 기계 학습 모델인 심층 신경망(Deep Neural Network, DNN), 컨볼루션 LSTM(Convolutional Long Short-Term Memory) 신경망, 또는 순환 신경망(Recurrent Neural Network; RNN) 중 적어도 하나를 포함할 수 있다. 심층 신경망은 딥 러닝(Deep Learning) 방식을 통해 학습된 신경망을 지칭하며, 딥 러닝 방식에서는 입력 영상(310)이 신경망(330) 자체에 의해 분류되고 학습될 수 있다.

출력 장치는 신경망(Neural Network, NN)(330)을 이용하여 입력 영상에 포함된 적어도 하나의 객체를 검출하고, 적어도 하나의 객체 별로 대응되는 광원의 광원 정보(350,360)를 추정할 수 있다. 이때, 광원 정보(350)은 객체 1에 대응한 것이고, 광원 정보(360)은 객체 2에 대응한 것일 수 있다.

신경망(330)은 입력 영상(310)에 포함된 복수 개의 객체들(객체 1, 객체 2 , ..) 각각에 대한 객체 정보(351, 361), 광원 정보(353, 363) 및 깊이 정보(355, 365)를 동시에 또는 별도로 추론(inference)할 수 있다. 여기서, 광원 정보(353, 363)는 해당 객체에 대한 상대적인 광원의 위치를 포함할 수 있다. 신경망(330)은 각 객체에 대응하는 깊이 정보(355, 365)를 도 3에 도시된 것과 같이 별도의 정보로 추정할 수도 있고, 광원 정보의 일 요소로서 추정할 수도 있다.

신경망(330)은 예를 들어, 입력 영상(310)에서의 적어도 하나의 객체에 대응하는 픽셀 위치, 적어도 하나의 객체에 대응하는 바운딩 박스의 크기, 및 적어도 하나의 객체의 클래스를 포함하는 객체 정보(351, 361)를 검출하도록 학습될 수 있다.

객체 정보(351, 361)는 예를 들어, 적어도 하나의 객체의 위치(x, y), 적어도 하나의 객체의 크기(w, h), 및 적어도 하나의 객체의 클래스(c) 중 적어도 하나를 포함할 수 있다. 여기서, 객체의 위치(x, y)는 입력 영상(310)에서의 적어도 하나의 객체에 대응하는 픽셀의 위치(x, y)에 해당할 수 있다. 또는 객체의 위치는 예를 들어, 입력 영상이 360도 영상인 경우에 가로 360도, 세로 180도를 기준으로 하는 각도 형태로 표현될 수 있다. 객체의 크기(w, h)는 예를 들어, 객체를 검출하는 바운딩 박스의 크기(weight, height)에 의해 근사될 수 있다. 보다 구체적으로 객체의 크기는 입력 영상(310)에서 검출된 객체를 미리 구비된 객체 후보 형태들 중 하나에 매핑함으로써 검출될 수 있다.

또한, 신경망(330)은 입력 영상(310)에서 검출된 적어도 하나의 객체 또는 적어도 하나의 객체에 대응하는 객체 영역을 기초로, 객체 영역에 대응되는 광원의 광원 정보(353, 363)를 추정할 수 있다. 이때, 신경망(330)은 광원의 조사 방향에 대응하여 객체 별로 그림자가 발생하는 방향이 미리 레이블링(labeling)된 템플릿에 기초하여 광원 정보를 추정하도록 학습될 수 있다. 예를 들어, 객체에 광원의 빛이 조사되는 경우, 빛이 조사되는 방향에 따라 객체에 대응하는 그림자가 서로 다른 위치에 생길 수 있다. 이 경우, 신경망(330)은 객체를 중심에 두고 객체 주변에 바운딩 박스를 만들어 추론함으로써 그림자를 포함하는 객체 영역에 의해 광원의 방향을 찾을 수 있다. 이때, 그림자 검출을 위한 바운딩 박스는 객체를 검출하는 바운딩 박스의 크기를 1.5배한 크기를 가질 수 있다. 광원 정보(353, 363)는 객체에 대한 광원의 위치(x, y), 광원의 조사 방향(w, h), 광원의 밝기(intensity; i)를 포함할 수 있다.

신경망(330)은 입력 영상(310)으로부터 컬러 픽셀들의 명암 정보를 추출할 수 있다. 신경망(330)은 알베도 정보를 더 추출할 수 있다. 명암 정보는 객체 표면의 표면 법선 성분을 나타내는 표면 법선 정보를 포함한다. 컬러 영상에 포함된 각 컬러 픽셀의 컬러는 객체 고유의 컬러인 알베도 성분과 명암 성분 간의 곱으로 나타낼 수 있다. 컬러 공간에서 알베도 성분은 급격하게 변하고 명암 성분은 상대적으로 부드럽게(smoothly) 변하는 성질을 이용하여 컬러 영상에서 알베도 성분과 명암 성분이 분리될 수 있다. 예를 들어, 인접한 컬러 픽셀들 사이에서 컬러가 변하는 경우, 알베도 성분은 불연속성을 나타내나 명암 성분은 연속성을 나타낼 수 있다. 이러한 특성을 이용하여 신경망(330)은 컬러 영상으로부터 알베도 성분과 명암 성분을 추출할 수 있다.

명암 성분은 광원의 조사 방향과 객체 표면의 표면 법선 간의 벡터 내적에 의해 결정될 수 있다. 따라서, 광원의 조사 방향을 알거나 컬러 영상의 전체 영역에서 광원의 조사 방향이 일정하다고 가정하면, 명암 성분의 변화를 통해 표면 법선 성분의 변화가 추정될 수 있다. 신경망(330)은 광원의 조사 방향이 일정하지 않거나 광원이 복수인 경우에도, 명암 성분의 변화를 통해 표면 법선 성분의 변화를 추정할 수 있다.

신경망(330)은 깊이 영상 및 컬러 영상으로부터 가시성 정보를 추출할 수 있다. 신경망(330)은 명암 정보로부터 표면 법선 정보를 추출할 수 있다. 신경망(330)은 딥 러닝에 의해 입력 영상에서 직접 표면 법선 정보를 추출할 수도 있다. 신경망(330)은 깊이 영상의 깊이 정보 및 표면 법선 정보를 기초로 가시성 정보를 추출할 수 있다.

신경망(330)은 깊이 정보, 표면 법선 정보 또는 3D 바운딩 박스 정보 등의 다양한 조합의 형상 정보를 이용함으로써 가시성 정보를 추출할 수 있다. 또한, 신경망(330)은 딥 러닝에 의해 컬러 영상에서 가시성 정보를 직접 추출할 수도 있다.

여기서, '가시성 정보'는 영상의 각 지점(point)에서 주변이 얼마나 가려져 있는지를 나타내는 정보일 수 있다. 가시성 정보는 해당 객체의 주변 형상을 알면 쉽게 계산할 수 있다. 하지만, 신경망(330)이 이미 학습을 통해 해당 객체의 주변 지점들에서 해당 객체를 향하는 방향으로 그 부피만큼 가려져 있다는 정보를 파악한 경우에는 주변 형상이 명확하게 얻어지지 않더라도 바로 가시성 정보를 결정할 수 있다. 예를 들어, 자동차가 도로 위에 있을 때 컬러 영상에서 자동차를 인식한다면 그 자동차 주변 지점들에서 자동차를 향하는 방향으로 그 부피만큼 가려져 있다는 것, 다시 말해 자동차의 가시성 정보를 결정할 수 있다.

신경망(330)은 입력 영상에서 인접한 픽셀 간의 명암 값이 변화하는 영역에 포함된 각각의 픽셀의 가시성 정보의 차이에 대응하는 방향을 계산할 수 있다. 출력 장치는 여러 픽셀들로부터 계산된 방향을 종합하여 최종적인 광원의 위치(x, y)를 추정할 수 있다.

신경망(330)은 명암 정보를 이용하여 광원을 추정할 수 있다. 신경망(330)은 명암 정보 및 배경 영역의 형상 정보를 이용하여 광원의 위치(x, y) 및 밝기(i)를 추정할 수 있다. 신경망(330)은 그림자는 객체를 중심으로 광원의 반대편에 나타난다는 원리를 이용하여, 광원의 위치(x, y)를 추정할 수 있다. 신경망(330)은 명암 정보로부터 그림자의 경계 영역을 추출하고, 그림자의 경계 영역에 대한 가시성 정보를 이용하여 광원의 위치(x, y)를 추정할 수 있다. 신경망(330)은 그림자의 경계 영역에 포함된 인접한 픽셀 간의 가시성 정보의 차이(visibility delta)를 기초로 광원의 위치(x, y)를 추정할 수 있다.

신경망(330)은 입력 영상의 픽셀의 그림자 값의 변화량과 임계값에 기초하여 입력 영상의 픽셀이 그림자의 경계 영역인지를 결정할 수 있다. 광원이 점 광원인 이상적인 경우에, 객체에 의해 생성되는 그림자의 경계 영역의 폭은 0이 된다. 하지만, 현실적으로 광원은 면광원이기 때문에, 그림자의 경계 영역은 면적을 갖게 되고, 그림자의 경계 영역에서 그림자 값은 픽셀에 따라 차이를 보인다. 신경망(330)은 그림자 값의 변화량과 임계값을 비교함으로써 해당 픽셀이 그림자의 경계 영역에 포함되는지 여부를 판단할 수 있다.

신경망(330)은 그림자의 경계 영역의 그림자 값을 기초로 광원의 밝기(i)를 추정할 수 있다. 광원의 면적이 클수록 그림자의 경계 영역은 넓어지고, 그림자의 경계 영역에서의 그림자 값의 변화율은 작을 수 있다. 신경망(330)은 그림자의 경계 영역의 그림자 값의 변화율을 계산함으로써 광원의 밝기(i)를 추정할 수 있다.

또한, 신경망(330)은 명암 정보를 이용하여 광원의 위치(x, y) 및 조사 방향(w, h)을 추정할 수 있다. 객체의 명암 값이 클수록 광원에 가깝거나 객체 표면의 법선 방향이 광원을 향해 있다는 점을 이용하여, 출력 장치는 명암 정보를 이용하여 광원의 위치(x, y) 및 광원의 조사 방향(w, h)을 추정할 수 있다.

실시예에 따라서, 신경망(330)은 입력 영상(310)으로부터 컨텍스트(context) 정보를 획득할 수 있다. 예를 들어, 입력 영상(310)이 실내를 촬영한 영상인 경우, 컨텍스트 정보는 입력 영상이 실내라는 것을 나타내는 정보일 수 있다. 신경망(330)은 학습을 통해 해당 입력 영상(310)이 실내를 촬영한 영상이라는 정보를 추출할 수 있다. 또는 컨텍스트 정보는 입력 영상(310)과 별도로 획득된 정보일 수도 있다.

신경망(330)은 명암 정보 및 컨텍스트 정보를 이용하여 광원을 추정할 수 있다. 신경망(330)은 학습을 통해 입력 영상으로부터 배경이 어떤 환경에 속해 있는지를 판단할 수 있다. 신경망(330)은 식별된 환경에 대응하여 위치에 따른 광원의 존재 확률에 대한 정보를 기초로 입력 영상(310) 내의 각 영역에서 광원이 존재할 확률을 계산할 수 있다. 예를 들어, 컨텍스트 정보가 입력 영상(310)이 실내 임을 나타내는 경우, 신경망(330)은 광원의 위치가 입력 영상 내에서 천장에 대응하는 부분에 있을 확률이 높다고 판단할 수 있다. 신경망(330)은 광원의 존재 확률을 고려하여 광원의 위치를 추정할 수 있다.

또한, 신경망(330)은 그림자의 경계 영역에 포함된 픽셀들의 그림자 값을 이용하여 광원의 밝기(i)를 추정할 수 있다. 예를 들어, 출력 장치는 인접한 픽셀들 간의 그림자 값의 변화율이 클수록 광원의 단위 면적당 밝기가 더 큰 것으로 추정할 수 있다.

신경망(330)은 객체로부터 광원까지의 거리를 나타내는 깊이 정보(d)를 도 3과 같이 별도의 깊이 정보(355, 365)로 출력할 수도 있고, 또는 광원 정보(353, 363)의 일 요소로 출력할 수도 있다. 이때, 깊이 정보(d)는 신경망(330)의 출력 채널에 포함된 깊이 정보 필드로부터 출력될 수 있다.

도 4는 일 실시예에 따라 광원 정보를 추정하는 신경망의 구조를 설명하기 위한 도면이다. 도 4를 참조하면, 입력 영상(410)을 수신한 신경망(420)으로부터 출력되는 출력 영상(430)이 도시된다. 이때, 출력 영상(430)은 광원 정보가 반영된 영상일 수 있다.

일 실시예에 따른 입력 영상(410)은 적어도 하나의 광원, 및 상기 적어도 하나의 객체 중 적어도 하나를 포함하는 순차적인 부분 영상들(412, 414)을 포함할 수 있다. 이때, 부분 영상(412)은 t-1시점에 대응하는 영상이고, 부분 영상(414)은 t 시점에 대응하는 영상일 수 있다.

신경망(420)은 순차적인 부분 영상들(412, 414)에 포함된 적어도 하나의 객체의 영역에서 빛의 변화에 따라 발생한 그림자의 변화를 더 고려하여, t-1시점 및 t 시점의 부분 영상에 대응하는 광원 정보(432, 434)를 추정할 수 있다.

신경망(420)은 순차적인 부분 영상들(412, 414)에 포함된 객체인 사람을 먼저 찾을 수 있다. 이때, 신경망(420)은 객체인 사람의 영상에서의 위치를 픽셀 위치(x, y)로 표현하고, 객체를 포함하는 바운딩 박스의 크기를 객체의 크기(w, h)로 결정할 수 있다. 또한, 신경망(420)은 객체가 class(사람)에 해당함을 결정할 수 있다.

신경망(420)은 이와 같이 입력 영상(410)에 포함된 객체에 대응하는 객체 정보를 검출한 이후에 해당 객체('사람')에 대한 광원을 정보를 검출 이후에 (혹은 동시에) 이 객체에 대한 광원의 위치를 포함하는 광원 정보를 추정할 수 있다.

이때, 신경망(420)은 컨볼루션 LSTM(423)을 포함하는 인코더(421), 및 디코더(245)를 포함할 수 있다.

인코더(421)는 부분 영상들(412, 414)으로부터 순차적으로 객체에 대응하는 특징들을 추출하고, 컨볼루션 LSTM(423)에 의해 추출한 특징에 대한 공간적인 의미와 시간적인 의미를 파악할 수 있다.

디코더(245)는 컨볼루션 LSTM(423)으로부터 추출된 컨텍스트 정보를 바탕으로 RGB 컬러 정보, 및 깊이 등을 복원할 수 있다.

도 5는 일 실시예에 따른 광원 정보를 이용하여 3차원 객체를 렌더링하는 과정을 설명하기 위한 도면이다. 도 5를 참조하면, 신경망(520)을 이용하여 추정한 광원 정보를 이용하여 3차원 객체를 렌더링하는 과정이 도시된다. 이때, 광원 정보는 입력 영상(510)에 포함된 객체 별로 대응되는 광원의 광원 정보에 해당할 수 있다.

출력 장치는 광원을 추정하고 추정된 광원에 의해 생성되는 현상을 계산하여 3차원 렌더링을 수행함으로써 보다 자연스럽고 현실감 있는 3차원 렌더링 영상을 생성할 수 있다.

보다 구체적으로, 출력 장치는 입력 영상(510)을 신경망(520)에 인가함으로써, 입력 영상(510)에서 적어도 하나의 객체를 검출하고, 적어도 하나의 객체 별로 대응되는 광원의 광원 정보를 추정할 수 있다. 이때, 출력 장치는 입력 영상(510)을 그리드(grid) 별로 구획화하여 그리드 별 광원 정보를 추정할 수 있다(540).

출력 장치는 사용자로부터 3차원 객체에 대한 선택을 입력받을 수 있다(530). 출력 장치는 단계(540)에서 추정된 그리드 별 광원 정보를 기초로, 입력 영상에서 3차원 객체를 배치할 위치를 결정할 수 있다(550). 출력 장치는 단계(550)에서 결정된 위치에 대응하는 영상을 크롭(crop)하고, 해당 위치에 3차원 객체를 적용할 수 있다(560). 여기서, 3차원 객체는 예를 들어, 증강 현실 객체뿐만 아니라 가상 객체, 홀로그램 객체 및 혼합 객체 등을 모두 포함하는 의미로 이해될 수 있다. 이때, 출력 장치는 광원으로부터 조사되는 빛의 세기 및 방향을 기초로 객체의 표면 법선 정보를 이용하여 객체의 명암 값을 픽셀 별로 계산할 수 있다. 출력 장치는 광원과 객체의 형상 정보를 이용하여 입력 영상에 존재하는 다른 객체 또는 배경에 대한 그림자 값을 픽셀 별로 계산할 수 있다.

이후, 출력 장치는 신경망(570)을 통해 3차원 객체에 대한 음영 및 그림자 등을 반영하여 3차원 객체를 렌더링할 수 있다(580). 출력 장치는 렌더링된 3차원 영상을 출력할 수 있다.

출력 장치는 배경 영역의 형상 정보, 추정된 광원 및 입력 영상을 객체의 형상 정보와 결합하여 3D 렌더링 영상을 생성할 수 있다. 광원은 기존의 입력 영상에 포함된 정보를 기초로 추정된 것이므로 입력 영상에 부합하는 자연스러운 효과를 생성할 수 있다. 3차원 상에서 광원이 새롭게 정의되기 때문에 입력 영상에 삽입하려는 객체는 보다 자연스러운 효과가 적용될 수 있다.

일 실시예에 따른 출력 장치는 예를 들어, 퍼스널 컴퓨터, 랩탑, 노트북, 넷북 또는 태블릿, 휴대 정보 단말기(personal digital assistant; PDA), 네비게이션, 가정용 전자기기(home appliance), 영상 처리 장치, 스마트폰, 3D TV 또는 DID(Digital Information Display) 등에 해당할 수 있으며, 반드시 이에 한정되지는 않는다. 출력 장치에 의해 렌더링된 3차원 영상은 3D 사용자 인터페이스(User Interface; UI), 3D 콘텐츠, 가상 현실(Virtual Reality; VR) 또는 증강 현실을 구현하는데 이용될 수 있다.

도 6은 일 실시예에 따라 광원 정보를 출력하는 장치의 블록도이다. 도 6을 참조하면, 일 실시예에 따른 출력 장치(600)는 통신 인터페이스(610), 및 프로세서(630)를 포함한다. 출력 장치(600)는 메모리(650)를 더 포함할 수 있다. 통신 인터페이스(610), 및 프로세서(630) 및 메모리(650)는 통신 버스(605)를 통해 서로 연결될 수 있다.

통신 인터페이스(610)는 입력 영상을 수신한다. 통신 인터페이스(610)는 광원 정보를 출력한다.

프로세서(630)는 입력 영상을 신경망에 인가함으로써, 입력 영상에서 적어도 하나의 객체를 검출한다. 프로세서(630)는 적어도 하나의 객체 별로 대응되는 광원의 광원 정보를 추정한다.

프로세서(630)는 입력 영상에서 검출된 적어도 하나의 객체에 대응하는 객체 영역을 기초로, 객체 영역에 대응되는 광원의 광원 정보를 추정할 수 있다. 프로세서(630)는 입력 영상 내에 광원이 포함되는지 여부와 무관하게, 적어도 하나의 객체 별로 대응되는 광원의 광원 정보를 추정할 수 있다.

메모리(650)는 통신 인터페이스(610)를 통해 수신한 입력 영상을 저장할 수 있다. 또한, 메모리(650)는 프로세서(630)에서 검출된 적어도 하나의 객체 및/또는 프로세서(630)에서 추정된 광원 정보를 저장할 수 있다.

실시예에 따라서, 통신 인터페이스(610)는 프로세서(630)가 추정한 광원의 광원 정보를 출력하거나, 또는 다른 장치로 제공할 수 있다.

또한, 프로세서(630)는 도 1 내지 도 5를 통해 전술한 적어도 하나의 방법 또는 적어도 하나의 방법에 대응되는 알고리즘을 수행할 수 있다. 프로세서(630)는 목적하는 동작들(desired operations)을 실행시키기 위한 물리적인 구조를 갖는 회로를 가지는 하드웨어로 구현된 데이터 처리 장치일 수 있다. 예를 들어, 목적하는 동작들은 프로그램에 포함된 코드(code) 또는 인스트럭션들(instructions)을 포함할 수 있다. 예를 들어, 하드웨어로 구현된 예측 장치는 마이크로프로세서(microprocessor), 중앙 처리 장치(central processing unit), 프로세서 코어(processor core), 멀티-코어 프로세서(multi-core processor), 멀티프로세서(multiprocessor), ASIC(Application-Specific Integrated Circuit), FPGA(Field Programmable Gate Array)를 포함할 수 있다.

프로세서(630)는 프로그램을 실행하고, 출력 장치(600)를 제어할 수 있다. 프로세서(630)에 의하여 실행되는 프로그램 코드는 메모리(650)에 저장될 수 있다.

메모리(650)는 상술한 프로세서(630)의 처리 과정에서 생성되는 다양한 정보들을 저장할 수 있다. 이 밖에도, 메모리(650)는 각종 데이터와 프로그램 등을 저장할 수 있다. 메모리(650)는 휘발성 메모리 또는 비휘발성 메모리를 포함할 수 있다. 메모리(650)는 하드 디스크 등과 같은 대용량 저장 매체를 구비하여 각종 데이터를 저장할 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.

Claims

입력 영상을 수신하는 단계;
상기 입력 영상을 신경망에 인가함으로써, 상기 입력 영상에서 적어도 하나의 객체를 검출하고, 상기 적어도 하나의 객체 별로 대응되는 광원의 광원 정보를 추정하는 단계; 및
상기 광원 정보를 출력하는 단계
를 포함하는,
광원 정보를 출력하는 방법.
제1항에 있어서,
상기 광원 정보를 추정하는 단계는
상기 입력 영상 내에 상기 광원이 포함되는지 여부와 무관하게, 상기 적어도 하나의 객체 별로 대응되는 광원의 광원 정보를 추정하는 단계
를 포함하는,
광원 정보를 출력하는 방법.
제1항에 있어서,
상기 광원 정보를 추정하는 단계는
상기 입력 영상에서 검출된 적어도 하나의 객체에 대응하는 객체 영역을 기초로, 상기 객체 영역에 대응되는 광원의 광원 정보를 추정하는 단계
를 포함하는,
광원 정보를 출력하는 방법.
제1항에 있어서,
상기 신경망은
바운딩 박스(bounding box)에 의해 상기 입력 영상에 포함된 상기 적어도 하나의 객체를 검출하고, 상기 입력 영상에서 상기 적어도 하나의 객체에 대응하는 객체 영역을 포함하는 객체 정보를 검출하며,
이와 동시에 또는 별도로,
상기 적어도 하나의 객체에 대응되는 광원의 빛의 밝기를 기초로, 상기 광원의 광원 정보를 추정하도록 학습되는,
광원 정보를 출력하는 방법.
제4항에 있어서,
상기 신경망은
상기 광원의 빛의 밝기가 미리 설정된 기준보다 높은 경우에 상기 광원의 광원 정보를 추정하도록 학습되는,
광원 정보를 출력하는 방법.
제4항에 있어서,
상기 객체 정보는
상기 적어도 하나의 객체의 위치, 상기 적어도 하나의 객체의 크기, 및 상기 적어도 하나의 객체의 클래스 중 적어도 하나를 포함하는,
광원 정보를 출력하는 방법.
제1항에 있어서,
상기 광원 정보는
상기 광원의 위치, 상기 광원까지의 거리(distance; d), 상기 광원의 밝기(intensity; i), 및 상기 광원의 조사 방향 중 적어도 하나를 포함하는,
광원 정보를 출력하는 방법.
제1항에 있어서,
상기 신경망은
상기 광원의 형태 및 상기 광원에 의한 빛을 전달하는 매개체의 형태 중 적어도 하나에 대응하여 미리 정의된 템플릿(template)에 기초하여 상기 광원을 추정하도록 학습되는,
광원 정보를 출력하는 방법.
제1항에 있어서,
상기 신경망은
상기 광원의 조사 방향에 대응하여 객체 별로 그림자가 발생하는 방향이 미리 레이블링(labeling)된 템플릿에 기초하여 상기 광원 정보를 추정하도록 학습되는,
광원 정보를 출력하는 방법.
제1항에 있어서,
상기 광원 정보는
상기 적어도 하나의 객체 별로 대응되는 광원의 상대적인 위치, 상기 광원까지의 거리, 상기 광원의 밝기, 및 상기 적어도 하나의 객체에 대한 상기 광원의 조사 방향 각각에 대응하는 조명 파라미터(light parameter)를 포함하는,
광원 정보를 출력하는 방법.
제1항에 있어서,
상기 광원은
직접광(direct light) 및 간접광(indirect light) 중 적어도 하나를 포함하는,
광원 정보를 출력하는 방법.
제1항에 있어서,
상기 입력 영상은
적어도 하나의 광원, 및 상기 적어도 하나의 객체 중 적어도 하나를 포함하는 순차적인 부분 영상들을 포함하는,
광원 정보를 출력하는 방법.
제12항에 있어서,
상기 광원 정보를 추정하는 단계는
상기 순차적인 부분 영상들에 포함된 상기 적어도 하나의 객체의 영역에서 빛의 변화에 따라 발생한 그림자의 변화를 더 고려하여, 상기 광원 정보를 추정하는 단계
를 포함하는,
광원 정보를 출력하는 방법.
제1항에 있어서,
사용자로부터 3차원 객체에 대한 선택을 입력받는 단계; 및
상기 광원 정보를 기초로, 상기 입력 영상에 상기 3차원 객체를 렌더링하는 단계
를 더 포함하는,
광원 정보를 출력하는 방법.
제14항에 있어서,
상기 광원 정보를 추정하는 단계는
상기 입력 영상을 그리드(grid) 별로 구획화하여 상기 그리드 별 광원 정보를 추정하는 단계
를 포함하고,
상기 3차원 객체를 렌더링하는 단계는
상기 그리드 별 광원 정보를 기초로, 상기 입력 영상에서 상기 3차원 객체를 배치할 위치를 결정하는 단계; 및
상기 결정된 위치에 상기 3차원 객체를 렌더링하는 단계
를 포함하는,
광원 정보를 출력하는 방법.
제1항에 있어서,
상기 신경망은
컨볼루션 LSTM(Convolutional Long Short-Term Memory) 신경망, 심층 신경망(Deep Neural Network; DNN), 및 순환 신경망(Recurrent Neural Network; RNN) 중 적어도 하나를 포함하는,
광원 정보를 출력하는 방법.
하드웨어와 결합되어 제1항 내지 제16항의 방법을 실행시키기 위하여 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램.
입력 영상을 수신하는 통신 인터페이스; 및
상기 입력 영상을 신경망에 인가함으로써, 상기 입력 영상에서 적어도 하나의 객체를 검출하고, 상기 적어도 하나의 객체 별로 대응되는 광원의 광원 정보를 추정하는 프로세서
를 포함하고,
상기 통신 인터페이스는
상기 광원 정보를 출력하는,
광원 정보를 출력하는 장치.
제18항에 있어서,
상기 프로세서는
상기 입력 영상 내에 상기 광원이 포함되는지 여부와 무관하게, 상기 적어도 하나의 객체 별로 대응되는 광원의 광원 정보를 추정하는,
광원 정보를 출력하는 장치.
제18항에 있어서,
상기 프로세서는
상기 입력 영상에서 검출된 적어도 하나의 객체에 대응하는 객체 영역을 기초로, 상기 객체 영역에 대응되는 광원의 광원 정보를 추정하는,
광원 정보를 출력하는 장치.