KR101124560B1 - 동영상 내의 자동 객체화 방법 및 객체 서비스 저작 장치 - Google Patents
동영상 내의 자동 객체화 방법 및 객체 서비스 저작 장치 Download PDFInfo
- Publication number
- KR101124560B1 KR101124560B1 KR1020100034012A KR20100034012A KR101124560B1 KR 101124560 B1 KR101124560 B1 KR 101124560B1 KR 1020100034012 A KR1020100034012 A KR 1020100034012A KR 20100034012 A KR20100034012 A KR 20100034012A KR 101124560 B1 KR101124560 B1 KR 101124560B1
- Authority
- KR
- South Korea
- Prior art keywords
- tracking
- frame
- video
- area
- module
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
- G06V40/173—Classification, e.g. identification face re-identification, e.g. recognising unknown faces across different face tracks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H60/00—Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
- H04H60/76—Arrangements characterised by transmission systems other than for broadcast, e.g. the Internet
- H04H60/81—Arrangements characterised by transmission systems other than for broadcast, e.g. the Internet characterised by the transmission system itself
- H04H60/82—Arrangements characterised by transmission systems other than for broadcast, e.g. the Internet characterised by the transmission system itself the transmission system being the Internet
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
본 발명은 동영상 내의 자동 객체화 방법 및 객체 서비스 저작 장치에 관한 것으로, 더욱 상세하게는 IPTV와 같은 양방향 콘텐츠 플랫폼에서 동영상 콘텐츠 내에 등장하는 객체와 관련된 부가정보를 제공하는 서비스의 저작시, 저작툴을 이용하여 동영상 내의 객체를 자동으로 검출하고 추적하는 방법 및 그러한 기능을 수행하는 객체 서비스 저작 장치에 관한 것이다.
본 발명에 의하면, 객체의 추적 및 검출을 함께 수행하여 이로부터 추적의 오류를 보정하고 정확한 객체 추적을 하게 하며, 또한 객체 검출 오류시 객체 병합 과정을 통하여 검출 오류를 시정할 수 있게 한다.
본 발명에 의하면, 객체의 추적 및 검출을 함께 수행하여 이로부터 추적의 오류를 보정하고 정확한 객체 추적을 하게 하며, 또한 객체 검출 오류시 객체 병합 과정을 통하여 검출 오류를 시정할 수 있게 한다.
Description
본 발명은 동영상 내의 자동 객체화 방법 및 객체 서비스 저작 장치에 관한 것으로, 더욱 상세하게는 IPTV와 같은 양방향 콘텐츠 플랫폼에서 동영상 콘텐츠 내에 등장하는 객체와 관련된 부가정보를 제공하는 서비스의 저작시, 저작툴을 이용하여 동영상 내의 객체를 자동으로 검출하고 추적하는 방법 및 그러한 기능을 수행하는 객체 서비스 저작 장치에 관한 것이다.
IPTV와 같은 양향방 콘텐츠 서비스 플랫폼에서는 서비스 제공자의 일방향적 컨텐츠 제공이 아닌 시청자의 의사를 능동적으로 수용할 수 있다. 이러한 IPTV 플랫폼을 기반으로 하여, 최근에는 저작자가 동영상 시청 중 관심 있는 객체를 인터페이스장치로 선택하면 해당 객체와 관련된 정보 및 광고정보 등을 제공하고 전자상거래를 유도하여 수익을 창출하는 객체 서비스가 개시되었다. 전술한 객체 서비스에 따르면, 시청자는 리모트 컨트롤을 사용하여 직접 동영상 내에서 객체를 선택해서 원하는 정보를 손쉽게 얻을 수 있으며, 또한 상품구매 및 다양한 부가서비스 이용이 가능하다.
전술한 객체 서비스를 제공하기 위해, 서비스 저작자는 객체화 하고자 하는 동영상을 저작툴을 이용하여 객체를 추출 및 추적한다. 전술한 저작툴은 소정의 추적 알고리즘을 통해 해당 객체를 인식하고 자동으로 추적하게 된다. 그러나, 동영상의 종류, 특성에 따라 추적 알고리즘을 통해 자동으로 추적하는 것이 어려운 경우가 있다. 예를 들면 동영상에 노이즈가 있는 경우 또는 객체의 이동이 너무 빨라 저작툴이 동일객체로 인식하지 못하고 새로운 객체로 인식하는 경우 등이 있다. 이러한 경우 정확한 객체추적을 할 수 없어 오류가 발생하게 되며 객체 서비스의 정확도를 떨어뜨리게 된다.
본 발명은 전술한 문제점을 해결하기 위해 창안된 것으로서, 객체의 추적 및 검출을 함께 수행하여 이로부터 추적의 오류를 보정하고 정확한 객체 추적을 하게 하는 데 그 목적이 있다. 또한 객체 검출 오류시 객체 병합 과정을 통하여 검출 오류를 시정할 수 있게 하는데 그 목적이 있다.
이와 같은 문제점을 해결하기 위하여 본 발명에 따른 동영상 객체정보 저작장치가 동영상에 나타나는 객체를 자동으로 추적하는 방법은, (a) 동영상 내 현재 프레임에서의 장면전환 여부를 검출하여, 검출된 경우는 단계(d)로 진행하고, 검출되지 않은 경우는 단계(b)로 진행하는 단계; (b) 이전 프레임의 추적 대상 객체가 있는지 검색하여 없는 경우는 단계(d)로 진행하고, 있는 경우는 단계(c)로 이동하는 단계; (c) 상기 단계(b)의 추적 대상 객체를 현재 프레임에서 추적하는 단계; (d) 현재 프레임에 등장하는 객체의 영역을 검출하는 단계; 및 (e) 상기 단계(c)에서 추적된 객체 영역이 현재 프레임에 존재하는 경우, 그 객체 영역과 상기 단계(d)에서 검출된 객체 영역 사이의 거리가 특정 임계값 이하이면 상기 단계(c)에서 추적된 객체의 영역을 상기 단계(b)의 추적 대상 객체의 현재 프레임 내에서 추적된 영역정보로서 저장하고, 상기 임계값 이상이면 상기 단계(d)에서 검출된 객체 영역을 상기 단계(b)의 추적 대상 객체의 현재 프레임 내에서 추적된 영역정보로서 저장하는 단계;를 포함한다.
상기 객체는, 사람의 얼굴, 상반신 또는 하반신일 수 있다.
상기 단계(c)의 객체 추적 단계는, (c1) 프레임의 색상 공간 양자화를 수행하는 단계; (c2) 전 프레임의 추적된 객체 영역 위치에서의 가중 히스토그램과 현재 프레임의 객체 영역 위치에서의 가중 히스토그램의 유사성을 계산하는 단계; (c3) 상기 유사성으로부터, 다음 위치에서의 객체 영역의 위치를 계산하는 단계; (c4) 상기 단계(c3)의 위치로 객체가 이동한 것으로 가정한 후, 객체 영역의 위치값이 특정 값에 수렴할 때까지 상기 단계(c2) 및 단계(c3)의 과정을 반복하는 단계; 및 (c5) 상기 수렴하는 위치값을, 상기 객체의 다음 프레임에서의 위치로 결정하는 단계를 포함할 수 있다.
상기 단계(d)의 객체 검출 단계는, (d1) 이미지의 특징을 파악하기 위한 특정 패턴의 마스크(mask)들을 이용하여, 데이터베이스에 저장된 다수의 사람 얼굴 이미지들에 대한 반응값을 산출하는 단계; (d2) 상기 단계(d1)에서 산출된 반응값으로부터, 상기 사람 얼굴 이미지들에 대해 기 설정된 기준값 이상의 반응값을 나타내는 마스크 및 각 마스크 별로 나타나는 반응값을 파악하고, 이를 이용하여 사람 얼굴 이미지 검출기를 생성하는 단계; 및 (d3) 현재 프레임의 이미지를 부분별로 상기 검출기에 통과시켜, 통과되는 영역을 사람 얼굴 이미지로서 결정하는 단계를 포함할 수 있다.
상기 단계(d3) 이전에, (d30) 현재 프레임에서 사람 얼굴 피부 색 영역을 검출하는 단계를 더 포함하고, 상기 단계(d3)에서 상기 검출기에 통과시키는 영역은, 상기 단계(d30)에서 검출된 사람 얼굴 피부 색 영역으로 한정할 수 있다.
상기 단계(d3) 이후, (d4) 검출된 사람 얼굴 영역을 기준으로 인체 비율을 계산하는 단계; 및 (d5) 상기 인체 비율로부터 현재 프레임에서 상반신 또는 하반신의 영역을 산출하는 단계를 더 포함할 수 있다.
상기 단계(e) 이후, (f) 현재 장면으로의 장면전환 프레임과 현재 장면 진행 중 최초로 특정객체(이하 '병합요청객체'라 한다)가 검출된 프레임(이하 '최초검출 프레임'이라 한다) 사이의 특정 프레임(이하 '최초등장 프레임'이라 한다)에서, 상기 최초등장 프레임의 특정영역에 해당하는 객체(이하 '추적요청객체'라 한다)에 대한 추적요청을 입력받는 단계; (g) 상기 최초등장 프레임으로부터 상기 추적요청객체에 대한 추적을 수행하면서 추적된 영역정보를 저장하는 단계; (h) 상기 추적요청객체의 추적된 위치와 상기 최초검출 프레임 상의 상기 병합요청객체의 위치 사이의 거리가 기준값 이하가 된 경우, 추적을 중지하는 단계; 및 (i) 상기 추적요청객체에 대한 상기 추적 영역정보를 상기 병합요청객체에 대한 상기 최초검출 프레임 이후의 추적 영역정보에 병합하여 저장하는 단계를 더 포함할 수 있다.
상기 단계(e)와 단계(f) 사이에, (f01) 상기 추적요청객체의 영역을 입력받는 단계를 더 포함할 수 있다.
상기 단계(e)와 단계(f) 사이에, (f02) 상기 장면전환 프레임과 상기 최초검출 프레임 사이에서 상기 추적요청객체를 자동으로 검출하여 사용자에게 제공하는 단계를 더 포함할 수 있다.
상기 단계(g)에서, 상기 추적요청객체에 대한 추적은, 수동 추적 또는 자동 추적 방식에 의해 이루어질 수 있다.
본 발명의 다른 측면에 따르면, 동영상에 등장하는 객체에 대하여 양방향으로 부가적인 정보를 제공하는 객체 동영상 서비스를 저작하는 장치는, 저작자 단말에 동영상 객체 편집도구를 제공하고, 상기 편집도구상에 동영상을 추가하는 프로젝트 관리모듈; 상기 프로젝트 관리모듈이 추가한 동영상을 재생하는 동영상 재생모듈; 동영상 재생모듈이 재생하는 동영상에서 정지 화면(이하 '프레임'이라 한다)을 추출하고, 추출된 프레임에서의 장면전환 여부를 검출하며, 추출된 프레임에서 객체 존재 영역을 검출하고, 검출된 객체 영역을 이후의 프레임에서 추적하여 상기 객체 영역 추적결과를 저장하는 객체화 엔진부; 상기 객체화 엔진부를 제어하여 객체 추적과 관련한 일련의 처리를 수행하는 객체화 편집모듈; 및 객체 서비스 저작을 위한 각종 데이터를 저장하는 데이터베이스를 포함한다.
상기 객체화 엔진부는, 추출된 프레임에서 장면전환(이하 '샷(shot)'이라 한다) 여부를 검출하는 장면전환 검출모듈; 추출된 프레임에서 객체 존재 영역을 검출하는 객체 검출모듈; 검출된 객체 영역을 이후의 프레임에서 추적하는 객체 추적모듈; 및 현재 프레임에서 새로이 검출된 객체영역 및 이전 프레임의 추적대상 객체에 대하여 현재 프레임에서 추적된 객체영역으로부터, 상기 추적대상 객체의 현재 프레임에서의 위치하는 영역을 결정하는 추적객체영역 결정모듈을 포함할 수 있다.
상기 데이터베이스는, 얼굴 검출에 이용되는 사람 얼굴 이미지 데이터를 저장하는 검출용 이미지 데이터베이스를 포함할 수 있다.
상기 객체화 편집모듈은, 객체를 자동으로 검출 및 추적하는 객체 자동추적부를 포함할 수 있다.
상기 객체화 편집모듈은, 입력된 사용자의 마우스의 이동 신호에 따라 상기 객체영역의 위치를 변경하는 객체 수동추적부를 더 포함할 수 있다.
상기 데이터베이스는, 동영상에 등장하는 각 개인의 얼굴정보를 저장하는 개인얼굴 데이터베이스를 포함하고, 상기 객체화 엔진부는, 상기 얼굴정보로부터, 동영상에 등장하는 인물이 누구인지를 인식하는 얼굴 인식모듈을 더 포함할 수 있다.
상기 객체화 엔진부는, 장면전환 검출모듈이 검출한 다수의 샷을 특정한 조건에 따라 묶어서, 관련된 장면의 모임(이하, '씬(scene)'이라 한다)을 만드는 작업을 수행하는 장면 그룹핑 모듈을 더 포함할 수 있다.
본 발명에 의하면, 객체의 추적 및 검출을 함께 수행하여 이로부터 추적의 오류를 보정하고 정확한 객체 추적을 하게 하며, 또한 객체 검출 오류시 객체 병합 과정을 통하여 검출 오류를 시정할 수 있게 하는 효과가 있다.
도 1은 본 발명의 실시예에 따른 동영상내의 객체서비스 저작장치의 전체 시스템 구조를 도시한 블록도.
도 2는 본 발명의 실시예에 따른 객체화 편집모듈의 구조를 도시한 도면.
도 3은 동영상 객체정보 저작장치가 동영상에 나타나는 객체를 자동으로 추적하는 방법의 순서도.
도 4는 객체가 검출된 프레임으로부터 객체 추적을 수행한 후, 검출 프레임 이전의 특정 프레임에서 상기 객체가 등장함에도 불구하고 검출되지 않은 검출오류가 있었음이 파악된 경우, 그 지점으로부터 다시 객체 추적을 실시하여 앞서 추적된 영역정보와 병합하는 방법을 나타내는 순서도.
도 5는 사람 얼굴을 검출하기 위해, 이미지의 특징을 파악하기 위한 특정 패턴의 마스크(mask)들을 이용하여, 데이터베이스에 저장된 다수의 사람 얼굴 이미지들에 대한 반응값을 산출하는 도면.
도 6은 얼굴 검출에 사용되는 긍정적인 데이터베이스 이미지들의 예를 나타내는 도면.
도 7은 인체 비율도를 나타내는 도면.
도 2는 본 발명의 실시예에 따른 객체화 편집모듈의 구조를 도시한 도면.
도 3은 동영상 객체정보 저작장치가 동영상에 나타나는 객체를 자동으로 추적하는 방법의 순서도.
도 4는 객체가 검출된 프레임으로부터 객체 추적을 수행한 후, 검출 프레임 이전의 특정 프레임에서 상기 객체가 등장함에도 불구하고 검출되지 않은 검출오류가 있었음이 파악된 경우, 그 지점으로부터 다시 객체 추적을 실시하여 앞서 추적된 영역정보와 병합하는 방법을 나타내는 순서도.
도 5는 사람 얼굴을 검출하기 위해, 이미지의 특징을 파악하기 위한 특정 패턴의 마스크(mask)들을 이용하여, 데이터베이스에 저장된 다수의 사람 얼굴 이미지들에 대한 반응값을 산출하는 도면.
도 6은 얼굴 검출에 사용되는 긍정적인 데이터베이스 이미지들의 예를 나타내는 도면.
도 7은 인체 비율도를 나타내는 도면.
이하 첨부된 도면을 참조로 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
도 1은 본 발명의 실시예에 따른 동영상내의 객체서비스 저작장치의 전체 시스템 구조를 도시한 블록도이다.
도시한 바와 같이, 본 발명의 객체 서비스 저작장치(100)는 저작작업을 위한 어플리케이션부(200)와, 객체화를 위한 엔진을 제공하는 알고리즘 부(300)와, 객체 서비스 저작을 위한 각종 데이터를 저장하는 데이터베이스(500)를 포함한다.
상세하게는, 어플리케이션부(200)는 저작자 단말에 그래픽 유저 인터페이스(GUI)를 제공하고, 동영상 재생 및 병렬처리를 지원하는 기능을 수행한다. 이를 위해, 어플리케이션부(200)는 GUI에 관계된 프로젝트 관리모듈(210), 객체화 편집모듈(220), 동영상 재생모듈(230) 및 편집정보 노출모듈(260)을 포함한다. 또한 도시한 바와 같이, 동영상 재생지원 및 병렬처리를 위해 동영상 지원모듈(240) 및 병렬처리모듈(250)을 더 포함할 수 있다.
먼저, 프로젝트 관리모듈(210)은 저작을 위한 프로젝트 그룹을 생성, 수정 및 삭제하는 기능, 단일 프로젝트 및 서브 프로젝트를 생성, 수정, 삭제, 분리, 통합하는 기능, 및 작업 히스토리를 저장하는 기능을 수행하는 모듈이다.
객체화 편집모듈(220)은 동영상에 등장하는 객체를 자동 및 수동으로 검출 및 추적하는 기능을 수행하는 모듈이다. 이를 위해, 객체화 편집모듈은 자동 및 수동검출부를 포함하며, 이에 대한 상세한 설명은 이하에서 후술한다.
동영상 재생모듈(230)은 저작편집툴상에서 동영상 파일의 영상 및 음원을 실행시키는 기능을 수행하는 모듈이다. 이러한 동영상 재생모듈(230)은 MicrosoftTM 사의 DirectX 9.0c SDK 가 제공하는 Directshow API를 이용하여 구현될 수 있다.
편집정보 노출모듈(260)은 동영상 편집시 시간축에 대하여 객체의 추적구간을 보여주는 기능을 수행하는 모듈이다. 이러한 편집정보 노출모듈은 동영상의 프레임을 순차적으로 나열하여 표시함으로서, 각 장면 및 장면에 등장하는 객체가 동영상에서 어느 시점에 위치하는가를 보다 용이하게 확인할 수 있다.
또한, 동영상 지원모듈(240)은 동영상 재생모듈(230)이 동영상을 재생할 수 있도록 필터 그래프(Filter graph)를 생성 및 제공하고, 오디오 출력을 지원하는 기능을 수행하는 모듈이다.
병렬처리모듈(250)은 객체화 저작작업시 다수의 저작작업을 동시에 수행하도록 지원하는 기능을 수행하는 모듈이다.
전술한 구조에 따라, 객체서비스 저작장치는 저작자에게 저작작업을 수행하기 위한 GUI를 제공한다. 이하, 객체서비스 저작장치를 구성하는 모듈 중, 객체를 자동으로 추적하기 위한 객체화 엔진을 제공하는 알고리즘 부(300)의 구조를 설명한다.
알고리즘 부(300)는 GUI와 객체화 엔진을 연결하는 인터페이스(310) 및 객체화 엔진부를 포함한다.
객체화 엔진부는 동영상 재생모듈(230)이 재생하는 동영상에서 정지 화면(이하 '프레임'이라 한다)을 추출하고, 추출된 프레임에서의 장면전환 여부를 검출하며, 추출된 프레임에서 객체 존재 영역을 검출하고, 검출된 객체 영역을 이후의 프레임에서 추적하여 상기 객체 영역 추적결과를 저장하는 역할을 수행한다. 이러한 객체화 엔진부는 장면전환 검출모듈(320), 객체 검출모듈(340), 객체 추적모듈(350) 및 추적객체영역 결정모듈(370)을 포함하며, 장면 그룹핑 모듈(330), 얼굴 인식모듈(360)을 더 포함할 수 있다. 데이터베이스(500)에는, 얼굴 검출에 이용되는 사람 얼굴 이미지 데이터를 저장하는 검출용 이미지 데이터베이스를 포함한다.
장면전환 검출모듈(320)은, 두 인접한 프레임 사이의 차이값에 따른 임계값을 이용하여 장면전환을 검출하는 기능을 수행하는 모듈이다. 장면전환(이하, '샷(shot)'이라 한다)이란, 급진적인 프레임 전환이나 점진적인 프레임 전환을 감지하여 구분된 단위로서, 크게 급진적 샷과 점진적 샷으로 구분할 수 있다. 먼저, 급진적 샷은 각 프레임사이의 차이값 변화가 매우 심하게 나타나는 프레임들의 변화를 말하는 것으로, 장면들의 갑작스런 변화가 발생하는 프레임들 사이에서 발생한다. 또한, 점진적 샷은 페이드 인/아웃, 디졸브와 같은 카메라 특수효과에 의해 발생하는 현상으로 장면들의 점차적인 변화가 발생하는 프레임들 사이에서 발생한다. 장면전환 검출모듈(320)은 컬러 히스토그램을 이용한 검출방법, 카이-스퀘어 테스트를 이용한 검출방법 등으로 구현될 수 있으며, 본 실시예에서는 전술한 두 알고리즘을 결합한 변형된 카이 스퀘어 테스트 검출방법으로 구현한다.
장면 그룹핑모듈(330)은, 장면전환을 그룹핑하는 기능을 수행하는 모듈이다. 장면 그룹핑이란, 장면전환 검출모듈(320)이 검출한 다수의 샷을 특정한 조건에 따라 묶어서, 위치 또는 줄거리 상의 사건에 따라 하나로 묶을 수 있는 비교적 적은 수의 관련된 장면의 모임(이하, '씬(scene)'이라 한다)을 만드는 작업을 말한다. 본 실시예에서는 동영상 편집은 전술한 샷 및 씬 단위로 처리된다.
객체 검출모듈(340)은, 추출된 프레임에서 객체 존재 영역을 검출하는데, 데이터베이스(500)에 저장된 다수의 얼굴샘플 이미지를 이용하여 학습단계를 수행하고, 이를 소정의 알고리즘에 적용하여 프레임에 등장하는 객체의 얼굴영역을 검출하는 기능을 수행한다. 이러한 객체 검출모듈(340)은 학습단계와 검출단계를 통해 이미지 검출을 수행하는 비올라와 존스(Viola and Jones) 알고리즘이 적용된다. 먼저 학습단계에서는 다양한 하-웨이블릿 특징집합(Haar-wavelet feature set)을 구하고, 이를 아다부스트(Adaboost) 알고리즘을 통해 검출기를 구한다. 이후 검출단계에서는 학습단계에서 구한 검출기를 이용해 최종적으로 얼굴을 검출한다.
객체 추적모듈(350)은, 소정의 알고리즘을 통해 동영상 내의 객체이동을 추적하는 기능을 수행하는 모듈이다. 본 실시예의 객체 추적모듈(350)은 Meanshift 알고리즘을 이용하여 객체를 추적하는 데, 먼저 색상공간 양자화를 통해 계산속도를 향상시키고, 가중 히스토그램을 계산한 후 유사성을 이용하여 다음 객체의 위치를 계산한다. 이후, 그 위치로 객체가 이동했다고 가정 후 다시 객체의 위치가 수렴할 때까지 계산을 반복하여 객체의 이동을 추적한다.
얼굴 인식모듈(360)은, 서로 다른 얼굴형상들을 모델링하고, 이를 이용하여 객체 검출모듈(340)이 검출한 얼굴영역에 대하여 다양한 얼굴 영상 데이터를 기반으로 각 개인의 얼굴을 나타내는 HMM(Hidden Markov Model) 알고리즘을 추론함으로서 개인의 얼굴을 식별하는 기능을 수행한다. 또한 얼굴 인식모듈(360)을 포함하는 경우, 데이터베이스(500)에는, 동영상에 등장하는 각 개인의 얼굴정보를 저장하는 개인얼굴 데이터베이스를 포함한다.
추적객체영역 결정모듈(370)은, 현재 프레임에서 새로이 검출된 객체영역 및 이전 프레임의 추적대상 객체에 대하여 현재 프레임에서 추적된 객체영역으로부터, 상기 추적대상 객체의 현재 프레임에서의 위치하는 영역을 결정한다.
전술한 구조에 따라, 본 발명의 객체서비스 저작장치(100)는 동영상에 등장하는 객체를 검출 및 추적하고, 동영상을 편집하여 객체화할 수 있다. 여기서, 전술한 객체화 편집모듈(220)은, 도 2에 도시한 바와 같이 객체자동 추적부(221) 및 객체수동추적부(225)를 포함한다. 객체 자동추적부(221)는 객체화 엔진을 통해 객체가 자동추적이 가능한 경우에 이용되며, 객체 수동추적부(225)는 객체의 자동추적이 불가능한 경우 저작자의 조작에 따라 객체를 검출 및 추적한다.
도 2는 본 발명의 실시예에 따른 객체화 편집모듈의 구조를 도시한 도면이다.
도시한 바와 같이, 본 발명의 객체화 편집모듈(220)은, 객체화 엔진과 연동하여 객체를 자동으로 검출 및 추적하는 객체 자동추적부(221)를 포함하고, 저작자의 조작에 의해 객체를 수동으로 검출 및 추적하는 객체 수동추적부(225)를 더 포함할 수 있다.
객체화 편집모듈(220)은 도 1을 참조하여 전술한 객체화 엔진부의 각 모듈을 제어하여 객체 추적과 관련한 일련의 처리를 수행한다. 특히 본 발명에서는 주로 객체자동 추적부(221)가 객체화 엔진부의 각 모듈을 제어하게 된다.
도 3은 동영상 객체정보 저작장치가 동영상에 나타나는 객체를 자동으로 추적하는 방법의 순서도이다.
우선 객체 서비스 저작을 위해 동영상 내에서 특정 프레임을 추출하고(S301), 현재 프레임에서 장면전환이 되었는지 여부를 검출하여(S302), 장면전환이 검출된 경우는 객체 추적을 중지한다(S310). 이후 새로운 객체를 그 프레임에서 추출하여(S311) 이후 그 객체에 대한 객체 추적을 실시하게 된다. 장면전환이 검출되지 않은 경우, 이전 프레임에서 검출된 객체, 즉 현재 추적 대상인 객체가 있는지를 데이터베이스(500)에서 검색한다(S303). 추적 대상 객체가 없는 경우는 객체 추적을 중지하고(S310), 이후 새로운 객체를 그 프레임에서 추출하여(S311) 이후 그 객체에 대한 객체 추적을 실시하게 된다. 추적 대상 객체가 있는 경우는 그 추적 대상 객체를 추적하여, 현재 프레임에서 어느 영역에 그 객체가 존재하는지를 파악한다(S304).
이렇게 추적된 객체 영역에 오류가 있을 경우를 보정하기 위하여 객체 검출을 병행한다. 즉, 전술한 객체 추적과 별도로, 현재 프레임에 등장하는 객체의 영역을 새로이 검출하여(S305), 단계 S304에서 추적된 객체가 현재 프레임 가운데 존재하는 영역과 단계 S305에서 새로이 검출된 객체영역 간의 거리를 측정하고(S306), 측정된 거리값이 기 설정된 임계값 이하인 경우 상기 단계 S304에서 추적된 객체영역을 현재 프레임에서 그 추적대상 객체가 존재하는 영역, 즉 추적된 영역으로서 추적정보를 저장하고(S309), 상기 임계값 이상인 경우 상기 단계 S305에서 검출된 객체영역을 현재 프레임에서 그 추적대상 객체가 존재하는 영역, 즉 추적된 영역으로서 추적정보를 저장하게 된다(S308).
상기 단계 S304의 객체 추적 방법을 설명하면, 먼저 추적 처리 시간을 줄이기 위해 프레임의 색상 공간 양자화를 수행하고, 전 프레임의 추적된 객체 영역 위치에서의 가중 히스토그램과 현재 프레임의 객체 영역 위치에서의 가중 히스토그램의 유사성을 계산한다. 이러한 유사성으로부터, 다음 위치에서의 객체 영역의 위치를 계산한다. 유사성은 Battacharya coefficient를 이용하여 계산한다. 그 후에 2개의 가중 히스토그램 값을 사용하여 가중치를 계산한다. 계산한 가중치를 이용하여 다음 위치에서의 객체 영역의 위치를 계산한다. 그 위치로 객체가 이동한 것으로 가정한 후, 이러한 계산을 계산한 객체 영역의 위치가 수렴할 때까지 반복한다. 계산한 영역의 위치가 수렴하면 계산을 멈추고, 최종적으로 계산한 영역의 위치가 다음 프레임에서의 객체의 위치가 된다. 여기서 계산을 반복할 때 값이 수렴하지 않을 경우가 발생할 수 있으므로 반복하는 횟수에 제한을 두어 무한대로 게산을 반복하지 않도록 하는 것이 바람직하다. 객체 추적 도중 객체가 다른 물체와 겹쳐져 없어지거나 화면 밖으로 나갈 시 추적을 중지한다.
한편, 사람의 상반신 또는 하반신 영역의 검출 방법은, 먼저 현재 프레임에 등장하는 사람 얼굴 영역을 검출하고, 검출된 얼굴 영역을 기준으로 인체 비율을 계산한다. 이러한 인체 비율로부터 상반신 또는 하반신의 영역을 산출하게 된다.
도 4는 객체가 검출된 프레임으로부터 객체 추적을 수행한 후, 검출 프레임 이전의 특정 프레임에서 상기 객체가 등장함에도 불구하고 검출되지 않은 검출오류가 있었음이 파악된 경우, 그 지점으로부터 다시 객체 추적을 실시하여 앞서 추적된 영역정보와 병합하는 방법을 나타내는 순서도이다.
먼저 특정 프레임(이하 '최초검출 프레임'이라 한다)에서 특정 객체(이하 '병합요청객체'라 한다)를 검출하여 추적을 수행한다(S401). 현재 장면으로의 장면전환 이 이루어진 프레임과 상기 최초검출 프레임 사이의 특정 프레임(이하 '최초등장 프레임'이라 한다)에서 상기 병합요청객체가 등장함에도 불구하고 검출되지 않은 검출오류가 있었음이 파악된 경우(S402), 사용자는 상기 최초등장 프레임의 추적오류가 난 객체(이하 '추적요청객체'라 한다)에 대한 추적요청을 입력하게 된다. 물론 여기서 추적요청객체는 상기 병합요청객체와 동일한 객체이다. 이때 객체 서비스 저작장치(100)는 상기 최초등장 프레임으로부터 상기 추적요청객체에 대한 추적을 수행하면서 추적된 영역정보를 저장한다(S403, S404). 상기 추적요청객체의 추적된 위치와 상기 최초검출 프레임 상의 상기 병합요청객체의 위치 사이의 거리를 측정하고(S405), 그 거리를 기 설정된 기준값과 비교하여(S406) 기준값 이상인 경우에는 객체 추적 및 추적정보 저장을 계속하고(S409), 기준값 이하가 된 경우, 추적을 중지하고(S407) 상기 추적요청객체에 대한 상기 추적 영역정보를 상기 병합요청객체에 대한 상기 최초검출 프레임 이후의 추적 영역정보에 병합하여 저장한다(S408).
검출오류의 파악은, 사용자가 직접 모니터에서 파악한 후, 그 검출오류 난 프레임의 검출오류가 난 객체 영역을 지정하여 객체 서비스 저작장치(100)에 입력할 수도 있고, 객체 서비스 저작장치(100)가 자동으로 상기 장면전환 프레임과 상기 최초검출 프레임 사이에서 검출오류를 파악하여 검출오류가 났었음을 제공하여, 이로부터 사용자가 단축키 등에 의해 병합요청하도록 할 수 있다.
한편 상기 추적요청객체에 대한 추적은, 사용자의 마우스 등에 의한 수동 추적 또는 객체 서비스 저작장치(100)의 자동 추적 방식에 의해 이루어질 수 있다.
얼굴 검출 과정에 대하여는 이하 도 5 내지 도 6을 참조하여 상세히 설명한다.
도 5는 사람 얼굴을 검출하기 위해, 이미지의 특징을 파악하기 위한 특정 패턴의 마스크(mask)들을 이용하여, 데이터베이스에 저장된 다수의 사람 얼굴 이미지들에 대한 반응값을 산출하는 도면이다.
얼굴 검출 단계는, 1) 이미지의 특징을 파악하기 위한 특정 패턴의 마스크(mask)들을 이용하여, 데이터베이스에 저장된 다수의 사람 얼굴 이미지들에 대한 반응값을 산출하고, 2) 산출된 반응값으로부터, 상기 사람 얼굴 이미지들에 대해 높은 반응을 나타내는 마스크 및 각 마스크 별로 나타나는 반응값을 파악하고, 3) 이를 이용하여 사람 얼굴 이미지 검출기를 생성하며, 4) 현재 프레임의 이미지를 부분별로 상기 검출기에 통과시켜, 통과되는 영역을 사람 얼굴 이미지로서 결정하는 단계를 포함한다.
상기 검출기 통과 이전에, 현재 프레임에서 사람 얼굴 피부 색 영역을 검출하는 단계를 더 포함할 수 있는데, 이 경우 상기 검출기에 통과시키는 영역은, 검출된 사람 얼굴 피부 색 영역으로 한정할 수도 있게 된다.
비올라와 존스의 얼굴 검출 알고리즘의 크게 두 단계로 요약될 수 있다. 먼저, 트레이닝 과정에서는 데이터베이스를 이용하여 검출기를 생성하고, 검출 단계에서는 트레이닝 과정에서 생성된 검출기를 이용하여 입력 이미지에서의 얼굴을 검출하게 된다.
트레이닝 과정에서는 얼굴 검출을 수행하는 가장 근본적인 단위로 하나는 하 필터들과 유사한 형태의 특징(Haar-like feature)들에 대한 반응을 이용하는데, 가능한 모든 종류의 하 특징들 중에서 얼굴 이미지로 이루어진 데이터베이스를 이용하여 반응성이 높은 특징들을 고르는 과정이 가장 먼저 수행된다. 그런 후, 이와 같이 얼굴에 반응하는 하 특징들을 이용하여 약한 분류기(weak classifier)를 만들고, 이들을 직렬(cascade)로 연결하여 강한 분류기(strong classifier)인 검출기를 생성하게 된다. 이때 약한 분류기들을 직렬(cascade)로 연결하는 과정은 아다부스트(AdaBoost)[11] 알고리즘에서 비롯된 것으로 초기 단계에서 얼굴일 가능성이 낮은 이미지 영역들은 일찌감치 검출 과정에서 제외시킬 수 있도록 해 준다. 이 알고리즘은 특히 검출 속도의 개선을 위해 이와 같은 형태를 취하고 있는데 트레이닝 과정에 계산 과정의 대부분을 전가시킴으로 이와 같은 효과를 얻게 된다고 볼 수 있다.
위와 같은 트레이닝 과정에서 생성한 검출기를 이용하여 입력 이미지 안에서 얼굴을 검출하게 된다. 이때 입력 이미지 안에 존재하는 얼굴은 다양한 위치에 다양한 크기로 존재할 수 있기 때문에 이미지의 각 패치(patch) 별로 검출기의 모든 하 특징들에 대한 반응을 계산한 후, 얼굴이라고 분류할 수 있는 패치들을 선정하게 된다.
본 알고리즘에서는 검출의 가장 근본적인 단위로 하-웨이블릿 특징 집합(Haar-wavelet feature set)(501)을 이용한다.
구체적으로 하-웨이블릿 특징은 해당하는 영역의 이미지의 특성을 알기 위한 간단한 매스크(Mask)로, 이때 매스크를 이용하여 이미지에 해당하는 영역의 픽셀들에 대응되는 매스크의 수치들을 곱하여 더하는데 이용된다. 즉, 도면(501)의 'A'와 같은 하-웨이블릿 특징을 이용하면 바깥 정사각형과 같은 크기의 이미지 패치 안에서 안쪽 직사각형의 위치에 해당되는 위치의 픽셀들에만 하얀부분은 +1을, 검은 부분은 -1을 곱하여 총합을 구하게 된다. 이와 같은 연산을 통하여 이미지 패치의 특징의 위치에 해당하는 픽셀들에 대한 아주 간단한 통계를 구하게 되는데, 이를 가능한 모든 특징들을 이용하여 많은 수의 얼굴 이미지들에 대해 수행하면 그 이미지 집합에 대한 어떤 특성을 추출할 수 있게 되는 것이다.
위와 같은 간단한 모양의 하-웨이블릿 특징 매스크(Haar-wavelet feature mask)를 이용하는 가장 큰 이유는 매스크에 대한 반응(response), 즉 결과값을 매우 빠르게 구할 수 있기 때문이다. 이는 매스크의 반응을 구할 때 픽셀 값들에 계수를 곱하지 않고 단순한 덧셈만 수행하기 때문이다. 특히, 이미지의 다양한 영역에서 여러 형태의 매스크에 대한 반응을 계산하는 경우, 이미지의 인테그랄 이미지(integral image)를 이용하여 계산을 더욱 빠르게 할 수 있다. 인테그랄 이미지는 도면(502)와 같이 (x,y) 좌표에 어두운 부분에 해당하는 원본 이미지의 픽셀 값들의 총합을 저장한 이미지로, (3-1), (3-2)의 수식을 이용하여 픽셀 수에 비례하는 시간(O(n))에 계산할 수 있다.
위 수식에서 s()는 행의 픽셀 값의 누적치, i()는 해당하는 픽셀의 밝기(intensity), 그리고 ii는 인테그랄 이미지를 의미한다. 이와 같이 인테그랄 이미지를 구하고 나면 하아 매스크에 대한 반응은 실제 매스크에 따른 합을 구할 필요 없이 해당하는 위치의 인테그랄 이미지들의 합과 차로 구할 수 있는 것이다. 예를 들면, 아래 도면(503)의 경우 D에 해당하는 영역의 픽셀 값의 합을 구하기 위해서는 인테그랄 이미지의 4번 좌표의 수치에서 2번과 3번 좌표의 수치를 빼고 1번 좌표의 수치를 더해주면 되는 것이다. 이와 같이 인테그랄 이미지를 이용하면 10번 내외의 덧셈으로 도면(503)과 같은 하-웨이블릿 특징에 대한 이미지의 반응을 모두 계산할 수 있게 되는 것이다.
앞서 설명한 것과 같이 다양한 하-웨이블릿 특징들에 대한 반응을 특정한 종류의 이미지들로 이루어진 데이터베이스에 대해 계산하면 그 종류의 이미지들에 대해 높은 반응을 나타내는 특징들을 찾을 수 있다. 이들 특징과 각 특징별로 나타나는 반응값을 이용하여 최적의 검출기를 생성하는 것이 검출기 학습 과정의 목표로써, 최적 검출기의 정의에 따라 어떤 특징들을 이용하고, 특징들에 대한 반응을 어떤 순서로, 어떤 가중치에 따라 계산하게 되는지 등을 판단해야 한다. 클리어스킨 객체화 엔진에서는 최적화된 검출기에 대한 정의를 내리기 위해 이미지 내에서의 얼굴 영역을 실제로 검출해 내는 검출율(detection rate), 얼굴이 아님에도 검출기가 얼굴로 잘못 검출하는 오검출율(false positive rate), 그리고 입력 이미지 내에서 얼굴을 검출하기 위한 계산 시간, 즉 반응 값을 계산하게 되는 특징들의 수의 세 가지 기준을 적용한다. 결론적으로, 클리어스킨 객체화 엔진에서 제시하는 학습과정에서는 높은 검출 성능, 즉, 높은 검출율과 낮은 오검출율을 유지하면서도 검출에 특징을 가장 적게 사용하는 검출기를 학습하고자 한다. 이때, 데이터베이스는 검출하고자 하는 물체들에 대한 이미지들로 이루어진 긍정적(positive) 데이터베이스와 검출하고자 하는 물체가 존재하지 않는 이미지들로 이루어진 부정적(negative) 데이터베이스 두 종류를 이용하며, 하-웨이블릿 특징은 도면(503)에 제시된 4가지 형태로 가능한 모든 위치와 크기에 대한 특징을 생성하여 이용하게 된다.
클리어스킨 객체화 엔진의 검출기 학습 과정에 대한 설명은 크게 두 부분으로 나눌 수 있다. 첫째는 최고의 검출 성능을 발휘하는 검출기를 생성하기 위해 우선 검출 성능이 아주 나쁠 수 밖에 없는 개별적인 하-웨이블릿 특징들을 여러 개 결합하여 최종적인 검출 성능을 기하학적으로 증가시키는 아다부스트(AdaBoost) 알고리즘에 대한 부분이다. 둘째는 검출 시간을 줄이기 위해서 개별적인 하-웨이블릿 특징들을 결합하는 형태와 학습에 이용되는 데이터베이스를 변화시키는 과정에 대한 부분이다. 도 6에 사용되는 긍정적인 데이터베이스의 이미지들의 예(601)가 제시되어 있다.
하-웨이블릿 특징을 이용하여 해당하는 이미지 패치에 검출하려는 물체가 존재하는지는 특정한 하-웨이블릿 특징에 대한 반응의 수치가 어떠한 문턱치(threshold)를 넘는지를 확인함으로써 판별하게 된다. 이때 검출기를 구성하게 되는 하-웨이블릿 특징으로 어떤 형태를 선택할 것인지, 최종적인 검출기에서 각 하-웨이블릿 특징은 어떠한 비중으로 사용될 것인지 등을 결정해야 하는데, 이는 아다부스트 알고리즘을 이용하여 결정된다.
아다부스트(AdaBoost)는 얼굴과 같이 특징적인 이미지 내의 특징을 검출하는 데 필요한 검출기를 생성하기 위해 트레이닝 정보를 효율적으로 이용하는 제어되는 러닝 알고리즘(supervised learning algorithm)이다. 직관적으로 설명하면, 얼굴 이미지와 얼굴이 없는 이미지를 각각 긍정적(positive)와 부정적(negative) 트레이닝 세트(training set)로 이용할 때 하-웨이블릿 특징 집합(Haar-wavelet feature set)들 중 얼굴 이미지에 부합하는 특징은 계수를 강화하고, 얼굴이 아닌 이미지에 부합하는 특징은 계수를 약화하게 되는 과정이라고 볼 수 있는 것이다. 아다부스트 알고리즘에 사용되는 용어들을 이용하면 각 하-웨이블릿 특징과 해당되는 문턱치는 하나의 약한 검출기(weak classifier)를 구성하며, 이들을 결합하여 구한 검출기는 강한 검출기(strong classifier)가 된다.
위와 같은 과정을 통해 일정한 수의 특징들로 구성된 검출기를 학습할 수 있다. 하지만 이와 같은 경우 생성된 검출기는 검출 성능의 측면에서는 최적화되었다고 불 수 있겠지만, 검출 속도의 측면에서는 최적화되지 못했다고 볼 수도 있다. 생성된 검출기는 입력된 이미지의 모든 패치에 대해 모든 특징에 대한 반응을 모두 계산하기 때문이다. 흔히 입력되는 이미지에서 검출하고자 하는 물체는 아주 드물게 나타나기 때문에 검출하고자 아닌 물체가 아닐 가능성이 매우 높은 이미지 패치에 대해서는 모든 특징에 대한 반응을 구하지 않고도 더 빨리 그 패치를 제외(reject)시킴으로써 검출 시간을 단축시킬 수 있는 것이다.
구체적으로, 최종적인 검출기의 각 특징들을 층계형으로 구성하고 각 단계를 통과하는가에 따라 검출 가능성이 낮은 패치를 제외하게 되면, 검출하고자 하는 물체가 없는 대부분의 이미지 패치들은 초기 단계에서 제외되고 이어지는 단계는 수행되지 않으므로 속도를 크게 향상시킬 수 있다.
이와 같은 경우 각 단계마다의 검출기는 각각 다른 목표를 지니게 된다. 검출기의 초기 단계에서는 비얼굴 이미지 패치를 제외하는 것이 가장 큰 목표가 되고, 성능보다는 속도가 문제가 되므로 사용하는 특징의 수가 적어야 한다. 클리어스킨 객체화 엔진에서는 첫 단계로 2개의 특징만을 이용한다. 특히, 이 단계에서는 오검출율보다도 검출율이 더 중요하다.
이후의 단계에서는 최종적인 검출 성능을 만족시키기 위한 만큼의 성능을 발휘할 수 있는 정도의 특징을 이용한 검출기를 생성하게 된다. 즉, 각 단계 검출 성능의 곱이라고 가정하여 각 단계에서 검출율 0.99, 오검출율 0.30이라 하여도 최종적인 검출 성능은 검출율
도 6은 얼굴 검출에 사용되는 긍정적인 데이터베이스 이미지들의 예를 나타내는 도면이다. 이에 대하여는 도 5를 참조하여 전술한 바와 같다.
도 7은 인체 비율도를 나타내는 도면이다.
도 3을 참조하여 전술한 바와 같이, 사람의 상반신 또는 하반신 영역의 검출 방법은, 먼저 현재 프레임에 등장하는 사람 얼굴 영역을 검출하고, 검출된 얼굴 영역을 기준으로 인체 비율을 계산한다. 이러한 인체 비율로부터 상반신 또는 하반신의 영역을 산출하게 된다.
100: 객체서비스 저작장치
200: 어플리케이션 부
210: 프로젝트 관리모듈 220: 객체화 편집모듈
221: 객체 자동추적부 225: 객체 수동추적부
230: 동영상 재생모듈 240: 편집정보 노출모듈
250: 병렬처리모듈
300: 알고리즘 부
310: 인터페이스 320: 장면전환 검출모듈
330: 장면 그룹핑모듈 340: 객체 검출모듈
350: 객체 추적모듈 360: 얼굴인식모듈
370: 추적객체영역 결정모듈
200: 어플리케이션 부
210: 프로젝트 관리모듈 220: 객체화 편집모듈
221: 객체 자동추적부 225: 객체 수동추적부
230: 동영상 재생모듈 240: 편집정보 노출모듈
250: 병렬처리모듈
300: 알고리즘 부
310: 인터페이스 320: 장면전환 검출모듈
330: 장면 그룹핑모듈 340: 객체 검출모듈
350: 객체 추적모듈 360: 얼굴인식모듈
370: 추적객체영역 결정모듈
Claims (17)
- 동영상 객체정보 저작장치가 동영상에 나타나는 객체를 자동으로 추적하는 방법으로서,
(a) 동영상 내 현재 프레임에서의 장면전환 여부를 검출하여, 검출된 경우는 단계(d)로 진행하고, 검출되지 않은 경우는 단계(b)로 진행하는 단계;
(b) 이전 프레임의 추적 대상 객체가 있는지 검색하여 없는 경우는 단계(d)로 진행하고, 있는 경우는 단계(c)로 이동하는 단계;
(c) 상기 단계(b)의 추적 대상 객체를 현재 프레임에서 추적하는 단계;
(d) 현재 프레임에 등장하는 객체의 영역을 검출하는 단계; 및
(e) 상기 단계(c)에서 추적된 객체 영역이 현재 프레임에 존재하는 경우, 그 객체 영역과 상기 단계(d)에서 검출된 객체 영역 사이의 거리가 특정 임계값 이하이면 상기 단계(c)에서 추적된 객체의 영역을 상기 단계(b)의 추적 대상 객체의 현재 프레임 내에서 추적된 영역정보로서 저장하고, 상기 임계값 이상이면 상기 단계(d)에서 검출된 객체 영역을 상기 단계(b)의 추적 대상 객체의 현재 프레임 내에서 추적된 영역정보로서 저장하는 단계
를 포함하는 동영상 내의 객체 자동추적 방법. - 청구항 1에 있어서,
상기 객체는,
사람의 얼굴, 상반신 또는 하반신인 것
을 특징으로 하는 동영상 내의 객체 자동추적 방법. - 청구항 1에 있어서,
상기 단계(c)의 객체 추적 단계는,
(c1) 프레임의 색상 공간 양자화를 수행하는 단계;
(c2) 전 프레임의 추적된 객체 영역 위치에서의 가중 히스토그램과 현재 프레임의 객체 영역 위치에서의 가중 히스토그램의 유사성을 계산하는 단계;
(c3) 상기 유사성으로부터, 다음 위치에서의 객체 영역의 위치를 계산하는 단계;
(c4) 상기 단계(c3)의 위치로 객체가 이동한 것으로 가정한 후, 객체 영역의 위치값이 특정 값에 수렴할 때까지 상기 단계(c2) 및 단계(c3)의 과정을 반복하는 단계; 및
(c5) 상기 수렴하는 위치값을, 상기 객체의 다음 프레임에서의 위치로 결정하는 단계
를 포함하는 것을 특징으로 하는 동영상 내의 객체 자동추적 방법. - 청구항 2에 있어서,
상기 단계(d)의 객체 영역 검출 단계는,
(d1) 이미지의 특징을 파악하기 위한 특정 패턴의 마스크(mask)들을 이용하여, 데이터베이스에 저장된 다수의 사람 얼굴 이미지들에 대한 반응값을 산출하는 단계;
(d2) 상기 단계(d1)에서 산출된 반응값으로부터, 상기 사람 얼굴 이미지들에 대해 기 설정된 기준값 이상의 반응값을 나타내는 마스크 및 각 마스크 별로 나타나는 반응값을 파악하고, 이를 이용하여 사람 얼굴 이미지 검출기를 생성하는 단계; 및
(d3) 현재 프레임의 이미지를 부분별로 상기 검출기에 통과시켜, 통과되는 영역을 사람 얼굴 이미지로서 결정하는 단계
를 포함하는 것을 특징으로 하는 동영상 내의 객체 자동추적 방법. - 청구항 4에 있어서,
상기 단계(d3) 이전에,
(d30) 현재 프레임에서 사람 얼굴 피부 색 영역을 검출하는 단계
를 더 포함하고,
상기 단계(d3)에서 상기 검출기에 통과시키는 영역은, 상기 단계(d30)에서 검출된 사람 얼굴 피부 색 영역으로 한정하는 것
을 특징으로 하는 동영상 내의 객체 자동추적 방법. - 청구항 4에 있어서,
상기 단계(d3) 이후,
(d4) 검출된 사람 얼굴 영역을 기준으로 인체 비율을 계산하는 단계; 및
(d5) 상기 인체 비율로부터 현재 프레임에서 상반신 또는 하반신의 영역을 산출하는 단계
를 더 포함하는 것을 특징으로 하는 동영상 내의 객체 자동추적 방법. - 청구항 1에 있어서,
상기 단계(e) 이후,
(f) 현재 장면으로의 장면전환 프레임과 현재 장면 진행 중 최초로 특정객체(이하 '병합요청객체'라 한다)가 검출된 프레임(이하 '최초검출 프레임'이라 한다) 사이의 특정 프레임(이하 '최초등장 프레임'이라 한다)에서, 상기 최초등장 프레임의 특정영역에 해당하는 객체(이하 '추적요청객체'라 한다)에 대한 추적요청을 입력받는 단계;
(g) 상기 최초등장 프레임으로부터 상기 추적요청객체에 대한 추적을 수행하면서 추적된 영역정보를 저장하는 단계;
(h) 상기 추적요청객체의 추적된 위치와 상기 최초검출 프레임 상의 상기 병합요청객체의 위치 사이의 거리가 기준값 이하가 된 경우, 추적을 중지하는 단계; 및
(i) 상기 추적요청객체에 대한 상기 추적 영역정보를 상기 병합요청객체에 대한 상기 최초검출 프레임 이후의 추적 영역정보에 병합하여 저장하는 단계
를 더 포함하는 것을 특징으로 하는 동영상 내의 객체 자동추적 방법. - 청구항 7에 있어서,
상기 단계(e)와 단계(f) 사이에,
(f01) 상기 추적요청객체의 영역을 입력받는 단계
를 더 포함하는 것을 특징으로 하는 동영상 내의 객체 자동추적 방법. - 청구항 7에 있어서,
상기 단계(e)와 단계(f) 사이에,
(f02) 상기 장면전환 프레임과 상기 최초검출 프레임 사이에서 상기 추적요청객체를 자동으로 검출하여 사용자에게 제공하는 단계
를 더 포함하는 것을 특징으로 하는 동영상 내의 객체 자동추적 방법. - 청구항 7에 있어서,
상기 단계(g)에서, 상기 추적요청객체에 대한 추적은,
수동 추적 또는 자동 추적 방식에 의해 이루어지는 것
을 특징으로 하는 동영상 내의 객체 자동추적 방법. - 동영상에 등장하는 객체에 대하여 양방향으로 부가적인 정보를 제공하는 객체 동영상 서비스를 저작하는 장치로서,
저작자 단말에 동영상 객체 편집도구를 제공하고, 상기 편집도구상에 동영상을 추가하는 프로젝트 관리모듈;
상기 프로젝트 관리모듈이 추가한 동영상을 재생하는 동영상 재생모듈;
동영상 재생모듈이 재생하는 동영상에서 정지 화면(이하 '프레임'이라 한다)을 추출하고, 추출된 프레임에서의 장면전환 여부를 검출하며, 추출된 프레임에서 객체 존재 영역을 검출하고, 검출된 객체 영역을 이후의 프레임에서 추적하여 상기 객체 영역 추적결과를 저장하는 객체화 엔진부;
상기 객체화 엔진부를 제어하여 객체 추적과 관련한 일련의 처리를 수행하는 객체화 편집모듈; 및
객체 서비스 저작을 위한 각종 데이터를 저장하는 데이터베이스
를 포함하는 객체 서비스 저작 장치. - 청구항 11 있어서,
상기 객체화 엔진부는,
추출된 프레임에서 장면전환(이하 '샷(shot)'이라 한다) 여부를 검출하는 장면전환 검출모듈;
추출된 프레임에서 객체 존재 영역을 검출하는 객체 검출모듈;
검출된 객체 영역을 이후의 프레임에서 추적하는 객체 추적모듈; 및
현재 프레임에서 새로이 검출된 객체영역 및 이전 프레임의 추적대상 객체에 대하여 현재 프레임에서 추적된 객체영역으로부터, 상기 추적대상 객체의 현재 프레임에서의 위치하는 영역을 결정하는 추적객체영역 결정모듈
을 포함하는 것을 특징으로 하는 객체 서비스 저작 장치. - 청구항 11에 있어서
상기 데이터베이스는,
얼굴 검출에 이용되는 사람 얼굴 이미지 데이터를 저장하는 검출용 이미지 데이터베이스
를 포함하는 것을 특징으로 하는 객체 서비스 저작 장치. - 청구항 11에 있어서
상기 객체화 편집모듈은,
객체를 자동으로 검출 및 추적하는 객체 자동추적부
를 포함하는 것을 특징으로 하는 객체 서비스 저작 장치. - 청구항 14에 있어서
상기 객체화 편집모듈은,
입력된 사용자의 마우스의 이동 신호에 따라 상기 객체영역의 위치를 변경하는 객체 수동추적부
를 더 포함하는 것을 특징으로 하는 객체 서비스 저작 장치. - 청구항 12에 있어서
상기 데이터베이스는,
동영상에 등장하는 각 개인의 얼굴정보를 저장하는 개인얼굴 데이터베이스를 포함하고,
상기 객체화 엔진부는,
상기 얼굴정보로부터, 동영상에 등장하는 인물이 누구인지를 인식하는 얼굴 인식모듈
을 더 포함하는 것을 특징으로 하는 객체 서비스 저작 장치. - 청구항 12에 있어서
상기 객체화 엔진부는,
장면전환 검출모듈이 검출한 다수의 샷을 특정한 조건에 따라 묶어서, 관련된 장면의 모임(이하, '씬(scene)'이라 한다)을 만드는 작업을 수행하는 장면 그룹핑 모듈
을 더 포함하는 것을 특징으로 하는 객체 서비스 저작 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100034012A KR101124560B1 (ko) | 2010-04-13 | 2010-04-13 | 동영상 내의 자동 객체화 방법 및 객체 서비스 저작 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100034012A KR101124560B1 (ko) | 2010-04-13 | 2010-04-13 | 동영상 내의 자동 객체화 방법 및 객체 서비스 저작 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20110114384A KR20110114384A (ko) | 2011-10-19 |
KR101124560B1 true KR101124560B1 (ko) | 2012-03-16 |
Family
ID=45029478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020100034012A KR101124560B1 (ko) | 2010-04-13 | 2010-04-13 | 동영상 내의 자동 객체화 방법 및 객체 서비스 저작 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101124560B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9760780B2 (en) | 2014-10-17 | 2017-09-12 | Kt Corporation | Thumbnail management |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101695655B1 (ko) * | 2016-02-23 | 2017-01-12 | 이정선 | 영상 분석 방법 및 장치 |
KR102124982B1 (ko) * | 2018-03-30 | 2020-06-19 | 주식회사 엘지유플러스 | 콘텐츠 제어 장치 및 그 방법 |
CN112233138B (zh) * | 2019-06-28 | 2024-07-19 | 北京京东乾石科技有限公司 | 一种目标检测方法和装置 |
CN117456204B (zh) * | 2023-09-25 | 2024-08-20 | 珠海视熙科技有限公司 | 目标跟踪方法、装置、视频处理系统、存储介质和终端 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010035100A (ko) * | 2000-12-22 | 2001-05-07 | 유명현 | 하이퍼링크 비디오를 위한 임의 객체의 효과적인 추적장치 및 방법 |
KR20010035099A (ko) * | 2000-12-22 | 2001-05-07 | 유명현 | 장면 전환 자동 검출을 이용한 스트리밍 하이퍼비디오시스템 및 그 제어 방법 |
KR20030082264A (ko) * | 2002-04-17 | 2003-10-22 | 삼성전자주식회사 | 객체기반 대화형 동영상 서비스 시스템 및 그 방법 |
-
2010
- 2010-04-13 KR KR1020100034012A patent/KR101124560B1/ko active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010035100A (ko) * | 2000-12-22 | 2001-05-07 | 유명현 | 하이퍼링크 비디오를 위한 임의 객체의 효과적인 추적장치 및 방법 |
KR20010035099A (ko) * | 2000-12-22 | 2001-05-07 | 유명현 | 장면 전환 자동 검출을 이용한 스트리밍 하이퍼비디오시스템 및 그 제어 방법 |
KR20030082264A (ko) * | 2002-04-17 | 2003-10-22 | 삼성전자주식회사 | 객체기반 대화형 동영상 서비스 시스템 및 그 방법 |
Non-Patent Citations (1)
Title |
---|
논문:한국정보과학회 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9760780B2 (en) | 2014-10-17 | 2017-09-12 | Kt Corporation | Thumbnail management |
US10115022B2 (en) | 2014-10-17 | 2018-10-30 | Kt Corporation | Thumbnail management |
Also Published As
Publication number | Publication date |
---|---|
KR20110114384A (ko) | 2011-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10885372B2 (en) | Image recognition apparatus, learning apparatus, image recognition method, learning method, and storage medium | |
KR102192830B1 (ko) | 트랙킹 네트워크를 포함한 CNN(Convolutional Neural Network)을 사용하여 이미지 상의 객체에 대응하는 바운딩 박스를 획득하기 위한 방법 및 이를 이용한 장치 | |
CN112926410B (zh) | 目标跟踪方法、装置、存储介质及智能视频系统 | |
US11222239B2 (en) | Information processing apparatus, information processing method, and non-transitory computer-readable storage medium | |
CN113807276B (zh) | 基于优化的YOLOv4模型的吸烟行为识别方法 | |
CN104063883B (zh) | 一种基于对象和关键帧相结合的监控视频摘要生成方法 | |
CN103514432B (zh) | 人脸特征提取方法、设备和计算机程序产品 | |
CN111898406B (zh) | 基于焦点损失和多任务级联的人脸检测方法 | |
CN109284670A (zh) | 一种基于多尺度注意力机制的行人检测方法及装置 | |
CN107145867A (zh) | 基于多任务深度学习的人脸及人脸遮挡物检测方法 | |
CN114241548A (zh) | 一种基于改进YOLOv5的小目标检测算法 | |
CN104573706A (zh) | 一种物体图像识别方法及其系统 | |
CN111401293B (zh) | 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法 | |
TWI667621B (zh) | 人臉辨識方法 | |
KR101124560B1 (ko) | 동영상 내의 자동 객체화 방법 및 객체 서비스 저작 장치 | |
KR101303877B1 (ko) | 얼굴 검출과 피부 영역 검출을 적용하여 피부의 선호색변환을 수행하는 방법 및 장치 | |
US20210042935A1 (en) | Object tracker, object tracking method, and computer program | |
WO2023221608A1 (zh) | 口罩识别模型的训练方法、装置、设备及存储介质 | |
CN113297956A (zh) | 一种基于视觉的手势识别方法及系统 | |
CN110314361B (zh) | 一种基于卷积神经网络的篮球进球得分判断方法及系统 | |
CN113065379A (zh) | 融合图像质量的图像检测方法、装置、电子设备 | |
CN116824641B (zh) | 姿态分类方法、装置、设备和计算机存储介质 | |
CN113947771B (zh) | 图像识别方法、装置、设备、存储介质以及程序产品 | |
US11468676B2 (en) | Methods of real-time spatio-temporal activity detection and categorization from untrimmed video segments | |
CN113762149A (zh) | 基于分割注意力的特征融合人体行为识别系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20150123 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20160225 Year of fee payment: 5 |