KR20120064563A - 이질적 정보를 이용하여 가상 휴먼의 표정을 제어하기 위한 장치 및 그 방법 - Google Patents
이질적 정보를 이용하여 가상 휴먼의 표정을 제어하기 위한 장치 및 그 방법 Download PDFInfo
- Publication number
- KR20120064563A KR20120064563A KR1020100125844A KR20100125844A KR20120064563A KR 20120064563 A KR20120064563 A KR 20120064563A KR 1020100125844 A KR1020100125844 A KR 1020100125844A KR 20100125844 A KR20100125844 A KR 20100125844A KR 20120064563 A KR20120064563 A KR 20120064563A
- Authority
- KR
- South Korea
- Prior art keywords
- expression
- data
- virtual human
- feature
- facial expression
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
본 발명에 의한 이질적 정보를 이용하여 가상 휴먼의 표정을 제어하기 위한 장치 및 그 방법이 개시된다.
본 발명에 따른 이질적 정보를 이용하여 가상 휴먼의 표정을 제어하기 위한 장치는 입력된 영상 데이터와 문장 또는 음성 데이터로부터 특징 데이터를 추출하는 추출 모듈; 추출된 상기 특징 데이터를 이질적 데이터를 대상으로 기 구축된 지표 데이터 집합을 이용하여 감정표현 집합 또는 감정표현 카테고리를 분류하는 DB구성 모듈; 분류된 상기 감정표현 카테고리를 전달하는 인식 모듈; 및 상기 감정표현 카테고리에 따라 가상 휴먼의 영상과 문장 또는 음성을 표현하는 표현 모듈을 포함하는 것을 특징으로 한다.
이를 통해, 본 발명은 가상 휴먼의 섬세한 감정표현이 가능할 뿐 아니라, 이로 인해 감정분류에 대한 인식률을 높일 수 있다.
본 발명에 따른 이질적 정보를 이용하여 가상 휴먼의 표정을 제어하기 위한 장치는 입력된 영상 데이터와 문장 또는 음성 데이터로부터 특징 데이터를 추출하는 추출 모듈; 추출된 상기 특징 데이터를 이질적 데이터를 대상으로 기 구축된 지표 데이터 집합을 이용하여 감정표현 집합 또는 감정표현 카테고리를 분류하는 DB구성 모듈; 분류된 상기 감정표현 카테고리를 전달하는 인식 모듈; 및 상기 감정표현 카테고리에 따라 가상 휴먼의 영상과 문장 또는 음성을 표현하는 표현 모듈을 포함하는 것을 특징으로 한다.
이를 통해, 본 발명은 가상 휴먼의 섬세한 감정표현이 가능할 뿐 아니라, 이로 인해 감정분류에 대한 인식률을 높일 수 있다.
Description
본 발명은 가상 휴먼의 표정 제어에 관한 것으로, 특히, 제한적인 표현을 갖는 제한적인 표현을 갖는 영상 데이터와 문장 또는 음성 데이터를 이용하되, 영상 데이터와 문장 또는 음성 데이터에 대한 특징 데이터들끼리의 상호관계 그래프를 통해 그룹핑한 DB를 이용하여 가상 휴먼의 표정을 섬세하게 제어할 수 있는 이질적 정보를 이용하여 가상 휴먼의 표정을 제어하기 위한 장치 및 그 방법에 관한 것이다.
컴퓨터 그래픽의 발전과 함께 등장한 가상 휴먼은 최근 영화, TV, 게임 등의 다양한 매체에서 자주 접할 수 있게 되었다. 가상 휴먼은 사람을 닮은 등장인물로서 그 생김새나 사실적인 동작, 자연스러운 얼굴 표정 등의 관심의 대상이 된다. 특히, 얼굴 생김새나 표정은 가상인물을 개성있는 인물로 재창조하는데 중요한 역할을 한다.
사람들은 타인의 얼굴 표정에 대해 매우 민감하게 반응하기 때문에 가상 휴먼의 얼굴 표정을 제어하기가 더욱 어렵다. 가상 휴먼의 얼굴 모델을 제작하고, 그 모델에게 표정을 부여하기 위해서 오래전부터 다양한 방법들이 연구되어 왔다.
기존의 얼굴/표정 인식기반의 얼굴표현 기술은 크게 수동에 의존하는 얼굴표정 DB구축 기술과 구축된 DB와 여러 교사학습 방법론을 이용하는 인식기술, 그리고 더 나아가서는 인식후 특정 영상과의 자연스러운 합성을 위한 이미지 모핑 기술이 있다.
그러나 이러한 대부분의 기술은 영상이면 영상, 문서면 문서 등과 같이 그 입력을 동질 데이터들로 국한하는 경향이 있고, 주어진 영상의 인식을 통해 새로운 영상들을 만든다기보다는 기 정의된 카테고리 안에서 분류하는 것이 주된 목적이다.
또한, 최근에 AAM(Active Appearance Model)이라는 입력 영상내 객체 외관에 대한 템플릿 모델 매칭 방법론이 영역 추적과 얼굴 표정인식의 응용분야로서 많은 연구가 되어 왔으나, 초기 얼굴모델에 대한 사전 정보가 있어야 한다는 문제와 모델 매개변수의 초기화 문제, 그리고 많은 계산량 등의 아직 해결해야 할 문제점들이 많다.
따라서 본 발명의 목적은 이러한 종래 기술의 문제점을 해결하기 위한 것으로, 제한적인 표현을 갖는 영상 데이터와 문장 또는 음성 데이터를 이용하되, 영상 데이터와 문장 또는 음성 데이터에 대한 특징 데이터들끼리의 상호관계 그래프를 통해 그룹핑한 DB를 이용하여 가상 휴먼의 표정을 섬세하게 제어할 수 있는 이질적 정보를 이용하여 가상 휴먼의 표정을 제어하기 위한 장치 및 그 방법을 제공하는데 있다.
상기 목적들을 달성하기 위한 본 발명의 실시예에 따른 이질적 정보를 이용하여 가상 휴먼의 표정을 제어하기 위한 장치는 입력된 영상 데이터와 문장 또는 음성 데이터로부터 특징 데이터를 추출하는 추출 모듈; 추출된 상기 특징 데이터를 이질적 데이터를 대상으로 기 구축된 지표 데이터 집합을 이용하여 감정표현 집합 또는 감정표현 카테고리를 분류하는 DB구성 모듈; 분류된 상기 감정표현 카테고리를 전달하는 인식 모듈; 및 상기 감정표현 카테고리에 따라 가상 휴먼의 영상과 문장 또는 음성을 표현하는 표현 모듈을 포함하는 것을 특징으로 한다.
바람직하게, 상기 DB구성 모듈은 추출된 특징 데이터와 인식을 위하여 참조되는 DB구성 모듈 내의 데이터 간의 거리 측정을 하고, 그 거리측정 결과로 그 근접구조가 유지되면, 특징 데이터을 기 구축된 지표 데이터 집합을 이용하여 감정표현 집합 또는 감정표현 카테고리를 분류하는 것을 특징으로 한다.
필요에 따라, 상기 DB구성 모듈은 commute-time metric 함수를 이용하여 거리를 측정하는 것을 특징으로 한다.
바람직하게, 상기 DB구성 모듈은 기 정의된 특징 영상과 특징 단어의 집합들을 대상으로 동시분할법(co-clusering) 또는 이분그래프 분할법(bipartite graph partitioning)을 이용하여 상기 지표 데이터 집합을 구축하는 것을 특징으로 한다.
바람직하게, 상기 DB구성 모듈은 기 정의된 특징 영상과 특징 단어의 집합들을 대상으로 상기 동시분할법 또는 상기 이분그래프 분할법을 이용해 유사한 것끼리 하나의 그룹으로 그룹핑하여 상기 지표 데이터 집합을 구축하는 것을 특징으로 한다.
바람직하게, 상기 DB구성 모듈은 상기 감정표현 카테고리를 기반으로 단어로부터 영상에 대한 특징 데이터를 생성하거나 영상으로부터 단어들에 대한 특징 데이터를 생성하는 것을 특징으로 한다.
필요에 따라, 상기 표현 모듈은 자연스러운 영상 합성을 위하여 표정 워핑(wraphing)을 수행하는데, 영상 전체를 대상으로 하지 않고 지역적인 워핑으로 표정 워핑을 수행하는 것을 특징으로 한다.
필요에 따라, 상기 표현 모듈은 표현하는 가상 휴면의 감정표현에 대한 사용자의 능동적인 반응을 입력받고 입력받은 반응 정보를 상기 DB구성 모듈로 피드백하는 자가학습 모듈을 포함하는 것을 특징으로 한다.
본 발명의 다른 한 관점에 따른 이질적 정보를 이용하여 가상 휴먼의 표정을 제어하기 위한 방법은 (a) 입력된 영상 데이터와 문장 또는 음성 데이터로부터 특징 데이터를 추출하는 단계; (b) 추출된 상기 특징 데이터를 이질적 데이터를 대상으로 기 구축된 지표 데이터 집합을 이용하여 감정표현 집합 또는 감정표현 카테고리를 분류하는 단계; 및 (c) 분류된 상기 감정표현 카테고리에 따라 가상 휴먼의 영상과 문장 또는 음성을 표현하는 단계를 포함하는 것을 특징으로 한다.
바람직하게, 상기 (b) 단계는 추출된 특징 데이터와 인식을 위하여 참조되는 DB구성 모듈 내의 데이터 간의 거리 측정을 하고, 그 거리측정 결과로 그 근접구조가 유지되면, 특징 데이터을 기 구축된 지표 데이터 집합을 이용하여 감정표현 집합 또는 감정표현 카테고리를 분류하는 것을 특징으로 한다.
필요에 따라, 상기 (b) 단계는 commute-time metric 함수를 이용하여 거리를 측정하는 것을 특징으로 한다.
바람직하게, 상기 (b) 단계는 기 정의된 특징 영상과 특징 단어의 집합들을 대상으로 동시분할법(co-clusering) 또는 이분그래프 분할법(bipartite graph partitioning)을 이용하여 지표 데이터 집합을 구축하는 것을 특징으로 한다.
바람직하게, 상기 (b) 단계는 기 정의된 특징 영상과 특징 단어의 집합들을 대상으로 동시분할법 또는 이분그래프 분할법을 이용해 유사한 것끼리 하나의 그룹으로 그룹핑하여 지표 데이터 집합을 구축하는 것을 특징으로 한다.
필요에 따라, 상기 (b) 단계는 상기 감정표현 카테고리를 기반으로 단어로부터 영상에 대한 특징 데이터를 생성하거나 영상으로부터 단어들에 대한 특징 데이터를 생성하는 것을 특징으로 한다.
필요에 따라, 상기 (c) 단계는 자연스러운 영상 합성을 위하여 표정 워핑(wraphing)을 수행하는데, 영상 전체를 대상으로 하지 않고 지역적인 워핑으로 표정 워핑을 수행하는 것을 특징으로 한다.
이를 통해, 본 발명은 제한적인 표현을 갖는 영상 데이터와 문장 또는 음성 데이터를 이용하되, 영상 데이터와 문장 또는 음성 데이터에 대한 특징 데이터들끼리의 상호관계 그래프를 통해 그룹핑한 DB를 이용하여 가상 휴먼의 표정을 제어함으로써, 섬세한 감정표현이 가능할 수 있는 효과가 있다.
또한, 본 발명은 영상 데이터와 문장 또는 음성 데이터를 이용하여 섬세한 감정 표현이 가능하기 때문에, 감정분류에 대한 인식률을 높일 수 있는 효과가 있다.
도 1은 본 발명의 실시예에 따른 가상 휴먼의 표정을 제어하기 위한 장치를 나타내는 예시도이다.
도 2는 본 발명의 실시예에 따른 데이터 임베딩을 설명하기 위한 예시도이다.
도 3은 본 발명의 실시예에 따른 특징 영상과 특징 단어의 집합을 나타내는 예시도이다.
도 4는 본 발명의 실시예에 따른 특징 영상과 특징 단어의 동시 그룹핑을 나타내는 예시도이다.
도 5는 본 발명의 실시예에 따른 가상 휴먼의 표정을 제어하는 방법을 나타내는 예시도이다.
도 2는 본 발명의 실시예에 따른 데이터 임베딩을 설명하기 위한 예시도이다.
도 3은 본 발명의 실시예에 따른 특징 영상과 특징 단어의 집합을 나타내는 예시도이다.
도 4는 본 발명의 실시예에 따른 특징 영상과 특징 단어의 동시 그룹핑을 나타내는 예시도이다.
도 5는 본 발명의 실시예에 따른 가상 휴먼의 표정을 제어하는 방법을 나타내는 예시도이다.
이하에서는, 본 발명의 실시예에 따른 이질적 정보를 이용하여 가상 휴먼의 표정을 제어하기 위한 장치 및 그 방법을 첨부한 도 1 내지 도 5를 참조하여 설명한다. 본 발명에 따른 동작 및 작용을 이해하는데 필요한 부분을 중심으로 상세히 설명한다.
본 발명은 제한적인 표현을 갖는 영상 데이터와 문장 또는 음성 데이터를 이용하되, 영상 데이터와 문장 또는 음성 데이터에 대한 특징 데이터들끼리의 상호관계 그래프를 통해 그룹핑한 DB를 이용하여 가상 휴먼의 표정을 제어함으로써 가상 휴먼의 표정을 섬세하게 표현할 수 있는 방안을 제안한다. 즉, 본 발명은 영상 데이터와 문자 또는 음성 데이터를 함께 이용하여, 영상 데이터로부터 애매모호한 정보를 문자 또는 음성 데이터로 보완하거나 문자 또는 음성 데이터로부터 애매모호한 정보를 영상 데이터로 보완하고자 한다.
도 1은 본 발명의 실시예에 따른 가상 휴먼의 표정을 제어하기 위한 장치를 나타내는 예시도이다.
도 1에 도시한 바와 같이, 본 발명에 따른 가상 휴먼의 표정을 제어하기 위한 장치는 입력 모듈(input module)(110), 추출 모듈(extration module)(120), 검색(retrieval module) 모듈(130), DB 구축모듈(DB construction module)(140), 인식 모듈(recognition module)(150), 표현 모듈(viewing module)(160), 및 자가학습 모듈(self-evaluation module)(160a) 등을 포함하여 구성될 수 있다.
입력 모듈(110)은 사용자로부터 영상 데이터와 문자 또는 음성 데이터를 입력받고, 추출 모듈(120)은 입력된 영상 데이터와 문장 또는 음성 데이터로부터 특징 데이터를 추출한다. 여기서, 특징 데이터는 어떠한 조건에서도 불변하는 정보를 갖는 데이터를 의미한다.
예컨대, 추출 모듈(110)은 얼굴표정을 인식할 수 있는 특징 데이터로서 영상 데이터로부터 눈썹 모양, 입 모양 등의 위치좌표 값이나 문장 또는 음성 데이터로부터 특정 단어 등을 추출한다.
검색 모듈(130)은 추출된 특징 데이터에 대한 감정표현의 분류를 DB구성 모듈(140)에 요청한다.
DB구성 모듈(140)은 질의(query)로 주어지는 데이터와 인식을 위하여 참조되는 DB 내의 데이터 간의 거리 측정을 하는데, metric 공간 뿐만 아니라 non-metric 공간에서 포인트들간의 근접 구조를 유지할 수 있는 측정함수를 이용하여 데이터 임베딩을 한다.
도 2는 본 발명의 실시예에 따른 데이터 임베딩을 설명하기 위한 예시도이다.
도 2에 도시한 바와 같이, 본 발명에 따른 데이터 임베딩은 데이터 차원을 줄이는 효과적인 방법으로 여러 커널 함수를 이용하는 방법들이 있는데, 이러한 방법들은 특정 공간에서만 그 근접구조가 유지되고 다른 공간에서는 그 관계가 성립되지 않는다.
그래서 본 발명에서는 metric 공간과 non-metric 공간 모두에서 근접구조가 유지되는 일반적인 임베딩 커널 함수를 이용한다. 특히, 주변의 잡음 데이터로 인해 임베딩 좌표가 불안정되는 경향 등을 해결할 수 있도록 거리측정 함수로서 commute-time metric 함수를 이용한다.
DB구성 모듈(140)은 그 거리측정 결과로 그 근접구조가 유지되면, 특징 데이터을 기 구축된 지표 데이터 집합을 이용하여 감정표현 집합 또는 감정표현 카테고리를 분류한다.
이때, DB구성 모듈(140)은 임의의 데이터 인식을 위해 비교될 지표 데이터 집합들을 구축한다. DB구성 모듈(140)은 사용자로부터 입력된 영상 데이터와 문장 데이터에 대한 얼굴표정 카테고리에 특징 영상과 표정묘사에 주로 사용되는 특정 단어들 간의 관계를 구조적으로 적립 및 구축하게 된다. 이를 도 3 내지 도 4를 참조하여 설명한다.
먼저, 다양한 감정표현에 따라 영상 데이터와 문장 데이터의 집합을 정의한다. 도 3은 본 발명의 실시예에 따른 특징 영상과 특징 단어의 집합을 나타내는 예시도이다.
도 3에 도시한 바와 같이, 본 발명에 따른 DB구성 모듈(140)은 감정표현을 무표정(blank), 행복(happiness), 슬픔(sadness), 놀람(surprise), 두려움(fear), 및 혐오(disgust) 등의 6가지로 정의하고 있다.
예컨대, 그림 (a)에서는 앞의 6가지로 정의된 감정표현을 묘사한 얼굴표정에 대한다양한 특징 영상의 집합 즉, 하나의 감정표현에 대한 다양한 얼굴표정들을 정의하고 있고, 그림 (b)에서는 6가지로 정의된 감정표현을 묘사한 단어들에 대한 다양한 특징 단어 즉, 하나의 감정표현에 대한 다양한 단어들의 집합을 정의하고 있다.
이렇게 정의된 특징 영상과 특징 단어의 집합들을 대상으로 동시분할법(co-clusering) 또는 이분그래프 분할법(bipartite graph partitioning)을 이용하여 그룹핑한다.
여기서, 동시 분할법은 교사학습법(supervised learning), 비교사학습법(unsupervised learning), 준교사학습법(semi-supervised learning)으로 구분된다. 그 중 비교사학습법은 데이터에 대한 사전정보없이 주어진 데이터 집합들이 사용자에 의해 정의된 임의의 유사도 또는 근접도의 측정 기준 또는 모델에 따라 가까운 것 또는 성질이 유사한 것끼리 동시 그룹핑하는데, 대부분 동질 데이터를 대상으로 한다.
그리고 이분그래프 분할법은 이질적인 데이터를 대상으로 동시 그룹핑을 한다.
도 4는 본 발명의 실시예에 따른 특징 영상과 특징 단어의 동시 그룹핑을 나타내는 예시도이다.
도 4에 도시한 바와 같이, 본 발명에 따른 DB구성 모듈(140)은 도 3에서 정의된 특징 영상과 특징 단어들의 집합을 동시분할법 또는 이분그래프 분할법을 이용하여 지표 데이터 DB를 구축한다.
즉, DB구성 모듈(140)은 특징 영상과 특징 단어에 대한 연결고리 역할을 하는 의미있는 관계 그래프, 즉, 이질적 데이터들에 대한 유사도 연결 그래프를 구축한다. 예컨대, 도면에서 행복(happy)라는 감정표현의 경우에 image 1과 word 1이 연결되어 있고 image 2와 word 1이 연결되어 있어 동일한 감정표현에서 동일한 단어라도 서로 다른 이미지를 또는 동일한 이미지라도 서로 다른 단어를 연결할 수 있다.
또한, DB구성 모듈(140)은 추가적인 데이터를 포함하는 경우에, 특징 영상 또는 특징 단어 중 하나의 입력만으로도 서로 이질적인 두 데이터를 모두 학습반영하는 것이 가능하다. 즉, DB구성 모듈(140)은 단어로부터 영상에 대한 특징 데이터를 생성하거나 영상으로부터 단어들에 대한 특징 데이터를 생성하는 것이 가능하다.
이렇게 이질적 데이터들을 대상으로 DB를 구축함으로써, 본 발명은 임의의 입력 데이터에 대한 감정분류 시에 위에서 언급한 이질적 특징 데이터들에 대한 상호보완 관계를 이용하여 적은 계산량 즉, 저차원의 데이터로도 정확도 높은 인식율을 보장한다.
인식 모듈(150)은 특징 데이터가 분류된 감정표현 카테고리를 통지받고, 표현 모듈(160)은 감정표현 카테고리에 따라 가상 휴먼의 영상 데이터와 문장 또는 음성 데이터를 출력한다.
표현 모듈(160)은 자연스러운 영상 합성을 위하여 얼굴표정 워핑(wraphing)을 하는데, 영상 전체를 대상으로 하지 않고 지역적인 워핑으로 표정 워핑을 수행한다. 즉, 얼굴의 입, 코, 눈과 같은 특정 부위에 대해서 원본 영상과 대상 영상들 간의 대응매칭을 통해 영상의 공간변화를 수행한다.
이때, 표현 모듈(160) 내에는 자가학습 모듈(160a)이 포함될 수 있는데, 자가학습 모듈(160a)은 출력되는 가상 휴면의 감정표현에 대한 사용자의 능동적인 반응을 입력받는다. 이러한 사용자로부터의 반응 정보는 다시 검색 모듈로 피드백된다.
이는 카메라 인식을 통한 상호작용 표현 및 자가학습 능력의 증진을 위해 필요하다. 다시 말해, 사용자와 가상휴먼 간, 가상휴먼들 간의 상호작용/반응 기술은 카메라를 이용하여 사용자의 시선/입/표정에 대한 특징점 추척, 인식을 위해 주어진 DB를 참조하여 수행한다. 그 카메라 기반의 영상 인식과정과 인식결과에 대한 사용자 피드백 학습을 통해 서로간 자연스러운 상호작용 및 반응을 표현한다. 또한, 가상휴먼 간에도 서로 간의 상황 및 표정 정보가 주어지는 상황이므로, 사용자와의 상호작용 표현 방법과 같이 자연스러운 작용/반응 표현을 묘사하도록 할 수 있다.
도 5는 본 발명의 실시예에 따른 가상 휴먼의 표정을 제어하는 방법을 나타내는 예시도이다.
도 5에 도시한 바와 같이, 본 발명에 따른 가상 휴먼의 표정 제어 장치는 사용자로부터 영상 데이터와 문자 또는 음성 데이터를 입력받고(S510), 입력된 영상 데이터와 문장 또는 음성 데이터로부터 특징 데이터를 추출한다(S520).
다음으로, 가상 휴먼의 표정 제어 장치는 추출된 특징 데이터와 인식을 위하여 참조되는 DB 내의 데이터 간의 거리 측정을 하고(S530), 그 거리측정 결과로 특징 데이터 간의 근접구조가 유지되는지 즉, 유사도가 일정 범위 내에서 유지되는지를 확인하게 된다(S540).
가상 휴먼의 표정 제어 장치는 근접구조가 유지되면, 특징 데이터를 기 구축된 지표 데이터 집합을 이용하여 감정표현 집합 또는 감정표현 카테고리를 분류한다(S550). 반면, 가상 휴먼의 표정 제어 장치는 근접구조가 유지되지 않으면 특징 데이터를 다시 추출하게 된다.
다음으로, 가상 휴먼의 표정 제어 장치는 감정표현 카테고리가 분류되면, 분류된 감정표현 카테고리에 따라 가상 휴먼의 영상 데이터와 문장 또는 음성 데이터를 출력하여 가상 휴먼의 표정을 제어한다(S560).
이처럼, 본 발명은 제한적인 표현을 갖는 영상 데이터와 문장 또는 음성 데이터를 이용하되, 영상 데이터와 문장 또는 음성 데이터에 대한 특징 데이터들끼리의 상호관계 그래프를 통해 그룹핑한 DB를 이용하여 가상 휴먼의 표정을 제어함으로써, 가상 휴먼의 섬세한 감정표현이 가능할 뿐 아니라, 이로 인해 감정분류에 대한 인식률을 높일 수 있다.
본 발명에 의한 이질적 정보를 이용하여 가상 휴먼의 표정을 제어하기 위한 장치 및 그 방법이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
110: 입력 모듈
120: 추출 모듈
130: 검색 모듈
140: DB구축 모듈
150: 인식 모듈
160: 표현 모듈
160a: 자체평가 모듈
120: 추출 모듈
130: 검색 모듈
140: DB구축 모듈
150: 인식 모듈
160: 표현 모듈
160a: 자체평가 모듈
Claims (15)
- 입력된 영상 데이터와 문장 또는 음성 데이터로부터 특징 데이터를 추출하는 추출 모듈;
추출된 상기 특징 데이터를 이질적 데이터를 대상으로 기 구축된 지표 데이터 집합을 이용하여 감정표현 집합 또는 감정표현 카테고리를 분류하는 DB구성 모듈;
분류된 상기 감정표현 카테고리를 전달하는 인식 모듈; 및
상기 감정표현 카테고리에 따라 가상 휴먼의 영상과 문장 또는 음성을 표현하는 표현 모듈
을 포함하는 것을 특징으로 하는 이질적 정보를 이용하여 가상 휴먼의 표정을 제어하기 위한 장치. - 제1 항에 있어서,
상기 DB구성 모듈은,
추출된 특징 데이터와 인식을 위하여 참조되는 DB구성 모듈 내의 데이터 간의 거리 측정을 하고, 그 거리측정 결과로 그 근접구조가 유지되면, 특징 데이터을 기 구축된 지표 데이터 집합을 이용하여 감정표현 집합 또는 감정표현 카테고리를 분류하는 것을 특징으로 하는 이질적 정보를 이용하여 가상 휴먼의 표정을 제어하기 위한 장치. - 제2 항에 있어서,
상기 DB구성 모듈은, commute-time metric 함수를 이용하여 거리를 측정하는 것을 특징으로 하는 이질적 정보를 이용하여 가상 휴먼의 표정을 제어하기 위한 장치. - 제1 항에 있어서,
상기 DB구성 모듈은, 기 정의된 특징 영상과 특징 단어의 집합들을 대상으로 동시분할법(co-clusering) 또는 이분그래프 분할법(bipartite graph partitioning)을 이용하여 상기 지표 데이터 집합을 구축하는 것을 특징으로 하는 이질적 정보를 이용하여 가상 휴먼의 표정을 제어하기 위한 장치. - 제4 항에 있어서,
상기 DB구성 모듈은, 기 정의된 특징 영상과 특징 단어의 집합들을 대상으로 동시분할법 또는 이분그래프 분할법을 이용해 유사한 것끼리 하나의 그룹으로 그룹핑하여 상기 지표 데이터 집합을 구축하는 것을 특징으로 하는 이질적 정보를 이용하여 가상 휴먼의 표정을 제어하기 위한 장치. - 제1 항에 있어서,
상기 DB구성 모듈은, 상기 감정표현 카테고리를 기반으로 단어로부터 영상에 대한 특징 데이터를 생성하거나 영상으로부터 단어들에 대한 특징 데이터를 생성하는 것을 특징으로 하는 이질적 정보를 이용하여 가상 휴먼의 표정을 제어하기 위한 장치. - 제1 항에 있어서,
상기 표현 모듈은, 자연스러운 영상 합성을 위하여 표정 워핑(wraphing)을 수행하는데, 영상 전체를 대상으로 하지 않고 지역적인 워핑으로 표정 워핑을 수행하는 것을 특징으로 하는 이질적 정보를 이용하여 가상 휴먼의 표정을 제어하기 위한 장치. - 제1 항에 있어서,
상기 표현 모듈은,
표현하는 가상 휴면의 감정표현에 대한 사용자의 능동적인 반응을 입력받고 입력받은 반응 정보를 상기 DB구성 모듈로 피드백하는 자가학습 모듈을 포함하는 것을 특징으로 하는 이질적 정보를 이용하여 가상 휴먼의 표정을 제어하기 위한 장치.
- (a) 입력된 영상 데이터와 문장 또는 음성 데이터로부터 특징 데이터를 추출하는 단계;
(b) 추출된 상기 특징 데이터를 이질적 데이터를 대상으로 기 구축된 지표 데이터 집합을 이용하여 감정표현 집합 또는 감정표현 카테고리를 분류하는 단계; 및
(c) 분류된 상기 감정표현 카테고리에 따라 가상 휴먼의 영상과 문장 또는 음성을 표현하는 단계
를 포함하는 것을 특징으로 하는 이질적 정보를 이용하여 가상 휴먼의 표정을 제어하기 위한 방법. - 제9 항에 있어서,
상기 (b) 단계는,
추출된 특징 데이터와 인식을 위하여 참조되는 DB구성 모듈 내의 데이터 간의 거리 측정을 하고, 그 거리측정 결과로 그 근접구조가 유지되면, 특징 데이터을 기 구축된 지표 데이터 집합을 이용하여 감정표현 집합 또는 감정표현 카테고리를 분류하는 것을 특징으로 하는 이질적 정보를 이용하여 가상 휴먼의 표정을 제어하기 위한 방법. - 제10 항에 있어서,
상기 (b) 단계는, commute-time metric 함수를 이용하여 거리를 측정하는 것을 특징으로 하는 이질적 정보를 이용하여 가상 휴먼의 표정을 제어하기 위한 방법. - 제9 항에 있어서,
상기 (b) 단계는, 기 정의된 특징 영상과 특징 단어의 집합들을 대상으로 동시분할법(co-clusering) 또는 이분그래프 분할법(bipartite graph partitioning)을 이용하여 지표 데이터 집합을 구축하는 것을 특징으로 하는 이질적 정보를 이용하여 가상 휴먼의 표정을 제어하기 위한 방법. - 제12 항에 있어서,
상기 (b) 단계는, 기 정의된 특징 영상과 특징 단어의 집합들을 대상으로 동시분할법 또는 이분그래프 분할법을 이용해 유사한 것끼리 하나의 그룹으로 그룹핑하여 지표 데이터 집합을 구축하는 것을 특징으로 하는 이질적 정보를 이용하여 가상 휴먼의 표정을 제어하기 위한 방법. - 제9 항에 있어서,
상기 (b) 단계는, 상기 감정표현 카테고리를 기반으로 단어로부터 영상에 대한 특징 데이터를 생성하거나 영상으로부터 단어들에 대한 특징 데이터를 생성하는 것을 특징으로 하는 이질적 정보를 이용하여 가상 휴먼의 표정을 제어하기 위한 방법. - 제9 항에 있어서,
상기 (c) 단계는, 자연스러운 영상 합성을 위하여 표정 워핑(wraphing)을 수행하는데, 영상 전체를 대상으로 하지 않고 지역적인 워핑으로 표정 워핑을 수행하는 것을 특징으로 하는 이질적 정보를 이용하여 가상 휴먼의 표정을 제어하기 위한 방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100125844A KR20120064563A (ko) | 2010-12-09 | 2010-12-09 | 이질적 정보를 이용하여 가상 휴먼의 표정을 제어하기 위한 장치 및 그 방법 |
US13/213,807 US20120148161A1 (en) | 2010-12-09 | 2011-08-19 | Apparatus for controlling facial expression of virtual human using heterogeneous data and method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100125844A KR20120064563A (ko) | 2010-12-09 | 2010-12-09 | 이질적 정보를 이용하여 가상 휴먼의 표정을 제어하기 위한 장치 및 그 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20120064563A true KR20120064563A (ko) | 2012-06-19 |
Family
ID=46199453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020100125844A KR20120064563A (ko) | 2010-12-09 | 2010-12-09 | 이질적 정보를 이용하여 가상 휴먼의 표정을 제어하기 위한 장치 및 그 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20120148161A1 (ko) |
KR (1) | KR20120064563A (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344720A (zh) * | 2018-09-04 | 2019-02-15 | 电子科技大学 | 一种基于自适应特征选择的情感状态检测方法 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102091848B1 (ko) | 2013-01-04 | 2020-03-20 | 삼성전자주식회사 | 전자 장치에서 사용자의 감정 정보를 제공하기 위한 장치 및 방법 |
RU2015148842A (ru) * | 2013-06-14 | 2017-07-19 | Интерконтинентал Грейт Брендс Ллк | Интерактивные видеоигры |
CN105797374A (zh) * | 2014-12-31 | 2016-07-27 | 深圳市亿思达科技集团有限公司 | 一种配合脸部表情跟随发出相应语音的方法和终端 |
CN105797375A (zh) * | 2014-12-31 | 2016-07-27 | 深圳市亿思达科技集团有限公司 | 一种跟随用户脸部表情改变角色模型表情的方法和终端 |
CN107766785B (zh) * | 2017-01-25 | 2022-04-29 | 丁贤根 | 一种面部识别方法 |
KR102577472B1 (ko) | 2018-03-20 | 2023-09-12 | 한국전자통신연구원 | 동작 인식을 위한 가상 학습 데이터를 생성하는 방법 및 장치 |
CN110569355B (zh) * | 2019-07-24 | 2022-05-03 | 中国科学院信息工程研究所 | 一种基于词块的观点目标抽取和目标情感分类联合方法及系统 |
CN111314760B (zh) * | 2020-01-19 | 2021-07-02 | 深圳市爱深盈通信息技术有限公司 | 电视机及其笑脸拍摄方法 |
CN111402640A (zh) * | 2020-03-04 | 2020-07-10 | 香港生产力促进局 | 一种儿童教育机器人及其学习资料推送方法 |
CN112364831B (zh) * | 2020-11-30 | 2022-02-25 | 北京智慧荣升科技有限公司 | 人脸识别方法及在线教育系统 |
USD969216S1 (en) * | 2021-08-25 | 2022-11-08 | Rebecca Hadley | Educational poster |
CN116662554B (zh) * | 2023-07-26 | 2023-11-14 | 之江实验室 | 基于异构图卷积神经网络的传染病方面级情感分类方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2918499B2 (ja) * | 1996-09-17 | 1999-07-12 | 株式会社エイ・ティ・アール人間情報通信研究所 | 顔画像情報変換方法および顔画像情報変換装置 |
SG87837A1 (en) * | 1998-10-08 | 2002-04-16 | Sony Computer Entertainment Inc | Portable toy, portable information terminal, intertainment system, and recording medium |
US20040128350A1 (en) * | 2002-03-25 | 2004-07-01 | Lou Topfl | Methods and systems for real-time virtual conferencing |
US7697960B2 (en) * | 2004-04-23 | 2010-04-13 | Samsung Electronics Co., Ltd. | Method for displaying status information on a mobile terminal |
US20060128263A1 (en) * | 2004-12-09 | 2006-06-15 | Baird John C | Computerized assessment system and method for assessing opinions or feelings |
KR100678209B1 (ko) * | 2005-07-08 | 2007-02-02 | 삼성전자주식회사 | 휴대단말기의 이미지 제어방법 |
KR101558553B1 (ko) * | 2009-02-18 | 2015-10-08 | 삼성전자 주식회사 | 아바타 얼굴 표정 제어장치 |
-
2010
- 2010-12-09 KR KR1020100125844A patent/KR20120064563A/ko not_active Application Discontinuation
-
2011
- 2011-08-19 US US13/213,807 patent/US20120148161A1/en not_active Abandoned
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344720A (zh) * | 2018-09-04 | 2019-02-15 | 电子科技大学 | 一种基于自适应特征选择的情感状态检测方法 |
Also Published As
Publication number | Publication date |
---|---|
US20120148161A1 (en) | 2012-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20120064563A (ko) | 이질적 정보를 이용하여 가상 휴먼의 표정을 제어하기 위한 장치 및 그 방법 | |
Poria et al. | A review of affective computing: From unimodal analysis to multimodal fusion | |
Marechal et al. | Survey on AI-Based Multimodal Methods for Emotion Detection. | |
KR102333505B1 (ko) | 소셜 대화형 입력들에 대한 컴퓨터 응답 생성 | |
Poria et al. | Ensemble application of convolutional neural networks and multiple kernel learning for multimodal sentiment analysis | |
Latif et al. | Variational autoencoders for learning latent representations of speech emotion: A preliminary study | |
US10733381B2 (en) | Natural language processing apparatus, natural language processing method, and recording medium for deducing semantic content of natural language elements based on sign language motion | |
Wu et al. | Survey on audiovisual emotion recognition: databases, features, and data fusion strategies | |
US9875445B2 (en) | Dynamic hybrid models for multimodal analysis | |
Zhang et al. | Intelligent facial emotion recognition and semantic-based topic detection for a humanoid robot | |
Abdullahi et al. | American sign language words recognition using spatio-temporal prosodic and angle features: A sequential learning approach | |
Sharma et al. | A survey on automatic multimodal emotion recognition in the wild | |
KR20190094315A (ko) | 스타일을 고려하여 텍스트와 음성을 상호 변환하는 인공 지능 장치 및 그 방법 | |
Gharavian et al. | Audio-visual emotion recognition using FCBF feature selection method and particle swarm optimization for fuzzy ARTMAP neural networks | |
van der Maaten et al. | Action unit classification using active appearance models and conditional random fields | |
Gaus et al. | Social touch gesture recognition using random forest and boosting on distinct feature sets | |
Basori | Emotion walking for humanoid avatars using brain signals | |
Karatay et al. | CNN-Transformer based emotion classification from facial expressions and body gestures | |
Dewan et al. | Laban movement analysis to classify emotions from motion | |
Agrawal et al. | Multimodal personality recognition using cross-attention transformer and behaviour encoding | |
Barros et al. | Adapting the interplay between personalized and generalized affect recognition based on an unsupervised neural framework | |
Schuller | Multimodal user state and trait recognition: An overview | |
Pérez-Espinosa et al. | Emotion recognition: from speech and facial expressions | |
Li et al. | AI-based visual speech recognition towards realistic avatars and lip-reading applications in the metaverse | |
Schuller | Acquisition of affect |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WITN | Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid |