KR102564570B1

KR102564570B1 - 멀티모달 감성 분석 시스템 및 방법

Info

Publication number: KR102564570B1
Application number: KR1020200148920A
Authority: KR
Inventors: 이혜영
Original assignee: 주식회사 스피랩
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2023-08-07
Anticipated expiration: 2040-11-09
Also published as: KR20220063816A

Abstract

본 발명은 멀티모달 감성 분석 시스템 및 방법에 관한 것으로서, 본 발명에 따른 멀티모달 감성 분석 시스템은 사용자 동영상을 입력받는 동영상 입력부; 상기 사용자 동영상에서 추출된 사용자 얼굴 이미지의 감성을 분석하는 이미지 감성 분석부; 상기 사용자 동영상에서 추출된 사용자 음성의 감성을 분석하는 음성 감성 분석부; 상기 사용자 동영상에서 추출된 텍스트의 감성을 분석하는 텍스트 감성 분석부; 및 상기 이미지 감성 분석부에서 산출된 이미지 감성 특징, 상기 음성 감성 분석부에서 산출된 음성 감성 특징 및 상기 텍스트 감성 특징을 조합한 조합 특징을 분석하는 앙상블 감성 분석부;를 포함하는 것을 특징으로 한다.
이에 따라, 얼굴 이미지, 음성 및 텍스트의 감성을 모두 고려하여 감성을 정확하게 분석하는 것이 가능하다.

Description

멀티모달 감성 분석 시스템 및 방법{System and method for analyzing multimodal emotion}

본 발명은 멀티모달 감성 분석 시스템 및 방법에 관한 것으로서, 보다 상세하게는 얼굴 이미지, 음성 및 텍스트의 감성을 모두 고려하여 감성을 정확하게 분석하는 것이 가능한 멀티모달 감성 분석 시스템 및 방법에 관한 것이다.

장수(長壽)는 인간의 소망이기도 하지만, 질병, 빈곤, 고독 등은 장수의 일면이기도 하다.

이러한 문제의 해결을 위해서는 문제를 파악하는 과정이 우선되어야 하는데, 질병, 빈곤은 정량적인 방식을 통해 비교적 쉽게 파악이 가능하였지만 고독과 같이 감정과 관련된 문제는 정량적인 방식으로 파악하는 것이 쉽지 않았다.

그러나 최근에 들어서는 인공지능을 통해 인간의 감정·감성을 파악하는 방법이 많이 개발되고 있다.

인간은 표정, 행동, 말 등을 통해 감정을 표현하며, 따라서 인공지능을 통해 인간의 감정을 파악할 때에는 표정, 행동, 말 등을 분석한다.

그런데 사람은 표정, 행동, 말 각각에서 명시적으로는 서로 상반된 감정 등을 표현하기도 하므로, 어느 하나의 감정 표현 수단만을 분석하면 감정 파악의 정확성이 떨어질 수 있다.

KR

10-2018-0057970

A

따라서, 본 발명의 목적은 이와 같은 종래의 문제점을 해결하기 위한 것으로서, 얼굴 이미지, 음성 및 텍스트의 감성을 모두 고려하여 감성을 정확하게 분석하는 것이 가능한 멀티모달 감성 분석 시스템 및 방법을 제공함에 있다.

본 발명이 해결하고자 하는 과제는 위에서 언급한 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기 목적은, 본 발명에 따라, 사용자 동영상을 입력받는 동영상 입력부; 상기 사용자 동영상에서 추출된 사용자 얼굴 이미지의 감성을 분석하는 이미지 감성 분석부; 상기 사용자 동영상에서 추출된 사용자 음성의 감성을 분석하는 음성 감성 분석부; 상기 사용자 동영상에서 추출된 텍스트의 감성을 분석하는 텍스트 감성 분석부; 및 상기 이미지 감성 분석부에서 산출된 이미지 감성 특징, 상기 음성 감성 분석부에서 산출된 음성 감성 특징, 및 상기 텍스트 감성 분석부에서 산출된 텍스트 감성 특징을 조합한 조합 특징을 분석하는 앙상블 감성 분석부;를 포함하는 멀티모달 감성 분석 시스템에 의해 달성된다.

상기 이미지 감성 분석부는, 서로 다른 이미지 분석 모델이 적용된 다수 개의 서브 이미지 감성 분석부와 상기 서브 이미지 감성 분석부 각각에서 산출된 서브 이미지 감성 특징을 조합하는 이미지 감성 특징 조합부를 구비하고, 상기 음성 감성 분석부는, 서로 다른 음성 분석 모델이 적용된 다수 개의 서브 음성 감성 분석부와 상기 서브 음성 감성 분석부 각각에서 산출된 서브 음성 감성 특징을 조합하는 음성 감성 특징 조합부를 구비하며, 상기 텍스트 감성 분석부는, 서로 다른 텍스트 분석 모델이 적용된 다수 개의 서브 텍스트 감성 분석부와 상기 서브 텍스트 감성 분석부 각각에서 산출된 서브 텍스트 감성 특징을 조합하는 텍스트 감성 특징 조합부를 구비할 수 있다.

상기 이미지 분석 모델은, VGG, ResNet, 및 Inception일 수 있다.

상기 음성 분석 모델은, SVM, 및 CNN과 RNN의 결합 모델일 수 있다.

본 발명에 의한 멀티모달 감성 분석 시스템은, 이미지의 감성별 특징이 저장되어 상기 이미지 감성 분석부에서의 분석 기준을 제공하는 이미지 감성 모델부, 음성의 감성별 특징이 저장되어 상기 음성 감성 분석부에서의 분석 기준을 제공하는 음성 감성 모델부, 및 텍스트의 감성별 특징이 저장되어 상기 텍스트 감성 분석부에서의 분석 기준을 제공하는 텍스트 감성 모델부를 더 구비할 수 있다.

본 발명에 의한 멀티모달 감성 분석 시스템은, 감성별 조합 특징이 저장되어 상기 앙상블 감성 분석부에서의 분석 기준을 제공하는 앙상블 감성 모델부를 더 구비할 수 있다.

상기 앙상블 감성 분석부는, LSTM을 이용하여 조합 특징을 분석할 수 있다.

본 발명의 또 다른 실시예에 의하면, 사용자 동영상을 입력받는 동영상 입력단계; 상기 사용자 동영상에서 추출된 사용자 얼굴 이미지, 사용자 음성 및 텍스트 각각의 감성을 분석하는 감성 분석단계; 및 상기 감성 분석 단계에서 산출된 이미지 감성 특징, 음성 감성 특징 및 텍스트 감성 특징을 조합한 조합 특징을 분석하는 앙상블 감성 분석단계;를 포함하는 멀티모달 감성 분석 방법이 제공된다.

상기 감성 분석단계는, 상기 사용자 얼굴 이미지를 서로 다른 다수의 분석 모델을 통해 분석하여 다수의 서브 이미지 감성 특징을 산출하고, 상기 사용자 음성을 서로 다른 다수의 분석 모델을 통해 분석하여 다수의 서브 음성 감성 특징을 산출하며, 상기 텍스트 각각을 서로 다른 다수의 분석 모델을 통해 분석하여 다수의 서브 텍스트 감성 특징을 산출하는 서브 감성 분석단계; 및 상기 서브 감성 분석단계에서 산출된 상기 서브 이미지 감성 특징, 상기 서브 음성 감성 특징 및 상기 텍스트 감성 특징을 사용자 얼굴 이미지, 사용자 음성 및 텍스트별로 조합하는 감성 특징 조합단계;를 포함할 수 있다.

본 발명에 의한 멀티모달 감성 분석 시스템에 의하면, 사용자의 동영상에서 사용자의 얼굴, 음성 및 텍스트를 함께 고려하여 사용자의 감성 상태를 정확하게 파악하는 것이 가능하다.

그리고 이미지 감성 특징, 음성 감성 특징 및 텍스트 감성 특징을 조합한 조합 특징을 분석하기 때문에, 감성 분석의 결과의 정확성을 보다 높여줄 수 있다.

사용자 얼굴 이미지, 사용자 음성 및 텍스트의 감성 각각을 서로 다른 다수의 분석 모델을 통해 분석한 후 산출된 서브 감성 특징들을 조합하여 분석함으로써, 이미지 감성, 음성 감성 및 텍스트 각각의 감성 분석 결과를 정확하게 할 수 있다.

도 1은 본 발명에 의한 멀티모달 감성 분석 시스템의 개략적인 구성도,
도 2는 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 이미지 감성 모델부에 관한 설명도,
도 3은 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 음성 감성 모델부에 관한 설명도,
도 4는 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 텍스트 감성 모델부에 관한 설명도,
도 5는 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 앙상블 감성 모델부에 관한 설명도,
도 6은 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 이미지 감성 분석부에 관한 설명도,
도 7은 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 음성 감성 분석부에 관한 설명도,
도 8은 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 텍스트 감성 분석부에 관한 설명도,
도 9는 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 앙상블 감성 분석부에 관한 설명도,
도 10은 본 발명에 의한 멀티모달 감성 분석 방법의 순서도이다.

이하에서는 본 발명의 구체적인 실시예에 대하여 도면을 참고하여 자세하게 설명하도록 한다.

도 1에는 본 발명에 의한 멀티모달 감성 분석 시스템(1)의 개략적인 구성도가 도시되어 있다.

본 발명에 의한 멀티모달 감성 분석 시스템(1)은 동영상 입력부(10), 이미지 감성 분석부(20), 음성 감성 분석부(30), 텍스트 감성 분석부(40) 및 앙상블 감성 분석부(50)를 포함하여 이루어진다.

동영상 입력부(10)에서는 사용자의 휴대폰이나 컴퓨터 등에서 사용자의 얼굴 이미지와 음성이 포함된 사용자 동영상을 입력받는다. 사용자 동영상에서는 사용자 얼굴 이미지, 사용자 음성 및 텍스트가 각각 추출된다. 텍스트는 사용자 음성에 STT(Speech to text) 알고리즘을 적용하여 추출할 수 있다.

이미지 감성 분석부(20)에서는 사용자 얼굴 이미지의 감성을 분석한다. 이미지 감성 분석부(20)에서는 예를 들어, 눈의 깜빡임, 입 모양 및 얼굴 길이 등의 특징을 통해 사용자 얼굴 이미지의 감성을 분석할 수 있다.

음성 감성 분석부(30)에서는 사용자 음성의 감성을 분석한다. 음성 감성 분석부(30)에서는 예를 들어, 사용자 음성의 피치, 에너지, 에너지의 엔트로피(entropy of energy), 제로 크로싱 율(zero crossing rate), 스펙트로그램(spectrogram), 로그-멜-스펙트로그램(log-mel-spectrogram) 및 주파수 등의 음향적 특성을 통해 사용자 음성의 감성을 분석할 수 있다.

텍스트 감성 분석부(40)에서는 텍스트의 의미적 특징을 통해 사용자 텍스트의 감성을 분석한다.

앙상블 감성 분석부(50)에서는 이미지 감성 분석부(20)에서 산출된 이미지 감성 특징, 음성 감성 분석부(30)에서 산출된 음성 감성 특징, 및 텍스트 감성 분석부(40)에서 산출된 텍스트 감성 특징을 조합한 조합 특징을 분석한다.

조합 특징은 예를 들어, 이미지 감성 특징, 음성 감성 특징 및 텍스트 감성 특징에서 산출된 감성의 확률을 감성별로 평균하는 방법으로 분석될 수도 있고, 각 감성 특징의 감성 결과들 중 과반을 넘은 감성 결과를 산출하는 방법 등으로 분석될 수도 있다.

이러한 본 발명에 의한 멀티모달 감성 분석 시스템(1)에 의하면, 사용자 동영상에서 사용자의 얼굴, 음성 및 텍스트를 함께 고려하여 감성 상태를 정확하게 파악하는 것이 가능하다.

그리고 이미지 감성 특징, 음성 감성 특징 및 텍스트 감성 특징을 조합한 조합 특징을 분석하기 때문에, 감성 분석 결과의 정확성을 보다 높여줄 수 있다.

본 발명에 의한 멀티모달 감성 분석 시스템(1)은 이미지 감성 모델부(60), 음성 감성 모델부(70) 및 텍스트 감성 모델부(80)를 포함할 수 있다.

이미지 감성 모델부(60)는 이미지의 감성별 특징이 저장되어 이미지 감성 분석부(20)에서의 분석 기준을 제공할 수 있다. 즉, 이미지 감성 분석부(20)는 이미지의 특징이 이미지 감성 모델부(60)에서 어느 감성에 대응되는지 찾음으로써 이미지 감성 결과를 도출할 수 있다.

도 2에 도시되어 있는 바와 같이, 이미지 감성 모델부(60)는 이미지 데이터부(61), 이미지 감성 모델 학습부(63) 및 이미지 감성 모델 저장부(64)를 포함할 수 있다.

이미지 데이터부(61)에는 감성이 라벨링된 다수의 이미지가 저장된다. 이미지 데이터는 드라마, 영화, 사용자가 촬영한 정지 영상 또는 동영상 파일로부터 얻어질 수 있으며, 해당 이미지 데이터가 어떤 감성과 관련되어 있는지에 대한 정보를 포함한다.

이미지 감성 모델 학습부(63)는 인공지능 알고리즘을 이용하여 이미지 데이터를 학습한다. 이에 따라, 이미지 데이터들이 감성별로 분류된다. 이미지 감성 모델 학습부(63)에서는 예를 들어, VGG, ResNet, 및 Inception 중 적어도 어느 하나의 인공지능 알고리즘을 이용하여 이미지 데이터를 학습할 수 있다.

이미지 데이터는 이미지 감성 모델 학습부(63)로 전송되기 전 이미지 전처리부(62)를 거칠 수 있다. 이미지 전처리부(62)에서는 예를 들어, 동영상에서의 정지 이미지 추출, 이미지에서 얼굴 부분 추출 및 이미지의 밝기 조절 등의 작업을 수행할 수 있다.

이미지 감성 모델 저장부(64)에는 이미지 감성 모델 학습부(63)에서 도출된 이미지 감성 모델이 저장된다. 이미지 감성 분석부(20)는 이미지 감성 모델 저장부(64)에 저장된 이미지 감성 모델을 참조하여 사용자 얼굴 이미지의 감성이 어떤 감성의 이미지와 유사한지 확인함으로써 이미지의 감성을 분석할 수 있다.

음성 감성 모델부(70)에는 음성의 감성별 특징이 저장되어 음성 감성 분석부(30)에서의 분석 기준을 제공한다. 즉, 음성 감성 분석부(30)는 음성의 음향적 특성이 음성 감성 모델부(70)에서 어느 감성에 대응되는지 찾음으로써 음성 감성 결과를 도출할 수 있다.

음성 감성 모델부(70)는 도 3에 도시되어 있는 바와 같이, 음성 데이터부(71), 음성 특징 벡터 추출부(73), 음성 감성 모델 학습부(74) 및 음성 감성 모델 저장부(75)를 포함하여 이루어질 수 있다.

음성 데이터부(71)에는 감성이 라벨링된 다수의 음성 데이터가 저장된다. 음성 데이터는 드라마, 영화 또는 사용자가 녹음한 음성 파일 등으로부터 얻어질 수 있으며, 해당 음성 데이터가 어떤 감성과 관련되어 있는지에 대한 정보를 포함한다.

음성 특징 벡터 추출부(73)는 음성 데이터의 음성 특징 벡터를 추출한다. 음성 특징 벡터 추출부(73)에서 추출되는 음성 특징 벡터에는 피치, 에너지, 에너지의 엔트로피, 제로 크로싱 율, 스펙트로그램, 로그-멜-스펙트로그램 및 주파수 등이 있을 수 있다. 음성 특징 벡터 추출부(73)는 예를 들어, MFCC(Mel Frequency Cpstral Coeffiecient)를 통해 음성 특징 벡터를 추출할 수 있다.

음성 데이터부(71)의 음성 데이터는 음성 전처리부(72)를 거친 후에 음성 특징 벡터 추출부(73)로 전송될 수 있다.

음성 전처리부(72)는 프리-엠퍼시스(pre-emphasis) 처리부, 프레이밍(framing) 처리부 및 해밍 윈도우(hamming window) 처리부를 구비할 수 있다. 프리-엠퍼시스 처리부에서는 프리-엠퍼시스 필터를 사용하여 음성 신호의 고역 주파수 성분을 강조하고, 프레이밍 처리부에서는 음성 신호를 일정한 간격으로 분할한다. 그리고 해밍 윈도우 처리부에서는 프레이밍 처리부에서 분할되어 형성된 음성 신호의 각 프레임에 해밍 윈도우 함수를 곱하여 각 프레임의 경계에서 불연속성을 최소화한다.

음성 감성 모델 학습부(74)에서는 인공지능 알고리즘을 이용하여 음성 특징 벡터 추출부(73)에서 추출된 음성 특징 벡터를 학습한다. 이에 따라, 음성 특징 벡터들이 감성별로 분류된다. 음성 감성 모델 학습부(74)는 예를 들어, SVM(Support Vector Machine) 모델, 및 CNN(Convolution Neural Network)과 RNN(Recurrent Neural Network)의 결합 모델 중 적어도 어느 하나를 통해 음성 특징 벡터를 학습할 수 있다.

음성 감성 모델 저장부(75)에는 음성 감성 모델 학습부(74)에서 도출된 음성 감성 모델이 저장된다. 음성 감성 분석부(30)는 음성 감성 모델 저장부(75)에 저장된 음성 감성 모델을 참조하여 사용자 음성의 감성이 어떤 감성의 음성 특징 벡터와 유사한지 확인함으로써 사용자 음성의 감성을 분석할 수 있다.

텍스트 감성 모델부(80)에는 텍스트의 감성별 특징이 저장되어 텍스트 감성 분석부(40)에서의 분석 기준을 제공한다. 즉, 텍스트 감성 분석부(40)는 텍스트의 특성이 텍스트 감성 모델부(80)에서 어느 감성에 대응되는지 찾음으로써 텍스트 감성 결과를 도출할 수 있다.

텍스트 감성 모델부(80)는 보다 구체적으로, 텍스트 데이터부(81), 텍스트 감성 모델 학습부(82) 및 텍스트 감성 모델 저장부(83)를 포함할 수 있다. 도 4에는 이러한 텍스트 감성 모델부(80)의 개략적인 구성도가 도시되어 있다.

텍스트 데이터부(81)에는 감성이 라벨링된 텍스트 데이터가 저장된다. 이러한 텍스트 데이터에는 NRC 감성 사전, KNU 한국어 감성사전 등의 데이터가 포함될 수 있다. 예를 들어, 텍스트 데이터부(81)에서 어휘들은 5가지 감성에 따라 구분될 수 있다.

텍스트 감성 모델 학습부(82)에서는 인공지능 알고리즘을 통해 텍스트 데이터부(81)의 감성별 텍스트 데이터를 학습한다. 이에 따라, 텍스트의 특징들이 감성별로 분로된다. 텍스트 감성 모델 학습부(82)는 예를 들어, BERT 또는 KoBERT를 통해 텍스트를 학습할 수 있다.

본 발명에 의한 멀티모달 감성 분석 시스템(1)은 앙상블 감성 모델부(90)를 더 구비할 수 있다. 도 5에는 이러한 앙상블 감성 모델부(90)에 관한 설명도가 도시되어 있다.

앙상블 감성 모델부(90)는 감성별 조합 특징이 저장되어 앙상블 감성 분석부(50)에서의 분석 기준을 제공하는 것으로서, 이미지 감성 모델부(60)의 이미지 감성 모델, 음성 감성 모델부(70)의 음성 감성 모델 및 텍스트 감성 모델부(80)의 텍스트 감성 모델을 조합하여 만들어질 수 있다.

이미지 감성 분석부(20)는 도 6에 도시되어 있는 바와 같이, 다수 개의 서브 이미지 감성 분석부(21)와 이미지 감성 특징 조합부(22)를 구비할 수 있다.

서브 이미지 감성 분석부(21) 각각은 서로 다른 이미지 분석 모델이 적용되어 사용자 얼굴 이미지를 분석한다.

이미지 분석 모델로는 예를 들어, VGG, ResNet, 및 Inception 중 적어도 2개가 사용될 수 있다. VGG는 3×3 필터를 사용하여 파라미터의 수는 줄일 수 있으면서도, 5×5 또는 7×7 필터를 사용하는 경우보다 우수한 성능을 발휘할 수 있다. ResNet은 스킵 컨넥션(skip connection) 부분을 추가하여, 기울기 소실(vanishing gradient) 문제를 해결할 수 있다. 그리고 Inception은 합성곱 신경망 사용시 어떠한 크기의 필터를 적용할지 또는 풀링(pooling)을 적용할지 선택하지 않고, 모두 적용하여 분석의 성능을 향상시킬 수 있다.

이미지 감성 특징 조합부(22)는 서브 이미지 감성 분석부(21) 각각에서 산출된 서브 이미지 감성 특징을 조합한다.

이렇게 여러 서브 이미지 감성 특징이 조합되어 만들어진 이미지 감성 특징은 여러 이미지 분석 모델의 장점을 가질 수 있기 때문에 이미지 감성 분석의 정확성을 높일 수 있다.

음성 감성 분석부(30)는 도 7에 도시되어 있는 바와 같이, 서브 음성 감성 분석부(31)와 음성 감성 특징 조합부(32)를 구비할 수 있다.

서브 음성 감성 분석부(31) 각각은 서로 다른 음성 분석 모델이 적용되어 사용자 음성을 분석한다.

음성 분석 모델로는 예를 들어, SVM, 및 CNN과 RNN의 결합 모델이 사용될 수 있다. SVM 모델을 사용하는 경우, 사용자 음성에서 깊은 감성까지 분석하는 것이 가능하다. CNN과 RNN의 결합 모델을 사용하면 사용자 음성의 전처리 과정이 거의 필요하지 않다.

음성 감성 특징 조합부(32)는 서브 음성 감성 분석부(31) 각각에서 산출된 서브 음성 감성 특징을 조합한다.

이렇게 여러 서브 음성 감성 특징이 조합되어 만들어진 음성 감성 특징은 여러 음성 분석 모델의 장점을 가질 수 있기 때문에 음성 감성 분석의 정확성을 높일 수 있다.

텍스트 감성 분석부(40)는 도 8에 도시되어 있는 바와 같이, 서브 텍스트 감성 분석부(41)와 텍스트 감성 특징 조합부(42)를 구비할 수 있다.

서브 텍스트 감성 분석부(41) 각각은 서로 다른 텍스트 감성 분석 모델이 적용되어 텍스트의 감성을 분석한다.

텍스트 감성 분석 모델로는 예를 들어, BERT, KoBERT가 사용될 수 있다. BERT는 언어에 대한 많은 정보를 담고 있기 때문에 텍스트 분석 결과가 정확하고, KoBERT는 BERT의 한국어 성능 한계를 극복하였기 때문에 특히 한국어로 이루어진 텍스트 분석의 결과가 정확하다.

참고로, KoBERT는 엠베딩은 BERT를 기반으로 하고 분류는 CNN을 기반으로 한다.

텍스트 감성 특징 조합부(42)는 서브 텍스트 감성 분석부(41) 각각에서 산출된 서브 텍스트 감성 특징을 조합한다.

이렇게 여러 서브 텍스트 감성 특징이 조합되어 만들어진 텍스트 감성 특징은 여러 텍스트 분석 모델의 장점을 가질 수 있기 때문에 텍스트 감성 분석의 정확성을 높일 수 있다.

앙상블 감성 분석부(50)는 LSTM(Long-Short Term Memory)을 이용하여 조합 특징을 분석한다.

LSTM은 은닉층의 메모리 셀에 입력 게이트, 망각 게이트, 출력 게이트를 추가하여 불필요한 기억을 지우고 기억해야할 것들을 정할 수 있어, 긴 시퀀스의 입력을 처리하는 데 유용하다.

따라서, 동영상에서 추출되어 여러 구간으로 이루어지는 사용자 얼굴 이미지, 사용자 음성 및 텍스트의 분석 성능을 높일 수 있다.

앙상블 감성 분석부(50)는 결과 확인부(51)와 조정부(52)를 구비할 수 있다. 도 9에는 이러한 앙상블 감성 분석부(50)에 관한 설명도가 도시되어 있다.

결과 확인부(51)는 조합 특징의 분석 결과가 예를 들어, 우세한 확률을 가지는 감성 결과가 도출되었는지의 여부를 확인한다. 그리고 우세한 확률을 가지는 감성 결과가 도출된 경우에는 그대로 최종 결과를 출력하고, 그렇지 않은 경우에는 조정부(52)가 동작하도록 한다.

조정부(52)는 우세한 확률을 가지는 감성 결과가 도출되지 않은 경우에 사용자의 감성을 도출하는 역할을 한다. 예를 들어, 조정부(52)는 사용자 동영상의 원 데이터를 의사결정 나무 알고리즘을 통해 분석한 후, 원 데이터의 분석 결과에 대한 이미지, 음성, 텍스트 각각의 영향도를 분석하고 영향도에 따라 각 감성 분석 모델에 상대적인 가중치를 부과할 수 있다. 그리고 가중치를 적용하였을 때 가장 높은 확률로 도출된 감성을 감성 분석의 최종 결과로서 출력할 수 있다. 의사결정 나무 알고리즘의 분리 기준에는 예를 들어, 음성 주파수의 크기, 음절의 길이 등이 포함될 수 있다.

이하에서는 본 발명에 의한 멀티모달 감성 분석 방법에 대하여 설명하도록 한다. 본 발명에 의한 멀티모달 감성 분석 방법에 대하여 설명하면서, 멀티 모달 분석 시스템(1)의 설명시 언급한 부분에 대해서는 자세한 설명을 생략할 수 있다.

도 10에는 본 발명에 의한 멀티모달 감성 분석 방법의 순서도가 도시되어 있다.

본 발명에 의한 멀티모달 감성 분석 방법은 동영상 입력단계(S10), 감성 분석단계(S20) 및 앙상블 감성 분석단계(S30)를 포함한다.

동영상 입력단계(S10)에서는 사용자의 동영상을 입력받는다. 사용자 동영상에서는 사용자 얼굴 이미지, 사용자 음성 및 텍스트가 각각 별도로 추출될 수 있다.

감성 분석단계(S20)에서는 사용자 동영상에서 추출된 사용자 얼굴 이미지, 사용자 음성 및 텍스트 각각의 감성을 분석한다. 사용자 얼굴 이미지에서는 예를 들어 눈의 깜빡임, 입 모양 및 얼굴 길이 등을 감지함으로써 감성을 분석할 수 있고, 사용자 음성에서는 예를 들어 음성의 피치, 에너지, 에너지 엔트로피, 제로 크로싱 율, 스펙트로그램, 로그-멜-스펙트로그램 및 주파수 등의 음향적 특성을 통해 감성을 분석할 수 있다. 그리고 텍스트는 의미를 파악함으로써 감성 분석이 진행될 수 있다.

앙상블 감성 분석단계(S30)에서는, 감성 분석 단계에서 산출된 이미지 감성 특징, 음성 감성 특징 및 텍스트 감성 특징을 조합한 조합 특징을 분석함으로써 최종적인 감성 분석의 결과를 도출한다.

조합 특징에는 이미지 감성 특징, 음성 감성 특징 및 텍스트 감성 특징이 모두 포함되어 있기 때문에, 이를 분석하면 보다 정확한 감성 분석의 결과를 얻을 수 있다.

감성 분석단계(S20)는 서브 감성 분석 단계와 감성 특징 조합단계(S22)를 포함할 수 있다.

서브 감성 분석단계(S21)에서는 사용자 얼굴 이미지를 서로 다른 다수의 분석 모델을 통해 분석하여 다수의 서브 이미지 감성 특징을 산출하고, 사용자 음성을 서로 다른 다수의 분석 모델을 통해 분석하여 다수의 서브 음성 감성 특징을 산출하며, 텍스트를 서로 다른 다수의 분석 모델을 통해 분석하여 다수의 서브 텍스트 감성 특징을 산출한다.

그리고 감성 특징 조합단계(S22)에서는, 서브 감성 분석 단계에서 산출된 서브 이미지 감성 특징, 서브 음성 감성 특징 및 텍스트 감성 특징을 사용자 얼굴 이미지, 사용자 음성 및 텍스트별로 조합한다.

각각의 서브 감성 특징이 사용자 얼굴 이미지, 사용자 음성 및 텍스트별로 조합되어 만들어진 감성 특징은 여러 분석 모델의 장점을 가질 수 있기 때문에 감성 분석의 정확성을 높여줄 수 있다.

본 발명에 의한 멀티모달 감성 분석 시스템(1) 및 방법은 하나 또는 다수의 하드웨어를 통해 구현되거나, 하나 또는 다수의 소프트웨어를 통해 구현될 수 있다. 또는 하드웨어와 소프트웨어를 통해 구현될 수도 있다.

본 발명의 권리범위는 상술한 실시예에 한정되는 것이 아니라 첨부된 특허청구범위 내에서 다양한 형태의 실시예로 구현될 수 있다. 특허청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 변형 가능한 다양한 범위까지 본 발명의 청구범위 기재의 범위 내에 있는 것으로 본다.

1 : 멀티모달 감성 분석 시스템
10 : 동영상 입력부 21 : 서브 이미지 감성 분석부
22 : 이미지 감성 특징 조합부 30 : 음성 감성 분석부
31 : 서브 음성 감성 분석부 32 : 음성 감성 특징 조합부
40 : 텍스트 감성 분석부 41 : 서브 텍스트 감성 분석부
42 : 텍스트 감성 특징 조합부 50 : 앙상블 감성 분석부
60 : 이미지 감성 모델부 70 : 음성 감성 모델부
80 : 텍스트 감성 모델부 90 : 앙상블 감성 모델부

Claims

사용자 동영상을 입력받는 동영상 입력부;
상기 사용자 동영상에서 추출된 사용자 얼굴 이미지의 감성을 분석하는 이미지 감성 분석부;
상기 사용자 동영상에서 추출된 사용자 음성의 감성을 분석하는 음성 감성 분석부;
상기 사용자 동영상에서 추출된 텍스트의 감성을 분석하는 텍스트 감성 분석부; 및
상기 이미지 감성 분석부에서 산출된 이미지 감성 특징, 상기 음성 감성 분석부에서 산출된 음성 감성 특징, 및 상기 텍스트 감성 분석부에서 산출된 텍스트 감성 특징을 조합한 조합 특징을 분석하는 앙상블 감성 분석부;를 포함하며,
상기 이미지 감성 분석부는, 서로 다른 이미지 분석 모델이 적용된 다수 개의 서브 이미지 감성 분석부와 상기 서브 이미지 감성 분석부 각각에서 산출된 서브 이미지 감성 특징을 조합하는 이미지 감성 특징 조합부를 구비하고,
상기 음성 감성 분석부는, 서로 다른 음성 분석 모델이 적용된 다수 개의 서브 음성 감성 분석부와 상기 서브 음성 감성 분석부 각각에서 산출된 서브 음성 감성 특징을 조합하는 음성 감성 특징 조합부를 구비하며,
상기 텍스트 감성 분석부는, 서로 다른 텍스트 분석 모델이 적용된 다수 개의 서브 텍스트 감성 분석부와 상기 서브 텍스트 감성 분석부 각각에서 산출된 서브 텍스트 감성 특징을 조합하는 텍스트 감성 특징 조합부를 구비하고,
상기 앙상블 감성 분석부는,
조합 특징의 분석 결과에서 우세한 확률을 가지는 감성 결과가 도출되었는지 확인하여 우세한 확률을 가지는 감성 결과가 도출된 경우 그대로 감성 결과를 최종 결과로 출력하는 결과 확인부, 및
상기 결과 확인부에서 우세한 확률을 가지는 감성 결과가 도출되지 않은 경우 최종 결과를 출력하는 조정부를 구비하며,
상기 조정부는,
상기 동영상 입력부에서 입력받은 사용자 동영상의 원 데이터를 의사결정 나무 알고리즘을 통해 분석한 후, 사용자 동영상의 원 데이터의 분석 결과에 대한 이미지, 음성 및 텍스트 각각의 영향도를 분석하고 영향도에 따라 이미지, 음성 및 텍스트에 가중치를 부여하며, 가중치 적용시 가장 높은 확률로 도출된 감성 결과를 최종 결과로 출력하는 것을 특징으로 하는 멀티모달 감성 분석 시스템.
삭제
제1항에 있어서,
상기 이미지 분석 모델은, VGG, ResNet, 및 Inception인 것을 특징으로 하는 멀티모달 감성 분석 시스템.
제1항에 있어서,
상기 음성 분석 모델은, SVM, 및 CNN과 RNN의 결합 모델인 것을 특징으로 하는 멀티모달 감성 분석 시스템.
제1항에 있어서,
이미지의 감성별 특징이 저장되어 상기 이미지 감성 분석부에서의 분석 기준을 제공하는 이미지 감성 모델부,
음성의 감성별 특징이 저장되어 상기 음성 감성 분석부에서의 분석 기준을 제공하는 음성 감성 모델부 및
텍스트의 감성별 특징이 저장되어 상기 텍스트 감성 분석부에서의 분석 기준을 제공하는 텍스트 감성 모델부를 더 구비하는 것을 특징으로 하는 멀티모달 감성 분석 시스템.
제1항에 있어서,
감성별 조합 특징이 저장되어 상기 앙상블 감성 분석부에서의 분석 기준을 제공하는 앙상블 감성 모델부를 더 구비하는 것을 특징으로 하는 멀티모달 감성 분석 시스템.
제1항에 있어서,
상기 앙상블 감성 분석부는, LSTM을 이용하여 조합 특징을 분석하는 것을 특징으로 하는 멀티모달 감성 분석 시스템.
삭제
삭제