[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR102564570B1 - 멀티모달 감성 분석 시스템 및 방법 - Google Patents

멀티모달 감성 분석 시스템 및 방법 Download PDF

Info

Publication number
KR102564570B1
KR102564570B1 KR1020200148920A KR20200148920A KR102564570B1 KR 102564570 B1 KR102564570 B1 KR 102564570B1 KR 1020200148920 A KR1020200148920 A KR 1020200148920A KR 20200148920 A KR20200148920 A KR 20200148920A KR 102564570 B1 KR102564570 B1 KR 102564570B1
Authority
KR
South Korea
Prior art keywords
emotion
analysis
voice
unit
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
KR1020200148920A
Other languages
English (en)
Other versions
KR20220063816A (ko
Inventor
이혜영
Original Assignee
주식회사 스피랩
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 스피랩 filed Critical 주식회사 스피랩
Priority to KR1020200148920A priority Critical patent/KR102564570B1/ko
Publication of KR20220063816A publication Critical patent/KR20220063816A/ko
Application granted granted Critical
Publication of KR102564570B1 publication Critical patent/KR102564570B1/ko
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 멀티모달 감성 분석 시스템 및 방법에 관한 것으로서, 본 발명에 따른 멀티모달 감성 분석 시스템은 사용자 동영상을 입력받는 동영상 입력부; 상기 사용자 동영상에서 추출된 사용자 얼굴 이미지의 감성을 분석하는 이미지 감성 분석부; 상기 사용자 동영상에서 추출된 사용자 음성의 감성을 분석하는 음성 감성 분석부; 상기 사용자 동영상에서 추출된 텍스트의 감성을 분석하는 텍스트 감성 분석부; 및 상기 이미지 감성 분석부에서 산출된 이미지 감성 특징, 상기 음성 감성 분석부에서 산출된 음성 감성 특징 및 상기 텍스트 감성 특징을 조합한 조합 특징을 분석하는 앙상블 감성 분석부;를 포함하는 것을 특징으로 한다.
이에 따라, 얼굴 이미지, 음성 및 텍스트의 감성을 모두 고려하여 감성을 정확하게 분석하는 것이 가능하다.

Description

멀티모달 감성 분석 시스템 및 방법{System and method for analyzing multimodal emotion}
본 발명은 멀티모달 감성 분석 시스템 및 방법에 관한 것으로서, 보다 상세하게는 얼굴 이미지, 음성 및 텍스트의 감성을 모두 고려하여 감성을 정확하게 분석하는 것이 가능한 멀티모달 감성 분석 시스템 및 방법에 관한 것이다.
장수(長壽)는 인간의 소망이기도 하지만, 질병, 빈곤, 고독 등은 장수의 일면이기도 하다.
이러한 문제의 해결을 위해서는 문제를 파악하는 과정이 우선되어야 하는데, 질병, 빈곤은 정량적인 방식을 통해 비교적 쉽게 파악이 가능하였지만 고독과 같이 감정과 관련된 문제는 정량적인 방식으로 파악하는 것이 쉽지 않았다.
그러나 최근에 들어서는 인공지능을 통해 인간의 감정·감성을 파악하는 방법이 많이 개발되고 있다.
인간은 표정, 행동, 말 등을 통해 감정을 표현하며, 따라서 인공지능을 통해 인간의 감정을 파악할 때에는 표정, 행동, 말 등을 분석한다.
그런데 사람은 표정, 행동, 말 각각에서 명시적으로는 서로 상반된 감정 등을 표현하기도 하므로, 어느 하나의 감정 표현 수단만을 분석하면 감정 파악의 정확성이 떨어질 수 있다.
KR 10-2018-0057970 A
따라서, 본 발명의 목적은 이와 같은 종래의 문제점을 해결하기 위한 것으로서, 얼굴 이미지, 음성 및 텍스트의 감성을 모두 고려하여 감성을 정확하게 분석하는 것이 가능한 멀티모달 감성 분석 시스템 및 방법을 제공함에 있다.
본 발명이 해결하고자 하는 과제는 위에서 언급한 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 목적은, 본 발명에 따라, 사용자 동영상을 입력받는 동영상 입력부; 상기 사용자 동영상에서 추출된 사용자 얼굴 이미지의 감성을 분석하는 이미지 감성 분석부; 상기 사용자 동영상에서 추출된 사용자 음성의 감성을 분석하는 음성 감성 분석부; 상기 사용자 동영상에서 추출된 텍스트의 감성을 분석하는 텍스트 감성 분석부; 및 상기 이미지 감성 분석부에서 산출된 이미지 감성 특징, 상기 음성 감성 분석부에서 산출된 음성 감성 특징, 및 상기 텍스트 감성 분석부에서 산출된 텍스트 감성 특징을 조합한 조합 특징을 분석하는 앙상블 감성 분석부;를 포함하는 멀티모달 감성 분석 시스템에 의해 달성된다.
상기 이미지 감성 분석부는, 서로 다른 이미지 분석 모델이 적용된 다수 개의 서브 이미지 감성 분석부와 상기 서브 이미지 감성 분석부 각각에서 산출된 서브 이미지 감성 특징을 조합하는 이미지 감성 특징 조합부를 구비하고, 상기 음성 감성 분석부는, 서로 다른 음성 분석 모델이 적용된 다수 개의 서브 음성 감성 분석부와 상기 서브 음성 감성 분석부 각각에서 산출된 서브 음성 감성 특징을 조합하는 음성 감성 특징 조합부를 구비하며, 상기 텍스트 감성 분석부는, 서로 다른 텍스트 분석 모델이 적용된 다수 개의 서브 텍스트 감성 분석부와 상기 서브 텍스트 감성 분석부 각각에서 산출된 서브 텍스트 감성 특징을 조합하는 텍스트 감성 특징 조합부를 구비할 수 있다.
상기 이미지 분석 모델은, VGG, ResNet, 및 Inception일 수 있다.
상기 음성 분석 모델은, SVM, 및 CNN과 RNN의 결합 모델일 수 있다.
본 발명에 의한 멀티모달 감성 분석 시스템은, 이미지의 감성별 특징이 저장되어 상기 이미지 감성 분석부에서의 분석 기준을 제공하는 이미지 감성 모델부, 음성의 감성별 특징이 저장되어 상기 음성 감성 분석부에서의 분석 기준을 제공하는 음성 감성 모델부, 및 텍스트의 감성별 특징이 저장되어 상기 텍스트 감성 분석부에서의 분석 기준을 제공하는 텍스트 감성 모델부를 더 구비할 수 있다.
본 발명에 의한 멀티모달 감성 분석 시스템은, 감성별 조합 특징이 저장되어 상기 앙상블 감성 분석부에서의 분석 기준을 제공하는 앙상블 감성 모델부를 더 구비할 수 있다.
상기 앙상블 감성 분석부는, LSTM을 이용하여 조합 특징을 분석할 수 있다.
본 발명의 또 다른 실시예에 의하면, 사용자 동영상을 입력받는 동영상 입력단계; 상기 사용자 동영상에서 추출된 사용자 얼굴 이미지, 사용자 음성 및 텍스트 각각의 감성을 분석하는 감성 분석단계; 및 상기 감성 분석 단계에서 산출된 이미지 감성 특징, 음성 감성 특징 및 텍스트 감성 특징을 조합한 조합 특징을 분석하는 앙상블 감성 분석단계;를 포함하는 멀티모달 감성 분석 방법이 제공된다.
상기 감성 분석단계는, 상기 사용자 얼굴 이미지를 서로 다른 다수의 분석 모델을 통해 분석하여 다수의 서브 이미지 감성 특징을 산출하고, 상기 사용자 음성을 서로 다른 다수의 분석 모델을 통해 분석하여 다수의 서브 음성 감성 특징을 산출하며, 상기 텍스트 각각을 서로 다른 다수의 분석 모델을 통해 분석하여 다수의 서브 텍스트 감성 특징을 산출하는 서브 감성 분석단계; 및 상기 서브 감성 분석단계에서 산출된 상기 서브 이미지 감성 특징, 상기 서브 음성 감성 특징 및 상기 텍스트 감성 특징을 사용자 얼굴 이미지, 사용자 음성 및 텍스트별로 조합하는 감성 특징 조합단계;를 포함할 수 있다.
본 발명에 의한 멀티모달 감성 분석 시스템에 의하면, 사용자의 동영상에서 사용자의 얼굴, 음성 및 텍스트를 함께 고려하여 사용자의 감성 상태를 정확하게 파악하는 것이 가능하다.
그리고 이미지 감성 특징, 음성 감성 특징 및 텍스트 감성 특징을 조합한 조합 특징을 분석하기 때문에, 감성 분석의 결과의 정확성을 보다 높여줄 수 있다.
사용자 얼굴 이미지, 사용자 음성 및 텍스트의 감성 각각을 서로 다른 다수의 분석 모델을 통해 분석한 후 산출된 서브 감성 특징들을 조합하여 분석함으로써, 이미지 감성, 음성 감성 및 텍스트 각각의 감성 분석 결과를 정확하게 할 수 있다.
도 1은 본 발명에 의한 멀티모달 감성 분석 시스템의 개략적인 구성도,
도 2는 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 이미지 감성 모델부에 관한 설명도,
도 3은 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 음성 감성 모델부에 관한 설명도,
도 4는 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 텍스트 감성 모델부에 관한 설명도,
도 5는 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 앙상블 감성 모델부에 관한 설명도,
도 6은 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 이미지 감성 분석부에 관한 설명도,
도 7은 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 음성 감성 분석부에 관한 설명도,
도 8은 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 텍스트 감성 분석부에 관한 설명도,
도 9는 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 앙상블 감성 분석부에 관한 설명도,
도 10은 본 발명에 의한 멀티모달 감성 분석 방법의 순서도이다.
이하에서는 본 발명의 구체적인 실시예에 대하여 도면을 참고하여 자세하게 설명하도록 한다.
도 1에는 본 발명에 의한 멀티모달 감성 분석 시스템(1)의 개략적인 구성도가 도시되어 있다.
본 발명에 의한 멀티모달 감성 분석 시스템(1)은 동영상 입력부(10), 이미지 감성 분석부(20), 음성 감성 분석부(30), 텍스트 감성 분석부(40) 및 앙상블 감성 분석부(50)를 포함하여 이루어진다.
동영상 입력부(10)에서는 사용자의 휴대폰이나 컴퓨터 등에서 사용자의 얼굴 이미지와 음성이 포함된 사용자 동영상을 입력받는다. 사용자 동영상에서는 사용자 얼굴 이미지, 사용자 음성 및 텍스트가 각각 추출된다. 텍스트는 사용자 음성에 STT(Speech to text) 알고리즘을 적용하여 추출할 수 있다.
이미지 감성 분석부(20)에서는 사용자 얼굴 이미지의 감성을 분석한다. 이미지 감성 분석부(20)에서는 예를 들어, 눈의 깜빡임, 입 모양 및 얼굴 길이 등의 특징을 통해 사용자 얼굴 이미지의 감성을 분석할 수 있다.
음성 감성 분석부(30)에서는 사용자 음성의 감성을 분석한다. 음성 감성 분석부(30)에서는 예를 들어, 사용자 음성의 피치, 에너지, 에너지의 엔트로피(entropy of energy), 제로 크로싱 율(zero crossing rate), 스펙트로그램(spectrogram), 로그-멜-스펙트로그램(log-mel-spectrogram) 및 주파수 등의 음향적 특성을 통해 사용자 음성의 감성을 분석할 수 있다.
텍스트 감성 분석부(40)에서는 텍스트의 의미적 특징을 통해 사용자 텍스트의 감성을 분석한다.
앙상블 감성 분석부(50)에서는 이미지 감성 분석부(20)에서 산출된 이미지 감성 특징, 음성 감성 분석부(30)에서 산출된 음성 감성 특징, 및 텍스트 감성 분석부(40)에서 산출된 텍스트 감성 특징을 조합한 조합 특징을 분석한다.
조합 특징은 예를 들어, 이미지 감성 특징, 음성 감성 특징 및 텍스트 감성 특징에서 산출된 감성의 확률을 감성별로 평균하는 방법으로 분석될 수도 있고, 각 감성 특징의 감성 결과들 중 과반을 넘은 감성 결과를 산출하는 방법 등으로 분석될 수도 있다.
이러한 본 발명에 의한 멀티모달 감성 분석 시스템(1)에 의하면, 사용자 동영상에서 사용자의 얼굴, 음성 및 텍스트를 함께 고려하여 감성 상태를 정확하게 파악하는 것이 가능하다.
그리고 이미지 감성 특징, 음성 감성 특징 및 텍스트 감성 특징을 조합한 조합 특징을 분석하기 때문에, 감성 분석 결과의 정확성을 보다 높여줄 수 있다.
본 발명에 의한 멀티모달 감성 분석 시스템(1)은 이미지 감성 모델부(60), 음성 감성 모델부(70) 및 텍스트 감성 모델부(80)를 포함할 수 있다.
이미지 감성 모델부(60)는 이미지의 감성별 특징이 저장되어 이미지 감성 분석부(20)에서의 분석 기준을 제공할 수 있다. 즉, 이미지 감성 분석부(20)는 이미지의 특징이 이미지 감성 모델부(60)에서 어느 감성에 대응되는지 찾음으로써 이미지 감성 결과를 도출할 수 있다.
도 2에 도시되어 있는 바와 같이, 이미지 감성 모델부(60)는 이미지 데이터부(61), 이미지 감성 모델 학습부(63) 및 이미지 감성 모델 저장부(64)를 포함할 수 있다.
이미지 데이터부(61)에는 감성이 라벨링된 다수의 이미지가 저장된다. 이미지 데이터는 드라마, 영화, 사용자가 촬영한 정지 영상 또는 동영상 파일로부터 얻어질 수 있으며, 해당 이미지 데이터가 어떤 감성과 관련되어 있는지에 대한 정보를 포함한다.
이미지 감성 모델 학습부(63)는 인공지능 알고리즘을 이용하여 이미지 데이터를 학습한다. 이에 따라, 이미지 데이터들이 감성별로 분류된다. 이미지 감성 모델 학습부(63)에서는 예를 들어, VGG, ResNet, 및 Inception 중 적어도 어느 하나의 인공지능 알고리즘을 이용하여 이미지 데이터를 학습할 수 있다.
이미지 데이터는 이미지 감성 모델 학습부(63)로 전송되기 전 이미지 전처리부(62)를 거칠 수 있다. 이미지 전처리부(62)에서는 예를 들어, 동영상에서의 정지 이미지 추출, 이미지에서 얼굴 부분 추출 및 이미지의 밝기 조절 등의 작업을 수행할 수 있다.
이미지 감성 모델 저장부(64)에는 이미지 감성 모델 학습부(63)에서 도출된 이미지 감성 모델이 저장된다. 이미지 감성 분석부(20)는 이미지 감성 모델 저장부(64)에 저장된 이미지 감성 모델을 참조하여 사용자 얼굴 이미지의 감성이 어떤 감성의 이미지와 유사한지 확인함으로써 이미지의 감성을 분석할 수 있다.
음성 감성 모델부(70)에는 음성의 감성별 특징이 저장되어 음성 감성 분석부(30)에서의 분석 기준을 제공한다. 즉, 음성 감성 분석부(30)는 음성의 음향적 특성이 음성 감성 모델부(70)에서 어느 감성에 대응되는지 찾음으로써 음성 감성 결과를 도출할 수 있다.
음성 감성 모델부(70)는 도 3에 도시되어 있는 바와 같이, 음성 데이터부(71), 음성 특징 벡터 추출부(73), 음성 감성 모델 학습부(74) 및 음성 감성 모델 저장부(75)를 포함하여 이루어질 수 있다.
음성 데이터부(71)에는 감성이 라벨링된 다수의 음성 데이터가 저장된다. 음성 데이터는 드라마, 영화 또는 사용자가 녹음한 음성 파일 등으로부터 얻어질 수 있으며, 해당 음성 데이터가 어떤 감성과 관련되어 있는지에 대한 정보를 포함한다.
음성 특징 벡터 추출부(73)는 음성 데이터의 음성 특징 벡터를 추출한다. 음성 특징 벡터 추출부(73)에서 추출되는 음성 특징 벡터에는 피치, 에너지, 에너지의 엔트로피, 제로 크로싱 율, 스펙트로그램, 로그-멜-스펙트로그램 및 주파수 등이 있을 수 있다. 음성 특징 벡터 추출부(73)는 예를 들어, MFCC(Mel Frequency Cpstral Coeffiecient)를 통해 음성 특징 벡터를 추출할 수 있다.
음성 데이터부(71)의 음성 데이터는 음성 전처리부(72)를 거친 후에 음성 특징 벡터 추출부(73)로 전송될 수 있다.
음성 전처리부(72)는 프리-엠퍼시스(pre-emphasis) 처리부, 프레이밍(framing) 처리부 및 해밍 윈도우(hamming window) 처리부를 구비할 수 있다. 프리-엠퍼시스 처리부에서는 프리-엠퍼시스 필터를 사용하여 음성 신호의 고역 주파수 성분을 강조하고, 프레이밍 처리부에서는 음성 신호를 일정한 간격으로 분할한다. 그리고 해밍 윈도우 처리부에서는 프레이밍 처리부에서 분할되어 형성된 음성 신호의 각 프레임에 해밍 윈도우 함수를 곱하여 각 프레임의 경계에서 불연속성을 최소화한다.
음성 감성 모델 학습부(74)에서는 인공지능 알고리즘을 이용하여 음성 특징 벡터 추출부(73)에서 추출된 음성 특징 벡터를 학습한다. 이에 따라, 음성 특징 벡터들이 감성별로 분류된다. 음성 감성 모델 학습부(74)는 예를 들어, SVM(Support Vector Machine) 모델, 및 CNN(Convolution Neural Network)과 RNN(Recurrent Neural Network)의 결합 모델 중 적어도 어느 하나를 통해 음성 특징 벡터를 학습할 수 있다.
음성 감성 모델 저장부(75)에는 음성 감성 모델 학습부(74)에서 도출된 음성 감성 모델이 저장된다. 음성 감성 분석부(30)는 음성 감성 모델 저장부(75)에 저장된 음성 감성 모델을 참조하여 사용자 음성의 감성이 어떤 감성의 음성 특징 벡터와 유사한지 확인함으로써 사용자 음성의 감성을 분석할 수 있다.
텍스트 감성 모델부(80)에는 텍스트의 감성별 특징이 저장되어 텍스트 감성 분석부(40)에서의 분석 기준을 제공한다. 즉, 텍스트 감성 분석부(40)는 텍스트의 특성이 텍스트 감성 모델부(80)에서 어느 감성에 대응되는지 찾음으로써 텍스트 감성 결과를 도출할 수 있다.
텍스트 감성 모델부(80)는 보다 구체적으로, 텍스트 데이터부(81), 텍스트 감성 모델 학습부(82) 및 텍스트 감성 모델 저장부(83)를 포함할 수 있다. 도 4에는 이러한 텍스트 감성 모델부(80)의 개략적인 구성도가 도시되어 있다.
텍스트 데이터부(81)에는 감성이 라벨링된 텍스트 데이터가 저장된다. 이러한 텍스트 데이터에는 NRC 감성 사전, KNU 한국어 감성사전 등의 데이터가 포함될 수 있다. 예를 들어, 텍스트 데이터부(81)에서 어휘들은 5가지 감성에 따라 구분될 수 있다.
텍스트 감성 모델 학습부(82)에서는 인공지능 알고리즘을 통해 텍스트 데이터부(81)의 감성별 텍스트 데이터를 학습한다. 이에 따라, 텍스트의 특징들이 감성별로 분로된다. 텍스트 감성 모델 학습부(82)는 예를 들어, BERT 또는 KoBERT를 통해 텍스트를 학습할 수 있다.
본 발명에 의한 멀티모달 감성 분석 시스템(1)은 앙상블 감성 모델부(90)를 더 구비할 수 있다. 도 5에는 이러한 앙상블 감성 모델부(90)에 관한 설명도가 도시되어 있다.
앙상블 감성 모델부(90)는 감성별 조합 특징이 저장되어 앙상블 감성 분석부(50)에서의 분석 기준을 제공하는 것으로서, 이미지 감성 모델부(60)의 이미지 감성 모델, 음성 감성 모델부(70)의 음성 감성 모델 및 텍스트 감성 모델부(80)의 텍스트 감성 모델을 조합하여 만들어질 수 있다.
이미지 감성 분석부(20)는 도 6에 도시되어 있는 바와 같이, 다수 개의 서브 이미지 감성 분석부(21)와 이미지 감성 특징 조합부(22)를 구비할 수 있다.
서브 이미지 감성 분석부(21) 각각은 서로 다른 이미지 분석 모델이 적용되어 사용자 얼굴 이미지를 분석한다.
이미지 분석 모델로는 예를 들어, VGG, ResNet, 및 Inception 중 적어도 2개가 사용될 수 있다. VGG는 3×3 필터를 사용하여 파라미터의 수는 줄일 수 있으면서도, 5×5 또는 7×7 필터를 사용하는 경우보다 우수한 성능을 발휘할 수 있다. ResNet은 스킵 컨넥션(skip connection) 부분을 추가하여, 기울기 소실(vanishing gradient) 문제를 해결할 수 있다. 그리고 Inception은 합성곱 신경망 사용시 어떠한 크기의 필터를 적용할지 또는 풀링(pooling)을 적용할지 선택하지 않고, 모두 적용하여 분석의 성능을 향상시킬 수 있다.
이미지 감성 특징 조합부(22)는 서브 이미지 감성 분석부(21) 각각에서 산출된 서브 이미지 감성 특징을 조합한다.
이렇게 여러 서브 이미지 감성 특징이 조합되어 만들어진 이미지 감성 특징은 여러 이미지 분석 모델의 장점을 가질 수 있기 때문에 이미지 감성 분석의 정확성을 높일 수 있다.
음성 감성 분석부(30)는 도 7에 도시되어 있는 바와 같이, 서브 음성 감성 분석부(31)와 음성 감성 특징 조합부(32)를 구비할 수 있다.
서브 음성 감성 분석부(31) 각각은 서로 다른 음성 분석 모델이 적용되어 사용자 음성을 분석한다.
음성 분석 모델로는 예를 들어, SVM, 및 CNN과 RNN의 결합 모델이 사용될 수 있다. SVM 모델을 사용하는 경우, 사용자 음성에서 깊은 감성까지 분석하는 것이 가능하다. CNN과 RNN의 결합 모델을 사용하면 사용자 음성의 전처리 과정이 거의 필요하지 않다.
음성 감성 특징 조합부(32)는 서브 음성 감성 분석부(31) 각각에서 산출된 서브 음성 감성 특징을 조합한다.
이렇게 여러 서브 음성 감성 특징이 조합되어 만들어진 음성 감성 특징은 여러 음성 분석 모델의 장점을 가질 수 있기 때문에 음성 감성 분석의 정확성을 높일 수 있다.
텍스트 감성 분석부(40)는 도 8에 도시되어 있는 바와 같이, 서브 텍스트 감성 분석부(41)와 텍스트 감성 특징 조합부(42)를 구비할 수 있다.
서브 텍스트 감성 분석부(41) 각각은 서로 다른 텍스트 감성 분석 모델이 적용되어 텍스트의 감성을 분석한다.
텍스트 감성 분석 모델로는 예를 들어, BERT, KoBERT가 사용될 수 있다. BERT는 언어에 대한 많은 정보를 담고 있기 때문에 텍스트 분석 결과가 정확하고, KoBERT는 BERT의 한국어 성능 한계를 극복하였기 때문에 특히 한국어로 이루어진 텍스트 분석의 결과가 정확하다.
참고로, KoBERT는 엠베딩은 BERT를 기반으로 하고 분류는 CNN을 기반으로 한다.
텍스트 감성 특징 조합부(42)는 서브 텍스트 감성 분석부(41) 각각에서 산출된 서브 텍스트 감성 특징을 조합한다.
이렇게 여러 서브 텍스트 감성 특징이 조합되어 만들어진 텍스트 감성 특징은 여러 텍스트 분석 모델의 장점을 가질 수 있기 때문에 텍스트 감성 분석의 정확성을 높일 수 있다.
앙상블 감성 분석부(50)는 LSTM(Long-Short Term Memory)을 이용하여 조합 특징을 분석한다.
LSTM은 은닉층의 메모리 셀에 입력 게이트, 망각 게이트, 출력 게이트를 추가하여 불필요한 기억을 지우고 기억해야할 것들을 정할 수 있어, 긴 시퀀스의 입력을 처리하는 데 유용하다.
따라서, 동영상에서 추출되어 여러 구간으로 이루어지는 사용자 얼굴 이미지, 사용자 음성 및 텍스트의 분석 성능을 높일 수 있다.
앙상블 감성 분석부(50)는 결과 확인부(51)와 조정부(52)를 구비할 수 있다. 도 9에는 이러한 앙상블 감성 분석부(50)에 관한 설명도가 도시되어 있다.
결과 확인부(51)는 조합 특징의 분석 결과가 예를 들어, 우세한 확률을 가지는 감성 결과가 도출되었는지의 여부를 확인한다. 그리고 우세한 확률을 가지는 감성 결과가 도출된 경우에는 그대로 최종 결과를 출력하고, 그렇지 않은 경우에는 조정부(52)가 동작하도록 한다.
조정부(52)는 우세한 확률을 가지는 감성 결과가 도출되지 않은 경우에 사용자의 감성을 도출하는 역할을 한다. 예를 들어, 조정부(52)는 사용자 동영상의 원 데이터를 의사결정 나무 알고리즘을 통해 분석한 후, 원 데이터의 분석 결과에 대한 이미지, 음성, 텍스트 각각의 영향도를 분석하고 영향도에 따라 각 감성 분석 모델에 상대적인 가중치를 부과할 수 있다. 그리고 가중치를 적용하였을 때 가장 높은 확률로 도출된 감성을 감성 분석의 최종 결과로서 출력할 수 있다. 의사결정 나무 알고리즘의 분리 기준에는 예를 들어, 음성 주파수의 크기, 음절의 길이 등이 포함될 수 있다.
이하에서는 본 발명에 의한 멀티모달 감성 분석 방법에 대하여 설명하도록 한다. 본 발명에 의한 멀티모달 감성 분석 방법에 대하여 설명하면서, 멀티 모달 분석 시스템(1)의 설명시 언급한 부분에 대해서는 자세한 설명을 생략할 수 있다.
도 10에는 본 발명에 의한 멀티모달 감성 분석 방법의 순서도가 도시되어 있다.
본 발명에 의한 멀티모달 감성 분석 방법은 동영상 입력단계(S10), 감성 분석단계(S20) 및 앙상블 감성 분석단계(S30)를 포함한다.
동영상 입력단계(S10)에서는 사용자의 동영상을 입력받는다. 사용자 동영상에서는 사용자 얼굴 이미지, 사용자 음성 및 텍스트가 각각 별도로 추출될 수 있다.
감성 분석단계(S20)에서는 사용자 동영상에서 추출된 사용자 얼굴 이미지, 사용자 음성 및 텍스트 각각의 감성을 분석한다. 사용자 얼굴 이미지에서는 예를 들어 눈의 깜빡임, 입 모양 및 얼굴 길이 등을 감지함으로써 감성을 분석할 수 있고, 사용자 음성에서는 예를 들어 음성의 피치, 에너지, 에너지 엔트로피, 제로 크로싱 율, 스펙트로그램, 로그-멜-스펙트로그램 및 주파수 등의 음향적 특성을 통해 감성을 분석할 수 있다. 그리고 텍스트는 의미를 파악함으로써 감성 분석이 진행될 수 있다.
앙상블 감성 분석단계(S30)에서는, 감성 분석 단계에서 산출된 이미지 감성 특징, 음성 감성 특징 및 텍스트 감성 특징을 조합한 조합 특징을 분석함으로써 최종적인 감성 분석의 결과를 도출한다.
조합 특징에는 이미지 감성 특징, 음성 감성 특징 및 텍스트 감성 특징이 모두 포함되어 있기 때문에, 이를 분석하면 보다 정확한 감성 분석의 결과를 얻을 수 있다.
감성 분석단계(S20)는 서브 감성 분석 단계와 감성 특징 조합단계(S22)를 포함할 수 있다.
서브 감성 분석단계(S21)에서는 사용자 얼굴 이미지를 서로 다른 다수의 분석 모델을 통해 분석하여 다수의 서브 이미지 감성 특징을 산출하고, 사용자 음성을 서로 다른 다수의 분석 모델을 통해 분석하여 다수의 서브 음성 감성 특징을 산출하며, 텍스트를 서로 다른 다수의 분석 모델을 통해 분석하여 다수의 서브 텍스트 감성 특징을 산출한다.
그리고 감성 특징 조합단계(S22)에서는, 서브 감성 분석 단계에서 산출된 서브 이미지 감성 특징, 서브 음성 감성 특징 및 텍스트 감성 특징을 사용자 얼굴 이미지, 사용자 음성 및 텍스트별로 조합한다.
각각의 서브 감성 특징이 사용자 얼굴 이미지, 사용자 음성 및 텍스트별로 조합되어 만들어진 감성 특징은 여러 분석 모델의 장점을 가질 수 있기 때문에 감성 분석의 정확성을 높여줄 수 있다.
본 발명에 의한 멀티모달 감성 분석 시스템(1) 및 방법은 하나 또는 다수의 하드웨어를 통해 구현되거나, 하나 또는 다수의 소프트웨어를 통해 구현될 수 있다. 또는 하드웨어와 소프트웨어를 통해 구현될 수도 있다.
본 발명의 권리범위는 상술한 실시예에 한정되는 것이 아니라 첨부된 특허청구범위 내에서 다양한 형태의 실시예로 구현될 수 있다. 특허청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 변형 가능한 다양한 범위까지 본 발명의 청구범위 기재의 범위 내에 있는 것으로 본다.
1 : 멀티모달 감성 분석 시스템
10 : 동영상 입력부 21 : 서브 이미지 감성 분석부
22 : 이미지 감성 특징 조합부 30 : 음성 감성 분석부
31 : 서브 음성 감성 분석부 32 : 음성 감성 특징 조합부
40 : 텍스트 감성 분석부 41 : 서브 텍스트 감성 분석부
42 : 텍스트 감성 특징 조합부 50 : 앙상블 감성 분석부
60 : 이미지 감성 모델부 70 : 음성 감성 모델부
80 : 텍스트 감성 모델부 90 : 앙상블 감성 모델부

Claims (9)

  1. 사용자 동영상을 입력받는 동영상 입력부;
    상기 사용자 동영상에서 추출된 사용자 얼굴 이미지의 감성을 분석하는 이미지 감성 분석부;
    상기 사용자 동영상에서 추출된 사용자 음성의 감성을 분석하는 음성 감성 분석부;
    상기 사용자 동영상에서 추출된 텍스트의 감성을 분석하는 텍스트 감성 분석부; 및
    상기 이미지 감성 분석부에서 산출된 이미지 감성 특징, 상기 음성 감성 분석부에서 산출된 음성 감성 특징, 및 상기 텍스트 감성 분석부에서 산출된 텍스트 감성 특징을 조합한 조합 특징을 분석하는 앙상블 감성 분석부;를 포함하며,
    상기 이미지 감성 분석부는, 서로 다른 이미지 분석 모델이 적용된 다수 개의 서브 이미지 감성 분석부와 상기 서브 이미지 감성 분석부 각각에서 산출된 서브 이미지 감성 특징을 조합하는 이미지 감성 특징 조합부를 구비하고,
    상기 음성 감성 분석부는, 서로 다른 음성 분석 모델이 적용된 다수 개의 서브 음성 감성 분석부와 상기 서브 음성 감성 분석부 각각에서 산출된 서브 음성 감성 특징을 조합하는 음성 감성 특징 조합부를 구비하며,
    상기 텍스트 감성 분석부는, 서로 다른 텍스트 분석 모델이 적용된 다수 개의 서브 텍스트 감성 분석부와 상기 서브 텍스트 감성 분석부 각각에서 산출된 서브 텍스트 감성 특징을 조합하는 텍스트 감성 특징 조합부를 구비하고,
    상기 앙상블 감성 분석부는,
    조합 특징의 분석 결과에서 우세한 확률을 가지는 감성 결과가 도출되었는지 확인하여 우세한 확률을 가지는 감성 결과가 도출된 경우 그대로 감성 결과를 최종 결과로 출력하는 결과 확인부, 및
    상기 결과 확인부에서 우세한 확률을 가지는 감성 결과가 도출되지 않은 경우 최종 결과를 출력하는 조정부를 구비하며,
    상기 조정부는,
    상기 동영상 입력부에서 입력받은 사용자 동영상의 원 데이터를 의사결정 나무 알고리즘을 통해 분석한 후, 사용자 동영상의 원 데이터의 분석 결과에 대한 이미지, 음성 및 텍스트 각각의 영향도를 분석하고 영향도에 따라 이미지, 음성 및 텍스트에 가중치를 부여하며, 가중치 적용시 가장 높은 확률로 도출된 감성 결과를 최종 결과로 출력하는 것을 특징으로 하는 멀티모달 감성 분석 시스템.
  2. 삭제
  3. 제1항에 있어서,
    상기 이미지 분석 모델은, VGG, ResNet, 및 Inception인 것을 특징으로 하는 멀티모달 감성 분석 시스템.
  4. 제1항에 있어서,
    상기 음성 분석 모델은, SVM, 및 CNN과 RNN의 결합 모델인 것을 특징으로 하는 멀티모달 감성 분석 시스템.
  5. 제1항에 있어서,
    이미지의 감성별 특징이 저장되어 상기 이미지 감성 분석부에서의 분석 기준을 제공하는 이미지 감성 모델부,
    음성의 감성별 특징이 저장되어 상기 음성 감성 분석부에서의 분석 기준을 제공하는 음성 감성 모델부 및
    텍스트의 감성별 특징이 저장되어 상기 텍스트 감성 분석부에서의 분석 기준을 제공하는 텍스트 감성 모델부를 더 구비하는 것을 특징으로 하는 멀티모달 감성 분석 시스템.
  6. 제1항에 있어서,
    감성별 조합 특징이 저장되어 상기 앙상블 감성 분석부에서의 분석 기준을 제공하는 앙상블 감성 모델부를 더 구비하는 것을 특징으로 하는 멀티모달 감성 분석 시스템.
  7. 제1항에 있어서,
    상기 앙상블 감성 분석부는, LSTM을 이용하여 조합 특징을 분석하는 것을 특징으로 하는 멀티모달 감성 분석 시스템.
  8. 삭제
  9. 삭제
KR1020200148920A 2020-11-09 2020-11-09 멀티모달 감성 분석 시스템 및 방법 Active KR102564570B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200148920A KR102564570B1 (ko) 2020-11-09 2020-11-09 멀티모달 감성 분석 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200148920A KR102564570B1 (ko) 2020-11-09 2020-11-09 멀티모달 감성 분석 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20220063816A KR20220063816A (ko) 2022-05-18
KR102564570B1 true KR102564570B1 (ko) 2023-08-07

Family

ID=81800581

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200148920A Active KR102564570B1 (ko) 2020-11-09 2020-11-09 멀티모달 감성 분석 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR102564570B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240146754A (ko) 2023-03-30 2024-10-08 전남대학교산학협력단 그룹 응집력 및 그룹 감정예측을 위한 멀티모달 멀티태스킹 학습 시스템
KR102687198B1 (ko) * 2023-10-30 2024-07-22 주식회사 야타브엔터 사용자의 음성 감정 인식을 위한 전자 장치 및 동작 방법
CN118861977A (zh) * 2024-07-04 2024-10-29 南通大学 一种多模态情绪分析系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009282824A (ja) 2008-05-23 2009-12-03 Toyota Central R&D Labs Inc 感情推定装置及びプログラム
JP2019133447A (ja) 2018-01-31 2019-08-08 大日本印刷株式会社 感情推定装置、コンピュータプログラム及び感情推定方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102607373B1 (ko) 2016-11-23 2023-12-05 한국전자통신연구원 음성감성 인식 장치 및 방법
KR102133728B1 (ko) * 2017-11-24 2020-07-21 주식회사 제네시스랩 인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체
KR20190140801A (ko) * 2018-05-23 2019-12-20 한국과학기술원 영상, 음성, 텍스트 정보를 기반으로 사용자의 감정, 나이, 성별을 인식하는 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009282824A (ja) 2008-05-23 2009-12-03 Toyota Central R&D Labs Inc 感情推定装置及びプログラム
JP2019133447A (ja) 2018-01-31 2019-08-08 大日本印刷株式会社 感情推定装置、コンピュータプログラム及び感情推定方法

Also Published As

Publication number Publication date
KR20220063816A (ko) 2022-05-18

Similar Documents

Publication Publication Date Title
CN110728997B (zh) 一种基于情景感知的多模态抑郁症检测系统
KR102564570B1 (ko) 멀티모달 감성 분석 시스템 및 방법
CN108717856A (zh) 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN112329438B (zh) 基于域对抗训练的自动谎言检测方法及系统
US11238289B1 (en) Automatic lie detection method and apparatus for interactive scenarios, device and medium
CN112017633B (zh) 语音识别方法、装置、存储介质及电子设备
CN114661951B (zh) 一种视频处理方法、装置、计算机设备以及存储介质
CN114581812A (zh) 视觉语言识别方法、装置、电子设备及存储介质
CN115376559A (zh) 基于音视频的情绪识别方法、装置及设备
Jothimani et al. A new spatio-temporal neural architecture with bi-LSTM for multimodal emotion recognition
Shrivastava et al. Puzzling out emotions: a deep-learning approach to multimodal sentiment analysis
CN119478525A (zh) 一种基于多模态融合的思政课堂互动分析方法及系统
KR20230120790A (ko) 가변적 언어모델을 이용한 음성인식 헬스케어 서비스
Nanduri et al. A Review of multi-modal speech emotion recognition and various techniques used to solve emotion recognition on speech data
CN117668262A (zh) 基于人工智能语音与图像识别技术的声像档案利用系统
CN118587625A (zh) 一种视频文件的检测方法、装置及计算设备
KR102429365B1 (ko) 음성감성 분석 시스템 및 방법
CN117708752A (zh) 一种基于视音频信息融合的情绪识别方法及系统
CN118053420A (zh) 语音识别方法、装置、设备、介质和程序产品
CN118016273A (zh) 疾病辅助诊断方法、装置、设备及可读存储介质
CN114170997B (zh) 发音技巧检测方法、装置、存储介质及电子设备
CN116935889A (zh) 一种音频类别的确定方法、装置、电子设备及存储介质
KR102480722B1 (ko) 엣지 컴퓨터 환경에서의 감성 인식 장치 및 그 방법
CN119475252B (zh) 一种多模态情感识别方法
Padman et al. Speech Emotion Recognition using Hybrid Textual Features, MFCC and Deep Learning Technique

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20201109

PA0201 Request for examination
PG1501 Laying open of application
E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20220826

Patent event code: PE09021S01D

AMND Amendment
E601 Decision to refuse application
PE0601 Decision on rejection of patent

Patent event date: 20230221

Comment text: Decision to Refuse Application

Patent event code: PE06012S01D

Patent event date: 20220826

Comment text: Notification of reason for refusal

Patent event code: PE06011S01I

X091 Application refused [patent]
AMND Amendment
PX0901 Re-examination

Patent event code: PX09011S01I

Patent event date: 20230221

Comment text: Decision to Refuse Application

Patent event code: PX09012R01I

Patent event date: 20220930

Comment text: Amendment to Specification, etc.

PX0701 Decision of registration after re-examination

Patent event date: 20230614

Comment text: Decision to Grant Registration

Patent event code: PX07013S01D

Patent event date: 20230517

Comment text: Amendment to Specification, etc.

Patent event code: PX07012R01I

Patent event date: 20230221

Comment text: Decision to Refuse Application

Patent event code: PX07011S01I

Patent event date: 20220930

Comment text: Amendment to Specification, etc.

Patent event code: PX07012R01I

X701 Decision to grant (after re-examination)
GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20230802

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20230802

End annual number: 3

Start annual number: 1

PG1601 Publication of registration