KR102564570B1 - 멀티모달 감성 분석 시스템 및 방법 - Google Patents
멀티모달 감성 분석 시스템 및 방법 Download PDFInfo
- Publication number
- KR102564570B1 KR102564570B1 KR1020200148920A KR20200148920A KR102564570B1 KR 102564570 B1 KR102564570 B1 KR 102564570B1 KR 1020200148920 A KR1020200148920 A KR 1020200148920A KR 20200148920 A KR20200148920 A KR 20200148920A KR 102564570 B1 KR102564570 B1 KR 102564570B1
- Authority
- KR
- South Korea
- Prior art keywords
- emotion
- analysis
- voice
- unit
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Image Analysis (AREA)
Abstract
이에 따라, 얼굴 이미지, 음성 및 텍스트의 감성을 모두 고려하여 감성을 정확하게 분석하는 것이 가능하다.
Description
도 2는 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 이미지 감성 모델부에 관한 설명도,
도 3은 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 음성 감성 모델부에 관한 설명도,
도 4는 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 텍스트 감성 모델부에 관한 설명도,
도 5는 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 앙상블 감성 모델부에 관한 설명도,
도 6은 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 이미지 감성 분석부에 관한 설명도,
도 7은 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 음성 감성 분석부에 관한 설명도,
도 8은 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 텍스트 감성 분석부에 관한 설명도,
도 9는 본 발명에 의한 멀티모달 감성 분석 시스템을 구성하는 앙상블 감성 분석부에 관한 설명도,
도 10은 본 발명에 의한 멀티모달 감성 분석 방법의 순서도이다.
10 : 동영상 입력부 21 : 서브 이미지 감성 분석부
22 : 이미지 감성 특징 조합부 30 : 음성 감성 분석부
31 : 서브 음성 감성 분석부 32 : 음성 감성 특징 조합부
40 : 텍스트 감성 분석부 41 : 서브 텍스트 감성 분석부
42 : 텍스트 감성 특징 조합부 50 : 앙상블 감성 분석부
60 : 이미지 감성 모델부 70 : 음성 감성 모델부
80 : 텍스트 감성 모델부 90 : 앙상블 감성 모델부
Claims (9)
- 사용자 동영상을 입력받는 동영상 입력부;
상기 사용자 동영상에서 추출된 사용자 얼굴 이미지의 감성을 분석하는 이미지 감성 분석부;
상기 사용자 동영상에서 추출된 사용자 음성의 감성을 분석하는 음성 감성 분석부;
상기 사용자 동영상에서 추출된 텍스트의 감성을 분석하는 텍스트 감성 분석부; 및
상기 이미지 감성 분석부에서 산출된 이미지 감성 특징, 상기 음성 감성 분석부에서 산출된 음성 감성 특징, 및 상기 텍스트 감성 분석부에서 산출된 텍스트 감성 특징을 조합한 조합 특징을 분석하는 앙상블 감성 분석부;를 포함하며,
상기 이미지 감성 분석부는, 서로 다른 이미지 분석 모델이 적용된 다수 개의 서브 이미지 감성 분석부와 상기 서브 이미지 감성 분석부 각각에서 산출된 서브 이미지 감성 특징을 조합하는 이미지 감성 특징 조합부를 구비하고,
상기 음성 감성 분석부는, 서로 다른 음성 분석 모델이 적용된 다수 개의 서브 음성 감성 분석부와 상기 서브 음성 감성 분석부 각각에서 산출된 서브 음성 감성 특징을 조합하는 음성 감성 특징 조합부를 구비하며,
상기 텍스트 감성 분석부는, 서로 다른 텍스트 분석 모델이 적용된 다수 개의 서브 텍스트 감성 분석부와 상기 서브 텍스트 감성 분석부 각각에서 산출된 서브 텍스트 감성 특징을 조합하는 텍스트 감성 특징 조합부를 구비하고,
상기 앙상블 감성 분석부는,
조합 특징의 분석 결과에서 우세한 확률을 가지는 감성 결과가 도출되었는지 확인하여 우세한 확률을 가지는 감성 결과가 도출된 경우 그대로 감성 결과를 최종 결과로 출력하는 결과 확인부, 및
상기 결과 확인부에서 우세한 확률을 가지는 감성 결과가 도출되지 않은 경우 최종 결과를 출력하는 조정부를 구비하며,
상기 조정부는,
상기 동영상 입력부에서 입력받은 사용자 동영상의 원 데이터를 의사결정 나무 알고리즘을 통해 분석한 후, 사용자 동영상의 원 데이터의 분석 결과에 대한 이미지, 음성 및 텍스트 각각의 영향도를 분석하고 영향도에 따라 이미지, 음성 및 텍스트에 가중치를 부여하며, 가중치 적용시 가장 높은 확률로 도출된 감성 결과를 최종 결과로 출력하는 것을 특징으로 하는 멀티모달 감성 분석 시스템.
- 삭제
- 제1항에 있어서,
상기 이미지 분석 모델은, VGG, ResNet, 및 Inception인 것을 특징으로 하는 멀티모달 감성 분석 시스템.
- 제1항에 있어서,
상기 음성 분석 모델은, SVM, 및 CNN과 RNN의 결합 모델인 것을 특징으로 하는 멀티모달 감성 분석 시스템.
- 제1항에 있어서,
이미지의 감성별 특징이 저장되어 상기 이미지 감성 분석부에서의 분석 기준을 제공하는 이미지 감성 모델부,
음성의 감성별 특징이 저장되어 상기 음성 감성 분석부에서의 분석 기준을 제공하는 음성 감성 모델부 및
텍스트의 감성별 특징이 저장되어 상기 텍스트 감성 분석부에서의 분석 기준을 제공하는 텍스트 감성 모델부를 더 구비하는 것을 특징으로 하는 멀티모달 감성 분석 시스템.
- 제1항에 있어서,
감성별 조합 특징이 저장되어 상기 앙상블 감성 분석부에서의 분석 기준을 제공하는 앙상블 감성 모델부를 더 구비하는 것을 특징으로 하는 멀티모달 감성 분석 시스템.
- 제1항에 있어서,
상기 앙상블 감성 분석부는, LSTM을 이용하여 조합 특징을 분석하는 것을 특징으로 하는 멀티모달 감성 분석 시스템.
- 삭제
- 삭제
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200148920A KR102564570B1 (ko) | 2020-11-09 | 2020-11-09 | 멀티모달 감성 분석 시스템 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200148920A KR102564570B1 (ko) | 2020-11-09 | 2020-11-09 | 멀티모달 감성 분석 시스템 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220063816A KR20220063816A (ko) | 2022-05-18 |
KR102564570B1 true KR102564570B1 (ko) | 2023-08-07 |
Family
ID=81800581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200148920A Active KR102564570B1 (ko) | 2020-11-09 | 2020-11-09 | 멀티모달 감성 분석 시스템 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102564570B1 (ko) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20240146754A (ko) | 2023-03-30 | 2024-10-08 | 전남대학교산학협력단 | 그룹 응집력 및 그룹 감정예측을 위한 멀티모달 멀티태스킹 학습 시스템 |
KR102687198B1 (ko) * | 2023-10-30 | 2024-07-22 | 주식회사 야타브엔터 | 사용자의 음성 감정 인식을 위한 전자 장치 및 동작 방법 |
CN118861977A (zh) * | 2024-07-04 | 2024-10-29 | 南通大学 | 一种多模态情绪分析系统及方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009282824A (ja) | 2008-05-23 | 2009-12-03 | Toyota Central R&D Labs Inc | 感情推定装置及びプログラム |
JP2019133447A (ja) | 2018-01-31 | 2019-08-08 | 大日本印刷株式会社 | 感情推定装置、コンピュータプログラム及び感情推定方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102607373B1 (ko) | 2016-11-23 | 2023-12-05 | 한국전자통신연구원 | 음성감성 인식 장치 및 방법 |
KR102133728B1 (ko) * | 2017-11-24 | 2020-07-21 | 주식회사 제네시스랩 | 인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체 |
KR20190140801A (ko) * | 2018-05-23 | 2019-12-20 | 한국과학기술원 | 영상, 음성, 텍스트 정보를 기반으로 사용자의 감정, 나이, 성별을 인식하는 방법 |
-
2020
- 2020-11-09 KR KR1020200148920A patent/KR102564570B1/ko active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009282824A (ja) | 2008-05-23 | 2009-12-03 | Toyota Central R&D Labs Inc | 感情推定装置及びプログラム |
JP2019133447A (ja) | 2018-01-31 | 2019-08-08 | 大日本印刷株式会社 | 感情推定装置、コンピュータプログラム及び感情推定方法 |
Also Published As
Publication number | Publication date |
---|---|
KR20220063816A (ko) | 2022-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110728997B (zh) | 一种基于情景感知的多模态抑郁症检测系统 | |
KR102564570B1 (ko) | 멀티모달 감성 분석 시스템 및 방법 | |
CN108717856A (zh) | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 | |
CN112329438B (zh) | 基于域对抗训练的自动谎言检测方法及系统 | |
US11238289B1 (en) | Automatic lie detection method and apparatus for interactive scenarios, device and medium | |
CN112017633B (zh) | 语音识别方法、装置、存储介质及电子设备 | |
CN114661951B (zh) | 一种视频处理方法、装置、计算机设备以及存储介质 | |
CN114581812A (zh) | 视觉语言识别方法、装置、电子设备及存储介质 | |
CN115376559A (zh) | 基于音视频的情绪识别方法、装置及设备 | |
Jothimani et al. | A new spatio-temporal neural architecture with bi-LSTM for multimodal emotion recognition | |
Shrivastava et al. | Puzzling out emotions: a deep-learning approach to multimodal sentiment analysis | |
CN119478525A (zh) | 一种基于多模态融合的思政课堂互动分析方法及系统 | |
KR20230120790A (ko) | 가변적 언어모델을 이용한 음성인식 헬스케어 서비스 | |
Nanduri et al. | A Review of multi-modal speech emotion recognition and various techniques used to solve emotion recognition on speech data | |
CN117668262A (zh) | 基于人工智能语音与图像识别技术的声像档案利用系统 | |
CN118587625A (zh) | 一种视频文件的检测方法、装置及计算设备 | |
KR102429365B1 (ko) | 음성감성 분석 시스템 및 방법 | |
CN117708752A (zh) | 一种基于视音频信息融合的情绪识别方法及系统 | |
CN118053420A (zh) | 语音识别方法、装置、设备、介质和程序产品 | |
CN118016273A (zh) | 疾病辅助诊断方法、装置、设备及可读存储介质 | |
CN114170997B (zh) | 发音技巧检测方法、装置、存储介质及电子设备 | |
CN116935889A (zh) | 一种音频类别的确定方法、装置、电子设备及存储介质 | |
KR102480722B1 (ko) | 엣지 컴퓨터 환경에서의 감성 인식 장치 및 그 방법 | |
CN119475252B (zh) | 一种多模态情感识别方法 | |
Padman et al. | Speech Emotion Recognition using Hybrid Textual Features, MFCC and Deep Learning Technique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20201109 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20220826 Patent event code: PE09021S01D |
|
AMND | Amendment | ||
E601 | Decision to refuse application | ||
PE0601 | Decision on rejection of patent |
Patent event date: 20230221 Comment text: Decision to Refuse Application Patent event code: PE06012S01D Patent event date: 20220826 Comment text: Notification of reason for refusal Patent event code: PE06011S01I |
|
X091 | Application refused [patent] | ||
AMND | Amendment | ||
PX0901 | Re-examination |
Patent event code: PX09011S01I Patent event date: 20230221 Comment text: Decision to Refuse Application Patent event code: PX09012R01I Patent event date: 20220930 Comment text: Amendment to Specification, etc. |
|
PX0701 | Decision of registration after re-examination |
Patent event date: 20230614 Comment text: Decision to Grant Registration Patent event code: PX07013S01D Patent event date: 20230517 Comment text: Amendment to Specification, etc. Patent event code: PX07012R01I Patent event date: 20230221 Comment text: Decision to Refuse Application Patent event code: PX07011S01I Patent event date: 20220930 Comment text: Amendment to Specification, etc. Patent event code: PX07012R01I |
|
X701 | Decision to grant (after re-examination) | ||
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20230802 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20230802 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration |