Computer Science > Sound

arXiv:2402.11954 (cs)

[Submitted on 19 Feb 2024]

Title:Multimodal Emotion Recognition from Raw Audio with Sinc-convolution

Authors:Xiaohui Zhang, Wenjie Fu, Mangui Liang

Abstract:Speech Emotion Recognition (SER) is still a complex task for computers with average recall rates usually about 70% on the most realistic datasets. Most SER systems use hand-crafted features extracted from audio signal such as energy, zero crossing rate, spectral information, prosodic, mel frequency cepstral coefficient (MFCC), and so on. More recently, using raw waveform for training neural network is becoming an emerging trend. This approach is advantageous as it eliminates the feature extraction pipeline. Learning from time-domain signal has shown good results for tasks such as speech recognition, speaker verification etc. In this paper, we utilize Sinc-convolution layer, which is an efficient architecture for preprocessing raw speech waveform for emotion recognition, to extract acoustic features from raw audio signals followed by a long short-term memory (LSTM). We also incorporate linguistic features and append a dialogical emotion decoding (DED) strategy. Our approach achieves a weighted accuracy of 85.1\% in four class emotion on the Interactive Emotional Dyadic Motion Capture (IEMOCAP) dataset.

Subjects:	Sound (cs.SD); Multimedia (cs.MM); Audio and Speech Processing (eess.AS)
Cite as:	arXiv:2402.11954 [cs.SD]
	(or arXiv:2402.11954v1 [cs.SD] for this version)
	https://doi.org/10.48550/arXiv.2402.11954

Submission history

From: XiaoHui Zhang [view email]
[v1] Mon, 19 Feb 2024 08:49:09 UTC (2,580 KB)

Computer Science > Sound

Title:Multimodal Emotion Recognition from Raw Audio with Sinc-convolution

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Sound

Title:Multimodal Emotion Recognition from Raw Audio with Sinc-convolution

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators