[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR20220034396A - 얼굴 영상 생성 장치, 방법 및 컴퓨터 프로그램 - Google Patents

얼굴 영상 생성 장치, 방법 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR20220034396A
KR20220034396A KR1020200116702A KR20200116702A KR20220034396A KR 20220034396 A KR20220034396 A KR 20220034396A KR 1020200116702 A KR1020200116702 A KR 1020200116702A KR 20200116702 A KR20200116702 A KR 20200116702A KR 20220034396 A KR20220034396 A KR 20220034396A
Authority
KR
South Korea
Prior art keywords
face image
voice
face
generating
information
Prior art date
Application number
KR1020200116702A
Other languages
English (en)
Inventor
김민철
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020200116702A priority Critical patent/KR20220034396A/ko
Publication of KR20220034396A publication Critical patent/KR20220034396A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

얼굴 영상 생성 장치는 발화자에 대한 음성 데이터 및 원본 얼굴 영상을 입력받는 입력부; 상기 음성 데이터를 분석하여 음성 특징 정보를 추출하는 음성 특징 정보 추출부; 상기 추출된 음성 특징 정보에 기초하여 얼굴 영상 저장부를 통해 얼굴 영상을 추출하는 얼굴 영상 추출부; 상기 음성 데이터 및 상기 추출된 얼굴 영상에 기초하여 얼굴 생성 모델을 학습시키는 학습부; 및 상기 학습된 얼굴 생성 모델을 통해 비식별된 음성 데이터에 대한 얼굴 영상을 생성하는 생성부를 포함한다.

Description

얼굴 영상 생성 장치, 방법 및 컴퓨터 프로그램{DEVICE, METHOD AND COMPUTER PROGRAM FOR GENERATING FACE VIDEO}
음성 데이터에 기초하여 얼굴 영상을 생성하는 장치, 방법 및 컴퓨터 프로그램에 관한 것이다.
일반적으로 음성 데이터에 기초하여 얼굴 영상을 생성하는 방법은, 음성 데이터를 주파수 영상으로 변환하여 변환된 주파수 영상 정보만으로 얼굴 영상을 생성하도록 구성되며, 실제 발화자의 얼굴이 아닌 애니메이션으로 구성된 임의의 얼굴을 생성한다.
따라서, 종래 기술로는 음성 데이터만으로 발화자의 정확한 실제 얼굴 영상을 생성하거나, 발화자에 대한 정보를 추론하는데 어려움이 존재한다. 이와 관련하여, 선행기술인 한국공개특허공보 제10-2019-0046371호는 얼굴 표정 생성 장치 및 방법을 개시하고 있다.
종래의 얼굴 표정 생성 장치는, 입력 받은 발화자의 음성에 포함된 모음을 추정하고, 추정된 모음으로 기 정의된 복수개의 표준 표정에 가중치를 반영하고 조합하여 가상의 캐릭터 얼굴 표정을 생성할 수 있다.
그러나, 종래의 얼굴 표정 생성 장치는, 전술한 바와 같이, 발화자의 음성에 포함된 모음 정보만으로 기정의된 표준 표정들을 조합함으로써 발화자의 실제 얼굴 영상이 아닌 가상의 캐릭터 얼굴 표정을 생성할 뿐이므로, 발화자의 실제 얼굴 영상 및 발화자에 대한 정보를 생성하는데 어려움이 존재한다.
한국공개특허공보 제10-2019-0046371호 (2019. 5. 7. 공개) 한국등록특허공보 제10-2096598호 (2020. 3. 27. 등록)
본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 음성 데이터를 분석한 결과에 기초하여 발화자의 실제 얼굴 영상을 생성할 수 있는 얼굴 영상 생성 장치, 방법 및 컴퓨터 프로그램을 제공하고자 한다.
또한, 본 발명은 음성 데이터에 포함된 발화 내용도 함께 분석하여 발화자의 실제 얼굴 영상을 생성할 뿐만 아니라, 발화자에 대한 심리 상태까지 도출하여 발화자 정보를 생성하고 이를 바탕으로 비대면 발화자(용의자)를 추적(검거)할 수 있는 얼굴 영상 생성 장치, 방법 및 컴퓨터 프로그램을 제공하고자 한다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 수단으로서, 본 발명의 일 실시예는, 음성 데이터에 기초하여 얼굴 영상을 생성하는 장치에 있어서, 발화자에 대한 음성 데이터 및 원본 얼굴 영상을 입력받는 입력부; 상기 음성 데이터를 분석하여 음성 특징 정보를 추출하는 음성 특징 정보 추출부; 상기 추출된 음성 특징 정보에 기초하여 얼굴 영상 저장부를 통해 얼굴 영상을 추출하는 얼굴 영상 추출부; 상기 음성 데이터 및 상기 추출된 얼굴 영상에 기초하여 얼굴 생성 모델을 학습시키는 학습부; 및 상기 학습된 얼굴 생성 모델을 통해 비식별된 음성 데이터에 대한 얼굴 영상을 생성하는 생성부를 포함하는, 얼굴 영상 생성 장치를 제공 할 수 있다.
본 발명의 다른 실시예는, 음성 데이터에 기초하여 얼굴 영상을 생성하는 방법에 있어서, 발화자에 대한 음성 데이터 및 원본 얼굴 영상을 입력받는 단계; 상기 음성 데이터를 분석하여 음성 특징 정보를 추출하는 단계; 상기 추출된 음성 특징 정보에 기초하여 얼굴 영상 저장부를 통해 얼굴 영상을 추출하는 단계; 상기 음성 데이터 및 상기 추출된 얼굴 영상에 기초하여 얼굴 생성 모델을 학습시키는 단계; 및 상기 학습된 얼굴 생성 모델을 통해 비식별된 음성 데이터에 대한 얼굴 영상을 생성하는 단계를 포함하는, 얼굴 영상 생성 방법을 제공할 수 있다.
본 발명의 또 다른 실시예는, 음성 데이터에 기초하여 얼굴 영상을 생성하는 명령어들의 시퀀스를 포함하는 컴퓨터 판독가능 기록매체에 저장된 컴퓨터 프로그램에 있어서, 상기 컴퓨터 프로그램은 컴퓨팅 장치에 의해 실행될 경우, 발화자에 대한 음성 데이터 및 원본 얼굴 영상을 입력받고, 상기 음성 데이터를 분석하여 음성 특징 정보를 추출하고, 상기 추출된 음성 특징 정보에 기초하여 얼굴 영상 저장부를 통해 얼굴 영상을 추출하고, 상기 음성 데이터 및 상기 추출된 얼굴 영상에 기초하여 얼굴 생성 모델을 학습시키고, 상기 학습된 얼굴 생성 모델을 통해 비식별된 음성 데이터에 대한 얼굴 영상을 생성하도록 하는 명령어들의 시퀀스를 포함하는, 컴퓨터 판독가능 기록매체에 저장된 컴퓨터 프로그램을 제공할 수 있다.
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 수집된 음성 데이터를 분석하고 발화자에 대한 신체 정보 및 감정 정보를 생성하여, 발화자의 표정을 반영한 발화자의 실제 얼굴 영상을 정확도 높게 생성할 수 있는 얼굴 영상 생성 장치, 방법 및 컴퓨터 프로그램을 제공할 수 있다.
또한, 얼굴 영상 모델을 통해 생성된 얼굴 영상을 발화자 원본 얼굴 영상과 비교 분석하고, 비교 분석한 결과를 발화자 음성 특징 정보와 다시 비교 분석하여 두 가지 분석 결과가 일치하는 경우 얼굴 생성 모델의 학습에 반영시킴으로써, 얼굴 생성 모델을 통해 보다 정확한 발화자의 얼굴 영상을 생성할 수 있는 얼굴 영상 생성 장치, 방법 및 컴퓨터 프로그램을 제공할 수 있다.
또한, 수집된 음성 데이터에 포함된 발화 정보를 분석하여 발화자에 대한 심리 상태를 파악하고 발화자 정보를 생성함으로써, 이를 통해 비대면 발화자(용의자)를 추적(검거)할 수 있는 정보를 제공하는 얼굴 영상 생성 장치, 방법 및 컴퓨터 프로그램을 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 얼굴 영상 생성 장치의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 음성 특징 정보 추출부를 설명하는 예시적인 도면이다.
도 3은 본 발명의 일 실시예에 따른 얼굴 영상 추출부를 설명하기 위한 예시적인 도면이다.
도 4는 본 발명의 일 실시예에 따른 학습부를 설명하기 위한 예시적인 도면이다.
도 5는 본 발명의 일 실시예에 따른 생성부를 설명하기 위한 예시적인 도면이다.
도 6은 본 발명의 일 실시예에 따른 얼굴 영상 생성 방법의 순서도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다.
본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다.
이하 첨부된 도면을 참고하여 본 발명의 일 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 얼굴 영상 생성 장치의 구성도이다. 도 1을 참조하면, 얼굴 영상 생성 장치(100)는 입력부(110), 음성 특징 정보 추출부(120), 얼굴 영상 추출부(130), 학습부(140) 및 생성부(150)를 포함할 수 있다. 얼굴 영상 생성 장치(100)에 의하여 제어될 수 있는 구성요소들을 예시적으로 도시한 것이다.
도 1의 얼굴 영상 생성 장치(100)의 각 구성요소들은 일반적으로 네트워크(network)를 통해 연결된다. 네트워크는 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷 (WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등을 포함한다. 무선 데이터 통신망의 일례에는 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 블루투스 통신, 적외선 통신, 초음파 통신, 가시광 통신(VLC: Visible Light Communication), 라이파이(LiFi) 등이 포함되나 이에 한정되지는 않는다.
본 발명의 일 실시예에 따른 입력부(110)는 발화자에 대한 음성 데이터 및 원본 얼굴 영상을 입력 받을 수 있다. 예를 들어, 입력부(110)는 입력 받은 발화자에 대한 음성 데이터를 음성 특징 정보 추출부(120)로 전달할 수 있다.
도 2는 본 발명의 일 실시예에 따른 음성 특징 정보 추출부를 설명하는 예시적인 도면이다. 도 2를 참조하면, 음성 특징 정보 추출부(120)는 음성 데이터(20)를 분석하여 음성 특징 정보(230)를 추출할 수 있다.
음성 특징 정보 추출부(120)는 음성 데이터(20)를 주파수 영상(210)으로 변환하고, 변환된 주파수 영상(210)을 분석하여 음성 특징 정보(230)를 추출할 수 있다. 예를 들어, 음성 특징 정보 추출부(120)는 음성 데이터(20)를 Mel(Mel-scaled power spectrogram), MFCC(Mel-frequency Cepstral Coefficient), Chroma(power spectrogram Chroma), Contrast(spectral Contrast), Tonnetz(Tonal centroid feature) 등으로 변환하여 음성 분석 모델(220)의 입력으로 사용할 수 있다. 여기서, Mel, MFCC, Chroma, Contrast, Tonnetz는 일종의 예시이며, 음성 분석 모델(220)에 따라 다른 형태의 특징을 사용할 수 있다.
음성 특징 정보 추출부(120)는, 도 2를 참조하면, 음성 데이터(20)에서 추출한 음성의 주파수 대역, 음성의 세기 및 발화 시간 등의 정보를 다양한 종류의 음성 분석 모델(220)을 사용하여 발화자의 나이, 성별, 인종, 발화 내용 및 감정 등을 분석하여 음성 특징 정보(230)를 출력할 수 있다. 여기서, 도 2에 도시된 음성 분석 모델(220)은 일종의 예시이며, 경우에 따라 다른 정보를 분석하는 음성 분석 모델(220)을 추가 및 삭제할 수 있다. 본 발명의 일 실시예에 따른 음성 특징 정보 추출부(120)는 음성 데이터(20)에 포함된 발화 내용 및 음성의 세기, 높이, 주파수 영역 등을 함께 분석하고 추출된 음성 특징 정보(230)에 기초함으로써 발화자의 표정을 반영한 발화자의 얼굴 영상을 보다 정확하게 생성할 수 있다.
본 발명의 일 실시예에 따른 음성 특징 정보(230)는, 발화자의 성별, 나이 및 인종 중 적어도 하나에 대한 정보를 포함하는 발화자의 신체 정보(231)를 포함할 수 있다. 예를 들어, 음성 특징 정보 추출부(120)는 변환된 주파수 영상(210)에 기초하여 나이 분석 모델, 성별 분석 모델 및 인종 분석 모델 등의 음성 분석 모델(220)을 사용하여 음성의 높이 및 세기 등을 분석함으로써, 발화자의 성별(예: 남성), 나이(예: 20대) 및 인종(예: 동양인)에 대한 정보를 추출할 수 있다.
또한, 음성 특징 정보(230)는 발화자에 대한 감정 정보(232)를 포함할 수 있다. 예를 들어, 음성 특징 정보 추출부(120)는 변환된 주파수 영상(210)에 기초하여 감정 분석 모델 및 발화 내용 분석 모델 등의 음성 분석 모델(220)을 사용하여 음성의 높이 및 세기와 음성 데이터(20)에 포함되어 있는 발화 내용을 분석하여 발화자의 감정(예: 행복)을 분석할 수 있다. 구체적으로, 음성 특징 정보 추출부(120)는, 일 예로, 음성 데이터(20)에 "오늘 정말 행복했어"라는 발화 내용이 포함되어 있는 경우, 발화 내용뿐만 아니라, 음성의 높이, 세기 및 발화 시간 등을 분석하여 발화 내용에 반의적인 표현이 포함되어 있는지를 판단할 수 있고, 이를 바탕으로 발화 당시 발화자의 감정까지 분석할 수 있다.
도 3은 본 발명의 일 실시예에 따른 얼굴 영상 추출부를 설명하기 위한 예시적인 도면이다. 도 3을 참조하면, 얼굴 영상 추출부(130)는 추출된 음성 특징 정보(310)에 기초하여 얼굴 영상 저장부(320)를 통해 얼굴 영상(330)을 추출할 수 있다.
얼굴 영상 추출부(130)는 얼굴 영상 저장부(320)에서 음성 특징 정보(310)와 매칭되는 적어도 하나 이상의 얼굴 특징 정보(321)를 합성하여 얼굴 영상(330)을 생성할 수 있다.
본 발명의 일 실시예에 따른 얼굴 영상 저장부(320)는, 인종에 맞는 피부색, 얼굴형 및 눈동자 색과 나이에 맞는 주름과 성별에 맞는 얼굴형 및 헤어스타일과 감정 및 발화 내용에 맞는 입 모양 및 표정 등에 해당하는 얼굴 영상 정보를 포함할 수 있다.
예를 들어, 얼굴 영상 추출부(130)는 추출된 발화자의 신체 정보(311) 및 감정 정보(312)를 사용하여 얼굴 영상 저장부(320)에서 매칭되는 복수의 얼굴 특징 정보(321)를 나열하고 파악하여 검색한 뒤 합성하여 얼굴 영상(330)을 생성할 수 있다. 구체적으로, 얼굴 영상 추출부(130)는, 도 3을 참조하면, 일 예로, 신체 정보(311)에서 나이 정보(예: 20대)에 기초하여 얼굴 영상 저장부(320)의 20대 얼굴 정보에서 얼굴의 피부 및 주름 등의 얼굴 특징 정보(321)를 검색할 수 있고, 신체 정보(311)에서 성별 정보(예: 남성)에 기초하여 얼굴 영상 저장부(320)의 남성 얼굴 정보에서 남성의 코, 입, 얼굴 크기 및 눈매 등의 얼굴 특징 정보(321)를 선택할 수 있다.
다른 일예로, 얼굴 영상 추출부(130)는 추출된 발화자의 신체 정보(311)가 70대 동양인 여성인 경우, 얼굴 영상 저장부(320)에서 70대 동양인 여성의 주름 정보, 피부색, 눈동자 색, 머리카락 색 및 얼굴형 등에 매칭되는 얼굴 특징 정보(321)를 선택할 수 있다.
또한, 얼굴 영상 추출부(130)는, 도 3을 참조하면, 일 예로, 추출된 발화자의 감정 정보(312)가 슬픈 감정인 경우, 얼굴 영상 저장부(320)에서 슬픈 감정일 때 나올 수 있는 표정에 대한 눈, 코, 입 및 얼굴 자세 좌표 정보에 대한 얼굴 특징 정보(321)를 사용할 수 있다.
이와 같이, 얼굴 영상 추출부(130)는 추출된 발화자의 신체 정보(311) 및 감정 정보(312)와 매칭되는 얼굴 특징 정보(321)를 얼굴 영상 저장부(320)에서 검색 및 합성하여 얼굴 영상(330)을 생성할 수 있다.
본 발명의 일 실시예에 따라, 얼굴 영상 추출부(130)는 음성 데이터로부터 추출된 음성 특징 정보(310)의 수에 비례하게 얼굴 영상 저장부(320)에서 얼굴 특징 정보(321)를 검색할 수 있다. 따라서, 음성 데이터로부터 추출된 음성 특징 정보(310)의 수가 많을수록 얼굴 영상 저장부(320)에서 해당 음성 데이터에 대한 얼굴 특징 정보(321)를 많이 검색할 수 있으므로, 검색된 얼굴 특징 정보(321)에 기초하여 발화자의 얼굴 영상을 보다 정확하게 합성할 수 있다.
도 4는 본 발명의 일 실시예에 따른 학습부를 설명하기 위한 예시적인 도면이다. 도 4를 참조하면, 학습부(140)는 음성 데이터 및 추출된 얼굴 영상(412)에 기초하여 얼굴 생성 모델(420)을 학습시킬 수 있다. 학습부(140)는 얼굴 생성 모델(420)을 통해 생성된 얼굴 영상(430)이 제대로 생성되었는지 여부를 검토하고, 검토 결과를 얼굴 생성 모델(420)의 학습에 반영하여, 얼굴 생성 모델(420)을 통해 보다 정확한 발화자의 얼굴을 생성할 수 있도록 학습할 수 있다.
예를 들어, 학습부(140)는 발화자의 음성 데이터를 변환한 주파수 영상(411)과 발화자의 음성 데이터에 기초하여 얼굴 영상 추출부(130)에 의해 추출된 얼굴 영상(412)을 결합하여 얼굴 생성 모델(420)에 입력할 입력 영상(410)을 생성할 수 있다. 학습부(140)는 입력 영상(410)을 얼굴 생성 모델(420)에 입력하여 얼굴 영상(430)을 생성하도록 학습시킬 수 있다. 이 때, 학습부(140)는 생성적 적대 신경망(GAN: Generative Adversarial Network) 모델을 사용할 수 있으며, 생성적 적대 신경망은 여러 종류의 모델들로 변경하여 사용될 수 있다. 생성적 적대 신경망은 생성 모델과 판별 모델이 경쟁하면서 실제와 가까운 이미지, 동영상 및 음성 등을 자동으로 만들어내는 기계학습 방식 중 하나로, 얼굴 영상을 생성하는데 대표적으로 활용되고 있는 딥러닝 이미지 생성 모델이다.
학습부(140)는 얼굴 생성 모델(420)에 의해 생성된 얼굴 영상(430)과 발화자의원본 얼굴 영상(440) 간의 비교 분석 결과를 반영할 수 있다. 예를 들어, 학습부(140)는 얼굴 생성 모델(420)에 의해 생성된 얼굴 영상(430)과 발화자의 원본 얼굴 영상(440)에 대하여 영상 분석(450)을 진행할 수 있다.
구체적으로, 학습부(140)는 얼굴 생성 모델(420)에 의해 생성된 얼굴 영상(430)과 발화자의 원본 얼굴 영상(440)에서 추출된 딥러닝 특징 값을 매칭하여 특징 값의 차이를 손실 함수를 통해 학습에 반영할 수 있다. 학습부(140)는 얼굴 생성 모델(420)에 의해 생성된 얼굴 영상(430)을 나이 분석 모델, 성별 분석 모델 등의 다양한 종류의 영상 딥러닝 모델을 사용하여 얼굴 영상(430)을 분석할 수 있다. 영상 분석(450)에 사용되는 모델은, 도 4를 참조하면, 나이 분석 모델, 성별 분석 모델, 인종 분석 모델 및 표정 분석 모델 등을 예시로 도시하였으나, 음성 특징 정보(460)에 따라 다양하게 추가 및 삭제될 수 있다.
학습부(140)는 학습된 얼굴 생성 모델(420)을 통해 생성된 얼굴 영상(430)과 원본 얼굴 영상(440)에 대하여 분석한 영상 분석(450)에 대한 결과를 얼굴 생성 모델(420)의 학습에 반영할 수 있다.
학습부(140)는 얼굴 생성 모델(420)을 통해 생성된 얼굴 영상(430)과 발화자의 음성 특징 정보(460) 간의 비교 분석 결과를 더 반영할 수 있다. 예를 들어, 학습부(140)는 얼굴 생성 모델(420)을 통해 생성된 얼굴 영상(430)과 원본 얼굴 영상(440)을 비교 분석한 영상 분석(450)에 대한 결과를 발화자의 음성 특징 정보(460)와 비교 분석할 수 있다. 구체적으로, 학습부(140)는 영상 분석(450) 결과와 발화자의 음성 특징 정보(460)를 비교 분석하여, 분석 결과가 일치하지 않는 경우엔 얼굴 생성 모델(420)의 학습에 반영하지 않을 수 있다.
이는 두 가지 분석 결과가 일치해야 정확도가 높은 분석이 될 수 있기 때문에 오류가 있는 분석 결과와의 비교를 학습하는 것은 얼굴 생성 모델(420)의 학습에 오류를 발생시킬 수 있다.
이를 통해, 학습부(140)는 얼굴 생성 모델(420)을 통해 생성된 얼굴 영상(430)과 원본 얼굴 영상(440)을 비교 분석한 영상 분석(450)에 대한 결과와 발화자의 음성 특징 정보(460)를 얼굴 생성 모델(420)의 학습에 모두 반영시킴으로써, 보다 정확한 발화자의 얼굴 영상(430)을 생성하도록 얼굴 생성 모델(420)을 학습시킬 수 있다.
도 5는 본 발명의 일 실시예에 따른 생성부를 설명하기 위한 예시적인 도면이다. 도 5를 참조하면, 생성부(150)는 미리 학습된 얼굴 생성 모델(510)을 통해 비식별된 음성 데이터에 대한 얼굴 영상(520)을 생성할 수 있다.
예를 들어, 생성부(150)는 비식별된 음성 데이터를 분석하여 얼굴 영상(520)을 생성할 수 있고, 생성된 얼굴 영상(520)을 비식별된 음성 데이터로부터 추출한 음성 특징 정보(540)와 비교 분석하여 매칭되는 얼굴 정보(530)를 토대로 보다 정확한 발화자의 얼굴 영상(520)을 생성할 수 있다.
생성부(150)는 비식별된 음성 데이터에 대한 음성 특징 정보(540) 및 얼굴 생성 모델(510)을 통해 생성된 얼굴 영상(520)을 분석한 얼굴 정보(530)에 대한 비교 분석 결과를 사용하여 얼굴 영상(520)에 대한 발화자 정보(550)를 생성할 수 있다.
예를 들어, 생성부(150)는 얼굴 생성 모델(510)을 통해 생성된 얼굴 영상(520)을 나이 분석 모델, 성별 분석 모델, 인종 분석 모델 및 표정 분석 모델 등을 사용하여 분석한 얼굴 정보(530)와 음성 특징 정보(540)를 비교 분석하여 매칭되는 정보를 토대로 발화자의 표정 및 감정 상태 등을 포함하는 발화자 정보(550)를 생성할 수 있다.
구체적으로, 일 실시예에 따라 생성되는 발화자 정보(550)는, 도 5를 참조하면, 얼굴 생성 모델(510)을 통해 생성된 얼굴 영상(520)을 나이 분석 모델을 사용하여 분석한 결과(예: 20대)와 음성 특징 정보(540)에 포함되어 있는 나이 정보(예: 20대)를 비교 분석하여 "20대"라는 나이 정보가 일치하는 경우, 해당 얼굴 영상(520)에 대하여 "20대"라는 발화자 정보(550)를 포함할 수 있다.
다른 예를 들어, 생성부(150)는 얼굴 생성 모델(510)을 통해 얼굴 영상(520)을 생성하고, 생성된 얼굴 영상(520)과 음성 특징 정보(540)를 비교 분석하여 발화자의 얼굴, 표정, 나이, 성별, 인종뿐만 아니라, 특히, 발화 내용의 진위 및 그 당시 심리 상태까지 추론한 발화자 정보(550)를 생성할 수 있으므로, 보이스 피싱범 또는 유괴 협박범 등의 범죄자 얼굴을 추정하고 검거하는데 도움이 되는 정보를 제공할 수 있다.
구체적으로, 다른 실시예에 따라 생성되는 발화자 정보(550)는, 도 5를 참조하면, 얼굴 생성 모델(510)을 통해 생성된 얼굴 영상(520)을 표정 분석 모델을 사용하여 분석한 결과(예: 슬픔)와 음성 특징 정보(540)에 포함되어 있는 발화 내용 정보(예: "나는 행복하다")를 비교 분석하여 해당 얼굴 영상(520)에 대하여 발화 내용에 대한 진위 여부가 "거짓말"이라는 발화자 정보(550)를 포함할 수 있다.
이와 같이, 본 발명의 일 실시예에 따른 얼굴 영상 생성 장치(100)는, 비식별된 음성 데이터에 대한 발화자의 실제 얼굴 영상뿐만 아니라 발화자에 대한 정보를 생성함으로써 발화자(용의자)를 추적(검거)하는데 도움을 줄 수 있는 정보를 제공할 수 있다.
예를 들어, 얼굴 영상 생성 장치(100)는 비식별된 음성 데이터만으로 발화자의 나이, 성별, 인종 및 발화 내용과 감정 등을 분석할 수 있고, 분석 결과를 토대로 해당 음성 데이터에 매칭되는 발화자의 얼굴 영상을 생성할 수 있고, 생성된 얼굴 영상에 대한 발화자의 발화 내용의 진위 및 발화 당시 심리 상태까지 분석하여 발화자를 추적하는데 도움을 줄 수 있는 발화자 정보를 제공할 수 있다.
다른 예를 들어, 얼굴 영상 생성 장치(100)는 보이스 피싱 범죄 및 유괴 협박 범죄에 대한 용의자를 검거하기 위해, 전화 또는 녹음된 음성을 통해 입력된 음성 데이터만으로 해당 음성 데이터를 분석할 수 있고, 해당 음성 데이터 분석 결과를 토대로 용의자의 얼굴 영상을 생성할 수 있고, 생성된 용의자 얼굴 영상에 대한 용의자의 발화 내용의 진위 및 발화 당시 심리 상태까지 분석하여 용의자를 검거하는데 도움을 줄 수 있는 용의자 정보를 제공할 수 있다.
도 6은 본 발명의 일 실시예에 따른 얼굴 영상 생성 방법의 순서도이다. 도 6에 도시된 얼굴 영상 생성 방법은 도1 내지 도 5에 도시된 실시예에 따라 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도1 내지 도 5에 도시된 실시예에 따른 얼굴 영상 생성 장치(100)에서 음성 데이터에 기초하여 얼굴 영상을 생성하는 방법에도 적용된다.
단계 S610에서 얼굴 영상 생성 장치는 발화자에 대한 음성 데이터 및 원본 얼굴 영상을 입력 받을 수 있다.
단계 S620에서 얼굴 영상 생성 장치는 음성 데이터를 분석하여 음성 특징 정보를 추출할 수 있다.
단계 S630에서 얼굴 영상 생성 장치는 추출된 음성 특징 정보에 기초하여 얼굴 영상 저장부를 통해 얼굴 영상을 추출할 수 있다.
단계 S640에서 얼굴 영상 생성 장치는 음성 데이터 및 추출된 얼굴 영상에 기초하여 얼굴 생성 모델을 학습시킬 수 있다.
단계 S650에서 얼굴 영상 생성 장치는 학습된 얼굴 생성 모델을 통해 비식별된 음성 데이터에 대한 얼굴 영상을 생성할 수 있다.
상술한 설명에서, 단계 S610 내지 S650은 본 발명의 구현 예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 전환될 수도 있다.
도 1 내지 도 6을 통해 설명된 얼굴 영상 생성 장치(100)에서 음성 데이터에 기초하여 얼굴 영상을 생성하는 방법은 컴퓨터에 의해 실행되는 컴퓨터 판독가능 기록매체에 저장된 컴퓨터 프로그램 또는 컴퓨터에 의해 실행 가능한 명령어들을 포함하는 기록 매체의 형태로도 구현될 수 있다. 또한, 도 1 내지 도 5를 통해 설명된 얼굴 영상 생성 장치(100)에서 음성 데이터에 기초하여 얼굴 영상을 생성하는 방법은 컴퓨터에 의해 실행되는 컴퓨터 판독가능 기록매체에 저장된 컴퓨터 프로그램의 형태로도 구현될 수 있다.
컴퓨터 판독 가능 기록매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 기록매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 얼굴 영상 생성 장치
110: 입력부
120: 음성 특징 정보 추출부
130: 얼굴 영상 추출부
140: 학습부
150: 생성부

Claims (17)

  1. 음성 데이터에 기초하여 얼굴 영상을 생성하는 장치에 있어서,
    발화자에 대한 음성 데이터 및 원본 얼굴 영상을 입력받는 입력부;
    상기 음성 데이터를 분석하여 음성 특징 정보를 추출하는 음성 특징 정보 추출부;
    상기 추출된 음성 특징 정보에 기초하여 얼굴 영상 저장부를 통해 얼굴 영상을 추출하는 얼굴 영상 추출부;
    상기 음성 데이터 및 상기 추출된 얼굴 영상에 기초하여 얼굴 생성 모델을 학습시키는 학습부; 및
    상기 학습된 얼굴 생성 모델을 통해 비식별된 음성 데이터에 대한 얼굴 영상을 생성하는 생성부
    를 포함하는, 얼굴 영상 생성 장치.
  2. 제 1 항에 있어서,
    상기 음성 특징 정보는 상기 발화자의 성별, 나이 및 인종 중 적어도 하나에 대한 정보를 포함하는 발화자의 신체 정보를 포함하는, 얼굴 영상 생성 장치.
  3. 제 1 항에 있어서,
    상기 음성 특징 정보는 상기 발화자에 대한 감정 정보를 포함하는, 얼굴 영상 생성 장치.
  4. 제 1 항에 있어서,
    상기 얼굴 영상 추출부는,
    상기 얼굴 영상 저장부에서 상기 추출된 음성 특징 정보와 매칭되는 적어도 하나 이상의 얼굴 특징 정보를 합성하여 상기 얼굴 영상을 생성하는 것인, 얼굴 영상 생성 장치.
  5. 제 1 항에 있어서,
    상기 학습부는,
    상기 얼굴 생성 모델에 상기 생성된 얼굴 영상과 상기 원본 얼굴 영상 간의 비교 분석 결과를 반영하는 것인, 얼굴 영상 생성 장치.
  6. 제 5 항에 있어서,
    상기 학습부는,
    상기 얼굴 생성 모델에 상기 생성된 얼굴 영상과 상기 음성 특징 정보 간의 비교 분석 결과를 더 반영하는 것인, 얼굴 영상 생성 장치.
  7. 제 1 항에 있어서,
    상기 생성부는,
    상기 비식별된 음성 데이터에 대한 음성 특징 정보 및 상기 생성된 얼굴 정보에 대한 비교 분석 결과에 기초하여 상기 얼굴 영상에 대한 발화자 정보를 생성하는 것인, 얼굴 영상 생성 장치.
  8. 제 1 항에 있어서,
    상기 음성 특징 정보 추출부는 상기 음성 데이터를 주파수 영상으로 변환하고,
    상기 음성 특징 정보 추출부는 상기 변환된 주파수 영상을 분석하여 상기 음성 특징 정보를 추출하는 것인, 얼굴 영상 생성 장치.
  9. 얼굴 영상 생성 장치가 음성 데이터에 기초하여 얼굴 영상을 생성하는 방법에 있어서,
    발화자에 대한 음성 데이터 및 원본 얼굴 영상을 입력받는 단계;
    상기 음성 데이터를 분석하여 음성 특징 정보를 추출하는 단계;
    상기 추출된 음성 특징 정보에 기초하여 얼굴 영상 저장부를 통해 얼굴 영상을 추출하는 단계;
    상기 음성 데이터 및 상기 추출된 얼굴 영상에 기초하여 얼굴 생성 모델을 학습시키는 단계; 및
    상기 학습된 얼굴 생성 모델을 통해 비식별된 음성 데이터에 대한 얼굴 영상을 생성하는 단계
    를 포함하는, 얼굴 영상 생성 방법.
  10. 제 9 항에 있어서,
    상기 음성 특징 정보는 상기 발화자의 성별, 나이 및 인종 중 적어도 하나에 대한 정보를 포함하는 발화자의 신체 정보를 포함하는, 얼굴 영상 생성 방법.
  11. 제 9 항에 있어서,
    상기 음성 특징 정보는 상기 발화자에 대한 감정 정보를 포함하는, 얼굴 영상 생성 방법.
  12. 제 9 항에 있어서,
    상기 얼굴 영상을 추출하는 단계는,
    상기 얼굴 영상 저장부에서 상기 추출된 음성 특징 정보와 매칭되는 적어도 하나 이상의 얼굴 특징 정보를 합성하여 상기 얼굴 영상을 생성하는 것인, 얼굴 영상 생성 방법.
  13. 제 9 항에 있어서,
    상기 얼굴 생성 모델에 상기 생성된 얼굴 영상과 상기 원본 얼굴 영상 간의 비교 분석 결과를 반영하는 단계
    를 더 포함하는 것인, 얼굴 영상 생성 방법.
  14. 제 13 항에 있어서,
    상기 얼굴 생성 모델에 상기 얼굴 영상과 상기 음성 특징 정보 간의 비교 분석 결과를 반영하는 단계
    를 더 포함하는 것인, 얼굴 영상 생성 방법.
  15. 제 9 항에 있어서,
    상기 비식별된 음성 데이터에 대한 음성 특징 정보 및 상기 생성된 얼굴 정보에 대한 비교 분석 결과에 기초하여 상기 얼굴 영상에 대한 발화자 정보를 생성하는 단계
    를 더 포함하는 것인, 얼굴 영상 생성 방법.
  16. 제 9 항에 있어서,
    상기 음성 데이터를 주파수 영상으로 변환하는 단계; 및
    상기 변환된 주파수 영상을 분석하여 상기 음성 특징 정보를 추출하는 단계
    를 더 포함하는 것인, 얼굴 영상 생성 방법.
  17. 음성 데이터에 기초하여 얼굴 영상을 생성하는 명령어들의 시퀀스를 포함하는 컴퓨터 판독가능 기록매체에 저장된 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램은 컴퓨팅 장치에 의해 실행될 경우,
    발화자에 대한 음성 데이터 및 원본 얼굴 영상을 입력받고,
    상기 음성 데이터를 분석하여 음성 특징 정보를 추출하고,
    상기 추출된 음성 특징 정보에 기초하여 얼굴 영상 저장부를 통해 얼굴 영상을 추출하고,
    상기 음성 데이터 및 상기 추출된 얼굴 영상에 기초하여 얼굴 생성 모델을 학습시키고,
    상기 학습된 얼굴 생성 모델을 통해 비식별된 음성 데이터에 대한 얼굴 영상을 생성하도록 하는 명령어들의 시퀀스를 포함하는, 컴퓨터 판독가능 기록매체에 저장된 컴퓨터 프로그램.
KR1020200116702A 2020-09-11 2020-09-11 얼굴 영상 생성 장치, 방법 및 컴퓨터 프로그램 KR20220034396A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200116702A KR20220034396A (ko) 2020-09-11 2020-09-11 얼굴 영상 생성 장치, 방법 및 컴퓨터 프로그램

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200116702A KR20220034396A (ko) 2020-09-11 2020-09-11 얼굴 영상 생성 장치, 방법 및 컴퓨터 프로그램

Publications (1)

Publication Number Publication Date
KR20220034396A true KR20220034396A (ko) 2022-03-18

Family

ID=80936503

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200116702A KR20220034396A (ko) 2020-09-11 2020-09-11 얼굴 영상 생성 장치, 방법 및 컴퓨터 프로그램

Country Status (1)

Country Link
KR (1) KR20220034396A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024101769A1 (ko) * 2022-11-11 2024-05-16 한국전자기술연구원 사용자의 표정과 감정 상태를 적용한 3차원 모델 얼굴 움직임 생성 방법 및 시스템

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190046371A (ko) 2017-10-26 2019-05-07 에스케이텔레콤 주식회사 얼굴 표정 생성 장치 및 방법
KR102096598B1 (ko) 2019-05-02 2020-04-03 넷마블 주식회사 애니메이션 생성 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190046371A (ko) 2017-10-26 2019-05-07 에스케이텔레콤 주식회사 얼굴 표정 생성 장치 및 방법
KR102096598B1 (ko) 2019-05-02 2020-04-03 넷마블 주식회사 애니메이션 생성 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024101769A1 (ko) * 2022-11-11 2024-05-16 한국전자기술연구원 사용자의 표정과 감정 상태를 적용한 3차원 모델 얼굴 움직임 생성 방법 및 시스템

Similar Documents

Publication Publication Date Title
US10621968B2 (en) Method and apparatus to synthesize voice based on facial structures
Tao et al. End-to-end audiovisual speech recognition system with multitask learning
US10438586B2 (en) Voice dialog device and voice dialog method
US12131586B2 (en) Methods, systems, and machine-readable media for translating sign language content into word content and vice versa
WO2017195775A1 (ja) 手話会話支援システム
JP2010256391A (ja) 音声情報処理装置
KR102174922B1 (ko) 사용자의 감정 또는 의도를 반영한 대화형 수어-음성 번역 장치 및 음성-수어 번역 장치
CN108491808B (zh) 用于获取信息的方法及装置
CN111986675A (zh) 语音对话方法、设备及计算机可读存储介质
KR20210078863A (ko) 아바타 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램
KR20200092166A (ko) 감정을 인식하는 서버, 방법 및 컴퓨터 프로그램
KR20220034396A (ko) 얼굴 영상 생성 장치, 방법 및 컴퓨터 프로그램
US20210166685A1 (en) Speech processing apparatus and speech processing method
KR102564570B1 (ko) 멀티모달 감성 분석 시스템 및 방법
JPH02183371A (ja) 自動通訳装置
CN111415662A (zh) 用于生成视频的方法、装置、设备和介质
US20230290371A1 (en) System and method for automatically generating a sign language video with an input speech using a machine learning model
KR20230104582A (ko) 음성을 이용한 안면 검출 방법
Khan et al. Sign language translation in urdu/hindi through microsoft kinect
JP6754154B1 (ja) 翻訳プログラム、翻訳装置、翻訳方法、及びウェアラブル端末
Salman et al. Style extractor for facial expression recognition in the presence of speech
CN109711300A (zh) 盲人辅助沟通方法、装置、计算机设备和存储介质
Chempavathy et al. Deep learning implemented communication system for the auditory and verbally challenged
Larisa et al. Speech emotion recognition using 1D/2D convolutional neural networks
Deb et al. Enhancing Communication for the Deaf and Hard-of-Hearing: A Custom Deep Learning Model-Based Approach for Real-Time Sign Language Recognition and Translation