[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

WO2024101769A1 - 사용자의 표정과 감정 상태를 적용한 3차원 모델 얼굴 움직임 생성 방법 및 시스템 - Google Patents

사용자의 표정과 감정 상태를 적용한 3차원 모델 얼굴 움직임 생성 방법 및 시스템 Download PDF

Info

Publication number
WO2024101769A1
WO2024101769A1 PCT/KR2023/017327 KR2023017327W WO2024101769A1 WO 2024101769 A1 WO2024101769 A1 WO 2024101769A1 KR 2023017327 W KR2023017327 W KR 2023017327W WO 2024101769 A1 WO2024101769 A1 WO 2024101769A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
facial
control information
character image
generating
Prior art date
Application number
PCT/KR2023/017327
Other languages
English (en)
French (fr)
Inventor
김용화
윤상필
홍성희
김영민
홍지수
정진수
이병효
오현찬
Original Assignee
한국전자기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자기술연구원 filed Critical 한국전자기술연구원
Publication of WO2024101769A1 publication Critical patent/WO2024101769A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Definitions

  • the present invention relates to facial motion capture, and more specifically, to a method of automatically generating a virtual character image that tracks and imitates a user's face in real time.
  • a facial motion capture system is a system that captures a user's image with a camera, identifies the user's facial motion, and allows a virtual character to imitate it.
  • the present invention was created to solve the above problems.
  • the purpose of the present invention is to create a virtual character image that imitates the user, by applying the user's facial expression characteristics and emotional state to create a more natural and rich facial expression.
  • a method for generating a user replica character image includes the steps of receiving a user face image; Extracting facial movement from the input image; Generating facial motion control information from the extracted facial motion; extracting a user emotional state; Applying the extracted emotional state to facial movement control information; It includes: generating a character image with a moving face based on facial movement control information.
  • the facial movement control information generation step may be identifying the user's facial expression from the user's facial movement and applying the identified facial expression to the facial movement control information.
  • the facial movement control information generation step may be to identify the user's expression from the user's facial movement by utilizing feature information about the user's facial expression collected in advance.
  • the emotional state extraction step may be extracting the user's emotional state from the extracted facial movements.
  • the application step may be applying information that quantifies the characteristics of facial movement according to the extracted emotional state to facial movement control information.
  • the method for generating a user replica character image includes the steps of receiving a user voice synchronized with a user face image; It may further include converting the input voice into text, and the facial movement control information generating step may refer to text in addition to the extracted facial movement to generate facial movement control information.
  • Text can be referenced to generate control information for mouth movements.
  • the emotional state extraction step may be extracting the user's emotional state from the extracted facial movements and the input user voice.
  • the character image generation step may be to generate a character image by analyzing facial movement control information and using an artificial intelligence model that has been learned to generate a character image with the face moving according to the control information.
  • an input unit that receives a user's face image; a motion extraction unit that extracts facial movement from the input image; a control information generator that generates facial movement control information from the extracted facial movements; an emotion extraction unit that extracts the user's emotional state; An application unit that applies the extracted emotional state to facial movement control information; A character image generating unit generating a character image with a moving face based on facial movement control information is provided.
  • extracting facial movement from a user's face image Generating facial motion control information from the extracted facial motion; Applying the user's emotional state to facial movement control information;
  • a method for generating a user simulated character image comprising: generating a character image with a moving face based on facial movement control information.
  • an extraction unit for extracting facial movement from a user's face image; a control information generator that generates facial movement control information from the extracted facial movements; an application unit that applies the user's emotional state to facial movement control information; A character image generating unit generating a character image with a moving face based on facial movement control information is provided.
  • a foundation is laid for using one's own digital twin character in the digital world such as a non-face-to-face environment, and the digital character's By creating natural movements, we can lay the foundation for using them in digital content such as movies, games, and animations.
  • Figure 2 is a diagram showing the configuration of a user simulation character image generation system according to an embodiment of the present invention
  • FIG. 3 is a flowchart provided to explain a method for generating a user simulation character image according to another embodiment of the present invention.
  • Figure 4 is a diagram showing the configuration of a character creation system according to another embodiment of the present invention.
  • Figure 5 is a flowchart provided to explain a method for generating a user simulation character image according to another embodiment of the present invention.
  • An embodiment of the present invention presents a method and system for generating 3D model facial movements applying an individual's facial expression characteristics and emotional state.
  • a facial movement generation system that moves more similar to the user as a digital twin character is implemented, and arbitrary emotional states can also be applied. This is a technology that allows digital characters to have rich facial expressions.
  • Figure 2 is a diagram illustrating the configuration of a user simulation character image generation system according to an embodiment of the present invention.
  • the 'user simulation character image generation system' (hereinafter abbreviated as 'character creation system') according to an embodiment of the present invention includes an image input unit 110, a facial motion extraction unit 120, and a control information generation unit. (130), an emotion extraction unit 140, an emotion application unit 150, and a character image creation unit 160.
  • the image input unit 110 receives a user's face image captured through a camera in units of consecutive frames.
  • the facial motion extraction unit 120 extracts feature points from the user's face image input through the image input unit 110 and extracts the user's facial movement by identifying the movement of the extracted feature points.
  • the control information generator 130 generates facial motion control information using the facial motion extracted by the facial motion extractor 120.
  • the control information generator 130 utilizes feature information about the user's facial expression collected in advance.
  • control information generator 130 determines the user's facial expression from the user's facial movement and applies the identified facial expression to the facial movement control information.
  • facial expressions are different for each person, facial movements are not directly applied to generate control information, but facial expressions are interpreted and the interpreted facial expressions are reflected in facial movement control information.
  • the emotion extraction unit 140 extracts the user's emotional state from the user's facial movement extracted by the facial motion extraction unit 120. To achieve this, we utilize a known algorithm that estimates emotional states from user facial movements.
  • the emotion application unit 150 reflects the emotional state extracted by the emotion extraction unit 140 in the facial movement control information generated by the control information generation unit 130. For this purpose, information that quantifies the characteristics of facial movements according to emotional state is prepared in advance and used.
  • emotional states appear in facial expressions
  • emotional states cannot be defined by facial expressions. Accordingly, the user's emotional state is interpreted and even the interpreted emotional state is reflected in the facial movement control information, allowing the character to have subtle changes according to the corresponding emotional state, thereby enriching the facial expressions.
  • the character image generator 160 generates and outputs a character image with a moving face based on facial movement control information generated by the control information generator 130 and then reflected in the emotional state by the emotion application unit 150. .
  • the character image generator 160 may generate a character image by analyzing facial movement control information and using an artificial intelligence model learned to generate a character image with the face moving according to the control information.
  • Figure 3 is a flowchart provided to explain a method for generating a user simulation character image according to another embodiment of the present invention.
  • the image input unit 110 first receives the user's face image captured through a camera (S210), and the facial motion extractor 120 extracts the user's face movement from the user's face image input in step S210. Extract (S220).
  • control information generator 130 generates facial movement control information using the facial movement extracted in step S220 and applies the user's facial expression identified from the user's facial movement (S230).
  • the emotion extraction unit 140 extracts the user's emotional state from the user's facial movement extracted in step S220 (S240), and the emotion application unit 150 controls the facial movement generated in step S230 using the emotional state extracted in step S240. Reflected in information (S250).
  • the character image generator 160 generates and outputs a character image with a moving face based on the facial movement control information generated in step S230 and the emotional state reflected in step S250 (S260).
  • Figure 4 is a diagram showing the configuration of a character creation system according to another embodiment of the present invention.
  • the character creation system according to an embodiment of the present invention is a system shown in FIG. 2 in which a voice input unit 170 and a text conversion unit 180 are further added.
  • the voice input unit 170 receives a user's voice synchronized with the user's face image input to the video input unit 110.
  • the text converter 180 is a STT (Speech To Text) module that converts the user's voice input through the voice input unit 170 into text.
  • the text generated by the text conversion unit 180 is transmitted to the control information generation unit 130 and used to generate facial movement control information. Specifically, when generating facial movement control information, the control information generator 130 reflects the text pronounced by the user for control information about mouth movement.
  • the mouth shape is influenced by the pronounced text, when creating the mouth shape movement, it reflects the text pronounced by the user in addition to the user's facial movement, and this can make the mouth shape more accurate and natural.
  • the user's voice input to the voice input unit 170 is referenced to extract the user's emotional state.
  • the emotion extraction unit 140 extracts the user's emotional state by further referring to the user's voice input by the voice input unit 170 in addition to the user's facial movement extracted by the facial motion extraction unit 120.
  • Figure 5 is a flowchart provided to explain a method for generating a user simulation character image according to another embodiment of the present invention.
  • the image input unit 110 first receives the user's face image captured through a camera (S310), and the facial motion extractor 120 extracts the user's face movement from the user's face image input in step S310. Extract (S320).
  • the voice input unit 170 receives the user's voice synchronized with the user's face image input in step S310 (S330), and the text converter 180 converts the user's voice input in step S330 into text (S340).
  • control information generator 130 generates facial movement control information using the facial movement extracted in step S320 and the text converted in step S30 (S350).
  • the emotion extraction unit 140 extracts the user's emotional state from the user's facial movement extracted in step S320 and the user's voice input in step S310 (S360), and the emotion application unit 150 extracts the emotional state extracted in step S360. It is reflected in the facial movement control information generated in step S350 (S370).
  • the character image generator 160 generates and outputs a character image with a moving face based on the facial movement control information generated in step S350 and the emotional state reflected in step S370 (S380).
  • a virtual character that sufficiently reflects the characteristics of an actual user, it lays the foundation for using one's own digital twin character in a digital world such as a non-face-to-face environment, and by creating natural movements of the digital character. It can be used in digital content such as movies, games, and animations.
  • a computer-readable recording medium can be any data storage device that can be read by a computer and store data.
  • computer-readable recording media can be ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical disk, hard disk drive, etc.
  • computer-readable codes or programs stored on a computer-readable recording medium may be transmitted through a network connected between computers.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Child & Adolescent Psychology (AREA)
  • Signal Processing (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Processing Or Creating Images (AREA)

Abstract

사용자의 표정과 감정 상태를 적용한 3D 모델 얼굴 움직임 생성 방법 및 시스템이 제공된다. 본 발명의 실시예에 따른 사용자 모사 캐릭터 영상 생성 방법은 사용자 얼굴 영상에서 얼굴 움직임을 추출하고, 추출된 얼굴 움직임으로부터 얼굴 움직임 제어정보를 생성하며, 사용자 감정 상태를 얼굴 움직임 제어정보에 적용하고, 얼굴 움직임 제어정보를 기초로 얼굴이 움직이는 캐릭터 영상을 생성한다. 이에 의해, 사용자의 표정 특징과 감정 상태를 적용하여 보다 자연스럽고 풍부한 표정을 갖는 캐릭터 영상을 생성할 수 있게 되어, 디지털 캐릭터의 자연스러운 움직임을 만들어 내어 이를 이용한 영화, 게임, 애니메이션 등 디지털 콘텐츠에서 활용할 수 있는 기틀을 마련할 수 있다.

Description

사용자의 표정과 감정 상태를 적용한 3차원 모델 얼굴 움직임 생성 방법 및 시스템
본 발명은 얼굴 모션 캡쳐에 관한 것으로, 더욱 상세하게는 사용자의 얼굴을 실시간으로 추적하면서 모사하는 가상의 캐릭터 영상을 자동으로 생성하는 방법에 관한 것이다.
도 1은 종래의 얼굴 모션 캡쳐 시스템이다. 얼굴 모션 캡쳐 시스템은 카메라로 사용자를 촬영하고, 촬영된 사용자의 얼굴 모션을 파악하여 가상의 캐릭터가 이를 그대로 따라하도록 하는 시스템이다.
사용자의 얼굴 움직임을 실시간으로 추적하면서 이를 가상의 캐릭터에 그대로 반영한다는 점에서, 얼핏 보기에는 유사해 보일 수 있지만, 자연스러운 움직임을 만들어내는 데에는 한계가 있다.
또한 캐릭터의 표정이 실제 사람 같지 않고 부자연스러우며, 풍부하지 못하다는 문제가 있다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 사용자를 모사하는 가상의 캐릭터 영상을 생성함에 있어, 사용자의 표정 특징과 감정 상태를 적용하여 보다 자연스럽고 풍부한 표정을 갖는 캐릭터 영상을 생성하는 방법 및 시스템을 제공함에 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 사용자 모사 캐릭터 영상 생성 방법은 사용자 얼굴 영상을 입력받는 단계; 입력된 영상에서 얼굴 움직임을 추출하는 단계; 추출된 얼굴 움직임으로부터 얼굴 움직임 제어정보를 생성하는 단계; 사용자 감정 상태를 추출하는 단계; 추출된 감정 상태를 얼굴 움직임 제어정보에 적용하는 단계; 얼굴 움직임 제어정보를 기초로, 얼굴이 움직이는 캐릭터 영상을 생성하는 단계;를 포함한다.
얼굴 움직임 제어정보 생성단계는, 사용자 얼굴 움직임으로부터 사용자의 표정을 파악하고, 얼굴 움직임 제어정보에 파악된 표정을 적용하는 것일 수 있다.
얼굴 움직임 제어정보 생성단계는, 미리 수집한 사용자의 얼굴 표정에 대한 특징 정보를 활용하여, 사용자 얼굴 움직임으로부터 사용자의 표정을 파악하는 것일 수 있다.
감정 상태를 추출단계는, 추출된 얼굴 움직임으로부터 사용자의 감정 상태를 추출하는 것일 수 있다.
적용 단계는, 추출된 감정 상태에 따라 얼굴 움직임이 갖는 특성들을 정량화한 정보를 얼굴 움직임 제어정보에 적용하는 것일 수 있다.
본 발명에 따른 사용자 모사 캐릭터 영상 생성 방법은 사용자 얼굴 영상에 동기화된 사용자 음성을 입력받는 단계; 입력된 음성을 텍스트로 변환하는 단계;를 더 포함하고, 얼굴 움직임 제어정보 생성단계는, 추출된 얼굴 움직임 외에 텍스트를 더 참조하여, 얼굴 움직임 제어정보를 생성하는 것일 수 있다.
텍스트는, 입모양 움직임에 대한 제어정보를 생성하기 위해 참조될 수 있다.
감정 상태를 추출단계는, 추출된 얼굴 움직임 및 입력된 사용자 음성으로부터 사용자의 감정 상태를 추출하는 것일 수 있다.
캐릭터 영상 생성 단계는, 얼굴 움직임 제어정보를 분석하여 해당 제어정보에 따라 얼굴이 움직이는 캐릭터 영상을 생성하도록 학습된 인공지능 모델을 활용하여, 캐릭터 영상을 생성하는 것일 수 있다.
본 발명의 다른 측면에 따르면, 사용자 얼굴 영상을 입력받는 입력부; 입력된 영상에서 얼굴 움직임을 추출하는 움직임 추출부; 추출된 얼굴 움직임으로부터 얼굴 움직임 제어정보를 생성하는 제어정보 생성부; 사용자 감정 상태를 추출하는 감정 추출부; 추출된 감정 상태를 얼굴 움직임 제어정보에 적용하는 적용부; 얼굴 움직임 제어정보를 기초로, 얼굴이 움직이는 캐릭터 영상을 생성하는 캐릭터 영상 생성부;를 포함하는 것을 특징으로 하는 사용자 모사 캐릭터 영상 생성 방법이 제공된다.
본 발명의 또다른 측면에 따르면, 사용자 얼굴 영상에서 얼굴 움직임을 추출하는 단계; 추출된 얼굴 움직임으로부터 얼굴 움직임 제어정보를 생성하는 단계; 사용자 감정 상태를 얼굴 움직임 제어정보에 적용하는 단계; 얼굴 움직임 제어정보를 기초로, 얼굴이 움직이는 캐릭터 영상을 생성하는 단계;를 포함하는 것을 특징으로 하는 사용자 모사 캐릭터 영상 생성 방법이 제공된다.
본 발명의 또다른 측면에 따르면, 사용자 얼굴 영상에서 얼굴 움직임을 추출하는 추출부; 추출된 얼굴 움직임으로부터 얼굴 움직임 제어정보를 생성하는 제어정보 생성부; 사용자 감정 상태를 얼굴 움직임 제어정보에 적용하는 적용부; 얼굴 움직임 제어정보를 기초로, 얼굴이 움직이는 캐릭터 영상을 생성하는 캐릭터 영상 생성부;를 포함하는 것을 특징으로 하는 사용자 모사 캐릭터 영상 생성 방법이 제공된다.
이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 사용자를 모사하는 가상의 캐릭터 영상을 생성함에 있어, 사용자의 표정 특징과 감정 상태를 적용하여 보다 자연스럽고 풍부한 표정을 갖는 캐릭터 영상을 생성할 수 있게 된다.
또한 본 발명의 실시예들에 따르면, 실제 사용자의 특징을 충분하게 반영한 가상의 캐릭터를 만듦으로써, 비대면 환경 등의 디지털 세상에서 나만의 디지털 트윈 캐릭터를 이용할 수 있는 기반을 마련하며, 디지털 캐릭터의 자연스러운 움직임을 만들어 내어 이를 이용한 영화, 게임, 애니메이션 등 디지털 콘텐츠에서 활용할 수 있는 기틀을 마련할 수 있다.
도 1은 종래의 얼굴 모션 캡쳐 시스템,
도 2는 본 발명의 일 실시예에 따른 사용자 모사 캐릭터 영상 생성 시스템의 구성을 도시한 도면,
도 3은 본 발명의 다른 실시예에 따른 사용자 모사 캐릭터 영상 생성 방법의 설명에 제공되는 흐름도,
도 4는 본 발명의 또 다른 실시예에 따른 캐릭터 생성 시스템의 구성을 도시한 도면,
도 5는 본 발명의 또 다른 실시예에 따른 사용자 모사 캐릭터 영상 생성 방법의 설명에 제공되는 흐름도이다.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.
본 발명의 실시예에서는 개인의 표정 특징 및 감정 상태를 적용한 3D 모델 얼굴 움직임 생성 방법 및 시스템을 제시한다.
구체적으로 개인의 얼굴 표정이 갖는 특징들을 추출하여 디지털 캐릭터의 얼굴 움직임을 재현하는데 적용함으로써, 디지털 트윈 캐릭터로써 보다 사용자와 비슷하게 움직이는 얼굴 움직임 생성 시스템을 구현하며 임의의 감정 상태도 함께 적용할 수 있도록 하여 디지털 캐릭터가 풍부한 얼굴 표정을 가질 수 있도록 하기 위한 기술이다.
도 2는 본 발명의 일 실시예에 따른 사용자 모사 캐릭터 영상 생성 시스템의 구성을 도시한 도면이다. 본 발명의 실시예에 따른 '사용자 모사 캐릭터 영상 생성 시스템'(이하, '캐릭터 생성 시스템'으로 약칭)은 도시된 바와 같이, 영상 입력부(110), 얼굴 움직임 추출부(120), 제어정보 생성부(130), 감정 추출부(140), 감정 적용부(150) 및 캐릭터 영상 생성부(160)를 포함하여 구성된다.
영상 입력부(110)는 카메라를 통해 촬영되는 사용자 얼굴 영상을 연속하는 프레임 단위로 입력받는다.
얼굴 움직임 추출부(120)는 영상 입력부(110)를 통해 입력되는 사용자 얼굴 영상에서 특징점들을 추출하고, 추출된 특징점들의 움직임을 파악하여 사용자 얼굴 움직임을 추출한다.
제어정보 생성부(130)는 얼굴 움직임 추출부(120)에 의해 추출된 얼굴 움직임을 이용하여 얼굴 움직임 제어정보를 생성한다. 이를 위해, 제어정보 생성부(130)는 미리 수집한 사용자의 얼굴 표정에 대한 특징 정보를 활용한다.
구체적으로 제어정보 생성부(130)는 사용자 얼굴 움직임으로부터 사용자의 표정을 파악하고, 얼굴 움직임 제어정보에 파악된 표정을 적용하는 것이다.
얼굴 표정은 사람 마다 다르기 때문에, 얼굴 움직임을 제어정보 생성에 그대로 적용하는 것이 아닌, 얼굴 표정을 해석하고 해석된 얼굴 표정을 얼굴 움직임 제어정보에 반영한 것이다.
이는 사용자의 디지털 트윈에 해당하는 캐릭터가 사용자의 얼굴 움직임을 그대로 따라한다기 보다 사용자의 표정을 캐릭터의 표정으로 소화하여 표현하게 된다는 점에서, 보다 자연스러운 표정을 갖는 캐릭터를 생성하도록 하여 준다.
감정 추출부(140)는 얼굴 움직임 추출부(120)에 의해 추출된 사용자 얼굴 움직임으로부터 사용자 감정 상태를 추출한다. 이를 위해 사용자 얼굴 움직임으로부터 감정 상태를 추정하는 기지의 알고리즘을 활용한다.
감정 적용부(150)는 감정 추출부(140)에 의해 추출된 감정 상태를 제어정보 생성부(130)에 의해 생성된 얼굴 움직임 제어정보에 반영한다. 이를 위해 감정 상태에 따라 얼굴 움직임이 갖는 특성들을 정량화한 정보를 사전에 마련하여 이용한다.
감정 상태는 얼굴 표정에 나타나기는 하지만 감정 상태를 얼굴 표정으로 정의할 수는 없다. 이에 따라 사용자의 감정 상태를 해석하고 해석된 감정 상태 까지 얼굴 움직임 제어정보에 반영하여, 캐릭터가 해당하는 감정 상태에 따라 미묘한 변화를 갖도록 하여 표정이 보다 풍부해질 수 있도록 하여 준다.
캐릭터 영상 생성부(160)는 제어정보 생성부(130)에 의해 생성된 후 감정 적용부(150)에 의해 감정 상태가 반영된 얼굴 움직임 제어정보를 기초로, 얼굴이 움직이는 캐릭터 영상을 생성하여 출력한다.
캐릭터 영상 생성부(160)는 얼굴 움직임 제어정보를 분석하여 해당 제어정보에 따라 얼굴이 움직이는 캐릭터 영상을 생성하도록 학습된 인공지능 모델을 활용하여, 캐릭터 영상을 생성할 수 있다.
도 3은 본 발명의 다른 실시예에 따른 사용자 모사 캐릭터 영상 생성 방법의 설명에 제공되는 흐름도이다.
캐릭터 영상을 생성하기 위해, 먼저 영상 입력부(110)는 카메라를 통해 촬영되는 사용자 얼굴 영상을 입력받고(S210), 얼굴 움직임 추출부(120)는 S210단계에서 입력되는 사용자 얼굴 영상에서 사용자 얼굴 움직임을 추출한다(S220).
그러면 제어정보 생성부(130)는 S220단계에서 추출된 얼굴 움직임을 이용하여 얼굴 움직임 제어정보를 생성하되, 사용자 얼굴 움직임으로부터 파악되는 사용자의 표정을 적용한다(S230).
이후 감정 추출부(140)는 S220단계에서 추출된 사용자 얼굴 움직임으로부터 사용자 감정 상태를 추출하고(S240), 감정 적용부(150)는 S240단계에서 추출된 감정 상태를 S230단계에서 생성된 얼굴 움직임 제어정보에 반영한다(S250).
그리고 캐릭터 영상 생성부(160)는 S230단계에서 생성된 후 S250단계에서 감정 상태가 반영된 얼굴 움직임 제어정보를 기초로, 얼굴이 움직이는 캐릭터 영상을 생성하여 출력한다(S260).
도 4는 본 발명의 또 다른 실시예에 따른 캐릭터 생성 시스템의 구성을 도시한 도면이다. 본 발명의 실시예에 따른 캐릭터 생성 시스템은 도 2에 도시된 시스템에서 음성 입력부(170) 및 텍스트 변환부(180)가 더 추가된 것이다.
음성 입력부(170)는 영상 입력부(110)에 입력되는 사용자 얼굴 영상에 동기화된 사용자 음성을 입력받는다. 텍스트 변환부(180)는 음성 입력부(170)를 통해 입력되는 사용자 음성을 텍스트로 변환하는 STT(Speech To Text) 모듈이다.
텍스트 변환부(180)에 의해 생성된 텍스트는 제어정보 생성부(130)로 전달되어 얼굴 움직임 제어정보 생성에 이용된다. 구체적으로 제어정보 생성부(130)는 얼굴 움직임 제어정보를 생성함에 있어, 입모양의 움직임에 대한 제어정보에 대해서는 사용자가 발음한 텍스트를 반영한다.
입모양은 발음한 텍스트에 영향을 받기 때문에, 입모양의 움직임을 생성함에 있어 사용자의 얼굴 움직임 외에 사용자가 발음한 텍스트를 더 반영하는 것이며, 이로 인해 입모양이 보다 정확하고 자연스러워 질 수 있다.
한편 음성 입력부(170)에 입력된 사용자 음성은 사용자의 감정 상태 추출에 참조된다. 구체적으로 감정 추출부(140)는 얼굴 움직임 추출부(120)에 의해 추출된 사용자 얼굴 움직임 외에 음성 입력부(170)에 의해 입력된 사용자 음성을 더 참조하여 사용자 감정 상태를 추출한다.
설명한 기능들을 제외한 도 4의 시스템 구성들의 기능들은 도 2의 시스템 구성들의 기능들과 동등하므로, 중복되는 설명은 생략한다.
도 5는 본 발명의 또 다른 실시예에 따른 사용자 모사 캐릭터 영상 생성 방법의 설명에 제공되는 흐름도이다.
캐릭터 영상을 생성하기 위해, 먼저 영상 입력부(110)는 카메라를 통해 촬영되는 사용자 얼굴 영상을 입력받고(S310), 얼굴 움직임 추출부(120)는 S310단계에서 입력되는 사용자 얼굴 영상에서 사용자 얼굴 움직임을 추출한다(S320).
그리고 음성 입력부(170)는 S310단계에서 입력되는 사용자 얼굴 영상에 동기화된 사용자 음성을 입력받고(S330), 텍스트 변환부(180)는 S330단계에서 입력되는 사용자 음성을 텍스트로 변환한다(S340).
그러면 제어정보 생성부(130)는 S320단계에서 추출된 얼굴 움직임과 S30단계에서 변환된 텍스트를 이용하여 얼굴 움직임 제어정보를 생성한다(S350).
이후 감정 추출부(140)는 S320단계에서 추출된 사용자 얼굴 움직임과 S310단계에서 입력된 사용자 음성으로부터 사용자 감정 상태를 추출하고(S360), 감정 적용부(150)는 S360단계에서 추출된 감정 상태를 S350단계에서 생성된 얼굴 움직임 제어정보에 반영한다(S370).
그리고 캐릭터 영상 생성부(160)는 S350단계에서 생성된 후 S370단계에서 감정 상태가 반영된 얼굴 움직임 제어정보를 기초로, 얼굴이 움직이는 캐릭터 영상을 생성하여 출력한다(S380).
지금까지 사용자를 모사하는 가상의 캐릭터 영상을 생성함에 있어, 사용자의 표정 특징과 감정 상태를 적용하여 보다 자연스럽고 풍부한 표정을 갖는 캐릭터 영상을 생성하는 방법에 대해 바람직한 실시예들을 들어 상세히 설명하였다.
위 실시예들에서는 실제 사용자의 특징을 충분하게 반영한 가상의 캐릭터를 만듦으로써, 비대면 환경 등의 디지털 세상에서 나만의 디지털 트윈 캐릭터를 이용할 수 있는 기반을 마련하며, 디지털 캐릭터의 자연스러운 움직임을 만들어 냄으로써 이를 이용한 영화, 게임, 애니메이션 등 디지털 콘텐츠에서 활용할 수 있도록 하였다.
한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims (12)

  1. 사용자 얼굴 영상을 입력받는 단계;
    입력된 영상에서 얼굴 움직임을 추출하는 단계;
    추출된 얼굴 움직임으로부터 얼굴 움직임 제어정보를 생성하는 단계;
    사용자 감정 상태를 추출하는 단계;
    추출된 감정 상태를 얼굴 움직임 제어정보에 적용하는 단계;
    얼굴 움직임 제어정보를 기초로, 얼굴이 움직이는 캐릭터 영상을 생성하는 단계;를 포함하는 것을 특징으로 하는 사용자 모사 캐릭터 영상 생성 방법.
  2. 청구항 1에 있어서,
    얼굴 움직임 제어정보 생성단계는,
    사용자 얼굴 움직임으로부터 사용자의 표정을 파악하고, 얼굴 움직임 제어정보에 파악된 표정을 적용하는 것을 특징으로 하는 사용자 모사 캐릭터 영상 생성 방법.
  3. 청구항 2에 있어서,
    얼굴 움직임 제어정보 생성단계는,
    미리 수집한 사용자의 얼굴 표정에 대한 특징 정보를 활용하여, 사용자 얼굴 움직임으로부터 사용자의 표정을 파악하는 것을 특징으로 하는 사용자 모사 캐릭터 영상 생성 방법.
  4. 청구항 1에 있어서,
    감정 상태를 추출단계는,
    추출된 얼굴 움직임으로부터 사용자의 감정 상태를 추출하는 것을 특징으로 하는 사용자 모사 캐릭터 영상 생성 방법.
  5. 청구항 1에 있어서,
    적용 단계는,
    추출된 감정 상태에 따라 얼굴 움직임이 갖는 특성들을 정량화한 정보를 얼굴 움직임 제어정보에 적용하는 것을 특징으로 하는 사용자 모사 캐릭터 영상 생성 방법.
  6. 청구항 1에 있어서,
    사용자 얼굴 영상에 동기화된 사용자 음성을 입력받는 단계;
    입력된 음성을 텍스트로 변환하는 단계;를 더 포함하고,
    얼굴 움직임 제어정보 생성단계는,
    추출된 얼굴 움직임 외에 텍스트를 더 참조하여, 얼굴 움직임 제어정보를 생성하는 것을 특징으로 하는 사용자 모사 캐릭터 영상 생성 방법.
  7. 청구항 6에 있어서,
    텍스트는,
    입모양 움직임에 대한 제어정보를 생성하기 위해 참조되는 것을 특징으로 하는 사용자 모사 캐릭터 영상 생성 방법.
  8. 청구항 6에 있어서,
    감정 상태를 추출단계는,
    추출된 얼굴 움직임 및 입력된 사용자 음성으로부터 사용자의 감정 상태를 추출하는 것을 특징으로 하는 사용자 모사 캐릭터 영상 생성 방법.
  9. 청구항 1에 있어서,
    캐릭터 영상 생성 단계는,
    얼굴 움직임 제어정보를 분석하여 해당 제어정보에 따라 얼굴이 움직이는 캐릭터 영상을 생성하도록 학습된 인공지능 모델을 활용하여, 캐릭터 영상을 생성하는 것을 특징으로 하는 사용자 모사 캐릭터 영상 생성 방법.
  10. 사용자 얼굴 영상을 입력받는 입력부;
    입력된 영상에서 얼굴 움직임을 추출하는 움직임 추출부;
    추출된 얼굴 움직임으로부터 얼굴 움직임 제어정보를 생성하는 제어정보 생성부;
    사용자 감정 상태를 추출하는 감정 추출부;
    추출된 감정 상태를 얼굴 움직임 제어정보에 적용하는 적용부;
    얼굴 움직임 제어정보를 기초로, 얼굴이 움직이는 캐릭터 영상을 생성하는 캐릭터 영상 생성부;를 포함하는 것을 특징으로 하는 사용자 모사 캐릭터 영상 생성 방법.
  11. 사용자 얼굴 영상에서 얼굴 움직임을 추출하는 단계;
    추출된 얼굴 움직임으로부터 얼굴 움직임 제어정보를 생성하는 단계;
    사용자 감정 상태를 얼굴 움직임 제어정보에 적용하는 단계;
    얼굴 움직임 제어정보를 기초로, 얼굴이 움직이는 캐릭터 영상을 생성하는 단계;를 포함하는 것을 특징으로 하는 사용자 모사 캐릭터 영상 생성 방법.
  12. 사용자 얼굴 영상에서 얼굴 움직임을 추출하는 추출부;
    추출된 얼굴 움직임으로부터 얼굴 움직임 제어정보를 생성하는 제어정보 생성부;
    사용자 감정 상태를 얼굴 움직임 제어정보에 적용하는 적용부;
    얼굴 움직임 제어정보를 기초로, 얼굴이 움직이는 캐릭터 영상을 생성하는 캐릭터 영상 생성부;를 포함하는 것을 특징으로 하는 사용자 모사 캐릭터 영상 생성 방법.
PCT/KR2023/017327 2022-11-11 2023-11-02 사용자의 표정과 감정 상태를 적용한 3차원 모델 얼굴 움직임 생성 방법 및 시스템 WO2024101769A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2022-0150085 2022-11-11
KR1020220150085A KR20240068992A (ko) 2022-11-11 2022-11-11 사용자의 표정과 감정 상태를 적용한 3d 모델 얼굴 움직임 생성 방법 및 시스템

Publications (1)

Publication Number Publication Date
WO2024101769A1 true WO2024101769A1 (ko) 2024-05-16

Family

ID=91032769

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/017327 WO2024101769A1 (ko) 2022-11-11 2023-11-02 사용자의 표정과 감정 상태를 적용한 3차원 모델 얼굴 움직임 생성 방법 및 시스템

Country Status (2)

Country Link
KR (1) KR20240068992A (ko)
WO (1) WO2024101769A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060091435A (ko) * 2005-02-15 2006-08-21 에스케이 텔레콤주식회사 이동통신망에서 3d 캐릭터를 이용한 뉴스 정보를 제공하는방법 및 시스템
KR20170062089A (ko) * 2015-11-27 2017-06-07 주식회사 매니아마인드 3d아바타의 표정 구현 방법 및 프로그램
KR20190000087A (ko) * 2017-06-22 2019-01-02 전자부품연구원 얼굴 표정 인식을 활용한 멀티미디어 가공 방법 및 시스템
KR20200053163A (ko) * 2018-11-08 2020-05-18 백으뜸 무안경식 가상현실 콘텐츠 제공 장치 및 방법
KR20220034396A (ko) * 2020-09-11 2022-03-18 주식회사 케이티 얼굴 영상 생성 장치, 방법 및 컴퓨터 프로그램

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060091435A (ko) * 2005-02-15 2006-08-21 에스케이 텔레콤주식회사 이동통신망에서 3d 캐릭터를 이용한 뉴스 정보를 제공하는방법 및 시스템
KR20170062089A (ko) * 2015-11-27 2017-06-07 주식회사 매니아마인드 3d아바타의 표정 구현 방법 및 프로그램
KR20190000087A (ko) * 2017-06-22 2019-01-02 전자부품연구원 얼굴 표정 인식을 활용한 멀티미디어 가공 방법 및 시스템
KR20200053163A (ko) * 2018-11-08 2020-05-18 백으뜸 무안경식 가상현실 콘텐츠 제공 장치 및 방법
KR20220034396A (ko) * 2020-09-11 2022-03-18 주식회사 케이티 얼굴 영상 생성 장치, 방법 및 컴퓨터 프로그램

Also Published As

Publication number Publication date
KR20240068992A (ko) 2024-05-20

Similar Documents

Publication Publication Date Title
JP2021192222A (ja) 動画インタラクティブ方法と装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム
US11847726B2 (en) Method for outputting blend shape value, storage medium, and electronic device
WO2023080266A1 (ko) 딥러닝 네트워크를 이용한 얼굴 변환 방법 및 장치
CN112528768A (zh) 视频中的动作处理方法、装置、电子设备及存储介质
WO2024101769A1 (ko) 사용자의 표정과 감정 상태를 적용한 3차원 모델 얼굴 움직임 생성 방법 및 시스템
WO2021025279A1 (ko) Ai 기반의 표정 분류 및 리타겟팅을 통한 가상 캐릭터의 표정 최적화 시스템 및 방법, 및 컴퓨터 판독 가능한 저장매체
WO2022108275A1 (ko) 인공지능을 활용한 가상 얼굴 생성 방법 및 장치
WO2021261687A1 (ko) 영상 기반 사람의 3차원 자세 및 형상 모델 복원 장치 및 방법
Shindo et al. Design and implementation of scenario language for cyber teaching assistant
WO2017116015A1 (ko) 콘텐츠 인식 기술 기반 콘텐츠 자동 생성 방법 및 시스템
CN116597053A (zh) 一种基于使用场景驱动vr数字人的方法
WO2023277421A1 (ko) 수어의 형태소 단위 분할 방법, 형태소 위치 예측 방법 및 데이터 증강 방법
WO2022260385A1 (ko) 얼굴형을 고려하며 딥러닝 네트워크를 이용하는 배경 및 얼굴 합성 방법 및 장치
CN110070869A (zh) 语音互动生成方法、装置、设备和介质
CN116129860A (zh) 基于ai人工智能技术的元宇宙虚拟人图书自动播报方法
CN114445529A (zh) 一种基于动作及语音特征的人脸图像动画方法和系统
CN117119123A (zh) 一种基于视频素材生成数字人视频的方法及系统
WO2018048227A1 (ko) 다차원 반응형 영상 생성장치, 방법 및 프로그램, 및 다차원 반응형 영상 재생방법 및 프로그램
CN115690280A (zh) 一种三维形象发音口型模拟方法
WO2024117616A1 (ko) 카메라와 모션캡쳐 인식을 활용한 실시간 동기화 및 인터랙션이 가능한 디지털 휴먼을 활용한 메타버스 서비스를 제공하는 시스템 및 방법
CN116016837A (zh) 一种沉浸式虚拟网络会议方法和装置
WO2020218899A1 (ko) 다중 반응형영상 제작방법, 다중 반응형영상 메타데이터 생성방법, 인간 행동을 이해하기 위한 상호 작용 데이터 분석 방법 및 이를 이용한 프로그램
WO2022131390A1 (ko) 다중 시점 이미지를 사용한 자가지도 학습 기반 3차원 사람 자세 추정 방법
WO2023090960A1 (ko) 3차원 캐릭터 치환 시스템 및 방법
WO2024101485A1 (ko) 움직이는 이미지 홀로그램 제작 방법 및 시스템

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23889031

Country of ref document: EP

Kind code of ref document: A1