[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR102174922B1 - 사용자의 감정 또는 의도를 반영한 대화형 수어-음성 번역 장치 및 음성-수어 번역 장치 - Google Patents

사용자의 감정 또는 의도를 반영한 대화형 수어-음성 번역 장치 및 음성-수어 번역 장치 Download PDF

Info

Publication number
KR102174922B1
KR102174922B1 KR1020190095674A KR20190095674A KR102174922B1 KR 102174922 B1 KR102174922 B1 KR 102174922B1 KR 1020190095674 A KR1020190095674 A KR 1020190095674A KR 20190095674 A KR20190095674 A KR 20190095674A KR 102174922 B1 KR102174922 B1 KR 102174922B1
Authority
KR
South Korea
Prior art keywords
sign language
voice
verbal
speech
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
KR1020190095674A
Other languages
English (en)
Inventor
고상기
정혜동
조충상
박한무
김창조
Original Assignee
한국전자기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자기술연구원 filed Critical 한국전자기술연구원
Priority to KR1020190095674A priority Critical patent/KR102174922B1/ko
Application granted granted Critical
Publication of KR102174922B1 publication Critical patent/KR102174922B1/ko
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/009Teaching or communicating with deaf persons
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Machine Translation (AREA)

Abstract

본 발명의 일실시예에 따르면, 수어 영상으로부터 수어 사용자의 감정 또는 의도를 나타내는 비언어적 수어정보를 획득하고 비언어-음성표현으로 변환하는 비언어-음성표현 변환모듈, 및 상기 수어 영상을 음성문장으로 번역하고 상기 비언어-음성표현을 반영한 대화형음성을 생성하여 출력하는 수어-음성 번역모듈을 포함하는, 사용자의 감정 또는 의도를 반영한 대화형 수어-음성 번역 장치를 제공하고, 음성으로부터 음성 언어 사용자의 감정 또는 의도를 나타내는 비언어적 음성정보를 획득하고 비언어-수어표현으로 변환하는 비언어-수어표현 변환모듈, 및 상기 음성을 수어문장으로 변환하고 상기 비언어-수어표현을 반영한 대화형수어영상을 생성하여 출력하는 음성-수어 번역모듈을 포함하는, 사용자의 감정 또는 의도를 반영한 대화형 음성-수어 번역 장치를 제공함으로써, 수어 사용자와 음성 언어 사용자의 대화시 수어와 음성 언어의 언어적인 의미전달 뿐만 아니라 의사소통 과정에서 표현되는 감정이나 의도와 같은 비언어적 의미도 전달할 수 있는 의사소통 환경을 제공할 수 있다.

Description

사용자의 감정 또는 의도를 반영한 대화형 수어-음성 번역 장치 및 음성-수어 번역 장치{Interactive sign language-voice translation apparatus and voice-sign language translation apparatus reflecting user emotion and intention}
본 발명은 사용자의 감정 또는 의도를 반영한 대화형 수어-음성 번역 장치 및 음성-수어 번역 장치에 관한 것이다.
수어(手語, Sign language)는 농인에게 의사를 전달하고자 할 때 사용되는 가장 대표적인 방식 중 하나로 제스처(gesture)을 통해 의사를 전달하는 방법을 말한다. 수어는 독자적인 문법을 갖고, 정해진 의미를 갖는 제스처를 연속적으로 수행하여 문장을 표현한다. 수어의 문법은 음성과 문자로 표현되는 음성 언어(vocal language)의 문법과 다르다. 따라서, 청인이 수어로 불편함 없이 의사를 표현하기 위해서는 전문 교육을 장시간 이수해야하기 때문에, 청인의 대다수가 수어를 이용하여 농인과 의사소통하는 것에 어려움을 겪는다. 이러한 의사 전달의 어려움을 해결하기 위해서는 청인에게 익숙한 음성 언어를 농인에게 익숙한 수어로 변환해주는 기술이 필수적으로 요구된다.
종래에, 깊이 카메라(Depth camera)를 이용하여 깊이(Depth) 정보와 RGB 영상 정보를 동시에 입력받거나 수화 입력용 글러브(glove)를 이용하여 제스처를 입력받고 특징부를 추출하여 수어와 매칭하는 컴퓨터 비젼 기술 기반의 행동인지 또는 수어 인식 기술이 알려져 있다. 알려진 수어 인식 또는 번역 기술은 수어 사용자의 제스처로 표현되는 시각적인 정보를 음성 언어로 변환하는데 초점을 두고 있다. 따라서 수어 사용자가 의사소통 과정에서 표출하는 감정이나 의도를 인식하지 못하고 단순히 음성 언어를 번역하므로, 번역된 음성 언어는 수어 사용자의 감정이나 의도를 반영하지 못하는 한계가 있다. 동일하게, 알려진 음성 언어를 수어로 번역하는 기술은 음성 언어의 언어적 의미를 수어로 번역하여 전달하는데 초점을 두고 있어서, 음성 언어 사용자가 의사소통 과정에서 표출하는 감정이나 의도가 번역된 수어에 반영되지 못하는 한계가 있다.
KR 10-2017-0094668 A
본 발명의 일실시예에 따른 목적은, 시각적으로 표현되는 언어인 수어를 인식하고 청각적으로 표현되는 언어인 음성 언어로 번역하고 음성으로 출력하는 과정에서, 수어영상으로부터 획득하는 수어의 비언어적 표현을 음성 언어의 비언어적 표현으로 변환하고 음성 합성시에 적용하여 감정이나 의도가 반영된 음성을 생성하는 수어-음성 번역 장치를 제공하는 것이다.
본 발명의 일실시예에 따른 목적은, 청각적으로 표현되는 음성 언어를 인식하고 시각적으로 표현되는 언어인 수어로 번역하고 영상으로 출력하는 과정에서, 음성 언어 사용자가 말하는 음성 또는 음성 언어 사용자를 촬영한 영상으로부터 획득하는 음성 언어의 비언어적 표현을 수어의 비언어적 표현으로 변환하고 영상 생성시에 적용하여 감정이나 의도가 반영된 영상을 생성하는 음성-수어 번역 장치를 제공하는 것이다.
본 발명의 일실시예에 따른 사용자의 감정 또는 의도를 반영한 대화형 수어-음성 번역 장치는, 수어 영상으로부터 수어 사용자의 감정 또는 의도를 나타내는 비언어적 수어정보를 획득하고 비언어-음성표현으로 변환하는 비언어-음성표현 변환모듈, 및 상기 수어 영상을 음성문장으로 번역하고 상기 비언어-음성표현을 반영한 대화형음성을 생성하여 출력하는 수어-음성 번역모듈을 포함할 수 있다.
또한, 상기 비언어-음성표현 변환모듈은 얼굴 인식 및 모션 인식을 통하여 상기 수어 영상으로부터 수어 사용자의 감정 또는 의도를 추론하기 위한 정보를 추출하고, 추출한 정보를 분류 및 라벨링하여 대화형음성을 합성하기 위한 비언어적 수어정보를 획득하는 비언어적 수어정보 획득부를 포함할 수 있다.
또한, 상기 비언어-음성표현 변환모듈은 상기 비언어적 수어정보를 음성 언어의 비언어적 표현으로 변환하여 특징 벡터 형태로 구성한 비언어-음성표현을 생성하는 비언어-음성표현 특징 변환부를 포함할 수 있다.
또한, 상기 수어-음성 번역모듈은, 제1 딥러닝 신경망 네트워크를 이용하여 상기 수어 영상을 수어의 의미 단위인 글로스의 시퀀스로 변환하고, 글로스의 시퀀스를 음성문장으로 변환하는 수어-음성문장 번역부, 및 제3 딥러닝 신경망 네트워크를 이용하여 상기 음성문장에 비언어-음성표현을 반영하여 대화형음성으로 합성하여 출력하는 대화형음성 합성부를 포함할 수 있다.
또한, 상기 대화형음성 합성부는 TTS 를 이용하여 상기 음성문장을 음성으로 변환하되, 비언어-음성표현을 반영하여 상기 음성을 변형하여 합성한 대화형음성을 출력할 수 있다.
또한, 상기 대화형음성 합성부는 음성 언어에서 의미를 나타내는 언어적 요소 이외에 음성 출력 속도, 음색, 목소리 톤, 대화형 말줄임 및 사용자 설정 취향 중에서 하나 이상을 포함하는 비언어-음성표현을 반영하여 상기 대화형음성을 합성할 수 있다.
본 발명의 일실시예에 따른 사용자의 감정 또는 의도를 반영한 대화형 음성-수어 번역 장치는, 음성으로부터 음성 언어 사용자의 감정 또는 의도를 나타내는 비언어적 음성정보를 획득하고 비언어-수어표현으로 변환하는 비언어-수어표현 변환모듈, 및 상기 음성을 수어문장으로 변환하고 상기 비언어-수어표현을 반영한 대화형수어영상을 생성하여 출력하는 음성-수어 번역모듈을 포함할 수 있다.
또한, 상기 비언어-수어표현 변환모듈은 상기 음성으로부터 음성 언어 사용자의 감정 또는 의도를 추론하기 위한 정보를 추출하고, 추출한 정보를 분류 및 라벨링하여 대화형수어영상을 합성하기 위한 비언어적 음성정보를 획득하는 비언어적 음성정보 획득부를 포함할 수 있다.
또한, 상기 비언어적 음성정보 획득부는 상기 음성 이외에 음성 언어 사용자를 촬영한 영상으로부터 비언어적 음성정보를 더 획득할 수 있다.
또한, 상기 비언어-수어표현 변환모듈은 상기 비언어적 음성정보를 수어의 비언어적 표현으로 변환하여 특징 벡터 형태로 구성한 비언어-수어표현을 생성하는 비언어-수어표현 특징 변환부를 포함할 수 있다.
또한, 상기 음성-수어 번역모듈은 시퀀스 투 시퀀스 기반으로 음성을 음성문장으로 STT 변환하는 음성문장 인식부를 포함할 수 있다.
또한, 상기 음성-수어 번역모듈은 제5 딥러닝 신경망 네트워크를 이용하여 음성을 수어문장으로 변환하고, 상기 수어문장에 비언어-수어표현을 반영하여 상기 대화형수어영상을 합성하여 출력하는 음성문장-수어 번역부를 포함할 수 있다.
또한, 상기 음성문장-수어 번역부는 상기 제5 딥러닝 신경망 네트워크를 이용하여 음성문장을 수어의 의미 단위인 글로스의 시퀀스로 변환하는 음성문장-글로스 번역부, 및 생성 모델(Generative model)에 기반하여 상기 글로스의 시퀀스에 비언어-수어표현을 반영하여 상기 대화형수어영상을 합성하여 출력하는 대화형수어영상 합성부를 포함할 수 있다.
또한, 상기 대화형수어영상 합성부는 수어에서 의미를 나타내는 언어적 요소 이외에 얼굴 표정, 영상 출력 속도, 제스쳐 출력 형태, 사용자 설정 취향 중에서 하나 이상을 포함하는 비언어-수어표현을 반영하여 상기 대화형수어영상을 합성하고 출력할 수 있다.
본 발명의 특징 및 이점들은 첨부도면에 의거한 다음의 상세한 설명으로 더욱 명백해질 것이다.
이에 앞서 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이고 사전적인 의미로 해석되어서는 아니 되며, 발명자가 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합되는 의미와 개념으로 해석되어야만 한다.
본 발명의 일실시예에 따르면, 수어 사용자와 음성 언어 사용자의 감정이나 의도가 반영된 번역을 제공하므로, 수어와 음성 언어의 언어적인 의미전달 뿐만 아니라 의사소통 과정에서 표현되는 비언어적 의미도 전달할 수 있다.
또한, 본 발명의 일실시예에 따르면, 수어 사용자 단말과 음성 언어 사용자 단말이 서버와 실시간으로 데이터를 송수신하여, 실시간으로 번역된 대화형수어영상 또는 대화형음성을 제공받을 수 있어서 자연스러운 대화 환경을 제공할 수 있다.
도 1은 본 발명의 일실시예에 따른 사용자의 감정 또는 의도를 반영한 대화형 수어-음성 번역 장치 및 음성-수어 번역 장치가 제공하는 대화환경을 나타낸 도면이다.
도 2는 본 발명의 일실시예에 따른 사용자의 감정 또는 의도를 반영한 대화형 수어-음성 번역 장치 및 음성-수어 번역 장치, 수어 사용자 단말, 음성 언어 사용자 단말을 나타낸 도면이다.
도 3은 본 발명의 일실시예에 따른 감정 또는 의도를 인식하는 과정을 나타낸 도면이다.
도 4는 본 발명의 일실시예에 따른 수어-음성문장 번역부를 나타낸 도면이다.
도 5는 본 발명의 일실시에에 따른 음성문장-수어 번역부를 나타낸 도면이다.
본 발명의 일실시예의 목적, 특정한 장점들 및 신규한 특징들은 첨부된 도면들과 연관되어지는 이하의 상세한 설명과 바람직한 실시예들로부터 더욱 명백해질 것이다. 본 명세서에서 각 도면의 구성요소들에 참조번호를 부가함에 있어서, 동일한 구성 요소들에 한해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 번호를 가지도록 하고 있음에 유의하여야 한다. 또한, "일면", "타면", "제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위해 사용되는 것으로, 구성요소가 상기 용어들에 의해 제한되는 것은 아니다. 이하, 본 발명의 일실시예를 설명함에 있어서, 본 발명의 일실시예의 요지를 불필요하게 흐릴 수 있는 관련된 공지 기술에 대한 상세한 설명은 생략한다.
이하, 첨부된 도면을 참조하여, 본 발명의 일실시예를 상세히 설명한다.
도 1은 본 발명의 일실시예에 따른 사용자의 감정 또는 의도를 반영한 대화형 수어-음성 번역 장치(100) 및 음성-수어 번역 장치(200)가 제공하는 대화환경을 나타낸 도면이다.
수어-음성 번역 장치(100)는 수어 사용자가 표현하는 수어를 번역하여 음성 언어 사용자에게 음성을 제공하고, 음성-수어 번역 장치(200)는 음성 언어 사용자가 표현하는 음성을 번역하여 수어 사용자에게 수어를 제공한다. 수어 사용자 단말(300)은 수어 사용자의 수어를 입력받아 수어-음성 번역 장치(100)로 제공할 수 있고, 음성-수어 번역 장치(200)로부터 대화형수어영상을 입력받아 수어 사용자에게 제공할 수 있다. 음성 언어 사용자 단말(400)은 음성 언어 사용자의 음성을 입력받아 음성-수어 번역 장치(200)로 제공할 수 있고, 수어-음성 번역 장치(100)로부터 대화형음성을 입력받아 음성 언어 사용자에게 제공할 수 있다. 대화형음성은 수어 사용자의 수어를 음성 언어로 번역하여 음성으로 생성한 것이고, 대화형수어영상은 음성 언어 사용자의 음성을 수어로 번역하여 영상으로 생성한 것이다.
수어 사용자 단말(300)은 수어 사용자가 표현하는 수어를 입력받고, 서버(300)가 제공하는 대화형수어영상을 수어 사용자에게 제공할 수 있는 정보처리장치이다. 음성 언어 사용자 단말(400)은 음성 언어 사용자가 표현하는 음성 언어를 입력받고, 서버(300)가 제공하는 대화형음성을 음성 언어 사용자에게 제공할 수 있는 정보처리장치이다. 수어-음성 번역 장치(100) 및 음성-수어 번역 장치(200)는 정보처리기능을 갖는 컴퓨터 장치이다. 수어-음성 번역 장치(100) 및 음성-수어 번역 장치(200)는 각각 별개의 장치로 구성되거나, 하나의 장치로 구성될 수 있다. 수어 사용자 단말(300) 및 음성 언어 사용자 단말(400)은 수어-음성 번역 장치(100) 및 음성-수어 번역 장치(200)와 직접 연결되거나 유무선 네트워크를 통해 연결되어 실시간으로 데이터를 송수신할 수 있다. 수어 사용자 단말(300) 및 음성 언어 사용자 단말(400)은 스마트폰(smartphone), PC, 태블릿 PC, 키오스크, 스마트 글라스(smart glass) 등의 정보처리장치일 수 있다.
본 명세서에서 수어 사용자 단말(300), 음성 언어 사용자 단말(400), 수어-음성 번역 장치(100) 및 음성-수어 번역 장치(200)가 서로 별도의 구성인 것으로 설명하고 있으나, 임의의 정보처리장치가 수어 사용자 단말(300), 음성 언어 사용자 단말(400), 수어-음성 번역 장치(100) 및 음성-수어 번역 장치(200) 중에서 둘 이상의 기능을 함께 수행하도록 구현될 수 있다. 예를 들어, 임의의 단말이 수어 사용자 단말(300)과 음성 언어 사용자 단말(400)의 기능을 동시에 수행할 수 있고, 이러한 단말은 수어 사용자 단말(300)이면서 음성 언어 사용자 단말(400)이므로 본 발명의 권리범위에 포함되는 것임을 이해할 수 있다.
편의 서비스 제공 장치(500)는 음성 언어 사용자 단말(400) 또는 수어-음성 번역 장치(100)와 직접 또는 유무선 네트워크를 통해 연결되어, 수어 사용자가 표현하는 수어를 번역한 음성문장에 기초하여 다양한 서비스를 수어 사용자에게 제공하는 장치이다. 본 발명의 일실시예에 따른 감정과 의도가 반영된 수어-음성 번역 장치(100)를 이용하면 수어 사용자가 수어를 이용하여 편의 서비스 제공 장치(500)에 필요한 명령을 입력할 수 있는 이점이 있다.
도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 사용자의 감정 또는 의도를 반영한 대화형 수어-음성 번역 장치(100)는, 수어 영상으로부터 수어 사용자의 감정 또는 의도를 나타내는 비언어적 수어정보를 획득하고 비언어-음성표현으로 변환하는 비언어-음성표현 변환모듈(110), 및 상기 수어 영상을 음성문장으로 번역하고 상기 비언어-음성표현을 반영한 대화형음성을 생성하여 출력하는 수어-음성 번역모듈(120)을 포함할 수 있다.
또한, 본 발명의 일실시예에 따른 사용자의 감정 또는 의도를 반영한 대화형 음성-수어 번역 장치(200)는, 음성으로부터 음성 언어 사용자의 감정 또는 의도를 나타내는 비언어적 음성정보를 획득하고 비언어-수어표현으로 변환하는 비언어-수어표현 변환모듈(210), 및 상기 음성을 수어문장으로 변환하고 상기 비언어-수어표현을 반영한 대화형수어영상을 생성하여 출력하는 음성-수어 번역모듈(220)을 포함할 수 있다.
본 발명의 일실시예에 따른 감정과 의도가 반영된 수어-음성 번역 장치(100)를 이용한 번역 방법은, 수어-음성 번역 장치(100)가, 수어 사용자의 수어를 촬영하여 생성한 수어 영상을 획득하여 번역하려는 언어를 입력받는 소스 언어 수신단계(S10), 수어-음성 번역 장치(100)의 비언어-음성표현 변환모듈(110)이, 수어 영상으로부터 수어 사용자의 감정 또는 의도를 나타내는 비언어적 수어정보를 획득하여 비언어-음성표현으로 변환하여 비언어적 정보를 변환하는 비언어-음성표현 변환 단계(S20), 수어-음성 번역 장치(100)의 수어-음성 번역모듈(120)이, 수어 영상으로부터 인식한 수어를 음성문장으로 번역하고, 음성문장에 비언어-음성표현을 적용하여 대화형음성을 생성하는 수어-음성 번역 단계(S30)를 포함할 수 있다.
본 발명의 일실시예에 따른 감정과 의도가 반영된 음성-수어 번역 장치(200)를 이용한 번역 방법은, 음성-수어 번역 장치(200)가, 음성 언어 사용자의 음성을 녹음하여 생성한 음성 및 음성 언어 사용자를 촬영한 영상을 획득하여 번역하려는 언어를 입력받는 소스 언어 수신단계(P10), 음성-수어 번역 장치(200)의 비언어-수어표현 변환모듈(210)이, 음성으로부터 음성 언어 사용자의 감정 또는 의도를 나타내는 비언어적 음성정보를 획득하여 비언어-수어표현으로 변환하여 비언어적 정보를 변환하는 비언어-수어표현 변환 단계(P20), 음성-수어 번역 장치(200)의 음성-수어 번역모듈(220)이, 음성으로부터 인식한 음성문장을 수어로 번역하고, 수어에 비언어-수어표현을 적용하여 대화형수어영상을 생성하는 음성-수어 번역 단계(P30)를 포함할 수 있다.
수어 영상은 수어 사용자가 표현하는 수어를 카메라로 촬영하여 생성한 영상 데이터이다. 비언어적 수어정보는 수어 사용자가 수어로 전달하고자 하는 언어적 의미가 아니다. 비언어적 수어정보는 수어 사용자의 표정, 시선, 손의 이동속도 등으로 전달되는 감정 또는 의도와 같은 비언어적인 정보이다. 비언어-음성표현은 음성 언어에서 감정 또는 의도를 전달할 수 있는 음성의 속도, 음색, 어조, 크기 등의 요소이다.
수어는 언어적 의미를 표현하기 위한 정해진 동작들의 연속으로 표현될 수 있다. 음성문장은 언어적 의미를 표현하기 위한 정해진 소리의 연속으로 표현되거나, 문자로 표현될 수 있다.
음성은 음성 언어 사용자가 소리로 표현하는 음성 언어를 마이크(421)로 녹음하여 생성한 사운드 데이터이다. 음성 언어 사용자를 촬영한 영상은 음성 언어 사용자가 음성 언어를 표현하는 것을 카메라로 촬영하여 생성한 영상 데이터이다. 비언어적 음성정보는 음성 언어 사용자가 음성 언어로 전달하고자 하는 언어적 의미가 아니다. 비언어적 음성정보는 감정 또는 의도와 같은 비언어적 정보이다. 비언어적 음성정보는 사운드-기반 비언어 정보와 영상-기반 비언어 정보를 포함한다. 사운드-기반 비언어 정보는 음성으로부터 획득할 수 있는 음성 언어의 속도, 음색, 어조, 크기 등의 요소를 통해 전달되는 감정 또는 의도와 같은 비언어적인 정보이다. 영상-기반 비언어 정보는 음성 언어 촬영 정보로부터 획득할 수 있는 음성 언어 사용자의 표정, 시선, 몸동작 등으로 전달되는 감정 또는 의도와 같은 비언어적인 정보이다. 비언어-수어표현은 수어에서 감정 또는 의도를 전달할 수 있는 표정, 시선, 손의 이동속도, 동작의 크기 등의 요소이다.
수어는 시각으로 전달되는 언어이고 음성 언어는 청각으로 전달되는 언어이기 때문에, 수어에서 표현되는 비언어적 요소와 음성 언어에서 표현되는 비언어적 요소가 상이하다. 예를 들어 수어는 손동작의 빠르기나 크기 등의 요소를 통하여 비언어 정보를 전달할 수 있으나, 음성 언어는 소리로 표현되므로 손동작의 빠르기나 크기를 그대로 전달할 수 없다. 반대로, 음성 언어는 음성의 어조, 빠르기, 크기, 음색 등의 요소를 통하여 비언어 정보를 전달할 수 있으나, 수어는 손동작 등의 신체의 움직임으로 표현되므로 음성의 어조, 빠르기, 크기, 음색 등을 그대로 전달할 수 없다.
본 발명의 일실시예에 따르면, 수어를 음성 언어로 번역하여 제공하는 과정에서, 비언어-음성표현 변환모듈(110)에서 비언어적 수어정보를 비언어-음성표현으로 변환하고, 수어-음성 번역모듈(120)에서 번역된 음성문장을 대화형음성으로 합성하는 과정에서 비언어-음성표현을 반영하며, 반대로 음성 언어를 수어로 번역하여 제공하는 과정에서, 비언어-수어표현 변환모듈(210)에서 비언어적 음성정보를 비언어-수어표현으로 변환하고, 음성-수어 번역모듈(220)에서 번역된 수어를 대화형수어영상으로 합성하는 과정에서 비언어-수어표현을 반영할 수 있다. 즉, 비언어 정보의 표현 방식이 다른 수어와 음성 언어의 비언어 정보를 상호간에 변환하여 반영할 수 있다.
종래, 수어와 음성 언어를 번역하여 제공하는 방법 또는 장치들은 수어 또는 음성 언어의 언어적인 의미만을 전달할 수 있어서, 표정이나 말의 빠르기나 손동작의 크기나 시선 등의 비언어적인 요소들을 통해 전달되는 감정이나 의도를 전달할 수 없는 문제가 있었다. 이에 비하여, 본 발명의 일실시예는, 수어와 음성 언어의 언어적인 의미전달 뿐만 아니라 의사소통 과정에서 표현되는 감정이나 의도와 같은 비언어적 의미도 전달할 수 있다. 또한, 본 발명의 일실시예는, 수어 사용자 단말(300)과 음성 언어 사용자 단말(400)이 수어-음성 번역 장치(100) 또는 음성-수어 번역 장치(200)와 실시간으로 데이터를 송수신하여 실시간으로 번역된 대화형수어영상 또는 대화형음성을 제공하므로, 사용자에게 자연스러운 대화 환경을 제공할 수 있다.
도 2는 본 발명의 일실시예에 따른 사용자의 감정 또는 의도를 반영한 대화형 수어-음성 번역 장치(100) 및 음성-수어 번역 장치(200), 수어 사용자 단말(300), 음성 언어 사용자 단말(400)을 나타낸 도면이다.
도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 수어 사용자 단말(300)은, 수어 사용자가 표현하는 수어를 촬영하여 수어 영상을 생성하고, 수어 영상을 수어-음성 번역 장치(100)로 제공하는 수어 획득부(310), 음성-수어 번역 장치(200)로부터 대화형수어영상을 수신하여 수어 사용자에게 시각적으로 표시하는 수어 표시부(320)를 포함할 수 있다.
수어 사용자 단말(300)의 수어 획득부(310)가, 수어 사용자가 표현하는 수어를 촬영하여 수어 영상을 생성하고, 수어 영상을 수어-음성 번역 장치(100)로 제공하며, 수어-음성 번역 장치(100)가 수어 영상을 수신하는 과정을 통해 소스 언어 수신단계(S10)가 수행될 수 있다. 수어 획득부(310)는 제1 카메라(311)를 포함할 수 있다. 제1 카메라(311)는 2D RGB 타입의 영상을 생성할 수 있다. 수어 획득부(310)는 제1 카메라(311)를 통해 수어 사용자가 표현하는 수어를 촬영하여 수어 영상을 생성할 수 있다.
수어 표시부(320)가 표시하는 대화형수어영상은, 음성-수어 번역 장치(200)가 음성 및 음성 언어 사용자를 촬영한 영상으로부터 음성 언어 사용자의 감정 또는 의도를 나타내는 비언어적 음성정보를 획득하여 비언어-수어표현으로 변환하고, 음성을 번역한 수어에 비언어-수어표현을 적용하여 생성한 것일 수 있다. 수어 표시부(320)는 제1 디스플레이(321)를 포함할 수 있다. 제1 디스플레이(321)는 LCD, OLED, 홀로그램, 등 다양한 방식의 디스플레이를 포함할 수 있다. 제1 디스플레이(321)는 음성-수어 번역 장치(200)로부터 수신한 대화형수어영상을 시각적으로 표현하여 수어 사용자에게 제공할 수 있다.
수어 사용자 단말(300)은 제1 통신부(미도시) 및 제1 저장부(미도시)를 더 포함할 수 있다. 제1 통신부는 수어-음성 번역 장치(100) 또는 음성-수어 번역 장치(200)와 직접 또는 유무선 네트워크를 통하여 연결되어 데이터를 실시간으로 송수신할 수 있다. 제1 저장부는 수어 사용자 단말(300)이 본 발명의 일실시예에 따른 기능을 수행하기 위한 프로그램 코드를 저장할 수 있고, 수어 영상 또는 대화형수어영상을 저장할 수 있다.
본 발명의 일실시예에 따른 음성 언어 사용자 단말(400)은, 음성 언어 사용자의 목소리를 녹음하여 음성을 생성하고, 음성 언어 사용자를 촬영한 영상을 생성하여, 음성과 음성 언어 사용자를 촬영한 영상을 음성-수어 번역 장치(200)로 제공하는 음성 언어 획득부(420), 및 수어-음성 번역 장치(100)로부터 대화형음성을 수신하여 음성 언어 사용자에게 청각적으로 표시하는 수어 표시부(320)를 포함할 수 있다.
음성 언어 사용자 단말(400)의 음성 언어 획득부(420)가, 음성 언어 사용자의 목소리를 녹음하여 음성을 생성하고, 음성 언어 사용자를 촬영한 영상을 생성하고, 음성과 음성 언어 사용자를 촬영한 영상을 음성-수어 번역 장치(200)로 제공하며, 음성-수어 번역 장치(200)가 음성과 음성 언어 사용자를 촬영한 영상을 수신하는 과정을 통해 소스 언어 수신단계(P10)가 수행될 수 있다.
음성 언어 획득부(420)는 마이크(421), 제2 카메라(422) 및 입력기기(423)를 포함할 수 있다. 마이크(421)는 음성 언어 사용자가 목소리로 표현하는 음성 언어를 녹음하여 사운드 데이터 형식의 음성을 생성할 수 있다. 제2 카메라(422)는 2D RGB 타입의 영상을 생성할 수 있다. 입력기기(423)는 키보드, 터치패널, 가상키보드 등을 포함할 수 있으며, 입력기기(423)는 음성 언어 사용자가 문자로 입력하는 음성 언어를 입력받아 텍스트 데이터 형식의 음성문장을 생성할 수 있다. 음성 언어 획득부(420)는 마이크(421)를 통해 음성 언어 사용자가 말하는 음성 언어를 녹음하여 음성을 생성하고, 제2 카메라(422)를 통해 음성 언어 사용자가 말하는 장면을 촬영하여 음성 언어 사용자를 촬영한 영상을 생성하며, 입력기기(423)를 통해 음성 언어 사용자로부터 문장을 입력받아 음성문장을 생성할 수 있다.
음성 언어 표시부(410)는 스피커(411) 및 제2 디스플레이(412)를 포함할 수 있다. 스피커(411)는 대화형음성을 소리로 출력하여 음성 언어 사용자에게 청각적으로 제공할 수 있다. 대화형음성은 수어-음성 번역 장치(100)가 수어 영상으로부터 수어 사용자의 감정 또는 의도를 나타내는 비언어적 수어정보를 획득하여 비언어-음성표현으로 변환하고 수어를 음성으로 번역하여 비언어-음성표현을 적용하여 생성한 것일 수 있다. 제2 디스플레이(412)는 LCD, OLED, 홀로그램, 등 다양한 방식의 디스플레이를 포함할 수 있다. 제2 디스플레이(412)는 수어-음성 번역 장치(100)로부터 수신한 음성문장을 텍스트 형식으로 시각적으로 표시하여 음성 언어 사용자에게 제공할 수 있다.
음성 언어 사용자 단말(400)은 제2 통신부(미도시) 및 제2 저장부(미도시)를 더 포함할 수 있다. 제2 통신부는 수어-음성 번역 장치(100) 또는 음성-수어 번역 장치(200)와 직접 또는 유무선 네트워크를 통하여 연결되어 데이터를 실시간으로 송수신할 수 있다. 제2 저장부는 음성 언어 사용자 단말(400)이 본 발명의 일실시예에 따른 기능을 수행하기 위한 프로그램 코드를 저장할 수 있고, 음성, 음성 언어 사용자를 촬영한 영상 또는 대화형음성을 저장할 수 있다.
수어-음성 번역 장치(100) 또는 음성-수어 번역 장치(200)는 각각 통신부(미도시) 및 저장부(미도시)를 더 포함할 수 있다. 통신부는 수어 사용자 단말(300) 또는 음성 언어 사용자 단말(400)과 직접 또는 유무선 네트워크를 통해 실시간으로 데이터를 송수신할 수 있다. 저장부는 수어-음성 번역 장치(100) 또는 음성-수어 번역 장치(200)가 본 발명의 일실시예에 따른 기능을 수행하기 위한 프로그램 코드를 저장할 수 있고, 수어 영상, 대화형수어영상, 음성, 음성 언어 사용자를 촬영한 영상 또는 대화형음성을 저장할 수 있다.
도 3은 본 발명의 일실시예에 따른 감정 또는 의도를 인식하는 과정을 나타낸 도면이다.
도 2 및 도 3(a)에 도시된 바와 같이, 수어-음성 번역 장치(100)의 비언어-음성표현 변환모듈(110)은 얼굴 인식 및 모션 인식을 통하여 수어 영상으로부터 수어 사용자의 감정 또는 의도를 추론하기 위한 정보를 추출하고, 추출한 정보를 분류 및 라벨링하여 대화형음성을 합성하기 위한 비언어적 수어정보를 획득하는 비언어적 수어정보 획득부(111)를 포함할 수 있다. 그리고, 비언어-음성표현 변환모듈(110)은 비언어적 수어정보를 음성 언어의 비언어적 표현으로 변환하여 특징 벡터 형태로 구성한 비언어-음성표현을 생성하는 비언어-음성표현 특징 변환부(112)를 포함할 수 있다.
비언어-음성표현 변환모듈(110)은 비언어-음성표현 변환 단계(S20)를 수행할 수 있다. 비언어-음성표현 변환 단계(S20)는, 비언어-음성표현 변환모듈(110)의 비언어적 수어정보 획득부(111)가, 얼굴 인식 및 모션 인식을 통하여 수어 영상으로부터 수어 사용자의 감정 또는 의도를 추론하기 위한 정보를 추출하고, 추출한 정보를 분류 및 라벨링하여 대화형음성을 합성하기 위한 비언어적 수어정보를 획득하는 과정이다. 비언어-음성표현 변환 단계(S20)는 비언어적 수어정보 획득단계(S21)와 비언어-음성표현 생성단계(S22)를 포함할 수 있다.
비언어적 수어정보 획득부(111)는 비언어적 수어정보 획득단계(S21)를 수행한다. 비언어적 수어정보 획득단계(S21)는 수어 영상에서 수어 사용자의 감정 또는 의도를 추론하기 위한 정보를 추출한다. 수어 사용자의 감정 또는 의도를 추론하기 위한 정보는 수어 동작의 크기, 속도, 수어 사용자의 시선, 표정 등을 포함할 수 있다. 수어 영상으로부터 비언어 정보를 획득하고 분석하기 위하여 얼굴 인식, 동영상 기반 감정 인식, 동작을 인식하는 모션 인식, 또는 손의 이동 속도 및 시선을 분석하는 Gaze Saliency 기반의 의도 인식을 수행할 수 있다. 비언어적 수어정보 획득부(111)는 비언어적 수어정보 획득단계(S21)에서 추출한 정보에 기초하여 수어 사용자의 감정 또는 의도가 어떤 종류의 감정 또는 의도인지 분류하여 라벨링(Labeling)하고 그 크기를 수치화하여 비언어적 수어정보를 생성할 수 있다.
비언어-음성표현 변환모듈(110)의 비언어-음성표현 특징 변환부(112)는 비언어적 수어정보를 대화형음성 합성에 사용하기 위하여, 비언어적 수어정보에 포함된 감정 또는 의도의 종류 및 크기를 음성 언어에 반영할 수 있는 비언어-음성표현을 생성하는 비언어-음성표현 생성단계(S22)를 수행한다. 비언어-음성표현 생성단계(S22)는 비언어적 수어정보를 음성 언어에서 감정 또는 의도를 나타내기 위한 비언어-음성표현으로 변환하는 것이다.
비언어-음성표현 특징 변환부(112)는 인식가능한 감정 또는 의도의 종류 및 크기를 전체 벡터 공간으로 하고, 비언어적 수어정보에 포함된 감정 또는 의도의 종류 및 크기를 지시하도록 형성된 One-Hot Vector 형태의 특성 벡터로 비언어-음성표현을 생성할 수 있다. 이렇게 생성된 비언어-음성표현은 음성문장을 음성으로 합성하는 과정에 반영될 수 있다.
음성-수어 번역 장치(200)의 비언어-수어표현 변환모듈(210)은 음성 또는 사용자를 촬영한 영상으로부터 음성 언어 사용자의 감정 또는 의도를 추론하기 위한 정보를 추출하고, 추출한 정보를 분류 및 라벨링하여 대화형수어영상을 합성하기 위한 비언어적 음성정보를 획득하는 비언어적 음성정보 획득부(211)를 포함할 수 있다. 즉, 비언어적 음성정보 획득부(211)는 음성으로부터 비언어적 음성정보를 획득할 수 있고, 음성 이외에 음성 언어 사용자를 촬영한 영상으로부터 비언어적 음성정보를 더 획득할 수 있다.
그리고, 비언어-수어표현 변환모듈(210)은 비언어적 음성정보를 수어의 비언어적 표현으로 변환하여 특징 벡터 형태로 구성한 비언어-수어표현을 생성하는 비언어-수어표현 특징 변환부(212)를 포함할 수 있다.
비언어-수어표현 변환모듈(210)은 비언어적 음성정보 변환 단계(P20)를 수행할 수 있다. 비언어적 음성정보 변환 단계(P20)는, 비언어-수어표현 변환모듈(210)의 비언어적 음성정보 획득부(211)가, 음성 또는 음성 언어 사용자를 촬영한 영상에서 음성 언어 사용자의 감정 또는 의도를 추론하기 위한 정보를 추출하고, 추출한 정보를 분류 및 라벨링하여 대화형수어영상을 합성하기 위한 비언어적 음성정보를 획득하는 과정이다. 비언어적 음성정보 변환 단계(P20)는 비언어적 음성정보 획득단계(P21), 및 비언어-수어표현 생성단계(P22)를 포함할 수 있다.
비언어적 음성정보 획득부(211)는 비언어적 음성정보 획득단계(P21)를 수행한다. 비언어적 음성정보 획득단계(P21)는 음성 또는 음성 언어 사용자를 촬영한 영상에서 음성 언어 사용자의 감정 또는 의도를 추론하기 위한 정보를 추출한다. 음성 언어 사용자의 감정 또는 의도를 추론하기 위한 정보는 음성의 속도, 어조, 크기, 음색 등을 포함할 수 있다. 음성 또는 음성 언어 사용자를 촬영한 영상으로부터 비언어 정보를 획득하고 분석하기 위하여, 음성 인식, 음성 스케일링 변조, 주파수 변조, 얼굴 인식, 동영상 기반 감정 인식, 동작을 인식하는 모션 인식, 손의 이동 속도 및 시선을 분석하는 Gaze Saliency 기반의 의도 인식 등을 수행할 수 있다. 비언어적 음성정보 획득부(211)는 비언어적 음성정보 획득단계(P21)에서 추출한 정보에 기초하여 음성 언어 사용자의 감정 또는 의도가 어떤 종류의 감정 또는 의도인지 분류하여 라벨링(Labeling)하고 그 크기를 수치화하여 비언어적 음성정보를 생성할 수 있다.
비언어-수어표현 변환모듈(210)의 비언어-수어표현 특징 변환부(212)는 비언어적 음성정보를 대화형수어영상 생성에 사용하기 위하여, 비언어적 음성정보에 포함된 감정 또는 의도의 종류 및 크기를 수어에 반영할 수 있는 비언어-수어표현을 생성하는 비언어-수어표현 생성단계(P22)를 수행한다. 비언어-수어표현 생성단계(P22)는 비언어적 음성정보를 수어에서 감정 또는 의도를 나타내기 위한 비언어-수어표현으로 변환하는 것이다.
비언어-수어표현 특징 변환부(212)는 인식가능한 감정 또는 의도의 종류 및 크기를 전체 벡터 공간으로 하고, 비언어적 음성정보에 포함된 감정 또는 의도의 종류 및 크기를 지시하도록 형성된 One-Hot Vector 형태로 비언어-수어표현을 생성할 수 있다. 이렇게 생성된 비언어-수어표현은 수어를 영상으로 생성하는 과정에서 반영될 수 있다.
다시 도 2를 참조하면, 수어-음성 번역 장치(100)의 수어-음성 번역모듈(120)은, 제1 딥러닝 신경망 네트워크를 이용하여 수어 영상을 수어의 의미 단위인 글로스의 시퀀스로 변환하고, 글로스의 시퀀스를 음성문장으로 변환하는 수어-음성문장 번역부(121), 및 제3 딥러닝 신경망 네트워크를 이용하여 상기 음성문장에 비언어-음성표현을 반영하여 대화형음성으로 합성하여 출력하는 대화형음성 합성부(122)를 포함할수 있다.
수어-음성 번역모듈(120)은 수어-음성 번역 단계(S30)를 수행할 수 있다. 수어-음성 번역 단계(S30)는 수어-음성문장 번역단계(S31) 및 대화형음성 합성단계(S32)를 포함할 수 있다. 수어-음성 번역모듈(120)의 수어-음성문장 번역부(121)는 수어 영상으로부터 수어를 인식하고, 수어를 음성문장으로 번역하여 수어-음성문장 번역단계(S31)를 수행한다. 수어-음성 번역모듈(120)의 대화형음성 합성부(122)는 음성문장과 비언어-음성표현을 입력받아 대화형음성을 생성하도록 학습된 제3 딥러닝 신경망 네트워크(DNN-3)를 이용하여, 수어-음성문장 번역부(121)에서 번역된 음성문장과 비언어-음성표현 특징 변환부(112)가 생성한 비언어-음성표현을 입력받아 수어 사용자의 감정 또는 의도가 반영된 대화형음성을 생성하여 대화형음성 합성단계(S32)를 수행한다.
도 4는 본 발명의 일실시예에 따른 수어-음성문장 번역부(121)를 나타낸 도면이다.
수어-음성문장 번역부(121)는 수어 영상으로부터 수어의 언어적 의미를 나타내는 수어를 인식하고, 수어의 언어적 의미를 음성문장으로 번역한다. 수어-음성문장 번역부(121)는 수어 영상을 입력받아 수어를 글로스의 시퀀스로 출력하도록 학습된 제1 딥러닝 신경망 네트워크(DNN-1)를 이용하여, 수어 영상에 기초하여 수어를 글로스의 시퀀스로 인식하는 글로스 인식부(121a), 및 글로스의 시퀀스를 입력받아 음성문장으로 출력하도록 학습된 제2 딥러닝 신경망 네트워크(DNN-2)를 이용하여, 글로스의 시퀀스로 이루어진 제1 수어문장을 제1 음성문장으로 번역하는 글로스-음성문장 번역부(121b)를 포함할 수 있다.
글로스(Gloss)는 수어의 의미단위이다. 수어문장은 수어의 문법에 따라 하나 또는 복수의 글로스의 시퀀스(sequence)로 이루어진다. 글로스의 시퀀스는 복수의 글로스가 수어 문법에 따라 순서대로 나열되는 것이다. 하나의 글로스는 하나 또는 복수의 동작의 연속으로 이루어진다. 수어 사용자가 하나의 수어문장을 표현하는 경우, 수어 사용자는 복수의 글로스를 연속적으로 실시하게 되고, 즉 복수의 동작을 연속적으로 실시하게 된다. 수어 영상은 이러한 복수개의 연속적인 동작들을 촬영한 영상이고, 수어 영상을 음성문장으로 곧바로 번역하는 경우 잘못된 번역이 발생할 가능성이 있다.
수어-음성문장 번역부(121)의 글로스 인식부(121a)는 수어 영상에 포함된 복수의 연속적인 동작들을 수어의 의미단위인 글로스 단위로 인식한다. 글로스 인식부(121a)는 제1 딥러닝 신경망 네트워크(DNN-1)를 포함한다. 제1 딥러닝 신경망 네트워크(DNN-1)는 순환 신경망 구조로 이루어진 인코더와 순환 신경망 구조로 이루어진 디코더를 포함하는 시퀀스 투 시퀀스 구조를 갖는다. 제1 딥러닝 신경망 네트워크(DNN-1)는 입력이 수어 영상이고 정답이 글로스의 시퀀스인 학습데이터를 이용하여 학습된다.
더 구체적으로, 제1 딥러닝 신경망 네트워크(DNN-1)의 입력은, 수어 영상에서 수어 사용자의 신체의 특징점들을 추출하고 시간의 흐름에 따라 변화하는 특징점들의 좌표값을 순서대로 나열한 데이터일 수 있다. 학습된 제1 딥러닝 신경망 네트워크(DNN-1)는 수어 영상을 입력받으면 학습된 바에 따라 글로스의 시퀀스로 이루어진 수어를 출력한다.
수어-음성문장 번역부(121)의 글로스-음성문장 번역부(121b)는 글로스의 시퀀스로 이루어진 수어를 음성 언어 단어의 시퀀스로 이루어진 음성문장으로 번역한다. 글로스-음성문장 번역부(121b)는 제2 딥러닝 신경망 네트워크(DNN-2)를 포함한다. 제2 딥러닝 신경망 네트워크(DNN-2)는 순환 신경망 구조로 이루어진 인코더와 순환 신경망 구조로 이루어진 디코더를 포함하는 시퀀스 투 시퀀스 구조를 갖는다.
수어의 문법과 음성 언어의 문법은 상이하므로 어순이 서로다르고, 단순히 글로스의 시퀀스에 따라 동일한 순서로 대응하는 음성 언어 단어를 나열하는 방식으로 수어와 음성 언어를 번역할 수 없다. 시퀀스 투 시퀀스 구조의 제2 딥러닝 신경망 네트워크(DNN-2)는 학습 과정에서 수어 문법과 음성 언어 문법의 어순에 관한 정보를 함께 학습하므로, 수어의 문법에 따른 글로스의 시퀀스를 입력하더라도 음성 언어의 문법에 맞는 음성 언어 단어의 시퀀스를 출력할 수 있다. 제2 딥러닝 신경망 네트워크(DNN-2)는 입력이 글로스의 시퀀스이고 정답이 단어의 시퀀스로 이루어진 음성문장인 학습데이터를 이용하여 학습된다. 학습된 제2 딥러닝 신경망 네트워크(DNN-2)는 수어를 입력받으면 학습된 바에 따라 번역된 음성문장을 출력한다.
다시 도 2를 참조하면, 대화형음성 합성부(122)는 TTS 를 이용하여 상기 음성문장을 음성으로 변환하되, 비언어-음성표현을 반영하여 상기 음성을 변형하여 합성한 대화형음성을 출력한다. TTS는 음성문장에 기초하여 대화형음성을 생성하는 텍스트 투 사운드(Text To Sound, TTS) 기능을 말한다. 구체적으로, 대화형음성 합성부(122)는 음성 언어에서 의미를 나타내는 언어적 요소 이외에 음성 출력 속도, 음색, 목소리 톤, 대화형 말줄임 및 사용자 설정 취향 중에서 하나 이상을 포함하는 비언어-음성표현을 반영하여 상기 대화형음성을 합성할 수 있다.
대화형음성 합성부(122)는 제3 딥러닝 신경망 네트워크(DNN-3)를 포함한다. 제3 딥러닝 신경망 네트워크(DNN-3)는 음성문장과 비언어-음성표현을 입력받아 대화형음성을 생성하는 TTS 기능을 수행할 수 있다. 생성된 대화형음성은 비언어-음성표현에 포함된 음성의 속도, 어조, 크기, 음색 등이 반영되고, 대화에서 발생할 수 있는 말줄임이나 사용자가 미리 설정할 수 있는 사용자 설정 취향이 반영될 수 있다. 사용자 설정 취향은 목소리의 성별, 표준어/사투리의 선택 등을 포함할 수 있다.
따라서 수어 사용자가 표정, 손의 이동속도, 시선 등으로 나타낸 감정 또는 의도의 종류 및 크기가 음성 언어 사용자가 청각적으로 인식할 수 있는 음성의 속도, 어조, 크기, 음색으로 대화형음성에 반영되므로, 음성 언어 사용자가 수어 사용자의 감정 또는 의도의 종류 및 크기를 인식할 수 있다.
도 2에 도시된 바와 같이, 음성-수어 번역 장치(200)의 음성-수어 번역모듈(220)은 시퀀스 투 시퀀스 기반으로 음성을 음성문장으로 STT 변환하는 음성문장 인식부(221)를 포함할 수 있고, 제5 딥러닝 신경망 네트워크를 이용하여 음성을 수어문장으로 변환하고, 수어문장에 비언어-수어표현을 반영하여 대화형수어영상을 합성하여 출력하는 음성문장-수어 번역부(222)를 포함할 수 있다. 음성-수어 번역모듈(220)은 음성-수어 번역 단계(P30)를 수행할 수 있다. 음성-수어 번역 단계(P30)는 음성 문장 인식단계(P31) 및 대화형수어영상 생성단계(P32)를 포함할 수 있다.
음성-수어 번역모듈(220)의 음성문장 인식부(221)는 시퀀스 투 시퀀스 기반으로 음성을 음성문장으로 STT 변환하는 기능을 수행한다. STT는 음성에 기초하여 음성문장을 생성하는 사운드 투 텍스트(Sound To Text, STT)를 말한다. 음성문장 인식부(221)는 음성을 입력받아 음성문장을 생성하도록 학습된 제4 딥러닝 신경망 네트워크(DNN-4)를 이용하여, 음성을 입력받아 음성문장을 생성하는 음성 문장 인식단계(P31)를 수행한다.
음성문장 인식부(221)는 제4 딥러닝 신경망 네트워크(DNN-4)를 포함한다. 제4 딥러닝 신경망 네트워크(DNN-4)는 입력이 음성이고 정답이 음성 언어 단어의 시퀀스로 이루어진 음성문장인 학습데이터로 학습된다. 학습된 제4 딥러닝 신경망 네트워크(DNN-4)는 음성을 입력받으면 학습된 바에 따라 음성 언어 단어의 시퀀스로 이루어진 음성문장을 출력한다.
음성-수어 번역모듈(220)의 음성문장-수어 번역부(222)는 음성문장을 수어로 번역하고, 수어에 기초하여 비언어-수어표현이 반영된 대화형수어영상을 생성하는 음성문장-수어 번역단계(P32)를 수행한다.
음성문장-수어 번역부(222)는 음성문장 인식부(221)에서 인식된 음성문장을 수신할 수 있고, 음성 언어 사용자 단말(400)의 입력기기(423)에 입력된 텍스트 데이터 형식의 음성문장을 수신할 수 있다. 음성문장-수어 번역부(222)는 음성문장 인식부(221)가 인식한 음성문장 또는 텍스트로 입력된 음성문장에 기초하여 대화형수어영상을 생성할 수 있다.
도 5는 본 발명의 일실시에에 따른 음성문장-수어 번역부(222)를 나타낸 도면이다.
도 5에 도시된 바와 같이, 음성문장-수어 번역부(222)는 제5 딥러닝 신경망 네트워크를 이용하여 음성문장을 수어의 의미 단위인 글로스의 시퀀스로 변환하는 음성문장-글로스 번역부(222a), 및 생성 모델(Generative model)에 기반하여 글로스의 시퀀스에 비언어-수어표현을 반영하여 대화형수어영상을 합성하여 출력하는 대화형수어영상 합성부(222b)를 포함할 수 있다.
음성문장-글로스 번역부(222a)는 음성 언어 단어의 시퀀스로 이루어진 음성문장을 글로스의 시퀀스로 이루어진 수어로 번역한다. 음성문장-글로스 번역부(222a)는 제5 딥러닝 신경망 네트워크(DNN-5)를 포함한다. 제5 딥러닝 신경망 네트워크(DNN-5)는 입력이 음성문장이고 정답이 글로스의 시퀀스로 이루어진 학습데이터로 학습된다. 학습된 제5 딥러닝 신경망 네트워크(DNN-5)는 음성문장를 입력받으면 학습된 바에 따라 글로스의 시퀀스를 출력한다.
대화형수어영상 합성부(222b)는 수어에서 의미를 나타내는 언어적 요소 이외에 얼굴 표정, 영상 출력 속도, 제스쳐 출력 형태, 사용자 설정 취향 중에서 하나 이상을 포함하는 비언어-수어표현을 반영하여 대화형수어영상을 합성하고 출력할 수 있다.
대화형수어영상 합성부(222b)는 수어에 기초하여 대화형수어영상을 생성한다. 대화형수어영상 합성부(222b)에서 이용하는 생성모델은 글로스의 시퀀스에 해당하는 동작을 사람 형상의 2D 또는 3D 모델이 연속적으로 수행하는 것이며, 이때 비언어-수어표현이 반영되어 대화형수어영상이 생성된다. 대화형수어영상 합성부(222b)는 대화형수어영상을 생성하기 위한 동작을 미리 저장한 데이터베이스를 포함할 수 있다. 대화형수어영상 합성부(222b)는 미리 저장된 수어문장의 글로스에 해당하는 동작들을 데이터베이스에서 획득하여 연결하는 방법으로 대화형수어영상을 생성할 수 있다. 생성된 대화형수어영상은 비언어-수어표현에 포함된 표정, 손의 이동속도, 시선, 얼굴 표정, 영상 출력 속도, 제스쳐 출력 형태, 사용자 설정 취향이 반영된다. 따라서 음성 언어 사용자가 음성의 속도, 어조, 크기, 음색, 표정, 몸동작 등으로 나타낸 감정 또는 의도의 종류 및 크기가 수어 사용자가 시각적으로 인식할 수 있는 표정, 손의 이동속도, 시선으로 대화형수어영상에 반영되므로, 수어 사용자가 음성 언어 사용자의 감정 또는 의도의 종류 및 크기를 인식할 수 있다.
이러한 과정을 통해 수어-음성 번역 장치(100)는 대화형음성을 생성하고 음성-수어 번역 장치(200)는 대화형수어영상을 생성할 수 있다. 음성-수어 번역 장치(200)는 생성된 대화형수어영상을 수어 사용자 단말(300)로 실시간으로 제공할 수 있고, 수어-음성 번역 장치(100)는 생성된 대화형음성을 음성 언어 사용자 단말(400)로 실시간으로 제공할 수 있다. 음성 언어 사용자 단말(400)은 수어-음성 번역 장치(100)로부터 대화형음성을 수신하여 음성 언어 사용자에게 청각적으로 표시하는 음성표시단계(S40)를 수행할 수 있다. 수어 사용자 단말(300)은 음성-수어 번역 장치(200)로부터 대화형수어영상을 수신하여 수어 사용자에게 시각적으로 표시하는 수어표시단계(P40)를 수행할 수 있다.
이상 본 발명을 구체적인 실시예를 통하여 상세히 설명하였으나, 이는 본 발명을 구체적으로 설명하기 위한 것으로, 본 발명은 이에 한정되지 않으며, 본 발명의 기술적 사상 내에서 당해 분야의 통상의 지식을 가진 자에 의해 그 변형이나 개량이 가능함은 명백하다고 할 것이다.
본 발명의 단순한 변형 내지 변경은 모두 본 발명의 영역에 속하는 것으로 본 발명의 구체적인 보호 범위는 첨부된 특허청구범위에 의하여 명확해질 것이다.
100: 수어-음성 번역 장치
110: 비언어-음성표현 변환모듈
111: 비언어적 수어정보 획득부
112: 비언어-음성표현 특징 변환부
120: 수어-음성 번역모듈
121: 수어-음성문장 번역부
121a: 글로스 인식부
DNN-1: 제1 딥러닝 신경망 네트워크
121b: 글로스-음성문장 번역부
DNN-2: 제2 딥러닝 신경망 네트워크
122: 대화형음성 합성부
DNN-3: 제3 딥러닝 신경망 네트워크
200: 음성-수어 번역 장치
210: 비언어-수어표현 변환모듈
211: 비언어적 음성정보 획득부
212: 비언어-수어표현 특징 변환부
220: 음성-수어 번역모듈
221: 음성문장 인식부
DNN-4: 제4 딥러닝 신경망 네트워크
222: 음성문장-수어 번역부
222a: 음성문장-글로스 번역부
DNN-5: 제5 딥러닝 신경망 네트워크
222b: 대화형수어영상 합성부
300: 수어 사용자 단말
310: 수어 획득부
311: 제1 카메라
320: 수어 표시부
321: 제1 디스플레이
400: 음성 언어 사용자 단말
410: 음성 언어 표시부
411: 스피커
412: 제2 디스플레이
420: 음성 언어 획득부
421: 마이크
422: 제2 카메라
423: 입력기기
500: 편의 서비스 제공 장치

Claims (14)

  1. 수어 영상으로부터 수어 사용자의 표정, 시선, 수어 동작의 크기, 속도로 전달되는 감정 또는 의도를 나타내는 비언어적 수어정보를 획득하고, 상기 비언어적 수어정보를 음성의 속도, 음색, 어조, 크기로 전달되는 비언어-음성표현으로 변환하는 비언어-음성표현 변환모듈; 및
    상기 수어 영상을 음성문장으로 번역하고, 상기 음성문장에 기초하여 대화형음성을 생성하여 출력하는 수어-음성 번역모듈을 포함하며,
    상기 비언어-음성표현 변환모듈은
    얼굴 인식 및 모션 인식을 통하여 상기 수어 영상으로부터 수어 사용자의 감정 또는 의도를 추론하기 위한 수어 사용자의 표정, 시선, 수어 동작의 크기, 속도를 포함하는 정보를 추출하고, 추출한 정보에 기초하여 상기 수어 사용자의 감정 또는 의도의 종류를 라벨링하고 크기를 수치화하여 비언어적 수어정보를 획득하는 비언어적 수어정보 획득부; 및
    상기 비언어적 수어정보를 음성 언어의 비언어적 표현에 해당하는 음성의 속도, 음색, 어조, 크기로 변환하되, 인식가능한 감정 또는 의도의 종류 및 크기를 전체 벡터공간으로 하고 상기 비언어적 수어정보에 포함된 감정 또는 의도의 종류 및 크기를 지시하도록 형성된 One-Hot Vector 형태의 특성벡터로 비언어-음성표현을 생성하는 비언어-음성표현 특징 변환부를 포함하고,
    상기 수어-음성 번역모듈은
    수어 영상을 입력받아 수어를 글로스의 시퀀스로 출력하도록 학습된 제1 딥러닝 신경망 네트워크를 이용하여, 상기 수어 영상에 포함된 복수의 연속적인 동작들을 글로스의 시퀀스로 인식하는 글로스 인식부와, 수어의 문법에 따른 글로스의 시퀀스를 입력받아 음성 언어의 문법에 따른 음성문장으로 출력하도록 학습된 제2 딥러닝 신경망 네트워크를 이용하여, 상기 글로스 인식부가 인식한 글로스의 시퀀스로 이루어진 수어문장을 음성문장으로 번역하는 글로스-음성문장 번역부를 포함하는 수어-음성문장 번역부; 및
    음성문장과 비언어-음성표현을 입력받아 대화형음성을 생성하도록 학습된 제3 딥러닝 신경망 네트워크를 이용하여, 상기 수어-음성문장 번역부에서 번역한 상기 음성문장과 상기 비언어-음성표현 특징 변환부가 생성한 상기 비언어-음성표현을 입력받아 상기 제3 딥러닝 신경망 네트워크에 입력하여, 상기 수어 사용자의 감정 또는 의도가 청각적으로 나타나도록 상기 비언어-음성표현이 반영되어 음성의 속도, 음색, 어조, 크기가 변형된 대화형음성을 생성하는 대화형음성 합성부를 포함하고,
    상기 글로스는 하나 또는 복수의 동작의 연속으로 이루어지는 수어의 의미단위이고,
    상기 글로스의 시퀀스는 복수의 글로스가 수어 문법에 따라 순서대로 나열되는 것이며,
    상기 제1 딥러닝 신경망 네트워크는
    순환 신경망 구조로 이루어진 인코더와 순환 신경망 구조로 이루어진 디코더를 포함하는 시퀀스 투 시퀀스 구조를 갖고, 입력이 수어 영상에서 수어 사용자의 신체의 특징점들을 추출하고 시간의 흐름에 따라 변화하는 특징점들의 좌표값을 순서대로 나열한 데이터이고 정답이 글로스의 시퀀스인 학습데이터를 이용하여 학습되는 것이고,
    상기 제2 딥러닝 신경망 네트워크는
    순환 신경망 구조로 이루어진 인코더와 순환 신경망 구조로 이루어진 디코더를 포함하는 시퀀스 투 시퀀스 구조를 갖고, 입력이 글로스의 시퀀스이고 정답이 단어의 시퀀스로 이루어진 음성문장인 학습데이터를 이용하여 학습되는 것인, 사용자의 감정 또는 의도를 반영한 대화형 수어-음성 번역 장치.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 청구항 1에 있어서,
    상기 대화형음성 합성부는
    목소리의 성별을 포함하는 사용자 설정 취향을 상기 대화형음성에 더 반영하는, 사용자의 감정 또는 의도를 반영한 대화형 수어-음성 번역 장치.
  7. 음성으로부터 음성 언어 사용자의 음성의 속도, 음색, 어조, 크기로 전달되는 감정 또는 의도를 나타내는 비언어적 음성정보를 획득하고, 상기 비언어적 음성정보를 표정, 시선, 수어 동작의 크기, 속도로 전달되는 비언어-수어표현으로 변환하는 비언어-수어표현 변환모듈; 및
    상기 음성을 수어문장으로 변환하고, 상기 수어문장에 기초하여 대화형수어영상을 생성하여 출력하는 음성-수어 번역모듈을 포함하며,
    상기 비언어-수어표현 변환모듈은
    상기 음성으로부터 음성 언어 사용자의 감정 또는 의도를 추론하기 위한 음성의 속도, 음색, 어조, 크기를 포함하는 사운드-기반 비언어 정보를 추출하고, 상기 음성 이외에 음성 언어 사용자를 촬영한 영상으로부터 음성 언어 사용자의 감정 또는 의도를 추론하기 위한 표정, 시선을 포함하는 영상-기반 비언어 정보를 추출하고, 추출한 사운드-기반 비언어 정보와 영상-기반 비언어 정보에 기초하여 상기 음성 언어 사용자의 감정 또는 의도의 종류를 라벨링하고 크기를 수치화하여 비언어적 음성정보를 획득하는 비언어적 음성정보 획득부; 및
    상기 비언어적 음성정보를 수어의 비언어적 표현에 해당하는 표정, 시선, 수어 동작의 크기, 속도로 변환하되, 인식가능한 감정 또는 의도의 종류 및 크기를 전체 벡터공간으로 하고 상기 비언어적 음성정보에 포함된 감정 또는 의도의 종류 및 크기를 지시하도록 형성된 One-Hot Vector 형태의 특성벡터로 비언어-수어표현을 생성하는 비언어-수어표현 특징 변환부를 포함하고,
    상기 음성-수어 번역모듈은
    음성을 입력받아 음성 문장을 생성하도록 학습된 제4 딥러닝 신경망 네트워크를 이용하여, 음성을 음성문장으로 STT 변환하는 음성문장 인식부; 및
    입력이 음성문장이고 정답이 글로스의 시퀀스로 이루어진 학습데이터로 학습된 제5 딥러닝 신경망 네트워크를 이용하여, 상기 음성문장을 입력받아 수어의 의미단위인 글로스의 시퀀스로 이루어진 수어문장으로 번역하는 음성문장-글로스 번역부와, 상기 수어문장에 상기 비언어-수어표현을 반영하여 상기 음성 언어 사용자의 감정 또는 의도가 시각적으로 나타나도록 표정, 시선, 수어 동작의 크기, 속도가 변형된 대화형수어영상을 합성하여 출력하는 대화형수어영상 합성부를 포함하는 음성문장-수어 번역부를 포함하고,
    상기 글로스는 하나 또는 복수의 동작의 연속으로 이루어지는 수어의 의미단위이고,
    상기 글로스의 시퀀스는 복수의 글로스가 수어 문법에 따라 순서대로 나열되는 것이고,
    상기 제4 딥러닝 신경망 네트워크는
    시퀀스 투 시퀀스 기반으로, 입력이 음성이고 정답이 음성 언어 단어의 시퀀스로 이루어진 음성문장인 학습데이터로 학습되는 것인, 사용자의 감정 또는 의도를 반영한 대화형 음성-수어 번역 장치.
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
  13. 청구항 7에 있어서,
    상기 대화형수어영상 합성부는
    생성 모델(Generative model)에 기반하여 상기 글로스에 해당하는 미리 저장된 동작들을 상기 글로스의 시퀀스에 따라 연결하여 대화형수어영상을 합성하되, 상기 비언어-수어표현을 반영하여 표정, 시선, 수어 동작의 크기, 속도가 변형된 대화형수어영상을 합성하여 출력하는 것인, 사용자의 감정 또는 의도를 반영한 대화형 음성-수어 번역 장치.
  14. 청구항 13에 있어서,
    상기 대화형수어영상 합성부는
    사용자 설정 취향을 상기 대화형수어영상에 더 반영하는, 사용자의 감정 또는 의도를 반영한 대화형 음성-수어 번역 장치.
KR1020190095674A 2019-08-06 2019-08-06 사용자의 감정 또는 의도를 반영한 대화형 수어-음성 번역 장치 및 음성-수어 번역 장치 Active KR102174922B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190095674A KR102174922B1 (ko) 2019-08-06 2019-08-06 사용자의 감정 또는 의도를 반영한 대화형 수어-음성 번역 장치 및 음성-수어 번역 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190095674A KR102174922B1 (ko) 2019-08-06 2019-08-06 사용자의 감정 또는 의도를 반영한 대화형 수어-음성 번역 장치 및 음성-수어 번역 장치

Publications (1)

Publication Number Publication Date
KR102174922B1 true KR102174922B1 (ko) 2020-11-05

Family

ID=73249538

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190095674A Active KR102174922B1 (ko) 2019-08-06 2019-08-06 사용자의 감정 또는 의도를 반영한 대화형 수어-음성 번역 장치 및 음성-수어 번역 장치

Country Status (1)

Country Link
KR (1) KR102174922B1 (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102212298B1 (ko) * 2020-11-09 2021-02-05 주식회사 라젠 인공지능 기반의 비장애인과 청각장애인 간 화상 커뮤니케이션 플랫폼 시스템 및 그 동작 방법
KR102370993B1 (ko) * 2021-05-25 2022-03-07 주식회사 디블렌트 신경망 기반의 실시간 수어 통역 및 대화를 지원하는 인공지능 시스템
CN114255512A (zh) * 2021-12-06 2022-03-29 讯飞智元信息科技有限公司 情绪识别方法、相关设备及可读存储介质
KR102460553B1 (ko) * 2021-12-16 2022-10-31 주식회사 디블렌트 차량 내 신경망을 이용한 수어 응답 제공 방법, 장치 및 컴퓨터 프로그램
KR102571899B1 (ko) * 2022-10-20 2023-08-30 주식회사 인피닉 수어 텍스트 번역 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
KR102576358B1 (ko) * 2022-12-23 2023-09-11 주식회사 케이엘큐브 수어 번역을 위한 학습데이터 생성 장치 및 그의 동작 방법
WO2025041910A1 (ko) * 2023-08-23 2025-02-27 주식회사 피씨엔 모션 기반 사용자 감정 상호 작용 방법 및 시스템

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160109708A (ko) * 2015-03-12 2016-09-21 주식회사 디지털스케치 수화 번역기, 시스템 및 방법
KR20170094668A (ko) 2016-02-11 2017-08-21 한국전자통신연구원 양방향 수화 번역 장치 및 장치가 수행하는 양방향 수화 번역 방법
JP2019008570A (ja) * 2017-06-26 2019-01-17 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
KR20190069786A (ko) * 2017-12-12 2019-06-20 왕한호 딥러닝 기반의 수화 및 음성 번역을 위한 청각 장애인용 웨어러블 디바이스

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160109708A (ko) * 2015-03-12 2016-09-21 주식회사 디지털스케치 수화 번역기, 시스템 및 방법
KR20170094668A (ko) 2016-02-11 2017-08-21 한국전자통신연구원 양방향 수화 번역 장치 및 장치가 수행하는 양방향 수화 번역 방법
JP2019008570A (ja) * 2017-06-26 2019-01-17 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
KR20190069786A (ko) * 2017-12-12 2019-06-20 왕한호 딥러닝 기반의 수화 및 음성 번역을 위한 청각 장애인용 웨어러블 디바이스

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
공개특허공보 제10-2016-0109708호(2016.9.21. 공개) 1부.*
공개특허공보 제10-2019-0069786호(2019.6.20. 공개) 1부.*
데이터 사이언스 스쿨, 신경망 언어 번역* *
일본 공개특허공보 특개2019-008570호(2019.1.17. 공개) 1부.*

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102212298B1 (ko) * 2020-11-09 2021-02-05 주식회사 라젠 인공지능 기반의 비장애인과 청각장애인 간 화상 커뮤니케이션 플랫폼 시스템 및 그 동작 방법
KR102370993B1 (ko) * 2021-05-25 2022-03-07 주식회사 디블렌트 신경망 기반의 실시간 수어 통역 및 대화를 지원하는 인공지능 시스템
CN114255512A (zh) * 2021-12-06 2022-03-29 讯飞智元信息科技有限公司 情绪识别方法、相关设备及可读存储介质
KR102460553B1 (ko) * 2021-12-16 2022-10-31 주식회사 디블렌트 차량 내 신경망을 이용한 수어 응답 제공 방법, 장치 및 컴퓨터 프로그램
KR102571899B1 (ko) * 2022-10-20 2023-08-30 주식회사 인피닉 수어 텍스트 번역 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
KR102576358B1 (ko) * 2022-12-23 2023-09-11 주식회사 케이엘큐브 수어 번역을 위한 학습데이터 생성 장치 및 그의 동작 방법
WO2025041910A1 (ko) * 2023-08-23 2025-02-27 주식회사 피씨엔 모션 기반 사용자 감정 상호 작용 방법 및 시스템

Similar Documents

Publication Publication Date Title
KR102174922B1 (ko) 사용자의 감정 또는 의도를 반영한 대화형 수어-음성 번역 장치 및 음성-수어 번역 장치
US20230316643A1 (en) Virtual role-based multimodal interaction method, apparatus and system, storage medium, and terminal
CN110688911B (zh) 视频处理方法、装置、系统、终端设备及存储介质
KR102098734B1 (ko) 대화 상대의 외형을 반영한 수어 영상 제공 방법, 장치 및 단말
WO2022116977A1 (zh) 目标对象的动作驱动方法、装置、设备及存储介质及计算机程序产品
CN114401438B (zh) 虚拟数字人的视频生成方法及装置、存储介质、终端
CN106653052B (zh) 虚拟人脸动画的生成方法及装置
US20220150285A1 (en) Communication assistance system, communication assistance method, communication assistance program, and image control program
CN110688008A (zh) 虚拟形象交互方法和装置
US20120130717A1 (en) Real-time Animation for an Expressive Avatar
US12314829B2 (en) Method and apparatus for driving digital human, and electronic device
CN114495927A (zh) 多模态交互的虚拟数字人的生成方法及装置、存储介质、终端
KR101981091B1 (ko) 감정시각화자막 생성장치
CN109409255A (zh) 一种手语场景生成方法及装置
Suman et al. Sign language interpreter
JP2022054326A (ja) ユーザの感情に応じたキャラクタの傾聴感を表現する対話プログラム、装置及び方法
CN115409923A (zh) 生成三维虚拟形象面部动画的方法、装置及系统
KR20210073856A (ko) 휴대용 수화 번역기 및 수화 번역 방법
Kumar et al. Real time detection and conversion of gestures to text and speech to sign system
CN119440254A (zh) 一种数字人实时交互系统及数字人实时交互方法
CN119131900A (zh) 一种基于大语言模型的汉语手语翻译方法及系统
KR100730573B1 (ko) 수화 인식과 수화 발생을 구현한 양방향 수화 전화 시스템
Rathipriya et al. A comprehensive review of recent advances in deep neural networks for lipreading with sign language recognition
Gamage et al. Sinhala sign language translation through immersive 3D avatars and adaptive learning
Bourbakis et al. Multi-modal interfaces for interaction-communication between hearing and visually impaired individuals: problems and issues

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20190806

PA0201 Request for examination

Patent event code: PA02012R01D

Patent event date: 20190918

Comment text: Request for Examination of Application

Patent event code: PA02011R01I

Patent event date: 20190806

Comment text: Patent Application

PA0302 Request for accelerated examination

Patent event date: 20190920

Patent event code: PA03022R01D

Comment text: Request for Accelerated Examination

Patent event date: 20190806

Patent event code: PA03021R01I

Comment text: Patent Application

PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20191129

Patent event code: PE09021S01D

AMND Amendment
PE0902 Notice of grounds for rejection

Comment text: Final Notice of Reason for Refusal

Patent event date: 20200330

Patent event code: PE09021S02D

AMND Amendment
PE0601 Decision on rejection of patent

Patent event date: 20200825

Comment text: Decision to Refuse Application

Patent event code: PE06012S01D

Patent event date: 20200330

Comment text: Final Notice of Reason for Refusal

Patent event code: PE06011S02I

Patent event date: 20191129

Comment text: Notification of reason for refusal

Patent event code: PE06011S01I

X091 Application refused [patent]
AMND Amendment
PX0901 Re-examination

Patent event code: PX09011S01I

Patent event date: 20200825

Comment text: Decision to Refuse Application

Patent event code: PX09012R01I

Patent event date: 20200429

Comment text: Amendment to Specification, etc.

Patent event code: PX09012R01I

Patent event date: 20200122

Comment text: Amendment to Specification, etc.

PX0701 Decision of registration after re-examination

Patent event date: 20201026

Comment text: Decision to Grant Registration

Patent event code: PX07013S01D

Patent event date: 20200918

Comment text: Amendment to Specification, etc.

Patent event code: PX07012R01I

Patent event date: 20200825

Comment text: Decision to Refuse Application

Patent event code: PX07011S01I

Patent event date: 20200429

Comment text: Amendment to Specification, etc.

Patent event code: PX07012R01I

Patent event date: 20200122

Comment text: Amendment to Specification, etc.

Patent event code: PX07012R01I

X701 Decision to grant (after re-examination)
GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20201030

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20201102

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
PR1001 Payment of annual fee

Payment date: 20230921

Start annual number: 4

End annual number: 4

PR1001 Payment of annual fee