KR20240098315A - 가상 공간에서의 페르소나를 위한 목소리 커스터마이징 시스템 및 방법 - Google Patents
가상 공간에서의 페르소나를 위한 목소리 커스터마이징 시스템 및 방법 Download PDFInfo
- Publication number
- KR20240098315A KR20240098315A KR1020220179981A KR20220179981A KR20240098315A KR 20240098315 A KR20240098315 A KR 20240098315A KR 1020220179981 A KR1020220179981 A KR 1020220179981A KR 20220179981 A KR20220179981 A KR 20220179981A KR 20240098315 A KR20240098315 A KR 20240098315A
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- voice data
- input
- attribute
- adjustment value
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 49
- 238000012545 processing Methods 0.000 claims abstract description 30
- 238000004458 analytical method Methods 0.000 claims abstract description 25
- 238000007665 sagging Methods 0.000 claims description 22
- 238000005516 engineering process Methods 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 9
- 238000007781 pre-processing Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 244000240602 cacao Species 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
Abstract
본 발명은 가상 공간에서의 페르소나를 위한 목소리 커스터마이징 기술에 관한 것으로서, 일실시예에 따른 목소리 커스터마이징 시스템은 화자에 대한 목소리 데이터를 입력 받는 입력부, 상기 입력된 목소리 데이터에 대한 속성을 분석하는 속성 분석부, 상기 분석된 속성에 대한 조절값을 입력받고, 상기 입력된 조절값을 상기 분석된 속성에 반영하여 상기 목소리 데이터를 변조하는 변조 처리부를 포함할 수 있다.
Description
본 발명은 가상 공간에서의 페르소나를 위한 목소리 커스터마이징 기술에 관한 것으로서, 보다 상세하게는 자신의 목소리가 마음에 들지 않거나, 온라인 환경에서 소통할 때 사용하는 페르소나에 부합하는 새로운 목소리를 만들고 싶을 때 부자연스러운 기계음으로 합성한 음성이 아니라 실제 자신의 목소리를 기반으로 목소리를 개선한다는 점에서 만족도 높은 변조된 음성을 도출하는 기술적 사상에 관한 것이다.
Voice Filter (Ex. 카카오 보이스톡 목소리 필터, Talking Tom Cat 어플리케이션)는 단순한 목소리 변조 필터를 사용하여 변조된 목소리를 오락용으로 사용한다.
하지만 이러한 서비스들은 단순 오락용에 불과하고, Zoom 온라인 수업, 회의 참여, 디지털 콘텐츠 제작 등의 실생활에서는 사용하기가 어렵다.
한편, 유명인 목소리 Text-to-Speech (Ex. Deepfake voice, Naver CLOVA Voice)를 이용한 변조 방식의 경우, 방대한 양의 유명인 목소리 데이터를 기반으로 학습하여 제작한 딥러닝 목소리 모델에 텍스트 인풋을 넣으면 유명인의 목소리로 텍스트를 읽어줄 수 있다.
예컨대, 네이버의 CLOVA Voice에서는 유명 배우들의 목소리로 제작한 오디오북 서비스를 출시하였지만, TTS 기능의 특성상, 아직 실제 발화를 완벽히 대체하기가 어렵고, 사용자의 목소리를 배제하기 때문에 실생활 소통에서의 활용이 어렵다.
상기한 두 가지 시스템은 모두 온라인 소통이 급증한 현 시점의 실질적인 사용자들의 요구에 부합하지 않는다는 공통적인 한계가 있다.
본 발명은 우선 목소리의 속성들을 정의내리고, 어떠한 속성을 조절해야 고객들이 원하는 대로 목소리를 변조할 수 있는지를 세밀하게 커스터마이징 하는 것을 목적으로 한다.
본 발명은 개개인이 가진 목소리 본연의 개성을 해치지 않는 선에서 사용자가 원하는 대로 더 듣기 좋은 목소리로 미화하는 것을 목적으로 한다.
본 발명은 단순한 목소리 필터(voice filter)를 이용하여 기존의 목소리를 변형하는 데에 그치지 않고, 자신을 표현하는 데에 사용될 수 있는 정교한 목소리를 만들어 내는 것을 목적으로 한다.
본 발명은 목소리의 모든 속성을 정해진 대로 한 번에 변형시키는 것이 아니라, 목소리에서 커스터마이징이 가능한 속성들의 기준을 정의하여 각각의 기준을 세부적으로 조정하는 것을 목적으로 한다.
본 발명은 주어진 타겟 화자와 닮은 목소리가 아니라 타겟 화자가 모호하거나 아예 존재하지 않는 경우에도 사용자가 설정한 목소리 속성 수치값에 맞는 목소리를 도출하여 확장성을 높이는 것을 목적으로 한다.
본 발명은 익명 소통을 위한 목소리 변조부터 개인 간의 소통에서 더 매력적인 목소리로 소통하기 위한 용도까지 범용성이 높은 시스템의 활용을 기대하는 것을 목적으로 한다.
일실시예에 따른 목소리 커스터마이징 시스템은 화자에 대한 목소리 데이터를 입력 받는 입력부, 상기 입력된 목소리 데이터에 대한 속성을 분석하는 속성 분석부, 상기 분석된 속성에 대한 조절값을 입력받고, 상기 입력된 조절값을 상기 분석된 속성에 반영하여 상기 목소리 데이터를 변조하는 변조 처리부를 포함할 수 있다.
일실시예에 따른 상기 속성 분석부는, 상기 입력된 목소리 데이터에 대한 속성으로서, 음의 높이값, 늘어짐 정도, 및 복수의 공명 주파수를 분석할 수 있다.
일실시예에 따른 상기 속성 분석부는, 100~600 Hz 주파수 대역 내에서 상기 음의 높이값을 분석하고, 0~4000 Hz 주파수 대역 내에서 상기 공명 주파수들을 분석할 수 있다.
일실시예에 따른 상기 속성 분석부는, 상기 입력된 목소리 데이터에 대한 최초의 속도를 기준속도로 설정하고, 변조되기 이전의 늘어짐 정도에 상기 기준속도를 부여하여 상기 입력된 목소리 데이터에 대한 속성을 정의할 수 있다.
일실시예에 따른 상기 변조 처리부는, 상기 입력된 조절값을 이용하여, 상기 음의 높이값에 해당하는 주파수 대역, 상기 공명 주파수들에 해당하는 주파수 대역, 또는 상기 늘어짐 정도에 부여된 기준속도 중에서 적어도 하나를 조절하여 상기 목소리 데이터를 변조할 수 있다.
일실시예에 따른 목소리 커스터마이징 시스템은 목소리 데이터에 대한 조절값을 저장하는 저장부, 화자에 대한 목소리 데이터를 입력 받는 입력부, 상기 입력된 목소리 데이터에 대한 속성을 분석하는 속성 분석부, 및 상기 분석된 속성에 상기 저장된 조절값을 반영하여 상기 목소리 데이터를 변조하는 변조 처리부를 포함할 수 있다.
일실시예에 따른 상기 변조 처리부는, 상기 입력된 조절값을 이용하여, 상기 음의 높이값에 해당하는 주파수 대역, 상기 특정 주파수들에 해당하는 주파수 대역, 또는 상기 늘어짐 정도에 부여된 기준속도 중에서 적어도 하나를 조절하여 상기 목소리 데이터를 변조할 수 있다.
일실시예에 따른 목소리 커스터마이징 방법은 입력부에서, 화자에 대한 목소리 데이터를 입력 받는 단계, 속성 분석부에서, 상기 입력된 목소리 데이터에 대한 속성을 분석하는 단계, 변조 처리부에서, 상기 분석된 속성에 대한 조절값을 입력받고, 상기 입력된 조절값을 상기 분석된 속성에 반영하여 상기 목소리 데이터를 변조하는 단계를 포함할 수 있다.
일실시예에 따른 상기 입력된 목소리 데이터에 대한 속성을 분석하는 단계는, 상기 입력된 목소리 데이터에 대한 속성으로서, 음의 높이값, 늘어짐 정도, 및 복수의 공명 주파수를 분석하는 단계, 상기 입력된 목소리 데이터에 대한 최초의 속도를 기준속도로 설정하는 단계, 및 변조되기 이전의 늘어짐 정도에 상기 기준속도를 부여하여 상기 입력된 목소리 데이터에 대한 속성을 정의하는 단계를 포함할 수 있다.
일실시예에 따른 상기 분석된 속성에 대한 조절값을 입력받고, 상기 입력된 조절값을 상기 분석된 속성에 반영하여 상기 목소리 데이터를 변조하는 단계는, 상기 입력된 조절값을 이용하여, 상기 음의 높이값에 해당하는 주파수 대역, 상기 공명 주파수들에 해당하는 주파수 대역, 또는 상기 늘어짐 정도에 부여된 기준속도 중에서 적어도 하나를 조절하여 상기 목소리 데이터를 변조하는 단계를 포함할 수 있다.
일실시예에 따르면, 목소리의 속성들을 정의 내리고, 어떠한 속성을 조절해야 고객들이 원하는 대로 목소리를 변조할 수 있는지를 세밀하게 커스터마이징할 수 있다.
일실시예에 따르면, 개개인이 가진 목소리 본연의 개성을 해치지 않는 선에서 사용자가 원하는 대로 더 듣기 좋은 목소리로 미화 할 수 있다.
일실시예에 따르면, 단순한 목소리 필터(voice filter)를 이용하여 기존의 목소리를 변형하는 데에 그치지 않고, 자신을 표현하는 데에 사용될 수 있는 정교한 목소리를 만들어 낼 수 있다.
일실시예에 따르면, 목소리의 모든 속성을 정해진 대로 한 번에 변형시키는 것이 아니라, 목소리에서 커스터마이징이 가능한 속성들의 기준을 정의하여 각각의 기준을 세부적으로 조정 할 수 있다.
일실시예에 따르면, 주어진 타겟 화자와 닮은 목소리가 아니라 타겟 화자가 모호하거나 아예 존재하지 않는 경우에도 사용자가 설정한 목소리 속성 수치값에 맞는 목소리를 도출하여 확장성을 높일 수 있다.
일실시예에 따르면, 익명 소통을 위한 목소리 변조부터 개인 간의 소통에서 더 매력적인 목소리로 소통하기 위한 용도까지 범용성이 높은 시스템의 활용을 기대 할 수 있다.
도 1a은 일실시예에 따른 목소리 커스터마이징 시스템을 설명하는 도면이다.
도 1b는 저장부를 통해 조절값을 기록하고 유지하는 일실시예에 따른 목소리 커스터마이징 시스템을 설명하는 도면이다.
도 2는 일실시예에 따른 목소리 커스터마이징 시스템을 구현할 수 있는 웹 사이트를 설명하는 도면이다.
도 3은 목소리의 속성을 조절하기 위한 인터페이스를 설명하는 도면이다.
도 4는 일실시예에 따른 목소리 커스터마이징 방법을 설명하는 도면이다.
도 5는 다른 일실시예에 따른 목소리 커스터마이징 방법을 설명하는 도면이다.
도 1b는 저장부를 통해 조절값을 기록하고 유지하는 일실시예에 따른 목소리 커스터마이징 시스템을 설명하는 도면이다.
도 2는 일실시예에 따른 목소리 커스터마이징 시스템을 구현할 수 있는 웹 사이트를 설명하는 도면이다.
도 3은 목소리의 속성을 조절하기 위한 인터페이스를 설명하는 도면이다.
도 4는 일실시예에 따른 목소리 커스터마이징 방법을 설명하는 도면이다.
도 5는 다른 일실시예에 따른 목소리 커스터마이징 방법을 설명하는 도면이다.
본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시예들은 다양한 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.
본 발명의 개념에 따른 실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시예들을 특정한 개시형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들어 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들어 "~사이에"와 "바로~사이에" 또는 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
본 명세서에서 사용한 용어는 단지 특정한 실시예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1a은 일실시예에 따른 목소리 커스터마이징 시스템(110)을 설명하는 도면이다.
본 발명은 목소리의 속성들을 정의 내리고, 어떠한 속성을 조절해야 고객들이 원하는 대로 목소리를 변조할 수 있는지를 세밀하게 커스터마이징할 수 있다.
이를 위해, 일실시예에 따른 목소리 커스터마이징 시스템(110)은 입력부(101), 속성 분석부(102), 변조 처리부(103), 및 제어부(104)를 포함할 수 있다.
도 1a의 실시예에서는 목소리 변조를 원하는 화자가, 목소리의 입력과 함께 조절값을 입력하여 자신의 목소리를 변조하는데 특징이 있다.
구체적으로, 일실시예에 따른 입력부(101)는 화자에 대한 목소리 데이터를 입력 받을 수 있다.
또한, 입력부(101)는 입력된 목소리 데이터에 대한 노이즈 제거 등의 전처리를 수행할 수 있다.
전처리 과정에서는, 다중 화자로부터 화자를 분리하거나, 배경음으로부터 화자의 목소리만을 분리하는 신호 분리과정과, 분리된 신호에 대한 잡음을 제거하는 잡음제거 과정 등을 포함할 수 있다.
또한, 목소리 변조를 위해 음성구간을 검출할 수 있으며, 이 과정을 통해 목소리 데이터에서 화자의 발화의 시작점과 끝점을 검출할 수 있다.
구체적으로, 입력부(101)는 음성인식의 성능을 저하시키는 요소로서, Acoustic Echo, Reverberation, Noise, 공간 특성의 변화, 여러명의 화자가 동시에 발화하는 상황, 마이크와의 거리 등의 변수를 최소화할 수 있다.
이를 위해, 입력부(101)는 Acoustic Echo에 대한 에코제거 기술, 자동이득제어 기술, 열악한 잡음 환경에 대응하기 위해 발화방향 추정 기술 및 이에 기반을 둔 빔포밍 기술, 그리고 원거리에 적합한 음성신호 처리 기술을 활용할 수 있다.
이처럼 화자의 목소리를 입력받아 적절한 가공을 하는 과정들을 통칭하여 전처리 과정이라고 한다.
입력부(101)는 전처리를 수행하기 위해, 음성인식 성능 저하를 초래하는 잔향을 제거하는 잔향제거(Speech De-reverberation)과정, 스피커에서 나온 소리가 마이크로 재 인입되는 것을 제거해주는 에코제거(Acoustic Echo Cancellation) 과정, 발화자의 방향을 추정하는 방향추정(Direction of Arrival Estimation) 과정, 화자의 방향에 빔패턴을 형성하여 음성을 강화하고 잡음을 줄이는 빔포밍(Beamforming) 과정, 음성이 마이크로 전달되는 과정에서 상쇄된 볼륨을 조절하는 자동이득제어(Automatic Gain Control) 과정, 음성구간을 검출하기 위하여 음성의 끝을 검출하는 음성 끝점 검출(Speech Endpoint Detection) 과정, 음성 신호에서 주변의 잡음을 줄이거나 제거하는 잡음 제거(Noise Suppression) 과정을 수행할 수 있다.
목소리 커스터마이징 시스템(110)을 잘 구현하려면 이러한 전처리가 잘 진행되어 가능한 한 화자의 목소리 데이터만이 다음의 모듈에 잘 전달되도록 한다.
다음으로, 일실시예에 따른 속성 분석부(102)는 입력된 목소리 데이터에 대한 속성을 분석할 수 있다.
이를 위해, 속성 분석부(102)는 전달된 목소리 데이터를 분석하여 속성을 확인할 수 있다.
목소리 데이터의 속성은 음의 높이값, 늘어짐 정도, 및 복수의 공명 주파수를 포함할 수 있다.
따라서, 속성 분석부(102)는 기본적으로 목소리 데이터에 대한 음의 높이값, 늘어짐 정도, 및 복수의 공명 주파수의 수치를 확인하거나, 정의 내릴 수 있다.
보다 구체적으로, 속성 분석부(102)는 100~600 Hz 주파수 대역 내에서 상기 음의 높이값을 분석하고, 0~4000 Hz 주파수 대역 내에서 상기 공명 주파수들을 분석할 수 있다.
구체적으로, 공명 주파수는 주파수 범위에 따라 4개로 구분될 수 있다.
본 발명은 화자가 목소리의 수치값을 직접적으로 조작하도록 하는 시스템이기 때문에 숫자로 치환할 수 있는, 프로그램을 구현할 수 있는 속성들만으로 선별될 수 있다.
예를 들어, Praat-parsel mouth의 공개 소스 라이브러리를 참고하여 목소리 속성 분석 알고리즘을 구현할 수 있으며, Python 문법으로 작성된 사용자 정의 함수 형태로 저장될 수 있다.
이 함수의 입력값은 .mp3 파일 형식의 음성 파일이고 출력값은 앞에서 언급한 목소리 속성들에 대한 각각의 수치값으로서, 음의 높이는 일반적으로 100~600 Hz 범위 내의 값이고, 공명 주파수(f1 내지 f4) 중에서 f1은 0 ~ 1000 Hz 범위 내의 특정 주파수, f2은 1000 ~ 2000 Hz 범위 내의 특정 주파수, f3은 2000 ~ 3000 Hz 범위 내의 특정 주파수, f4는 3000 ~ 4000 Hz 범위 내의 특정 주파수에 해당할 수 있다.
일례로, 전처리된 목소리 데이터에 대한 formant와 pitch를 측정하기 위한 사용자 정의 함수를 다음과 같이 설명한다.
먼저, 속성 분석부(102)는 속성값 측정에 필요한 parameter를 활용하여, praat-parselmouth 라이브러리에서 제공하는 객체를 이용하여 formant와 pitch 측정 함수를 구현하여 formant의 mean값과 median값, 그리고 pitch의 평균값을 산출할 수 있다.
이들은 웹에서 절대적인 수치값으로 조절하도록 구현하였기 때문에 formant와 pitch를 측정하는 함수가 따로 필요했지만, duration은 상대적인 속도를 조절하는 것이기 때문에 속성 분석부(102)에서는 따로 측정하는 함수가 요구되지 않는다.
다음으로, 속성 분석부(102)는 입력된 목소리 데이터에 대한 속성을 분석할 수 있다. 특히, 입력된 목소리 데이터에 대한 최초의 속도를 기준속도로 설정하고, 변조되기 이전의 늘어짐 정도에 기준속도를 부여하여 상기 입력된 목소리 데이터에 대한 속성을 정의할 수 있다.
예를 들어, 목소리의 속도는 상대적인 개념이기 때문에, 다른 속성들과 다르게 절대적인 수치값으로 표현되도록 값을 도출하지 않고 모든 입력값에 대해 기준속도인 1을 출력할 수 있다. 사용자는 목소리의 속도에 불만족하는 경우, 1을 기준으로 크게 또는 작게 조정하여 속도를 조절할 수 있다.
일실시예에 따른 변조 처리부(103)는 분석된 속성에 대한 조절값을 입력받고, 입력된 조절값을 분석된 속성에 반영하여 목소리 데이터를 변조할 수 있다.
예를 들어, 변조 처리부(103)는 입력된 조절값을 이용하여, 음의 높이값에 해당하는 주파수 대역, 공명 주파수들에 해당하는 주파수 대역, 또는 늘어짐 정도에 부여된 기준속도 중에서 적어도 하나를 조절하여 목소리 데이터를 변조할 수 있다.
변조 처리부(103)는 화자의 조작을 통해 목소리 데이터의 변조가 가능하다.
화자는 변조 처리부(103)를 통해 목소리 속성 분석 함수의 출력값을 조작하여 원하는 목소리를 만들 수 있다. 웹 사이트를 통해 사용자가 값을 설정하면, 변조 처리부(103)는 사용자가 설정한 값을 목소리 변조 함수의 입력값으로 전달하고, 이 함수를 이용하여 사용자 설정 값에 맞는 목소리를 출력할 수 있다.
기존 음성에서 측정한 formant와 pitch값과, 사용자가 슬라이더로 요구한 원하는 formant와 pitch값을 이용하여 음성을 변조하는 함수로서, praat-parselmouth 라이브러리를 활용할 때 조절하는 정도를 원래 음성 기준으로 상대적으로 조절할 수 있다.
그렇기 때문에, 각 속성의 원하는 수치값이 원래 속성값 기준으로 몇 배 인지를 계산해서 라이브러리 내장 함수에 parameter로 넘겨줄 수 있다.
특히, 여기서 얼마나 반영할지를 추가적으로 요구하는 경우, (새로운 속성값) = ((슬라이더로 설정한 원하는 속성값) - (원래 음성의 속성값)) * (반영도) + (원래 음성의 속성값)으로 계산한 후 이 값이 원래 속성값 기준으로 몇 배인지를 계산할 수 있다.
음성의 변조를 위해, 기존에는 음성 파일을 음성 신호로 분해하고, 이를 변조 후 재합성하는 방식으로 다른 목소리를 만들어 냈지만, 이러한 방법들은 목소리 재합성 과정에서 자연스러운 발화에 필요한 요소들이 (단어 사이 공백, 문장 사이 공백) 소실되기 때문에 변조 성능이 떨어질 수밖에 없다.
본 발명에 따른 변조 처리부(103)는 음성 신호로의 분해 및 재합성 과정이 없고, 목소리를 구성하는 속성의 수치값만을 직접적으로 구현하여 다른 목소리로 변조하기 때문에 자연스러운 발화와 사용자의 억양 등을 유지한 목소리 변조 성능을 체험할 수 있다.
일실시예에 따른 제어부(104)는 각 구성요소들에 대한 명령어를 생성 및 전달하거나, 각 구성요소들 간 통신을 위한 채널로 사용될 수 있다.
도 1b는 저장부를 통해 조절값을 기록하고 유지하는 일실시예에 따른 목소리 커스터마이징 시스템(120)을 설명하는 도면이다.
이를 위해, 일실시예에 따른 목소리 커스터마이징 시스템(120)은 목소리 데이터에 대한 조절값을 저장하는 저장부(105)를 더 포함할 수 있다.
예를 들어, 조절값은 굵은 목소리, 가는 목소리, 여자 목소리, 남자 목소리, 배우 목소리 등과 같이, 음의 높이값, 늘어짐 정도, 및 복수의 공명 주파수를 조절하여 변조할 수 있는 템플릿으로서, 사전에 등록되어 저장될 수 있다.
이에, 입력부(101)가 화자에 대한 목소리 데이터를 입력 받으며, 속성 분석부(102)에서는 입력된 목소리 데이터에 대한 속성을 분석하고, 변조 처리부(103)에서는 분석된 속성에 저장된 조절값을 반영하여 목소리 데이터를 변조할 수 있다.
도 2는 일실시예에 따른 목소리 커스터마이징 시스템을 구현할 수 있는 웹 사이트(200)를 설명하는 도면이다.
웹 사이트(200)에서는 안내에 따라 소통하고 싶은 목소리를 자유롭게 입력 후 변조할 수 있다.
화자 목소리 입력과 관련된 입력 영역(201)에서는 사전 질문지를 통해 수집한 화자(참가자)의 음성에 대해 입력하고, 확인할 수 있는 인터페이스가 표시될 수 있다.
한편, 도면부호 202는 화자 목소리를 변조한 닮고 싶은 목소리를 재생하거나 편집할 수 있는 변조 영역에 해당한다.
변조 영역(202)에서는 화자의 목소리 데이터가 얼마만큼 반영되었는지에 대한 반영도를 나타내는 인디케이터도 표시될 수 있다.
도 2의 실시예에서는, 닮고 싶은 목소리에 대해서 표시 하였지만, 변조하고 싶은 목소리로 해석될 수도 있다.
도 3은 목소리의 속성을 조절하기 위한 인터페이스(300)를 설명하는 도면이다.
목소리의 속성을 조절하기 위한 인터페이스(300)는 입력된 목소리 데이터에 대한 변조를 위해, 조절값에 의해 변조하려는 속성들이 표시될 수 있다.
즉, 입력된 목소리 데이터에 대한 속성으로서, 음의 높이값, f1 내지 f4로 표시되는 복수의 공명 주파수, 늘어짐 정도를 조절할 수 있는 속성 조절 영역(301)이 표시될 수 있다.
한편, 초기화 및 제출과 같은 제어 영역도 목소리의 속성을 조절하기 위한 인터페이스(300)에 표시될 수 있다.
도 4는 일실시예에 따른 목소리 커스터마이징 방법을 설명하는 도면이다.
일실시예에 따른 목소리 커스터마이징 방법은 화자로부터 조절값을 실시간으로 입력받아 목소리 데이터를 변조하는 기술에 관한 것이다.
일실시예에 따른 목소리 커스터마이징 방법은 화자에 대한 목소리 데이터를 입력 받는다(단계 401).
다음으로, 일실시예에 따른 목소리 커스터마이징 방법은 입력된 목소리 데이터에 대한 속성을 분석 및 속도를 정의할 수 있다(단계 402).
예를 들어, 일실시예에 따른 목소리 커스터마이징 방법은 입력된 목소리 데이터에 대한 속성으로서, 음의 높이값, 늘어짐 정도, 및 복수의 공명 주파수를 분석할 수 있다.
구체적으로는, 100~600 Hz 주파수 대역 내에서 상기 음의 높이값을 분석하고, 0~4000 Hz 주파수 대역 내에서 상기 공명 주파수들을 분석할 수 있다.
공명 주파수(f1 내지 f4) 중에서 f1은 0 ~ 1000 Hz 범위 내의 특정 주파수, f2은 1000 ~ 2000 Hz 범위 내의 특정 주파수, f3은 2000 ~ 3000 Hz 범위 내의 특정 주파수, f4는 3000 ~ 4000 Hz 범위 내의 특정 주파수에 해당할 수 있다.
한편, 일실시예에 따른 목소리 커스터마이징 방법은 입력된 목소리 데이터에 대한 최초의 속도를 기준속도로 설정하고, 변조되기 이전의 늘어짐 정도에 기준속도를 부여하여 입력된 목소리 데이터에 대한 속성을 정의할 수 있다.
다음으로, 일실시예에 따른 목소리 커스터마이징 방법은 분석된 속성에 대한 조절값을 입력받을 수 있다(단계 403).
다음으로, 일실시예에 따른 목소리 커스터마이징 방법은 조절값을 분석된 속성에 반영하여 목소리 데이터를 변조할 수 있다(단계 404).
일실시예에 따른 목소리 커스터마이징 방법은 목소리 데이터를 변조를 위해, 입력된 조절값을 이용하여 목소리 데이터를 변조할 수 있다.
이를 위해, 음의 높이값에 해당하는 주파수 대역, 공명 주파수들에 해당하는 주파수 대역, 또는 늘어짐 정도에 부여된 기준속도 중에서 적어도 하나를 조절하여 목소리 데이터를 변조할 수 있다.
이러한 흐름을 통해, 본 발명은 화자의 목소리 데이터를 구성하는 속성을 조절하는 방식을 통해, 개개인이 가진 목소리 본연의 개성을 해치지 않는 선에서 사용자가 원하는 대로 더 듣기 좋은 목소리로 미화 할 수 있다.
또한, 단순한 목소리 필터(voice filter)를 이용하여 기존의 목소리를 변형하는 데에 그치지 않고, 자신을 표현하는 데에 사용될 수 있는 정교한 목소리를 만들어 낼 수 있다.
도 5는 다른 일실시예에 따른 목소리 커스터마이징 방법을 설명하는 도면이다.
일실시예에 따른 목소리 커스터마이징 방법은 화자로부터 조절값을 실시간으로 입력받지 않고, 사전에 템플릿의 형태로 입력된 조절값을 이용하는 실시예를 설명한다.
일실시예에 따른 목소리 커스터마이징 방법은 화자 목소리에 대한 복수의 조절값 기록 및 유지할 수 있다(단계 501).
일실시예에 따른 목소리 커스터마이징 방법은 화자에 대한 목소리 데이터를 입력받을 수 있다(단계 502).
일실시예에 따른 목소리 커스터마이징 방법은 입력된 목소리 데이터에 대한 속성을 분석할 수 있다(단계 503).
이를 위해, 일실시예에 따른 목소리 커스터마이징 방법은 입력된 목소리 데이터에 대한 속성으로서, 음의 높이값, 늘어짐 정도, 및 복수의 공명 주파수를 분석하고, 입력된 목소리 데이터에 대한 최초의 속도를 기준속도로 설정할 수 있다. 또한, 일실시예에 따른 목소리 커스터마이징 방법은 변조되기 이전의 늘어짐 정도에 기준속도를 부여하여 상기 입력된 목소리 데이터에 대한 속성을 정의할 수 있다.
일실시예에 따른 목소리 커스터마이징 방법은 조절값들 중에서, 변조를 희망하는 조절값을 선택입력 받을 수 있다(단계 504).
일실시예에 따른 목소리 커스터마이징 방법은 선택된 조절값을 분석된 속성에 반영하여 목소리 데이터를 변조할 수 있다(단계 505).
이를 위해, 일실시예에 따른 목소리 커스터마이징 방법은 입력된 조절값을 이용하여 음의 높이값에 해당하는 주파수 대역, 공명 주파수들에 해당하는 주파수 대역, 또는 늘어짐 정도에 부여된 기준속도 중에서 적어도 하나를 조절하여 목소리 데이터를 변조할 수 있다.
결국, 본 발명을 이용하면, 목소리의 속성들을 정의내리고, 어떠한 속성을 조절해야 고객들이 원하는 대로 목소리를 변조할 수 있는지를 세밀하게 커스터마이징할 수 있다.
또한, 개개인이 가진 목소리 본연의 개성을 해치지 않는 선에서 사용자가 원하는 대로 더 듣기 좋은 목소리로 미화 할 수 있고, 단순한 목소리 필터(voice filter)를 이용하여 기존의 목소리를 변형하는 데에 그치지 않고, 자신을 표현하는 데에 사용될 수 있는 정교한 목소리를 만들어 낼 수 있다.
뿐만 아니라, 목소리의 모든 속성을 정해진 대로 한 번에 변형시키는 것이 아니라, 목소리에서 커스터마이징이 가능한 속성들의 기준을 정의하여 각각의 기준을 세부적으로 조정 할 수 있고, 주어진 타겟 화자와 닮은 목소리가 아니라 타겟 화자가 모호하거나 아예 존재하지 않는 경우에도 사용자가 설정한 목소리 속성 수치값에 맞는 목소리를 도출하여 확장성을 높일 수 있다.
또한, 익명 소통을 위한 목소리 변조부터 개인 간의 소통에서 더 매력적인 목소리로 소통하기 위한 용도까지 범용성이 높은 시스템의 활용을 기대 할 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
110, 120: 목소리 커스터마이징 시스템
101: 입력부 102: 속성 분석부
103: 변조 처리부 104: 제어부
105: 저장부
101: 입력부 102: 속성 분석부
103: 변조 처리부 104: 제어부
105: 저장부
Claims (10)
- 화자에 대한 목소리 데이터를 입력 받는 입력부;
상기 입력된 목소리 데이터에 대한 속성을 분석하는 속성 분석부;
상기 분석된 속성에 대한 조절값을 입력받고, 상기 입력된 조절값을 상기 분석된 속성에 반영하여 상기 목소리 데이터를 변조하는 변조 처리부
를 포함하는 목소리 커스터마이징 시스템. - 제1항에 있어서,
상기 속성 분석부는,
상기 입력된 목소리 데이터에 대한 속성으로서, 음의 높이값, 늘어짐 정도, 및 복수의 공명 주파수를 분석하는 것을 특징으로 하는 목소리 커스터마이징 시스템. - 제1항에 있어서,
상기 속성 분석부는,
100~600 Hz 주파수 대역 내에서 상기 음의 높이값을 분석하고, 0~4000 Hz 주파수 대역 내에서 상기 공명 주파수들을 분석하는 것을 특징으로 하는 목소리 커스터마이징 시스템. - 제1항에 있어서,
상기 속성 분석부는,
상기 입력된 목소리 데이터에 대한 최초의 속도를 기준속도로 설정하고, 변조되기 이전의 늘어짐 정도에 상기 기준속도를 부여하여 상기 입력된 목소리 데이터에 대한 속성을 정의하는 것을 특징으로 하는 것을 특징으로 하는 목소리 커스터마이징 시스템. - 제3항 또는 제4항에 있어서,
상기 변조 처리부는,
상기 입력된 조절값을 이용하여,
상기 음의 높이값에 해당하는 주파수 대역, 상기 공명 주파수들에 해당하는 주파수 대역, 또는 상기 늘어짐 정도에 부여된 기준속도 중에서 적어도 하나를 조절하여 상기 목소리 데이터를 변조하는 것을 특징으로 하는 목소리 커스터마이징 시스템. - 목소리 데이터에 대한 조절값을 저장하는 저장부;
화자에 대한 목소리 데이터를 입력 받는 입력부;
상기 입력된 목소리 데이터에 대한 속성을 분석하는 속성 분석부;
상기 분석된 속성에 상기 저장된 조절값을 반영하여 상기 목소리 데이터를 변조하는 변조 처리부
를 포함하는 목소리 커스터마이징 시스템. - 제6항에 있어서,
상기 변조 처리부는,
상기 입력된 조절값을 이용하여,
상기 음의 높이값에 해당하는 주파수 대역, 상기 특정 주파수들에 해당하는 주파수 대역, 또는 상기 늘어짐 정도에 부여된 기준속도 중에서 적어도 하나를 조절하여 상기 목소리 데이터를 변조하는 것을 특징으로 하는 목소리 커스터마이징 시스템. - 입력부에서, 화자에 대한 목소리 데이터를 입력 받는 단계;
속성 분석부에서, 상기 입력된 목소리 데이터에 대한 속성을 분석하는 단계;
변조 처리부에서, 상기 분석된 속성에 대한 조절값을 입력받고, 상기 입력된 조절값을 상기 분석된 속성에 반영하여 상기 목소리 데이터를 변조하는 단계
를 포함하는 목소리 커스터마이징 방법. - 제8항에 있어서,
상기 입력된 목소리 데이터에 대한 속성을 분석하는 단계는,
상기 입력된 목소리 데이터에 대한 속성으로서, 음의 높이값, 늘어짐 정도, 및 복수의 공명 주파수를 분석하는 단계; 및
상기 입력된 목소리 데이터에 대한 최초의 속도를 기준속도로 설정하는 단계;
변조되기 이전의 늘어짐 정도에 상기 기준속도를 부여하여 상기 입력된 목소리 데이터에 대한 속성을 정의하는 단계
를 포함하는 것을 특징으로 하는 것을 특징으로 하는 목소리 커스터마이징 방법. - 제8항에 있어서,
상기 분석된 속성에 대한 조절값을 입력받고, 상기 입력된 조절값을 상기 분석된 속성에 반영하여 상기 목소리 데이터를 변조하는 단계는,
상기 입력된 조절값을 이용하여,
상기 음의 높이값에 해당하는 주파수 대역, 상기 공명 주파수들에 해당하는 주파수 대역, 또는 상기 늘어짐 정도에 부여된 기준속도 중에서 적어도 하나를 조절하여 상기 목소리 데이터를 변조하는 단계
를 포함하는 것을 특징으로 하는 목소리 커스터마이징 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220179981A KR20240098315A (ko) | 2022-12-21 | 2022-12-21 | 가상 공간에서의 페르소나를 위한 목소리 커스터마이징 시스템 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220179981A KR20240098315A (ko) | 2022-12-21 | 2022-12-21 | 가상 공간에서의 페르소나를 위한 목소리 커스터마이징 시스템 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20240098315A true KR20240098315A (ko) | 2024-06-28 |
Family
ID=91668771
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220179981A KR20240098315A (ko) | 2022-12-21 | 2022-12-21 | 가상 공간에서의 페르소나를 위한 목소리 커스터마이징 시스템 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20240098315A (ko) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101910273B1 (ko) | 2017-04-06 | 2018-10-19 | 한국과학기술원 | 음성변조를 위한 음성모델 부호화를 이용한 음성합성 기술 및 장치 |
KR20210053020A (ko) | 2019-11-01 | 2021-05-11 | 삼성전자주식회사 | 전자 장치 및 그 동작 방법 |
KR20220017285A (ko) | 2020-08-04 | 2022-02-11 | 한양대학교 산학협력단 | 인공 신경망을 이용한 다화자 음성 합성 방법 및 장치 |
-
2022
- 2022-12-21 KR KR1020220179981A patent/KR20240098315A/ko not_active Application Discontinuation
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101910273B1 (ko) | 2017-04-06 | 2018-10-19 | 한국과학기술원 | 음성변조를 위한 음성모델 부호화를 이용한 음성합성 기술 및 장치 |
KR20210053020A (ko) | 2019-11-01 | 2021-05-11 | 삼성전자주식회사 | 전자 장치 및 그 동작 방법 |
KR20220017285A (ko) | 2020-08-04 | 2022-02-11 | 한양대학교 산학협력단 | 인공 신경망을 이용한 다화자 음성 합성 방법 및 장치 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12033611B2 (en) | Generating expressive speech audio from text data | |
CN111048062B (zh) | 语音合成方法及设备 | |
CN106688034B (zh) | 具有情感内容的文字至语音转换 | |
EP3824461B1 (en) | Method and system for creating object-based audio content | |
US20180336713A1 (en) | Techniques for providing audio and video effects | |
JP5103974B2 (ja) | マスキングサウンド生成装置、マスキングサウンド生成方法およびプログラム | |
US10453434B1 (en) | System for synthesizing sounds from prototypes | |
Ravanelli et al. | Realistic multi-microphone data simulation for distant speech recognition | |
CN112512649B (zh) | 用于提供音频和视频效果的技术 | |
CN109791616A (zh) | 自动语音识别 | |
JP7362976B2 (ja) | 音声合成装置及びプログラム | |
KR102190986B1 (ko) | 개별 화자 별 음성 생성 방법 | |
CN111105776A (zh) | 有声播放装置及其播放方法 | |
US11195511B2 (en) | Method and system for creating object-based audio content | |
KR20240098315A (ko) | 가상 공간에서의 페르소나를 위한 목소리 커스터마이징 시스템 및 방법 | |
Lee et al. | Real-Time Sound Synthesis of Audience Applause | |
Strathearn et al. | A novel speech to mouth articulation system for realistic humanoid robots | |
CN112863476B (zh) | 个性化语音合成模型构建、语音合成和测试方法及装置 | |
CN112885326A (zh) | 个性化语音合成模型创建、语音合成和测试方法及装置 | |
KR102190989B1 (ko) | 동시 발화 구간에서의 음성 생성 방법 | |
Panek et al. | Challenges in adopting speech control for assistive robots | |
KR102472921B1 (ko) | 음향 신호를 사용자 인터페이스에 시각적으로 표시하는 사용자 인터페이싱 방법 및 장치 | |
Kahloon et al. | Clear speech promotes speaking rate normalization | |
Singh | Artificial narrow intelligence adaptive audio processing | |
Astrinaki et al. | Mage-Reactive articulatory feature control of HMM-based parametric speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E601 | Decision to refuse application |