KR101103734B1 - 가우시안 혼합 모델 기반 변환에서의 소프트 정렬 - Google Patents
가우시안 혼합 모델 기반 변환에서의 소프트 정렬 Download PDFInfo
- Publication number
- KR101103734B1 KR101103734B1 KR1020087028160A KR20087028160A KR101103734B1 KR 101103734 B1 KR101103734 B1 KR 101103734B1 KR 1020087028160 A KR1020087028160 A KR 1020087028160A KR 20087028160 A KR20087028160 A KR 20087028160A KR 101103734 B1 KR101103734 B1 KR 101103734B1
- Authority
- KR
- South Korea
- Prior art keywords
- sequence
- vector
- source
- feature vectors
- data
- Prior art date
Links
- 239000000203 mixture Substances 0.000 title claims abstract description 6
- 230000009466 transformation Effects 0.000 title description 22
- 239000013598 vector Substances 0.000 claims abstract description 200
- 238000000034 method Methods 0.000 claims abstract description 46
- 238000006243 chemical reaction Methods 0.000 claims description 25
- 238000013501 data transformation Methods 0.000 claims description 5
- 238000011550 data transformation method Methods 0.000 claims 1
- 238000011426 transformation method Methods 0.000 claims 1
- 238000012549 training Methods 0.000 abstract description 12
- 230000001131 transforming effect Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 6
- 238000000844 transformation Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Image Analysis (AREA)
Abstract
가우시안 혼합 모델 (GMM) 기반 및 다른 벡터 변환들에서의 소프트 정렬을 수행하는 시스템들 및 방법들이 제공된다. 소프트 정렬은 소스 및 타겟 특징 벡터 쌍들에 대해 정렬 확률들을 할당할 수도 있다. 이후에는, 그 벡터 쌍들 및 연관된 확률들은, 예를 들어 결합 벡터들 및 정렬 확률들로부터 GMM 훈련 파라미터들을 계산함으로써, 변환 함수를 계산하여 소스 화자로부터 타겟 화자로 발화 사운드들을 변환하기 위한 음성 변환 함수를 생성하는데 사용될 수도 있다.
Description
본 개시물은, 예를 들어 음성 변환 함수 (voice conversion function)의 생성을 위한 가우시안 혼합 모델 (Gaussian Mixture Model; GMM) 기반 기술을 이용하는, 스칼라들 또는 벡터들의 변환에 관한 것이다.
음성 변환은 소스 화자(speaker)의 음성 특징들 (예: 음조(pitch), 발음(pronunciation))을 타겟 화자의 그것들로 적응하는 것(adaptation)이다. 최근 몇년 동안, 음성 변환 시스템들 및 다른 관련된 변환 모델들의 효율적인 생성을 위한 응용(application)들에 대한 관심은 상당히 높아졌다. 이러한 시스템들을 위한 하나의 응용은 개인화된(individualized) 문자음성변환 (text-to-speech; TTS) 시스템들에서의 음성 변환의 사용자에 관련된다. 서로다른 화자들로부터의 발화 벡터(speech vector)들의 효율적인 변환들 및 음성 변환 기술 없이는, 새로운 음성들은 단지, 대량의 레코딩들 및 수작업 어노테이션들(annotations)과 같이, 시간낭비적이고 고비용의 프로세스들을 이용하여서만 생성될 수 있다.
잘 알려진 GMM 기반 벡터 변환은, 소스 및 타겟 화자들의 특징 벡터들에 기초한 결합 특징 벡터(joint feature vector)들을 생성하고, 그리고 나서, 그 결합 특징 벡터들을 사용하여 GMM 파라미터들을 훈련시키고(training) 그리고 궁극적으로는 소스 및 타겟 음성들 간의 변환 함수를 생성함으로써, 음성 변환 및 다른 변환 응용들에서 사용될 수 있다. 전형적인 음성 변환 시스템들은 다음의 3가지 주요 단계들, 즉 특징 추출 (feature extraction); 소스 및 타겟 화자들의 추출된 특징 벡터들 간의 정렬(alignment); 및 정렬된 소스 및 타겟 벡터들에 대한 GMM 훈련;을 포함한다. 전형적인 시스템들에서, 소스 벡터 시퀀스 및 타겟 벡터 시퀀스 간의 벡터 정렬은 GMM 파라미터들을 훈련시키거나 또는 변환 함수를 생성하기 전에 수행되어야 한다. 예를 들어, 만일 서로 다른 2명의 화자들로부터의 일련의 등가적 발성(발언) (equivalent utterance)들이 레코딩된다면, 변환 함수를 만들려고 시도하기 전에, 그에 대응되는 발성들이 양자 모두의 레코딩들에서 식별되어야 한다. 이 개념은 소스 및 타겟 벡터들의 정렬로서 알려져 있다.
벡터 정렬에 관한 기존의 기술들은, 전형적으로, 예를 들어 전문가(human expert)들에 의해 수동으로, 그렇지 않으면 동적 시간 정합 (dynamic time warping; DTW) 프로세스에 의해 자동으로, 수행된다. 그러나, 수동 정렬 및 DTW 양자 모두는 벡터 변환의 전체적인 품질 및 효율성에 부정적인 영향을 줄 수 있는 상당한 결함들을 가진다. 예를 들면, 양자 모두의 방식들은 모두 "하드 정렬(hard alignment)"의 기법에 의존한다. 즉, 각 소스 벡터는 정확히 하나의 타겟 벡터와 완전히 정렬되도록 결정되거나 또는 전혀 정렬되지 않도록 결정되고, 각 타겟 벡터에 대해서도 또한 마찬가지이다.
도 1을 참조하면, 소스 벡터 시퀀스(110) 및 타겟 벡터 시퀀스(120) 간의 기존의 하드 정렬 방식의 예가 제시되어 있다. 벡터 시퀀스들(110, 120)은 특징 벡터들 x1-x16 및 y1-y12로 이루어진 집합들을 각각 포함하고, 여기서 각 특징 벡터 (발화 벡터)는 예를 들어 큰 음성 세그먼트(segment)에서의 기본 발화 사운드를 나타낼 수도 있다. 이들 벡터 시퀀스들(110, 120)은, 예를 들어 같은 단어 또는 구(phrase)를 발화하는 두 명의 다른 사람들의 오디오 레코딩들로부터 형성된 벡터 시퀀스들과 같이 등가적일 수도 있다 (즉, 이들 벡터 시퀀스들(110, 120)은 다수의 같은 발화 특징들을 포함할 수도 있다). 도 1에서 보인 바와 같이, 등가적 벡터 시퀀스들일지라도 종종 서로다른 개수들의 벡터들을 포함하고, 또한 시퀀스 내의 서로다른 위치들에서 등가적 발화 특징들(예: x16 및 y12)을 가질 수도 있다. 예를 들면, 소스 화자는 타겟 화자보다 느리게 일정 사운드들을 발음할 수도 있고, 또는 그 타겟 화자보다 사운드들 사이를 좀더 길게 멈출 수도 있는 것 등등이 있다. 따라서, 소스 및 타겟 벡터들 간의 일대일 하드 정렬은 대개 특정의 특징 벡터들 (예: x4, x5, x10, ...)을 폐기하는 결과를 가져오거나 또는 정렬 매칭(alignment matching)을 위한 부가적인 쌍들을 생성하기 위해 특징 벡터들을 복제(duplication)하거나 삽입(interpolation)하는 결과를 가져온다. 결과적으로, 작은 정렬 오차(error)들이 더 큰 오차들로 확대될 수도 있고, 전체적인 정렬 프로세스는 더 복잡해지고 더 비용이 발생하게 될 수도 있다. 결국, 하드 정렬은 간단히 말하면 많은 경우들에 있어서 불가능할 수도 있다. 인간의 발화로부터 추출된 특징 벡터들은 대개 최고의 전문가들 또는 어떠한 DTW 자동 작업에 의해서조차도 완전하게 정렬될 수 없다. 따라서, 하드 정렬은 그것이 완벽하게 수행될지라도 어느 정도의 오차를 수반한다.
하드 정렬 방식으로부터 발생되는 정렬 오차 확대의 예로서, 도 2는 벡터 변환을 위해 정렬되는 소스 시퀀스(210) 및 타겟 시퀀스(220)의 블록 다이어그램을 보여준다. 시퀀스들(210, 220)은 이 예에서 동일하지만, 별개의 패리티(parity)들 상에서 2개 마다 간축(decimation)되었다. 따라서, 여러 실제 환경의 시나리오들에서처럼, 완벽한 일대일 특징 벡터 매칭은, 완전하게 정렬된 소스-타겟 벡터 쌍들이 이용가능하지 않기 때문에, 불가능하다. 하드 정렬 방식을 사용할 때, 각 타겟 벡터는 그것의 가장 근접한 소스 벡터와 짝지어지고 그 쌍은 그 후에 완벽하게 그리고 완전하게 정렬되는 것으로 가정된다. 따라서, 다른 인접 벡터들은 정렬 프로세스에서 고려되지 않기 때문에 정렬 오차들은 탐지되지 않거나 또는 참작되지 않을 수도 있다. 결과적으로, 하드 정렬 방식은 데이터 모델 내로 잡음(noise)을 도입하게 할 수도 있고, 정렬 오차를 증가시키게 할 수도 있으며, 정렬 프로세스에 있어서의 상당한 복잡성을 초래하게 할 수도 있다.
이에 따라, 음성 변환을 위한 GMM 기반 변환들과 같은 벡터 변환들을 위해 데이터 시퀀스들을 정렬하는 방법들 및 시스템들이 필요하다.
전술한 배경기술에 비추어, 다음에서 본 발명의 몇몇의 측면들의 기초적인 이해를 도모하기 위해 본 개시물의 간략화된 설명을 제공한다. 이러한 설명은 본 발명의 광대한 개관은 아니다. 그것은 본 발명의 주요하거나 또는 결정적인 요소들을 인식시키거나 또는 본 발명의 범위를 구분짓고자 하는 것이 아니다. 다음의 설명은 단지 아래에서 제공되는 좀더 상세한 내용에 대한 서두로서 간략화된 형식으로 본 발명의 일부 개념들을 나타낸 것뿐이다.
본 개시물의 하나의 측면에 따르면, 소스 및 타겟 벡터들 간의 정렬은, 변환 프로세스, 예를 들어 소스 화자 및 타겟 화자 간의 발화 벡터들의 가우시안 혼합 모델 (GMM) 기반 변환 동안, 수행될 수도 있다. 소스 및 타겟 벡터들은, 변환 모델들 및 변환 함수들의 생성에 앞서, 각 소스-타겟 벡터 쌍이 일대일로 완전하게 정렬될 필요가 없도록 하는 소프트 정렬 방식을 사용하여, 정렬된다. 대신에, 단일의 소스 또는 타겟 벡터를 포함하는 다수의 벡터 쌍들은, 각 쌍 편성에 대한 정렬 확률과 함께, 식별될 수도 있다. 결합 특징 벡터들의 시퀀스는 그 벡터 쌍들 및 연관된 확률들에 기초하여 생성될 수도 있다.
본 개시물의 또 하나의 측면에 따르면, 변환 모델, 예컨대 GMM 모델 및 벡터 변환 함수는 소스 및 타겟 벡터들 및 추정된 정렬 확률들에 기반하여 계산될 수도 있다. 변환 모델 파라미터들은 추정 알고리즘들, 예컨대 기대-최대화(Expectation-maximization) 알고리즘에 의해 결정될 수도 있다. 이들 파라미터들로부터, 모델 훈련 및 변환 특징들과 아울러, 차후의 소스 및 타겟 벡터들을 변환하기 위한 변환 함수도 생성될 수도 있다.
따라서, 본 개시물의 몇몇 측면들에 의하면, 예를 들어 음성 변환에서 사용되는 GMM 기반 변환들에서 소프트 정렬을 사용함으로써 자동 벡터 정렬이 개선될 수 있다. 개시된 소프트 정렬 기술들은 정렬 오차들을 감소시키고 벡터 변환들을 수행하는 경우에 높은 효율성 및 품질을 허용해 준다.
지금까지는 일반적인 측면에서 본 발명을 설명하였지만, 이제부터는 첨부된 도면들이 참조될 것이고, 여기서 이 도면들은 반드시 일정한 비율로 제도된 것은 아니다.
도 1은 벡터 변환에서 사용하기 위한 기존의 하드 정렬 방식을 예시한 라인 다이어그램 (line diagram)이다.
도 2는 벡터 변환에서 사용하기 위한 기존의 하드 정렬 방식을 예시한 블록 다이어그램으로, 도2는 추적 기기(tracking device)의 블록 다이어그램을 예시한 것이다.
도 3은 본 개시물의 측면들에 따라, 컴퓨팅 기기를 예시한 블록 다이어그램이다.
도 4는 본 개시물의 측면들에 따른, 소스 및 타겟 벡터 시퀀스들 간의 소프트 정렬을 수행하기 위한 전형적인 단계들을 보여주는 흐름도이다.
도 5는 본 개시물의 측면들에 따른, 벡터 변환에서 사용하기 위한 소프트 정렬 방식을 예시한 라인 다이어그램이다.
도 6은 본 개시물의 측면들에 따른, 벡터 변환에서 사용하기 위한 소프트 정렬 방식을 예시한 블록 다이어그램이다.
여러 실시예들에 관한 이하의 설명에서는, 첨부된 도면들, 즉 본 발명이 실행될 수도 있는 여러 실시예들이 예시로써 제시되면서, 이 문서의 일부를 구성하는 첨부된 도면들을 참조한다. 다른 실시예들이 활용될 수도 있고 구조적 및 기능적 변형예들이 본 발명의 범위와 사상을 벗어남이 없이 이루어질 수도 있다는 것이 이해되어야 할 것이다.
도 3은 본 발명의 전형적인 실시예에 따라 사용될 수도 있는 일반 컴퓨팅 기기(301)의 블록 다이어그램을 예시한 것이다. 기기(301)는 그 컴퓨팅 기기의 전반적인 동작을 제어하기 위한 프로세서(303) 및 이와 연관된 콤포넌트들 - 이는 RAM(305), ROM(307), 입력/출력 모듈(309) 및 메모리(315)를 포함함 - 을 구비할 수도 있다.
I/O(309)는 기기(301)의 사용자가 입력을 제공할 수 있게 하는 마이크로폰, 키패드, 터치스크린 및/또는 스타일러스(stylus)를 포함할 수도 있고, 또한 오디오 출력을 제공하기 위한 하나 이상의 스피커(speaker) 및 문자, 시청각 및/또는 그래픽 출력을 제공하기 위한 비디오 디스플레이 기기를 포함할 수도 있다.
메모리(315)는, 운영 시스템(317), 어플리케이션 프로그램들(319) 및 연관 데이터(321)와 같은, 기기(301)에 의해 사용되는 소프트웨어를 저장할 수도 있다. 예를 들면, 본 발명의 전형적인 실시예에 따른 기기(301)에 의해 사용되는 하나의 어플리케이션 프로그램(321)은 이 문서에서 기술되는 것과 같은 벡터 정렬 방식들 및 음성 변환 알고리즘들을 수행하기 위한 컴퓨터 실행가능 명령들을 포함할 수도 있다.
도 4를 참조하면, 예를 들어, GMM 벡터 변환에서 사용되는 변환 함수의 생성을 기술하는 흐름도가 제시되어 있다. 이 예에서, 그 함수는 음성 변환/발화 변환에 관련되고, 소스 및 타겟 화자의 발화 특징들을 나타내는 벡터들의 변환을 수반할 수도 있다. 그러나, 본 개시물이 이러한 용도들로 제한되는 것은 아니다. 예를 들어, 임의의 가우시안 혼합 모델 (GMM) 기반 변환, 또는 스칼라나 벡터 정렬을 요구하는 다른 데이터 변환 (data transformation)들이 본 개시물과 함께 사용될 수도 있다. GMM-기반 기술들에 더하여, 본 개시물은, 예를 들어, 코드북(codebook)-기반 벡터 변환 및/또는 음성 변환과 같은, 다른 기술들을 사용하는 벡터 변환들 및 데이터 변환에 관련될 수도 있다.
단계(401)에서, 소스 및 타겟 특징 벡터들이 수신된다. 이 예에서, 그 특징 벡터들은 소스 화자 및 타겟 화자에 의해 이루어지고, 그리고 디지털 방식으로 표현되는 데이터 벡터들로 레코딩되고 분절되는(segmented) 등가적 발성들에 상응한 것일 수도 있다. 더 구체적으로는, 그 소스 및 타겟 벡터들은, 음조 또는 선 스펙트럼 주파수 (line spectral frequency; LSF)와 같이, 화자 음성의 소정 특징에 각각 기초하여 이루어질 수도 있다. 이 예에서, 소스 화자와 연관된 특징 벡터들은 변수 x = [x1, x2, x3 ... xt ...xm]에 의해 표현될 수도 있고, 반면 타겟 화자와 연관된 특징 벡터들은 변수 y = [y1, y2, y3 ... yt ... yn]에 의해 표현될 수도 있다 - 여기서 xt 및 yt는 시간 t에서의 화자 벡터들이다.
단계(402)에서, 정렬 확률들이, 서로다른 소스-타겟 벡터 쌍들에 대해, 예를 들어 컴퓨팅 기기(301)에 의해 추정된다. 이 예에서, 그 정렬 확률들은, 데이터 분포 모델에서 관찰가능한 파라미터들로부터 알려져 있지 않거나 또는 숨겨진 파라미터들을 추출하는 것에 관련된 통계적 모델들, 은닉 마코브 모델들 (Hidden Markov Models; HMM)에 관련된 기술들을 사용하여 추정될 수도 있다. 예를 들어, 소스 및 타겟 벡터 시퀀스들에서의 각각 개별적인 벡터는, 시간 단위(time unit)마다 한 번씩 상태(state)를 변경하는 좌-우 유한 상태 머신 (left-to-right finite state machine)에 의해 생성될 수도 있다. 이러한 유한 상태 머신들은 마코브 모델들 (Markov Models)로서 알려져 있을 수도 있다. 게다가, 정렬 확률들은 또한 훈련 가중치들(training weights), 예를 들어 GMM 기반 변환을 위한 훈련 파라미터들을 생성하는데 사용되는 가중치(weight)들을 나타내는 값들일 수도 있다. 따라서, 정렬 확률은 확률 범위 (예: 0에서 1까지, 또는 0에서 100까지) 내의 값으로서 표현될 필요는 없고, 다만 변환에서 사용되는 훈련 가중치 방식에서의 소정 가중치에 해당하는 값일 수도 있다.
소스 및 타겟 벡터 시퀀스들에서의 작은 벡터 집합들은, 음소(phoneme), 즉 발화의 기본 단위를 나타내거나 그것에 속할 수도 있다. 음소는 단어의 의미에 영향을 주는 최소 사운드 단위에 해당할 수 있다. 예를 들어, 단어 "book"에서의 음소 'b'는 단어 "took"에서의 음소 't' 또는 단어 "hook"에서의 음소 'h'와 대조되어 그 발화된 단어의 의미에 영향을 준다. 따라서, 또한 특징 벡터들로도 알려져 있는, 소스 및 타겟 벡터 시퀀스들로부터의, 짧은 벡터 시퀀스들 또는 심지어는 개별적인 벡터들은, 이들 'b', 't', 및 'h' 사운드들에 또는 다른 기본 발화 사운드들에 해당할 수도 있다. 특징 벡터들은, 사운드 프레임들(sound frames)과 같은, 음소들보다 작은 사운드 단위들을 나타낼 수도 있어서, 변환에서 캡쳐되는 시간 및 발음 정보는 더욱 더 정확해질 수도 있다. 하나의 실시예에서, 개별적인 특징 벡터는 짧은 발화 세그먼트, 예를 들어, 10 밀리세컨드(milliseconds)를 나타낼 수도 있다. 그때, 유사한 크기의 특징 벡터들의 집합은 함께 음소를 나타낼 수도 있다. 특징 벡터는 또한 큰 발화 세그먼트에서의 두 음소들 간의 천이 부분(transition)과 같이, 발화의 경계 세그먼트를 나타낼 수도 있다.
각 HMM 하부단어 모델 (subword model)은 하나 이상의 상태들로 표현될 수도 있고, HMM 하부단어 모델들의 전체 집합은, 결합 특징 벡터들의 상태 시퀀스 M, 또는 상태들로 이루어져 있는, 복합 HMM 모델을 형성하도록 연접(concatenation)될 수도 있다. 예를 들어, 복합 HMM 모델은 언어-내적인(intra-lingual) 언어 음성 변환 (language voice conversion)을 위한 화자-독립 음소 기반 HMM들의 집합을 연접시킴으로써 생성될 수도 있다. 다른 예로서, 복합 HMM 모델은 심지어 언어간 교차(cross-lingual) 언어 음성 변환을 위한 언어-독립 음소 기반 HMM들의 집합을 연접시켜 생성될 수도 있다. 상태 시퀀스 M의 각 상태 j에서, 시간 t에서의 소스의 j번째 상태 점유의 확률은 LSj(t)로서 표시될 수도 있고, 반면에 같은 시간 t에서의 같은 상태 j에 관한 타겟 점유의 확률은 LTj(t)로서 표시될 수도 있다. 이들 값들의 각각은, 예를 들어, 특히 HMM 모델들에 관한 문맥(context)에 있어서, 관찰된 이벤트들의 시퀀스의 확률을 계산하기 위해 관련 기술분야에서 숙련된 자들이 공통적으로 알고 있는, 포워드-백워드 알고리즘 (forward-backward algorithm)을 이용하여, 컴퓨팅 기기(301)에 의해, 계산될 수도 있다. 이 예에서, 소스의 j번째 상태 점유의 포워드(forward) 확률은 다음의 수학식 1을 사용하여 계산될 수도 있다:
(여기서, xt는 시간 t에서의 소스 화자와 연관된 특징 벡터, M은 결합 특징 벡터들의 상태 시퀀스, j는 상태 시퀀스 M의 각 상태, N은 상태들의 개수, i는 임의의 한 상태, aij는 상태 i에서 상태 j로의 상태 천이 확률(state transition probability), 그리고 bj(xt)는 상태 j에 있을 시간 t에서의 발화 벡터 xt의 확률 밀도를 나타냄).
반면 소스의 j번째 상태 점유의 백워드(backward) 확률은 유사한 수학식을 사용하여 계산될 수도 있다:
(여기서, xt는 시간 t에서의 소스 화자와 연관된 특징 벡터, M은 결합 특징 벡터들의 상태 시퀀스, j는 상태 시퀀스 M의 각 상태, N은 상태들의 개수, i는 임의의 한 상태, aij는 상태 i에서 상태 j로의 상태 천이 확률, 그리고 bj(xt+1)은 상태 j에 있을 시간 t+1에서의 발화 벡터 xt+1의 확률 밀도를 나타냄).
따라서, 시간 t에서의 소스의 j번째 상태 점유의 총 확률은 다음의 수학식 2로 계산될 수도 있다:
(여기서, αj(t) 및 βj(t)는 각각 수학식 1의 αj(t) 및 수학식 2의 βj(t)와 같음, x는 x=[x1 x2 ... xt ... xn], 그리고 M은 결합 특징 벡터들의 상태 시퀀스를 나타냄).
소스 및 타겟 시퀀스에서의 여러 시간들 및 상태들에서의 점유 확률은 유사하게 계산될 수도 있다. 즉, 상기 수학식 1 내지 3에 해당하는 수학식들은 타겟 화자의 특징 벡터들에 적용될 수도 있다. 또한, 이들 값들은 소스-타겟 벡터 쌍이 정렬되는 확률을 계산하는데 사용될 수도 있다. 이 예에서, 잠재적으로 정렬되는 소스-타겟 벡터 쌍 (예: xp T 및 yq T, 여기서 xp는 시간 p에서의 소스 화자의 특징 벡터이고, yq는 시간 q에서의 타겟 화자의 특징 벡터)에 대하여, 특징 벡터들 xp 및 yq가 정렬되는 확률을 나타내는 정렬 확률 (PApq)은 다음의 수학식 4를 사용하여 계산될 수도 있다:
(여기서, xp는 시간 p에서의 소스 화자의 특징 벡터, yq는 시간 q에서의 타겟 화자의 특징 벡터, L은 상태들의 개수, 은 임의의 한 상태, 는 xp의 번째 상태 점유의 확률, 그리고 는 yq의 번째 상태 점유의 확률을 나타냄).
단계(403)에서, 결합 특징 벡터들이 소스-타겟 벡터들에 기초하여, 그리고 소스 및 타겟 벡터 쌍들의 정렬 확률들에 기초하여 생성된다. 이 예에서, 그 결합 특징 벡터들은 zk = zpq = [xp T, yq T, PApq]T로서 정의될 수도 있다. 본 개시물에서 기술되는 결합 특징 벡터들은 소프트 정렬될 수도 있기 때문에, 정렬 확률 PApq는, 다른 정렬 방식들에서처럼, 단순히 0 또는 1일 필요는 없다. 오히려, 소프트 정렬 방식에서는, 정렬 확률 PApq는, 단지 비-정렬 또는 정렬을 나타내는 불리언 값 (Boolean value) (예; 0 또는 1) 이 아닌, 어떠한 값도 될 수도 있다. 따라서, 비-불리언(non-Boolean) 확률 값들, 예컨대, 0과 1 사이의 연속 범위 내의 비-정수 값들은 소스 및 타겟 벡터 쌍 간의 정렬에 대한 우도(likelihood)를 나타내기 위해 불리언 값들과 마찬가지로 사용될 수도 있다. 게다가, 위에서 언급한 바와 같이, 정렬 확률은 또한, 특정 확률로의 맵핑(mapping)보다는 오히려, 훈련 가중치와 같은 가중치를 나타낼 수도 있다.
단계(404)에서, 단계(403)에서 결정된 결합 벡터 시퀀스에 기초하여, 예를 들어, 컴퓨팅 기기(301)에 의해, 변환 모델 파라미터들이 계산된다. 모델 함수들 또는 변환 함수들을 위한 적절한 파라미터들의 결정은, 대개 혼합 모델들, 또는 유사한 "누락 데이터(missing data)" 문제들의 문맥에서 추정으로서 알려져 있다. 즉, 모델에서 관찰되는 데이터 포인트들 (즉, 소스 및 타겟 벡터 시퀀스들)은 데이터를 모델링하는데 사용되는 분포로 구성원을 가지는 것으로 가정될 수도 있다. 그 구성원은 처음에는 알려져 있지 않지만, 개별 모델 분포들에서의 데이터 포인트들의 구성원으로서 표현되는 그 데이터 포인트들에 대한 연결들을 이용하여, 선택된 변환 함수들에 대해 적절한 파라미터들을 선택함으로써 계산될 수도 있다. 그 파라미터들은, 예를 들어, GMM 기반 변환을 위한 훈련 파라미터들일 수도 있다.
이 예에서, GMM 훈련 파라미터들을 계산하기 위해 기대-최대화 알고리즘이 사용될 수도 있다. 이 2-단계 알고리즘에서, 사전 확률 (prior probability)은 기대 단계에서 다음의 수학식 5로 측정될 수도 있다:
(여기서, Pl,pq는 상기 사전 확률, 은 임의의 한 상태, zpq는 결합 벡터(zpq = [xp T, yq T, PApq]T)를 나타냄, ppq는 소프트 확률로, 그 정렬 확률은 시간 p에서의 소스 화자의 특징 벡터 xp가 시간 q에서의 타겟 화자의 특징 벡터 yq로 정렬되는 확률을 표현함, L은 상태들의 개수, ^Pl,pq는 Pl,pq의 기대값을 나타냄, 그리고 PA(xp, yq)는 수학식 4에서의 PA(xp, yq)와 같음).
최대화 단계는, 이 예에서, 다음의 수학식 6에 의해 계산될 수도 있다:
(여기서, ^P()은 상태 일 확률의 기대값, m과 n은 소스 및 타겟 음성에 대한 시간 길이(time length), ^Pl,pq는 Pl,pq의 기대값, ^ul은 번째 상태의 평균, zpq는 결합 벡터(zpq = [xp T, yq T, PApq]T), 그리고 ^Σl은 번째 상태의 공분산임).
어떤 실시예들에서는, 특징들의 별도 집합이 단계(404)에서 GMM 훈련 및 변환을 위해 생성될 수도 있다는 것을 유념하여야 한다. 즉, 소프트 정렬 특징 벡터들은 GMM 훈련 및 변환 특징들과 같을 필요는 없다.
최종적으로, 단계(405)에서, 소스 모델 x에서 타겟 모델 y로 특징을 변환할 수도 있는 변환 모델, 예컨대 변환 함수가 생성된다. 이 예에서의 변환 함수는 다음 수학식 7로 표현될 수도 있다:
(여기서, x는 소스 모델, y는 타겟 모델, 은 임의의 한 상태, pl(x)는 x가 상태 에 속할 확률, 는 타겟 모델의 ^ul(번째 상태의 평균), 는 소스 모델 및 타겟 모델에 대한 ^Σl(번째 상태의 공분산), 는 오직 소스 모델에 대한 ^Σl, 그리고 는 소스 모델의 ^ul).
이제 이 변환 함수, 또는 모델 함수는, 추가적인 소스 벡터들, 예컨대 소스 화자로부터의 발화 신호 벡터들을, 타겟 벡터들로 변환하기 위해 사용될 수도 있다. 음성 변환에 적용되는 경우의 소프트 정렬되는 GMM 기반 벡터 변환들은, 예를 들어, 문자음성변환(TTS) 응용의 일부로서, 발화 벡터들을 대응하는 개인화된 타겟 화자로 변환하도록 사용될 수도 있다. 도 5를 참조하면, 소스 및 타겟 벡터 시퀀스들에 대한 정렬 확률 추정들의 생성에 관련된 본 개시물의 측면을 예시한 블록 다이어그램이 제시되어 있다. 소스 특징 벡터 시퀀스(510)는 5개의 발화 벡터들(511-515)을 포함하고, 반면에 타겟 특징 벡터 시퀀스(520)는 단지 3개의 발화 벡터들(521-523)만을 포함한다. 위에서 언급한 바와 같이, 이 예는, 서로다른 개수들의 특징 벡터들을 소스 및 타겟이 가지는, 다른 공통 벡터 변환 시나리오들을 예시할 수도 있다. 이러한 경우들에서, 여러 기존의 방법들은, 양자 모두의 시퀀스들이 같은 수의 벡터들을 포함하고 일대일로 짝지어질 수 있도록, 벡터 정렬 동안 특징 벡터들을 폐기하는 것, 복제하는 것, 또는 삽입하는 것을 요구할 수도 있다.
그러나, 위에서 기술한 바와 같이, 본 개시물의 측면들은 하드 일대일 매칭을 요구하기보다는 오히려 소스 및 타겟 벡터들의 소프트 정렬을 기술한다. 이 예에서, 상태 벡터(530)는 3개의 상태들(531-533)을 포함한다. 소스 시퀀스 벡터들(511-515)을 상태 시퀀스(531)로 연결하는 각각의 라인은 시간 t에서 그 소스 벡터(511-515)에 의해 상태(531)를 점유하는 확률을 나타낼 수도 있다. 은닉 마코브 모델 (HMM) 또는 유사한 모델링 시스템에 따라 상태 시퀀스를 생성하는 경우에, 그 상태 시퀀스(530)는 각 시간 단위 t에 해당하는 상태(531-533)를 가질 수도 있다. 도 5에서 보인 바와 같이, 소스 특징 벡터들(511-515) 및 타겟 특징 벡터들(521-523) 양자 모두 중 하나 이상은 소정 정렬 확률로 상태(531)를 점유할 수도 있다. 이 예에서, 복합 HMM 모델은 상태 시퀀스(530)에서 모든 상태들을 연접함으로써 생성될 수도 있다.
따라서, 비록 상태 시퀀스(530)에서의 한 상태가, 도 4를 참조하여 위에서 기술한 바와 같이, [xp T, yq T, PApq]T와 같은, 단일의 정렬된 쌍에 형성될 수도 있지만, 본 개시물은 단일의 정렬된 쌍 및 한 상태에 대한 확률 추정에 제한되는 것은 아니다. 예를 들면, 상태 시퀀스(530)에서의 상태(531)는, 5개의 소스 벡터들(511-515), 3개의 타겟 벡터들(521-523), 및 잠재적으로 정렬되는 소스-타겟 벡터 쌍들의 각각에 대한 확률 추정치들로부터 형성된다.
도 6을 참조하면, 소스 및 타겟 벡터 시퀀스들의 변환에 관련된 본 개시물의 측면을 예시한 블록 다이어그램이 제시되어 있다. 간략화된 소스 벡터 시퀀스(610) 및 타겟 벡터 시퀀스(620)가 이 예에서, 도 2에서 보인 것과 같은 기존의 하드 정렬된 방법들에 비해 본 개시물의 잠재적인 이점들을 예시하기 위해, 선택되었다. 이 예에서, 소스 벡터 시퀀스(610) 및 타겟 벡터 시퀀스(620)는, 서로다른 시퀀스들(610, 620)에 대해 별개의 패리티들 상에서 2개 마다의 간축(decimation)이 적용되었다는 점만 제외하고는, 동일하다. 이러한 간축은, 예를 들어, 소스 및 타겟으로부터의 발화 신호들의 출력 샘플링 율 (output sampling rate)의 감소로, 일어날 수도 있어서, 샘플들은 적은 저장 공간을 요구할 수도 있다.
도 2를 참조하여 기술된 기존의 하드 정렬을 다시 상기시켜 본다. 그 기존의 일대일 맵핑에서, 각각의 타겟 특징 벡터는 단순히 그것의 가장 근접한 소스 특징 벡터와 정렬되었다. 이 기존의 시스템은 인접 쌍들이 완전히 그리고 완벽히 정렬되는 것을 가정한 것이기 때문에, 작은 정렬 오차들이 탐지되거나 또는 참작되지 않을 수도 있는데, 왜냐하면 다른 인접 벡터들이 고려되지 않기 때문이다. 결과적으로, 그 하드 정렬은 궁극적으로 덜 정확하고 정렬 오차들에 더 취약할 수도 있다.
도 6을 참조하면, 이 간단한 예에서, 각 타겟 벡터 샘플은 소스 벡터 시퀀스에서의 그것의 가장 근접한 2개의 특징 벡터들에 대해 같은 확률들(0.5)로 짝지어진다. 소프트 정렬로 생성된 변환된 피쳐들은 항상 일대일로 짝지어지지는 않고, 또한 다른 관련 특징 벡터들을 참작할 수도 있다. 따라서, 소프트 정렬을 이용한 변환은 더 정확하고 초기의 정렬 오차들에 덜 민감할 수도 있다.
본 개시물의 또 하나의 측면에 의하면, 하드-정렬된/소프트-정렬된 GMM 성능은 도 2 및 도 6의 데이터와 같은 병렬 테스트 데이터(parallel test data)를 사용하여 비교될 수 있다. 예를 들어, 병렬 테스트 데이터의 하드 정렬 및 소프트 정렬 후의 변환된 특징들은, 평균 제곱 오차 (mean squared error; MSE) 계산을 이용하여, 타겟 특징들에 대해 벤치마크(benchmark)되거나 또는 평가될 수도 있다. 잘 알려진 오차 계산 방법인 MSE는 표준 오차 (standard error) 제곱 및 편의(bias) 제곱의 합의 제곱근이다. MSE는 샘플 추정에 대해 기대되는 총 오차의 측정치를 제공한다. 음성 변환 문맥에서, 예를 들어, 음조 또는 선 스펙트럼 주파수 (LSF)와 같은, 서로다른 발화 특징들의 MSE는, 하드 정렬 대 소프트 정렬 기반 GMM 변환의 전반적인 GMM 성능을 결정하기 위해 계산되고 비교될 수도 있다. 그 비교는 음조 특징에 대하여 개별적으로 각 발화 세그먼트에 대한 간축 및 짝짓기(pairing) 절차를 수행함으로써 더 강건하게 이루어질 수도 있고, 따라서 교차-세그먼트 짝짓기들을 회피할 수도 있다. 대조적으로, LSF 비교는 단지 간축 및 쌍짓기 절차가 전체 데이터 집합에 대하여 한번 적용될 것을 요구할 수 있는데, 왜냐하면 LSF는 그 데이터 집합에서 발화 및 비-발화 세그먼트들에 대하여 연속적이기 때문이다.
이 예에서 소프트 정렬을 사용함으로써 얻어지는 잠재적인 이점들에 더하여, 추가적인 이점들에는 복잡한 실제 환경의 특징 벡터 변환들에서 실현될 수도 있다는 것이다. 예를 들어 큰 초기 정렬 오차들 및 서로다른 개수들의 소스 및 타겟 특징 벡터들을 가진, 복잡한 벡터 데이터를 사용할 때, 하드 정렬 기술들은 대개 정렬 동안 벡터들을 폐기하는 것, 복제하는 것 또는 삽입하는 것을 요구한다. 이러한 작업들은 그 변환의 복잡성 및 비용을 증가시킬 수도 있고, 또한 초기 정렬 오차들을 확대함으로써 그 변환의 품질에 부정적인 영향을 줄 수도 있다. 대조적으로, 정렬 동안 벡터들을 폐기하는 것, 복제하는 것 또는 삽입하는 것을 요구하지 않을 수 있는 소프트 정렬 기술들은, 높은 데이터 변환 품질 및 효율성을 제공할 수 있다.
본 발명의 여러 측면들을 구현한, 이 문서에서 기술된 바와 같은 전형적인 시스템들 및 방법이 제시되었지만, 본 발명은 이들 실시예들에 제한되지는 않는 것이, 관련 기술분야에서 숙련된 자들에 의해 이해될 것이다. 변형예들이 관련 기술분야에서 숙련된 자들에 의해, 특히 전술한 교시들에 비추어 이루어질 수도 있다. 예를 들어, 전술한 실시예들의 요소들의 각각은 단독으로 또는 다른 실시예들의 요소들과 조합하여 또는 부차적으로 조합하여 활용될 수도 있다. 또한 변형예들이 본 발명의 진정한 사상 및 범위로부터 벗어남이 없이 이루어질 수도 있다는 것이 인식되고 이해될 것이다. 따라서 본 기술내용은 본 발명에 대하여 한정한 것이기보다는 예시적인 것으로서 간주되어야 할 것이다.
Claims (20)
- 특징 벡터들 (feature vectors)의 제1 시퀀스를 특징 벡터들의 제2 시퀀스와 시간 정렬 (time aligning)하는 방법에 있어서, 상기 방법은,소스와 연관된 특징 벡터들의 제1 시퀀스를 수신하는 단계;타겟과 연관된 특징 벡터들의 제2 시퀀스를 수신하는 단계; 및결합(joint) 특징 벡터들의 제3 시퀀스를 생성하는 단계;를 포함하고,각 결합 특징 벡터의 생성은상기 제1 시퀀스로부터의 제1 벡터;상기 제2 시퀀스로부터의 제1 벡터; 및상기 제1 시퀀스로부터의 제1 벡터와 상기 제2 시퀀스로부터의 제1 벡터가 그들의 각자 시퀀스들에서 같은 특징으로 정렬되는 확률을 나타내는 제1 확률값에 기초하는, 방법.
- 제1항에 있어서,상기 제1 시퀀스는 상기 제2 시퀀스와 다른 수의 특징 벡터들을 포함하는, 방법.
- 제1항에 있어서,상기 제1 시퀀스는 제1 화자(speaker)에 의해 만들어지는 복수의 발성 들(utterances)에 대응하고,상기 제2 시퀀스는 제2 화자에 의해 만들어지는 상기 복수와 동수의 발성들에 대응하는, 방법.
- 제1항에 있어서,상기 결합 특징 벡터들의 제3 시퀀스는 은닉 마코브 모델 (Hidden Markov Model)을 포함하는, 방법.
- 제1항에 있어서,상기 확률은 비-불리언(non-Boolean) 값인, 방법.
- 제1항에 있어서,상기 결합 특징 벡터들의 제3 시퀀스의 생성에 있어서, 상기 제3 시퀀스에서의 각 결합 특징 벡터에 관하여 상기 제1 시퀀스로부터의 벡터와 상기 제2 시퀀스로부터의 벡터는 서로 다른 벡터들인, 방법.
- 제1항에 있어서,상기 결합 특징 벡터들의 적어도 하나의 생성은상기 제1 시퀀스로부터의 제2 벡터;상기 제2 시퀀스로부터의 제2 벡터; 및상기 제1 시퀀스로부터의 제2 벡터와 상기 제2 시퀀스로부터의 제2 벡터가 그들의 각자 시퀀스들에서 같은 특징으로 정렬되는 확률을 나타내는 제2 확률값에 또한 기초하는, 방법.
- 컴퓨터-실행가능 명령들이 수록된 하나 이상의 컴퓨터 판독가능 저장 매체에 있어서,상기 컴퓨터-실행가능 명령들은, 프로세서에 의해 실행될 때,상기 프로세서로 하여금,소스와 연관된 특징 벡터들 (feature vectors)의 제1 시퀀스를 수신하고;타겟과 연관된 특징 벡터들의 제2 시퀀스를 수신하며; 그리고결합(joint) 특징 벡터들의 제3 시퀀스를 생성하는 것을 포함하는 방법을 수행하게 하며,각 결합 특징 벡터는상기 제1 시퀀스로부터의 제1 벡터;상기 제2 시퀀스로부터의 제2 벡터; 및상기 1 벡터와 상기 제2 벡터가 그들의 각자 시퀀스들에서 같은 특징으로 정렬되는 확률을 나타내는 확률값에 기초하여 이루어지는, 컴퓨터 판독가능 저장 매체.
- 제8항에 있어서,상기 제1 시퀀스는 상기 제2 시퀀스와 다른 수의 특징 벡터들을 포함하는, 컴퓨터 판독가능 저장 매체.
- 제8항에 있어서,상기 제1 시퀀스는 제1 화자(speaker)에 의해 만들어지는 복수의 발성들(utterances)에 대응하고,상기 제2 시퀀스는 제2 화자에 의해 만들어지는 상기 복수와 동수의 발성들에 대응하는, 컴퓨터 판독가능 저장 매체.
- 제8항에 있어서,상기 결합 특징 벡터들의 제3 시퀀스는 은닉 마코브 모델 (Hidden Markov Moel)을 포함하는, 컴퓨터 판독가능 저장 매체.
- 제8항에 있어서,상기 확률은 비-불리언(non-Boolean) 값인, 컴퓨터 판독가능 저장 매체.
- 제8항에 있어서,상기 결합 특징 벡터들의 제3 시퀀스의 생성에 있어서, 상기 제3 시퀀스에서의 각 결합 특징 벡터에 관하여 상기 제1 시퀀스로부터의 벡터와 상기 제2 시퀀스로부터의 벡터는 서로 다른 벡터들인, 컴퓨터 판독가능 저장 매체.
- 제8항에 있어서,상기 결합 특징 벡터들의 적어도 하나의 생성은상기 제1 시퀀스로부터의 제2 벡터;상기 제2 시퀀스로부터의 제2 벡터; 및상기 제1 시퀀스로부터의 제2 벡터와 상기 제2 시퀀스로부터의 제2 벡터가 그들의 각자 시퀀스들에서 같은 특징으로 정렬되는 확률을 나타내는 제2 확률값에 또한 기초하는, 컴퓨터 판독가능 저장 매체.
- 데이터 변환 (data transformation) 방법에 있어서,제1 소스와 연관된 제1 데이터 시퀀스를 수신하고;제2 소스와 연관된 제2 데이터 시퀀스를 수신하며;각 데이터 쌍이 상기 제1 데이터 시퀀스로부터의 아이템(item) 및 상기 제2 데이터 시퀀스로부터의 아이템을 포함하는, 복수의 데이터 쌍들을 식별하고,각 정렬 확률이 상기 복수의 데이터 쌍들 중 하나와 연관되는, 복수의 정렬 확률들을 결정하며; 그리고상기 복수의 데이터 쌍들 및 연관된 복수의 정렬 확률들에 기초하여 데이터 변환 함수를 결정하는 것을 포함하는 데이터 변환 방법.
- 제15항에 있어서,상기 데이터 변환 함수를 결정하는 것은 가우시안 혼합 모델 (Gaussian Mixture Model; GMM) 기술들 및 코드북-기반(codebook-based) 기술들 중 하나에 따라, 데이터 변환과 연관된 파라미터들을 계산하는 것을 더 포함하는, 데이터 변환 방법.
- 제16항에 있어서,상기 파라미터들의 추정은 기대-최대화 (Expectation-Maximization) 알고리즘의 실행을 포함하는, 데이터 변환 방법.
- 제15항에 있어서,상기 복수의 정렬 확률들 중 적어도 하나는 비-불리언(non-Boolean) 값인, 데이터 변환 방법.
- 제15항에 있어서,상기 제1 데이터 시퀀스는 제1 소스 화자(speaker)에 의해 만들어지는 복수의 발성들(utterances)에 대응하고,상기 제2 데이터 시퀀스는 제2 소스 화자에 의해 만들어지는 복수의 발성들에 대응하며,데이터 변환 함수는 음성 변환 함수 (voice conversion function)를 포함하는, 데이터 변환 방법.
- 제19항에 있어서,상기 제1 소스 화자에 의해 만들어지는 발화(speech) 벡터들에 대응하는, 상기 제1 소스에 연관된 제3 데이터 시퀀스를 수신하고; 그리고상기 제3 데이터 시퀀스에 상기 음성 변환 함수를 적용하는 것을 더 포함하는, 데이터 변환 방법.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/380,289 | 2006-04-26 | ||
US11/380,289 US7505950B2 (en) | 2006-04-26 | 2006-04-26 | Soft alignment based on a probability of time alignment |
PCT/IB2007/000903 WO2007129156A2 (en) | 2006-04-26 | 2007-04-04 | Soft alignment in gaussian mixture model based transformation |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20080113111A KR20080113111A (ko) | 2008-12-26 |
KR101103734B1 true KR101103734B1 (ko) | 2012-01-11 |
Family
ID=38649848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020087028160A KR101103734B1 (ko) | 2006-04-26 | 2007-04-04 | 가우시안 혼합 모델 기반 변환에서의 소프트 정렬 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7505950B2 (ko) |
EP (1) | EP2011115A4 (ko) |
KR (1) | KR101103734B1 (ko) |
CN (1) | CN101432799B (ko) |
WO (1) | WO2007129156A2 (ko) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7848924B2 (en) * | 2007-04-17 | 2010-12-07 | Nokia Corporation | Method, apparatus and computer program product for providing voice conversion using temporal dynamic features |
JP5961950B2 (ja) * | 2010-09-15 | 2016-08-03 | ヤマハ株式会社 | 音声処理装置 |
GB2489473B (en) * | 2011-03-29 | 2013-09-18 | Toshiba Res Europ Ltd | A voice conversion method and system |
US8727991B2 (en) | 2011-08-29 | 2014-05-20 | Salutron, Inc. | Probabilistic segmental model for doppler ultrasound heart rate monitoring |
KR102212225B1 (ko) * | 2012-12-20 | 2021-02-05 | 삼성전자주식회사 | 오디오 보정 장치 및 이의 오디오 보정 방법 |
CN104217721B (zh) * | 2014-08-14 | 2017-03-08 | 东南大学 | 基于说话人模型对齐的非对称语音库条件下的语音转换方法 |
US10176819B2 (en) * | 2016-07-11 | 2019-01-08 | The Chinese University Of Hong Kong | Phonetic posteriorgrams for many-to-one voice conversion |
CN109614148B (zh) * | 2018-12-11 | 2020-10-02 | 中科驭数(北京)科技有限公司 | 数据逻辑运算方法、监测方法及装置 |
US11410684B1 (en) * | 2019-06-04 | 2022-08-09 | Amazon Technologies, Inc. | Text-to-speech (TTS) processing with transfer of vocal characteristics |
WO2021034786A1 (en) * | 2019-08-21 | 2021-02-25 | Dolby Laboratories Licensing Corporation | Systems and methods for adapting human speaker embeddings in speech synthesis |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050049875A1 (en) * | 1999-10-21 | 2005-03-03 | Yamaha Corporation | Voice converter for assimilation by frame synthesis with temporal alignment |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7386454B2 (en) | 2002-07-31 | 2008-06-10 | International Business Machines Corporation | Natural error handling in speech recognition |
-
2006
- 2006-04-26 US US11/380,289 patent/US7505950B2/en active Active
-
2007
- 2007-04-04 EP EP07734223A patent/EP2011115A4/en not_active Withdrawn
- 2007-04-04 CN CN200780014971XA patent/CN101432799B/zh not_active Expired - Fee Related
- 2007-04-04 KR KR1020087028160A patent/KR101103734B1/ko not_active IP Right Cessation
- 2007-04-04 WO PCT/IB2007/000903 patent/WO2007129156A2/en active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050049875A1 (en) * | 1999-10-21 | 2005-03-03 | Yamaha Corporation | Voice converter for assimilation by frame synthesis with temporal alignment |
Non-Patent Citations (1)
Title |
---|
Zuo, G. Y. et al. "Improving the performance of MGM-based voice conversion by preparing training data method" In : Chinese Spoken Language Processing, 2004 International Symposium on. 15-18 Dec. 2004. |
Also Published As
Publication number | Publication date |
---|---|
WO2007129156A3 (en) | 2008-02-14 |
US7505950B2 (en) | 2009-03-17 |
CN101432799B (zh) | 2013-01-02 |
KR20080113111A (ko) | 2008-12-26 |
EP2011115A2 (en) | 2009-01-07 |
US20070256189A1 (en) | 2007-11-01 |
WO2007129156A2 (en) | 2007-11-15 |
EP2011115A4 (en) | 2010-11-24 |
CN101432799A (zh) | 2009-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101103734B1 (ko) | 가우시안 혼합 모델 기반 변환에서의 소프트 정렬 | |
EP2022042B1 (en) | Intersession variability compensation for automatic extraction of information from voice | |
CN105593936B (zh) | 用于文本转语音性能评价的系统和方法 | |
JPH07334184A (ja) | 音響カテゴリ平均値計算装置及び適応化装置 | |
Latorre et al. | Multilevel parametric-base F0 model for speech synthesis. | |
WO2015025788A1 (ja) | 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法 | |
CN108369803B (zh) | 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法 | |
JP5670298B2 (ja) | 雑音抑圧装置、方法及びプログラム | |
WO2020195924A1 (ja) | 信号処理装置および方法、並びにプログラム | |
JP6580911B2 (ja) | 音声合成システムならびにその予測モデル学習方法および装置 | |
Anand et al. | Advancing Accessibility: Voice Cloning and Speech Synthesis for Individuals with Speech Disorders | |
JP6542823B2 (ja) | 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム | |
JP2005196020A (ja) | 音声処理装置と方法並びにプログラム | |
JP5375612B2 (ja) | 周波数軸伸縮係数推定装置とシステム方法並びにプログラム | |
JPH10133688A (ja) | 音声認識装置 | |
JP6367773B2 (ja) | 音声強調装置、音声強調方法及び音声強調プログラム | |
Rahmatullah et al. | Performance Evaluation of Indonesian Language Forced Alignment Using Montreal Forced Aligner | |
JP6078402B2 (ja) | 音声認識性能推定装置とその方法とプログラム | |
Martens et al. | Word Segmentation in the Spoken Dutch Corpus. | |
JP4242320B2 (ja) | 音声認識方法、その装置およびプログラム、その記録媒体 | |
JP2734828B2 (ja) | 確率演算装置及び確率演算方法 | |
WO2024180662A1 (ja) | 音声合成装置、音声合成方法、音声情報処理装置、及びプログラム | |
JP4962930B2 (ja) | 発音評定装置、およびプログラム | |
JP4654452B2 (ja) | 音響モデル生成装置、およびプログラム | |
JP5066668B2 (ja) | 音声認識装置、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |