KR20010102549A

KR20010102549A - 화자 인식 방법 및 장치

Info

Publication number: KR20010102549A
Application number: KR1020017011470A
Authority: KR
Inventors: 다우니시몬니콜라스
Original assignee: 내쉬 로저 윌리엄; 브리티쉬 텔리커뮤니케이션즈 파블릭 리미티드 캄퍼니
Priority date: 1999-03-11
Filing date: 2000-02-25
Publication date: 2001-11-15
Also published as: CN1148720C; AU2684100A; DE60004331T2; EP1159737A1; EP1159737B1; CA2366892A1; ES2204516T3; DE60004331D1; WO2000054257A1; EP1159737B9; ATE246835T1; CA2366892C; IL145285A0; CN1343352A; US6922668B1

Abstract

본 발명은 화자 인식의 향상된 방법과 장치에 관한 것이다. 본 발명에서, 음성으로부터 얻어진 특징 벡터를 저장된 기준 모델과 비교하기 전에, 특정 화자의 성도의 특징을 매칭시키는 화자 의존 변환를 적용함으로써 상기 특징 벡터가 처리된다. 변환이 의존하는 화자의 특징과 매우 다른 특성을 갖는 음성으로부터 얻어진 특징들은 상기 변환에 의해 상당히 왜곡될 수 있고, 반면 변환이 의존하는 화자의 특징과 유사한 특성을 갖는 음성으로부터 얻어진 특징들은 거의 왜곡되지 않을 것이다.

Description

화자 인식 방법 및 장치{SPEAKER RECOGNITION}

본 발명은 화자 인식에 관한 것이다. 화자 인식에서, 화자의 신분이 확인되거나 입증된다. 화자 확인에서, 화자는 주지된 화자들의 그룹 중 어느 한 사람으로서 확인되거나, 알려지지 않은 화자로서 거부된다. 화자 증명에서, 화자는 요구된 신분을 가진 사람으로서 승인되거나 거부된다. 화자는 요구되는 신원, 예를 들면 패스워드, 개인 식별 번호 또는 스와이프 카드(swipe card)를 입력할 수 있다.

일반적으로 화자 인식에서, 음성 처리는 다른 화자들이 말한 단어에 대한 효과를 증가시키는데 초점이 맞추어지고, 반면, 특정 단어(또는, 때때로 구(phrase)나 음소, 또는 다른 발음 내용)가 인식되는 음성 인식에 있어서 음성 처리는 다른 화자들이 말한 단어의 영향을 감소시키는데 초점이 맞추어진다.

통상적으로 디지털 형태로 음성 데이터를 프론트 엔드 프로세서(front-end processor)에 입력하는 것이 보통이고, 입력 특징 벡터(또는 때때로 프론트 엔드 특징 벡터)로 언급되는 보다 컴팩트하고 보다 지각적으로 중요한 데이터인 입력 음성 데이터의 스트림으로부터 얻어진다. 화자가 인식 장치와 화자에 알려진 미리 결정된 단어(예를 들면, 은행 업무에서 개인 확인 번호)를 말할 때, 기술은 "텍스트 독립(text-dependent)"으로서 알려져 있다. 화자 인식의 여러 응용예에서는 언어의 내용이 미리 결정될 필요가 없는 기술이 사용되고, 그런 기술은 "텍스트 독립" 기술로서 알려져 있다.

텍스트 의존 기술에서, 템플릿 또는 모델로 알려진 저장된 단어의 표현은 진짜로 알려진 화자로부터 사전에 얻어진다. 인식될 화자로부터 얻어진 입력 특징 벡터들은 템플릿과 비교되고, 둘 간의 유사성의 정도가 승인 결정을 위해 임계값과 비교된다. Chollet & Gagnoulet에 의해 1982년 IEEE의 International Conference on Acoustics, Speech and Signal Processing의 "On the evaluation of Speech Recognisers and Data Bases using a Reference System" 2026-2029 페이지에 기술된 바와 같은 Dynamic Time Warping에 의해 실행될 수 있다. 다른 비교 수단으로서는 Hidden Markov Model 프로세싱 및 Neural Networks을 포함한다. 이들 기술은 British Telecom Technology Journal, 1988년 4월 2호 6권에서 SJ Cox가 기술한 "Hidden Markov Models for Automatic Speech Recognition: Theory And Application"의 페이지 105-115, McCullogh 등이 기술한 "Multi-layer perceptrons applied to speech technology"의 페이지 140-163에 설명되어 있다.

음성 처리에 대한 다양한 형태의 특징들이 사용되거나 제안되었다. 일반적으로, 음성 인식에 사용된 특징의 형태는 화자에 대한 민감도 없이 다른 단어와 하나의 단어를 구별하는 것이고, 반면 화자 인식에 사용된 특징의 형태는 주지된 단어나 단어들에 대해 화자를 구별하는 것이기 때문에, 하나의 인식 타입에 적합한 한 타입의 특징이 다른 타입에 적합하지 않을 수 있다. 화자 인식에 적합한 여러 타입의 특징이 1976년 4월의 Atal, Proc IEEE 64권 페이지 460-475의 "Automatic Recognition of Speakers from their voices"에 설명되어 있다.

도 1은 인식 프로세서를 실장하고 있는 통신 시스템을 나타내는 도면,

도 2는 스펙트럼 신호 추출기를 실장하고 있는 도 1의 인식 프로세서의 일부를 나타내는 도면,

도 3은 도 2의 스펙트럼 신호 추출기를 나타내는 도면,

도 4a는 화자 조회 동안 도 1의 인식 프로세서의 동작을 나타내는 흐름도,

도 4b는 화자 식별 동안 도 1의 인식 프로세서의 동작을 나타내는 흐름도,

도 5는 두 특징 벡터 M과 R 사이의 와핑 함수(warping function)의 실례를 나타내는 도면,

도 6은 뒤틀림(warping) 동안 적용될 수 있는 가중 함수(weighting function)의 실례를 나타내는 도면,

도 7은 두 특징 벡터 사이의 시간 정규화 거리의 계산을 나타내는 흐름도,

도 8은 Markov Model의 실례를 나타내는 도면,

도 9는 도 8의 Markov Model에 대한 초기화 벡터의 실례와 전이 매트릭스를 나타내는 도면,

도 10은 six state Markov Model에 대한 전방(forward) 확률의 계산을 나타내는 도면,

도 11은 Viterbi 알고리즘을 사용하여 계산된 가능 상태 시퀀스를 나타낸다.

본 발명에 따라서, 알려지지 않은 화자로부터 음성 신호를 수신하는 단계, 상기 수신된 음성 신호를 특정한 화자와 관련된 변환 수칙에 따라서 변환하는 단계, 변환된 음성 신호를 상기 특정 화자를 나타내는 모델과 비교하는 단계, 및 상기 알려지지 않은 화자가 상기 특정 화자일 가능성에 의존하는 파라미터를 출력으로서 제공하는 단계를 포함하는 화자 인식 방법이 제공된다.

상기 변환 단계는 상기 수신된 음성 신호 내에 있는 음성 시작점과 음성 종점을 검출하는 부단계, 상기 수신된 음성 신호로부터 얻어진 특징 벡터의 시퀀스를 발생하는 단계, 및 상기 검출된 시작점과 검출된 종점 사이의 음성 신호에 대응하는 특징 벡터의 시퀀스를 상기 특정 화자에 대한 특징 벡터의 대표 시퀀스와 정렬하여, 상기 정렬된 특징 벡터의 시퀀스에 있는 각각의 특징 벡터가 상기 특징 벡터의 대표 시퀀스에 있는 특징 벡터에 대응하도록 하는 부단계를 포함하는 것이 바람직하다.

상기 변환 단계는 상기 정렬된 특징 벡터의 시퀀스에 있는 각각의 특징 벡터와 상기 특징 벡터들의 대표 시퀀스에 있는 대응하는 특징 벡터의 평균을 구하는 부단계를 추가로 포함하는 것이 유리하다.

상기 모델은 Hidden Markov Model인 것이 바람직하고, left to right Hidden Markov Model일 수 있다.

상기 특징 벡터의 대표 시퀀스는 상기 Hidden Markov Model의 상태수와 동일한 특징 벡터수를 포함하는 것이 유리하다.

본 발명의 다른 측면에 따라서, 상기 알려지지 않은 화자로부터 음성 신호를 수신하는 수신 수단, 복수의 화자 중 각각의 화자와 관련된 복수의 화자 변화을 저장하는 화자 변환 스토어, 상기 복수의 화자 중 각각의 화자와 관련된 복수의 화자 모델를 저장하는 화자 모델 스토어, 상기 수신 수단과 상기 화자 변환 스토어에 연결되고, 동작상 상기 수신된 음성 신호를 선택된 화자 변환에 따라서 변환하도록 배열된 변환 수단, 상기 변환 수단 및 상기 화자 모델 스토어에 연결되고, 동작상 상기 변환된 음성 신호를 대응하는 화자 모델과 비교하는 비교 수단, 및 알려지지 않은 화자가 상기 선택된 화자 변환과 관련된 화자일 가능성을 나타내는 신호를 제공하는 출력 수단을 포함하는 화자 인식 장치가 제공된다.

상기 변환 스토어는 상기 변환치의 각각을 특징 벡터의 대표 시퀀스로서 저장하고, 상기 변환 수단은 상기 수신된 음성 신호 내의 음성 시작점과 음성 종점을 검출하는 시작점 및 종점 검출기, 상기 입력 신호로부터 얻어진 특징 벡터의 시퀀스를 발생하는 특징 벡터 발생기, 및 상기 검출된 시작점과 검출된 종점 사이의 음성 신호에 대응하는 특징 벡터의 시퀀스와 특징 벡터의 대표 시퀀스를 정렬시켜서 상기 결과로 정렬된 특징 벡터의 시퀀스에 있는 각각의 특징 벡터가 상기 특징 벡터의 대표 시퀀스에 있는 특징 벡터와 대응되도록 하는 정렬 수단을 포함하는 것이 바람직하다.

상기 변환 수단은 상기 정렬된 특징 벡터에 있는 각각의 특징 벡터를 상기 특징 벡터의 대표 시퀀스에 있는 대응하는 특징 벡터와 평균을 구하는 평균 수단을 추가로 포함하는 것이 유리하다.

상기 화자 모델 스토어는 상기 화자 모델을 Hidden Markov Model 형식으로 저장하도록 배열되고, left to right Hidden Markov Model의 형식으로 상기 화자 모델을 저장하도록 배열될 수 있다.

상기 저장된 특징 벡터의 대표 시퀀스는 대응하는 저장된 Hidden Markov Model의 상태수와 동일한 벡터수를 포함하는 것이 유리하다.

음성을 발생하는 동안의 화자의 성도(聲道)가 시간 변화 필터로서 모델링될 수 있다는 것은 잘 알려져 있다. 본 발명에서, 음성으로부터 얻어진 특징 벡터를 저장된 기준 모델과 비교하기 이전에, 특징 벡터들은 특정 화자의 성도의 특징을 일치시키는 화자 의존 변환을 적용함으로써 처리된다. 변환이 의존하는 화자의 특징과 매우 다른 특성을 갖는 음성으로부터 얻어진 특징은 변환에 의해 상당히 왜곡되고, 반면 변환이 의존하는 화자의 특징과 유사한 특성을 갖는 음성으로부터 얻어진 특징은 훨씬 적게 왜곡될 것이다. 이러한 화자 의존 변환은 정합 필터를 사용하여 필터링된 신호가 전혀 왜곡되지 않는 종래의 정합 필터링의 프로세서와 동일한 프로세스로 간주될 수 있다. 따라서, 이 방법으로 변환된 특징들은 화자간을 보다 확실히 식별하게 된다. 그 다음, 이러한 변환된 특징들은 종래의 화자 인식 비교 프로세스에 사용된다.

도 1에는 통상적으로 전화 핸드셋의 일부를 구성하는 마이크로폰(1), 통신 네트워크(2)(예를 들면, 공용회선 교환 전화망(PSTN) 또는 디지털 통신 네트워크), 상기 네트워크(2)로부터 음성 신호를 수신하기 위해 연결된 인식 프로세서(3), 및 상기 인식 프로세서(3)에 연결되어, 그로부터 특정 화자의 인식 또는 불인식을 나타내는 음성 인식 신호를 수신하도록 정렬되고, 그에 응답하여 조치를 취하는 활용장치(4)로 구성된 화자 인식 장치을 포함하는 통신 시스템이 도시되어 있다. 예를 들면, 상기 활용 장치(4)는 뱅킹 트랜잭션을 실행하기 위해 원격으로 동작되는 은행 단말기일 수 있다. 많은 경우에, 상기 활용 장치(4)는 청취 가능한 응답을 사용자에게 발생하는데, 상기 응답은 상기 네트워크(2)를 통해서 통상적으로 전화 해드셋의 일부를 구성하는 확성기(5)로 전송된다.

동작에 있어서, 화자가 마이크로폰(1)에 대고 말을 하면, 아날로그 신호가 마이크로폰으로부터 네트워크(2)를 통해서 인식 프로세서로 전송되고, 여기서 상기 음성 신호가 분석되고 특징 화자의 인식 또는 불인식을 나타내는 신호가 발생되어 상기 활용 장치(4)로 전송되며, 상기 활용 장치는 특정 화자의 인식 또는 불인식의 경우에 대해 적절한 조치를 취하게 된다. 상기 인식 프로세서가 화자 확인(identification)을 실행하는 경우, 신호는 화자가 확인되었는지 또는 화자가 거부되었는지를 표시한다. 상기 인식 프로세서가 화자 조회(verification)을 실행하는 경우, 신호는 화자가 요구된 화자인지 아닌지를 표시한다.

인식 프로세서는 음성 신호를 비교하는 대신 화자들의 신원에 관한 데이터를 습득할 필요가 있다. 이 데이터 습득은 화자 인식 프로세서(3)가 활용 장치(4)에 연결되는 것이 아니라 화자에 대한 인식 데이터를 형성하기 위하여 마이크로폰(1)으로부터 음성 신호를 수신하는 제 2 동작 모드에 있는 인식 프로세서에 의해 실행될 수 있다. 그러나, 상기 화자 인식 데이터를 습득하는 다른 방법도 가능하다. 예를 들면, 화자 인식 데이터는 화자가 휴대하여 카드 리더에 삽입할 수 있는 카드에 유지될 수 있고, 상기 카드 리더로부터 데이터가 판독되어 음성 신호의 전이 이전에 네트워크를 통해서 인식 프로세서에 전달된다.

통상적으로, 인식 프로세서(3)는 마이크로폰(1)으로부터 네트워크(2)로 신호가 진행하는 경로를 인식하지 못한다. 상기 마이크로폰(1)은, 예를 들면, 이동 아날로그 또는 디지털 라디오 링크를 통해서 네트워크에 연결될 수 있고, 또는 다른 나라로부터 비롯될 수 있다. 마이크로폰은 아주 다양한 형태와 품질의 수신기 핸드셋 중 하나의 일부일 수 있다. 마찬가지로, 네트워크(2) 내에서 라디오 링크, 아날로그 및 디지털 경로 등을 포함하는 아주 다양한 전송 경로 중 어느 하나가 채택될 수 있다.

도 2는 인식 프로세서(3)의 일부를 나타내는 도면이다. 스펙트럼 신호 추출기(20)에 의해 디지털 전화 네트워크로부터 또는 아날로그를 디지털로 변환하는 변환기로부터 디지털 음성이 수신된다. 다수의 연속된 디지털 샘플들를 나타내는 다수의 특징 벡터들이 디지털 음성으로부터 얻어진다. 예를 들면, 음성 샘플들은 8㎑의 샘플링 속도로 수신될 수 있고, 특징 벡터는 256개의 연속된 샘플들의 프레임, 즉 32㎳의 속도를 나타날 수 있다.

상기 스펙트럼 신호 추출기(20)는 상기 수신된 음성의 시작점과 종점을 나타내는 출력 신호로서 제공하는 종점 검출기(24)에 특징 벡터들을 제공한다. 상기 특징 벡터들은 또한 화자 인식 프로세서(21)에 의해 처리되기 전에 프레임 버퍼(25)에 저장된다.

음성의 시작점과 종점은 종래의 에너지 기반 엔드포인터(endpointer)를 사용하여 제공된다. 개량된 기술에서, 특정 단어를 인식하도록 구성된 음성 인식기로부터의 신호가 사용될 수 있다.

복수의 특징 벡터들은 화자 인식 프로세서(21)에 의해 수신되고, 상기 프로세서는 화자 변환 스토어(22)로부터 특정 화자와 관련된 화자 의존 변환값을 판독하고, 화자 모델 스토어(23)로부터 특정 화자에 관련된 기준 모델을 판독한다. 그 다음, 화자 인식 프로세서는 상기 수신된 특징 벡터를 검색된 화자 변환 매트릭스 및 모델에 따라서 처리하여, 검색된 모델에 의해 나타내어진 화자와 화자 의존 변환이 상기 수신된 특징 벡터에 의해 나타내어진 음성을 발생시켰을 가능성에 따라서 출력 신호를 발생시킨다. 화자 인식 프로세서의 동작은 도 4a와 도 4b를 참조하여 나중에 자세히 설명될 것이다. 화자 인식 프로세서(21)는 본 발명의 변환 수단, 비교 수단 및 출력 수단으로 구성된다.

도 3을 참조하여, 스펙트럼 신호 추출기(20)의 동작이 보다 자세히 설명될 것이다. 하이 엠퍼시즈 필터(high emphasis filter, 10)는 예를 들어 8㎑의 샘플링 속도로 디지털화된 음성 파형을 8비트 숫자의 시퀀스로서 수신하고 하이 엠퍼시즈 필터링 프로세스(예를 들면, 1 - 0.95.z^-1필터의 실행에 의함)를 실행하여 더 높은 주파수의 진폭을 증가시킨다.

상기 필터링된 신호의 연속적인 샘플들의 프레임은 상기 프레임의 에지에 의해 발생된 가짜 인공물을 감소시키기 위해 예를 들어 Hamming window를 사용하여 위도우 프로세세(11)에 의해 윈도우잉된다. 바람직한 실시예에서, 상기 프레임들은 예를 들어 50% 정도 중첩되어 이번 실례에서 매 16㎳마다 하나의 프레임을 제공하게 된다.

그 다음, 256개 윈도우잉된 샘플의 각각의 프레임이 MFCC(Mel Frequency Cepstral Coefficient) 발생기에 의해 처리되어 한 세트의 MFCC(예를 들면, 8개의 계수)를 포함하는 MFCC 특징 벡터를 추출한다.

상기 MFCC 특징 벡터는 신호 스펙트럼을 얻기 위하여 음성 신호의 각각의 프레임에 대하여 스펙트럼 변환, 예를 들면 FFT(Fast Fourier Transform)를 실행하고, 상기 스펙트럼의 항을 주파수 축을 따라서 '멜프리퀀시(mel-frequency)'스케일로 분배되는 직렬 광대역으로 통합하며, 각각의 밴드의 크기에 로그를 취하고, 프레임에 대하여 MFCC 계수를 발생시키는 추가 변환(예를 들면, DCT(Discrete Cosine Transform))을 실행함으로써 얻어진다. 유용한 정보는 일반적으로 더 낮은 차수의 계수로 제한되는 것이 알려졌다. 멜프리퀀시 스케일은 0과 1㎑ 사이의 선형 주파수 스케일에 균일하게 공간이 정해지고, 약 1㎑의 대수(對數) 주파수 스케일에 균일하게 공간이 정해지는 주파수 대역이다.

하이 엠퍼시즈 필터(10), 윈도우 프로세서(11), MFCC 발생기(12), 종점 검출기(24), 및 화자 인식 프로세서(21)가 하나 이상의 적절히 프로그램된 디지털 신호 프로세서(DSP) 및/또는 마이크로프로세서에 의해 제공될 수 있다. 프레임 버퍼(25), 화자 변환 스토어(22), 및 화자 모델 스토어(23)가 상기 프로세서 장치에 연결된 판독/기록 기억 장치 내에 제공될 수 있다.

도 4a는 화자 조회 동안의 화자 인식 프로세서(21)의 동작을 개략적으로 나타낸다. 화자 인식 프로세서는 단계(40)에서 특징 벡터의 시퀀스, 및 종점 검출기로부터 검출된 시작점과 검출된 종점을 수신한다. 단계(41)에서 화자 인식 프로세서는 사용자가 화자임을 주장하는 것에 대하여 화자 변화 스토어(22)에서 화자 의존 변화 매트릭스를 선택하고, 화자 모델 스토어(23)로부터 대표 특징 매트릭스와 동일한 화자를 나타내는 대응 모델을 판독한다.

화자 의존 변환 매트릭스는 특정 화자에 대한 특정 단어를 나타낸다. 이것은 화자가 발음할 때, 표시된 단어의 특징 벡터의 대표 시퀀스를 포함한다. 화자 의존 변화 매트릭스는 또한 명세서에서 대표 특징 벡터의 시퀀스로 언급된다. 단계(42)에서, 검출된 시작점과 검출된 종점 사이의 음성 신호에 대응하는 수신된 특징 벡터의 시퀀스는 DTW(dynamic time warp) 프로세서를 사용하여 화자 의존 변환 매트릭스로 시간 정렬된다.

단계(42)에서 실행된 시간 정렬은 지금 도 5, 도 6 및 도 7을 참조하여 보다 자세히 설명될 것이다.

화자 의존 변환 매트릭스는 특정 단어에 대한 특징 벡터의 대표 시퀀스를 포함한다.

M m₁, m₂,...m_i...m_I

특징 벡터의 시퀀스

R r₁, r₂,...r_j...r_J가 수신된다. 상기 수신된 특징 벡터의 시퀀스는 다음과 같이 특징 벡터들의 대표 시퀀스와 시간 정렬된다.

도 5를 참조하여, 대표 시퀀스는 i축을 따라서 표시되고, 상기 수신된 시퀀스는 j축을 따라서 표시된다.

점 C = (i, j)는 특징 벡터의 수신된 시퀀스의 시간축에서 특징 벡터의 대표 시퀀스의 시간축으로의 사상(寫像)을 근사적으로 실현하는 "와핑(warping)" 함수(F)를 나타낸다.

F c(1), c(2),...,c(k),...c(K), 여기서, c(k) = (r(k), m(k))이다.

두 특징 벡터(M과 R)간의 차이를 측정하기 위하여 거리 d(c) d(i,j)∥m_ir_j∥가 사용된다. 와핑 함수에 의한 상기 차이의 합은이고, 상기 식은 상기 와핑 함수가 얼마나 적절히 하나의 특징 벡터의 세트를 다른 특징 벡터의 세트에 사상하는지의 정도를 나타낸다. 두 특징 벡터 시퀀스 간의 차이를 최적으로 조정하도록 F가 결정될 때 이 측정은 최소값에 도달한다. 대안으로, 가중된 합이 사용되도록 가중 함수가 이용될 수 있다.

그리고, Z(k)는 거리 측정치를 가중하기 위하여 사용된다. 가중 함수의 한 실례는,

Z(K) (i(K) i(K 1)) (j(K) j(K 1))이고, 도 6에 도식적으로 표시되어 있다.

벡터의 두 시퀀스 간의 시간 정규화된 거리는 30으로서 정의된다.

1978년 2월, IEEE Transactions on Acoustics Speech and Signal Processing의 1호 6권에 Sakoe와 Chiba에 의해 저술된 "Dynamic Programming Algorithm Optimisation for Spoken Word Recognition"에 기술된 바와 같이, 와핑 함수(F)에 여러 가지 제약이 부여될 수 있다. 필요한 최소값을 제공하는 와핑 함수(F)와 함께 시간 정규화 거리를 계산하기 위한 식은 다음과 같다.

상기 식은 "다이나믹 프로그램밍" 식으로 알려져 있다.

시간 정규화 거리는

이다.

앞서 표시된 와핑 함수가 사용되는 경우, 다이나믹 프로그램밍(DP)식은

와

이 된다.

도 6의 가중 가중 함수를 사용하여 시간 정규화 거리를 계산하는 것을 나타내는 흐름도가 도 7에 도시되어 있다.

단계(74)에서 i와 j는 1과 같도록 초기화된다. 단계(76)에서, g(1, 1)인 초기화값은 2가 곱해진 m₁- r₁(d(1, 1))과 같도록 정해진다(가중 함수(w)에 따름).그 다음, i는 단계(78)에서 1 증가되고, 단계(80)에서 i가 1보다 크지 않다면, 다이나믹 프로그래밍식이 단계(86)에서 계산된다. i가 1보다 크다면, 단계(88)에서 j가 증가되고, 단계(96)에서 i는 1로 리셋된다. 단계(78)과 단계(86)는 결국 다이나믹 프로그램밍식이 I와 J의 모든 값에 대하여 계산될 때까지 반복되어, 단계(92)에서 시간 정규화된 거리가 계산된다.

보다 효과적인 알고리즘에서, 다이나믹 프로그램밍식은 j rδiδj r과 같은 사이즈(r)의 제한 윈도우 내의 값에 대해서만 계산된다.

와핑 함수(F)는 다음과 같은 "백트랙킹(backtracking)에 의해 결정될 수 있다.

C(K) (I, J)

이 최소값인 경우에 C(k 1) i,j이다.

와핑 함수(F)

C(1),C(2),C(3),...C(k)...C(K)가 알려진 경우[여기서 C(k)는 (r(k),m(k))], "시간 정렬된" 수신된 특징 벡터(Z Z₁,Z₂,...,Z_I)의 시퀀스를 결정하는 것이 가능하다.

도 5에 도시된 실례에서,

즉, r₁은 m₁으로 사상되고, r₁은 m₂로 사상되고, r₂는 m₂로 사상되며, r₃는 m₃등으로 사상된다.

r₁과 r₂모두가 m₂로 사상되고, 이 경우 수신된 특징 벡터가 시간 정렬된 특징 벡터로 사용되도록 결정이 내려져야 하는 것으로 보일 수 있다. 상기 수신된 특징 벡터들 중 하나를 선택하는 대안은 단일 대표 특징 벡터로 사상하는 수신된 특징 벡터의 평균을 구하는 것이다.

첫 번째의 상기 수신된 특징 벡터가 사용되는 경우, Z_pr_q이고, 여기서

이다.

또는 마지막 상기 수신된 특징 벡터가 사용되는 경우, Z_pr_s이고, 여기서

이다.

또는, 평균값이 사용되는 경우,

이다.

그래서, 도 5의 실례에서, 상기 첫 번째 수신된 벡터가 사용되는 경우,

등이다.

상기 정렬 프로세스로 상기 정렬된 특징 벡터의 시퀀스에 있는 각각의 특징 벡터가 특징 벡터의 대표 시퀀스에 있는 특징 벡터에 대응하기 위한 정렬된 특성 벡터의 시퀀스가 된다는 것을 이해할 것이다.

도 4a를 다시 참조하여, 변환 프로세스의 개선된 버전에서, 각각의 시간 정렬되어 수신된 특징 벡터는 또한 선택적인 단계(43)에서 상기 화자 의존 변환 매트릭스의 대응하는 특징 벡터와 평균이 구해진다. 상기 시간 정렬되어 수신된 특징 벡터가 상기 화자 의존 변환 매트릭스의 대응하는 특징 벡터와 실질적으로 다른 경우, 상기 평균화 단계는 상기 시간 정렬되어 수신된 특징 벡터들을 상당히 왜곡시키고, 반면 시간 정렬되어 수신된 특징 벡터가 화자 의존 변화 매트릭스의 대응하는 특징 벡터와 유사한 경우, 상기 평균화 프로세스는 수신된 특징 매트릭스를 거의 왜곡시키지 않을 것이다. 상기 변환된 특징들은 이어지는 어떤 비교 프로세서에서 식별력을 증가시킬 것이다.

단계(44)에서, 상기 변환된 특징들이 종래의 화자 인식 비교 프로세스에 사용된다. 본 발명의 이번 실시예에서, 좌측에서 우측으로의 Hidden Markov Model에 의해 화자 모델이 제공되고, 도 8 내지 도 11을 참조하여 간단히 설명되는 바와 같이 Viterbi 알고리즘을 사용하여 화자 모델이 실행된다. 상기 표시된 화자가 상기 수신된 특징 벡터에 의해 표시된 음성을 발생시킬 가능성을 나타내는 거리 측정이일어나고, 이어서 단계(45)에서 임계값과 비교된다. 차이가 임계값보다 작은 경우, 단계(47)에서 화자는 저장된 템플릿에 대응하는 것으로 승인되고, 그렇지 안으면, 화자는 단계(46)에서 거부된다.

Hidden Markow Models와 Viterbi 인식을 사용하여 음성을 모델링하는 원리는 지금 도 8 내지 도 11을 참조하여 설명될 것이다.

도 8은 예시적인 HMM을 나타낸다. 다섯 개의 원(100, 102, 104, 106 및 108)은 HMM의 상태를 나타내고, 불연속 시간의 순간(t)에서, 모델은 상기 상태 중 어느 하나의 상태에 있는 것으로 간주되고, 옵저베이션(observation)(O_t)을 방출하는 것으로 간주된다. 음성 또는 화자 인식에서, 각각의 옵저베이션은 일반적으로 특징 벡터에 대응한다.

순간(t+1)에서, 상기 모델은 새로운 상태로 이동하거나 동일한 상태에 머무르게 되고, 어느 경우에서나 다른 옵저베이션 등을 방출한다. 방출된 옵저베이션은 모델의 현재 상태에만 의존한다. 시간(t+1)에서 점유된 상태는 시간(t)에서 점유된 상태에만 의존한다(이 특성은 Markov 특성으로 알려져 있다). 하나의 상태에서 다른 상태로 이동할 확률은 도 9에 도시된 바와 같이 N ×N 상태 전이 매트릭스(A = [a_i.j])의 표로 작성될 수 있다. 매트릭스의 i번째 행과 j번째 열에 있는 엔트리는 시간(t)의 s_i상태에서 시간(t+1)의 s_j상태로 이동할 확률이다. 어떤 상태에서 이동할 확률이 1.0이기 때문에(상기 모델이 동일한 상태에 머무르는 경우, 이것은 자신으로의 전이로 간주된다), 각각의 행의 매트릭스의 합은 1.0이 된다. 도시된 실례에서, 이번 실례는 "후방(backwards)" 전이가 허용되지 않는 레프트 투 라이트(left to right) 모델이기 때문에 상태 전이 매트릭스는 단지 상부 삼각형에 엔트리만을 갖는다. 보다 일반적인 HMM에서 전이는 어떤 상태에서 어떤 다른 상태로 이루어진다. 초기화 벡터(∑)의 i번째 성분이 시간(t = 1)에서 상태(S_i)를 점유할 확율인 초기화 벡터가 도시된다.

각각 특정 화자를 나타내는 W개의 그러한 모델이 M₁...M_W개 존재하고, 알려지지 않은 화자로부터 음성 신호가 T개의 옵저베이션(O₁, O₂, O₃...O_T)의 시퀀스에 의해 표시된다고 가정할 때, 문제는 어느 모델이 이 옵저베이션의 시퀀스를 방출할 것 같은 지를 결정하는 것, 즉 k를 결정하는 것이고, 여기서,이다.

Pr(O｜M)이 귀납적으로 다음과 같이 계산된다.

전방(forward) 확률(Δ_t(j))이 부분적인 옵저베이션 시퀀스(O₁, O₂, O₃...O_t)를 방출하여 시간(t)에서 상태(S_j)를 점유할 모델의 확률이 되도록 정의된다.

그러므로,이다.

시간(t+1)에서 상태(S_j)를 점유하고, 옵저베이션(O_t+1)을 방출할 모델의 확률은 시간(t)에서의 전방 확률, 상태 전이 확률(a_i.j) 및 상태(S_j)가 다음과 같은 옵저베이션(O_t+1)을 방출할 확률(b_t(O_t+1))로부터 계산될 수 있다.

도 10은 6개 상태의 HMM에 대한 Δ_t+1(4)의 계산을 나타낸다.

Δ₁(j) = ∑(j)b_j(O₁)을 설정함으로써 순환이 초기화된다.

상기 알고리즘의 계산적으로 보다 효과적인 다른 형태는 Viterbi 알고리즘으로 알려져 있다. 상기에 설명된 전방 확률의 합계를 구하는 대신 상기 Viterbi 알고리즘에서는 전방 확률의 최대값이 사용된다.

즉,이다.

가장 가능성 있는 상태 시퀀스를 회복하는데 필요한 경우, 각각의 시간(I_t)이 계산되고, ∴_t(j)가 기록되고, 여기서, ∴_t(j)는 시간(t)에서의 상태(S_j)로 주어진 시간(t-1)에서 가장 가능성 있는 상태, 즉, 상기 식의 우변을 최대화하는 상태이다. 시간(T)에서 가장 가능성 있는 상태는 I_T(j)가 최대인 상태(s_k)이고, ∴_T(k)는 시간(T-1) 등에서 가장 가능성 있는 상태를 나타낸다.

도 11은 16개 프레임의 옵저베이션(또는 특징 벡터) 시퀀스 및 5개 상태의 left to right Hidden Markov Model에 대해 Viterbi 알고리즘을 사용하여 계산된 가능한 상태 시퀀스를 나타낸다.

도 4b는 화자 식별에서 화자 인식 프로세서(21)의 대응하는 동작을 나타낸다. 이 경우, 복수의 화자 변화 및 대응하는 화자 모델이 사용된다. 각각의 화자 의존 변환이 차례로 선택되고, 단계(42)에서 수신된 특징 벡터들을 시간 정렬하기 위해 사용된다. 그 다음, 단계(48)에서 상기 시간 정렬되어 수신된 특징 벡터의 시퀀스는 대응하는 화자 모델과 비교된다. 도 4a를 참조하여 앞서 설명한 바와 같이, 시간 정렬되어 수신된 특징 벡터들의 각각은 선택적인 단계(43)에서 화자 의존 변환 매트릭스의 대응하는 특징 벡터와 평균이 구해진다. 그러면, 알려진 화자가 알려지지 않은 화자와 일치할 보다 높은 가능성을 나타내는 거리 측정으로 화자가 주지된 화자로서 확인된다. 그러나, 단계(53)에서 가장 가까운 거리 측정값이 임계값보다 큰 경우, 즉, 어느 화자도 알려지지 않은 화자일 가능성이 특히 높지 않은 경우, 화자는 단계(54)에서 상기 시스템에 알려지지 않은 화자로서 거부된다.

역사적으로, DTW 비교 프로세스는 HMM 비교 프로세스보다 화자 인식에 보다 효과적이었다. Hidden Markov Model와 특정 벡터의 시퀀스를 비교하는 것과 Dynamic Time Warp 알고리즘을 사용하여 특징 벡터의 동일한 시퀀스와 대표 템플릿을 비교하는 것 간의 하나의 차이점은 패턴 매칭 스테이지에 있다. DTW 접근법에서, 하나의 수신된 특징 벡터가 도 5의 수평 경로에 대응하여 둘 이상의 대표 특징 벡터와 매칭될 수 있다. 그러나, HMM 접근법에서, 각각의 수신된 특징 벡터는 단지 하나의 상태와 매칭될 수 있다. 도 11의 수평 경로를 갖는 것은 불가능하다. 상기 화자 의존 변환 매트릭스와 수신된 특징 벡터의 시퀀스를 정렬하는 것으로 수신된 특징 벡터를 HMM 상태로 사상할 가능성을 보다 높일 수 있고, 따라서 HMM 기반 화자 인식기의 성능을 향상시킬 수 있다.

HMM 기반 화자 인식기와 DTW 기반 화자 인식기의 다른 차이점은 DTW 템플릿이 전반적으로 한 개인의 음성에 기초하는 반면, 단일 HMM 토폴로지는 종종 개인의 음성으로 한 세트의 모델을 트레이닝하기 전에 한정된다는 것이다. 본 발명의 개선된 실시예에서, 화자 모델이 각각의 개인의 트레이닝 음성에 따라서 다른 상태수를 갖는 HMM에 의해 제공된다. 예를 들면, 특정 단어에 대한 한 세트의 특정 개인의 트레이닝 발음에 있는 특징 벡터의 최소수는 특정 개인의 특정 단어에 대한 HMM에 사용된 상태수를 선택하도록 사용될 수 있다. 화자 의존 변환 매트릭스에 있는 특징의 수가 유사하게 한정될 수 있고, 이 경우 대표 특징 벡터의 시퀀스에 있는 특징의 수는 Hidden Markov Model의 상태수와 동일할 수 있다.

본 발명은 MFCC를 참조하여 설명되었지만, 어떤 적절한 스펙트럼 표현이 사용될 수도 있다. 예를 들면, LPC(Linear Prediction Coefficient) 셉스트럼 계수, FFT(Fast Fourier Transform) 셉스트럼 계수, LSP(Line Spectral Pair) 계수 등이 사용될 수 있다.

Hidden Markov Model을 사용하는 비교 프로세스가 설명되었지만, 본 발명은 다른 형태의 비교 프로세스, 예를 들면, 다이나믹 시간 왜곡 기술(dynamic time warp technique) 또는 신경망 기술 등을 이용하는 화자 인식에 동일하게 적용될 수 있다.

본 발명은 확인되어야 할 각각의 화자에 대해 화자 의존 변환를 사용한다. 상기에 기술된 본 발명의 실시예에서, 화자 의존 변한 매트릭스는 각각의 단어에 대한 특징 벡터의 대표 시퀀스에 의해 제공된다.

특징 벡터의 대표 시퀀스를 얻는 방법은 잘 알려져 있고, 본 발명을 이해를 위해 특징 벡터의 각각의 대표 시퀀스가 화자가 말한 동일한 단어의 복수의 발음을 수신하여 각각의 발음에 대하여 상기에 기술한 바와 같은 한 세트의 특징 벡터를 얻는 프로세스에 의해 형성될 수 있다는 것을 나타내기에 충분하다. 그 다음, 상기 시퀀스가 앞서 설명한 바와 같이 시간 정렬되고, 복수의 발음에 대하여 시간 정렬된 특징 벡터의 시퀀스는 화자 의존 변환 매트릭스를 제공하는 특징 벡터의 평균 시퀀스를 얻기 위하여 평균이 구해진다.

Claims

알려지지 않은 화자로부터 음성 신호를 수신하는 단계,

상기 수신된 신호를 특정 화자와 관련된 변환에 따라서 변환하는 단계,

상기 변환된 음성 신호와 상기 특정 화자를 나타내는 모델을 비교하는 단계, 및

상기 알려지지 않은 화자가 상기 특정 화자일 가능성에 의존하는 매개 변수를 출력으로서 제공하는 단계를 포함하는 것을 특징으로 하는 화자 인식 방법.
제 1 항에 있어서,

상기 변환 단계는

상기 수신된 음성 신호 내의 음성 시작점과 음성 종점을 검출하는 부단계,

상기 수신된 음성 신호로부터 얻어진 특징 벡터의 시퀀스를 발생시키는 부단계, 및

상기 검출된 시작점과 상기 검출된 종점 사이의 음성 신호에 대응하는 특징 벡터의 시퀀스를 상기 특정 화자에 대한 특징 벡터의 대표 시퀀스와 정렬하여, 상기 정렬된 특징 벡터의 시퀀스에 있는 각각의 특징 벡터가 상기 특징 벡터의 대표 시퀀스에 있는 특징 벡터에 대응하도록 하는 부단계를 포함하는 것을 특징으로 하는 화자 인식 방법.
제 2 항에 있어서,

상기 변환 단계는 상기 특징 벡터의 대표 시퀀스에 있는 대응하는 특징 벡터와 상기 정렬된 특징 벡터의 시퀀스에 있는 각각의 특징 벡터의 평균을 구하는 부단계를 추가로 포함하는 것을 특징으로 하는 화자 인식 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

상기 모델은 히든 마르코프 모델(Hidden Markov Model)인 것을 특징으로 하는 화자 인식 방법.
제 4 항에 있어서,

상기 모델은 레프트 투 라이트 히든 마르코프 모델(left to right Hidden Markov Model)인 것을 특징으로 하는 방법.
제 4 항이 제 2 항 또는 제 3 항 중 어느 한 항에 의존할 때 제 5 항에 있어서,

상기 특징 벡터의 대표 시퀀스는 상기 히든 마르코프 모델의 상태수와 동일한 특징 벡터의 수를 포함하는 것을 특징으로 하는 화자 인식 방법.
알려지지 않은 화자로부터 음성 신호를 수신하는 수신 수단,

복수의 화자 중 각각의 화자와 관련된 복수의 화자 변환을 저장하는 화자 변환 스토어,

상기 복수의 화자 중 각각의 화자와 관련된 복수의 화자 모델을 저장하는 화자 모델 스토어,

상기 수신 수단과 상기 화자 변환 스토어에 연결되고, 동작에 있어서 선택된 화자 변환에 따라서 상기 수신된 음성 신호를 변환하도록 배치되는 변환 수단,

상기 변환 수단과 상기 화자 모델 스토어에 연결되고, 동작에 있어서 상기 변환된 음성 신호와 대응하는 화자 모델을 비교하도록 배치되는 비교 수단, 및

상기 알려지지 않은 화자가 선택된 화자 변환과 관련된 화자일 가능성을 나타내는 신호를 제공하는 출력 수단을 포함하는 것을 특징으로 하는 화자 인식 장치.
제 7 항에 있어서,

상기 변환 스토어는 특징 벡터의 대표 시퀀스로서 상기 각각의 변환을 저장하고,

상기 변환 수단은

상기 수신된 음성 신호 내의 음성 시작점과 음성 종점을 검출하는 시작점 및 종점 검출기,

상기 입력 음성으로부터 얻어진 특징 벡터의 시퀀스를 발생하는 특징 벡터 발생기, 및

상기 검출된 시작점과 상기 검출된 종점 사이의 음성 신호에 대응하는 특징벡터의 시퀀스를 특징 벡터의 대표 시퀀스와 정렬하여, 그 결과의 정렬된 특징 벡터의 시퀀스에 있는 각각의 특징 벡터가 특징 벡터의 대표 시퀀스에 있는 특징 벡터에 대응하도록 하는 정렬 수단을 포함하는 것을 특징으로 하는 화자 인식 장치.
제 8 항에 있어서,

상기 변환 수단은 상기 정렬된 특징 벡터의 시퀀스와 상기 특징 벡터의 대표 시퀀스에 있는 대응하는 특징 벡터의 평균을 구하는 평균화 수단을 추가로 포함하는 것을 특징으로 하는 화자 인식 방법.
제 7 항 내지 제 9 항 중 어느 한 항에 있어서,

상기 화자 모델 스토어는 히든 마르코프 모델의 형태로 상기 화자 모델을 저장하도록 배치되는 것을 특징으로 하는 화자 인식 장치.
제 10 항에 있어서,

상기 화자 모델 스토어는 레프트 투 라이트 히든 마르코프 모델의 형태로 상기 화자 모델을 저장하도록 배치되는 것을 특징으로 하는 화자 인식 방법.
제 10 항이 제 8 항 또는 제 9 항에 의존할 때, 제 11 항에 있어서,

상기 저장된 특징 벡터의 대표 시퀀스는 대응하는 저장된 히든 마르코프 모델의 상태의 수와 동일한 벡터수를 포함하는 것을 특징으로 하는 화자 인식 장치.
첨부된 도면을 참조하여 실질적으로 명세서에 설명된 바와 같은 화자 인식 장치.