[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR100571574B1 - 비선형 분석을 이용한 유사화자 인식방법 및 그 시스템 - Google Patents

비선형 분석을 이용한 유사화자 인식방법 및 그 시스템 Download PDF

Info

Publication number
KR100571574B1
KR100571574B1 KR1020040058256A KR20040058256A KR100571574B1 KR 100571574 B1 KR100571574 B1 KR 100571574B1 KR 1020040058256 A KR1020040058256 A KR 1020040058256A KR 20040058256 A KR20040058256 A KR 20040058256A KR 100571574 B1 KR100571574 B1 KR 100571574B1
Authority
KR
South Korea
Prior art keywords
nonlinear
linear
feature
analysis
recognizer
Prior art date
Application number
KR1020040058256A
Other languages
English (en)
Other versions
KR20060009605A (ko
Inventor
권영헌
이건상
양성일
장성욱
서정파
김민수
백인찬
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Priority to KR1020040058256A priority Critical patent/KR100571574B1/ko
Priority to SG200406410A priority patent/SG119253A1/en
Priority to US11/008,687 priority patent/US20060020458A1/en
Priority to CA002492204A priority patent/CA2492204A1/en
Publication of KR20060009605A publication Critical patent/KR20060009605A/ko
Application granted granted Critical
Publication of KR100571574B1 publication Critical patent/KR100571574B1/ko
Priority to US12/607,532 priority patent/US20100145697A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Image Analysis (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 비선형 분석을 이용한 유사화자 인식방법 및 그 시스템에 관한 것이다. 본 발명은 음성신호에 대한 비선형 분석을 통하여 음성 신호에 존재하는 비선형 특징을 추출하고 스펙트럼과 같은 선형특징과의 조합을 통하여 유사화자인식 문제를 해결하는 것을 목적으로 한다.
본 발명은 화자인식에 음성의 비선형 특징을 이용하는 것을 특징으로 하고, 음성의 비선형 정보를 추출하기 위하여 시간 공간상의 음성 데이터를 위상 공간상의 상태 벡터들로 변환하는 단계와; 상기 재구성된 상태 벡터들의 비선형 특징을 표현할 수 있는 비선형 시계열 분석 방식을 적용하는 단계로 구성된다.
본 발명에 의하면, 기존의 선형 알고리즘의 기술적 한계를 극복할 수 있고, 화자인식시스템 이외의 음성 관련 응용 시스템들에의 기술적 파급 효과가 있다.
화자인식, 비선형분석, 선형분석, 음성신호, 상태 벡터, 포만트

Description

비선형 분석을 이용한 유사화자 인식방법 및 그 시스템{ The Method and the System of Similar Speaker Recognition Using Nonlinear Analysis}
도 1은 자매쌍 2에 대한 포만트 그래프,
도 2는 자매쌍 1에 대한 포만트 그래프,
도 3은 형제쌍 1에 대한 포만트 그래프,
도 4는 본 발명의 화자인식 시스템 실시예시도,
도 5는 스펙트럼 공간상에서의 멜 스케일링 필터뱅크 도면,
도 6은 음성의 선형 특징 추출 사례(MFCC) 도면,
도 7은 유사 음성 화자에 대한 최종 인식율을 나타내는 그래프,
도 8은 선형특징과 비선형특징을 이용한 화자인식 시스템 구성예 1
도 9는 선형특징과 비선형특징을 이용한 화자인식 시스템 구성예 2
도 10은 선형특징과 비선형특징을 이용한 화자인식 시스템 구성예 3
도 11은 선형특징과 비선형특징을 이용한 화자인식 시스템 구성예 4
<도면의 주요부분에 대한 부호의 설명>
1 : A/D 변환기 2 : MFCC
3 : 상관차원 4 : 인식기(1)
5 : 인식기(2) 6 : 논리소자(논리합)
7 : 음성 스펙트럼 8 : 필터 뱅크
10 : 음성 21: 선형분석
22 : 비선형분석 23, 24 : 인식기
25 : 논리소자(논리합)
a : 첫 번째 포만트
b : 두 번째 포만트
c : 세 번째 포만트
d ~ f : 필터뱅크의 대역폭 및 필터형태
g : 선형 분석만을 사용한 인식율
h : 비선형 분석만을 사용한 인식율
i : 선형과 비선형 분석을 모두 사용한 인식율
본 발명은 비선형 분석을 이용한 유사화자 인식방법 및 그 시스템에 관한 것이다. 더욱 상세하게는 비선형 분석을 통해 얻어진 음성 신호의 비선형 특징추출을 이용한 유사화자인식방법 및 선형 특징과 비선형 특징을 조합한 화자인식시스템에 관한 것이다.
본 발명의 선행기술로 국제특허공개공보 WO - 2085215 - A1(공개일 : 2003.10.31) "카오스 이론적 사람인자 평가장치(Chaos theoretical Human Factor Evaluation Apparatus)"에 의하면, 음성신호에서 리야프노프(Lyapnov)지수를 추출하고 라야프노프 지수의 변화를 이용하여 정신적/육체적 행동을 예측하는 기술을 공개하고 있다.
일본특허 제 99094호(특허일 : 2003.4.4.) " 음성처리장치"에 의하면, 화자의 리야프노프 지수 비교를 통해 음성의 리야프노프 지수가 특정 영역 안에 존재할 경우만 처리를 하는 음성처리장치를 제시하고 있다.
최근 화자인식의 문제는 음성 처리의 주요 기술로서 대두되고 있다. 실생활에서 화자인식은 인증 받은 화자만이 접근을 요하는 주요 공공장소들에서 요구된다. 그러나, 화자인식의 사용상의 용이함과 경제적 가치에도 불구하고 "기존의 선형 분석 방식들로는 유사한 목소리를 갖는 화자들의 경우에 대한 화자 인증율이 저조하다"는 기술적 한계로 인해 아직 다른 생체 인식시스템에 비해 크게 활성화되지 못하고 있다.
이것은 기존의 화자인식 기술인 선형 분석 방식들에서 보이는 몇 가지 기술적인 한계로 인한 것이다.
(1) 잡음 환경하에서 인식 성능 저하,
(2) 각 화자의 목소리 또는 화자의 목소리 음색의 변화에 따른 불안정한 화자 인식율,
(3) 유사한 목소리를 갖는 화자들의 경우에 대한 화자 인식율 저조.
현재, 첫 번째의 잡음 환경 문제와 두 번째의 화자의 목소리 또는 목소리 음색의 변화에 따른 불안정한 화자 인식율 문제를 극복하고 화자인증시스템의 인식율을 향상시키기 위한 새로운 특징들이 제안되고 있다. 하지만 세 번째 유사한 목소리를 갖는 화자들을 구별하는 문제는 아직도 해결되지 않은 과제로 남아있다.
음성 특징처리의 문제 중에 하나인 잡음이 완전히 제거되었을 경우조차도 유사한 음성을 갖는 화자들을 구분하는 것은 어려운 일이다. 특히 기존의 음성에 대한 선형분석 특징들은 이들 유사한 목소리를 구별하기 매우 어렵다는 문제점 등이 있다.
기존의 음성 특징을 추출하기 위한 대부분의 방법들은 스펙트럼 영역에서 수행되므로 화자의 음성 특징이 스펙트럼 영역에 제한된다. 기존 화자인증 기술에서 이러한 제한은, 스펙트럼 영역에서 추출된 특징으로는 스펙트럼 영역에서도 유사한 음성들 간의 구별이 불가능해지는 문제점이 발생된다. 특히 스펙트럼 분석과 같은 기존의 선형분석 특징은 이들 유사한 목소리를 구별하기 매우 어렵다.
도 1은 "자매쌍 2"에 대한 포만트(음성 스펙트럼이 집중되는 주파수 대역을 의미함)그래프이고, 도 2는 "자매쌍 1"에 대한 포만트 그래프이다. 도 3은 "형제쌍 1"에 대한 포만트 그래프이다. 도 1에서 사용된 음성 데이터 중 "자매쌍 2"의 음성들은 서로간의 포만트가 매우 유사하다. 따라서 이들을 스펙트럼 공간상에서 구별하는 것이 거의 힘들다. 이것은 두 화자들의 기본 주파수 (fundamental frequency)와 소리발생원의 모양이 유사하다는 것을 의미한다. 따라서, 음성 스펙트럼에 기초 한 선형 특징들은 각 화자를 구별하는 것이 어려워진다. 한편, "자매쌍 1"과 "형제쌍 1"의 경우 첫 번째 포만트(a)는 유사하였지만, 두 번째(b)와 세 번째 포만트(c)들을 통하여 서로간의 구별이 가능하다. 따라서 이 경우에는 도 2와 도 3에서 알 수 있듯이, MFCC와 같은 선형 특징으로도 어느 정도 구별이 가능하다. 즉, 선형 특징으로 "자매쌍 1"과 "형제쌍 1"의 음성을 구별할 수 있지만, "자매쌍 2"에 대해서는 불가능하다. 그러나, 위상공간에서 "자매쌍 2"의 자매들 간의 음성들은 각각 다른 어트랙터(attractor: 분석 대상 신호의 동적 특성을 나타내는 위상 공간상에서의 집합)들을 보이므로 선형공간(스펙트럼 공간)에서 분석하기 어려웠던 구별이 비선형 공간인 위상 공간에서는 가능해진다.
따라서 비선형 신호인 음성신호의 특성상 선형 특징 이외의 음성 특징 추출 방식을 고려하는 것이 요구된다.
본 발명은 이러한 종래기술의 문제점을 해결하기 위하여 안출한 것으로, 본 발명의 목적은 음성 신호의 분석에 비선형 정보 추출 방식을 적용하여 종래의 유사한 목소리를 갖는 화자들의 경우에 대한 화자 인식율 저조의 문제를 해결하는데 있다.
본 발명의 또 다른 목적은 음성 신호의 선형과 비선형 특징을 조합하여 화자인식 시스템의 인식율을 향상시키는 방법을 제공하는 데에 있다.
즉, 음성신호에 대해 비선형 분석 특징을 취하여 음성의 비선형 특징을 추출 하고, 기존의 선형 특징과의 적절한 조합을 통하여 유사한 음성을 갖는 화자들에 대해 불안정한 화자 인식율을 보이는 문제에 대한 해결법을 제공하는 데에 있다.
본 발명의 목적을 구현하기 위한 본 발명의 비선형 분석을 이용한 유사화자 인식방법은 음성신호를 위상공간으로 변환시키는 단계와; 비선형 시계열 분석 방식을 이용하여 얻어진 비선형 특징을 추출하는 단계와; 기존의 선형 특징과 비선형 특징을 조합하는 단계를 포함하는 것을 특징으로 한다.
상기 비선형 특징을 추출하는 단계에서는 리야프노프(Lyapunov) 지수를 이용하는 방식, 상관차원, 콜모고로프(Kolmogorov)차원, 기타 다양한 비선형 분석 방식을 중 어느 하나의 방식을 비선형 특징 추출을 위해 선택할 수 있다. 리야프노프 지수를 이용하는 특징은 리야프노프 스펙트럼 또는 리야프노프 차원 등을 포함한다.
한편, 본 발명의 화자인식시스템은 음성 신호를 선형 분석 방식으로 분석하는 선형 분석기와, 선형 특징을 이용하여 사전에 훈련된 음성의 선형 특징과의 매칭 여부를 비교하는 제 1인식기와, 음성 신호를 비선형 방식으로 분석하여 비선형 특징을 추출하는 비선형 분석기와, 비선형 특징을 이용하여 사전에 훈련된 음성의 비선형 특징과의 매칭 여부를 비교하는 제 2인식기와, 두 인식기의 결과를 조합하여 최종 인식 결과를 출력하는 것을 특징으로 한다.
이러한 비선형 특징을 이용하는 화자 인식시스템에서 두 인식기의 결과를 조합하여 사용하는 방법으로는 음성 신호를 선형 분석하여 얻어진 선형 특징을 이용하는 인식기에서 매칭 여부를 비교하는 단계와; 매칭이 맞으면 접근을 허가하고 매칭이 안 맞으면 비선형 분석으로 스위칭되는 단계와; 비선형분석을 통해 얻어진 비선형 특징을 이용하는 인식기에서 매칭을 비교하는 단계와 ; 매칭이 맞으면 접근이 허용되고 매칭이 안 맞으면 접근이 거부되는 단계로 진행된다. 반대로 비선형 특징을 이용한 인식을 먼저 수행하고 접근 거부일 경우 선형 분석을 수행하는 방식도 이용할 수 있다.
또한, 선형과 비선형특징을 동시에 이용할 경우 두 가지 특징에 적절한 가중치를 부가하여 하나로 합해진 특징을 이용하여 인식기에 입력하는 방식과, 선형과 비선형특징에 대한 패턴 매칭을 통해 사전에 훈련된 음성의 선형과 비선형 특징과의 오차를 추출하고, 이에 대해 각각 적절한 가중치를 부가하여 최종 인식기에 입력하는 방식도 사용할 수 있다.
본 발명의 화자인식에서는 시스템에 음성 신호에 대한 비선형 특징과 선형 특징을 모두 사용하여, 선형 특징은 다른 포만트를 갖는 화자들을 구별하고, 비선형 특징은 유사한 포만트를 갖는 화자를 구별하는 방법을 사용한다. 이와 같이 음성 신호의 선형 및 비선형 특징을 조합하여 사용하는 것을 통하여 선형 공간에서 유사한 특징을 갖는 유사 음성 화자들에 대해서도 안정적인 화자 인식율을 얻을 수 있다.
이러한 시계열 데이터는 스펙트럼 기능을 갖고 있다고 간주될 수 있는 인체의 구강기관의 구조(structure of speaking organs)와 청각기관의 구조(structure of hearing organs)를 기반으로 분석되어 왔으며, 스펙트럼 공간은 흔히 음성을 하기 위한 공간으로 사용되고 있다. 그러나 음성의 비선형성을 이해하기 위해서는 기존의 스펙트럼 공간이 아닌 비선형 공간상에서 음성을 분석하는 것이 필요하다. 특히 이러한 비선형 공간에서의 음성 분석은 스펙트럼 공간에서 유사한 특성을 갖는 화자들 간의 구별을 위해 매우 유용한 특징을 제공한다. 그러나 비선형 특징만을 사용하는 것은 오히려 시스템의 성능을 저하시키는 요인이 되므로, 선형 특징(예: MFCC, LPC, LSF)과 비선형 특징(예: 상관차원, Lyapunov 지수, Lyapunov 차원, Kolmogorov 차원, fractal 차원 등)을 적절히 조합하여 인식하도록 구성하는 것이 필요하다. 즉, 화자의 음성들은 선형, 비선형 특징을 모두 가지고 있으므로 선형, 비선형 특징을 모두 이용하는 특징을 통하여 훈련된 음성 데이터베이스들 간에 선형 공간상에서의 유사성을 갖는 경우에도 안정적인 화자인식시스템을 구축할 수 있다.
이하 본 발명에 대한 실시예의 도면을 토대로 상세히 설명한다.
도 4는 본 발명의 실시예에서 사용된 화자인식 시스템이다. 도 5는 선형 공간인 스펙트럼 공간에서의 멜 스케일링 필터뱅크 도면이고, 도 6은 음성의 선형 특징 추출 사례(MFCC) 도면이다. 도 7은 유사 음성 화자에 대한 실시 예의 최종 인식율을 나타내는 그래프이고, 도 8은 선형특징과 비선형 특징을 이용한 화자인식 시 스템 구성예 1 이다. 도 9는 선형특징과 비선형 특징을 이용한 화자인식 시스템 구성예 2 이고, 도 10은 선형특징과 비선형 특징을 이용한 화자인식 시스템 구성예 3 이다. 마지막으로 도 11은 선형특징과 비선형 특징을 이용한 화자인식 시스템 구성예 4를 보인다.
(실시예)
본 발명의 실시예로 도 4와 같은 화자인식시스템을 구성한다. 이 시스템은 도 8의 선형특징과 비선형 특징을 이용한 화자인식 시스템 구성예 1 을 응용한 것이다. 선형 특징(2)으로는 MFCC(mel frequency cepstrum)를 사용하고 비선형 특징(3)으로는 상관차원(Correlation Dimension)을 사용한다. 또한, 선형 특징을 인식하기 위한 인식기(4)로는 CHMM(Continuous Hidden Markov Model)을 사용하고 비선형 특징을 위한 인식기(5)에서는 두 가지 형태의 임계치가 사용된다. 기본적인 임계치는 테스트 데이터와 훈련 데이터간의 유사성을 측정하기 위한 오류 임계치(error threshold)이고, 두 번째 임계치는 첫 번째와 두 번째 최대 로그확률간의 차가 이용된다. 첫 번째 임계치는 최대 로그확률의 30%이고 두 번째 임계치는 훈련 데이터에서의 차이의 30%를 사용한다.
도 4에 의한 화자인식 시스템은 A/D 변환기(1)와, 선형 특징인 MFCC(2), 비선형 특징인 상관차원(3), 인식기 1(4), 인식기 2(5) 및 논리조합(6)으로 구성된다.
본 발명의 비선형 분석을 이용한 유사화자 인식방법에 대한 실시 예는 화자 의 아날로그 음성신호가 A/D 변환기(1)를 거쳐 디지털 음성신호로 변환되는 단계와; 상기 디지털 음성신호를 MFCC(2)를 통하여 인식기 1(4)에서 매칭을 비교하는 단계와; 매칭이 맞으면 접근을 허가하고 매칭이 안 맞으면 비선형분석인 상관차원(3)을 추출하는 단계와; 비선형분석에 대해서 인식기 2(5)에서 매칭을 비교하는 단계와 ; 매칭이 맞으면 접근이 허용되고 매칭이 안 맞으면 접근이 거부되는 단계로 구성된다.
[음성의 선형 특징 추출: MFCC ]
도 4의 MFCC(2)를 추출하는 방식에 대해 설명한다. 음성 인식에서 특징 파라미터를 추정하는 전통적인 특징은 필터뱅크 분석과 선형 예측 특징이 있다. 본 실시예에서는 인간의 청각 구조를 응용한 멜 스케일 필터뱅크 분석을 통하여 선형 특징 파라미터를 예측한다. 도 5는 스펙트럼 공간에서의 멜 스케일링 필터뱅크 도면으로 스펙트럼 공간상의 음성 신호(7)가 입력된 후 필터 뱅크(8)를 거쳐서 출력(9)되는 과정을 나타낸다. 맨 우측의 그래프는 각 필터 뱅크 출력에 대응하는 주파수 영역에서의 형태와 대역폭을 나타낸다. 각 필터의 형태는 인간의 청각 구조를 고려하여 삼각 필터(d~f)를 사용한다. 참고로 사용된 멜 스케일링(mel scaling)은1kHz까지는 선형이고 1kHz 이상에서는 대수적으로 비선형이므로, 저주파영역에서는 작은 변화에서 민감하지만 고주파영역에서는 덜 민감한 특성을 갖는다. 이러한 필터 뱅크는 인간의 청각 구조에 기초하므로 인지 가중치(perceptual weighting)특징이라 부른다.
도 5는 사람의 음성분석 청각구조로 분석하는 경우로 MFCC를 예를 든 것이다. 다음 식(1)은 스펙트럼 공간의 주파수 f(Hz)를 인간의 청각 구조를 반영할 수 있는 멜(Mel : 사람의 청각구조) 주파수(Mel(f)) 공간으로 변환하는 멜 스케일링을 나타낸다.
Figure 112004033131436-pat00001
도 6은 음성의 선형 특징 추출 사례(MFCC) 도면으로, 음성 신호(10)가 입력되어 MFCC(17)로 추출되는 과정을 나타낸다. 음성 신호(10)의 고주파 영역을 증폭(11)한 후 창함수(12)를 통하여 음성 신호를 나누고, 나누어진 음성 데이터에 대해 FFT(13)를 취한다. 다음으로 멜 스케일링 필터뱅크(14)를 통과한 값에 로그(log)를 취하고(15), 역 이산 코사인 변환(16 :inverse DCT) 하면 MFCC(17)가 추출된다.
[위상 공간상으로 변환]
도 4의 상관차원(3)을 추출하기 위한 전처리 단계로서 시간 공간상의 음성 신호를 위상 공간으로 변환하는 방식에 대해 설명한다. 음성의 비선형성을 이해하기 위해서는 기존의 스펙트럼 공간이 아닌 위상공간상에서 음성을 분석하는 것이 필요하다. 위상공간에서 음성발성시스템에 기인하는 기본적인 비선형성이 분석될 수 있으므로, 시간 공간상의 음성은 비선형 분석을 위한 위상 공간상의 상태 벡터들로 변환되어야 한다. 예를 들어, 음성의 비선형 특징을 유지하기 위해 지연재구 성 방식(delay reconstruction method)을 통하여 위상공간으로 변환하는 방법을 사용할 수 있다. 현재 상태에 의존하는 입력된 음성에 대한 m차원 지연 재구성은 다음과 같이 표현된다. 아래 식(2)은 위상공간으로 변환시키는 방법이다.
Figure 112004033131436-pat00002
s n 을 이산화 된 n번째 음성 샘플이고 γ를 지연 차수라 할 때, 식(2)을 통하여, 음성을 m차원의 상태 벡터 β n 으로 변환 할 수 있다. 이 때, β n 은 시간 공간에서의 음성 s n 에 대한 위상 공간에서의 상태 벡터를 나타낸다.
[음성의 비선형 특징 추출: 상관차원]
도 4의 상관차원 식(3)을 추출하는 방식에 대해 설명한다. 시간 공간의 음성 신호를 위상공간으로 변환한 후, 위상 공간상에서 음성 신호의 비선형 특징을 추출해야 한다. 위상 공간에서의 음성의 비선형 특징을 추출하기 위해 매우 다양한 비선형 분석 방식이 사용될 수 있다. 예를 들어, 위상 공간상에서의 상관 차원이 이용될 수 있다. 상관차원을 계산하기 위해 프랙탈 차원 D q (Q,ρ)이 정의된다.
Figure 112004033131436-pat00003
만일 프랙탈 차원 D q 에서 q가 2이면, 이것을 식(4)와 같이 상관차원 D 2 라 불 린다.
Figure 112004033131436-pat00004
실제로 상기 식(3)에서 D 2 (Q)는
Figure 112004033131436-pat00005
Figure 112004033131436-pat00006
의 기울기를 이용하여 구해진다. 그러나 이 기울기가 모든 영역에서 선형인 것은 아니므로 D 2 ( Q)값을 규정하는 것이 쉽지 않다. 이것은 오직 ε의 제한된 영역 안에서만 선형이다. ε의 선형 영역이 존재할 때, 이 영역의 유효 범위를 스케일링 영역(scaling region)이라 부른다. 선형 스케일링 영역의 크기는 각 화자들의 음성에서 신뢰할 수 있는 D 2 (Q)를 결정한다.
[실시환경]
도 4와 같은 실시예를 위해 다음과 같은 실시 환경을 적용하였다. 음성데이터는 각 쌍간에 매우 유사한 음성들을 갖는 두 쌍의 자매와 한 쌍의 형제들(총 6명)로부터 녹음 및 채집되었다. 음성 데이터를 획득할 때, 각 형제자매들에 대해 서로 구별할 수 있는지를 판단하기 위한 유사도 표준으로는 듣기 평가를 사용하였다. 한국어에서 모음 /i/는 /a/, /e/, /o/, /u/등 보다 더욱 무질서하므로, 각 화자에 대해 10번씩 발음한 /i/ 모음을 44 kHz 샘플링과 16 bit 해상도로 A/D변환기 를 통하여 수집하였다. 수집된 음성 데이터는 고주파 대역을 증폭하는 전처리 증폭 (pre-emphasis) 필터와 25ms의 hamming창을 통과시켰다. 12차의 기본 MFCC와 1차 에너지와, 이들에 대한 1차 미분값인 Δ와 2차 미분값인 ΔΔ를 이용하는 39차의 MFCC 특징벡터(도 4의 (2))가 사용되었으며, 인식 알고리즘을 위해서는 각 화자에 대해 5개 상태의 Gaussian 밀도를 갖는 CHMM(도 4의 (4))이 사용되었다. 또한, 유사도 표준을 위한 각 음성 /i/에 대한 듣기 평가에서 발생할 수 있는 임의의 모호성을 보상하기 위해, 각 화자들에 대한 첫 번째, 두 번째, 세 번째 포만트들을 각 쌍들간에 비교하였다. 대개의 경우, 포만트는 나이와 성별에 따른 발성 구조와 성도(vocal track)에 의존하며, 음색이나 음의 고저등과 같은 음향 특성에 영향을 주는 기본 주파수(fundamental frequency)와 주파수폭(frequency bandwidth)이 변화하는 형상을 보인다. 그러므로 포만트는 band filter상에서 추정되는 MFCC 계산에 영향을 미치게 되고, 유사한 포만트 구조를 갖는 각 화자들을 MFCC 특징을 이용하는 CHMM으로 구별하는 것은 거의 불가능하다는 것을 추측할 수 있다.
본 실시예에서는 국부 투영 잡음 감소(local projective noise reduction)방식을 통하여 잡음이 감소된 음성 데이터가 사용되었다. 여섯 명의 화자들이 3번씩 발음한 음성들에서 묵음(silence)구간을 제거하고, 이 음성들을 이용하여 인식기에서 1000번 훈련시켰으며, 나머지 음성들은 인식율 평가를 위해 사용되었다.
[실시결과]
도 7은 유사 음성 화자에 대한 실시예의 인식율 결과를 나타내는 그래프로 음성의 선형 특징만을 사용한 경우에 대한 인식율 그래프(h), 음성의 비선형 특징만을 사용한 경우에 대한 인식율 그래프(g), 그리고 선형 특징과 비선형 특징을 조합하여 사용한 경우에 대한 그래프(i)를 나타낸다. 도 7에서 X축은 각 화자들을 나타내며 Y축은 각 화자에 대한 화자 인식율을 나타낸다.
음성의 선형 특징만을 사용하여 화자를 인식한 경우 평균 인식율(도 7의 (g))이 40% 이하이며, 선형 특징과 비선형 특징을 조합하여 화자를 인식한 경우 모든 인식율(도 7의 (i))이 60% 이상으로 높아짐을 알 수 있다. 또한, 도 7에서 자매쌍2(female2-1, female2-2)에 대해 선형 특징만을 이용한 경우에 대한 인식율(도 7의 (g))을 보면 거의 인식하지 못하는 것을 볼 수 있다. 이는 도 2에서 보였듯이 두 화자들 간에 매우 유사한 포만트를 가짐으로 인해 발생하는 것으로 볼 수 있다. 이와 같이 서로 매우 유사한 포만트를 가질 경우 매우 낮은 인식율을 보이게 된다. 심지어 화자 유사도에 대한 확률 측면에서 테스트 데이터의 오류 임계치(error threshold)보다 더욱 크게 나타났다. 즉, 훈련 데이터는 정확하게 임계치를 만족하지만 인식 실험에 사용된 테스트 데이터는 그렇지 않았다. 이러한 결과는 음성의 선형 특징만으로는 "자매쌍2"의 화자들에 대한 음성의 차이를 말해주기 어렵다는 것을 보인다. 그러나 실험조건은 상관 차원의 특징을 부가하였다는 것을 제외하고는 같았음에도 불구하고, 음성의 선형 특징인 MFCC에 비선형 특징인 상관 차원을 부가하였을 때, 인식율이 47%나 향상됨을 보였다. 다시 말하면, 본 실시예에서 도 4와 같이 선형 특징을 통하여 분석된 테스트 데이터를 상관 차원을 이용하여 재확인하였다. 사실 "자매쌍 2"에서 각 화자의 MFCC들이 매우 유사한 것과 같이 각 화 자의 테스트 데이터에서 나타나는 아주 작은 로그 확률 차는 화자 인식을 어렵게 만든다. 그러나, 선형 특징에 비선형 특징(상관차원)이 부가된 경우에는 정확한 차이를 보였다.
실시예에서 또 한가지 주목할 것은, 선형 분석 특징을 사용하지 않고 비선형 특징인 상관차원만을 사용하였을 경우에는 선형 특징을 통하여 쉽게 구별될 수 있는 화자를 분간하기 어려워져 좋지 못한 화자인식 결과(도 7의 (h))를 보인다는 점을 주목해야 한다. 그러므로 본 발명에서 제시된 음성 신호의 비선형 특징은 반드시 선형 특징과의 조합을 이루어 사용되어야 함을 알 수 있다.
도 8은 선형분석과 비선형분석을 이용한 화자인식 시스템 구성예이다. 도 4와 마찬가지로 음성의 선형 특징을 먼저 사용하여 인식한 후 결과에 따라 비선형 특징을 적용하여 화자를 인식하는 예이다. 먼저 음성신호의 선형 특징을 추출하는 단계(21)와; 이를 인식기1에서 미리 훈련된 음성들과 매칭을 판단하는 단계(23)와; 매칭이 맞으면 접근을 허가하고 매칭이 안 맞으면 비선형 특징 추출로 스위칭되는 단계(22)와; 비선형분석에 대해서 인식기2에서 매칭을 판단하는 단계(24)와 ; 매칭이 맞으면 접근이 허용되고 매칭이 안 맞으면 접근이 거부되는 단계로 구성된다.
도 9는 선형특징과 비선형 특징을 이용한 화자인식 시스템의 다른 실시예를 나타낸다. 여기서는 먼저 음성 신호에 대한 비선형 특징을 추출하는 단계(21)와; 이를 인식기 1에서 미리 훈련된 음성들과 매칭을 판단하는 단계(23)와; 매칭이 맞 으면 접근을 허가하고 매칭이 안 맞으면 선형 특징 추출로 스위칭되는 단계(22)와; 선형 분석에 대해서 인식기 2에서 매칭을 판단하는 단계(24)와 ; 매칭이 맞으면 접근이 허용되고 매칭이 안 맞으면 접근이 거부되는 단계로 구성된다.
도 10은 선형특징과 비선형 특징을 이용한 화자인식 시스템의 또 다른 실시예이다. 즉, 화자인식 시스템의 다른 실시예로 입력된 음성에 대해 선형 특징 추출 단계와 비선형 특징 추출 단계를 동시에 수행하고, 각각에 대해 미리 훈련된 음성들과의 패턴 매칭을 수행한다. 다음으로 패턴 매칭을 통하여 얻은 미리 훈련된 음성들과의 거리 값에 각각 가중치1과 가중치2를 부가하여 이를 최종 인식기에 입력하고 접근 허가 여부를 결정한다. 도 10은 선형 특징과 비선형 특징을 동시에 적용할 경우 필요하면 어느 쪽을 더 강조할 것인지에 따라서 이를 조절하기 위하여 가중치(weight)를 적용하는 경우를 나타낸다.
도 11은 도10과 같이, 선형 특징 추출 단계와 비선형 특징 추출 단계를 동시에 수행하는 또 다른 예이다. 여기서는 선형 특징과 비선형 특징에 필요에 따라 적절한 가중치를 가하여 입력된 음성에 대하여 하나의 특징 벡터를 생성하고, 이를 이용하여 화자인식을 수행하는 예이다.
본 발명에서는 종래기술의 문제점을 해결하기 위해 음성에 대한 선형 특징과 비선형 특징을 조합하여 이용하므로, 종래의 방식인 음성 신호의 선형 특징만을 사용하는 경우에 비하여 놀라울 정도로 인식율 향상을 가져온다.
또한, 앞에서 설명한 실시예를 통하여 화자의 음성들이 선형 특징와, 비선형 특징을 모두 가지고 있음을 알 수 있다. 즉, 선형 분석을 통하여 다른 포만트를 갖는 화자들을 구별하고 비선형 분석은 유사한 포만트를 갖는 화자를 구별하므로, 음성 신호의 분석에서 선형, 비선형 특징을 모두 이용하는 방식은 선형 알고리즘의 한계를 극복할 수 있다.
당해 기술 분야의 통상의 지식을 가진 자에게 실시예에만 한정되지 않고 본 발명은 발명의 기술사상으로부터 벗어나지 않는 범위내에서 다른 형태로 실시될 수 있다. 특히, 특허청구범위와 균등한 기술 범위내에서 이루어지는 모든 설계 변경은 본 발명의 범위에 포함되는 것으로 간주된다.
이상에서 살펴본 바와 같이, 본 발명은 비선형 특징을 통하여 유사화자인식의 문제를 해결하였다. 실시예에서 선형 특징인 MFCC와 비선형 특징인 상관차원의 결합된 특징은 상당한 인식율 향상을 가져왔다. 즉 이것은 음성에 대한 선형, 비선형 특징 모두 중요하다는 것을 의미한다.
본 발명에서는 음성의 선형 특징으로는 다른 포만트를 갖는 화자들을 구별하고 비선형 특징으로는 유사한 포만트를 갖는 화자를 구별하도록 하므로 음성 신호의 분석에서 선형, 비선형 특징을 모두 이용하는 방식을 통하여 기존의 선형 알고리즘의 기술적 한계를 극복할 수 있다.
또한, '음성 신호의 선형 특징과 비선형 특징이 모두 중요한 특징'라는 사실로부터 화자인식시스템 이외의 음성 관련 응용 시스템들에의 기술적 파급효과가 있다.
미국 TMA(http://www.tmaa.com) 보고서에 의하면, 2000년에서 2004년까지의 화자인식 시장은 65.4%의 연평균 성장률을 보이고 2004년에는 16억 1600만불의 시장 규모를 가질 것으로 예상하고 있다. 이는 같은 기간 소프트웨어의 연평균 성장 률이 14.5%인 점을 감안하면 상당한 속도의 성장세를 예상하고 있다. 그러나 화자인식 시스템이 대부분의 경우 '보안시스템에 적용'되므로 본 발명에서 제시한 유사화자인식의 문제는 매우 시급히 해결해야할 과제로 대두되므로 본 발명을 화자인식시스템에 적용할 시 상당한 경제적 파급효과가 예상된다.
따라서 본 발명은 유사화자 인식 문제 해결을 위하여 화자인식에 음성의 비선형 특징을 적용하는 방법 및 시스템에 관한 것으로 보안의 문제가 심각하게 대두되고 있는 현실을 감안할 때, 상당한 경제적 파급효과가 기대되고, 화자인식에 대한 고유의 핵심 기술을 보유함으로 인해 생기는 사업화 전망은 매우 밝다.

Claims (13)

  1. 화자 인식방법에 있어서, 음성 신호를 위상공간으로 변환시키는 단계와; 상기 위상공간에서의 음성 신호에 비선형 시계열 분석 방식을 적용하여 비선형 특징을 추출하는 단계 및 기존의 선형 특징과 비선형 특징을 조합하는 단계를 포함하는 것을 특징으로 하는 비선형 분석을 이용한 유사화자 인식방법.
  2. 제 1 항에 있어서, 상기 위상공간에서 음성신호를 비선형 시계열 분석 방식을 적용하여 비선형 특징을 추출하는 단계는 리야프노프 스펙트럼, 리야프노프 차원 등의 리야프노프 지수를 이용하는 방식, 상관차원, 콜모고로프 차원 중 어느 하나의 특징을 선택하는 것을 특징으로 하는 비선형 분석을 이용한 유사화자 인식방법.
  3. 유사화자 인식방법에 있어서, 입력된 화자의 음성 신호의 선형 특징을 추출하여 인식기에서 매칭을 비교하는 단계와; 매칭이 맞으면 접근을 허가하고 매칭이 맞지 않으면 비선형 특징 추출로 스위칭되는 단계와; 비선형 특징에 대해서 인식기에서 매칭을 비교하는 단계와 ; 매칭이 맞으면 접근이 허용되고 매칭이 안 맞으면 접근이 거부되는 단계를 포함하는 것을 특징으로 하는 비선형 분석을 이용한 유사 화자 인식방법.
  4. 제 3항에 있어서, 상기 선형 특징은 기존의 스펙트럼 공간상에서의 음성 특징인 것을 포함하는 비선형 분석을 이용한 유사화자 인식방법.
  5. 제 3항에 있어서, 상기 비선형 특징은 리야프노프 지수를 이용한 정보, 상관차원, 콜모고로프 차원 중 어느 하나인 것을 포함하는 비선형 분석을 이용한 유사화자 인식방법.
  6. 제 5항에 있어서, 상기 리야프노프 지수를 이용한 정보는 리야프노프 스펙트럼 또는 리야프노프 차원을 포함하는 것을 특징으로 하는 비선형 분석을 이용한 유사화자 인식방법.
  7. 화자인식방법에 있어서, 음성 신호를 비선형 분석 방식으로 분석하여 비선형 특징을 추출하는 단계와, 제 2 인식기에서 입력된 음성에 대한 비선형 특징과 사전에 훈련된 음성에 대한 비선형 특징들의 매칭 여부를 비교하는 단계와, 비선형분석 이 매칭이 안 될 경우 선형 분석을 수행하여 입력된 음성의 선형 특징을 추출하는 단계와, 제 1 인식기에서 선형 특징의 매칭 여부를 비교하는 단계와, 상기 제 1 인식기와 제 2 인식기들 중 하나가 예(yes)인 경우 접근을 허용하는 논리소자를 포함하여, 음성신호의 비선형 특징과 선형 특징을 조합하는 단계를 포함하는 것을 특징으로 하는 비선형 분석을 이용한 유사화자 인식방법.
  8. 화자인식방법에 있어서, 입력된 음성에 대해 선형 특징 추출 단계와 비선형 특징 추출 단계를 동시에 수행하는 단계와; 각각에 대해 미리 훈련된 음성들과의 패턴 매칭을 수행하는 단계와; 패턴 매칭을 통하여 얻은 미리 훈련된 음성들과의 거리 값에 패턴 매칭1에는 가중치 1을 부가하고 패턴 매칭 2에는 가중치 2를 부가하는 단계와; 이를 최종 인식기에 입력하고 접근 허가 여부를 결정하는 단계를 포함하는 것을 특징으로 하는 비선형 분석을 이용한 유사화자 인식방법.
  9. 제 8항에 있어서, 상기 패턴 매칭을 통하여 얻은 미리 훈련된 음성들과의 거리 값에 패턴 매칭1에는 가중치 1을 부가하고 패턴 매칭 2에는 가중치 2를 부가하는 단계에서 선형 특징과 비선형 특징에 각각 같거나 다른 가중치를 부여하는 것을 특징으로 하는 비선형 분석을 이용한 유사화자 인식방법.
  10. 입력된 음성에 대해 선형 특징 추출 단계와 비선형 특징 추출 단계를 동시에 수행하고, 추출된 선형 특징과 비선형 특징에 적절한 가중치를 부여하고, 이들을 조합한 특징 벡터를 생성하는 단계와 ,
    이를 인식기에 입력하고 접근 허가 여부를 결정하는 단계를 포함하는 것을 특징으로 하는 비선형 분석을 이용한 유사화자 인식방법.
  11. 제 10항에 있어서, 상기 입력된 음성에 대해 선형 특징 추출 단계와 비선형 특징 추출 단계를 동시에 수행하는 단계에서 추출된 특징들에 대해 필요에 따라 각각 같거나 다른 가중치를 부여하여 이들을 조합한 비선형 분석을 이용한 유사화자 인식방법.
  12. 화자인식 시스템에 있어서, 아날로그 음성신호을 디지털 음성신호로 변환시키는 아날로그디지털(A/D) 변환기(1)와, 상기 디지털 음선신호를 선형 특징인 MFCC(2)와 통하여 매칭을 비교하는 제 1 인식기(4), 비선형 특징인 상관차원(3)을 통하여 매칭을 비교하는 제 2 인식기 (5) 및 매칭이 맞으면 접근이 허용되고 매칭이 안 맞으면 접근이 거부하는 논리조합(6)으로 구성되는 것을 특징으로 하는 비선형 분석을 이용한 유사화자 인식시스템.
  13. 화자인식 시스템에 있어서, 아날로그 음성신호를 디지털 음성신호로 변환시키는 아날로그디지털(A/D) 변환기(20)와, 상기 디지털 음성신호를 비선형 분석을 통하여 매칭을 비교하는 제 2 인식기(24)와, 선형 분석을 통하여 매칭을 비교하는 제 1 인식기 (23) 및 매칭이 맞으면 접근이 허용되고 매칭이 안 맞으면 접근이 거부하는 논리조합(25)으로 구성되는 것을 특징으로 하는 비선형 분석을 이용한 유사화자 인식시스템.
KR1020040058256A 2004-07-06 2004-07-26 비선형 분석을 이용한 유사화자 인식방법 및 그 시스템 KR100571574B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020040058256A KR100571574B1 (ko) 2004-07-26 2004-07-26 비선형 분석을 이용한 유사화자 인식방법 및 그 시스템
SG200406410A SG119253A1 (en) 2004-07-26 2004-11-08 Similar speaker recognition method and system using nonlinear analysis
US11/008,687 US20060020458A1 (en) 2004-07-26 2004-12-10 Similar speaker recognition method and system using nonlinear analysis
CA002492204A CA2492204A1 (en) 2004-07-26 2005-01-07 Similar speaking recognition method and system using linear and nonlinear feature extraction
US12/607,532 US20100145697A1 (en) 2004-07-06 2009-10-28 Similar speaker recognition method and system using nonlinear analysis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040058256A KR100571574B1 (ko) 2004-07-26 2004-07-26 비선형 분석을 이용한 유사화자 인식방법 및 그 시스템

Publications (2)

Publication Number Publication Date
KR20060009605A KR20060009605A (ko) 2006-02-01
KR100571574B1 true KR100571574B1 (ko) 2006-04-17

Family

ID=36168968

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040058256A KR100571574B1 (ko) 2004-07-06 2004-07-26 비선형 분석을 이용한 유사화자 인식방법 및 그 시스템

Country Status (4)

Country Link
US (2) US20060020458A1 (ko)
KR (1) KR100571574B1 (ko)
CA (1) CA2492204A1 (ko)
SG (1) SG119253A1 (ko)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9355651B2 (en) 2004-09-16 2016-05-31 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US10223934B2 (en) 2004-09-16 2019-03-05 Lena Foundation Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback
US9240188B2 (en) 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US8938390B2 (en) * 2007-01-23 2015-01-20 Lena Foundation System and method for expressive language and developmental disorder assessment
CA2676380C (en) * 2007-01-23 2015-11-24 Infoture, Inc. System and method for detection and analysis of speech
TWI409802B (zh) * 2010-04-14 2013-09-21 Univ Da Yeh 音頻特徵處理方法及其裝置
US8775179B2 (en) * 2010-05-06 2014-07-08 Senam Consulting, Inc. Speech-based speaker recognition systems and methods
EP2477188A1 (en) * 2011-01-18 2012-07-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding of slot positions of events in an audio signal frame
WO2013054347A2 (en) * 2011-07-20 2013-04-18 Tata Consultancy Services Limited A method and system for detecting boundary of coarticulated units from isolated speech
TWI584269B (zh) * 2012-07-11 2017-05-21 Univ Nat Central Unsupervised language conversion detection method
CN105516860B (zh) * 2016-01-19 2019-02-19 青岛海信电器股份有限公司 虚拟低音生成方法、装置和终端
WO2019113477A1 (en) 2017-12-07 2019-06-13 Lena Foundation Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness
CN108091326B (zh) * 2018-02-11 2021-08-06 张晓雷 一种基于线性回归的声纹识别方法及系统
CN110232927B (zh) * 2019-06-13 2021-08-13 思必驰科技股份有限公司 说话人验证反欺骗方法和装置
CN111554325B (zh) * 2020-05-09 2023-03-24 陕西师范大学 一种嗓音识别方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0179280A2 (en) * 1984-10-26 1986-04-30 International Business Machines Corporation Nonlinear signal processing in a speech recognition system
KR20020024742A (ko) * 2000-09-26 2002-04-01 김대중 비선형 방법에 의한 음성신호의 특징 추출 장치 및 그 방법
KR20030061797A (ko) * 2000-09-08 2003-07-22 퀄컴 인코포레이티드 음성인식을 위하여 화자의존모드 및 화자독립모드에서dtw와 hmm의 결합
KR20040010663A (ko) * 2001-06-01 2004-01-31 아크조 노벨 엔.브이. 방향족 화합물의 수소화 방법
KR20050043472A (ko) * 2003-11-06 2005-05-11 한국전자통신연구원 고유음성 화자적응을 이용한 재귀적 화자적응 음성인식시스템 및 방법
KR20050063299A (ko) * 2003-12-22 2005-06-28 한국전자통신연구원 최대 사후 고유공간에 근거한 화자적응 방법
KR20050063986A (ko) * 2003-12-23 2005-06-29 한국전자통신연구원 고유음성 계수를 이용한 화자종속 음성인식 시스템 및 방법

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3700815A (en) * 1971-04-20 1972-10-24 Bell Telephone Labor Inc Automatic speaker verification by non-linear time alignment of acoustic parameters
JPS5722295A (en) * 1980-07-15 1982-02-05 Nippon Electric Co Speaker recognizing system
US5339385A (en) * 1992-07-22 1994-08-16 Itt Corporation Speaker verifier using nearest-neighbor distance measure
US5839103A (en) * 1995-06-07 1998-11-17 Rutgers, The State University Of New Jersey Speaker verification system using decision fusion logic
IL129451A (en) * 1999-04-15 2004-05-12 Eli Talmor System and method for authentication of a speaker
US7162641B1 (en) * 2000-06-13 2007-01-09 International Business Machines Corporation Weight based background discriminant functions in authentication systems
US7054811B2 (en) * 2002-11-06 2006-05-30 Cellmax Systems Ltd. Method and system for verifying and enabling user access based on voice parameters
US6957183B2 (en) * 2002-03-20 2005-10-18 Qualcomm Inc. Method for robust voice recognition by analyzing redundant features of source signal
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
US20070198262A1 (en) * 2003-08-20 2007-08-23 Mindlin Bernardo G Topological voiceprints for speaker identification

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0179280A2 (en) * 1984-10-26 1986-04-30 International Business Machines Corporation Nonlinear signal processing in a speech recognition system
KR20030061797A (ko) * 2000-09-08 2003-07-22 퀄컴 인코포레이티드 음성인식을 위하여 화자의존모드 및 화자독립모드에서dtw와 hmm의 결합
KR20020024742A (ko) * 2000-09-26 2002-04-01 김대중 비선형 방법에 의한 음성신호의 특징 추출 장치 및 그 방법
KR20040010663A (ko) * 2001-06-01 2004-01-31 아크조 노벨 엔.브이. 방향족 화합물의 수소화 방법
KR20050043472A (ko) * 2003-11-06 2005-05-11 한국전자통신연구원 고유음성 화자적응을 이용한 재귀적 화자적응 음성인식시스템 및 방법
KR20050063299A (ko) * 2003-12-22 2005-06-28 한국전자통신연구원 최대 사후 고유공간에 근거한 화자적응 방법
KR20050063986A (ko) * 2003-12-23 2005-06-29 한국전자통신연구원 고유음성 계수를 이용한 화자종속 음성인식 시스템 및 방법

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
10-2004-10663
10-2005-43472
10-2005-63299
10-2005-63986

Also Published As

Publication number Publication date
CA2492204A1 (en) 2006-01-26
US20060020458A1 (en) 2006-01-26
US20100145697A1 (en) 2010-06-10
SG119253A1 (en) 2006-02-28
KR20060009605A (ko) 2006-02-01

Similar Documents

Publication Publication Date Title
US8160877B1 (en) Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
Hu et al. Pitch‐based gender identification with two‐stage classification
KR100571574B1 (ko) 비선형 분석을 이용한 유사화자 인식방법 및 그 시스템
US8447614B2 (en) Method and system to authenticate a user and/or generate cryptographic data
Pawar et al. Review of various stages in speaker recognition system, performance measures and recognition toolkits
Almaadeed et al. Text-independent speaker identification using vowel formants
Eray et al. An application of speech recognition with support vector machines
Wiśniewski et al. Automatic detection of prolonged fricative phonemes with the hidden Markov models approach
Iwok et al. Evaluation of Machine Learning Algorithms using Combined Feature Extraction Techniques for Speaker Identification
Jadhav et al. Review of various approaches towards speech recognition
Salhi et al. Robustness of auditory teager energy cepstrum coefficients for classification of pathological and normal voices in noisy environments
Pati et al. A comparative study of explicit and implicit modelling of subsegmental speaker-specific excitation source information
Thirumuru et al. Application of non-negative frequency-weighted energy operator for vowel region detection
Nguyen et al. Vietnamese speaker authentication using deep models
Singh et al. Features and techniques for speaker recognition
Tashan et al. Speaker verification using heterogeneous neural network architecture with linear correlation speech activity detection
Alhanjouri et al. Robust speaker identification using denoised wave atom and GMM
Misra et al. Analysis and extraction of LP-residual for its application in speaker verification system under uncontrolled noisy environment
Chao et al. Vocal effort detection based on spectral information entropy feature and model fusion
Chaudhary Short-term spectral feature extraction and their fusion in text independent speaker recognition: A review
Devi et al. Automatic speaker recognition from speech signal using principal component analysis and artificial neural network
Cooper Speech detection using gammatone features and one-class support vector machine
Oo et al. Enhancement of Speaker Identification System Based on Voice Active Detection Techniques using Machine Learning
Wickramasinghe Replay detection in voice biometrics: an investigation of adaptive and non-adaptive front-ends
Angadi et al. Text-Dependent Speaker Recognition System Using Symbolic Modelling of Voiceprint

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110411

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee