KR100571831B1 - 음성 식별 장치 및 방법 - Google Patents
음성 식별 장치 및 방법 Download PDFInfo
- Publication number
- KR100571831B1 KR100571831B1 KR1020040008739A KR20040008739A KR100571831B1 KR 100571831 B1 KR100571831 B1 KR 100571831B1 KR 1020040008739 A KR1020040008739 A KR 1020040008739A KR 20040008739 A KR20040008739 A KR 20040008739A KR 100571831 B1 KR100571831 B1 KR 100571831B1
- Authority
- KR
- South Korea
- Prior art keywords
- frame
- voiced
- unvoiced
- pitch
- pitch contour
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000001755 vocal effect Effects 0.000 title description 3
- 230000003595 spectral effect Effects 0.000 claims abstract description 18
- 238000004364 calculation method Methods 0.000 claims abstract description 12
- 238000009432 framing Methods 0.000 claims abstract description 6
- 238000001228 spectrum Methods 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 5
- 230000007704 transition Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract description 3
- 241000282414 Homo sapiens Species 0.000 description 9
- 238000012360 testing method Methods 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 239000011521 glass Substances 0.000 description 2
- 210000002364 input neuron Anatomy 0.000 description 2
- 210000004205 output neuron Anatomy 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 206010011469 Crying Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Auxiliary Devices For Music (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
음성 식별 장치 및 방법이 개시된다. 본 발명의 음성 식별 장치는 입력 신호를 소정 길이의 프레임 단위로 분리하는 프레이밍부; 각 프레임별로 유성음 프레임인지 무성음 프레임인지의 여부를 결정하고, 프레임에 대해 피치 컨투어를 추출하는 피치 추출부; 각 프레임별로 프레임내에서의 영교차율을 계산하는 영교차율 계산부; 피치 추출부에서 결정된 유성음 프레임과 무성음 프레임의 시간 길이의 비, 상기 피치 컨투어에 대한 통계적인 정보 및 스펙트럴 특징들을 계산하는 파라미터 계산부; 및 영교차율과 파라미터 계산부에서 출력되는 파라미터들을 입력으로하여 상기 입력 신호가 음성인지의 여부를 판별하는 분류기를 포함함을 특징으로한다.
Description
도 1은 본 발명에 따른 음성 식별 장치에 대한 블록도를 도시한 것이다.
도 2는 LPC10 장치에 대한 상세 블록도를 도시한 것이다.
도 3a 및 도 3b는 12회의 테스트에 사용된 각 학습 세트 및 테스트 세트를 표로 나타낸 것이다.
도 4는 도 3a 및 도 3b에 도시된 바에 따라 실험한 결과를 표로 나타낸 것이다.
도 5는 신경망에 입력되는 9개의 입력 특징들중 각각에 대한 식별 성능을 도시한 것이다.
도 6은 유성음 프레임과 무성음 프레임이 혼합되어있는 경우 국부 V/U 시간 길이 비를 갱신하는 시간을 도시한 것이다.
도 6은 유성음 프레임과 무성음 프레임이 혼합되어있는 경우 국부 V/U 시간 길이 비를 갱신하는 시간을 도시한 것이다.
본 발명은 음성 식별 장치 및 방법에 관한 것으로, 특히 주변 환경의 여러 소리들로부터 음성을 식별하는 장치 및 방법에 관한 것이다.
음성 식별은 소리 인식(sound recognition) 분야에서 해결되어야하는 분야로서, 현재 연구가 활발히 진행되고있는 분야이다. 소리 인식은 주변 환경에서 발생 하는 소리, 예를 들어 인간으로부터 발생하는 소리, 주변 또는 자연에서 발생하는 소리 등을 포함한 소리의 의미를 자동으로 "이해하고자" 하는 것이다. 즉, 소리 인식은 음원이 무엇인지, 예를 들어 사람의 음성인지 또는 유리가 바닥에 부딪혀서 깨지는 것와 같은 충격음인지 등을 식별하는 것이다. 음원 식별을 기반으로하여 사람이 소리를 이해하는 것과 같은 시맨틱(semantic) 의미를 이해할 수 있게 된다. 따라서 소리 인식을 위해 음원을 식별하는 것이 중요하다.
소리 인식은 음성 인식보다 더 넓은 범위의 소리 분야를 다룬다. 왜냐하면 누구도 세상에 얼마만큼의 소리의 종류가 존재하는지를 알 수 없기 때문이다. 따라서 소리 인식은 응용분야 또는 개발될 소리 인식 시스템의 기능들과 밀접하게 관련되는 음원으로만 제한하여 다루게된다.
인식 대상의 소리에는 여러가지가 있다. 집에서 발생할 수 있는 소리를 예로 들면, 막대로 유리를 두드리는 소리에서부터 폭발음, 바닥에 동전 떨어지는 소리, 사람이 말하는 것과 같은 구두음(verbal sound), 사람의 웃음, 울음 또는 비명과 같은 비구두음(non-verbal sound), 사람의 움직임에 의해 발생되는 소리, 부엌, 화장실, 침실, 또는 각종 전기기기로부터 발생되는 소리까지 다양하게 존재한다.
이렇게 다양한 소리중에서 사람의 성대를 통해 발생되는 음성을 식별하는 장치 및 방법이 필요하다.
본 발명이 이루고자하는 기술적 과제는 입력 오디오 신호로부터 피치 컨투어(pitch contour) 정보 및 피치 컨투어 정보의 진폭 스펙트럼으로부터 여러 파라미터들을 추출하고, 추출된 파라미터들을 이용하여 음성과 비음성을 식별하는 장치 및 방법을 제공하는데 있다.
상기 기술적 과제를 이루기위한, 본 발명의 음성 식별 장치는 입력 신호를 소정 길이의 프레임 단위로 분리하는 프레이밍부; 각 프레임별로 유성음 프레임인지 무성음 프레임인지의 여부를 결정하고, 상기 프레임에 대해 피치 컨투어를 추출하는 피치 추출부; 각 프레임별로 프레임내에서의 영교차율을 계산하는 영교차율 계산부; 상기 피치 추출부에서 결정된 유성음 프레임과 무성음 프레임의 시간 길이의 비, 상기 피치 컨투어에 대한 통계적인 정보 및 스펙트럴 특징들을 계산하는 파라미터 계산부; 및 상기 영교차율과 상기 파라미터 계산부에서 출력되는 파라미터들을 입력으로하여 상기 입력 신호가 음성인지의 여부를 판별하는 분류기를 포함함을 특징으로한다.
상기 기술적 과제를 이루기위한, 본 발명의 음성 식별 방법은 입력 신호를 소정 길이의 프레임 단위로 분리하는 단계; 각 프레임별로 유성음 프레임인지 무음성 프레임인지의 여부를 결정하고, 상기 프레임에 대해 피치 컨투어를 추출하는 단계; 각 프레임별로 프레임내에서의 영교차율을 계산하는 단계; 상기 단계에서 결정된 유성음 프레임 및 무성음 프레임에 대한 시간 길이의 비, 상기 피치 컨투어에 대한 통계적인 정보 및 스펙트럴 특징들을 계산하는 단계; 및 상기 단계들에서 출력되는 각종 파라미터들로부터 상기 입력 신호가 음성인지의 여부를 판별하는 단계를 포함함을 특징으로한다.
이하에서 첨부된 도면을 참조하여 본 발명을 보다 상세하게 설명하기로한다.
도 1은 본 발명에 따른 음성 식별 장치에 대한 블록도를 도시한 것이다. 도시된 바에 따른 음성 식별 장치는 프레이밍(framing)부(11), 피치(pitch) 추출부(11), 영교차율(zero-cross rate) 계산부(12), 파라미터 계산부(13) 및 분류기(14)를 포함한다.
파라미터 계산부(13)는 스펙트럴 파라미터 계산부(131), 피치 컨투어(pitch contour) 정보 계산부(132) 및 유성음 프레임/무성음 프레임의 시간 길이 비(Voiced frame/Unvoiced frame time length ratio)계산부(133)를 구비한다.
프레이밍부(11)는 입력되는 오디오 신호를 프레임 단위로 분할한다. 여기서, 프레임은 짧은 구간 프레임(short-term frame)으로, 윈도우 처리되는 데이터 세그먼트를 말한다. 프레임의 윈도우 길이는 10ms~30ms이고, 적절하게는 20ms 정도이며 둘 이상의 피치 구간(pitch period)을 포함하는 정도의 길이이다. 프레이밍 과정은 프레임 길이의 50%~100% 범위의 프레임 스텝(frame step)으로 윈도우를 쉬프트(shift)하면서 이루어진다. 본 실시예에서의 프레임 스텝은 프레임 길이의 50%, 즉 10ms를 사용한다.
피치 추출부(11)는 프레임별로 피치를 추출한다. 피치 추출은 기존의 어떠한 종류의 피치 추출 방법도 사용할 수 있으며, 본 발명에서는 기존의 10차 선형 예측 부호화(Linear Predictive Coding, LPC10) 방법의 피치 트래커(pitch tracker)를 단순화하여 적용하였다. 이를 간단히 설명하면 다음과 같다. 도 2는 LPC10 장치에 대한 상세 블록도를 도시한 것이다. 먼저, 신호의 프레임에 해밍 윈도우(Hamming window, 21)가 적용된다. 대역통과 필터(22)는 해밍 윈도우(21)의 출력신호중 60~900Hz 대역의 신호를 통과시킨다. LPC 역변환 필터(LPC inverse filter, 23)는 대역통과된 신호에 대한 LPC 나머지 신호(residual sigal)를 출력한다. 자기상관부(auto-correlator, 24)는 나머지 신호를 자기상관하고, 자기상관 결과중 5개의 피크값들을 선택한다. V/U 결정부(25)는 대역통과 신호, 자기 상관 결과들 및 프레임별 나머지 신호의 피크값들을 이용하여 현재 프레임이 유성음 프레임인지 무성음 프레임인지를 결정한다. 피치 트래킹부(26)는 프레임에 대한 V/U결정 결과와 5개의 피크값들을 기반으로하여 동적 프로그래밍(dynamic programming) 방법으로 이전 3프레임에서부터 기본 주파수(fundamental frequency), 즉 피치를 트래킹한다. 최종적으로 유성음 프레임에서의 피치 트래킹 결과와 무성음 구간에 대해서는 피치를 0으로하여 연접(concatenation)함으로써 피치 컨투어를 추출한다.
영교차율 계산부(12)는 각 프레임별로 프레임에서의 영교차율을 계산한다.
파라미터 계산부(13)는 추출된 피치 컨투어를 기반으로하여 특징값들을 출력한다. 스펙트럴 파라미터 계산부(131)는 피치 추출부(11)에서 출력되는 피치 컨투어의 진폭 스펙트럼으로부터 스펙트럴 특징들을 계산한다. 스펙트럴 파라미터 계산부(131)는 피치 컨투어에 대해 매 0.3초마다 32-포인트 FFT를 수행하여 피치 컨투어의 진폭 스펙트럼으로부터 중심벡터(centroid), 대역폭 및 롤오프(roll-off) 주파수를 계산한다. 여기서, 롤오프 주파수는 피치 컨투어의 진폭 스펙트럼이 최대 파워에서 85%이하로 떨어지는 주파수를 나타낸다.
f(u)가 피치 컨투어의 진폭 스펙트럼에 대한 32-포인트 FFT 스펙트럼을 나타 낼 때, 중심벡터 C, 대역폭 B 및 롤오프 주파수 SRF는 각각 다음 식과 같이 계산될 수 있다.
피치 컨투어 정보 계산부(132)는 피치 컨투어의 평균(mean)과 분산(variance)을 계산한다. 피치 컨투어 정보는 새로운 신호가 입력될 때마다 또는 이전 신호가 종료되었을 때마다 초기화된다. 평균의 초기값은 첫번 째 프레임의 피치값으로 설정되고, 분산의 초기값은 첫번째 프레임의 피치값의 제곱으로 설정된다.
피치 컨투어 정보 계산부(132)는 초기화가 이루어지면, 피치 컨투어의 평균과 분산을 프레임 단위로 매 프레임 스텝, 본 실시예에서는 매 10ms 마다 다음 식과 같이 갱신한다.
여기서, u(Pt, t)는 t시간의 피치 컨투어에 대한 평균, N은 카운트되는 프레임 수, u2(Pt,t)는 평균의 제곱값, var(Pt,t)는 t시간의 피치 컨투어에 대한 분산을 나타낸다. Pt는 피치 컨투어로 유성음 프레임이면 피치값을 갖고, 무성음 프레임이면 0이다.
V/U 시간 길이 비 계산부(133)는 국부 V/U 시간 길이 비와 전체 V/U 시간 길이 비를 계산한다. 국부 V/U 시간 길이 비는 하나의 유성음 프레임에 대한 하나의 무성음 프레임의 시간 길이 비를 구하는 것이고, 전체 V/U 시간 길이 비는 전체 유성음 프레임들에 대한 전체 무성음 프레임들의 시간 길이 비를 구하는 것이다.
V/U 시간 길이 비 계산부(133)는 전체 V/U 시간 길이 비의 계산을 위해 유성음 프레임 및 무성음 프레임을 각각 누적하여 카운팅하는 전체 프레임 카운터(미도시)와 국부 V/U 시간 길이 비의 계산을 위해 각 프레임에 대해 유성음 프레임 및 무성음 프레임을 각각 카운팅하는 국부 프레임 카운터(미도시)를 구비한다.
전체 V/U 시간 길이 비는 새로운 신호가 입력될 때마다 또는 이전 신호 세그먼트가 종료될 때마다 전체 프레임 카운터를 리셋하여 초기화되고, 프레임 단위로 갱신된다. 여기서, 신호 세그먼트는 지속기간의 제한이 없이 배경음보다 큰 에너지를 갖는 신호를 말한다.
국부 V/U 시간 길이 비는 유성음 프레임이 종료되고 다음 무성음 프레임이 시작될 때, 국부 프레임 카운터를 리셋하여 초기화된다. 초기화가 이루어지면, 국부 V/U 시간 길이 비는 유성음 프레임과 유성음+무성음 프레임의 비에 의해 계산된다. 또한 국부 V/U 시간 길이 비는 유성음 프레임으로부터 무성음 프레임으로 전이(transfer)될 때마다 갱신된다.
도 6은 유성음 프레임과 무성음 프레임이 혼합되어있는 경우 국부 V/U 시간 길이 비를 갱신하는 시간을 도시한 것이다. 도시된 바에 따르면, V는 유성음 프레임이고, U는 무성음 프레임을 나타낸다. 참조번호 60은 국부 V/U 시간 길이 비가 갱신되는 시점, 즉, 유성음 프레임에서 무성음 프레임으로 전이되는 시점을 나타낸다. 참조번호 61은 무성음 시간 길이가 갱신되는 시점을 나타내고, 62는 유성음 시간 길이를 카운트하기를 기다리는 시점을 나타낸다.
V/U의 전체 V/U 시간 길이 비인 V/U_GTLR는 다음 식과 같이 구해진다.
여기서, NV는 유성음 프레임 수, NU는 무성음 프레임 수이다.
분류기(14)는 스펙트럴 파라미터 계산부(131), 피치 컨투어 정보 계산부(132), V/U 시간 길이 비 계산부(133) 및 영교차율 계산부(12)에서 출력되는 각종 파라미터들을 입력으로하여 입력 오디오 신호가 최종적으로 음성인지 아닌지를 판정한다.
이 때, 분류기(14)는 입력측에 동기화부(미도시)를 더 구비할 수도 있다. 동기화부는 분류기에 입력되는 파라미터들을 동기화시킨다. 동기화는 각 파라미터들이 갱신되는 시간이 서로 다르기 때문에 필요할 수 있다. 예를 들어, 영교차율, 피치 컨투어의 평균 및 분산값, 그리고 전체 V/U 시간 길이 비는 매 10ms마다 갱신되고, 피치 컨투어의 진폭 스펙트럼에 대한 스펙트럴 파라미터들은은 매 0.3초마다 갱신된다. 국부 V/U 시간 길이 비는 유성음 프레임에서 무성음 프레임으로 전이될 때마다 랜덤하게 갱신된다. 따라서 현재 분류기의 입력측에 새로운 값이 갱신되지않았다면, 대기모드 상태에서 이전 값들이 입력값으로 제공되고 새로운 값이 들어오면 각 파라미터의 동기를 맞추어서 새로운 입력값으로 제공한다.
분류기(14)로는 신경망(neural network)이 적절하다. 본 실시예에서는 입력 뉴론이 9개이고 출력 뉴론이 1개인 피드 포워드 다층 퍼셉트론(feed-forward multi-layer perceptron)이 사용된다. 중간층들은, 예를 들어 첫번째 층은 5개의 뉴론, 두번째 층은 2개의 뉴론들을 구비하는 것으로 선택될 수 있다. 신경회로망은 이미 알고있는 유성음 신호로부터 추출된 9개의 파라미터들을 입력으로하여 유성음 신호로 분류하도록 미리 학습한다. 학습이 완료되면, 식별하고자하는 오디오 신호로부터 추출된 9개의 파라미터들을 입력으로하여, 오디오 신호가 유성음인지의 여부를 판별한다. 신경망의 출력값은 현재 신호가 유성음인지 아닌지에 대한 사후 확률(posterior probability)을 나타낸다. 예를 들어서 사후 확률에 대한 평균 결정 값을 0.5라고 한다면, 0.5보다 크거나 같은 사후확률에 대해서는 유성음으로 작은 사후확률에 대해서는 유성음이 아닌 다른 소리로 판단한다.
표 1 21개의 21개의 소리 효과(sound effect) CD들과 RWCP(Real World Computing Partnership) 데이터베이스로부터 수집한 주변 환경 소리 인식 데이터베이스를 기초로 실험한 결과를 나타낸 것이다. 데이터 세트의 조건은 모노 톤이고, 샘플링 비는 16이며 데이터 크기는 16비트이다. 영어, 불어, 스페인어, 러시아어 등을 포함한 다양한 언어로 대화, 읽기, 방송 등을 포함한 남자의 말소리에 대해 단어 하나에서부터 수 분에 달하는 긴 독백까지 200개 이상의 토큰(token)을 얻은 것이다.
내용 | 토큰 | |
방송 | 50 | |
불어 방송 | 10 | |
대화 | 영어 | 50 |
불어 | 20 | |
스페인어 | 10 | |
이탈리아어 | 5 | |
일본어 | 2 | |
독일어 | 2 | |
러시아어 | 2 | |
헝가리어 | 2 | |
유대어 | 2 | |
광동어 | 2 | |
말소리 | 60 |
여기서, 방송은 뉴스, 날씨, 교통, 상업광고, 스포츠 등을 포함하고, 불어 방송은 뉴스와 날씨를 포함한 것이다. 말소리는 법정, 교회, 경찰서, 병원, 카지노, 영화, 간호, 교통 등과 관련한 상황에서 발생하는 것들을 포함한다.
표 2는 여자의 말소리에 대해 얻은 200개 이상의 토큰을 도시한 것이다.
내용 | 토큰 | |
방송 | 30 | |
다른 언어로 뉴스 방송 | 16 | |
대화 | 영어 | 70 |
이탈리아어 | 10 | |
스페인어 | 20 | |
러시아어 | 7 | |
불어 | 8 | |
스웨덴어 | 2 | |
독일어 | 2 | |
중국어(Mandarin) | 3 | |
일본어 | 2 | |
아랍어 | 1 | |
말소리 | 50 |
여기서,뉴스 방송언어로는 이탈리아어, 중국어, 스페인어, 러시아어 등을 포함한 것이고, 말소리는 경찰서, 영화, 교통, 콜 센터(call center) 등과 관련한 상황에서 발생하는 것들을 포함한다.
사람의 소리가 아닌 다른 소리들은 가정에서의 가구, 전자기기, 실용품(utilities) 등을 포함한 음원으로부터 발생하거나 각종 충격음 또는 발소리나 사지 운동(limb movement) 등에 의해 발생되는 소리들을 포함한다.
다음 표는 실험 사용된 데이터의 전체 크기를 나타낸 것이다.
남자 말소리 | 여자 말소리 | 다른 소리 | |
토큰 | 217 | 221 | 4000 |
프레임 | 9e4 | 9e4 | 8e5 |
시간 | 1h | 1h | 8h |
실험은 학습 세트(training set)와 테스트 세트(test set)를 서로 다르게 하여 진행되었다. 도 3a 및 도 3b는 12회의 테스트에 사용된 각 학습 세트 및 테스트 세트를 표로 나타낸 것이다. 도면에서 신경망 크기는 중간층을 두 층으로 하였을 때의 입력 뉴론 수, 첫번째 중간층 뉴론 수, 두번째 중간 층 뉴론 수 및 출력 뉴론 수를 나타낸다.
도 4는 도 3a 및 도 3b에 도시된 바에 따라 실험한 결과를 표로 나타낸 것이다. 도면에서 오경보율은 테스트 신호가 음성이 아닌데 음성으로 판별한 경우를 말한다.
도시된 바에 따르면, 7번의 테스트가 가장 좋은 성능을 보임을 알 수 있다. 1번 테스트에서는 1000개의 사람의 음성 샘플과 2000개의 다른 소리 샘플로 신경망을 학습시킨 결과 충분치 못한 음성 식별 성능을 보임을 알 수 있다. 학습 샘플이 10000 내지 80000개 정도인 다른 테스트 결과들은 비슷한 유성 식별 성능을 보임을 알 수 있다.
도 5는 신경망에 입력되는 9개의 입력 특징들중 각각에 대한 식별 성능을 도시한 것이다. 도면에서 ZCR은 영교차율, PIT는 프레임의 피치, PIT_MEA는 피치 컨투어의 평균, PIT_VAR은 피치 컨투어의 분산, PIT_VTR은 전체 V/U 시간 길이 비, PIT_ZKB는 국부 V/U 시간 길이 비, PIT_SPE_CEN은 피치 컨투어의 진폭 스펙트럼의 중심 벡터, PIT_SPEC_BAN은 피치 컨투어의 진폭 스펙트럼의 대역폭, PIT_SPEC_ROF는 피치 컨투어의 진폭 스펙트럼의 롤오프 주파수를 나타낸다. 도시된 바에 따르면, PIT와 PIT_VTR에 대해 가장 좋은 성능을 보임을 알 수 있다.
본 발명에 따르면, 피치 컨투어 정보외에 피치 컨투어 정보의 진폭 스펙트럼으로부터 중심벡터, 대역폭 및 롤오프 주파수를 추출하여 분류기의 입력으로 사용함으로써 스피치 뿐 만 아니라 웃음, 울음과 같이 성대를 통해 생성되는 음성에 대해 보다 향성된 식별 성능을 얻을 수 있다. 따라서 사무실, 가정 등의 보안 시스템에 사용할 수 있고, 음성 인식의 경우 피치 정보를 사용하여 스피치의 시작을 감지하는 전처리에 사용할 수도 있다. 또한 통신에서 음성과 다른 소리를 식별하는 음성 교환기로 사용할 수도 있다.
Claims (21)
- 입력 신호를 소정 길이의 프레임 단위로 분리하는 프레이밍부;각 프레임별로 유성음 프레임인지 무성음 프레임인지의 여부를 결정하고, 상기 프레임에 대해 피치 컨투어를 추출하는 피치 추출부;각 프레임별로 프레임내에서의 영교차율을 계산하는 영교차율 계산부;상기 피치 추출부에서 결정된 유성음 프레임과 무성음 프레임의 시간 길이의 비, 상기 피치 컨투어에 대한 통계적인 정보 및 스펙트럴 특징들을 계산하는 파라미터 계산부; 및상기 영교차율과 상기 파라미터 계산부에서 출력되는 파라미터들을 입력으로하여 상기 입력 신호가 음성인지의 여부를 판별하는 분류기를 포함함을 특징으로하는 음성 식별 장치.
- 제1항에 있어서, 상기 파라미터 계산부는상기 유성음 프레임의 시간 길이 및 무성음 프레임의 시간 길이를 각각 구하고, 그 비를 계산하는 유성음 프레임/무성음 프레임의 시간 길이 비 계산부;상기 피치 컨투어에 대한 평균 및 분산을 포함하는 통계적인 정보를 계산하는 피치 컨투어 정보 계산부; 및상기 피치 컨투어의 진폭 스펙트럼에 대한 스펙트럴 특징들을 계산하는 스펙트럴 파라미터 계산부를 포함함을 특징으로하는 음성 식별 장치.
- 제2항에 있어서, 상기 유성음 프레임/무성음 프레임의 시간 길이 비 계산부는하나의 유성음 프레임에 대한 하나의 무성음 프레임의 시간 길이 비인 국부 유성음 프레임/무성음 프레임 시간 길이 비와 전체 유성음 프레임들에 대한 전체 무성음 프레임들의 시간 길이 비인 전체 유성음 프레임/무성음 프레임 시간 길이 비를 구하는 기능을 구비함을 특징으로하는 음성 식별 장치.
- 제3항에 있어서, 상기 유성음 프레임/무음성 프레임의 시간 길이 비 계산부는전체 프레임 카운터 및 국부 프레임 카운터를 구비하고, 새로운 신호가 입력될 때마다 또는 이전 신호 세그먼트가 종료될 때마다 상기 전체 프레임 카운터를 리셋하고, 유성음 프레임에서 무성음 프레임으로 전이될 때마다 상기 국부 프레임 카운터를 리셋하는 기능을 구비함을 특징으로하는 음성 식별 장치
- 제3항에 있어서, 상기 음성 프레임/무음성 프레임의 시간 길이 비 계산부는매 프레임마다 전체 유성음/무성음 시간 길이 비를 갱신하고, 유성음 프레임에서 무성음 프레임으로 전이될 때마다 국부 유성음/무성음 시간 길이 비를 갱신하는 것을 특징으로하는 음성 식별 장치.
- 제2항에 있어서, 상기 피치 컨투어 정보 계산부는새로운 신호가 입력될 때마다 또는 이전 신호 세그먼트가 종료되었을 때마다 상기 피치 컨투어의 평균과 분산을 초기화하는 기능을 구비함을 특징으로하는 음성 식별 장치.
- 제6항에 있어서, 상기 피치 컨투어 정보 계산부는상기 피치 컨투어의 평균 및 분산의 초기화를 각각 첫번 째 프레임의 피치값과 첫번째 프레임의 피치값을 제곱하여 수행하는 기능을 구비함을 특징으로하는 음성 식별 장치.
- 제1항에 있어서, 상기 분류기는복수의 층과 각 층에 복수의 뉴론을 구비하여 음성신호를 판별하도록 미리 학습한 결과를 기반으로하여, 상기 영교차율 계산부 및 상기 파라미터 계산부로부터 출력되는 파라미터들로부터 상기 입력신호가 음성인지의 여부를 판별하는 신경 망임을 특징으로하는 음성 식별 장치.
- 제11항에 있어서, 상기 분류기는상기 파라미터들의 동기를 맞추기위한 동기화부를 입력측에 더 구비함을 특징으로하는 음성 식별 장치.
- 입력 신호를 소정 길이의 프레임 단위로 분리하는 단계;각 프레임별로 유성음 프레임인지 무음성 프레임인지의 여부를 결정하고, 상기 프레임에 대해 피치 컨투어를 추출하는 단계;각 프레임별로 프레임내에서의 영교차율을 계산하는 단계;상기 단계에서 결정된 유성음 프레임 및 무성음 프레임에 대한 시간 길이의 비, 상기 피치 컨투어에 대한 통계적인 정보 및 스펙트럴 특징들을 계산하는 단계; 및상기 단계들에서 출력되는 각종 파라미터들로부터 상기 입력 신호가 음성인지의 여부를 판별하는 단계를 포함함을 특징으로하는 음성 식별 방법.
- 제12항에 있어서, 상기 유성음 프레임 및 무성음 프레임에 대한 시간 길이의 비의 계산은하나의 유성음 프레임에 대한 하나의 무성음 프레임의 시간 길이 비인 국부 유성음 프레임/무성음 프레임 시간 길이 비와 전체 유성음 프레임들에 대한 전체 무성음 프레임들의 시간 길이 비인 전체 유성음 프레임/무성음 프레임 시간 길이 비를 계산하는 것을 특징으로하는 음성 식별 방법.
- 제13항에 있어서,새로운 신호가 입력될 때마다 또는 이전 신호 세그먼트가 종료될 때마다 상기 전체 유성음/무성음 프레임 시간 길이 비의 계산을 위해 누적되어 카운팅되는 유성음 프레임 및 무성음 프레임 수를 리셋하고,유성음 프레임에서 무성음 프레임으로 전이될 때마다 상기 국부 유성음/무성음 프레임 시간 길이 비의 계산을 위해 누적되어 카운팅되는 유성음 프레임 및 무성음 프레임 수를 리셋함을 특징으로하는 음성 식별 방법.
- 제14항에 있어서,상기 전체 유성음/무성음 시간 길이 비를 매 프레임마다 갱신하고, 상기 국부 유성음/무성음 시간 길이 비를 유성음 프레임에서 무성음 프레임으로 전이될 때마다 갱신함을 특징으로하는 음성 식별 방법.
- 제12항에 있어서, 상기 피치 컨투어 정보는새로운 신호가 입력될 때마다 또는 이전 신호 세그먼트가 종료되었을 때마다 상기 피치 컨투어의 평균과 분산이 초기화됨을 특징으로하는 음성 식별 방법.
- 제16항에 있어서,상기 피치 컨투어의 평균 및 분산의 초기화는 각각 첫번 째 프레임의 피치값과 첫번째 프레임의 피치값을 제곱하여 이루어짐을 특징으로하는 음성 식별 방법.
- 제12항에 있어서, 상기 음성으로 판별하는 단계는소정 음성신호들로부터 상기 영교차율, 유성음 프레임 및 무성음 프레임에 대한 시간 길이의 비, 피치 컨투어에 대한 통계적인 정보 및 스펙트럴 특징들을 포함하는 파라미터들을 추출하는 단계;추출된 파라미터들을 소정 크기의 신경망의 입력으로하여 음성신호로 분류하도록 상기 신경망을 학습시키는 단계;상기 입력 신호에 대한 영교차율, 유성음 프레임 및 무성음 프레임에 대한 시간 길이의 비, 피치 컨투어에 대한 통계적인 정보 및 스펙트럴 특징들을 포함하는 파라미터들을 추출하는 단계;추출된 파라미터들을 학습이 완료된 신경망에 입력하는 단계; 및상기 신경망의 출력을 소정 기준값과 비교하여 상기 입력신호가 음성인지를 판별하는 단계를 구비함을 특징으로하는 음성 식별 방법.
- 제12항에 있어서, 상기 음성으로 판별하는 단계는상기 각종 파라미터들의 동기를 맞추는 단계를 더 구비함을 특징으로하는 음성 식별 방법.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040008739A KR100571831B1 (ko) | 2004-02-10 | 2004-02-10 | 음성 식별 장치 및 방법 |
CN2005100082248A CN1655234B (zh) | 2004-02-10 | 2005-02-06 | 用于区别口声和其它声音的装置和方法 |
US11/051,475 US8078455B2 (en) | 2004-02-10 | 2005-02-07 | Apparatus, method, and medium for distinguishing vocal sound from other sounds |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040008739A KR100571831B1 (ko) | 2004-02-10 | 2004-02-10 | 음성 식별 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20050080648A KR20050080648A (ko) | 2005-08-17 |
KR100571831B1 true KR100571831B1 (ko) | 2006-04-17 |
Family
ID=34858690
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020040008739A KR100571831B1 (ko) | 2004-02-10 | 2004-02-10 | 음성 식별 장치 및 방법 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8078455B2 (ko) |
KR (1) | KR100571831B1 (ko) |
CN (1) | CN1655234B (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013141638A1 (ko) * | 2012-03-21 | 2013-09-26 | 삼성전자 주식회사 | 대역폭 확장을 위한 고주파수 부호화/복호화 방법 및 장치 |
CN104916288A (zh) * | 2014-03-14 | 2015-09-16 | 深圳Tcl新技术有限公司 | 一种音频中人声突出处理的方法及装置 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727904B (zh) * | 2008-10-31 | 2013-04-24 | 国际商业机器公司 | 语音翻译方法和装置 |
WO2013149188A1 (en) | 2012-03-29 | 2013-10-03 | Smule, Inc. | Automatic conversion of speech into song, rap or other audible expression having target meter or rhythm |
TWI485697B (zh) * | 2012-05-30 | 2015-05-21 | Univ Nat Central | Environmental sound recognition method |
US9263059B2 (en) | 2012-09-28 | 2016-02-16 | International Business Machines Corporation | Deep tagging background noises |
US9459768B2 (en) | 2012-12-12 | 2016-10-04 | Smule, Inc. | Audiovisual capture and sharing framework with coordinated user-selectable audio and video effects filters |
CN104464746A (zh) * | 2013-09-12 | 2015-03-25 | 索尼公司 | 语音滤波方法、装置以及电子设备 |
US9805739B2 (en) | 2015-05-15 | 2017-10-31 | Google Inc. | Sound event detection |
US9965685B2 (en) * | 2015-06-12 | 2018-05-08 | Google Llc | Method and system for detecting an audio event for smart home devices |
CN111145763A (zh) * | 2019-12-17 | 2020-05-12 | 厦门快商通科技股份有限公司 | 一种基于gru的音频中的人声识别方法及系统 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4802221A (en) * | 1986-07-21 | 1989-01-31 | Ncr Corporation | Digital system and method for compressing speech signals for storage and transmission |
IT1229725B (it) * | 1989-05-15 | 1991-09-07 | Face Standard Ind | Metodo e disposizione strutturale per la differenziazione tra elementi sonori e sordi del parlato |
US5487153A (en) * | 1991-08-30 | 1996-01-23 | Adaptive Solutions, Inc. | Neural network sequencer and interface apparatus |
JP3277398B2 (ja) * | 1992-04-15 | 2002-04-22 | ソニー株式会社 | 有声音判別方法 |
AU5547794A (en) * | 1992-11-02 | 1994-05-24 | Boston University | Neural networks with subdivision |
JPH06332492A (ja) * | 1993-05-19 | 1994-12-02 | Matsushita Electric Ind Co Ltd | 音声検出方法および検出装置 |
US6463406B1 (en) * | 1994-03-25 | 2002-10-08 | Texas Instruments Incorporated | Fractional pitch method |
US5596679A (en) * | 1994-10-26 | 1997-01-21 | Motorola, Inc. | Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs |
US5751905A (en) * | 1995-03-15 | 1998-05-12 | International Business Machines Corporation | Statistical acoustic processing method and apparatus for speech recognition using a toned phoneme system |
JPH08254993A (ja) * | 1995-03-16 | 1996-10-01 | Toshiba Corp | 音声合成装置 |
US6377919B1 (en) * | 1996-02-06 | 2002-04-23 | The Regents Of The University Of California | System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech |
US6026357A (en) * | 1996-05-15 | 2000-02-15 | Advanced Micro Devices, Inc. | First formant location determination and removal from speech correlation information for pitch detection |
JP3006677B2 (ja) * | 1996-10-28 | 2000-02-07 | 日本電気株式会社 | 音声認識装置 |
US5913194A (en) * | 1997-07-14 | 1999-06-15 | Motorola, Inc. | Method, device and system for using statistical information to reduce computation and memory requirements of a neural network based speech synthesis system |
JPH11275205A (ja) * | 1998-01-16 | 1999-10-08 | Koninkl Philips Electronics Nv | 自動ダイヤル用音声コマンドシステム |
US6188981B1 (en) * | 1998-09-18 | 2001-02-13 | Conexant Systems, Inc. | Method and apparatus for detecting voice activity in a speech signal |
GB9902115D0 (en) * | 1999-02-01 | 1999-03-24 | Axeon Limited | Neural networks |
US6556967B1 (en) * | 1999-03-12 | 2003-04-29 | The United States Of America As Represented By The National Security Agency | Voice activity detector |
US6917912B2 (en) * | 2001-04-24 | 2005-07-12 | Microsoft Corporation | Method and apparatus for tracking pitch in audio analysis |
US20030216909A1 (en) * | 2002-05-14 | 2003-11-20 | Davis Wallace K. | Voice activity detection |
US20040030555A1 (en) * | 2002-08-12 | 2004-02-12 | Oregon Health & Science University | System and method for concatenating acoustic contours for speech synthesis |
US7933226B2 (en) * | 2003-10-22 | 2011-04-26 | Palo Alto Research Center Incorporated | System and method for providing communication channels that each comprise at least one property dynamically changeable during social interactions |
US20050091044A1 (en) * | 2003-10-23 | 2005-04-28 | Nokia Corporation | Method and system for pitch contour quantization in audio coding |
EP1531478A1 (en) * | 2003-11-12 | 2005-05-18 | Sony International (Europe) GmbH | Apparatus and method for classifying an audio signal |
-
2004
- 2004-02-10 KR KR1020040008739A patent/KR100571831B1/ko not_active IP Right Cessation
-
2005
- 2005-02-06 CN CN2005100082248A patent/CN1655234B/zh not_active Expired - Fee Related
- 2005-02-07 US US11/051,475 patent/US8078455B2/en not_active Expired - Fee Related
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013141638A1 (ko) * | 2012-03-21 | 2013-09-26 | 삼성전자 주식회사 | 대역폭 확장을 위한 고주파수 부호화/복호화 방법 및 장치 |
US9378746B2 (en) | 2012-03-21 | 2016-06-28 | Samsung Electronics Co., Ltd. | Method and apparatus for encoding and decoding high frequency for bandwidth extension |
US9761238B2 (en) | 2012-03-21 | 2017-09-12 | Samsung Electronics Co., Ltd. | Method and apparatus for encoding and decoding high frequency for bandwidth extension |
US10339948B2 (en) | 2012-03-21 | 2019-07-02 | Samsung Electronics Co., Ltd. | Method and apparatus for encoding and decoding high frequency for bandwidth extension |
CN104916288A (zh) * | 2014-03-14 | 2015-09-16 | 深圳Tcl新技术有限公司 | 一种音频中人声突出处理的方法及装置 |
CN104916288B (zh) * | 2014-03-14 | 2019-01-18 | 深圳Tcl新技术有限公司 | 一种音频中人声突出处理的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN1655234A (zh) | 2005-08-17 |
US8078455B2 (en) | 2011-12-13 |
CN1655234B (zh) | 2012-01-25 |
KR20050080648A (ko) | 2005-08-17 |
US20050187761A1 (en) | 2005-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nagrani et al. | Voxceleb: a large-scale speaker identification dataset | |
CN106251874B (zh) | 一种语音门禁和安静环境监控方法及系统 | |
Wang et al. | Multi-format contrastive learning of audio representations | |
CN105938716B (zh) | 一种基于多精度拟合的样本复制语音自动检测方法 | |
US5621857A (en) | Method and system for identifying and recognizing speech | |
CN102723078A (zh) | 基于自然言语理解的语音情感识别方法 | |
KR100571831B1 (ko) | 음성 식별 장치 및 방법 | |
Kim et al. | Hierarchical approach for abnormal acoustic event classification in an elevator | |
CN113239903B (zh) | 一种跨模态唇读的对抗性双重对比自监督学习方法 | |
Barker et al. | Speech fragment decoding techniques for simultaneous speaker identification and speech recognition | |
Gazeau et al. | Automatic spoken language recognition with neural networks | |
Shao et al. | Stream weight estimation for multistream audio–visual speech recognition in a multispeaker environment | |
Al-Banna et al. | Stuttering detection using atrous convolutional neural networks | |
Ismail et al. | Dialect identification of assamese language using spectral features | |
Roy et al. | Learning words from natural audio-visual input. | |
CN112185357A (zh) | 一种同时识别人声和非人声的装置及方法 | |
Nandwana et al. | A new front-end for classification of non-speech sounds: a study on human whistle | |
Barker et al. | Energetic and informational masking effects in an audiovisual speech recognition system | |
Rentzeperis et al. | The 2006 athens information technology speech activity detection and speaker diarization systems | |
Jamil et al. | Influences of age in emotion recognition of spontaneous speech: A case of an under-resourced language | |
Moriya et al. | Multimodal speaker adaptation of acoustic model and language model for ASR using speaker face embedding | |
Teja et al. | A Novel Approach in the Automatic Generation of Regional Language Subtitles for Videos in English | |
CN113963694B (zh) | 一种语音识别方法、语音识别装置、电子设备及存储介质 | |
Priya et al. | Design of Anti-Stuttering Device with Silence Ejection Speech algorithm using Arduino | |
CN113611326B (zh) | 一种实时语音情感识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130318 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20140325 Year of fee payment: 9 |
|
LAPS | Lapse due to unpaid annual fee |