KR101254876B1

KR101254876B1 - 노이즈 게이트, 수음 장치 및 노이즈 제거 방법

Info

Publication number: KR101254876B1
Application number: KR1020117011535A
Authority: KR
Inventors: 료 다나까; 나오또 구리야마
Original assignee: 야마하 가부시키가이샤
Priority date: 2008-11-21
Filing date: 2009-11-18
Publication date: 2013-04-15
Also published as: EP2352148A1; CN102216984B; WO2010058804A1; US9036830B2; KR20110082176A; EP2352148A4; US20110268288A1; CN102216984A; JP2010122617A; EP2352148B1

Abstract

화자의 발화 음성을 열화시키지 않고, 정상 노이즈만을 제거한 음성 신호를 출력할 수 있는 노이즈 게이트를 제공하는 것에 있다. 수음 장치(1)는, FFT 처리부(11), 노이즈 게이트(12) 및 IFFT 처리부(13)를 구비한다. 수음 장치(1)는, 수음한 음성 신호(NE'T)를 FFT 처리부(11)에 의해 주파수 스펙트럼(NE'N)으로 변환한다. 노이즈 게이트(12)는 음성 신호의 주파수 스펙트럼(NE'N)에 기초하여 정상 노이즈의 노이즈 스펙트럼(N'N)을 추정한다. 노이즈 게이트(12)는, 음성 신호의 주파수 스펙트럼(NE'N)과 노이즈 스펙트럼(N'N)의 신호 레벨비가 임계값 미만인 경우에는 음성 신호의 신호 레벨(게인)을 저감하여 출력한다. 수음 장치(1)는, 정상 노이즈(N'N)를 제거한 후의 주파수 스펙트럼(CO'N)을 IFFT 처리부(13)에 의해 역변환하여 생성한 음성 신호(CO'T)를 출력한다.

Description

노이즈 게이트, 수음 장치 및 노이즈 제거 방법 {NOISE GATE, SOUND COLLECTION DEVICE, AND NOISE REMOVAL METHOD}

본 발명은, 음성 신호에 포함되는 노이즈를 제거하는 노이즈 게이트, 수음 장치 및 노이즈 제거 방법에 관한 것이다.

종래, 수음 장치에서는, 노이즈를 제거하는 수단으로서 노이즈 게이트를 설치하고 있다(예를 들어, 특허문헌 1 참조).

예를 들어, 특허문헌 1에 기재된 노이즈 게이트 장치에서는, 음성 신호의 증폭을 행하는 헤드 증폭기의 증폭도에 따라 노이즈 게이트의 임계값을 변경하여, 임계값 미만의 음성 신호를 제거하고 있다.

일본 특허 공개 제2006-50067호 공보

그러나 특허문헌 1에 기재된 노이즈 게이트 장치에서는, 임계값 미만의 음성 신호를 제거하기 때문에, 화자의 발화 음성이 임계값 미만의 음성 신호에 포함되어 있는 경우, 신호 레벨이 임계값 미만인 발화 음성이 제거되어 버린다는 문제가 발생한다.

따라서, 본 발명은, 음성 신호를 열화시키지 않고, 정상적인 노이즈를 간단히 제거할 수 있는 노이즈 게이트, 수음 장치 및 노이즈 제거 방법을 제공한다.

본 발명의 노이즈 게이트는, 입력된 음성 신호의 주파수 스펙트럼에 기초하여, 상기 음성 신호에 포함되는 정상적인 노이즈(이하, 정상 노이즈라고 칭한다)의 노이즈 스펙트럼을 추정한다. 노이즈 게이트는, 입력된 음성 신호의 주파수 스펙트럼과, 추정한 노이즈 스펙트럼의 신호 레벨비를 산출한다. 노이즈 게이트는, 산출한 신호 레벨비가 소정의 임계값 미만인 주파수 대역의 신호 레벨을 내린 상기 음성 신호의 주파수 스펙트럼을 출력한다.

이에 의해, 노이즈 게이트는, 화자의 발화 음성을 포함하는 음성 신호의 주파수 스펙트럼을 출력하여, 정상 노이즈로 이루어지는 음성 신호의 주파수 스펙트럼의 신호 레벨을 저감하기 때문에, 화자의 발화 음성을 열화시키지 않고, 정상 노이즈만을 제거한 음성 신호를 출력할 수 있다.

또한, 임계값은, 신호 레벨비가 1이 되는 값보다 추정 수단의 추정 오차에 대응하는 값만큼 크게 설정해도 좋다. 노이즈 게이트는, 임계값과 비교하는 신호 레벨비를, 추정한 정상 노이즈를 사용하여 산출하고 있기 때문에, 정상 노이즈의 추정 오차를 고려하기 위해서이다.

이에 의해, 노이즈 게이트는, 정상 노이즈의 신호 레벨이 실제보다 작은 값으로 추정된 경우에도 정상 노이즈를 제거할 수 있다.

또한, 본 발명의 수음 장치는, 상술한 노이즈 게이트를 구비한다. 수음 장치는, 음성을 수음하여 생성한 음성 신호를 주파수 영역의 신호인 주파수 스펙트럼으로 변환하여, 노이즈 게이트에 출력한다. 또한, 수음 장치는, 노이즈 게이트로부터 출력된 음성 신호의 주파수 스펙트럼을 시간 영역의 신호인 음성 신호로 역변환한다.

이에 의해, 수음 장치는, 상술한 노이즈 게이트를 사용함으로써, 수음한 음성 신호로부터 정상 노이즈를 제거할 수 있다. 이로 인해, 수음 장치는, 수음한 화자의 발화 음성을 열화시키지 않고, 방음(放音)할 수 있다.

본 발명에 따르면, 음성 신호의 주파수 스펙트럼을 입력하는 공정과, 상기 입력에 의해 입력된 음성 신호의 주파수 스펙트럼에 기초하여, 노이즈 스펙트럼을 추정하는 공정과, 상기 음성 신호의 주파수 스펙트럼과, 상기 추정 공정에 의해 추정된 노이즈 스펙트럼의 신호 레벨비를 산출하는 공정과, 상기 산출 공정에 의해 산출된 신호 레벨비가 소정의 임계값 미만인 주파수 대역의 게인을 내린 상기 음성 신호의 주파수 스펙트럼을 출력하는 공정을 구비한 노이즈 제거 방법을 제공한다.

또한, 상기 임계값은, 상기 신호 레벨비가 1이 되는 값보다 상기 추정 공정에서 사용되는 추정부의 추정 오차에 대응하는 값만큼 크게 설정된다.

본 발명의 노이즈 게이트는, 화자의 발화 음성을 열화시키지 않고, 정상 노이즈만을 제거한 음성 신호를 출력할 수 있다.

도 1은 수음 장치의 기능, 구성을 도시하는 블록도이다.
도 2는 게인 테이블의 일례를 나타내는 도면이다.
도 3의 (A) 내지 (C)는, 정상 노이즈, 음성 신호 및 노이즈 제거 후의 음성 신호의 일례를 나타내는 도면이다.
도 4는 게인 테이블의 다른 예를 나타내는 도면이다.

본 발명에 관한 수음 장치(1)에 대하여, 도 1, 도 2를 참조하여 설명한다. 도 1은, 수음 장치의 기능, 구성을 도시하는 블록도이다. 도 2는, 게인 테이블의 일례를 나타내는 도면이다. 수음 장치(1)는, 노이즈 게이트(12)(도 1 참조)를 구비한다. 수음 장치(1)는, 수음한 음성 신호(NE'T)를 주파수 스펙트럼(NE'N)으로 변환한다. 수음 장치(1)는, 노이즈 게이트(12)에 의해 음성 신호(NE'N)에 포함되는 정상 노이즈(N'N)를 제거한다. 이때, 정상 노이즈(N'N)는, 노이즈 게이트(12)에 의해 주파수 스펙트럼(NE'N)에 기초하여 추정된다. 수음 장치(1)는, 정상 노이즈(N'N)를 제거한 후의 주파수 스펙트럼(CO'N)을 시간축으로 역변환하여 생성한 음성 신호(CO'T)를 출력한다. 또한, 이하의 설명에서는, 시간 영역의 신호는 말단의 기호를 'T로 나타내고, 주파수 영역의 신호는 말단의 기호를 'N으로 나타낸다.

우선, 수음 장치(1)의 기능, 구성에 대하여, 도 1, 도 2를 참조하여 설명한다. 도 1에 도시한 바와 같이, 수음 장치(1)는, 마이크(MIC), FFT 처리부(11), 노이즈 게이트(12) 및 IFFT 처리부(13)를 구비한다.

마이크(MIC)는, 주위의 음성을 수음하여 음성 신호를 생성한다. 마이크(MIC)는, 생성한 음성 신호(NE'T)를 FFT 처리부(11)로 출력한다.

FFT 처리부(11)는, 고속 푸리에 변환 회로이며, 시간 영역의 신호인 음성 신호(NE'T)를 주파수 영역의 신호인 음성 신호(NE'N)로 변환하여, 노이즈 게이트(12)의 추정부(121) 및 노이즈 제거부(122)로 음성 신호(NE'N)를 출력한다.

노이즈 게이트(12)는, 추정부(121) 및 노이즈 제거부(122)를 구비한다.

추정부(121)는, FFT 처리부(11)로부터 입력된 음성 신호(NE'N)에 포함되는 정상 노이즈(N'N)를 추정하는 처리를 행한다. 추정부(121)는, 음성 신호(NE'N)의 어느 한 샘플 타이밍에서의 주파수 스펙트럼(이하, 음성 스펙트럼이라고 칭한다)(S(NE'N))을 순차 취득함과 함께 일시 기억한다. 추정부(121)는, 이 취득 및 기억한 복수회의 음성 스펙트럼(S(NE'N))에 기초하여, 정상 노이즈(N'N)의 어느 한 샘플 타이밍에서의 주파수 스펙트럼(이하, 노이즈 스펙트럼이라고 칭한다)(S(N'N))을 추정한다. 그리고 추정부(121)는, 추정한 노이즈 스펙트럼(S(N'N))을 노이즈 제거부(122)로 출력한다.

예를 들어, 어느 한 샘플링 타이밍(T)에서의 노이즈 스펙트럼을 S(N'N(T))로 하고, 동일 샘플링 타이밍(T)에서의 음성 스펙트럼을 S(NE'N(T))로 하고, 직전의 샘플링 타이밍(T-1)에서의 노이즈 스펙트럼을 S(N'N(T-1))로 한다. 또한, α, β는 망각 상수이며, 예를 들어 α=0.9, β=0.1이 된다. 노이즈 스펙트럼(S(N'N(T)))은, 다음 수학식 1로 표현할 수 있다.

[수학식 1]

S(N'N(T)) = αS(N'N(T-1)) + βS(NE'N(T))

이와 같이, 음성 스펙트럼에 기초하여 노이즈 스펙트럼(S(N'N(T)))을 추정함으로써, 주위 소음 등의 정상 노이즈를 추정할 수 있다. 또한, 추정부(121)는, 마이크(MIC)가 수음한 음성 신호의 레벨이 낮은 상태(무음 상태)인 경우만 노이즈 스펙트럼의 추정 처리를 행하는 것으로 한다.

노이즈 제거부(122)는, FFT 처리부(11)로부터 입력된 음성 신호(NE'N)로부터 정상 노이즈(N'N)를 제거하고, 노이즈 제거 후의 음성 신호(CO'N)를 IFFT 처리부(13)로 출력한다. 구체적으로는, 노이즈 제거부(122)는, 음성 스펙트럼(S(NE'N))과, 추정부(121)로부터 입력된 노이즈 스펙트럼(S(N'N))의 신호 레벨비를 산출한다. 노이즈 제거부(122)는, 산출한 신호 레벨비가 임계값 미만인 경우, 신호 레벨비가 임계값 미만인 주파수 대역에서의, 음성 스펙트럼(S(NE'N))의 게인을 내려 출력한다.

예를 들어, 노이즈 제거부(122)는, 도 2에 도시하는 게인 테이블(TBL)을 구비한다. 게인 테이블(TBL)은, 산출한 신호 레벨비에 따라 음성 스펙트럼(S(NE'N))의 게인을 정한다. 게인 테이블(TBL)은, 신호 레벨비가 임계값 이상인 경우, 게인을 1로 하고, 신호 레벨비가 임계값 미만인 경우, 게인을 0으로 한다. 이 경우, 노이즈 제거 후의 음성 신호(CO'N)의 어느 한 샘플 타이밍에서의 주파수 스펙트럼(S(CO'N))은, 다음 수학식 2로 표현할 수 있다.

[수학식 2]

S(CO'N) = (TBL(S(NE'N)/S(N'N))·S(NE'N)

이 결과, 노이즈 제거부(122)는, 신호 레벨비가 임계값 이상인 주파수에서는 음성 스펙트럼(S(NE'N))을, 신호 레벨을 변경하지 않고 그대로 출력한다. 또한, 노이즈 제거부(122)는, 신호 레벨비가 임계값 미만인 주파수 대역에서는 음성 스펙트럼(S(NE'N))을 노이즈 스펙트럼(S(N'N))으로 간주하여 그 신호 레벨을 0으로서 출력한다.

또한, 노이즈 제거부(122)는, 정상 노이즈(N'N)의 추정 오차를 고려하여, 임계값을 신호 레벨비가 1이 되는 값(1.0)보다 약간 큰 값으로 해도 좋다. 이렇게 하면, 노이즈 제거부(122)는, 정상 노이즈(N'N)의 추정 오차에 의해 정상 노이즈(N'N)의 신호 레벨이 실제보다 작게 추정된 경우에도 정상 노이즈(N'N)를 제거할 수 있다.

IFFT 처리부(13)는, 역고속 푸리에 변환 회로이며, 주파수 영역의 신호인 음성 신호(CO'N)를 시간 영역의 신호인 음성 신호(CO'T)로 변환하여 출력한다.

이상으로부터, 수음 장치(1)는, 화자의 발화 음성이 존재하는 주파수 대역의 음성 신호를 감쇠시키지 않고 그대로 남길 수 있기 때문에, 화자의 발화 음성을 열화시키지 않고 방음할 수 있다.

노이즈 게이트(12)의 출력값인 노이즈 제거 후의 음성 신호(CO'N)에 대하여, 도 3의 (A) 내지 도 3의 (C)를 참조하여 설명한다. 도 3의 (A) 내지 도 3의 (C)는, 정상 노이즈, 음성 신호 및 노이즈 제거 후의 음성 신호의 일례를 나타내는 도면이다. 도 3의 (A)는, 정상 노이즈의 신호 레벨을 나타내고, 도 3의 (B)는 정상 노이즈를 포함하는 음성 신호의 신호 레벨을 나타내고, 도 3의 (C)는 노이즈 제거 후의 음성 신호의 신호 레벨을 나타낸다.

수음 장치(1)는, 도 3의 (A)에 도시한 바와 같은 정상 노이즈(N'N)를 추정하여, 도 3의 (B)에 도시한 바와 같은 음성 신호(NE'N)를 생성했다고 하자. 음성 신호(NE'N)로부터 정상 노이즈(N'N)를 제거하기 위하여, 수음 장치(1)는, 간단히 음성 신호(NE'N)로부터 노이즈(N'N)를 빼면, 도 3의 (C)의 파선과 같이, 화자의 발화 음성이 존재하는 주파수 대역에서도 음성 신호(NE'N)의 신호 레벨을 감쇠시켜 버려, 음질이 열화된 음성을 방음해 버린다. 또한, 수음 장치(1)는, 정상 노이즈(N'N)의 추정 오차에 의해, 음성 신호(NE'N)에 정상 노이즈(N'N)가 남는 경우가 존재한다. 이 경우, 수음 장치(1)는, 화자의 발화 음성이 존재하지 않는 주파수 대역에서 신호 레벨의 편차가 현저하게 발생하기 때문에, 뮤지컬 노이즈가 발생해 버린다.

한편, 본 실시 형태에서는, 수음 장치(1)는, 도 3의 (C)의 실선과 같이, 화자의 발화 음성이 존재하는 주파수 대역을 남기고, 화자의 발화 음성이 존재하지 않는 주파수 대역(노이즈만이 존재하는 주파수 대역)의 음성 신호의 신호 레벨(게인)을 내리기 때문에, 화자의 발화 음성의 음질을 열화시키지 않고, 방음할 수 있다. 또한, 수음 장치(1)는, 음성 신호(NE'N)와 정상 노이즈(N'N)의 신호 레벨비에 따라 출력값(CO'N)을 결정하기 때문에, 화자의 발화 음성이 존재하지 않는 주파수 대역에서 신호 레벨의 편차가 발생하기 어려워, 뮤지컬 노이즈의 발생을 방지할 수 있다. 또한, 수음 장치(1)는, 음성 신호(NE'N)와 정상 노이즈(N'N)의 신호 레벨비를 구하기 때문에, 화자의 발화 음성이 작아도 노이즈만이 존재하는 주파수 대역을 검출할 수 있다.

또한, 상술한 실시 형태에서는, 수음 장치(1)는, 화자의 발화 음성이 존재하는 주파수 대역의 음성 신호의 신호 레벨을 유지하고, 화자의 발화 음성이 존재하지 않는 주파수 대역의 음성 신호의 신호 레벨(게인)을 0으로서 출력했다. 그러나 수음 장치(1)는, 화자의 발화 음성이 존재하는 주파수 대역의 음성 신호의 신호 레벨을 유지함과 함께, 화자의 발화 음성이 존재하지 않는 주파수 대역의 음성 신호의 신호 레벨(게인)을 0보다 큰 값까지 내려도 좋다. 도 4는, 게인 테이블의 다른 예를 나타내는 도면이다. 이 경우, 예를 들어, 도 4에 도시한 바와 같이 수음 장치(1)는, 화자의 발화 음성이 존재하지 않는 주파수 대역의 음성 신호의 게인을 0.5로 하고, 화자의 발화 음성이 존재하지 않는 주파수 대역의 음성 신호의 신호 레벨을 0.5배로 하여 출력한다. 이에 의해, 수음 장치(1)는, 화자의 발화 음성이 존재하는 주파수 대역에 포함되는 정상 노이즈가 두드러지지 않기 때문에, 화자의 음성을 자연스럽게 방음할 수 있다.

본 발명을 상세하게 또한 특정한 실시 형태를 참조하여 설명해 왔지만, 본 발명의 정신, 범위 또는 의도의 범위를 일탈하지 않고 여러 변경이나 수정을 가할 수 있는 것은 당업자에게 있어서 명확하다.

본 발명은, 2008년 11월 21일 출원의 일본 특허 출원(일본 특허 출원 제2008-298332)에 기초하는 것이고, 그 내용은 여기에 참조로서 원용된다.

<산업상의 이용가능성>

화자의 발화 음성을 열화시키지 않고, 정상 노이즈만을 제거한 음성 신호를 출력하는 노이즈 게이트를 제공할 수 있다.

1: 수음 장치
11: FFT 처리부
12: 노이즈 게이트
121: 추정부
122: 노이즈 제거부
13 : IFFT 처리부
MIC: 마이크

Claims

음성 신호의 주파수 스펙트럼이 입력되는 입력 수단과,
상기 입력 수단에 입력된 음성 신호의 주파수 스펙트럼에 기초하여, 노이즈 스펙트럼을 추정하는 추정 수단과,
상기 음성 신호의 주파수 스펙트럼과 상기 추정 수단이 추정한 노이즈 스펙트럼과의 신호 레벨비를 산출하여, 상기 신호 레벨비가 소정의 임계값 미만인 주파수 대역의 신호 레벨을 내리고, 상기 신호 레벨비가 상기 소정의 임계값 이상인 주파수 대역의 신호 레벨을 변경하지 않은 상기 음성 신호의 주파수 스펙트럼을 출력하는 출력 수단을 구비한 노이즈 게이트.
제1항에 있어서, 상기 임계값은, 상기 신호 레벨비가 1이 되는 값보다 상기 추정 수단의 추정 오차에 대응하는 값만큼 크게 설정되는 노이즈 게이트.
제1항 또는 제2항에 기재된 노이즈 게이트와,
주위의 음성을 수음하여 음성 신호를 생성하는 수음 수단과,
상기 수음 수단이 생성한 음성 신호를 주파수 영역의 신호인 주파수 스펙트럼으로 변환하는 변환 수단과,
상기 변환 수단에 의해 변환된 주파수 스펙트럼을, 상기 노이즈 게이트의 입력 수단에 입력하고,
상기 노이즈 게이트의 출력 수단이 출력한 음성 신호의 주파수 스펙트럼을 시간 영역의 신호인 음성 신호로 역변환하는 역변환 수단을 구비한 수음 장치.
음성 신호의 주파수 스펙트럼을 입력하는 공정과,
상기 입력에 의해 입력된 음성 신호의 주파수 스펙트럼에 기초하여, 노이즈 스펙트럼을 추정하는 공정과,
상기 음성 신호의 주파수 스펙트럼과 상기 추정하는 공정에 의해 추정한 노이즈 스펙트럼과의 신호 레벨비를 산출하는 공정과,
상기 산출하는 공정에 의해 산출된 신호 레벨비가 소정의 임계값 미만인 주파수 대역의 신호 레벨을 내리고, 상기 신호 레벨비가 상기 소정의 임계값 이상인 주파수 대역의 신호 레벨을 변경하지 않은 상기 음성 신호의 주파수 스펙트럼을 출력하는 공정을 구비한 노이즈 제거 방법.
제4항에 있어서, 상기 임계값은, 상기 신호 레벨비가 1이 되는 값보다 상기 추정하는 공정에서 사용되는 추정부의 추정 오차에 대응하는 값만큼 크게 설정되는 노이즈 제거 방법.