KR19990081995A

KR19990081995A - 노이지 스피치 파라미터 강화방법 및 장치

Info

Publication number: KR19990081995A
Application number: KR1019980705713A
Authority: KR
Inventors: 페터 핸델; 파트릭 쇨큐비스트
Original assignee: 크리스티안 웬너호름, 괴란 놀드런드흐; 텔레폰아크티에볼라게트 엘엠 에릭슨
Priority date: 1996-02-01
Filing date: 1997-01-27
Publication date: 1999-11-15
Also published as: SE506034C2; WO1997028527A1; DE69714431T2; EP0897574B1; SE9600363D0; JP2000504434A; CN1210608A; AU1679097A; KR100310030B1; SE9600363L; DE69714431D1; CA2243631A1; US6324502B1; EP0897574A1; AU711749B2

Abstract

배경 노이즈 PSD값을 결정하는 단계(22, 26)와, 노이지 스피치 파라미터들을 결정하는 단계(18)와, 상기 스피치 파라미터로부터 노이지 스피치 PSD값을 결정하는 단계(20)와, 상기 노이지 스피치 PSD값으로부터 배경 노이즈 PSD값을 공제하는 단계(30)와, 상기 강화 스피치 PSD값으로부터 보와 스피치 파라미터들을 산출하는 단계(32)를 통해 노이지 스피치 파라미터들을 강화한다.

Description

노이지 스피치 파라미터 강화방법 및 장치

신호처리에 있어 공통의 문제는 노이즈로부터 신호를 강화하는 것이다. 예컨대, 통상의 경우나 셀룰러(cellular)인 경우 모두, 마이크로폰(microphone) 전화 시스템에서의 통화품질은 상기 신호 강화를 통해 향상시킬 수 있다. 한편, 실제상의 통화는, 셀룰러인 경우에서의 자동차 소음같은 특징적 노이즈로 인해 열화(de- grade)된다.

가끔 이용되는 노이즈 억제방법은 칼만 필터링(Kalman filtering)에 근거한 것인 바, 이는, 해당 필터링법이 특징적 노이즈를 처리할 수 있고 수치상의 적정 0복잡도를 지니고 있기 때문이다. 칼만 필터링에 근거한 노이즈 억제방법관련 주요 참고문헌은〔1〕에 기재되어 있다. 그러나, 칼만 필터링은 모델(model)에 바탕을 둔 변형형태로서, 노이즈뿐 아니라 통화까지도, 예를 들면, 오토그래시브(autogre- ssive, AR) 프로세스(processes)로 모델화한다. 즉, 칼만 필터링에 있어서의 주요 내용은, 해당 필터링 알고리즘(algorithm)이, 반드시 계산을 요하는 미지의 파라미터 세트(set)에 의존하는 점이다. 상기 파라미터 산출과 관련된 두가지 중대문제는, (i) 상기 스피치 AR 파라미터가 열화된 스피치 데이터(data)로부터 산출되며, (ii) 상기 스피치 데이터가 정적인 상태가 아니라는 점이다. 즉, 높은 가청품질을 갖는 칼만 필터 아웃풋(output)을 얻기 위해서는, 상기 산출 파라미터의 정확도 및 정밀도가 매우 중요하다.

본 발명은 노이지 스피치 파라미터(noisy speech parameter) 강화방법(en- hancement method) 및 그 이용가능한 장치, 예를 들면, 전화 시스템내의 노이즈 억제장치에 관한 것이다.

도 1은 본 발명에 따른 장치를 나타내는 블록 다이어그램,

도 2는 상기 도 1의 장치에 쓰이는 음성 활성도 검출기(voice activity de- tector)의 상태도(state diagram),

도 3은 본 발명에 따른 방법을 나타내는 플로우챠트(flow chart),

도 4는 노이지 스피치의 멱스팩트럼 밀도(power spectral density, PSD)의 본질적 특징을 나타내는 도면,

도 5는 배경 노이즈(background noise)에 대한 유사 PSD를 나타내는 도면,

도 6은 상기 도 4의 PSD로부터 상기 도 5의 PSD를 뺀 상태의 PSD를 나타내는 도면,

도 7은 본 발명에 따라 손실함수(loss function)의 형태로 확보된 개선효과를 나타내는 도면,

도 8은 본 발명에 따라 손실율(loss ratio)의 형태로 확보된 개선효과를 나타내는 도면이다.

본 발명의 목적은, 노이지 스피치의 파라미터를 산출하기 위한 개선된 방법 및 장치를 제공하는 것이다. 이들 강화된 스피치 파라미터들은, 상기 노이즈 억제를 목적으로 하여, 칼만 필터링 노이지 스피치에 이용할 수 있다. 그러나, 상기 강화된 스피치 파라미터들을, 스피치 엔코딩(encoding)에서의 스피치 파라미터로 직접 사용할 수도 있다.

상기 목적은 특허청구범위 제1항에 따른 방법과, 제11항에 따른 장치에 의해 달성된다.

첨부도면을 참조로 한 이하의 설명을 통하여, 본 발명, 그 목적 및 기타 장점들을 이해하게 될 것이다.

스피치 처리과정에 있어서, 인풋(input) 스피치는 가끔 배경 노이즈의 방해를 받는다. 예를 들면, 핸즈프리(hands-free) 이동전화기의 경우, 배경 노이즈에 대한 상기 스피치 비율은 0 dB 정도 또는 그 이하일 수도 있다. 그처럼 높은 노이즈 레벨(level)은, 그 자체의 높은 노이즈 레벨 때문만 아니라, 해당 노이지 스피치가 코드화되어 디지털 통신채널(communication channel)내를 거치는 동안 생성되는 가청음으로 인해 통화품질을 심히 열화시키게 된다. 상기 부산물로서의 가청음을 줄이기 위하여, 칼만 필터링〔1〕같은 노이즈 저감법을 통해 해당 노이지 인풋 스피치를 예비적으로 처리하는 수도 있다.

몇몇 노이즈 저감법(예컨대, 칼만 필터링)에 있어서는, 상기 오토그래시브( AR) 파라미터가 관계되어 있다. 즉, 이들 방법을 통해 높은 가청품질의 개선형 스피치 아웃풋을 얻기 위해서는, 노이지 스피치로부터의 정확한 AR 파라미터 산출이 필수적인 것이다. 상기 노이지 스피치 파라미터 강화법을 도 1-6에 의거 이하에서 설명한다.

도 1에 따르면, 마이크로폰(10)으로부터 연속 아나로그(analog) 신호(x(t))가 얻어진다. 신호(x(t))는 A/D변환기(12)로 보내진다. 이 A/D변환기(및 적절한 데이터 버플링(data buffering)은 오디오(audio) 데이터의 프레임(frame){x(k)}을 생성한다. 오디오 프레임은 8000Hz 샘플링 속도(sampling rate)하에서 100-300개의 오디오 샘플을 포함하는 것이 보통이다. 설명을 단순화하기 위하여, 프레임 길이 N=256인 경우를 가정한다. 상기 오디오 프레임{x(k)}은 음성 활성도 검출기(VAD)(14)로 보내지는 바, 이 음성 활성도 검출기는, 해당 VAD(14)의 상태에 의존하는 장치내 다른 블록으로 오디오 프레임{x(k)}을 보내주기 위한 스위치(16)를 제어하는 역할을 한다.

VAD(14)는 [2]에서 거론되는 바의 원리에 따라 설계할 수도 있으며, 보통, 스테이트 머신(state machine)의 형태로 지원된다. 도 2는 그러한 스테이트 머신의 가능 스테이트를 나타낸다. 스테이트 0인 경우, VAD(14)는 아이들(idle) 또는 "비활성"이며, 오디오 프레임{x(k)}이 더 이상 처리되지 않음을 의미한다. 스테이트 20은 노이즈 레벨 및 스피치 없음을 뜻한다. 스테이트 21은 노이즈 레벨 및 낮은 스피치/노이즈 비율을 의미한다. 이 상태는 주로 스피치 활성도 및 노이즈간 변환(transition) 과정동안에 주로 활성을 나타낸다. 끝으로, 스테이트 22는 노이즈 레벨 및 높은 스피치/노이즈 비율을 의미한다.

하나의 오디오 프레임{x(k)}은, 다음과 같이 표현될 수 있는 오디오 샘플들을 포함한다.

여기서, x(k)는 노이지 스피치 샘플을, s(k)는 스피치 샘플을, v(k)는 특징적 추가 배경 노이즈를 각각 나타낸다. 노이지 스피치 신호(x(k))는 프레임 전체에 걸쳐 불변인 것으로 한다. 또한, 스피치 신호(s(k))는 r차의 오토그래시브(AR) 모델을 통해 기술할 수 있다. 즉,

이때, w_s(k)의 분산값(variance)은 σ_s ²으로 주어진다. 같은 원리로, v(k)는 q차의 AR모델로 나타낼 수 있다.

여기서, w_v(k)의 분산은 σ_v ²으로 주어진다. 상기 r 및 q는 프레임 길이 R에 비해 매우 작다. 통상, r은 10 정도가 바람직하며, q는 0-7 범위내의 값, 예를 들면 4(q=0은, 일정상태의 멱스팩트럼 밀도, 즉, 화이트 노이즈(white noise)에 해당함) 정도임이 바람직하다. 스피치 AR모델링에 관한 추가정보는 [3]에 수록되어 있다.

나아가, 노이지 스피치의 상기 멱스팩트럼 밀도(power spectral density)(Φ_x(ω))는, 스피치의 멱스팩트럼 밀도(Φ_s(ω))와 배경 노이즈의 스팩트럼 밀도(Φ_v(ω))로 나누어진다. 즉,

상기 (2)식으로부터,

같은 방법으로, (3)식으로부터는,

(2)-(3)식으로부터, x(k)는, 멱스팩트럼 밀도(Φ_x(ω))를 갖는 오토그래시브 이동 평균(autogressive moving average, ARMA)모델과 일치한다. (Φ_x(ω)) 산출값(이하, 모자표시 "^"를 붙임)는 오토그래시브(AR) 모델을 통해 구할 수 있다.

및 _x ²은, AR모델

의 파라미터 산출값이다. 여기서, w_x(k)의 분산값은 σ_x ²로 주어지며, a≤p≤N이다. (7)식에서의 _x(ω)는 일정 불변값이 아님을 주목해야 한다. 그러나, x(k)는 실제 불변값과는 거리가 멀기 때문에, 스피치 신호처리에 있어서 그다지 심각한 문제는 아니다.

도 1에 있어서, VAD(14)가 스피치를 표시하는 경우(도 2상에서의 스테이트 21 및 22), 신호 x(k)는, (8)식의 파라미터 σ_x ²및 {a_i}를 구하는 노이지 스피치 AR산출기(18)로 보내진다. 이 산출과정은 [3]에 따라 시행된다(도 3상의 플로우챠트에서는 스탭 120에 해당한다). 상기 산출된 파라미터는 블록(20)으로 보내지는 바, 해당 블록에서는 (7)식에 따라 인풋 신호 x(k)의 멱스팩트럼 밀도를 계산한다(도 3상의 스탭 130).

상기 배경 노이즈를 장시간(long-time) 정지상태, 즉, 몇 개 프레임에 걸친 불변상태로 취급할 수 있는 것이 본 발명의 본질적 특징이다. 스피치 활성도는 보통, s(k)가 없는 기간에서의 상기 노이즈 모델을 산출할 수 있을 정도로 충분히 낮기 때문에, 노이지 스피치 프레임에서의 후속 이용을 위해 노이즈 프레임도중 해당 노이즈 모델 파라미터를 버퍼링(buffering)함으로써, 노이지 스피치 프레임중 노이즈의 멱스팩트럼 밀도 공제(subtraction)에 상기 장시간 정지상태라는 특징을 이용할 수도 있다. 즉, VAD(14)가 배경 노이즈를 표시하는 경우(도 2상의 스테이트 20), 상기 프레임은, 그 파라미터 σ_v ²및 {b_i}를 구하는(도 3의 플로우챠트상에서는 스테이트 140에 해당함) 노이즈 AR산출기(22)로 보내진다. 앞서 언급한 바와 같이, 상기 산출된 파라미터들은, 노이지 스피치 프레임에서의 이용을 위해 버퍼(24)에 저장된다(도 3상에서의 스탭 150). 이들 파라미터들은, 그 필요시(노이지 스피치 프레임 도중), 상기 버퍼(24)로부터의 검색을 거치게 된다. 상기 파라미터들은, 또한, 상기 배경 노이즈의 멱스팩트럼 밀도 산출(도 3상의 스탭 160)을 위해 해당 노이즈 프레임중 어느때 블록(26)으로 보내지는 바, 이는, 그 후속 이용을 위해서는 상기 산출값이 버퍼링 과정을 거쳐야 함을 의미하는 한편, 버퍼링을 거치는 것은 파라미터뿐임을 뜻하는 것이기도 하다. 즉, 배경 노이즈만을 포함하는 프레임에 있어서는, 상기 산출된 파라미터들이 실제 강화목적으로 이용되지 않는다. 대신, 상기 노이즈 신호는, 해당 노이즈 레벨을 약화, 예를 들면, 10dB 정도로 하는(도 3상의 스탭 170) 약화기(attenuator)(28)로 보내진다.

(7)식에서 정의된 상기 멱스팩트럼 밀도(PSD) 산출값( _x(ω))와, 상기 AR 파라미터 및 σ_v ²에 대해 "^"가 붙기는 해도, (6)식과 유사한 식으로 정의되는 PSD 산출값( _v(ω))은 주파수(ω)의 함수이다. 이어지는 스탭은 실제 PSD 공제(sub- traction)를 수행하는 과정으로서, 블록(30)(도 3상의 스탭 180)에서 이루어진다. 본 발명에 따르면, 스피치 신호의 멱스팩트럼 밀도는 다음의 식으로 계산된다.

여기서, δ는 스칼라(scalar) 설계변수로서, 전형적으로 0＜δ＜4를 취한다. 보통의 경우, 1 정도로 한다(δ=1은 (4)식에 해당한다).

상기 강화된 PSD( _s(ω))를 샘플링함에 있어서, 그 정확한 형상을 확보하기 위하여, 다수의 주파수(ω) 조건하에서 샘플링함은 본 발명의 본질적 특징이다. 실제, 상기 PSD는 일정간격을 갖는 다음 일련의 주파수 조건하에서 계산된다.

[3]을 참조하면, 일정간격을 갖는 PSD값 조합이 다음과 같이 주어진다.

상기 특징들은 도 4-6을 통해 도시된다. 도 4는 노이지 스피치의 전형적 PSD값(Φ_x(ω))을 나타낸다. 도 5는 배경 노이즈의 전형적 PSD값( _v(ω))을 보여준다. 이 경우, 도 4 및 도 5상의 신호간에 있어 신호대 노이즈 비율(signal-to-noise ratio)은 0 dB이다. 도 6은, (9)식에 따른 노이즈 공제후의 상기 강화된 PSD값( _s(ω))을 나타내는 바, δ=1인 경우이다. PSD값( _s(ω))의 형상이 강화 스피치 파라미터 산출에 있어 중요(이하에서 설명할 것임)하기 때문에, 상기 강화된 PSD값( _s(ω))을 충분한 수의 주파수 조건하에서 샘플링함으로써, 상기 함수(특히, 피크(peak)값)의 진정한 형상을 구하는 것 또한 본 발명의 본질적 특징이다.

실제에 있어서는, 상기 (6) 및 (7)식을 이용하여 _s(ω)를 샘플링한다. 예컨대, (7)식의 경우, _x(ω)는 신속 풀리에 변환(Fast Fourier Transform, FFT)을 통해 샘플링한다. 즉, 1, a₁, a₂,...,a_p를 시퀀스(sequence)로 하여 그 FFT를 계산한다. 샘플수(M)는 p(p는 대략 10-20)보다 커야 하므로, 상기 시퀀스를 제로패드( zero pad)해야 할 수도 있다. 적절한 M값은 2의 멱수(冪數), 예를 들면, 64, 128, 256 등이다. 그러나, 상기 M값은 프레임 길이(예의 경우, N=256)보다 작은 수를 선택한다. 나아가, _s(ω)가 멱수의 스팩트럼 밀도, 즉, 비음수(非陰數)이기 때문에, 상기 샘플링되는 _s(ω)는, 그로부터의 강화 스피치 파라미터 계산에 앞서, 비음수라야 한다는 제한을 받게 된다.

상기 블록(30)에서 PSD 공제가 수행되고 나면, 상기 PSD값으로부터의 강화 스피치 파라미터 계산(도 3상의 스탭 190)을 위하여, 샘플들의 집합(collection)({ _s(m)})이 블록(32)으로 보내진다. 이는 상기 블록(20 및 26)의 역과정으로서, AR 파라미터로부터 PSD값을 계산한다. 해당 PSD값으로부터 이들 파라미터들을 바로 유도하는 것은 불가능하기 때문에, 반복적 알고리즘을 이용해야만 한다. 시스템 검증(identification)을 위한 일반적 알고리즘, 예컨대, (4)식과 같은 식을 이용해도 무방하다.

또한, 상기 강화 파라미터를 산출하기 위한 바람직한 과정을 부록에서 설명한다.

이들 강화 파라미터는, 예를 들면, 스피치 엔코딩과 직접 연관지어 이용하든가, 또는, 도 1상의 노이즈 필터내 칼만 필터(34)같은 필터 제어용(도 3상의 스탭 200)으로 쓸 수도 있다. 칼만 필터(34)는 또한 상기 산출된 노이즈 AR 파라미터에 의한 제어도 받는 바, 이들 두 파라미터 조합은, 노이지 스피치를 포함한 프레임{x(k)}을 [1]에 기재된 바의 원리에 따라 필터링하기 위한 칼만 필터(34)를 제어한다.

상기 강화 스피치 파라미터만을 필요로 하는 경우에는, 실제 노이즈 AR 파라미터는 산출하지 않아도 된다(도 1상의 노이즈 억제장치에 있어서는, 상기 파라미터들이 칼만 필터(34)를 제어하는 관계로, 반드시 산출해야 함). 대신, Φv(ω)를 산출함에 있어서는 상기 장시간 정지상태의 배경 노이즈를 이용해도 무방하다. 예를 들면, 식

을 이용할 수 있다.

여기서, Φ_v(ω)^(m)은, 프레임수(m)를 포함한 그 앞까지의 데이터에 근거한 (진행(running)) 평균 PSD값이고, _v(ω)는 현재 프레임에 바탕을 둔 것이다( _v(ω)는 페리오도그램(periodogram)(FFT)에 의해 상기 인풋 데이터로부터 직접 구할 수도 있음). 상기 스칼라 ρ∈(0,1)는 상기 v(k)의 추정 불변도에 따라 조절한다. τ개 프레임에 대한 평균은 대략 다음 식으로 주어진다.

상기 파라미터(ρ)는 0.95 정도의 값으로 한다.

바람직한 실시예의 경우, (12)식에 따른 평균산출 작업은, (6)식의 PSD 산출값에 대해서도 실시한다. 상기 평균산출 과정을 도 1상 블록(26)의 한 부분으로 할 수도 있으며, 또한, 도 3상 스탭 160의 일부로서 수행해도 무방하다.

도 1상의 실시예에 대한 수정으로서, 상기 약화기(28)를 삭제할 수도 있다. 그 대신, 칼만 필터(34)를 신호(x(k)) 약화기로 이용해도 된다. 이 경우, 상기 배경 노이즈 AR모델의 파라미터들은, 칼만 필터(34)의 양측 제어 인풋(control in- put)으로 보내지지만, 스피치 프레임중 강화 스피치 파라미터를 접수하는 해당 제어 인풋상에 있어 낮은 분산 파라미터(희망하는 바의 약화에 상당함)를 갖는다.

더욱이, 상기 강화 스피치 파라미터 산출로 인한 지연이 너무 길다고 판단되면, 본 발명의 수정 실시예에 따라서, 현재 프레임에 대한 상기 강화 스피치 파라미터를 후속 프레임 필터링용으로 이용하는 것도 가능하다(이 실시예의 경우, 스피치가 두 프레임에 걸쳐 불변인 것으로 함). 상기 수정 실시예에 있어서는, 스피치 프레임에 대한 강화 스피치 파라미터를, 앞선 스피치 프레임에서의 강화 파라미터를 갖는 해당 프레임 필터링과 동시에 계산할 수도 있다.

본 발명에 따른 방법의 기본적 알고리즘은 다음과 같이 종합할 수 있다.

스피치 포즈(pause)중에 있어,

M개 주파수 조합에 대한 상기 배경 노이즈의 PSD값( _v(ω))을 산출한다. 이때, 어떤 종류의 PSD 산출기, 예로서, 파라메트릭(parametric) 또는 비파라메트릭(non-parametric)(페리오도그램)중 어느 것을 이용해도 무방함. (12)식에 따른 장시간 평균산출법을 적용함으로써, 해당 PSD 산출값의 에러 분산값(error vari- ance)을 줄일 수 있음.

스피치 활성도에 대하여: 각각의 프레임에 있어서,

{x(k)}를 근거로 AR 파라미터{a_i}와 해당 노이지 스피치의 레지듀얼(resi- dual) 에러 분산값(σ_x ²)을 산출함.

이들 노이지 스피치 파라미터를 근거로 하여, M개 주파수 조합의 노이지 스피치에 대한 PSD값( _x(ω))을 계산함.

_x(ω) 및 _v(ω)를 근거로, (9)식을 이용하여, 스피치 PSD값( _s(ω))을 계산함. 스칼라(δ)는 대략 1 정도인 설계변수임.

상기 강화된 PSD값( _s(ω))을 근거로 강화 AR 파라미터 및 해당 레지듀얼 분산을 계산함.

도 1의 장치중 거의 모든 블록은 하나 또는 몇 개의 마이크로(micro)/신호 프로세서(processor) 조합으로 이행됨이 바람직하다(예를 들면, 블록 14, 18, 20, 22, 26, 30, 32 및 34).

본 발명에 따른 방법의 효과를 알아보기 위하여 몇 개 시뮬레이션(simula- tion)을 실시했다. 최초 파라미터에 대한 상기 강화 파라미터의 개선효과를 측정코자, 200개의 각기 상이한 시뮬레이션에 대한 다음 값을 계산했다.

상기 값(손실함수)은 노이지 및 강화 파라미터 양쪽 모두에 대해 계산했다. 즉, (k)는 _x(k) 또는 _s(k)를 나타낸다. (14)식에 있어서, (·)^(m)은 시뮬레이션수(m)에 대한 결과임을 뜻한다. 이들 두 파라미터는 도 7에 나타낸다. 도 8은 상기 두 파라미터간 비를 나타낸다. 이들 도면으로부터, 낮은 신호대 노이즈 비율(SNR＜15 dB)에 있어서는 강화 파라미터가 노이지 파라미터보다 효과적인 반면, 높은 신호대 노이지 비율의 경우 양자는 거의 동일한 결과를 가져옴을 알 수 있다. 낮은 SNR값에 있어서, 상기 강화 및 노이지 파라미터간 SNR면에서의 개선효과는 주어진 수치(V)에 대해 7 dB급이었다.

당업자라면, 첨부된 특허청구범위에 명시된 본 발명의 기본취지를 벗어나지 않고서도, 다양한 수정 또는 변형이 가능함을 이해할 것이다.

이상 설명한 바와 같이, 본 발명의 노이지 스피치 파라미터 강화방법 및 장치는, 정확한 AR 파라미터 산출을 가능케 하는 관계로 통신분야에 있어 그 효용도가 지대한 발명이다.

부 록

상기 강화 파라미터를 산출함에 있어 그 수치적 차이를 보다 가시화하기 위하여, (11)식으로부터의 강화 PSD 데이터를 아래의 비선형 데이터 변환식에 따라 변환시켰다.

여기서,

이다. 한편, ε는, 사용자 선택, 또는, (k)를 실수(實數)로 하는 데이터 의존 스래쉬홀드(threshold)이다. 다소의 약식 방법(풀리에(Fourier) 전개식, 많은 수의 샘플, 및 높은 모델 급수(order)를 바탕으로 함)을 써서, 다음과 같은 흥미있는 주파수 간격(frequency interval)을 얻게 된다.

상기 (17)식은 다음과 같이 주어진다.

(18)식에서, γ(k)는 다음과 같이 정의된다.

값 및 해당 공분산(covariance) 메트릭스(matrix) _Γ를 불변값으로 가정하면, 상기 벡터는,

이며, 초기값을 , _Γ및 (0)으로 하여, 그 공분산 메트릭스(Pχ)는 다음 식에 의해 계산할 수 있다.

상기 알고리즘에 있어서, Γ(x) 및 χ의 관계는 다음 식으로 주어진다.

이때, γ(k)는 (19)식에 의해 구해진다.

로부터, 상기 χ에 대한 Γ(x)의 기울기는,

로 주어진다.

상기 (21)식은, _Γ를 산출하기 위한 다수의 계산식을 포함한다. 이들 계산식의 주요부는 (M×M)메트릭스 _Γ와의 곱셈 및 그 역위(inversion)로부터 시작된다. 그러나, _Γ는 대각선에 가까운 관계로((18)식 참조), 다음 근사식을 얻을 수 있다.

여기서, I는 (M×M) 단위 메트릭스를 나타낸다. 즉, 바람직한 실시예에 따르면, 초기값을 및 (0)로 하여 다음과 같은 차선의 알고리즘을 사용해도 무방하다.

이때, (26)식에서의 G(k) 크기는 ((r+1)×M)이다.

참 고 문 헌

[1] J.D. Gibson, B. Koo and S.D. Gray, "Filtering of colored noise for speech enhancement and coding", IEEE Transaction on Acoustics, Speech and Signal Processing", vol.39, no.8, pp.1732-1742, August 1991.

[2] D.K. Freeman, G. Cosier, C.B. Southcott and I. Boyd, "The voice activity detector for the pan-European digital cellular mobile telephone service" 1989 IEEE International Conferance Acoustics, Speech, and Signal Processing, 1989, pp.489-502.

[3] J.S. Lim and A.V. Oppenheim, "All-pole modeling degraded speech", IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. ASSp-26, no.3, June 1978, pp.228-231.

[4] T. Soderstrom, P. Stoica and B. Friedlander, "An indirect prediction error method for system identification", Automatica, vol.27, no.1, pp.183-188, 1991.

Claims

1차 배경 노이즈 샘플 조합으로부터, M개(M은 미리 정해진 양의 정수) 주파수에 있어 배경 노이지의 멱스팩트럼 밀도값을 결정하는 단계와;

2차 노이지 스피치 샘플 조합으로부터, p개(p는 상기 M보다 매우 작은 미리 정해진 양의 정수)의 오토그래시브 파라미터 및 1차 레지듀얼 분산값을 산출하는 단계와;

상기 p개의 오토그래시브 파라미터 및 상기 1차 레지듀얼 분산값으로부터, 상기 M개 주파수에서의 노이지 스피치 멱스팩트럼 밀도값을 결정하는 단계와;

미리 정해진 양의 변수가 곱해진 상기 배경 노이즈 멱스팩트럼 밀도값을 상기 노이지 스피치 멱스팩트럼 밀도값으로부터 공제함으로써, 강화 스피치 멱스팩트럼 밀도값을 결정하는 단계와;

상기 강화 스피치 멱스팩트럼 밀도로부터, r개(r은 미리 정해진 양의 정수)의 강화 오토그래시브 파라미터 및 강화 레지듀얼 분산값을 결정하는 단계를 포함하여 구성된 것을 특징으로 하는 노이지 스피치 파라미터 강화방법

제1항에 있어서, 상기 강화 스피치 멱스팩트럼 밀도값을 비음수로 한정하는 것을 특징으로 하는 노이지 스피치 파라미터 강화방법.

제2항에 있어서, 상기 미리 정해진 양의 변수가 0-4 범위인 것을 특징으로 하는 노이지 스피치 파라미터 강화방법.

제3항에 있어서, 상기 미리 정해진 양의 변수가 대략 1과 일치하는 것을 특징으로 하는 노이지 스피치 파라미터 강화방법.

제4항에 있어서, 상기 미리 정해진 정수(r)가 상기 미리 정해진 정수(p)와 일치하는 것을 특징으로 하는 노이지 스피치 파라미터 강화방법.

제5항에 있어서, 상기 1차 배경 노이즈 샘플 조합으로부터, q개(q는 p보다 작은 미리 정해진 양의 정수)의 오토그래시브 파라미터 및 2차 레지듀얼 분산값을 산출하는 단계와;

상기 q개의 오토그래시브 파라미터 및 상기 2차 레지듀얼 분산값으로부터, 상기 M개 주파수에서의 상기 배경 노이즈 멱스팩트럼 밀도값을 결정하는 단계를 포함하여 구성된 것을 특징으로 하는 노이지 스피치 파라미터 강화방법.

제1항 또는 제6항에 있어서, 상기 배경 노이즈 멱스팩트럼 밀도값을, 미리 정해진 배경 노이즈 샘플 조합수에 대하여 평균하는 것을 특징으로 하는 노이지 스피치 파라미터 강화방법.

제1항 내지 제7항중의 어느 한 항에 있어서, 3차 노이지 스피치 파라미터용 필터를 조정함에 있어 상기 강화 오토그래시브 파라미터 및 상기 강화 레지듀얼 분산값을 사용하는 것을 특징으로 하는 노이지 스피치 파라미터 강화방법.

제8항에 있어서, 상기 2차 및 3차 노이지 스피치 샘플 조합이 동일한 조합인 것을 특징으로 하는 노이지 스피치 파라미터 강화방법.

제8항 또는 제9항에 있어서, 상기 3차 노이지 스피치 샘플 조합을 칼만 필터링하는 것을 특징으로 하는 노이지 스피치 파라미터 강화방법.

1차 배경 노이즈 샘플 조합으로부터, M개(M은 미리 정해진 양의 정수) 배경 노이즈 멱스팩트럼 밀도값을 결정하기 위한 수단(22, 26)과;

2차 노이지 스피치 샘플 조합으로부터, p개(p는 M보다 상당히 작은 미리 정해진 양의 정수)의 오토그래시브 파라미터 및 1차 레지듀얼 분산값을 산출하기 위한 수단(18)과;

상기 p개의 오토그래시브 파라미터 및 상기 1차 레지듀얼 분산값으로부터, 상기 M개 주파수에서의 노이지 스피치 멱스팩트럼 밀도값을 결정하기 위한 수단(20)과;

미리 정해진 양의 변수가 곱해진 상기 배경 노이즈 스팩트럼 밀도값을 상기 노이지 스피치 멱스팩트럼 밀도값으로부터 공제함으로써, 강화 스피치 멱스팩트럼 밀도값을 결정하기 위한 수단(30)과;

상기 강화 스피치 멱스팩트럼 밀도값으로부터, r개(r은 미리 정해진 양의 정수) 강화 오토그래시브 파라미터 및 강화 레지듀얼 분산값을 결정하기 위한 수단(32)을 포함하여 구성된 것을 특징으로 하는 노이지 스피치 파라미터 강화장치.

제11항에 있어서, 상기 강화 스피치 멱스팩트럼 밀도값을 비음수값으로 한정하기 위한 수단(30)을 포함하여 구성된 것을 특징으로 하는 노이지 스피치 파라미터 강화장치.

제12항에 있어서, 상기 1차 배경 노이지 샘플 조합으로부터 q개(q는 p보다 작은 미리 정해진 양의 정수) 오토그래시브 파라미터 및 2차 레지듀얼 분산값을 계산하기 위한 수단(22)과;

상기 q개 오토그래시브 파라미터 및 상기 2차 레지듀얼 분산값으로부터, 상기 M개 주파수에서의 상기 배경 노이즈 멱스팩트럼 밀도값을 결정하기 위한 수단(26)을 포함하여 구성된 것을 특징으로 한 노이지 스피치 파라미터 강화장치.

제11항 또는 제13항에 있어서, 상기 배경 노이즈 멱스팩트럼 밀도값을, 미리 정해진 배경 노이즈 샘플 조합수에 대하여 평균하기 위한 장치를 포함하여 구성된 것을 특징으로 하는 노이지 스피치 파라미터 강화장치.

제11항 내지 제14항중의 어느 한 항에 있어서, 3차 노이지 스피치 샘플 필터링용 필터를 조정함에 있어 상기 강화 오토그래시브 파라미터 및 상기 강화 레지듀얼 분산값을 사용하기 위한 장치(34)를 포함하여 구성된 것을 특징으로 하는 노이지 스피치 파라미터 강화장치.

제15항에 있어서, 상기 3차 노이지 스피치 조합을 필터링하기 위한 수단이 칼만 필터(34)인 것을 특징으로 하는 노이지 스피치 파라미터 강화장치.

제15항에 있어서, 상기 3차 노이지 스피치 샘플 조합을 필터링하기 위한 수단이 칼만 필터(34)이며, 상기 2차 및 3차 노이지 스피치 샘플 조합이 동일한 조합인 것을 특징으로 하는 노이지 스피치 파라미터 강화장치.