KR19990081995A - 노이지 스피치 파라미터 강화방법 및 장치 - Google Patents
노이지 스피치 파라미터 강화방법 및 장치 Download PDFInfo
- Publication number
- KR19990081995A KR19990081995A KR1019980705713A KR19980705713A KR19990081995A KR 19990081995 A KR19990081995 A KR 19990081995A KR 1019980705713 A KR1019980705713 A KR 1019980705713A KR 19980705713 A KR19980705713 A KR 19980705713A KR 19990081995 A KR19990081995 A KR 19990081995A
- Authority
- KR
- South Korea
- Prior art keywords
- spectral density
- speech
- noisy speech
- value
- background noise
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 31
- 230000002708 enhancing effect Effects 0.000 title 1
- 230000003595 spectral effect Effects 0.000 claims description 29
- 230000002787 reinforcement Effects 0.000 claims description 16
- 238000001914 filtration Methods 0.000 claims description 14
- 239000006185 dispersion Substances 0.000 claims description 2
- 230000003014 reinforcing effect Effects 0.000 claims description 2
- 230000000750 progressive effect Effects 0.000 claims 4
- 238000012935 Averaging Methods 0.000 claims 1
- 238000001228 spectrum Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000001629 suppression Effects 0.000 description 5
- 230000006872 improvement Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000003139 buffering effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 241001123248 Arma Species 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Noise Elimination (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Mobile Radio Communication Systems (AREA)
- Filters That Use Time-Delay Elements (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
배경 노이즈 PSD값을 결정하는 단계(22, 26)와, 노이지 스피치 파라미터들을 결정하는 단계(18)와, 상기 스피치 파라미터로부터 노이지 스피치 PSD값을 결정하는 단계(20)와, 상기 노이지 스피치 PSD값으로부터 배경 노이즈 PSD값을 공제하는 단계(30)와, 상기 강화 스피치 PSD값으로부터 보와 스피치 파라미터들을 산출하는 단계(32)를 통해 노이지 스피치 파라미터들을 강화한다.
Description
신호처리에 있어 공통의 문제는 노이즈로부터 신호를 강화하는 것이다. 예컨대, 통상의 경우나 셀룰러(cellular)인 경우 모두, 마이크로폰(microphone) 전화 시스템에서의 통화품질은 상기 신호 강화를 통해 향상시킬 수 있다. 한편, 실제상의 통화는, 셀룰러인 경우에서의 자동차 소음같은 특징적 노이즈로 인해 열화(de- grade)된다.
가끔 이용되는 노이즈 억제방법은 칼만 필터링(Kalman filtering)에 근거한 것인 바, 이는, 해당 필터링법이 특징적 노이즈를 처리할 수 있고 수치상의 적정 0복잡도를 지니고 있기 때문이다. 칼만 필터링에 근거한 노이즈 억제방법관련 주요 참고문헌은〔1〕에 기재되어 있다. 그러나, 칼만 필터링은 모델(model)에 바탕을 둔 변형형태로서, 노이즈뿐 아니라 통화까지도, 예를 들면, 오토그래시브(autogre- ssive, AR) 프로세스(processes)로 모델화한다. 즉, 칼만 필터링에 있어서의 주요 내용은, 해당 필터링 알고리즘(algorithm)이, 반드시 계산을 요하는 미지의 파라미터 세트(set)에 의존하는 점이다. 상기 파라미터 산출과 관련된 두가지 중대문제는, (i) 상기 스피치 AR 파라미터가 열화된 스피치 데이터(data)로부터 산출되며, (ii) 상기 스피치 데이터가 정적인 상태가 아니라는 점이다. 즉, 높은 가청품질을 갖는 칼만 필터 아웃풋(output)을 얻기 위해서는, 상기 산출 파라미터의 정확도 및 정밀도가 매우 중요하다.
본 발명은 노이지 스피치 파라미터(noisy speech parameter) 강화방법(en- hancement method) 및 그 이용가능한 장치, 예를 들면, 전화 시스템내의 노이즈 억제장치에 관한 것이다.
도 1은 본 발명에 따른 장치를 나타내는 블록 다이어그램,
도 2는 상기 도 1의 장치에 쓰이는 음성 활성도 검출기(voice activity de- tector)의 상태도(state diagram),
도 3은 본 발명에 따른 방법을 나타내는 플로우챠트(flow chart),
도 4는 노이지 스피치의 멱스팩트럼 밀도(power spectral density, PSD)의 본질적 특징을 나타내는 도면,
도 5는 배경 노이즈(background noise)에 대한 유사 PSD를 나타내는 도면,
도 6은 상기 도 4의 PSD로부터 상기 도 5의 PSD를 뺀 상태의 PSD를 나타내는 도면,
도 7은 본 발명에 따라 손실함수(loss function)의 형태로 확보된 개선효과를 나타내는 도면,
도 8은 본 발명에 따라 손실율(loss ratio)의 형태로 확보된 개선효과를 나타내는 도면이다.
본 발명의 목적은, 노이지 스피치의 파라미터를 산출하기 위한 개선된 방법 및 장치를 제공하는 것이다. 이들 강화된 스피치 파라미터들은, 상기 노이즈 억제를 목적으로 하여, 칼만 필터링 노이지 스피치에 이용할 수 있다. 그러나, 상기 강화된 스피치 파라미터들을, 스피치 엔코딩(encoding)에서의 스피치 파라미터로 직접 사용할 수도 있다.
상기 목적은 특허청구범위 제1항에 따른 방법과, 제11항에 따른 장치에 의해 달성된다.
첨부도면을 참조로 한 이하의 설명을 통하여, 본 발명, 그 목적 및 기타 장점들을 이해하게 될 것이다.
스피치 처리과정에 있어서, 인풋(input) 스피치는 가끔 배경 노이즈의 방해를 받는다. 예를 들면, 핸즈프리(hands-free) 이동전화기의 경우, 배경 노이즈에 대한 상기 스피치 비율은 0 dB 정도 또는 그 이하일 수도 있다. 그처럼 높은 노이즈 레벨(level)은, 그 자체의 높은 노이즈 레벨 때문만 아니라, 해당 노이지 스피치가 코드화되어 디지털 통신채널(communication channel)내를 거치는 동안 생성되는 가청음으로 인해 통화품질을 심히 열화시키게 된다. 상기 부산물로서의 가청음을 줄이기 위하여, 칼만 필터링〔1〕같은 노이즈 저감법을 통해 해당 노이지 인풋 스피치를 예비적으로 처리하는 수도 있다.
몇몇 노이즈 저감법(예컨대, 칼만 필터링)에 있어서는, 상기 오토그래시브( AR) 파라미터가 관계되어 있다. 즉, 이들 방법을 통해 높은 가청품질의 개선형 스피치 아웃풋을 얻기 위해서는, 노이지 스피치로부터의 정확한 AR 파라미터 산출이 필수적인 것이다. 상기 노이지 스피치 파라미터 강화법을 도 1-6에 의거 이하에서 설명한다.
도 1에 따르면, 마이크로폰(10)으로부터 연속 아나로그(analog) 신호(x(t))가 얻어진다. 신호(x(t))는 A/D변환기(12)로 보내진다. 이 A/D변환기(및 적절한 데이터 버플링(data buffering)은 오디오(audio) 데이터의 프레임(frame){x(k)}을 생성한다. 오디오 프레임은 8000Hz 샘플링 속도(sampling rate)하에서 100-300개의 오디오 샘플을 포함하는 것이 보통이다. 설명을 단순화하기 위하여, 프레임 길이 N=256인 경우를 가정한다. 상기 오디오 프레임{x(k)}은 음성 활성도 검출기(VAD)(14)로 보내지는 바, 이 음성 활성도 검출기는, 해당 VAD(14)의 상태에 의존하는 장치내 다른 블록으로 오디오 프레임{x(k)}을 보내주기 위한 스위치(16)를 제어하는 역할을 한다.
VAD(14)는 [2]에서 거론되는 바의 원리에 따라 설계할 수도 있으며, 보통, 스테이트 머신(state machine)의 형태로 지원된다. 도 2는 그러한 스테이트 머신의 가능 스테이트를 나타낸다. 스테이트 0인 경우, VAD(14)는 아이들(idle) 또는 "비활성"이며, 오디오 프레임{x(k)}이 더 이상 처리되지 않음을 의미한다. 스테이트 20은 노이즈 레벨 및 스피치 없음을 뜻한다. 스테이트 21은 노이즈 레벨 및 낮은 스피치/노이즈 비율을 의미한다. 이 상태는 주로 스피치 활성도 및 노이즈간 변환(transition) 과정동안에 주로 활성을 나타낸다. 끝으로, 스테이트 22는 노이즈 레벨 및 높은 스피치/노이즈 비율을 의미한다.
하나의 오디오 프레임{x(k)}은, 다음과 같이 표현될 수 있는 오디오 샘플들을 포함한다.
여기서, x(k)는 노이지 스피치 샘플을, s(k)는 스피치 샘플을, v(k)는 특징적 추가 배경 노이즈를 각각 나타낸다. 노이지 스피치 신호(x(k))는 프레임 전체에 걸쳐 불변인 것으로 한다. 또한, 스피치 신호(s(k))는 r차의 오토그래시브(AR) 모델을 통해 기술할 수 있다. 즉,
이때, ws(k)의 분산값(variance)은 σs 2으로 주어진다. 같은 원리로, v(k)는 q차의 AR모델로 나타낼 수 있다.
여기서, wv(k)의 분산은 σv 2으로 주어진다. 상기 r 및 q는 프레임 길이 R에 비해 매우 작다. 통상, r은 10 정도가 바람직하며, q는 0-7 범위내의 값, 예를 들면 4(q=0은, 일정상태의 멱스팩트럼 밀도, 즉, 화이트 노이즈(white noise)에 해당함) 정도임이 바람직하다. 스피치 AR모델링에 관한 추가정보는 [3]에 수록되어 있다.
나아가, 노이지 스피치의 상기 멱스팩트럼 밀도(power spectral density)(Φx(ω))는, 스피치의 멱스팩트럼 밀도(Φs(ω))와 배경 노이즈의 스팩트럼 밀도(Φv(ω))로 나누어진다. 즉,
상기 (2)식으로부터,
같은 방법으로, (3)식으로부터는,
(2)-(3)식으로부터, x(k)는, 멱스팩트럼 밀도(Φx(ω))를 갖는 오토그래시브 이동 평균(autogressive moving average, ARMA)모델과 일치한다. (Φx(ω)) 산출값(이하, 모자표시 "^"를 붙임)는 오토그래시브(AR) 모델을 통해 구할 수 있다.
의 파라미터 산출값이다. 여기서, wx(k)의 분산값은 σx 2로 주어지며, a≤p≤N이다. (7)식에서의 x(ω)는 일정 불변값이 아님을 주목해야 한다. 그러나, x(k)는 실제 불변값과는 거리가 멀기 때문에, 스피치 신호처리에 있어서 그다지 심각한 문제는 아니다.
도 1에 있어서, VAD(14)가 스피치를 표시하는 경우(도 2상에서의 스테이트 21 및 22), 신호 x(k)는, (8)식의 파라미터 σx 2및 {ai}를 구하는 노이지 스피치 AR산출기(18)로 보내진다. 이 산출과정은 [3]에 따라 시행된다(도 3상의 플로우챠트에서는 스탭 120에 해당한다). 상기 산출된 파라미터는 블록(20)으로 보내지는 바, 해당 블록에서는 (7)식에 따라 인풋 신호 x(k)의 멱스팩트럼 밀도를 계산한다(도 3상의 스탭 130).
상기 배경 노이즈를 장시간(long-time) 정지상태, 즉, 몇 개 프레임에 걸친 불변상태로 취급할 수 있는 것이 본 발명의 본질적 특징이다. 스피치 활성도는 보통, s(k)가 없는 기간에서의 상기 노이즈 모델을 산출할 수 있을 정도로 충분히 낮기 때문에, 노이지 스피치 프레임에서의 후속 이용을 위해 노이즈 프레임도중 해당 노이즈 모델 파라미터를 버퍼링(buffering)함으로써, 노이지 스피치 프레임중 노이즈의 멱스팩트럼 밀도 공제(subtraction)에 상기 장시간 정지상태라는 특징을 이용할 수도 있다. 즉, VAD(14)가 배경 노이즈를 표시하는 경우(도 2상의 스테이트 20), 상기 프레임은, 그 파라미터 σv 2및 {bi}를 구하는(도 3의 플로우챠트상에서는 스테이트 140에 해당함) 노이즈 AR산출기(22)로 보내진다. 앞서 언급한 바와 같이, 상기 산출된 파라미터들은, 노이지 스피치 프레임에서의 이용을 위해 버퍼(24)에 저장된다(도 3상에서의 스탭 150). 이들 파라미터들은, 그 필요시(노이지 스피치 프레임 도중), 상기 버퍼(24)로부터의 검색을 거치게 된다. 상기 파라미터들은, 또한, 상기 배경 노이즈의 멱스팩트럼 밀도 산출(도 3상의 스탭 160)을 위해 해당 노이즈 프레임중 어느때 블록(26)으로 보내지는 바, 이는, 그 후속 이용을 위해서는 상기 산출값이 버퍼링 과정을 거쳐야 함을 의미하는 한편, 버퍼링을 거치는 것은 파라미터뿐임을 뜻하는 것이기도 하다. 즉, 배경 노이즈만을 포함하는 프레임에 있어서는, 상기 산출된 파라미터들이 실제 강화목적으로 이용되지 않는다. 대신, 상기 노이즈 신호는, 해당 노이즈 레벨을 약화, 예를 들면, 10dB 정도로 하는(도 3상의 스탭 170) 약화기(attenuator)(28)로 보내진다.
(7)식에서 정의된 상기 멱스팩트럼 밀도(PSD) 산출값( x(ω))와, 상기 AR 파라미터 및 σv 2에 대해 "^"가 붙기는 해도, (6)식과 유사한 식으로 정의되는 PSD 산출값( v(ω))은 주파수(ω)의 함수이다. 이어지는 스탭은 실제 PSD 공제(sub- traction)를 수행하는 과정으로서, 블록(30)(도 3상의 스탭 180)에서 이루어진다. 본 발명에 따르면, 스피치 신호의 멱스팩트럼 밀도는 다음의 식으로 계산된다.
여기서, δ는 스칼라(scalar) 설계변수로서, 전형적으로 0<δ<4를 취한다. 보통의 경우, 1 정도로 한다(δ=1은 (4)식에 해당한다).
상기 강화된 PSD( s(ω))를 샘플링함에 있어서, 그 정확한 형상을 확보하기 위하여, 다수의 주파수(ω) 조건하에서 샘플링함은 본 발명의 본질적 특징이다. 실제, 상기 PSD는 일정간격을 갖는 다음 일련의 주파수 조건하에서 계산된다.
[3]을 참조하면, 일정간격을 갖는 PSD값 조합이 다음과 같이 주어진다.
상기 특징들은 도 4-6을 통해 도시된다. 도 4는 노이지 스피치의 전형적 PSD값(Φx(ω))을 나타낸다. 도 5는 배경 노이즈의 전형적 PSD값( v(ω))을 보여준다. 이 경우, 도 4 및 도 5상의 신호간에 있어 신호대 노이즈 비율(signal-to-noise ratio)은 0 dB이다. 도 6은, (9)식에 따른 노이즈 공제후의 상기 강화된 PSD값( s(ω))을 나타내는 바, δ=1인 경우이다. PSD값( s(ω))의 형상이 강화 스피치 파라미터 산출에 있어 중요(이하에서 설명할 것임)하기 때문에, 상기 강화된 PSD값( s(ω))을 충분한 수의 주파수 조건하에서 샘플링함으로써, 상기 함수(특히, 피크(peak)값)의 진정한 형상을 구하는 것 또한 본 발명의 본질적 특징이다.
실제에 있어서는, 상기 (6) 및 (7)식을 이용하여 s(ω)를 샘플링한다. 예컨대, (7)식의 경우, x(ω)는 신속 풀리에 변환(Fast Fourier Transform, FFT)을 통해 샘플링한다. 즉, 1, a1, a2,...,ap를 시퀀스(sequence)로 하여 그 FFT를 계산한다. 샘플수(M)는 p(p는 대략 10-20)보다 커야 하므로, 상기 시퀀스를 제로패드( zero pad)해야 할 수도 있다. 적절한 M값은 2의 멱수(冪數), 예를 들면, 64, 128, 256 등이다. 그러나, 상기 M값은 프레임 길이(예의 경우, N=256)보다 작은 수를 선택한다. 나아가, s(ω)가 멱수의 스팩트럼 밀도, 즉, 비음수(非陰數)이기 때문에, 상기 샘플링되는 s(ω)는, 그로부터의 강화 스피치 파라미터 계산에 앞서, 비음수라야 한다는 제한을 받게 된다.
상기 블록(30)에서 PSD 공제가 수행되고 나면, 상기 PSD값으로부터의 강화 스피치 파라미터 계산(도 3상의 스탭 190)을 위하여, 샘플들의 집합(collection)({ s(m)})이 블록(32)으로 보내진다. 이는 상기 블록(20 및 26)의 역과정으로서, AR 파라미터로부터 PSD값을 계산한다. 해당 PSD값으로부터 이들 파라미터들을 바로 유도하는 것은 불가능하기 때문에, 반복적 알고리즘을 이용해야만 한다. 시스템 검증(identification)을 위한 일반적 알고리즘, 예컨대, (4)식과 같은 식을 이용해도 무방하다.
또한, 상기 강화 파라미터를 산출하기 위한 바람직한 과정을 부록에서 설명한다.
이들 강화 파라미터는, 예를 들면, 스피치 엔코딩과 직접 연관지어 이용하든가, 또는, 도 1상의 노이즈 필터내 칼만 필터(34)같은 필터 제어용(도 3상의 스탭 200)으로 쓸 수도 있다. 칼만 필터(34)는 또한 상기 산출된 노이즈 AR 파라미터에 의한 제어도 받는 바, 이들 두 파라미터 조합은, 노이지 스피치를 포함한 프레임{x(k)}을 [1]에 기재된 바의 원리에 따라 필터링하기 위한 칼만 필터(34)를 제어한다.
상기 강화 스피치 파라미터만을 필요로 하는 경우에는, 실제 노이즈 AR 파라미터는 산출하지 않아도 된다(도 1상의 노이즈 억제장치에 있어서는, 상기 파라미터들이 칼만 필터(34)를 제어하는 관계로, 반드시 산출해야 함). 대신, Φv(ω)를 산출함에 있어서는 상기 장시간 정지상태의 배경 노이즈를 이용해도 무방하다. 예를 들면, 식
을 이용할 수 있다.
여기서, Φv(ω)(m)은, 프레임수(m)를 포함한 그 앞까지의 데이터에 근거한 (진행(running)) 평균 PSD값이고, v(ω)는 현재 프레임에 바탕을 둔 것이다( v(ω)는 페리오도그램(periodogram)(FFT)에 의해 상기 인풋 데이터로부터 직접 구할 수도 있음). 상기 스칼라 ρ∈(0,1)는 상기 v(k)의 추정 불변도에 따라 조절한다. τ개 프레임에 대한 평균은 대략 다음 식으로 주어진다.
상기 파라미터(ρ)는 0.95 정도의 값으로 한다.
바람직한 실시예의 경우, (12)식에 따른 평균산출 작업은, (6)식의 PSD 산출값에 대해서도 실시한다. 상기 평균산출 과정을 도 1상 블록(26)의 한 부분으로 할 수도 있으며, 또한, 도 3상 스탭 160의 일부로서 수행해도 무방하다.
도 1상의 실시예에 대한 수정으로서, 상기 약화기(28)를 삭제할 수도 있다. 그 대신, 칼만 필터(34)를 신호(x(k)) 약화기로 이용해도 된다. 이 경우, 상기 배경 노이즈 AR모델의 파라미터들은, 칼만 필터(34)의 양측 제어 인풋(control in- put)으로 보내지지만, 스피치 프레임중 강화 스피치 파라미터를 접수하는 해당 제어 인풋상에 있어 낮은 분산 파라미터(희망하는 바의 약화에 상당함)를 갖는다.
더욱이, 상기 강화 스피치 파라미터 산출로 인한 지연이 너무 길다고 판단되면, 본 발명의 수정 실시예에 따라서, 현재 프레임에 대한 상기 강화 스피치 파라미터를 후속 프레임 필터링용으로 이용하는 것도 가능하다(이 실시예의 경우, 스피치가 두 프레임에 걸쳐 불변인 것으로 함). 상기 수정 실시예에 있어서는, 스피치 프레임에 대한 강화 스피치 파라미터를, 앞선 스피치 프레임에서의 강화 파라미터를 갖는 해당 프레임 필터링과 동시에 계산할 수도 있다.
본 발명에 따른 방법의 기본적 알고리즘은 다음과 같이 종합할 수 있다.
스피치 포즈(pause)중에 있어,
M개 주파수 조합에 대한 상기 배경 노이즈의 PSD값( v(ω))을 산출한다. 이때, 어떤 종류의 PSD 산출기, 예로서, 파라메트릭(parametric) 또는 비파라메트릭(non-parametric)(페리오도그램)중 어느 것을 이용해도 무방함. (12)식에 따른 장시간 평균산출법을 적용함으로써, 해당 PSD 산출값의 에러 분산값(error vari- ance)을 줄일 수 있음.
스피치 활성도에 대하여: 각각의 프레임에 있어서,
{x(k)}를 근거로 AR 파라미터{ai}와 해당 노이지 스피치의 레지듀얼(resi- dual) 에러 분산값(σx 2)을 산출함.
이들 노이지 스피치 파라미터를 근거로 하여, M개 주파수 조합의 노이지 스피치에 대한 PSD값( x(ω))을 계산함.
상기 강화된 PSD값( s(ω))을 근거로 강화 AR 파라미터 및 해당 레지듀얼 분산을 계산함.
도 1의 장치중 거의 모든 블록은 하나 또는 몇 개의 마이크로(micro)/신호 프로세서(processor) 조합으로 이행됨이 바람직하다(예를 들면, 블록 14, 18, 20, 22, 26, 30, 32 및 34).
본 발명에 따른 방법의 효과를 알아보기 위하여 몇 개 시뮬레이션(simula- tion)을 실시했다. 최초 파라미터에 대한 상기 강화 파라미터의 개선효과를 측정코자, 200개의 각기 상이한 시뮬레이션에 대한 다음 값을 계산했다.
상기 값(손실함수)은 노이지 및 강화 파라미터 양쪽 모두에 대해 계산했다. 즉, (k)는 x(k) 또는 s(k)를 나타낸다. (14)식에 있어서, (·)(m)은 시뮬레이션수(m)에 대한 결과임을 뜻한다. 이들 두 파라미터는 도 7에 나타낸다. 도 8은 상기 두 파라미터간 비를 나타낸다. 이들 도면으로부터, 낮은 신호대 노이즈 비율(SNR<15 dB)에 있어서는 강화 파라미터가 노이지 파라미터보다 효과적인 반면, 높은 신호대 노이지 비율의 경우 양자는 거의 동일한 결과를 가져옴을 알 수 있다. 낮은 SNR값에 있어서, 상기 강화 및 노이지 파라미터간 SNR면에서의 개선효과는 주어진 수치(V)에 대해 7 dB급이었다.
당업자라면, 첨부된 특허청구범위에 명시된 본 발명의 기본취지를 벗어나지 않고서도, 다양한 수정 또는 변형이 가능함을 이해할 것이다.
이상 설명한 바와 같이, 본 발명의 노이지 스피치 파라미터 강화방법 및 장치는, 정확한 AR 파라미터 산출을 가능케 하는 관계로 통신분야에 있어 그 효용도가 지대한 발명이다.
부 록
상기 강화 파라미터를 산출함에 있어 그 수치적 차이를 보다 가시화하기 위하여, (11)식으로부터의 강화 PSD 데이터를 아래의 비선형 데이터 변환식에 따라 변환시켰다.
여기서,
이다. 한편, ε는, 사용자 선택, 또는, (k)를 실수(實數)로 하는 데이터 의존 스래쉬홀드(threshold)이다. 다소의 약식 방법(풀리에(Fourier) 전개식, 많은 수의 샘플, 및 높은 모델 급수(order)를 바탕으로 함)을 써서, 다음과 같은 흥미있는 주파수 간격(frequency interval)을 얻게 된다.
상기 (17)식은 다음과 같이 주어진다.
(18)식에서, γ(k)는 다음과 같이 정의된다.
이며, 초기값을 , Γ및 (0)으로 하여, 그 공분산 메트릭스(Pχ)는 다음 식에 의해 계산할 수 있다.
상기 알고리즘에 있어서, Γ(x) 및 χ의 관계는 다음 식으로 주어진다.
이때, γ(k)는 (19)식에 의해 구해진다.
로부터, 상기 χ에 대한 Γ(x)의 기울기는,
로 주어진다.
상기 (21)식은, Γ를 산출하기 위한 다수의 계산식을 포함한다. 이들 계산식의 주요부는 (M×M)메트릭스 Γ와의 곱셈 및 그 역위(inversion)로부터 시작된다. 그러나, Γ는 대각선에 가까운 관계로((18)식 참조), 다음 근사식을 얻을 수 있다.
여기서, I는 (M×M) 단위 메트릭스를 나타낸다. 즉, 바람직한 실시예에 따르면, 초기값을 및 (0)로 하여 다음과 같은 차선의 알고리즘을 사용해도 무방하다.
이때, (26)식에서의 G(k) 크기는 ((r+1)×M)이다.
참 고 문 헌
[1] J.D. Gibson, B. Koo and S.D. Gray, "Filtering of colored noise for speech enhancement and coding", IEEE Transaction on Acoustics, Speech and Signal Processing", vol.39, no.8, pp.1732-1742, August 1991.
[2] D.K. Freeman, G. Cosier, C.B. Southcott and I. Boyd, "The voice activity detector for the pan-European digital cellular mobile telephone service" 1989 IEEE International Conferance Acoustics, Speech, and Signal Processing, 1989, pp.489-502.
[3] J.S. Lim and A.V. Oppenheim, "All-pole modeling degraded speech", IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. ASSp-26, no.3, June 1978, pp.228-231.
[4] T. Soderstrom, P. Stoica and B. Friedlander, "An indirect prediction error method for system identification", Automatica, vol.27, no.1, pp.183-188, 1991.
Claims (17)
1차 배경 노이즈 샘플 조합으로부터, M개(M은 미리 정해진 양의 정수) 주파수에 있어 배경 노이지의 멱스팩트럼 밀도값을 결정하는 단계와;
2차 노이지 스피치 샘플 조합으로부터, p개(p는 상기 M보다 매우 작은 미리 정해진 양의 정수)의 오토그래시브 파라미터 및 1차 레지듀얼 분산값을 산출하는 단계와;
상기 p개의 오토그래시브 파라미터 및 상기 1차 레지듀얼 분산값으로부터, 상기 M개 주파수에서의 노이지 스피치 멱스팩트럼 밀도값을 결정하는 단계와;
미리 정해진 양의 변수가 곱해진 상기 배경 노이즈 멱스팩트럼 밀도값을 상기 노이지 스피치 멱스팩트럼 밀도값으로부터 공제함으로써, 강화 스피치 멱스팩트럼 밀도값을 결정하는 단계와;
상기 강화 스피치 멱스팩트럼 밀도로부터, r개(r은 미리 정해진 양의 정수)의 강화 오토그래시브 파라미터 및 강화 레지듀얼 분산값을 결정하는 단계를 포함하여 구성된 것을 특징으로 하는 노이지 스피치 파라미터 강화방법
제1항에 있어서, 상기 강화 스피치 멱스팩트럼 밀도값을 비음수로 한정하는 것을 특징으로 하는 노이지 스피치 파라미터 강화방법.
제2항에 있어서, 상기 미리 정해진 양의 변수가 0-4 범위인 것을 특징으로 하는 노이지 스피치 파라미터 강화방법.
제3항에 있어서, 상기 미리 정해진 양의 변수가 대략 1과 일치하는 것을 특징으로 하는 노이지 스피치 파라미터 강화방법.
제4항에 있어서, 상기 미리 정해진 정수(r)가 상기 미리 정해진 정수(p)와 일치하는 것을 특징으로 하는 노이지 스피치 파라미터 강화방법.
제5항에 있어서, 상기 1차 배경 노이즈 샘플 조합으로부터, q개(q는 p보다 작은 미리 정해진 양의 정수)의 오토그래시브 파라미터 및 2차 레지듀얼 분산값을 산출하는 단계와;
상기 q개의 오토그래시브 파라미터 및 상기 2차 레지듀얼 분산값으로부터, 상기 M개 주파수에서의 상기 배경 노이즈 멱스팩트럼 밀도값을 결정하는 단계를 포함하여 구성된 것을 특징으로 하는 노이지 스피치 파라미터 강화방법.
제1항 또는 제6항에 있어서, 상기 배경 노이즈 멱스팩트럼 밀도값을, 미리 정해진 배경 노이즈 샘플 조합수에 대하여 평균하는 것을 특징으로 하는 노이지 스피치 파라미터 강화방법.
제1항 내지 제7항중의 어느 한 항에 있어서, 3차 노이지 스피치 파라미터용 필터를 조정함에 있어 상기 강화 오토그래시브 파라미터 및 상기 강화 레지듀얼 분산값을 사용하는 것을 특징으로 하는 노이지 스피치 파라미터 강화방법.
제8항에 있어서, 상기 2차 및 3차 노이지 스피치 샘플 조합이 동일한 조합인 것을 특징으로 하는 노이지 스피치 파라미터 강화방법.
제8항 또는 제9항에 있어서, 상기 3차 노이지 스피치 샘플 조합을 칼만 필터링하는 것을 특징으로 하는 노이지 스피치 파라미터 강화방법.
1차 배경 노이즈 샘플 조합으로부터, M개(M은 미리 정해진 양의 정수) 배경 노이즈 멱스팩트럼 밀도값을 결정하기 위한 수단(22, 26)과;
2차 노이지 스피치 샘플 조합으로부터, p개(p는 M보다 상당히 작은 미리 정해진 양의 정수)의 오토그래시브 파라미터 및 1차 레지듀얼 분산값을 산출하기 위한 수단(18)과;
상기 p개의 오토그래시브 파라미터 및 상기 1차 레지듀얼 분산값으로부터, 상기 M개 주파수에서의 노이지 스피치 멱스팩트럼 밀도값을 결정하기 위한 수단(20)과;
미리 정해진 양의 변수가 곱해진 상기 배경 노이즈 스팩트럼 밀도값을 상기 노이지 스피치 멱스팩트럼 밀도값으로부터 공제함으로써, 강화 스피치 멱스팩트럼 밀도값을 결정하기 위한 수단(30)과;
상기 강화 스피치 멱스팩트럼 밀도값으로부터, r개(r은 미리 정해진 양의 정수) 강화 오토그래시브 파라미터 및 강화 레지듀얼 분산값을 결정하기 위한 수단(32)을 포함하여 구성된 것을 특징으로 하는 노이지 스피치 파라미터 강화장치.
제11항에 있어서, 상기 강화 스피치 멱스팩트럼 밀도값을 비음수값으로 한정하기 위한 수단(30)을 포함하여 구성된 것을 특징으로 하는 노이지 스피치 파라미터 강화장치.
제12항에 있어서, 상기 1차 배경 노이지 샘플 조합으로부터 q개(q는 p보다 작은 미리 정해진 양의 정수) 오토그래시브 파라미터 및 2차 레지듀얼 분산값을 계산하기 위한 수단(22)과;
상기 q개 오토그래시브 파라미터 및 상기 2차 레지듀얼 분산값으로부터, 상기 M개 주파수에서의 상기 배경 노이즈 멱스팩트럼 밀도값을 결정하기 위한 수단(26)을 포함하여 구성된 것을 특징으로 한 노이지 스피치 파라미터 강화장치.
제11항 또는 제13항에 있어서, 상기 배경 노이즈 멱스팩트럼 밀도값을, 미리 정해진 배경 노이즈 샘플 조합수에 대하여 평균하기 위한 장치를 포함하여 구성된 것을 특징으로 하는 노이지 스피치 파라미터 강화장치.
제11항 내지 제14항중의 어느 한 항에 있어서, 3차 노이지 스피치 샘플 필터링용 필터를 조정함에 있어 상기 강화 오토그래시브 파라미터 및 상기 강화 레지듀얼 분산값을 사용하기 위한 장치(34)를 포함하여 구성된 것을 특징으로 하는 노이지 스피치 파라미터 강화장치.
제15항에 있어서, 상기 3차 노이지 스피치 조합을 필터링하기 위한 수단이 칼만 필터(34)인 것을 특징으로 하는 노이지 스피치 파라미터 강화장치.
제15항에 있어서, 상기 3차 노이지 스피치 샘플 조합을 필터링하기 위한 수단이 칼만 필터(34)이며, 상기 2차 및 3차 노이지 스피치 샘플 조합이 동일한 조합인 것을 특징으로 하는 노이지 스피치 파라미터 강화장치.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SE9600363-7 | 1996-02-01 | ||
SE9600363A SE506034C2 (sv) | 1996-02-01 | 1996-02-01 | Förfarande och anordning för förbättring av parametrar representerande brusigt tal |
PCT/SE1997/000124 WO1997028527A1 (en) | 1996-02-01 | 1997-01-27 | A noisy speech parameter enhancement method and apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
KR19990081995A true KR19990081995A (ko) | 1999-11-15 |
KR100310030B1 KR100310030B1 (ko) | 2001-11-15 |
Family
ID=20401227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019980705713A KR100310030B1 (ko) | 1996-02-01 | 1997-01-27 | 노이지음성파라미터강화방법및장치 |
Country Status (10)
Country | Link |
---|---|
US (1) | US6324502B1 (ko) |
EP (1) | EP0897574B1 (ko) |
JP (1) | JP2000504434A (ko) |
KR (1) | KR100310030B1 (ko) |
CN (1) | CN1210608A (ko) |
AU (1) | AU711749B2 (ko) |
CA (1) | CA2243631A1 (ko) |
DE (1) | DE69714431T2 (ko) |
SE (1) | SE506034C2 (ko) |
WO (1) | WO1997028527A1 (ko) |
Families Citing this family (136)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6453285B1 (en) * | 1998-08-21 | 2002-09-17 | Polycom, Inc. | Speech activity detector for use in noise reduction system, and methods therefor |
US6289309B1 (en) * | 1998-12-16 | 2001-09-11 | Sarnoff Corporation | Noise spectrum tracking for speech enhancement |
FR2799601B1 (fr) * | 1999-10-08 | 2002-08-02 | Schlumberger Systems & Service | Dispositif et procede d'annulation de bruit |
US6980950B1 (en) * | 1999-10-22 | 2005-12-27 | Texas Instruments Incorporated | Automatic utterance detector with high noise immunity |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7035790B2 (en) * | 2000-06-02 | 2006-04-25 | Canon Kabushiki Kaisha | Speech processing system |
US7072833B2 (en) * | 2000-06-02 | 2006-07-04 | Canon Kabushiki Kaisha | Speech processing system |
US7010483B2 (en) * | 2000-06-02 | 2006-03-07 | Canon Kabushiki Kaisha | Speech processing system |
US20020026253A1 (en) * | 2000-06-02 | 2002-02-28 | Rajan Jebu Jacob | Speech processing apparatus |
US6983242B1 (en) * | 2000-08-21 | 2006-01-03 | Mindspeed Technologies, Inc. | Method for robust classification in speech coding |
US6463408B1 (en) * | 2000-11-22 | 2002-10-08 | Ericsson, Inc. | Systems and methods for improving power spectral estimation of speech signals |
DE10124189A1 (de) * | 2001-05-17 | 2002-11-21 | Siemens Ag | Verfahren zum Signalempfang |
GB2380644A (en) * | 2001-06-07 | 2003-04-09 | Canon Kk | Speech detection |
US7133825B2 (en) * | 2003-11-28 | 2006-11-07 | Skyworks Solutions, Inc. | Computationally efficient background noise suppressor for speech coding and speech recognition |
US20090163168A1 (en) * | 2005-04-26 | 2009-06-25 | Aalborg Universitet | Efficient initialization of iterative parameter estimation |
CN100336307C (zh) * | 2005-04-28 | 2007-09-05 | 北京航空航天大学 | 接收机射频系统电路内部噪声的分配方法 |
JP4690912B2 (ja) * | 2005-07-06 | 2011-06-01 | 日本電信電話株式会社 | 目的信号区間推定装置、目的信号区間推定方法、プログラム及び記録媒体 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7844453B2 (en) * | 2006-05-12 | 2010-11-30 | Qnx Software Systems Co. | Robust noise estimation |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
JP5291004B2 (ja) | 2007-03-02 | 2013-09-18 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | 通信ネットワークにおける方法及び装置 |
TWI420509B (zh) * | 2007-03-19 | 2013-12-21 | Dolby Lab Licensing Corp | 語音增強用雜訊變異量估計器 |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
EP2151822B8 (en) * | 2008-08-05 | 2018-10-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for processing an audio signal for speech enhancement using a feature extraction |
US8392181B2 (en) * | 2008-09-10 | 2013-03-05 | Texas Instruments Incorporated | Subtraction of a shaped component of a noise reduction spectrum from a combined signal |
US8244523B1 (en) * | 2009-04-08 | 2012-08-14 | Rockwell Collins, Inc. | Systems and methods for noise reduction |
US8548802B2 (en) * | 2009-05-22 | 2013-10-01 | Honda Motor Co., Ltd. | Acoustic data processor and acoustic data processing method for reduction of noise based on motion status |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US9324337B2 (en) * | 2009-11-17 | 2016-04-26 | Dolby Laboratories Licensing Corporation | Method and system for dialog enhancement |
US8600743B2 (en) * | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US8977584B2 (en) | 2010-01-25 | 2015-03-10 | Newvaluexchange Global Ai Llp | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
JP5834449B2 (ja) * | 2010-04-22 | 2015-12-24 | 富士通株式会社 | 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法 |
CN101930746B (zh) * | 2010-06-29 | 2012-05-02 | 上海大学 | 一种mp3压缩域音频自适应降噪方法 |
US8892436B2 (en) * | 2010-10-19 | 2014-11-18 | Samsung Electronics Co., Ltd. | Front-end processor for speech recognition, and speech recognizing apparatus and method using the same |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
CN103187068B (zh) * | 2011-12-30 | 2015-05-06 | 联芯科技有限公司 | 基于Kalman的先验信噪比估计方法、装置及噪声抑制方法 |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
CN102637438B (zh) * | 2012-03-23 | 2013-07-17 | 同济大学 | 一种语音滤波方法 |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
CN102890935B (zh) * | 2012-10-22 | 2014-02-26 | 北京工业大学 | 一种基于快速卡尔曼滤波的鲁棒语音增强方法 |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN110442699A (zh) | 2013-06-09 | 2019-11-12 | 苹果公司 | 操作数字助理的方法、计算机可读介质、电子设备和系统 |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
CN105023580B (zh) * | 2015-06-25 | 2018-11-13 | 中国人民解放军理工大学 | 基于可分离深度自动编码技术的无监督噪声估计和语音增强方法 |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
CN105788606A (zh) * | 2016-04-03 | 2016-07-20 | 武汉市康利得科技有限公司 | 一种用于拾音器的基于递归最小追踪的噪声估计方法 |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DE102017209585A1 (de) * | 2016-06-08 | 2017-12-14 | Ford Global Technologies, Llc | System und verfahren zur selektiven verstärkung eines akustischen signals |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11373667B2 (en) * | 2017-04-19 | 2022-06-28 | Synaptics Incorporated | Real-time single-channel speech enhancement in noisy and time-varying environments |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN107197090B (zh) * | 2017-05-18 | 2020-07-14 | 维沃移动通信有限公司 | 一种语音信号的接收方法及移动终端 |
EP3460795A1 (en) * | 2017-09-21 | 2019-03-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal processor and method for providing a processed audio signal reducing noise and reverberation |
US10481831B2 (en) * | 2017-10-02 | 2019-11-19 | Nuance Communications, Inc. | System and method for combined non-linear and late echo suppression |
CN110931007B (zh) * | 2019-12-04 | 2022-07-12 | 思必驰科技股份有限公司 | 语音识别方法及系统 |
CN114155870B (zh) * | 2021-12-02 | 2024-08-27 | 桂林电子科技大学 | 低信噪比下基于spp和nmf的环境音噪声抑制方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3266042D1 (en) * | 1981-09-24 | 1985-10-10 | Gretag Ag | Method and apparatus for reduced redundancy digital speech processing |
US4628529A (en) | 1985-07-01 | 1986-12-09 | Motorola, Inc. | Noise suppression system |
JP2642694B2 (ja) * | 1988-09-30 | 1997-08-20 | 三洋電機株式会社 | 雑音除去方法 |
EP0459364B1 (en) * | 1990-05-28 | 1996-08-14 | Matsushita Electric Industrial Co., Ltd. | Noise signal prediction system |
US5319703A (en) * | 1992-05-26 | 1994-06-07 | Vmx, Inc. | Apparatus and method for identifying speech and call-progression signals |
SE501981C2 (sv) | 1993-11-02 | 1995-07-03 | Ericsson Telefon Ab L M | Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler |
EP0681730A4 (en) | 1993-11-30 | 1997-12-17 | At & T Corp | REDUCTION OF TRANSMISSION NOISE IN COMMUNICATION SYSTEMS. |
-
1996
- 1996-02-01 SE SE9600363A patent/SE506034C2/sv not_active IP Right Cessation
-
1997
- 1997-01-09 US US08/781,515 patent/US6324502B1/en not_active Expired - Lifetime
- 1997-01-27 JP JP9527551A patent/JP2000504434A/ja active Pending
- 1997-01-27 WO PCT/SE1997/000124 patent/WO1997028527A1/en active IP Right Grant
- 1997-01-27 KR KR1019980705713A patent/KR100310030B1/ko not_active IP Right Cessation
- 1997-01-27 DE DE69714431T patent/DE69714431T2/de not_active Expired - Lifetime
- 1997-01-27 CN CN97191991A patent/CN1210608A/zh active Pending
- 1997-01-27 EP EP97902783A patent/EP0897574B1/en not_active Expired - Lifetime
- 1997-01-27 CA CA002243631A patent/CA2243631A1/en not_active Abandoned
- 1997-01-27 AU AU16790/97A patent/AU711749B2/en not_active Ceased
Also Published As
Publication number | Publication date |
---|---|
SE506034C2 (sv) | 1997-11-03 |
WO1997028527A1 (en) | 1997-08-07 |
DE69714431T2 (de) | 2003-02-20 |
EP0897574B1 (en) | 2002-07-31 |
SE9600363D0 (sv) | 1996-02-01 |
JP2000504434A (ja) | 2000-04-11 |
CN1210608A (zh) | 1999-03-10 |
AU1679097A (en) | 1997-08-22 |
KR100310030B1 (ko) | 2001-11-15 |
SE9600363L (sv) | 1997-08-02 |
DE69714431D1 (de) | 2002-09-05 |
CA2243631A1 (en) | 1997-08-07 |
US6324502B1 (en) | 2001-11-27 |
EP0897574A1 (en) | 1999-02-24 |
AU711749B2 (en) | 1999-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR19990081995A (ko) | 노이지 스피치 파라미터 강화방법 및 장치 | |
US5781883A (en) | Method for real-time reduction of voice telecommunications noise not measurable at its source | |
EP3439325B1 (en) | Automatically tuning an audio compressor to prevent distortion | |
CA2210490C (en) | Spectral subtraction noise suppression method | |
JP2714656B2 (ja) | 雑音抑圧システム | |
RU2507608C2 (ru) | Устройства и способы для обработки аудио сигнала с целью повышения разборчивости речи, используя функцию выделения нужных характеристик | |
US20040078199A1 (en) | Method for auditory based noise reduction and an apparatus for auditory based noise reduction | |
KR100594563B1 (ko) | 선형 컨벌루션 및 인과 필터링을 사용하는 스펙트럼 감산에 의한 신호 잡음 감소 | |
US7873114B2 (en) | Method and apparatus for quickly detecting a presence of abrupt noise and updating a noise estimate | |
JP3423906B2 (ja) | 音声の動作特性検出装置および検出方法 | |
KR100595799B1 (ko) | 스펙트럼 종속 지수 이득 함수 평균화를 이용한 스펙트럼공제에 의한 신호 잡음 저감 | |
KR20010075343A (ko) | 저비트율 스피치 코더용 노이즈 억제 방법 및 그 장치 | |
JPH08506427A (ja) | 雑音減少 | |
JPH09502814A (ja) | 音声活動検出装置 | |
JP2004272052A (ja) | 音声区間検出装置 | |
CN111261148B (zh) | 语音模型的训练方法、语音增强处理方法及相关设备 | |
Sorqvist et al. | Kalman filtering for low distortion speech enhancement in mobile communication | |
JPH11102197A (ja) | 雑音除去装置 | |
KR101993003B1 (ko) | 잡음 제거 장치 및 방법 | |
JP3204892B2 (ja) | 背景雑音消去装置 | |
JP2004061567A (ja) | ノイズキャンセラ | |
Wei et al. | Improved kalman filter-based speech enhancement. | |
PV et al. | Robust Acoustic Echo Suppression In Modulation Domain | |
JP2003517761A (ja) | 通信システムにおける音響バックグラウンドノイズを抑制するための方法と装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20070905 Year of fee payment: 7 |
|
LAPS | Lapse due to unpaid annual fee |