[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR19990081995A - 노이지 스피치 파라미터 강화방법 및 장치 - Google Patents

노이지 스피치 파라미터 강화방법 및 장치 Download PDF

Info

Publication number
KR19990081995A
KR19990081995A KR1019980705713A KR19980705713A KR19990081995A KR 19990081995 A KR19990081995 A KR 19990081995A KR 1019980705713 A KR1019980705713 A KR 1019980705713A KR 19980705713 A KR19980705713 A KR 19980705713A KR 19990081995 A KR19990081995 A KR 19990081995A
Authority
KR
South Korea
Prior art keywords
spectral density
speech
noisy speech
value
background noise
Prior art date
Application number
KR1019980705713A
Other languages
English (en)
Other versions
KR100310030B1 (ko
Inventor
페터 핸델
파트릭 쇨큐비스트
Original Assignee
크리스티안 웬너호름, 괴란 놀드런드흐
텔레폰아크티에볼라게트 엘엠 에릭슨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 크리스티안 웬너호름, 괴란 놀드런드흐, 텔레폰아크티에볼라게트 엘엠 에릭슨 filed Critical 크리스티안 웬너호름, 괴란 놀드런드흐
Publication of KR19990081995A publication Critical patent/KR19990081995A/ko
Application granted granted Critical
Publication of KR100310030B1 publication Critical patent/KR100310030B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Noise Elimination (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Filters That Use Time-Delay Elements (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

배경 노이즈 PSD값을 결정하는 단계(22, 26)와, 노이지 스피치 파라미터들을 결정하는 단계(18)와, 상기 스피치 파라미터로부터 노이지 스피치 PSD값을 결정하는 단계(20)와, 상기 노이지 스피치 PSD값으로부터 배경 노이즈 PSD값을 공제하는 단계(30)와, 상기 강화 스피치 PSD값으로부터 보와 스피치 파라미터들을 산출하는 단계(32)를 통해 노이지 스피치 파라미터들을 강화한다.

Description

노이지 스피치 파라미터 강화방법 및 장치
신호처리에 있어 공통의 문제는 노이즈로부터 신호를 강화하는 것이다. 예컨대, 통상의 경우나 셀룰러(cellular)인 경우 모두, 마이크로폰(microphone) 전화 시스템에서의 통화품질은 상기 신호 강화를 통해 향상시킬 수 있다. 한편, 실제상의 통화는, 셀룰러인 경우에서의 자동차 소음같은 특징적 노이즈로 인해 열화(de- grade)된다.
가끔 이용되는 노이즈 억제방법은 칼만 필터링(Kalman filtering)에 근거한 것인 바, 이는, 해당 필터링법이 특징적 노이즈를 처리할 수 있고 수치상의 적정 0복잡도를 지니고 있기 때문이다. 칼만 필터링에 근거한 노이즈 억제방법관련 주요 참고문헌은〔1〕에 기재되어 있다. 그러나, 칼만 필터링은 모델(model)에 바탕을 둔 변형형태로서, 노이즈뿐 아니라 통화까지도, 예를 들면, 오토그래시브(autogre- ssive, AR) 프로세스(processes)로 모델화한다. 즉, 칼만 필터링에 있어서의 주요 내용은, 해당 필터링 알고리즘(algorithm)이, 반드시 계산을 요하는 미지의 파라미터 세트(set)에 의존하는 점이다. 상기 파라미터 산출과 관련된 두가지 중대문제는, (i) 상기 스피치 AR 파라미터가 열화된 스피치 데이터(data)로부터 산출되며, (ii) 상기 스피치 데이터가 정적인 상태가 아니라는 점이다. 즉, 높은 가청품질을 갖는 칼만 필터 아웃풋(output)을 얻기 위해서는, 상기 산출 파라미터의 정확도 및 정밀도가 매우 중요하다.
본 발명은 노이지 스피치 파라미터(noisy speech parameter) 강화방법(en- hancement method) 및 그 이용가능한 장치, 예를 들면, 전화 시스템내의 노이즈 억제장치에 관한 것이다.
도 1은 본 발명에 따른 장치를 나타내는 블록 다이어그램,
도 2는 상기 도 1의 장치에 쓰이는 음성 활성도 검출기(voice activity de- tector)의 상태도(state diagram),
도 3은 본 발명에 따른 방법을 나타내는 플로우챠트(flow chart),
도 4는 노이지 스피치의 멱스팩트럼 밀도(power spectral density, PSD)의 본질적 특징을 나타내는 도면,
도 5는 배경 노이즈(background noise)에 대한 유사 PSD를 나타내는 도면,
도 6은 상기 도 4의 PSD로부터 상기 도 5의 PSD를 뺀 상태의 PSD를 나타내는 도면,
도 7은 본 발명에 따라 손실함수(loss function)의 형태로 확보된 개선효과를 나타내는 도면,
도 8은 본 발명에 따라 손실율(loss ratio)의 형태로 확보된 개선효과를 나타내는 도면이다.
본 발명의 목적은, 노이지 스피치의 파라미터를 산출하기 위한 개선된 방법 및 장치를 제공하는 것이다. 이들 강화된 스피치 파라미터들은, 상기 노이즈 억제를 목적으로 하여, 칼만 필터링 노이지 스피치에 이용할 수 있다. 그러나, 상기 강화된 스피치 파라미터들을, 스피치 엔코딩(encoding)에서의 스피치 파라미터로 직접 사용할 수도 있다.
상기 목적은 특허청구범위 제1항에 따른 방법과, 제11항에 따른 장치에 의해 달성된다.
첨부도면을 참조로 한 이하의 설명을 통하여, 본 발명, 그 목적 및 기타 장점들을 이해하게 될 것이다.
스피치 처리과정에 있어서, 인풋(input) 스피치는 가끔 배경 노이즈의 방해를 받는다. 예를 들면, 핸즈프리(hands-free) 이동전화기의 경우, 배경 노이즈에 대한 상기 스피치 비율은 0 dB 정도 또는 그 이하일 수도 있다. 그처럼 높은 노이즈 레벨(level)은, 그 자체의 높은 노이즈 레벨 때문만 아니라, 해당 노이지 스피치가 코드화되어 디지털 통신채널(communication channel)내를 거치는 동안 생성되는 가청음으로 인해 통화품질을 심히 열화시키게 된다. 상기 부산물로서의 가청음을 줄이기 위하여, 칼만 필터링〔1〕같은 노이즈 저감법을 통해 해당 노이지 인풋 스피치를 예비적으로 처리하는 수도 있다.
몇몇 노이즈 저감법(예컨대, 칼만 필터링)에 있어서는, 상기 오토그래시브( AR) 파라미터가 관계되어 있다. 즉, 이들 방법을 통해 높은 가청품질의 개선형 스피치 아웃풋을 얻기 위해서는, 노이지 스피치로부터의 정확한 AR 파라미터 산출이 필수적인 것이다. 상기 노이지 스피치 파라미터 강화법을 도 1-6에 의거 이하에서 설명한다.
도 1에 따르면, 마이크로폰(10)으로부터 연속 아나로그(analog) 신호(x(t))가 얻어진다. 신호(x(t))는 A/D변환기(12)로 보내진다. 이 A/D변환기(및 적절한 데이터 버플링(data buffering)은 오디오(audio) 데이터의 프레임(frame){x(k)}을 생성한다. 오디오 프레임은 8000Hz 샘플링 속도(sampling rate)하에서 100-300개의 오디오 샘플을 포함하는 것이 보통이다. 설명을 단순화하기 위하여, 프레임 길이 N=256인 경우를 가정한다. 상기 오디오 프레임{x(k)}은 음성 활성도 검출기(VAD)(14)로 보내지는 바, 이 음성 활성도 검출기는, 해당 VAD(14)의 상태에 의존하는 장치내 다른 블록으로 오디오 프레임{x(k)}을 보내주기 위한 스위치(16)를 제어하는 역할을 한다.
VAD(14)는 [2]에서 거론되는 바의 원리에 따라 설계할 수도 있으며, 보통, 스테이트 머신(state machine)의 형태로 지원된다. 도 2는 그러한 스테이트 머신의 가능 스테이트를 나타낸다. 스테이트 0인 경우, VAD(14)는 아이들(idle) 또는 "비활성"이며, 오디오 프레임{x(k)}이 더 이상 처리되지 않음을 의미한다. 스테이트 20은 노이즈 레벨 및 스피치 없음을 뜻한다. 스테이트 21은 노이즈 레벨 및 낮은 스피치/노이즈 비율을 의미한다. 이 상태는 주로 스피치 활성도 및 노이즈간 변환(transition) 과정동안에 주로 활성을 나타낸다. 끝으로, 스테이트 22는 노이즈 레벨 및 높은 스피치/노이즈 비율을 의미한다.
하나의 오디오 프레임{x(k)}은, 다음과 같이 표현될 수 있는 오디오 샘플들을 포함한다.
여기서, x(k)는 노이지 스피치 샘플을, s(k)는 스피치 샘플을, v(k)는 특징적 추가 배경 노이즈를 각각 나타낸다. 노이지 스피치 신호(x(k))는 프레임 전체에 걸쳐 불변인 것으로 한다. 또한, 스피치 신호(s(k))는 r차의 오토그래시브(AR) 모델을 통해 기술할 수 있다. 즉,
이때, ws(k)의 분산값(variance)은 σs 2으로 주어진다. 같은 원리로, v(k)는 q차의 AR모델로 나타낼 수 있다.
여기서, wv(k)의 분산은 σv 2으로 주어진다. 상기 r 및 q는 프레임 길이 R에 비해 매우 작다. 통상, r은 10 정도가 바람직하며, q는 0-7 범위내의 값, 예를 들면 4(q=0은, 일정상태의 멱스팩트럼 밀도, 즉, 화이트 노이즈(white noise)에 해당함) 정도임이 바람직하다. 스피치 AR모델링에 관한 추가정보는 [3]에 수록되어 있다.
나아가, 노이지 스피치의 상기 멱스팩트럼 밀도(power spectral density)(Φx(ω))는, 스피치의 멱스팩트럼 밀도(Φs(ω))와 배경 노이즈의 스팩트럼 밀도(Φv(ω))로 나누어진다. 즉,
상기 (2)식으로부터,
같은 방법으로, (3)식으로부터는,
(2)-(3)식으로부터, x(k)는, 멱스팩트럼 밀도(Φx(ω))를 갖는 오토그래시브 이동 평균(autogressive moving average, ARMA)모델과 일치한다. (Φx(ω)) 산출값(이하, 모자표시 "^"를 붙임)는 오토그래시브(AR) 모델을 통해 구할 수 있다.
x 2은, AR모델
의 파라미터 산출값이다. 여기서, wx(k)의 분산값은 σx 2로 주어지며, a≤p≤N이다. (7)식에서의 x(ω)는 일정 불변값이 아님을 주목해야 한다. 그러나, x(k)는 실제 불변값과는 거리가 멀기 때문에, 스피치 신호처리에 있어서 그다지 심각한 문제는 아니다.
도 1에 있어서, VAD(14)가 스피치를 표시하는 경우(도 2상에서의 스테이트 21 및 22), 신호 x(k)는, (8)식의 파라미터 σx 2및 {ai}를 구하는 노이지 스피치 AR산출기(18)로 보내진다. 이 산출과정은 [3]에 따라 시행된다(도 3상의 플로우챠트에서는 스탭 120에 해당한다). 상기 산출된 파라미터는 블록(20)으로 보내지는 바, 해당 블록에서는 (7)식에 따라 인풋 신호 x(k)의 멱스팩트럼 밀도를 계산한다(도 3상의 스탭 130).
상기 배경 노이즈를 장시간(long-time) 정지상태, 즉, 몇 개 프레임에 걸친 불변상태로 취급할 수 있는 것이 본 발명의 본질적 특징이다. 스피치 활성도는 보통, s(k)가 없는 기간에서의 상기 노이즈 모델을 산출할 수 있을 정도로 충분히 낮기 때문에, 노이지 스피치 프레임에서의 후속 이용을 위해 노이즈 프레임도중 해당 노이즈 모델 파라미터를 버퍼링(buffering)함으로써, 노이지 스피치 프레임중 노이즈의 멱스팩트럼 밀도 공제(subtraction)에 상기 장시간 정지상태라는 특징을 이용할 수도 있다. 즉, VAD(14)가 배경 노이즈를 표시하는 경우(도 2상의 스테이트 20), 상기 프레임은, 그 파라미터 σv 2및 {bi}를 구하는(도 3의 플로우챠트상에서는 스테이트 140에 해당함) 노이즈 AR산출기(22)로 보내진다. 앞서 언급한 바와 같이, 상기 산출된 파라미터들은, 노이지 스피치 프레임에서의 이용을 위해 버퍼(24)에 저장된다(도 3상에서의 스탭 150). 이들 파라미터들은, 그 필요시(노이지 스피치 프레임 도중), 상기 버퍼(24)로부터의 검색을 거치게 된다. 상기 파라미터들은, 또한, 상기 배경 노이즈의 멱스팩트럼 밀도 산출(도 3상의 스탭 160)을 위해 해당 노이즈 프레임중 어느때 블록(26)으로 보내지는 바, 이는, 그 후속 이용을 위해서는 상기 산출값이 버퍼링 과정을 거쳐야 함을 의미하는 한편, 버퍼링을 거치는 것은 파라미터뿐임을 뜻하는 것이기도 하다. 즉, 배경 노이즈만을 포함하는 프레임에 있어서는, 상기 산출된 파라미터들이 실제 강화목적으로 이용되지 않는다. 대신, 상기 노이즈 신호는, 해당 노이즈 레벨을 약화, 예를 들면, 10dB 정도로 하는(도 3상의 스탭 170) 약화기(attenuator)(28)로 보내진다.
(7)식에서 정의된 상기 멱스팩트럼 밀도(PSD) 산출값( x(ω))와, 상기 AR 파라미터 및 σv 2에 대해 "^"가 붙기는 해도, (6)식과 유사한 식으로 정의되는 PSD 산출값( v(ω))은 주파수(ω)의 함수이다. 이어지는 스탭은 실제 PSD 공제(sub- traction)를 수행하는 과정으로서, 블록(30)(도 3상의 스탭 180)에서 이루어진다. 본 발명에 따르면, 스피치 신호의 멱스팩트럼 밀도는 다음의 식으로 계산된다.
여기서, δ는 스칼라(scalar) 설계변수로서, 전형적으로 0<δ<4를 취한다. 보통의 경우, 1 정도로 한다(δ=1은 (4)식에 해당한다).
상기 강화된 PSD( s(ω))를 샘플링함에 있어서, 그 정확한 형상을 확보하기 위하여, 다수의 주파수(ω) 조건하에서 샘플링함은 본 발명의 본질적 특징이다. 실제, 상기 PSD는 일정간격을 갖는 다음 일련의 주파수 조건하에서 계산된다.
[3]을 참조하면, 일정간격을 갖는 PSD값 조합이 다음과 같이 주어진다.
상기 특징들은 도 4-6을 통해 도시된다. 도 4는 노이지 스피치의 전형적 PSD값(Φx(ω))을 나타낸다. 도 5는 배경 노이즈의 전형적 PSD값( v(ω))을 보여준다. 이 경우, 도 4 및 도 5상의 신호간에 있어 신호대 노이즈 비율(signal-to-noise ratio)은 0 dB이다. 도 6은, (9)식에 따른 노이즈 공제후의 상기 강화된 PSD값( s(ω))을 나타내는 바, δ=1인 경우이다. PSD값( s(ω))의 형상이 강화 스피치 파라미터 산출에 있어 중요(이하에서 설명할 것임)하기 때문에, 상기 강화된 PSD값( s(ω))을 충분한 수의 주파수 조건하에서 샘플링함으로써, 상기 함수(특히, 피크(peak)값)의 진정한 형상을 구하는 것 또한 본 발명의 본질적 특징이다.
실제에 있어서는, 상기 (6) 및 (7)식을 이용하여 s(ω)를 샘플링한다. 예컨대, (7)식의 경우, x(ω)는 신속 풀리에 변환(Fast Fourier Transform, FFT)을 통해 샘플링한다. 즉, 1, a1, a2,...,ap를 시퀀스(sequence)로 하여 그 FFT를 계산한다. 샘플수(M)는 p(p는 대략 10-20)보다 커야 하므로, 상기 시퀀스를 제로패드( zero pad)해야 할 수도 있다. 적절한 M값은 2의 멱수(冪數), 예를 들면, 64, 128, 256 등이다. 그러나, 상기 M값은 프레임 길이(예의 경우, N=256)보다 작은 수를 선택한다. 나아가, s(ω)가 멱수의 스팩트럼 밀도, 즉, 비음수(非陰數)이기 때문에, 상기 샘플링되는 s(ω)는, 그로부터의 강화 스피치 파라미터 계산에 앞서, 비음수라야 한다는 제한을 받게 된다.
상기 블록(30)에서 PSD 공제가 수행되고 나면, 상기 PSD값으로부터의 강화 스피치 파라미터 계산(도 3상의 스탭 190)을 위하여, 샘플들의 집합(collection)({ s(m)})이 블록(32)으로 보내진다. 이는 상기 블록(20 및 26)의 역과정으로서, AR 파라미터로부터 PSD값을 계산한다. 해당 PSD값으로부터 이들 파라미터들을 바로 유도하는 것은 불가능하기 때문에, 반복적 알고리즘을 이용해야만 한다. 시스템 검증(identification)을 위한 일반적 알고리즘, 예컨대, (4)식과 같은 식을 이용해도 무방하다.
또한, 상기 강화 파라미터를 산출하기 위한 바람직한 과정을 부록에서 설명한다.
이들 강화 파라미터는, 예를 들면, 스피치 엔코딩과 직접 연관지어 이용하든가, 또는, 도 1상의 노이즈 필터내 칼만 필터(34)같은 필터 제어용(도 3상의 스탭 200)으로 쓸 수도 있다. 칼만 필터(34)는 또한 상기 산출된 노이즈 AR 파라미터에 의한 제어도 받는 바, 이들 두 파라미터 조합은, 노이지 스피치를 포함한 프레임{x(k)}을 [1]에 기재된 바의 원리에 따라 필터링하기 위한 칼만 필터(34)를 제어한다.
상기 강화 스피치 파라미터만을 필요로 하는 경우에는, 실제 노이즈 AR 파라미터는 산출하지 않아도 된다(도 1상의 노이즈 억제장치에 있어서는, 상기 파라미터들이 칼만 필터(34)를 제어하는 관계로, 반드시 산출해야 함). 대신, Φv(ω)를 산출함에 있어서는 상기 장시간 정지상태의 배경 노이즈를 이용해도 무방하다. 예를 들면, 식
을 이용할 수 있다.
여기서, Φv(ω)(m)은, 프레임수(m)를 포함한 그 앞까지의 데이터에 근거한 (진행(running)) 평균 PSD값이고, v(ω)는 현재 프레임에 바탕을 둔 것이다( v(ω)는 페리오도그램(periodogram)(FFT)에 의해 상기 인풋 데이터로부터 직접 구할 수도 있음). 상기 스칼라 ρ∈(0,1)는 상기 v(k)의 추정 불변도에 따라 조절한다. τ개 프레임에 대한 평균은 대략 다음 식으로 주어진다.
상기 파라미터(ρ)는 0.95 정도의 값으로 한다.
바람직한 실시예의 경우, (12)식에 따른 평균산출 작업은, (6)식의 PSD 산출값에 대해서도 실시한다. 상기 평균산출 과정을 도 1상 블록(26)의 한 부분으로 할 수도 있으며, 또한, 도 3상 스탭 160의 일부로서 수행해도 무방하다.
도 1상의 실시예에 대한 수정으로서, 상기 약화기(28)를 삭제할 수도 있다. 그 대신, 칼만 필터(34)를 신호(x(k)) 약화기로 이용해도 된다. 이 경우, 상기 배경 노이즈 AR모델의 파라미터들은, 칼만 필터(34)의 양측 제어 인풋(control in- put)으로 보내지지만, 스피치 프레임중 강화 스피치 파라미터를 접수하는 해당 제어 인풋상에 있어 낮은 분산 파라미터(희망하는 바의 약화에 상당함)를 갖는다.
더욱이, 상기 강화 스피치 파라미터 산출로 인한 지연이 너무 길다고 판단되면, 본 발명의 수정 실시예에 따라서, 현재 프레임에 대한 상기 강화 스피치 파라미터를 후속 프레임 필터링용으로 이용하는 것도 가능하다(이 실시예의 경우, 스피치가 두 프레임에 걸쳐 불변인 것으로 함). 상기 수정 실시예에 있어서는, 스피치 프레임에 대한 강화 스피치 파라미터를, 앞선 스피치 프레임에서의 강화 파라미터를 갖는 해당 프레임 필터링과 동시에 계산할 수도 있다.
본 발명에 따른 방법의 기본적 알고리즘은 다음과 같이 종합할 수 있다.
스피치 포즈(pause)중에 있어,
M개 주파수 조합에 대한 상기 배경 노이즈의 PSD값( v(ω))을 산출한다. 이때, 어떤 종류의 PSD 산출기, 예로서, 파라메트릭(parametric) 또는 비파라메트릭(non-parametric)(페리오도그램)중 어느 것을 이용해도 무방함. (12)식에 따른 장시간 평균산출법을 적용함으로써, 해당 PSD 산출값의 에러 분산값(error vari- ance)을 줄일 수 있음.
스피치 활성도에 대하여: 각각의 프레임에 있어서,
{x(k)}를 근거로 AR 파라미터{ai}와 해당 노이지 스피치의 레지듀얼(resi- dual) 에러 분산값(σx 2)을 산출함.
이들 노이지 스피치 파라미터를 근거로 하여, M개 주파수 조합의 노이지 스피치에 대한 PSD값( x(ω))을 계산함.
x(ω) 및 v(ω)를 근거로, (9)식을 이용하여, 스피치 PSD값( s(ω))을 계산함. 스칼라(δ)는 대략 1 정도인 설계변수임.
상기 강화된 PSD값( s(ω))을 근거로 강화 AR 파라미터 및 해당 레지듀얼 분산을 계산함.
도 1의 장치중 거의 모든 블록은 하나 또는 몇 개의 마이크로(micro)/신호 프로세서(processor) 조합으로 이행됨이 바람직하다(예를 들면, 블록 14, 18, 20, 22, 26, 30, 32 및 34).
본 발명에 따른 방법의 효과를 알아보기 위하여 몇 개 시뮬레이션(simula- tion)을 실시했다. 최초 파라미터에 대한 상기 강화 파라미터의 개선효과를 측정코자, 200개의 각기 상이한 시뮬레이션에 대한 다음 값을 계산했다.
상기 값(손실함수)은 노이지 및 강화 파라미터 양쪽 모두에 대해 계산했다. 즉, (k)는 x(k) 또는 s(k)를 나타낸다. (14)식에 있어서, (·)(m)은 시뮬레이션수(m)에 대한 결과임을 뜻한다. 이들 두 파라미터는 도 7에 나타낸다. 도 8은 상기 두 파라미터간 비를 나타낸다. 이들 도면으로부터, 낮은 신호대 노이즈 비율(SNR<15 dB)에 있어서는 강화 파라미터가 노이지 파라미터보다 효과적인 반면, 높은 신호대 노이지 비율의 경우 양자는 거의 동일한 결과를 가져옴을 알 수 있다. 낮은 SNR값에 있어서, 상기 강화 및 노이지 파라미터간 SNR면에서의 개선효과는 주어진 수치(V)에 대해 7 dB급이었다.
당업자라면, 첨부된 특허청구범위에 명시된 본 발명의 기본취지를 벗어나지 않고서도, 다양한 수정 또는 변형이 가능함을 이해할 것이다.
이상 설명한 바와 같이, 본 발명의 노이지 스피치 파라미터 강화방법 및 장치는, 정확한 AR 파라미터 산출을 가능케 하는 관계로 통신분야에 있어 그 효용도가 지대한 발명이다.
부 록
상기 강화 파라미터를 산출함에 있어 그 수치적 차이를 보다 가시화하기 위하여, (11)식으로부터의 강화 PSD 데이터를 아래의 비선형 데이터 변환식에 따라 변환시켰다.
여기서,
이다. 한편, ε는, 사용자 선택, 또는, (k)를 실수(實數)로 하는 데이터 의존 스래쉬홀드(threshold)이다. 다소의 약식 방법(풀리에(Fourier) 전개식, 많은 수의 샘플, 및 높은 모델 급수(order)를 바탕으로 함)을 써서, 다음과 같은 흥미있는 주파수 간격(frequency interval)을 얻게 된다.
상기 (17)식은 다음과 같이 주어진다.
(18)식에서, γ(k)는 다음과 같이 정의된다.
값 및 해당 공분산(covariance) 메트릭스(matrix) Γ를 불변값으로 가정하면, 상기 벡터는,
이며, 초기값을 , Γ (0)으로 하여, 그 공분산 메트릭스(Pχ)는 다음 식에 의해 계산할 수 있다.
상기 알고리즘에 있어서, Γ(x) 및 χ의 관계는 다음 식으로 주어진다.
이때, γ(k)는 (19)식에 의해 구해진다.
로부터, 상기 χ에 대한 Γ(x)의 기울기는,
로 주어진다.
상기 (21)식은, Γ를 산출하기 위한 다수의 계산식을 포함한다. 이들 계산식의 주요부는 (M×M)메트릭스 Γ와의 곱셈 및 그 역위(inversion)로부터 시작된다. 그러나, Γ는 대각선에 가까운 관계로((18)식 참조), 다음 근사식을 얻을 수 있다.
여기서, I는 (M×M) 단위 메트릭스를 나타낸다. 즉, 바람직한 실시예에 따르면, 초기값을 (0)로 하여 다음과 같은 차선의 알고리즘을 사용해도 무방하다.
이때, (26)식에서의 G(k) 크기는 ((r+1)×M)이다.
참 고 문 헌
[1] J.D. Gibson, B. Koo and S.D. Gray, "Filtering of colored noise for speech enhancement and coding", IEEE Transaction on Acoustics, Speech and Signal Processing", vol.39, no.8, pp.1732-1742, August 1991.
[2] D.K. Freeman, G. Cosier, C.B. Southcott and I. Boyd, "The voice activity detector for the pan-European digital cellular mobile telephone service" 1989 IEEE International Conferance Acoustics, Speech, and Signal Processing, 1989, pp.489-502.
[3] J.S. Lim and A.V. Oppenheim, "All-pole modeling degraded speech", IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. ASSp-26, no.3, June 1978, pp.228-231.
[4] T. Soderstrom, P. Stoica and B. Friedlander, "An indirect prediction error method for system identification", Automatica, vol.27, no.1, pp.183-188, 1991.

Claims (17)

1차 배경 노이즈 샘플 조합으로부터, M개(M은 미리 정해진 양의 정수) 주파수에 있어 배경 노이지의 멱스팩트럼 밀도값을 결정하는 단계와;
2차 노이지 스피치 샘플 조합으로부터, p개(p는 상기 M보다 매우 작은 미리 정해진 양의 정수)의 오토그래시브 파라미터 및 1차 레지듀얼 분산값을 산출하는 단계와;
상기 p개의 오토그래시브 파라미터 및 상기 1차 레지듀얼 분산값으로부터, 상기 M개 주파수에서의 노이지 스피치 멱스팩트럼 밀도값을 결정하는 단계와;
미리 정해진 양의 변수가 곱해진 상기 배경 노이즈 멱스팩트럼 밀도값을 상기 노이지 스피치 멱스팩트럼 밀도값으로부터 공제함으로써, 강화 스피치 멱스팩트럼 밀도값을 결정하는 단계와;
상기 강화 스피치 멱스팩트럼 밀도로부터, r개(r은 미리 정해진 양의 정수)의 강화 오토그래시브 파라미터 및 강화 레지듀얼 분산값을 결정하는 단계를 포함하여 구성된 것을 특징으로 하는 노이지 스피치 파라미터 강화방법
제1항에 있어서, 상기 강화 스피치 멱스팩트럼 밀도값을 비음수로 한정하는 것을 특징으로 하는 노이지 스피치 파라미터 강화방법.
제2항에 있어서, 상기 미리 정해진 양의 변수가 0-4 범위인 것을 특징으로 하는 노이지 스피치 파라미터 강화방법.
제3항에 있어서, 상기 미리 정해진 양의 변수가 대략 1과 일치하는 것을 특징으로 하는 노이지 스피치 파라미터 강화방법.
제4항에 있어서, 상기 미리 정해진 정수(r)가 상기 미리 정해진 정수(p)와 일치하는 것을 특징으로 하는 노이지 스피치 파라미터 강화방법.
제5항에 있어서, 상기 1차 배경 노이즈 샘플 조합으로부터, q개(q는 p보다 작은 미리 정해진 양의 정수)의 오토그래시브 파라미터 및 2차 레지듀얼 분산값을 산출하는 단계와;
상기 q개의 오토그래시브 파라미터 및 상기 2차 레지듀얼 분산값으로부터, 상기 M개 주파수에서의 상기 배경 노이즈 멱스팩트럼 밀도값을 결정하는 단계를 포함하여 구성된 것을 특징으로 하는 노이지 스피치 파라미터 강화방법.
제1항 또는 제6항에 있어서, 상기 배경 노이즈 멱스팩트럼 밀도값을, 미리 정해진 배경 노이즈 샘플 조합수에 대하여 평균하는 것을 특징으로 하는 노이지 스피치 파라미터 강화방법.
제1항 내지 제7항중의 어느 한 항에 있어서, 3차 노이지 스피치 파라미터용 필터를 조정함에 있어 상기 강화 오토그래시브 파라미터 및 상기 강화 레지듀얼 분산값을 사용하는 것을 특징으로 하는 노이지 스피치 파라미터 강화방법.
제8항에 있어서, 상기 2차 및 3차 노이지 스피치 샘플 조합이 동일한 조합인 것을 특징으로 하는 노이지 스피치 파라미터 강화방법.
제8항 또는 제9항에 있어서, 상기 3차 노이지 스피치 샘플 조합을 칼만 필터링하는 것을 특징으로 하는 노이지 스피치 파라미터 강화방법.
1차 배경 노이즈 샘플 조합으로부터, M개(M은 미리 정해진 양의 정수) 배경 노이즈 멱스팩트럼 밀도값을 결정하기 위한 수단(22, 26)과;
2차 노이지 스피치 샘플 조합으로부터, p개(p는 M보다 상당히 작은 미리 정해진 양의 정수)의 오토그래시브 파라미터 및 1차 레지듀얼 분산값을 산출하기 위한 수단(18)과;
상기 p개의 오토그래시브 파라미터 및 상기 1차 레지듀얼 분산값으로부터, 상기 M개 주파수에서의 노이지 스피치 멱스팩트럼 밀도값을 결정하기 위한 수단(20)과;
미리 정해진 양의 변수가 곱해진 상기 배경 노이즈 스팩트럼 밀도값을 상기 노이지 스피치 멱스팩트럼 밀도값으로부터 공제함으로써, 강화 스피치 멱스팩트럼 밀도값을 결정하기 위한 수단(30)과;
상기 강화 스피치 멱스팩트럼 밀도값으로부터, r개(r은 미리 정해진 양의 정수) 강화 오토그래시브 파라미터 및 강화 레지듀얼 분산값을 결정하기 위한 수단(32)을 포함하여 구성된 것을 특징으로 하는 노이지 스피치 파라미터 강화장치.
제11항에 있어서, 상기 강화 스피치 멱스팩트럼 밀도값을 비음수값으로 한정하기 위한 수단(30)을 포함하여 구성된 것을 특징으로 하는 노이지 스피치 파라미터 강화장치.
제12항에 있어서, 상기 1차 배경 노이지 샘플 조합으로부터 q개(q는 p보다 작은 미리 정해진 양의 정수) 오토그래시브 파라미터 및 2차 레지듀얼 분산값을 계산하기 위한 수단(22)과;
상기 q개 오토그래시브 파라미터 및 상기 2차 레지듀얼 분산값으로부터, 상기 M개 주파수에서의 상기 배경 노이즈 멱스팩트럼 밀도값을 결정하기 위한 수단(26)을 포함하여 구성된 것을 특징으로 한 노이지 스피치 파라미터 강화장치.
제11항 또는 제13항에 있어서, 상기 배경 노이즈 멱스팩트럼 밀도값을, 미리 정해진 배경 노이즈 샘플 조합수에 대하여 평균하기 위한 장치를 포함하여 구성된 것을 특징으로 하는 노이지 스피치 파라미터 강화장치.
제11항 내지 제14항중의 어느 한 항에 있어서, 3차 노이지 스피치 샘플 필터링용 필터를 조정함에 있어 상기 강화 오토그래시브 파라미터 및 상기 강화 레지듀얼 분산값을 사용하기 위한 장치(34)를 포함하여 구성된 것을 특징으로 하는 노이지 스피치 파라미터 강화장치.
제15항에 있어서, 상기 3차 노이지 스피치 조합을 필터링하기 위한 수단이 칼만 필터(34)인 것을 특징으로 하는 노이지 스피치 파라미터 강화장치.
제15항에 있어서, 상기 3차 노이지 스피치 샘플 조합을 필터링하기 위한 수단이 칼만 필터(34)이며, 상기 2차 및 3차 노이지 스피치 샘플 조합이 동일한 조합인 것을 특징으로 하는 노이지 스피치 파라미터 강화장치.
KR1019980705713A 1996-02-01 1997-01-27 노이지음성파라미터강화방법및장치 KR100310030B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SE9600363-7 1996-02-01
SE9600363A SE506034C2 (sv) 1996-02-01 1996-02-01 Förfarande och anordning för förbättring av parametrar representerande brusigt tal
PCT/SE1997/000124 WO1997028527A1 (en) 1996-02-01 1997-01-27 A noisy speech parameter enhancement method and apparatus

Publications (2)

Publication Number Publication Date
KR19990081995A true KR19990081995A (ko) 1999-11-15
KR100310030B1 KR100310030B1 (ko) 2001-11-15

Family

ID=20401227

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980705713A KR100310030B1 (ko) 1996-02-01 1997-01-27 노이지음성파라미터강화방법및장치

Country Status (10)

Country Link
US (1) US6324502B1 (ko)
EP (1) EP0897574B1 (ko)
JP (1) JP2000504434A (ko)
KR (1) KR100310030B1 (ko)
CN (1) CN1210608A (ko)
AU (1) AU711749B2 (ko)
CA (1) CA2243631A1 (ko)
DE (1) DE69714431T2 (ko)
SE (1) SE506034C2 (ko)
WO (1) WO1997028527A1 (ko)

Families Citing this family (136)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6289309B1 (en) * 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
FR2799601B1 (fr) * 1999-10-08 2002-08-02 Schlumberger Systems & Service Dispositif et procede d'annulation de bruit
US6980950B1 (en) * 1999-10-22 2005-12-27 Texas Instruments Incorporated Automatic utterance detector with high noise immunity
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7035790B2 (en) * 2000-06-02 2006-04-25 Canon Kabushiki Kaisha Speech processing system
US7072833B2 (en) * 2000-06-02 2006-07-04 Canon Kabushiki Kaisha Speech processing system
US7010483B2 (en) * 2000-06-02 2006-03-07 Canon Kabushiki Kaisha Speech processing system
US20020026253A1 (en) * 2000-06-02 2002-02-28 Rajan Jebu Jacob Speech processing apparatus
US6983242B1 (en) * 2000-08-21 2006-01-03 Mindspeed Technologies, Inc. Method for robust classification in speech coding
US6463408B1 (en) * 2000-11-22 2002-10-08 Ericsson, Inc. Systems and methods for improving power spectral estimation of speech signals
DE10124189A1 (de) * 2001-05-17 2002-11-21 Siemens Ag Verfahren zum Signalempfang
GB2380644A (en) * 2001-06-07 2003-04-09 Canon Kk Speech detection
US7133825B2 (en) * 2003-11-28 2006-11-07 Skyworks Solutions, Inc. Computationally efficient background noise suppressor for speech coding and speech recognition
US20090163168A1 (en) * 2005-04-26 2009-06-25 Aalborg Universitet Efficient initialization of iterative parameter estimation
CN100336307C (zh) * 2005-04-28 2007-09-05 北京航空航天大学 接收机射频系统电路内部噪声的分配方法
JP4690912B2 (ja) * 2005-07-06 2011-06-01 日本電信電話株式会社 目的信号区間推定装置、目的信号区間推定方法、プログラム及び記録媒体
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7844453B2 (en) * 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP5291004B2 (ja) 2007-03-02 2013-09-18 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 通信ネットワークにおける方法及び装置
TWI420509B (zh) * 2007-03-19 2013-12-21 Dolby Lab Licensing Corp 語音增強用雜訊變異量估計器
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
EP2151822B8 (en) * 2008-08-05 2018-10-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
US8392181B2 (en) * 2008-09-10 2013-03-05 Texas Instruments Incorporated Subtraction of a shaped component of a noise reduction spectrum from a combined signal
US8244523B1 (en) * 2009-04-08 2012-08-14 Rockwell Collins, Inc. Systems and methods for noise reduction
US8548802B2 (en) * 2009-05-22 2013-10-01 Honda Motor Co., Ltd. Acoustic data processor and acoustic data processing method for reduction of noise based on motion status
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US9324337B2 (en) * 2009-11-17 2016-04-26 Dolby Laboratories Licensing Corporation Method and system for dialog enhancement
US8600743B2 (en) * 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US8977584B2 (en) 2010-01-25 2015-03-10 Newvaluexchange Global Ai Llp Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
JP5834449B2 (ja) * 2010-04-22 2015-12-24 富士通株式会社 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
CN101930746B (zh) * 2010-06-29 2012-05-02 上海大学 一种mp3压缩域音频自适应降噪方法
US8892436B2 (en) * 2010-10-19 2014-11-18 Samsung Electronics Co., Ltd. Front-end processor for speech recognition, and speech recognizing apparatus and method using the same
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
CN103187068B (zh) * 2011-12-30 2015-05-06 联芯科技有限公司 基于Kalman的先验信噪比估计方法、装置及噪声抑制方法
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
CN102637438B (zh) * 2012-03-23 2013-07-17 同济大学 一种语音滤波方法
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN102890935B (zh) * 2012-10-22 2014-02-26 北京工业大学 一种基于快速卡尔曼滤波的鲁棒语音增强方法
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
CN105023580B (zh) * 2015-06-25 2018-11-13 中国人民解放军理工大学 基于可分离深度自动编码技术的无监督噪声估计和语音增强方法
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
CN105788606A (zh) * 2016-04-03 2016-07-20 武汉市康利得科技有限公司 一种用于拾音器的基于递归最小追踪的噪声估计方法
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DE102017209585A1 (de) * 2016-06-08 2017-12-14 Ford Global Technologies, Llc System und verfahren zur selektiven verstärkung eines akustischen signals
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11373667B2 (en) * 2017-04-19 2022-06-28 Synaptics Incorporated Real-time single-channel speech enhancement in noisy and time-varying environments
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN107197090B (zh) * 2017-05-18 2020-07-14 维沃移动通信有限公司 一种语音信号的接收方法及移动终端
EP3460795A1 (en) * 2017-09-21 2019-03-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal processor and method for providing a processed audio signal reducing noise and reverberation
US10481831B2 (en) * 2017-10-02 2019-11-19 Nuance Communications, Inc. System and method for combined non-linear and late echo suppression
CN110931007B (zh) * 2019-12-04 2022-07-12 思必驰科技股份有限公司 语音识别方法及系统
CN114155870B (zh) * 2021-12-02 2024-08-27 桂林电子科技大学 低信噪比下基于spp和nmf的环境音噪声抑制方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3266042D1 (en) * 1981-09-24 1985-10-10 Gretag Ag Method and apparatus for reduced redundancy digital speech processing
US4628529A (en) 1985-07-01 1986-12-09 Motorola, Inc. Noise suppression system
JP2642694B2 (ja) * 1988-09-30 1997-08-20 三洋電機株式会社 雑音除去方法
EP0459364B1 (en) * 1990-05-28 1996-08-14 Matsushita Electric Industrial Co., Ltd. Noise signal prediction system
US5319703A (en) * 1992-05-26 1994-06-07 Vmx, Inc. Apparatus and method for identifying speech and call-progression signals
SE501981C2 (sv) 1993-11-02 1995-07-03 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
EP0681730A4 (en) 1993-11-30 1997-12-17 At & T Corp REDUCTION OF TRANSMISSION NOISE IN COMMUNICATION SYSTEMS.

Also Published As

Publication number Publication date
SE506034C2 (sv) 1997-11-03
WO1997028527A1 (en) 1997-08-07
DE69714431T2 (de) 2003-02-20
EP0897574B1 (en) 2002-07-31
SE9600363D0 (sv) 1996-02-01
JP2000504434A (ja) 2000-04-11
CN1210608A (zh) 1999-03-10
AU1679097A (en) 1997-08-22
KR100310030B1 (ko) 2001-11-15
SE9600363L (sv) 1997-08-02
DE69714431D1 (de) 2002-09-05
CA2243631A1 (en) 1997-08-07
US6324502B1 (en) 2001-11-27
EP0897574A1 (en) 1999-02-24
AU711749B2 (en) 1999-10-21

Similar Documents

Publication Publication Date Title
KR19990081995A (ko) 노이지 스피치 파라미터 강화방법 및 장치
US5781883A (en) Method for real-time reduction of voice telecommunications noise not measurable at its source
EP3439325B1 (en) Automatically tuning an audio compressor to prevent distortion
CA2210490C (en) Spectral subtraction noise suppression method
JP2714656B2 (ja) 雑音抑圧システム
RU2507608C2 (ru) Устройства и способы для обработки аудио сигнала с целью повышения разборчивости речи, используя функцию выделения нужных характеристик
US20040078199A1 (en) Method for auditory based noise reduction and an apparatus for auditory based noise reduction
KR100594563B1 (ko) 선형 컨벌루션 및 인과 필터링을 사용하는 스펙트럼 감산에 의한 신호 잡음 감소
US7873114B2 (en) Method and apparatus for quickly detecting a presence of abrupt noise and updating a noise estimate
JP3423906B2 (ja) 音声の動作特性検出装置および検出方法
KR100595799B1 (ko) 스펙트럼 종속 지수 이득 함수 평균화를 이용한 스펙트럼공제에 의한 신호 잡음 저감
KR20010075343A (ko) 저비트율 스피치 코더용 노이즈 억제 방법 및 그 장치
JPH08506427A (ja) 雑音減少
JPH09502814A (ja) 音声活動検出装置
JP2004272052A (ja) 音声区間検出装置
CN111261148B (zh) 语音模型的训练方法、语音增强处理方法及相关设备
Sorqvist et al. Kalman filtering for low distortion speech enhancement in mobile communication
JPH11102197A (ja) 雑音除去装置
KR101993003B1 (ko) 잡음 제거 장치 및 방법
JP3204892B2 (ja) 背景雑音消去装置
JP2004061567A (ja) ノイズキャンセラ
Wei et al. Improved kalman filter-based speech enhancement.
PV et al. Robust Acoustic Echo Suppression In Modulation Domain
JP2003517761A (ja) 通信システムにおける音響バックグラウンドノイズを抑制するための方法と装置

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20070905

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee