KR20220035271A

KR20220035271A - 오디오 신호 디코더에서의 개선된 주파수 대역 확장

Info

Publication number: KR20220035271A
Application number: KR1020227007471A
Authority: KR
Inventors: 마그다레나 카니스카; 슈테판 라고트
Original assignee: 코닌클리케 필립스 엔.브이.
Priority date: 2014-02-07
Filing date: 2015-02-04
Publication date: 2022-03-21
Also published as: KR20180002910A; CN105960675A; RU2763547C2; BR112016017616B1; SI3330966T1; US20180304659A1; MX2016010214A; ZA201708368B; PL3103116T3; RS64614B1; KR102510685B1; US20200353765A1; US11325407B2; JP6775064B2; PL3330967T3; JP2019168709A; CN108109632A; ES2955964T3; US10043525B2; RU2017144523A

Abstract

본 발명은 낮은 대역으로 지칭되는 제1 주파수 대역에서 디코딩되는 신호를 얻는 단계를 포함하는 디코딩 또는 개선 프로세스 동안 오디오 신호의 주파수 대역을 확장시키는 방법에 관한 것이다. 방법은 낮은 대역 신호로부터의 신호로부터 톤 성분들 및 환경 신호를 추출하는 단계(E402), 결합된 신호로 지칭되는 오디오 신호를 얻기 위해 에너지 레벨 제어 인수들을 사용하여 적응 믹싱함으로써 톤 성분들 및 환경 신호를 결합하는 단계(E403), 추출하는 단계 전의 낮은 대역 디코딩된 신호 또는 결합하는 단계 후의 결합된 신호를 제1 주파수 대역보다 더 높은 적어도 하나의 제2 주파수 대역에 걸쳐 확장시키는 단계(E401a)를 포함하는 것이다. 본 발명은 또한 설명한 방법을 구현하는 주파수 대역 확장 디바이스 및 이러한 타입의 디바이스를 포함하는 디코더에 관한 것이다.

Description

오디오 신호 디코더에서의 개선된 주파수 대역 확장{IMPROVED FREQUENCY BAND EXTENSION IN AN AUDIO SIGNAL DECODER}

본 발명은 오디오 주파수 신호의 송신 또는 오디오 주파수 신호의 저장을 위한 (음성, 음악 또는 다른 그러한 신호와 같은) 오디오 주파수 신호의 코딩/디코딩 및 처리의 분야에 관한 것이다.

보다 상세하게는, 본 발명은 오디오 주파수 신호 강화를 일으키는 디코더 또는 프로세서에서의 주파수 대역 확장 방법 및 디바이스에 관한 것이다.

음성 또는 음악과 같은 오디오 주파수 신호를 (손실을 갖고) 압축시키는 많은 기법이 존재한다.

구어 응용을 위한 통상적 코딩 방법은 파형 코딩("펄스 코드 변조"에 대해 PCM, “적응 차분 펄스 코드 변조”에 대해 ADPCM, 변환 코딩 등), 파라메트릭 코딩("선형 예측 코딩"에 대해 LPC, 정현파 코딩 등) 및 CELP("코드 여기 선형 예측") 코딩이 가장 잘 알려져 있는 예인 “합성에 의한 분석”에 의한 파라미터의 양자화로의 파라메트릭 혼성 코딩으로서 일반적으로 분류된다.

비구어 응용의 경우, (모노) 오디오 신호 코딩에 대한 종래 기술은 대역 반향(스펙트럼 대역 반향에 대해 SBR)에 의한 높은 주파수의 파라메트릭 코딩과 함께 변환에 의한 또는 부대역에서의 지각 코딩으로 구성된다.

통상적 음성 및 오디오 코딩 방법의 개관은 W.B. Kleijn 및 K.K. Paliwal (eds.), 음성 코딩 및 합성(Speech Coding and Synthesis), Elsevier, 1995; M. Bosi, R.E. Goldberg, 디지털 오디오 코딩 및 표준 입문서(Introduction to Digital Audio Coding and Standards), Springer 2002; J. Benesty, M.M. Sondhi, Y. Huang (eds.), 음성 처리의 핸드북(Handbook of Speech Processing), Springer 2008에 의한 저술들에서 알 수 있다.

여기서 보다 상세하게는 3GPP 표준화된 AMR-WB("적응 다중 속도 광대역") 코덱(코더 및 디코더)에 초점이 집중되며, 3GPP 표준화된 AMR-WB("적응 다중 속도 광대역") 코덱(코더 및 디코더)는 16 ㎑의 입력/출력 주파수에서 작동하고, 12.8 ㎑에서 샘플링되고 CELP 모델에 의해 코딩되는 낮은 대역(0 내지 6.4 ㎑) 및 현재 프레임의 모드에 의존하여 부가 정보를 갖거나 부가 정보 없이 “대역 확장" (또는 "대역폭 확장"에 대한 BWE)에 의해 파라미터에 의해 복원되는 높은 대역(6.4 내지 7 ㎑)인, 2개의 부대역으로 신호가 분할된다. 여기서 7 ㎑에서 AMR-WB 코덱의 코딩된 대역의 한계가 표준 ITU-T P.341에 정의되는 주파수 마스크에 따라 그리고 보다 상세하게는 7 ㎑를 넘는 주파수를 컷팅하는 표준 ITU-T G.191에 정의되는 이른바 "P341” 필터(이러한 필터는 P.341에 정의되는 마스크를 주시함)를 사용함으로써 표준화(ETSI/3GPP 그 뒤 ITU-T) 시에 광대역 단말기의 송신에서의 주파수 응답이 근사화되었다는 사실과 본질적으로 결부된다는 점이 주목될 수 있다. 그러나 이론적으로, 16 ㎑에서 샘플링되는 신호가 0 내지 8000 ㎐에서 한정되는 오디오 대역을 가질 수 있으며; 그러므로, AMR-WB 코덱이 8 ㎑의 이론적 대역폭과 비교해 볼 때 높은 대역의 한계를 도입시킨다는 점이 널리 알려져 있다.

3GPP AMR-WB 음성 코덱은 주로 GSM(2G) 및 UMTS(3G)에서의 회로 모드(CS) 전화 통신 응용들에 대해 2001년에 표준화되었다. 이러한 동일한 코덱은 권장 G.722.2 "적응 다중 속도 광대역(AMR-WB)을 사용하는 대략 16 kbit/s에서의 광대역 코딩 음성"의 형태로 ITU-T에 의해 2003년에 또한 표준화되었다.

그것은 6.6 내지 23.85 kbit/s의 모드들로 불리는 9가지 비트 전송 속도를 포함하고, 묵음 설명 프레임("묵음 삽입 기술어"에 대해 SID)으로부터의 보이스 활성 검출(VAD) 및 통신 소음 생성(CNG)을 갖는 연속적인 송신 메커니즘("불연속적인 송신"에 대해 DTX), 및 손실된 프레임 교정 메커니즘("프레임 삭제 은폐"에 대해 FEC, 때때로 "패킷 손실 은폐"에 대해 PLC로 불림)을 포함한다.

AMR-WB 코딩 및 디코딩 알고리즘의 상세들은 여기에 반복되지 않으며; 이러한 코덱의 상세한 설명은 3GPP 사양들(TS 26.190, 26.191, 26.192, 26.193, 26.194, 26.204) 및 ITU-T-G.722.2 (및 상응하는 부속 문서들 및 부록) 및 “적응 다중 속도 광대역 음성 코덱(AMR-WB)”(음성 및 오디오 처리 상의 IEEE 트랜잭션들(IEEE Transactions on Speech and Audio Processing), vol. 10, no. 8, 2002, pp. 620-636)이라는 명칭의 B. Bessette 등에 의한 논문 및 연관된 3GPP 및 ITU-T 표준들의 소스 코드들에서 알 수 있다.

AMR-WB 코덱의 대역 확장의 원리는 정말로 가장 기초적이다. 실제로, 높은 대역(6.4 내지 7 ㎑)은 (부프레임 당 이득들의 형태로 적용되는) 시간 및 (선형 예측 합성 필터 또는 “선형 예측 코딩”에 대한 LPC의 적용에 의한) 주파수 포락선을 통해 백색 잡음을 형상화함으로써 생성된다. 이러한 대역 확장 기법이 도 1에 도시된다.

백색 잡음(

, n = 0, …, 79)은 선형 합동 생성기에 의해 각각의 5 ㎳ 부프레임마다 16 ㎑에서 생성된다(블록(100)). 이러한 잡음(

)은 각각의 부프레임에 대한 이득들의 적용에 의해 제 시간에 형상화되며; 이러한 작동은 2개의 프로세싱 단계로 나누어지며(블록들(102, 106 또는 109)):

· 제1 인수는 낮은 대역에서의 12.8 ㎑에서 디코딩되는 여기(u(n), n = 0, …, 63)의 레벨과 유사한 레벨로 백색 잡음(

)을 설정하도록(블록(102)) 컴퓨팅된다(블록(101)):

에너지들의 정규화가 샘플링 주파수들(12.8 또는 16 ㎑)의 차이들의 보정 없이 상이한 크기(u(n)에 대해 64 및

에 대해 80)의 블록들을 비교함으로써 행해진다는 점이 여기서 주목될 수 있다.

· 높은 대역의 여기는 그 때 이하의 형태로 얻어지며(블록(106 또는 109)):

여기서, 이득(

)은 비트 전송 속도에 따라 상이하게 얻어진다. 현재 프레임의 비트 전송 속도가 23.85 kbit/s 미만이면, 이득(

)은 “블라인드(blind)”(즉, 부가 정보 없음)로 추정되며; 이러한 경우에, 블록(103)은 신호(

, n = 0, …, 63)를 얻기 위해 400 ㎐에서의 컷 오프 주파수를 갖는 고역 통과 필터에 의해 낮은 대역에서 디코딩되는 신호를 필터링하며 - 이러한 고역 통과 필터는 블록(104)에서 행해지는 추정을 왜곡할 수 있는 매우 낮은 주파수의 영향을 제거하며 - 그 때 신호(

)의 e_기울기로 표시되는 “기울기”(스펙트럼 경사도의 표시기)는 정규화된 자기 상관에 의해 컴퓨팅되고(블록(104)):

마지막으로,

는 이하의 형태로 컴퓨팅되며:

여기서,

는 활성 음성(SP) 프레임에 적용되는 이득이고,

는 배경(BG) 잡음과 연관된 불활성 음성 프레임에 적용되는 이득이고

는 보이스 활성 검출(VAD)에 의존하는 가중 함수이다. 기울기(e_기울기)의 추정이 신호의 스펙트럼 본질에 따라 높은 대역의 레벨을 조정하는 것을 가능하게 한다는 점이 이해되며; 이러한 추정은 CELP 디코딩된 신호의 스펙트럼 경사도가 주파수가 증가할 때, 평균 에너지가 감소하는(e_기울기가 1에 근접한 발성된 신호의 경우에, 그러므로

가 따라서 감소되는) 정도일 때, 특히 중요하다. 또한 AMR-WB 디코딩에서의 인수(

)가 간격 [0.1, 1.0] 내의 값들을 취하도록 경계가 지어진다는 점이 주목될 것이다. 실제로, 스펙트럼이 높은 주파수에서 더 많은 에너지를 갖는 신호들의 경우(e_기울기가 -1에 근접하며,

가 2에 근접함), 이득(

)은 통상적으로 과소 추정된다.

23.85 kbit/s에서, 교정 정보 아이템은 각각의 부프레임마다 추정되는 이득(5 ㎳마다 4 비트, 또는 0.8 kbit/s)을 개선하기 위해 AMR-WB 코더에 의해 송신되고 디코딩된다(블록들(107, 108)).

인공 여기(

)는 전달 함수(

)를 갖고 16 ㎑의 샘플링 주파수에서 작동하는 LPC 합성 필터에 의해 그 후에 필터링된다(블록(111)). 이러한 필터의 구성은 현재 프레임의 비트 전송 속도에 의존하며:

● 6.6 kbit/s에서, 필터(

)는 낮은 대역에서(12.8 ㎑에서) 디코딩되는 차수 16의 LPC 필터(

)를 "외삽"하는 차수 20의 LPC 필터(

)를 인수

= 0.9에 의해 가중함으로써 얻어지며 - ISF(이미턴스 스펙트럼 주파수) 파라미터들의 영역에서의 외삽법의 상세들은 섹션 6.3.2.1에서의 표준 G.722.2에 설명하며; 이러한 경우에 이하이며,

● 6.6 kbit/s 초과의 비트 전송 속도들에서, 필터(

)는 차수가 16이고 단순히 이하에 상응하며:

여기서,

=0.6이다. 이러한 경우에, 필터(

)가 16 ㎑에서 사용되며, 이는 [0, 6.4 ㎑] 내지 [0, 8 ㎑]의 이러한 필터의 주파수 응답의 (비례 변환에 의한) 확산을 야기한다는 점이 주목될 것이다.

결과(

)는 결국 FIR("유한 임펄스 응답") 타입의 대역 통과 필터(블록(112))에 의해 처리되어, 6 내지 7 ㎑ 대역만을 유지하며; 23.85 kbit/s에서, 또한 FIR 타입의 저역 통과 필터(블록(113))가 7 ㎑를 넘는 주파수를 추가로 감쇠하도록 상기 처리에 추가된다. 높은 주파수(HF) 합성은 블록들(120 내지 123)로 얻어지고 16 ㎑에서 리샘플링되는(블록(123)) 낮은 주파수(LF) 합성에 결국 추가된다(블록(130)). 따라서, 높은 대역이 AMR-WB 코덱에서 6.4 내지 7 ㎑로 이론적으로 확장되더라도, HF 합성은 오히려 LF 합성으로의 추가 전에 6 내지 7 ㎑ 대역에 포함된다.

AMR-WB 코덱의 대역 확장 기법에서 다수의 문제점이 확인될 수 있다:

● 높은 대역의 신호는 (각각의 부프레임에 대한 일시적 이득,

에 의한 필터링 및 대역 통과 필터링에 의해 형상화되는) 형상화된 백색 잡음이며, 형상화된 백색 잡음은 6.4 내지 7 ㎑ 대역의 신호의 양호한 일반적인 모델이 아니다. 예를 들어, 6.4 내지 7 ㎑ 대역이 정현파 성분들 (또는 톤들)을 포함하고 어떤 잡음도 (또는 거의 잡음을) 포함하지 않는 전적인 고조파 음악 신호들이 있으며; 이러한 신호들의 경우, AMR-WB 코덱의 대역 확장은 품질을 크게 저하시킨다.

● 7 ㎑에서의 저역 통과 필터(블록 113)는 낮은 대역과 높은 대역 사이에 거의 1 ㎳의 편이를 도입시키며, 이는 23.85 kbit/s에서 2개의 대역을 약간 비동기화함으로써 일정 신호들의 품질을 잠재적으로 저하시킬 수 있으며 - 이러한 비동기화는 비트 전송 속도를 23.85 kbit/s로부터 다른 모드들로 전환시킬 때, 문제를 일으킬 수도 있다.

● 각각의 부프레임에 대한 이득들의 추정(블록(101, 103 내지 105))은 최적이 아니다. 부분적으로, 그것은 상이한 주파수에서의 신호들: 16 ㎑에서의 인공 여기(백색 잡음)와 12.8 ㎑에서의 신호(디코딩된 ACELP 여기) 사이에서의 부프레임 당 “절대” 에너지의 등화(블록 101)에 기반한다. 특히 이러한 접근법이 암시적으로 (비율 12.8/16 = 0.8에 의한) 높은 대역 여기의 감쇠를 유발시킨다는 점이 주목될 수 있으며; 실제로, 또한 어떤 디엠퍼시스도 AMR-WB 코덱의 높은 대역 상에 수행될 수 없으며, 이는 암시적으로 (6400 ㎐에서

의 주파수 응답의 값에 상응하는) 0.6에 비교적 근접한 증폭을 유발시킨다는 점이 주목될 것이다. 실제로, 1/0.8 및 0.6의 인수들은 근접하게 보정된다.

● 음성에 관하여, 3GPP 보고서 TR 26.976에 문서로 기록된 3GPP AMR-WB 코덱 특성화 테스트는 23.85 kbit/s에서의 모드가 23.05 kbit/s에서의 모드보다 덜 양호한 품질을 갖고, 23.85 kbit/s에서의 모드의 품질은 15.85 kbit/s에서의 모드의 품질과 실제로 유사하다는 것을 나타내었다. 이는 특히 인공 HF 신호의 레벨이 품질이 23.85 kbit/s에서 저하되므로, 매우 신중하게 제어되어야 하는데 반해, 프레임 당 4 비트가 본래 높은 주파수의 에너지를 가장 양호하게 근사화하는 것을 가능하게 하도록 고려된다는 것을 나타낸다.

● 코딩된 대역의 7 ㎑로의 제한은 음향 단말기들의 송신 응답의 엄격한 모델(ITU- T G.191 표준에서의 필터 P.341)의 적용에 기인한다. 이제 16 ㎑의 샘플링 주파수의 경우, 7 내지 8 ㎑ 대역의 주파수들은 양호한 품질 레벨을 보장하기 위해 특히 음악 신호들에 대해 중요한 것으로 남는다.

AMR-WB 디코딩 알고리즘은 2008년에 표준화되었던 확장 가능 ITU-T G.718 코덱의 개발로 부분적으로 개선되었다.

ITU-T G.718 표준은 코어 코딩이 12.65 kbit/s에서의 G.722.2(AMR-WB) 코딩과 호환되는 이른바 상호 동작 가능 모드를 포함하며; 더욱이, G.718 디코더는 AMR-WB 코덱의 모든 가능한 비트 전송 속도(6.6 내지 23.85 kbit/s)에서 AMR-WB/G.722.2 비트 스트림을 디코딩할 수 있는 특정 특징을 갖는다.

적은 지연 모드에서의 G.718 상호 동작 가능 디코더(G.718-LD)가 도 2에 도시된다. 필요한 경우, 도 1에 관하여 G.718 디코더에서의 AMR-WB 비트 스트림 디코딩 기능성에 의해 제공되는 개선들의 리스트가 이하에 있다:

대역 확장(예를 들어, 권장 G.718의 조목 7.13.1에 설명함, 블록(206))은 6 내지 7 ㎑ 대역 통과 필터 및 1/A_HB(z) 합성 필터(블록들(111 및 112))가 반대 순서로 있다는 것을 제외하면, AMR-WB 디코더의 대역 확장과 동일하다. 게다가 23.85 kbit/s에서, AMR-WB 코더에 의한 부프레임들 당 송신되는 4 비트는 상호 동작 가능 G.718 디코더에 사용되지 않으며; 그러므로, 23.85 kbit/s에서의 높은 주파수들(HF)의 합성은 23.85 kbit/s에서의 AMR-WB 디코딩 품질의 알려진 문제를 피하는 23.05 kbit/s와 동일하다. 더더구나, 7 ㎑ 저역 통과 필터(블록(113))가 사용되지 않고, 23.85 kbit/s 모드의 특정 디코딩이 생략된다(블록들(107 내지 109)).

16 ㎑에서의 합성의 후처리(G.718의 조목 7.14 참조)는 (레벨의 감소에 의해 묵음의 품질을 “강화시키는”) 블록(208)의 "잡음 게이트", 고역 통과 필터링(블록(209)), 낮은 주파수에서 교차 고조파 잡음을 감쇠시키는 블록(210)에서의 (“베이스 포스필터(posfilter)”로 불리는) 낮은 주파수 후처리 필터, 및 블록(211)에서의 포화도 제어로(이득 제어 또는 AGC로) 16 비트 정수로의 전환에 의해 G.718에서 구현된다.

그러나, AMR-WB 및/또는 G.718 (상호 동작 가능 모드) 코덱들에서의 대역 확장은 다수의 측면에서 여전히 제한된다.

특히, 형상화된 백색 잡음에 의한(LPC 소스-필터 타입의 일시적 접근법에 의한) 높은 주파수들의 합성은 6.4 ㎑보다 더 높은 주파수들의 대역에서 신호의 매우 제한된 모델이다.

6.4 내지 7 ㎑ 대역만이 인위적으로 재합성되는데 반해, 신호들이 ITU-T의 소프트웨어 툴 라이브러리(Software Tool Library)(표준 G.191)에 정의된 바와 같이 P.341 타입 (50 내지 7000 ㎐)의 필터에 의해 전처리되지 않는다면, 신호들의 품질을 잠재적으로 강화시킬 수 있는 실제로 (8 ㎑까지의) 더 넓은 대역이 16 ㎑의 샘플링 주파수에서 이론적으로 가능하다.

그러므로 AMR-WB 타입의 코덱 또는 이러한 코덱의 상호 동작 가능 버전의 대역 확장을 개선하거나 보다 일반적으로 오디오 신호의 대역 확장을 개선하기 위한, 특히 대역 확장의 주파수 성분을 개선하기 위한 요구가 존재한다.

본 발명은 상기 상황을 개선한다.

본 발명은 이를 위해 낮은 대역으로 칭해되는 제1 주파수 대역에서 디코딩되는 신호를 얻는 단계를 포함하는 디코딩 또는 개선 프로세스 동안 오디오 주파수 신호의 주파수 대역을 확장시키는 방법을 제안한다. 방법은:

- 디코딩된 낮은 대역 신호에서 발생하는 신호로부터 톤 성분들 및 환경 신호를 추출하는 단계;

- 결합된 신호로 칭해지는 오디오 신호를 얻기 위해 에너지 레벨 제어 인수들을 사용하여 적응 믹싱함으로써 톤 성분들 및 환경 신호를 결합하는 단계;

- 추출하는 단계 전의 낮은 대역 디코딩된 신호 또는 결합하는 단계 후의 결합된 신호를 제1 주파수 대역보다 더 높은 적어도 하나의 제2 주파수 대역 상에서 확장시키는 단계를 포함하는 것이다.

이후에 "대역 확장"이 넓은 의미로 취해질 것이고 높은 주파수들에서 부대역의 확장의 경우뿐만 아니라 (변환 코딩에서 "잡음 충전" 타입의) 제로로 설정되는 부대역들의 대체의 경우도 포함할 것인 점이 주목될 것이다.

따라서, 낮은 대역의 디코딩에서 발생하는 신호로부터 추출되는 톤 성분들 및 환경 신호를 동시에 고려함으로써, 인공 잡음의 사용과 대조적으로 신호의 실체에 적합한 신호 모델로 대역 확장을 수행하는 것이 가능하다. 따라서, 특히 음악 신호들과 같은 일정 타입들의 신호들에 대한 대역 확장의 품질이 개선된다.

실제로, 낮은 대역에서 디코딩되는 신호는 고조파 성분들 및 기존 환경의 믹싱이 간섭성의 복원된 높은 대역을 보장하는 것을 가능하게 하는 방식으로 높은 주파수로 전치될 수 있는 음향 환경에 상응하는 부분을 포함한다.

본 발명이 상호 동작 가능 AMR-WB 코딩의 맥락에서 대역 확장의 품질의 강화에 의해 동기가 부여되더라도, 상이한 실시예들이, 특히 대역 확장에 필요한 파라미터들을 추출하도록 오디오 신호의 분석을 수행하는 강화 디바이스에서 오디오 신호의 대역 확장의 보다 일반적인 경우에 적용된다는 점이 주목될 것이다.

이하에 언급되는 상이한 특정 실시예들은 앞서 정의된 확장 방법의 단계들에 독립적으로 또는 서로와의 조합으로 추가될 수 있다.

일 실시예에서, 대역 확장은 여기의 영역에서 수행되고 디코딩된 낮은 대역 신호는 낮은 대역 디코딩된 여기 신호이다.

이러한 실시예의 이점은 윈도잉 없는 (또는 프레임의 길이의 암시적 직사각형 윈도우를 동등하게 갖는) 변환이 여기의 영역에서 가능하다는 것이다. 이러한 경우에, 그 때 어떠한 인공 산물도 들을 수 없다(차단 효과).

제1 실시예에서, 톤 성분들 및 환경 신호를 추출하는 단계는:

- 주파수 영역에서 디코딩되거나 디코딩되고 확장된 낮은 대역 신호의 우세한 톤 성분들을 검출하는 단계;

- 환경 신호를 얻기 위해 우세한 톤 성분들의 추출에 의해 잔여 신호를 컴퓨팅하는 단계에 따라 수행된다.

이러한 실시예는 톤 성분들의 정확한 검출을 가능하게 한다.

제2 실시예에서, 톤 성분들 및 환경 신호를 추출하는 단계는:

- 디코딩되거나 디코딩되고 확장된 낮은 대역 신호의 스펙트럼의 평균값을 컴퓨팅함으로써 환경 신호를 얻는 단계;

- 디코딩되거나 디코딩되고 확장된 낮은 대역 신호에서 컴퓨팅된 환경 신호를 감산함으로써 톤 성분들을 얻는 단계에 따라 수행된다.

결합하는 단계의 일 실시예에서, 적응 믹싱에 사용되는 에너지 레벨에 대한 제어 인수는 디코딩되거나 디코딩되고 확장된 낮은 대역 신호 및 톤 성분들의 총에너지에 따라 컴퓨팅된다.

이러한 제어 인수의 적용은 혼합체에서 환경 신호의 상대 비율을 최적화하도록 결합하는 단계가 신호의 특성들을 조정하는 것을 가능하게 한다. 따라서, 에너지 레벨은 들을 수 있는 인공 산물들을 피하도록 제어된다.

바람직한 실시예에서, 디코딩된 낮은 대역 신호는 변환 또는 필터 뱅크 기반 부대역 분해의 단계를 거치며, 추출하고 결합하는 단계들은 그 때 주파수 또는 부대역 영역에서 수행된다.

주파수 영역에서 대역 확장의 구현은 일시적 접근법으로 이용 가능하지 않은 주파수 분석의 세밀함을 얻는 것을 가능하게 하고, 또한 톤 성분들을 검출하는데 충분한 주파수 분해능을 갖는 것을 가능하게 한다.

상세한 실시예에서, 디코딩되고 확장된 낮은 대역 신호는 이하의 식:

에 따라 얻어지며, 여기서, k는 샘플의 지수이고, U(k)는 변환 단계 후에 얻어지는 신호의 스펙트럼이고,

는 확장된 신호의 스펙트럼이고, 시작_대역은 미리 정해진 변수이다.

따라서, 이러한 함수는 이러한 신호의 스펙트럼에 샘플들을 추가하는 것에 의한 신호의 리샘플링을 포함한다. 그러나, 신호를 확장시키는 다른 방식들이 예를 들어, 부대역 프로세싱에서의 전환에 의해 가능하다.

본 발명은 또한 신호가 낮은 대역으로 칭해지는 제1 주파수 대역에서 디코딩되었던 오디오 주파수 신호의 주파수 대역을 확장시키는 디바이스를 구상한다. 디바이스는:

디코딩된 낮은 대역 신호에서 발생하는 신호에 기반하여 톤 성분들 및 환경 신호를 추출하는 모듈;

- 결합된 신호로 칭해지는 오디오 신호를 얻기 위해 에너지 레벨 제어 인수들을 사용하여 적응 믹싱함으로써 톤 성분들 및 환경 신호를 결합하는 모듈;

- 제1 주파수 대역보다 더 높은 적어도 하나의 제2 주파수 대역에서 추출 모듈 이전의 낮은 대역 디코딩된 신호 또는 결합 모듈 이후의 결합된 신호를 확장시키고 이것들 상에서 구현되는 모듈을 포함하는 것이다.

이러한 디바이스는 이러한 디바이스가 구현하는 상술한 방법과 동일한 이점들을 나타낸다.

본 발명은 설명한 바와 같은 디바이스를 포함하는 디코더를 목적으로 한다.

본 발명은 명령어들이 프로세서에 의해 실행될 때, 설명한 바와 같은 대역 확장 방법의 단계들의 구현을 위한 코드 명령어들을 포함하는 컴퓨터 프로그램을 목적으로 한다.

마지막으로, 본 발명은 상술한 바와 같은 대역 확장 방법을 구현하는 컴퓨터 프로그램을 저장하는, 가능하게는 제거 가능한, 대역 확장 디바이스에 포함되거나 포함되지 않는 프로세서에 의해 판독될 수 있는 저장 매체에 관한 것이다.

본 발명의 다른 특징들 및 이점들이 전적으로 비제한적인 예로서 주어지는 이하의 설명을 읽을 시에 그리고 첨부 도면들을 참조하여 보다 분명히 명백해질 것이다:
- 도 1은 종래 기술의 그리고 상술한 바와 같은 주파수 대역 확장 단계들을 구현하는 AMR-WB 타입의 디코더의 일부를 도시한다.
- 도 2는 종래 기술에 따른 그리고 상술한 바와 같은 16 ㎑ G.718-LD 상호 동작 가능 타입의 디코더를 도시한다.
- 도 3은 본 발명의 일 실시예에 따른 대역 확장 디바이스를 포함하는 AMR-WB 코딩과 상호 동작 가능한 디코더를 도시한다.
- 도 4는 본 발명의 일 실시예에 따른 대역 확장 방법의 주요 단계들을 흐름도 형태로 도시한다.
- 도 5는 디코더로 통합되는 본 발명에 따른 대역 확장 디바이스의 주파수 영역에서의 일 실시예를 도시한다.
- 도 6은 본 발명에 따른 대역 확장 디바이스의 하드웨어 구현을 도시한다.

도 3은 G.718에 도입되고 도 2를 참조하여 설명하는 후처리와 유사한 후처리 및 블록(309)에 의해 도시되는 대역 확장 디바이스에 의해 구현되는 본 발명의 확장 방법에 따른 개선된 대역 확장이 있는 AMR-WB/G.722.2 표준과 호환되는 예시적인 디코더를 도시한다.

16 ㎑의 출력 샘플링 주파수로 작동하는 AMR-WB 디코딩 및 8 또는 16 ㎑에서 작동하는 G.718 디코더와 달리, 주파수 fs = 8, 16, 32 또는 48 ㎑에서 출력(합성) 신호로 작동할 수 있는 디코더가 여기서 고려된다. 코딩이 낮은 대역 CELP 코딩에 대해 12.8 ㎑의 내부 주파수를 갖는 AMR-WB 알고리즘 그리고 23.85 kbit/s에서 16 ㎑의 주파수에서의 부프레임 이득 코딩에 따라 수행되었지만, AMR-WB 코더의 상호 동작 가능 변형들이 또한 가능하다는 점이 여기서 가정되며; 본 발명이 여기서 상기 디코딩 레벨에서 설명되지만, 코딩이 주파수 fs = 8, 16, 32 또는 48 ㎑에서의 입력 신호로 작동할 수도 있고 본 발명의 범위 외에 있는 적절한 리샘플링 작동들이 fs의 값에 따라 코딩 상에서 구현된다는 점이 여기서 가정된다는 점을 주목해야 한다. 디코더에서 fs = 8 ㎑일 때, AMR-WB와 호환되는 디코딩의 경우에, 주파수(fs)에서의 복원된 오디오 대역이 0 내지 4000 ㎐로 제한되므로, 0 내지 6.4 ㎑ 낮은 대역을 확장시키는 것일 필요하지 않다는 점이 주목될 수 있다.

도 3에서, CELP 디코딩(낮은 주파수들에 대해 LF)은 AMR-WB 및 G.718에서와 같이, 12.8 ㎑의 내부 주파수에서 여전히 작동하고, 본 발명의 대상인 대역 확장(높은 주파수들에 대해 HF)은 16 ㎑의 주파수에서 작동하고, LF 및 HF 합성들은 적절한 리샘플링(블록들(307 및 311)) 후에 주파수(fs)에서 결합된다(블록(312)). 본 발명의 변형예들에서, 낮고 높은 대역들의 결합은 주파수(fs)에서 결합된 신호를 리샘플링하기 전에, 12.8 내지 16 ㎑의 낮은 대역을 리샘플링 한 후에, 16 ㎑에서 행해질 수 있다.

도 3에 따른 디코딩은 수신되는 현재 프레임과 연관된 AMR-WB 모드 (또는 비트 전송 속도)에 의존한다. 지시로서, 그리고 블록(309)에 영향을 주지 않고, 낮은 대역에서 CELP 부분의 디코딩은 이하의 단계들을 포함한다:

· 정확하게 수신되는 프레임(bfi = 0, 여기서, bfi는 수신되는 프레임에 대해 0 그리고 손실된 프레임에 대해 1 값을 갖는 “열악한 프레임 표시기”임)의 경우에 코딩된 파라미터들을 디멀티플렉싱하는 단계(블록(300));

· 표준 G.722.2의 조목 6.1에 설명하는 바와 같이 보간법으로 ISF 파라미터들을 디코팅하는 단계 및 LPC 계수들로 변환하는 단계(블록(301));

· 12.8 ㎑에서 길이 64의 각각의 부프레임에서 여기(exc 또는 u'(n))를 복원하는 적응형이고 고정된 부분으로 CELP 여기를 디코딩하는 단계(블록(302)):

CELP 디코딩에 관한 G.718의 조목 7.1.2.1의 표기법들을 따라, 여기서, v(n) 및 c(n)은 각각 적응형이고 고정된 딕셔너리들의 코드 워드들이고,

및

는 연관된 디코딩된 이득들이다. 이러한 여기(u'(n))는 다음 부프레임의 적응형 딕셔너리에 사용되며; 이러한 여기(u'(n))는 그 다음 후처리되고, G.718에서와 같이, (또한 exc로 표시되는) 여기(u'(n))는 블록(303)에서 합성 필터(

)에 대한 입력으로서의 역할을 하는 (또한 exc2로 표시되는) 여기(u'(n))의 변경된 후처리된 버전(u(n))과 구별된다. 본 발명을 위해 구현될 수 있는 변형예들에서, 본 발명에 따른 대역 확장 방법의 본질에 영향을 주지 않고, 여기에 적용되는 후처리 작동들은 변경될 수 있거나(예를 들어, 위상 분산이 강화될 수 있거나) 이러한 후처리 작동들은 확장될 수 있다(예를 들어, 교차 고조파 잡음의 감소가 구현될 수 있다);

· 디코딩된 LPC 필터(

)가 차수 16인

에 의해 합성 필터링하는 단계(블록(303));

· fs = 8 ㎑인 경우, G.718의 조목 7.3에 따라 협대역 후처리하는 단계(블록(304));

· 필터(

)에 의해 디엠퍼시스하는 단계(블록(305));

· G.718의 조목 7.14.1.1에 설명하는 바와 같은 낮은 주파수들을 후처리하는 단계(블록(306)). 이러한 프로세싱은 (6.4 ㎑ 초과의) 높은 대역의 디코딩에 고려되는 지연을 도입시킨다;

· 출력 주파수(fs)에서 12.8 ㎑의 내부 주파수를 리샘플링하는 단계(블록(307)). 다수의 실시예가 가능하다. 일반성을 손실하지 않고, fs = 8 또는 16 ㎑이면, G.718의 조목 7.6에 설명하는 리샘플링이 여기서 반복되고, fs = 32 또는 48 ㎑이면, 부가 유한 임펄스 응답(FIR) 필터들이 사용된다는 것이 예로서 여기서 고려된다;

· G.718의 조목 7.14.3에 설명하는 바와 같은 우선적으로 수행되는 "잡음 게이트"의 파라미터들을 컴퓨팅하는 단계(블록(308)).

본 발명을 위해 구현될 수 있는 변형예들에서, 대역 확장의 본질에 영향을 주지 않고, 여기에 적용되는 후처리 작동들은 변경될 수 있거나(예를 들어, 위상 분산이 강화될 수 있거나) 이러한 후처리 작동들은 확장될 수 있다(예를 들어, 교차 고조파 잡음의 감소가 구현될 수 있다). 3GPP AMR-WB 표준에 정보를 제공하는 현재 프레임이 손실될 때(bfi = 1)의 낮은 대역의 디코딩의 경우를 여기서 설명하지 않으며; 일반적으로, AMR-WB 디코더를 다루든, 소스-필터 모델에 의존하는 일반적 디코더를 다루든, 소스-필터 모델을 유지하면서 손실된 신호를 복원하도록 LPC 합성 필터의 LPC 여기 및 계수들을 가장 양호하게 추정하는 것과 전형적으로 연관된다. bfi = 1일 때, 대역 확장(블록(309))이 bfi = 0이고 비트 전송 속도가 23.85 kbit/s 미만인 경우에서와 같이 작동할 수 있다는 점이 여기서 고려되므로; 본 발명의 설명은 일반성의 손실 없이, bfi = 0이라는 것을 이후에 가정할 것이다.

블록들(306, 308, 314)의 사용이 선택적이라는 점이 주목될 수 있다.

또한, 상술한 낮은 대역의 디코딩이 6.6과 23.85 kbit/s 사이의 비트 전송 속도를 갖는 이른바 “활성” 현재 프레임을 취한다는 점이 주목될 것이다. 실제로, DTX 모드가 활성화될 때, 일정 프레임들은 “불활성”으로 코딩될 수 있고 이러한 경우에, (35 비트 상의) 묵음 기술어를 송신하거나 아무것도 송신하지 않는 것이 가능하다. 특히, AMR-WB 코더의 SID 프레임이 수 개의 파라미터: 8개의 프레임에 걸쳐 평균화된 ISF 파라미터들, 8개의 프레임에 걸친 평균 에너지, 비정류 잡음의 복원을 위한 "디더링 플래그"를 설명한다는 점이 상기된다. 모든 경우에, 디코더에서, 활성 프레임에 대해서, 여기의 복원 및 현재 프레임에 대한 LPC 필터와 동일한 디코딩 모델이 있으며, 이는 불활성 프레임들에도 본 발명을 적용하는 것을 가능하게 한다. 동일한 관측이 LPC 모델이 적용되는 “손실된 프레임들” (또는 FEC, PLC)의 디코딩에 적용된다.

이러한 예시적인 디코더는 여기의 영역에서 작동하고 그러므로, 낮은 대역 여기 신호를 디코딩하는 단계를 포함한다. 본 발명의 의미 내에서 대역 확장 디바이스 및 대역 확장 방법은 또한 여기의 영역과 상이한 영역에서 그리고, 특히 낮은 대역 디코딩된 직접적 신호 또는 지각 필터에 의해 가중되는 신호로 작동한다.

AMR-WB 또는 G.718 디코딩과 달리, 설명하는 디코더는 디코딩된 낮은 대역(디코더 상의 50 ㎐ 고역 통과 필터링을 고려하여 50 내지 6400 ㎐, 일반적 경우에 0 내지 6400 ㎐)을 폭이 달라져, 현재 프레임에서 구현되는 모드에 따라 범위가 대략 50 내지 6900 ㎐에서 50 내지 7700 ㎐에 이르는 확장된 대역으로 확장시키는 것을 가능하게 한다. 따라서, 0 내지 6400 ㎐의 제1 주파수 대역 및 6400 내지 8000 ㎐의 제2 주파수 대역을 언급하는 것이 가능하다. 실제로 선호되는 실시예에서, 높은 주파수들에 대한 여지는 5000 내지 8000 ㎐의 대역에서의 주파수 영역에서 생성되어, 경사도가 거부된 상부 대역에서 별로 가파르지 않은 폭 6000 내지 6900 또는 7700 ㎐의 대역 통과 필터링을 가능하게 한다.

높은 대역 합성 부분은 본 발명에 따른 그리고 일 실시예에서 도 5에 상세화되는 대역 확장 디바이스를 나타내는 블록(309)에서 생성된다.

디코딩된 낮고 높은 대역들을 정렬하기 위해, 지연(블록(310))이 블록들(306 및 309)의 출력들을 동기화하도록 도입되고 16 ㎑에서 합성되는 높은 대역이 16 ㎑에서 주파수(fs)(블록(311)의 출력)로 리샘플링된다. 지연(T)의 값은 구현되는 프로세싱 작동들에 따라 다른 경우들(fs = 32, 48 ㎑)을 위해 조정되어야 할 것이다. fs = 8 ㎑일 때, 디코더의 출력에서의 신호의 대역이 0 내지 4000 ㎐로 제한되므로, 블록들(309 내지 311)을 적용하는 것이 필요하지 않다는 점이 상기될 것이다.

제1 실시예에 따른 블록(309)에서 구현되는 본 발명의 확장 방법이 12.8 ㎑에서 복원되는 낮은 대역에 대하여 임의의 부가 지연을 우선적으로 도입시키지 않지만; 본 발명의 변형예들에서 (예를 들어, 중첩을 갖는 시간/주파수 변환을 사용함으로써), 지연이 도입될 수 있을 것이라는 점이 주목될 것이다. 따라서 일반적으로, 블록(310)에서 T의 값은 특정 구현에 따라 조정되어야 할 것이다. 예를 들어, 낮은 주파수들의 후처리(블록(306))가 사용되지 않는 경우에, fs = 16 ㎑에 대해 도입될 지연은 T = 15에서 고정될 수 있다.

낮고 높은 대역들은 그 다음 블록(312)에서 결합되고(추가되고) 얻어지는 합성은 계수들이 주파수(fs)(블록(313)) 및 G.718과 유사한 방식으로 "잡음 게이트"의 선택적 적용을 갖는 출력 후처리(블록(314))에 의존하는 차수 2의 (IIR 타입의) 50 ㎐ 고역 통과 필터링에 의해 후처리된다.

도 5의 디코더의 실시예에 따른 블록(309)에 의해 도시되는 본 발명에 따른 대역 확장 디바이스는 도 4를 참조하여 이제 설명하는 (넓은 의미에서의) 대역 확장 방법을 구현한다.

이러한 확장 디바이스는 디코더에서 독립할 수도 있고 예를 들어, 오디오 신호로부터 여기 및 LPC 필터를 추출하기 위한 오디오 신호의 분석과 함께 저장되거나 디바이스로 송신되는 기존 오디오 신호의 대역 확장을 수행하기 위해 도 4에 설명하는 방법을 구현할 수 있다.

이러한 디바이스는 여기의 영역에 또는 신호의 영역에 있을 수 있는 낮은 대역(u(n))으로 칭해지는 제1 주파수 대역에서 디코딩되는 신호를 입력으로서 수신한다. 여기서 설명하는 실시예에서, 시간 주파수 변환 또는 필터 뱅크에 의한 부대역 분해의 단계(E401b)는 주파수 영역에서의 구현을 위해 낮은 대역 디코딩된 신호의 스펙트럼(U(k))을 얻도록 낮은 대역 디코딩된 신호에 적용된다.

확장된 낮은 대역 디코딩된 신호(

)를 얻기 위해 제1 주파수 대역보다 더 높은 제2 주파수 대역에서 낮은 대역 디코딩된 신호를 확장시키는 단계(E401a)는 분석 단계(부대역들로의 분해) 전에 또는 후에 이러한 낮은 대역 디코딩된 신호 상에서 수행될 수 있다. 이러한 확장 단계는 입력에서 얻어지는 신호에 따라 동시에 리샘플링 단계 및 확장 단계 또는 단순히 주파수 전환 또는 전치의 단계를 포함할 수 있다. 변형예들에서, 단계(E401a)가 도 4에 설명하는 프로세싱의 종료에, 즉 결합된 신호 상에서 수행될 수 있을 것이며, 이러한 프로세싱은 그 때 확장 전에 주로 낮은 대역 신호 상에서 수행되며, 결과는 동등하다는 점이 주목될 것이다.

이러한 단계는 도 5를 참조하여 설명하는 실시예에서 이후에 상세화된다.

환경 신호(

) 및 톤 성분들(y(k))을 추출하는 단계(E402)는 디코딩된 낮은 대역 신호(U(k)) 또는 디코딩되고 확장된 낮은 대역 신호(

)에 기반하여 수행된다. 환경은 기존 신호로부터 주요 (또는 우세한) 고조파들 (또는 톤 성분들)을 삭제함으로써 얻어지는 잔여 신호로서 여기에 정의된다.

(16 ㎑에서 샘플링되는) 대부분의 광대역 신호에서, (6 ㎑ 초과의) 높은 대역은 낮은 대역에 존재하는 환경 정보와 일반적으로 유사한 환경 정보를 포함한다.

톤 성분들 및 환경 신호를 추출하는 단계는 예를 들어, 이하의 단계들:

- 주파수 영역에서 디코딩된 (또는 디코딩되고 확장된) 낮은 대역 신호의 우세한 톤 성분들을 검출하는 단계;

- 환경 신호를 얻기 위해 우세한 톤 성분들의 추출에 의해 잔여 신호를 컴퓨팅하는 단계를 포함한다.

이러한 단계는:

- 디코딩된 (또는 디코딩되고 확장된) 낮은 대역 신호의 평균치를 컴퓨팅함으로써 환경 신호를 얻는 단계; 및

- 디코딩되거나 디코딩되고 확장된 낮은 대역 신호에서 컴퓨팅된 환경 신호를 감산함으로써 톤 성분들을 얻는 단계에 의해 얻어질 수도 있다.

톤 성분들 및 환경 신호는 이른바 결합된 신호(

)를 얻기 위해 단계(E403)에서 에너지 레벨 제어 인수들을 사용하여 적응 방식으로 그 후에 결합된다. 확장 단계(E401a)는 아직 디코딩된 낮은 대역 신호 상에서 수행되지 않았으면, 그 다음 구현될 수 있다.

따라서, 이러한 2가지 타입의 신호들을 결합하는 단계는 음악 신호들과 같은 일정 타입들의 신호들에 더 적절하고 제1 및 제2 주파수 대역을 포함하는 전체 주파수 대역에 상응하는 확장된 주파수 대역 및 주파수 성분이 더 풍부한 특성들을 갖는 결합된 신호를 얻는 것을 가능하게 한다.

상기 방법에 따른 대역 확장은 AMR-WB 표준에 설명하는 확장에 대하여 이러한 타입의 신호들에 대한 품질을 개선한다.

환경 신호 및 톤 성분들의 결합을 사용하는 것은 인공 신호의 특성들이 아닌 실제 신호의 특성들에 이러한 확장 신호가 더 근접하게 하도록 이러한 확장 신호를 강화하는 것을 가능하게 한다.

이러한 결합 단계는 도 5를 참조하여 이후에 상세화될 것이다.

401b에서의 분석에 상응하는 합성 단계는 신호를 시간 영역으로 복구하도록 E404b에서 수행된다.

선택적 방식으로, 높은 대역 신호를 에너지 레벨 조정하는 단계가 이득을 적용함으로써 그리고/또는 적절한 필터링에 의해 합성 단계 전에 그리고/또는 후에 E404a에서 수행될 수 있다. 이러한 단계를 블록들(501 내지 507)에 대해 도 5에 설명하는 실시예에서 보다 상세히 설명할 것이다.

예시적인 실시예에서, 대역 확장 디바이스(500)를 이러한 디바이스뿐만 아니라 AMR-WB 코딩과 상호 동작 가능 타입의 디코더로의 구현에 적절한 처리 모듈들도 동시에 도시하는 도 5를 참조하여 이제 설명한다. 이러한 디바이스(500)는 도 4를 참조하여 상술한 대역 확장 방법을 구현한다.

따라서, 처리 블록(510)은 디코딩된 낮은 대역 신호(u(n))를 수신한다. 특정 실시예에서, 대역 확장은 도 3의 블록(302)에 의해 출력되는 12.8 ㎑에서 디코딩된 여기(exc2 또는 u(n))를 사용한다.

이러한 신호는 일반적으로 변환을 수행하거나 필터 뱅크를 적용하여, 신호(u(n))의 부대역들(U(k))로의 분해를 얻는 (도 4의 단계(E401b)를 구현하는) 부대역 분해 모듈(510)에 의해 주파수 부대역들로 분해된다.

특정 실시예에서, DCT-IV("이산 코사인 변환"에 대해 - 타입 IV)(블록(510)) 타입의 변환은 윈도잉 없이 20 ㎳의 현재 프레임(256개의 샘플)에 적용되며, 이는 이하의 식에 따라 u(n)(여기서, n = 0,…, 255)을 직접 변환하는 것에 이르며:

여기서, N = 256이고 k = 0,…, 255이다.

윈도잉 없는 (또는 프레임의 길이의 암시적 직사각형 윈도우를 동등하게 갖는) 변환은 처리가 여기 영역에서 수행되고, 신호 영역에서 수행되지 않을 때, 가능하다. 이러한 경우에, 어떤 인공 산물도 들을 수 없어(차단 효과), 본 발명의 이러한 실시예의 상당한 이점을 이룬다.

이러한 실시예에서, DCT-IV 변환은 D.M. Zhang, H.T. Li, 낮은 복잡성 변환 - 진화 DCT(A Low Complexity Transform - Evolved DCT)(IEEE 14차 계산 과학 및 공학에서의 국제 회의(14th International Conference on Computational Science and Engineering)(CSE), Aug. 2011, pp. 144-149)에 의한 논문에 설명하고, 표준들 ITU-T G.718 Annex B 및 G.729.1 Annex E로 구현되는 이른바 “진화 DCT(EDCT)” 알고리즘에 따라 FFT에 의해 구현된다.

본 발명의 변형예들에서 그리고 일반성의 손실 없이, DCT-IV 변환은 ("고속 푸리에 변환"에 대해) FFT 또는 DCT-II(이산 코사인 변환 - 타입 II)와 같은 동일한 길이의 그리고 여기 영역 또는 신호 영역에서의 다른 단기 시간-주파수 변환들로 대체될 수 있을 것이다. 대안적으로, 예를 들어, ("변경된 이산 코사인 변환"에 대해) MDCT를 사용함으로써 현재 프레임의 길이보다 더 큰 길이의 중첩-부가 및 윈도잉을 갖는 변환으로 프레임 상의 DCT-IV를 대체하는 것이 가능할 것이다. 이러한 경우에, 도 3의 블록(310)의 지연(T)은 이러한 변환에 의한 분석/합성으로 인한 부가 지연에 따라 적절하게 조정되어야(감소되어야) 할 것이다.

다른 실시예에서, 부대역 분해는 예를 들어, PQMF(의사 QMF) 타입의 실수 또는 복소수 필터 뱅크를 적용함으로써 수행된다. 일정 필터 뱅크들의 경우에, 주어진 프레임에서의 각각의 부대역마다, 스펙트럼값이 아닌 부대역과 연관된 일련의 일시적 값들을 얻으며; 이러한 경우에, 본 발명에서 선호되는 실시예는 예를 들어, 각각의 부대역의 변환을 수행함으로써 그리고 절대값들의 영역에서 환경 신호를 컴퓨팅함으로써 적용될 수 있으며, 톤 성분들은 (절대값의) 신호와 환경 신호 사이를 구별지음으로써 여전히 얻어진다. 복소수 필터 뱅크의 경우에, 샘플들의 복소수 계수는 절대값을 대체할 것이다.

다른 실시예들에서, 본 발명은 낮은 대역이 변환 또는 필터 뱅크에 의해 분석되는 2개의 부대역을 사용하는 시스템에서 적용될 것이다.

DCT의 경우에, (12.8 ㎑에서) 대역 0 내지 6400 ㎐에 걸치는 256개의 샘플의 DCT 스펙트럼(U(k))은 이하의 형태의 (16 ㎑에서) 대역 0 내지 8000 ㎐에 걸치는 320개의 샘플의 스펙트럼으로 그 후에 확장되며(블록(511)):

여기서, 시작_대역 = 160이 우선적으로 취해진다.

블록(511)은 도 4의 단계(E401a), 즉 낮은 대역 디코딩된 신호의 확장을 구현한다. 이러한 단계는 스펙트럼에 샘플들 중 ¼(k = 240,…, 319)을 추가함으로써 주파수 영역에서 12.8 내지 16 ㎑의 리샘플링을 포함할 수도 있으며, 16 및 12.8의 비율은 5/4이다.

범위가 지수들 200 내지 239에 이르는 샘플들에 상응하는 주파수 대역에서, 본래 스펙트럼은 유지되어, 이러한 주파수 대역에서 고역 통과 필터의 점진적 감쇠 응답을 본래 스펙트럼에 적용하고 또한 높은 주파수 합성에 낮은 주파수 합성의 추가의 단계에서 가청의 결함을 도입시키지 않을 수 있다.

이러한 실시예에서, 오버샘플링되고 확장된 스펙트럼의 생성이 범위가 5 내지 8 ㎑에 이르므로 제1 주파수 대역(0 내지 6.4 ㎑)을 넘는 제2 주파수 대역(6.4 내지 8 ㎑)을 포함하는 주파수 대역에서 수행된다는 점이 주목될 것이다.

따라서, 디코딩된 낮은 대역 신호의 확장은 적어도 제2 주파수 대역 상에서뿐만 아니라 제1 주파수 대역의 일부 상에서도 수행된다.

분명하게는, 이러한 주파수 대역들을 한정하는 값들은 본 발명이 적용되는 디코더 또는 처리 디바이스에 의존하여 상이할 수 있다.

더욱이, 블록(511)은

의 제1의 200개의 샘플이 제로로 설정되므로, 0 내지 5000 ㎐ 대역에서 암시적 고역 통과 필터링을 수행하며; 후술하는 바와 같이, 이러한 고역 통과 필터링은 5000 내지 6400 ㎐ 대역에서 지수들 k = 200,…, 255의 스펙트럼값들의 점진적 감쇠의 일부에 의해 보완될 수도 있으며; 이러한 점진적 감쇠는 블록(501)에서 구현되지만 블록(501) 외에서 별도로 수행될 수 있다. 동등하게 그리고 본 발명의 변형예들에서, 변환된 영역에서 감쇠된 계수들 k = 200,…, 255의, 제로로 설정되는 지수 k = 0,…, 199의 계수들의 블록들로 분리되는 고역 통과 필터링의 구현은 그러므로 단일 단계로 수행될 수 있을 것이다.

이러한 예시적인 실시예에서 그리고

의 정의에 따르면, (지수들 k = 200,…, 239에 상응하는)

의 5000 내지 6000 ㎐ 대역이 U(k)의 5000 내지 6000 ㎐ 대역으로부터 카피된다는 점이 주목될 것이다. 이러한 접근법은 이러한 대역에서 본래 스펙트럼을 유지하는 것을 가능하게 하고 LF 합성으로 HF 합성의 추가 시에 5000 내지 6000 ㎐ 대역에 왜곡들을 도입시키는 것을 피하며 - 특히 이러한 대역에서 (DCT-IV 영역에서 암시적으로 나타내어지는) 신호의 위상은 보존된다.

의 6000 내지 8000 ㎐ 대역은 시작_대역의 값이 우선적으로 160에 설정되므로, 여기서 U(k)의 4000 내지 6000 ㎐ 대역을 카피함으로써 한정된다.

실시예의 변형예에서, 시작_대역의 값은 본 발명의 본질을 변경하지 않고 대략 160의 값에 순응적이게 이루어질 수 있을 것이다. 시작_대역 값의 순응의 상세들은 본 발명의 범위를 변화시키지 않고 본 발명의 체계를 넘어서므로, 여기서 설명되지 않는다.

(16 ㎑에서 샘플링되는) 대부분의 광대역 신호에서, (6 ㎑ 초과의) 높은 대역은 낮은 대역에 존재하는 환경 정보와 본질적으로 유사한 환경 정보를 포함한다. 환경은 기존 신호로부터 주요 (또는 우세한) 고조파들을 삭제함으로써 얻어지는 잔여 신호로서 여기에 정의된다. 6000 내지 8000 ㎐ 대역의 조화성 레벨은 더 낮은 주파수 대역들의 조화성 레벨과 일반적으로 상관된다.

이러한 디코딩되고 확장된 낮은 대역 신호는 확장 디바이스(500)에의 입력으로서 그리고 특히 모듈(512)에의 입력으로서 제공된다. 따라서, 톤 성분들 및 환경 신호를 추출하는 블록(512)은 주파수 영역에서 도 4의 단계(E402)를 구현한다. 따라서, k = 240,…, 319(80개의 샘플)에 대한 환경 신호(

)는 제2 주파수 대역, 이른바 높은 주파수에 대해 얻어져, 결합 블록(513)에서 추출된 톤 성분들(y(k))과 적응 방식으로 그 후에 환경 신호(

)를 결합시킨다.

특정 실시예에서, (6000 내지 8000 ㎐ 대역에서) 톤 성분들 및 환경 신호의 추출은 이하의 작동들에 따라 수행된다:

· 확장된 디코딩된 낮은 대역 신호(

)의 총에너지의 계산이며:

여기서, ε = 0.1이다(이러한 값은 상이할 수 있으며, 이러한 값이 예로서 여기서 고정된다).

· (스펙트럼 라인마다) 스펙트럼의 평균 레벨(

)에 여기서 상응하는 (절대값의) 환경의 계산 및 (높은 주파수 스펙트럼에서) 우세한 톤 부분들의 에너지(

)의 계산.

i = 0...L - 1인 경우, 이러한 평균 레벨은 이하의 식을 통해 얻어진다:

이는 (절대값의) 평균 레벨에 상응하고 그러므로 스펙트럼의 포락선의 유형을 나타낸다. 이러한 실시예에서, L = 80이고 L은 스펙트럼의 길이를 나타내고 0 내지 L - 1의 지수(i)는 240 내지 319의 지수들(j + 240}, 즉 6 내지 8 ㎑의 스펙트럼에 상응한다.

일반적으로

이고

이지만, 처음의 그리고 마지막 7개의 지수(i = 0,…, 6 및 i = L - 7,…, L - 1)는 특수 프로세싱을 필요로 하고 일반성의 손실 없이 그 때 이하를 정의한다:

본 발명의 변형예들에서,

의 평균치는 동일한 세트의 값들에 걸쳐 중앙치값으로 대체될 수 있으며, 즉 이하이다.

이러한 변형예는 이동 평균보다 (계산의 횟수의 면에서) 보다 복잡한 결점을 갖는다. 다른 변형예들에서, 불균일한 가중치가 평균화된 항들에 적용될 수 있거나, 중앙치 필터링이 예를 들어, “스택 필터들” 타입의 다른 비선형 필터들로 대체될 수 있다.

잔여 신호가 또한 컴퓨팅되며:

잔여 신호는 주어진 스펙트럼 라인(i)에서의 값(y(i))이 정이면(y(i) > 0), (대략) 톤 성분들에 상응한다.

그러므로, 이러한 계산은 톤 성분들의 암시적 검출을 포함한다. 그러므로, 톤 부분들은 적응 임계치를 나타내는 중간항(y(i))을 사용하여 암시적으로 검출된다. 검출 조건은 y(i) > 0이다. 본 발명의 변형예들에서, 이러한 조건은 예를 들어, 신호의 국부적 포락선에 따라 또는 x가 미리 정해진 값을 갖는(예를 들어, x = 10 ㏈인) 형태(

)로 적응 임계치를 한정함으로써 변경될 수 있다.

우세한 톤 부분들의 에너지는 이하의 식에 의해 한정된다:

환경 신호를 추출하는 다른 방식들이 물론 구상될 수 있다. 예를 들어, 이러한 환경 신호는 낮은 주파수 신호 또는 선택적으로 다른 주파수 대역 (또는 수 개의 주파수 대역)으로부터 추출될 수 있다.

톤 스파이크(spike)들 또는 성분들의 검출은 상이하게 행해질 수 있다.

이러한 환경 신호의 추출은 디코딩되지만 확장되지 않은 여기 상에서, 즉 스펙트럼 확장 또는 전환 단계 전에, 즉 예를 들어 높은 주파수 신호 상에 직접보다는 오히려 낮은 주파수 신호의 일부 상에서 행해질 수도 있다.

변형 실시예에서, 톤 성분들 및 환경 신호의 추출은 상이한 순서로 그리고:

이러한 변형예는 예를 들어, 이하의 방식으로 수행될 수 있으며: 스파이크 (또는 톤 성분)은 이하의 기준이 만족되면, 진폭(

)의 스펙트럼에서의 지수(i)의 스펙트럼 라인에서 검출되며:

및

,

i = 0,…, L - 1인 경우이다. 스파이크가 지수(i)의 스펙트럼 라인에서 검출되자 마자, 정현파 모델은 이러한 스파이크과 연관된 톤 성분의 진폭, 주파수 및 선택적으로 위상 파라미터들을 추정하도록 적용된다. 이러한 추정의 상세들은 여기서 제공되지 않지만 주파수의 추정은 (㏈로 표현되는) 진폭(

)의 3개의 지점을 근사화하는 포물선의 최대치를 위치시키기 위한 3개의 지점에 걸친 포물선 보간법을 전형적으로 요구할 수 있으며, 진폭 추정은 이러한 동일한 보간법을 통하여 얻어진다. 여기에 사용되는 변환 영역(DCT-IV)이 위상을 직접 얻는 것을 가능하게 하지 않으므로, 일 실시예에서, 이러한 항을 무시하는 것이 가능할 것이지만, 변형예들에서, DST 타입의 구적법 변환을 적용하여 위상 항을 추정하는 것이 가능할 것이다. y(i)의 초기 값은 i = 0,…, L - 1인 경우 제로로 설정된다. 각각의 톤 성분의 정현파 파라미터들(주파수, 진폭, 및 선택적으로 위상)이 추정되면, 항(y(i))은 그 다음 추정된 정현파 파라미터들에 따라 DCT-IV 영역 (또는 일부 다른 부대역 분해가 사용되면, 다른 영역)으로 변환되는 순수 정현파들의 미리 정해진 원형들(스펙트럼들)의 합으로서 컴퓨팅된다. 마지막으로, 절대값은 진폭 스펙트럼의 영역을 절대값들로서 표현하도록 항들(y(i))에 적용된다.

톤 성분들을 결정하는 다른 방식들이 가능하며, 예를 들어, 또한

의 국부적 최대값들(검출된 스파이크들)의 스플라인 보간법에 의해 신호의 포락선(

)을 컴퓨팅하여, 이러한 포락선을 초과하는 스파이크들로서 톤 성분들을 검출하고 이하로서 y(i)를 정의하기 위해 일정 레벨의 ㏈만큼 이러한 포락선을 낮추는 것이 가능할 것이다.

이러한 변형예에서, 그러므로, 환경은 이하의 식을 통해 얻어진다:

본 발명의 다른 변형예들에서, 스펙트럼값들의 절대값은 본 발명의 원리를 변경하지 않고 예를 들어, 스펙트럼값들의 제곱으로 대체될 것이며; 이러한 경우에, 제곱근은 신호 영역으로 복귀하기 위해 필요할 것이며, 이는 수행하기에 더 복잡하다.

결합 모듈(513)은 환경 신호 및 톤 성분들의 적응 믹싱에 의해 결합하는 단계를 수행한다. 따라서, 환경 레벨 제어 인수(Γ)는 이하의 식에 의해 정의되며:

β는 예시적인 계산이 이하에 주어지는 인수이다.

확장된 신호를 얻기 위해, 우선 이하의 i = 0...L - 1인 경우의 절대값들의 결합된 신호를 얻으며:

여기서 이하의

의 부호들이 적용되며:

여기서, 함수(

)는 이하의 부호를 부여한다:

정의에 의해, 인수(Γ)는 1 초과이다. 조건 y(i) > 0에 의해 스펙트럼 라인마다 검출되는 톤 성분들은 인수(Γ)에 의해 감소되며; 평균 레벨은 인수(1/Γ)에 의해 증폭된다.

적응 믹싱 블록(513)에서, 에너지 레벨에 대한 제어 인수는 디코딩된 (또는 디코딩되고 확장된) 낮은 대역 신호 및 톤 성분들의 총에너지에 따라 컴퓨팅된다.

적응 믹싱의 바람직한 실시예에서, 에너지 조정은 이하의 방식으로 수행되며:

는 대역 확장 결합된 신호이다.

조정 인수는 이하의 식에 의해 정의된다:

여기서,

는 에너지의 과대 추정을 피하는 것을 가능하게 한다. 예시적인 실시예에서, 신호의 연속적인 대역들에서 톤 성분들의 에너지에 대하여 환경 신호의 동일한 레벨을 유지하도록 β를 컴퓨팅한다. 3개의 대역: 2000 내지 4000 ㎐, 4000 내지 6000 ㎐ 및 6000 내지 8000 ㎐에서의 톤 성분들의 에너지를 컴퓨팅하며, 여기서,

이며, 여기서,

이고 여기서,

는 지수(k)의 계수가 톤 성분들과 연관된 것으로 분류되는 지수들(k)의 세트이다. 이러한 세트는 예를 들어,

를 만족시키는

의 국부적 스파이크들을 검출함으로써 얻어질 수 있거나,

는 스펙트럼 라인마다의 스펙트럼의 평균 레벨로서 컴퓨팅된다.

톤 성분들의 에너지를 컴퓨팅하는 다른 방식들이 예를 들어, 고려되는 대역에 걸친 스펙트럼의 중앙치값을 취함으로써 가능하다는 점이 주목될 수 있다.

4 내지 6 ㎑와 6 내지 8 ㎑ 대역들에서의 톤 성분들의 에너지 사이의 비율이 2 내지 4 ㎑와 4 내지 6 ㎑ 대역들 사이의 에너지의 비율과 동일한 방식으로 β를 고정시키며:

여기서,

이고 max(.,.)는 2개의 독립 변수의 최대치를 부여하는 함수이다.

본 발명의 변형예들에서, β의 계산은 다른 방식들로 대체될 수 있다. 예를 들어 변형예에서, AMR-WB 코덱에서 컴퓨팅되는 파라미터와 유사한 “기울기” 파라미터를 포함하여, 낮은 대역 신호를 특성화하는 다양한 파라미터 (또는 “특징부”)를 추출하는(컴퓨팅하는) 것이 가능할 것이고, 인수(β)는 0과 1 사이로 인수(β)의 값을 제한함으로써 이러한 다양한 파라미터에 기반하여 선형 회귀에 따라 추정될 것이다. 선형 회귀는 예를 들어, 학습 기반에서 본래 높은 대역이 주어지는 것에 의해 인수(β)를 추정함으로써 통제된 방식으로 추정될 수 있을 것이다. β가 컴퓨팅되는 방식이 본 발명의 본질을 제한하지 않는다는 점이 주목될 것이다.

그 후에, 파라미터(β)는 주어진 대역에서 추가되는 환경 신호를 갖는 신호가 동일한 대역에서 동일한 에너지를 갖는 고조파 신호보다 더 강한 것으로 일반적으로 감지된다는 사실을 고려함으로써

를 컴퓨팅하는데 사용될 수 있다. α를 고조파 신호에 추가되는 환경 신호의 양인 것으로 정의하면:

이며,

를 예를 들어,

이고, b = 1.1이고, a = 1.2이고,

가 0.3 내지 1에서 제한되는 α의 감소 함수로서 컴퓨팅하는 것이 가능할 것이다. 여기서 다시, α 및

의 다른 정의들이 본 발명의 체계 내에서 가능하다.

대역 확장 디바이스(500)의 출력에서, 특정 실시예에서, 블록(501)은 주파수 영역에서 대역 통과 필터 주파수 응답의 적용 및 디엠퍼시스 (또는 약화) 필터링의 이중 작동을 선택적 방식으로 수행한다.

본 발명의 변형예에서, 디엠퍼시스 필터링은 블록(510) 이전에서도, 블록(502) 이후에 시간 영역에서 수행될 수 있을 것이지만; 이러한 경우에, 약간 감지 가능한 방식으로 디코딩된 낮은 대역을 변경할 수 있는 블록(501)에서 수행되는 대역 통과 필터링은 디엠퍼시스에 의해 증폭되는 매우 낮은 레벨들의 일정의 낮은 주파수 성분들을 남길 수 있다. 이러한 이유로, 주파수 영역에서 디엠퍼시스를 수행하는 것이 여기서 바람직하다. 바람직한 실시예에서, 지수(k = 0,…, 199)의 계수들은 제로로 설정되므로, 디엠퍼시스가 더 높은 계수들로 제한된다.

여기는 우선 이하의 식에 따라 디엠퍼시스되며:

여기서,

는 제한된 이산 주파수 대역에 걸친 필터(

)의 주파수 응답이다. DCT-IV의 이산(홀수) 주파수들을 고려함으로써,

는 이하로서 여기에 정의되며:

여기서, 이하이다.

DCT-IV 이외의 변환이 사용되는 경우에,

의 정의는 (예를 들어, 짝수 주파수들의 경우) 조정될 수 있을 것이다.

디엠퍼시스가 응답(

)이 12.8 ㎑에서 적용되는 5000 내지 6400 ㎐ 주파수 대역에 상응하는 k = 200,…, 255의 경우, 및 응답이 16 ㎑로부터 여기서 6.4 내지 8 ㎑ 대역에서의 상수값으로 확장되는 6400 내지 8000 ㎐ 주파수 대역에 상응하는 k = 256,…, 319의 경우인, 2개의 위상에 적용된다는 점이 주목될 것이다.

AMR-WB 코덱에서, HF 합성이 디엠퍼시스되지 않는다는 점이 주목될 수 있다.

여기서 제공되는 실시예에서, 높은 주파수 신호는 그와 반대로 디엠퍼시스되어 도 3의 블록(305)을 퇴거하는 낮은 주파수 신호(0 내지 6.4 ㎑)와 일치하는 영역으로 높은 주파수 신호를 복구한다. 이는 HF 합성의 에너지의 추정 및 이후의 조정에 있어서 중요하다.

상기 실시예의 변형예에서, 복잡성을 감소시키기 위해, 예를 들어, 상술한 실시예의 조건들에서 k = 200,…, 319의 경우

의 평균값에 대략 상응하는

= 0.6를 취함으로써 k에서 독립한 상수값에서

를 설정하는 것이 가능할 것이다.

디코더의 실시예의 다른 변형예에서, 디엠퍼시스는 역 DCT 후에 시간 영역에서 동등한 방식으로 수행될 수 있을 것이다.

디엠퍼시스에 더하여, 대역 통과 필터링은 2개의 별도의 부분: 고역 통과의, 고정된 하나, 저역 통과의, 적응형인 다른 하나(의 비트 전송 속도의 함수)가 적용된다.

이러한 필터링은 주파수 영역에서 수행된다.

바람직한 실시예에서, 저역 통과 필터 부분적 응답은 이하와 같이 주파수 영역에서 컴퓨팅되며:

여기서,

는 6.6 kbit/s에서 60이고, 8.85 kbit/s에서 40이고, 8.85 bit/s 초과의 비트 전송 속도들에서 20이다.

그 다음, 대역 통과 필터는 이하의 형태로 적용된다:

의 정의가 예를 들어, 이하의 표 1에 주어진다.

본 발명의 변형예들에서,

의 값들이 점진적 감쇠를 유지하면서 변경될 수 있을 것이라는 점이 주목될 것이다. 마찬가지로, 가변의 대역폭(

)을 갖는 저역 통과 필터링은 이러한 필터링 단계의 원리를 변경하지 않고 상이한 값들 또는 주파수 지원으로 조정될 수 있을 것이다.

또한, 대역 통과 필터링이 고역 통과 및 저역 통과 필터링을 결합시키는 단일 필터링 단계를 한정함으로써 조정될 수 있을 것이라는 점이 주목될 것이다.

다른 실시예에서, 대역 통과 필터링은 역 DCT 단계 후에, 비트 전송 속도에 따른 상이한 필터 계수들로 (도 1의 블록(112)에서와 같이) 시간 영역에서 동등한 방식으로 수행될 수 있을 것이다. 그러나, 필터링이 LPC 여기의 영역에서 수행되고 그러므로, 원형 컨벌루션 및 에지 효과들의 문제들이 이러한 영역에서 매우 제한되기 때문에, 주파수 영역에서 직접 이러한 단계를 수행하는 것이 유리하다는 점이 주목될 것이다.

역 변환 블록(502)은 16 ㎑에서 샘플링되는 높은 주파수 신호를 구하기 위해 320개의 샘플 상에서 역 DCT를 수행한다. 그것의 구현은 변환의 길이가 256 대신에 320인 것을 제외하고, DCT-IV가 직교 함수계이므로, 블록(510)과 동일하고 이하의 것이 얻어지며:

여기서,

이고 k = 0,…, 319이다.

블록(510)이 DCT가 아니고, 부대역들로의 일부 다른 변환 또는 분해인 경우에, 블록(502)은 블록(510)에서 수행되는 분석에 상응하는 합성을 수행한다.

16 ㎑에서 샘플링된 신호는 그 후에 80개의 샘플의 부프레임 당 한정되는 이득들에 의해 선택적 방식으로 스케일링된다(블록(504)).

바람직한 실시예에서, 이득(

)은 현재 프레임의 지수(m=0, 1, 2 또는 3)의 각각의 부프레임에서 이하이도록 부프레임들의 에너지의 비율들에 의해 부프레임마다 우선 컴퓨팅되며(블록(503)):

여기서,

이며, 여기서, ε = 0.01이다. 부프레임 당 이득(

)은 이하의 형태로 기록될 수 있으며:

이는 신호(

)에서, 부프레임 당 에너지와 프레임 당 에너지 사이에서 신호(u(n))에서와 동일한 비율이 보장된다는 것을 나타낸다.

블록(504)은 이하의 식에 따라 (도 4의 단계(E404a)에 포함되는) 결합된 신호의 스케일링을 수행한다:

블록(503)의 구현이 현재 프레임 레벨에서의 에너지가 부프레임의 에너지에 더하여 고려되므로, 도 1의 블록(101)의 구현과 다르다는 점이 주목될 것이다. 이는 프레임의 에너지에 관하여 각각의 부프레임의 에너지의 비율을 갖는 것을 가능하게 한다. 그러므로, 낮은 대역과 높은 대역 사이의 절대 에너지들보다는 오히려 에너지의 비율들 (또는 상대 에너지들)이 비교된다.

따라서, 이러한 스케일링 단계는 낮은 대역에서와 동일한 방식으로 부프레임과 프레임 사이의 에너지의 비율을 높은 대역에서 유지하는 것을 가능하게 한다.

선택적 방식으로, 블록(506)은 그 후에 이하의 식에 따라 (도 4의 단계(E404a)에 포함되는) 신호의 스케일링을 수행하며:

이득(

)은 AMR-WB 코덱의 블록들(103, 104 및 105)을 실행시킴으로써 블록(505)으로부터 얻어진다(블록(103)의 입력은 낮은 대역에서 디코딩되는 여기(u(n))임). 블록들(505 및 506)은 여기서 신호의 기울기에 따라 LPC 합성 필터(블록(507))의 레벨을 조정하는데 유용하다. 이득(

)을 컴퓨팅하는 다른 방식들이 본 발명의 본질을 변경하지 않고 가능하다.

마지막으로, 신호(

또는

)는 전달 함수(

)(여기서, 6.6 kbit/s에서

= 0.9이고 다른 비트 전송 속도들에서

= 0.6이어서, 필터의 차수를 차수 16으로 제한함)로서 취해짐으로써 여기서 구현될 수 있는 필터링 모듈(507)에 의해 필터링된다.

변형예에서, 이러한 필터링은 AMR-WB 디코더의 도 1의 블록(111)에 대해 설명한 방식과 동일한 방식으로 수행될 수 있을 것이지만, 필터의 차수는 6.6 비트 전송 속도에서 20으로 변경되며, 이는 합성된 신호의 품질을 상당히 변화시키지는 않는다. 다른 변형예에서, 블록(507)에서 구현되는 필터의 주파수 응답을 컴퓨팅한 후에, 주파수 영역에서 LPC 합성 필터링을 수행하는 것이 가능할 것이다.

본 발명의 변형 실시예들에서, 낮은 대역(0 내지 6.4 ㎑)의 코딩은 예를 들어, 8 kbit/s에서의 G.718의 CELP 코더와 같은 AMR-WB에 사용되는 CELP 코더 이외의 CELP 코더로 대체될 수 있을 것이다. 일반성의 손실 없이, 다른 광대역 코더들 또는 낮은 대역의 코딩이 12.8 ㎑에서의 내부 주파수로 작동하는 16 ㎑를 넘는 주파수들에서 작동하는 코더들이 사용될 수 있다. 더욱이, 본 발명은 낮은 주파수 코더가 본래이거나 복원된 신호의 샘플링 주파수보다 더 낮은 샘플링 주파수로 작동할 때, 12.8 ㎑ 이외의 샘플링 주파수들에 분명하게 적응될 수 있다. 낮은 대역 디코딩이 선형 예측을 사용하지 않을 때, 확장될 어떤 여기 신호도 없으며, 이 경우 현재 프레임에서 복원되는 신호의 LPC 분석을 수행하는 것이 가능할 것이고 LPC 여기는 본 발명을 적용할 수 있도록 컴퓨팅될 것이다.

마지막으로 본 발명의 다른 변형예에서, 여기 또는 낮은 대역 신호(u(n))는 길이 320의 변환(예를 들어 DCT-IV) 전에 12.8 내지 16 ㎑에서 예를 들어, 선형 보간법 또는 3차 "스플라인" 보간법에 의해 리샘플링된다. 이러한 변형예는 여기 또는 신호의 변환(DCT-IV)이 그 다음 더 큰 길이에 걸쳐 컴퓨팅되고 리샘플링이 변환 영역에서 수행되지 않으므로, 보다 복잡하다는 결점을 갖는다.

더욱이 본 발명의 변형예들에서, 이득들(

,...)의 추정에 필요한 모든 계산은 로그 영역에서 수행될 수 있을 것이다.

도 6은 본 발명에 따른 대역 확장 디바이스(600)의 예시적인 물리적 실시예를 나타낸다. 대역 확장 디바이스(600)는 오디오 주파수 신호 디코더 또는 디코딩되거나 디코딩되지 않은 오디오 주파수 신호들을 수신하는 장비 아이템의 일체화된 부분을 형성할 수 있다.

이러한 타입의 디바이스는 저장 및/또는 작업 메모리(MEM)를 포함하는 메모리 블록(BM)과 연동하는 프로세서(PROC)를 포함한다.

그러한 디바이스는 주파수 영역(U(k))으로 복구되는 낮은 대역으로 칭해지는 제1 주파수 대역에서 디코딩되거나 추출된 오디오 신호를 수신할 수 있는 입력 모듈(E)을 포함한다. 그것은 제2 주파수 대역(

)의 확장 신호를 예를 들어, 도 5의 필터링 모듈(501)로 송신할 수 있는 출력 모듈(S)을 포함한다.

메모리 블록은 유리하게는 코드 명령어들이 프로세서(PROC)에 의해 실행될 때 본 발명의 의미 내에서 대역 확장 방법의 단계들, 그리고 특히 디코딩된 낮은 대역 신호(U(k))에서 발생하는 신호로부터 톤 성분들 및 환경 신호를 추출하는 단계(E402), 결합된 신호(

)로 칭해지는 오디오 신호를 얻기 위해 에너지 레벨 제어 인수들을 사용하여 적응 믹싱함으로써 톤 성분들(y(k)) 및 환경 신호(

)를 결합시키는 단계(E403), 추출하는 단계 전의 낮은 대역 디코딩된 신호 또는 결합하는 단계 후의 결합된 신호를 제1 주파수 대역보다 더 높은 적어도 하나의 제2 주파수 대역에 걸쳐 확장시키는 단계(E401a)의 구현을 위한 코드 명령어들을 포함하는 컴퓨터 프로그램을 포함할 수 있다.

전형적으로, 도 4의 설명은 그러한 컴퓨터 프로그램의 알고리즘의 단계들을 반복한다. 컴퓨터 프로그램은 디바이스의 판독기에 의해 판독될 수 있거나 메모리 매체의 메모리 공간으로 다운로드될 수 있는 메모리 매체 상에 저장될 수도 있다.

메모리(MEM)는 일반적으로 방법의 구현에 필요한 모든 데이터를 저장한다.

하나의 가능한 실시예에서, 따라서 설명하는 디바이스는 본 발명에 따른 대역 확장 기능들에 더하여 예를 들어, 도 5 및 도 3에 설명하는 낮은 대역 디코딩 기능들 및 다른 처리 기능들을 포함할 수도 있다.

Claims

디코딩 또는 개선 프로세스 동안 오디오 주파수 신호의 주파수 대역을 확장시키는 방법에 있어서,
낮은 대역으로 칭해지는 제 1 주파수 대역에서 디코딩되는 신호를 얻는 단계,
대역 확장을 수행하기 위하여 상기 디코딩된 낮은 대역 신호에서 발생하는 신호로부터 톤 성분들(tonal components) 및 환경 신호(ambience signal)를 추출하는 단계;
상기 추출하는 단계 후, 결합된 신호로 칭해지는 오디오 신호를 얻기 위해 에너지 레벨 제어 인수들을 사용하여 적응 믹싱함으로써 상기 톤 성분들 및 상기 환경 신호를 결합하는 단계; 및
상기 추출하는 단계 전, 디코딩되고 확장된 낮은 대역 신호 U_HB1(k)를 형성하기 위하여 상기 디코딩된 낮은 대역 신호를 상기 제 1 주파수 대역보다 더 높은 적어도 하나의 제 2 주파수 대역 상에서 확장시키는 단계를 포함하고,
상기 추출하는 단계는:
상기 디코딩되고 확장된 낮은 대역 신호의 총에너지를 계산하는 단계로서,
의 계산을 포함하고, 여기서 ε=0.1인, 상기 디코딩되고 확장된 낮은 대역 신호의 총에너지를 계산하는 단계;
스펙트럼 라인마다 상기 디코딩되고 확장된 낮은 대역 신호의 스펙트럼의 평균 레벨에 상응하는 절대값의 환경 신호를 계산하고, 제 2 주파수 대역 스펙트럼에서 우세한 톤 성분들의 에너지를 계산하는 단계를 포함하는, 오디오 주파수 신호의 주파수 대역을 확장시키는 방법.
제 1 항에 있어서,
상기 스펙트럼 라인마다 상기 디코딩되고 확장된 낮은 대역 신호의 스펙트럼의 평균 레벨은 이하의 식:

을 이용하여 얻어지고,
여기서, i=0,...,6 인 경우 fb(i) = 0 및 fn(i)=i+7 이고,
i=7,...,L-8 인 경우 fb(i)= i-7 및 fn(i)= i+7 이고,
i=L-7,...,L-1 인 경우 fb(i)= i-7 및 fn(i)= L-1 인, 오디오 주파수 신호의 주파수 대역을 확장시키는 방법.
제 1 항 또는 제 2 항에 있어서,
상기 우세한 톤 성분들의 상기 에너지를 계산하는 단계는 i=0,...,L-1 인 경우,
에 의해 잔여 신호를 계산하는 단계를 포함하는, 오디오 주파수 신호의 주파수 대역을 확장시키는 방법.
제 3 항에 있어서,
상기 잔여 신호 y(i)에 대한 검출 조건에 기초하여 톤 성분들을 검출하는 단계를 더 포함하는, 오디오 주파수 신호의 주파수 대역을 확장시키는 방법.
제 4 항에 있어서,
상기 검출 조건은 y(i)>0 인, 오디오 주파수 신호의 주파수 대역을 확장시키는 방법.
제 5 항에 있어서,
상기 우세한 톤 성분들의 상기 에너지는
에 의해 얻어지는, 오디오 주파수 신호의 주파수 대역을 확장시키는 방법.
신호가 낮은 대역으로 칭해지는 제 1 주파수 대역에서 디코딩되었던 오디오 주파수 신호의 주파수 대역을 확장시키는 디바이스에 있어서,
명령들이 저장된 비-일시적인 컴퓨터 판독 가능 메모리 및
동작들을 수행하기 위한 명령으로 구성된 프로세서를 포함하고, 상기 동작들은:
낮은 대역으로 칭해지는 제 1 주파수 대역에서 디코딩된 신호를 얻는 단계,
대역 확장을 수행하기 위하여 상기 디코딩된 낮은 대역 신호에서 발생하는 신호로부터 톤 성분들 및 환경 신호를 추출하는 단계;
상기 추출하는 단계 후, 결합된 신호로 칭해지는 오디오 신호를 얻기 위해 에너지 레벨 제어 인수들을 사용하여 적응 믹싱함으로써 상기 톤 성분들 및 상기 환경 신호를 결합하는 단계; 및
상기 추출하는 단계 전, 디코딩되고 확장된 낮은 대역 신호 U_HB1(k)를 형성하기 위하여 상기 디코딩된 낮은 대역 신호를 상기 제 1 주파수 대역보다 더 높은 적어도 하나의 제 2 주파수 대역 상에서 확장시키는 단계를 포함하고,
상기 추출하는 단계는:
상기 디코딩되고 확장된 낮은 대역 신호의 총에너지를 계산하는 단계로서,
의 계산을 포함하고, 여기서 ε=0.1인, 상기 디코딩되고 확장된 낮은 대역 신호의 총에너지를 계산하는 단계;
스펙트럼 라인마다 상기 디코딩되고 확장된 낮은 대역 신호의 스펙트럼의 평균 레벨에 상응하는 절대값의 환경 신호를 계산하고, 제 2 주파수 대역 스펙트럼에서 우세한 톤 성분들의 에너지를 계산하는 단계를 포함하는, 오디오 주파수 신호의 주파수 대역을 확장시키는 디바이스.
제 7 항에 따른 주파수 대역 확장 디바이스를 포함하는, 오디오 주파수 신호 디코더.