KR20190134821A

KR20190134821A - 스테레오 오디오 인코더 및 디코더

Info

Publication number: KR20190134821A
Application number: KR1020197034896A
Authority: KR
Inventors: 하이코 푸른하겐; 크리스토퍼 쿄어링
Original assignee: 돌비 인터네셔널 에이비
Priority date: 2013-04-05
Filing date: 2014-04-04
Publication date: 2019-12-04
Also published as: CN116741187A; BR122021009025B1; RU2645271C2; CN105103225A; CN110047496B; HK1214882A1; US20190088266A1; US20160027446A1; BR122021009022B1; US20170133025A1; CN110010140B; RU2665214C1; KR20160111042A; US20230245667A1; RU2019116192A; US9570083B2; EP3528249A1; CN110047496A; CN116741186A; JP2016519786A

Abstract

본 발명은 입력 신호에 기초하여 스테레오 오디오 신호를 인코딩 및 디코딩하기 위한 방법들, 디바이스들 및 컴퓨터 프로그램 제품들을 제공한다. 본 개시에 따라, 파라메트릭 스테레오 코딩 및 스테레오 오디오 신호의 이산 표현 양쪽 모두를 사용하는 하이브리드 처리방법이 사용되며, 어떤 비트-레이트들에 대한 인코딩된 및 디코딩된 오디오의 품질을 개선할 수 있다.

Description

스테레오 오디오 인코더 및 디코더{STEREO AUDIO ENCODER AND DECODER}

본 명세서에 개시된 발명은 일반적으로 스테레오 오디오 코딩에 관한 것이다. 특히, 본 발명은 다운믹스(downmix) 및 이산 스테레오 코딩(discrete stereo coding)을 구비한 하이브리드 코딩을 위한 디코더 및 인코더에 관한 것이다.

전통적인 스테레오 오디오 코딩에서, 가능한 코딩 스킴들은 낮은 비트레이트 어플리케이션들에 사용되는 파라메트릭 스테레오 코딩 기술들을 포함한다. 중간 레이트들에서, 좌/우(L/R) 또는 중간/측면(M/S) 파형 스테레오 코딩이 종종 이용된다. 기존의 분포 포맷들 및 그 관련 코딩 기술들은 그들의 대역폭 효율의 관점에서, 특히 낮은 비트레이트와 중간 비트레이트 사이의 비트레이트를 갖는 어플리케이션들에서 개선될 수 있다.

스테레오 오디오 시스템에서 상기 오디오 분포의 효율을 개선하려는 것은 USAC(Unified Speech and Audio Coding) 표준에서 시도되었다. USAC 표준은 파라메트릭 스테레오 코딩 기술들과 결합하여 낮은 대역폭 파형-코딩 기반의 스테레오 코딩을 도입한다. 하지만, USAC에 의해 제안된 해법은, 평범한 M/S 또는 L/R 코딩보다 더욱 효과적인 어떤 것을 행하기 위해 수정된 이산 코사인 변환(MDCT) 도메인에서 상기 스테레로 코딩을 이끌도록 파라메트릭 스테레오 파라미터들을 사용한다.

그러한 해법의 결점은, QMF(Quadrature Mirror Filters) 도메인에서 추출되어 산출된 파라메트릭 스테레오 파라미터들에 기초하여 상기 MDCT 도메인에서 상기 낮은 대역폭 파형 기반의 스테레오 코딩 외에는 최상을 얻기가 어려울 수 있다는 것이다.

상기한 관점에서, 상기한 단점들의 일부 또는 전부를 해소하거나 적어도 줄이기 위한 추가의 개선이 필요할 수 있다.

본원 청구범위(또는 그 보정)에 기재된 바와 같은 구성을 개시한다.

도 1은 예시적인 실시예들에 따른 디코딩 시스템의 일반화된 블록도.
도 2는 도 1의 디코딩 시스템의 제 1 부분을 도시한 도면.
도 3은 도 1의 디코딩 시스템의 제 2 부분을 도시한 도면.
도 4는 도 1의 디코딩 시스템의 제 3 부분을 도시한 도면.
도 5는 제 1 예시적인 실시예들에 따른 인코딩 시스템의 일반화된 블록도.
도 6은 제 2 예시적인 실시예들에 따른 인코딩 시스템의 일반화된 블록도.

이제, 예시적인 실시예들이 첨부된 도면들을 참조하여 보다 상세히 기술될 것이다.

모든 도면들은 도식적으로 나타냈으며, 일반적으로 본 개시를 상세히 설명하기 위하여 필요한 부분들만을 나타내었고, 다른 부분들은 생략되거나 단지 시사되었을 수 있다. 그렇지 않다고 명시하지 않는 한, 동일한 참조 번호들은 다른 도면들에서도 동일한 부분들로서 참조된다.

본 발명의 상세한 설명

개요-디코더

본 명세서에서 사용되는 바로서, 좌-우 코딩 또는 인코딩은, 좌(L) 및 우(R) 스테레오 신호들이 이들 신호들 사이에 어떠한 변환도 실행하지 않고서 코딩된다는 것을 의미한다.

본 명세서에서 사용되는 바로서, 합-및-차 코딩 또는 인코딩은, 상기 좌 및 우 스테레오 신호들의 합(M)이 하나의 신호(합)로서 코딩되고, 상기 좌 및 우 스테레오 신호 사이의 차(S)가 하나의 신호(차)로서 코딩된다는 것을 의미한다. 상기 합-및-차 코딩은 또한 중간측 코딩(mid-side coding)이라 불릴 수 있다. 상기 좌-우 형태와 상기 합-차 형태 사이의 관계는 따라서 M = L+R 및 S = L-R 이 된다. 좌 및 우 스테레오 신호들을 상기 합-및-차 형태로 변환하거나 그 역일 때, 양쪽 방향에서의 변환이 일치하기만 한다면 상이한 정규화 또는 스케일링이 가능하다는 것을 유의해야한다. 이러한 개시에 있어서, M = L+R 및 S = L-R 이 주로 사용되지만, 상이한 스케일링, 예를 들면 M = (L+R)/2 및 S = (L-R)/2 를 사용하는 시스템이 동일하게 잘 동작한다.

본 명세서에서 사용되는 바로서, 다운믹스-상보적(dmx/comp) 코딩 또는 인코딩은, 코딩에 앞서 가중 파라미터 a에 따라 상기 좌 및 우 스테레오 신호를 매트릭스 곱에 둔다는 것을 의미한다. 상기 dmx/comp 코딩은 따라서 dmx/comp/a 코딩이라고도 불릴 수 있다. 상기 다운믹스-상보적 형태, 상기 좌-우 형태, 및 상기 합-차 형태 사이의 관계는 일반적으로 dmx = L+R = M 및 comp = (1-a)L-(1+a)R = -aM+S 가 된다. 특히, 상기 다운믹스-상보적 표현에서 상기 다운믹스 신호는 따라서 상기 합-차 표현의 합 신호(M)와 동등하다.

본 명세서에서 사용되는 바로서, 오디오 신호는 순수한 오디오 신호, 시청각 신호 또는 멀티미디어 신호 중 오디오 부분, 또는 메타데이터과 결합한 이들 중 어떠한 것도 될 수 있다.

제 1 관점에 따라, 예시적인 실시예들은 입력 신호에 기초하여 스테레오 채널 오디오 신호를 디코딩하기 위한 방법들, 디바이스들, 및 컴퓨터 프로그램 제품들을 제안한다. 상기 제안된 방법들, 디바이스들, 및 컴퓨터 프로그램 제품들은 일반적으로 동일한 특징들 및 이점들을 가질 수 있다.

예시적인 실시예들에 따라, 두 개의 오디오 신호들을 디코딩하기 위한 디코더가 제공된다. 상기 디코더는 상기 두 개의 오디오 신호들의 시간 프레임에 대응하는 제 1 신호 및 제 2 신호를 수신하도록 구성된 수신 스테이지를 구비하며, 상기 제 1 신호는 제 1 크로스-오버 주파수까지의 주파수들에 대응하는 스펙트럼 데이터를 구비하는 제 1 파형-코딩된 신호 및 상기 제 1 크로스-오버 주파수 위의 주파수들에 대응하는 스펙트럼 데이터를 구비하는 파형-코딩된 다운믹스 신호를 구비하고, 상기 제 2 신호는 상기 제 1 크로스-오버 주파수까지의 주파수들에 대응하는 스펙트럼 데이터를 구비하는 제 2 파형-코딩된 신호를 구비한다.

상기 디코더는 또한, 상기 수신 스테이지의 다운스트림인 믹싱 스테이지(mixing stage)를 구비한다. 상기 믹싱 스테이지는 상기 제 1 및 상기 제 2 신호 파형-코딩된 신호가 상기 제 1 크로스-오버 주파수까지의 모든 주파수들에 대해 합-및-차 형태로 있는지를 확인하고, 그렇지 않다면, 상기 제 1 신호가 상기 제 1 크로스-오버 주파수까지의 주파수들에 대응하는 스펙트럼 데이터를 구비하는 파형-코딩된 합-신호 및 상기 제 1 크로스-오버 주파수 위의 주파수들에 대응하는 스펙트럼 데이터를 구비하는 파형-코딩된 다운믹스 신호의 결합이 되고, 상기 제 2 신호가 상기 제 1 크로스-오버 주파수까지의 주파수들에 대응하는 스펙트럼 데이터를 구비하는 파형-코딩된 차-신호를 구비하도록 상기 제 1 및 상기 제 2 파형-코딩된 신호를 합-및-차 형태로 변환하도록 구성된다.

상기 디코더는 또한 스테레오 신호의 좌측 및 우측 채널을 발생하기 위해 상기 제 1 및 상기 제 2 신호를 업믹싱하도록 구성된 상기 믹싱 스테이지의 다운스트림인 업믹싱 스테이지를 구비하며, 여기서 상기 제 1 크로스-오버 주파수 아래의 주파수들에 대해 상기 업믹싱 스테이지는 상기 제 1 및 상기 제 2 신호의 역의 합-및-차 변환을 실행하도록 구성되고, 상기 제 1 크로스-오버 주파수 위의 주파수들에 대해 상기 업믹싱 스테이지는 상기 제 1 신호의 다운믹스 신호의 파라메트릭 업믹싱을 실행하도록 구성된다.

순수하게 파형-코딩된 낮은 주파수들, 즉 상기 스테레오 오디오 신호의 이산 표현을 갖는 이점은 인간의 청각이 낮은 주파수들을 갖는 오디오의 부분에 더욱 민감하다는 것일 것이다. 이러한 부분을 보다 양호한 품질로 코딩함으로써, 디코딩된 오디오의 전체적인 느낌(impression)이 증가할 수 있다.

상기 제 1 신호의 파라메트릭 스테레오 코딩된 부분, 즉 파형-코딩된 다운믹스 신호 및 상기한 상기 스테레오 오디오 신호의 이산 표현을 갖는 이점은 전통적인 파라메트릭 스테레오 처리방법(approach)을 사용하는 데 비해, 어떤 비트 레이트들에 대해 상기 디코딩된 오디오 신호의 품질을 개선할 수 있다는 것이다. 약 32-40 초당 킬로비트(kbps)의 비트레이트들에서, 파라메트릭 스테레오 모델은 포화할 것이다. 즉, 상기 디코딩된 오디오 신호의 품질은 코딩을 위한 비트들의 부족에 의해서가 아니라 상기 파라메트릭 모델의 결함들에 의해 제한된다.

결과적으로, 약 32 kbps로부터의 비트레이트들에 대해, 보다 낮은 주파수들을 파형-코딩하는데 비트들을 사용하는 것이 보다 유익할 수 있다. 동시에, 상기 제 1 신호의 파라메트릭 스테레오 코딩된 부분 및 상기 분포된 스테레오 오디오 신호의 이산 표현 양쪽 모두를 사용하는 하이브리드 처리방법은, 이러한 것이 모든 비트들이 보다 낮은 주파수들을 파형-코딩하는데 사용되는 처리방법을 사용하고 남아있는 주파수들에 대해 스펙트럼 대역 복제(SBR)를 사용하는 것에 비해, 어떤 비트레이트들, 예를 들면 48 kbps 아래의 비트레이트들에 대해 디코딩된 오디오의 품질을 개선할 수 있다는 것이다.

따라서, 디코더는 두 개의 채널 스테레오 오디오 신호를 디코딩하는데 사용되는 것이 바람직하다.

다른 실시예에 따라, 상기 제 1 및 상기 제 2 파형-코딩된 신호를 상기 믹싱 스테이지에서 합-및-차 형태로 변환하는 것은 오버랩핑 윈도윙된 변환 도메인(overlapping windowed transform domain)에서 실행된다. 상기 오버랩핑 윈도윙된 변환 도메인은 예를 들면 수정된 이산 코사인 변환(MDCT) 도메인이 될 수 있다. 이러한 것은, 상기 MDCT 도메인에서 좌/우 형태 또는 dmx/comp 형태와 같은 다른 이용가능한 오디오 분포 포맷들에 대한 상기 합-및-차 형태로의 변환을 달성하기 용이하므로, 바람직할 수 있다. 결과적으로, 상기 신호들은 인코딩되는 신호의 특성들에 따라서 적어도 상기 제 1 크로스-오버 주파수 아래의 주파수들의 서브세트에 대해 상이한 포맷들을 사용하여 인코딩될 수 있다. 이러한 것은 개선된 코딩 품질 및 코딩 효율을 가능하게 할 수 있다.

또 다른 실시예에 따라, 상기 업믹싱 스테이지에서의 상기 제 1 및 상기 제 2 신호의 업믹싱은 QMF(Quadrature Mirror Filter) 도메인에서 실행된다. 이러한 업믹싱은 좌 및 우 스테레오 신호를 발생하도록 실행된다.

다른 실시예에 따라, 상기 파형-코딩된 다운믹스 신호는 상기 제 1 크로스-오버 주파수와 상기 제 2 크로스-오버 주파수 사이의 주파수들에 대응하는 스펙트럼 데이터를 구비한다. 고 주파수 재구성(HFR) 파라미터들은 상기 디코더에 의해 예를 들면 상기 수신 스테이지에서 수신되고, 이후 상기 고 주파수 재구성 파라미터들을 사용하여 고 주파수 재구성을 실행함으로써 상기 제 2 크로스-오버 주파수 위의 주파주 범위로 상기 제 1 신호의 다운믹스 신호를 확장하기 위해 고 주파수 재구성 스테이지로 전송된다. 상기 고 주파수 재구성은 예를 들면 스펙트럼 대역 복제(SBR)를 실행하는 것을 포함할 수 있다.

상기 제 1 크로스-오버 주파수와 상기 제 2 크로스-오버 주파수 사이의 주파수들에 대응하는 스펙트럼 데이터만을 구비하는 파형-코딩된 다운믹스 신호를 갖는 이점은, 스테레오 시스템에 대해 요구되는 비트 전송 레이트가 감소될 수 있다는 것이다. 대안적으로, 대역 통과 필터링된 다운믹스 신호를 가짐으로써 세이브된 비트들은 보다 낮은 주파수들 파형-코딩하는데 사용되며, 예를 들면 이들 주파수들에 대한 양자화가 보다 양호하게 될 수 있거나, 또는 상기 제 1 크로스-오버 주파수가 증가될 수 있다.

상술한 바와 같이, 인간의 청각은 낮은 주파수들을 갖는 오디오 신호의 부분에 더욱 민감하므로, 상기 제 2 크로스-오버 주파수 위의 주파수들을 갖는 오디오 신호의 부분과 같은 높은 주파수들은 디코딩된 오디오 신호의 지각되는 오디오 품질을 감소시키지 않고서 고 주파수 재구성에 의해 재현될 수 있다.

또 다른 실시예에 따라, 상기 제 1 신호의 다운믹스 신호는 상기 제 1 및 상기 제 2 신호의 업믹싱이 실행되기 전에 상기 제 2 크로스-오버 주파수 위의 주파수 범위로 확장된다. 이러한 것은 상기 업믹싱 스테이지가 모든 주파수들에 대응하는 스펙트럼 데이터의 합-신호를 갖고 입력할 것이므로 바람직할 수 있다.

또 다른 실시예에 따라, 상기 제 1 신호의 다운믹스 신호는 상기 제 1 및 상기 제 2 파형-코딩된 신호에 대한 합-및-차 형태로의 변환 후 상기 제 2 크로스-오버 주파수 위의 주파수 범위로 확장된다. 이러한 것은, 상기 다운믹스 신호가 상기 합-및-차 표현에서 상기 합-신호에 대응하는 경우, 상기 고 주파수 재구성 스테이지는 동일한 형태, 즉 상기 합-형태로 표현된 상기 제 2 크로스-오버 주파수까지의 주파수들에 대응하는 스펙트럼 데이터의 입력 신호를 가질 것이므로, 바람직할 수 있다.

또 다른 실시예에 따라, 상기 업믹싱 스테이지에서의 업믹싱은 업믹싱 파라미터들을 사용하여 행해진다. 상기 업믹싱 파라미터들은 디코더에 의해, 예를 들면 상기 수신 스테이지에서 수신되고, 상기 업믹싱 스테이지로 전송된다. 상기 다운믹스 신호의 역상관된 버전(decorrelated version)이 발생되어, 상기 다운믹스 신호 및 상기 다운믹스 신호의 역상관 버전이 매트릭스 연산된다. 상기 매트릭스 연산의 파라미터들은 상기 업믹스 파라미터들에 의해 주어진다.

또 다른 실시예에 따라, 상기 수신 스테이지에 수신된 상기 제 1 및 상기 제 2 파형 코딩된 신호는 좌-우 형태, 합-차 형태 및/또는 다운믹스-상보적 형태로 파형-코딩되며, 여기서 상기 상보적 신호는 신호 적응적인 가중 파라미터 a에 의존한다. 상기 파형-코딩된 신호들은 따라서 상기 신호들의 특징들에 따라 상이한 형태들로 코딩될 수 있으며, 여전히 상기 디코더에 의해 디코딩 가능하다. 이러한 것은 개선된 코딩 품질을 가능하게 할 수 있고, 따라서 상기 시스템의 주어진 어떤 비트레이트에 대해 디코딩된 오디오 스테레오 시호의 개선된 품질을 가능하게 한다. 다른 실시예에서, 상기 가중 파라미터 a는 실수치로 사용된다(real-valued). 이러한 것은, 상기 신호의 허수부를 근사치로 계산하기 위한 추가의 스테이지를 필요로 하지 않으므로 상기 디코더를 간략화할 수 있다. 추가의 이점은, 상기 디코더의 계산적인 복잡성이 감소될 수 있다는 것이고, 이러한 것은 또한 상기 디코더의 디코딩 지연/대기시간(latency)을 감소하게 한다.

또 다른 실시예에 따라, 상기 수신 스테이지에 수신된 상기 제 1 및 상기 제 2 파형 코딩된 신호는 합-차 형태로 파형-코딩된다. 이러한 것은, 상기 제 1 및 상기 제 2 신호가 상기 제 1 및 상기 제 2 신호에 대해 독립적인 윈도윙을 갖는 오버랩핑 윈도윙된 변환들을 사용하여 각각 코딩될 수 있으며, 여전히 상기 디코더에 의해 디코딩 가능하다는 것을 의미한다. 이러한 것은 개선된 코딩 품질을 가능하게 하고, 따라서 상기 시스템의 주어진 어떤 비트레이트에 대해 디코딩된 오디오 스테레오 신호의 개선된 품질을 가능하게 한다. 예를 들면, 만일 트랜션트(transient)가 상기 차 신호에서는 아니지만 상기 합 신호에서 검출된다면, 상기 파형 코더는, 상기 차 신호에 대해 보다 긴 디폴트 윈도우들이 유지될 수 있는 동안, 상기 합 신호를 보다 짧은 윈도우들로 코딩할 수 있다. 이러한 것은, 측면 신호가 보다 짧은 윈도우 시퀀스로 코딩되었다면 그에 비해, 보다 높은 코딩 효율을 제공할 수 있다.

개요-인코더

두 번째 관점에 따라, 예시적인 실시예들은 입력 신호에 기초하여 스테레오 채널 오디오 신호를 인코딩하기 위한 방법들, 디바이스들, 및 컴퓨터 프로그램 제품들을 제안한다.

상기 방법들, 디바이스들, 및 컴퓨터 프로그램 제품들은 일반적으로 동일한 특징들 및 이점들을 가질 수 있다.

상기한 디코더의 개요에서 제시된 바와 같은 특징들 및 셋업들과 관련한 이점들은 일반적으로 상기 인코더에 대한 대응하는 특징들 및 셋업들에 대해서도 유효하다.

예시적인 실시예들에 따라, 두 개의 오디오 신호들을 인코딩하기 위한 인코더가 제공된다. 상기 인코더는 상기 두 개의 신호들의 시간 프레임에 대응하는 인코딩될 제 1 신호 및 제 2 신호를 수신하도록 구성된다.

상기 인코더는 또한 상기 수신 스테이지로부터 상기 제 1 및 상기 제 2 신호를 수신하고, 이들을 합 신호인 제 1 변환 신호 및 차 신호인 제 2 변환 신호로 변환하도록 구성되는 변환 스테이지를 구비한다.

상기 인코더는 또한 상기 변환 스테이지로부터 상기 제 1 및 상기 제 2 변환 신호를 수신하고, 이들을 제 1 및 제 2 파형-코딩된 신호로 각각 파형-코딩하도록 구성된 파형-코딩 스테이지를 구비하며, 여기서 제 1 크로스-오버 주파수 위의 주파수들에 대해 상기 파형-코딩 스테이지는 상기 제 1 변환 신호를 파형-코딩하도록 구성되고, 상기 제 1 크로스-오버 주파수까지의 주파수들에 대해 상기 파형-코딩 스테이지는 상기 제 1 및 상기 제 2 변환 신호를 파형-코딩하도록 구성된다.

상기 인코더는 또한 상기 수신 스테이지로부터 상기 제 1 및 상기 제 2 신호를 수신하고, 상기 제 1 크로스-오버 주파수 위의 주파수들에 대해 상기 제 1 및 상기 제 2 신호의 스펙트럼 데이터의 재구성을 가능하게 하는 파라메트릭 스테레오 파라미터들을 추출하기 위해 상기 제 1 및 상기 제 2 신호를 파라메트릭 스테레오 인코딩하도록 구성되는 파라메트릭 스테레오 인코딩 스테이지를 구비한다.

상기 인코더는 또한 상기 파형-코딩 스테이지로부터 상기 제 1 및 상기 제 2 파형-코딩된 신호를 수신하고, 상기 파라메트릭 스테레오 인코딩 스테이지로부터 파라메트릭 스테레오 파라미터들을 수신하고, 상기 제 1 및 상기 제 2 파형-코딩된 신호 및 상기 파라메트릭 스테레오 파라미터들을 구비하는 비트-스트림을 발생하도록 구성되는 비트스트림 발생 스테이지를 구비한다.

또 다른 실시예에 따라, 상기 변환 스테이지에서의 상기 제 1 및 상기 제 2 신호의 변환은 시간 도메인에서 실행된다.

또 다른 실시예에 따라, 적어도 상기 제 1 크로스-오버 주파수 아래의 주파수들의 서브세트에 대해, 상기 인코더는 역의 합-및-차 변환을 실행함으로써 상기 제 1 및 상기 제 2 파형-코딩된 신호를 좌/우 형태로 변환할 수 있다.

또 다른 실시예에 따라, 적어도 상기 제 1 크로스-오버 주파수 아래의 주파수들의 서브세트에 대해, 상기 인코더는 상기 제 1 및 상기 제 2 파형-코딩된 신호들에 대해 매트릭스 연산을 실행함으로써 상기 제 1 및 상기 제 2 파형-코딩된 신호를 다운믹스/상보적 형태로 변환할 수 있으며, 상기 매트릭스 연산은 가중 파라미터 a에 의존한다. 이러한 가중 파라미터 a는 이후 비트스트림 발생 스테이지에서 상기 비트스트림에 포함될 수 있다.

또 다른 실시예에 따라, 상기 제 1 크로스-오버 주파수 위의 주파수들에 대해 상기 변환 스테이지에서 상기 제 1 및 상기 제 2 변환 신호를 파형-코딩하는 단계는 상기 제 1 크로스-오버 주파수와 상기 제 2 크로스-오버 주파수 사이의 주파수들에 대해 상기 제 1 변환 신호를 파형-코딩하고, 상기 제 1 파형-코딩된 신호를 상기 제 2 크로스-오버 주파수 위에 제로로 설정하는 단계를 구비한다. 상기 제 1 신호 및 상기 제 2 신호의 다운믹스 신호는 이후 상기 다운믹스 신호의 고 주파수 재구성을 가능하게 하는 고 주파수 재구성 파라미터들을 발생하기 위해 고 주파수 재구성 스테이지에서 고 주파수 재구성 인코딩된다. 상기 고 주파수 재구성 파라미터들은 이후 상기 비트스트림 발생 스테이지에서 상기 비트스트림에 포함될 수 있다.

또 다른 실시예에 따라, 상기 제 1 및 상기 제 2 신호에 기초하여 다운믹스 신호가 산출된다.

또 다른 실시예에 따라, 상기 제 1 및 상기 제 2 신호를 상기 파라메트릭 스테레오 인코딩 스테이지에서 파라메트릭 스테레오 인코딩하는 단계는, 먼저 상기 제 1 및 상기 제 2 신호를 합 신호인 제 1 변환 신호 및 차 신호인 제 2 변환 신호로 변환하고, 이후 상기 제 1 및 상기 제 2 변환 신호를 파라메트릭 스테레오 인코딩하는 단계를 포함하고, 여기서 고 주파수 재구성 인코딩되는 상기 다운믹스 신호는 상기 제 1 변환 신호이다.

III. 예시적 실시예들

도 1은 도 2 내지 도 4와 더불어 하기에 보다 자세히 설명될 세 개의 개념적 부분들(200, 300, 400)을 구비하는 디코딩 시스템(100)의 일반화된 블록도이다. 제 2 개념적 부분(200)에서, 비트 스트림이 수신되어 제 1 및 제 2 신호로 디코딩된다. 상기 제 1 신호는 제 1 크로스-오버 주파수까지의 주파수들에 대응하는 스펙트럼 데이터를 구비하는 제 1 파형-코딩된 신호 및 상기 제 1 크로스-오버 주파수 위의 주파수들에 대응하는 스펙트럼 데이터를 구비하는 파형-코딩된 다운믹스 신호 양쪽 모두를 구비한다. 상기 제 2 신호는 상기 제 1 크로스-오버 주파수까지의 주파수들에 대응하는 스펙트럼 데이터를 구비하는 제 2 파형-코딩된 신호만을 구비한다.

상기 제 2 개념적 부분(300)에서, 상기 제 1 및 상기 제 2 신호의 파형-코딩된 부분들이 합-및-차 형태, 예컨대 M/S 형태에 있지 않는 경우, 상기 제 1 및 상기 제 2 신호의 상기 파형-코딩된 부분들은 상기 합-및-차 형태로 변환된다. 이후, 상기 제 1 및 상기 제 2 신호는 시간 도메인으로 변환되고, 이어서 QMF(Quadrature Mirror Filters) 도메인으로 변환된다. 상기 제 3 개념적 부분(400)에서, 상기 제 1 신호는 고 주파수 재구성(HFR)된다. 상기 제 1 및 상기 제 2 신호 양쪽 모두는 이후 디코딩 시스템(100)에 의해 디코딩되는 인코딩 신호의 전체 주파수 대역에 대응하는 스펙트럼 계수들을 갖는 좌 및 우 스테레오 신호 출력을 생성하도록 업믹스된다.

도 2는 도 1의 디코딩 시스템(100)의 제 1 개념적 부분(200)을 도시한다. 디코딩 시스템(100)은 수신 스테이지(212)를 구비한다. 상기 수신 스테이지(212)에서, 비트 스트림 프레임(202)이 디코딩되고, 제 1 신호(204a) 및 제 2 신호(204b)로 역양자화(dequantizing)된다. 상기 비트 스트림 프레임(202)은 디코딩되는 두 개의 오디오 신호들의 시간 프레임에 대응한다. 상기 제 1 신호(204a)는 제 1 크로스-오버 주파수 k_y까지의 주파수들에 대응하는 스펙트럼 데이터를 구비하는 제 1 파형-코딩된 신호(208) 및 상기 제 1 크로스-오버 주파수 k_y 위의 주파수들에 대응하는 스펙트럼 데이터를 구비하는 파형-코딩된 다운믹스 신호(206)를 구비한다. 실례로서, 상기 제 1 크로스-오버 주파수 k_y는 1.1 kHz이다.

일부 실시예들에 따라, 상기 파형-코딩된 다운믹스 신호(206)는 상기 제 1 크로스-오버 주파수 k_y와 제 2 크로스-오버 주파수 k_x 사이의 주파수들에 대응하는 스펙트럼 데이터를 구비한다. 실례로서, 상기 제 2 크로스-오버 주파수 k_x는 5.6 내지 8 kHz의 범위 내에 있다.

상기 수신된 제 1 및 제 2 파형-코딩된 신호들(208, 210)은 좌-우 형태, 합-차 형태, 및/또는 다운믹스-상보적 형태로 파형-코딩될 수 있으며, 상기 상보적 신호는 신호 적응적인 가중 파라미터 a에 의존한다. 상기 파형-코딩된 다운믹스 신호(206)는 상기한 바에 따라 합 형태에 대응하는 파라메트릭 스테레오에 적합한 다운믹스에 대응한다. 하지만, 상기 신호(204b)는 상기 제 1 크로스-오버 주파수 k_y 위의 콘텐트를 갖지 않는다. 상기 신호들(206, 208, 210)의 각각은 수정된 이산 코사인 변환(MDCT) 도메인으로 표현된다.

도 3은 도 1의 디코딩 시스템(100)의 제 2 개념적 부분(300)을 도시한다. 디코딩 시스템(100)은 믹싱 스테이지(302)를 구비한다. 상기 디코딩 시스템(100)의 디자인은 하기에 보다 상세히 기술될 고 주파수 재구성 스테이지로의 입력이 합-포맷으로 되어야 할 필요성을 요구한다. 결과적으로, 상기 믹싱 스테이지는 상기 제 1 및 상기 제 2 신호 파형-코딩된 신호(208, 210)가 합-및-차 형태로 있는지 확인하도록 구성된다. 상기 제 1 크로스-오버 주파수 k_y까지의 모든 주파수들에 대해 상기 제 1 및 상기 제 2 신호 파형-코딩된 신호(208, 210)가 합-및-차 형태에 있지 않다면, 상기 믹싱 스테이지(302)는 상기 전체의 파형-코딩된 신호(208, 210)를 합-및-차 형태로 변환할 것이다. 적어도 상기 믹싱 스테이지(302)로의 상기 입력 신호들(208, 210)의 주파수들의 서브세트가 다운믹스-상보적 형태로 있는 경우, 가중 파라미터 a가 상기 믹싱 스테이지(302)로의 입력으로서 요구된다. 상기 입력 신호들(208, 210)은 다운믹스-상보적 형태로 코딩된 주파수들의 몇몇 서브세트를 구비할 수 있으며, 그러한 경우에 각각의 서브세트는 상기 가중 파라미터 a의 동일한 값을 사용하여 코딩되어서는 안 된다는 점을 유의해야한다. 이러한 경우, 몇몇의 가중 파라미터들 a가 상기 믹싱 스테이지(302)로의 입력으로서 요구된다.

상기한 바와 같이, 상기 믹싱 스테이지(302)는 항상 상기 입력 신호들(204a-b)의 합-및-차 표현을 출력한다. 상기 MDCT 도메인으로 표현된 신호들을 상기 합-및-차 표현으로 변환할 수 있도록, 상기 MDCT 코딩된 신호들의 윈도윙(windowing)이 동일하게 될 필요가 있다. 이러한 것은, 상기 제 1 및 상기 제 2 신호 파형-코딩된 신호(208, 210)가 L/R 또는 다운믹스-상보적 형태로 있는 경우, 상기 신호(204a)에 대한 윈도윙 및 상기 신호(204b)에 대한 윈도윙은 독립적이 될 수 없다.

따라서, 상기 제 1 및 상기 제 2 신호 파형-코딩된 신호(208, 210)가 합-및-차 형태로 있는 경우, 상기 신호(204a)에 대한 윈도윙 및 상기 신호(204b)에 대한 윈도윙은 독립적일 수 있다.

상기 믹싱 스테이지(302) 이후, 상기 합-및-차 신호는 역 MDCT^-1(inverse modified discrete cosine transform)(312)을 적용함으로써 시간 도메인으로 변환된다.

상기 두 개의 신호들(304a-b)은 이후 두 개의 QMF 뱅크들(314)로 분석된다. 상기 다운믹스 신호(306)는 낮은 주파수들을 구비하지 않으므로, 주파수 해상도를 증가시키기 위해 나이퀴스트 필터뱅크(Nyquist filterbank)로 상기 신호를 분석할 필요는 없다. 이러한 것은 예를 들면 MPEG-4 파라메트릭 스테레오와 같은 전통적인 파라메트릭 스테레오 디코딩처럼 상기 다운믹스 신호가 낮은 주파수들을 구비하는 시스템들과 비교될 수 있다. 이 시스템들에서, 상기 다운믹스 신호는, QMF 뱅크에 의해 달성되는 것 이상으로 주파수 해상도를 증가시키기 위해, 그에 따라 예를 들면 바크 주파수 스케일(Bark frequency scale)에 의해 표현되는 바와 같은 인간의 청각 시스템의 주파수 선택성에 보다 양호하게 부합시키기 위해 상기 나이퀴스트 필터뱅크로 분석될 필요가 있다.

상기 QMF 뱅크들(314)로부터의 출력 신호(304)는 상기 제 1 크로스-오버 주파수 k_y까지의 주파수들에 대응하는 스펙트럼 데이터를 구비하는 파형-코딩된 합-신호(208) 및 상기 제 1 크로스-오버 주파수 k_y와 상기 제 2 크로스-오버 주파수 k_x 사이의 주파수들에 대응하는 스펙트럼 데이터를 구비하는 파형-코딩된 다운믹스 신호(206)의 결합인 제 1 신호(304a)를 구비하다. 상기 출력 신호(403)는 또한 상기 제 1 크로스-오버 주파수 k_y까지의 주파수들에 대응하는 스펙트럼 데이터를 구비하는 파형-코딩된 차-신호(310)를 구비하는 제 2 신호(304b)를 구비한다. 상기 신호(304b)는 상기 제 1 크로스-오버 주파수 k_y 이상의 콘텐트를 갖지 않는다.

이후에 기술될 바와 같이, 고 주파수 재구성 스테이지(416)(도 4에 도시됨)는 상기 제 2 크로스-오버 주파수 k_x 위의 주파수들을 재구성하기 위해, 예를 들면 상기 출력 신호(304)로부터의 상기 제 1 파형-코딩된 신호(308) 및 상기 파형-코딩된 다운믹스 신호(306)와 같은, 보다 낮은 주파수들을 사용한다. 상기 고 주파수 재구성 스테이지(416)가 처리하는 신호가 상기 보다 낮은 주파수들에 걸친 유사한 유형의 신호인 것은 바람직하다. 이러한 관점으로부터, 상기 믹싱 스테이지(302)로 하여금 상기 제 1 및 상기 제 2 신호 파형-코딩된 신호(208, 210)의 합-및-차 표현을 항상 출력하게 하는 것은 바람직한데, 이는 이러한 것이 상기 출력된 제 1 신호(304a)의 상기 제 1 파형-코딩된 신호(308) 및 상기 파형-코딩된 다운믹스 신호(306)가 유사한 특성인 것을 의미하기 때문이다.

도 4는 도 1의 디코딩 시스템(100)의 제 3 개념적 부분(400)을 도시한다. 상기 고 주파수 재구성(HFR) 스테이지(416)는 고 주파수 재구성을 실행함으로써 상기 제 1 신호 입력 신호(304a)의 다운믹스 신호(306)를 상기 제 2 크로스-오버 주파수 k_x 위의 주파수 범위로 확장한다. 상기 HFR 스테이지(416)의 구성에 의존하여, 상기 HFR 스테이지(416)에 대한 입력은 전체의 신호(304a)이거나 또는 단지 다운믹스 신호(306)만이 된다. 상기 고 주파수 재구성은 어떠한 적합한 방식으로든 고 주파수 재구성 스테이지(416)에 의해 수신될 수 있는 고 주파수 재구성 파라미터들을 사용함으로써 행해진다. 하나의 실시예에 따라, 상기 고 주파수 재구성의 실행은 SBR의 실행을 구비한다.

상기 고 주파수 재구성 스테이지(416)로부터의 출력은 상기 SBR 확장(412)이 적용된 다운믹스 신호(406)를 구비하는 신호(404)가 된다. 상기 고 주파수 재구성 신호(404) 및 상기 신호(304b)는 이후 좌 L 및 우 R 스테레오 신호(412a-b)를 발생하도록 업믹싱 스테이지(420)로 공급된다. 상기 제 1 크로스-오버 주파수 k_y 아래의 주파수들에 대응하는 스펙트럼 계수들에 대해, 상기 업믹싱은 상기 제 1 및 상기 제 2 신호(408, 310)의 역 합-및-차 변환을 실행하는 단계를 구비한다. 이러한 것은 이전에 서술한 바와 같이 단순히 중간-측면 표현으로부터 좌-우 표현으로 진행하는 것을 의미한다. 상기 제 1 크로스-오버 주파수 k_y 이상의 주파수들에 대응하는 스펙트럼 계수들에 대해, 상기 다운믹스 신호(406) 및 상기 SBR 확장(412)은 역상관기(418)를 통해 공급된다. 상기 다운믹스 신호(406)와 상기 SBR 확장(412) 및 상기 다운믹스 신호(406)와 상기 SBR 확장(412)의 역상관된 버전은 이후 상기 제 1 크로스-오버 주파수 k_y 위의 주파수들에 대해 좌측 및 우측 채널들(416, 414)을 재구성하도록 파라메트릭 믹싱 파라메터들을 사용하여 업믹싱된다. 당 기술 분야에 공지된 어떠한 파라메트릭 업믹싱 절차도 적용될 수 있다.

도 1 내지 도 4에 도시된 디코더의 상기한 예시적 실시예(100)에서, 상기 제 1 수신된 신호(204a)만이 상기 제 2 크로스-오버 주파수 f_x까지의 주파수들에 대응하는 스펙트럼 데이터를 구비하므로, 고 주파수 재구성이 필요하다는 것을 유의해야한다. 다른 실시예들에서, 상기 제 1 수신된 신호는 상기 인코딩된 신호의 모든 주파수들에 대응하는 스펙트럼 데이터를 구비한다. 이러한 실시예에 따라, 고 주파수 재구성은 필요치않다. 당 기술분야에 숙련된 사람들은 이 경우 예시적 디코더(100)를 어떻게 조정해야하는지 이해할 것이다.

도 5는 한 실시예에 따라 인코딩 시스템(500)의 일반화된 블록도를 실례로서 도시한다.

상기 인코딩 시스템에서, 인코딩될 제 1 및 제 2 신호(540, 542)는 수신 스테이지(도시되지 않음)에 의해 수신된다. 이 신호들(540, 542)은 좌(540) 및 우(542) 스테레오 오디오 채널들의 시간 프레임을 나타낸다. 상기 신호들(540, 542)은 시간 도메인에서 표현된다. 상기 인코딩 시스템은 변환 스테이지(510)를 구비한다. 상기 신호들(540, 542)은 상기 변환 스테이지(510)에서 합-및-차 포맷(544, 546)으로 변환된다.

상기 인코딩 시스템은 또한 상기 변환 스테이지(510)로부터 상기 제 1 및 상기 제 2 변환 신호(544, 546)를 수신하도록 구성된 파형-코딩 스테이지(514)를 구비한다. 상기 파형-코딩 스테이지는 일반적으로 MDCT 도메인에서 동작한다. 이러한 이유로, 상기 변환 신호(544, 546)는 상기 파형-코딩 스테이지(514) 이전에 MDCT 변환(512)에 놓여 진다. 상기 파형-코딩 스테이지에서, 상기 제 1 및 제 2 변환 신호(544, 546)는 제 1 및 제 2 파형-코딩된 신호(518, 520)로 각각 파형-코딩된다.

제 1 크로스-오버 주파수 fy 위의 주파수들에 대해, 상기 파형-코딩 스테이지(514)는 상기 제 1 변환 신호(544)를 상기 제 1 파형-코딩된 신호(518)의 파형-코딩된 신호(552)로 파형-코딩하도록 구성된다. 상기 파형-코딩 스테이지(514)는 상기 제 2 파형-코딩된 신호(520)를 상기 제 1 크로스-오버 주파수 k_y 위에 제로로 설정하거나 또는 이들 주파수들을 전혀 인코딩하지 않도록 구성될 수 있다. 상기 제 1 크로스-오버 주파수 k_y 위의 주파수들에 대해, 상기 파형-코딩 스테이지(514)는 상기 제 1 변환 신호(544)를 상기 제 1 파형-코딩된 신호(518)의 파형-코딩된 신호(552)로 파형-코딩하도록 구성된다.

상기 제 1 크로스-오버 주파수 k_y 아래의 주파수들에 대해, 상기 파형-코딩 스테이지(514)에서, 상기 두 개의 신호들(548, 550)에 대해 어떠한 종류의 스테레오 코딩이 사용되는지에 대한 결정이 이루어진다. 상기 제 1 크로스-오버 주파수 k_y 아래의 상기 변환된 신호들(544, 546)의 특성들에 의존하여, 상기 파형-코딩된 신호(548, 550)의 상이한 서브세트들에 대해 상이한 결정들이 이루어질 수 있다. 상기 코딩은 좌/우 코딩, 중간(Mid)/측면(Side) 코딩, 즉 합-및-차 코딩, 또는 dmx/comp/a 코딩이 될 수 있다. 상기 신호들(548, 550)이 상기 파형-코딩 스테이지(514)에서 합-및-차 코딩에 의해 파형-코딩되는 경우에, 상기 파형-코딩된 신호들(518, 520)은 상기 신호들(518, 520)에 대한 독립적 윈도윙으로 오버랩핑 윈도윙된 변환들을 사용하여 각각 코딩될 수 있다.

예시적인 제 1 크로스-오버 주파수 k_y는 1.1 kHz 이지만, 이러한 주파수는 상기 스테레오 오디오 시스템의 비트 전송 레이트에 따라 또는 인코딩될 오디오의 특성들에 따라 변화될 수 있다.

적어도 두 개의 신호들(518, 520)이 따라서 상기 파형-코딩된 스테이지(514)로부터 출력된다. 상기 제 1 크로스-오버 주파수 k_y 아래의 신호들의 하나 이상의 몇몇의 서브세트들 또는 전체 주파수 대역이 가중 파라미터 a에 따라 매트릭스 연산을 실행함으로써 다운믹스/상보적 형태로 코딩되는 경우, 이러한 파리미터도 역시 신호(522)로서 출력된다. 다운믹스/상보적 형태로 인코딩되는 몇몇의 서브세트들인 경우, 각각의 서브세트는 상기 가중 파라미터 a의 동일한 값을 사용하여 코딩되어서는 안 된다. 이러한 경우에, 몇몇의 가중 파라미터들이 상기 신호(522)로서 출력된다.

이러한 둘 또는 세 개의 신호들(518, 520, 522)이 인코딩되어 단일의 합성 신호(558)로 양자화된다.

디코더 측 상에서 상기 제 1 크로스-오버 주파수 위의 주파수들에 대해 상기 제 1 및 상기 제 2 신호(540, 542)의 스펙트럼 데이터를 재구성할 수 있도록, 파라메트릭 스테레오 파라미터들(536)이 상기 신호들(540, 542)로부터 추출될 필요가 있다. 이러한 목적으로, 상기 인코더(500)는 파라메트릭 스테레오(PS) 인코딩 스테이지(530)를 구비한다. 상기 PS 인코딩 스테이지(530)는 일반적으로 QMF 도메인에서 동작한다. 따라서, 상기 PS 인코딩 스테이지(530)에 입력되기 전에, 상기 제 1 및 제 2 신호들(540, 542)은 QMF 분석 스테이지(526)에 의해 QMF 도메인으로 변환된다. 상기 PS 인코딩 스테이지(530)는 상기 제 1 크로스-오버 주파수 k_y 위의 주파수들에 대해 파라메트릭 스테레오 파라미터들(536)만을 추출하도록 적응된다.

상기 파라메트릭 스테레오 파라미터들(536)은 인코딩된 파라메트릭 스테레오가 되는 신호의 특성들을 반영한다. 이들은 따라서 주파수 선택적이며, 즉 상기 파라미터들(536)의 각각의 파라미터는 상기 좌측 또는 상기 우측 입력 신호(540, 542)의 주파수들의 서브세트에 대응할 수 있다. 상기 PS 인코딩 스테이지(530)는 상기 파라메트릭 스테레오 파라미터들(536)을 산출하며, 이들을 균일한 방식 또는 비균일한 방식으로 양자화한다. 상기 파라미터들은 상기 언급한 바와 같이 주파수 선택적으로 산출되며, 상기 입력 신호들(540, 542)의 전체 주파수 범위는 예를 들면 15 파라미터 대역들로 분할된다. 이들은 예를 들면 바크 스케일(bark scale)과 같은 인간 청각 시스템의 주파수 해상도의 모델에 따라 간격을 두게 될 수 있다.

도 5에 도시된 인코더(500)의 예시적인 실시예에 있어서, 상기 파형-코딩 스테이지(514)는 상기 제 1 크로스-오버 주파수 k_y와 상기 제 2 크로스-오버 주파수 k_x 사이의 주파수들에 대해 상기 제 1 변환 신호(544)를 파형-코딩하고, 상기 제 1 파형-코딩된 신호(518)를 상기 제 2 크로스-오버 주파수 k_x 위에 제로로 설정하도록 구성된다. 이러한 것은 상기 인코더(500)가 일부가 되는 오디오 시스템의 요구된 전송 레이트를 더욱 감소하도록 행해질 수 있다. 상기 제 2 크로스-오버 주파수 k_x 위의 신호를 재구성할 수 있도록 고 주파수 재구성 파라미터들(538)이 발생될 필요가 있다. 이러한 예시적 실시예에 따라, 이러한 것은 다운믹싱 스테이지(534)에서 상기 QMF 도메인으로 표현되는 상기 두 개의 신호(540, 542)를 다운믹싱함으로써 행해진다. 예를 들면 상기 신호들(540, 542)의 합과 동일한 상기 결과적인 다운믹스 신호는 이후 상기 고 주파수 재구성 파라미터들(538)을 발생하기 위해 고 주파수 재구성(HFR) 인코딩 스테이지(532)에서 고 주파수 재구성 인코딩된다. 당 기술분야에 숙련된 사람들에게는 공지된 바와 같이, 상기 파라미터들(538)은 예를 들면 상기 제 2 크로스-오버 주파수 k_x 위의 주파수들의 스펙트럼 엔벨로프, 노이즈 부가 정보 등을 포함할 수 있다.

예시적인 제 2 크로스-오버 주파수 k_x는 5.6 내지 8 kHz 이지만, 이러한 주파수는 상기 스테레오 오디오 시스템의 비트 전송 레이트에 따라 또는 인코딩될 오디오의 특성들에 따라 변화될 수 있다.

상기 인코더(500)는 또한 비트스트림 발생 스테이지, 즉 비트스트림 멀티플렉서(524)를 구비한다. 상기 인코더(500)의 예시적인 실시예에 따라, 상기 비트스트림 발생 스테이지는 상기 인코딩된 및 양자화된 신호(544) 및 상기 두 개의 파라미터 신호들(536, 538)을 수신하도록 구성된다. 이들은 또한 상기 스테레오 오디오 시스템에서 분포되도록 상기 비트스트림 발생 스테이지(562)에 의해 비트스트림(560)으로 전환된다.

또 다른 실시예에 따라, 상기 파형-코딩 스테이지(514)는 상기 제 1 크로스-오버 주파수 k_y 위의 모든 주파수들에 대해 상기 제 1 변환 신호(544)를 파형-코딩하도록 구성된다. 이러한 경우에, 상기 HFR 인코딩 스테이지(532)는 필요치 않으며, 결과적으로 고 주파수 재구성 파라미터들(538)은 상기 비트-스트림에 포함되지 않는다.

도 6은 또 다른 실시예에 따라 인코더 시스템(600)의 일반화된 블록도를 예시적으로 도시한다. 이러한 실시예는, 상기 QMF 분석 스테이지(526)에 의해 변환되는 상기 신호들(544, 546)이 합-및-차 포맷에 있다는 점에서 도 5에 도시된 실시예와는 다르다. 결과적으로, 상기 합 신호(544)는 이미 다운믹스 신호의 형태에 있으므로, 별개의 다운믹싱 스테이지(534)는 필요치 않다. 상기 SBR 인코딩 스테이지(532)는 따라서 상기 고 주파수 재구성 파라미터들(538)을 추출하도록 상기 합-신호(544)에 대해 동작할 필요성만이 있다. 상기 PS 인코더(530)는 상기 파라메트릭 스테레오 파라미터들(536)을 추출하기 위해 상기 합-신호(544) 및 상기 차-신호(546) 양쪽 모두에 대해 동작하도록 적응된다.

등가물, 확장, 대체물 및 기타

본 개시의 추가적인 실시예들은 상기한 명세서를 학습한 후라면 당 기술분야에 숙련된 사람들에게는 명백할 것이다. 비록 본 명세서 및 도면들이 실시예들 및 예들을 개시하고는 있지만, 이러한 개시는 이들 특정 예들에 제한되지 않는다. 다양한 수정과 변경들이 첨부된 청구범위에 의해 정의된 본 개시의 범위를 벗어나지 않고서 이루어질 수 있다. 청구범위에 나타나있는 어떠한 참조 부호들도 그 범위를 제한하는 것으로 이해되어서는 안 된다.

부가적으로, 개시된 실시예들에 대한 변형들은 도면들, 개시된 내용 및 첨부된 청구범위를 학습하여, 본 개시를 실천함으로써 당업자에 의해 이해될 수 있으며 그 결과가 얻어질 수 있다. 청구범위에 있어서, 용어 "구비하다"는 다른 요소들 또는 단계들을 배제하지 않으며, 복수의 표현이 아닌 것도 복수를 배제하지 않는다. 임의의 측정치들이 상호 상이한 종속 청구항들에서 인용되는 단순한 사실은 이들 측정된 것들의 결합이 유익하게 사용될 수 없다는 것을 나타내는 것은 아니다.

본 명세서에서 개시된 시스템들 및 방법들은 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합으로 구현될 수 있다. 하드웨어 구현에 있어서, 상기한 설명에서 참조되는 기능 유닛들 간의 작업의 분할은 물리적 유닛들로의 분할에 반드시 대응하는 것은 아니며; 대조적으로, 하나의 물리적 성분은 복수의 기능들을 가질 수 있고, 하나의 작업은 몇몇의 물리적 성분들이 협력하여 실행될 수 있다. 임의의 성분들 또는 모든 성분들은 디지털 신호 프로세서 또는 마이크로프로세서에 의해 실행되는 소프트웨어로서 구현될 수 있으며, 하드웨어로서 또는 어플리케이션 특정의 집적 회로로서 구현될 수 있다. 그러한 소프트웨어는, 컴퓨터 저장 매체(또는 비-일시적 매체) 및 통신 매체(또는 일시적 매체)를 구비할 수 있는, 컴퓨터 판독가능 매체 상에 분포될 수 있다. 당 기술분야에 숙련된 사람에게 공지된 바와 같이, 용어 "컴퓨터 저장 매체"는, 컴퓨터 판독 가능한 지시들, 데이터 구조들, 프로그램 모듈들 또는 다른 데이터와 같은 정보 저장을 위한 어떠한 방법 또는 기술로 구현될 수 있는 휘발성과 비휘발성, 제거와 제거 불가능한 양쪽 모두의 매체를 포함한다. 컴퓨터 저장 매체는, 이에 제한되지는 않지만, RAM, ROM, EEPROM, 플래시 메모리 또는 다른 메모리 기술, CD-ROM, 디지털 다기능 디스크(DVD) 또는 다른 광학 디스크 저장장치, 자기 카세트, 자기 테입, 자기 디스크 저장장치 또는 다른 자기 저장 디바이스, 또는 원하는 정보를 저장할 수 있으며 컴퓨터에 의해 액세스될 수 있는 어떠한 다른 매체도 포함한다. 또한, 통신 매체는 통상 컴퓨터 판독가능한 지시들, 데이터 구조들, 프로그램 모듈들 또는 반송파 또는 다른 전달 메카니즘과 같은 변조된 데이터 신호 내의 다른 데이터를 포함하며, 어떠한 정보 전달 매체도 포함한다는 것은 당업자에게는 널리 알려진 것이다.

100: 디코딩 시스템
200: 제 1 개념적 부분
300: 제 2 개념적 부분
400: 제 3 개념적 부분

Claims

오디오 처리 시스템에서 인코딩된 오디오 비트스트림을 디코딩하기 위한 방법에 있어서:
상기 인코딩된 오디오 비트스트림으로부터, 제 1 시간 기간 동안 단지 최대 제 1 크로스-오버 주파수까지의 주파수들에 대응하는 스펙트럼 계수들을 포함하는 제 1 파형-코딩된 신호를 추출하는 단계;
상기 인코딩된 오디오 비트스트림으로부터, 상기 제 1 시간 기간 동안 단지 상기 제 1 크로스-오버 주파수 위의 주파수들의 서브세트에 대응하는 스펙트럼 계수들을 포함하는 제 2 파형-코딩된 신호를 추출하는 단계;
재구성된 신호를 발생하기 위해 상기 제 1 시간 기간 동안 제 2 크로스-오버 주파수에서 고 주파수 재구성을 실행하는 단계로서, 상기 제 2 크로스-오버 주파수는 상기 제 1 크로스-오버 주파수 위에 있고, 상기 고 주파수 재구성은 상기 재구성된 신호를 발생하기 위해 상기 인코딩된 오디오 비트스트림으로부터 얻어진 재구성 파라미터들을 사용하는, 상기 고 주파수 재구성을 실행하는 단계;
상기 제 1 파형-코딩된 신호, 상기 제 2 파형-코딩된 신호, 및 상기 재구성된 신호를 결합하는 단계; 및
상기 결합된 신호를 출력하는 단계를 구비하고,
상기 제 2 크로스-오버 주파수는 상기 인코딩된 오디오 비트스트림의 특성에 의존하는, 인코딩된 오디오 비트스트림을 디코딩하기 위한 방법.
제 1 항에 있어서,
상기 제 1 크로스-오버 주파수는 상기 오디오 처리 시스템의 비트 전송 레이트에 의존하는, 인코딩된 오디오 비트스트림을 디코딩하기 위한 방법.
제 1 항에 있어서,
상기 결합하는 단계는, (i) 상기 제 2 파형-코딩된 신호에 상기 재구성된 신호를 부가하는 단계, (ii) 상기 제 2 파형-코딩된 신호를 상기 재구성된 신호와 결합하는 단계, 또는 (iii) 상기 재구성된 단계를 상기 제 2 파형-코딩된 신호로 대체하는 단계를 포함하는, 인코딩된 오디오 비트스트림을 디코딩하기 위한 방법.
제 1 항에 있어서,
(i) 상기 결합하는 단계, 또는 (ii) 상기 고 주파수 재구성을 실행하는 단계가 주파수 도메인에서 실행되는, 인코딩된 오디오 비트스트림을 디코딩하기 위한 방법.
제 1 항에 있어서,
상기 재구성 파라미터들은 상기 재구성된 신호의 주파수 범위에 대해 스펙트럼 엔벨로프의 표현 또는 노이즈 부가 정보를 구비하는, 인코딩된 오디오 비트스트림을 디코딩하기 위한 방법.
제 1 항에 있어서,
상기 고 주파수 재구성을 실행하는 단계는 SBR(spectral band replication)을 실행하는 단계를 구비하는, 인코딩된 오디오 비트스트림을 디코딩하기 위한 방법.
제 1 항에 있어서,
상기 결합하는 단계 동안 사용된 제어 신호를 수신하는 단계를 더 구비하는, 인코딩된 오디오 비트스트림을 디코딩하기 위한 방법.
제 7 항에 있어서,
상기 제어 신호는 인터리빙에 대한 시간 영역 또는 주파수 영역을 명시함으로써 상기 제 2 파형-코딩된 신호를 상기 재구성된 신호와 결합하는 방법을 나타내는, 인코딩된 오디오 비트스트림을 디코딩하기 위한 방법.
제 7 항에 있어서,
상기 제어 신호의 제 1 값은 각각의 주파수 영역에 대해 결합 단계가 수행됨을 나타내는, 인코딩된 오디오 비트스트림을 디코딩하기 위한 방법.
제 1 항에 있어서,
상기 고 주파수 재구성을 실행하는 단계는 상기 결합하는 단계 전에 실행되는, 인코딩된 오디오 비트스트림을 디코딩하기 위한 방법.
제 1 항에 있어서,
상기 오디오 처리 시스템은 파형-디코딩 및 파라메트릭 디코딩을 실행하는 하이브리드 디코더인, 인코딩된 오디오 비트스트림을 디코딩하기 위한 방법.
제 1 항에 있어서,
상기 제 1 파형-코딩된 신호 및 제 2 파형-코딩된 신호는 음향심리학적 모델을 사용하여 공통 비트 저장소를 공유하는, 인코딩된 오디오 비트스트림을 디코딩하기 위한 방법.
제 1 항에 있어서,
상기 고 주파수 재구성을 실행하는 단계 및 상기 결합하는 단계는 단일 스테이지 또는 동작에 통합되는, 인코딩된 오디오 비트스트림을 디코딩하기 위한 방법.
제 1 항에 있어서,
상기 제 1 파형-코딩된 신호 및 상기 제 2 파형-코딩된 신호는 주파수 도메인에서 오디오 신호의 파형을 표현하는 신호들인, 인코딩된 오디오 비트스트림을 디코딩하기 위한 방법.
인코딩된 오디오 비트스트림을 디코딩하기 위한 오디오 디코더에 있어서:
상기 인코딩된 오디오 비트스트림으로부터, 제 1 시간 기간 동안 단지 최대 제 1 크로스-오버 주파수까지의 주파수들에 대응하는 스펙트럼 계수들을 포함하는 제 1 파형-코딩된 신호를 추출하기 위한 디멀티플렉서;
상기 제 1 시간 기간 동안 재구성된 신호를 발생하기 위해 제 2 크로스-오버 주파수에서 동작하는 고 주파수 재구성기로서, 상기 제 2 크로스-오버 주파수는 상기 제 1 크로스-오버 주파수 위에 있고, 상기 고 주파수 재구성기는 상기 재구성된 신호를 발생하기 위해 상기 인코딩된 오디오 비트스트림으로부터 얻어진 재구성 파라미터들을 사용하는, 상기 고 주파수 재구성기;
상기 인코딩된 오디오 비트스트림으로부터, 상기 제 1 시간 기간 동안 단지 상기 제 1 크로스-오버 주파수 위의 주파수들의 서브세트에 대응하는 스펙트럼 계수들을 포함하는 제 2 파형-코딩된 신호를 추출하기 위한 디멀티플렉서; 및
상기 제 1 파형-코딩된 신호, 상기 제 2 파형-코딩된 신호, 및 상기 재구성된 신호를 결합하기 위한 합성기를 구비하고,
상기 제 2 크로스-오버 주파수는 상기 인코딩된 오디오 비트스트림의 특성에 의존하는, 인코딩된 오디오 비트스트림을 디코딩하기 위한 오디오 디코더.
비-일시적 컴퓨터 판독가능한 매체에 있어서,
처리기에 의해 실행될 때, 상기 처리기가,
인코딩된 오디오 비트스트림으로부터, 제 1 시간 기간 동안 단지 최대 제 1 크로스-오버 주파수까지의 주파수들에 대응하는 스펙트럼 계수들을 포함하는 제 1 파형-코딩된 신호를 추출하는 단계;
상기 인코딩된 오디오 비트스트림으로부터, 상기 제 1 시간 기간 동안 단지 상기 제 1 크로스-오버 주파수 위의 주파수들의 서브세트에 대응하는 스펙트럼 계수들을 포함하는 제 2 파형-코딩된 신호를 추출하는 단계;
재구성된 신호를 발생하기 위해 상기 제 1 시간 기간 동안 제 2 크로스-오버 주파수에서 고 주파수 재구성을 실행하는 단계로서, 상기 제 2 크로스-오버 주파수는 상기 제 1 크로스-오버 주파수 위에 있고, 상기 고 주파수 재구성은 상기 재구성된 신호를 발생하기 위해 상기 인코딩된 오디오 비트스트림으로부터 얻어진 재구성 파라미터들을 사용하는, 상기 고 주파수 재구성을 실행하는 단계;
상기 제 1 파형-코딩된 신호, 상기 제 2 파형-코딩된 신호, 및 상기 재구성된 신호를 결합하는 단계; 및
상기 결합된 신호를 출력하는 단계를 구비하고,
상기 제 2 크로스-오버 주파수는 상기 인코딩된 오디오 비트스트림의 특성에 의존하는,
명령들을 실행하는 지시들을 구비하는, 비-일시적 컴퓨터 판독가능한 매체.