KR20040080003A

KR20040080003A - 파라메트릭 오디오 코딩

Info

Publication number: KR20040080003A
Application number: KR10-2004-7012688A
Authority: KR
Inventors: 스티븐 엘. 예이. 데. 이. 반드파르; 아르민지. 코흘라우쉬; 알베르투스 쎄 덴브린커; 에릭 지. 피. 슈이얼스; 니콜레 하. 반쉬옌델
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2002-02-18
Filing date: 2003-01-17
Publication date: 2004-09-16
Also published as: ATE315823T1; EP1479071B1; US20050078832A1; ES2255678T3; AU2003201097A8; CN1705980A; WO2003069954A2; DE60303209D1; WO2003069954A3; AU2003201097A1; EP1479071A2; JP4347698B2; DE60303209T2; JP2005517987A

Abstract

본 발명은, 오디오 신호의 적어도 2개의 채널(L,R) 내의 공통 주파수(f_com)로서 상기 오디오 신호의 상기 적어도 2개의 채널 중 적어도 2개의 채널에서 일어나는 공통 주파수(f_com)를 결정하는 것에 의해 그리고, 상기 주어진 공통 주파수(f_com)의 표시 그리고 주어진 공통 주파수에서의 각 사인파 성분의 각 진폭(A, ΔA)의 표시에 의해 주어진 공통 주파수에서의 각 채널 내의 각 사인파 성분을 제공하는 것에 의해 적어도 2개의 채널의 오디오 신호(L,R)를 코딩하는 것을 제공한다.

Description

파라메트릭 오디오 코딩{PARAMETRIC AUDIO CODING}

헤이코 푸른하겐(Heiko Purnhagen), '개선된 파라메트릭 오디오 코딩 (Advances in parametric audio coding)' (Proc. 1999 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics(오디오 및 음향학 신호 처리 응용 워크샵)New Paltz, New York, Oct. 17-20, 1999)은, 파라메트릭 모델링(parametric modeling)이 일반 오디오 신호에 대해 효과적인 표시 (representation)를 제공하고 매우 낮은 비트 레이트 오디오 코딩에 이용되는 것을 기술한다. 이것은 적절한 소스 모델에 의해 기술되고 모델 파라미터(순수한 톤의 주파수와 진폭과 같은 파라미터)에 의해 표시되는 성분들로 오디오 신호를 분해하는 것에 기초를 두고 있다. 인식 모델(perception models)은 신호의 분해와 모델 파라미터의 코딩에 이용된다.

본 발명은 파라메트릭 오디오 코딩에 관한 것이다.

도 1 은 본 발명의 일 실시예에 따른 인코더를 도시하는 도면.

도 2 는 도 1의 인코더의 가능한 구현예를 도시하는 도면.

도 3 은 도 1의 인코더의 다른 구현예를 도시하는 도면.

도 4 는 본 발명의 일 실시예에 따른 시스템을 도시하는 도면.

본 발명의 목적은 다중 채널(예를 들어, 스테레오) 오디오 신호에 대한 유리한 파라미터(parameterization)를 제공하는 것이다. 이를 위해 본 발명은 독립 청구항에 한정된 바와 같은, 인코딩 방법, 인코더, 송신 또는 레코딩 장치, 인코딩된오디오 신호, 저장 매체, 디코딩 방법, 디코더, 수신기 또는 재생 장치를 제공한다. 유리한 실시예는 종속 청구항에 한정된다.

그와 같은 스테레오 오디오 코딩은 종래 기술에서 알려져 있는 것임을 말해둔다. 예를 들어, 2개의 채널 좌측(L)과 우측(R)은 독립적으로 코딩될 수 있다. 이것은 하나의 인코더에서 시다중화(time multiplexing)에 의해 또는 병렬로 배열된 2개의 독립 인코더에 의해 행해질 수 있다. 통상적으로, 신호 내 채널 간(cross-channel) 상관성(및 무관성)을 사용하는 것에 의해 보다 효과적으로 2개의 채널을 코딩할 수 있다. 합동 스테레오 코딩(joint stereo coding)을 기술하는 MPEG-2 오디오 표준(ISO/IEC 13818-3, pages 5,6)에 언급되어 있다. 합동 스테레오 코딩은 오디오 비트 레이트를 감소시키기 위해 좌측 및 우측 채널 사이에 리던던시 (redundancy)를 이용한다. 합동 스테레오 코딩의 2가지 폼(form)이 가능하며, 여기에는 MS 스테레오 및 세기 스테레오(intensity)가 있다. MS 스테레오는 좌측(L)과 우측(R) 채널 대신에 합(L+R) 신호와 차(L-R) 신호를 코딩하는 것에 기초를 두고 있다. 세기 코딩(intensity coding)은 우측(R)과 좌측(L) 채널의 에너지 엔벨롭 (energy envelope)만을 고 주파수에서 보유하는 것에 기초를 두고 있다. 서브밴드 코딩(subband coding) 대신에 파라메트릭 코딩에 MS 스테레오 코딩의 원리를 직접 적용하는 것에 의해 파라미터화된 합 신호와 파라미터화된 차 신호가 생성된다. 인코딩 전에 합 신호와 차 신호의 생성은 인코딩될 오디오 신호에 추가적인 주파수 성분의 생성을 유발하여 파라미터화된 코딩의 효율을 저하시킬 수 있다. 파라미터화된 코딩 구조에 세기 스테레오 코딩의 원리를 직접 적용하는 것에 의해, 독립적으로 인코딩된 채널을 갖는 저 주파수 부분과, 우측 및 좌측 채널의 에너지 엔벨롭만을 포함하는 고 주파수 부분이 생성된다.

본 발명의 제 1 측면에 따라, 공통 주파수는 오디오 신호의 적어도 2개의 채널에서 결정되며, 이 공통 주파수는 상기 적어도 2개의 채널 중 적어도 2개의 채널에서 일어나며 그리고 주어진 공통 주파수에서 각 채널의 각 사인파 성분은 주어진 공통 주파수의 표시에 의해 그리고 상기 주어진 공통 주파수에서 각 사인파 성분의 각 진폭의 표시에 의해 표시된다. 이 측면은 주어진 소스에 의해 생성된 주어진 주파수가 각 채널 내에 일정 성분을 가질 확률이 높다는 인식에 기초하고 있다. 이들 신호 성분은 공통적으로 그 주파수를 소유한다. 이것은 레코딩 장비를 통해 사운드 소스로부터 청취자에게로 송신시 일어날 수 있는 신호 변환이 통상적으로 여러 또는 모든 채널에서 차등적으로 주파수 성분에 영향을 미치지 않기 때문에 그러하다. 따라서, 여러 신호 채널 내의 공통 성분이 하나의 공통 주파수에 의해 표시될 수 있다. 각 채널에서 각 성분의 각 진폭(및 위상)은 다를 수 있다. 따라서, 공통 주파수와 각 진폭의 표시를 갖는 사인파(sinusoid)를 코딩하는 것에 의해 오디오 신호의 효과적인 압축 코딩이 달성되며; 단 하나의 파라미터만이 주어진 공통 주파수를 인코딩하는데 필요하다(이것은 여러 채널에서 일어난다). 나아가, 이러한 파라미터화(parameterization)는 적절한 사이코음향 모델(psycho-acoustic model)에도 유리하게 적용된다.

일단 공통 주파수가 발견되었다면, 각 채널에서 성분을 기술하는 다른 파라미터도 표시될 수 있다. 예를 들어, 사인파 성분으로 표시되는 스테레오 신호에 대해, 그 진폭(및 선택적으로 각 위상)의 평균 및 차가 코딩될 수 있다. 다른 실시예에서, 최대 진폭이 차이 진폭과 함께 코딩된 오디오 스트림으로 인코딩되며, 여기서 차이 진폭의 부호는 이 주파수에 대한 지배적인 채널(dominant channel)을 결정할 수 있다.

좌측 및 우측 채널 사이의 어느 정도의 상관성이 있을 수 있으므로, 사인파 파라미터의 엔트로피 코딩(entropy coding)은 스테레오 신호의 보다 효과적인 인코딩이 될 수 있다. 부가적으로, 공통 성분 표시 내의 무관한 정보는 제거될 수 있는데, 예를 들어, 고 주파수의 두 귀 사이 위상 차이(inter-aural phase difference)로 들을 수 없으며 제로(0)로 설정될 수 있다.

채널에서 일어나는 임의의 주파수를 공통 주파수로서 인코딩하는 것이 가능하다. 하나의 채널에서 일어나는 주파수가 다른 채널에서 일어나지 않는다면, 진폭 표시는 주파수가 일어나지 않는 채널에 대해 제로(0) 진폭인 것처럼 인코딩되어야 한다. 예를 들어, 다중 채널에 응용하는 경우 4개의 채널 중 3의 채널에서 주파수가 일어나면 이 주파수는, 주파수가 일어나지 않는 채널에서는 진폭을 제로(0)로 만들면서 공통 주파수로 인코딩될 수 있다.

비-공통 주파수는 각 채널에 독립적인 사인파로서 표시될 수도 있다. 비-공통 주파수는 별도의 파라미터 블록으로 인코딩될 수 있다. 나아가, 모든 채널에 공통인 공통 주파수를 포함하는 제 1 파라미터 블록, 모든 채널 중 (미리결정된) 서브세트에 공통적인 주파수를 포함하는 제 2 파라미터 블록, 모든 채널 중 다른 (미리결정된) 서브세트에 공통인 주파수를 포함하는 제 3 파라미터 블록, 그리고 하나의 채널에만 일어나며 독립적으로 코딩되는 주파수를 포함하는 마지막 파라미터 블록때까지 이와 같이 계속 이들 파라미터 블록을 생성할 수도 있다.

공통 주파수는 절대 주파수 값으로 표시될 수 있으나 또한 시간에 따라 변하는 주파수, 예를 들어, 제1계 미분계수 ∂f/∂t로 표시될 수도 있다. 나아가, 공통 주파수는 다른 공통 주파수에 대해 서로 다르게 인코딩될 수 있다.

공통 주파수는 동일 시간에 2개 또는 그보다 많은 채널을 고려하여 주파수를 추정함으로써 찾을 수 있다.

제 1 실시예에서, 주파수는 공통 주파수를 결정하기 위해 비교 단계가 후속하는 각 채널에 대해 별도로 결정된다. 각 채널에 일어나는 주파수의 결정은 종래의 매칭 작업(matching pursuit)으로 수행될 수 있다(예를 들어, S.G. Mallat 및 Z. Zhang, "Matching pursuits with time-frequency dictionaries(시간 주파수 사진에 의한 매칭 작업)",IEEE trans. on Signal Processing, vol. 41, no.12, pp. 3397-3415를 보라) 또는 피크 픽킹(peak picking)(예를 들어, 'R. McAulay and T. Quatieri, "Speech Analysis/Synthesis Based on a Sinusoidal Representation(사인파 표시에 기초한 스피치 분석/합성),"IEEE Trans. ASSP, Vol.34, No.4, pp. 744-754, Aug. 1986)

공통 주파수를 결정하기 위한 제 2 실시예에서, 결합된 매칭 작업 알고리즘 (matching pursuit algorithm)이 사용된다. 예를 들어, 적어도 2개의 채널의 각 전력 또는 에너지 표시는 공통 표시를 얻기 위해 결합된다. 이후 공통 주파수는 공통 표시에 기초하여 결정된다. 바람직하게는 적어도 2개의 채널의 전력 스펙트럼이 공통 전력 스펙트럼을 얻기 위해 추가된다. 종래의 매칭 작업은 이 추가된 스펙트럼에서 주파수를 결정하는데 사용된다. 이 추가된 전력 스펙트럼에서 발견되는 주파수는 공통 주파수이도록 결정된다.

공통 주파수를 결정하기 위한 제 3 실시예에서, 추가된 전력 스펙트럼에서 피크 픽킹(peak picking)이 사용된다. 이 공통 전력 스펙트럼에서 발견되는 최대 주파수는 공통 주파수로서 사용될 수 있다. 선형 전력 스펙트럼(linear power spectra) 대신에 로그 전력 스펙트럼(log-power spectra)을 또한 추가할 수 있다.

바람직하게는, 공통 주파수의 각 성분의 위상이 또한 인코딩된다. 채널 내 위상들의 평균 위상 또는 최대 진폭을 갖는 채널의 위상일 수 있는 공통 위상 및 차이 위상(채널 간)이 코딩된 오디오 신호에 포함될 수 있다. 유리하게도, 차이 위상은 주어진 임계 주파수(예를 들어, 1.5KHz 또는 2KHz)까지만 인코딩된다. 이 임계값보다 더 높은 주파수에서는 차이 위상이 인코딩되지 않는다. 이것은 그 품질을 크게 저감시키지 않고도 가능한데, 그 이유는 두 귀 간의 위상 파라미터에 대한 사람의 감도가 이 임계값 이상의 주파수에서는 저하되기 때문이다. 그러므로, 차이 위상 파라미터는 주어진 임계값 이상의 주파수에 대해서는 필요치 않다. 디코딩시에, 델타 위상 파라미터는 임계값 이상의 주파수에 대해 제로(0)로 추정될 수 있다. 이 디코더는 그러한 신호를 수신하도록 배열된다. 임계 주파수 이상에서, 디코더는 차이 위상에 대해 어떤 코드도 예상하지 않는다. 실제 실시예에서 차이 위상에는 식별자가 제공되지 않기 때문에, 차이 위상을 예상할 때와 예상하지 않을 때를 디코더가 아는 것이 중요하다. 나아가, 사람의 귀가 두 귀간 세기의 차이가 클경우 덜 민감하기 때문에, 특정 임계값 예를 들어 10㏈보다 더 큰 델타 진폭이 무한대로 추정될 수 있다. 결과적으로 또한 이 경우에 두 귀간 위상 차이가 인코딩될 필요가 없다.

주어진 임계값보다 더 낮게 차이나는 서로 다른 채널 내의 주파수는 공통 주파수로 표시될 수 있다. 이 경우에 동일한 소스 주파수로부터 서로 다른 주파수가 유래하는 것으로 추정된다. 실제 실시예에서, 임계값은 매칭 작업 또는 피크 픽킹 알고리즘의 정밀도에 관계된다.

실제 실시예에서, 본 발명에 따른 파라미터화는 프레임에 기초하여 사용된다.

본 발명은 스피치 신호를 포함하는 임의의 오디오 신호에도 적용가능하다.

본 발명의 이들 측면과 다른 측면은 첨부 도면을 참조하여 이후 상세한 설명으로부터 명료하게 될 것이다.

본 도면은 본 발명의 실시예를 이해하는데 필요한 요소만을 도시한다.

도 1은 본 발명의 일 실시예에 따른 인코더(11)를 도시한다. 다중 채널 오디오 신호는 인코더에 입력된다. 이 실시예에서, 다중 채널 오디오 신호는 좌측 채널 (L)과 우측 채널(R)을 가지는 스테레오 오디오 신호이다. 이 인코더(11)는 2개의 입력, 즉 좌측 채널 신호(L)를 위한 하나의 입력과 우측 채널 신호(R)를 위한 다른 입력을 가진다. 대안적으로, 인코더는 두 채널(L 및 R)을 위한 하나의 입력을 가지며, 이 두 채널은 이 경우에 인코더(11)에 다중화된 형태로 제공된다. 인코더(11)는 두 채널로부터 사인파를 추출하며 공통 주파수(f_com)를 결정한다. 인코더(11)에서 수행되는 인코딩 공정의 결과는 인코딩된 오디오 신호이다. 인코딩된 오디오 신호는 공통 주파수(f_com)를 포함하며 예를 들어 공통 주파수(f_com)마다 최대값이나 평균 진폭(A)의 형태로 각 채널에서의 각 진폭 및 차이 (델타) 진폭(ΔA)의 표시를 포함한다.

다음에는, 공통 주파수가 결정될 수 있는 방법, 즉 매칭 작업을 사용하는 제 1 실시예와 피크 픽킹을 사용하는 제 2 실시예가 기술된다.

'매칭 작업'을 사용하는 실시예

이 방법은 현존하는 매칭 작업 알고리즘의 확장(extension)이다. 매칭 작업은 이 기술분야에서 잘 알려져 있다. 매칭 작업은 반복 알고리즘(iterative algorithm)이다. 이 매칭 작업은 신호를 시간 주파수 파형의 리던던트 사전 (redundant dictionary)으로부터 선택된 매칭 사전 요소(matching dictionary element) 위에 투영한다(project). 이 투영은 그 다음 반복에서 접근되도록 그 신호로부터 감산된다. 그리하여 현존하는 매칭 작업 알고리즘에서, 파라미터화 (parameterization)는 오디오 신호의 프레임의 '투영된' 전력 스펙트럼의 피크를 반복적으로 결정하고 피크 주파수에 대응하는 최적의 진폭과 위상을 유도하며, 그리고 분석되는 프레임으로부터 대응하는 사인파를 추출하는 것에 의해 수행된다. 이 공정은 오디오 신호의 만족할만한 파라미터화가 얻어질 때까지 반복적으로 반복된다. 다중 채널 오디오 신호에서 공통 주파수를 유도하기 위해 좌측 및 우측 채널의 전력 스펙트럼이 추가되며 이 합산 전력 스펙트럼의 피크가 결정된다. 이들 피크 주파수는 좌측 및 우측 (또는 그보다 많은) 채널의 최적의 진폭과 선택적으로 위상을 결정하는데 사용된다.

본 발명의 실제 실시예에 따른 다중 채널 매칭 작업 알고리즘은 다중 채널 신호를 프레임을 중첩시키는 짧은 지속기간(예를 들어 10㎳)으로 분할하며 중지 기준(stop criterion)이 만족될 때까지 각 프레임에 대해 다음의 1 내지 5의 단계들을 반복적으로 수행하는 단계를 포함하며, 이 1 내지 5의 단계는 :

1. 다중 채널 프레임의 각 채널의 전력 스펙트럼이 계산되는 단계와,

2. 전력 스펙트럼이 공통 전력 스펙트럼을 얻기 위해 추가되는 단계와,

3. 공통 '투영된' 전력 스펙트럼이 최대로 되는 주파수가 결정되는 단계와,

4. 단계 3에서 결정된 주파수에서, 각 채널에 대해, 최상의 매칭 사인파의 진폭 및 위상이 결정되며 모든 이들 파라미터가 저장되는 단계로서, 이들 파라미터는 각 진폭의 표시와 결합하여 공통 주파수를 사용하여 인코딩되며 이에 의해 채널 간 상관성 및 무관성을 이용하는, 파라미터 저장 단계와,

5. 단계 1 에서 그 다음 다중 채널 프레임으로 제공되는 업데이트된 잔류 신호를 얻기 위해 대응하는 현재 다중 채널 프레임으로부터 사인파가 감산되는 단계

이다.

'피크 픽킹'을 사용하는 실시예

대안적으로, 예를 들어 다음 1 내지 4의 단계를 포함하는 피크 픽킹이 사용될 수 있다. 이 1 내지 4의 단계는,

3. 전력 스펙트럼 내의 모든 피크에 대응하는 주파수가 결정되는 단계와,

4. 이들 결정된 주파수에 대해, 최상의 진폭과 최상의 위상이 얻어지는 단계

이다.

도 2 는 도 1의 인코더의 가능한 구현예를 도시하며, 이 도 2 는 공통 주파수를 결정하기 위해 채널의 공통 (추가된) 전력 스펙트럼을 사용한다. 계산 유닛(110)에서, 매칭 작업 공정 또는 피크 픽킹 공정은 L 및 R 채널로부터 얻어진 공통 전력 스펙트럼을 사용하는 것에 의해 전술된 바와 같이 수행된다. 결정된 공통 주파수(f_com)는 코딩 유닛(111)에 제공된다. 이 코딩 유닛은 주어진 공통 주파수에서 여러 채널 내의 사인파의 각 진폭(및 바람직하게는 위상)을 결정한다.

대안적으로, 각 채널은 각 채널에 대해 파라미터화된 사인파의 세트를 얻기 위해 독립적으로 인코딩된다. 이들 파라미터는 공통 주파수를 위해 이후 체크된다.그러한 실시예는 도 3에 도시된다. 도 3 은 도 1의 인코더(11)의 다른 구현예를 도시한다. 이 구현예에서, 인코더(11)는 2개의 독립적인 파라미터 인코더(112 및 113)를 포함한다. 이들 독립적인 코더에서 얻어진 파라미터(f_L, A_L및 f_R, A_R)는 다른 코딩 유닛(114)에 제공되며, 이 다른 코딩 유닛(114)은 이들 2개의 파라미터화된 신호에서 공통 주파수(f_com)를 결정한다.

스테레오 오디오 신호를 코딩하는 예

다음과 같은 특성을 갖는 스테레오 오디오 신호가 제공되는 것을 생각해보자:

채널	f(Hz)	A(㏈)	f(Hz)	A(㏈)	f(Hz)	A(㏈)	f(Hz)	A(㏈)	f(Hz)	A(㏈)
L	50	30	100	50	250	40	-	-	500	40
R	50	20	100	60	-	-	200	30	500	35

실제, 채널 간 진폭 차이가 주어진 주파수에서 +15㏈ 또는 -15㏈인 경우에, 이 주파수는 지배적인 채널에서만 일어나는 것으로 생각된다.

독립적으로 인코딩되는 경우

다음의 파라미터화는 예시적인 스테레오 신호를 독립적으로 코딩하는데 사용될 수 있다.

L(f,A)=(50,30),(100,50),(250,40),(500,40)

R(f,A)=(50,20),(100,60),(200,30),(500,35)

이 파라미터화는 16개의 파라미터를 요구한다.

공통 주파수와 비-공통 주파수를 사용하는 경우

공통 주파수는 50Hz, 100Hz 및 500Hz이다. 이 신호를 코딩하기 위해:

(f_com,A_MAX,ΔA)=(50,30,10),(100,60,-10),(500,40,5)

(f_non-com,A)=(200,-30),(250,40)

공통 및 비-공통 주파수를 사용하여 예시적인 스테레오 오디오 신호를 코딩하는 것은 이 예에서 13개의 파라미터를 요구한다. 독립적으로 코딩된 다중 채널 신호에 비해, 공통 주파수를 사용하는 것은 코딩 파라미터의 수를 절감한다. 나아가, 델타 진폭을 위한 값이 독립적으로 코딩된 다중 채널 신호에 주어지는 것과 같은 절대 진폭을 위한 것보다 더 작다. 이것은 비트 레이트를 더 절감한다.

델타 진폭(ΔA)의 부호는 지배적인 채널(2개의 신호 사이의 채널)을 결정한다. 위 예에서, 양의 진폭(positive amplitude)은 좌측 채널이 지배적이라는 것을 의미한다. 또한 이 부호는 비-공통 주파수 표시에서 어느 신호에 주파수가 유효한지를 나타내는데 사용될 수도 있다. 동일한 사항이 여기에서 사용되며, 양 (positive)은 좌측(지배적)이다. 대안적으로 차이 진폭과 결합하여 평균 진폭을 제공하거나 또는 다른 채널에 비해 차이 진폭을 갖는 주어진 채널의 진폭을 일관되게 제공하는 것이 가능하다.

지배적인 채널을 결정하기 위해 델타 진폭(ΔA)의 부호를 사용하는 대신에 지배적인 채널을 나타내는데 비트 스트림에 비트를 사용하는 것도 가능하다. 이것은 또한 부호 비트에 있을 수 있는 바와 같이 1 비트를 요구한다. 이 비트는 비트 스트림에 포함되며 디코더에서 사용된다. 오디오 신호가 2개를 초과하는 채널로 인코딩되는 경우에 1 개를 초과하는 비트는 지배적인 채널을 나타내는데 필요하다. 이 구현은 간단하다.

공통 주파수만의 사용

공통 주파수에 기초를 둔 표시만이 사용되는 경우, 비-공통 주파수는 그 주파수에서 사인파가 일어나지 않는 채널에 공통 주파수의 진폭이 제로(0)가 되도록 코딩된다. 실제로, 예를 들어, 델타 진폭에 대해 +15㏈ 또는 -15㏈의 값은 현재 주파수의 사인파가 주어진 채널에 존재하지 않는다는 것을 나타내는데 사용될 수 있다. 델타 진폭(ΔA)의 부호는 지배적인 채널(2개의 신호 간)을 결정한다. 이 예에서, 양의 진폭(positive amplitude)은 좌측 채널이 지배적이라는 것을 의미한다.

(F_com, A, ΔA)=(50,30,10),(100,60,-10),(200,30,-15),(250,40,15),(500,40,5)

이 파라미터화는 15개의 파라미터를 요구한다. 이 예에서, 공통 주파수만의 사용은 공통 및 비-공통 주파수의 사용보다 덜 유리하다.

주파수 평균과 차이

(F_av, ΔF, A_av, ΔA)= (50,0,25,5),(100,0,55,-5),(25,25,35,5),(500,0,30,10)

이 파라미터화는 16개의 파라미터를 요구한다. 이것은 신호내 사인파 성분들이 평균 주파수와 평균 진폭에 의해 표시되는 대안적인 인코딩이다. 또한 이 코딩 전략과 비교할 때 공통 주파수의 사용이 유리하다는 것은 명백하다. 평균 주파수와 평균 진폭의 사용은 본 출원의 범위 밖에 있는 별도의 발명으로 볼 수 있다는 것을 말해둔다.

엄격하게는 파라미터의 수가 아니라 오히려 파라미터당 비트 수의 합이 최종 코딩된 오디오 스트림의 비트 레이트에 중요하다는 것도 주목된다. 이 측면에서, 차등 코딩(differential coding)은 통상적으로 상관된 신호 성분에 대해 비트 레이트 절감을 제공한다.

공통 주파수 파라미터와 각 진폭(및 선택적으로 각 위상)으로 표시하는 것은 모노 표시(mono representation)로 간주되고 파라미터들 공통 주파수, 평균 또는 최대 진폭, 평균 위상 또는 최대 진폭(선택적), 파라미터들에 캡쳐된 다중 채널 확장 즉 델타 진폭과 델타 위상(선택적)으로 캡쳐될 수 있다. 모노 파라미터는 모노 사인파 인코더에서 취할 수 있는 표준 파라미터로 취급될 수 있다. 그리하여 이들 모노 파라미터는 이들 링크에 따라 차등적으로 파라미터를 인코딩하며 위상 연속을 수행하도록 이후 프레임에서 사인파 사이의 링크를 생성하는데 사용될 수 있다. 추가적인, 다중 채널 파라미터는 두 귀로 듣는 특성을 더 사용하는 전술된 전략에 따라 인코딩될 수 있다. 델타 파라미터(델타 진폭과 델타 위상)는 모노 파라미터에 기초하여 이루어진 링크에 기초하여 또한 차등적으로 인코딩될 수 있다. 나아가, 신축적인 비트 스트림(scalable bit-stream)을 제공하기 위해 모노 파라미터는 기저 층(base layer)에 포함될 수 있는 반면, 다중 채널 파라미터는 개선층(enhancement layer)에 포함된다.

모노 성분을 추적할 때, 코스트 함수(또는 유사성 측정)는 주파수에 대한 코스트, 진폭에 대한 코스트 및 (선택적으로) 위상에 대한 코스트의 결합이다. 스테레오 성분에서, 코스트 함수는 공통 주파수에 대한 코스트, 평균 또는 최대 진폭에 대한 코스트, 위상에 대한 코스트, 델타 진폭에 대한 코스트, 및 델타 위상에 대한 코스트의 결합일 수 있다. 대안적으로, 스테레오 성분들, 즉 공통 주파수, 각 진폭 및 각 위상에 대한 코스트 함수를 위해 사용할 수 있다.

유리하게도, 공통 주파수와 각 채널에서의 그 주파수의 각 진폭의 표시를 사용하는 사인파 파라미터화는 WO 01/69593-A1(출원인의 관리 번호 PHNL000120)에 개시된 바와 같은 모노 트랜지언트 파라미터화와 결합된다. 이것은 WO 01/88904(출원인의 관리 번호 PHNL000288)에 개시된 바와 같이 잡음에 대한 모노 표시와 더 결합될 수 있다.

전술된 대부분의 실시예는 2개의 채널 오디오 신호에 관한 것이지만, 3개 또는 그보다 많은 채널 오디오 신호에도 간단히 확장될 수 있다.

이미 인코딩된 오디오 신호에 추가 채널(extra channel)을 부가하는 것은 다음과 같이 유리하게 수행될 수 있다: 인코딩된 오디오 신호에서 추가 채널이 존재하는지를 식별하며 추가 채널에 존재하는 공통 주파수의 진폭의 표시와 비-공통 주파수의 표시를 인코딩된 오디오 신호에 추가하는 것만으로도 충분하다. 위상 정보는 인코딩된 오디오 신호에 또한 선택적으로 포함될 수 있다.

실제 실시예에서, 평균이나 최대 진폭 및 공통 주파수에서의 최대 진폭의 평균 위상은 다른 채널(들)에 대해 공통 주파수에서 델타 진폭과 델타 위상의 각 양자화와 유사하게 양자화된다. 이 양자화를 위한 실제 값은 :

공통 주파수 0.5%의 해상도

진폭, 델타 진폭 1㏈의 해상도

위상, 델타 위상 0.25라드(rad)의 해상도

제안된 다중 채널 오디오 인코딩은 채널을 독립적으로 인코딩하는 것에 비해 볼 때 비트 레이트의 절감을 제공한다.

도 4 는 본 발명의 실시예에 따른 시스템을 도시한다. 이 시스템은 인코딩된 오디오 신호[S]를 송신하거나 저장하기 위한 장치(1)를 포함한다. 이 장치(1)는 적어도 2개의 채널의 오디오 신호(S)를 수신하기 위한 입력 유닛(10)을 포함한다. 입력 유닛(10)은 안테나, 마이크로폰, 네트워크 연결 등일 수 있다. 장치(1)는 본 발명에 따라 파라미터화, 예를 들어, (f_com, A_av, ΔA) 또는 (f_com, A_MAX, ΔA)이 있는 인코딩된 오디오 신호를 얻기 위해 오디오 신호(S)를 인코딩하기 위해 도 1에서 도시된 인코더(11)를 더 포함한다. 인코딩된 오디오 신호 파라미터화는 송신 매체 또는 저장 매체(2)를 통해 송신 또는 저장하기 위해 적절한 포맷[S]으로 인코딩된 오디오 신호를 변환하는 출력 유닛(12)에 제공된다. 이 시스템은 입력 유닛(30)에 인코딩된 오디오 신호[S]를 수신하는 수신기 또는 재생 장치(3)를 더 포함한다. 입력 유닛(30)은 인코딩된 오디오 신호[S]로부터 파라미터(f_com, A_av, ΔA) 또는 (f_com, A_MAX, ΔA)를 추출한다. 이들 파라미터는 디코더(31)에 제공되며, 이 디코더(31)는디코딩된 오디오 신호(S')의 2개의 채널(L,R)을 얻기 위해 각 진폭을 갖는 공통 주파수를 생성하는 것에 의해 수신된 파라미터에 기초하여 디코딩된 오디오 신호를 합성한다. 2개의 채널(L,R)은 출력 유닛(32)에 제공되며, 이 출력 유닛(32)은 디코딩된 오디오 신호(S')를 제공한다. 출력 유닛(32)은 디코딩된 오디오 신호(S')를 재생하기 위한 스피커와 같은 재생 유닛일 수 있다. 출력 유닛(32)은 예를 들어 집 내 네트워크 등에 걸쳐 디코딩된 오디오 신호(S')를 더 송신하기 위한 송신기일 수도 있다.

전술된 실시예는 본 발명을 제한하는 것이 아니라 예시하는 것이며 이 기술 분야에 숙련된 사람이라면 첨부된 청구항의 범위를 벗어나지 않고 많은 대안적인 실시예를 디자인 할 수 있을 것이라는 것을 주의하여야 한다. 청구항에서, 괄호 안에 있는 임의의 참조 부호는 청구항을 제한하는 것으로 해석하여서는 아니된다. '포함하는'이라는 단어는 청구항에서 나열되어 있는 요소와는 다른 요소 또는 단계의 존재를 배제하지 않는다. 본 발명은 수 개의 별개의 요소를 포함하는 하드웨어에 의하여 그리고 적절히 프로그래밍 된 컴퓨터에 의하여 구현될 수 있다. 수 개의 수단을 나열하는 디바이스 청구항에서 수 개의 이들 수단은 하나의 동일한 하드웨어 부품에 의하여 구현될 수 있다. 특정 조치가 서로 다른 종속항에 인용되어 있다는 단순한 사실이 이들 조치의 결합이 유리하게 사용될 수 없다는 것을 나타내는 것은 아니다.

전술된 바와 같이, 본 발명은 오디오 코딩에 이용가능하다.

Claims

적어도 2개의 채널의 오디오 신호(L,R)를 인코딩(11)하는 방법에 있어서,

상기 오디오 신호의 상기 적어도 2개의 채널(L,R)내의 공통 주파수(f_com)를 결정(110)하는 단계로서, 상기 공통 주파수는 상기 오디오 신호의 상기 적어도 2개의 채널 중 적어도 2개의 채널에서 일어나는, 공통 주파수를 결정(110)하는 단계와,

주어진 공통 주파수(f_com)의 표시와 상기 주어진 공통 주파수에서 각 사인파 성분의 각 진폭(A, ΔA)의 표시에 의하여 상기 주어진 공통 주파수에서 각 채널에서의 각 사인파 성분을 표시(111)하는 단계

를 포함하는, 채널 오디오 신호 인코딩 방법.
제 1 항에 있어서, 각 진폭(A, ΔA)의 표시는 평균 진폭(A) 및 차이 진폭(ΔA)을 포함하는, 채널 오디오 신호 인코딩 방법.
제 1 항에 있어서, 상기 각 진폭(A, ΔA)의 표시는 최대 진폭(A)과 차이 진폭(ΔA)을 포함하는, 채널 오디오 신호 인코딩 방법.
제 1 항에 있어서, 비-공통 주파수는 공통 주파수로 코딩되며, 상기 진폭 표시는 주파수가 일어나지 않는 적어도 하나의 채널을 나타내기 위한 지시자를 포함하는, 채널 오디오 신호 인코딩 방법.
제 1 항에 있어서, 상기 공통 주파수에 더하여, 비-공통 주파수가 독립적으로 코딩되는, 채널 오디오 신호 인코딩 방법.
제 5 항에 있어서, 상기 비-공통 주파수는 별도의 블록으로 상기 코딩된 오디오 스트림으로 그룹화되는, 채널 오디오 신호 인코딩 방법.
제 6 항에 있어서, 상기 공통 주파수는 그룹화되며, 비-공통 주파수의 블록에 앞서 상기 인코딩된 오디오 신호에 포함되는, 채널 오디오 신호 인코딩 방법.
제 6 항에 있어서, 상기 공통 주파수에서의 사인파 성분의 파라미터는 기저 층(base layer) 내에 포함되며 비-공통 주파수에서의 사인파의 파라미터는 개선층 (enhancement layer) 내에 포함되는, 채널 오디오 신호 인코딩 방법.
제 1 항에 있어서, 상기 방법은 공통 표시를 얻기 위해 상기 적어도 2개의 채널의 각 전력 또는 에너지 표시를 결합하는 단계를 포함하며, 상기 공통 주파수를 결정하는 단계는 상기 공통 표시에 기초하여 수행되는, 채널 오디오 신호 인코딩 방법.
제 9 항에 있어서, 상기 결합 단계는 상기 적어도 2개의 채널의 전력 스펙트럼을 추가하는 단계를 포함하며, 상기 공통 표시는 공통 전력 스펙트럼인, 채널 오디오 신호 인코딩 방법.
제 1 항에 있어서, 주파수와 진폭 파라미터는 기저 층 내에 포함되며, 상기 델타 진폭은 개선 층 내에 포함되는, 채널 오디오 신호 인코딩 방법.
제 1 항에 있어서, 상기 주어진 공통 주파수의 각 사인파의 각 위상이 결정되며 상기 각 위상의 표시는 상기 인코딩된 오디오 신호에 포함되는, 채널 오디오 신호 인코딩 방법.
제 12 항에 있어서, 상기 각 위상의 표시는 평균 위상과 차이 위상을 포함하는, 채널 오디오 신호 인코딩 방법.
제 12 항에 있어서, 상기 각 위상의 표시는 최대 진폭을 갖는 채널의 위상과 차이 위상을 포함하는, 채널 오디오 신호 인코딩 방법.
제 12 항에 있어서, 각 위상의 표시는 주어진 임계 주파수까지의 주파수를 갖는 사인파에 대한 신호에만 포함되는, 채널 오디오 신호 인코딩 방법.
제 15 항에 있어서, 상기 주어진 임계 주파수는 약 2KHz인, 채널 오디오 신호 인코딩 방법.
제 12 항에 있어서, 상기 각 위상의 표시는 주어진 진폭 임계값까지 다른 채널 중 적어도 하나의 채널과의 진폭 차이를 갖는 사인파에 대한 신호에만 포함되는, 채널 오디오 신호 인코딩 방법.
제 17 항에 있어서, 상기 주어진 진폭 임계값은 10㏈인, 채널 오디오 신호 인코딩 방법.
적어도 2개의 채널의 오디오 신호(L,R)를 인코딩하는 인코더(11)에 있어서,

상기 인코더는,

상기 오디오 신호의 상기 적어도 2개의 채널(L,R) 내의 공통 주파수(f_com)를 결정하기 위한 수단(110)으로서, 상기 공통 주파수는 상기 오디오 신호의 상기 적어도 2개의 채널 중 적어도 2개의 채널에서 일어나는, 공통 주파수 결정 수단과,

주어진 공통 주파수(f_com)의 표시와 상기 주어진 공통 주파수에서의 각 사인파 성분의 각 진폭(A, ΔA)의 표시에 의하여 상기 주어진 공통 주파수에서의 각 채널 내의 각 사인파 성분을 표시하기 위한 수단(111)

을 포함하는, 적어도 2개의 채널의 오디오 신호를 인코딩하기 위한 인코더.
송신 또는 리코딩 장치(1)에 있어서,

적어도 2개의 채널(L,R)의 오디오 신호(S)를 수신하기 위한 입력 유닛(10)과,

인코딩된 오디오 신호([S])를 얻기 위해 상기 오디오 신호(S)를 인코딩하기 위해 제19항에 기재된 바와 같은 인코더(11)와,

상기 인코딩된 오디오 신호([S])를 제공하기 위한 출력 유닛

을 포함하는, 송신 또는 리코딩 장치.
적어도 2개의 채널의 오디오 신호(L,R)를 표시하는 인코딩된 오디오 신호([S])에 있어서,

상기 인코딩된 오디오 신호는,

오디오 신호[S]의 상기 적어도 2개의 채널의 적어도 2개의 채널에서 일어나는 주파수를 표시하는 공통 주파수(f_com)의 표시와,

주어진 공통 주파수(f_com)에 대해, 상기 주어진 공통 주파수에서의 각 채널 내의 각 사인파 성분을 표시하는 각 진폭(A, ΔA)의 표시

를 포함하는, 인코딩된 오디오 신호.
제21항에 기재된 바와 같은 신호를 저장한 저장 매체(2).
인코딩된 오디오 신호([S])를 디코딩(31)하는 방법에 있어서,

적어도 2개의 채널의 오디오 신호(L,R)를 표시하는 인코딩된 오디오 신호 ([S])를 수신(31)하는 단계로서, 상기 인코딩된 오디오 신호는 상기 오디오 신호[S]의 상기 적어도 2개의 채널의 적어도 2개의 채널에서 일어나는 주파수를 표시하는 공통 주파수(f_com)의 표시와, 주어진 공통 주파수(f_com)에서 상기 주어진 공통 주파수에서의 각 채널 내의 각 사인파 성분을 표시하는 각 진폭(A, ΔA)의 표시를 포함하는, 인코딩된 오디오 신호를 수신(31)하는 단계와,

디코딩된 오디오 신호(S')를 얻기 위해 상기 적어도 2개의 채널(L,R) 내의 각 진폭에서의 상기 공통 주파수를 생성(31)하는 단계

를 포함하는, 인코딩된 오디오 신호를 디코딩하는 방법.
인코딩된 오디오 신호([S])를 디코딩하기 위한 디코더(31)에 있어서,

적어도 2개의 채널 오디오 신호(L,R)를 표시하는 상기 인코딩된 오디오 신호([S])를 수신하기 위한 수단(31)으로서, 상기 인코딩된 오디오 신호는 상기 오디오 신호[S]의 상기 적어도 2개의 채널의 적어도 2개의 채널에서 일어나는 주파수를 표시하는 공통 주파수(f_com)의 표시와, 주어진 공통 주파수(f_com)에서 상기 주어진 공통 주파수에서 각 채널의 각 사인파 성분을 표시하는 각 진폭(A, ΔA)의 표시를포함하는, 인코딩된 오디오 신호를 수신하기 위한 수단(31)과,

디코딩된 오디오 신호(S')를 얻기 위해 상기 적어도 2개의 채널(L,R)에서 각 진폭에서의 상기 공통 주파수를 생성하기 위한 수단(31)

을 포함하는, 인코딩된 오디오 신호를 디코딩하기 위한 디코더.
수신기 또는 재생 장치(3)에 있어서,

인코딩된 오디오 신호([S])를 수신하기 위한 입력 유닛(30)과,

디코딩된 오디오 신호(S)를 얻기 위해 상기 인코딩된 오디오 신호([S])를 디코딩하기 위해 제24항에 기재된 바와 같은 디코더(31)와,

상기 디코딩된 오디오 신호(S)를 제공하기 위한 출력 유닛(32)

을 포함하는, 수신기 또는 재생 장치.