KR101805327B1

KR101805327B1 - 오디오 신호들의 파라메트릭 재구성을 위한 역상관기 구조

Info

Publication number: KR101805327B1
Application number: KR1020167010187A
Authority: KR
Inventors: 라르스 빌레모에스; 토니 히르보넨; 하이코 푸른하겐
Original assignee: 돌비 인터네셔널 에이비
Priority date: 2013-10-21
Filing date: 2014-10-21
Publication date: 2017-12-05
Also published as: KR20160056324A; JP2016539358A; MX354832B; CA2926243C; BR112016008426A2; CN105637581A; UA117258C2; WO2015059152A1; EP3061088A1; AU2014339065B2; CA2926243A1; MX2016004918A; US20160261967A1; US9848272B2; RU2016115360A; EP3061088B1; CN105637581B; IL244785A0; ES2659019T3; JP6201047B2

Abstract

인코딩 시스템은 웨트 및 드라이 업믹스 계수들(P, C)과 함께 다운믹스 신호(Y)로서 다중 오디오 신호들(X)을 인코드한다. 디코딩 시스템에서, 사전-곱셈기(101)는 계수들(Q)의 제1 세트에 따라 다운믹스 신호를 선형으로 맵핑함으로써 중간 신호(W)를 계산하고; 역상관부(102)는 중간 신호에 기초하여 역상관된 신호(Z)를 출력하고; 웨트 업믹스부(103)는 웨트 업믹스 계수들에 따라 역상관된 신호를 선형으로 맵핑함으로써 웨트 업믹스 신호를 계산하고; 드라이 업믹스부(104)는 드라이 업믹스 계수들에 따라 다운믹스 신호를 선형으로 맵핑함으로써 드라이 업믹스 신호를 계산하고; 조합부(105)는 웨트 업믹스 신호와 드라이 업믹스 신호를 조합함으로써 다차원 재구성된 신호(X)를 제공하고; 컨버터(106)는 웨트 및 드라이 업믹스 계수들에 기초하여 계수들의 제1 세트를 계산하고 이것을 사전-곱셈기에 공급한다.

Description

오디오 신호들의 파라메트릭 재구성을 위한 역상관기 구조{DECORRELATOR STRUCTURE FOR PARAMETRIC RECONSTRUCTION OF AUDIO SIGNALS}

관련 출원들의 상호 참조

본원은 각각이 본원에 전체적으로 참조로 포함된, 2014년 4월 1일자 및 2013년 10월 21일자 출원된 미국 가 출원 번호 61/973,646 및 미국 가 출원 번호 61/893,770을 우선권 주장한다.

기술분야

여기에 개시된 발명은 일반적으로 오디오 신호들의 인코딩 및 디코딩, 및 특히 다운믹스 신호 및 관련된 메타데이터로부터의 복수의 오디오 신호의 파라메트릭 재구성에 관한 것이다.

다수의 확성 스피커를 포함하는 오디오 재생 시스템들은 복수의 오디오 신호에 의해 나타나는 오디오 장면을 재생하는 데 자주 사용되고, 여기서 각각의 오디오 신호들은 각각의 확성 스피커들 상에서 재생된다. 오디오 신호들은 예를 들어 복수의 음향 트랜스듀서를 통해 기록되거나 오디오 오더링(authoring) 장비에 의해 발생될 수 있을 것이다. 많은 상황들에서, 오디오 신호들을 재생 장비에 송신하기 위한 대역폭 제한들 및/또는 오디오 신호들을 컴퓨터 메모리 내에 또는 휴대용 저장 디바이스 상에 저장하기 위한 제한된 공간이 있다. 오디오 신호들의 파라메트릭(parametric) 코딩을 위한 오디오 코딩 시스템들이 존재하여, 필요한 대역폭 또는 저장 크기를 감소시킨다. 인코더 측 상에서, 이들 시스템은 전형적으로 오디오 신호들을, 전형적으로 모노(1 채널) 또는 스테레오(2 채널) 다운믹스인, 다운믹스 신호로 다운믹스하고, 레벨 차이들 및 교차 상관(cross-correlation)과 같은 파라미터들에 의해 오디오 신호들의 특성들을 묘사하는 부가 정보를 추출한다. 다운믹스 및 부가 정보는 다음에 인코드되어 디코더 측에 보내진다. 디코더 측에서, 복수의 오디오 신호는 부가 정보의 파라미터들의 제어하에서 다운믹스로부터 재구성 즉, 근사화된다. 감상관기들은 복수의 오디오 신호의 보다 충실한 재구성을 가능하게 하도록, 다운믹스에 의해 제공된 오디오 콘텐츠의 차원수를 증가시키기 위한 파라메트릭 재구성의 부분으로서 자주 이용된다. 감상관기들을 어떻게 설계하고 구현하느냐가 재구성의 충실도들 증가시키는 주요 인자들일 수 있다.

그들의 가정 내에서의 최종 사용자들을 겨냥한 부상하는 세그먼트를 포함하는, 오디오 장면을 나타내는 복수의 오디오의 재생을 위해 가용한 디바이스들 및 시스템들의 광범위한 상이한 타입들에 비추어서, 대역폭 요건들 및/또는 저장을 위한 요구된 메모리 크기를 감소시키고/시키거나 디코더 측에서의 복수의 오디오 신호의 재구성을 용이하게 하도록, 복수의 오디오 신호를 효율적으로 인코드하는 신규하고 대안적인 방식들이 필요하다.

다음에, 첨부 도면을 참조하여 예시적인 실시예들이 아래에 더 상세히 설명된다.
도 1은 예시적인 실시예에 따른, 다운믹스 신호 및 관련된 웨트 및 드라이 업믹스 계수들에 기초하여 복수의 오디오 신호를 재구성하는 파라메트릭 재구성부의 일반화된 블록도이고;
도 2는 예시적인 실시예에 따른, 도 1에 도시된 파라메트릭 재구성부를 포함하는 오디오 디코딩 시스템의 일반화된 블록도이고;
도 3은 예시적인 실시예에 따른, 파라메트릭 재구성을 위해 적합한 데이터로서 복수의 오디오 신호를 인코딩하는 파라메트릭 인코딩부의 일반화된 블록도이고;
도 4는 예시적인 실시예에 따른, 도 3에 도시된 파라메트릭 인코딩부를 포함하는 오디오 인코딩 시스템의 일반화된 블록도이다.
모든 도면은 본 발명을 더 자세히 설명하기 위해 필요한 부분들을 단지 개략적이고 일반적으로 도시하지만, 다른 부분들은 생략될 수 있거나 단지 제안될 수 있다.

여기에 사용된 바와 같이, 오디오 신호는 순수한 오디오 신호, 오디오비쥬얼 신호의 오디오 부분 또는 멀티미디어 신호 또는 메타데이터와 조합한 이들 중 어느 것일 수 있다.

여기에 사용된 바와 같이, 채널은 미리 정해진/고정된 공간적 위치/배향 또는 "좌" 또는 "우"와 같이 정해지지 않은 공간적 위치에 관련된 오디오 신호이다.

여기에 사용된 바와 같이, 오디오 오브젝트 또는 오디오 오브젝트 신호는 시변이 허용될 수 있는 공간 위치, 즉 그 값이 재할당되거나 시간에 따라 업데이트될 수 있는 공간적 위치에 관련된 오디오 신호이다.

Ⅰ. 개관

제1 양태에 따라, 예시적인 실시예들은 복수의 오디오 신호를 재구성하는 방법들 및 컴퓨터 프로그램 제품들뿐만 아니라 오디오 디코딩 시스템들을 제안한다. 제1 양태에 따른, 제안된 디코딩 시스템들, 방법들 및 컴퓨터 프로그램 제품들은 일반적으로 동일한 특징들 및 장점들을 공유할 수 있다.

예시적인 실시예들에 따라, 복수의 오디오 신호를 재구성하는 방법이 제공된다. 이 방법은 관련된 웨트 및 드라이 업믹스 계수들과 함께 다운믹스 신호의 시간/주파수 타일을 수신하는 단계 - 다운믹스 신호는 재구성될 오디오 신호들의 수보다 적은 채널들을 포함함 -; 다운믹스 신호의 선형 맵핑으로서, 중간 신호라고 하는, 하나 이상의 채널을 갖는 제1 신호를 계산하는 단계 - 계수들의 제1 세트는 중간 신호를 계산하는 부분으로서 다운믹스 신호의 채널들에 적용됨 -; 중간 신호의 하나 이상의 채널을 처리함으로써, 역상관된 신호라고 하는, 하나 이상의 채널을 갖는 제2 신호를 발생하는 단계; 역상관된 신호의 선형 맵핑으로서 웨트 업믹스 신호라고 하는 복수의 채널을 갖는 제3 신호를 계산하는 단계 - 계수들의 제2 세트는 웨트 업믹스 신호를 계산하는 부분으로서 역상관된 신호의 하나 이상의 채널에 적용됨 -; 다운믹스 신호의 선형 맵핑으로서, 드라이 업믹스 신호라고 하는 복수의 채널을 갖는 제4 신호를 계산하는 단계 - 계수들의 제3 세트는 드라이 업믹스 신호를 계산하는 부분으로서 다운믹스 신호의 채널들에 적용됨 -; 웨트 업믹스 신호와 드라이 업믹스 신호를 조합하여, 재구성될 복수의 오디오 신호의 시간/주파수 타일에 대응하는 다차원 재구성된 신호를 획득하는 단계를 포함한다. 본 예시적인 실시예에서, 계수들의 제2 및 제3 세트들은 각각 수신된 웨트 및 드라이 업믹스 계수들에 대응하고; 계수들의 제1 세트는 웨트 및 드라이 업믹스 계수들에 기초하여, 미리 정해진 규칙에 따라 계산된다.

역상관된 신호의 추가는 청취자에 의해 인지되는, 다차원 재구성된 신호의 콘텐츠의 차원수를 증가시키고, 다차원 재구성된 신호의 충실도를 증가시키는 역할을 한다. 역상관된 신호의 하나 이상의 채널 각각은 중간 신호의 하나 이상의 채널의 대응하는 채널과 적어도 거의 동일한 스펙트럼을 가질 수 있거나, 중간 신호의 하나 이상의 채널의 대응하는 채널의 스펙트럼의 리스케일된/정규화된 버전에 대응하는 스펙트럼들을 가질 수 있고, 역상관된 신호의 하나 이상의 채널은 적어도 거의 상호 비상관될(uncorrelated) 수 있다. 역상관된 신호의 하나 이상의 채널은 바람직하게는 중간 신호의 하나 이상의 채널 및 다운믹스 신호의 채널들에 적어도 거의 비상관될 수 있다. 상호 비상관된 신호들을 예를 들어, 백색 잡음으로부터의 주어진 스펙트럼과 합성하는 것이 가능하지만, 본 예시적인 실시예에 따라, 역상관된 신호의 하나 이상의 채널은 음색과 같이, 비교적 더 감지하기 힘든 싸이코-어코스틱하게(psycho-acoustically) 조정된 특성들을 포함하는, 중간 신호의 특로우별히 로컬한 고정 특성들을, 가능한 한 많이 보존하도록, 예를 들어, 각각의 전역 통과 필터들을 중간 신호의 각각의 하나 이상의 채널에 적용하거나 중간 신호의 각각의 하나 이상의 채널의 부분들을 재조합하는 것을 포함하는, 중간 신호의 처리에 의해 발생된다.

발명자들은 역상관된 신호가 도출되는 중간 신호의 선택이 재구성된 오디오 신호들의 충실도에 영향을 줄 수 있고, 재구성될 오디오 신호들의 소정의 특성들이 변화하면, 예를 들어, 재구성될 오디오 신호들이 시변 위치들을 갖는 오디오 오브젝트들이면, 중간 신호가 획득되는 계산들이 그에 따라 적응되는 경우에 재구성된 오디오 신호들의 충실도가 증가될 수 있다는 것을 인식하였다. 본 예시적인 실시예에서, 중간 신호를 계산하는 것은 다운믹스 신호들의 채널들에 계수들의 제1 세트를 적용하는 것을 포함하고, 계수들의 제1 세트는 그래서 중간 신호가 어떻게 계산되는지에 대한 적어도 일부 제어를 가능하게 하고, 재구성된 오디오 신호들의 충실도를 증가시킨다.

발명자들은 웨트 및 드라이 업믹스 신호들을 각각 계산하기 위해 이용된 수신된 웨트 및 드라이 업믹스 계수들은 계수들의 제1 세트에 대한 적합한 값들을 계산하는 데 이용될 수 있는 정보를 전달한다는 것을 더 인식하였다. 웨트 및 드라이 업믹스 계수들에 기초하여, 미리 정해진 규칙에 따라, 계수들의 제1 세트를 계산함으로써, 복수의 오디오 신호의 재구성을 가능하게 하는 데 필요한 정보의 양이 감소될 수 있어서, 인코더 측으로부터 다운믹스 신호와 함께 송신된 메타데이터의 양을 감소시킬 수 있다. 파라메트릭 재구성을 위해 필요한 데이터의 양을 감소시킴으로써, 복수의 오디오 신호의 파라메트릭 표현의 송신을 위한 요구된 대역폭, 및/또는 이러한 표현을 저장하기 위한 요구된 메모리 크기가 감소될 수 있다.

계수들의 제2 및 제3 세트가 수신된 웨트 및 드라이 업믹스 계수들에 각각 대응한다는 것은 계수들의 제2 및 제3 세트들이 웨트 및 드라이 업믹스 계수들과 각각 일치하거나, 계수들의 제2 및 제3 세트들이 각각 웨트 및 드라이 업믹스 계수들에 의해 유일하게 제어되는(또는 그로부터 도출가능하다는) 것을 의미한다. 예를 들어, 계수들의 제2 세트는 웨트 업믹스 계수들의 수가 계수들의 제2 세트 내의 계수들의 수보다 낮은 경우에도, 예를 들어, 웨트 업믹스 계수들로부터 컨피덴트들(confidents)의 제2 세트를 결정하기 위한 미리 정해진 공식이 디코더 측에서 알려지면 웨트 업믹스 계수들로부터 도출가능할 수 있다.

웨트 업믹스 신호와 드라이 업믹스 신호를 조합하는 것은 샘플마다 또는 변환 계수마다 기초하는 부가 믹싱과 같이, 웨트 업믹스 신호의 각각의 채널들로부터의 오디오 콘텐츠를 드라이 업믹스 신호의 각각의 대응하는 채널들의 오디오 콘텐츠에 부가하는 것을 포함할 수 있다.

중간 신호가 다운믹스 신호의 선형 맵핑이 된다는 것은 중간 신호가 제1 선형 변환을 다운믹스 신호에 적용함으로써 획득된다는 것을 의미한다. 이 제1 변환은 입력으로서 미리 정해진 수의 채널들을 취하고 출력으로서 미리 정해진 수의 하나 이상의 채널을 제공하고, 계수들의 제1 세트는 이 제1 선형 변환의 정량적 특성들을 정의하는 계수들을 포함한다.

웨트 업믹스 신호가 역상관된 신호의 선형 맵핑이 된다는 것은 웨트 업믹스 신호가 제2 선형 변환을 역상관된 신호에 적용함으로써 획득된다는 것을 의미한다. 이 제2 변환은 입력으로서 미리 정해진 수의 하나 이상의 채널을 취하고 출력으로서 미리 정해진(제2) 수의 채널을 제공하고, 계수들의 제2 세트는 이 제2 선형 변환의 정량적 특성들을 정의하는 계수들을 포함한다.

드라이 업믹스 신호가 다운믹스 신호의 선형 맵핑이 된다는 것은 드라이 업믹스 신호가 제3 선형 변환을 다운믹스 신호에 적용함으로써 획득된다는 것을 의미한다. 이 제3 변환은 입력으로서 미리 정해진(제3) 수의 채널들을 취하고 출력으로서 미리 정해진 수의 채널들을 제공하고, 계수들의 제3 세트는 이 제3 선형 변환의 정량적 특성들을 정의하는 계수들을 포함한다.

오디오 인코딩/디코딩 시스템들은 전형적으로 예를 들어, 적합한 필터 뱅크들을 입력 오디오 신호들에 적용함으로써 시간-주파수 공간을 시간/주파수 타일들로 나눈다. 시간/주파수 타일은 일반적으로 시간 간격 및 주파수 서브-밴드에 대응하는 시간-주파수 공간의 부분을 의미한다. 시간 간격은 전형적으로 오디오 인코딩/디코딩 시스템에서 사용된 시간 프레임의 기간에 대응할 수 있다. 주파수 서브-밴드는 인코딩/디코딩 시스템에서 사용된 필터 뱅크에 의해 정의된 하나 또는 몇 개의 인접한 주파수 서브-밴드들에 전형적으로 대응할 수 있다. 주파수 서브-밴드가 필터 뱅크에 의해 정의된 몇 개의 인접한 주파수 서브-밴드들에 대응하는 경우에, 이것은 오디오 신호의 디코딩/재구성 과정에서 비균일한 주파수 서브-밴드들, 예를 들어, 오디오 신호의 보다 높은 주파수들에 대한 보다 넓은 주파수 서브-밴드들을 갖는 것을 가능하게 한다. 오디오 인코딩/디코딩 시스템이 모든 주파수 범위에서 동작하는, 광대역의 경우에, 시간/주파수 타일의 주파수 서브-밴드는 모든 주파수 범위에 대응할 수 있다. 본 예시적인 실시예에 따른 방법이 하나의 그러한 시간/주파수 타일에 대해 복수의 오디오 신호를 재구성하는 방법에 대해 설명된다. 그러나, 이 방법은 오디오 인코딩/디코딩 시스템의 각각의 시간/주파수 타일에 대해 반복될 수 있다는 것을 이해하여야 한다. 또한, 여러 개의 시간/주파수 타일들은 동시에 재구성될 수 있다는 것을 이해하여야 한다. 전형적으로, 인접한 시간/주파수 타일들은 해체될 수 있거나 부분적으로 중첩할 수 있다.

예시적인 실시예에서, 역상관된 신호로 처리될 중간 신호는 드라이 업믹스 신호의 선형 맵핑에 의해 획득가능할 수 있고, 즉 중간 신호는 선형 변환을 드라이 업믹스 신호에 적용함으로써 획득가능할 수 있다. 다운믹스 신호의 선형 맵핑으로서 계산되는 드라이 업믹스 신호의 선형 맵핑에 의해 획득가능한 중간 신호를 이용함으로써, 역상관된 신호를 획득하기 위해 요구되는 계산들의 복잡성이 감소될 수 있어서, 오디오 신호들의 계산적으로 보다 효율적인 재구성이 가능해진다. 적어도 일부 예시적인 실시예들에서, 드라이 업믹스 계수들은 디코더 측에서 계산된 드라이 업믹스 신호가 재구성될 오디오 신호들에 근사하도록 인코더 측에서 결정될 수 있을 것이다. 이러한 근사화의 선형 맵핑에 의해 획득가능한 중간 신호에 기초한 역상관된 신호의 발생은 재구성된 오디오 신호들의 충실도를 증가시킬 수 있다.

예시적인 실시예에서, 중간 신호는 드라이 업믹스 신호에 웨트 업믹스 계수들의 절대값들인 계수들의 세트를 적용함으로써 획득가능할 수 있다. 중간 신호는 예를 들어 드라이 업믹스 신호의 채널들의 각각의 하나 이상의 선형 조합으로서 중간 신호의 하나 이상의 채널을 형성함으로써 획득가능할 수 있고, 웨트 업믹스 계수들의 절대값들은 하나 이상의 선형 조합 내의 이득들로서 각각의 드라이 업믹스 신호 채널들에 적용될 수 있다. 웨트 업믹스 계수들의 절대값들인 계수들의 세트를 적용함으로써, 드라이 업믹스 신호를 맵핑함으로써 획득가능한 중간 신호를 이용함으로써, 상이한 부호들을 갖는 웨트 업믹스 계수들로 인해, 드라이 업믹스 신호의 각각의 채널들로부터의 기여들 간의 중간 신호에서 발생하는 상쇄의 우려가 감소될 수 있다. 중간 신호에서의 상쇄의 우려를 감소시킴으로써, 중간 신호로부터 발생된 역상관된 신호의 에너지/진폭은 재구성된 신호의 오디오 신호들의 것과 매치하고, 웨트 업믹스 계수들의 갑작스런 변동들이 피해질 수 있거나 덜 빈번하게 발생할 수 있다.

예시적인 실시예에서, 계수들의 제1 세트는 미리 정해진 규칙에 따라 웨트 업믹스 계수들을 처리하고, 처리된 웨트 업믹스 계수들과 드라이 업믹스 계수들을 곱함으로써 계산될 수 있다. 예를 들어, 처리된 웨트 업믹스 계수들 및 드라이 업믹스 계수들은 각각의 행렬들로서 배열될 수 있고, 계수들의 제1 세트는 이들 2개의 행렬들의 행렬 곱으로서 계산된 행렬에 대응할 수 있다.

예시적인 실시예에서, 웨트 업믹스 계수들을 처리하기 위한 미리 정해진 규칙은 요소별(element-wise) 절대값 연산을 포함할 수 있다.

예시적인 실시예에서, 웨트 및 드라이 업믹스 계수들은 각각의 행렬들로서 배열될 수 있고, 웨트 업믹스 계수들을 처리하기 위한 미리 정해진 규칙은 임의의 순서로, 모든 요소들의 요소별 절대값들을 계산하고 요소들을 재배열하여 드라이 업믹스 계수들의 행렬과의 직접 행렬 곱셈을 가능하게 하는 것을 포함할 수 있다. 본 예시적인 실시예에서, 재구성될 오디오 신호들은 중간 신호가 기초하는, 다운믹스 신호를 통해 역상관된 신호의 하나 이상의 채널에 기여하고, 역상관된 신호의 하나 이상의 채널은 웨트 업믹스 신호를 통해, 재구성된 오디오 신호들에 기여한다. 발명자들은 재구성된 오디오 신호들의 충실도를 증가시키기 위해서, 다음의 원칙을 준수하고자 노력하는 것이 바람직할 수 있다는 것을 인식하였다: 역상관된 신호의 주어진 채널이 파라메트릭 재구성에서 기여하는 오디오 신호들은 다운믹스 신호를 통해, 역상관된 신호의 주어진 채널이 발생되는 중간 오디오 신호의 동일한 채널에 기여하여야 하고, 바람직하게는 매칭하는/등가적인 양만큼 기여하여야 한다는 것. 본 예시적인 실시예에 따른 미리 정해진 규칙은 이 원칙을 반영한다고 할 수 있다.

웨트 업믹스 계수들을 처리하기 위한 미리 정해진 규칙에 요소별 절대값 연산을 포함시킴으로써, 상이한 부호들을 갖는 웨트 업믹스 계수들로 인해, 드라이 업믹스 신호의 각각의 채널들로부터의 기여들 간의 중간 신호에서 발생하는 상쇄의 우려가 감소될 수 있다. 중간 신호에서의 상쇄의 우려를 감소시킴으로써, 중간 신호로부터 발생된 역상관된 신호의 에너지/진폭은 재구성된 신호의 오디오 신호들의 것과 매치하고, 웨트 업믹스 계수들의 갑작스런 변동들이 피해질 수 있거나 덜 빈번하게 발생할 수 있다.

예시적인 실시예에서, 계산 및 조합하는 단계들은 신호들의 쿼드러처 미러 필터(quadrature mirror filter)(QMF) 도메인 표현에 대해 수행될 수 있다.

예시적인 실시예에서, 웨트 및 드라이 업믹스 계수들의 복수의 값이 수신될 수 있고, 여기서 각각의 값은 특정한 앵커 점과 관련된다. 본 예시적인 실시예에서, 상기 방법은 2개의 연속하는 앵커 점들과 관련된 웨트 및 드라이 업믹스 계수들의 값들에 기초하여, 계수들의 제1 세트의 대응하는 값들을 계산하고, 다음에 이미 계산된 계수들의 제1 세트의 값들에 기초하여 연속하는 앵커 점들 사이에 포함된 적어도 하나의 시점에 대한 계수들의 제1 세트의 값을 보간하는 것을 더 포함할 수 있다. 바꾸어 말하면, 2개의 연속하는 앵커 점들에 대해 계산된 계수들의 제1 세트의 값들은 2개의 연속하는 앵커 점들 사이에 포함된 적어도 하나의 시점에 대한 계수들의 제1 세트의 값을 획득하기 위해 2개의 연속하는 앵커 점들 간에 보간하기 위해 이용된다. 이것은 웨트 및 드라이 업믹스 계수들에 기초한 계수들의 제1 세트의 비교적 더 비용이 많이 드는 계산의 불필요한 반복을 피한다.

예시적인 실시예에 따라, 다운믹스 신호의 시간/주파수 타일 및 관련된 웨트 및 드라이 업믹스 계수들을 수신하고, 복수의 오디오 신호를 재구성하도록 적응된 파라메트릭 재구성부를 갖는 오디오 디코딩 시스템이 제공되고, 다운믹스 신호는 재구성될 오디오 신호들의 수보다 적은 채널들을 갖는다. 파라메트릭 재구성부는 다운믹스 신호의 시간/주파수 타일을 수신하고 계수들의 제1 세트에 따라 다운믹스 신호를 선형으로 맵핑함으로써, 즉 계수들의 제1 세트를 이용하여 다운믹스 신호의 채널들의 하나 이상의 선형 조합을 형성함으로써 계산된 중간 신호를 출력하도록 구성된 사전-곱셈기; 중간 신호를 수신하고, 그에 기초하여, 역상관된 신호를 출력하도록 구성된 역상관부; 역상관된 신호뿐만 아니라 웨트 업믹스 계수들을 수신하고, 웨트 업믹스 계수들에 따라 역상관된 신호를 선형으로 맵핑함으로써, 즉, 웨트 업믹스 계수들을 이용하여 역상관된 신호의 하나 이상의 채널의 선형 조합들을 형성함으로써 웨트 업믹스 신호를 계산하도록 구성된 웨트 업믹스부; 드라이 업믹스 계수들을, 그리고 사전-곱셈기와 동시에 다운믹스 신호의 시간/주파수 타일을 수신하고, 드라이 업믹스 계수들에 따라 다운믹스 신호를 선형으로 맵핑함으로써, 즉, 드라이 업믹스 계수들을 이용하여 다운믹스 신호의 채널들의 선형 조합들을 형성함으로써 계산된 드라이 업믹스 신호를 출력하도록 구성된 드라이 업믹스부; 및 웨트 업믹스 신호 및 드라이 업믹스 신호를 수신하고 재구성될 복수의 오디오 신호의 시간/주파수 타일에 대응하는 다차원 재구성된 신호를 획득하기 위해 이들 신호를 조합하도록 구성된 조합부를 포함한다. 파라메트릭 재구성부는 웨트 및 드라이 업믹스 계수들을 수신하고 미리 정해진 규칙에 따라, 계수들의 제1 세트를 계산하고, 이것, 즉 계수들의 제1 세트를 사전-곱셈기에 공급하도록 구성된 컨버터를 더 포함한다.

제2 양태에 따라, 예시적인 실시예들은 복수의 오디오 신호를 인코딩하는 방법들 및 컴퓨터 프로그램 제품들뿐만 아니라 오디오 인코딩 시스템들을 제안한다. 제2 양태에 따른, 제안된 인코딩 시스템들, 방법들 및 컴퓨터 프로그램 제품들은 일반적으로 동일한 특징들 및 장점들을 공유할 수 있다. 또한, 제1 양태에 따른, 디코딩 시스템들, 방법들 및 컴퓨터 프로그램 제품들의 특징들에 대해 위에 제시된 장점들은 제2 양태에 따른 인코딩 시스템들, 방법들 및 컴퓨터 프로그램 제품들의 대응하는 특징들에 대해 일반적으로 유효할 수 있다.

예시적인 실시예들에 따라, 파라메트릭 재구성을 위해 적합한 데이터로서 복수의 오디오 신호를 인코딩하는 방법이 제공된다. 이 방법은 복수의 오디오 신호의 시간/주파수 타일을 수신하고; 다운믹싱 규칙에 따라 오디오 신호들의 선형 조합들을 형성함으로써 다운믹스 신호를 계산하고 - 다운믹스 신호는 재구성될 오디오 신호들의 수보다 적은 채널들을 포함함 -; 시간/주파수 타일에서 인코드될 오디오 신호들을 근사화하는 다운믹스 신호의 선형 맵핑을 정의하기 위해 드라이 업믹스 계수들을 결정하고; 수신된 오디오 신호들의 공분산 및 다운믹스 신호의 선형 맵핑에 의해 근사화된 오디오 신호들의 공분산에 기초하여 웨트 업믹스 계수들을 결정하고; 그들 자신의 계수들이 오디오 신호들의 파라메트릭 재구성의 부분으로서 사전-역상관 선형 맵핑을 정의하는 계수들의 추가 세트의 미리 정해진 규칙에 따라 계산을 가능하게 하는, 웨트 및 드라이 업믹스 계수들과 함께 다운믹스 신호를 출력하는 것을 포함한다. 이와 관련하여, 사전-역상관 선형 맵핑은 예를 들어 오디오 신호들의 공분산의 전체적인 또는 부분적인 복원을 가능하게 할 수 있다.

그들 자신에 대한 웨트 및 드라이 업믹스 계수들이 계수들의 추가 세트의 미리 정해진 규칙에 따라 계산을 가능하게 한다는 것은 웨트 및 드라이 업믹스 계수들(의 값들)이 알려질 때, 계수들의 추가 세트가 인코더 측으로부터 보내진 어떤 추가의 계수들(의 값들)에 액세스하지 않고, 미리 정해진 규칙에 따라 계산될 수 있다는 것을 의미한다. 예를 들어, 상기 방법은 다운믹스 신호, 웨트 업믹스 계수들 및 드라이 업믹스 계수들 만을 출력하는 것을 포함할 수 있다.

디코더 측 상에서, 오디오 신호들의 파라메트릭 재구성은 다운믹스 신호에 기초하여 발생된 역상관된 신호로부터의 기여들로, 다운믹스 신호의 선형 맵핑을 통해 획득된, 드라이 업믹스 신호를 조합하는 것을 전형적으로 포함할 수 있다. 오디오 신호들의 파라메트릭 재구성의 부분으로서 사전-역상관 선형 맵핑을 정의하는 계수들의 추가 세트는 계수들의 추가 세트가 입력으로서 다운믹스 신호를 취하고 그에 역상관 절차가 역상관된 신호를 발생하기 위해 수행되는, 중간 신호라고 하는, 하나 이상의 채널을 갖는 신호를 출력하는 선형 변환의 정량적 특성들을 정의하는 계수를 포함하는 것을 의미한다.

계수들의 추가 세트가 웨트 및 드라이 업믹스 계수들에 기초하여, 미리 정해진 규칙에 따라 계산될 수 있기 때문에, 복수의 오디오 신호들의 재구성을 가능하게 하는 데 필요한 정보의 양은 감소되어서, 디코더 측에 다운믹스 신호와 함께 송신된 메타데이터의 양의 감소가 가능해진다. 파라메트릭 재구성을 위해 필요한 데이터의 양을 감소시킴으로써, 재구성될 복수의 오디오 신호의 파라메트릭 표현의 송신을 위한 요구된 대역폭, 및/또는 이러한 표현을 저장하기 위한 요구된 메모리 크기가 감소될 수 있다.

다운믹스 신호를 계산할 때 이용되는 다운믹싱 규칙은 오디오 신호들의 선형 조합들의 정량적 특성들, 즉, 선형 조합들을 형성할 때 각각의 오디오 신호들에 적용될 계수들을 정의한다.

인코드될 오디오 신호들을 근사화하는 다운믹스 신호의 선형 맵핑을 정의하는 드라이 업믹스 계수들은 드라이 업믹스 계수들이 입력으로서 다운믹스 신호를 취하고 인코드될 오디오 신호들을 근사화하는 오디오 신호들의 세트를 출력하는 선형 변환의 정량적 특성들을 정의하는 계수들이라는 것을 의미한다. 드라이 업믹스 계수들의 결정된 세트는 예를 들어 오디오 신호의 최소 평균 제곱 오차 근사화에 대응하는 다운믹스 신호의 선형 맵핑을 정의할 수 있고, 즉, 다운믹스 신호의 선형 맵핑들의 세트 중에서, 드라이 업믹스 계수들의 결정된 세트는 오디오 신호에 최소 평균 제곱 의미에서 최상으로 근사화하는 선형 맵핑을 정의할 수 있다.

웨트 업믹스 계수들은 예를 들어, 수신된 오디오 신호들의 공분산과 다운믹스 신호의 선형 맵핑에 의해 근사화된 오디오 신호들의 공분산 간의 차이에 기초하거나, 그들을 비교함으로써 결정될 수 있다.

예시적인 실시예에서, 오디오 신호들의 복수의 시간/주파수 타일이 수신될 수 있고, 다운믹스 신호는 미리 정해진 다운믹싱 규칙에 따라 균일하게 계산될 수 있다. 바꾸어 말하면, 오디오 신호들의 선형 조합들을 형성할 때 각각의 오디오 신호들에 적용된 계수들은 미리 정해지고 연속하는 시간 프레임들에 걸쳐 일정하다. 예를 들어, 다운믹싱 규칙은 백워드-호환가능 다운믹스 신호를 제공하기 위해, 즉, 표준화된 채널 구성을 이용하는 레거시 재생 장비 상에서 재생될 수 있는 다운믹스 신호를 제공하기 위해 적응될 수 있다.

예시적인 실시예에서, 오디오 신호들의 복수의 시간/주파수 타일이 수신될 수 있고, 다운믹스 신호는 신호-적응 다운믹싱 규칙에 따라 계산될 수 있다. 바꾸어 말하면, 오디오 신호들의 선형 조합들을 형성할 때 적용된 계수들 중 적어도 하나가 신호-적응적이고, 즉, 계수들 중 적어도 하나, 및 바람직하게는 몇 개의 값이 오디오 신호들 중 하나 이상의 신호의 오디오 콘텐츠에 기초하여 인코딩 시스템에 의해 조정/선택될 수 있다.

예시적인 실시예에서, 웨트 업믹스 계수들은 다운믹스 신호의 선형 맵핑에 의해 근사화된 오디오 신호들의 공분산을 보충하기 위해 목표 공분산을 설정하고; 행렬과 그 자신의 전치(transpose)의 곱으로서 목표 공분산을 분해함으로써 결정될 수 있고, 행렬의 요소들은 선택적인 컬럼별(column-wise) 리스케일링 후에, 웨트 업믹스 계수들에 대응한다. 본 예시적인 실시예에서, 목표 공분산이 분해되는, 즉, 그 자신의 전치에 의해 곱해질 때 목표 공분산을 산출하는 행렬은 정사각 행렬 또는 비정사각 행렬일 수 있다. 적어도 일부 예시적인 실시예들에 따라, 목표 공분산은 수신된 오디오 신호들의 공분산 행렬과 다운믹스 신호의 선형 맵핑에 의해 근사화된 오디오 신호들의 공분산 행렬 간의 차이로서 형성된 행렬의 하나 이상의 고유벡터에 기초하여 결정될 수 있다.

예시적인 실시예에서, 상기 방법은 목표 공분산이 분해되는, 즉 목표 공분산이 행렬과 그 자신의 전치의 곱으로서 분해되는 행렬의 컬럼별 리스케일링을 더 포함할 수 있고, 행렬의 요소들은 컬럼별 리스케일링 후에, 웨트 업믹스 계수들에 대응한다. 본 예시적인 실시예에서, 컬럼별 리스케일링은 다운믹스 신호에의 사전-역상관 선형 맵핑의 적용으로부터 생기는 각각의 신호의 분산이 사전-역상관 선형 맵핑을 정의하는 계수들이 미리 정해진 규칙에 따라 계산되는 경우에, 컬럼별 리스케일링에서 이용된 대응하는 리스케일링 팩터의 역제곱과 동일한 것을 보증할 수 있다. 사전-역상관 선형 맵핑은 재구성될 오디오 신호들의 파라메트릭 재구성에서 다운믹스 신호를 보충하기 위한 역상관된 신호를 발생하기 위해 디코더 측에서 이용될 수 있다. 본 예시적인 실시예에 따른 컬럼별 리스케일링으로, 웨트 업믹스 계수들은 목표 공분산에 대응하는 공분산을 제공하는 역상관된 신호의 선형 맵핑을 정의한다.

예시적인 실시예에서, 미리 정해진 규칙은 계수들의 추가 세트와 웨트 업믹스 계수들 간의 선형 스케일링 관계를 함축할 수 있고, 컬럼별 리스케일링은 -1/4로 멱승된 행렬 곱

의 대각선 부분에 의한 곱셈에 해당할 수 있고, 여기서 abs V는 목표 공분산이 분해되는 행렬의 요소별 절대값을 나타내고,

는 다운믹스 신호의 선형 맵핑에 의해 근사화된 오디오 신호들의 공분산에 대응하는 행렬이다. 주어진 행렬, 예를 들어, 상기 행렬 곱의 대각선 부분은 모든 오프-대각선 요소들을 주어진 행렬에서 제로로 설정함으로써 획득된 대각선 행렬을 의미한다. 이러한 대각선 행렬을 -1/4로 멱승시킨다는 것은 대각선 행렬 내의 행렬 요소들 각각이 -1/4로 멱승된다는 것을 의미한다. 계수들의 추가 세트와 웨트 업믹스 계수들 간의 선형 스케일링 관계는 예를 들어 목표 공분산이 분해되는 행렬의 컬럼별 리스케일링이 행렬 요소들로서 계수들의 추가 세트를 갖는 행렬의 로우별(row-wise) 또는 컬럼별 리스케일링에 대응하도록 될 수 있고, 행렬 요소들로서 계수들의 추가 세트를 갖는 행렬의 로우별 또는 컬럼별 리스케일링은 목표 공분산이 분해되는 행렬의 컬럼별 리스케일링에서 이용된 것과 동일한 리스케일링 팩터들을 이용한다.

사전-역상관 선형 맵핑은 재구성될 오디오 신호들의 파라메트릭 재구성에서 다운믹스 신호를 보충하기 위한 역상관된 신호를 발생하기 위해 디코더 측에서 이용될 수 있다. 본 예시적인 실시예에 따른 컬럼별 리스케일링으로, 웨트 업믹스 계수들은 사전-역상관 선형 맵핑을 정의하는 계수들이 미리 정해진 규칙에 따라 계산되는 경우에, 목표 공분산에 대응하는 공분산을 제공하는 역상관된 신호의 선형 맵핑을 정의한다.

예시적인 실시예에서, 목표 공분산은 목표 공분산과 다운믹스 신호의 선형 맵핑에 의해 근사화된 오디오 신호들의 공분산의 합이 수신된 오디오 신호들의 공분산에 근사하거나, 적어도 실질적으로 일치하기 위해 선택될 수 있어서, 다운믹스 신호 및 웨트 및 드라이 업믹스 파라미터들에 기초하여, 디코더 측에서 파라메트릭하게 재구성된 오디오 신호들이 수신된 오디오 신호들의 공분산에 근사하거나 적어도 실질적으로 일치하는 것이 가능해진다.

예시적인 실시예에서, 상기 방법은 수신된 오디오 신호들의 추정된 총 에너지와 다운믹스 신호, 웨트 업믹스 계수들 및 드라이 업믹스 계수들에 기초하여 파라메트릭하게 재구성된 오디오 신호들의 추정된 총 에너지의 비율을 결정하고; 이 비율의 역제곱근으로 드라이 업믹스 계수들을 리스케일링함으로써 에너지 보상을 수행하는 것을 더 포함할 수 있다. 본 예시적인 실시예에서, 리스케일된 드라이 업믹스 계수들은 다운믹스 신호 및 웨트 업믹스 계수들과 함께 출력될 수 있다. 적어도 일부 예시적인 실시예들에서, 미리 정해진 규칙은 계수들의 추가 세트와 드라이 업믹스 계수들 간의 선형 스케일링 관계를 함축할 수 있어서, 드라이 업믹스 계수들에 대해 수행된 에너지 보상은 계수들의 추가 세트에서 대응하는 효과를 갖는다. 본 예시적인 실시예에 따른 에너지 보상은 다운믹스 신호 및 웨트 및 드라이 업믹스 파라미터들에 기초하여, 디코더 측에서 파라메트릭하게 재구성된 오디오 신호들이 수신된 오디오 신호들의 총 에너지에 근사하는 총 에너지를 갖게 한다.

적어도 일부 예시적인 실시예에서, 웨트 업믹스 계수들은 에너지 보상을 수행하기 전에 결정될 수 있고, 즉 웨트 업믹스 계수들은 아직 에너지 보상되지 않은 웨트 업믹스 계수들에 기초하여 결정될 수 있다.

예시적인 실시예들에 따라, 파라메트릭 재구성을 위해 적합한 데이터로서 복수의 오디오 신호를 인코드하도록 적응된 파라메트릭 인코딩부를 포함하는 오디오 인코딩 시스템이 제공된다. 파라메트릭 인코딩부는 복수의 오디오 신호의 시간/주파수 타일을 수신하고 다운믹싱 규칙에 따라 오디오 신호들의 선형 조합들을 형성함으로써 다운믹스 신호를 계산하도록 구성된 다운믹스부 - 다운믹스 신호는 재구성될 오디오 신호들의 수보다 적은 채널들을 포함함 -; 시간/주파수 타일에서 인코드될 오디오 신호들을 근사화하는 다운믹스 신호의 선형 맵핑을 정의하기 위해 드라이 업믹스 계수들을 결정하도록 구성된 제1 분석부; 및 수신된 오디오 신호들의 공분산 및 다운믹스 신호의 선형 맵핑에 의해 근사화된 오디오 신호들의 공분산에 기초하여 웨트 업믹스 계수들을 결정하도록 구성된 제2 분석부를 포함한다. 본 예시적인 실시예에서, 파라메트릭 인코딩부는 웨트 및 드라이 업믹스 계수들과 함께 다운믹스 신호를 출력하도록 구성되고, 그들 자신 상의 웨트 및 드라이 업믹스 계수들은 오디오 신호들의 파라메트릭 재구성의 부분으로서 사전-역상관 선형 맵핑을 정의하는 계수들의 추가 세트의 미리 정해진 규칙에 따라 계산을 가능하게 한다.

예시적인 실시예들에 따라, 제1 및 제2 양태들의 방법들 중 어느 한 방법을 수행하기 위한 명령어들을 갖는 컴퓨터 판독가능 매체를 포함하는 컴퓨터 프로그램 제품이 제공된다.

예시적인 실시예들에 따라, 복수의 오디오 신호 중 적어도 하나는 공간적 로케이터와 관련된 오디오 오브젝트 신호에 관련할 수 있거나 그것을 나타내기 위해 사용될 수 있는데, 즉 복수의 오디오 신호가 예를 들어, 정적인 공간적 위치들/배향들에 관련된 채널들을 포함할 수 있지만, 복수의 오디오 신호는 또한 시변 공간적 위치에 관련된 하나 이상의 오디오 오브젝트를 포함할 수 있다.

다른 예시적인 실시예들이 종속 청구항들에서 정의된다. 서로 상이한 청구항에서 열거되더라도, 예시적인 실시예들은 특징들의 모든 조합들을 포함한다는 점에 주목한다.

Ⅱ. 예시적인 실시예들

아래에, 인코딩 및 디코딩의 수학적 설명이 제공된다. 보다 상세한 이론적 배경을 위해서는, 2008년 1월, IEEE Transactions on Audio, Speech, and Language Processing, Vol. 16, No.1에서, Hotho 등에 의한, 논문 "A Backward-Compatible Multichannel Audio Codec"을 참조할 수 있다.

도 3 및 4를 참조하여 설명될 인코더 측에서, 다운믹스 신호

는 다음 식에 따라, 복수의 오디오 신호

의 선형 조합들을 형성함으로써 계산되고

여기서

은 다운믹스 행렬 D에 의해 표현되는 다운믹스 계수들이고, 여기서 오디오 신호들

은 행렬

에서 수집되었다. 다운믹스 신호 Y는 M개의 채널들을 포함하고 복수의 오디오 신호 X는 N개의 오디오 신호들을 포함하고, 여기서 N > M > 1이다. 도 1 및 2를 참조하여 설명될 디코더 측에서, 복수의 오디오 신호 X의 파라메트릭 재구성은 다음 식에 따라 수행되고

여기서

은 행렬 드라이 업믹스 행렬 C에 의해 표현되는 드라이 업믹스 계수들이고,

는 웨트 업믹스 행렬 P에 의해 표현되는 웨트 업믹스 계수들이고,

는 역상관된 신호

의 K개의 채널들이고, 여기서 K≥1이다. 역상관된 신호 Z는 다음과 같은 식으로서 획득된 중간 신호

에 기초하여 발생되고

여기서 계수들

은 다운믹스 신호 Y의 사전-역상관 선형 맵핑을 정의하는 사전-역상관 행렬 Q에 의해 표현된다. 역상관된 신호 Z의 K개의 채널들은 중간 신호 W의 각각의 채널들의 에너지들/분산들을 보존하지만 상호 비상관된 역상관된 신호 Z의 채널들을 만드는, 즉 역상관된 신호 Z가 다음과 같이 표현될 수 있는, 역상관 연산을 통해 중간 신호 W의 각각의 K개의 채널들로부터 획득되고,

여기서

는 이 역상관 연산을 나타낸다.

식(1), 식(3) 및 식(4)에서 알 수 있는 바와 같이, 재구성될 오디오 신호들 X는 다운믹스 신호 Y 및 중간 신호 W를 통해 역상관된 신호 Z의 채널들에 기여하고, 식(2)에서 알 수 있는 바와 같이, 역상관된 신호 Z의 채널들은 웨트 업믹스 신호 DZ를 통해, 재구성된 오디오 신호

에 기여한다. 발명자들은 재구성된 오디오 신호들

의 충실도를 증가시키기 위해서, 다음의 원칙을 준수하고자 노력하는 것이 바람직할 수 있다는 것을 인식하였다:

역상관된 신호 Z의 주어진 채널이 파라메트릭 재구성에서 기여하는 오디오 신호들은 다운믹스 신호 Y를 통해, 역상관된 신호 Z의 주어진 채널이 발생되는 중간 오디오 신호 W의 동일한 채널에 기여하여야 하고, 바람직하게는 대응하는/매칭하는 양 만큼 기여하여야 한다는 것.

이 원칙을 준수하는 한가지 방식은 다음 식에 따라 사전-역상관 계수들 Q를 계산하는 것이고

여기서 abs P는 웨트 업믹스 행렬 P의 요소들의 절대값들을 취함으로써 획득된 행렬을 나타낸다. 식(3)과 식(5)는 역상관된 신호 Z로 처리될 중간 신호 W는 재구성될 오디오 신호들 X의 근사화로서 간주될 수 있는, "드라이" 업믹스 신호 CY의 선형 맵핑에 의해 획득가능하다는 것을 함축한다. 이것은 역상관된 신호 Z를 도출하기 위한 위에 설명된 원칙을 반영한다. 사전-역상관 계수들 Q를 계산하기 위한 규칙(5)는 단지 비교적 낮은 복잡성을 갖는 계산들을 포함하고 그래서 디코더 측에서 편리하게 이용될 수 있다. 드라이 업믹스 계수들 C 및 웨트 업믹스 계수들 P에 기초하여 사전-역상관 계수들 Q를 계산하기 위한 대안적 방식들이 상상된다. 예를 들어, 그것은

로서 계산될 수 있고, 여기서 행렬

는 P의 각각의 열을 정규화함으로써 획득된다. 사전-역상관 계수들 Q를 계산하기 위한 이 대안적 방식의 효과는 식(2)를 통해 제공된 파라메트릭 재구성이 웨트 업믹스 행렬 P의 크기로 선형으로 스케일한다는 것이다.

드라이 업믹스 계수들 C는 예를 들어 최소 제곱 의미로 최상의 가능한 "드라이" 업믹스 신호 CY를 계산함으로써, 즉 다음의 정규 식들을 푸는 것에 의해 결정된다.

드라이 업믹스 CY에 의해 근사화된 오디오 신호들의 공분산 행렬은 다음을 형성함으로써, 재구성될 오디오 신호들 X의 공분산 행렬

과 비교될 수 있고

여기서

는 다운믹스 신호 Y의 공분산 행렬이고

은 "웨트" 업믹스 신호 PZ에 의해 전체적으로 또는 부분적으로 제공될 수 있는 "미싱(missing)" 공분산이다. 미싱 공분산

은 고유분해를 통해, 즉 그것의 고유값들 및 관련된 고유벡터들에 기초하여 분석될 수 있다. 식(2)에 따른 파라메트릭 재구성이 불과 K개의 감상관기들을 사용하여, 즉 K개의 채널들을 갖는 역상관된 신호 Z로, 디코더 측에서 수행되면, 목표 공분산

은 가장 큰 고유값 크기들과 관련된 K개의 고유벡터들에 대응하는

의 고유분해의 그들 부분만을 유지함으로써, 즉 다른 고유벡터들에 대응하는 미싱 공분산

의 그들 부분을 제거함으로써 웨트 업믹스 신호 PZ에 대해 설정될 수 있다. 식(1)에 따라, 인코더 측에서 이용된 다운믹스 행렬 D가 비디제너레이트(non-degenerate)이면, 미싱 공분산

은 많아야 랭크 N-M을 갖고, 불과 K = N - M개의 감상관기들이 완전한 미싱 공분산

을 제공하기 위해 필요하다는 것이 보여질 수 있다. 증명을 위해, 예를 들어, 2008년 1월, IEEE Transactions on Audio, Speech, and Language Processing, Vol. 16, No.1에서, Hotho 등에 의한, 논문 "A Backward-Compatible Multichannel Audio Codec"을 참조할 수 있다. 최대 고유값들과 관련된 기여들을 유지함으로써, 더 작은 수인 K < N - M개의 감상관기들 만이 디코더 측에서 이용되더라도, 미싱 공분산

의 지각적으로 중요한/상당한 부분들이 웨트 업믹스 신호 PZ에 의해 재생될 수 있다. 특히, 단일 역상관기, 즉 K=1의 사용은 이미 디코더 측에 계산적 복잡성이 비교적 낮은 추가의 비용을 위해, 역상관 없는 파라메트릭 재구성에 비해, 재구성된 오디오 신호들의 충실도를 상당히 개선시킨다. 감상관기들의 수를 증가시킴으로써, 재구성된 오디오 신호들의 충실도는 송신될 추가의 웨트 업믹스 파라미터들 P를 댓가로 증가될 수 있다. 이용된 다운믹스 채널들의 수 M, 및 이용된 감상관기들의 수 K는 예를 들어 디코더 측에 데이터를 송신하기 위한 목표 비트레이트 및 재구성된 오디오 신호들의 요구된 충실도/품질에 기초하여 선택될 수 있다.

목표 공분산

이 K개의 고유값들과 관련된 미싱 공분산

의 부분들에 기초하여 설정된 상황에서, 목표 공분산

은 아래 식으로서 분해될 수 있고,

여기서, V는 N개의 행 및 K개의 열을 갖는 행렬이고, 웨트 업믹스 행렬 P는 다음 식의 형태로 획득될 수 있고,

여기서 S는 행렬 V의 컬럼별 리스케일링을 제공하는 양의 요소들을 갖는 대각선 행렬이다. 형태(9)를 갖는 웨트 업믹스 행렬 P 및 식(6)의 해인 드라이 업믹스 행렬 C에 대해, 재구성된 신호들

의 공분산 행렬은 다음과 같이 표현될 수 있고

,

여기서

는 행렬의 모든 오프-대각선 요소들을 제로로 설정하는 연산을 나타낸다. 그러므로, 목표 공분산

을 만족시키기 위한 웨트 업믹스 신호 PZ에 대한 조건은 아래 식으로서 표현될 수 있는데,

상기 식은 행렬 S에 의해 주어진 컬럼별 리스케일링이 다운믹스 신호 Y에의 사전-역상관 선형 맵핑의 적용으로부터 생기는 각각의 신호의 분산이 즉, 분산들로서

의 대각선 요소들을 갖는 식(3)을 통해 획득된 중간 신호 W의 채널들이 행렬 S에서 대응하는 컬럼별 리스케일링 팩터의 역제곱과 동일하다는 것을 보증하는 경우에 이행된다. 폼(5)을 갖는 사전-역상관 행렬 Q로, 행렬 S의 다수의 인스턴스들이 식(10)에서 모이게 하는 웨트 업믹스 계수들 P와 사전-역상관 계수 Q 간의 선형 스케일링 관계가 있게 되어, 다음의 충분 조건의 결과를 가져다주고

,

여기서 I는 항등 행렬이다. 그러므로, 웨트 업믹스 계수들 P는 P = VS로서 획득될 수 있고, 여기서 아래 식과 같다.

도 3은 예시적인 실시예에 따른 파라메트릭 인코딩부(300)의 일반화된 블록도이다. 파라메트릭 인코딩부(300)는 식(2)에 따라 파라메트릭 재구성을 위해 적합한 데이터로서 복수의 오디오 신호

를 인코드하도록 구성된다. 파라메트릭 인코딩부(300)는 복수의 오디오 신호 X의 시간/주파수 타일을 수신하고 식(1)에 따라 오디오 신호들 X의 선형 조합들을 형성함으로써 다운믹스 신호

를 계산하는 다운믹스부(301)를 포함하고, 여기서 다운믹스 신호 Y는 재구성될 오디오 신호들 X의 수 N보다 적은 채널들 M을 포함한다. 본 예시적인 실시예에서, 복수의 오디오 신호 X는 시변 공간적 위치들과 관련된 오디오 오브젝트 신호들을 포함하고, 다운믹스 신호 Y는 신호-적응 규칙에 따라 계산되는데, 즉 식(1)에 따라 선형 조합들을 형성할 때 이용된 다운믹스 계수들 D는 오디오 신호들 X에 의존한다. 본 예시적인 실시예에서, 다운믹스 계수들 D는 복수의 오디오 신호 X 내에 포함된 오디오 오브젝트들과 관련된 공간적 위치들에 기초하여 다운믹스부(301)에 의해 결정되어, 비교적 멀리 떨어져 위치한 오브젝트들은 다운믹스 신호 Y의 상이한 채널들로 인코드되는 반면, 비교적 서로 가깝게 위치한 오브젝트들은 다운믹스 신호 Y의 동일한 채널로 인코드될 수 있는 것을 보증한다. 이러한 신호-적응 다운믹싱 규칙의 효과는 그것이 디코더 측에서 오디오 오브젝트 신호들의 재구성을 용이하게 하고/하거나, 청취자에 의해 인지되는, 오디오 오브젝트 신호들의 보다 충실한 재구성을 가능하게 한다는 것이다.

본 예시적인 실시예에서, 제1 분석부(302)는 재구성될 오디오 신호들 X를 근사화하는 다운믹스 신호 Y의 선형 맵핑을 정의하기 위해, 드라이 업믹스 행렬 C에 의해 표현되는 드라이 업믹스 계수들을 결정한다. 다운믹스 신호 Y의 이 선형 맵핑은 식(2)에서 CY로 표시된다. 본 예시적인 실시예에서, 드라이 업믹스 계수들 C는 다운믹스 신호 Y의 선형 맵핑 CY가 재구성될 오디오 신호들 X의 최소 평균 제곱 근사화에 대응하도록 식(6)에 따라 결정된다. 제2 분석부(303)는 수신된 오디오 신호 X의 공분산 행렬 및 다운믹스 신호 Y의 선형 맵핑 CY에 의해 근사화된 오디오 신호의 공분산 행렬에 기초하여, 즉, 식(7)의 미싱 공분산

에 기초하여, 웨트 업믹스 행렬 P에 의해 표현되는 웨트 업믹스 계수들을 결정한다. 본 예시적인 실시예에서, 제1 처리부(304)는 수신된 오디오 신호 X의 공분산 행렬을 계산한다. 곱셈부(305)는 다운믹스 신호 Y와 웨트 업믹스 행렬 C를 곱함으로써 다운믹스 신호 Y의 선형 맵핑 CY를 계산하고, 이것을 다운믹스 신호 Y의 선형 맵핑 CY에 의해 근사화된 오디오 신호의 공분산 행렬을 계산하는 제2 처리부(306)에 제공한다.

본 예시적인 실시예에서, 결정된 웨트 업믹스 계수들 P는 K개의 채널들을 갖는 역상관된 신호 Z로, 식(2)에 따른 파라메트릭 재구성의 대상이 된다. 그러므로, 제2 분석부(303)는 식(7)에서 미싱 공분산

의 최대 고유값들(크기들)과 관련된 K개의 고유벡터들에 기초하여 목표 공분산

을 설정하고, 식(8)에 따라 목표 공분산

을 분해한다. 웨트 업믹스 계수들 P는 다음에 목표 공분산

이 식(9) 및 식(11)에 따라, 행렬 S에 의한 컬럼별 리스케일링 이후에, 분해된 행렬 V로부터 획득된다. 본 예시적인 실시예에서, 사전-역상관 계수들이라고 하는, 계수들 Q의 추가 세트는 식(5)에 따라 드라이 업믹스 계수들 C 및 웨트 업믹스 계수들 P로부터 도출가능하고, 식(3)에 의해 주어진 다운믹스 신호 Y의 사전-역상관 선형 맵핑을 정의한다.

본 예시적인 실시예에서, K < N - M이라서, 웨트 업믹스 신호 PZ는 식(7)에서 완전한 미싱 공분산

을 제공하지 않는다. 그러므로, 재구성된 오디오 신호들

는 전형적으로 재구성될 오디오 신호들 X보다 낮은 에너지를 갖고, 제1 분석부(302)는 웨트 업믹스 계수들이 제2 분석부(303)에 의해 결정된 후에 드라이 업믹스 계수들 CY를 리스케일함으로써 에너지 보상을 선택적으로 수행할 수 있다. 대신 K = N - M인 예시적인 실시예들에서, 웨트 업믹스 신호 PZ는 식(7)에서 완전한 미싱 공분산

을 제공할 수 있고 에너지 보상을 위해 사용하지 않을 수 있다.

에너지 보상이 수행되면, 제1 분석부(302)는 수신된 오디오 신호들 X의 추정된 총 에너지와 식(2)에 따라, 즉 다운믹스 신호 Y, 웨트 업믹스 계수들 P 및 드라이 업믹스 계수들 C에 기초하여 재구성된 오디오 신호들

의 추정된 총 에너지의 비율을 결정한다. 제1 분석부(302)는 다음에 결정된 비율의 역제곱근에 의해 이전에 결정된 드라이 업믹스 계수들 C를 리스케일한다. 파라메트릭 인코딩부(300)는 다음에 웨트 업믹스 계수들 P 및 리스케일된 드라이 업믹스 계수들 C와 함께 다운믹스 신호 Y를 출력한다. 사전-역상관 계수들 Q가 식(5)에 의해 주어진 미리 정해진 규칙에 따라 결정되기 때문에, 드라이 업믹스 계수들 C와 사전-역상관 계수들 Q 간의 선형 스케일링 관계가 있다. 그러므로, 드라이 업믹스 계수들 C의 리스케일링은 식(2)에 따라 디코더 측에서의 파라메트릭 재구성 중에 드라이 업믹스 신호 CY와 웨트 업믹스 신호들 PZ 둘 다의 리스케일링을 야기한다.

도 4는 도 3을 참조하여 설명된 파라메트릭 인코딩부(300)를 포함하는, 예시적인 실시예에 따른 오디오 인코딩 시스템(400)의 일반화된 블록도이다. 본 예시적인 실시예에서, 예를 들어, 하나 이상의 음향 트랜스듀서(401)에 의해 기록되거나 오디오 오더링 장비(401)에 의해 발생된 오디오 콘텐츠는 복수의 오디오 신호 X의 형태로 제공된다. 쿼드러처 미러 필터(QMF) 분석부(402)는 오디오 신호 X를 시간 세그먼트마다, 시간/주파수 타일들의 형태로 오디오 신호 X의 파라메트릭 인코딩부(300)에 의해 처리하기 위해 QMF 도메인으로 변환한다. QMF 도메인의 사용은 오디오 신호들의 처리를 위해, 예를 들어, 업/다운-믹싱 및 파라메트릭 재구성을 수행하기 위해 적합하고, 디코더 측에서의 오디오 신호들의 거의 손실없는 재구성을 가능하게 한다.

파라메트릭 인코딩부(300)에 의해 출력된 다운믹스 신호 Y는 QMF 합성부(403)에 의해 QMF 도메인으로부터 다시 변환되고 변환부(404)에 의해 수정된 이산 코사인 변환(MDCT) 도메인으로 변환된다. 양자화부들(405 및 406)은 각각 드라이 업믹스 계수들 C 및 웨트 업믹스 계수들 C를 양자화한다. 예를 들어, 0.1 또는 0.2(무차원)의 단계 크기를 갖는 균일한 양자화가 이용될 수 있고, 그 후 허프만 코딩(Huffman coding)의 형태로 엔트로피 코딩이 이어진다. 단계 크기 0.2를 갖는 보다 거친 양자화가 예를 들어 송신 대역폭을 절약하기 위해 이용될 수 있고, 단계 크기 0.1을 갖는 보다 미세한 양자화가 예를 들어 디코더 측에서 재구성의 충실도를 향상시키기 위해 이용될 수 있다. MDCT-변환된 다운믹스 신호 Y 및 양자화된 드라이 업믹스 계수들 C 및 웨트 업믹스 계수들 P는 다음에 디코더 측으로 송신하기 위해, 멀티플렉서(407)에 의해 비트스트림 B로 조합된다. 오디오 인코딩 시스템(400)은 또한 다운믹스 신호 Y가 멀티플렉서(407)에 제공되기 전에, 돌비 디지털(Dolby Digital) 또는 MPEG AAC와 같은 지각적 오디오 코덱을 사용하여 다운믹스 신호 Y를 인코드하도록 구성된 코어 인코더(도 4에 도시 안됨)를 포함할 수 있다.

복수의 오디오 신호 X는 시변 공간적 위치들 또는 공간적 로케이터들과 관련된 오디오 오브젝트 신호들을 포함하기 때문에, 이러한 공간적 로케이터들을 포함하는 렌더링 메타데이터 R은 예를 들어 디코더 측에서의 오디오 오브젝트 신호들의 렌더링을 위해, 오디오 인코딩 시스템(400)에 의해 비트스트림 B에서 인코드될 수 있다. 렌더링 메타데이터 R은 예를 들어 복수의 오디오 신호 X를 발생하기 위해 이용된 오디오 오더링 장비(401)에 의해 멀티플렉서(407)에 제공될 수 있다.

도 1은 다운믹스 신호 Y 및 관련된 웨트 업믹스 계수들 P 및 드라이 업믹스 계수들 C에 기초하여 복수의 오디오 신호 X를 재구성하도록 적응된, 예시적인 실시예에 따른, 파라메트릭 재구성부(100)의 일반화된 블록도이다. 사전-곱셈기(101)는 다운믹스 신호 Y의 시간/주파수 타일을 수신하고 계수들의 제1 세트에 따라, 즉 식(3)에 따라 다운믹스 신호를 선형으로 맵핑함으로써 계산된 중간 신호 W를 출력하고, 여기서 계수들의 제1 세트는 사전-역상관 행렬 Q에 의해 표현되는 사전-역상관 계수들의 세트이다. 역상관부(102)는 중간 신호 W를 수신하고, 그에 기초하여, 역상관된 신호

를 출력한다. 본 예시적인 실시예에서, 역상관된 신호 Z의 K개의 채널들은 상호 비상관되고, 중간 오디오 신호 W와 스펙트럼적으로 유사하고 또한 청취자에 의해 중간 오디오 신호 W의 것과 또한 유사하게 인지되는 오디오 콘텐츠를 갖는 채널들을 제공하도록, 각각의 전역 통과 필터들을 중간 신호 W의 채널들에 적용하는 것을 포함하는, 중간 신호 W의 K개의 채널들의 처리에 의해 도출된다. 역상관된 신호 Z는 청취자에 의해 인지되는, 복수의 오디오 신호 X의 재구성된 버전

의 차원수를 증가시키는 역할을 한다. 본 예시적인 실시예에서, 역상관된 신호 Z의 채널들은 중간 오디오 신호 W의 각각의 채널들의 것과 적어도 거의 동일한 에너지들 및 분산들을 갖는다. 웨트 업믹스부(103)는 역상관된 신호 Z뿐만 아니라 웨트 업믹스 계수들 P를 수신하고 웨트 업믹스 계수들 P에 따라, 즉 웨트 업믹스 신호가 PZ로 표시되는 식(2)에 따라 역상관된 신호 Z를 선형으로 맵핑함으로써 웨트 업믹스 신호를 계산한다. 드라이 업믹스부(104)는 드라이 업믹스 계수들 C를 수신하고, 사전-곱셈기(101)과 동시에, 또한 다운믹스 신호 Y의 시간/주파수 타일을 수신한다. 드라이 업믹스부(103)는 식(2)에서 CY로 표시되고, 드라이 업믹스 계수들 C의 세트에 따라 다운믹스 신호 Y를 선형으로 맵핑함으로써 계산된 드라이 업믹스 신호를 출력한다. 조합부(105)는 드라이 업믹스 신호 CY 및 웨트 업믹스 신호 PZ를 수신하고 이들 신호를 조합하여 재구성될 복수의 오디오 신호들 X의 시간/주파수 타일에 대응하는 다차원 재구성된 신호

를 획득한다. 본 예시적인 실시예에서, 조합부(105)는 식(2)에 따라, 드라이 업믹스 신호 CY의 각각의 채널들의 오디오 콘텐츠를 웨트 업믹스 신호 PZ의 각각의 채널들과 조합함으로써 다차원 재구성된 신호

를 획득한다. 파라메트릭 재구성부(100)는 웨트 업믹스 계수들 P 및 드라이 업믹스 계수들 C를 수신하고, 식(5)에 의해 주어진 미리 정해진 규칙에 따라, 계수들의 제1 세트, 즉, 사전-역상관 계수들 Q를 계산하고, 계수들 Q의 제1 세트를 사전-곱셈기(101)에 공급하는 컨버터(106)를 더 포함한다.

본 예시적인 실시예에서, 파라메트릭 재구성부(100)는 선택적으로 보간을 이용할 수 있다. 예를 들어, 파라메트릭 재구성부(100)는 각각의 값이 특정한 앵커 점과 관련된 웨트 및 드라이 업믹스 계수들 P, C의 복수의 값을 수신할 수 있다. 컨버터(106)는 2개의 연속하는 앵커 점들과 관련된, 웨트 및 드라이 업믹스 계수들 P, C의 값들에 기초하여, 계수들 Q의 제1 세트의 대응하는 값들을 계산한다. 계산된 값들은 예를 들어, 이미 계산된 계수들 Q의 제1 세트의 값들에 기초하여 연속하는 앵커 점들 사이에 포함되는 적어도 하나의 시점에 대한 계수들 Q의 제1 세트의 값을 보간함으로써, 2개의 연속하는 앵커 점들 간에 계수들 Q의 제1 세트의 보간을 수행하는 제1 보간기(107)에 공급된다. 이용되는 보간 방식은 예를 들어 선형 보간일 수 있다. 대안적으로, 스팁(steep) 보간이 이용될 수 있는데, 여기서 계수들 Q의 제1 세트에 대한 이전의 값들이 예를 들어, 비트스트림 B에서 인코드된 메타데이터에서 표시된 소정의 시점까지 계속 사용되다가, 계수들 Q의 제1 세트에 대한 새로운 값들이 이전의 값들을 대체한다. 보간은 또한 웨트 및 드라이 업믹스 계수들 P, C 자체들에 대해 사용될 수 있다. 제2 보간기(108)는 웨트 업믹스 계수들의 다중 값들을 수신할 수 있고 웨트 업믹스 계수들 P를 웨트 업믹스부(103)에 공급하기 전에 시간 보간을 수행할 수 있다. 유사하게 제3 보간기(109)는 드라이 업믹스 계수들 C의 다중 값들을 수신할 수 있고 드라이 업믹스 계수들 C를 드라이 업믹스부(104)에 공급하기 전에 시간 보간을 수행할 수 있다. 웨트 및 드라이 업믹스 계수들 P, C에 대해 이용된 보간 방식은 계수들 Q의 제1 세트에 대해 이용된 것과 동일한 보간 방식일 수 있거나, 상이한 보간 방식일 수 있다.

도 2는 예시적인 실시예에 따른 오디오 디코딩 시스템(200)의 일반화된 블록도이다. 오디오 디코딩 시스템(200)은 도 1을 참조하여 설명된 파라메트릭 재구성부(100)를 포함한다. 예를 들어, 디멀티플렉서를 포함하는 수신부(201)는 도 4를 참조하여 설명된 오디오 인코딩 시스템(400)으로부터 송신된 비트스트림 B를 수신하고, 비트스트림 B로부터 다운믹스 신호 Y 및 관련된 드라이 업믹스 계수들 C 및 웨트 업믹스 계수들 P를 추출한다. 다운믹스 신호 Y가 돌비 디지털 또는 MPEG AAC와 같은 지각적 오디오 코덱을 사용하여 비트스트림 B에서 인코드되는 경우에, 오디오 디코딩 시스템(200)은 비트스트림 B로부터 추출될 때 다운믹스 신호 Y를 디코드하도록 구성된 코어 디코더(도 2에 도시 안됨)를 포함할 수 있다. 변환부(202)는 역 MDCT를 수행함으로써 다운믹스 신호 Y를 변환하고 QMF 분석부(203)는 다운믹스 신호 Y를 시간/주파수 타일들의 형태로 다운믹스 신호 Y의 파라메트릭 재구성부(100)에 의한 처리를 위해 QMF 도메인으로 변환한다. 역양자화부들(204 및 205)은 그들을 파라메트릭 재구성부(100)에 공급하기 전에, 예를 들어, 엔트로피 코딩된 포맷으로부터, 드라이 업믹스 계수들 C 및 웨트 업믹스 계수들 P를 역양자화한다. 도 4를 참조하여 설명된 바와 같이, 양자화는 2개의 상이한 단계 크기들 중 하나, 예를 들어, 0.1 또는 0.2로 수행될 수 있을 것이다. 이용된 실제 단계 크기는 미리 정해질 수 있거나, 예를 들어, 비트스트림 B를 통해, 인코더 측으로부터 오디오 디코딩 시스템(200)에 시그널될 수 있다.

본 예시적인 실시예에서, 파라메트릭 재구성부(100)에 의해 출력된 다차원 재구성된 오디오 신호

는 QMF 합성부(206)에 의해 QMF 도메인으로부터 다시 변환되고 다음에 렌더러(renderer)(207)에 제공된다. 본 예시적인 실시예에서, 재구성될 오디오 신호들 X는 시변 공간적 위치들과 관련된 오디오 오브젝트 신호들을 포함한다. 오디오 오브젝트들을 위한 공간적 로케이터들을 포함하는 렌더링 메타데이터 R은 인코더 측 상에서 비트스트림 B에서 인코드될 수 있을 것이고, 수신부(201)는 렌더링 메타데이터 R을 추출하여 그것을 렌더더(207)에 제공할 수 있다. 재구성된 오디오 신호

및 렌더링 메타데이터 R에 기초하여, 렌더러(207)는 멀티 스피커 시스템(208) 상에서 재생하기 위해 적합한 포맷으로 렌더러(207)의 채널들을 출력하기 위해 재구성된 오디오 신호들

를 렌더한다. 렌더러(207)는 예를 들어 오디오 디코딩 시스템(200) 내에 포함될 수 있거나, 오디오 디코딩 시스템(200)으로부터의 입력 데이터를 수신하는 별도의 디바이스일 수 있다.

Ⅲ. 등가물들, 확장들, 대안들 및 여러 종류

본 개시의 다른 실시예들은 본 기술 분야의 통상의 기술자가 상기 설명을 연구한 후에 분명해질 것이다. 본 설명 및 도면이 실시예들 및 예들을 개시하지만, 이 개시는 이들 특정한 예에 한정되지 않는다. 다양한 수정들 및 변형들이 첨부된 청구 범위에 의해 정의되는, 본 개시의 범위에서 벗어나지 않고서 이루어질 수 있다. 청구 범위에 나오는 어떤 참조 부호들은 그들의 범위를 제한하는 것으로 이해되어서는 안된다.

추가적으로, 개시된 실시예들에 대한 변형들은 도면, 개시 및 첨부된 청구 범위의 연구로부터, 본 개시를 실시하는 데 있어서 통상의 기술자에 의해 이해되고 수행될 수 있다. 단어 "포함하는"은 다른 요소들 또는 단계들을 배제하지 않고, 단수 표현은 복수를 배제하지 않는다. 소정의 수단들이 서로 상이한 종속 청구항들에서 열거된다는 단순한 사실은 이들 수단의 조합이 유리하게 이용될 수 없다는 것을 의미하지 않는다.

위에 개시된 디바이스들 및 방법들은 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합으로서 구현될 수 있다. 하드웨어 구현에서, 상기 설명에서 참조된 기능적 유닛들 간의 작업들의 분할은 반드시 물리적 유닛들로의 분할에 대응하지 않고; 반대로, 하나의 물리적 소자는 다중 기능들을 가질 수 있고, 하나의 작업은 여러 물리적 소자들에 의해 협력하여 수행될 수 있다. 소정의 소자들 또는 모든 소자들은 디지털 신호 프로세서 또는 마이크로프로세서에 의해 실행되는 소프트웨어로서 구현될 수 있거나, 하드웨어로서 또는 주문형 집적 회로로서 구현될 수 있다. 이러한 소프트웨어는 컴퓨터 저장 매체(또는 비일시적인 매체) 및 통신 매체(또는 일시적인 매체)를 포함할 수 있는, 컴퓨터 판독가능 매체 상에 분배될 수 있다. 본 기술 분야의 통상의 기술자에게 널리 공지된 바와 같이, 컴퓨터 저장 매체라는 용어는 컴퓨터 판독가능 명령어들, 데이터 구조들, 프로그램 모듈들 또는 다른 데이터와 같은 정보의 저장을 위한 어떤 방법 또는 기술에서 구현되는 휘발성 및 비휘발성, 착탈식 및 비착탈식 매체 모두를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 다른 메모리 기술, CD-ROM, 디지털 다기능 디스크들(DVD) 또는 다른 광학 디스크 스토리지, 자기 카세트들, 자기 테이프, 자기 디스크 스토리지 또는 다른 자기 저장 디바이스들, 또는 원하는 정보를 저장하는 데 사용될 수 있고 컴퓨터에 의해 액세스될 수 있는 기타 매체를 포함하지만, 이들로 제한되지 않는다. 또한, 통신 매체는 전형적으로 컴퓨터 판독가능 명령어들, 데이터 구조들, 프로그램 모듈들 또는 다른 데이터를 반송파 또는 다른 이송 메커니즘과 같은 변조된 데이터 신호로 실시하고 어떤 정보 전달 매체를 포함한다는 것은 통상의 기술자에게 널리 공지되어 있다.

Claims

복수의 오디오 신호(X)를 재구성하는 방법으로서,
웨트 및 드라이 업믹스 계수들(wet and dry upmix coefficients)과 함께 다운믹스 신호(Y)의 시간/주파수 타일(time/frequency tile)을 수신하는 단계 - 상기 웨트 업믹스 계수들은 상기 다운믹스 신호의 역상관된 버전으로부터 도출되고 상기 드라이 업믹스 계수들은 상기 다운믹스 신호로부터 도출되며, 상기 다운믹스 신호는 재구성될 오디오 신호들의 수보다 적은 채널들을 포함함 -;
상기 다운믹스 신호의 선형 맵핑으로서, 중간 신호(W)를 계산하는 단계 - 계수들의 제1 세트(Q)가 상기 다운믹스 신호의 채널들에 적용됨 -;
상기 중간 신호의 하나 이상의 채널을 처리함으로써 역상관된 신호(decorrelated signal)(Z)를 발생하는 단계;
상기 역상관된 신호의 선형 맵핑으로서 웨트 업믹스 신호를 계산하는 단계 - 계수들의 제2 세트(P)가 상기 역상관된 중간 신호의 하나 이상의 채널에 적용됨 -;
상기 다운믹스 신호의 선형 맵핑으로서 드라이 업믹스 신호를 계산하는 단계 - 계수들의 제3 세트(C)가 상기 다운믹스 신호의 채널들에 적용됨 -; 및
상기 웨트 업믹스 신호와 상기 드라이 업믹스 신호를 조합하여, 재구성될 상기 복수의 오디오 신호의 시간/주파수 타일에 대응하는 다차원 재구성된 신호(
)를 획득하는 단계
를 포함하고,
상기 계수들의 제2 및 제3 세트들(P, C)은 각각 상기 수신된 웨트 및 드라이 업믹스 계수들과 일치하거나 그로부터 도출되고;
상기 방법은, 상기 역상관된 신호로 처리될 상기 중간 신호가 상기 드라이 업믹스 신호의 선형 맵핑에 의해 획득되도록 상기 수신된 웨트 및 드라이 업믹스 계수들에 기초하여 상기 계수들의 제1 세트(Q)를 계산하는 단계를 포함하는 방법.
제1항에 있어서, 상기 중간 신호는 상기 웨트 업믹스 계수들의 절대값들인 계수들의 세트를 적용함으로써 상기 드라이 업믹스 신호를 맵핑함으로써 획득가능한 방법.
제1항 또는 제2항에 있어서, 상기 계수들의 제1 세트는 미리 정해진 규칙에 따라 상기 웨트 업믹스 계수들을 처리하고, 상기 처리된 웨트 업믹스 계수들과 상기 드라이 업믹스 계수들을 곱함으로써 계산되는 방법.
제3항에 있어서, 상기 웨트 업믹스 계수들을 처리하기 위한 상기 미리 정해진 규칙은 요소별 절대값 연산(element-wise absolute value operation)을 포함하는 방법.
제4항에 있어서, 상기 웨트 및 드라이 업믹스 계수들은 각각의 행렬들로서 배열되고, 상기 웨트 업믹스 계수들을 처리하기 위한 상기 미리 정해진 규칙은 모든 요소들의 요소별 절대값들을 계산하고 상기 요소들을 재배열하여 드라이 업믹스 계수들의 행렬과의 직접 행렬 곱셈을 가능하게 하는 것을 포함하는 방법.
제1항 또는 제2항에 있어서, 계산 및 조합하는 상기 단계들은 상기 신호들의 쿼드러처 미러 필터(quadrature mirror filter), QMF, 도메인 표현에 대해 수행되는 방법.
제1항 또는 제2항에 있어서, 상기 웨트 및 드라이 업믹스 계수들의 복수의 값이 수신되고, 각각의 값은 앵커 점(anchor point)과 관련되고, 상기 방법은
2개의 연속하는 앵커 점들과 관련된 웨트 및 드라이 업믹스 계수들의 값들에 기초하여, 상기 계수들의 제1 세트의 대응하는 값들을 계산하는 단계,
그 다음에, 이미 계산된 상기 계수들의 제1 세트의 값들에 기초하여 상기 연속하는 앵커 점들 사이에 포함된 적어도 하나의 시점에 대한 상기 계수들의 제1 세트의 값을 보간하는 단계를 더 포함하는 방법.
다운믹스 신호(Y)의 시간/주파수 타일과, 웨트 및 드라이 업믹스 계수들(P, C)을 수신하고, 복수의 오디오 신호(X)를 재구성하도록 적응된 파라메트릭 재구성부(100)를 갖는 오디오 디코딩 시스템(200)으로서, 상기 웨트 업믹스 계수들은 상기 다운믹스 신호의 역상관된 버전으로부터 도출되고 상기 드라이 업믹스 계수들은 상기 다운믹스 신호로부터 도출되며, 상기 다운믹스 신호는 재구성될 오디오 신호들의 수보다 적은 채널들을 갖고, 상기 파라메트릭 재구성부는
상기 다운믹스 신호의 상기 시간/주파수 타일을 수신하고 계수들의 제1 세트(Q)에 따라 상기 다운믹스 신호를 선형으로 맵핑함으로써 계산된 중간 신호(W)를 출력하도록 구성된 사전-곱셈기(pre-multiplier)(101);
상기 중간 신호를 수신하고, 그에 기초하여, 역상관된 신호(Z)를 출력하도록 구성된 역상관부(decorrelating section)(102);
상기 역상관된 신호뿐만 아니라 상기 웨트 업믹스 계수들(P)을 수신하고, 상기 웨트 업믹스 계수들에 따라 상기 역상관된 신호를 선형으로 맵핑함으로써 웨트 업믹스 신호를 계산하도록 구성된 웨트 업믹스부(wet upmix section)(103);
상기 드라이 업믹스 계수들(C)을, 그리고 상기 사전-곱셈기와 동시에 상기 다운믹스 신호의 상기 시간/주파수 타일을 수신하고, 상기 드라이 업믹스 계수들에 따라 상기 다운믹스 신호를 선형으로 맵핑함으로써 계산된 드라이 업믹스 신호를 출력하도록 구성된 드라이 업믹스부(dry upmix section)(104); 및
상기 웨트 업믹스 신호 및 상기 드라이 업믹스 신호를 수신하고 이들 신호를 조합하여, 재구성될 상기 복수의 오디오 신호의 시간/주파수 타일에 대응하는 다차원 재구성된 신호(
)를 획득하도록 구성된 조합부(105)
를 포함하고,
상기 파라메트릭 재구성부는 상기 웨트 및 드라이 업믹스 계수들을 수신하고, 미리 정해진 규칙에 따라, 상기 계수들의 제1 세트(Q)를 계산하고 이것을 상기 사전-곱셈기에 공급하도록 구성된 컨버터(106)를 더 포함하고,
상기 사전-곱셈기는 상기 드라이 업믹스 신호의 선형 맵핑에 의해 상기 중간 신호를 획득하도록 추가로 구성되는 오디오 디코딩 시스템(200).
파라메트릭 재구성을 위해 사용될 데이터로서 복수의 오디오 신호(X)를 인코딩하는 방법으로서,
상기 복수의 오디오 신호의 시간/주파수 타일을 수신하는 단계;
다운믹싱 규칙에 따라 상기 오디오 신호들의 선형 조합들을 형성함으로써 다운믹스 신호(Y)를 계산하는 단계 - 상기 다운믹스 신호는 재구성될 오디오 신호들의 수보다 적은 채널들을 포함함 -;
상기 시간/주파수 타일에서 인코드될 상기 오디오 신호들을 근사화하는 상기 다운믹스 신호의 선형 맵핑을 정의하기 위해 드라이 업믹스 계수들(C)을 결정하는 단계;
수신된 상기 오디오 신호들의 공분산 및 상기 다운믹스 신호의 상기 선형 맵핑에 의해 근사화된 상기 오디오 신호들의 공분산에 기초하여 웨트 업믹스 계수들(P)을 결정하는 단계; 및
그들 자신의 계수들이 상기 오디오 신호들의 파라메트릭 재구성의 부분으로서 사전-역상관 선형 맵핑(pre-decorrelation linear mapping)을 정의하는 계수들(Q)의 추가 세트의 미리 정해진 규칙에 따라 디코더측 계산을 가능하게 하는, 상기 웨트 및 드라이 업믹스 계수들과 함께 상기 다운믹스 신호를 출력하는 단계
를 포함하고,
상기 웨트 업믹스 계수들은,
상기 다운믹스 신호의 상기 선형 맵핑에 의해 근사화된 상기 오디오 신호들의 공분산과 수신된 상기 오디오 신호들의 공분산 간의 차이에 기초하여 목표 공분산(target covariance)을 설정하고;
행렬과 그 자신의 전치(transpose)의 곱으로서 상기 목표 공분산을 분해(decomposing)함으로써 결정되고, 상기 행렬의 요소들은 컬럼별 리스케일링(column-wise rescaling) 후에, 상기 웨트 업믹스 계수들에 대응하는 방법.
제9항에 있어서, 상기 오디오 신호들의 복수의 시간/주파수 타일이 수신되고, 상기 다운믹스 신호는 미리 정해진 다운믹싱 규칙에 따라 균일하게 계산되는 방법.
제9항에 있어서, 상기 오디오 신호들의 복수의 시간/주파수 타일들이 수신되고, 상기 다운믹스 신호는 신호-적응 다운믹싱 규칙(signal-adaptive downmixing rule)에 따라 계산되는 방법.
제9항 내지 제11항 중 어느 한 항에 있어서, 상기 목표 공분산이 분해되는 상기 행렬의 컬럼별 리스케일링을 더 포함하고, 상기 컬럼별 리스케일링은 상기 다운믹스 신호에의 상기 사전-역상관 선형 맵핑의 적용으로부터 생기는 각각의 신호의 분산이 상기 사전-역상관 선형 맵핑을 정의하는 계수들이 미리 정해진 규칙에 따라 계산되는 경우에 상기 컬럼별 리스케일링에서 이용된 대응하는 리스케일링 팩터의 역제곱과 동일한 것을 보증하는 방법.
제12항에 있어서, 상기 미리 정해진 규칙은 상기 계수들의 추가 세트와 상기 웨트 업믹스 계수들 간의 선형 스케일링 관계를 함축하고, 상기 컬럼별 리스케일링은 -1/4로 멱승된 행렬 곱

의 대각선 부분에 의한 곱셈에 해당하고, 여기서 abs V는 상기 목표 공분산이 분해되는 상기 행렬의 요소별 절대값을 나타내고,
는 상기 다운믹스 신호의 상기 선형 맵핑에 의해 근사화된 상기 오디오 신호들의 상기 공분산에 대응하는 행렬인 방법.
제9항 내지 제11항 중 어느 한 항에 있어서, 상기 목표 공분산은 상기 목표 공분산과 상기 다운믹스 신호의 상기 선형 맵핑에 의해 근사화된 상기 오디오 신호들의 공분산의 합이 수신된 상기 오디오 신호들의 공분산에 근사하도록 선택되는 방법.
제9항 내지 제11항 중 어느 한 항에 있어서,
수신된 상기 오디오 신호들의 추정된 총 에너지와 상기 다운믹스 신호, 상기 웨트 업믹스 계수들 및 상기 드라이 업믹스 계수들에 기초하여 파라메트릭하게 재구성된(parametrically reconstructed) 오디오 신호들의 추정된 총 에너지의 비율을 결정하고;
상기 비율의 역제곱근으로 상기 드라이 업믹스 계수들을 리스케일링함으로써
에너지 보상을 수행하는 단계를 더 포함하고,
상기 리스케일된 드라이 업믹스 계수들은 상기 다운믹스 신호 및 상기 웨트 업믹스 계수들과 함께 출력되는 방법.
파라메트릭 재구성을 위해 사용될 데이터로서 복수의 오디오 신호(X)를 인코드하도록 적응된 파라메트릭 인코딩부(300)를 포함하는 오디오 인코딩 시스템(400)으로서, 상기 파라메트릭 인코딩부는
상기 복수의 오디오 신호의 시간/주파수 타일을 수신하고 다운믹싱 규칙에 따라 상기 오디오 신호들의 선형 조합들을 형성함으로써 다운믹스 신호(Y)를 계산하도록 구성된 다운믹스부(301) - 상기 다운믹스 신호는 재구성될 오디오 신호들의 수보다 적은 채널을 포함함 -;
상기 시간/주파수 타일에서 인코드될 상기 오디오 신호들을 근사화하는 상기 다운믹스 신호의 선형 맵핑을 정의하기 위해 드라이 업믹스 계수들(C)을 결정하도록 구성된 제1 분석부(302); 및
수신된 상기 오디오 신호들의 공분산 및 상기 다운믹스 신호의 상기 선형 맵핑에 의해 근사화된 상기 오디오 신호들의 공분산에 기초하여 웨트 업믹스 계수들(P)을 결정하도록 구성된 제2 분석부(303)
를 포함하고,
상기 파라메트릭 인코딩부는 그들 자신의 계수들이 상기 오디오 신호들의 파라메트릭 재구성의 부분으로서 사전-역상관 선형 맵핑을 정의하는 계수들(Q)의 추가 세트의 미리 정해진 규칙에 따라 디코더측 계산을 가능하게 하는, 상기 웨트 및 드라이 업믹스 계수들과 함께 상기 다운믹스 신호를 출력하도록 구성되고,
상기 제2 분석부(303)는
상기 다운믹스 신호의 상기 선형 맵핑에 의해 근사화된 상기 오디오 신호들의 공분산과 수신된 상기 오디오 신호들의 공분산 간의 차이에 기초하여 목표 공분산을 설정하고;
행렬과 그 자신의 전치(transpose)의 곱으로서 상기 목표 공분산을 분해함으로써 상기 웨트 업믹스 계수들을 결정하도록 추가로 구성되고, 상기 행렬의 요소들은 컬럼별 리스케일링 후에, 상기 웨트 업믹스 계수들에 대응하는 오디오 인코딩 시스템(400).
제1항, 제2항 및 제9항 내지 제11항 중 어느 한 항의 방법을 수행하기 위한 명령어들을 갖는 컴퓨터 판독가능한 기록매체.
제1항, 제2항 및 제9항 내지 제11항 중 어느 한 항에 있어서,
상기 복수의 오디오 신호 중 적어도 하나는 공간적 로케이터(spatial locator)와 관련된 오디오 오브젝트 신호에 관련하는 방법.
제8항 또는 제16항에 있어서,
상기 복수의 오디오 신호 중 적어도 하나는 공간적 로케이터와 관련된 오디오 오브젝트 신호에 관련하는 시스템.
제17항에 있어서,
상기 복수의 오디오 신호 중 적어도 하나는 공간적 로케이터와 관련된 오디오 오브젝트 신호에 관련하는 컴퓨터 판독가능한 기록매체.