[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR101805327B1 - 오디오 신호들의 파라메트릭 재구성을 위한 역상관기 구조 - Google Patents

오디오 신호들의 파라메트릭 재구성을 위한 역상관기 구조 Download PDF

Info

Publication number
KR101805327B1
KR101805327B1 KR1020167010187A KR20167010187A KR101805327B1 KR 101805327 B1 KR101805327 B1 KR 101805327B1 KR 1020167010187 A KR1020167010187 A KR 1020167010187A KR 20167010187 A KR20167010187 A KR 20167010187A KR 101805327 B1 KR101805327 B1 KR 101805327B1
Authority
KR
South Korea
Prior art keywords
signal
coefficients
mix
wet
audio signals
Prior art date
Application number
KR1020167010187A
Other languages
English (en)
Other versions
KR20160056324A (ko
Inventor
라르스 빌레모에스
토니 히르보넨
하이코 푸른하겐
Original Assignee
돌비 인터네셔널 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 인터네셔널 에이비 filed Critical 돌비 인터네셔널 에이비
Publication of KR20160056324A publication Critical patent/KR20160056324A/ko
Application granted granted Critical
Publication of KR101805327B1 publication Critical patent/KR101805327B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

인코딩 시스템은 웨트 및 드라이 업믹스 계수들(P, C)과 함께 다운믹스 신호(Y)로서 다중 오디오 신호들(X)을 인코드한다. 디코딩 시스템에서, 사전-곱셈기(101)는 계수들(Q)의 제1 세트에 따라 다운믹스 신호를 선형으로 맵핑함으로써 중간 신호(W)를 계산하고; 역상관부(102)는 중간 신호에 기초하여 역상관된 신호(Z)를 출력하고; 웨트 업믹스부(103)는 웨트 업믹스 계수들에 따라 역상관된 신호를 선형으로 맵핑함으로써 웨트 업믹스 신호를 계산하고; 드라이 업믹스부(104)는 드라이 업믹스 계수들에 따라 다운믹스 신호를 선형으로 맵핑함으로써 드라이 업믹스 신호를 계산하고; 조합부(105)는 웨트 업믹스 신호와 드라이 업믹스 신호를 조합함으로써 다차원 재구성된 신호(X)를 제공하고; 컨버터(106)는 웨트 및 드라이 업믹스 계수들에 기초하여 계수들의 제1 세트를 계산하고 이것을 사전-곱셈기에 공급한다.

Description

오디오 신호들의 파라메트릭 재구성을 위한 역상관기 구조{DECORRELATOR STRUCTURE FOR PARAMETRIC RECONSTRUCTION OF AUDIO SIGNALS}
관련 출원들의 상호 참조
본원은 각각이 본원에 전체적으로 참조로 포함된, 2014년 4월 1일자 및 2013년 10월 21일자 출원된 미국 가 출원 번호 61/973,646 및 미국 가 출원 번호 61/893,770을 우선권 주장한다.
기술분야
여기에 개시된 발명은 일반적으로 오디오 신호들의 인코딩 및 디코딩, 및 특히 다운믹스 신호 및 관련된 메타데이터로부터의 복수의 오디오 신호의 파라메트릭 재구성에 관한 것이다.
다수의 확성 스피커를 포함하는 오디오 재생 시스템들은 복수의 오디오 신호에 의해 나타나는 오디오 장면을 재생하는 데 자주 사용되고, 여기서 각각의 오디오 신호들은 각각의 확성 스피커들 상에서 재생된다. 오디오 신호들은 예를 들어 복수의 음향 트랜스듀서를 통해 기록되거나 오디오 오더링(authoring) 장비에 의해 발생될 수 있을 것이다. 많은 상황들에서, 오디오 신호들을 재생 장비에 송신하기 위한 대역폭 제한들 및/또는 오디오 신호들을 컴퓨터 메모리 내에 또는 휴대용 저장 디바이스 상에 저장하기 위한 제한된 공간이 있다. 오디오 신호들의 파라메트릭(parametric) 코딩을 위한 오디오 코딩 시스템들이 존재하여, 필요한 대역폭 또는 저장 크기를 감소시킨다. 인코더 측 상에서, 이들 시스템은 전형적으로 오디오 신호들을, 전형적으로 모노(1 채널) 또는 스테레오(2 채널) 다운믹스인, 다운믹스 신호로 다운믹스하고, 레벨 차이들 및 교차 상관(cross-correlation)과 같은 파라미터들에 의해 오디오 신호들의 특성들을 묘사하는 부가 정보를 추출한다. 다운믹스 및 부가 정보는 다음에 인코드되어 디코더 측에 보내진다. 디코더 측에서, 복수의 오디오 신호는 부가 정보의 파라미터들의 제어하에서 다운믹스로부터 재구성 즉, 근사화된다. 감상관기들은 복수의 오디오 신호의 보다 충실한 재구성을 가능하게 하도록, 다운믹스에 의해 제공된 오디오 콘텐츠의 차원수를 증가시키기 위한 파라메트릭 재구성의 부분으로서 자주 이용된다. 감상관기들을 어떻게 설계하고 구현하느냐가 재구성의 충실도들 증가시키는 주요 인자들일 수 있다.
그들의 가정 내에서의 최종 사용자들을 겨냥한 부상하는 세그먼트를 포함하는, 오디오 장면을 나타내는 복수의 오디오의 재생을 위해 가용한 디바이스들 및 시스템들의 광범위한 상이한 타입들에 비추어서, 대역폭 요건들 및/또는 저장을 위한 요구된 메모리 크기를 감소시키고/시키거나 디코더 측에서의 복수의 오디오 신호의 재구성을 용이하게 하도록, 복수의 오디오 신호를 효율적으로 인코드하는 신규하고 대안적인 방식들이 필요하다.
다음에, 첨부 도면을 참조하여 예시적인 실시예들이 아래에 더 상세히 설명된다.
도 1은 예시적인 실시예에 따른, 다운믹스 신호 및 관련된 웨트 및 드라이 업믹스 계수들에 기초하여 복수의 오디오 신호를 재구성하는 파라메트릭 재구성부의 일반화된 블록도이고;
도 2는 예시적인 실시예에 따른, 도 1에 도시된 파라메트릭 재구성부를 포함하는 오디오 디코딩 시스템의 일반화된 블록도이고;
도 3은 예시적인 실시예에 따른, 파라메트릭 재구성을 위해 적합한 데이터로서 복수의 오디오 신호를 인코딩하는 파라메트릭 인코딩부의 일반화된 블록도이고;
도 4는 예시적인 실시예에 따른, 도 3에 도시된 파라메트릭 인코딩부를 포함하는 오디오 인코딩 시스템의 일반화된 블록도이다.
모든 도면은 본 발명을 더 자세히 설명하기 위해 필요한 부분들을 단지 개략적이고 일반적으로 도시하지만, 다른 부분들은 생략될 수 있거나 단지 제안될 수 있다.
여기에 사용된 바와 같이, 오디오 신호는 순수한 오디오 신호, 오디오비쥬얼 신호의 오디오 부분 또는 멀티미디어 신호 또는 메타데이터와 조합한 이들 중 어느 것일 수 있다.
여기에 사용된 바와 같이, 채널은 미리 정해진/고정된 공간적 위치/배향 또는 "좌" 또는 "우"와 같이 정해지지 않은 공간적 위치에 관련된 오디오 신호이다.
여기에 사용된 바와 같이, 오디오 오브젝트 또는 오디오 오브젝트 신호는 시변이 허용될 수 있는 공간 위치, 즉 그 값이 재할당되거나 시간에 따라 업데이트될 수 있는 공간적 위치에 관련된 오디오 신호이다.
Ⅰ. 개관
제1 양태에 따라, 예시적인 실시예들은 복수의 오디오 신호를 재구성하는 방법들 및 컴퓨터 프로그램 제품들뿐만 아니라 오디오 디코딩 시스템들을 제안한다. 제1 양태에 따른, 제안된 디코딩 시스템들, 방법들 및 컴퓨터 프로그램 제품들은 일반적으로 동일한 특징들 및 장점들을 공유할 수 있다.
예시적인 실시예들에 따라, 복수의 오디오 신호를 재구성하는 방법이 제공된다. 이 방법은 관련된 웨트 및 드라이 업믹스 계수들과 함께 다운믹스 신호의 시간/주파수 타일을 수신하는 단계 - 다운믹스 신호는 재구성될 오디오 신호들의 수보다 적은 채널들을 포함함 -; 다운믹스 신호의 선형 맵핑으로서, 중간 신호라고 하는, 하나 이상의 채널을 갖는 제1 신호를 계산하는 단계 - 계수들의 제1 세트는 중간 신호를 계산하는 부분으로서 다운믹스 신호의 채널들에 적용됨 -; 중간 신호의 하나 이상의 채널을 처리함으로써, 역상관된 신호라고 하는, 하나 이상의 채널을 갖는 제2 신호를 발생하는 단계; 역상관된 신호의 선형 맵핑으로서 웨트 업믹스 신호라고 하는 복수의 채널을 갖는 제3 신호를 계산하는 단계 - 계수들의 제2 세트는 웨트 업믹스 신호를 계산하는 부분으로서 역상관된 신호의 하나 이상의 채널에 적용됨 -; 다운믹스 신호의 선형 맵핑으로서, 드라이 업믹스 신호라고 하는 복수의 채널을 갖는 제4 신호를 계산하는 단계 - 계수들의 제3 세트는 드라이 업믹스 신호를 계산하는 부분으로서 다운믹스 신호의 채널들에 적용됨 -; 웨트 업믹스 신호와 드라이 업믹스 신호를 조합하여, 재구성될 복수의 오디오 신호의 시간/주파수 타일에 대응하는 다차원 재구성된 신호를 획득하는 단계를 포함한다. 본 예시적인 실시예에서, 계수들의 제2 및 제3 세트들은 각각 수신된 웨트 및 드라이 업믹스 계수들에 대응하고; 계수들의 제1 세트는 웨트 및 드라이 업믹스 계수들에 기초하여, 미리 정해진 규칙에 따라 계산된다.
역상관된 신호의 추가는 청취자에 의해 인지되는, 다차원 재구성된 신호의 콘텐츠의 차원수를 증가시키고, 다차원 재구성된 신호의 충실도를 증가시키는 역할을 한다. 역상관된 신호의 하나 이상의 채널 각각은 중간 신호의 하나 이상의 채널의 대응하는 채널과 적어도 거의 동일한 스펙트럼을 가질 수 있거나, 중간 신호의 하나 이상의 채널의 대응하는 채널의 스펙트럼의 리스케일된/정규화된 버전에 대응하는 스펙트럼들을 가질 수 있고, 역상관된 신호의 하나 이상의 채널은 적어도 거의 상호 비상관될(uncorrelated) 수 있다. 역상관된 신호의 하나 이상의 채널은 바람직하게는 중간 신호의 하나 이상의 채널 및 다운믹스 신호의 채널들에 적어도 거의 비상관될 수 있다. 상호 비상관된 신호들을 예를 들어, 백색 잡음으로부터의 주어진 스펙트럼과 합성하는 것이 가능하지만, 본 예시적인 실시예에 따라, 역상관된 신호의 하나 이상의 채널은 음색과 같이, 비교적 더 감지하기 힘든 싸이코-어코스틱하게(psycho-acoustically) 조정된 특성들을 포함하는, 중간 신호의 특로우별히 로컬한 고정 특성들을, 가능한 한 많이 보존하도록, 예를 들어, 각각의 전역 통과 필터들을 중간 신호의 각각의 하나 이상의 채널에 적용하거나 중간 신호의 각각의 하나 이상의 채널의 부분들을 재조합하는 것을 포함하는, 중간 신호의 처리에 의해 발생된다.
발명자들은 역상관된 신호가 도출되는 중간 신호의 선택이 재구성된 오디오 신호들의 충실도에 영향을 줄 수 있고, 재구성될 오디오 신호들의 소정의 특성들이 변화하면, 예를 들어, 재구성될 오디오 신호들이 시변 위치들을 갖는 오디오 오브젝트들이면, 중간 신호가 획득되는 계산들이 그에 따라 적응되는 경우에 재구성된 오디오 신호들의 충실도가 증가될 수 있다는 것을 인식하였다. 본 예시적인 실시예에서, 중간 신호를 계산하는 것은 다운믹스 신호들의 채널들에 계수들의 제1 세트를 적용하는 것을 포함하고, 계수들의 제1 세트는 그래서 중간 신호가 어떻게 계산되는지에 대한 적어도 일부 제어를 가능하게 하고, 재구성된 오디오 신호들의 충실도를 증가시킨다.
발명자들은 웨트 및 드라이 업믹스 신호들을 각각 계산하기 위해 이용된 수신된 웨트 및 드라이 업믹스 계수들은 계수들의 제1 세트에 대한 적합한 값들을 계산하는 데 이용될 수 있는 정보를 전달한다는 것을 더 인식하였다. 웨트 및 드라이 업믹스 계수들에 기초하여, 미리 정해진 규칙에 따라, 계수들의 제1 세트를 계산함으로써, 복수의 오디오 신호의 재구성을 가능하게 하는 데 필요한 정보의 양이 감소될 수 있어서, 인코더 측으로부터 다운믹스 신호와 함께 송신된 메타데이터의 양을 감소시킬 수 있다. 파라메트릭 재구성을 위해 필요한 데이터의 양을 감소시킴으로써, 복수의 오디오 신호의 파라메트릭 표현의 송신을 위한 요구된 대역폭, 및/또는 이러한 표현을 저장하기 위한 요구된 메모리 크기가 감소될 수 있다.
계수들의 제2 및 제3 세트가 수신된 웨트 및 드라이 업믹스 계수들에 각각 대응한다는 것은 계수들의 제2 및 제3 세트들이 웨트 및 드라이 업믹스 계수들과 각각 일치하거나, 계수들의 제2 및 제3 세트들이 각각 웨트 및 드라이 업믹스 계수들에 의해 유일하게 제어되는(또는 그로부터 도출가능하다는) 것을 의미한다. 예를 들어, 계수들의 제2 세트는 웨트 업믹스 계수들의 수가 계수들의 제2 세트 내의 계수들의 수보다 낮은 경우에도, 예를 들어, 웨트 업믹스 계수들로부터 컨피덴트들(confidents)의 제2 세트를 결정하기 위한 미리 정해진 공식이 디코더 측에서 알려지면 웨트 업믹스 계수들로부터 도출가능할 수 있다.
웨트 업믹스 신호와 드라이 업믹스 신호를 조합하는 것은 샘플마다 또는 변환 계수마다 기초하는 부가 믹싱과 같이, 웨트 업믹스 신호의 각각의 채널들로부터의 오디오 콘텐츠를 드라이 업믹스 신호의 각각의 대응하는 채널들의 오디오 콘텐츠에 부가하는 것을 포함할 수 있다.
중간 신호가 다운믹스 신호의 선형 맵핑이 된다는 것은 중간 신호가 제1 선형 변환을 다운믹스 신호에 적용함으로써 획득된다는 것을 의미한다. 이 제1 변환은 입력으로서 미리 정해진 수의 채널들을 취하고 출력으로서 미리 정해진 수의 하나 이상의 채널을 제공하고, 계수들의 제1 세트는 이 제1 선형 변환의 정량적 특성들을 정의하는 계수들을 포함한다.
웨트 업믹스 신호가 역상관된 신호의 선형 맵핑이 된다는 것은 웨트 업믹스 신호가 제2 선형 변환을 역상관된 신호에 적용함으로써 획득된다는 것을 의미한다. 이 제2 변환은 입력으로서 미리 정해진 수의 하나 이상의 채널을 취하고 출력으로서 미리 정해진(제2) 수의 채널을 제공하고, 계수들의 제2 세트는 이 제2 선형 변환의 정량적 특성들을 정의하는 계수들을 포함한다.
드라이 업믹스 신호가 다운믹스 신호의 선형 맵핑이 된다는 것은 드라이 업믹스 신호가 제3 선형 변환을 다운믹스 신호에 적용함으로써 획득된다는 것을 의미한다. 이 제3 변환은 입력으로서 미리 정해진(제3) 수의 채널들을 취하고 출력으로서 미리 정해진 수의 채널들을 제공하고, 계수들의 제3 세트는 이 제3 선형 변환의 정량적 특성들을 정의하는 계수들을 포함한다.
오디오 인코딩/디코딩 시스템들은 전형적으로 예를 들어, 적합한 필터 뱅크들을 입력 오디오 신호들에 적용함으로써 시간-주파수 공간을 시간/주파수 타일들로 나눈다. 시간/주파수 타일은 일반적으로 시간 간격 및 주파수 서브-밴드에 대응하는 시간-주파수 공간의 부분을 의미한다. 시간 간격은 전형적으로 오디오 인코딩/디코딩 시스템에서 사용된 시간 프레임의 기간에 대응할 수 있다. 주파수 서브-밴드는 인코딩/디코딩 시스템에서 사용된 필터 뱅크에 의해 정의된 하나 또는 몇 개의 인접한 주파수 서브-밴드들에 전형적으로 대응할 수 있다. 주파수 서브-밴드가 필터 뱅크에 의해 정의된 몇 개의 인접한 주파수 서브-밴드들에 대응하는 경우에, 이것은 오디오 신호의 디코딩/재구성 과정에서 비균일한 주파수 서브-밴드들, 예를 들어, 오디오 신호의 보다 높은 주파수들에 대한 보다 넓은 주파수 서브-밴드들을 갖는 것을 가능하게 한다. 오디오 인코딩/디코딩 시스템이 모든 주파수 범위에서 동작하는, 광대역의 경우에, 시간/주파수 타일의 주파수 서브-밴드는 모든 주파수 범위에 대응할 수 있다. 본 예시적인 실시예에 따른 방법이 하나의 그러한 시간/주파수 타일에 대해 복수의 오디오 신호를 재구성하는 방법에 대해 설명된다. 그러나, 이 방법은 오디오 인코딩/디코딩 시스템의 각각의 시간/주파수 타일에 대해 반복될 수 있다는 것을 이해하여야 한다. 또한, 여러 개의 시간/주파수 타일들은 동시에 재구성될 수 있다는 것을 이해하여야 한다. 전형적으로, 인접한 시간/주파수 타일들은 해체될 수 있거나 부분적으로 중첩할 수 있다.
예시적인 실시예에서, 역상관된 신호로 처리될 중간 신호는 드라이 업믹스 신호의 선형 맵핑에 의해 획득가능할 수 있고, 즉 중간 신호는 선형 변환을 드라이 업믹스 신호에 적용함으로써 획득가능할 수 있다. 다운믹스 신호의 선형 맵핑으로서 계산되는 드라이 업믹스 신호의 선형 맵핑에 의해 획득가능한 중간 신호를 이용함으로써, 역상관된 신호를 획득하기 위해 요구되는 계산들의 복잡성이 감소될 수 있어서, 오디오 신호들의 계산적으로 보다 효율적인 재구성이 가능해진다. 적어도 일부 예시적인 실시예들에서, 드라이 업믹스 계수들은 디코더 측에서 계산된 드라이 업믹스 신호가 재구성될 오디오 신호들에 근사하도록 인코더 측에서 결정될 수 있을 것이다. 이러한 근사화의 선형 맵핑에 의해 획득가능한 중간 신호에 기초한 역상관된 신호의 발생은 재구성된 오디오 신호들의 충실도를 증가시킬 수 있다.
예시적인 실시예에서, 중간 신호는 드라이 업믹스 신호에 웨트 업믹스 계수들의 절대값들인 계수들의 세트를 적용함으로써 획득가능할 수 있다. 중간 신호는 예를 들어 드라이 업믹스 신호의 채널들의 각각의 하나 이상의 선형 조합으로서 중간 신호의 하나 이상의 채널을 형성함으로써 획득가능할 수 있고, 웨트 업믹스 계수들의 절대값들은 하나 이상의 선형 조합 내의 이득들로서 각각의 드라이 업믹스 신호 채널들에 적용될 수 있다. 웨트 업믹스 계수들의 절대값들인 계수들의 세트를 적용함으로써, 드라이 업믹스 신호를 맵핑함으로써 획득가능한 중간 신호를 이용함으로써, 상이한 부호들을 갖는 웨트 업믹스 계수들로 인해, 드라이 업믹스 신호의 각각의 채널들로부터의 기여들 간의 중간 신호에서 발생하는 상쇄의 우려가 감소될 수 있다. 중간 신호에서의 상쇄의 우려를 감소시킴으로써, 중간 신호로부터 발생된 역상관된 신호의 에너지/진폭은 재구성된 신호의 오디오 신호들의 것과 매치하고, 웨트 업믹스 계수들의 갑작스런 변동들이 피해질 수 있거나 덜 빈번하게 발생할 수 있다.
예시적인 실시예에서, 계수들의 제1 세트는 미리 정해진 규칙에 따라 웨트 업믹스 계수들을 처리하고, 처리된 웨트 업믹스 계수들과 드라이 업믹스 계수들을 곱함으로써 계산될 수 있다. 예를 들어, 처리된 웨트 업믹스 계수들 및 드라이 업믹스 계수들은 각각의 행렬들로서 배열될 수 있고, 계수들의 제1 세트는 이들 2개의 행렬들의 행렬 곱으로서 계산된 행렬에 대응할 수 있다.
예시적인 실시예에서, 웨트 업믹스 계수들을 처리하기 위한 미리 정해진 규칙은 요소별(element-wise) 절대값 연산을 포함할 수 있다.
예시적인 실시예에서, 웨트 및 드라이 업믹스 계수들은 각각의 행렬들로서 배열될 수 있고, 웨트 업믹스 계수들을 처리하기 위한 미리 정해진 규칙은 임의의 순서로, 모든 요소들의 요소별 절대값들을 계산하고 요소들을 재배열하여 드라이 업믹스 계수들의 행렬과의 직접 행렬 곱셈을 가능하게 하는 것을 포함할 수 있다. 본 예시적인 실시예에서, 재구성될 오디오 신호들은 중간 신호가 기초하는, 다운믹스 신호를 통해 역상관된 신호의 하나 이상의 채널에 기여하고, 역상관된 신호의 하나 이상의 채널은 웨트 업믹스 신호를 통해, 재구성된 오디오 신호들에 기여한다. 발명자들은 재구성된 오디오 신호들의 충실도를 증가시키기 위해서, 다음의 원칙을 준수하고자 노력하는 것이 바람직할 수 있다는 것을 인식하였다: 역상관된 신호의 주어진 채널이 파라메트릭 재구성에서 기여하는 오디오 신호들은 다운믹스 신호를 통해, 역상관된 신호의 주어진 채널이 발생되는 중간 오디오 신호의 동일한 채널에 기여하여야 하고, 바람직하게는 매칭하는/등가적인 양만큼 기여하여야 한다는 것. 본 예시적인 실시예에 따른 미리 정해진 규칙은 이 원칙을 반영한다고 할 수 있다.
웨트 업믹스 계수들을 처리하기 위한 미리 정해진 규칙에 요소별 절대값 연산을 포함시킴으로써, 상이한 부호들을 갖는 웨트 업믹스 계수들로 인해, 드라이 업믹스 신호의 각각의 채널들로부터의 기여들 간의 중간 신호에서 발생하는 상쇄의 우려가 감소될 수 있다. 중간 신호에서의 상쇄의 우려를 감소시킴으로써, 중간 신호로부터 발생된 역상관된 신호의 에너지/진폭은 재구성된 신호의 오디오 신호들의 것과 매치하고, 웨트 업믹스 계수들의 갑작스런 변동들이 피해질 수 있거나 덜 빈번하게 발생할 수 있다.
예시적인 실시예에서, 계산 및 조합하는 단계들은 신호들의 쿼드러처 미러 필터(quadrature mirror filter)(QMF) 도메인 표현에 대해 수행될 수 있다.
예시적인 실시예에서, 웨트 및 드라이 업믹스 계수들의 복수의 값이 수신될 수 있고, 여기서 각각의 값은 특정한 앵커 점과 관련된다. 본 예시적인 실시예에서, 상기 방법은 2개의 연속하는 앵커 점들과 관련된 웨트 및 드라이 업믹스 계수들의 값들에 기초하여, 계수들의 제1 세트의 대응하는 값들을 계산하고, 다음에 이미 계산된 계수들의 제1 세트의 값들에 기초하여 연속하는 앵커 점들 사이에 포함된 적어도 하나의 시점에 대한 계수들의 제1 세트의 값을 보간하는 것을 더 포함할 수 있다. 바꾸어 말하면, 2개의 연속하는 앵커 점들에 대해 계산된 계수들의 제1 세트의 값들은 2개의 연속하는 앵커 점들 사이에 포함된 적어도 하나의 시점에 대한 계수들의 제1 세트의 값을 획득하기 위해 2개의 연속하는 앵커 점들 간에 보간하기 위해 이용된다. 이것은 웨트 및 드라이 업믹스 계수들에 기초한 계수들의 제1 세트의 비교적 더 비용이 많이 드는 계산의 불필요한 반복을 피한다.
예시적인 실시예에 따라, 다운믹스 신호의 시간/주파수 타일 및 관련된 웨트 및 드라이 업믹스 계수들을 수신하고, 복수의 오디오 신호를 재구성하도록 적응된 파라메트릭 재구성부를 갖는 오디오 디코딩 시스템이 제공되고, 다운믹스 신호는 재구성될 오디오 신호들의 수보다 적은 채널들을 갖는다. 파라메트릭 재구성부는 다운믹스 신호의 시간/주파수 타일을 수신하고 계수들의 제1 세트에 따라 다운믹스 신호를 선형으로 맵핑함으로써, 즉 계수들의 제1 세트를 이용하여 다운믹스 신호의 채널들의 하나 이상의 선형 조합을 형성함으로써 계산된 중간 신호를 출력하도록 구성된 사전-곱셈기; 중간 신호를 수신하고, 그에 기초하여, 역상관된 신호를 출력하도록 구성된 역상관부; 역상관된 신호뿐만 아니라 웨트 업믹스 계수들을 수신하고, 웨트 업믹스 계수들에 따라 역상관된 신호를 선형으로 맵핑함으로써, 즉, 웨트 업믹스 계수들을 이용하여 역상관된 신호의 하나 이상의 채널의 선형 조합들을 형성함으로써 웨트 업믹스 신호를 계산하도록 구성된 웨트 업믹스부; 드라이 업믹스 계수들을, 그리고 사전-곱셈기와 동시에 다운믹스 신호의 시간/주파수 타일을 수신하고, 드라이 업믹스 계수들에 따라 다운믹스 신호를 선형으로 맵핑함으로써, 즉, 드라이 업믹스 계수들을 이용하여 다운믹스 신호의 채널들의 선형 조합들을 형성함으로써 계산된 드라이 업믹스 신호를 출력하도록 구성된 드라이 업믹스부; 및 웨트 업믹스 신호 및 드라이 업믹스 신호를 수신하고 재구성될 복수의 오디오 신호의 시간/주파수 타일에 대응하는 다차원 재구성된 신호를 획득하기 위해 이들 신호를 조합하도록 구성된 조합부를 포함한다. 파라메트릭 재구성부는 웨트 및 드라이 업믹스 계수들을 수신하고 미리 정해진 규칙에 따라, 계수들의 제1 세트를 계산하고, 이것, 즉 계수들의 제1 세트를 사전-곱셈기에 공급하도록 구성된 컨버터를 더 포함한다.
제2 양태에 따라, 예시적인 실시예들은 복수의 오디오 신호를 인코딩하는 방법들 및 컴퓨터 프로그램 제품들뿐만 아니라 오디오 인코딩 시스템들을 제안한다. 제2 양태에 따른, 제안된 인코딩 시스템들, 방법들 및 컴퓨터 프로그램 제품들은 일반적으로 동일한 특징들 및 장점들을 공유할 수 있다. 또한, 제1 양태에 따른, 디코딩 시스템들, 방법들 및 컴퓨터 프로그램 제품들의 특징들에 대해 위에 제시된 장점들은 제2 양태에 따른 인코딩 시스템들, 방법들 및 컴퓨터 프로그램 제품들의 대응하는 특징들에 대해 일반적으로 유효할 수 있다.
예시적인 실시예들에 따라, 파라메트릭 재구성을 위해 적합한 데이터로서 복수의 오디오 신호를 인코딩하는 방법이 제공된다. 이 방법은 복수의 오디오 신호의 시간/주파수 타일을 수신하고; 다운믹싱 규칙에 따라 오디오 신호들의 선형 조합들을 형성함으로써 다운믹스 신호를 계산하고 - 다운믹스 신호는 재구성될 오디오 신호들의 수보다 적은 채널들을 포함함 -; 시간/주파수 타일에서 인코드될 오디오 신호들을 근사화하는 다운믹스 신호의 선형 맵핑을 정의하기 위해 드라이 업믹스 계수들을 결정하고; 수신된 오디오 신호들의 공분산 및 다운믹스 신호의 선형 맵핑에 의해 근사화된 오디오 신호들의 공분산에 기초하여 웨트 업믹스 계수들을 결정하고; 그들 자신의 계수들이 오디오 신호들의 파라메트릭 재구성의 부분으로서 사전-역상관 선형 맵핑을 정의하는 계수들의 추가 세트의 미리 정해진 규칙에 따라 계산을 가능하게 하는, 웨트 및 드라이 업믹스 계수들과 함께 다운믹스 신호를 출력하는 것을 포함한다. 이와 관련하여, 사전-역상관 선형 맵핑은 예를 들어 오디오 신호들의 공분산의 전체적인 또는 부분적인 복원을 가능하게 할 수 있다.
그들 자신에 대한 웨트 및 드라이 업믹스 계수들이 계수들의 추가 세트의 미리 정해진 규칙에 따라 계산을 가능하게 한다는 것은 웨트 및 드라이 업믹스 계수들(의 값들)이 알려질 때, 계수들의 추가 세트가 인코더 측으로부터 보내진 어떤 추가의 계수들(의 값들)에 액세스하지 않고, 미리 정해진 규칙에 따라 계산될 수 있다는 것을 의미한다. 예를 들어, 상기 방법은 다운믹스 신호, 웨트 업믹스 계수들 및 드라이 업믹스 계수들 만을 출력하는 것을 포함할 수 있다.
디코더 측 상에서, 오디오 신호들의 파라메트릭 재구성은 다운믹스 신호에 기초하여 발생된 역상관된 신호로부터의 기여들로, 다운믹스 신호의 선형 맵핑을 통해 획득된, 드라이 업믹스 신호를 조합하는 것을 전형적으로 포함할 수 있다. 오디오 신호들의 파라메트릭 재구성의 부분으로서 사전-역상관 선형 맵핑을 정의하는 계수들의 추가 세트는 계수들의 추가 세트가 입력으로서 다운믹스 신호를 취하고 그에 역상관 절차가 역상관된 신호를 발생하기 위해 수행되는, 중간 신호라고 하는, 하나 이상의 채널을 갖는 신호를 출력하는 선형 변환의 정량적 특성들을 정의하는 계수를 포함하는 것을 의미한다.
계수들의 추가 세트가 웨트 및 드라이 업믹스 계수들에 기초하여, 미리 정해진 규칙에 따라 계산될 수 있기 때문에, 복수의 오디오 신호들의 재구성을 가능하게 하는 데 필요한 정보의 양은 감소되어서, 디코더 측에 다운믹스 신호와 함께 송신된 메타데이터의 양의 감소가 가능해진다. 파라메트릭 재구성을 위해 필요한 데이터의 양을 감소시킴으로써, 재구성될 복수의 오디오 신호의 파라메트릭 표현의 송신을 위한 요구된 대역폭, 및/또는 이러한 표현을 저장하기 위한 요구된 메모리 크기가 감소될 수 있다.
다운믹스 신호를 계산할 때 이용되는 다운믹싱 규칙은 오디오 신호들의 선형 조합들의 정량적 특성들, 즉, 선형 조합들을 형성할 때 각각의 오디오 신호들에 적용될 계수들을 정의한다.
인코드될 오디오 신호들을 근사화하는 다운믹스 신호의 선형 맵핑을 정의하는 드라이 업믹스 계수들은 드라이 업믹스 계수들이 입력으로서 다운믹스 신호를 취하고 인코드될 오디오 신호들을 근사화하는 오디오 신호들의 세트를 출력하는 선형 변환의 정량적 특성들을 정의하는 계수들이라는 것을 의미한다. 드라이 업믹스 계수들의 결정된 세트는 예를 들어 오디오 신호의 최소 평균 제곱 오차 근사화에 대응하는 다운믹스 신호의 선형 맵핑을 정의할 수 있고, 즉, 다운믹스 신호의 선형 맵핑들의 세트 중에서, 드라이 업믹스 계수들의 결정된 세트는 오디오 신호에 최소 평균 제곱 의미에서 최상으로 근사화하는 선형 맵핑을 정의할 수 있다.
웨트 업믹스 계수들은 예를 들어, 수신된 오디오 신호들의 공분산과 다운믹스 신호의 선형 맵핑에 의해 근사화된 오디오 신호들의 공분산 간의 차이에 기초하거나, 그들을 비교함으로써 결정될 수 있다.
예시적인 실시예에서, 오디오 신호들의 복수의 시간/주파수 타일이 수신될 수 있고, 다운믹스 신호는 미리 정해진 다운믹싱 규칙에 따라 균일하게 계산될 수 있다. 바꾸어 말하면, 오디오 신호들의 선형 조합들을 형성할 때 각각의 오디오 신호들에 적용된 계수들은 미리 정해지고 연속하는 시간 프레임들에 걸쳐 일정하다. 예를 들어, 다운믹싱 규칙은 백워드-호환가능 다운믹스 신호를 제공하기 위해, 즉, 표준화된 채널 구성을 이용하는 레거시 재생 장비 상에서 재생될 수 있는 다운믹스 신호를 제공하기 위해 적응될 수 있다.
예시적인 실시예에서, 오디오 신호들의 복수의 시간/주파수 타일이 수신될 수 있고, 다운믹스 신호는 신호-적응 다운믹싱 규칙에 따라 계산될 수 있다. 바꾸어 말하면, 오디오 신호들의 선형 조합들을 형성할 때 적용된 계수들 중 적어도 하나가 신호-적응적이고, 즉, 계수들 중 적어도 하나, 및 바람직하게는 몇 개의 값이 오디오 신호들 중 하나 이상의 신호의 오디오 콘텐츠에 기초하여 인코딩 시스템에 의해 조정/선택될 수 있다.
예시적인 실시예에서, 웨트 업믹스 계수들은 다운믹스 신호의 선형 맵핑에 의해 근사화된 오디오 신호들의 공분산을 보충하기 위해 목표 공분산을 설정하고; 행렬과 그 자신의 전치(transpose)의 곱으로서 목표 공분산을 분해함으로써 결정될 수 있고, 행렬의 요소들은 선택적인 컬럼별(column-wise) 리스케일링 후에, 웨트 업믹스 계수들에 대응한다. 본 예시적인 실시예에서, 목표 공분산이 분해되는, 즉, 그 자신의 전치에 의해 곱해질 때 목표 공분산을 산출하는 행렬은 정사각 행렬 또는 비정사각 행렬일 수 있다. 적어도 일부 예시적인 실시예들에 따라, 목표 공분산은 수신된 오디오 신호들의 공분산 행렬과 다운믹스 신호의 선형 맵핑에 의해 근사화된 오디오 신호들의 공분산 행렬 간의 차이로서 형성된 행렬의 하나 이상의 고유벡터에 기초하여 결정될 수 있다.
예시적인 실시예에서, 상기 방법은 목표 공분산이 분해되는, 즉 목표 공분산이 행렬과 그 자신의 전치의 곱으로서 분해되는 행렬의 컬럼별 리스케일링을 더 포함할 수 있고, 행렬의 요소들은 컬럼별 리스케일링 후에, 웨트 업믹스 계수들에 대응한다. 본 예시적인 실시예에서, 컬럼별 리스케일링은 다운믹스 신호에의 사전-역상관 선형 맵핑의 적용으로부터 생기는 각각의 신호의 분산이 사전-역상관 선형 맵핑을 정의하는 계수들이 미리 정해진 규칙에 따라 계산되는 경우에, 컬럼별 리스케일링에서 이용된 대응하는 리스케일링 팩터의 역제곱과 동일한 것을 보증할 수 있다. 사전-역상관 선형 맵핑은 재구성될 오디오 신호들의 파라메트릭 재구성에서 다운믹스 신호를 보충하기 위한 역상관된 신호를 발생하기 위해 디코더 측에서 이용될 수 있다. 본 예시적인 실시예에 따른 컬럼별 리스케일링으로, 웨트 업믹스 계수들은 목표 공분산에 대응하는 공분산을 제공하는 역상관된 신호의 선형 맵핑을 정의한다.
예시적인 실시예에서, 미리 정해진 규칙은 계수들의 추가 세트와 웨트 업믹스 계수들 간의 선형 스케일링 관계를 함축할 수 있고, 컬럼별 리스케일링은 -1/4로 멱승된 행렬 곱
Figure 112016037414774-pct00001
의 대각선 부분에 의한 곱셈에 해당할 수 있고, 여기서 abs V는 목표 공분산이 분해되는 행렬의 요소별 절대값을 나타내고,
Figure 112016037414774-pct00002
는 다운믹스 신호의 선형 맵핑에 의해 근사화된 오디오 신호들의 공분산에 대응하는 행렬이다. 주어진 행렬, 예를 들어, 상기 행렬 곱의 대각선 부분은 모든 오프-대각선 요소들을 주어진 행렬에서 제로로 설정함으로써 획득된 대각선 행렬을 의미한다. 이러한 대각선 행렬을 -1/4로 멱승시킨다는 것은 대각선 행렬 내의 행렬 요소들 각각이 -1/4로 멱승된다는 것을 의미한다. 계수들의 추가 세트와 웨트 업믹스 계수들 간의 선형 스케일링 관계는 예를 들어 목표 공분산이 분해되는 행렬의 컬럼별 리스케일링이 행렬 요소들로서 계수들의 추가 세트를 갖는 행렬의 로우별(row-wise) 또는 컬럼별 리스케일링에 대응하도록 될 수 있고, 행렬 요소들로서 계수들의 추가 세트를 갖는 행렬의 로우별 또는 컬럼별 리스케일링은 목표 공분산이 분해되는 행렬의 컬럼별 리스케일링에서 이용된 것과 동일한 리스케일링 팩터들을 이용한다.
사전-역상관 선형 맵핑은 재구성될 오디오 신호들의 파라메트릭 재구성에서 다운믹스 신호를 보충하기 위한 역상관된 신호를 발생하기 위해 디코더 측에서 이용될 수 있다. 본 예시적인 실시예에 따른 컬럼별 리스케일링으로, 웨트 업믹스 계수들은 사전-역상관 선형 맵핑을 정의하는 계수들이 미리 정해진 규칙에 따라 계산되는 경우에, 목표 공분산에 대응하는 공분산을 제공하는 역상관된 신호의 선형 맵핑을 정의한다.
예시적인 실시예에서, 목표 공분산은 목표 공분산과 다운믹스 신호의 선형 맵핑에 의해 근사화된 오디오 신호들의 공분산의 합이 수신된 오디오 신호들의 공분산에 근사하거나, 적어도 실질적으로 일치하기 위해 선택될 수 있어서, 다운믹스 신호 및 웨트 및 드라이 업믹스 파라미터들에 기초하여, 디코더 측에서 파라메트릭하게 재구성된 오디오 신호들이 수신된 오디오 신호들의 공분산에 근사하거나 적어도 실질적으로 일치하는 것이 가능해진다.
예시적인 실시예에서, 상기 방법은 수신된 오디오 신호들의 추정된 총 에너지와 다운믹스 신호, 웨트 업믹스 계수들 및 드라이 업믹스 계수들에 기초하여 파라메트릭하게 재구성된 오디오 신호들의 추정된 총 에너지의 비율을 결정하고; 이 비율의 역제곱근으로 드라이 업믹스 계수들을 리스케일링함으로써 에너지 보상을 수행하는 것을 더 포함할 수 있다. 본 예시적인 실시예에서, 리스케일된 드라이 업믹스 계수들은 다운믹스 신호 및 웨트 업믹스 계수들과 함께 출력될 수 있다. 적어도 일부 예시적인 실시예들에서, 미리 정해진 규칙은 계수들의 추가 세트와 드라이 업믹스 계수들 간의 선형 스케일링 관계를 함축할 수 있어서, 드라이 업믹스 계수들에 대해 수행된 에너지 보상은 계수들의 추가 세트에서 대응하는 효과를 갖는다. 본 예시적인 실시예에 따른 에너지 보상은 다운믹스 신호 및 웨트 및 드라이 업믹스 파라미터들에 기초하여, 디코더 측에서 파라메트릭하게 재구성된 오디오 신호들이 수신된 오디오 신호들의 총 에너지에 근사하는 총 에너지를 갖게 한다.
적어도 일부 예시적인 실시예에서, 웨트 업믹스 계수들은 에너지 보상을 수행하기 전에 결정될 수 있고, 즉 웨트 업믹스 계수들은 아직 에너지 보상되지 않은 웨트 업믹스 계수들에 기초하여 결정될 수 있다.
예시적인 실시예들에 따라, 파라메트릭 재구성을 위해 적합한 데이터로서 복수의 오디오 신호를 인코드하도록 적응된 파라메트릭 인코딩부를 포함하는 오디오 인코딩 시스템이 제공된다. 파라메트릭 인코딩부는 복수의 오디오 신호의 시간/주파수 타일을 수신하고 다운믹싱 규칙에 따라 오디오 신호들의 선형 조합들을 형성함으로써 다운믹스 신호를 계산하도록 구성된 다운믹스부 - 다운믹스 신호는 재구성될 오디오 신호들의 수보다 적은 채널들을 포함함 -; 시간/주파수 타일에서 인코드될 오디오 신호들을 근사화하는 다운믹스 신호의 선형 맵핑을 정의하기 위해 드라이 업믹스 계수들을 결정하도록 구성된 제1 분석부; 및 수신된 오디오 신호들의 공분산 및 다운믹스 신호의 선형 맵핑에 의해 근사화된 오디오 신호들의 공분산에 기초하여 웨트 업믹스 계수들을 결정하도록 구성된 제2 분석부를 포함한다. 본 예시적인 실시예에서, 파라메트릭 인코딩부는 웨트 및 드라이 업믹스 계수들과 함께 다운믹스 신호를 출력하도록 구성되고, 그들 자신 상의 웨트 및 드라이 업믹스 계수들은 오디오 신호들의 파라메트릭 재구성의 부분으로서 사전-역상관 선형 맵핑을 정의하는 계수들의 추가 세트의 미리 정해진 규칙에 따라 계산을 가능하게 한다.
예시적인 실시예들에 따라, 제1 및 제2 양태들의 방법들 중 어느 한 방법을 수행하기 위한 명령어들을 갖는 컴퓨터 판독가능 매체를 포함하는 컴퓨터 프로그램 제품이 제공된다.
예시적인 실시예들에 따라, 복수의 오디오 신호 중 적어도 하나는 공간적 로케이터와 관련된 오디오 오브젝트 신호에 관련할 수 있거나 그것을 나타내기 위해 사용될 수 있는데, 즉 복수의 오디오 신호가 예를 들어, 정적인 공간적 위치들/배향들에 관련된 채널들을 포함할 수 있지만, 복수의 오디오 신호는 또한 시변 공간적 위치에 관련된 하나 이상의 오디오 오브젝트를 포함할 수 있다.
다른 예시적인 실시예들이 종속 청구항들에서 정의된다. 서로 상이한 청구항에서 열거되더라도, 예시적인 실시예들은 특징들의 모든 조합들을 포함한다는 점에 주목한다.
Ⅱ. 예시적인 실시예들
아래에, 인코딩 및 디코딩의 수학적 설명이 제공된다. 보다 상세한 이론적 배경을 위해서는, 2008년 1월, IEEE Transactions on Audio, Speech, and Language Processing, Vol. 16, No.1에서, Hotho 등에 의한, 논문 "A Backward-Compatible Multichannel Audio Codec"을 참조할 수 있다.
도 3 및 4를 참조하여 설명될 인코더 측에서, 다운믹스 신호
Figure 112016037414774-pct00003
는 다음 식에 따라, 복수의 오디오 신호
Figure 112016037414774-pct00004
의 선형 조합들을 형성함으로써 계산되고
Figure 112016037414774-pct00005
여기서
Figure 112016037414774-pct00006
은 다운믹스 행렬 D에 의해 표현되는 다운믹스 계수들이고, 여기서 오디오 신호들
Figure 112016037414774-pct00007
은 행렬
Figure 112016037414774-pct00008
에서 수집되었다. 다운믹스 신호 Y는 M개의 채널들을 포함하고 복수의 오디오 신호 X는 N개의 오디오 신호들을 포함하고, 여기서 N > M > 1이다. 도 1 및 2를 참조하여 설명될 디코더 측에서, 복수의 오디오 신호 X의 파라메트릭 재구성은 다음 식에 따라 수행되고
Figure 112016037414774-pct00009
여기서
Figure 112016037414774-pct00010
은 행렬 드라이 업믹스 행렬 C에 의해 표현되는 드라이 업믹스 계수들이고,
Figure 112016037414774-pct00011
는 웨트 업믹스 행렬 P에 의해 표현되는 웨트 업믹스 계수들이고,
Figure 112016037414774-pct00012
는 역상관된 신호
Figure 112016037414774-pct00013
의 K개의 채널들이고, 여기서 K≥1이다. 역상관된 신호 Z는 다음과 같은 식으로서 획득된 중간 신호
Figure 112016037414774-pct00014
에 기초하여 발생되고
Figure 112016037414774-pct00015
여기서 계수들
Figure 112016037414774-pct00016
은 다운믹스 신호 Y의 사전-역상관 선형 맵핑을 정의하는 사전-역상관 행렬 Q에 의해 표현된다. 역상관된 신호 Z의 K개의 채널들은 중간 신호 W의 각각의 채널들의 에너지들/분산들을 보존하지만 상호 비상관된 역상관된 신호 Z의 채널들을 만드는, 즉 역상관된 신호 Z가 다음과 같이 표현될 수 있는, 역상관 연산을 통해 중간 신호 W의 각각의 K개의 채널들로부터 획득되고,
Figure 112016037414774-pct00017
여기서
Figure 112016037414774-pct00018
는 이 역상관 연산을 나타낸다.
식(1), 식(3) 및 식(4)에서 알 수 있는 바와 같이, 재구성될 오디오 신호들 X는 다운믹스 신호 Y 및 중간 신호 W를 통해 역상관된 신호 Z의 채널들에 기여하고, 식(2)에서 알 수 있는 바와 같이, 역상관된 신호 Z의 채널들은 웨트 업믹스 신호 DZ를 통해, 재구성된 오디오 신호
Figure 112016037414774-pct00019
에 기여한다. 발명자들은 재구성된 오디오 신호들
Figure 112016037414774-pct00020
의 충실도를 증가시키기 위해서, 다음의 원칙을 준수하고자 노력하는 것이 바람직할 수 있다는 것을 인식하였다:
역상관된 신호 Z의 주어진 채널이 파라메트릭 재구성에서 기여하는 오디오 신호들은 다운믹스 신호 Y를 통해, 역상관된 신호 Z의 주어진 채널이 발생되는 중간 오디오 신호 W의 동일한 채널에 기여하여야 하고, 바람직하게는 대응하는/매칭하는 양 만큼 기여하여야 한다는 것.
이 원칙을 준수하는 한가지 방식은 다음 식에 따라 사전-역상관 계수들 Q를 계산하는 것이고
Figure 112016037414774-pct00021
여기서 abs P는 웨트 업믹스 행렬 P의 요소들의 절대값들을 취함으로써 획득된 행렬을 나타낸다. 식(3)과 식(5)는 역상관된 신호 Z로 처리될 중간 신호 W는 재구성될 오디오 신호들 X의 근사화로서 간주될 수 있는, "드라이" 업믹스 신호 CY의 선형 맵핑에 의해 획득가능하다는 것을 함축한다. 이것은 역상관된 신호 Z를 도출하기 위한 위에 설명된 원칙을 반영한다. 사전-역상관 계수들 Q를 계산하기 위한 규칙(5)는 단지 비교적 낮은 복잡성을 갖는 계산들을 포함하고 그래서 디코더 측에서 편리하게 이용될 수 있다. 드라이 업믹스 계수들 C 및 웨트 업믹스 계수들 P에 기초하여 사전-역상관 계수들 Q를 계산하기 위한 대안적 방식들이 상상된다. 예를 들어, 그것은
Figure 112016037414774-pct00022
로서 계산될 수 있고, 여기서 행렬
Figure 112016037414774-pct00023
는 P의 각각의 열을 정규화함으로써 획득된다. 사전-역상관 계수들 Q를 계산하기 위한 이 대안적 방식의 효과는 식(2)를 통해 제공된 파라메트릭 재구성이 웨트 업믹스 행렬 P의 크기로 선형으로 스케일한다는 것이다.
드라이 업믹스 계수들 C는 예를 들어 최소 제곱 의미로 최상의 가능한 "드라이" 업믹스 신호 CY를 계산함으로써, 즉 다음의 정규 식들을 푸는 것에 의해 결정된다.
Figure 112016037414774-pct00024
드라이 업믹스 CY에 의해 근사화된 오디오 신호들의 공분산 행렬은 다음을 형성함으로써, 재구성될 오디오 신호들 X의 공분산 행렬
Figure 112016037414774-pct00025
과 비교될 수 있고
Figure 112016037414774-pct00026
여기서
Figure 112016037414774-pct00027
는 다운믹스 신호 Y의 공분산 행렬이고
Figure 112016037414774-pct00028
은 "웨트" 업믹스 신호 PZ에 의해 전체적으로 또는 부분적으로 제공될 수 있는 "미싱(missing)" 공분산이다. 미싱 공분산
Figure 112016037414774-pct00029
은 고유분해를 통해, 즉 그것의 고유값들 및 관련된 고유벡터들에 기초하여 분석될 수 있다. 식(2)에 따른 파라메트릭 재구성이 불과 K개의 감상관기들을 사용하여, 즉 K개의 채널들을 갖는 역상관된 신호 Z로, 디코더 측에서 수행되면, 목표 공분산
Figure 112016037414774-pct00030
은 가장 큰 고유값 크기들과 관련된 K개의 고유벡터들에 대응하는
Figure 112016037414774-pct00031
의 고유분해의 그들 부분만을 유지함으로써, 즉 다른 고유벡터들에 대응하는 미싱 공분산
Figure 112016037414774-pct00032
의 그들 부분을 제거함으로써 웨트 업믹스 신호 PZ에 대해 설정될 수 있다. 식(1)에 따라, 인코더 측에서 이용된 다운믹스 행렬 D가 비디제너레이트(non-degenerate)이면, 미싱 공분산
Figure 112016037414774-pct00033
은 많아야 랭크 N-M을 갖고, 불과 K = N - M개의 감상관기들이 완전한 미싱 공분산
Figure 112016037414774-pct00034
을 제공하기 위해 필요하다는 것이 보여질 수 있다. 증명을 위해, 예를 들어, 2008년 1월, IEEE Transactions on Audio, Speech, and Language Processing, Vol. 16, No.1에서, Hotho 등에 의한, 논문 "A Backward-Compatible Multichannel Audio Codec"을 참조할 수 있다. 최대 고유값들과 관련된 기여들을 유지함으로써, 더 작은 수인 K < N - M개의 감상관기들 만이 디코더 측에서 이용되더라도, 미싱 공분산
Figure 112016037414774-pct00035
의 지각적으로 중요한/상당한 부분들이 웨트 업믹스 신호 PZ에 의해 재생될 수 있다. 특히, 단일 역상관기, 즉 K=1의 사용은 이미 디코더 측에 계산적 복잡성이 비교적 낮은 추가의 비용을 위해, 역상관 없는 파라메트릭 재구성에 비해, 재구성된 오디오 신호들의 충실도를 상당히 개선시킨다. 감상관기들의 수를 증가시킴으로써, 재구성된 오디오 신호들의 충실도는 송신될 추가의 웨트 업믹스 파라미터들 P를 댓가로 증가될 수 있다. 이용된 다운믹스 채널들의 수 M, 및 이용된 감상관기들의 수 K는 예를 들어 디코더 측에 데이터를 송신하기 위한 목표 비트레이트 및 재구성된 오디오 신호들의 요구된 충실도/품질에 기초하여 선택될 수 있다.
목표 공분산
Figure 112016037414774-pct00036
이 K개의 고유값들과 관련된 미싱 공분산
Figure 112016037414774-pct00037
의 부분들에 기초하여 설정된 상황에서, 목표 공분산
Figure 112016037414774-pct00038
은 아래 식으로서 분해될 수 있고,
Figure 112016037414774-pct00039
여기서, V는 N개의 행 및 K개의 열을 갖는 행렬이고, 웨트 업믹스 행렬 P는 다음 식의 형태로 획득될 수 있고,
Figure 112016037414774-pct00040
여기서 S는 행렬 V의 컬럼별 리스케일링을 제공하는 양의 요소들을 갖는 대각선 행렬이다. 형태(9)를 갖는 웨트 업믹스 행렬 P 및 식(6)의 해인 드라이 업믹스 행렬 C에 대해, 재구성된 신호들
Figure 112016037414774-pct00041
의 공분산 행렬은 다음과 같이 표현될 수 있고
Figure 112016037414774-pct00042
,
여기서
Figure 112016037414774-pct00043
는 행렬의 모든 오프-대각선 요소들을 제로로 설정하는 연산을 나타낸다. 그러므로, 목표 공분산
Figure 112016037414774-pct00044
을 만족시키기 위한 웨트 업믹스 신호 PZ에 대한 조건은 아래 식으로서 표현될 수 있는데,
Figure 112016037414774-pct00045
상기 식은 행렬 S에 의해 주어진 컬럼별 리스케일링이 다운믹스 신호 Y에의 사전-역상관 선형 맵핑의 적용으로부터 생기는 각각의 신호의 분산이 즉, 분산들로서
Figure 112016037414774-pct00046
의 대각선 요소들을 갖는 식(3)을 통해 획득된 중간 신호 W의 채널들이 행렬 S에서 대응하는 컬럼별 리스케일링 팩터의 역제곱과 동일하다는 것을 보증하는 경우에 이행된다. 폼(5)을 갖는 사전-역상관 행렬 Q로, 행렬 S의 다수의 인스턴스들이 식(10)에서 모이게 하는 웨트 업믹스 계수들 P와 사전-역상관 계수 Q 간의 선형 스케일링 관계가 있게 되어, 다음의 충분 조건의 결과를 가져다주고
Figure 112016037414774-pct00047
,
여기서 I는 항등 행렬이다. 그러므로, 웨트 업믹스 계수들 P는 P = VS로서 획득될 수 있고, 여기서 아래 식과 같다.
Figure 112016037414774-pct00048
도 3은 예시적인 실시예에 따른 파라메트릭 인코딩부(300)의 일반화된 블록도이다. 파라메트릭 인코딩부(300)는 식(2)에 따라 파라메트릭 재구성을 위해 적합한 데이터로서 복수의 오디오 신호
Figure 112016037414774-pct00049
를 인코드하도록 구성된다. 파라메트릭 인코딩부(300)는 복수의 오디오 신호 X의 시간/주파수 타일을 수신하고 식(1)에 따라 오디오 신호들 X의 선형 조합들을 형성함으로써 다운믹스 신호
Figure 112016037414774-pct00050
를 계산하는 다운믹스부(301)를 포함하고, 여기서 다운믹스 신호 Y는 재구성될 오디오 신호들 X의 수 N보다 적은 채널들 M을 포함한다. 본 예시적인 실시예에서, 복수의 오디오 신호 X는 시변 공간적 위치들과 관련된 오디오 오브젝트 신호들을 포함하고, 다운믹스 신호 Y는 신호-적응 규칙에 따라 계산되는데, 즉 식(1)에 따라 선형 조합들을 형성할 때 이용된 다운믹스 계수들 D는 오디오 신호들 X에 의존한다. 본 예시적인 실시예에서, 다운믹스 계수들 D는 복수의 오디오 신호 X 내에 포함된 오디오 오브젝트들과 관련된 공간적 위치들에 기초하여 다운믹스부(301)에 의해 결정되어, 비교적 멀리 떨어져 위치한 오브젝트들은 다운믹스 신호 Y의 상이한 채널들로 인코드되는 반면, 비교적 서로 가깝게 위치한 오브젝트들은 다운믹스 신호 Y의 동일한 채널로 인코드될 수 있는 것을 보증한다. 이러한 신호-적응 다운믹싱 규칙의 효과는 그것이 디코더 측에서 오디오 오브젝트 신호들의 재구성을 용이하게 하고/하거나, 청취자에 의해 인지되는, 오디오 오브젝트 신호들의 보다 충실한 재구성을 가능하게 한다는 것이다.
본 예시적인 실시예에서, 제1 분석부(302)는 재구성될 오디오 신호들 X를 근사화하는 다운믹스 신호 Y의 선형 맵핑을 정의하기 위해, 드라이 업믹스 행렬 C에 의해 표현되는 드라이 업믹스 계수들을 결정한다. 다운믹스 신호 Y의 이 선형 맵핑은 식(2)에서 CY로 표시된다. 본 예시적인 실시예에서, 드라이 업믹스 계수들 C는 다운믹스 신호 Y의 선형 맵핑 CY가 재구성될 오디오 신호들 X의 최소 평균 제곱 근사화에 대응하도록 식(6)에 따라 결정된다. 제2 분석부(303)는 수신된 오디오 신호 X의 공분산 행렬 및 다운믹스 신호 Y의 선형 맵핑 CY에 의해 근사화된 오디오 신호의 공분산 행렬에 기초하여, 즉, 식(7)의 미싱 공분산
Figure 112016037414774-pct00051
에 기초하여, 웨트 업믹스 행렬 P에 의해 표현되는 웨트 업믹스 계수들을 결정한다. 본 예시적인 실시예에서, 제1 처리부(304)는 수신된 오디오 신호 X의 공분산 행렬을 계산한다. 곱셈부(305)는 다운믹스 신호 Y와 웨트 업믹스 행렬 C를 곱함으로써 다운믹스 신호 Y의 선형 맵핑 CY를 계산하고, 이것을 다운믹스 신호 Y의 선형 맵핑 CY에 의해 근사화된 오디오 신호의 공분산 행렬을 계산하는 제2 처리부(306)에 제공한다.
본 예시적인 실시예에서, 결정된 웨트 업믹스 계수들 P는 K개의 채널들을 갖는 역상관된 신호 Z로, 식(2)에 따른 파라메트릭 재구성의 대상이 된다. 그러므로, 제2 분석부(303)는 식(7)에서 미싱 공분산
Figure 112016037414774-pct00052
의 최대 고유값들(크기들)과 관련된 K개의 고유벡터들에 기초하여 목표 공분산
Figure 112016037414774-pct00053
을 설정하고, 식(8)에 따라 목표 공분산
Figure 112016037414774-pct00054
을 분해한다. 웨트 업믹스 계수들 P는 다음에 목표 공분산
Figure 112016037414774-pct00055
이 식(9) 및 식(11)에 따라, 행렬 S에 의한 컬럼별 리스케일링 이후에, 분해된 행렬 V로부터 획득된다. 본 예시적인 실시예에서, 사전-역상관 계수들이라고 하는, 계수들 Q의 추가 세트는 식(5)에 따라 드라이 업믹스 계수들 C 및 웨트 업믹스 계수들 P로부터 도출가능하고, 식(3)에 의해 주어진 다운믹스 신호 Y의 사전-역상관 선형 맵핑을 정의한다.
본 예시적인 실시예에서, K < N - M이라서, 웨트 업믹스 신호 PZ는 식(7)에서 완전한 미싱 공분산
Figure 112016037414774-pct00056
을 제공하지 않는다. 그러므로, 재구성된 오디오 신호들
Figure 112016037414774-pct00057
는 전형적으로 재구성될 오디오 신호들 X보다 낮은 에너지를 갖고, 제1 분석부(302)는 웨트 업믹스 계수들이 제2 분석부(303)에 의해 결정된 후에 드라이 업믹스 계수들 CY를 리스케일함으로써 에너지 보상을 선택적으로 수행할 수 있다. 대신 K = N - M인 예시적인 실시예들에서, 웨트 업믹스 신호 PZ는 식(7)에서 완전한 미싱 공분산
Figure 112016037414774-pct00058
을 제공할 수 있고 에너지 보상을 위해 사용하지 않을 수 있다.
에너지 보상이 수행되면, 제1 분석부(302)는 수신된 오디오 신호들 X의 추정된 총 에너지와 식(2)에 따라, 즉 다운믹스 신호 Y, 웨트 업믹스 계수들 P 및 드라이 업믹스 계수들 C에 기초하여 재구성된 오디오 신호들
Figure 112016037414774-pct00059
의 추정된 총 에너지의 비율을 결정한다. 제1 분석부(302)는 다음에 결정된 비율의 역제곱근에 의해 이전에 결정된 드라이 업믹스 계수들 C를 리스케일한다. 파라메트릭 인코딩부(300)는 다음에 웨트 업믹스 계수들 P 및 리스케일된 드라이 업믹스 계수들 C와 함께 다운믹스 신호 Y를 출력한다. 사전-역상관 계수들 Q가 식(5)에 의해 주어진 미리 정해진 규칙에 따라 결정되기 때문에, 드라이 업믹스 계수들 C와 사전-역상관 계수들 Q 간의 선형 스케일링 관계가 있다. 그러므로, 드라이 업믹스 계수들 C의 리스케일링은 식(2)에 따라 디코더 측에서의 파라메트릭 재구성 중에 드라이 업믹스 신호 CY와 웨트 업믹스 신호들 PZ 둘 다의 리스케일링을 야기한다.
도 4는 도 3을 참조하여 설명된 파라메트릭 인코딩부(300)를 포함하는, 예시적인 실시예에 따른 오디오 인코딩 시스템(400)의 일반화된 블록도이다. 본 예시적인 실시예에서, 예를 들어, 하나 이상의 음향 트랜스듀서(401)에 의해 기록되거나 오디오 오더링 장비(401)에 의해 발생된 오디오 콘텐츠는 복수의 오디오 신호 X의 형태로 제공된다. 쿼드러처 미러 필터(QMF) 분석부(402)는 오디오 신호 X를 시간 세그먼트마다, 시간/주파수 타일들의 형태로 오디오 신호 X의 파라메트릭 인코딩부(300)에 의해 처리하기 위해 QMF 도메인으로 변환한다. QMF 도메인의 사용은 오디오 신호들의 처리를 위해, 예를 들어, 업/다운-믹싱 및 파라메트릭 재구성을 수행하기 위해 적합하고, 디코더 측에서의 오디오 신호들의 거의 손실없는 재구성을 가능하게 한다.
파라메트릭 인코딩부(300)에 의해 출력된 다운믹스 신호 Y는 QMF 합성부(403)에 의해 QMF 도메인으로부터 다시 변환되고 변환부(404)에 의해 수정된 이산 코사인 변환(MDCT) 도메인으로 변환된다. 양자화부들(405 및 406)은 각각 드라이 업믹스 계수들 C 및 웨트 업믹스 계수들 C를 양자화한다. 예를 들어, 0.1 또는 0.2(무차원)의 단계 크기를 갖는 균일한 양자화가 이용될 수 있고, 그 후 허프만 코딩(Huffman coding)의 형태로 엔트로피 코딩이 이어진다. 단계 크기 0.2를 갖는 보다 거친 양자화가 예를 들어 송신 대역폭을 절약하기 위해 이용될 수 있고, 단계 크기 0.1을 갖는 보다 미세한 양자화가 예를 들어 디코더 측에서 재구성의 충실도를 향상시키기 위해 이용될 수 있다. MDCT-변환된 다운믹스 신호 Y 및 양자화된 드라이 업믹스 계수들 C 및 웨트 업믹스 계수들 P는 다음에 디코더 측으로 송신하기 위해, 멀티플렉서(407)에 의해 비트스트림 B로 조합된다. 오디오 인코딩 시스템(400)은 또한 다운믹스 신호 Y가 멀티플렉서(407)에 제공되기 전에, 돌비 디지털(Dolby Digital) 또는 MPEG AAC와 같은 지각적 오디오 코덱을 사용하여 다운믹스 신호 Y를 인코드하도록 구성된 코어 인코더(도 4에 도시 안됨)를 포함할 수 있다.
복수의 오디오 신호 X는 시변 공간적 위치들 또는 공간적 로케이터들과 관련된 오디오 오브젝트 신호들을 포함하기 때문에, 이러한 공간적 로케이터들을 포함하는 렌더링 메타데이터 R은 예를 들어 디코더 측에서의 오디오 오브젝트 신호들의 렌더링을 위해, 오디오 인코딩 시스템(400)에 의해 비트스트림 B에서 인코드될 수 있다. 렌더링 메타데이터 R은 예를 들어 복수의 오디오 신호 X를 발생하기 위해 이용된 오디오 오더링 장비(401)에 의해 멀티플렉서(407)에 제공될 수 있다.
도 1은 다운믹스 신호 Y 및 관련된 웨트 업믹스 계수들 P 및 드라이 업믹스 계수들 C에 기초하여 복수의 오디오 신호 X를 재구성하도록 적응된, 예시적인 실시예에 따른, 파라메트릭 재구성부(100)의 일반화된 블록도이다. 사전-곱셈기(101)는 다운믹스 신호 Y의 시간/주파수 타일을 수신하고 계수들의 제1 세트에 따라, 즉 식(3)에 따라 다운믹스 신호를 선형으로 맵핑함으로써 계산된 중간 신호 W를 출력하고, 여기서 계수들의 제1 세트는 사전-역상관 행렬 Q에 의해 표현되는 사전-역상관 계수들의 세트이다. 역상관부(102)는 중간 신호 W를 수신하고, 그에 기초하여, 역상관된 신호
Figure 112016037414774-pct00060
를 출력한다. 본 예시적인 실시예에서, 역상관된 신호 Z의 K개의 채널들은 상호 비상관되고, 중간 오디오 신호 W와 스펙트럼적으로 유사하고 또한 청취자에 의해 중간 오디오 신호 W의 것과 또한 유사하게 인지되는 오디오 콘텐츠를 갖는 채널들을 제공하도록, 각각의 전역 통과 필터들을 중간 신호 W의 채널들에 적용하는 것을 포함하는, 중간 신호 W의 K개의 채널들의 처리에 의해 도출된다. 역상관된 신호 Z는 청취자에 의해 인지되는, 복수의 오디오 신호 X의 재구성된 버전
Figure 112016037414774-pct00061
의 차원수를 증가시키는 역할을 한다. 본 예시적인 실시예에서, 역상관된 신호 Z의 채널들은 중간 오디오 신호 W의 각각의 채널들의 것과 적어도 거의 동일한 에너지들 및 분산들을 갖는다. 웨트 업믹스부(103)는 역상관된 신호 Z뿐만 아니라 웨트 업믹스 계수들 P를 수신하고 웨트 업믹스 계수들 P에 따라, 즉 웨트 업믹스 신호가 PZ로 표시되는 식(2)에 따라 역상관된 신호 Z를 선형으로 맵핑함으로써 웨트 업믹스 신호를 계산한다. 드라이 업믹스부(104)는 드라이 업믹스 계수들 C를 수신하고, 사전-곱셈기(101)과 동시에, 또한 다운믹스 신호 Y의 시간/주파수 타일을 수신한다. 드라이 업믹스부(103)는 식(2)에서 CY로 표시되고, 드라이 업믹스 계수들 C의 세트에 따라 다운믹스 신호 Y를 선형으로 맵핑함으로써 계산된 드라이 업믹스 신호를 출력한다. 조합부(105)는 드라이 업믹스 신호 CY 및 웨트 업믹스 신호 PZ를 수신하고 이들 신호를 조합하여 재구성될 복수의 오디오 신호들 X의 시간/주파수 타일에 대응하는 다차원 재구성된 신호
Figure 112016037414774-pct00062
를 획득한다. 본 예시적인 실시예에서, 조합부(105)는 식(2)에 따라, 드라이 업믹스 신호 CY의 각각의 채널들의 오디오 콘텐츠를 웨트 업믹스 신호 PZ의 각각의 채널들과 조합함으로써 다차원 재구성된 신호
Figure 112016037414774-pct00063
를 획득한다. 파라메트릭 재구성부(100)는 웨트 업믹스 계수들 P 및 드라이 업믹스 계수들 C를 수신하고, 식(5)에 의해 주어진 미리 정해진 규칙에 따라, 계수들의 제1 세트, 즉, 사전-역상관 계수들 Q를 계산하고, 계수들 Q의 제1 세트를 사전-곱셈기(101)에 공급하는 컨버터(106)를 더 포함한다.
본 예시적인 실시예에서, 파라메트릭 재구성부(100)는 선택적으로 보간을 이용할 수 있다. 예를 들어, 파라메트릭 재구성부(100)는 각각의 값이 특정한 앵커 점과 관련된 웨트 및 드라이 업믹스 계수들 P, C의 복수의 값을 수신할 수 있다. 컨버터(106)는 2개의 연속하는 앵커 점들과 관련된, 웨트 및 드라이 업믹스 계수들 P, C의 값들에 기초하여, 계수들 Q의 제1 세트의 대응하는 값들을 계산한다. 계산된 값들은 예를 들어, 이미 계산된 계수들 Q의 제1 세트의 값들에 기초하여 연속하는 앵커 점들 사이에 포함되는 적어도 하나의 시점에 대한 계수들 Q의 제1 세트의 값을 보간함으로써, 2개의 연속하는 앵커 점들 간에 계수들 Q의 제1 세트의 보간을 수행하는 제1 보간기(107)에 공급된다. 이용되는 보간 방식은 예를 들어 선형 보간일 수 있다. 대안적으로, 스팁(steep) 보간이 이용될 수 있는데, 여기서 계수들 Q의 제1 세트에 대한 이전의 값들이 예를 들어, 비트스트림 B에서 인코드된 메타데이터에서 표시된 소정의 시점까지 계속 사용되다가, 계수들 Q의 제1 세트에 대한 새로운 값들이 이전의 값들을 대체한다. 보간은 또한 웨트 및 드라이 업믹스 계수들 P, C 자체들에 대해 사용될 수 있다. 제2 보간기(108)는 웨트 업믹스 계수들의 다중 값들을 수신할 수 있고 웨트 업믹스 계수들 P를 웨트 업믹스부(103)에 공급하기 전에 시간 보간을 수행할 수 있다. 유사하게 제3 보간기(109)는 드라이 업믹스 계수들 C의 다중 값들을 수신할 수 있고 드라이 업믹스 계수들 C를 드라이 업믹스부(104)에 공급하기 전에 시간 보간을 수행할 수 있다. 웨트 및 드라이 업믹스 계수들 P, C에 대해 이용된 보간 방식은 계수들 Q의 제1 세트에 대해 이용된 것과 동일한 보간 방식일 수 있거나, 상이한 보간 방식일 수 있다.
도 2는 예시적인 실시예에 따른 오디오 디코딩 시스템(200)의 일반화된 블록도이다. 오디오 디코딩 시스템(200)은 도 1을 참조하여 설명된 파라메트릭 재구성부(100)를 포함한다. 예를 들어, 디멀티플렉서를 포함하는 수신부(201)는 도 4를 참조하여 설명된 오디오 인코딩 시스템(400)으로부터 송신된 비트스트림 B를 수신하고, 비트스트림 B로부터 다운믹스 신호 Y 및 관련된 드라이 업믹스 계수들 C 및 웨트 업믹스 계수들 P를 추출한다. 다운믹스 신호 Y가 돌비 디지털 또는 MPEG AAC와 같은 지각적 오디오 코덱을 사용하여 비트스트림 B에서 인코드되는 경우에, 오디오 디코딩 시스템(200)은 비트스트림 B로부터 추출될 때 다운믹스 신호 Y를 디코드하도록 구성된 코어 디코더(도 2에 도시 안됨)를 포함할 수 있다. 변환부(202)는 역 MDCT를 수행함으로써 다운믹스 신호 Y를 변환하고 QMF 분석부(203)는 다운믹스 신호 Y를 시간/주파수 타일들의 형태로 다운믹스 신호 Y의 파라메트릭 재구성부(100)에 의한 처리를 위해 QMF 도메인으로 변환한다. 역양자화부들(204 및 205)은 그들을 파라메트릭 재구성부(100)에 공급하기 전에, 예를 들어, 엔트로피 코딩된 포맷으로부터, 드라이 업믹스 계수들 C 및 웨트 업믹스 계수들 P를 역양자화한다. 도 4를 참조하여 설명된 바와 같이, 양자화는 2개의 상이한 단계 크기들 중 하나, 예를 들어, 0.1 또는 0.2로 수행될 수 있을 것이다. 이용된 실제 단계 크기는 미리 정해질 수 있거나, 예를 들어, 비트스트림 B를 통해, 인코더 측으로부터 오디오 디코딩 시스템(200)에 시그널될 수 있다.
본 예시적인 실시예에서, 파라메트릭 재구성부(100)에 의해 출력된 다차원 재구성된 오디오 신호
Figure 112016037414774-pct00064
는 QMF 합성부(206)에 의해 QMF 도메인으로부터 다시 변환되고 다음에 렌더러(renderer)(207)에 제공된다. 본 예시적인 실시예에서, 재구성될 오디오 신호들 X는 시변 공간적 위치들과 관련된 오디오 오브젝트 신호들을 포함한다. 오디오 오브젝트들을 위한 공간적 로케이터들을 포함하는 렌더링 메타데이터 R은 인코더 측 상에서 비트스트림 B에서 인코드될 수 있을 것이고, 수신부(201)는 렌더링 메타데이터 R을 추출하여 그것을 렌더더(207)에 제공할 수 있다. 재구성된 오디오 신호
Figure 112016037414774-pct00065
및 렌더링 메타데이터 R에 기초하여, 렌더러(207)는 멀티 스피커 시스템(208) 상에서 재생하기 위해 적합한 포맷으로 렌더러(207)의 채널들을 출력하기 위해 재구성된 오디오 신호들
Figure 112016037414774-pct00066
를 렌더한다. 렌더러(207)는 예를 들어 오디오 디코딩 시스템(200) 내에 포함될 수 있거나, 오디오 디코딩 시스템(200)으로부터의 입력 데이터를 수신하는 별도의 디바이스일 수 있다.
Ⅲ. 등가물들, 확장들, 대안들 및 여러 종류
본 개시의 다른 실시예들은 본 기술 분야의 통상의 기술자가 상기 설명을 연구한 후에 분명해질 것이다. 본 설명 및 도면이 실시예들 및 예들을 개시하지만, 이 개시는 이들 특정한 예에 한정되지 않는다. 다양한 수정들 및 변형들이 첨부된 청구 범위에 의해 정의되는, 본 개시의 범위에서 벗어나지 않고서 이루어질 수 있다. 청구 범위에 나오는 어떤 참조 부호들은 그들의 범위를 제한하는 것으로 이해되어서는 안된다.
추가적으로, 개시된 실시예들에 대한 변형들은 도면, 개시 및 첨부된 청구 범위의 연구로부터, 본 개시를 실시하는 데 있어서 통상의 기술자에 의해 이해되고 수행될 수 있다. 단어 "포함하는"은 다른 요소들 또는 단계들을 배제하지 않고, 단수 표현은 복수를 배제하지 않는다. 소정의 수단들이 서로 상이한 종속 청구항들에서 열거된다는 단순한 사실은 이들 수단의 조합이 유리하게 이용될 수 없다는 것을 의미하지 않는다.
위에 개시된 디바이스들 및 방법들은 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합으로서 구현될 수 있다. 하드웨어 구현에서, 상기 설명에서 참조된 기능적 유닛들 간의 작업들의 분할은 반드시 물리적 유닛들로의 분할에 대응하지 않고; 반대로, 하나의 물리적 소자는 다중 기능들을 가질 수 있고, 하나의 작업은 여러 물리적 소자들에 의해 협력하여 수행될 수 있다. 소정의 소자들 또는 모든 소자들은 디지털 신호 프로세서 또는 마이크로프로세서에 의해 실행되는 소프트웨어로서 구현될 수 있거나, 하드웨어로서 또는 주문형 집적 회로로서 구현될 수 있다. 이러한 소프트웨어는 컴퓨터 저장 매체(또는 비일시적인 매체) 및 통신 매체(또는 일시적인 매체)를 포함할 수 있는, 컴퓨터 판독가능 매체 상에 분배될 수 있다. 본 기술 분야의 통상의 기술자에게 널리 공지된 바와 같이, 컴퓨터 저장 매체라는 용어는 컴퓨터 판독가능 명령어들, 데이터 구조들, 프로그램 모듈들 또는 다른 데이터와 같은 정보의 저장을 위한 어떤 방법 또는 기술에서 구현되는 휘발성 및 비휘발성, 착탈식 및 비착탈식 매체 모두를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 다른 메모리 기술, CD-ROM, 디지털 다기능 디스크들(DVD) 또는 다른 광학 디스크 스토리지, 자기 카세트들, 자기 테이프, 자기 디스크 스토리지 또는 다른 자기 저장 디바이스들, 또는 원하는 정보를 저장하는 데 사용될 수 있고 컴퓨터에 의해 액세스될 수 있는 기타 매체를 포함하지만, 이들로 제한되지 않는다. 또한, 통신 매체는 전형적으로 컴퓨터 판독가능 명령어들, 데이터 구조들, 프로그램 모듈들 또는 다른 데이터를 반송파 또는 다른 이송 메커니즘과 같은 변조된 데이터 신호로 실시하고 어떤 정보 전달 매체를 포함한다는 것은 통상의 기술자에게 널리 공지되어 있다.

Claims (20)

  1. 복수의 오디오 신호(X)를 재구성하는 방법으로서,
    웨트 및 드라이 업믹스 계수들(wet and dry upmix coefficients)과 함께 다운믹스 신호(Y)의 시간/주파수 타일(time/frequency tile)을 수신하는 단계 - 상기 웨트 업믹스 계수들은 상기 다운믹스 신호의 역상관된 버전으로부터 도출되고 상기 드라이 업믹스 계수들은 상기 다운믹스 신호로부터 도출되며, 상기 다운믹스 신호는 재구성될 오디오 신호들의 수보다 적은 채널들을 포함함 -;
    상기 다운믹스 신호의 선형 맵핑으로서, 중간 신호(W)를 계산하는 단계 - 계수들의 제1 세트(Q)가 상기 다운믹스 신호의 채널들에 적용됨 -;
    상기 중간 신호의 하나 이상의 채널을 처리함으로써 역상관된 신호(decorrelated signal)(Z)를 발생하는 단계;
    상기 역상관된 신호의 선형 맵핑으로서 웨트 업믹스 신호를 계산하는 단계 - 계수들의 제2 세트(P)가 상기 역상관된 중간 신호의 하나 이상의 채널에 적용됨 -;
    상기 다운믹스 신호의 선형 맵핑으로서 드라이 업믹스 신호를 계산하는 단계 - 계수들의 제3 세트(C)가 상기 다운믹스 신호의 채널들에 적용됨 -; 및
    상기 웨트 업믹스 신호와 상기 드라이 업믹스 신호를 조합하여, 재구성될 상기 복수의 오디오 신호의 시간/주파수 타일에 대응하는 다차원 재구성된 신호(
    Figure 112017048839318-pct00075
    )를 획득하는 단계
    를 포함하고,
    상기 계수들의 제2 및 제3 세트들(P, C)은 각각 상기 수신된 웨트 및 드라이 업믹스 계수들과 일치하거나 그로부터 도출되고;
    상기 방법은, 상기 역상관된 신호로 처리될 상기 중간 신호가 상기 드라이 업믹스 신호의 선형 맵핑에 의해 획득되도록 상기 수신된 웨트 및 드라이 업믹스 계수들에 기초하여 상기 계수들의 제1 세트(Q)를 계산하는 단계를 포함하는 방법.
  2. 제1항에 있어서, 상기 중간 신호는 상기 웨트 업믹스 계수들의 절대값들인 계수들의 세트를 적용함으로써 상기 드라이 업믹스 신호를 맵핑함으로써 획득가능한 방법.
  3. 제1항 또는 제2항에 있어서, 상기 계수들의 제1 세트는 미리 정해진 규칙에 따라 상기 웨트 업믹스 계수들을 처리하고, 상기 처리된 웨트 업믹스 계수들과 상기 드라이 업믹스 계수들을 곱함으로써 계산되는 방법.
  4. 제3항에 있어서, 상기 웨트 업믹스 계수들을 처리하기 위한 상기 미리 정해진 규칙은 요소별 절대값 연산(element-wise absolute value operation)을 포함하는 방법.
  5. 제4항에 있어서, 상기 웨트 및 드라이 업믹스 계수들은 각각의 행렬들로서 배열되고, 상기 웨트 업믹스 계수들을 처리하기 위한 상기 미리 정해진 규칙은 모든 요소들의 요소별 절대값들을 계산하고 상기 요소들을 재배열하여 드라이 업믹스 계수들의 행렬과의 직접 행렬 곱셈을 가능하게 하는 것을 포함하는 방법.
  6. 제1항 또는 제2항에 있어서, 계산 및 조합하는 상기 단계들은 상기 신호들의 쿼드러처 미러 필터(quadrature mirror filter), QMF, 도메인 표현에 대해 수행되는 방법.
  7. 제1항 또는 제2항에 있어서, 상기 웨트 및 드라이 업믹스 계수들의 복수의 값이 수신되고, 각각의 값은 앵커 점(anchor point)과 관련되고, 상기 방법은
    2개의 연속하는 앵커 점들과 관련된 웨트 및 드라이 업믹스 계수들의 값들에 기초하여, 상기 계수들의 제1 세트의 대응하는 값들을 계산하는 단계,
    그 다음에, 이미 계산된 상기 계수들의 제1 세트의 값들에 기초하여 상기 연속하는 앵커 점들 사이에 포함된 적어도 하나의 시점에 대한 상기 계수들의 제1 세트의 값을 보간하는 단계를 더 포함하는 방법.
  8. 다운믹스 신호(Y)의 시간/주파수 타일과, 웨트 및 드라이 업믹스 계수들(P, C)을 수신하고, 복수의 오디오 신호(X)를 재구성하도록 적응된 파라메트릭 재구성부(100)를 갖는 오디오 디코딩 시스템(200)으로서, 상기 웨트 업믹스 계수들은 상기 다운믹스 신호의 역상관된 버전으로부터 도출되고 상기 드라이 업믹스 계수들은 상기 다운믹스 신호로부터 도출되며, 상기 다운믹스 신호는 재구성될 오디오 신호들의 수보다 적은 채널들을 갖고, 상기 파라메트릭 재구성부는
    상기 다운믹스 신호의 상기 시간/주파수 타일을 수신하고 계수들의 제1 세트(Q)에 따라 상기 다운믹스 신호를 선형으로 맵핑함으로써 계산된 중간 신호(W)를 출력하도록 구성된 사전-곱셈기(pre-multiplier)(101);
    상기 중간 신호를 수신하고, 그에 기초하여, 역상관된 신호(Z)를 출력하도록 구성된 역상관부(decorrelating section)(102);
    상기 역상관된 신호뿐만 아니라 상기 웨트 업믹스 계수들(P)을 수신하고, 상기 웨트 업믹스 계수들에 따라 상기 역상관된 신호를 선형으로 맵핑함으로써 웨트 업믹스 신호를 계산하도록 구성된 웨트 업믹스부(wet upmix section)(103);
    상기 드라이 업믹스 계수들(C)을, 그리고 상기 사전-곱셈기와 동시에 상기 다운믹스 신호의 상기 시간/주파수 타일을 수신하고, 상기 드라이 업믹스 계수들에 따라 상기 다운믹스 신호를 선형으로 맵핑함으로써 계산된 드라이 업믹스 신호를 출력하도록 구성된 드라이 업믹스부(dry upmix section)(104); 및
    상기 웨트 업믹스 신호 및 상기 드라이 업믹스 신호를 수신하고 이들 신호를 조합하여, 재구성될 상기 복수의 오디오 신호의 시간/주파수 타일에 대응하는 다차원 재구성된 신호(
    Figure 112017048839318-pct00076
    )를 획득하도록 구성된 조합부(105)
    를 포함하고,
    상기 파라메트릭 재구성부는 상기 웨트 및 드라이 업믹스 계수들을 수신하고, 미리 정해진 규칙에 따라, 상기 계수들의 제1 세트(Q)를 계산하고 이것을 상기 사전-곱셈기에 공급하도록 구성된 컨버터(106)를 더 포함하고,
    상기 사전-곱셈기는 상기 드라이 업믹스 신호의 선형 맵핑에 의해 상기 중간 신호를 획득하도록 추가로 구성되는 오디오 디코딩 시스템(200).
  9. 파라메트릭 재구성을 위해 사용될 데이터로서 복수의 오디오 신호(X)를 인코딩하는 방법으로서,
    상기 복수의 오디오 신호의 시간/주파수 타일을 수신하는 단계;
    다운믹싱 규칙에 따라 상기 오디오 신호들의 선형 조합들을 형성함으로써 다운믹스 신호(Y)를 계산하는 단계 - 상기 다운믹스 신호는 재구성될 오디오 신호들의 수보다 적은 채널들을 포함함 -;
    상기 시간/주파수 타일에서 인코드될 상기 오디오 신호들을 근사화하는 상기 다운믹스 신호의 선형 맵핑을 정의하기 위해 드라이 업믹스 계수들(C)을 결정하는 단계;
    수신된 상기 오디오 신호들의 공분산 및 상기 다운믹스 신호의 상기 선형 맵핑에 의해 근사화된 상기 오디오 신호들의 공분산에 기초하여 웨트 업믹스 계수들(P)을 결정하는 단계; 및
    그들 자신의 계수들이 상기 오디오 신호들의 파라메트릭 재구성의 부분으로서 사전-역상관 선형 맵핑(pre-decorrelation linear mapping)을 정의하는 계수들(Q)의 추가 세트의 미리 정해진 규칙에 따라 디코더측 계산을 가능하게 하는, 상기 웨트 및 드라이 업믹스 계수들과 함께 상기 다운믹스 신호를 출력하는 단계
    를 포함하고,
    상기 웨트 업믹스 계수들은,
    상기 다운믹스 신호의 상기 선형 맵핑에 의해 근사화된 상기 오디오 신호들의 공분산과 수신된 상기 오디오 신호들의 공분산 간의 차이에 기초하여 목표 공분산(target covariance)을 설정하고;
    행렬과 그 자신의 전치(transpose)의 곱으로서 상기 목표 공분산을 분해(decomposing)함으로써 결정되고, 상기 행렬의 요소들은 컬럼별 리스케일링(column-wise rescaling) 후에, 상기 웨트 업믹스 계수들에 대응하는 방법.
  10. 제9항에 있어서, 상기 오디오 신호들의 복수의 시간/주파수 타일이 수신되고, 상기 다운믹스 신호는 미리 정해진 다운믹싱 규칙에 따라 균일하게 계산되는 방법.
  11. 제9항에 있어서, 상기 오디오 신호들의 복수의 시간/주파수 타일들이 수신되고, 상기 다운믹스 신호는 신호-적응 다운믹싱 규칙(signal-adaptive downmixing rule)에 따라 계산되는 방법.
  12. 제9항 내지 제11항 중 어느 한 항에 있어서, 상기 목표 공분산이 분해되는 상기 행렬의 컬럼별 리스케일링을 더 포함하고, 상기 컬럼별 리스케일링은 상기 다운믹스 신호에의 상기 사전-역상관 선형 맵핑의 적용으로부터 생기는 각각의 신호의 분산이 상기 사전-역상관 선형 맵핑을 정의하는 계수들이 미리 정해진 규칙에 따라 계산되는 경우에 상기 컬럼별 리스케일링에서 이용된 대응하는 리스케일링 팩터의 역제곱과 동일한 것을 보증하는 방법.
  13. 제12항에 있어서, 상기 미리 정해진 규칙은 상기 계수들의 추가 세트와 상기 웨트 업믹스 계수들 간의 선형 스케일링 관계를 함축하고, 상기 컬럼별 리스케일링은 -1/4로 멱승된 행렬 곱
    Figure 112017048839318-pct00077

    의 대각선 부분에 의한 곱셈에 해당하고, 여기서 abs V는 상기 목표 공분산이 분해되는 상기 행렬의 요소별 절대값을 나타내고,
    Figure 112017048839318-pct00078
    는 상기 다운믹스 신호의 상기 선형 맵핑에 의해 근사화된 상기 오디오 신호들의 상기 공분산에 대응하는 행렬인 방법.
  14. 제9항 내지 제11항 중 어느 한 항에 있어서, 상기 목표 공분산은 상기 목표 공분산과 상기 다운믹스 신호의 상기 선형 맵핑에 의해 근사화된 상기 오디오 신호들의 공분산의 합이 수신된 상기 오디오 신호들의 공분산에 근사하도록 선택되는 방법.
  15. 제9항 내지 제11항 중 어느 한 항에 있어서,
    수신된 상기 오디오 신호들의 추정된 총 에너지와 상기 다운믹스 신호, 상기 웨트 업믹스 계수들 및 상기 드라이 업믹스 계수들에 기초하여 파라메트릭하게 재구성된(parametrically reconstructed) 오디오 신호들의 추정된 총 에너지의 비율을 결정하고;
    상기 비율의 역제곱근으로 상기 드라이 업믹스 계수들을 리스케일링함으로써
    에너지 보상을 수행하는 단계를 더 포함하고,
    상기 리스케일된 드라이 업믹스 계수들은 상기 다운믹스 신호 및 상기 웨트 업믹스 계수들과 함께 출력되는 방법.
  16. 파라메트릭 재구성을 위해 사용될 데이터로서 복수의 오디오 신호(X)를 인코드하도록 적응된 파라메트릭 인코딩부(300)를 포함하는 오디오 인코딩 시스템(400)으로서, 상기 파라메트릭 인코딩부는
    상기 복수의 오디오 신호의 시간/주파수 타일을 수신하고 다운믹싱 규칙에 따라 상기 오디오 신호들의 선형 조합들을 형성함으로써 다운믹스 신호(Y)를 계산하도록 구성된 다운믹스부(301) - 상기 다운믹스 신호는 재구성될 오디오 신호들의 수보다 적은 채널을 포함함 -;
    상기 시간/주파수 타일에서 인코드될 상기 오디오 신호들을 근사화하는 상기 다운믹스 신호의 선형 맵핑을 정의하기 위해 드라이 업믹스 계수들(C)을 결정하도록 구성된 제1 분석부(302); 및
    수신된 상기 오디오 신호들의 공분산 및 상기 다운믹스 신호의 상기 선형 맵핑에 의해 근사화된 상기 오디오 신호들의 공분산에 기초하여 웨트 업믹스 계수들(P)을 결정하도록 구성된 제2 분석부(303)
    를 포함하고,
    상기 파라메트릭 인코딩부는 그들 자신의 계수들이 상기 오디오 신호들의 파라메트릭 재구성의 부분으로서 사전-역상관 선형 맵핑을 정의하는 계수들(Q)의 추가 세트의 미리 정해진 규칙에 따라 디코더측 계산을 가능하게 하는, 상기 웨트 및 드라이 업믹스 계수들과 함께 상기 다운믹스 신호를 출력하도록 구성되고,
    상기 제2 분석부(303)는
    상기 다운믹스 신호의 상기 선형 맵핑에 의해 근사화된 상기 오디오 신호들의 공분산과 수신된 상기 오디오 신호들의 공분산 간의 차이에 기초하여 목표 공분산을 설정하고;
    행렬과 그 자신의 전치(transpose)의 곱으로서 상기 목표 공분산을 분해함으로써 상기 웨트 업믹스 계수들을 결정하도록 추가로 구성되고, 상기 행렬의 요소들은 컬럼별 리스케일링 후에, 상기 웨트 업믹스 계수들에 대응하는 오디오 인코딩 시스템(400).
  17. 제1항, 제2항 및 제9항 내지 제11항 중 어느 한 항의 방법을 수행하기 위한 명령어들을 갖는 컴퓨터 판독가능한 기록매체.
  18. 제1항, 제2항 및 제9항 내지 제11항 중 어느 한 항에 있어서,
    상기 복수의 오디오 신호 중 적어도 하나는 공간적 로케이터(spatial locator)와 관련된 오디오 오브젝트 신호에 관련하는 방법.
  19. 제8항 또는 제16항에 있어서,
    상기 복수의 오디오 신호 중 적어도 하나는 공간적 로케이터와 관련된 오디오 오브젝트 신호에 관련하는 시스템.
  20. 제17항에 있어서,
    상기 복수의 오디오 신호 중 적어도 하나는 공간적 로케이터와 관련된 오디오 오브젝트 신호에 관련하는 컴퓨터 판독가능한 기록매체.
KR1020167010187A 2013-10-21 2014-10-21 오디오 신호들의 파라메트릭 재구성을 위한 역상관기 구조 KR101805327B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361893770P 2013-10-21 2013-10-21
US61/893,770 2013-10-21
US201461973646P 2014-04-01 2014-04-01
US61/973,646 2014-04-01
PCT/EP2014/072568 WO2015059152A1 (en) 2013-10-21 2014-10-21 Decorrelator structure for parametric reconstruction of audio signals

Publications (2)

Publication Number Publication Date
KR20160056324A KR20160056324A (ko) 2016-05-19
KR101805327B1 true KR101805327B1 (ko) 2017-12-05

Family

ID=51830286

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167010187A KR101805327B1 (ko) 2013-10-21 2014-10-21 오디오 신호들의 파라메트릭 재구성을 위한 역상관기 구조

Country Status (15)

Country Link
US (1) US9848272B2 (ko)
EP (1) EP3061088B1 (ko)
JP (1) JP6201047B2 (ko)
KR (1) KR101805327B1 (ko)
CN (1) CN105637581B (ko)
AU (1) AU2014339065B2 (ko)
BR (1) BR112016008426B1 (ko)
CA (1) CA2926243C (ko)
ES (1) ES2659019T3 (ko)
IL (1) IL244785B (ko)
MX (1) MX354832B (ko)
RU (1) RU2641463C2 (ko)
SG (1) SG11201602628TA (ko)
UA (1) UA117258C2 (ko)
WO (1) WO2015059152A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110447243B (zh) 2017-03-06 2021-06-01 杜比国际公司 基于音频数据流渲染音频输出的方法、解码器系统和介质
WO2018162472A1 (en) 2017-03-06 2018-09-13 Dolby International Ab Integrated reconstruction and rendering of audio signals
KR20220025108A (ko) 2019-06-14 2022-03-03 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 매개변수 인코딩 및 디코딩

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070233293A1 (en) 2006-03-29 2007-10-04 Lars Villemoes Reduced Number of Channels Decoding
WO2008131903A1 (en) 2007-04-26 2008-11-06 Dolby Sweden Ab Apparatus and method for synthesizing an output signal

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US6252965B1 (en) * 1996-09-19 2001-06-26 Terry D. Beard Multichannel spectral mapping audio apparatus and method
GB2343347B (en) 1998-06-20 2002-12-31 Central Research Lab Ltd A method of synthesising an audio signal
EP1881486B1 (en) 2002-04-22 2009-03-18 Koninklijke Philips Electronics N.V. Decoding apparatus with decorrelator unit
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
BRPI0409337A (pt) 2003-04-17 2006-04-25 Koninkl Philips Electronics Nv método e dispositivo para sintetizar um sinal de áudio de saìda com base em um sinal de áudio de entrada, aparelho para fornecer um sinal de áudio de saìda, e, produto de programa de computador
US7394903B2 (en) 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
ES2324926T3 (es) 2004-03-01 2009-08-19 Dolby Laboratories Licensing Corporation Descodificacion de audio multicanal.
SE0400998D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
SE0402652D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
SE0402649D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods of creating orthogonal signals
KR101183859B1 (ko) * 2004-11-04 2012-09-19 코닌클리케 필립스 일렉트로닉스 엔.브이. 다중채널 오디오 신호들의 인코딩 및 디코딩
ES2327158T3 (es) 2005-07-14 2009-10-26 Koninklijke Philips Electronics N.V. Codificacion y decodificacion de audio.
US8626503B2 (en) 2005-07-14 2014-01-07 Erik Gosuinus Petrus Schuijers Audio encoding and decoding
KR101228630B1 (ko) 2005-09-02 2013-01-31 파나소닉 주식회사 에너지 정형 장치 및 에너지 정형 방법
KR100888474B1 (ko) * 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
EP1969901A2 (en) 2006-01-05 2008-09-17 Telefonaktiebolaget LM Ericsson (publ) Personalized decoding of multi-channel surround sound
KR100803212B1 (ko) 2006-01-11 2008-02-14 삼성전자주식회사 스케일러블 채널 복호화 방법 및 장치
KR101218776B1 (ko) 2006-01-11 2013-01-18 삼성전자주식회사 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체
CN101401455A (zh) * 2006-03-15 2009-04-01 杜比实验室特许公司 使用子带滤波器的立体声呈现技术
KR101464977B1 (ko) 2007-10-01 2014-11-25 삼성전자주식회사 메모리 관리 방법, 및 멀티 채널 데이터의 복호화 방법 및장치
CN101933344B (zh) * 2007-10-09 2013-01-02 荷兰皇家飞利浦电子公司 用于产生双声道音频信号的方法及装置
US8091836B2 (en) * 2007-12-19 2012-01-10 Pratt & Whitney Rocketdyne, Inc. Rotary wing system with ion field flow control
RU2497204C2 (ru) 2008-05-23 2013-10-27 Конинклейке Филипс Электроникс Н.В. Устройство параметрического стереофонического повышающего микширования, параметрический стереофонический декодер, устройство параметрического стереофонического понижающего микширования, параметрический стереофонический кодер
EP2144229A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Efficient use of phase information in audio encoding and decoding
KR101108061B1 (ko) * 2008-09-25 2012-01-25 엘지전자 주식회사 신호 처리 방법 및 이의 장치
WO2010036062A2 (en) * 2008-09-25 2010-04-01 Lg Electronics Inc. A method and an apparatus for processing a signal
EP2175670A1 (en) 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
EP2214162A1 (en) * 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Upmixer, method and computer program for upmixing a downmix audio signal
EP2405425B1 (en) * 2009-04-08 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for upmixing a downmix audio signal using a phase value smoothing
EP2422344A1 (en) 2009-04-21 2012-02-29 Koninklijke Philips Electronics N.V. Audio signal synthesizing
PL2446435T3 (pl) * 2009-06-24 2013-11-29 Fraunhofer Ges Forschung Dekoder sygnału audio, sposób dekodowania sygnału audio i program komputerowy wykorzystujący kaskadowe etapy przetwarzania obiektów audio
US9105264B2 (en) 2009-07-31 2015-08-11 Panasonic Intellectual Property Management Co., Ltd. Coding apparatus and decoding apparatus
PL2491551T3 (pl) * 2009-10-20 2015-06-30 Fraunhofer Ges Forschung Urządzenie do dostarczania reprezentacji sygnału upmixu w oparciu o reprezentację sygnału downmixu, urządzenie do dostarczania strumienia bitów reprezentującego wielokanałowy sygnał audio, sposoby, program komputerowy i strumień bitów wykorzystujący sygnalizację sterowania zniekształceniami
EP2360681A1 (en) 2010-01-15 2011-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information
TWI516138B (zh) * 2010-08-24 2016-01-01 杜比國際公司 從二聲道音頻訊號決定參數式立體聲參數之系統與方法及其電腦程式產品
BR112013004362B1 (pt) * 2010-08-25 2020-12-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. aparelho para a geração de um sinal descorrelacionado utilizando informação de fase transmitida
WO2012045203A1 (en) 2010-10-05 2012-04-12 Huawei Technologies Co., Ltd. Method and apparatus for encoding/decoding multichannel audio signal
EP2477188A1 (en) * 2011-01-18 2012-07-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding of slot positions of events in an audio signal frame
US9042867B2 (en) 2012-02-24 2015-05-26 Agnitio S.L. System and method for speaker recognition on mobile devices
EP2817802B1 (en) 2012-02-24 2016-12-07 Dolby International AB Audio processing
CN105393304B (zh) 2013-05-24 2019-05-28 杜比国际公司 音频编码和解码方法、介质以及音频编码器和解码器
KR102244379B1 (ko) * 2013-10-21 2021-04-26 돌비 인터네셔널 에이비 오디오 신호들의 파라메트릭 재구성

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070233293A1 (en) 2006-03-29 2007-10-04 Lars Villemoes Reduced Number of Channels Decoding
WO2008131903A1 (en) 2007-04-26 2008-11-06 Dolby Sweden Ab Apparatus and method for synthesizing an output signal

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Jonas Engdegard, et al. Spatial audio object coding (SAOC) - The upcoming MPEG standard on parametric object based audio coding. Audio Engineering Society Convention 124. 2008.05.20.

Also Published As

Publication number Publication date
KR20160056324A (ko) 2016-05-19
JP2016539358A (ja) 2016-12-15
MX354832B (es) 2018-03-21
CA2926243C (en) 2018-01-23
BR112016008426A2 (ko) 2017-08-01
CN105637581A (zh) 2016-06-01
UA117258C2 (uk) 2018-07-10
WO2015059152A1 (en) 2015-04-30
EP3061088A1 (en) 2016-08-31
AU2014339065B2 (en) 2017-04-20
CA2926243A1 (en) 2015-04-30
MX2016004918A (es) 2016-07-11
US20160261967A1 (en) 2016-09-08
US9848272B2 (en) 2017-12-19
RU2016115360A (ru) 2017-11-28
EP3061088B1 (en) 2017-12-27
CN105637581B (zh) 2019-09-20
IL244785A0 (en) 2016-04-21
ES2659019T3 (es) 2018-03-13
JP6201047B2 (ja) 2017-09-20
AU2014339065A1 (en) 2016-04-21
IL244785B (en) 2019-02-28
RU2641463C2 (ru) 2018-01-17
SG11201602628TA (en) 2016-05-30
BR112016008426B1 (pt) 2022-09-27

Similar Documents

Publication Publication Date Title
US11769516B2 (en) Parametric reconstruction of audio signals
US8964994B2 (en) Encoding of multichannel digital audio signals
KR100954179B1 (ko) 근접-투명 또는 투명 멀티-채널 인코더/디코더 구성
US8817991B2 (en) Advanced encoding of multi-channel digital audio signals
US20170249945A1 (en) Audio encoder and decoder
KR101805327B1 (ko) 오디오 신호들의 파라메트릭 재구성을 위한 역상관기 구조
JP2017537342A (ja) オーディオ信号のパラメトリック混合

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right