KR102688478B1 - Layered coding and data structure for compressed higher-order ambisonics sound or sound field representations - Google Patents
Layered coding and data structure for compressed higher-order ambisonics sound or sound field representations Download PDFInfo
- Publication number
- KR102688478B1 KR102688478B1 KR1020237017456A KR20237017456A KR102688478B1 KR 102688478 B1 KR102688478 B1 KR 102688478B1 KR 1020237017456 A KR1020237017456 A KR 1020237017456A KR 20237017456 A KR20237017456 A KR 20237017456A KR 102688478 B1 KR102688478 B1 KR 102688478B1
- Authority
- KR
- South Korea
- Prior art keywords
- layer
- hoa
- layers
- representation
- sound
- Prior art date
Links
- 238000000034 method Methods 0.000 claims abstract description 91
- 230000005540 biological transmission Effects 0.000 claims abstract description 75
- 239000013598 vector Substances 0.000 claims description 78
- 230000015572 biosynthetic process Effects 0.000 claims description 26
- 238000003786 synthesis reaction Methods 0.000 claims description 26
- 230000010076 replication Effects 0.000 claims description 13
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 2
- 230000011664 signaling Effects 0.000 abstract description 9
- 239000010410 layer Substances 0.000 description 465
- 230000006837 decompression Effects 0.000 description 22
- 230000001419 dependent effect Effects 0.000 description 20
- 239000002356 single layer Substances 0.000 description 14
- 230000000295 complement effect Effects 0.000 description 12
- 230000006835 compression Effects 0.000 description 7
- 238000007906 compression Methods 0.000 description 7
- 238000013459 approach Methods 0.000 description 5
- 230000003247 decreasing effect Effects 0.000 description 5
- 230000002265 prevention Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000012856 packing Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/301—Automatic calibration of stereophonic sound system, e.g. with test microphone
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
본 문서는 사운드 또는 음장의 압축된 고차 앰비소닉스(HOA) 표현의 프레임의 계층화된 인코딩 방법에 관한 것이다. 압축된 HOA 표현은 복수의 전송 신호들을 포함한다. 본 방법은 복수의 전송 신호들을 복수의 계층적 레이어들에 배정하는 단계 - 복수의 레이어들은 베이스 레이어 및 하나 이상의 계층적 향상 레이어를 포함함 -, 각각의 레이어에 대해, 각자의 레이어 및 각자의 레이어보다 하위인 임의의 레이어들에 배정된 전송 신호들로부터 획득가능한 재구성된 HOA 표현을 파라미터적으로 향상시키기 위한 보조 정보를 포함하는 각자의 HOA 확장 페이로드를 생성하는 단계, 생성된 HOA 확장 페이로드들을 그 각자의 레이어들에 배정하는 단계, 및 생성된 HOA 확장 페이로드들을 출력 비트스트림에서 시그널링하는 단계를 포함한다. 본 문서는 추가로 사운드 또는 음장의 압축된 HOA 표현의 프레임을 디코딩하는 방법, 압축된 HOA 표현의 계층화된 코딩을 위한 인코더 및 디코더, 그리고 사운드 또는 음장의 압축된 HOA 표현의 프레임을 표현하는 데이터 구조에 관한 것이다.This document relates to a method for layered encoding of frames of compressed higher-order ambisonics (HOA) representations of sounds or sound fields. The compressed HOA representation includes a plurality of transmitted signals. The method includes assigning a plurality of transmission signals to a plurality of hierarchical layers, the plurality of layers including a base layer and one or more hierarchical enhancement layers, for each layer, a respective layer and a respective layer. Generating respective HOA extension payloads containing auxiliary information for parametrically improving the reconstructed HOA representation obtainable from transmission signals assigned to lower arbitrary layers, the generated HOA extension payloads It includes assigning to the respective layers, and signaling the generated HOA extension payloads in the output bitstream. This document further describes a method for decoding a frame of a compressed HOA representation of a sound or sound field, an encoder and decoder for layered coding of a compressed HOA representation, and a data structure representing a frame of a compressed HOA representation of a sound or sound field. It's about.
Description
관련 출원의 상호 참조Cross-reference to related applications
본 출원은 2015년 10월 15일자로 출원된 유럽 특허 출원 제15306653.5호에 대한 우선권을 주장하고, 이 유럽 특허 출원은 참조에 의해 그 전체가 본원에 원용된다.This application claims priority to European Patent Application No. 15306653.5, filed October 15, 2015, which European Patent Application is hereby incorporated by reference in its entirety.
기술분야Technology field
본 문서는 계층화된 오디오 코딩을 위한 방법들 및 장치들에 관한 것이다. 상세하게는, 본 문서는 압축된 고차 앰비소닉스(Higher-Order Ambisonics)(HOA) 사운드(또는 음장) 표현들의 프레임들의 계층화된 오디오 코딩을 위한 방법들 및 장치들에 관한 것이다. 본 문서는 또한 압축된 HOA 사운드(또는 음장) 표현들의 프레임들을 표현하기 위한 데이터 구조들(예컨대, 비트스트림들)에 관한 것이다.This document relates to methods and devices for layered audio coding. Specifically, this document relates to methods and apparatus for layered audio coding of frames of compressed Higher-Order Ambisonics (HOA) sound (or sound field) representations. This document also relates to data structures (e.g., bitstreams) for representing frames of compressed HOA sound (or sound field) representations.
HOA 계층화된 코딩의 현재 정의에서, 특정 HOA 표현을 향상시키기 위해 공간 신호 예측, 서브대역 방향성 신호 합성 및 파라메트릭 앰비언스 복제(Parametric Ambience Replication)(PAR) 디코더와 같은 HOA 디코딩 도구들에 대한 보조 정보가 생성된다. 즉, 계층화된 HOA 코딩의 현재 정의에서, 제공된 데이터는 최상위 레이어(예컨대, 최상위 향상 레이어)의 HOA 표현을 적절히 확장시킬 뿐이다. 베이스 레이어를 비롯한 하위 레이어들에 대해, 이 도구들은 부분적으로 재구성된 HOA 표현을 적절히 향상시키지 못한다.In the current definition of HOA layered coding, auxiliary information about HOA decoding tools such as spatial signal prediction, subband directional signal synthesis, and Parametric Ambience Replication (PAR) decoder is provided to improve specific HOA representation. is created. That is, in the current definition of layered HOA coding, the provided data only appropriately extends the HOA representation of the top layer (e.g., top enhancement layer). For lower layers, including the base layer, these tools do not adequately enhance the partially reconstructed HOA representation.
서브대역 방향성 신호 합성 및 파라메트릭 앰비언스 복제 디코더와 같은 도구들은, 몇 개의 전송 신호만이 이용가능한, 낮은 데이터 레이트들을 위해 특별히 설계되어 있다. 그렇지만, HOA 계층화된 코딩에서, 특히, 베이스 레이어와 같은, 저 비트레이트 레이어들에 대해 (부분적으로) 재구성된 HOA 표현들의 적절한 향상이 가능하지 않다. 이것은 낮은 비트레이트들에서의 사운드 품질의 관점에서 볼 때 명백히 바람직하지 않다.Tools such as subband directional signal synthesis and parametric ambience replica decoder are specifically designed for low data rates, where only a few transmitted signals are available. However, in HOA layered coding, adequate enhancement of (partially) reconstructed HOA representations is not possible, especially for low bitrate layers, such as the base layer. This is clearly undesirable from the point of view of sound quality at low bitrates.
그에 부가하여, 벡터 기반 신호들에 대한 인코딩된 V-벡터 요소들을 처리하는 종래의 방식이, HOADecoderConfig()에서 1과 동일한 CodedVVecLength가 시그널링되는 경우(즉, 벡터 코딩 모드가 활성인 경우), 적절한 디코딩을 가져오지 않는다는 것이 밝혀졌다. 이 벡터 코딩 모드에서, ContAddHoaCoeff 세트에 포함된 HOA 계수 인덱스들에 대한 V-벡터 요소들이 전송되지 않는다. 이 세트는 0과 동일한 AmbCoeffTransitionState를 갖는 HOA 계수 인덱스들 AmbCoeffIdx[i] 전부를 포함한다. 종래에는, 이 인덱스들에 대한 원래의 HOA 계수 시퀀스가 명시적으로 송신(시그널링)되기 때문에 가중된 V-벡터 신호를 추가할 필요도 없다. 따라서 이 인덱스들에 대해 V-벡터 요소는 0으로 설정된다.In addition, the conventional way of processing encoded V-vector elements for vector-based signals is to ensure proper decoding if CodedVVecLength equal to 1 is signaled in HOADecoderConfig() (i.e. vector coding mode is active). It turns out that it doesn't bring . In this vector coding mode, V-vector elements for HOA coefficient indices included in the ContAddHoaCoeff set are not transmitted. This set contains all HOA coefficient indices AmbCoeffIdx[i] with AmbCoeffTransitionState equal to 0. Conventionally, there is no need to add a weighted V-vector signal because the original HOA coefficient sequence for these indices is explicitly transmitted (signaled). Therefore, for these indices the V-vector elements are set to 0.
그렇지만, 계층화된 코딩 모드에서, 연속적 HOA 계수 인덱스들의 세트는 현재 활성 레이어의 일부인 전송 채널들에 의존한다. 상위 레이어에서 송신되는 부가의 HOA 계수 인덱스들이 하위 레이어들에서 누락될 수 있다. 그러면, 상위 레이어들에 포함된 HOA 계수 시퀀스들에 속하는 HOA 계수 인덱스들에 대해, 벡터 신호가 HOA 계수 시퀀스에 기여해서는 안된다는 가정은 잘못된 것이다.However, in layered coding mode, the set of consecutive HOA coefficient indices depends on the transport channels that are currently part of the active layer. Additional HOA coefficient indices transmitted in upper layers may be missing in lower layers. Then, for HOA coefficient indices belonging to HOA coefficient sequences included in upper layers, the assumption that the vector signal should not contribute to the HOA coefficient sequence is incorrect.
그 결과, 계층화된 HOA 코딩에서의 V-벡터가 최상위 레이어 아래의 임의의 레이어들의 디코딩에는 적당하지 않을 수 있다.As a result, the V-vector in layered HOA coding may not be suitable for decoding any layers below the top layer.
따라서, 사운드 또는 음장의 압축된 HOA 표현들의 계층화된 코딩에 적합화된 코딩 스킴(coding scheme)들 및 비트스트림들이 필요하다.Accordingly, there is a need for coding schemes and bitstreams adapted for layered coding of compressed HOA representations of sound or sound fields.
본 문서는 이상의 문제들을 다룬다. 상세하게는, 압축된 HOA 사운드 또는 음장 표현들의 프레임들의 계층화된 코딩을 위한 방법들 및 인코더들/디코더들은 물론 압축된 HOA 사운드 또는 음장 표현들의 프레임들을 표현하기 위한 데이터 구조들이 기술된다.This document addresses the above issues. In detail, methods and encoders/decoders for layered coding of frames of compressed HOA sound or sound field representations as well as data structures for representing frames of compressed HOA sound or sound field representations are described.
일 양태에 따르면, 사운드 또는 음장의 압축된 고차 앰비소닉스(HOA) 표현의 프레임의 계층화된 인코딩 방법이 기술된다. 압축된 HOA 표현은 초안 MPEG-H 3D 오디오 표준 및 임의의 다른 향후 채택되는 또는 초안 표준들을 준수한다. 압축된 HOA 표현은 복수의 전송 신호들을 포함할 수 있다. 전송 신호들은, 예컨대, HOA 표현의 우세 사운드 신호들 또는 계수 시퀀스들 중 어느 하나를 나타내는, 모노럴 신호들에 관련되어 있을 수 있다. 본 방법은 복수의 전송 신호들을 복수의 계층적 레이어들에 배정하는 단계를 포함할 수 있다. 예를 들어, 전송 신호들이 복수의 레이어들에 분배될 수 있다. 복수의 레이어들은 베이스 레이어 및 하나 이상의 계층적 향상 레이어를 포함할 수 있다. 복수의 계층적 레이어들은 베이스 레이어로부터 제1 향상 레이어, 제2 향상 레이어 등을 거쳐 전체 최상위(overall highest) 향상 레이어(전체 최상위 레이어)까지 순서화될 수 있다. 본 방법은, 각각의 레이어에 대해, 각자의 레이어 및 각자의 레이어보다 하위인 임의의 레이어들에 배정된 전송 신호들로부터 획득가능한 재구성된 HOA 표현을 파라미터적으로 향상시키기 위한 보조 정보(예컨대, 향상 보조 정보)를 포함하는 각자의 HOA 확장 페이로드를 생성하는 단계를 추가로 포함할 수 있다. 하위 레이어들에 대한 재구성된 HOA 표현들은 부분적으로 재구성된 HOA 표현들이라고 지칭될 수 있다. 본 방법은 생성된 HOA 확장 페이로드들을 그 각자의 레이어들에 배정하는 단계를 추가로 포함할 수 있다. 본 방법은 또한 생성된 HOA 확장 페이로드들을 출력 비트스트림에서 시그널링하는 단계를 추가로 포함할 수 있다. HOA 확장 페이로드들은 HOAEnhFrame() 페이로드에서 시그널링될 수 있다. 따라서, 보조 정보가 HOAFrame()으로부터 HOAEnhFrame()으로 이동될 수 있다.According to one aspect, a method for layered encoding of frames of a compressed higher-order ambisonics (HOA) representation of a sound or sound field is described. The compressed HOA representation complies with the draft MPEG-H 3D audio standard and any other future adopted or draft standards. The compressed HOA representation may include a plurality of transmitted signals. The transmission signals may relate to monaural signals, for example, representing either the dominant sound signals or the coefficient sequences of the HOA representation. The method may include assigning a plurality of transmission signals to a plurality of hierarchical layers. For example, transmission signals may be distributed to multiple layers. The plurality of layers may include a base layer and one or more hierarchical enhancement layers. The plurality of hierarchical layers may be ordered from the base layer, through the first enhancement layer, the second enhancement layer, etc., to the overall highest enhancement layer (overall highest layer). The method provides, for each layer, auxiliary information (e.g., enhancement) to parametrically improve the reconstructed HOA representation obtainable from transmission signals assigned to each layer and any layers lower than each layer. A step of generating each HOA extension payload containing auxiliary information may be additionally included. Reconstructed HOA representations for lower layers may be referred to as partially reconstructed HOA representations. The method may additionally include the step of assigning the generated HOA extension payloads to their respective layers. The method may also further include signaling the generated HOA extension payloads in the output bitstream. HOA extension payloads can be signaled in the HOAEnhFrame() payload. Accordingly, auxiliary information can be moved from HOAFrame() to HOAEnhFrame().
이상과 같이 구성될 때, 제안된 방법은 낮은 비트레이트들에서도 고품질의 디코딩을 가능하게 하기 위해 압축된 HOA 표현들(의 프레임)에 계층화된 코딩을 적용한다. 상세하게는, 제안된 방법은 각각의 레이어가 현재 레이어까지의 임의의 레이어들에서의 전송 신호들로부터 획득된 (부분적으로) 재구성된 사운드 표현을 향상시키기 위한 적당한 HOA 확장 페이로드(예컨대, 향상 보조 정보)를 포함하도록 보장한다. 거기에서, 현재 레이어까지의 레이어들이란 현재 레이어까지의, 예를 들어, 베이스 레이어, 제1 향상 레이어, 제2 향상 레이어 등을 포함하는 것으로 이해된다. 거기에서, 현재 레이어까지의 레이어들이란 현재 레이어까지의, 예를 들어, 베이스 레이어, 제1 향상 레이어, 제2 향상 레이어 등을 포함하는 것으로 이해된다. 예를 들어, 디코더는, 베이스 레이어에 배정된 HOA 확장 페이로드를 참조하여, 베이스 레이어로부터 획득된 (부분적으로) 재구성된 사운드 표현을 향상시킬 수 있을 것이다. 종래의 접근법에서는, 최상위 향상 레이어의 재구성된 HOA 표현만이 HOA 확장 페이로드에 의해 향상될 수 있을 것이다. 따라서, 실제의 최상위 사용가능 레이어(예컨대, 최상위 사용가능 레이어 아래의 레이어들 전부 및 최상위 사용가능 레이어 자체가 유효하게 수신되도록, 유효하게 수신되지 않은 최하위 레이어 아래의 레이어)에 상관없이, 디코더는, (부분적으로) 재구성된 사운드 표현이 완전한(complete)(예컨대, 전체(full)) 사운드 표현과 상이할 수 있을지라도, 재구성된 사운드 표현을 개선 또는 향상시킬 수 있을 것이다. 상세하게는, 실제의 최상위 사용가능 레이어에 상관없이, 디코더가 실제의 최상위 사용가능 레이어까지의 레이어들에 포함된 전송 신호들 전부에 기초하여 획득가능한 (부분적으로) 재구성된 사운드 표현을 개선 또는 향상시키기 위해 단일 레이어만에 대한(즉, 최상위 사용가능 레이어에 대한) HOA 확장 페이로드를 디코딩하는 것으로 충분하다. 상위 또는 하위 레이어들의 HOA 확장 페이로드들을 디코딩하는 것이 요구되지 않는다. 다른 한편으로, 제안된 방법은 계층화된 코딩을 적용할 때 달성될 수 있는 요구 대역폭의 감소를 충분히 이용하는 것을 가능하게 한다.When configured as above, the proposed method applies layered coding to (frames of) compressed HOA representations to enable high-quality decoding even at low bitrates. In detail, the proposed method allows each layer to load a suitable HOA extension payload (e.g., enhancement assistance) to enhance the (partially) reconstructed sound representation obtained from the transmitted signals in any layers up to the current layer. information) is included. There, the layers up to the current layer are understood to include, for example, a base layer, a first enhancement layer, a second enhancement layer, etc., up to the current layer. There, the layers up to the current layer are understood to include, for example, a base layer, a first enhancement layer, a second enhancement layer, etc., up to the current layer. For example, the decoder may refer to the HOA extension payload assigned to the base layer to enhance the (partially) reconstructed sound representation obtained from the base layer. In conventional approaches, only the reconstructed HOA representation of the top enhancement layer would be enhanced by the HOA extension payload. Therefore, regardless of the actual highest available layer (e.g., the layer below the lowest available layer that has not been validly received, such that all of the layers below the highest available layer and the highest available layer itself are received validly), the decoder must: Although the (partially) reconstructed sound representation may differ from the complete (e.g., full) sound representation, it may be possible to improve or enhance the reconstructed sound representation. Specifically, regardless of the actual highest available layer, the decoder improves or enhances the (partially) reconstructed sound representation obtainable based on all of the transmitted signals contained in the layers up to the actual highest available layer. To achieve this, it is sufficient to decode the HOA extension payload for a single layer only (i.e. for the highest available layer). It is not required to decode HOA extension payloads of upper or lower layers. On the other hand, the proposed method makes it possible to fully exploit the reduction in required bandwidth that can be achieved when applying layered coding.
실시예들에서, 본 방법은 각자의 에러 방지 레벨들로 복수의 레이어들에 대한 데이터 페이로드들을 전송하는 단계를 추가로 포함할 수 있다. 데이터 페이로드들은 각자의 HOA 확장 페이로드들을 포함할 수 있다. 베이스 레이어는 가장 높은 에러 방지를 가질 수 있고 하나 이상의 향상 레이어는 순차적으로 감소하는 에러 방지를 가질 수 있다. 그에 의해, 적어도 다수의 하위 레이어들이 신뢰성있게 전송되면서, 다른 한편으로 상위 레이어들에 과도한 에러 방지를 적용하지 않는 것에 의해 전체 요구 대역폭을 감소시키는 것이 보장될 수 있다.In embodiments, the method may further include transmitting data payloads for multiple layers with respective error protection levels. Data payloads may include respective HOA extension payloads. The base layer may have the highest error tolerance and one or more enhancement layers may have sequentially decreasing error tolerance. Thereby, it can be ensured that at least a number of lower layers are transmitted reliably, while on the other hand reducing the overall required bandwidth by not applying excessive error prevention to the upper layers.
실시예들에서, HOA 확장 페이로드들은 HOA 공간 신호 예측 디코딩 도구에 대한 비트스트림 요소들을 포함할 수 있다. 부가적으로 또는 대안적으로, HOA 확장 페이로드들은 HOA 서브대역 방향성 신호 합성 디코딩 도구에 대한 비트스트림 요소들을 포함할 수 있다. 부가적으로 또는 대안적으로, HOA 확장 페이로드들은 HOA 파라메트릭 앰비언스 복제 디코딩 도구에 대한 비트스트림 요소들을 포함할 수 있다.In embodiments, HOA extension payloads may include bitstream elements for an HOA spatial signal prediction decoding tool. Additionally or alternatively, HOA extension payloads may include bitstream elements for the HOA subband directional signal synthesis decoding tool. Additionally or alternatively, HOA extension payloads may include bitstream elements for the HOA parametric ambience replica decoding tool.
실시예들에서, HOA 확장 페이로드들은 ID_EXT_ELE_HOA_ENH_LAYER라는 usacExtElementType을 가질 수 있다.In embodiments, HOA extension payloads may have a usacExtElementType of ID_EXT_ELE_HOA_ENH_LAYER.
실시예들에서, 본 방법은, HOA 공간 신호 예측 디코딩 도구, HOA 서브대역 방향성 신호 합성 디코딩 도구, 및/또는 HOA 파라메트릭 앰비언스 복제 디코딩 도구를 구성하기 위한 비트스트림 요소들을 포함하는 HOA 구성 확장 페이로드를 생성하는 단계를 추가로 포함할 수 있다. HOA 구성 확장 페이로드는 HOADecoderEnhConfig()에 포함될 수 있다. 본 방법은 HOA 구성 확장 페이로드를 출력 비트스트림에서 시그널링하는 단계를 추가로 포함할 수 있다.In embodiments, the method includes an HOA configuration extension payload comprising bitstream elements for configuring an HOA spatial signal prediction decoding tool, an HOA subband directional signal synthesis decoding tool, and/or an HOA parametric ambience replica decoding tool. An additional step of generating may be included. HOA configuration extension payload can be included in HOADecoderEnhConfig(). The method may further include signaling the HOA configuration extension payload in the output bitstream.
실시예들에서, 본 방법은, HOA 확장 페이로드들을 복수의 레이어들에 배정하는 것을 표시하는 정보를 포함하는 HOA 디코더 구성 페이로드를 생성하는 단계를 추가로 포함할 수 있다. 본 방법은 HOA 디코더 구성 페이로드를 출력 비트스트림에서 시그널링하는 단계를 추가로 포함할 수 있다.In embodiments, the method may further include generating an HOA decoder configuration payload that includes information indicating assignment of HOA extension payloads to a plurality of layers. The method may further include signaling the HOA decoder configuration payload in the output bitstream.
실시예들에서, 본 방법은 벡터 코딩 모드가 활성인지 여부를 결정하는 단계를 추가로 포함할 수 있다. 본 방법은, 벡터 코딩 모드가 활성인 경우, 각각의 레이어에 대해, 각자의 레이어에 배정된 전송 신호들에 기초하여 연속적 HOA 계수 인덱스들의 세트를 결정하는 단계를 추가로 포함할 수 있다. 연속적 HOA 계수 인덱스들의 세트 내의 HOA 계수 인덱스들은 ContAddHOACoeff 세트에 포함된 HOA 계수 인덱스들일 수 있다. 본 방법은, 생성된 V-벡터가 각자의 전송 신호가 배정되는 레이어보다 상위인 레이어들에 배정된 임의의 전송 신호들에 대한 요소들을 포함하도록, 각각의 전송 신호에 대해, 각자의 전송 신호가 배정되는 레이어에 대한 연속적 HOA 계수 인덱스들의 결정된 세트에 기초하여 V-벡터를 생성하는 단계를 추가로 포함할 수 있다. 본 방법은 생성된 V-벡터를 출력 비트스트림에서 시그널링하는 단계를 추가로 포함할 수 있다.In embodiments, the method may further include determining whether the vector coding mode is active. The method may further include, when the vector coding mode is active, determining, for each layer, a set of consecutive HOA coefficient indices based on the transmission signals assigned to the respective layer. HOA coefficient indexes in the set of consecutive HOA coefficient indexes may be HOA coefficient indexes included in the ContAddHOACoeff set. This method is such that for each transmission signal, each transmission signal includes elements for arbitrary transmission signals assigned to layers higher than the layer to which each transmission signal is assigned. It may further include generating a V-vector based on the determined set of consecutive HOA coefficient indices for the assigned layer. The method may further include signaling the generated V-vector in the output bitstream.
다른 양태에 따르면, 사운드 또는 음장의 압축된 고차 앰비소닉스(HOA) 표현의 프레임의 계층화된 인코딩 방법이 기술된다. 압축된 HOA 표현은 복수의 전송 신호들을 포함할 수 있다. 전송 신호들은, 예컨대, HOA 표현의 우세 사운드 신호들 또는 계수 시퀀스들 중 어느 하나를 나타내는, 모노럴 신호들에 관련되어 있을 수 있다. 본 방법은 복수의 전송 신호들을 복수의 계층적 레이어들에 배정하는 단계를 포함할 수 있다. 예를 들어, 전송 신호들이 복수의 레이어들에 분배될 수 있다. 복수의 레이어들은 베이스 레이어 및 하나 이상의 계층적 향상 레이어를 포함할 수 있다. 본 방법은 벡터 코딩 모드가 활성인지 여부를 결정하는 단계를 추가로 포함할 수 있다. 본 방법은, 벡터 코딩 모드가 활성인 경우, 각각의 레이어에 대해, 각자의 레이어에 배정된 전송 신호들에 기초하여 연속적 HOA 계수 인덱스들의 세트를 결정하는 단계를 추가로 포함할 수 있다. 연속적 HOA 계수 인덱스들의 세트 내의 HOA 계수 인덱스들은 ContAddHOACoeff 세트에 포함된 HOA 계수 인덱스들일 수 있다. 본 방법은, 생성된 V-벡터가 각자의 전송 신호가 배정되는 레이어보다 상위인 레이어들에 배정된 임의의 전송 신호들에 대한 요소들을 포함하도록, 각각의 전송 신호에 대해, 각자의 전송 신호가 배정되는 레이어에 대한 연속적 HOA 계수 인덱스들의 결정된 세트에 기초하여 V-벡터를 생성하는 단계를 추가로 포함할 수 있다. 본 방법은 생성된 V-벡터를 출력 비트스트림에서 시그널링하는 단계를 추가로 포함할 수 있다.According to another aspect, a method for layered encoding of frames of a compressed higher-order ambisonics (HOA) representation of a sound or sound field is described. The compressed HOA representation may include a plurality of transmitted signals. The transmission signals may relate to monaural signals, for example, representing either the dominant sound signals or the coefficient sequences of the HOA representation. The method may include assigning a plurality of transmission signals to a plurality of hierarchical layers. For example, transmission signals may be distributed to multiple layers. The plurality of layers may include a base layer and one or more hierarchical enhancement layers. The method may further include determining whether the vector coding mode is active. The method may further include, when the vector coding mode is active, determining, for each layer, a set of consecutive HOA coefficient indices based on the transmission signals assigned to the respective layer. HOA coefficient indexes in the set of consecutive HOA coefficient indexes may be HOA coefficient indexes included in the ContAddHOACoeff set. This method is such that for each transmission signal, each transmission signal includes elements for arbitrary transmission signals assigned to layers higher than the layer to which each transmission signal is assigned. It may further include generating a V-vector based on the determined set of consecutive HOA coefficient indices for the assigned layer. The method may further include signaling the generated V-vector in the output bitstream.
이와 같이 구성될 때, 제안된 방법은 벡터 코딩 모드에서 최상위 사용가능 레이어까지의 레이어들에 속하는 모든 전송 신호에 대해 적당한 V-벡터가 이용가능하도록 보장한다. 상세하게는, 제안된 방법은 상위 레이어들에서의 전송 신호들에 대응하는 V-벡터의 요소들이 명시적으로 시그널링되지 않는 경우를 제외한다. 그에 따라, 최상위 사용가능 레이어까지의 레이어들에 속하는 임의의 전송 신호들을 디코딩하는 데 최상위 사용가능 레이어까지의 레이어들에 포함된 정보로 충분하다. 그에 의해, 상위 레이어들이 디코더에 의해 유효하게 수신되지 않았을 수 있더라도 하위 레이어들(저 비트레이트 레이어들)에 대한 각자의 재구성된 HOA 표현들의 적절한 압축해제가 있다. 다른 한편으로, 제안된 방법은 계층화된 코딩을 적용할 때 달성될 수 있는 요구 대역폭의 감소를 충분히 이용하는 것을 가능하게 한다.When configured as such, the proposed method ensures that an appropriate V-vector is available for all transmitted signals belonging to layers up to the highest available layer in vector coding mode. In detail, the proposed method excludes cases where elements of the V-vector corresponding to transmission signals in higher layers are not explicitly signaled. Accordingly, the information contained in the layers up to the highest available layer is sufficient to decode any transmission signals belonging to the layers up to the highest available layer. Thereby, there is proper decompression of the respective reconstructed HOA representations for lower layers (low bitrate layers) even if the upper layers may not have been validly received by the decoder. On the other hand, the proposed method makes it possible to fully exploit the reduction in required bandwidth that can be achieved when applying layered coding.
다른 양태에 따르면, 사운드 또는 음장의 압축된 고차 앰비소닉스(HOA) 표현의 프레임을 디코딩하는 방법이 기술된다. 압축된 HOA 표현은 복수의 계층적 레이어들에 인코딩될 수 있다. 복수의 계층적 레이어들은 베이스 레이어 및 하나 이상의 계층적 향상 레이어를 포함할 수 있다. 본 방법은 압축된 HOA 표현의 프레임에 관련된 비트스트림을 수신하는 단계를 포함할 수 있다. 본 방법은 복수의 레이어들에 대한 페이로드들을 추출하는 단계를 추가로 포함할 수 있다. 각각의 페이로드는 각자의 레이어에 배정된 전송 신호들을 포함할 수 있다. 본 방법은 디코딩을 위한 복수의 레이어들 중의 최상위 사용가능 레이어를 결정하는 단계를 추가로 포함할 수 있다. 본 방법은 최상위 사용가능 레이어에 배정된 HOA 확장 페이로드를 추출하는 단계를 추가로 포함할 수 있다. 이 HOA 확장 페이로드는 최상위 사용가능 레이어에 대응하는 (부분적으로) 재구성된 HOA 표현을 파라미터적으로 향상시키기 위한 보조 정보를 포함할 수 있다. 최상위 사용가능 레이어에 대응하는 (부분적으로) 재구성된 HOA 표현은 최상위 사용가능 레이어 및 최상위 사용가능 레이어보다 하위인 임의의 레이어들에 배정된 전송 신호들에 기초하여 획득가능할 수 있다. 본 방법은 최상위 사용가능 레이어에 대응하는 (부분적으로) 재구성된 HOA 표현을 최상위 사용가능 레이어 및 최상위 사용가능 레이어보다 하위인 임의의 레이어들에 배정된 전송 신호들에 기초하여 생성하는 단계를 추가로 포함할 수 있다. 본 방법은 또한, 최상위 사용가능 레이어에 배정된 HOA 확장 페이로드에 포함된 보조 정보를 사용하여 (부분적으로) 재구성된 HOA 표현을 향상시키는(예컨대, 파라미터적으로 향상시키는) 단계를 추가로 포함할 수 있다. 그 결과, 향상된 재구성된 HOA 표현이 획득될 수 있다.According to another aspect, a method for decoding a frame of a compressed higher-order ambisonics (HOA) representation of a sound or sound field is described. The compressed HOA representation may be encoded in multiple hierarchical layers. The plurality of hierarchical layers may include a base layer and one or more hierarchical enhancement layers. The method may include receiving a bitstream associated with a frame of the compressed HOA representation. The method may further include extracting payloads for a plurality of layers. Each payload may include transmission signals assigned to each layer. The method may further include determining the highest available layer among the plurality of layers for decoding. The method may further include extracting the HOA extension payload assigned to the highest available layer. This HOA extension payload may contain auxiliary information to parametrically enhance the (partially) reconstructed HOA representation corresponding to the highest available layer. A (partially) reconstructed HOA representation corresponding to the highest available layer may be obtainable based on transmission signals assigned to the highest available layer and any layers lower than the highest available layer. The method further includes generating a (partially) reconstructed HOA representation corresponding to the highest available layer based on the transmission signals assigned to the highest available layer and any layers lower than the highest available layer. It can be included. The method may also further include enhancing (e.g., parametrically enhancing) the (partially) reconstructed HOA representation using auxiliary information contained in the HOA extension payload assigned to the highest available layer. You can. As a result, an improved reconstructed HOA representation can be obtained.
이와 같이 구성될 때, 제안된 방법은, 이용가능한(예컨대, 유효하게 수신된) 정보를 가능한 한 최대한으로 사용하여, 최종적인 (예컨대, 향상된) 재구성된 HOA 표현이 최적의 품질을 갖도록 보장한다.When configured as such, the proposed method uses the available (e.g., validly received) information to the greatest extent possible to ensure that the final (e.g., improved) reconstructed HOA representation is of optimal quality.
실시예들에서, HOA 확장 페이로드들은 HOA 공간 신호 예측 디코딩 도구에 대한 비트스트림 요소들을 포함할 수 있다. 부가적으로 또는 대안적으로, HOA 확장 페이로드들은 HOA 서브대역 방향성 신호 합성 디코딩 도구에 대한 비트스트림 요소들을 포함할 수 있다. 부가적으로 또는 대안적으로, HOA 확장 페이로드들은 HOA 파라메트릭 앰비언스 복제 디코딩 도구에 대한 비트스트림 요소들을 포함할 수 있다.In embodiments, HOA extension payloads may include bitstream elements for an HOA spatial signal prediction decoding tool. Additionally or alternatively, HOA extension payloads may include bitstream elements for the HOA subband directional signal synthesis decoding tool. Additionally or alternatively, HOA extension payloads may include bitstream elements for the HOA parametric ambience replica decoding tool.
실시예들에서, HOA 확장 페이로드들은 ID_EXT_ELE_HOA_ENH_LAYER라는 usacExtElementType을 가질 수 있다.In embodiments, HOA extension payloads may have a usacExtElementType of ID_EXT_ELE_HOA_ENH_LAYER.
실시예들에서, 본 방법은, 비트스트림을 파싱하는 것에 의해 HOA 구성 확장 페이로드를 추출하는 단계를 추가로 포함할 수 있다. HOA 구성 확장 페이로드는 HOA 공간 신호 예측 디코딩 도구, HOA 서브대역 방향성 신호 합성 디코딩 도구, 및/또는 HOA 파라메트릭 앰비언스 복제 디코딩 도구를 구성하기 위한 비트스트림 요소들을 포함할 수 있다.In embodiments, the method may further include extracting the HOA configuration extension payload by parsing the bitstream. The HOA configuration extension payload may include bitstream elements for configuring the HOA spatial signal prediction decoding tool, the HOA subband directional signal synthesis decoding tool, and/or the HOA parametric ambience replica decoding tool.
실시예들에서, 본 방법은 복수의 레이어들에 각각 배정된 HOA 확장 페이로드들을 추출하는 단계를 추가로 포함할 수 있다. 각각의 HOA 확장 페이로드는 그 각자의 배정된 레이어에 대응하는 (부분적으로) 재구성된 HOA 표현을 파라미터적으로 향상시키기 위한 보조 정보를 포함할 수 있다. 그 각자의 배정된 레이어에 대응하는 (부분적으로) 재구성된 HOA 표현은 그 레이어 및 그 레이어보다 하위인 임의의 레이어들에 배정된 전송 신호들로부터 획득가능할 수 있다. HOA 확장 페이로드들을 각자의 레이어들에 배정하는 것은 비트스트림에 포함된 구성 정보로부터 알 수 있다.In embodiments, the method may further include extracting HOA extension payloads respectively assigned to a plurality of layers. Each HOA extension payload may contain auxiliary information to parametrically enhance the (partially) reconstructed HOA representation corresponding to its respective assigned layer. A (partially) reconstructed HOA representation corresponding to its respective assigned layer may be obtainable from transmission signals assigned to that layer and any layers lower than that layer. Assignment of HOA extension payloads to respective layers can be known from configuration information included in the bitstream.
실시예들에서, 최상위 사용가능 레이어를 결정하는 단계는 유효하게 수신되지 않은 레이어들을 표시하는 유효하지 않은 레이어 인덱스들의 세트를 결정하는 단계를 포함할 수 있다. 이는 최상위 사용가능 레이어를 유효하지 않은 레이어 인덱스들의 세트에서의 가장 작은(가장 낮은) 인덱스에 의해 표시되는 레이어 아래의 하나의 레이어인 레이어로서 결정하는 단계를 추가로 포함할 수 있다. 베이스 레이어는 가장 낮은 레이어 인덱스(예컨대, 1의 레이어 인덱스)를 가질 수 있고, 계층적 향상 레이어들은 순차적으로 더 높은 레이어 인덱스들을 가질 수 있다. 그에 의해, 제안된 방법은 최상위 사용가능 레이어들 및 최상위 사용가능 레이어 아래의 임의의 레이어들로부터 (부분적으로) 재구성된 HOA 표현을 디코딩하는 데 요구된 정보 전부가 이용가능한 방식으로 최상위 사용가능 레이어가 선택되도록 보장한다.In embodiments, determining the highest available layer may include determining a set of invalid layer indices that indicate layers that were not validly received. This may further include determining the highest available layer as a layer that is one layer below the layer indicated by the smallest (lowest) index in the set of invalid layer indices. The base layer may have the lowest layer index (eg, a layer index of 1), and hierarchical enhancement layers may have sequentially higher layer indices. Thereby, the proposed method allows the highest available layer to be configured in such a way that all of the information required to decode the (partially) reconstructed HOA representation from the top available layers and any layers below the top available layer is available. Ensure that you are selected.
실시예들에서, 최상위 사용가능 레이어를 결정하는 단계는 유효하게 수신되지 않은 레이어들을 표시하는 유효하지 않은 레이어 인덱스들의 세트를 결정하는 단계를 포함할 수 있다. 이는 현재 프레임에 선행하는 이전 프레임의 최상위 사용가능 레이어를 결정하는 단계를 추가로 포함할 수 있다. 이는 또한 최상위 사용가능 레이어를 이전 프레임의 최상위 사용가능 레이어 및 유효하지 않은 레이어 인덱스들의 세트에서의 가장 작은 인덱스에 의해 표시되는 레이어 아래의 하나의 레이어인 레이어 중 하위 레이어로서 결정하는 단계를 추가로 포함할 수 있다. 그에 의해, 현재 프레임이 선행 프레임에 대해 차분적으로 인코딩되었더라도, 현재 프레임에 대한 최상위 사용가능 레이어는 최상위 사용가능 레이어 및 최상위 사용가능 레이어 아래의 임의의 레이어들로부터의 (부분적으로) 재구성된 HOA 표현을 디코딩하는 데 요구된 정보 전부가 이용가능하도록 하는 방식으로 선택된다.In embodiments, determining the highest available layer may include determining a set of invalid layer indices that indicate layers that were not validly received. This may further include determining the highest available layer of the previous frame preceding the current frame. This further includes determining the highest available layer as the highest available layer of the previous frame and the lower layer among the layers that is one layer below the layer indicated by the lowest index in the set of invalid layer indices. can do. Thereby, even if the current frame was differentially encoded with respect to the preceding frame, the highest available layer for the current frame is a (partially) reconstructed HOA representation from the highest available layer and any layers below the highest available layer. is chosen in such a way that all of the information required to decode is available.
실시예들에서, 본 방법은, 현재 프레임의 최상위 사용가능 레이어가 이전 프레임의 최상위 사용가능 레이어보다 하위인 경우 그리고 현재 프레임이 이전 프레임에 대해 차분적으로 코딩된 경우 최상위 사용가능 레이어에 배정된 HOA 확장 페이로드에 포함된 보조 정보를 사용하는 (부분적으로) 재구성된 HOA 표현의 파라메트릭 향상(parametric enhancement)을 수행하지 않기로 결정하는 단계를 추가로 포함할 수 있다. 그에 의해, 현재 프레임(최상위 사용가능 레이어에 배정된 HOA 확장 페이로드에 포함된 보조 정보를 포함함)이 선행 프레임에 대해 차분적으로 인코딩된 경우에, 재구성된 HOA 표현이 에러 없이 디코딩될 수 있다.In embodiments, the method may determine the HOA assigned to the highest available layer if the highest available layer of the current frame is lower than the highest available layer of the previous frame and if the current frame was differentially coded with respect to the previous frame. It may further include deciding not to perform parametric enhancement of the (partially) reconstructed HOA representation using auxiliary information included in the extension payload. Thereby, if the current frame (including auxiliary information contained in the HOA extension payload assigned to the highest available layer) has been differentially encoded with respect to the preceding frame, the reconstructed HOA representation can be decoded without error. .
실시예들에서, 유효하지 않은 레이어 인덱스들의 세트는 대응하는 HOA 확장 페이로드들의 유효성 플래그들을 평가하는 것에 의해 결정될 수 있다. 각자의 레이어에 배정된 HOA 확장 페이로드에 대한 유효성 플래그가 세트되지 않은 경우, 주어진 레이어의 레이어 인덱스가 유효하지 않은 레이어 인덱스들의 세트에 추가될 수 있다. 그에 의해, 유효하지 않은 레이어 인덱스들의 세트가 효율적인 방식으로 결정될 수 있다.In embodiments, the set of invalid layer indices may be determined by evaluating validity flags of corresponding HOA extension payloads. If the validity flag for the HOA extension payload assigned to the respective layer is not set, the layer index of the given layer may be added to the set of invalid layer indexes. Thereby, the set of invalid layer indices can be determined in an efficient manner.
다른 양태에 따르면, 사운드 또는 음장의 압축된 고차 앰비소닉스(HOA) 표현의 프레임을 표현하는 데이터 구조(예컨대, 비트스트림)가 기술된다. 압축된 HOA 표현은 복수의 전송 신호들을 포함할 수 있다. 데이터 구조는 복수의 계층적 레이어들의 각자의 레이어들에 대응하는 복수의 HOA 프레임 페이로드들을 포함할 수 있다. HOA 프레임 페이로드들은 각자의 전송 신호들을 포함할 수 있다. 복수의 전송 신호들은 복수의 레이어들에 배정(예컨대, 분배)될 수 있다. 복수의 레이어들은 베이스 레이어 및 하나 이상의 계층적 향상 레이어를 포함할 수 있다. 데이터 구조는, 각각의 레이어에 대해, 각자의 레이어 및 각자의 레이어보다 하위인 임의의 레이어들에 배정된 전송 신호들로부터 획득가능한 (부분적으로) 재구성된 HOA 표현을 파라미터적으로 향상시키기 위한 보조 정보를 포함하는 각자의 HOA 확장 페이로드를 추가로 포함할 수 있다.According to another aspect, a data structure (e.g., a bitstream) representing a frame of a compressed higher order ambisonics (HOA) representation of a sound or sound field is described. The compressed HOA representation may include a plurality of transmitted signals. The data structure may include a plurality of HOA frame payloads corresponding to respective layers of the plurality of hierarchical layers. HOA frame payloads may include respective transmission signals. A plurality of transmission signals may be assigned (eg, distributed) to a plurality of layers. The plurality of layers may include a base layer and one or more hierarchical enhancement layers. The data structure contains, for each layer, auxiliary information to parametrically improve the (partially) reconstructed HOA representation obtainable from the transmission signals assigned to the respective layer and any layers lower than the respective layer. Each HOA extension payload containing may be additionally included.
실시예들에서, 복수의 레이어들에 대한 HOA 프레임 페이로드들 및 HOA 확장 페이로드들이 각자의 에러 방지 레벨들로 제공될 수 있다. 베이스 레이어는 가장 높은 에러 방지를 가질 수 있고 하나 이상의 향상 레이어는 순차적으로 감소하는 에러 방지를 가질 수 있다.In embodiments, HOA frame payloads and HOA extension payloads for multiple layers may be provided with respective error prevention levels. The base layer may have the highest error tolerance and one or more enhancement layers may have sequentially decreasing error tolerance.
실시예들에서, HOA 확장 페이로드들은 HOA 공간 신호 예측 디코딩 도구에 대한 비트스트림 요소들을 포함할 수 있다. 부가적으로 또는 대안적으로, HOA 확장 페이로드들은 HOA 서브대역 방향성 신호 합성 디코딩 도구에 대한 비트스트림 요소들을 포함할 수 있다. 부가적으로 또는 대안적으로, HOA 확장 페이로드들은 HOA 파라메트릭 앰비언스 복제 디코딩 도구에 대한 비트스트림 요소들을 포함할 수 있다.In embodiments, HOA extension payloads may include bitstream elements for an HOA spatial signal prediction decoding tool. Additionally or alternatively, HOA extension payloads may include bitstream elements for the HOA subband directional signal synthesis decoding tool. Additionally or alternatively, HOA extension payloads may include bitstream elements for the HOA parametric ambience replica decoding tool.
실시예들에서, HOA 확장 페이로드들은 ID_EXT_ELE_HOA_ENH_LAYER라는 usacExtElementType을 가질 수 있다.In embodiments, HOA extension payloads may have a usacExtElementType of ID_EXT_ELE_HOA_ENH_LAYER.
실시예들에서, 데이터 구조는 HOA 공간 신호 예측 디코딩 도구, HOA 서브대역 방향성 신호 합성 디코딩 도구, 및/또는 HOA 파라메트릭 앰비언스 복제 디코딩 도구를 구성하기 위한 비트스트림 요소들을 포함하는 HOA 구성 확장 페이로드를 추가로 포함할 수 있다.In embodiments, the data structure includes an HOA configuration extension payload containing bitstream elements for constructing an HOA spatial signal prediction decoding tool, an HOA subband directional signal synthesis decoding tool, and/or an HOA parametric ambience replica decoding tool. Additional information may be included.
실시예들에서, 데이터 구조는 HOA 확장 페이로드들을 복수의 레이어들에 배정하는 것을 표시하는 정보를 포함하는 HOA 디코더 구성 페이로드를 추가로 포함할 수 있다.In embodiments, the data structure may further include an HOA decoder configuration payload that includes information indicating assignment of HOA extension payloads to a plurality of layers.
실시예들에서, 방법들 및 장치들은 사운드 또는 음장의 압축된 고차 앰비소닉스(HOA) 표현을 디코딩하는 것에 관한 것이다. 본 장치는 베이스 레이어 및 하나 이상의 계층적 향상 레이어를 포함하는 복수의 계층적 레이어들에 대응하는 압축된 HOA 표현을 포함하는 비트스트림을 수신하고 - 복수의 레이어들은 사운드 또는 음장의 기본 압축된 사운드 표현의 컴포넌트들을 배정받았고, 컴포넌트들은 각자의 컴포넌트 그룹들 내의 각자의 레이어들에 배정됨 -, 디코딩을 위한 복수의 레이어들 중의 최상위 사용가능 레이어를 결정하며; 최상위 사용가능 레이어에 배정된 HOA 확장 페이로드를 추출하며 - HOA 확장 페이로드는 최상위 사용가능 레이어에 대응하는 재구성된 HOA 표현을 파라미터적으로 향상시키기 위한 보조 정보를 포함하고, 최상위 사용가능 레이어에 대응하는 재구성된 HOA 표현은 최상위 사용가능 레이어 및 최상위 사용가능 레이어보다 하위인 임의의 레이어들에 배정된 전송 신호들에 기초하여 획득가능함 -; 최상위 사용가능 레이어에 대응하는 압축된 HOA 표현을 레이어 정보에 기초하여 디코딩하고 - 전송 신호들은 최상위 사용가능 레이어 및 최상위 사용가능 레이어보다 하위인 임의의 레이어들에 배정됨 -; 및 최상위 사용가능 레이어에 배정된 HOA 확장 페이로드에 포함된 보조 정보를 사용하여 디코딩된 HOA 표현을 파라미터적으로 향상시키도록 구성될 수 있거나 본 방법은 그 단계들을 포함할 수 있다.In embodiments, methods and apparatuses relate to decoding a compressed higher order ambisonics (HOA) representation of a sound or sound field. The device receives a bitstream comprising a compressed HOA representation corresponding to a plurality of hierarchical layers including a base layer and one or more hierarchical enhancement layers, wherein the plurality of layers are a basic compressed sound representation of the sound or sound field. components are assigned, and the components are assigned to respective layers within the respective component groups - determine the highest available layer among the plurality of layers for decoding; Extracts an HOA extension payload assigned to the highest available layer, wherein the HOA extension payload contains auxiliary information to parametrically enhance the reconstructed HOA representation corresponding to the highest available layer, and A reconstructed HOA representation is obtainable based on transmission signals assigned to the highest available layer and any layers lower than the highest available layer; Decode the compressed HOA representation corresponding to the highest available layer based on layer information, where transmission signals are assigned to the highest available layer and any layers lower than the highest available layer; and parametrically enhance the decoded HOA representation using auxiliary information contained in the HOA extension payload assigned to the highest available layer.
HOA 확장 페이로드는 HOA 공간 신호 예측 디코딩 도구에 대한 비트스트림 요소들을 포함할 수 있다. 레이어 정보는 향상 레이어의 현재 프레임 내의 활성 방향성 신호들의 수를 표시할 수 있다.The HOA extension payload may include bitstream elements for the HOA spatial signal prediction decoding tool. The layer information may indicate the number of active directional signals within the current frame of the enhancement layer.
레이어 정보는 향상 레이어에 대한 부가의 주변 HOA 계수들의 총수를 표시할 수 있다. 레이어 정보는 향상 레이어에 대한 각각의 부가의 주변 HOA 계수에 대한 HOA 계수 인덱스들을 포함할 수 있다. 레이어 정보는 공간 신호 예측, 서브대역 방향성 신호 합성 및 파라메트릭 앰비언스 복제 디코더 중 적어도 하나를 포함하는 향상 정보를 포함할 수 있다. 압축된 HOA 표현은, 1과 동일한 CodedVVecLength가 HOADecoderConfig()에서 시그널링되는 경우, HOA 기반 콘텐츠에 대한 계층화된 코딩 모드에 적합화되어 있다. 게다가, ContAddHoaCoeff 세트에 포함된 부가의 HOA 계수들의 인덱스들과 동일한 인덱스들에 대해 V-벡터 요소들이 전송되지 않을 수 있다. ContAddHoaCoeff 세트가 복수의 계층적 레이어들 각각에 대해 개별적으로 정의될 수 있다. 레이어 정보는 NumLayers개의 요소들을 포함하며, 여기서 각각의 요소는 제i 레이어까지의 레이어들 전부에 포함된 전송 신호들의 수를 표시한다. 레이어 정보는 제k 프레임에 대해 실제로 사용된 레이어들 전부의 지시자(indicator)를 포함할 수 있다. 레이어 정보는 또한 우세 벡터(predominant vector)들에 대한 계수들 전부가 명시되어 있다는 것을 표시할 수 있다. 레이어 정보는 MinNumOfCoeffsForAmbHOA보다 더 큰 숫자에 대응하는 우세 벡터들의 계수들이 명시되어 있다는 것을 표시할 수 있다. 레이어 정보는 ContAddHoaCoeff[lay]에 정의된 요소들 전부 및 MinNumOfCoeffsForAmbHOA가 전송되지 않는다는 것을 표시할 수 있고, 여기서 lay는 벡터에 대응하는 벡터 기반 신호를 포함하는 레이어의 인덱스이다.The layer information may indicate the total number of additional surrounding HOA coefficients for the enhancement layer. The layer information may include HOA coefficient indices for each additional surrounding HOA coefficient for the enhancement layer. The layer information may include enhancement information including at least one of spatial signal prediction, subband directional signal synthesis, and parametric ambience replication decoder. The compressed HOA representation is adapted to the layered coding mode for HOA-based content if CodedVVecLength equal to 1 is signaled in HOADecoderConfig(). Additionally, V-vector elements may not be transmitted for indices that are the same as the indices of the additional HOA coefficients included in the ContAddHoaCoeff set. A ContAddHoaCoeff set may be defined individually for each of the plurality of hierarchical layers. The layer information includes NumLayers elements, where each element indicates the number of transmission signals included in all layers up to the i-th layer. The layer information may include an indicator of all layers actually used for the k-th frame. The layer information may also indicate that all coefficients for the dominant vectors are specified. The layer information may indicate that coefficients of dominance vectors corresponding to numbers greater than MinNumOfCoeffsForAmbHOA are specified. The layer information may indicate that all of the elements defined in ContAddHoaCoeff[lay] and MinNumOfCoeffsForAmbHOA are not transmitted, where lay is the index of the layer containing the vector-based signal corresponding to the vector.
다른 양태에 따르면, 사운드 또는 음장의 압축된 고차 앰비소닉스(HOA) 표현의 프레임의 계층화된 인코딩을 위한 인코더가 기술된다. 압축된 HOA 표현은 복수의 전송 신호들을 포함할 수 있다. 인코더는 앞서 언급된 제1 양태 및 앞서 언급된 제2 양태에 따른 방법들의 방법 단계들의 일부 또는 전부를 수행하도록 구성된 프로세서를 포함할 수 있다.According to another aspect, an encoder for layered encoding of frames of compressed higher-order ambisonics (HOA) representations of sounds or sound fields is described. The compressed HOA representation may include a plurality of transmitted signals. The encoder may comprise a processor configured to perform some or all of the method steps of the methods according to the above-mentioned first aspect and the above-mentioned second aspect.
다른 양태에 따르면, 사운드 또는 음장의 압축된 고차 앰비소닉스(HOA) 표현의 프레임을 디코딩하기 위한 디코더가 기술된다. 압축된 HOA 표현은 베이스 레이어 및 하나 이상의 계층적 향상 레이어를 포함하는 복수의 계층적 레이어들에 인코딩될 수 있다. 디코더는 앞서 언급된 제3 양태에 따른 방법들의 방법 단계들의 일부 또는 전부를 수행하도록 구성된 프로세서를 포함할 수 있다.According to another aspect, a decoder is described for decoding frames of a compressed higher-order ambisonics (HOA) representation of a sound or sound field. The compressed HOA representation may be encoded in a plurality of hierarchical layers, including a base layer and one or more hierarchical enhancement layers. The decoder may comprise a processor configured to perform some or all of the method steps of the methods according to the third aspect mentioned above.
다른 양태에 따르면, 소프트웨어 프로그램이 기술된다. 소프트웨어 프로그램은 프로세서 상에서 실행되도록 그리고 컴퓨팅 디바이스 상에서 실행될 때 본 문서에 개요가 기술된 방법 단계들 중 일부 또는 전부를 수행하도록 적합화될 수 있다.According to another aspect, a software program is described. A software program may be adapted to run on a processor and to perform some or all of the method steps outlined herein when executed on a computing device.
또 다른 양태에 따르면, 저장 매체가 기술된다. 저장 매체는 프로세서 상에서 실행되도록 그리고 컴퓨팅 디바이스 상에서 실행될 때 본 문서에 개요가 기술된 방법 단계들 중 일부 또는 전부를 수행하도록 적합화된 소프트웨어 프로그램을 포함할 수 있다.According to another aspect, a storage medium is described. The storage medium may include a software program adapted to run on a processor and to perform some or all of the method steps outlined herein when executed on a computing device.
이상의 양태들 또는 그의 실시예들 중 임의의 것에 관해 이루어진 진술들이, 통상의 기술자가 알게 될 것인 바와 같이, 각자의 다른 양태들 또는 그들의 실시예들에도 적용된다는 것을 알 것이다. 이 진술들을 모든 양태 또는 실시예에 대해 반복하는 것이 간결함을 위해 생략되었다.It will be appreciated that statements made regarding any of the above aspects or embodiments thereof also apply to the respective other aspects or embodiments thereof, as those skilled in the art will recognize. Repeating these statements for every aspect or embodiment has been omitted for the sake of brevity.
본 방법들 및 장치들이, 본 문서에 개요가 기술된 그들의 바람직한 실시예들을 비롯하여, 단독으로 또는 본 문서에 개시된 다른 방법들 및 시스템들과 결합하여 사용될 수 있다는 것에 유의해야 한다. 게다가, 본 문서에 개요가 기술된 방법들 및 장치들의 모든 양태들이 임의적으로 조합될 수 있다. 상세하게는, 청구항들의 피처(feature)들이 임의적인 방식으로 서로 조합될 수 있다.It should be noted that the methods and devices may be used alone or in combination with other methods and systems disclosed herein, including their preferred embodiments outlined herein. Moreover, all aspects of the methods and devices outlined in this document may be arbitrarily combined. In detail, features of the claims may be combined with each other in an arbitrary manner.
방법 단계들 및 장치 피처들이 많은 방식들로 상호교환될 수 있다는 것에 추가로 유의해야 한다. 상세하게는, 통상의 기술자가 알 것인 바와 같이, 개시된 방법의 상세들이 방법의 단계들의 일부 또는 전부를 실행하도록 적합화된 장치로서 구현될 수 있고 그 반대일 수도 있다.It should be further noted that method steps and device features can be interchanged in many ways. In particular, as will be appreciated by those skilled in the art, details of the disclosed method may be implemented as an apparatus adapted to perform some or all of the steps of the method and vice versa.
본 발명이 이하에서 예시적으로 첨부 도면들을 참조하여 설명된다.
도 1은 인코더측에서 페이로드들을 베이스 레이어 및 M-1개의 향상 레이어에 배정하는 것을 개략적으로 예시한 블록 다이어그램;
도 2는 수신기 및 압축해제 스테이지의 일 예를 개략적으로 예시한 블록 다이어그램;
도 3은 본 개시내용의 실시예들에 따른 압축된 HOA 표현의 프레임의 계층화된 인코딩 방법의 일 예를 예시한 플로차트;
도 4는 본 개시내용의 실시예들에 따른 압축된 HOA 표현의 프레임의 계층화된 인코딩 방법의 다른 예를 예시한 플로차트;
도 5는 본 개시내용의 실시예들에 따른 압축된 HOA 표현의 프레임을 디코딩하는 방법의 일 예를 예시한 플로차트;
도 6은 본 개시내용의 실시예들에 따른 인코더의 하드웨어 구현의 일 예를 개략적으로 예시한 블록 다이어그램;
도 7은 본 개시내용의 실시예들에 따른 디코더의 하드웨어 구현의 일 예를 개략적으로 예시한 블록 다이어그램.BRIEF DESCRIPTION OF THE DRAWINGS The present invention is described below by way of example with reference to the accompanying drawings.
1 is a block diagram schematically illustrating the assignment of payloads to the base layer and M-1 enhancement layers at the encoder side;
Figure 2 is a block diagram schematically illustrating an example of a receiver and decompression stage;
3 is a flowchart illustrating an example of a layered encoding method of a frame of a compressed HOA representation according to embodiments of the present disclosure;
4 is a flowchart illustrating another example of a layered encoding method of a frame of a compressed HOA representation according to embodiments of the present disclosure;
5 is a flowchart illustrating an example of a method for decoding a frame of a compressed HOA representation according to embodiments of the present disclosure;
6 is a block diagram schematically illustrating an example of a hardware implementation of an encoder according to embodiments of the present disclosure;
7 is a block diagram schematically illustrating an example hardware implementation of a decoder according to embodiments of the present disclosure.
먼저, 본 개시내용에 따른 방법들 및 인코더들/디코더들이 적용가능할 수 있는 압축된 사운드(또는 음장) 표현이 기술될 것이다.First, a compressed sound (or sound field) representation to which methods and encoders/decoders according to the present disclosure may be applicable will be described.
시변 조건들을 갖는 전송 채널을 통해 압축된 사운드(또는 음장) 표현을 스트리밍하기 위해, 계층화된 코딩은 수신된 사운드 표현의 품질을 전송 조건들에 적응시키기 위한, 그리고 상세하게는 원하지 않는 신호 드롭아웃(signal dropout)들을 회피하기 위한 수단이다.To stream a compressed sound (or sound field) representation over a transmission channel with time-varying conditions, layered coding is used to adapt the quality of the received sound representation to the transmission conditions, and specifically to eliminate unwanted signal dropout ( It is a means to avoid signal dropouts.
계층화된 코딩의 경우, 압축된 사운드(또는 음장) 표현은 보통 비교적 작은 크기의 고 우선순위 베이스 레이어(base layer)와 점감하는 우선순위(decremental priority)들 및 임의적 크기들을 갖는 부가의 향상 레이어(enhancement layer)들로 세분된다. 각각의 향상 레이어는 전형적으로 압축된 사운드(또는 음장) 표현의 품질을 개선시키기 위해 하위 레이어들 전부의 정보를 보완하는 증분적 정보(incremental information)를 포함하는 것으로 가정된다. 고안은 그러면 개별 레이어들을 그들의 우선순위에 따라 전송하기 위해 에러 방지의 양을 제어하는 것이다. 상세하게는, 베이스 레이어는 높은 에러 방지를 제공받으며, 이는 베이스 레이어의 작은 크기로 인해 타당하고 무난한 것이다.In the case of layered coding, the compressed sound (or sound field) representation usually consists of a high-priority base layer of relatively small size and an additional enhancement layer with decreasing priorities and arbitrary sizes. It is subdivided into layers. Each enhancement layer is typically assumed to contain incremental information that complements the information of all lower layers to improve the quality of the compressed sound (or sound field) representation. The idea is to then control the amount of error prevention to transmit individual layers according to their priorities. Specifically, the base layer is provided with high error tolerance, which is reasonable and acceptable due to the small size of the base layer.
이하에서, 완전한 압축된 사운드(또는 음장) 표현이 일반적으로 하기의 3개의 컴포넌트로 이루어져 있다고 가정된다:In the following, it is assumed that a complete compressed sound (or sound field) representation generally consists of the following three components:
1. 완전한 압축된 사운드(또는 음장) 표현의 두드러지게 가장 큰 비율을 차지하는, 다수의 상보적 컴포넌트들로 이루어진 기본 압축된 사운드(또는 음장) 표현. 1. A basic compressed sound (or sound field) representation consisting of a number of complementary components, which make up significantly the largest proportion of the complete compressed sound (or sound field) representation.
2. 기본 압축된 사운드(또는 음장) 표현과 비교하여 훨씬 더 작은 크기인 것으로 가정되는, 기본 압축된 사운드 표현을 디코딩하는 데 필요한 기본 보조 정보. 이는 대부분 하기의 2개의 컴포넌트로 이루어져 있는 것으로 추가로 가정되고, 그 둘 다는 기본 압축된 사운드 표현의 단지 하나의 특정 컴포넌트의 압축해제를 명시한다. 2. Basic auxiliary information required to decode the underlying compressed sound representation, which is assumed to be of much smaller size compared to the underlying compressed sound (or sound field) representation. It is further assumed that it mostly consists of the following two components, both of which specify the decompression of only one specific component of the basic compressed sound representation.
a) 제1 컴포넌트는 기본 압축된 사운드(또는 음장) 표현의 개별 상보적 컴포넌트들을 다른 상보적 컴포넌트들과 독립적으로 기술하는 보조 정보를 포함한다. a) The first component contains auxiliary information that describes individual complementary components of the basic compressed sound (or sound field) representation independently of other complementary components .
b) 제2 (임의적인) 컴포넌트는 기본 압축된 사운드(또는 음장) 표현의 개별 상보적 컴포넌트들을 다른 상보적 컴포넌트들에 의존하여 기술하는 보조 정보를 포함한다. 상세하게는, 종속성(dependence)은 다음과 같은 특성들을 갖는다: b) The second (optional) component contains auxiliary information that describes individual complementary components of the basic compressed sound (or sound field) representation in dependence on other complementary components . Specifically, a dependency has the following properties:
기본 압축된 사운드(또는 음장) 표현의 각각의 개별 상보적 컴포넌트에 대한 종속적 보조 정보는, 기본 압축된 사운드(또는 음장) 표현에 다른 특정 상보적 컴포넌트들이 포함되어 있지 않은 경우에, 그의 가장 큰 크기(extent)를 달성할 수 있다. Dependent auxiliary information for each individual complementary component of the basic compressed sound (or sound field) representation is its largest size, if the basic compressed sound (or sound field) representation does not contain any other specific complementary components. (extent) can be achieved.
부가의 특정 상보적 컴포넌트들이 기본 압축된 사운드(또는 음장) 표현에 추가되는 경우에, 고려된 개별 상보적 컴포넌트에 대한 종속적 보조 정보는 원래의 종속적 보조 정보의 서브세트로 되고, 그에 의해 그의 크기를 감소시킨다. When additional specific complementary components are added to the basic compressed sound (or sound field) representation, the dependent auxiliary information for the individual complementary components considered becomes a subset of the original dependent auxiliary information, thereby reducing its size. reduce.
3. 기본 압축된 사운드(또는 음장) 표현을 개선시키기 위한 임의적인 향상 보조 정보. 그의 크기가 또한 기본 압축된 사운드(또는 음장) 표현의 크기보다 훨씬 더 작은 것으로 가정된다. 3. Arbitrary enhancement auxiliary information to improve the basic compressed sound (or sound field) representation. Its size is also assumed to be much smaller than that of the underlying compressed sound (or sound field) representation.
이러한 유형의 완전한 압축된 사운드(또는 음장) 표현의 하나의 두드러진 예는 MPEG-H 3D 오디오 표준의 예비 버전에 의해 명시된 바와 같은 압축된 HOA 음장 표현에 의해 주어진다.One prominent example of this type of fully compressed sound (or sound field) representation is given by the compressed HOA sound field representation as specified by the preliminary version of the MPEG-H 3D audio standard.
1. 그의 기본 압축된 음장 표현은 소위 주변 HOA 음장 컴포넌트의 소위 우세 사운드 신호들 또는 계수 시퀀스들 중 어느 하나를 표현하는, 다수의 양자화된 모노럴 신호들로 식별될 수 있다. 1. Its basic compressed sound field representation can be identified with a number of quantized monaural signals, representing either the so-called dominant sound signals or coefficient sequences of the so-called ambient HOA sound field components.
2. 기본 보조 정보는, 그 중에서도 특히, 이 모노럴 신호들 각각에 대해 모노럴 신호가 음장에 어떻게 공간적으로 기여하는지를 기술한다. 이 정보는 하기의 2개의 상이한 컴포넌트로 추가로 분리될 수 있다: 2. Basic auxiliary information describes, inter alia, for each of these monaural signals how the monaural signal contributes spatially to the sound field. This information can be further separated into two different components:
(a) 다른 모노럴 신호들의 존재와 독립적인, 특정 개별 모노럴 신호들에 관련된 보조 정보. 이러한 보조 정보는, 예를 들어, 특정 입사 방향을 갖는 방향성 신호(일반 평면파를 의미함)를 표현하는 모노럴 신호를 명시할 수 있다. 대안적으로, 모노럴 신호는 특정 인덱스를 갖는 원래의 HOA 표현의 계수 시퀀스로서 명시될 수 있다. (a) Auxiliary information related to specific individual monaural signals, independent of the presence of other monaural signals. This auxiliary information may specify, for example, a monaural signal representing a directional signal (meaning a normal plane wave) with a specific direction of incidence. Alternatively, the monaural signal can be specified as a sequence of coefficients of the original HOA representation with specific indices.
(b) 다른 모노럴 신호들의 존재에 의존적인, 특정 개별 모노럴 신호들에 관련된 보조 정보. 이러한 보조 정보는, 예컨대, 모노럴 신호들이 소위 벡터 기반 신호들인 것으로 명시되는 경우 - 이는 모노럴 신호들이 음장 내에서 방향성으로 분포된다는 것을 의미하고, 여기서 방향성 분포는 벡터에 의해 명시됨 -, 발생된다. 특정 모드(즉, CodedVVecLength = 1)에서, 이 벡터의 특정의 컴포넌트들은 암시적으로 0으로 설정되고 압축된 벡터 표현의 일부가 아니다. 이 컴포넌트들은 원래의 HOA 표현의 계수 시퀀스들의 인덱스들과 동일한 인덱스들을 갖는 컴포넌트들이고 기본 압축된 음장 표현의 일부이다. 이는, 벡터의 개별 컴포넌트들이 코딩되는 경우, 그들의 총수가 기본 압축된 음장 표현에, 상세하게는 기본 압축된 음장 표현이 원래의 HOA 표현의 어느 계수 시퀀스들을 포함하는지에 의존한다는 것을 의미한다. (b) Auxiliary information related to specific individual monaural signals, dependent on the presence of other monaural signals. This auxiliary information is generated, for example, if the monaural signals are specified as so-called vector-based signals, meaning that they are directionally distributed in the sound field, where the directional distribution is specified by a vector. In certain modes (i.e. CodedVVecLength = 1), certain components of this vector are implicitly set to 0 and are not part of the compressed vector representation. These components are components with indices identical to those of the coefficient sequences of the original HOA representation and are part of the basic compressed sound field representation. This means that when the individual components of the vector are coded, their total depends on the basic compressed sound field representation, and in particular on which coefficient sequences of the original HOA representation the basic compressed sound field representation contains.
원래의 HOA 표현의 계수 시퀀스들이 기본 압축된 음장 표현에 포함되지 않은 경우, 각각의 벡터 기반 신호에 대한 종속적 기본 보조 정보는 벡터 컴포넌트들 전부로 이루어져 있고 그의 가장 큰 크기를 갖는다. 특정 인덱스들을 갖는 원래의 HOA 표현의 계수 시퀀스들이 기본 압축된 음장 표현에 추가되는 경우에, 그 인덱스들을 갖는 벡터 컴포넌트들이 각각의 벡터 기반 신호에 대한 보조 정보로부터 제거되고, 그에 의해 벡터 기반 신호들에 대한 종속적 기본 보조 정보의 크기를 감소시킨다.If the coefficient sequences of the original HOA representation are not included in the basic compressed sound field representation, the dependent basic auxiliary information for each vector-based signal consists of all of the vector components and has their largest magnitude. When coefficient sequences of the original HOA representation with certain indices are added to the basic compressed sound field representation, the vector components with those indices are removed from the side information for each vector-based signal, thereby adding Reduce the size of dependent basic auxiliary information.
3. 향상 보조 정보는 하기의 컴포넌트들로 이루어져 있다: 3. Enhancement auxiliary information consists of the following components:
방향성 신호들로부터 음장의 누락 부분들을 (선형적으로) 예측하는 소위 (광대역) 공간 예측에 관련된 파라미터들. Parameters involved in the so-called (wideband) spatial prediction, which predicts (linearly) the missing parts of the sound field from directional signals.
지금까지는 공간적으로 불완전한 또는 결함있는 압축된 HOA 표현을 보완하기 위해 부가의 모노럴 신호들의 주파수 종속적 파라메트릭 예측(frequency dependent, parametric prediction)이 공간적으로 분산될 수 있게 하는 압축 도구들인, 소위 서브대역 방향성 신호 합성 및 파라메트릭 앰비언스 복제에 관련된 파라미터들. 예측은 기본 압축된 음장 표현의 계수 시퀀스들에 기초한다. 중요한 양태는 음장에 대한 언급된 상보적 기여가, 부가의 양자화된 신호들에 의해서가 아니라 오히려 비교할 수 있을 정도로 훨씬 더 작은 크기의 추가의 보조 정보에 의해, 압축된 HOA 표현 내에 표현된다는 것이다. 따라서, 2개의 언급된 코딩 도구는 낮은 데이터 레이트들에서 HOA 표현들의 압축에 특히 적합하다. So far, compression tools allow the frequency dependent, parametric prediction of additional monaural signals to be spatially distributed to compensate for spatially incomplete or defective compressed HOA representations, the so-called subband directional signals. Parameters involved in synthesis and parametric ambience replication. The prediction is based on coefficient sequences of the basic compressed sound field representation. An important aspect is that the mentioned complementary contribution to the sound field is represented within the compressed HOA representation, not by additional quantized signals, but rather by additional auxiliary information of comparably much smaller size. Therefore, the two mentioned coding tools are particularly suitable for compression of HOA representations at low data rates.
앞서 언급된 구조를 갖는 모노럴 신호의 압축된 표현의 제2 예는 하기의 컴포넌트들로 이루어져 있을 수 있다:A second example of a compressed representation of a monaural signal with the previously mentioned structure may consist of the following components:
1. 기본 압축된 표현으로 간주될 수 있는, 특정 상부 주파수까지의 비중복 주파수 대역(disjoint frequency band)들에 대한 어떤 코딩된 스펙트럼 정보. 1. Some coded spectral information for disjoint frequency bands up to a certain upper frequency, which can be considered a basic compressed representation.
2. (예컨대, 코딩된 주파수 대역들의 수 및 폭에 의해) 코딩된 스펙트럼 정보를 명시하는 어떤 기본 보조 정보. 2. Some basic auxiliary information specifying the coded spectral information (e.g. by number and width of coded frequency bands).
3. 기본 압축된 표현에서 고려되지 않은 상위 주파수 대역들에 대한 스펙트럼 정보를 기본 압축된 표현으로부터 어떻게 파라미터적으로 재구성할지를 기술하는, 소위 스펙트럼 대역 복제(Spectral Band Replication)(SBR)의 파라미터들로 이루어진 어떤 향상 보조 정보. 3. Consisting of parameters of so-called Spectral Band Replication (SBR), which describes how to parametrically reconstruct from the basic compressed representation the spectral information for upper frequency bands not considered in the basic compressed representation. Any enhancement auxiliary information.
다음에, 앞서 언급된 구조를 갖는 완전한 압축된 사운드(또는 음장) 표현의 계층화된 코딩을 위한 방법이 기술될 것이다.Next, a method for layered coding of a fully compressed sound (or sound field) representation with the previously mentioned structure will be described.
압축이 연속적 시간 구간들, 예를 들어, 동일한 크기의 시간 구간들에 대한 (예컨대, 데이터 패킷들 또는 등가적으로 프레임 페이로드들의 형태의) 압축된 표현들을 제공한다는 의미에서, 압축이 프레임 기반이라고 가정된다. 이 데이터 패킷들은 유효성 플래그, 그들의 크기를 표시하는 값은 물론 실제의 압축된 표현 데이터를 포함하는 것으로 가정된다. 이하의 설명 전체에 걸쳐, 주로 단일 프레임의 처리에 중점을 둘 것이고, 따라서 프레임 인덱스가 생략될 것이다.Compression is said to be frame-based, in the sense that it provides compressed representations (e.g., in the form of data packets or equivalently frame payloads) for consecutive time intervals, e.g., equally sized time intervals. It is assumed. These data packets are assumed to contain a validity flag, a value indicating their size, as well as the actual compressed representation data. Throughout the following description, the focus will primarily be on the processing of single frames, and thus frame indices will be omitted.
고려된 완전한 압축된 사운드(또는 음장) 표현(1100)의 각각의 프레임 페이로드는 BSRCj, j = 1, ..., J에 의해 표기되는 J개의 데이터 패킷 - 각각은 기본 압축된 사운드(또는 음장) 표현의 하나의 컴포넌트(1110-1, ..., 1110-J)에 대한 것임 - 을 포함하는 것으로 가정된다. 게다가, 프레임 페이로드는 기본 압축된 사운드 표현의 특정의 컴포넌트들(BSRCj)을 다른 컴포넌트들과 독립적으로 명시하는 BSII에 의해 표기된 독립적 기본 보조 정보(1120)를 갖는 패킷을 포함하는 것으로 가정된다. 임의로, 프레임 페이로드는, 그에 부가하여, 기본 압축된 사운드 표현의 특정의 컴포넌트들(BSRCj)을 다른 컴포넌트들에 의존하여 명시하는 BSID에 의해 표기된 종속적 기본 보조 정보를 갖는 패킷을 포함하는 것으로 가정된다. 2개의 데이터 패킷(BSII 및 BSID) 내에 포함된 정보는 단일 데이터 패킷(BSI)으로 임의로 그룹화될 수 있다.The payload of each frame of the considered complete compressed sound (or sound field) representation 1100 is J data packets, denoted by BSRC j , j = 1, ..., J - each representing the basic compressed sound (or It is assumed to include - one component (1110-1, ..., 1110-J) of the sound field) expression. In addition, the frame payload is assumed to contain a packet with independent basic auxiliary information 1120, denoted by BSI I, which specifies certain components of the basic compressed sound representation (BSRC j ) independently of other components. . Optionally, the frame payload is, in addition, a packet with dependent basic auxiliary information marked by BSI D that specifies certain components of the basic compressed sound representation (BSRC j ) depending on the other components. It is assumed. Information contained within two data packets (BSI I and BSI D ) may be arbitrarily grouped into a single data packet (BSI).
궁극적으로, 프레임 페이로드는 완전한 기본 압축된 표현으로부터 재구성된 사운드(또는 음장)를 어떻게 개선시킬지에 대한 설명을 갖는 ESI에 의해 표기된 향상 보조 정보 페이로드를 포함한다.Ultimately, the frame payload contains an enhancement auxiliary information payload marked by ESI with a description of how to improve the sound (or sound field) reconstructed from the complete underlying compressed representation.
계층화된 코딩을 위한 기술된 스킴은 전송을 위한 데이터 패킷들의 패킹(packing)을 포함하는 압축 파트는 물론 수신기 및 압축해제 파트 둘 다를 가능하게 하는 데 요구된 단계들을 다루고 있다. 각각의 파트는 이하에서 상세히 기술될 것이다.The described scheme for layered coding covers the steps required to enable both the receiver and decompression parts as well as the compression part, which includes packing of data packets for transmission. Each part will be described in detail below.
먼저, 전송을 위한 압축 및 패킹이 기술될 것이다. 계층화된 코딩(총 M개의 레이어, 즉 하나의 기본 레이어 및 M-1개의 향상 레이어를 가정함)의 경우에, 완전한 압축된 사운드(또는 음장) 표현(1100)의 각각의 컴포넌트는 다음과 같이 처리된다:First, compression and packing for transmission will be described. In the case of layered coding (assuming a total of M layers, i.e. one base layer and M-1 enhancement layers), each component of the complete compressed sound (or sound field) representation 1100 is processed as follows: do:
기본 압축된 사운드(또는 음장) 표현은 개별 레이어들에 배정될 파트들로 세분된다. 일반성을 잃지 않고, Jm-1 ≤ j < Jm에 대해 BSRCj가 제m 레이어에 배정되도록, 그룹화는 M+1개의 숫자들(Jm, m = 0, .., M이고, J0 = 1이며 JM = J+1임)에 의해 기술될 수 있다. The basic compressed sound (or sound field) representation is subdivided into parts that are assigned to individual layers. Without loss of generality, for J m-1 ≤ j < J m , the grouping is M+1 numbers (J m , m = 0, .., M, and J 0 = 1 and J M = J+1).
그의 작은 크기로 인해, 그의 불필요한 단편화를 회피하기 위해 완전한 기본 보조 정보를 베이스 레이어에 배정하는 것이 타당하다. 독립적 기본 보조 정보(BSII)는 배정을 위해 변경되지 않은 채로 있지만, 한편으로는 수신기측에서의 올바른 디코딩을 가능하게 하기 위해 그리고 다른 한편으로는 전송될 종속적 보조 정보의 크기를 감소시키기 위해, 종속적 기본 보조 정보가 특히 계층화된 코딩을 위해 핸들링되어야만 한다. 종속적 기본 보조 정보를 BSID,m, m = 1,...,M에 의해 표기된 M개의 파트(1130-1, ..., 1130-M)로 분해하는 것이 제안되고, 여기서, 각자의 종속적 보조 정보가 존재하는 경우, 제m 파트는 제m 레이어에 배정된 기본 압축된 사운드 표현의 컴포넌트들(BSRCj, Jm-1 ≤ j <Jm) 각각에 대한 종속적 보조 정보를 포함한다. 각자의 종속적 보조 정보가 존재하지 않는 경우에, BSID,m이 비어있는 것으로 가정된다. 보조 정보(BSID,m)는, 제m 레이어까지의 레이어들 전부에 포함된, 컴포넌트들(BSRCj, 1 ≤ j < Jm) 전부에 의존한다. Due to its small size, it makes sense to assign complete primary auxiliary information to the base layer to avoid its unnecessary fragmentation. The independent basic auxiliary information (BSI I ) remains unchanged for assignment, but on the one hand to enable correct decoding at the receiver and on the other hand to reduce the size of the dependent basic auxiliary information to be transmitted. The information must be handled especially for layered coding. It is proposed to decompose the dependent basic auxiliary information into M parts (1130-1, ..., 1130-M) denoted by BSI D,m , m = 1,...,M, where each dependent If auxiliary information exists, the mth part includes dependent auxiliary information for each of the components (BSRC j , J m-1 ≤ j <J m ) of the basic compressed sound expression assigned to the mth layer. If the respective dependent auxiliary information does not exist, BSI D,m is assumed to be empty. The auxiliary information (BSI D,m ) depends on all of the components (BSRC j , 1 ≤ j < J m ) included in all layers up to the mth layer.
계층화된 코딩의 경우에, 각각의 레이어에 대해 추가로 향상 보조 정보가 계산되어야만 하는 것을 실현하는 것이 중요한데, 그 이유는 예비적 압축해제된 사운드(또는 음장)를 향상시키는 것 - 그렇지만 이는 압축해제를 위해 이용가능한 레이어들에 의존함 - 이 의도되어 있기 때문이다. 따라서, 압축은, ESIm, m = 1, ..., M에 의해 표기된, M개의 개별 향상 보조 정보 데이터 패킷(1140-1, ..., 1140-M)을 제공해야만 하고, 여기서 제m 데이터 패킷(ESIm) 내의 향상 보조 정보는, 예컨대, 베이스 레이어 및 m보다 더 낮은 인덱스들을 갖는 향상 레이어들에 포함된 데이터 전부로부터 획득된 사운드(또는 음장) 표현을 향상시키도록 계산된다. In the case of layered coding, it is important to realize that additional enhancement auxiliary information must be computed for each layer, since it enhances the preliminarily decompressed sound (or sound field) - but this does not require decompression. This is because it is intended - to depend on the available layers. Accordingly, compression must provide M individual enhanced auxiliary information data packets 1140-1, ..., 1140-M, denoted by ESI m , m = 1, ..., M, where the m The enhancement assistance information in the data packet ESI m is calculated to improve the sound (or sound field) representation obtained, for example, from all of the data included in the base layer and enhancement layers with indices lower than m.
요약하면, 압축 스테이지에서, 하기의 조성(composition)을 갖는, FRAME에 의해 표기된, 프레임 데이터 패킷이 제공되어야만 한다:In summary, at the compression stage, a frame data packet must be provided, denoted by FRAME, with the following composition:
프레임 데이터 패킷을 갖는 개별 페이로드들의 순서화가 일반적으로 임의적이라는 것이 이해된다.It is understood that the ordering of individual payloads with frame data packets is generally arbitrary.
이미 기술된, 개별 페이로드들을 베이스 및 향상 레이어들에 배정하는 것은 소위 전송 레이어들 패커(transport layers packer)에 의해 달성되며 도 1에 개략적으로 예시되어 있다.The allocation of individual payloads to the base and enhancement layers, already described, is achieved by a so-called transport layers packer and is schematically illustrated in Figure 1.
다음에, 수신 및 압축해제가 기술될 것이다. 대응하는 수신기 및 압축해제 스테이지가 도 2에 예시되어 있다.Next, reception and decompression will be described. The corresponding receiver and decompression stage are illustrated in Figure 2.
먼저, 완전한 압축된 사운드(또는 음장) 표현 - 이는 이어서 압축해제기(2100)에 전달됨 - 의 수신된 프레임 패킷 First, received frame packets of the complete compressed sound (or sound field) representation, which are then passed to decompressor 2100.
을 제공하기 위해 개별 레이어 패킷들(1200, 1300-1, ..., 1300-(M-1))이 멀티플렉싱된다. 개별 레이어의 전송이 에러가 없는 경우, 적어도 포함된 향상 보조 정보 페이로드의 유효성 플래그가 "참(true)"으로 설정되는 것으로 가정된다. 개별 레이어의 전송으로 인한 에러의 경우에, 이 레이어에서의 적어도 향상 보조 정보 페이로드 내의 유효성 플래그는 "거짓(false)"으로 설정된다. 따라서, 레이어 패킷의 유효성은 포함된 향상 보조 정보 페이로드의 유효성으로부터 결정될 수 있다.To provide, individual layer packets (1200, 1300-1, ..., 1300-(M-1)) are multiplexed. If the transmission of an individual layer is error-free, it is assumed that at least the validity flag of the included enhancement auxiliary information payload is set to “true”. In case of errors due to the transmission of an individual layer, the validity flag in at least the enhancement auxiliary information payload in this layer is set to "false". Accordingly, the validity of a layer packet can be determined from the validity of the included enhancement auxiliary information payload.
압축해제기(2100)에서, 수신된 프레임 패킷이 먼저 디멀티플렉싱된다. 이를 위해, 개별 페이로드들의 데이터의 불필요한 파싱을 회피하기 위해 각각의 페이로드의 크기에 관한 정보가 이용될 수 있다.In decompressor 2100, received frame packets are first demultiplexed. To this end, information about the size of each payload can be used to avoid unnecessary parsing of the data of the individual payloads.
다음 단계에서, 기본 사운드 표현의 압축해제를 위해 실제로 사용될 최상위 레이어의 번호(NB)가 선택된다. 기본 사운드 표현의 압축해제를 위해 실제로 사용될 최상위 향상 레이어는 NB - 1에 의해 주어진다. 각각의 레이어가 정확히 하나의 향상 보조 정보 페이로드를 포함하기 때문에, 포함측 레이어(containing layer)가 유효한지 여부는 각각의 향상 보조 정보 페이로드로부터 알 수 있다. 따라서, 선택은 향상 보조 정보 페이로드들(ESIm, m = 1, ..., M) 전부를 사용하여 달성될 수 있다. 그에 부가하여, 압축해제를 위해 사용될 향상 보조 정보 페이로드의 인덱스(NE)가 결정되며, 인덱스(NE)는 항상 NB와 동일하거나 0이다. 이것은 향상이 항상 기본 사운드 표현에 따라 달성되거나 전혀 달성되지 않는다는 것을 의미한다. 선택에 대한 보다 상세한 설명은 이하에서 추가로 주어진다.In the next step, the number of the top layer (N B ) that will actually be used for decompressing the basic sound representation is selected. The highest enhancement layer that will actually be used for decompressing the basic sound representation is given by N B - 1. Since each layer includes exactly one enhancement auxiliary information payload, whether the containing layer is valid can be known from each enhancement auxiliary information payload. Accordingly, selection can be achieved using all of the enhancement auxiliary information payloads (ESI m , m = 1, ..., M). In addition, the index (N E ) of the enhancement auxiliary information payload to be used for decompression is determined, and the index (N E ) is always equal to N B or 0. This means that enhancement is always achieved based on the underlying sound representation or not achieved at all. A more detailed explanation of the selection is given further below.
연속적으로, 기본 압축된 사운드 표현 컴포넌트들(BSRC1, ..., BSRCj)의 페이로드들이 기본 보조 정보 페이로드들(즉 BSII 및 BSID,m, m = 1, ..., M) 전부 및 값(NB)과 함께 기본 표현 압축해제 처리 유닛(2200)에 전달되고, 기본 표현 압축해제 처리 유닛(2200)은 최하위 NB개의 레이어(즉, 베이스 레이어 및 NB - 1개의 향상 레이어) 내에 포함된 그 기본 압축된 사운드 표현 컴포넌트들만을 사용하여 기본 사운드(또는 음장) 표현을 재구성한다. 기본 압축된 사운드(또는 음장) 표현의 어느 컴포넌트들이 개별 레이어들에 포함되는지에 관한 요구된 정보는 구성 정보를 갖는 데이터 패킷으로부터 압축해제기(2100)에 알려지는 것으로 가정되며, 이 구성 정보는 프레임 데이터 패킷들 이전에 송신 및 수신되는 것으로 가정된다. 각각의 개별 종속적 기본 보조 정보 페이로드(BSID,m, m = 1,..., NB)의 실제 디코딩은 다음과 같이 2개의 파트로 분할될 수 있다:Successively, the payloads of the basic compressed sound representation components (BSRC 1 , ..., BSRC j ) are combined with the basic auxiliary information payloads (i.e. BSI I and BSI D,m , m = 1, ..., M ) are passed to the base representation decompression processing unit 2200 along with all and the value N Reconstruct the basic sound (or sound field) representation using only the basic compressed sound representation components contained within the layer. The required information regarding which components of the basic compressed sound (or sound field) representation are included in the individual layers is assumed to be known to the decompressor 2100 from a data packet with configuration information, which is It is assumed that data packets are previously transmitted and received. The actual decoding of each individual dependent basic auxiliary information payload (BSI D,m , m = 1,..., N B ) can be split into two parts as follows:
1. 인코딩 스테이지에서 가정된, 처음 m개의 레이어에 포함된 처음 Jm - 1개의 기본 압축된 사운드 표현 컴포넌트()에 대한 그의 종속성을 이용하는 것에 의한 각각의 페이로드(BSID,m, m = 1, ..., NB)의 예비적 디코딩. 1. First J m - 1 basic compressed sound representation components included in the first m layers, assumed in the encoding stage ( Preliminary decoding of each payload (BSI D,m , m = 1, ..., N B ) by exploiting its dependency on ).
2. 기본 사운드 컴포넌트가, 예비적 디코딩에 대해 가정된 것보다 더 많은 컴포넌트들인, 처음 NB > m개의 레이어에 포함된 처음 개의 기본 압축된 사운드 표현 컴포넌트()로부터 최종적으로 재구성된다는 것을 고려하는 것에 의한 각각의 페이로드(BSID,m, m = 1,...,NB)의 연속적 정정. 따라서, 정정은 오래된 정보를 폐기하는 것에 의해 달성될 수 있으며, 이는 특정 상보적 컴포넌트들이 기본 압축된 사운드(또는 음장) 표현에 추가되는 경우, 각각의 개별 상보적 컴포넌트에 대한 종속적 기본 보조 정보가 원래의 종속적 기본 보조 정보의 서브세트로 된다는 종속적 기본 보조 정보의 초기에 가정된 특성으로 인해 가능하다. 2. The basic sound components are included in the first N B > m layers, which are more components than assumed for preliminary decoding. The basic compressed sound representation components ( ) successive corrections of each payload (BSI D,m , m = 1,...,N B ) by considering that it is finally reconstructed from. Therefore, correction can be achieved by discarding old information, which means that when certain complementary components are added to the basic compressed sound (or sound field) representation, the dependent basic auxiliary information for each individual complementary component is changed from the original. This is possible due to the initially assumed characteristic of the dependent basic auxiliary information that it is a subset of the dependent basic auxiliary information of .
궁극적으로, 재구성된 기본 사운드(또는 음장) 표현은, 향상 보조 정보 페이로드들(ESI1, ..., ESIM) 전부, 기본 보조 정보 페이로드들(BSII 및 BSID,m, m = 1,...,M), 및 값(NE)과 함께, 향상된 표현 압축해제 처리 유닛(2300)에 제공되고, 향상된 표현 압축해제 처리 유닛(2300)은, 향상 보조 정보 페이로드()만을 사용하고 다른 향상 보조 정보 페이로드들 전부를 폐기하는 것에 의해, 최종적인 향상된 사운드(또는 음장) 표현을 계산한다. NE의 값이 0인 경우, 향상 보조 정보 페이로드들 전부가 폐기되고 재구성된 최종적인 향상된 사운드(또는 음장) 표현은 재구성된 기본 사운드(또는 음장) 표현과 동일하다.Ultimately, the reconstructed basic sound (or sound field) representation consists of all of the enhancement auxiliary information payloads (ESI 1 , ..., ESI M ), the basic auxiliary information payloads (BSI I and BSI D,m , m = 1,...,M), together with the value N ) and discarding all other enhancement auxiliary information payloads, calculate the final enhanced sound (or sound field) representation. If the value of N E is 0, all enhancement auxiliary information payloads are discarded and the final reconstructed enhanced sound (or sound field) representation is the same as the reconstructed basic sound (or sound field) representation.
다음에, 레이어 선택이 기술될 것이다. 프레임 데이터 패킷들 전부가 서로 독립적으로 압축해제될 수 있는 경우에, 기본 사운드 표현의 압축해제를 위해 실제로 사용될 최상위 레이어의 번호(NB) 및 압축해제를 위해 사용될 향상 보조 정보 페이로드의 인덱스(NE) 둘 다가 유효한 향상 보조 정보 페이로드의 가장 높은 번호(L)로 설정되고, 유효한 향상 보조 정보 페이로드 자체는 향상 보조 정보 페이로드들 내의 유효성 플래그들을 평가하는 것에 의해 결정될 수 있다. 각각의 향상 보조 정보 페이로드의 크기에 대한 지식을 이용하는 것에 의해, 페이로드들의 유효성을 결정하기 위한 페이로드들의 실제 데이터의 복잡한 파싱이 회피될 수 있다.Next, layer selection will be described. In the case where all of the frame data packets can be decompressed independently of each other, the number of the top layer that will actually be used for decompressing the basic sound representation (N B ) and the index of the enhancement auxiliary information payload to be used for decompression (N E ) are both set to the highest number (L) of the valid enhancement auxiliary information payload, and the valid enhancement auxiliary information payload itself can be determined by evaluating the validity flags in the enhancement auxiliary information payloads. By utilizing knowledge of the size of each enhancement auxiliary information payload, complex parsing of the payloads' actual data to determine their validity can be avoided.
프레임간 종속성(inter-frame dependency)들을 갖는 차분 압축해제(differential decompression)가 이용되는 경우에, 이전 프레임으로부터의 결정이 또한 고려되어야만 한다. 차분 압축해제에서, 독립적인 프레임 데이터 패킷들이 규칙적인 시간 간격들로, 이 시각(time instant)들로부터 압축해제를 시작하는 것을 가능하게 하도록, 전송되고, 여기서 값들(NB 및 NE)의 결정은 프레임 독립적으로 되고 앞서 기술된 바와 같이 수행된다.If differential decompression with inter-frame dependencies is used, decisions from the previous frame must also be considered. In differential decompression, independent frame data packets are transmitted at regular time intervals, making it possible to start decompression from time instants, wherein the determination of the values N B and N E becomes frame independent and is performed as previously described.
프레임 종속적 결정을 상세히 설명하기 위해, 먼저 제k 프레임에 대해To elaborate the frame-dependent decision, first, for the kth frame,
유효한 향상 보조 정보 페이로드의 가장 높은 번호는 L(k)로 The highest number of valid enhancement auxiliary information payloads is L(k).
기본 사운드 표현의 압축해제를 위해 선택 및 사용될 최상위 레이어 번호(예컨대, 레이어 인덱스)는 NB(k)로 The highest layer number (e.g. layer index) to be selected and used for decompression of the underlying sound representation is N B (k).
압축해제를 위해 사용될 향상 보조 정보 페이로드의 번호는 NE(k)로 The number of enhancement auxiliary information payloads to be used for decompression is N E (k).
표기한다. 이 기법을 사용하여, NB(k)로 되어 있는 기본 사운드 표현의 압축해제를 위해 사용될 최상위 레이어 번호는Mark it. Using this technique, the highest layer number to be used for decompressing the basic sound representation in N B (k) is
에 따라 계산된다.It is calculated according to
L(k) 및 NB(k-1)보다 크지 않은 NB(k)를 선택하는 것에 의해, 기본 사운드 표현의 차분 압축해제를 위해 요구된 정보 전부가 이용가능하도록 보장된다.By choosing N B (k) not greater than L (k) and N B (k-1), it is ensured that all of the information required for differential decompression of the basic sound representation is available.
압축해제를 위해 사용될 향상 보조 정보 페이로드의 번호(NE(k))는 The number (N E (k)) of the enhancement auxiliary information payload to be used for decompression is
에 따라 결정된다.It is decided according to
이것은 상세하게는, 기본 사운드 표현의 압축해제를 위해 사용될 최상위 레이어 번호(NB(k))가 변하지 않는 한, 동일한 대응하는 향상 레이어 번호가 선택된다는 것을 의미한다. 그렇지만, NB(k)의 변화의 경우에, NE(k)를 0으로 설정하는 것에 의해 향상이 디스에이블된다. 향상 보조 정보의 가정된 차분 압축해제로 인해, NB(k)에 따른 그의 변화가 가능하지 않은데, 그 이유는 그것이 수행되지 않은 것으로 가정되는 이전 프레임에서의 대응하는 향상 보조 정보 레이어의 압축해제를 요구할 것이기 때문이다.This means in detail that the same corresponding enhancement layer number is selected as long as the top layer number (N B (k)) to be used for decompression of the basic sound representation does not change. However, in case of a change in N B (k), the enhancement is disabled by setting N E (k) to 0. Due to the assumed differential decompression of the enhancement auxiliary information, its change according to N B (k) is not possible since it requires decompression of the corresponding enhancement auxiliary information layer in the previous frame, which is assumed not to have been performed. Because they will demand it.
대안적으로, 압축해제에서 NE(k)까지의 번호들을 갖는 향상 보조 정보 페이로드들 전부가 병렬로 압축해제되는 경우, 선택 규칙(수학식 4)이 Alternatively, if all of the enhancement auxiliary information payloads with numbers up to N E (k) in the decompression are decompressed in parallel, the selection rule (Equation 4) becomes
로 대체될 수 있다.can be replaced with
마지막으로, 차분 압축해제의 경우 최상위 사용된 레이어의 번호가 독립적 프레임 데이터 패킷들에서만 증가할 수 있는 반면, 모든 프레임에서 감소가 가능하다는 것에 유의해야 한다.Finally, it should be noted that in case of differential decompression the number of the highest used layer can only be increased for independent frame data packets, whereas it can be decreased in every frame.
다음에, 압축된 사운드 표현의 프레임의 계층화된 코딩에 그리고 인코딩된 압축된 사운드 표현의 프레임을 표현하는 데이터 구조(예컨대, 비트스트림)에 관한 본 개시내용의 실시예들이 압축된 HOA 표현의 경우에 대해 기술될 것이다. 상세하게는, 압축된 HOA 표현의 계층화된 코딩 스킴에 대한 제안된 변경들이 기술될 것이다.Next, embodiments of the present disclosure relate to layered coding of frames of compressed sound representations and to data structures (e.g., bitstreams) representing encoded frames of compressed sound representations in the case of compressed HOA representations. will be described. In detail, proposed changes to the layered coding scheme of compressed HOA representation will be described.
HOA 기반 콘텐츠에 대한 계층화된 코딩 모드의 정정으로서, 공간 신호 예측, 서브대역 방향성 신호 합성 및 파라메트릭 앰비언스 복제(PAR) 디코더와 같은 HOA 디코딩 도구들의 구성 및 프레임 페이로드들을 대응하는 HOA 향상 레이어에 보다 잘 적응시키기 위해 새로운 usacExtElementType이 정의된다. HOA 기반 콘텐츠에 대한 계층화된 코딩 모드가 활성화된 경우 - 이는 SingleLayer==0에 의해 시그널링됨 -, 이 도구들의 대응하는 비트스트림 요소들을 (베이스 레이어 및 하나 이상의 향상 레이어를 비롯한) 각각의 레이어에 대한 새로운 유형의 하나의 부가의 HOA 확장 페이로드로 이동시키는 것이 제안된다.As a correction of the layered coding mode for HOA-based content, configuration of HOA decoding tools such as spatial signal prediction, subband directional signal synthesis and parametric ambience replication (PAR) decoder and frame payloads are transferred to the corresponding HOA enhancement layer. To better adapt, a new usacExtElementType is defined. If the layered coding mode for HOA-based content is activated - this is signaled by SingleLayer==0 -, the corresponding bitstream elements of these tools are used for each layer (including the base layer and one or more enhancement layers). It is proposed to move to a new type of additional HOA extension payload.
이 도구들에 대한 보조 정보가 특정 HOA 표현을 향상시키기 위해 생성되기 때문에 확장이 행해져야만 한다. 계층화된 HOA 코딩의 현재 정의에서, 제공된 데이터는 최상위 레이어의 HOA 표현을 적절히 확장시킬 뿐이다. 하위 레이어들에 대해, 이 도구들은 부분적으로 재구성된 HOA 표현을 적절히 향상시키지 못한다.Extensions to these tools must be made as auxiliary information is generated to enhance specific HOA representations. In the current definition of layered HOA coding, the provided data only appropriately extends the HOA representation of the top layer. For lower layers, these tools do not adequately enhance the partially reconstructed HOA representation.
따라서, 이 도구들을 대응하는 레이어의 재구성된 HOA 표현에 보다 잘 적응시키기 위해 각각의 레이어에 대한 이 도구들의 보조 정보를 제공하는 것이 보다 나을 것이다.Therefore, it would be better to provide auxiliary information for these tools for each layer to better adapt them to the reconstructed HOA representation of the corresponding layer.
그에 부가하여, 서브대역 방향성 신호 합성 및 파라메트릭 앰비언스 복제 디코더와 같은 도구들은, 몇 개의 전송 신호만이 이용가능한, 낮은 데이터 레이트들을 위해 특별히 설계되어 있다. 제안된 확장은 따라서 이 도구들의 보조 정보를 레이어에서의 전송 신호들의 수에 따라 최적으로 적응시킬 수 있는 것을 제공할 것이다. 그에 따라, 저 비트 레이트 레이어들, 예컨대, 베이스 레이어에 대한 재구성된 HOA 표현의 사운드 품질이 기존의 계층화된 접근법에 비해 상당히 증가될 수 있다.In addition, tools such as subband directional signal synthesis and parametric ambience replica decoder are specifically designed for low data rates, where only a few transmit signals are available. The proposed extension will therefore provide an optimal adaptation of the auxiliary information of these tools depending on the number of transmitted signals in the layer. Accordingly, the sound quality of the reconstructed HOA representation for low bit rate layers, such as the base layer, can be significantly increased compared to the existing layered approach.
게다가, 1과 동일한 CodedVVecLength가 HOADecoderConfig()에서 시그널링되는 경우 벡터 기반 신호들에 대한 인코딩된 V-벡터 요소들에 대한 비트스트림 신택스가 HOA 계층화된 코딩에 적합화되어야만 한다. 이 벡터 코딩 모드에서, ContAddHoaCoeff 세트에 포함된 HOA 계수 인덱스들에 대한 V-벡터 요소들이 전송되지 않는다. 이 세트는 0과 동일한 AmbCoeffTransitionState를 갖는 HOA 계수 인덱스들 AmbCoeffIdx[i] 전부를 포함한다. 이 인덱스들에 대한 원래의 HOA 계수 시퀀스가 명시적으로 송신되기 때문에 가중된 V-벡터 신호를 추가할 필요도 없다. 따라서 이 인덱스들에 대해 종래의 접근법에서의 V-벡터 요소는 0으로 설정된다.Furthermore, if CodedVVecLength equal to 1 is signaled in HOADecoderConfig(), the bitstream syntax for encoded V-vector elements for vector-based signals must be adapted to HOA layered coding. In this vector coding mode, V-vector elements for HOA coefficient indices included in the ContAddHoaCoeff set are not transmitted. This set contains all HOA coefficient indices AmbCoeffIdx[i] with AmbCoeffTransitionState equal to 0. Since the original HOA coefficient sequence for these indices is transmitted explicitly, there is no need to add a weighted V-vector signal. Therefore, for these indices the V-vector elements in the conventional approach are set to 0.
그렇지만, 계층화된 코딩 모드에서, 연속적 HOA 계수 인덱스들의 세트는 현재 활성 레이어의 일부인 전송 채널들에 의존한다. 이것은 상위 레이어에서 송신된 부가의 HOA 계수 인덱스들이 하위 레이어들에서 누락되어 있다는 것을 의미한다. 그러면, 상위 레이어들에 포함된 HOA 계수 시퀀스들에 속하는 HOA 계수 인덱스들에 대해, 벡터 신호가 HOA 계수 시퀀스에 기여해서는 안된다는 가정은 잘못된 것이다. 따라서, 이 누락된 계수 인덱스들에 대한 V-벡터 요소들을 (명시적으로) 시그널링하는 것이 제안된다.However, in layered coding mode, the set of consecutive HOA coefficient indices depends on the transport channels that are currently part of the active layer. This means that the additional HOA coefficient indices transmitted in the upper layer are missing in the lower layers. Then, for HOA coefficient indices belonging to HOA coefficient sequences included in upper layers, the assumption that the vector signal should not contribute to the HOA coefficient sequence is incorrect. Therefore, it is proposed to (explicitly) signal the V-vector elements for these missing coefficient indices.
그 결과, 각각의 레이어에 대해 ContAddHoaCoeff 세트를 정의하는 것 및 활성 V-벡터 요소들의 선택을 위해 V-벡터 신호가 추가되는(V-벡터 신호의 전송 신호가 속하는) 레이어의 세트를 사용하는 것이 제안된다. 그럼에도 불구하고, V-벡터 데이터가 HOAFrame()에 머무르고 HOAEnhFrame()으로 이동되지 않는 것이 제안된다.As a result, it is proposed to define a set of ContAddHoaCoeff for each layer and to use the set of layers to which the V-vector signal is added (to which the transmission signal of the V-vector signal belongs) for the selection of active V-vector elements. do. Nonetheless, it is suggested that the V-vector data stay in HOAFrame() and not be moved to HOAEnhFrame().
다음에, MPEG-H 비트스트림 신택스에의 통합이 기술될 것이다. 본 개시내용의 실시예들에 따른 대응하는 인코딩 방법(예컨대, 사운드 또는 음장의 압축된 HOA 표현의 프레임의 계층화된 인코딩 방법)이 도 3을 참조하여 기술될 것이다. MPEG-H 3D 비트스트림에 대한 제안된 변경들은 이하에서 부록에서 기술될 것이다.Next, integration into MPEG-H bitstream syntax will be described. A corresponding encoding method (e.g., a layered encoding method of a frame of a compressed HOA representation of a sound or sound field) according to embodiments of the present disclosure will be described with reference to FIG. 3 . Proposed changes to the MPEG-H 3D bitstream will be described in the appendix below.
계층화된 코딩 모드에서, HOADecoderConfig()에서의 SingleLayer 플래그는 비활성이고(SingleLayer==0) 레이어들의 수 및 레이어들의 대응하는, 배정된 HOA 전송 신호들의 수가 정의된다. 일반적으로, 압축된 HOA 표현은 복수의 전송 신호들을 포함할 수 있다.In layered coding mode, the SingleLayer flag in HOADecoderConfig() is inactive (SingleLayer==0) and the number of layers and their corresponding number of assigned HOA transmission signals are defined. In general, a compressed HOA representation may include a plurality of transmitted signals.
그에 따라, 도 3의 S3010에서, 복수의 전송 신호들이 복수의 계층적 레이어들에 배정된다. 환언하면, 전송 신호들이 복수의 레이어들에 분배된다. 각각의 레이어는 그 레이어에 배정된 각자의 전송 신호들을 포함한다고 말해질 수 있다. 각각의 레이어는 하나 초과의 전송 신호를 배정받았을 수 있다. 복수의 레이어들은 베이스 레이어 및 하나 이상의 계층적 향상 레이어를 포함할 수 있다. 레이어들이 베이스 레이어로부터 향상 레이어들을 거쳐 전체 최상위 향상 레이어(전체 최상위 레이어)까지 순서화될 수 있다.Accordingly, in S3010 of FIG. 3, a plurality of transmission signals are assigned to a plurality of hierarchical layers. In other words, transmission signals are distributed to multiple layers. Each layer can be said to contain its own transmission signals assigned to that layer. Each layer may be assigned more than one transmission signal. The plurality of layers may include a base layer and one or more hierarchical enhancement layers. The layers can be ordered from the base layer through the enhancement layers to the overall top enhancement layer (overall top layer).
각각의 HOA 향상 레이어(베이스 레이어를 포함함)에 대한 공간 신호 예측, 서브대역 방향성 신호 합성 및 PAR 디코더 데이터의 하나의 페이로드를 전송하기 위해 새로 정의된 usacExtElementType인 ID_EXT_ELE_HOA_ENH_LAYER를 갖는 부가의 HOA 구성 확장 페이로드 및 HOA 프레임 확장 페이로드를 MPEG-H 비트스트림에 추가하는 것이 제안된다. 이 추가의 페이로드들은 mpegh3daExtElementConfig()에서 그리고 그에 대응하여 mpegh3daFrame()에서 ID_EXT_ELE_HOA 유형의 페이로드를 바로 뒤따라올 것이다.An additional HOA configuration extension payload with a newly defined usacExtElementType, ID_EXT_ELE_HOA_ENH_LAYER, to carry one payload of spatial signal prediction, subband directional signal synthesis, and PAR decoder data for each HOA enhancement layer (including the base layer). It is proposed to add LOAD and HOA frame extension payloads to the MPEG-H bitstream. These additional payloads will immediately follow a payload of type ID_EXT_ELE_HOA in mpegh3daExtElementConfig() and correspondingly in mpegh3daFrame().
따라서, SingleLayer == 0의 경우에, 공간 신호 예측, 서브대역 방향성 신호 합성 및 PAR 디코더에 대한 구성 요소들은 HOADecoderConfig()로부터 새로 정의된 HOADecoderEnhConfig()로 그리고 그에 대응하여 HOAPredictionInfo(), HOADirectionalPredictionInfo() 및 HOAParInfo()는 HOAFrame()로부터 새로 정의된 HOAEnhFrame()으로 이동시키는 것이 제안된다.Therefore, in the case of SingleLayer == 0, the components for spatial signal prediction, subband directional signal synthesis and PAR decoder are derived from HOADecoderConfig() to the newly defined HOADecoderEnhConfig() and correspondingly HOAPredictionInfo(), HOADirectionalPredictionInfo() and It is proposed to move HOAParInfo() from HOAFrame() to the newly defined HOAEnhFrame().
그에 따라, S3020에서, 각각의 레이어에 대한 각자의 HOA 확장 페이로드가 생성된다. 생성된 HOA 확장 페이로드는 각자의 레이어 및 각자의 레이어보다 하위인 임의의 레이어들에 배정된(예컨대, 그들에 포함된) 전송 신호들로부터 획득가능한 재구성된 HOA 표현을 파라미터적으로 향상시키기 위한 보조 정보를 포함할 수 있다. 앞서 살펴본 바와 같이, HOA 확장 페이로드들은 HOA 공간 신호 예측 디코딩 도구, HOA 서브대역 방향성 신호 합성 디코딩 도구, 및 HOA 파라메트릭 앰비언스 복제 디코딩 도구 중 하나 이상에 대한 비트스트림 요소들을 포함할 수 있다. 게다가, HOA 확장 페이로드들은 ID_EXT_ELE_HOA_ENH_LAYER라는 usacExtElementType을 가질 수 있다.Accordingly, in S3020 , respective HOA extension payloads for each layer are generated. The generated HOA extension payload is an aid for parametrically improving the reconstructed HOA representation obtainable from the transmission signals assigned to (e.g., included in) each layer and any layers lower than the respective layer. May contain information. As discussed above, HOA extension payloads may include bitstream elements for one or more of the HOA spatial signal prediction decoding tool, the HOA subband directional signal synthesis decoding tool, and the HOA parametric ambience replication decoding tool. Additionally, HOA extension payloads may have a usacExtElementType of ID_EXT_ELE_HOA_ENH_LAYER.
S3030에서, 생성된 HOA 확장 페이로드들이 그 각자의 레이어들에 배정된다.In S3030 , the generated HOA extension payloads are assigned to their respective layers.
게다가(도 3에 도시되지 않음), HOA 공간 신호 예측 디코딩 도구, HOA 서브대역 방향성 신호 합성 디코딩 도구, 및/또는 HOA 파라메트릭 앰비언스 복제 디코딩 도구를 구성하기 위한 비트스트림 요소들을 포함하는 HOA 구성 확장 페이로드가 생성될 수 있다.In addition (not shown in Figure 3), an HOA configuration extension page containing bitstream elements for configuring an HOA spatial signal prediction decoding tool, an HOA subband directional signal synthesis decoding tool, and/or an HOA parametric ambience replica decoding tool. A load can be created.
게다가(도 3에 도시되지 않음), HOA 확장 페이로드들을 복수의 레이어들에 배정하는 것을 표시하는 정보를 포함하는 HOA 디코더 구성 페이로드가 생성될 수 있다.Additionally (not shown in Figure 3), an HOA decoder configuration payload may be generated that includes information indicating the assignment of HOA extension payloads to a plurality of layers.
다음에, 계층화된 비트스트림(예컨대, MPEG-H 비트스트림)의 전송이 기술될 것이다. MPEG-H 비트스트림의 확장 페이로드들 전부가 바이트 정렬되고 그들의 크기들이 명시적으로 시그널링되기 때문에, elementLengthPresent 플래그가 1이라고 가정되는 경우, 디패커(de-packer)는 MPEG-H 비트스트림을 파싱하고 1보다 더 높은 레이어들에 대한 페이로드들을 추출하며 그들을 상이한 전송 채널들을 통해 개별적으로 전송할 수 있다. 베이스 레이어는 상위 레이어들에 대한 데이터를 제외한 MPEG-H 비트스트림을 포함한다(예컨대, 이들로 이루어져 있다). 누락된 확장 페이로드들은 비어있거나 비활성인 것으로 시그널링된다. ID_USAC_SCE, ID_USAC_CPE 및 ID_USAC_LFE 유형의 페이로드들에 대해, 비어있는 페이로드는 0의 elementLength에 의해 시그널링되고, 여기서 elementLengthPresent는 1로 설정될 필요가 있다. ID_USAC_EXT 유형의 비어있는 페이로드는 usacExtElementPresent 플래그를 0(거짓)으로 설정하는 것에 의해 시그널링될 수 있다.Next, the transmission of layered bitstreams (eg, MPEG-H bitstreams) will be described. Since all of the extension payloads of the MPEG-H bitstream are byte-aligned and their sizes are explicitly signaled, if the elementLengthPresent flag is assumed to be 1, the de-packer parses the MPEG-H bitstream and Payloads for layers higher than 1 can be extracted and transmitted separately over different transport channels. The base layer contains (eg, consists of) the MPEG-H bitstream excluding data for the upper layers. Missing extension payloads are signaled as empty or inactive. For payloads of type ID_USAC_SCE, ID_USAC_CPE and ID_USAC_LFE, an empty payload is signaled by an elementLength of 0, where elementLengthPresent needs to be set to 1. An empty payload of type ID_USAC_EXT can be signaled by setting the usacExtElementPresent flag to 0 (false).
그에 따라, S3040에서, 생성된 HOA 확장 페이로드들이 출력 비트스트림에서 시그널링(예컨대, 전송 또는 출력)된다. 일반적으로, 복수의 레이어들 및 그들에 배정된 페이로드들이 출력 비트스트림에서 시그널링(예컨대, 전송, 또는 출력)된다. 게다가, HOA 디코더 구성 페이로드 및/또는 HOA 구성 확장 페이로드가 출력 비트스트림에서 시그널링(예컨대, 전송, 또는 출력)될 수 있다.Accordingly, at S3040 , the generated HOA extension payloads are signaled (eg, transmitted or output) in the output bitstream. Typically, a plurality of layers and their assigned payloads are signaled (eg, transmitted, or output) in an output bitstream. Additionally, an HOA decoder configuration payload and/or HOA configuration extension payload may be signaled (e.g., transmitted, or output) in the output bitstream.
HOA 베이스 레이어(레이어 인덱스 = 1)가 가장 높은 에러 방지를 사용해 전송되고 비교적 작은 비트레이트를 갖는 것으로 가정된다. 후속하는 레이어들(하나 이상의 HOA 향상 레이어)에 대한 에러 방지는 향상 레이어들의 비트 레이트가 증가함에 따라 꾸준히 감소된다. 나쁜 전송 조건들 및 보다 낮은 에러 방지로 인해, 상위 레이어들의 전송이 실패할지도 모르며 최악의 경우에 베이스 레이어만이 올바르게 전송된다. 하나의 레이어의 페이로드들 전부에 대한 결합된 에러 방지가 적용되는 것으로 가정된다. 따라서 레이어의 전송이 실패하는 경우, 대응하는 레이어의 페이로드들 전부가 누락된다.The HOA base layer (layer index = 1) is assumed to be transmitted using the highest error protection and to have a relatively small bitrate. Error protection for subsequent layers (one or more HOA enhancement layers) steadily decreases as the bit rate of the enhancement layers increases. Due to bad transmission conditions and lower error tolerance, the transmission of upper layers may fail and in the worst case only the base layer is transmitted correctly. It is assumed that combined error prevention for all payloads of one layer is applied. Therefore, if transmission of a layer fails, all payloads of the corresponding layer are missing.
환언하면, 복수의 레이어들에 대한 데이터 페이로드들이 각자의 에러 방지 레벨들로 전송될 수 있으며, 여기서 베이스 레이어는 가장 높은 에러 방지를 갖고 하나 이상의 향상 레이어는 순차적으로 감소하는 에러 방지를 갖는다.In other words, data payloads for multiple layers may be transmitted with respective error protection levels, where the base layer has the highest error protection and one or more enhancement layers have sequentially decreasing error protection.
단계들이 특정 다른 단계들을 전제조건들로서 요구하지 않는 한, 앞서 언급된 단계들이 임의의 순서로 수행될 수 있고 도 3에 예시된 예시적인 순서는 비제한적인 것으로 이해된다.It is understood that the foregoing steps may be performed in any order and that the example order illustrated in FIG. 3 is non-limiting, unless the steps require certain other steps as prerequisites.
앞서 살펴본 바와 같이, 1과 동일한 CodedVVecLength가 HOADecoderConfig()에서 시그널링되는 경우 벡터 기반 신호들에 대한 인코딩된 V-벡터 요소들에 대한 비트스트림 신택스가 HOA 계층화된 코딩에 적합화되어야만 한다. 본 개시내용의 실시예들에 따른 대응하는 인코딩 방법(예컨대, 사운드 또는 음장의 압축된 HOA 표현의 프레임의 계층화된 인코딩 방법)이 도 4를 참조하여 기술될 것이다.As seen previously, if CodedVVecLength equal to 1 is signaled in HOADecoderConfig(), the bitstream syntax for encoded V-vector elements for vector-based signals must be adapted to HOA layered coding. A corresponding encoding method (e.g., a layered encoding method of a frame of a compressed HOA representation of a sound or sound field) according to embodiments of the present disclosure will be described with reference to FIG. 4 .
도 4의 S4010에서, 복수의 전송 신호들이 복수의 계층적 레이어들에 배정된다. 이 단계는 앞서 기술된 S3010과 동일한 방식으로 수행될 수 있다.In S4010 of FIG. 4, a plurality of transmission signals are assigned to a plurality of hierarchical layers. This step can be performed in the same manner as S3010 described previously.
S4020에서, 벡터 코딩 모드가 활성인지 여부가 결정된다. 이것은 CodedVVecLength==1인지 여부를 결정하는 것을 포함할 수 있다.At S4020 , it is determined whether the vector coding mode is active. This may include determining whether CodedVVecLength==1.
앞서 살펴본 바와 같이, 종래의 접근법에서는 벡터 코딩 모드에서, ContAddHoaCoeff 세트에 포함된 HOA 계수 인덱스들에 대한 V-벡터 요소들이 전송되지 않는다. 이 세트는 0과 동일한 AmbCoeffTransitionState를 갖는 HOA 계수 인덱스들 AmbCoeffIdx[i] 전부를 포함한다. 이 인덱스들에 대한 원래의 HOA 계수 시퀀스가 명시적으로 송신되기 때문에 가중된 V-벡터 신호를 추가할 필요도 없다. 따라서 이 인덱스들에 대해 종래의 접근법에서의 V-벡터 요소는 0으로 설정된다.As seen above, in the conventional approach, in vector coding mode, V-vector elements for HOA coefficient indices included in the ContAddHoaCoeff set are not transmitted. This set contains all HOA coefficient indices AmbCoeffIdx[i] with AmbCoeffTransitionState equal to 0. Since the original HOA coefficient sequence for these indices is transmitted explicitly, there is no need to add a weighted V-vector signal. Therefore, for these indices the V-vector elements in the conventional approach are set to 0.
그렇지만, 계층화된 코딩 모드에서, 연속적 HOA 계수 인덱스들의 세트는 현재 활성 레이어의 일부인 전송 채널들에 의존한다. 이것은 상위 레이어에서 송신된 부가의 HOA 계수 인덱스들이 하위 레이어들에서 누락되어 있다는 것을 의미한다. 그러면, 상위 레이어들에 포함된 HOA 계수 시퀀스들에 속하는 HOA 계수 인덱스들에 대해, 벡터 신호가 HOA 계수 시퀀스에 기여해서는 안된다는 가정은 잘못된 것이다.However, in layered coding mode, the set of consecutive HOA coefficient indices depends on the transport channels that are currently part of the active layer. This means that the additional HOA coefficient indices transmitted in the upper layer are missing in the lower layers. Then, for HOA coefficient indices belonging to HOA coefficient sequences included in upper layers, the assumption that the vector signal should not contribute to the HOA coefficient sequence is incorrect.
따라서, 벡터 코딩 모드가 활성인 경우, S4030에서, 각자의 레이어에 배정된 전송 신호들에 기초하여 각각의 레이어에 대한 연속적 HOA 계수 인덱스들의 세트(예컨대, ContAddHoaCoeff)가 결정(예컨대, 정의)된다.Accordingly, when the vector coding mode is active, at S4030 , a set of consecutive HOA coefficient indices (e.g., ContAddHoaCoeff) for each layer is determined (e.g., defined) based on the transmission signals assigned to each layer.
벡터 코딩 모드가 활성인 경우, S4040에서, 각각의 전송 신호에 대해, 각자의 전송 신호가 배정되는 레이어에 대한 결정된 연속적 HOA 계수 인덱스들의 세트에 기초하여 V-벡터가 생성된다. 각각의 생성된 V-벡터는 각자의 전송 신호가 배정되는 레이어보다 상위인 레이어들에 배정된 임의의 전송 신호들에 대한 요소들을 포함할 수 있다. 이 단계는 활성 V-벡터 요소들의 선택을 위해 V-벡터 신호가 추가되는 레이어(V-벡터 신호의 전송 신호가 속하는 레이어)에 대해 결정된 연속적 HOA 계수 인덱스들의 세트를 사용하는 것을 포함할 수 있다. 그럼에도 불구하고, V-벡터 데이터가 HOAFrame()에 머무르고 HOAEnhFrame()으로 이동되지 않는 것이 제안된다.If the vector coding mode is active, at S4040 , for each transmitted signal, a V-vector is generated based on the determined set of consecutive HOA coefficient indices for the layer to which the respective transmitted signal is assigned. Each generated V-vector may include elements for arbitrary transmission signals assigned to layers higher than the layer to which each transmission signal is assigned. This step may include using the set of continuous HOA coefficient indices determined for the layer to which the V-vector signal is added (the layer to which the transmission signal of the V-vector signal belongs) for selection of active V-vector elements. Nonetheless, it is suggested that the V-vector data stay in HOAFrame() and not be moved to HOAEnhFrame().
이어서, S4050에서, 생성된 V-벡터들(V-벡터 신호들)이 출력 비트스트림에서 시그널링된다. 이것은 앞서 언급된 누락된 계수 인덱스들에 대한 V-벡터 요소들을 (명시적으로) 시그널링하는 것을 포함할 수 있다.Then, at S4050 , the generated V-vectors (V-vector signals) are signaled in the output bitstream. This may include (explicitly) signaling the V-vector elements for the missing coefficient indices mentioned above.
도 4의 단계들(S4020 내지 S4050)은 또한 도 3에 예시된 인코딩 방법과 관련하여, 예컨대, S3010 이후에 이용될 수 있다. 이 경우에, S3040과 S4050이 단일 시그널링 단계로 결합될 수 있다.Steps S4020 to S4050 of FIG. 4 may also be used in connection with the encoding method illustrated in FIG. 3, for example, after S3010. In this case, S3040 and S4050 can be combined into a single signaling step.
단계들이 특정 다른 단계들을 전제조건들로서 요구하지 않는 한, 앞서 언급된 단계들이 임의의 순서로 수행될 수 있고 도 4에 예시된 예시적인 순서는 비제한적인 것으로 이해된다.It is understood that the foregoing steps may be performed in any order and that the example order illustrated in FIG. 4 is non-limiting, unless the steps require certain other steps as prerequisites.
수신기측에서, MPEG-H 비트스트림 패커(MPEG-H bitstream packer)는 올바르게 수신된 페이로드들을 베이스 레이어 MPEG-H 비트스트림에 재삽입하고 이를 MPEG-H 3D 오디오 디코더에 전달할 수 있다.On the receiver side, the MPEG-H bitstream packer can reinsert correctly received payloads into the base layer MPEG-H bitstream and deliver them to the MPEG-H 3D audio decoder.
다음에, HOA 디코딩 초기화(구성)가 기술될 것이다. 바이트 단위의 대응하는 크기들을 갖는 ID_EXT_ELE_HOA 및 ID_EXT_ELE_HOA_ENH_LAYER 유형의 HOA 구성 페이로드들이 HOA 디코더에 그의 초기화를 위해 입력된다. HOA 코딩 도구들은, ID_EXT_ELE_HOA 유형의 페이로드로부터 파싱되는, HOAConfig()에 정의된 비트스트림 요소들에 따라 구성된다. 게다가, 이 페이로드는 계층화된 코딩 모드의 사용, 레이어들의 수 및 대응하는 레이어당 전송 신호들의 수를 포함한다. 이어서, 계층화된 코딩이 활성화되어 있는 경우(SingleLayer==0), 각각의 레이어의 대응하는 공간 신호 예측, 서브대역 방향성 신호 합성 및 파라메트릭 앰비언스 복제 디코더를 구성하기 위해 HOAEnhConfig()들이 ID_EXT_ELE_HOA_ENH_LAYER 유형의 페이로드들로부터 파싱된다.Next, HOA decoding initialization (configuration) will be described. HOA configuration payloads of type ID_EXT_ELE_HOA and ID_EXT_ELE_HOA_ENH_LAYER with corresponding sizes in bytes are input to the HOA decoder for its initialization. HOA coding tools are constructed according to the bitstream elements defined in HOAConfig(), which are parsed from a payload of type ID_EXT_ELE_HOA. Additionally, this payload includes the use of layered coding mode, the number of layers and the corresponding number of transmitted signals per layer. Subsequently, if layered coding is enabled (SingleLayer==0), HOAEnhConfig() uses a page of type ID_EXT_ELE_HOA_ENH_LAYER to configure the corresponding spatial signal prediction, subband directional signal synthesis, and parametric ambience replication decoder of each layer. Parsed from loads.
HOAEnhConfig()로부터의 LayerIdx 요소는 mpegh3daExtElementConfig()에서의 HOA 향상 레이어 구성 페이로드들의 순서와 함께 HOA 향상 레이어들의 순서를 표시한다. mpegh3daFrame()에서의 ID_EXT_ELE_HOA_ENH_LAYER 유형의 HOA 향상 레이어 프레임 페이로드들의 순서는 프레임 페이로드들을 대응하는 레이어들에 명확히 배정하도록 mpegh3daExtElementConfig()에서의 구성 페이로드들의 순서와 동일하다.The LayerIdx element from HOAEnhConfig() indicates the order of the HOA enhancement layers along with the order of the HOA enhancement layer configuration payloads in mpegh3daExtElementConfig(). The order of HOA enhancement layer frame payloads of type ID_EXT_ELE_HOA_ENH_LAYER in mpegh3daFrame() is the same as the order of configuration payloads in mpegh3daExtElementConfig() to clearly assign frame payloads to corresponding layers.
SingleLayer==1(단일 레이어 코딩)의 경우에, ID_EXT_ELE_HOA_ENH_LAYER 유형의 페이로드들은 무시되고, 공간 신호 예측, 서브대역 방향성 신호 합성 및 파라메트릭 앰비언스 복제 디코더는 그들의 구성을 위해 HOADecoderConfig()로부터의 대응하는 데이터를 사용한다.In the case of SingleLayer==1 (single layer coding), payloads of type ID_EXT_ELE_HOA_ENH_LAYER are ignored, and the spatial signal prediction, subband directional signal synthesis and parametric ambience replication decoders use the corresponding data from HOADecoderConfig() for their configuration. Use .
다음에, 계층화된 모드에서의 HOA 프레임 디코딩이 기술될 것이다. 본 개시내용의 실시예들에 따른 대응하는 디코딩 방법(예컨대, 사운드 또는 음장의 압축된 HOA 표현의 프레임을 디코딩하는 방법)이 도 5를 참조하여 기술될 것이다. 압축된 HOA 표현(예컨대, 앞서 기술된 도 3 또는 도 4의 방법들의 출력)이 베이스 레이어 및 하나 이상의 향상 레이어를 포함하는 복수의 계층적 레이어들에 인코딩된다는 것이 이해된다.Next, HOA frame decoding in layered mode will be described. A corresponding decoding method (eg, a method of decoding a frame of a compressed HOA representation of a sound or sound field) according to embodiments of the present disclosure will be described with reference to FIG. 5 . It is understood that the compressed HOA representation (eg, the output of the methods of FIG. 3 or FIG. 4 described above) is encoded in a plurality of hierarchical layers, including a base layer and one or more enhancement layers.
도 5의 S5010에서, 압축된 HOA 표현의 프레임에 관련된 비트스트림이 수신된다.At S5010 of Figure 5, a bitstream associated with a frame of the compressed HOA representation is received.
3D 오디오 코어 디코더는 올바르게 전송된 HOA 전송 신호들을 디코딩하고, 대응하는 유효하지 않은 페이로드들에 대해 샘플들 전부가 0인 전송 신호들을 생성한다. 디코딩된 전송 신호들이 usacExtElementPresent 플래그들, ID_EXT_ELE_HOA 및 ID_EXT_ELE_HOA_ENH_LAYER 유형의 HOA 페이로드들의 데이터 및 크기들과 함께 HOA 디코더에 입력된다. usacExtElementPresent 플래그가 거짓으로 설정되어 있는 ID_USAC_EXT 유형으로부터의 확장 페이로드들은, 페이로드들을 대응하는 레이어들에 배정하는 것을 보장하기 위해, 누락된 페이로드들로서 HOA 디코더에 시그널링되어야만 한다.The 3D audio core decoder decodes the correctly transmitted HOA transmission signals and generates transmission signals with all zero samples for the corresponding invalid payloads. Decoded transmission signals are input to the HOA decoder along with usacExtElementPresent flags, data and sizes of HOA payloads of type ID_EXT_ELE_HOA and ID_EXT_ELE_HOA_ENH_LAYER. Extension payloads from type ID_USAC_EXT with the usacExtElementPresent flag set to false must be signaled to the HOA decoder as missing payloads to ensure assignment of payloads to the corresponding layers.
S5020에서, 복수의 레이어들에 대한 페이로드들이 추출된다. 각각의 페이로드는 각자의 레이어에 배정된 전송 신호들을 포함할 수 있다.In S5020 , payloads for a plurality of layers are extracted. Each payload may include transmission signals assigned to each layer.
이 단계에서, HOA 디코더는 ID_EXT_ELE_HOA 유형의 페이로드로부터 HOAFrame()을 파싱할 수 있다.At this stage, the HOA decoder can parse HOAFrame() from a payload of type ID_EXT_ELE_HOA.
이어서, 페이로드들의 대응하는 usacExtElementPresent 플래그를 평가하는 것에 의해 ID_EXT_ELE_HOA_ENH_LAYER 유형의 유효한 페이로드들 및 ID_EXT_ELE_HOA_ENH_LAYER 유형의 유효하지 않은 페이로드들이 결정되고, 여기서 유효하지 않은 페이로드는 usacExtElementPresent 플래그가 거짓인 것에 의해 표시되고 HOA 향상 페이로드들을 향상 레이어 인덱스들에 배정하는 것은 HOA 디코더 구성으로부터 알 수 있다.Valid payloads of type ID_EXT_ELE_HOA_ENH_LAYER and invalid payloads of type ID_EXT_ELE_HOA_ENH_LAYER are then determined by evaluating the corresponding usacExtElementPresent flag of the payloads, where invalid payloads are indicated by the usacExtElementPresent flag being false and Assigning HOA enhancement payloads to enhancement layer indices can be seen from the HOA decoder configuration.
S5030에서, 디코딩을 위한 복수의 레이어들 중의 최상위 사용가능 레이어가 결정된다.At S5030 , the highest available layer among the plurality of layers for decoding is determined.
레이어들이 전송 신호들의 면에서 서로 의존하기 때문에, HOA 디코더는 보다 낮은 인덱스를 갖는 레이어들 전부가 올바르게 수신될 때만 레이어를 디코딩할 수 있다. 최상위 사용가능 레이어까지의 레이어들 전부가 올바르게 수신되도록 최상위 사용가능 레이어가 이 단계에서 선택될 수 있다. 이 단계의 상세들이 이하에서 기술될 것이다.Because the layers depend on each other in terms of transmitted signals, the HOA decoder can decode a layer only when all of the layers with lower indices are received correctly. The highest available layer can be selected at this stage so that all layers up to the highest available layer are received correctly. Details of this step will be described below.
S5040에서, 최상위 사용가능 레이어에 배정된 HOA 확장 페이로드가 추출된다. 앞서 살펴본 바와 같이, HOA 확장 페이로드는 최상위 사용가능 레이어에 대응하는 재구성된 HOA 표현을 파라미터적으로 향상시키기 위한 보조 정보를 포함할 수 있다. 거기에서, 최상위 사용가능 레이어에 대응하는 재구성된 HOA 표현은 최상위 사용가능 레이어 및 최상위 사용가능 레이어보다 하위인 임의의 레이어들에 배정된 전송 신호들에 기초하여 획득가능할 수 있다.In S5040 , the HOA extension payload assigned to the highest available layer is extracted. As seen above, the HOA extension payload may contain auxiliary information to parametrically enhance the reconstructed HOA representation corresponding to the highest available layer. There, the reconstructed HOA representation corresponding to the highest available layer may be obtainable based on transmission signals assigned to the highest available layer and any layers lower than the highest available layer.
그에 부가하여, 복수의 레이어들의 나머지 레이어들에 각각 배정된 HOA 확장 페이로드들이 추출될 수 있다. 각각의 HOA 확장 페이로드는 그 각자의 배정된 레이어에 대응하는 재구성된 HOA 표현을 파라미터적으로 향상시키기 위한 보조 정보를 포함할 수 있다. 그 각자의 배정된 레이어에 대응하는 재구성된 HOA 표현은 그 레이어 및 그 레이어보다 하위인 임의의 레이어들에 배정된 전송 신호들로부터 획득가능할 수 있다.In addition, HOA extension payloads assigned to the remaining layers of the plurality of layers may be extracted. Each HOA extension payload may include auxiliary information to parametrically enhance the reconstructed HOA representation corresponding to its respective assigned layer. The reconstructed HOA representation corresponding to each assigned layer may be obtainable from transmission signals assigned to that layer and any layers lower than that layer.
게다가(도 5에 도시되지 않음), 디코딩 방법은 HOA 구성 확장 페이로드를 추출하는 단계를 포함할 수 있다. 이것은 비트스트림을 파싱하는 것에 의해 행해질 수 있다. HOA 구성 확장 페이로드는 HOA 공간 신호 예측 디코딩 도구, HOA 서브대역 방향성 신호 합성 디코딩 도구, 및/또는 HOA 파라메트릭 앰비언스 복제 디코딩 도구를 구성하기 위한 비트스트림 요소들을 포함할 수 있다.Additionally (not shown in Figure 5), the decoding method may include extracting the HOA configuration extension payload. This can be done by parsing the bitstream. The HOA configuration extension payload may include bitstream elements for configuring the HOA spatial signal prediction decoding tool, the HOA subband directional signal synthesis decoding tool, and/or the HOA parametric ambience replica decoding tool.
S5050에서, 최상위 사용가능 레이어에 대응하는 (부분적으로) 재구성된 HOA 표현이 최상위 사용가능 레이어 및 최상위 사용가능 레이어보다 하위인 임의의 레이어들에 배정된 전송 신호들에 기초하여 생성된다.At S5050 , a (partially) reconstructed HOA representation corresponding to the highest available layer is generated based on transmission signals assigned to the highest available layer and any layers lower than the highest available layer.
실제로 사용된 전송 신호들(IADD,LAY(k))의 수는 최상위 사용가능 레이어(의 인덱스(MLAY(k)))에 따라 설정되고, 제1 예비적 HOA 표현은 HOAFrame()으로부터 그리고 레이어 및 임의의 하위 레이어들의 대응하는 전송 신호들로부터 디코딩된다.The number of actually used transmission signals (I ADD,LAY (k)) is set according to the index (M LAY (k)) of the highest available layer (M LAY (k)), and the first preliminary HOA representation is from HOAFrame() and Decoded from the corresponding transmission signals of the layer and any lower layers.
이어서, S5060에서, 재구성된 HOA 표현이 최상위 사용가능 레이어에 배정된 HOA 확장 페이로드에 포함된 보조 정보를 사용하여 향상된다(예컨대, 파라미터적으로 향상된다).Then, at S5060 , the reconstructed HOA representation is enhanced (e.g., parametrically enhanced) using auxiliary information contained in the HOA extension payload assigned to the highest available layer.
즉, S5050에서 획득된 HOA 표현은 이어서 현재 활성 레이어(MLAY(k)), 즉 최상위 사용가능 레이어의 ID_EXT_ELE_HOA_ENH_LAYER 유형의 HOA 향상 레이어 확장 페이로드로부터 파싱된 HOAEnhFrame() 데이터를 사용하여 공간 신호 예측, 서브대역 방향성 신호 합성 및 파라메트릭 앰비언스 복제 디코더에 의해 향상된다.That is, the HOA representation obtained in S5050 is then used to predict spatial signals using the HOAEnhFrame() data parsed from the HOA enhancement layer extension payload of type ID_EXT_ELE_HOA_ENH_LAYER of the currently active layer (M LAY (k)), i.e. the highest available layer; It is enhanced by subband directional signal synthesis and parametric ambience replication decoder.
단계들(S5020 내지 S5060)에서 사용된 정보는 레이어 정보라고 알려져 있을 수 있다.Information used in steps S5020 to S5060 may be known as layer information.
단계들이 특정 다른 단계들을 전제조건들로서 요구하지 않는 한, 앞서 언급된 단계들이 임의의 순서로 수행될 수 있고 도 5에 예시된 예시적인 순서는 비제한적인 것으로 이해된다.It is understood that the above-mentioned steps may be performed in any order and that the example order illustrated in FIG. 5 is non-limiting, unless the steps require certain other steps as prerequisites.
다음에, S5030에서 최상위 사용가능 레이어를 결정(예컨대, 선택)하는 것에 대한 상세들이 기술될 것이다.Next, details about determining (eg, selecting) the highest available layer in S5030 will be described.
앞서 살펴본 바와 같이, HOA 디코더는 보다 낮은 인덱스를 갖는 레이어들 전부가 올바르게 수신될 때에만 레이어를 디코딩할 수 있는데, 그 이유는 레이어들이 전송 신호들의 면에서 서로 의존하기 때문이다.As seen previously, the HOA decoder can decode a layer only when all of the layers with lower indices are received correctly, because the layers are dependent on each other in terms of transmitted signals.
최상위 디코딩가능 레이어의 선택을 위해, HOA 디코더는 유효하지 않은 레이어 인덱스들의 세트를 생성할 수 있고, 여기서 이 세트로부터의 가장 작은 인덱스에서 1을 빼면 최상위 디코딩가능 향상 레이어의 인덱스(MLAY)가 얻어진다. 유효하지 않은 레이어 인덱스들의 세트는 대응하는 HOA 확장 페이로드들의 유효성 플래그들을 평가하는 것에 의해 결정될 수 있다.For selection of the highest decodable layer, the HOA decoder can generate a set of invalid layer indices, where subtracting 1 from the smallest index from this set gives the index of the highest decodable enhancement layer (M LAY ). Lose. The set of invalid layer indices can be determined by evaluating the validity flags of the corresponding HOA extension payloads.
환언하면, 최상위 사용가능 레이어를 결정하는 단계는 유효하게 수신되지 않은 레이어들을 표시하는 유효하지 않은 레이어 인덱스들의 세트를 결정하는 단계를 포함할 수 있다. 이는 최상위 사용가능 레이어를 유효하지 않은 레이어 인덱스들의 세트에서의 가장 작은 인덱스에 의해 표시되는 레이어 아래의 하나의 레이어인 레이어로서 결정하는 단계를 추가로 포함할 수 있다. 그에 의해, 최상위 사용가능 레이어 아래의 레이어들 전부가 유효하게 수신되도록 보장된다.In other words, determining the highest available layer may include determining a set of invalid layer indices that indicate layers that were not validly received. This may further include determining the highest available layer as a layer that is one layer below the layer indicated by the smallest index in the set of invalid layer indices. Thereby, it is ensured that all layers below the highest available layer are received validly.
프레임들의 차분 인코딩의 경우에, 이전(예컨대, 직전) 프레임의 최상위 사용가능 레이어의 인덱스가 고려되어야만 할 것이다. 먼저, 이전(예컨대, 선행하는) 프레임의 최상위 사용가능 레이어의 인덱스가 유지되는 상황이 기술될 것이다.In case of differential encoding of frames, the index of the highest available layer of the previous (eg immediately preceding) frame would have to be taken into account. First, a situation will be described where the index of the highest available layer of the previous (eg preceding) frame is maintained.
현재 프레임에 대한 최상위 사용가능 레이어(예컨대, 최상위 디코딩가능 레이어)의 인덱스가 이전 프레임의 인덱스(MLAY(k-1))와 동일한 경우, 현재 프레임의 레이어 인덱스(MLAY(k))가 MLAY(k-1)로 설정된다.If the index of the highest available layer (e.g., highest decodable layer) for the current frame is the same as the index of the previous frame (M LAY (k-1)), then the layer index (M LAY (k)) of the current frame is M It is set to LAY (k-1).
이어서, 앞서 살펴본 바와 같이, 실제로 사용된 전송 신호들(IADD,LAY(k))의 수는 MLAY(k)에 따라 설정되고, 제1 예비적 HOA 표현은 HOAFrame()으로부터 그리고 레이어 및 임의의 하위 레이어들의 대응하는 전송 신호들로부터 디코딩된다. 앞서 살펴본 바와 같이, 이 HOA 표현은 이어서 현재 활성 레이어(MLAY(k))의 ID_EXT_ELE_HOA_ENH_LAYER 유형의 HOA 향상 레이어 확장 페이로드로부터 파싱된 HOAEnhFrame() 데이터를 사용하여 공간 신호 예측, 서브대역 방향성 신호 합성 및 파라메트릭 앰비언스 복제 디코더에 의해 향상된다.Subsequently, as seen above, the number of actually used transmission signals (I ADD,LAY (k)) is set according to M LAY (k), and the first preliminary HOA representation is obtained from HOAFrame() and the layer and random is decoded from the corresponding transmission signals of the lower layers of . As seen earlier, this HOA representation then uses the HOAEnhFrame() data parsed from the HOA enhancement layer extension payload of type ID_EXT_ELE_HOA_ENH_LAYER of the currently active layer (M LAY (k)) for spatial signal prediction, subband directional signal synthesis, and It is improved by a parametric ambience replication decoder.
다음에, 이전(예컨대, 선행하는) 프레임의 최상위 사용가능 레이어의 인덱스보다 더 낮은 인덱스로 전환되는 상황이 기술될 것이다. 즉, 현재 프레임에 대한 최상위 디코딩가능 레이어의 인덱스가 이전 프레임의 레이어의 인덱스(MLAY(k-1))보다 더 작은 경우에, HOA 디코더는 MLAY(k)를 현재 프레임에 대한 최상위 디코딩가능 레이어의 인덱스로 설정한다. 새로운 레이어에 대해 공간 신호 예측, 서브대역 방향성 신호 합성 및 파라메트릭 앰비언스 복제 디코더에 대한 페이로드들의 디코딩은 1과 동일한 hoaIndependencyFlag를 갖는 다음 HOA 프레임에서만 시작될 수 있다. 이러한 HOAFrame()이 수신될 때까지, 인덱스(MLAY(k))의 레이어의 HOA 표현은 공간 신호 예측, 서브대역 방향성 신호 합성 및 파라메트릭 앰비언스 복제 디코더를 수행하지 않고 재구성된다. 이것은 실제로 사용된 전송 신호들(IADD,LAY(k))의 수가 MLAY(k)에 따라 설정되고, 제1 예비적 HOA 표현만이 HOAFrame()으로부터 그리고 레이어 및 임의의 하위 레이어들의 대응하는 전송 신호들로부터 디코딩된다는 것을 의미한다. 이어서, 1과 동일한 hoaIndependencyFlag를 갖는 HOAFrame()이 수신된 경우, 이 프레임에 대해 현재 활성 레이어의 최대 품질(full quality)이 제공되도록, 예비적 HOA 표현을 향상시키기 위해 공간 신호 예측, 서브대역 방향성 신호 합성 및 파라메트릭 앰비언스 복제 디코더에 대한 페이로드들이 파싱 및 디코딩된다.Next, the situation of switching to an index lower than that of the highest available layer of the previous (eg, preceding) frame will be described. That is, if the index of the highest decodable layer for the current frame is smaller than the index of the layer of the previous frame (M LAY (k-1)), the HOA decoder can use M LAY (k) as the highest decodable layer for the current frame. Set as the index of the layer. For the new layer, decoding of payloads for spatial signal prediction, subband directional signal synthesis and parametric ambience replica decoder can only start in the next HOA frame with hoaIndependencyFlag equal to 1. Until such HOAFrame() is received, the HOA representation of the layer at index (M LAY (k)) is reconstructed without performing spatial signal prediction, subband directional signal synthesis, and parametric ambience replica decoder. This means that the number of actually used transmission signals (I ADD,LAY (k)) is set according to M LAY (k), and only the first preliminary HOA representation is drawn from HOAFrame() and the corresponding layer and any lower layers. This means that it is decoded from transmission signals. Then, when a HOAFrame() with hoaIndependencyFlag equal to 1 is received, spatial signal prediction, subband directional signals are used to improve the preliminary HOA representation, such that the full quality of the currently active layer is provided for this frame. Payloads for synthetic and parametric ambience replica decoders are parsed and decoded.
따라서, 제안된 방법은 현재 프레임의 최상위 사용가능 레이어가 이전 프레임의 최상위 사용가능 레이어보다 하위인 경우(현재 프레임이 이전 프레임에 대해 차분적으로 코딩된 경우) 최상위 사용가능 레이어에 배정된 HOA 확장 페이로드에 포함된 보조 정보를 사용하는 재구성된 HOA 표현의 파라메트릭 향상을 수행하지 않기로 결정하는 단계(도 5에 도시되지 않음)를 포함할 수 있다.Therefore, the proposed method uses the HOA extension fee assigned to the highest available layer if the highest available layer of the current frame is lower than the highest available layer of the previous frame (if the current frame was coded differentially with respect to the previous frame). A step (not shown in Figure 5) may include deciding not to perform parametric enhancement of the reconstructed HOA representation using the auxiliary information included in the load.
일반적으로, 현재 프레임에 대한 최상위 사용가능 레이어를 결정하는 단계는 현재 프레임에 대한 유효하게 수신되지 않은 레이어들을 표시하는 유효하지 않은 레이어 인덱스들의 세트를 결정하는 단계를 포함할 수 있다. 이는 현재 프레임에 선행하는 이전 프레임의 최상위 사용가능 레이어를 결정하는 단계를 추가로 포함할 수 있다. 이는 또한 (현재 프레임이 이전 프레임에 대해 차분적으로 코딩된 경우) 최상위 사용가능 레이어를 이전 프레임의 최상위 사용가능 레이어 및 유효하지 않은 레이어 인덱스들의 세트에서의 가장 작은 인덱스에 의해 표시되는 레이어 아래의 하나의 레이어인 레이어 중 하위 레이어로서 결정하는 단계를 추가로 포함할 수 있다.Generally, determining the highest available layer for the current frame may include determining a set of invalid layer indices that indicate layers that have not been validly received for the current frame. This may further include determining the highest available layer of the previous frame preceding the current frame. This also means (if the current frame was coded differentially with respect to the previous frame) the highest available layer is the highest available layer of the previous frame and the one below the layer indicated by the lowest index in the set of invalid layer indices. It may additionally include a step of determining a lower layer among the layers of .
대안의 해결책은 유효한 향상 레이어 페이로드들(예컨대, HOA 확장 페이로드들) 전부를, 이들이 현재 비활성일지라도, 병렬로 항상 파싱할 수 있다. 이것은 최대 품질을 갖는 보다 낮은 인덱스를 갖는 레이어로 곧바로 전환하는 것을 가능하게 할 것이며, 여기서 공간 신호 예측, 서브대역 방향성 신호 합성 및 파라메트릭 앰비언스 복제(PAR) 디코더가 전환된 프레임에서 직접 적용될 수 있다.An alternative solution could always parse all valid enhancement layer payloads (eg, HOA expansion payloads) in parallel, even if they are currently inactive. This will enable direct switching to lower index layers with maximum quality, where spatial signal prediction, subband directional signal synthesis and parametric ambience replication (PAR) decoders can be applied directly on the switched frames.
다음에, 이전(예컨대, 선행하는) 프레임의 최상위 사용가능 레이어의 인덱스보다 더 높은 인덱스로 전환되는 상황이 기술될 것이다. 보다 높은 인덱스를 갖는 레이어로의 이 전환은 mpegh3daFrame()이 1과 동일한 usacIndependencyFlag를 갖는 경우(예컨대, 프레임이 독립적 프레임인 경우)에만 적용될 수 있는데, 그 이유는 이전 프레임들의 대응하는 페이로드들 또는 디코딩 상태들 전부가 누락되어 있기 때문이다. 따라서, 상위 디코딩가능 레이어에 대한 유효한 데이터를 포함하는, 1과 동일한 usacIndependencyFlag를 갖는 mpegh3daFrame()(예컨대, 독립적 프레임)이 수신될 때까지 HOA 디코더는 HOA 레이어 인덱스(MLAY(k))를 MLAY(k-1)과 같도록 유지한다. 이어서 MLAY(k)는 현재 프레임에 대한 최상위 디코딩가능 레이어 인덱스로 설정되고, 그에 따라 실제로 사용된 전송 신호들(IADD,LAY(k))의 수가 결정된다. 그 레이어의 예비적 HOA 표현은 HOAFrame() 및 대응하는 전송 신호들로부터 디코딩되고 현재 활성 레이어(MLAY(k))의 ID_EXT_ELE_HOA_ENH_LAYER 유형의 HOA 향상 레이어 확장 페이로드로부터 파싱된 HOAEnhFrame() 데이터를 사용하여 공간 신호 예측, 서브대역 방향성 신호 합성 및 파라메트릭 앰비언스 복제 디코더에 의해 향상된다.Next, the situation of switching to an index higher than the index of the highest available layer of the previous (eg, preceding) frame will be described. This transition to a layer with a higher index can only be applied if mpegh3daFrame() has usacIndependencyFlag equal to 1 (e.g., if the frame is an independent frame) because the corresponding payloads of previous frames or decoding Because all the states are missing. Therefore, until an mpegh3daFrame() (e.g., independent frame) with usacIndependencyFlag equal to 1 that contains valid data for the upper decodable layer is received, the HOA decoder sets the HOA layer index (M LAY (k)) to M LAY Keep it equal to (k-1). M LAY (k) is then set to the highest decodable layer index for the current frame, and the number of actually used transmission signals (I ADD,LAY (k)) is determined accordingly. A preliminary HOA representation of that layer is generated using HOAFrame() and HOAEnhFrame() data decoded from the corresponding transmitted signals and parsed from the HOA enhancement layer extension payload of type ID_EXT_ELE_HOA_ENH_LAYER of the currently active layer (M LAY (k)). It is enhanced by spatial signal prediction, subband directional signal synthesis, and parametric ambience replication decoder.
압축된 사운드 표현의 계층화된 인코딩의 제안된 방법이 압축된 사운드 표현의 계층화된 인코딩을 위한 인코더에 의해 구현될 수 있다는 것이 이해된다. 이러한 인코더는 앞서 기술된 각자의 단계들을 수행하도록 적합화된 각자의 유닛들을 포함할 수 있다. 이러한 인코더(6000)의 일 예가 도 6에 개략적으로 예시되어 있다. 예를 들어, 이러한 인코더(6000)는 앞서 언급된 S3010을 수행하도록 적합화된 전송 신호 배정 유닛(6010), 앞서 언급된 S3020을 수행하도록 적합화된 HOA 확장 레이어 페이로드 생성 유닛(6020), 앞서 언급된 S3030을 수행하도록 적합화된 HOA 확장 페이로드 배정 유닛(6030), 및 앞서 언급된 S3040을 수행하도록 적합화된 시그널링 유닛 또는 출력 유닛(6040)을 포함할 수 있다. 이러한 인코더의 각자의 유닛들이 상기 각자의 유닛들 각각에 의해 수행되는 처리를 수행하도록 적합화된, 즉 도 3에 개략적으로 예시된 제안된 인코딩 방법의 앞서 언급된 단계들 중 일부 또는 전부를 수행하도록 적합화된 컴퓨팅 디바이스의 프로세서(6100)에 의해 구현될 수 있다는 것이 추가로 이해된다. 그에 부가하여 또는 대안적으로, 프로세서(6100)는 도 4에 개략적으로 예시된 인코딩 방법의 단계들 각각을 수행하도록 적합화될 수 있다. 이를 위해, 프로세서(6100)는 인코더의 각자의 유닛들을 구현하도록 적합화될 수 있다. 인코더 또는 컴퓨팅 디바이스는 프로세서(6100)에 의해 액세스가능한 메모리(6200)를 추가로 포함할 수 있다.It is understood that the proposed method of layered encoding of compressed sound representations can be implemented by an encoder for layered encoding of compressed sound representations. This encoder may comprise respective units adapted to perform the respective steps described above. An example of such an encoder 6000 is schematically illustrated in FIG. 6. For example, this encoder 6000 may include a transmission signal allocation unit 6010 adapted to perform S3010 mentioned above, an HOA expansion layer payload generation unit 6020 adapted to perform S3020 mentioned above, It may include an HOA extension payload allocation unit 6030 adapted to perform the mentioned S3030, and a signaling unit or output unit 6040 adapted to perform the previously mentioned S3040. The respective units of this encoder are adapted to perform the processing performed by each of the respective units, i.e. to perform some or all of the above-mentioned steps of the proposed encoding method schematically illustrated in Figure 3. It is further understood that the processor 6100 may be implemented by a processor 6100 of a customized computing device. Additionally or alternatively, processor 6100 may be adapted to perform each of the steps of the encoding method schematically illustrated in FIG. 4 . For this purpose, the processor 6100 can be adapted to implement the respective units of the encoder. The encoder or computing device may further include memory 6200 accessible by processor 6100.
복수의 계층적 레이어들에 인코딩되는 압축된 사운드 표현을 디코딩하는 제안된 방법이 복수의 계층적 레이어들에 인코딩되는 압축된 사운드 표현을 디코딩하기 위한 디코더에 의해 구현될 수 있다는 것이 추가로 이해된다. 이러한 디코더는 앞서 기술된 각자의 단계들을 수행하도록 적합화된 각자의 유닛들을 포함할 수 있다. 이러한 디코더(7000)의 일 예가 도 7에 개략적으로 예시되어 있다. 예를 들어, 이러한 디코더(7000)는 앞서 언급된 S5010을 수행하도록 적합화된 수신 유닛(7010), 앞서 언급된 S5020을 수행하도록 적합화된 페이로드 추출 유닛(7020), 앞서 언급된 S5030을 수행하도록 적합화된 최상위 사용가능 레이어 결정 유닛(7030), 앞서 언급된 S5040을 수행하도록 적합화된 HOA 확장 페이로드 추출 유닛(7040), 앞서 언급된 S5050을 수행하도록 적합화된 재구성된 HOA 표현 생성 유닛(7050), 및 앞서 언급된 S5060을 수행하도록 적합화된 향상 유닛(7060)을 포함할 수 있다. 이러한 디코더의 각자의 유닛들이 상기 각자의 유닛들 각각에 의해 수행되는 처리를 수행하도록 적합화된, 즉 제안된 디코딩 방법의 앞서 언급된 단계들 중 일부 또는 전부를 수행하도록 적합화된 컴퓨팅 디바이스의 프로세서(7100)에 의해 구현될 수 있다는 것이 추가로 이해된다. 디코더 또는 컴퓨팅 디바이스는 프로세서(7100)에 의해 액세스가능한 메모리(7200)를 추가로 포함할 수 있다.It is further understood that the proposed method for decoding a compressed sound representation encoded in a plurality of hierarchical layers can be implemented by a decoder for decoding a compressed sound representation encoded in a plurality of hierarchical layers. This decoder may comprise respective units adapted to perform the respective steps described above. An example of such a decoder 7000 is schematically illustrated in FIG. 7. For example, such a decoder 7000 may include a receiving unit 7010 adapted to perform the previously mentioned S5010, a payload extraction unit 7020 adapted to perform the previously mentioned S5020, and a payload extraction unit 7020 adapted to perform the previously mentioned S5030. a top usable layer determination unit 7030 adapted to perform the aforementioned S5040, an HOA extension payload extraction unit 7040 adapted to perform the aforementioned S5050, and a reconstructed HOA representation generation unit adapted to perform the aforementioned S5050. 7050, and an enhancement unit 7060 adapted to perform S5060 mentioned above. A processor of the computing device, wherein the respective units of this decoder are adapted to perform the processing performed by each of the respective units, i.e. to perform some or all of the above-mentioned steps of the proposed decoding method. It is further understood that the embodiment may be implemented by (7100). The decoder or computing device may further include memory 7200 accessible by processor 7100.
다음에, 계층화된 코딩 모드에서 압축된 HOA 표현을 수용(예컨대, 표현)하기 위한 데이터 구조(예컨대, 비트스트림)가 기술될 것이다. 이러한 데이터 구조는 제안된 인코딩 방법들을 이용하는 것으로부터 발생될 수 있으며 제안된 디코딩 방법을 사용하여 디코딩(예컨대, 압축해제)될 수 있다.Next, a data structure (e.g., bitstream) for accommodating (e.g., representing) a compressed HOA representation in a layered coding mode will be described. This data structure may result from using the proposed encoding methods and may be decoded (e.g., decompressed) using the proposed decoding method.
데이터 구조는 복수의 계층적 레이어들의 각자의 레이어들에 대응하는 복수의 HOA 프레임 페이로드들을 포함할 수 있다. 복수의 전송 신호들은 복수의 레이어들의 각자의 레이어들에 배정될 수 있다(예컨대, 그에 속할 수 있다). 데이터 구조는 각자의 레이어 및 각자의 레이어보다 하위인 임의의 레이어들에 배정된 전송 신호들로부터 획득가능한 재구성된 HOA 표현을 파라미터적으로 향상시키기 위한 보조 정보를 포함하는 각자의 HOA 확장 페이로드를 포함할 수 있다. 앞서 살펴본 바와 같이, 복수의 레이어들에 대한 HOA 프레임 페이로드들 및 HOA 확장 페이로드들이 각자의 에러 방지 레벨들로 제공될 수 있다. 게다가, HOA 확장 페이로드들은 앞서 살펴본 비트스트림 요소들을 포함할 수 있으며 ID_EXT_ELE_HOA_ENH_LAYER라는 usacExtElementType을 가질 수 있다. 데이터 구조는 또한 앞서 살펴본 비트스트림 요소들을 포함하는 HOA 구성 확장 페이로드 및/또는 HOA 디코더 구성 페이로드를 추가로 포함할 수 있다.The data structure may include a plurality of HOA frame payloads corresponding to respective layers of the plurality of hierarchical layers. The plurality of transmission signals may be assigned to (eg, belong to) respective layers of the plurality of layers. The data structure includes a respective HOA extension payload containing auxiliary information to parametrically improve the reconstructed HOA representation obtainable from the transmission signals assigned to the respective layer and any layers lower than the respective layer. can do. As seen above, HOA frame payloads and HOA extension payloads for multiple layers may be provided with respective error prevention levels. In addition, HOA extension payloads may include the bitstream elements discussed earlier and may have a usacExtElementType of ID_EXT_ELE_HOA_ENH_LAYER. The data structure may also further include an HOA configuration extension payload and/or an HOA decoder configuration payload including the bitstream elements discussed above.
설명 및 도면들이 제안된 방법들 및 장치들의 원리들을 예시하는 것에 불과하다는 것에 유의해야 한다. 따라서 본 기술분야의 통상의 기술자가, 비록 본원에 명시적으로 기술 또는 도시되지는 않았지만, 본 발명의 원리들을 구현하고 그의 사상 및 범주 내에 포함되는 다양한 구성들을 고안할 수 있을 것임을 알게 될 것이다. 게다가, 본원에 열거된 모든 예들은 주로 읽는 사람이 제안된 방법들 및 장치들의 원리들 및 발명자들에 의해 기술을 발전시키는 데 기여된 개념들을 이해하는 데 도움을 주기 위해 명확히 교육적 목적으로만 의도된 것이며, 이러한 특별히 열거된 예들 및 조건들로 제한되지 않는 것으로 해석되어야 한다. 더욱이, 본 발명의 원리들, 양태들, 및 실시예들은 물론 그의 특정 예들을 열거하는 본원에서의 진술들 전부가 그의 등가물들을 포함하도록 의도되어 있다.It should be noted that the description and drawings merely illustrate the principles of the proposed methods and devices. Accordingly, it will be appreciated that those skilled in the art will be able to devise various arrangements that, although not explicitly described or shown herein, embody the principles of the invention and are included within its spirit and scope. Moreover, all examples listed herein are expressly intended for educational purposes only, primarily to assist the reader in understanding the principles of the proposed methods and devices and the concepts contributed by the inventors to advance the technology. and should not be construed as being limited to these specifically enumerated examples and conditions. Moreover, all statements herein reciting the principles, aspects, and embodiments of the invention, as well as specific examples thereof, are intended to include equivalents thereof.
본 문서에 기술된 방법들 및 장치들은 소프트웨어, 펌웨어 및/또는 하드웨어로서 구현될 수 있다. 특정 컴포넌트들은, 예컨대, 디지털 신호 프로세서 또는 마이크로프로세서 상에서 실행되는 소프트웨어로서 구현될 수 있다. 다른 컴포넌트들은, 예컨대, 하드웨어로서 그리고/또는 ASIC(application specific integrated circuit)들로서 구현될 수 있다. 기술된 방법들 및 장치들에서 나오는 신호들은 랜덤 액세스 메모리 또는 광학 저장 매체와 같은 매체 상에 저장될 수 있다. 이들은 라디오 네트워크(radio network)들, 위성 네트워크들, 무선 네트워크(wireless network)들 또는 유선 네트워크들, 예컨대, 인터넷과 같은, 네트워크들을 통해 전송될 수 있다.The methods and devices described herein may be implemented as software, firmware, and/or hardware. Certain components may be implemented as software running on, for example, a digital signal processor or microprocessor. Other components may be implemented, for example, as hardware and/or as application specific integrated circuits (ASICs). Signals from the described methods and devices may be stored on a medium such as random access memory or optical storage media. They may be transmitted via networks, such as radio networks, satellite networks, wireless networks or wired networks, such as the Internet.
부록:Appendix:
제안된 MPEG-H 3D 비트스트림 변경들Proposed MPEG-H 3D bitstream changes
변경들은 회색으로 하이라이트하는 것에 의해 표시되어 있다:Changes are indicated by highlighting them in gray:
NumOfDirSigsPerLayer[lay] 이 요소는 HOA 향상 레이어(lay)에서 실제로 사용되는 현재 HOAFrame() 내의 활성 방향성 신호들의 수를 결정한다.NumOfDirSigsPerLayer[lay] This element determines the number of active directional signals in the current HOAFrame() that are actually used in the HOA enhancement layer ( lay ).
AddHoaCoeffPerLayer[lay] 이 어레이는 HOA 향상 레이어(lay)에서 실제로 사용되는 각각의 부가의 주변 HOA 계수에 대한 HOA 계수 인덱스를 포함한다.AddHoaCoeffPerLayer[lay] This array contains the HOA coefficient index for each additional surrounding HOA coefficient actually used in the HOA enhancement layer (lay ).
NumOfAddHoaChansPerLayer[lay] 이 요소는 HOA 향상 레이어(lay)에서 실제로 사용되는 부가의 주변 HOA 계수들의 총수를 시그널링한다.NumOfAddHoaChansPerLayer[lay] This element signals the total number of additional surrounding HOA coefficients actually used in the HOA enhancement layer ( lay ).
이 표를 추가add this table
이 표를 업데이트:Update this table:
codedLayerCh 이 요소는, 제1(즉, 베이스) 레이어에 대해, codedLayerCh + MinNumOfCoeffsForAmbHOA에 의해 주어지는, 포함된 전송 신호들의 수를 표시한다. 상위(즉, 향상) 레이어들에 대해, 이 요소는, codedLayerCh + 1에 의해 주어지는, 다음 하위 레이어와 비교하여 향상 레이어에 포함된 부가의 신호들의 수를 표시한다. codedLayerCh This element indicates, for the first (i.e. base) layer, the number of included transmission signals, given by codedLayerCh + MinNumOfCoeffsForAmbHOA. For higher (i.e. enhancement) layers, this element indicates the number of additional signals included in the enhancement layer compared to the next lower layer, given by codedLayerCh + 1.
HOALayerChBits 이 요소는 codedLayerCh를 판독하기 위한 비트 수를 표시한다.HOALayerChBits This element indicates the number of bits for reading codedLayerCh .
NumLayers 이 요소는 (HOADecoderConfig()의 판독 이후에) 비트스트림 내의 레이어들의 총수를 표시한다.NumLayers This element indicates the total number of layers in the bitstream (after reading from HOADecoderConfig()).
NumHOAChannelsLayer 이 요소는 NumLayers개의 요소들로 이루어진 어레이이고, 그 중 제i 요소는 제i 레이어까지의 레이어들 전부에 포함된 전송 신호들의 수를 표시한다.NumHOAChannelsLayer This element is an array composed of NumLayers elements, of which the i th element indicates the number of transmission signals included in all layers up to the i th layer.
12.4.1.x12.4.1.x 프레임 및 사용자 종속적 파라미터들Frame and user-dependent parameters
MLAY(k) 디코더측에서 (명시될) 제k 프레임에 대해 실제로 사용되는 레이어들 전부의 수. 계층화된 코딩(SingleLayer==0에 의해 표시됨)의 경우에, 이 숫자는 비트스트림에 존재하는 레이어들의 총수보다 작거나 같아야만 한다, 즉 MLAY = NumLayers. 단일 계층화된 코딩(SingleLayer==1에 의해 표시됨)의 경우에, MLAY는 1로 설정된다.M LAY (k) Number of all layers actually used for the kth frame (to be specified) at the decoder side. In case of layered coding (indicated by SingleLayer==0), this number must be less than or equal to the total number of layers present in the bitstream, i.e. M LAY = NumLayers. In case of single layered coding (indicated by SingleLayer==1), M LAY is set to 1.
MLAY(k)의 선택에 따라, 공간 HOA 디코딩을 위해 (즉, 암시적으로 항상 사용되는 OMIN 개의 채널들에 부가하여) 실제로 사용되는 부가의 전송 채널들의 수(IADD,LAY(k))는 다음과 같이 계산된다:Depending on the choice of M LAY (k), the number of additional transport channels actually used (I ADD,LAY (k)) for spatial HOA decoding (i.e. in addition to the O MIN channels that are implicitly always used) ) is calculated as follows:
if(SingleLayer | (!SingleLayer & MLAY(k) == NumLayers))if( SingleLayer | (! SingleLayer & M LAY (k) == NumLayers))
{{
IADD,LAY(k) = NumOfAdditionalCoders; I ADD,LAY (k) = NumOfAdditionalCoders;
}}
elseelse
{{
IADD,LAY(k) = NumHOACannelsLayer[MLAY(k) - 1] - MinNumOfCoeffsForAmbHOA; I ADD,LAY (k) = NumHOACannelsLayer[M LAY (k) - 1] - MinNumOfCoeffsForAmbHOA;
}}
VVecLength 및 VVecCoeffIdVVecLength and VVecCoeffId
codedVVecLength 워드는 하기를 표시한다:The codedVVecLength word indicates:
0) 전체 벡터 길이(NumOfHoaCoeffs 요소들). 우세 벡터들에 대한 계수들(NumOfHoaCoeffs) 전부가 명시되어 있다는 것을 표시한다.0) Total vector length (NumOfHoaCoeffs elements). Indicates that all coefficients (NumOfHoaCoeffs) for dominance vectors are specified.
1) 벡터 요소들 1 내지 MinNumOfCoeffsForAmbHOA 그리고 인덱스 lay=0??NumLayers-1의 현재 활성 레이어의 ContAddHoaCoeff[lay]에 정의된 요소들 전부가 전송되지 않는다. 단일 레이어 모드(SingleLayer==1)에 대해, 변수 NumLayers는 1로 설정되어야만 한다. MinNumOfCoeffsForAmbHOA보다 더 큰 숫자에 대응하는 우세 벡터의 그 계수들만이 명시된다는 것을 표시한다. ContAddAmbHoaChan[lay]에서 식별된 추가의 그 NumOfContAddAmbHoaChan[lay]개의 계수들이 감산된다. ContAddAmbHoaChan[lay] 리스트는 MinAmbHoaOrder 차수를 초과하는 차수에 대응하는 부가의 채널들을 명시한다.1) Vector elements 1 to MinNumOfCoeffsForAmbHOA and all elements defined in ContAddHoaCoeff[lay] of the currently active layer with index lay=0??NumLayers-1 are not transmitted. For single layer mode (SingleLayer==1), the variable NumLayers must be set to 1. Indicates that only those coefficients of the dominance vector corresponding to numbers greater than MinNumOfCoeffsForAmbHOA are specified. The additional NumOfContAddAmbHoaChan[lay] coefficients identified in ContAddAmbHoaChan[lay] are subtracted. The ContAddAmbHoaChan[lay] list specifies additional channels corresponding to orders exceeding the MinAmbHoaOrder order.
2) 벡터 요소들 1 내지 MinNumOfCoeffsForAmbHOA가 전송되지 않는다. MinNumOfCoeffsForAmbHOA보다 더 큰 숫자에 대응하는 우세 벡터들의 그 계수들이 명시된다는 것을 표시한다.2) Vector elements 1 to MinNumOfCoeffsForAmbHOA are not transmitted. Indicates that the coefficients of dominance vectors corresponding to numbers greater than MinNumOfCoeffsForAmbHOA are specified.
codedVVecLength==1의 경우에, VVecLength[i] 어레이는 물론 VVecCoeffId[i][m] 2D 어레이 둘 다가 인덱스 i의 VVector에 대해 유효하고, 다른 경우들에서, VVecLength 요소는 물론 VVecCoeffId[m] 어레이 둘 다가 HOAFrame 내의 VVector 전부에 대해 유효하다. 이하의 배정 알고리즘에 대해, 헬퍼 함수(helper function)는 다음과 같이 정의된다:In the case of codedVVecLength==1, both the VVecLength[i] array as well as the VVecCoeffId[i][m] 2D array are valid for the VVector at index i, and in other cases, both the VVecLength element as well as the VVecCoeffId[m] array are valid for the VVector at index i. It is valid for all VVectors in the HOAFrame. For the assignment algorithm below, the helper function is defined as follows:
switch CodedVVecLength{switch CodedVVecLength {
case 0: case 0:
VVecLength = NumOfHoaCoeffs; VVecLength = NumOfHoaCoeffs;
for (m=0; m<VVecLength; ++m) { for (m=0; m<VVecLength; ++m) {
VVecCoeffId[m] = m; VVecCoeffId[m] = m;
} }
break; break;
case 1: case 1:
for (i=0; i < NumOfVecSigs; ++i) { for (i=0; i < NumOfVecSigs; ++i) {
lay = VecSigLayerIdx[i]; lay = VecSigLayerIdx[i];
VVecLength[i] = NumOfHoaCoeffs VVecLength[i] = NumOfHoaCoeffs
-.MinNumOfCoeffsForAmbHOA -.MinNumOfCoeffsForAmbHOA
- NumOfContAddHoaChans[lay]; -NumOfContAddHoaChans[lay];
CoeffIdx = MinNumOfCoeffsForAmbHOA+1; CoeffIdx = MinNumOfCoeffsForAmbHOA+1;
for (m=0; m<VVecLength[i]; ++m) { for (m=0; m<VVecLength[i]; ++m) {
bIsInArray = isMemberOf(CoeffIdx, bIsInArray = isMemberOf(CoeffIdx,
ContAddHoaCoeff[lay], ContAddHoaCoeff[lay];
NumOfContAddHoaChans[lay]); NumOfContAddHoaChans[lay]);
while (bIsInArray) { while (bIsInArray) {
CoeffIdx++; CoeffIdx++;
bIsInArray = isMemberOf(CoeffIdx, bIsInArray = isMemberOf(CoeffIdx,
ContAddHoaCoeff[lay], ContAddHoaCoeff[lay];
NumOfContAddHoaChans[lay]); NumOfContAddHoaChans[lay]);
} }
VVecCoeffId[i][m] = CoeffIdx-1; VVecCoeffId[i][m] = CoeffIdx-1;
} }
} }
break; break;
case 2: case 2:
VVecLength = NumOfHoaCoeffs - MinNumOfCoeffsForAmbHOA; VVecLength = NumOfHoaCoeffs - MinNumOfCoeffsForAmbHOA;
for (m=0; m< VVecLength; ++m) { for (m=0; m< VVecLength; ++m) {
VVecCoeffId[m] = m + MinNumOfCoeffsForAmbHOA; VVecCoeffId[m] = m + MinNumOfCoeffsForAmbHOA;
} }
}}
3개의 case(case 0 내지 case 2)를 갖는 첫 번째 switch 문은 따라서 숫자(VVecLength) 및 계수들의 인덱스들(VVecCoeffId)로 우세 벡터 길이를 결정하는 방법을 제공한다.The first switch statement with three cases (case 0 to case 2) thus provides a way to determine the dominant vector length with a number (VVecLength) and indices of coefficients (VVecCoeffId).
12.4.1.X VVec 요소로의 변환Conversion to 12.4.1.X VVec elements
Vvector의 역양자화 종류는 NbitsQ 워드에 의해 시그널링된다. 4의 NbitsQ 값은 벡터 양자화를 표시한다. NbitsQ가 5일 때, 균일 8 비트 스칼라 역양자화(uniform 8 bit scalar dequantization)가 수행된다. 이와 달리, 6보다 크거나 같은 NbitsQ 값은 스칼라 양자화된 Vvector의 허프만 디코딩(Huffman decoding)의 적용을 표시한다. 예측 모드는 PFlag로서 표기되는 반면, CbFlag는 허프만 테이블(Huffman Table) 정보 비트를 나타낸다.The type of inverse quantization of Vvector is signaled by the NbitsQ word. An NbitsQ value of 4 indicates vector quantization. When NbitsQ is 5, uniform 8 bit scalar dequantization is performed. In contrast, an NbitsQ value greater than or equal to 6 indicates application of Huffman decoding of the scalar quantized Vvector. The prediction mode is denoted as PFlag, while CbFlag represents the Huffman Table information bit.
if (CodedVVecLength == 1) {if (CodedVVecLength == 1) {
VVecLengthUsed = VVecLength[i]; VVecLengthUsed = VVecLength[i];
VVecCoeffIdUsed = VVecCoeffId[i]; VVecCoeffIdUsed = VVecCoeffId[i];
} else {} else {
VVecLengthUsed = VVecLength; VVecLengthUsed = VVecLength;
VVecCoeffIdUsed = VVecCoeffId; VVecCoeffIdUsed = VVecCoeffId;
}}
if (NbitsQ(k)[i] == 4) {if (NbitsQ(k)[i] == 4) {
if (NumVvecIndices == 1) { if (NumVvecIndices == 1) {
for (m=0; m< VVecLengthUsed; ++m) { for (m=0; m< VVecLengthUsed; ++m) {
idx = VVecCoeffIdUsed[m]; idx = VVecCoeffIdUsed[m];
= WeightVal[0] * VecDict[900].[VvecIdx[0]][idx]; = WeightVal[0] * VecDict[900].[VvecIdx[0]][idx];
} }
} else { } else {
cdbLen = O; cdbLen = O ;
if (N==4) { if (N==4) {
cdbLen = 32; cdbLen = 32;
} }
for (m=0; m<O; ++m) { for (m=0; m<O; ++m) {
TmpVVec[m] = 0; TmpVVec[m] = 0;
for (j=0; j< NumVvecIndices; ++j) { for (j=0; j< NumVvecIndices; ++j) {
TmpVVec[m] += WeightVal[j] * VecDict[cdbLen].[VvecIdx[j]][m]; TmpVVec[m] += WeightVal[j] * VecDict[cdbLen].[VvecIdx[j]][m];
} }
} }
FNorm = 0.0; FNorm = 0.0;
for (m=0; m<O; ++m) { for (m=0; m<O; ++m) {
FNorm += TmpVVec[m] * TmpVVec[m]; FNorm += TmpVVec[m] * TmpVVec[m];
} }
FNorm = (N+1)/sqrt(FNorm); FNorm = (N+1)/sqrt(FNorm);
for (m=0; m< VVecLengthUsed; ++m) { for (m=0; m< VVecLengthUsed; ++m) {
idx = VVecCoeffIdUsed[m]; idx = VVecCoeffIdUsed[m];
= TmpVVec[idx] * FNorm; = TmpVVec[idx] * FNorm;
} }
} }
}}
elseif (NbitsQ(k)[i] == 5) { elseif (NbitsQ(k)[i] == 5) {
for (m=0; m< VVecLengthUsed; ++m) { for (m=0; m< VVecLengthUsed; ++m) {
(N+1)*aVal[i][m]; (N+1)*aVal[i][m];
} }
}}
elseif (NbitsQ(k)[i] >= 6) { elseif (NbitsQ(k)[i] >= 6) {
for (m=0; m< VVecLengthUsed; ++m) { for (m=0; m< VVecLengthUsed; ++m) {
= (N+1) * (2^(16 - NbitsQ(k)[i])*aVal[i][m])/2^15; = (N+1) * (2^(16 - NbitsQ(k)[i])*aVal[i][m])/2^15;
if (PFlag(k)[i] == 1) { if (PFlag(k)[i] == 1) {
+= ; += ;
} }
} }
}}
Claims (11)
상기 압축된 HOA 표현을 포함하는 비트스트림을 수신하는 단계 - 상기 비트스트림은 베이스 레이어(base layer) 및 하나 이상의 계층적 향상 레이어(hierarchical enhancement layer)를 포함하는 복수의 계층적 레이어를 포함함 -;
디코딩을 위해 상기 복수의 계층적 레이어 중에서 최상위 사용가능 레이어를 결정하는 단계;
파라미터 CodedVVecLength가 CodedVVecLength = 2라고 결정하는 단계 - 이 결정에 기초하여, 1 내지 MinNumOfCoeffsForAmbHOA의 벡터 요소들이 전송되지 않았고, MinNumOfCoeffsForAmbHOA보다 더 큰 숫자에 대응하는 우세 벡터들(predominant vectors)의 계수들이 명시되어 있다고 결정하며, VVecCoeffId 어레이는 MinNumOfCoeffsForAmbHOA에 기초하여 결정됨 -;
상기 최상위 사용가능 레이어에 배정된 HOA 확장 페이로드를 추출하는 단계 - 상기 HOA 확장 페이로드는 상기 최상위 사용가능 레이어에 대응하는 재구성된 HOA 표현을 파라미터적으로 향상시키기 위한 보조 정보를 포함하고, 상기 최상위 사용가능 레이어에 대응하는 상기 재구성된 HOA 표현은 상기 최상위 사용가능 레이어 및 상기 최상위 사용가능 레이어보다 하위인 임의의 레이어들에 배정된 전송 신호들에 기초함 -;
상기 최상위 사용가능 레이어에 대응하는 상기 압축된 HOA 표현을 레이어 정보에 기초하여 디코딩하는 단계 - 상기 레이어 정보는 활성 향상 레이어를 표시하고, 상기 활성 향상 레이어는 상기 활성 향상 레이어의 현재 프레임 내의 활성 방향성 신호들의 수를 결정하는 데 사용될 수 있음 -; 및
상기 최상위 사용가능 레이어에 배정된 상기 HOA 확장 페이로드에 포함된 상기 보조 정보를 사용하여 상기 디코딩된 HOA 표현을 파라미터적으로 향상시키는 단계
를 포함하는, 방법.A method for decoding a compressed Higher Order Ambisonics (HOA) representation of a sound or sound field, comprising:
Receiving a bitstream including the compressed HOA representation, the bitstream including a plurality of hierarchical layers including a base layer and one or more hierarchical enhancement layers;
determining a highest available layer among the plurality of hierarchical layers for decoding;
Determining that the parameter CodedVVecLength is CodedVVecLength = 2 - based on this determination, determine that vector elements from 1 to MinNumOfCoeffsForAmbHOA have not been transmitted and that coefficients of dominant vectors corresponding to numbers greater than MinNumOfCoeffsForAmbHOA are specified. and the VVecCoeffId array is determined based on MinNumOfCoeffsForAmbHOA -;
extracting an HOA extension payload assigned to the highest available layer, wherein the HOA extension payload includes auxiliary information to parametrically enhance a reconstructed HOA representation corresponding to the highest available layer, the reconstructed HOA representation corresponding to an available layer is based on transmission signals assigned to the highest available layer and any layers lower than the highest available layer;
Decoding the compressed HOA representation corresponding to the highest available layer based on layer information, wherein the layer information indicates an active enhancement layer, the active enhancement layer being an active directional signal in the current frame of the active enhancement layer. Can be used to determine the number of -; and
Parametrically enhancing the decoded HOA representation using the auxiliary information included in the HOA extension payload assigned to the highest available layer.
Method, including.
ContAddHoaCoeff 세트에 포함된 부가의 HOA 계수 인덱스들과 동일한 인덱스들에 대해 전송되지 않는 v-벡터 요소들을 더 포함하는, 방법.According to paragraph 1,
ContAddHoaCoeff The method further comprising v-vector elements that are not transmitted for indices identical to the additional HOA coefficient indices included in the set.
상기 압축된 HOA 표현을 포함하는 비트스트림을 수신하도록 구성된 수신기 - 상기 비트스트림은 베이스 레이어 및 하나 이상의 계층적 향상 레이어를 포함하는 복수의 계층적 레이어를 포함함 -, 및
디코더
를 포함하고, 상기 디코더는:
디코딩을 위해 상기 복수의 계층적 레이어 중에서 최상위 사용가능 레이어를 결정하고;
파라미터 CodedVVecLength가 CodedVVecLength = 2라고 결정하고 - 이 결정에 기초하여, 1 내지 MinNumOfCoeffsForAmbHOA의 벡터 요소들이 전송되지 않았고, MinNumOfCoeffsForAmbHOA보다 더 큰 숫자에 대응하는 우세 벡터들의 계수들이 명시되어 있다고 결정하며, VVecCoeffId 어레이는 MinNumOfCoeffsForAmbHOA에 기초하여 결정됨 -;
상기 최상위 사용가능 레이어에 배정된 HOA 확장 페이로드를 추출하고 - 상기 HOA 확장 페이로드는 상기 최상위 사용가능 레이어에 대응하는 재구성된 HOA 표현을 파라미터적으로 향상시키기 위한 보조 정보를 포함하고, 상기 최상위 사용가능 레이어에 대응하는 상기 재구성된 HOA 표현은 상기 최상위 사용가능 레이어 및 상기 최상위 사용가능 레이어보다 하위인 임의의 레이어들에 배정된 전송 신호들에 기초함 -;
상기 최상위 사용가능 레이어에 대응하는 상기 압축된 HOA 표현을 레이어 정보에 기초하여 디코딩하고 - 상기 레이어 정보는 활성 향상 레이어를 표시하고, 상기 활성 향상 레이어는 상기 활성 향상 레이어의 현재 프레임 내의 활성 방향성 신호들의 수를 결정하는 데 사용될 수 있음 -;
상기 최상위 사용가능 레이어에 배정된 상기 HOA 확장 페이로드에 포함된 상기 보조 정보를 사용하여 상기 디코딩된 HOA 표현을 파라미터적으로 향상시키도록
구성되는, 장치.A device for decoding a compressed higher-order ambisonics (HOA) representation of a sound or sound field, comprising:
A receiver configured to receive a bitstream comprising the compressed HOA representation, the bitstream comprising a plurality of hierarchical layers including a base layer and one or more hierarchical enhancement layers, and
decoder
, wherein the decoder:
determine the highest available layer among the plurality of hierarchical layers for decoding;
Determine that the parameter CodedVVecLength is CodedVVecLength = 2 - and, based on this determination, determine that vector elements from 1 to MinNumOfCoeffsForAmbHOA have not been transmitted, and that the coefficients of the dominant vectors corresponding to numbers greater than MinNumOfCoeffsForAmbHOA are specified, and that the VVecCoeffId array is MinNumOfCoeffsForAmbHOA Determined on the basis of -;
Extract an HOA extension payload assigned to the highest available layer, wherein the HOA extension payload includes auxiliary information to parametrically enhance a reconstructed HOA representation corresponding to the highest available layer, and the reconstructed HOA representation corresponding to an available layer is based on transmission signals assigned to the highest available layer and any layers lower than the highest available layer;
Decode the compressed HOA representation corresponding to the highest available layer based on layer information, wherein the layer information indicates an active enhancement layer, the active enhancement layer comprising: Can be used to determine number -;
Parametrically enhance the decoded HOA representation using the auxiliary information contained in the HOA extension payload assigned to the highest available layer.
configured device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020247024684A KR20240117648A (en) | 2015-10-08 | 2016-10-07 | Layered coding and data structure for compressed higher-order ambisonics sound or sound field representations |
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP15306591 | 2015-10-08 | ||
EP15306591.7 | 2015-10-08 | ||
US201662361863P | 2016-07-13 | 2016-07-13 | |
US62/361,863 | 2016-07-13 | ||
KR1020187012834A KR102537337B1 (en) | 2015-10-08 | 2016-10-07 | Layered Coding and Data Structure for Compressed Higher Order Ambisonics Sound or Sound Field Representations |
PCT/EP2016/073971 WO2017060412A1 (en) | 2015-10-08 | 2016-10-07 | Layered coding and data structure for compressed higher-order ambisonics sound or sound field representations |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020187012834A Division KR102537337B1 (en) | 2015-10-08 | 2016-10-07 | Layered Coding and Data Structure for Compressed Higher Order Ambisonics Sound or Sound Field Representations |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020247024684A Division KR20240117648A (en) | 2015-10-08 | 2016-10-07 | Layered coding and data structure for compressed higher-order ambisonics sound or sound field representations |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20230079239A KR20230079239A (en) | 2023-06-05 |
KR102688478B1 true KR102688478B1 (en) | 2024-07-26 |
Family
ID=54361028
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020237017456A KR102688478B1 (en) | 2015-10-08 | 2016-10-07 | Layered coding and data structure for compressed higher-order ambisonics sound or sound field representations |
KR1020247024684A KR20240117648A (en) | 2015-10-08 | 2016-10-07 | Layered coding and data structure for compressed higher-order ambisonics sound or sound field representations |
KR1020187012834A KR102537337B1 (en) | 2015-10-08 | 2016-10-07 | Layered Coding and Data Structure for Compressed Higher Order Ambisonics Sound or Sound Field Representations |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020247024684A KR20240117648A (en) | 2015-10-08 | 2016-10-07 | Layered coding and data structure for compressed higher-order ambisonics sound or sound field representations |
KR1020187012834A KR102537337B1 (en) | 2015-10-08 | 2016-10-07 | Layered Coding and Data Structure for Compressed Higher Order Ambisonics Sound or Sound Field Representations |
Country Status (22)
Country | Link |
---|---|
US (4) | US10714099B2 (en) |
EP (3) | EP3926626B1 (en) |
JP (4) | JP6866362B2 (en) |
KR (3) | KR102688478B1 (en) |
CN (6) | CN116312576A (en) |
AU (3) | AU2016335091B2 (en) |
BR (2) | BR122022025233B1 (en) |
CA (3) | CA3228629A1 (en) |
CL (1) | CL2018000887A1 (en) |
CO (1) | CO2018004868A2 (en) |
EA (1) | EA035064B1 (en) |
ES (1) | ES2903247T3 (en) |
HK (2) | HK1250586A1 (en) |
IL (4) | IL302588B1 (en) |
MA (1) | MA45880B1 (en) |
MX (2) | MX2018004166A (en) |
MY (1) | MY188894A (en) |
PH (1) | PH12018500704B1 (en) |
SA (1) | SA518391264B1 (en) |
SG (1) | SG10202001597WA (en) |
WO (1) | WO2017060412A1 (en) |
ZA (3) | ZA201802540B (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BR122022025233B1 (en) * | 2015-10-08 | 2023-04-18 | Dolby International Ab | METHOD, APPARATUS AND NON-TRANSIENT CARRIER MEDIA FOR LAYER CODING AND DATA STRUCTURE FOR COMPACT HIGHER ORDER AMBISSonic SOUND OR SOUND FIELD REPRESENTATIONS |
CN116052696A (en) | 2015-10-08 | 2023-05-02 | 杜比国际公司 | Layered codec for compressed sound or sound field representation |
US10075802B1 (en) | 2017-08-08 | 2018-09-11 | Qualcomm Incorporated | Bitrate allocation for higher order ambisonic audio data |
US10657974B2 (en) | 2017-12-21 | 2020-05-19 | Qualcomm Incorporated | Priority information for higher order ambisonic audio data |
US11270711B2 (en) | 2017-12-21 | 2022-03-08 | Qualcomm Incorproated | Higher order ambisonic audio data |
US20210161820A1 (en) | 2018-04-12 | 2021-06-03 | Sunsho Pharmaceutical Co., Ltd. | Granulation composition |
US12126982B2 (en) | 2020-06-29 | 2024-10-22 | Qualcomm Incorporated | Sound field adjustment |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015140292A1 (en) | 2014-03-21 | 2015-09-24 | Thomson Licensing | Method for compressing a higher order ambisonics (hoa) signal, method for decompressing a compressed hoa signal, apparatus for compressing a hoa signal, and apparatus for decompressing a compressed hoa signal |
WO2015140293A1 (en) | 2014-03-21 | 2015-09-24 | Thomson Licensing | Method for compressing a higher order ambisonics (hoa) signal, method for decompressing a compressed hoa signal, apparatus for compressing a hoa signal, and apparatus for decompressing a compressed hoa signal |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003241799A (en) | 2002-02-15 | 2003-08-29 | Nippon Telegr & Teleph Corp <Ntt> | Sound encoding method, decoding method, encoding device, decoding device, encoding program, and decoding program |
US7177804B2 (en) | 2005-05-31 | 2007-02-13 | Microsoft Corporation | Sub-band voice codec with multi-stage codebooks and redundant coding |
ATE442645T1 (en) | 2006-02-06 | 2009-09-15 | France Telecom | METHOD AND DEVICE FOR HIERARCHICAL CODING OF A SOURCE TONE SIGNAL AND CORRESPONDING DECODING METHOD AND DEVICE, PROGRAMS AND SIGNAL |
PL2346030T3 (en) | 2008-07-11 | 2015-03-31 | Fraunhofer Ges Forschung | Audio encoder, method for encoding an audio signal and computer program |
ES2955669T3 (en) | 2008-07-11 | 2023-12-05 | Fraunhofer Ges Forschung | Audio decoder, procedure for decoding an audio signal and computer program |
US20110320193A1 (en) | 2009-03-13 | 2011-12-29 | Panasonic Corporation | Speech encoding device, speech decoding device, speech encoding method, and speech decoding method |
AU2011206675C1 (en) | 2010-01-12 | 2016-04-28 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio information, method for decoding an audio information and computer program using a hash table describing both significant state values and interval boundaries |
EP2395505A1 (en) | 2010-06-11 | 2011-12-14 | Thomson Licensing | Method and apparatus for searching in a layered hierarchical bit stream followed by replay, said bit stream including a base layer and at least one enhancement layer |
EP2469741A1 (en) * | 2010-12-21 | 2012-06-27 | Thomson Licensing | Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field |
TWI505262B (en) * | 2012-05-15 | 2015-10-21 | Dolby Int Ab | Efficient encoding and decoding of multi-channel audio signal with multiple substreams |
EP2898506B1 (en) | 2012-09-21 | 2018-01-17 | Dolby Laboratories Licensing Corporation | Layered approach to spatial audio coding |
US9558785B2 (en) | 2013-04-05 | 2017-01-31 | Dts, Inc. | Layered audio coding and transmission |
US9980074B2 (en) * | 2013-05-29 | 2018-05-22 | Qualcomm Incorporated | Quantization step sizes for compression of spatial components of a sound field |
EP3005354B1 (en) | 2013-06-05 | 2019-07-03 | Dolby International AB | Method for encoding audio signals, apparatus for encoding audio signals, method for decoding audio signals and apparatus for decoding audio signals |
US20150194157A1 (en) * | 2014-01-06 | 2015-07-09 | Nvidia Corporation | System, method, and computer program product for artifact reduction in high-frequency regeneration audio signals |
US9922656B2 (en) * | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
EP2922057A1 (en) * | 2014-03-21 | 2015-09-23 | Thomson Licensing | Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal |
BR122022025233B1 (en) * | 2015-10-08 | 2023-04-18 | Dolby International Ab | METHOD, APPARATUS AND NON-TRANSIENT CARRIER MEDIA FOR LAYER CODING AND DATA STRUCTURE FOR COMPACT HIGHER ORDER AMBISSonic SOUND OR SOUND FIELD REPRESENTATIONS |
-
2016
- 2016-10-07 BR BR122022025233-8A patent/BR122022025233B1/en active IP Right Grant
- 2016-10-07 CA CA3228629A patent/CA3228629A1/en active Pending
- 2016-10-07 US US15/763,830 patent/US10714099B2/en active Active
- 2016-10-07 KR KR1020237017456A patent/KR102688478B1/en active IP Right Grant
- 2016-10-07 MY MYPI2018701312A patent/MY188894A/en unknown
- 2016-10-07 EP EP21190295.2A patent/EP3926626B1/en active Active
- 2016-10-07 IL IL302588A patent/IL302588B1/en unknown
- 2016-10-07 CN CN202310422818.1A patent/CN116312576A/en active Pending
- 2016-10-07 KR KR1020247024684A patent/KR20240117648A/en active Search and Examination
- 2016-10-07 AU AU2016335091A patent/AU2016335091B2/en active Active
- 2016-10-07 MX MX2018004166A patent/MX2018004166A/en unknown
- 2016-10-07 CA CA3000781A patent/CA3000781C/en active Active
- 2016-10-07 BR BR122022025224-9A patent/BR122022025224B1/en active IP Right Grant
- 2016-10-07 EA EA201890845A patent/EA035064B1/en not_active IP Right Cessation
- 2016-10-07 IL IL315233A patent/IL315233A/en unknown
- 2016-10-07 CN CN202310417139.5A patent/CN116959460A/en active Pending
- 2016-10-07 ES ES16778366T patent/ES2903247T3/en active Active
- 2016-10-07 EP EP16778366.1A patent/EP3360134B1/en active Active
- 2016-10-07 CN CN202310423277.4A patent/CN116913291A/en active Pending
- 2016-10-07 SG SG10202001597WA patent/SG10202001597WA/en unknown
- 2016-10-07 KR KR1020187012834A patent/KR102537337B1/en active IP Right Grant
- 2016-10-07 CN CN201680057989.7A patent/CN108140390B/en active Active
- 2016-10-07 MA MA45880A patent/MA45880B1/en unknown
- 2016-10-07 JP JP2018517503A patent/JP6866362B2/en active Active
- 2016-10-07 CN CN202310422685.8A patent/CN116312575A/en active Pending
- 2016-10-07 CA CA3228657A patent/CA3228657A1/en active Pending
- 2016-10-07 IL IL290796A patent/IL290796B2/en unknown
- 2016-10-07 WO PCT/EP2016/073971 patent/WO2017060412A1/en active Application Filing
- 2016-10-07 EP EP24175983.6A patent/EP4411732A3/en active Pending
- 2016-10-07 CN CN202310423731.6A patent/CN116913292A/en active Pending
-
2018
- 2018-03-26 IL IL258362A patent/IL258362B/en unknown
- 2018-03-28 PH PH12018500704A patent/PH12018500704B1/en unknown
- 2018-04-02 SA SA518391264A patent/SA518391264B1/en unknown
- 2018-04-05 MX MX2021002517A patent/MX2021002517A/en unknown
- 2018-04-05 CL CL2018000887A patent/CL2018000887A1/en unknown
- 2018-04-17 ZA ZA2018/02540A patent/ZA201802540B/en unknown
- 2018-05-08 CO CONC2018/0004868A patent/CO2018004868A2/en unknown
- 2018-07-04 HK HK18108665.7A patent/HK1250586A1/en unknown
- 2018-08-29 HK HK18111107.7A patent/HK1251712A1/en unknown
-
2020
- 2020-05-04 ZA ZA2020/01987A patent/ZA202001987B/en unknown
- 2020-07-10 US US16/925,336 patent/US11373661B2/en active Active
-
2021
- 2021-04-07 JP JP2021065162A patent/JP7258072B2/en active Active
- 2021-11-16 AU AU2021269310A patent/AU2021269310B2/en active Active
-
2022
- 2022-04-22 ZA ZA2022/04514A patent/ZA202204514B/en unknown
- 2022-05-19 US US17/749,007 patent/US11955130B2/en active Active
-
2023
- 2023-04-04 JP JP2023060956A patent/JP7508633B2/en active Active
-
2024
- 2024-02-08 US US18/436,871 patent/US20240177718A1/en active Pending
- 2024-02-09 AU AU2024200839A patent/AU2024200839A1/en active Pending
- 2024-06-19 JP JP2024098705A patent/JP2024147558A/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015140292A1 (en) | 2014-03-21 | 2015-09-24 | Thomson Licensing | Method for compressing a higher order ambisonics (hoa) signal, method for decompressing a compressed hoa signal, apparatus for compressing a hoa signal, and apparatus for decompressing a compressed hoa signal |
WO2015140293A1 (en) | 2014-03-21 | 2015-09-24 | Thomson Licensing | Method for compressing a higher order ambisonics (hoa) signal, method for decompressing a compressed hoa signal, apparatus for compressing a hoa signal, and apparatus for decompressing a compressed hoa signal |
Non-Patent Citations (1)
Title |
---|
ISO/IEC 23008-3:2015/PDAM 3(MPEG-H 3D Audio Phase 2), ISO/IEC JTC 1/SC 29/WG 11, w15399. 2015.07.25.* |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102688478B1 (en) | Layered coding and data structure for compressed higher-order ambisonics sound or sound field representations | |
KR102661914B1 (en) | Layered coding of compressed sounds or sound field representations | |
KR102715677B1 (en) | Layered coding for compressed sound or sound field representations | |
OA18601A (en) | Layered coding and data structure for compressed higher-order ambisonics sound or sound field representations. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
A107 | Divisional application of patent | ||
GRNT | Written decision to grant |