[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN110415712B - 用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法 - Google Patents

用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法 Download PDF

Info

Publication number
CN110415712B
CN110415712B CN201910861296.9A CN201910861296A CN110415712B CN 110415712 B CN110415712 B CN 110415712B CN 201910861296 A CN201910861296 A CN 201910861296A CN 110415712 B CN110415712 B CN 110415712B
Authority
CN
China
Prior art keywords
hoa
sound
representation
signal
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910861296.9A
Other languages
English (en)
Other versions
CN110415712A (zh
Inventor
亚历山大·克鲁格
斯文·科尔东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Priority to CN201910861296.9A priority Critical patent/CN110415712B/zh
Publication of CN110415712A publication Critical patent/CN110415712A/zh
Application granted granted Critical
Publication of CN110415712B publication Critical patent/CN110415712B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Stereophonic System (AREA)

Abstract

本公开涉及用于解码声音或声场的高阶高保真度立体声响复制(HOA)表示的方法。当对HOA数据帧表示进行压缩时,在每个通道信号被感知地编码(16)之前对其实施增益控制(15,151)。增益值作为边信息以差分的方式被传输。然而,为了开始对这样的流式压缩HOA数据帧表示进行解码,需要绝对增益值,应当以最小数量的比特对该绝对增益值进行编码。为了确定这样的最小整数比特量{βe),在空间域中将HOA数据帧表示(C(k))渲染为位于单位球体上的虚拟扬声器信号,随后对HOA数据帧表示(C(k))进行归一化。然后,将最小整数比特数设置为(AA)。

Description

用于解码声音或声场的高阶高保真度立体声响复制(HOA)表 示的方法
本申请是申请号为201580035125.0、申请日为2015年6月22日、发明名称为“针对HOA数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的设备”的发明专利申请的分案申请。
技术领域
本发明涉及用于针对HOA数据帧表示的压缩而确定表示与所述HOA数据帧中的特定数据帧的通道信号相关联的非差分增益值所需的最小整数比特数的设备。
背景技术
表示为HOA的高阶高保真度立体声响复制提供了表示三维声音的一种可能性。其他技术是波场合成(WFS)或如22.2的基于通道的方法。与基于通道的方法相比,HOA表示提供了与特定扬声器设置无关的优点。然而,这种灵活性是以在特定扬声器设置上回放HOA表示所需要的解码过程为代价的。与所需扬声器的数量通常很大的WFS方法相比,HOA也可以被呈现为仅包括几个扬声器的设置。HOA的另一个优点是还可以采用相同的表示而不必对耳机的双耳渲染进行任何修改。
HOA基于通过截断的球面谐波函数(SH)展开来表示复合谐波平面波幅度的空间密度。每个展开系数是角频率的函数,角频率可以由时域函数等效地表示。因此,在不失一般性的情况下,完整的HOA声场表示实际上可以被假设成由O个时域函数组成,其中,O表示展开系数的数量。这些时域函数在下文中将被等效地称为HOA系数序列或HOA通道。
HOA表示的空间解析度随着展开的最大阶数N的增长而提高。遗憾的是,展开系数O的数量随着阶数N呈二次方增长,特别地,O=(N+1)2。例如,使用阶数N=4的典型HOA表示需要O=25个HOA(展开)系数。假设期望的单声道采样率为fS并且每个采样的比特数为Nb,则用于传输HOA表示的总比特率由O·fS·Nb确定。以采用每采样Nb=16比特的fS=48kHz采样率传输阶数为N=4的HOA表示,导致19.2MBits/s的比特率,该比特率对于许多实际应用(例如流式传输)来说是非常高的。因此,对HOA表示进行压缩是非常可取的。
先前,在EP 2665208 A1、EP 2743922 A1、EP 2800401 Al中提出了HOA声场表示的压缩,参见2014年1月的MPEG-H 3D音频的ISO/IEC JTC1/SC29/WG11、N14264、WD1-HOA文本。这些方法的共同点在于:它们都执行声场分析并且将给定的HOA表示分解成方向分量和残余环境分量。一方面,最终压缩的表示被假设成由若干量化信号组成,这些量化信号由方向信号和基于向量的信号的感知编码以及环境HOA分量的相关系数序列产生。另一方面,最终压缩的表示包括与量化信号相关的附加边信息,根据其压缩版本重构HOA表示需要所述边信息。
在被传递至感知编码器之前,要求这些中间时域信号具有在[-1,1]的值范围内的最大幅度,这是为实现当前可用的感知编码器而产生的要求。为了当对HOA表示进行压缩时满足该要求,在感知编码器之前使用平滑地衰减或放大输入信号的增益控制处理单元(参见EP 2824661 A1和上面提到的ISO/IEC JTC1/SC29/WG11 N14264文献)。所产生的信号修改被假设成是可逆的并且被逐帧地应用,其中特别地,连续帧之间的信号幅度的变化被假设成“2”的幂。为了便于该信号修改在HOA解压缩器中的倒置,相应的归一化边信息包括在总边信息中。该归一化边信息可以由底数为“2”的指数构成,这些指数描述了两个连续帧之间的相对幅度变化。由于连续帧之间的较小幅度变化比较大幅度变化更有可能发生,因此根据上面提到的ISO/IEC JTCl/SC29/WG11 N14264文献利用游程运行长度编码(runlength code)对这些指数进行编码。
发明内容
例如,在从开始至结束没有任何时间跳跃地对单个文件解压缩的情况下,在HOA解压缩中使用差分编码的幅度变化来重构原始信号幅度是可行的。然而,为了便于随机访问,独立的访问单元必须存在于编码表示(其通常是比特流)中以使得能够与来自在先帧的信息无关地从期望的位置(或至少在其附近)开始解压缩。这种独立的访问单元必须包含由增益控制处理单元引起的从第一帧一直到当前帧的总绝对幅度变化(即,非差分增益值)。假设两个连续帧之间的幅度变化是“2”的幂,则通过底数为“2”的指数来描述总绝对幅度变化就足够了。为了对该指数进行高效编码,在应用增益控制处理单元之前了解信号的可能的最大增益是必要的。然而,该知识高度依赖于对要压缩的HOA表示的值范围的约束规范。遗憾的是,MPEG-H 3D音频文献ISO/IEC JTC1/SC29/WG11 N14264仅提供用于输入HOA表示的格式的描述,而没有对值范围设定任何约束。
本发明要解决的问题是提供表示非差分增益值所需的最小整数比特数。该问题通过权利要求1中公开的设备来解决。在相应的从属权利要求中公开了本发明的有利的附加实施方式。
本发明确立了输入HOA表示的值范围与信号在HOA压缩器中应用增益控制处理单元之前的可能的最大增益之间的相互关系。
基于该相互关系,针对输入HOA表示的值范围的给定规范、针对底数为“2”的指数的有效编码来确定所需比特的量,以在访问单元内描述由增益控制处理单元引起的从第一帧一直到当前帧的修改信号的总绝对幅度变化(即,非差分增益值)。
此外,一旦计算用于对指数编码的所需比特量的规则被确定,本发明就使用用于验证给定HOA表示是否满足所需值范围约束的处理,使得给定HOA表示能够被正确压缩。
原则上,本发明的设备适合于针对HOA数据帧表示的压缩而确定用于表示所述HOA数据帧中的特定HOA数据帧的通道信号的非差分增益值所需的最小整数比特数βe,其中,每个帧中的每个通道信号包括一组采样值,并且其中,给所述HOA数据帧中的每个HOA数据帧的每个通道信号分配差分增益值,并且这样的差分增益值引起当前HOA数据帧中的通道信号的采样值的幅度相对于前一HOA数据帧中的通道信号的采样值变化,并且其中,这样的增益调整的通道信号在编码器中被编码,
并且其中,所述HOA数据帧表示在空间域中被渲染为O个虚拟扬声器信号wj(t),其中,虚拟扬声器的位置位于单位球体上并且旨在均匀分布在该单位球体上,所述渲染通过矩阵乘法w(t)=(Ψ)-1·c(t)来表示,其中,w(t)是包含所有虚拟扬声器信号的向量,Ψ是虚拟扬声器位置模矩阵,并且c(t)是所述HOA数据帧表示的相应HOA系数序列的向量,
并且其中,所述HOA数据帧表示被归一化,使得
所述设备包括:
-通过以下操作a)、b)、c)中的一个或更多个从所述归一化HOA数据帧表示中形成所述通道信号的装置:
a)为了表示所述通道信号中的主要声音信号,将所述HOA系数序列c(t)的向量乘以混合矩阵A,混合矩阵A的欧几里德范数不大于“1”,其中,混合矩阵A表示所述归一化HOA数据帧表示的系数序列的线性组合;
b)为了表示所述通道信号中的环境分量cAMB(t)、从所述归一化HOA数据帧表示中减去所述主要声音信号以及选择所述环境分量cAMB(t)的系数序列的至少一部分,其中,||cAMB(t)||2 2≤||c(t)||2 2,以及通过计算对所得到的最小环境分量cAMB,MIN(t)进行变换,其中,并且ΨMIN是所述最小环境分量CAMB,MIN(t)的模矩阵;
c)选择所述HOA系数序列c(t)的一部分,其中,所选择的系数序列与对其实施空间变换的环境HOA分量的系数序列相关,并且描述所选择的系数序列的数量的最小阶数NMIN为NMIN≤9;
-将用于表示所述通道信号的所述非差分增益值所需的所述最小整数比特数βe设置为的装置,
其中,N是阶数,NMAX是感兴趣的最大阶数,是所述虚拟扬声器的方向,O=(N+1)2是HOA系数序列的数量,以及K是所述模矩阵的欧几里德范数的平方||Ψ||2 2与O之间的比值。
附图说明
参考附图描述了本发明的示例性实施方式,在附图中示出了:
图1HOA压缩器;
图2HOA解压缩器;
图3虚拟方向Ωj (N)(1≤j≤O)关于HOA阶数(N=1,...,29)的缩放值K;
图4对于HOA阶数(NMIN=1,...,9),逆模矩阵Ψ-1关于虚拟方向ΩMIN,d(d=1,...,OMIN)的欧几里德范数;
图5虚拟扬声器在位置Ωj (N)(1≤j≤O,其中O=(N+1)2)处的信号的最大允许幅度γdB的确定;
图6球坐标系。
具体实施方式
即使没有明确描述,也可以在任何组合或子组合中使用以下实施方式。
在下文中,介绍HOA压缩和解压缩的原理以提供存在上述问题的更详细背景。该介绍的基础是在MPEG-H 3D音频文档ISO/IEC JTCl/SC29/WG11 N14264(也参见EP 2665208A1、EP 2800401 A1和EP 2743922 A1)中描述的处理。在N14264中,“方向分量”被扩展至“主要声音分量”。作为方向分量,主要声音分量被假设成部分地由方向信号连同用于根据方向信号预测原始HOA表示的多个部分的一些预测参数一起来表示,方向信号是指具有被假设为从其冲击听者的相应方向的单声道信号。另外,主要声音分量被假设为由“基于向量的信号”表示,基于向量的信号是指具有限定基于向量的信号的方向分布的相应向量的单声道信号。
HOA压缩
图1示出了在EP 2800401 A1中描述的HOA压缩器的总体架构。该HOA压缩器的总体架构具有图1A所示的空间HOA编码部以及图1B所示的感知编码部及源编码部。空间HOA编码器提供由I信号连同描述如何创建其HOA表示的边信息一起构成的第一压缩HOA表示。在对两个编码的表示进行多路复用之前,在感知编码器和边信息源编码器中对I信号进行感知编码,并且对边信息进行源编码。
空间HOA编码
在第一步骤中,将原始HOA表示的当前第k帧C(k)输入至方向和向量估计处理步骤或阶段11,该当前第k帧C(k)被假设成提供元组集元组集由其第一元素表示方向信号的索引并且第二元素表示相应的量化方向的元组构成。元组集由其第一元素表示基于向量的信号的索引并且第二元素表示限定信号的方向分布的向量(即,如何计算基于向量的信号的HOA表示)的元组构成。
使用两个元组集在HOA分解步骤或阶段12中将初始HOA帧C(k)分解成所有主要声音(即,方向的和基于向量的)信号的帧XPS(k-1)和环境HOA分量的帧CAMB(k-1)。注意由交叠相加处理引起的一个帧的延迟,以避免堵塞的假象。此外,HOA分解步骤/阶段12被假设成输出描述如何根据方向信号来预测原始HOA表示的多个部分的一些预测参数ζ(k-1,),以丰富主要声音HOA分量。另外,假设提供了包含关于将在HOA分解处理步骤或阶段12中确定的主要声音信号分配给I个可用通道的信息的目标分配向量vA,T(k-1)。可以假设要占用受影响的通道,这意味着受影响的通道不能用于在相应的时间帧中传输环境HOA分量的任何系数序列。
在环境分量修改处理步骤或阶段13中,根据由目标分配向量vA,T(k-1)提供的信息来修改环境HOA分量的帧CAMB(k-1)。特别地,(在其他方面中)根据关于哪些通道可用并且还没有被主要声音信号占据的(包含在目标分配向量vA,T(k-1)中的)信息来确定要在给定的I个通道中传输环境HOA分量的哪些系数序列。
另外,如果所选择的系数序列的索引在连续帧之间变化,则执行系数序列的淡入淡出。
此外,假设环境HOA分量CAMB(k-2)的第一OMIN系数序列总是被选择成被感知地编码和传输,其中OMIN=(NMIN+1)2(NMIN≤N)的阶数通常比原始HOA表示的阶数更小。为了对这些HOA系数序列进行去相关,可以在步骤/阶段13中将它们变换为从一些预定义方向ΩMIN,d(d=1,...,OMIN)冲击的方向信号(即,一般平面波函数)。
暂时预测的已修改环境HOA分量CP,M,A(k-1)连同修改的环境HOA分量CM,A(k-1)一起在步骤/阶段13中被计算,并且被用于增益控制处理步骤或阶段15、151以实现合理的预见,其中关于环境HOA分量的修改的信息与在通道分配步骤或阶段14中将所有可能类型的信号分配给可用通道直接相关。关于该分配的最终信息被假设成包含在最终分配向量vA(k-2)中。为了在步骤/阶段13中计算该向量,利用包含在目标分配向量vA,T(k-1)中的信息。
步骤/阶段14中的通道分配利用由分配向量vA(k-2)提供的信息将包含在帧XPS(k-2)中和包含在帧CM,A(k-2)中的适当的信号分配给I个可用通道,从而得到信号帧yi(k-2),i=1,...,I。另外,还将包含在帧XPs(k-1)和帧CP,AMB(k-1)中的适当的信号分配给I个可用通道,从而得到预测的信号帧yP,i(k-1),i=1,...,I。
信号帧yi(k-2),i=1,...,I中的每一个最终通过增益控制15、151来处理,以得到指数ei(k-2)和异常标记βi(k-2),i=1,...,I以及信号zi(k-2),i=1,...,I,其中信号增益被平滑地修改以实现适合于感知编码器步骤或阶段16的值范围。步骤/阶段16输出相应的编码信号帧i=1,...,I。预测的信号帧yP,i(k-1),i=1,...,I实现了合理的预见以避免连续块之间的较大增益变化。在边信息源编码器步骤或阶段17中,对边信息数据ei(k-2)、βi(k-2)、ζ(k-1)和vA(k-2)进行源编码,以得到经编码的边信息帧在多路复用器18中,对帧(k-2)的编码信号与该帧的已编码边信息数据进行组合,以得到输出帧
在空间HOA解码器中,步骤/阶段15、151中的增益修改被假设成通过使用由指数ei(k-2)和异常标记βi(k-2),i=1,...,I构成的增益控制边信息来恢复。
HOA解压缩
图2示出了在EP 2800401 A1中描述的HOA解压缩器的总体架构。该总体架构由HOA压缩器部件的配对部件构成,所述配对部件以相反的顺序布置并且包括图2A所示的感知解码部和源解码部以及图2B所示的空间HOA解码部。
在感知解码部和源解码部(代表感知解码器和边信息源解码器)中,解复用步骤或阶段21从比特流接收输入帧并且提供I个信号的感知编码的表示i=1,...,I以及描述如何创建其HOA表示的已编码边信息数据在感知解码器步骤或阶段22中对信号进行感知解码,以得到解码信号i=1,...,I。在边信息源解码器步骤或阶段23中对已编码边信息数据进行解码,以得到数据集 指数ei(k)、异常标记βi(k)、预测参数ζ(k+1)和分配向量vAMB,ASSIGN(k)。关于vA与vAMB,ASSIGN之间的差别,参见上面提到的MPEG文献N14264。
空间HOA解码
在空间HOA解码部中,感知解码的信号i=7,...,I中的每一个连同其关联的增益校正指数ei(k)以及增益校正异常标记βi(k)一起被输入至逆增益控制处理步骤或阶段24、241。第i个逆增益控制处理步骤/阶段提供了经增益校正的信号帧
全部I个经增益校正的信号帧i=1,...,I连同分配向量vAMB,ASSIGN(k)以及元组集一起被馈送至通道重分配步骤或阶段25,参见元组集的上述定义。分配向量vAMB,ASSIGN(k)由I个分量构成,所述I个分量针对每个传输通道而指示其是否包含环境HOA分量的系数序列以及它包含哪个系数序列。在通道重分配步骤/阶段25中,经增益校正的信号帧被重新分配以重构所有主要声音信号(即,所有方向信号和基于向量的信号)的帧以及环境HOA分量的中间表示的帧CI,AMB(k)。另外,提供了在第k个帧中活跃的环境HOA分量的系数序列的索引的集合以及在第(k-1)个帧中必须被启用、禁用及保持活跃的环境HOA分量的系数索引的数据集
在主要声音合成步骤或阶段26中,利用元组集预测参数的集合ζ(k+1)、元组集以及数据集根据所有主要声音信号的帧来计算主要声音分量的HOA表示。
在环境合成步骤或阶段27中,利用在第k个帧中活跃的环境HOA分量的系数序列的索引的集合根据环境HOA分量的中间表示的帧CI,AMB(k)来创建环境HOA分量帧由于与主要声音HOA分量的同步而引入一个帧的延迟。
最后,在HOA组成步骤或阶段28中,将环境HOA分量帧与主要声音HOA分量的帧进行叠加,以提供已解码的HOA帧
此后,空间HOA解码器根据I个信号和边信息来创建重构的HOA表示。
在位于编码侧的情况下,环境HOA分量被变换为方向信号,在步骤/阶段27中在解码器侧进行该变换的逆变换。
在HOA压缩器内的增益控制处理步骤/阶段15、151之前,信号的可能最大增益十分依赖于输入HOA表示的值范围。因此,首先限定输入HOA表示的有意义的值范围,随后在进入增益控制处理步骤/阶段之前对信号的可能最大增益做出结论。
输入HOA表示的归一化
为了使用本发明的处理,要先执行对(总)输入HOA表示信号的归一化。对于HOA压缩,执行逐帧处理,其中关于在高阶高保真度立体声响复制的章节Basics中的公式(54)中指定的时间连续HOA系数序列的向量c(t),将原始输入HOA表示的第k个帧C(k)限定为
其中,k表示帧索引,L为(在采样中的)帧长度,O=(N+1)2为HOA系数序列的数量,以及TS表示采样周期。
如EP 2824661 A1中所提及的,从实际角度来看,HOA表示的有意义的归一化不是通过对个别HOA系数序列的值范围施加约束来实现的,这是因为这些时域函数不是在渲染之后由扬声器实际播放的信号。相反,更方便的是考虑通过将HOA表示渲染为O个虚拟扬声器信号wj(t),1≤j≤O而获得的“等效空间域表示”。假设相应的虚拟扬声器位置借助于球坐标系来表示,其中假设每个位置位于单位球体上并且半径为“1”。因此,可以通过阶数相关方向Ωj (N)=(θj (N),φj (N)),1≤j≤O等效地表达位置,其中θj (N)和φj (N)分别表示倾斜度和方位角(也参见图6及其关于球坐标系定义的描述)。例如参见J.Fliege、U.Maier于1999年在多特蒙德大学的专业课范围数学技术报告″A two-stage approach forcomputing cubature formulae for the sphere″,这些方向应当尽可能均匀地分布在单位球体上。在以下网址中可以找到用于特定方向的计算的节点数量:http://www.mathematik.uni-dortmund.de/lsx/research/projects/fliege/nodes/nodes.html。这些位置通常取决于“球上的均匀分布”的定义种类,因此是不明确的。
通过限定HOA系数序列的值范围来限定虚拟扬声器信号的值范围的优点在于:如常规扬声器信号假定PCM表示的情况那样,虚拟扬声器信号的值范围可以被直观地设置为等于区间[-1,1]。这导致空间上均匀分布的量化误差,使得在与实际聆听相关的域中有利地应用量化。该背景中的一个重要方面是每采样比特数可以被选择成与通常用于常规扬声器信号的比特数(即,16)一样低,与通常需要更高的每采样比特数(例如,24或甚至32)的HOA系数序列的直接量化相比,这提高了效率。
为了详细描述空间域中的归一化处理,所有虚拟扬声器信号以向量被概括为w(t):=[w1(t)...wO(t)]T, (2)其中,(·)T表示转置。用Ψ表示关于虚拟方向Ωj (N),1≤j≤O的模矩阵,Ψ被定义为其中,
,渲染处理可以用公式表示为矩阵乘积
w(t)=(Ψ)-1·c(t)。 (5)
使用这些定义,对虚拟扬声器信号的合理要求是:
这意味着每个虚拟扬声器信号的幅度需要落入范围[-1,1]内。时间t的时刻由所述HOA数据帧的采样值的采样索引l和采样周期TS来表示。
扬声器信号的总的幂因此满足条件
HOA数据帧表示的渲染和归一化在图1A的输入C(k)的上游执行。
增益控制之前的信号值范围结果
假设输入HOA表示的归一化是根据输入HOA表示的归一化小节中的描述执行的,下面考虑被输入至HOA压缩器中的增益控制处理单元15、151的信号yi,i=1,...,I的值范围。这些信号是通过向HOA系数序列或主要声音信号xPS,d,d=1,...,D和/或环境HOA分量cAMB,n,n=1,...,O的特定系数序列中的一个或更多个分配可用I个通道来创建的,对这些信号中的一部分实施空间变换。因此,在公式(6)中的归一化假设下,有必要分析所提及的这些不同信号类型的可能值范围。由于所有种类的信号是根据原始HOA系数序列而在中间计算出的,因此检查它们可能的值范围。
图1A和图2B中未描绘I个通道中包含仅一个或更多个HOA系数序列的情况,即,在这种情况下,不需要HOA分解、环境分量修改块和相应的合成块。
HOA表示的值范围结果
时间连续的HOA表示是通过c(t)=Ψw(t), (8)
从虚拟扬声器信号中获得的,公式(8)是公式(5)的逆运算。
因此,使用公式(8)和公式(7)来如下限制所有HOA系数序列的总的幂:
||c(lTS)||2 2≤||Ψ||2 2·||w(lTS)||2 2≤||Ψ||2 2·O (9)
在球面谐波函数的N3D归一化的假设下,模矩阵的欧几里德范数的平方可以写成:||Ψ||2 2=K·O, (10a)其中,表示模矩阵的欧几里德范数的平方与HOA系数序列的数量O之间的比值。该比值取决于特定HOA阶数N和特定虚拟扬声器方向1≤j≤O,其可以通过向该比值附加相应参数列表来如下表示:
图3示出了根据上面提到的Fliege等人的文章的虚拟方向1≤j≤O关于HOA阶数(N=1,...,29)的K的值。
结合所有先前的论证和考虑,提供如下HOA系数序列的幅度的上限:
其中,第一个不等式直接从范数定义得出。
重要的是注意:公式(6)中的条件意味着公式(11)中的条件,但是相反的情况不成立,即,公式(11)不意味着公式(6)。
另一个重要方面是:在虚拟扬声器位置近似均匀分布的假设下,模矩阵Ψ的表示关于虚拟扬声器位置的模向量的列向量几乎彼此正交并且每个都具有欧几里德范数N+1。该特性意味着:除了乘法常数之外,空间变换几乎保持欧几里德范数,即,
||c(lTS)||2≈(N+1)||w(lTS)||2。 (12)
真实的范数||c(lTS)||2与公式(12)中的近似值相差越多,就越违反对模向量的正交性假设。
主要声音信号的值范围结果
两种类型的(方向的和基于向量的)主要声音信号的共同点在于:它们对HOA表示的贡献由具有欧几里德范数N+1的单个向量来描述,即,||v1||2=N+1。 (13)
在方向信号的情况下,该向量与关于某个信号源方向ΩS,1的模向量相对应,即,
该向量借助于HOA表示将方向束描述为信号源方向ΩS,1。在基于向量的信号的情况下,向量v1不限于关于任何方向的模向量,因此可以描述基于向量的单声道信号的更一般的方向分布。
下面考虑D个主要声音信号xd(t),d=1,...,D的一般情况,D个主要声音信号可以根据下式被集中在向量x(t)中
x(t)=[x1(t) x2(t) ... xD(t)]T (16)
这些信号必须基于以下矩阵来确定:
V:=[v1 v2 … vD] (17)
该矩阵由表示单声道主要声音信号xd(t),d=1,...,D的方向分布的所有向量vd,d=1,...,D构成。
为了主要声音信号x(t)的有意义的提取,规定以下约束:
a)每个主要声音信号是作为原始HOA表示的系数序列的线性组合而获得的,即
x(t)=A·c(t), (18)其中,表示混合矩阵。
b)混合矩阵A应当被选择成使得其欧几里德范数不超过值“1”,即,
并且使得原始HOA表示与主要声音信号的HOA表示之间的残差的欧几里德范数的平方(或幂)不大于原始HOA表示的欧几里德范数的平方(或幂),即
通过将公式(18)代入公式(20)中,可以看出公式(20)与以下约束相当:
其中,I表示单位矩阵。
使用公式(18)、公式(19)和公式(11)根据公式(18)和公式(19)中的约束以及根据欧几里德矩阵与向量范数的兼容性,通过下式来限定主要声音信号的幅度上限:
||x(lTS)||≤||x(lTS)||2 (22)
≤||A||2||c(lTS)||2 (23)
因此,确保主要声音信号保持在与原始HOA系数序列相同的范围内(与公式(11)比较),即,
选择混合矩阵的示例
如何确定满足约束(20)的混合矩阵的示例是通过计算主要声音信号使得提取之后的残差的欧几里德范数最小来获得的,即,
x(t)=argminx(t)||V·x(t)-c(t)||2。 (26)
公式(26)中的最小化问题的解决方案由下式给出:
x(t)=V+c(t), (27)
其中,(·)+表示摩尔-彭罗斯(Moore-Penrose)广义逆。通过将公式(27)与公式(18)进行比较,由此得出,在这种情况下,混合矩阵等于矩阵V的摩尔-彭罗斯广义逆,即A=V+
然而,仍然必须选择矩阵V以满足约束(19),即,(28)在仅方向信号的情况下,其中,矩阵V是关于一些源信号方向ΩS,d,d=1,...,D的模矩阵,即
V=[S(ΩS,1) S(Ωs,2) ... S(Ωs,D)], (29)
可以通过选择源信号方向ΩS,d,d=1,...,D使得任何两个相邻方向的距离不是太小来满足约束(28)。
环境HOA分量的系数序列的值范围结果
环境HOA分量是通过从原始HOA表示中减去主要声音信号的HOA表示来计算的,即,CAMB(t)=c(t)-V·x(t)。 (30)如果主要声音信号x(t)的向量是根据标准(20)确定的,则可以得出结论:
环境HOA分量的空间变换系数序列的值范围
EP 2743922 A1和上面提到的MPEG文献N14264中提出的HOA压缩处理的另一方面是:环境HOA分量的第一OMIN系数序列总是被选成被分配给传输通道,其中,OMIN=(NMIN+1)2,NMIN≤N通常是比原始HOA表示的阶数更小的阶数。为了对这些HOA系数序列去相关,可以将它们变换为从一些预定义方向ΩMIN,d,d=1,...,OMIN(类似于输入HOA表示的归一化小节中描述的概念)冲击的虚拟扬声器信号。
用cAMB,MIN(t)来定义阶数索引为n≤NMIN的环境HOA分量的所有系数序列的向量并且用ΨMIN来定义关于虚拟方向ΩMIN,d,d=1,...,OMIN的模矩阵,所有虚拟扬声器信号的向量(被定义为)wMIN(t)通过下式获得:
因此,使用欧几里德矩阵与向量范数的兼容性,
在上面提到的MPEG文献N14264中,根据上面提到的Fliege等人的文章来选择虚拟方向ΩMIN,d,d=1,...,OMIN。图4示出了模矩阵ΨMIN的逆矩阵针对阶数(NMIN=1,...,9)的相应欧几里德范数。可以看出:对于NMIN=1,...,9,然而,这通常不适用于的值通常远大于“1”的NMIN>9的情况。然而,至少对于1≤NMIN≤9,虚拟扬声器信号的幅度由下式限制:
通过限制输入HOA表示以满足条件(6),其中条件(6)要求根据该HOA表示创建的虚拟扬声器信号的幅度不超过值“1”,可以保证在以下条件下,信号在增益控制之前的幅度将不超过值(参见公式(25)、公式(34)和公式(40)):
a)所有主要声音信号x(t)的向量是根据公式/限制(18)、(19)和(20)来计算的;
b)如果使用如上述Fliege等人的文章中限定的虚拟扬声器位置,则确定对其实施空间变换的环境HOA分量的第一系数序列的数量OMIN的最小阶数NMIN必须小于“9”。
可以进一步得出结论:对于高达感兴趣的最大阶数NMAX的任何阶数N,即1≤N≤NMAX,信号在增益控制之前的幅度将不超过值其中,
特别地,从图3可以得出结论:如果假设用于初始空间变换的虚拟扬声器方向1≤j≤O是根据Fliege等人的文章中的分布来选择的,并且如果另外假设感兴趣的最大阶数为NMAX=29(例如参见MPEG文献N14264),则信号增益控制之前的幅度将不超过值1.5O,这是因为在这种特殊情况下即,可以选择
KMAX取决于感兴趣的最大阶数NMAX和虚拟扬声器方向1≤j≤O,其可以由下式来表示:
因此,为确保感知编码之前的信号位于区间[-1,1]内而通过增益控制施加的最小增益由给出,其中,
在信号在增益控制之前的幅度太小的情况下,在MPEG文献N14264中提出可以用高达的因子来平滑地放大它们,其中,eMAX≥0作为编码HOA表示中的边信息被传输。
因此,在访问单元内描述由增益控制处理单元引起的从第一帧一直到当前帧的已修改信号的总绝对幅度变化的底数为“2”的每个指数,可以假设在区间[eMIN,eMAX]内的任何整数值。因此,编码所需的(最小整数)比特数βe由下式给出:
在信号在增益控制之前的幅度不太小的情况下,公式(42)可以简化为:
可以在增益控制步骤/阶段15,...,151的输入处计算该比特数βe
针对指数使用该比特数βe确保可以捕获由HOA压缩器增益控制处理单元15,...,151引起的所有可能的绝对幅度变化,从而允许在压缩表示中的一些预定义入口点处开始解压缩。
当在HOA解压缩器中开始对压缩HOA表示进行解压缩时,被分配给一些数据帧的边信息并且除了所接收的数据流之外从解复用器21接收到的、表示总绝对幅度变化的非差分增益值被用在逆增益控制步骤或阶段24,...,241中,从而以与在增益控制步骤/阶段15,...,151中执行的处理相反的方式实施正确的增益控制。
另外的实施方式
当实现如在章节HOA压缩、空间HOA编码、HOA解压缩和空间HOA解码中描述的特定HOA压缩/解压缩系统时,用于对指数编码的比特数βe必须依赖于缩放因子KMAX,DES根据公式(42)来设定,缩放因子KMAX,DES自身取决于要压缩的HOA表示的期望的最大阶数NMAX,DES和特定的虚拟扬声器方向1≤N≤NMAX
例如,当假设NMAX,DES=29并且根据Fliege等人的文章来选择虚拟扬声器方向时,合理的选择是在该情况下,保证对阶数为N(1≤N≤NMAX)的HOA表示进行正确的压缩,该HOA表示是利用相同的虚拟扬声器方向根据章节输入HOA表示的归一化而被归一化的。然而,在以下HOA表示的情况下不能给出这种保证:该HOA表示还(出于效率原因)由PCM格式的虚拟扬声器信号等效地表示,但是其中虚拟扬声器的方向1≤j≤O被选择成与在系统设计阶段假定的虚拟扬声器方向不同。
由于虚拟扬声器位置的这种不同选择,即使这些虚拟扬声器信号的幅度在区间[-1,1]内,也不能再保证信号在增益控制之前的幅度将不超过值因此,不能保证该HOA表示根据MPEG文献N14264中描述的处理而具有针对压缩的适当的归一化。
在这种情况下,具有以下系统是有利的:该系统基于虚拟扬声器位置的知识而提供虚拟扬声器信号的最大允许幅度以确保相应的HOA表示适合于根据在MPEG文献N14264中描述的处理的压缩。在图5中示出了这样的系统。它采用虚拟扬声器位置1≤j≤O作为输入,其中,O=(N+1)2 并且提供虚拟扬声器信号的最大允许幅度γdB(其以分贝测量)作为输出。在步骤或阶段51中,根据公式(3)来计算关于虚拟扬声器位置的模矩阵Ψ。在随后的步骤或阶段52中,计算模矩阵的欧几里德范数||Ψ||2。在第三步骤或阶段53中,将幅度γ计算为“1”与下述值中的最小值:该值为虚拟扬声器位置数量的平方根和KMAX,DES的平方根的乘积与模矩阵的欧几里德范数的商,
以分贝为单位的值通过下式获得:γdB=20log10(γ)。 (44)为了说明:从上面的推导可以看出,如果HOA系数序列的幅度不超过值即,如果
则在增益控制处理单元15、151之前的所有信号将相应地不超过该值,这是对适当的HOA压缩的要求。
从公式(9)发现HOA系数序列的幅度由下式限制
||c(lTS)||≤||c(lTS)||2≤|||Ψ||2·||w(lTS)||2。 (46)
因此,如果γ是根据公式(43)设置的并且PCM格式的虚拟扬声器信号满足
||w(lTS)||。≤γ, (47)
则从公式(7)得出并且满足要求(45)。
即,公式(6)中的最大幅度值“1”由公式(47)中的最大幅度值γ代替。
高阶高保真度立体声响复制的基础
高阶高保真度立体声响复制(HOA)基于对感兴趣的密集区域内的声场的描述,其被假设为没有声源。在该情况下,在感兴趣的区域内的时间t和位置x处的声压p(t,x)的时空行为在物理上完全由齐次波动方程确定。在下文中,假设如图6所示的球坐标系。在所使用的坐标系中,x轴指向前面,y轴指向左侧,z轴指向顶部。空间中的位置x=(r,θ,φ)T由半径r>0(即,到坐标原点的距离)、从极轴z测量的倾斜角θ∈[0,π]以及在x-y平面内从x轴逆时针方向测量的方位角φ∈[0,2π[来表示。此外,(·)T表示转置。
然后,从“傅里叶声学”教科书中可以看出,声压关于时间的傅立叶变换由表示,即,
其中,ω表示角频率,i表示虚数单位,根据下式可以将上述声压关于时间的傅里叶变换展开成球面谐波函数的级数
其中,cs表示声速,k表示角波数,其通过而与角频率ω相关。此外,jn(·)表示第一类球贝塞尔函数,且表示阶数为n且度数为m的实值球面谐波函数,在章节实值球面谐波函数的定义中对它们做出了定义。展开系数仅取决于角波数k。注意,已经隐含地假设声压在空间上是频带受限的。因此,在称为HOA表示的阶数的上限N处关于阶数索引n截断该级数。
如果声场是通过从由角度元组(θ,φ)指定的所有可能方向到达的无限个具有不同角频率ω的谐波平面波进行叠加来表示的,则可以看出(参见B.Rafaely,“Plane-wavedecomposition of the sound field on a sphere by spherical convolution”,J.Acoust.Soc.Am,卷4(116),第2149至2157页,2004年10月),相应的平面波复幅度函数C(ω,θ,φ)可以由以下球面谐波函数展开式来表示
其中,展开系数通过下式与展开系数相关:
假设各个系数是角频率ω的函数,则逆傅里叶变换(由表示)的应用针对每个阶数n和度数m提供以下时域函数
这些时域函数在这里称为连续时间HOA系数序列,其可以通过下式被集中在单个向量c(t)中
向量c(t)内的HOA系数序列的位置索引由n(n+1)+1+m给出。向量c(t)中的总元素数由O=(N+1)2给出。
最终的高保真度立体声响复制格式利用采样频率fS提供c(t)的如下采样版本
其中,TS=1/fS表示采样周期。元素c(lTS)称为离散时间HOA系数序列,其可以总是实值。该特性也适用于连续时间版本实值球面谐波函数的定义
实值球面谐波函数(假设根据以下文献的SN3D归一化:J.Daniel,“Représentation de champs acoustiques,application à la transmission et à lareproduction de scènes sonores complexes dans un contexte multimédia”,博士论文,巴黎大学,2001年6月,3.1章)由下式给出
其中,
相关联的勒让德函数Pn,m(x)被定义为
其具有勒让德多项式Pn(x),并且与Academic Press1999年出版的AppliedMathematical Sciences第93卷E.G.Williams的“Fourier Acoustics”中的不同,其没有Condon-Shortley相位项(-1)m
本发明的处理可以由单个处理器或电子电路,或者由并行工作和/或在本发明的处理的不同部分中工作的若干处理器或电子电路执行。
用于操作一个或多个处理器的指令可以被存储在一个或更多个存储器中。

Claims (5)

1.一种用于解码声音或声场的压缩高阶高保真度立体声响复制(HOA)声音表示的方法,所述方法包括:
接收包含所述压缩HOA表示的比特流并且解码所述压缩HOA表示以确定感知解码信号相关联的增益校正指数ei(k)以及增益校正异常标记βi(k);
在通道重分配期间,重新分配经增益校正的信号帧以便重构主要声音信号的帧以及环境HOA分量的中间表示的帧CI,AMB(k),
其中,被应用于前一个帧中的传输通道的信号的最小整数比特数βe基于:
其中,N是阶数,NMAX是感兴趣的最大阶数,是虚拟扬声器的方向,O=(N+1)2是HOA系数序列的数量,并且K是模矩阵的欧几里德范数的平方||Ψ||2 2与O的比值。
2.一种用于解码声音或声场的压缩高阶高保真度立体声响复制(HOA)声音表示的装置,所述装置包括:
处理器,被配置为接收包含所述压缩HOA表示的比特流并且解码所述压缩HOA表示以确定感知解码信号相关联的增益校正指数ei(k)以及增益校正异常标记βi(k);
其中所述处理器进一步配置为在通道重分配期间,重新分配经增益校正的信号帧以便重构主要声音信号的帧以及环境HOA分量的中间表示的帧CI,AMB(k),
其中,被应用于前一个帧中的传输通道的信号的最小整数比特数βe基于:
其中,N是阶数,NMAX是感兴趣的最大阶数,是虚拟扬声器的方向,O=(N+1)2是HOA系数序列的数量,并且K是模矩阵的欧几里德范数的平方||Ψ||2 2与O的比值。
3.一种非暂时性计算机可读存储介质,包含指令,所述指令在由处理器执行时实行根据权利要求1所述的方法。
4.一种用于解码声音或声场的压缩高阶高保真度立体声响复制(HOA)声音表示的设备,包括:
处理器,以及
非暂时性计算机可读存储介质,包含有指令,所述指令在由处理器执行时实行根据权利要求1所述的方法。
5.一种用于解码声音或声场的压缩高阶高保真度立体声响复制(HOA)声音表示的装置,所述装置包括:
用于接收包含所述压缩HOA表示的比特流并且解码所述压缩HOA表示以确定感知解码信号相关联的增益校正指数ei(k)以及增益校正异常标记βi(k)的部件;
用于在通道重分配期间,重新分配经增益校正的信号帧以便重构主要声音信号的帧以及环境HOA分量的中间表示的帧CI,AMB(k)的部件,
其中,被应用于前一个帧中的传输通道的信号的最小整数比特数βe基于:
其中,N是阶数,NMAX是感兴趣的最大阶数,是虚拟扬声器的方向,O=(N+1)2是HOA系数序列的数量,并且K是模矩阵的欧几里德范数的平方||Ψ||2 2与O的比值。
CN201910861296.9A 2014-06-27 2015-06-22 用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法 Active CN110415712B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910861296.9A CN110415712B (zh) 2014-06-27 2015-06-22 用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP14306024 2014-06-27
EP14306024.2 2014-06-27
CN201910861296.9A CN110415712B (zh) 2014-06-27 2015-06-22 用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法
PCT/EP2015/063914 WO2015197514A1 (en) 2014-06-27 2015-06-22 Apparatus for determining for the compression of an hoa data frame representation a lowest integer number of bits required for representing non-differential gain values
CN201580035125.0A CN106471822B (zh) 2014-06-27 2015-06-22 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的设备

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201580035125.0A Division CN106471822B (zh) 2014-06-27 2015-06-22 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的设备

Publications (2)

Publication Number Publication Date
CN110415712A CN110415712A (zh) 2019-11-05
CN110415712B true CN110415712B (zh) 2023-12-12

Family

ID=51178840

Family Applications (7)

Application Number Title Priority Date Filing Date
CN201910861296.9A Active CN110415712B (zh) 2014-06-27 2015-06-22 用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法
CN201910861274.2A Active CN110556120B (zh) 2014-06-27 2015-06-22 用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法
CN201580035125.0A Active CN106471822B (zh) 2014-06-27 2015-06-22 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的设备
CN202311558626.XA Pending CN117612540A (zh) 2014-06-27 2015-06-22 用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法
CN201910861280.8A Active CN110459229B (zh) 2014-06-27 2015-06-22 用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法
CN202311556422.2A Pending CN117636885A (zh) 2014-06-27 2015-06-22 用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法
CN201910922110.6A Active CN110662158B (zh) 2014-06-27 2015-06-22 用于解码声音或声场的压缩hoa声音表示的方法和装置

Family Applications After (6)

Application Number Title Priority Date Filing Date
CN201910861274.2A Active CN110556120B (zh) 2014-06-27 2015-06-22 用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法
CN201580035125.0A Active CN106471822B (zh) 2014-06-27 2015-06-22 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的设备
CN202311558626.XA Pending CN117612540A (zh) 2014-06-27 2015-06-22 用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法
CN201910861280.8A Active CN110459229B (zh) 2014-06-27 2015-06-22 用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法
CN202311556422.2A Pending CN117636885A (zh) 2014-06-27 2015-06-22 用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法
CN201910922110.6A Active CN110662158B (zh) 2014-06-27 2015-06-22 用于解码声音或声场的压缩hoa声音表示的方法和装置

Country Status (8)

Country Link
US (4) US9792924B2 (zh)
EP (3) EP3162086B1 (zh)
JP (5) JP6641304B2 (zh)
KR (4) KR102654275B1 (zh)
CN (7) CN110415712B (zh)
ES (1) ES2974440T3 (zh)
TW (4) TWI728563B (zh)
WO (1) WO2015197514A1 (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102410307B1 (ko) * 2014-06-27 2022-06-20 돌비 인터네셔널 에이비 Hoa 데이터 프레임 표현의 데이터 프레임들 중 특정 데이터 프레임들의 채널 신호들과 연관된 비차분 이득 값들을 포함하는 코딩된 hoa 데이터 프레임 표현
EP2960903A1 (en) * 2014-06-27 2015-12-30 Thomson Licensing Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values
EP3161821B1 (en) * 2014-06-27 2018-09-26 Dolby International AB Method for determining for the compression of an hoa data frame representation a lowest integer number of bits required for representing non-differential gain values
DE102016104665A1 (de) * 2016-03-14 2017-09-14 Ask Industries Gmbh Verfahren und Vorrichtung zur Aufbereitung eines verlustbehaftet komprimierten Audiosignals
US10332530B2 (en) 2017-01-27 2019-06-25 Google Llc Coding of a soundfield representation
US10015618B1 (en) * 2017-08-01 2018-07-03 Google Llc Incoherent idempotent ambisonics rendering
US10264386B1 (en) * 2018-02-09 2019-04-16 Google Llc Directional emphasis in ambisonics
GB2572761A (en) * 2018-04-09 2019-10-16 Nokia Technologies Oy Quantization of spatial audio parameters
KR20230049660A (ko) * 2020-07-30 2023-04-13 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 신호를 인코딩하거나 인코딩된 오디오 장면을 디코딩하기 위한 장치, 방법 및 컴퓨터 프로그램
WO2022082665A1 (en) * 2020-10-22 2022-04-28 Nokia Shanghai Bell Co., Ltd. Method, apparatus, and computer program
CN113314129B (zh) * 2021-04-30 2022-08-05 北京大学 一种适应环境的声场重放空间解码方法
CN113345448B (zh) * 2021-05-12 2022-08-05 北京大学 一种基于独立成分分析的hoa信号压缩方法
CN115376530A (zh) * 2021-05-17 2022-11-22 华为技术有限公司 三维音频信号编码方法、装置和编码器
CN115376528A (zh) * 2021-05-17 2022-11-22 华为技术有限公司 三维音频信号编码方法、装置和编码器
CN115376529B (zh) * 2021-05-17 2024-10-11 华为技术有限公司 三维音频信号编码方法、装置和编码器
CN115497485B (zh) * 2021-06-18 2024-10-18 华为技术有限公司 三维音频信号编码方法、装置、编码器和系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101658052A (zh) * 2007-03-21 2010-02-24 弗劳恩霍夫应用研究促进协会 用于音频重构增强的方法和设备
CN101843114A (zh) * 2007-11-01 2010-09-22 诺基亚公司 聚焦于用于音频信号的音频场景的一部分
CN101925950A (zh) * 2008-01-04 2010-12-22 杜比国际公司 音频编码器和解码器
CN102138340A (zh) * 2008-06-17 2011-07-27 依耳乐恩斯公司 利用由功率和信号组成的结构的光机电听觉设备
TW201301911A (zh) * 2011-06-30 2013-01-01 Thomson Licensing 聲訊場景二維或三維高階保真立體音響呈現所含聲音客體相對位置之改變方法和裝置
CN102884570A (zh) * 2010-04-09 2013-01-16 杜比国际公司 基于mdct的复数预测立体声编码
TW201346890A (zh) * 2012-05-14 2013-11-16 湯姆生特許公司 高階保真立體音響訊號表象之壓縮方法和裝置以及解壓縮方法和裝置
WO2014012945A1 (en) * 2012-07-16 2014-01-23 Thomson Licensing Method and device for rendering an audio soundfield representation for audio playback

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE522453C2 (sv) * 2000-02-28 2004-02-10 Scania Cv Ab Sätt och anordning för styrning av ett mekaniskt tillsatsaggregat i ett motorfordon
CN1138254C (zh) * 2001-03-19 2004-02-11 北京阜国数字技术有限公司 一种基于小波变换的音频信号压缩编/解码方法
EP1721312B1 (en) * 2004-03-01 2008-03-26 Dolby Laboratories Licensing Corporation Multichannel audio coding
CN1677492A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
ATE521143T1 (de) * 2005-02-23 2011-09-15 Ericsson Telefon Ab L M Adaptive bitzuweisung für die mehrkanal- audiokodierung
US8788264B2 (en) * 2007-06-27 2014-07-22 Nec Corporation Audio encoding method, audio decoding method, audio encoding device, audio decoding device, program, and audio encoding/decoding system
ES2559605T3 (es) * 2008-09-17 2016-02-15 Panasonic Intellectual Property Management Co., Ltd. Medio de grabación y dispositivo de reproducción
PT2553947E (pt) * 2010-03-26 2014-06-24 Thomson Licensing Método e dispositivo para descodificar uma representação de um campo sonoro de áudio para a reprodução de áudio
EP2450880A1 (en) 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
EP2637427A1 (en) * 2012-03-06 2013-09-11 Thomson Licensing Method and apparatus for playback of a higher-order ambisonics audio signal
EP2645748A1 (en) 2012-03-28 2013-10-02 Thomson Licensing Method and apparatus for decoding stereo loudspeaker signals from a higher-order Ambisonics audio signal
EP2688066A1 (en) * 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
EP2743922A1 (en) * 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
EP2800401A1 (en) 2013-04-29 2014-11-05 Thomson Licensing Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
EP2824661A1 (en) 2013-07-11 2015-01-14 Thomson Licensing Method and Apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101658052A (zh) * 2007-03-21 2010-02-24 弗劳恩霍夫应用研究促进协会 用于音频重构增强的方法和设备
CN101843114A (zh) * 2007-11-01 2010-09-22 诺基亚公司 聚焦于用于音频信号的音频场景的一部分
CN101925950A (zh) * 2008-01-04 2010-12-22 杜比国际公司 音频编码器和解码器
CN102138340A (zh) * 2008-06-17 2011-07-27 依耳乐恩斯公司 利用由功率和信号组成的结构的光机电听觉设备
CN102884570A (zh) * 2010-04-09 2013-01-16 杜比国际公司 基于mdct的复数预测立体声编码
TW201301911A (zh) * 2011-06-30 2013-01-01 Thomson Licensing 聲訊場景二維或三維高階保真立體音響呈現所含聲音客體相對位置之改變方法和裝置
CN103635964A (zh) * 2011-06-30 2014-03-12 汤姆逊许可公司 改变包含在高阶高保真度立体声响复制表示中声音对象相对位置的方法以及装置
TW201346890A (zh) * 2012-05-14 2013-11-16 湯姆生特許公司 高階保真立體音響訊號表象之壓縮方法和裝置以及解壓縮方法和裝置
WO2014012945A1 (en) * 2012-07-16 2014-01-23 Thomson Licensing Method and device for rendering an audio soundfield representation for audio playback

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ESPRO 2.0 – IMPLEMENTATION OF A SURROUNDING 350-LOUDSPEAKER ARRAY FOR SOUND FIELD REPRODUCTION;MARKUS NOISTERNIG et al;《SPATIAL AUDIO IN TODAY"S 3D WORLD - AES 25th UK CONFERENCE》;20120325;全文 *
三维音频中若干算法研究;彭钰林;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20130815;全文 *

Also Published As

Publication number Publication date
JP7267340B2 (ja) 2023-05-01
CN110662158B (zh) 2021-05-25
CN110459229A (zh) 2019-11-15
US10262670B2 (en) 2019-04-16
EP3860154B1 (en) 2024-02-21
US20180005641A1 (en) 2018-01-04
CN110556120A (zh) 2019-12-10
US10037764B2 (en) 2018-07-31
JP6874115B2 (ja) 2021-05-19
CN117612540A (zh) 2024-02-27
CN110662158A (zh) 2020-01-07
CN106471822A (zh) 2017-03-01
EP3162086B1 (en) 2021-04-07
JP6641304B2 (ja) 2020-02-05
US10580426B2 (en) 2020-03-03
TWI809394B (zh) 2023-07-21
KR20240050436A (ko) 2024-04-18
ES2974440T3 (es) 2024-06-27
EP3162086A1 (en) 2017-05-03
CN110556120B (zh) 2023-02-28
KR102381202B1 (ko) 2022-04-01
TWI728563B (zh) 2021-05-21
CN106471822B (zh) 2019-10-25
TWI679633B (zh) 2019-12-11
CN117636885A (zh) 2024-03-01
US20170154633A1 (en) 2017-06-01
CN110415712A (zh) 2019-11-05
JP2021105743A (ja) 2021-07-26
CN110459229B (zh) 2023-01-10
WO2015197514A1 (en) 2015-12-30
US20190295562A1 (en) 2019-09-26
JP2020060789A (ja) 2020-04-16
TW201603001A (zh) 2016-01-16
US20180308500A1 (en) 2018-10-25
JP2023083435A (ja) 2023-06-15
KR102454747B1 (ko) 2022-10-17
EP4354432A3 (en) 2024-06-26
KR20220044865A (ko) 2022-04-11
KR102654275B1 (ko) 2024-04-04
JP2017523458A (ja) 2017-08-17
EP4354432A2 (en) 2024-04-17
KR20170023867A (ko) 2017-03-06
US9792924B2 (en) 2017-10-17
TW202211207A (zh) 2022-03-16
TW202418268A (zh) 2024-05-01
EP3860154A1 (en) 2021-08-04
JP7512470B2 (ja) 2024-07-08
JP2024138300A (ja) 2024-10-08
KR20220141920A (ko) 2022-10-20
TW202013355A (zh) 2020-04-01

Similar Documents

Publication Publication Date Title
CN110415712B (zh) 用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法
JP7423585B2 (ja) Hoaデータ・フレーム表現のデータ・フレームの個々のもののチャネル信号に関連付けられた非差分的な利得値を含む符号化されたhoaデータ・フレーム表現
CN106471580B (zh) 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法和设备
JP7516610B2 (ja) 非差分的な利得値を表現するのに必要とされる最低整数ビット数をhoaデータ・フレーム表現の圧縮のために決定する装置
CN112908349B (zh) 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40010362

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
TG01 Patent term adjustment
TG01 Patent term adjustment