[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN107180639B - 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置 - Google Patents

对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置 Download PDF

Info

Publication number
CN107180639B
CN107180639B CN201710583292.XA CN201710583292A CN107180639B CN 107180639 B CN107180639 B CN 107180639B CN 201710583292 A CN201710583292 A CN 201710583292A CN 107180639 B CN107180639 B CN 107180639B
Authority
CN
China
Prior art keywords
directional
frame
hoa
signals
directional signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710583292.XA
Other languages
English (en)
Other versions
CN107180639A (zh
Inventor
A.克勒格尔
S.科登
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Publication of CN107180639A publication Critical patent/CN107180639A/zh
Application granted granted Critical
Publication of CN107180639B publication Critical patent/CN107180639B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/13Application of wave-field synthesis in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)
  • Separation Using Semi-Permeable Membranes (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本公开涉及对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置。更高阶高保真度立体声响复制表示独立于具体扬声器设置的三维声音。然而,HOA表示的传输导致非常高的比特率。因此,使用具有固定数量的信道的压缩,其中有区别地处理定向和环境信号分量。环境HOA分量由最小数量的HOA系数序列表示。剩余的信道包含定向信号或者环境HOA分量的另外的系数序列,取决于什么将导致最佳的感知质量。该处理可以基于逐个帧地改变。

Description

对更高阶高保真度立体声响复制表示进行压缩和解压缩的方 法和装置
本申请是申请号为201480023877.0、申请日为2014年4月24日、发明名称为“对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置”的发明专利申请的分案申请。
技术领域
本发明涉及通过有区别地处理定向和环境信号分量对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置。
背景技术
更高阶高保真度立体声响复制(HOA)连同像波长合成(WFS)这样的其他技术或者像22.2这样的基于信道的方法一起提供表示三维声音的一种可能性。然而,相对于基于信道的方法,HOA表示提供独立于具体扬声器设置的优点。然而,这个灵活性以HOA表示在特殊的扬声器设置上回放所必需的解码处理为代价。与必需的扬声器的数量通常非常大的WFS方法相比,HOA还可以被呈现给包括仅几个扬声器的设置。HOA的另外的优点在于,对于到头戴耳机的双耳呈现,也可以使用相同的表示而不用做任何修改。
HOA基于按照截断的球谐(Spherical Harmonics,SH)扩展的复谐平面波(complexharmonic plane wave)幅度的空间密度的表示。每个扩展系数是角频率的函数,其可以由时域函数等同地表示。因此,在不失一般性的情况下,完整的HOA声场表示实际上可以被假设为包括O个时域函数,其中O标记扩展系数的数量。这些时域函数将等同地被称作HOA系数序列或者称作HOA信道。
HOA表示的空间分辨率随着扩展的最大阶N的增长而提高。不幸地,扩展系数的数量O随着阶N二次方地增长,具体地,O=(N+1)2。例如,使用阶N=4的典型的HOA表示需要O=25个HOA(扩展)系数。根据先前做出的考虑,给定期望的单信道采样率fS和每个样本的位数Nb,用于传输HOA表示的总比特率由O·fS·Nb确定。因此,以fS=48kHz的采样率并且使用每个样本Nb=16位来传输阶N=4的HOA表示导致19.2MBits/s的比特率,这对于许多实际的应用(例如对于流传输)非常高。
HOA声场表示的压缩在专利申请EP 12306569.0和EP 12305537.8中提出。代替单独地对HOA系数序列中的每一个进行感知编码,例如像在E.Hellerud、I.Burnett、A.Solvang和U.P.Svensson的“Encoding Higher Order Ambisonics with AAC”(第124届AES会议,阿姆斯特丹,2008年)中执行的那样,具体通过执行声场分析并且将给定的HOA表示分解成定向和残余环境分量来试图减少被感知编码的信号的数量。定向分量通常应当由可以被视为一般平面波函数的少量的支配定向信号来表示。残余环境HOA分量的阶减小,因为假设在提取支配定向信号之后,更低阶的HOA系数承载大部分相关信息。
发明内容
总之,通过这样的操作,要被感知编码的HOA系数序列的初始数量(N+1)2被减少至固定数量的D个支配定向信号以及表示具有截断的阶NRED<N的残余环境HOA分量的数量(NRED+1)2个HOA系数序列,从而要编码的信号的数量是固定的,亦即D+(NRED+1)2。特别地,该数量独立于在时帧(time frame)k中的活动的支配(dominant)定向声源的实际检测到的数量DACT(k)≤D。这意味着,在时帧k中,其中活动的支配定向声源的实际检测到的数量DACT(k)小于定向信号的最大允许数量D,要被感知编码的支配定向信号中的一些或者甚至是全部为零。最后,这意味着这些信道根本不用于捕捉声场的相关信息。
在该背景下,EP 12306569.0和EP 12305537.8会议录中的另外可能的弱点是用于在每个时帧中确定活动的支配定向信号的数量的标准,因为不试图确定关于声场的相继感知编码的活动的支配定向信号的最佳数量。例如,在EP 12305537.8中,使用简单的功率标准,也就是通过确定属于最大特征值的系数间相关矩阵的子空间的维度,来估计支配声源的量。在EP 12306569.0中,提出对支配定向声源的递增检测,其中如果来自各自方向的平面波函数的功率关于第一定向信号足够高,则定向声源被认为是支配的。使用像在EP12306569.0和EP 12305537.8中那样的基于功率的标准可能导致关于声场的感知编码是次优的定向环境分解(directional-ambient decomposition)。
本发明所要解决的问题是通过对当前的HOA音频信号内容确定如何分配到预先确定的减少数量的信道、定向信号以及环境HOA分量的系数来改进HOA压缩。该问题由在权利要求1和3中公开的方法来解决。使用这些方法的装置在权利要求2和4中公开。
本发明在两个方面改进在EP 12306569.0中提出的压缩处理。第一,更好地利用由将被感知编码的给定数量的信道提供的带宽。在没有检测到支配声源信号的时帧中,最初被保留用于支配定向信号的信道被用于以残余环境HOA分量的另外的HOA系数序列的形式来捕捉关于环境分量的另外的信息。第二,考虑到利用给定数量的信道对给定HOA声场表示进行感知编码的目标,关于该目的,适配用于确定要从HOA表示中提取的定向信号的量的标准。确定定向信号的数量,使得经解码和重构的HOA表示提供最低的感知误差。该标准比较由提取定向信号并且使用更少的HOA系数序列来描述残余环境HOA分量而引起的建模误差,或者由不提取定向信号并且代替地使用另外的HOA系数序列来描述残余环境HOA分量而引起的建模误差。该标准进一步针对两种情况考虑由定向信号和残余环境HOA分量的HOA系数序列的感知编码引入的量化噪声的空间功率分布。
为了实现上述处理,在开始HOA压缩之前,指定总数量I个信号(信道),与其相比,HOA系数序列的最初数量O减少。假设环境HOA分量由最小数量ORED个HOA系数序列来表示。在一些情况下,该最小数量可以是零。剩余的D=I-ORED个信道应当包含定向信号或者环境HOA分量的另外的系数序列,取决于定向信号提取处理决定什么在感知上更有意义。假设定向信号或者环境HOA分量系数序列到剩余的D个通道的分配可基于逐个帧(on frame-by-frame basis)地改变。为了在接收侧重构声场,将关于分配的信息作为额外的边信息(sideinformation)来传输。
原则上,本发明的压缩方法适合于使用固定数量的感知编码对被标记为HOA的声场的更高阶高保真度立体声响复制表示进行压缩,其使用HOA系数序列的输入时帧,所述方法包括基于逐个帧地执行的下面的步骤:
-对当前帧估计支配方向的集合以及检测到的定向信号的索引的对应数据集;
-将所述当前帧的HOA系数序列分解成非固定数量的定向信号,其具有包含在支配方向估计的所述集合中的各自方向并且具有所述定向信号的索引的各自数据集,其中所述非固定数量小于所述固定数量,
以及由减少的数量的HOA系数序列以及所述减少的数量的残余环境HOA系数序列的索引的对应数据集表示的残余环境HOA分量,所述减少的数量对应于所述固定数量与所述非固定数量之间的差值;
-将所述定向信号以及所述残余环境HOA分量的HOA系数序列分配给数量对应于所述固定数量的信道,其中对于所述分配,使用所述定向信号的索引的数据集以及所述减少的数量的残余环境HOA系数序列的索引的数据集;
-对相关帧的信道进行感知编码,以便提供经编码的压缩帧。
原则上,本发明的压缩装置适合于使用固定数量的感知编码对被标记为HOA的声场的更高阶高保真度立体声响复制表示进行压缩,其使用HOA系数序列的输入时帧,所述装置执行基于逐个帧的处理并且包括:
-适合于进行如下处理的部件:对当前帧估计支配方向的集合以及检测到的定向信号的索引的对应数据集;
-适合于进行如下处理的部件:将所述当前帧的HOA系数序列分解成非固定数量的定向信号,其具有包含在支配方向估计的所述集合中的各自方向并且具有所述定向信号的索引的各自数据集,其中所述非固定数量小于所述固定数量,
以及由减少的数量的HOA系数序列以及所述减少的数量的残余环境HOA系数序列的索引的对应数据集表示的残余环境HOA分量,所述减少的数量对应于所述固定数量与所述非固定数量之间的差值;
-适合于进行如下处理的部件:将所述定向信号以及所述残余环境HOA分量的HOA系数序列分配给数量对应于所述固定数量的信道,其中对于所述分配,使用所述定向信号的索引的数据集以及所述减少的数量的残余环境HOA系数序列的索引的数据集;
-适合于进行如下处理的部件:对相关帧的信道进行感知编码,以便提供经编码的压缩帧。
原则上,本发明的解压缩方法适合于对根据上面的压缩方法压缩的更高阶高保真度立体声响复制表示进行解压缩,所述解压缩包括步骤:
-对当前的经编码的压缩帧进行感知解码,以便提供信道的经感知解码的帧;
-使用检测到的定向信号的索引的数据集以及所选择的环境HOA系数序列的索引的数据集,重新分布信道的经感知解码的帧,以便重新创建定向信号的对应帧以及残余环境HOA分量的对应帧;
-使用检测到的定向信号的索引的数据集以及支配方向估计的集合,从定向信号的所述帧以及从残余环境HOA分量的所述帧,重新组成HOA表示的当前经解压缩的帧,
其中根据所述定向信号预测关于均匀分布的方向的定向信号,并且此后从定向信号的所述帧、所述预测的信号以及所述残余环境HOA分量重新组成所述当前经解压缩的帧。
原则上,本发明的解压缩装置适合于对根据上面的压缩方法压缩的更高阶高保真度立体声响复制表示进行解压缩,所述装置包括:
-适合于进行如下处理的部件:对当前的经编码的压缩帧进行感知解码,以便提供信道的经感知解码的帧;
-适合于进行如下处理的部件:使用检测到的定向信号的索引的数据集以及所选择的环境HOA系数序列的索引的数据集,重新分布信道的经感知解码的帧,以便重新创建定向信号的对应帧以及残余环境HOA分量的对应帧;
-适合于进行如下处理的部件:使用检测到的定向信号的索引的数据集以及支配方向估计的集合,从定向信号的所述帧以及从残余环境HOA分量的所述帧,重新组成HOA表示的当前经解压缩的帧,
其中根据所述定向信号预测关于均匀分布的方向的定向信号,并且此后从定向信号的所述帧、所述预测的信号以及所述残余环境HOA分量重新组成所述当前经解压缩的帧。
在相应的从属权利要求中公开本发明的有利的另外的实施例。
附图说明
参考附图描述本发明的示例性实施例,其中:
图1示出HOA压缩的框图;
图2示出支配声源方向的估计;
图3示出HOA解压缩的框图;
图4示出球面坐标系;
图5示出对于不同的高保真度立体声响复制阶N以及对于角度θ∈[0,π]的规一化分散函数vN(Θ)。
具体实施方式
A.改进的HOA压缩
在图1中例示根据本发明的基于EP 12306569.0的压缩处理,其中使用粗体框显示与EP 12306569.0相比较已经修改或者新引入的信号处理块,并且其中本申请中的′g′(如这样的方向估计)和′C′分别对应于EP12306569.0中的′A′(方向估计的矩阵)和′D′。对于HOA压缩,使用长度L的HOA系数序列的不重叠的输入帧C(k)的逐帧(frame-wise)的处理被使用,其中k标记帧索引。关于在等式(45)中指定的HOA系数序列将帧定义为:
C(k):=[c((kL+1)Ts) c((kL+2)Ts) c((k+1)LTs)], (1)
其中TS指示采样周期。
图1中的第一步骤或阶段11/12是可选的,并且包括将HOA系数序列的不重叠的第k和(k-1)帧串接成长帧
Figure BDA0001352839700000061
为:
Figure BDA0001352839700000062
该长帧与相邻的长帧50%重叠,并且该长帧被相继地用于支配声源方向的估计。与
Figure BDA0001352839700000063
的标记法类似,在下面的描述中使用波浪符号来指示相应的量指代长的重叠的帧。如果步骤/阶段11/12不存在,则波浪符号没有具体含意。
原则上,如在EP 13305156.5中所提出的那样地执行支配声源的估计步骤或阶段13,但是具有重要的修改。修改涉及确定要检测的方向的量,亦即应当从HOA表示中提取多少定向引号。这通过只有在与替代地使用另外的HOA系数序列进行环境HOA分量的更好的近似相比其在感知上更相关的情况下才激发提取定向信号来实现。在部分A.2中给出对该技术的详细描述。
该估计提供已经检测到的定向信号的索引的数据集
Figure BDA0001352839700000071
以及对应的方向估计的集合
Figure BDA0001352839700000072
D标记在开始HOA压缩之前必须设置的定向信号的最大数量。
在步骤或阶段14中,将HOA系数序列的当前(长)帧
Figure BDA0001352839700000073
分解(如在EP 13305156.5中提出的那样)成属于集合
Figure BDA0001352839700000074
中包含的方向的许多定向信号XDIR(k-2)以及残余环境HOA分量CAMB(k-2)。作为重叠添加处理的结果引入两个帧的延迟,以便获得平滑信号。假设XDIR(k-2)包含总共D个信道,然而其中只有与活动的定向信号相对应的那些是非零的。指定这些信道的索引假设在数据集
Figure BDA0001352839700000075
中输出。另外,步骤/阶段14中的分解提供在解压缩侧被用于根据定向信号预测原始HOA表示的部分的一些参数ζ(k-2)(更多细节参看EP13305156.5)。
在步骤或阶段15中,智能地减少环境HOA分量CAMB(k-2)的系数的数量,以仅包含ORED+D-NDIR,ACT(k-2)个非零的HOA系数序列,其中
Figure BDA0001352839700000076
指示数据集
Figure BDA0001352839700000077
的基数,亦即帧k-2中的活动的定向信号的数量。因为假设环境HOA分量总是由最小数量ORED个HOA系数序列表示,所以这个问题实际上可以简化成从可能的O-ORED个HOA系数序列中选择剩余的D-NDIR,ACT(k-2)个HOA系数序列。为了获得平滑的减少的环境HOA表示,将该选择实现为使得与在前一帧k-3时进行的选择相比较,尽可能少的变化将发生。
具体地,将区别下面三种情况:
a)NDIR,ACT(k-2)=NDIR,ACT(k-3):在这种情况下,假设选择与在帧k-3中相同的HOA系数序列。
b)NDIR,ACT(k-2)<NDIR,ACT(k-3):在这种情况下,可以使用比在最后的帧k-3中更多的HOA系数序列来表示在当前帧中的环境HOA分量。假设在k-3中被选择的那些HOA系数序列也在当前帧中被选择。可以根据不同的标准来选择另外的HOA系数序列。例如,选择CAMB(k-2)中具有最高平均功率的那些HOA系数序列,或者关于它们的感知重要性选择HOA系数序列。
c)NDIR,ACT(k-2)>NDIR,ACT(k-3):在这种情况下,可以使用比在最后的帧k-3中更少的HOA系数序列来表示在当前帧中的环境HOA分量。这里需要回答的问题是必须使先前选择的HOA系数序列中的哪些不活动(deactivate)。合理的解决方案是使在帧k-3时在信号分配步骤或阶段16分配给信道
Figure BDA0001352839700000081
的那些序列不活动。
为了避免在使另外的HOA系数序列活动或不活动时在帧边界处的不连续性,使得各个信号平滑地淡入(fade in)或淡出(fade out)是有利的。
具有减少的数量ORED+NDIR,ACT(k-2)个非零系数序列的最终的环境HOA表示由CAMB,RED(k-2)标记。所选择的环境HOA系数序列的索引在数据集
Figure BDA0001352839700000082
中输出。
在步骤/阶段16中,XDIR(k-2)中包含的活动的定向信号和CAMB,RED(k-2)中包含的HOA系数序列被分配给I个信道的帧Y(k-2)以便进行个体的感知编码。为了更详细地描述信号分配,假设帧XDIR(k-2)、Y(k-2)和CAMB,RED(k-2)包括各个信号xDIR,d(k-2),d∈{1,...,D}、yi(k-2),i∈{1,...,I}和cAMB,RED,o(k-2),o∈{1,...,O},如下:
Figure BDA0001352839700000083
Figure BDA0001352839700000084
分配活动的定向信号,使得它们保存(keep)它们的信道索引以便获得连续的信号用于相继的感知编码。这可以表示为:
yd(k-2)=xDIR,d(k-2)对于所有
Figure BDA0001352839700000085
环境分量的HOA系数序列被分配为使得最小数量的ORED个系数序列总是包含在Y(k-2)的最后的ORED个信号中,亦即
yD+o(k-2)=cAMB,RED,o(k-2)对于1≤o≤ORED。 (5)
对于环境分量的另外D-NDIR,ACT(k-2)个HOA系数序列,它们是否也在前一个帧中被选择是有区别的:
a)如果它们也被选择在前一个帧中传输,亦即,如果各自的索引也包含在数据集
Figure BDA0001352839700000091
中,则这些系数序列到Y(k-2)中的信号的分配与对于前一帧的相同。该操作保证平滑的信号yi(k-2),这对于步骤或阶段17中的相继的感知编码是有利的。
b)否则,如果一些系数序列是新选择的,亦即,如果它们的索引包含在数据集
Figure BDA0001352839700000092
中但是不在数据集
Figure BDA0001352839700000093
中,则它们首先关于它们的索引以升序布置,并且以该次序分配给Y(k-2)中尚未被定向信号占据的信道
Figure BDA0001352839700000094
这个具体的分配提供如下优点:在HOA解压缩处理期间,可以在不知道哪个环境HOA系数序列包含在Y(k-2)的哪个信道的情况下执行信号的重新分布和组成。代替地,可以在HOA解压缩期间仅使用数据集
Figure BDA0001352839700000095
Figure BDA0001352839700000096
的知识来重构分配。
有利地,该分配操作还提供分配矢量
Figure BDA0001352839700000097
其元素γo(k)(o=1,...,D-NDIR,ACT(k-2))标记环境分量的另外D-NDIR,ACT(k-2)个HOA系数序列中的每一个的索引。换句话说,分配矢量γ(k)的元素提供关于环境HOA分量的另外的O-ORED个HOA系数序列中的哪些被分配到具有不活动的定向信号的D-NDIR,ACT(k-2)个信道中的信息。该矢量可以另外地传输,但是相比于按照帧速率不太频繁,以便允许初始化针对HOA解压缩而执行的重新分布过程(参看部分B)。感知编码步骤/阶段17对于帧Y(k-2)的I个信道进行编码,并且输出经编码的帧
Figure BDA0001352839700000098
对于没有从步骤/阶段16传输矢量γ(k)的帧,在解压缩侧,代替矢量γ(k),使用数据参数集
Figure BDA0001352839700000099
Figure BDA00013528397000000910
来执行重新分布。
A.1支配声源方向的估计
在图2中更详细地图示图1的支配声源方向的估计步骤/阶段13。其基本上根据EP13305156.5来执行,但是具有决定性的差异,即确定与要从给定的HOA表示中提取的定向信号的数量相对应的支配声源的数量的方式。这个数量是重要的,因为它用于控制给定的HOA表示是通过使用更多的定向信号还是代替地通过使用更多的HOA系数序列来更好地表示,以对环境HOA分量更好地建模。
支配声源方向的估计在步骤或阶段21中开始,使用输入的HOA系数序列的长帧
Figure BDA00013528397000000911
对支配声源方向进行初步检索。与初步的方向估计
Figure BDA00013528397000000912
(1≤d≤D)一起,如在EP13305156.5中所描述的那样地计算应当由各个声源创建的对应定向信号
Figure BDA0001352839700000101
和HOA声场分量
Figure BDA0001352839700000102
在步骤或阶段22中,使用这些量以及输入的HOA系数序列的帧
Figure BDA0001352839700000103
来确定要提取的定向信号的数量
Figure BDA0001352839700000104
因此,丢弃方向估计
Figure BDA0001352839700000105
对应的定向信号
Figure BDA0001352839700000106
以及HOA声场分量
Figure BDA0001352839700000107
代替地,然后仅将方向估计
Figure BDA0001352839700000108
分配给先前发现的声源。
在步骤或阶段23中,根据声源运动模型来平滑得到的方向轨迹,并且确定声源中的哪些应当是活动的(参看EP 13305156.5)。最后的操作提供活动的定向声源的索引的集合
Figure BDA0001352839700000109
和对应的方向估计的集合
Figure BDA00013528397000001010
A.2被提取的定向信号的数量的确定
为了在步骤/阶段22中确定定向信号的数量,假设存在将被用于捕捉在感知上最相关的声场信息的给定总量的I个信道的情况。因此,确定要提取的定向信号的数量,由如下问题激发:对于整体的HOA压缩/解压缩质量,当前的HOA表示是通过使用更多的定向信号还是更多的HOA系数序列来更好地表示以对环境HOA分量更好地建模。
为了在步骤/阶段22中导出用于确定要提取的定向声源的数量的标准(该标准与人类感知相关),考虑具体通过下面的两个运算来实现HOA压缩:
-用于表示环境HOA分量的HOA系数序列的减少(这意味着相关信道的数量的减少);
-定向信号的感知编码以及用于表示环境HOA分量的HOA系数序列的感知编码。
取决于所提取的定向信号的数量M(0≤M≤D),第一个运算近似地得到
Figure BDA00013528397000001011
Figure BDA00013528397000001012
其中
Figure BDA00013528397000001013
标记包括应当由M个单独考虑的声源创建的HOA声场分量
Figure BDA00013528397000001014
(1≤d≤M)的定向分量的HOA表示,并且
Figure BDA00013528397000001015
标记具有仅I-M个非零HOA系数序列的环境分量的HOA表示。
来自第二个运算的近似可以表示为:
Figure BDA0001352839700000111
Figure BDA0001352839700000112
其中
Figure BDA0001352839700000113
Figure BDA0001352839700000114
分别标记在感知解码之后组成的定向和环境HOA分量。
标准的公式化
要提取的定向信号的数量
Figure BDA0001352839700000115
被选择为使得总的近似误差
Figure BDA0001352839700000116
其中
Figure BDA0001352839700000117
关于人类感知尽可能地不显著。为了保证这一点,在预先定义的数量Q个测试方向Ωq(q=1,...,Q)上考虑各个巴克标度(Bark scale)临界带的总误差的定向功率分布,其在单位球面上几乎均匀地分布。更具体地,第b个(b=1,...,B)临界带的定向功率分布由下面的矢量表示:
Figure BDA0001352839700000118
其分量
Figure BDA0001352839700000119
标记与方向Ωq、第b个巴克标度临界带和第k帧相关的总误差
Figure BDA00013528397000001110
的功率。总误差
Figure BDA00013528397000001111
的定向功率分布
Figure BDA00013528397000001112
与下面的由于原始HOA表示
Figure BDA00013528397000001113
的定向感知掩蔽功率分布进行比较:
Figure BDA00013528397000001114
接下来,对于每个测试方向Ωq和临界带b,计算总误差的感知级别
Figure BDA00013528397000001115
其在这里基本上被定义为总误差
Figure BDA00013528397000001116
的定向功率与根据下式的定向掩蔽功率的比例:
Figure BDA00013528397000001117
执行′1′与相继最大值运算的减法以确保感知级别为零,只要误差功率低于掩蔽阈值。
最后,可以将要提取的定向信号的数量
Figure BDA00013528397000001118
选择为最小化所有临界带上的误差感知级别的最大值的所有测试方向上的平均值,亦即
Figure BDA00013528397000001119
应当注意,替代地,能够在等式(15)中用平均运算替换最大值。
定向感知掩蔽功率分布的计算
为了计算由于原始HOA表示
Figure BDA0001352839700000121
的定向感知掩蔽功率分布
Figure BDA0001352839700000122
将后者变换到空间域,以便由从测试方向Ωq(q=1,...,Q)碰撞的一般平面波
Figure BDA0001352839700000123
表示。当以矩阵
Figure BDA0001352839700000124
布置一般平面波信号
Figure BDA0001352839700000125
如下时
Figure BDA0001352839700000126
到空间域的变换由下面的运算来表达
Figure BDA0001352839700000127
其中Ξ标记关于测试方向Ωq(q=1,...,Q)的模式矩阵,被定义为
Figure BDA0001352839700000128
其中Sq:=
Figure BDA0001352839700000129
由于原始HOA表示
Figure BDA00013528397000001210
定向感知掩蔽功率分布
Figure BDA00013528397000001211
的每个元素
Figure BDA00013528397000001212
对应于各个临界带b的一般平面波函数
Figure BDA00013528397000001213
的掩蔽功率。
定向功率分布的计算
下面,给出用于计算定向功率分布
Figure BDA00013528397000001214
的两个替代:
a.一种可能性是通过计算在部分A.2的开始提及的两个运算来实际地计算期望的HOA表示
Figure BDA00013528397000001215
的近似
Figure BDA00013528397000001216
然后,根据等式(11)来计算总的近似误差
Figure BDA00013528397000001217
接下来,将总的近似误差
Figure BDA00013528397000001218
变换到空间域,以便由从测试方向Ωq(q=1,...,Q)碰撞的一般平面波
Figure BDA00013528397000001219
表示。以矩阵
Figure BDA00013528397000001220
将一般平面波信号布置为
Figure BDA00013528397000001221
到空间域的变换由下面的运算表示:
Figure BDA0001352839700000131
通过计算各个临界带b内的一般平面波函数
Figure BDA0001352839700000132
(q=1,...,Q)的功率来获得总的近似误差
Figure BDA0001352839700000133
的定向功率分布
Figure BDA0001352839700000134
的元素
Figure BDA0001352839700000135
b.替代的解决方案是仅计算近似值
Figure BDA0001352839700000136
而不是
Figure BDA0001352839700000137
该方法提供如下优点:不需要直接执行各个信号的复杂的感知编码。代替地,知道各个巴克标度临界带内的感知量化误差的功率就足够了。为此目的,在等式(11)中定义的总的近似误差可以被写作三个下面的近似误差的总和:
Figure BDA0001352839700000138
Figure BDA0001352839700000139
Figure BDA00013528397000001310
可以假设它们彼此独立。由于这种独立性,总误差
Figure BDA00013528397000001311
的定向功率分布可以表达为三个各个误差
Figure BDA00013528397000001312
Figure BDA00013528397000001313
的定向功率分布的总和。
下面描述如何计算各个巴克标度临界带的三个误差的定向功率分布:
a.为了计算误差
Figure BDA00013528397000001314
的定向功率分布,首先通过下式将其变换到空间域:
Figure BDA00013528397000001315
其中近似误差
Figure BDA00013528397000001316
因此由从测试方向Ωq(q=1,...,Q)碰撞的一般平面波
Figure BDA00013528397000001317
表示,其根据下式布置为矩阵
Figure BDA00013528397000001318
Figure BDA00013528397000001319
因此,通过计算各个临界带b内的一般平面波函数
Figure BDA00013528397000001320
(q=1,...,Q)的功率来获得近似误差
Figure BDA00013528397000001321
的定向功率分布
Figure BDA00013528397000001322
的元素
Figure BDA00013528397000001323
b.为了计算误差
Figure BDA00013528397000001324
的定向功率分布
Figure BDA00013528397000001325
考虑到该误差通过对定向信号
Figure BDA00013528397000001326
(1≤d≤M)进行感知编码而被引入到定向HOA分量
Figure BDA0001352839700000141
中。另外,考虑定向HOA分量由等式(8)给出。于是,为了简单,假设HOA分量
Figure BDA0001352839700000142
在空间域中由O个一般平面波函数
Figure BDA0001352839700000143
等同地表示,其通过仅仅缩放根据定向信号
Figure BDA0001352839700000144
来创建,亦即
Figure BDA0001352839700000145
其中
Figure BDA0001352839700000146
(o=1,...,O)标记缩放参数。假设各自的平面波方向
Figure BDA0001352839700000147
(o=1,...,O)在单位球面上均匀分布,并且被旋转使得
Figure BDA0001352839700000148
对应于方向估计
Figure BDA0001352839700000149
因此,缩放参数
Figure BDA00013528397000001410
等于′1′。
当关于旋转的方向
Figure BDA00013528397000001411
(o=1,...,O)将
Figure BDA00013528397000001412
定义为模式矩阵并且根据下式以矢量来布置所有缩放参数
Figure BDA00013528397000001413
时:
Figure BDA00013528397000001414
HOA分量
Figure BDA00013528397000001415
可以写作:
Figure BDA00013528397000001416
因此,真实的定向HOA分量
Figure BDA00013528397000001417
与按照
Figure BDA00013528397000001418
Figure BDA00013528397000001419
由经感知解码的定向信号
Figure BDA00013528397000001420
(d=1,...,M)组成的定向HOA分量之间的误差
Figure BDA00013528397000001421
(参见等式(23))可以按照各个定向信号中的如下感知编码误差
Figure BDA00013528397000001422
而表示为
Figure BDA00013528397000001423
空间域中关于测试方向Ωq(q=1,...,Q)的误差
Figure BDA00013528397000001424
的表示由下式给出
Figure BDA00013528397000001425
Figure BDA0001352839700000151
(q=1,...,Q)标记矢量β(d)(k)的元素,并且假设各个感知编码误差
Figure BDA0001352839700000152
(d=1,...,M)彼此独立,根据等式(35)得出,感知编码误差
Figure BDA0001352839700000153
的定向功率分布
Figure BDA0001352839700000154
的元素
Figure BDA0001352839700000155
由下式计算
Figure BDA0001352839700000156
Figure BDA0001352839700000157
应当表示定向信号
Figure BDA0001352839700000158
中的第b个临界带内的感知量化误差的功率。可以假设该功率对应于定向信号
Figure BDA0001352839700000159
的感知掩蔽功率。
c.为了计算由环境HOA分量的HOA系数序列的感知编码造成的误差
Figure BDA00013528397000001510
的定向功率分布
Figure BDA00013528397000001511
假设每个HOA系数序列被独立地编码。因此,可以假设被引入到每个巴克标度临界带内的各个HOA系数序列中的误差是不相关的。这意味着关于每个巴克标度临界带的误差
Figure BDA00013528397000001512
的系数间相关矩阵是对角线的,亦即
Figure BDA00013528397000001513
Figure BDA00013528397000001514
元素
Figure BDA00013528397000001515
(o=1,...,O)应当表示
Figure BDA00013528397000001516
中的第o个经编码的HOA系数序列中的第b个临界带内的感知量化误差的功率。可以假设它们对应于第o个HOA系数序列
Figure BDA00013528397000001517
的感知掩蔽功率。因此,感知编码误差
Figure BDA00013528397000001518
的定向功率分布通过下式计算
Figure BDA00013528397000001519
B.改进的HOA解压缩
对应的HOA解压缩处理在图3中图示并且包括下面的步骤或阶段。
在步骤或阶段31中,执行对
Figure BDA00013528397000001520
中包含的I个信号的感知解码以便获得
Figure BDA00013528397000001521
中的I个经解码的信号。
在信号重新分布步骤或阶段32中,重新分布
Figure BDA00013528397000001522
中的经感知解码的信号,以便重新创建定向信号的帧
Figure BDA00013528397000001523
和环境HOA分量的帧
Figure BDA00013528397000001524
通过使用索引数据集
Figure BDA00013528397000001525
Figure BDA00013528397000001526
再现对HOA压缩执行的分配操作,获得关于如何重新分布信号的信息。因为这是递归的过程(参看部分A),所以可以使用另外传输的分配矢量γ(k),以便允许例如在传输发生故障的情况下初始化重新分布过程。
在组成步骤或阶段33中,使用定向信号的帧
Figure BDA00013528397000001527
活动的定向信号索引的集合
Figure BDA00013528397000001528
以及对应方向的集合
Figure BDA00013528397000001529
用于根据定向信号来预测HOA表示的部分的参数ζ(k-2)以及减少的环境HOA分量的HOA系数序列的帧
Figure BDA0001352839700000161
根据结合EP12306569.0的图2b和图4描述的处理,重新组成期望的总的HOA表示的当前帧
Figure BDA0001352839700000162
Figure BDA0001352839700000163
对应于EP12306569.0中的分量
Figure BDA0001352839700000164
并且
Figure BDA0001352839700000165
Figure BDA0001352839700000166
对应于EP12306569.0中的
Figure BDA0001352839700000167
其中活动的定向信号索引在
Figure BDA0001352839700000168
的矩阵元素中标明。亦即,根据定向信号
Figure BDA0001352839700000169
来预测关于均匀分布的方向的定向信号,其中使用用于这样的预测的所接收的参数(ζ(k-2)),并且此后从定向信号的帧
Figure BDA00013528397000001610
预测部分以及减少的环境HOA分量
Figure BDA00013528397000001611
重新组成当前的经解压缩的帧
Figure BDA00013528397000001612
C.更高阶高保真度立体声响复制的基础
更高阶高保真度立体声响复制(HOA)基于补充假设为没有声源的所关注的紧密区域(compact area)内的声场的描述。在该情况下,在所关注的区域内、在时间t时和位置x处的声压p(t,x)的时空行为在物理上由齐性波等式(homogeneous wave equation)充分确定。下面,假设如图4中示出的球面坐标系。在使用的坐标系中,x轴指向前面位置,y轴指向左边并且z轴指向顶部。空间x=(r,θ,φ)T中的位置由半径r>0(亦即,到坐标原点的距离)、从极轴z测量的倾角θ∈[0,π]以及在x-y平面中从x轴逆时针地测量的方位角φ∈[0,2π[来表示。另外,(·)T标记转置。
可以示出(参看E.G.Williams,“Fourier Acoustics”,AppliedMathematicalSciences的93卷,Academic Press,1999年),由
Figure BDA00013528397000001613
标记的关于时间的声压的傅里叶变换,亦即
Figure BDA00013528397000001614
(其中ω标记角频率并且i指示虚数单位)可以根据下式来扩展成球谐函数的级数:
Figure BDA00013528397000001615
在等式(40)中,cs标记声速,并且k标记角波数(angular wave number),其按照
Figure BDA00013528397000001616
与角频率ω相关。另外,jn(·)标记第一类球贝塞尔函数(spherical Besselfunctions of the first kind),并且
Figure BDA00013528397000001617
标记阶n和度数m的实值球谐函数,其在下面的部分C.1中定义。扩展系数
Figure BDA00013528397000001618
仅取决于角波数k。在上文,已经隐含地假设声压在空间上是带限的(band limited)。因此,球谐函数的级数关于在被称作HOA表示的阶的上限N处的阶索引n而被截断。
如果声场由从角度元组(θ,φ)指定的所有可能方向到达的不同角频率ω的无限数量的平面谐波的叠加来表示,则可以示出(参看B.Rafaely,“Plane-wave Decompositionof the Sound Field on a Sphere by Spherical Convolution”,Journal of theAcoustical Society of America,第4卷(116),2149-2157页,2004年),各个平面波复数幅度函数C(ω,θ,φ)可以由下面的球谐函数扩展来表示
Figure BDA0001352839700000171
其中扩展系数
Figure BDA0001352839700000172
按照
Figure BDA0001352839700000173
与扩展系数
Figure BDA0001352839700000174
相关。
假设各个系数
Figure BDA0001352839700000175
是角频率ω的函数,逆傅里叶变换(由
Figure BDA0001352839700000176
标记)的应用针对每个阶n和度数m提供时域函数
Figure BDA0001352839700000177
其可以按照
Figure BDA0001352839700000178
Figure BDA0001352839700000179
收集在单个矢量c(t)中。矢量c(t)内的时域函数
Figure BDA00013528397000001710
的位置索引由n(n+1)+1+m给出。矢量c(t)中元素的总数量由O=(N+1)2给出。
最终的高保真度立体声响复制格式将使用采样频率fs的c(t)的采样版本提供为
Figure BDA00013528397000001711
其中Ts=1/fs标记采样周期。c(lTs)的元素在这里被称作高保真度立体声响复制系数。时序信号
Figure BDA00013528397000001712
是实值的,并且因此高保真度立体声响复制系数是实值的。
C.1实值球谐函数的定义
实值的球谐函数
Figure BDA00013528397000001713
Figure BDA00013528397000001714
给出,其中
Figure BDA0001352839700000181
相关联的勒让德函数(Legendre functions)Pn,m(x)使用勒让德多项式Pn(x)定义为
Figure BDA0001352839700000182
并且不像上面提及的Williams的文章,没有康登-肖特莱相位项(Condon-Shortley phase term)(-1)m
C.2更高阶高保真度立体声响复制的空间分辨率
从方向Ω0=(θ0,φ0)T到达的一般平面波函数x(t)在HOA中由下式表示
Figure BDA0001352839700000183
平面波幅度
Figure BDA0001352839700000184
的对应空间密度由下式给出
Figure BDA0001352839700000185
从等式(51)中可以看出,其是一般平面波函数x(t)与空间分散函数vN(Θ)的乘积,其可以显示为仅取决于Ω与Ω0之间的角度Θ,具有如下性质
cosΘ=cosθcosθ0+cos(φ-φ0)sinθsinθ0. (52)
如预期的那样,在无限阶的极限下,亦即N→∞,空间分散函数变成狄拉克德尔塔(Dirac delta)δ(·),亦即
Figure BDA0001352839700000186
然而,在有限阶N的情况下,来自方向Ω0的一般平面波的贡献被抹去到邻近方向,其中模糊的程度随着增加的阶而减小。在图5中示出N的不同值的规一化函数vN(Θ)的图表。
应当指出,对于任何方向Ω,平面波幅度的空间密度的时域行为是它在任何其他方向上的行为的倍数。特别地,一些固定的方向Ω1和Ω2的函数c(t,Ω1)和c(t,Ω2)关于时间t彼此高度相关。
C.3球谐函数变换
如果平面波幅度的空间密度在几乎均匀分布在单位球面上的数量O个空间方向Ωo(1≤o≤O)上是离散的,则获得O个定向信号c(t,Ωo)。通过使用等式(50)将这些信号收集到矢量中,作为
cSPAT(t):=[c(t,Ω1)...c(t,ΩO)]T, (54),
可以验证可以通过简单的矩阵乘法根据在等式(44)中定义的连续的高保真度立体声响复制表示d(t)将该矢量计算为
cSPAT(t)=ΨHc(t), (55)
其中(·)H指示联合点转置和结合(joint transposition and conjugation),并且Ψ标记由下式定义的模式矩阵
Ψ:=[S1 .... SO] (56)
其中
Figure BDA0001352839700000191
因为方向Ωo几乎均匀分布在单位球面上,所以模式矩阵一般是可逆的。因此,可以按照下式根据定向信号c(t,Ωo)来计算连续的高保真度立体声响复制表示
c(t)=Ψ-HcSPAT(t). (58)
两个等式构成高保真度立体声响复制表示与空间域之间的变换和逆变换。这些变换在这里被称作球谐函数变换和逆球谐函数变换。
应当注意,因为方向Ωo几乎均匀分布在单位球面上,近似
ΨH≈Ψ-1 (59)
是可用的,这证明在等式(55)中使用Ψ-1来替代ΨH是正当的。
有利地,所有所提及的关系对于离散的时域也是有效的。
本发明的处理可以由单个处理器或电子电路或者由并行操作和/或在本发明的处理的几个部分上操作的若干处理器或电子电路来执行。

Claims (4)

1.一种对压缩的更高阶高保真度立体声响复制表示进行解压缩的方法,所述解压缩包括:
-对当前的经编码的压缩帧进行感知解码,以便提供信道的经感知解码的帧;
-基于分配矢量重新分布信道的所述经感知解码的帧,所述分配矢量至少指示包含的环境HOA分量的系数序列的索引以及定向信号的索引的数据集,以便确定环境HOA分量的对应帧;
-基于检测到的定向信号的索引的数据集以及支配方向估计的集合,从定向信号的重新创建的帧以及从环境HOA分量的重新创建的帧,重新组成HOA表示的当前经解压缩的帧,
其中,根据所述定向信号预测关于均匀分布的方向的定向信号,此后,从定向信号的重新创建的帧、所述预测的信号以及所述环境HOA分量重新组成所述当前经解压缩的帧,
其中,关于均匀分布的方向的定向信号的所述预测使用用于所述预测的所接收到的参数根据所述定向信号来执行。
2.一种对更高阶高保真度立体声响复制表示进行解压缩的装置,所述装置包括:
-适于对当前的经编码的压缩帧进行感知解码以便提供信道的经感知解码的帧的部件;
-适于进行如下处理的部件:基于分配矢量重新分布信道的所述经感知解码的帧,所述分配矢量至少指示包含的环境HOA分量的系数序列的索引以及定向信号的索引的数据集,以便确定环境HOA分量的对应帧;
-适于进行如下处理的部件:基于检测到的定向信号的索引的数据集以及支配方向估计的集合,从定向信号的重新创建的帧以及从环境HOA分量的重新创建的帧,重新组成HOA表示的当前经解压缩的帧,
其中,根据所述定向信号预测关于均匀分布的方向的定向信号,此后,从定向信号的重新创建的帧、所述预测的信号以及所述环境HOA分量重新组成所述当前经解压缩的帧,
其中,关于均匀分布的方向的定向信号的所述预测使用用于所述预测的所接收到的参数根据所述定向信号来执行。
3.一种对压缩的更高阶高保真度立体声响复制表示进行解压缩的设备,包括:
一个或多个处理器,以及
一个或多个存储介质,存储有指令,所述指令在被所述一个或多个处理器执行时使得执行根据权利要求1所述的方法。
4.一种存储介质,存储有可执行指令,所述可执行指令在被处理器执行时使得执行根据权利要求1所述的方法。
CN201710583292.XA 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置 Active CN107180639B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP13305558.2 2013-04-29
EP13305558.2A EP2800401A1 (en) 2013-04-29 2013-04-29 Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
CN201480023877.0A CN105144752B (zh) 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201480023877.0A Division CN105144752B (zh) 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置

Publications (2)

Publication Number Publication Date
CN107180639A CN107180639A (zh) 2017-09-19
CN107180639B true CN107180639B (zh) 2021-01-05

Family

ID=48607176

Family Applications (5)

Application Number Title Priority Date Filing Date
CN201710583301.5A Active CN107293304B (zh) 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置
CN201710583285.XA Active CN107146626B (zh) 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置
CN201480023877.0A Active CN105144752B (zh) 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置
CN201710583291.5A Active CN107146627B (zh) 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置
CN201710583292.XA Active CN107180639B (zh) 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置

Family Applications Before (4)

Application Number Title Priority Date Filing Date
CN201710583301.5A Active CN107293304B (zh) 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置
CN201710583285.XA Active CN107146626B (zh) 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置
CN201480023877.0A Active CN105144752B (zh) 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置
CN201710583291.5A Active CN107146627B (zh) 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置

Country Status (10)

Country Link
US (9) US9736607B2 (zh)
EP (6) EP2800401A1 (zh)
JP (7) JP6395811B2 (zh)
KR (5) KR102232486B1 (zh)
CN (5) CN107293304B (zh)
CA (8) CA3168916A1 (zh)
MX (5) MX347283B (zh)
MY (2) MY176454A (zh)
RU (1) RU2668060C2 (zh)
WO (1) WO2014177455A1 (zh)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2743922A1 (en) 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
US9412385B2 (en) * 2013-05-28 2016-08-09 Qualcomm Incorporated Performing spatial masking with respect to spherical harmonic coefficients
US9716959B2 (en) 2013-05-29 2017-07-25 Qualcomm Incorporated Compensating for error in decomposed representations of sound fields
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
EP2824661A1 (en) 2013-07-11 2015-01-14 Thomson Licensing Method and Apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals
US9922656B2 (en) * 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9489955B2 (en) 2014-01-30 2016-11-08 Qualcomm Incorporated Indicating frame parameter reusability for coding vectors
KR101846484B1 (ko) 2014-03-21 2018-04-10 돌비 인터네셔널 에이비 고차 앰비소닉스(hoa) 신호를 압축하는 방법, 압축된 hoa 신호를 압축 해제하는 방법, hoa 신호를 압축하기 위한 장치, 및 압축된 hoa 신호를 압축 해제하기 위한 장치
CN117253494A (zh) 2014-03-21 2023-12-19 杜比国际公司 用于对压缩的hoa信号进行解码的方法、装置和存储介质
EP2922057A1 (en) 2014-03-21 2015-09-23 Thomson Licensing Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
CN110415712B (zh) 2014-06-27 2023-12-12 杜比国际公司 用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法
EP2960903A1 (en) 2014-06-27 2015-12-30 Thomson Licensing Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values
KR102410307B1 (ko) 2014-06-27 2022-06-20 돌비 인터네셔널 에이비 Hoa 데이터 프레임 표현의 데이터 프레임들 중 특정 데이터 프레임들의 채널 신호들과 연관된 비차분 이득 값들을 포함하는 코딩된 hoa 데이터 프레임 표현
EP3161821B1 (en) 2014-06-27 2018-09-26 Dolby International AB Method for determining for the compression of an hoa data frame representation a lowest integer number of bits required for representing non-differential gain values
US9794714B2 (en) 2014-07-02 2017-10-17 Dolby Laboratories Licensing Corporation Method and apparatus for decoding a compressed HOA representation, and method and apparatus for encoding a compressed HOA representation
EP3164866A1 (en) 2014-07-02 2017-05-10 Dolby International AB Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a hoa signal representation
WO2016001355A1 (en) 2014-07-02 2016-01-07 Thomson Licensing Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a hoa signal representation
EP2963949A1 (en) 2014-07-02 2016-01-06 Thomson Licensing Method and apparatus for decoding a compressed HOA representation, and method and apparatus for encoding a compressed HOA representation
EP2963948A1 (en) 2014-07-02 2016-01-06 Thomson Licensing Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a HOA signal representation
US9736606B2 (en) * 2014-08-01 2017-08-15 Qualcomm Incorporated Editing of higher-order ambisonic audio data
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
EP3007167A1 (en) 2014-10-10 2016-04-13 Thomson Licensing Method and apparatus for low bit rate compression of a Higher Order Ambisonics HOA signal representation of a sound field
US10468037B2 (en) 2015-07-30 2019-11-05 Dolby Laboratories Licensing Corporation Method and apparatus for generating from an HOA signal representation a mezzanine HOA signal representation
US12087311B2 (en) 2015-07-30 2024-09-10 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding an HOA representation
US10257632B2 (en) 2015-08-31 2019-04-09 Dolby Laboratories Licensing Corporation Method for frame-wise combined decoding and rendering of a compressed HOA signal and apparatus for frame-wise combined decoding and rendering of a compressed HOA signal
US9881628B2 (en) * 2016-01-05 2018-01-30 Qualcomm Incorporated Mixed domain coding of audio
KR102063307B1 (ko) 2016-03-15 2020-01-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 음장 기술을 생성하기 위한 장치, 방법, 또는 컴퓨터 프로그램
US10332530B2 (en) 2017-01-27 2019-06-25 Google Llc Coding of a soundfield representation
JP6811312B2 (ja) * 2017-05-01 2021-01-13 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 符号化装置及び符号化方法
US10405126B2 (en) * 2017-06-30 2019-09-03 Qualcomm Incorporated Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems
EP3818730A4 (en) * 2018-07-03 2022-08-31 Nokia Technologies Oy SIGNALING AND ENERGY REPORT SUMMARY
CN110113119A (zh) * 2019-04-26 2019-08-09 国家无线电监测中心 一种基于人工智能算法的无线信道建模方法
CN114582357A (zh) * 2020-11-30 2022-06-03 华为技术有限公司 一种音频编解码方法和装置
US11743670B2 (en) 2020-12-18 2023-08-29 Qualcomm Incorporated Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications
CN115938388A (zh) * 2021-05-31 2023-04-07 华为技术有限公司 一种三维音频信号的处理方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5757927A (en) * 1992-03-02 1998-05-26 Trifield Productions Ltd. Surround sound apparatus
US6628787B1 (en) * 1998-03-31 2003-09-30 Lake Technology Ltd Wavelet conversion of 3-D audio signals
CN1477490A (zh) * 2002-05-14 2004-02-25 陈长城 一种新型可用于电脑输入的多自由度信号输入装置
JP3700254B2 (ja) * 1996-05-31 2005-09-28 日本ビクター株式会社 映像音声再生装置
EP1841284A1 (en) * 2006-03-29 2007-10-03 Phonak AG Hearing instrument for storing encoded audio data, method of operating and manufacturing thereof
CN102396024A (zh) * 2009-02-16 2012-03-28 韩国电子通信研究院 使用自适应正弦波脉冲编码的用于音频信号的编码/解码方法及其设备
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US6931370B1 (en) * 1999-11-02 2005-08-16 Digital Theater Systems, Inc. System and method for providing interactive audio in a multi-channel audio environment
CA2443837C (en) * 2001-04-13 2012-06-19 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
AUPR647501A0 (en) * 2001-07-19 2001-08-09 Vast Audio Pty Ltd Recording a three dimensional auditory scene and reproducing it for the individual listener
US7752052B2 (en) * 2002-04-26 2010-07-06 Panasonic Corporation Scalable coder and decoder performing amplitude flattening for error spectrum estimation
CN1677490A (zh) 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
US8370134B2 (en) * 2006-03-15 2013-02-05 France Telecom Device and method for encoding by principal component analysis a multichannel audio signal
EP2094032A1 (en) * 2008-02-19 2009-08-26 Deutsche Thomson OHG Audio signal, method and apparatus for encoding or transmitting the same and method and apparatus for processing the same
EP2205007B1 (en) * 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
PT2553947E (pt) * 2010-03-26 2014-06-24 Thomson Licensing Método e dispositivo para descodificar uma representação de um campo sonoro de áudio para a reprodução de áudio
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
EP2665208A1 (en) 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
CN102903366A (zh) * 2012-09-18 2013-01-30 重庆大学 一种基于g729语音压缩编码算法的dsp优化方法
EP2743922A1 (en) 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
EP2765791A1 (en) 2013-02-08 2014-08-13 Thomson Licensing Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5757927A (en) * 1992-03-02 1998-05-26 Trifield Productions Ltd. Surround sound apparatus
JP3700254B2 (ja) * 1996-05-31 2005-09-28 日本ビクター株式会社 映像音声再生装置
US6628787B1 (en) * 1998-03-31 2003-09-30 Lake Technology Ltd Wavelet conversion of 3-D audio signals
CN1477490A (zh) * 2002-05-14 2004-02-25 陈长城 一种新型可用于电脑输入的多自由度信号输入装置
EP1841284A1 (en) * 2006-03-29 2007-10-03 Phonak AG Hearing instrument for storing encoded audio data, method of operating and manufacturing thereof
CN102396024A (zh) * 2009-02-16 2012-03-28 韩国电子通信研究院 使用自适应正弦波脉冲编码的用于音频信号的编码/解码方法及其设备
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
JP2012133366A (ja) * 2010-12-21 2012-07-12 Thomson Licensing 二次元または三次元音場のアンビソニックス表現の一連のフレームをエンコードおよびデコードする方法および装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Optimal Higher Order Ambisonics Encoding With Predefined Constraints";Haohai Sun 等;《IEEE Transaction On Audio,Speech And Language Processing》;20120301;第3卷(第2期);第742-754页 *
"Spatial redundancy in Higher Order Ambisonics and its use for lowdelay lossless compression";Erik Hellerud 等;《 2009 IEEE International Conference on Acoustics, Speech and Signal Processing》;20090526;第269-272页 *
"音频感知编码模型及关键技术的研究";李琳;《CNKI中国博士学位论文全文数据库信息科技辑》;20090615;第I136-11页 *

Also Published As

Publication number Publication date
EP3926984B1 (en) 2024-10-02
CA3168921A1 (en) 2014-11-06
CN107146627A (zh) 2017-09-08
JP6395811B2 (ja) 2018-09-26
CN105144752B (zh) 2017-08-08
KR102440104B1 (ko) 2022-09-05
CN107146626A (zh) 2017-09-08
KR20220039846A (ko) 2022-03-29
KR20240096662A (ko) 2024-06-26
CA3168901A1 (en) 2014-11-06
CA3110057A1 (en) 2014-11-06
MX2022012179A (es) 2022-10-27
MX2020002786A (es) 2020-07-22
US11895477B2 (en) 2024-02-06
CN105144752A (zh) 2015-12-09
CA3168916A1 (en) 2014-11-06
CA3190353A1 (en) 2014-11-06
US20190297443A1 (en) 2019-09-26
WO2014177455A1 (en) 2014-11-06
US10264382B2 (en) 2019-04-16
US10999688B2 (en) 2021-05-04
EP2992689A1 (en) 2016-03-09
US20160088415A1 (en) 2016-03-24
KR102377798B1 (ko) 2022-03-23
KR20160002846A (ko) 2016-01-08
JP7270788B2 (ja) 2023-05-10
US11758344B2 (en) 2023-09-12
CN107293304A (zh) 2017-10-24
US20210337334A1 (en) 2021-10-28
JP2019008309A (ja) 2019-01-17
RU2668060C2 (ru) 2018-09-25
EP3598779A1 (en) 2020-01-22
CA3110057C (en) 2023-04-04
JP2021060614A (ja) 2021-04-15
US20180146315A1 (en) 2018-05-24
EP3598779B1 (en) 2021-08-18
JP7023342B2 (ja) 2022-02-21
MX2015015016A (es) 2016-03-09
JP2020024445A (ja) 2020-02-13
US9913063B2 (en) 2018-03-06
MY176454A (en) 2020-08-10
JP6818838B2 (ja) 2021-01-20
CN107146627B (zh) 2020-10-30
JP2022058929A (ja) 2022-04-12
US20200304931A1 (en) 2020-09-24
CA2907595C (en) 2021-04-13
KR20220124297A (ko) 2022-09-13
CA2907595A1 (en) 2014-11-06
US11284210B2 (en) 2022-03-22
RU2015150988A (ru) 2017-06-07
US20220217489A1 (en) 2022-07-07
CN107146626B (zh) 2020-09-08
KR102672762B1 (ko) 2024-06-07
KR102232486B1 (ko) 2021-03-29
CA3190346A1 (en) 2014-11-06
JP2016520864A (ja) 2016-07-14
CN107180639A (zh) 2017-09-19
MX2022012186A (es) 2022-10-27
US10623878B2 (en) 2020-04-14
KR20210034685A (ko) 2021-03-30
RU2018133016A (ru) 2018-10-02
JP2024123190A (ja) 2024-09-10
US20240259743A1 (en) 2024-08-01
RU2018133016A3 (zh) 2022-02-16
JP2023093681A (ja) 2023-07-04
EP3926984A1 (en) 2021-12-22
MY195690A (en) 2023-02-03
EP3232687A1 (en) 2017-10-18
EP4462430A2 (en) 2024-11-13
CN107293304B (zh) 2021-01-05
EP2992689B1 (en) 2017-05-10
MX2022012180A (es) 2022-10-27
JP7511707B2 (ja) 2024-07-05
US20170318406A1 (en) 2017-11-02
MX347283B (es) 2017-04-21
US20220225044A1 (en) 2022-07-14
CA3168906A1 (en) 2014-11-06
US9736607B2 (en) 2017-08-15
EP2800401A1 (en) 2014-11-05
EP3232687B1 (en) 2019-08-14
JP6606241B2 (ja) 2019-11-13

Similar Documents

Publication Publication Date Title
CN107180639B (zh) 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置
US11546712B2 (en) Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
RU2776307C2 (ru) Способ и устройство для сжатия и распаковки представления на основе амбиофонии высшего порядка

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1238788

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant