CN101981811B - 音频信号的自适应主体-环境分解 - Google Patents
音频信号的自适应主体-环境分解 Download PDFInfo
- Publication number
- CN101981811B CN101981811B CN2009801118084A CN200980111808A CN101981811B CN 101981811 B CN101981811 B CN 101981811B CN 2009801118084 A CN2009801118084 A CN 2009801118084A CN 200980111808 A CN200980111808 A CN 200980111808A CN 101981811 B CN101981811 B CN 101981811B
- Authority
- CN
- China
- Prior art keywords
- vector
- main body
- component
- signal
- environment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 46
- 238000000354 decomposition reaction Methods 0.000 title description 61
- 230000003044 adaptive effect Effects 0.000 title description 4
- 239000013598 vector Substances 0.000 claims abstract description 152
- 238000000513 principal component analysis Methods 0.000 claims abstract description 15
- 238000000034 method Methods 0.000 claims description 68
- 230000008901 benefit Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 abstract description 13
- 238000009795 derivation Methods 0.000 abstract description 2
- 230000001131 transforming effect Effects 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 16
- 238000004422 calculation algorithm Methods 0.000 description 14
- 238000012937 correction Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 239000000203 mixture Substances 0.000 description 6
- 230000001427 coherent effect Effects 0.000 description 5
- 238000013519 translation Methods 0.000 description 5
- 230000009977 dual effect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000000205 computational method Methods 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000005764 inhibitory process Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000012958 reprocessing Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 235000009508 confectionery Nutrition 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000004091 panning Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 206010064093 Suggestibility Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000012074 hearing test Methods 0.000 description 1
- 239000003112 inhibitor Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000007789 sealing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Stereophonic System (AREA)
- Stereo-Broadcasting Methods (AREA)
Abstract
通过将信号变换为对应于子带信号的向量以及采用矩阵和向量操作来将左声道向量和右声道向量分解成环境和主体组分,来处理立体声信号以确定主体组分和环境组分。主成分分析被用来确定主体组分单位向量,并且环境组分根据基于相关的淡入淡出或者正交基的获取来确定。
Description
相关申请的交叉引用
本申请要求2008年3月31日提交的编号为61/041,181(代理案卷CLIP300PRV)并且标题为“Adaptive Primary-Ambient Decomposition ofAudio Signals”的美国临时专利申请的权限,并且是2008年3月31日提交的编号为12/048,156(代理案卷CLIP189US)且标题为“Vector-SpaceMethods for Primary-Ambient Decomposition of Stereo Audio Signals”的美国专利申请的部分延续,其要求2007年3月13日提交的编号为60/894,650(代理案卷CLIP 189PRV)且标题为“Vector-Space Methods forPrimary-Ambient Decomposition of Stereo Audio Signals”的美国临时专利申请的权限,并且其是2007年5月17日提交的编号为11/750,300(代理案卷CLIP159US)且标题为“Spatial Audio Coding Based on Universal SpatialCues”美国专利申请,其要求2006年5月17日提交的编号为60/747,532(代理案卷CLIP159PRV)的美国临时专利申请的权限,其全部公开内容通过引用结合于此。
技术领域
本发明涉及音频信号处理技术。更具体地,本发明涉及用于将音频信号分解成主体组分和环境组分的方法。
背景技术
主体-环境分解算法将混响(以及扩散的,不聚焦的源)从立体声或者多声道音频信号的主相干源分离。这有益于音频增强(诸如增加或减少乐曲的“鲜明感(liveliness)”),上混(upmix)(例如,其中环境信息被用来产生合成环绕声信号(synthetic surround signals)),以及空间音频编码(其中对于主体信号内容和环境信号内容需要不同的方法)。
目前的方法通过把实值乘数应用到原始声道信号来确定每个音频声道的环境组分,使得产生的每个声道的主体组分和环境组分同相。遗憾的是,这些技术在音频重现中有时会导致假象。这些假象包括主体组分进入环境组分的“泄露”等。需要改进的主体-环境分解技术。
发明内容
本发明描述了如下技术:该技术可用于避免如相干源进入估计的环境组分的“泄露”这样的假象。本发明提供了用于将立体声音频信号或者多声道音频信号分解成主体组分和环境组分的方法。还描述了用于增强分解的后处理方法。
本发明提供了用于把立体声音频信号分成主体组分和环境组分的方法。根据一些实施例,执行了向量空间主体-环境分解。得到了主体组分和环境组分,使得主体组分和环境组分的和等于原始信号并且组分之间满足不同的预期的正交条件。在优选的实施例中,输入音频信号被过滤成子带;这些子带信号然后被作为向量处理并且利用向量空间方法被分解成主体组分和环境组分。这些实施例的优势是与先前描述的方法相比,要求更少的算法参数的调谐。
当前发明的实施例可以在时域音频信号上直接操作。然而,在优选的实施例中,进入的立体声音频信号首先被从时域表示变换为频域表示或者子带表示。用来变换到频域的一种方法,一般称为短时傅里叶变换(STFT),立体声信号的每个声道被窗口框起来以产生声音的帧或段,并且在窗口信号帧上执行傅里叶变换以产生每一帧中信号内容的频域表示。窗函数从集中于全部时域信号的当前处理中撤出而针对时域信号的短时区间。帧以固定的偏移量(称为间隔(hop size))隔开。间隔确定了帧之间的交叠。STFT的应用产生经变换的信号在多个频率点或子带上的分配。对每个信号窗口或帧,每个点包含该帧中的声道信号的幅度和相位值;分析每个具体点的时间序列(对应于先前的信号窗口的序列),以将针对当前时间的各个点的信号内容分离成主体组分和环境组分。这种主体组分和环境组分的比例分配基于向量空间操作。逆变换被应用于主体和环境信号内容以产生各个主体和环境时域信号。
在一些实施例中,各个声道信号被分解成主体组分和环境组分以满足经选择的正交约束。音频信号和信号组分被作为向量处理以使能向量和矩阵数学的应用以及便于说明不同实施例的操作的图示的使用。
根据不同的实施例,主要成分分析(PCA),其可以等同地被称为“主成分分析”(其中“成分”是单数),提供了新的封闭形式解以使得不要求迭代而得到主体组分和环境组分。优选地通过首先确定声道信号的相关矩阵的主要特征值,然后将对应的特征向量标识为主方向来建立主体组分的主方向。该主方向向量被认为是右声道和左声道向量的重量平均值。主体组分被认为是到主方向向量上的正交投影,并且环境组成被认为是相应的投影残差。得到的主体组分是完全相关的(在信号空间中共线)。得到的环境组分也是共线的但跨声道不正交。
本发明的一个方面提供了用于处理多声道音频信号以确定信号的主体组分和环境组分的方法。该方法包括:将多声道音频信号的每个声道变换为相应的子带向量,其中所述向量包括在相应子带中的声道信号行为的时间序列或历程;确定每个子带的主体组分单位向量;通过作声道子带向量到主体组分单位向量上的投影图,确定每个子带中每个音频声道的主体组分向量;将每个频率子带中的每个声道的环境组分向量确定为投影残差;以及调整主体向量和环境向量之间的差额以产生修正的主体组分和环境组分。
本发明的另一方面提供了一种用于处理多声道音频信号以确定所述信号的主体组分和环境组分的方法。该方法包括:将多声道音频信号的每个声道变换为相应的子带向量,其中所述向量包括在相应子带中的声道信号行为的时间序列或历程;在形成由相应的声道子带向量界定的信号子空间的正交基之后,确定每个子带中每个声道的环境单位向量;确定每个子带的主体组分单位向量;以及利用相应的环境单位向量和主体单位向量分解每个声道的子带向量。
下面将参考附图描述本发明的这些和其他特征和优势。
附图说明
图1是根据本发明的不同实施例用于主体-环境分解和后处理的方法的流程图。
图2是描述了根据本发明的一个实施例利用主成分分析的音频信号到主体组分和环境组分的分解的图示。
图3是根据本发明的一个实施例用于多声道音频信号的主体-环境分解的方法的流程图。
图4是根据本发明的一个实施例用于双声道音频的主体-环境分解的方法的流程图。
图5是描述了根据本发明的一个实施例向量空间分解的图示。
图6是描述了根据本发明的一个实施例利用信号自适应正交环境基音频信号以及由主成分分析得到的主体单位向量,音频信号到主体组分和环境组分的分解的图示。
具体实施方式
将详细介绍本发明的优选实施例。在附图中说明了优选实施例的示例。虽然将结合这些优选实施例描述本发明,但将理解,不希望将本发明限制于这些优选实施例。相反,希望覆盖可能包含在如所附的权利要求所界定的本发明的精神和范围内的替代,修改和等同物。在下面的描述中,阐述了很多具体细节,以提供对本发明的深入理解。可能在没有一些或所有这些具体细节的情况下实践本发明。在其他情况下,为避免不必要的模糊本发明,未详细描述众所周知的机制。
这里应该注意,在所有不同的附图中类似的编码指代类似的部件。这里说明和描述的不同的附图用来说明本发明的不同的特征。在此意义上,特定的特征在一个附图而不是另一个附图中描述,除了另外指明或者结构本质上禁止特征的结合的情况,可以理解那些特征可能适应于被包含在其他附图所表现的实施例中,如同他们在那些附图中被完全说明一样。除非另外指明,附图不必要测量。附图中提供的任何尺寸不希望限制本发明的范围而仅是说明性的。
本发明提供了改进的立体声音频信号或者多声道信号的主体-环境分集。提出的方法提供了比先前传统的方法更有效的主体-环境分解。
可以用很多方式使用本发明来处理音频信号。目标是将混合的音乐,例如双通道(立体声)信号,分成主体组分和环境组分。环境组分是指代表诸如混响和掌声之类的录音环境的自然背景音效。主体组分是指离散的,相干的源;例如,歌声可能构成主体信号。
音频信号的主体-环境分解有益于双声道到多声道的上混(stereo-to-multichannel upmix)。立体声扬声器再现格式包括左前方扬声器和右前方扬声器,然而标准多声道格式还包括正前方以及多个周围和后方的声道;双声道到多声道的上混是指如下任何处理:通过该处理,用于多声道再现的这些额外的声道的信号内容从输入的立体声信号产生。一般地,环境组分被用在双声道到多声道的上混中以合成环绕声信号,该环绕声信号将为听众产生增加的包络感(sense of envelopment)。主体组分一般用来产生中央声道(center-channel)内容以稳定正面音频形象(frontal audioimage)并扩大聆听甜蜜点(listening sweet spot)。中央声道合成的一种方法是识别仅中央对称的(center-panned)(即,两个输入声道中等重并且意图使其听起来像源自两个扬声器之间,如同典型的音乐曲目中的歌声)在原来的左声道和右声道的信号内容,以从左声道和右声道提取内容,然后将其重定向到中央声道;这种方法被称为中央声道提取(center-channelextraction)。另一种方法是识别针对所有两个输入声道中的内容的平移方向(panning direction),并且基于内容的平移方向改变内容的路线以使其由最近的扬声器对渲染:在原立体声中向左平移的内容在多声道装置中使用左前方和正前方的扬声器渲染;原来向右平移的内容在多声道装置中使用右前方和正前方的扬声器渲染(以及原向中央平移的内容使用中央扬声器渲染);这种方法被称为成对平移(pairwise panning)。
提供了向量主体-环境分解模型作为框架以得到改进的主体-环境信号分解。相比于以前的方法本发明的优点产生于信号模型的单位向量的选择(例如,如下所示(3)-(4))。本发明的实施例提供了针对单位向量的更有力的选择。单位向量更适合于输入信号的特征。
本发明的第一实施例,即修正的PCA主体-环境分解,提供了比以前的方法所描述的分解更适合于输入信号特征的分解。该方法通过利用下面描述的基于相关的淡入淡出(crossfade),产生了与PCA相比适于不相关或弱相关输入信号的改进的分解。
本发明的第二实施例,即“正交环境基展开”(“orthogonalambience basis expansion”)方法,从输入信号自适应地得到正交基,使得声道间的环境组分一直是正交的。结合由PCA得到的主体单位向量使用该基,以得到每个声道信号的主体-环境分解。该方法保留了适于高相关性信号的PCA方法的特性,同时改进了适于弱相关信号的性能。
本发明的实施例提供了改进的性能,例如,与先前的方法相比,主体组分进入估算环境的更少泄露。虽然不需要,但优选的实施例包括频域/子带(subband)实现方式。在优选实施例中,利用自相关和互相关/内积计算来计算分解。
数学基础
以下方程定义了在下面的分析方法中使用的参数之间的关系:
(自相关)
(自相关)
当信号被变换时(例如,用STFT),存在组分Xi[k,m]或者每个变换系数k和时间系数m;在STFT的情况下,系数m指示应用傅里叶变换的窗口的时间位置。对于每个给出的k,变换被作为时间上的向量处理,即,在给出的k处和m值的范围内的Xi[k,m]的样本被连接成向量表示。原则上,任何信号分解或者时频变换都可以用来产生这些子带向量。优选地时频表示被用于子带向量。然而,本发明的范围不限于此。可以使用其他形式的信号表示,包括但不限于信号的时域表示。向量长度是设计参数:向量可以是瞬时值(标量),在这种情况下,向量幅度对应于样本的绝对值;或者,向量可以具有静态或动态长度。替代地,向量和向量统计量可以由递归形成,在这种情况下,信号作为向量的处理在方法中不明显:这种情况下,信号向量不是明显地由连续样本的连接集合而成;而是(对于每个子带中的每个声道)仅需要当前的输入样本(结合递归计算关系)来计算当前的输出样本。相关领域的技术人员将认识到在没有信号向量的明确形式的情况下本发明的一些实施例可以用这种方式实现;这些实现在本发明的范围之内,其中向量空间方法被暗示性地使用。应该注意,递归形式,如在上面的滑动相关rLR中,有益于高效地内积计算(例如计算相关性所需要的内积计算),还有益于使能不要求信号向量的明确形式的实现方式。此外,应该注意,信号空间的正交向量等同于不相关的对应的时间序列。
图1是描述了根据本发明的一些实施例基于向量空间方法的主体-环境分解的流程图。处理开始于步骤101,其中接收了多声道音频信号。在步骤103,将每个声道信号转换为时频表示,在优选的实施例中使用STFT。虽然STFT是优选的,但本发明不限于这一方面。即,其他时频变换和表示的使用包括在本发明的范围内。在步骤105中,通过将子带声道信号的连续样本连接成向量,对于时域表示的每个声道和每个频带(frequency band)形成声道信号向量。这样,声道信号向量代表时频表示的频带或子带内的声道信号在时间上的演变。在步骤107中,利用诸如主成分分析或者相关的修改(例如,修正的PCA主体-环境分解;正交环境基展开)之类的向量空间方法,确定针对每个声道向量的主体组分向量。在步骤109中,每个声道向量的环境组分向量被确定为声道向量和主体组分向量之间的差,使得主体组分向量(在步骤107中所确定的)与环境组分向量(在步骤109中所确定的)的和等于原始的信号向量。数学上,该分解可表示为:
其中i是声道数,k是频率系数,m是时间系数,是输入声道向量,是主体组分向量,是环境组分向量。在步骤111中,主体和/或环境组分被选择性的修正;根据一些实施例,这些修正对应于被应用到主体组分和环境组分的增益。在步骤113中,潜在的修正组分被提供给渲染算法,其中包括频域组分到时域信号的变换。在一个实施例中,修正组分在不具有针对渲染算法的类型的任何特性的情况下,被提供给渲染算法。即,在该实施例中,本发明的范围希望配合任何适合的渲染算法。在一些情况下,渲染可能只是针对回放重新添加修正的主体组分和环境组分。在其他情况下,它可能针对不同的回放声道有差别地分配组分。
主体-环境信号分解
以最简单的形式,立体声信号的主体-环境分解可以表示为:
其中和是立体声信号的左声道和右声道,和是各自的主体组分,和是各自的环境组分。这里的向量和可以是原始的时域音频信号或者时频表示的子带信号,其中后一种情况一般是优选的,其中时频表示提供信号组分的一些分离或分解。给出了(1)-(2)的主体-环境信号模型,然后,任务是估计每个声道信号的主体组分和环境组分。模型估计中的总体思路是两个声道中的主体组分应该是高度相关的(除了主体源是重偏的(hard-panned),即,仅在声道中的一个声道中出现)以及两个声道中的环境部分应该是不相关的;而且,在单个声道内的主体组分和环境组分也应该是不相关的。
关于相关特性的这些假设来源于心理声学(其中关于扩散的观点是与双耳信号去相关有关),室内声学(其中室内的不同点处的后期混响是不相关的)以及录音室录音实践(其中在制作过程中立体声混响经常被添加)中的概念。
提供了不同的估计方法以改善适于空间音频应用的主体-环境分解的特性,这些方法与标量标记方法不同(其中给定信号的主体组分和/或环境组分是通过将信号乘以一个标量来估计的),在分解中直接满足目标相关条件中的至少一些。基本思想是得到每个声道的主体单位向量和环境单位向量,使得(1)-(2)中的模型进一步被明确为:
使得主体组分组成共同的完全相关源,并且满足不同内部组分正交的条件。在第一条件下,做如下假设:在双声道信号中,仅单个主体源有效;从这个角度,对时域表示的子带信号进行这样的分解(例如短时傅里叶变换)是有利的,其中与针对原始时域信号相比,这种源假设在每个子带基础上更可能有效。鉴于信号和界定了二维信号空间,如果三个正交条件(6)-(8)被满足则有必要考虑信号子空间之外的方向。这种偏离(excursion)同时在以下两个方面存在问题:一是分解问题是被指定的;二是对于在消费音频设备中的实际应用,其复杂性令人望而却步。因而,对于本应用描述的一些实施例,对信号子空间中的单元组分向量的考虑是受限制的,即,利用可以作为原始信号向量的线性组合而得到的分解向量。在本发明的不同实施例中,这些正交约束的一些鉴于这种限制而被放宽。
几何分解
信号空间几何提供了对信号分解的有用的可视化,其中不同组分之间的相关关系立刻显而易见。在下面的章节中,采用各自的方法满足了基于信号空间几何,集中于(5)-(8)中的约束的一些分解。如将变得清楚的,不同的方法通过怎样确定主体-环境信号模型中的单位向量而基本界定。
为了进一步阐述,图2是说明了根据本发明的一个实施例采用主成分分析将音频信号分解为主体组分和环境组分的图示。在图2(a)中,执行了利用主成分分析的主体-环境分解。在图2(b)中,根据本发明的一个实施例修正了图2(a)中的PCA分解以改进不相关输入的分解。图2(c)说明了针对更强相关信号的该修正的PCA分解的示例。
采用主成分分析的主体-环境分解
根据本发明的不同实施例,经由主成分分析确定了主体-环境分解。PCA被用来找到最好地说明多声道输入信号内容的主体向量,即,其与跨所有声道的最少总量的剩余能量(该方法中,其对应于环境)一起代表多声道内容。经由PCA确定的主体向量对所有声道来说是共同的。不同输入声道的主体组分由到这个共同主体向量的正交投影而确定;不同的输入声道的主体组分因此在同一直线上(完全相关)。下面,给出了用于多声道信号的主体-环境分解的基于PCA的算法,并且详述了针对双信道情况的封闭形式解。
图3是描述利用主成分分析的多声道音频信号主体-环境分解的流程图。处理在步骤301处开始,其中接收了多声道音频信号。在步骤303中,音频声道信号xi[n]被变换为时频表示Xi[k,m],例如利用STFT。在步骤305中,时频声道信号被集合成声道向量(通过连接连续的样本);在步骤307中,形成信号矩阵,该矩阵的列是声道向量。在步骤309中计算了信号相关矩阵;用X指代信号矩阵,得到相关矩阵R=XX″,其中H指代共轭转置。在步骤311中,确定了最大的特征值λp以及对应的主要特征向量该主要特征向量对应于“主成分”,并且它可以被称为“主特征向量”。在步骤313中,计算了每个声道向量到特征向量的正交投影,并且其被识别为那个声道的主体组分。在步骤315中,通过从原始声道向量中减去在步骤313中确定的主体组分向量来计算每个声道的环境组分。本领域的技术人员将认识到,在一些实现方式中,主体组分向量和环境组分向量可以在每个采样时间点m确定,使得在实现方式中不要求主体组分向量和环境组分向量的明确形式;这样的实现方式在本发明的范围之内。在步骤317中,主体组分和环境组分被提供给后处理(post-processing)和渲染算法,其中渲染算法包括频域主体组分和环境组分到时域信号的变换。
本领域的工作人员将认识到,步骤311可以通过计算完整的特征分解然后选择最大的特征值和对应的特征向量,或者通过利用只有主要特征向量被确定的计算方法来计算。例如,通过选择初始向量和重复以下步骤可以有效且高效地逼近主要特征向量:
重复这些步骤,向量收敛到主要特征向量(具有最大特征值的那个),如果相关矩阵R的特征值的差(eigenvalue spread)越大,则具有越快的收敛。这种高效的方法是可行的,这是因为在主体-环境分解算法中仅需要主要特征向量,并且这样的方法在如下实现方式中是优选的:在该实现方式中,由于确定完全明确的特征分解在计算上是高消耗的,因而计算资源有限。的经验开始值是X的具有最大摸的列,这是因为其将主导主成分计算。相关领域的技术人员将认识到,可以使用用于主成分计算的其他方法。当前发明不限于这里公开的方法;用于确定主要特征向量的其他方法在本发明的范围之内。
对于双声道情况,当前发明提供了简单的封闭解,使得不要求明确的特征分解或者重复特征向量逼近方法。图4提供了利用主成分分析的双声道音频的主体-环境分解的流程图。处理在步骤401处开始,其中接收了双声道音频信号。在步骤403中,音频声道信号被变换为时频表示XL[k,m]和XR[k,m],例如使用STFT。在步骤405中,计算了互相关rLR[k,m]以及自相关rLL[k,m]和rRR[k,m],在优选的实施例中采用前面描述的递归内积计算方法。在步骤407中,根据
计算了信号相关矩阵X的最大特征值。在该方法中,相关矩阵的最大特征值的计算可以利用在步骤405中计算的相关量而直接进行,并且不要求声道向量,信号矩阵或者相关矩阵的明确形式。在步骤409中,根据
形成主成分向量。在一些实施例中,虽然没有明显的要求,但该主成分向量在步骤409中可以被归一化。在步骤411中,根据
通过作输入信号向量到主要特征向量的投影图而确定主体组分,其中
并且其中除以rvv[k,m]避开了奇异点。如果rvv[k,m]低于某个阈值,则主体组分(对于k和m)被赋为零值。在步骤413中,根据
通过从原始信号减去在步骤411中得到的主体组分来计算环境组分。本领域的技术人员将认识到,在一些实现方式中主体组分向量和环境组分向量可以在每个采样时间点m处被确定,使得在实现方式中不要求主体组分向量和环境组分向量的明确的形式;这样的抽样样本(sample-by-sample)实现方式在本发明的范围之内。在步骤415中,主体组分和环境组分被提供给后处理和渲染算法,其中渲染算法包括频域主体和环境组分到时域信号的变换。
本领域的技术人员将理解,步骤411中的信号到主成分上的投影可以用多种方式实现,例如通过基于其他量以封闭形式表达自相关rvv。在信号到主体组分的投影的计算方式方面,当前发明不限制;用于得到该投影的任何计算方法都在本发明的范围之内。在一些实现方式中为了计算效率,可以优选地使用上面描述的方法。
图5是说明基于主成分分析的主体-环境分解的向量图。信号向量501被分解为主体组分505和环境组分507,并且信号向量503被分解为主体组分509和环境组分511。如图所说明的,环境组分507正交于主体组分505,并且环境组分511正交于主体组分509。此外,主体组分505和509在同一直线上。
根据图示,PCA分解满足主要共性约束(5)以及主体-环境正交条件(6)-(7)。然而,估计的环境组分实际上是共线的(具有负相关),其违反了约束(8)。此外,当输入信号不是高度相关时(并且主体优势假设不成立),PCA方法在分解中过高估计主体。虽然PCA方法为许多自然音频信号提供了可感知的显著(perceptually compelling)的主体组分,但有必要在一般算法中解决这些缺陷。在下面的章节中,描述了平衡PCA主体组分估计但改进用于弱相关信号的分解的方法。
修正的PCA主体-环境分解
基于PCA的主体-环境分解依赖于主体组分占优势的假设。当是这种情况时,如在许多音频录音中,主体成分的提取是可感知的显著的。然而,PCA分解一般过低估计环境能量的量,当两个声道不相关(不存在真实的主体组分)时最明显;代替将两个声道识别为环境,它选择较高能量的声道作为主成分(对应于分解中的主体单位向量),并且较低能量声道作为第二组分(对应于环境单位向量)。因此,仅当优势假设成立时,即当两个信号之间的相关系数(表示为|φLR|)接近于1时,PCA明显有效。当|φLR|接近0时,通过把信号当作完全是环境的,主体-环境分解实际上将可以被更好地估计。这一观察启发了PCA分解的特别的修改:
其中(10)和(11)中的第一项对应于各自的修正的主体组分,并且(10)和(11)中的第二项对应于各自的修正的环境组分。利用(3)和(4)并且进行一些代数运算得到用原始组分表示的修正的主体和环境组分的表达式:
通过针对每个声道重新分配原始主体组分的一些到环境组分,修正因此调节主体组分和环境组分之间的差额。
在图2(b)中描述了该修正的PCA分解的示例,其中应该清楚,估计的环境组分与图2(a)的PCA分解相比明显更弱相关。非正式的听力测试表明对于合成测试信号和典型音乐音频,这种方法提供了对PCA的改进。修正的PCA方法与PCA相比,对于不相关或弱相关信号产生更好的分解。
正交环境基展开
图6是描述了根据本发明的一个实施例,利用信号自适应正交环境基以及由主成分分析得到的主体单位向量,音频信号到主体组分和环境组分的分解的图示。
前面描述的实施例未提供明确地满足(8)中的声道之间的环境正交条件。替代的实施例可确保:通过直接构建正交的环境单位向量,即组成信号子空间的正交基,确保环境组分一直是正交的。得到所述基,使得
其确保环境基函数不偏颇于任何输入信号。而且,如果输入信号是完全不相关的,则环境单位向量将被认为是信号自身的归一化形式。
环境基的推导包括两个步骤:第一,利用Gram-Schmidt过程构建信号子空间的正交基:
其中使用了
γ的这个选择旋转Gram-Schmidt基使得得到的环境单位向量和满足(12)中的条件。得到了环境基之后,利用相应的环境单位向量分解每个声道,并且经由PCA得到主体单位向量;该算法中,对于相关(即主要是主体的)输入信号,由于其强劲的表现PCA单位向量被保留。
展开系数由下式给出:
其可以简化为:
并且对于ρR和αR类似。如果输入信号是不相关的,环境基展开系数αL和αR将占优势,反之如果输入信号是高度相关的,则主体系数将占优势。这可以看作是在前面的实施例的(9)-(10)中描述的修正的形式化,区别是这里一直确保环境组分的正交。图6中描述了利用这种正交环境基方法进行信号分解的一些示例;注意,在所有情况下环境组分正交。
其他实施例
在其他实施例中,可以基于产生的分解进行修改。主体组分和环境组分可以各自被修改以获得需要的效果。例如,在一些实施例中环境组分被增强。在一个实施例中,环境组分被增加并且添加回原始主体组分。在另外一个实施例中,环境组分被增强以获得回响效果/立体声增强。根据其他实施例,发生环境组分的抑制。例如,在一个实施例中,环境组分被减弱并且添加回原始主体组分。这样的抑制还有益于去回响效果。
在又一些实施例中,主体组分的增强或抑制被实现。例如,在一个实施例中,主体组分被增加并且添加回原始环境组分。在另一个实施例中,主体组分被减弱(或抑制)并且添加回原始环境组分。根据前面描述的技术分解抑制的主体组分,在一个实施例中,被用来在卡拉OK应用中减弱声音组分。
虽然为了清楚的理解详细地描述了前面的发明,但是显而易见地,在所附的权利要求的范围内可以实施某些变化和修改。因此,认为当前的实施例是说明性的并且不是限制性的,并且本发明不限于这里给出的细节,而是可以在所附权利要求的范围和等同物之内进行修改。
Claims (13)
1.一种用于处理多声道音频信号以确定所述信号的主体组分和环境组分的方法,该方法包括:
将所述多声道音频信号的每个声道变换为相应的子带向量,其中所述向量包括在相应子带中的声道信号行为的时间序列或历程;
采用主成分分析确定每个子带的主体组分单位向量;
通过作所述声道子带向量到所述主体组分单位向量上的投影图,确定每个子带中每个音频声道的主体组分向量;
将每个频率子带中的每个声道的环境组分向量确定为投影残差;以及
调整所述主体向量和环境向量之间的差额以产生修正的主体组分和环境组分。
2.如权利要求1所述的方法,其中所述差额根据对所述主体组分的优势的计量来调整。
3.如权利要求2所述的方法,其中所述差额被调整以使得当所述主体组分的优势的计量接近0时,所述主体组分和环境组分被修正以符合如下估计:信号完全是环境的。
4.如权利要求2所述的方法,其中所述主体组分的优势的计量对应于所述声道子带向量之间的相关系数。
5.如权利要求1所述的方法,其中所述差额被调整以获得关于重建的音频信号的预期效果。
6.如权利要求5所述的方法,其中所述差额被调整以相对于所述主体组分削弱所述环境组分。
7.如权利要求5所述的方法,其中所述差额被调整以相对于所述主体组分放大所述环境组分。
8.如权利要求1所述的方法,其中所述主体向量和环境向量之间的所述差额通过将每个声道的所述主体组分的一部分重新分配给所述环境组分而被调整。
9.如权利要求1所述的方法,其中所述多声道音频信号是双声道音频信号。
10.一种用于处理多声道音频信号以确定所述信号的主体组分和环境组分的方法,该方法包括:
将所述多声道音频信号的每个声道变换为相应的子带向量,其中所述向量包括在相应子带中的声道信号行为的时间序列或历程;
从由所述相应的声道子带向量界定的信号子空间的正交基,确定每个子带中每个声道的环境单位向量;
采用主成分分析确定每个子带的主体组分单位向量;以及
利用相应的环境单位向量和主体单位向量将每个声道的所述子带向量分解成主体组分和环境组分。
11.如权利要求10所述的方法,其中所述由所述声道子带向量界定的信号子空间的正交基至少部分是通过所述声道子带向量的Gram-Schmidt正交化得到的。
12.如权利要求10所述的方法,其中在所述声道子带向量不相关的情况下,所述由所述声道子带向量界定的信号子空间的正交基被配置为对应于由所述声道子带向量界定的单位向量。
13.如权利要求10所述的方法,其中所述多声道音频信号是双声道音频信号。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US4118108P | 2008-03-31 | 2008-03-31 | |
US61/041,181 | 2008-03-31 | ||
PCT/US2009/039039 WO2009146047A2 (en) | 2008-03-31 | 2009-03-31 | Adaptive primary-ambient decomposition of audio signals |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101981811A CN101981811A (zh) | 2011-02-23 |
CN101981811B true CN101981811B (zh) | 2013-10-23 |
Family
ID=41377853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009801118084A Active CN101981811B (zh) | 2008-03-31 | 2009-03-31 | 音频信号的自适应主体-环境分解 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8204237B2 (zh) |
EP (1) | EP2272169B1 (zh) |
CN (1) | CN101981811B (zh) |
WO (1) | WO2009146047A2 (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101610950B (zh) | 2007-01-24 | 2011-04-20 | 舒尔国际股份公司 | 制造填充介质包装物的方法和设备 |
WO2011071928A2 (en) * | 2009-12-07 | 2011-06-16 | Pixel Instruments Corporation | Dialogue detector and correction |
US8942989B2 (en) * | 2009-12-28 | 2015-01-27 | Panasonic Intellectual Property Corporation Of America | Speech coding of principal-component channels for deleting redundant inter-channel parameters |
US8675881B2 (en) * | 2010-10-21 | 2014-03-18 | Bose Corporation | Estimation of synthetic audio prototypes |
US9078077B2 (en) | 2010-10-21 | 2015-07-07 | Bose Corporation | Estimation of synthetic audio prototypes with frequency-based input signal decomposition |
EP2464145A1 (en) * | 2010-12-10 | 2012-06-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decomposing an input signal using a downmixer |
US9253574B2 (en) * | 2011-09-13 | 2016-02-02 | Dts, Inc. | Direct-diffuse decomposition |
US9986356B2 (en) * | 2012-02-15 | 2018-05-29 | Harman International Industries, Incorporated | Audio surround processing system |
JP2014215461A (ja) * | 2013-04-25 | 2014-11-17 | ソニー株式会社 | 音声処理装置および方法、並びにプログラム |
EP3564951B1 (en) | 2013-07-31 | 2022-08-31 | Dolby Laboratories Licensing Corporation | Processing spatially diffuse or large audio objects |
US9838819B2 (en) * | 2014-07-02 | 2017-12-05 | Qualcomm Incorporated | Reducing correlation between higher order ambisonic (HOA) background channels |
CN105336332A (zh) * | 2014-07-17 | 2016-02-17 | 杜比实验室特许公司 | 分解音频信号 |
CN105989852A (zh) * | 2015-02-16 | 2016-10-05 | 杜比实验室特许公司 | 分离音频源 |
CN106297820A (zh) | 2015-05-14 | 2017-01-04 | 杜比实验室特许公司 | 具有基于迭代加权的源方向确定的音频源分离 |
US10559303B2 (en) * | 2015-05-26 | 2020-02-11 | Nuance Communications, Inc. | Methods and apparatus for reducing latency in speech recognition applications |
US9666192B2 (en) | 2015-05-26 | 2017-05-30 | Nuance Communications, Inc. | Methods and apparatus for reducing latency in speech recognition applications |
EP3324407A1 (en) | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic |
EP3324406A1 (en) * | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a variable threshold |
US9820073B1 (en) | 2017-05-10 | 2017-11-14 | Tls Corp. | Extracting a common signal from multiple audio signals |
GB2579348A (en) * | 2018-11-16 | 2020-06-24 | Nokia Technologies Oy | Audio processing |
WO2023118078A1 (en) | 2021-12-20 | 2023-06-29 | Dirac Research Ab | Multi channel audio processing for upmixing/remixing/downmixing applications |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW327223B (en) * | 1993-09-28 | 1998-02-21 | Sony Co Ltd | Methods and apparatus for encoding an input signal broken into frequency components, methods and apparatus for decoding such encoded signal |
US7412380B1 (en) * | 2003-12-17 | 2008-08-12 | Creative Technology Ltd. | Ambience extraction and modification for enhancement and upmix of audio signals |
US8521529B2 (en) * | 2004-10-18 | 2013-08-27 | Creative Technology Ltd | Method for segmenting audio signals |
US7853022B2 (en) * | 2004-10-28 | 2010-12-14 | Thompson Jeffrey K | Audio spatial environment engine |
JP4479644B2 (ja) * | 2005-11-02 | 2010-06-09 | ソニー株式会社 | 信号処理装置および信号処理方法 |
DE102006017280A1 (de) * | 2006-04-12 | 2007-10-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals |
US9088855B2 (en) * | 2006-05-17 | 2015-07-21 | Creative Technology Ltd | Vector-space methods for primary-ambient decomposition of stereo audio signals |
US8379868B2 (en) * | 2006-05-17 | 2013-02-19 | Creative Technology Ltd | Spatial audio coding based on universal spatial cues |
US8103005B2 (en) * | 2008-02-04 | 2012-01-24 | Creative Technology Ltd | Primary-ambient decomposition of stereo audio signals using a complex similarity index |
US8705769B2 (en) * | 2009-05-20 | 2014-04-22 | Stmicroelectronics, Inc. | Two-to-three channel upmix for center channel derivation |
-
2009
- 2009-03-31 CN CN2009801118084A patent/CN101981811B/zh active Active
- 2009-03-31 WO PCT/US2009/039039 patent/WO2009146047A2/en active Application Filing
- 2009-03-31 EP EP09755410.9A patent/EP2272169B1/en active Active
- 2009-03-31 US US12/416,099 patent/US8204237B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
WO2009146047A3 (en) | 2010-01-21 |
EP2272169A2 (en) | 2011-01-12 |
WO2009146047A2 (en) | 2009-12-03 |
CN101981811A (zh) | 2011-02-23 |
US20090252341A1 (en) | 2009-10-08 |
US8204237B2 (en) | 2012-06-19 |
EP2272169A4 (en) | 2014-04-02 |
EP2272169B1 (en) | 2017-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101981811B (zh) | 音频信号的自适应主体-环境分解 | |
CN101536085B (zh) | 用于从音频信号中产生环境信号的设备和方法和用于从音频信号中导出多声道音频信号的设备和方法 | |
CN101889308B (zh) | 用于从两声道音频信号进行环境提取的基于相关的方法 | |
CN103403800B (zh) | 确定多声道音频信号的声道间时间差 | |
US9088855B2 (en) | Vector-space methods for primary-ambient decomposition of stereo audio signals | |
US7630500B1 (en) | Spatial disassembly processor | |
Avendano et al. | A frequency-domain approach to multichannel upmix | |
US8019093B2 (en) | Stream segregation for stereo signals | |
US7412380B1 (en) | Ambience extraction and modification for enhancement and upmix of audio signals | |
EP1774515B1 (en) | Apparatus and method for generating a multi-channel output signal | |
CN106105269B (zh) | 音频信号处理方法和设备 | |
JP6377249B2 (ja) | オーディオ信号の強化のための装置と方法及び音響強化システム | |
Avendano et al. | Frequency domain techniques for stereo to multichannel upmix | |
US20040212320A1 (en) | Systems and methods of generating control signals | |
CN106165454A (zh) | 音频信号处理方法和设备 | |
CN105874819A (zh) | 生成用于音频信号的滤波器的方法及其参数化装置 | |
CN103348703A (zh) | 用以利用预先算出的参考曲线来分解输入信号的装置和方法 | |
CN103650538B (zh) | 用于使用采用谱权重生成器的频域处理分解立体声录音的方法和装置 | |
CN113347552B (zh) | 一种音频信号处理方法、装置及计算机可读存储介质 | |
Ibrahim et al. | Primary-ambient source separation for upmixing to surround sound systems | |
EP4247011A1 (en) | Apparatus and method for an automated control of a reverberation level using a perceptional model | |
Hirvonen et al. | Top-down strategies in parameter selection of sinusoidal modeling of audio | |
Ibrahim | PRIMARY-AMBIENT SEPARATION OF AUDIO SIGNALS | |
CN104205211A (zh) | 多声道音频编码器以及用于对多声道音频信号进行编码的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |