CN103299363B - 用于处理音频信号的方法和装置 - Google Patents
用于处理音频信号的方法和装置 Download PDFInfo
- Publication number
- CN103299363B CN103299363B CN200880100488.8A CN200880100488A CN103299363B CN 103299363 B CN103299363 B CN 103299363B CN 200880100488 A CN200880100488 A CN 200880100488A CN 103299363 B CN103299363 B CN 103299363B
- Authority
- CN
- China
- Prior art keywords
- information
- signal
- object signal
- downmix
- gain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 144
- 230000005236 sound signal Effects 0.000 title claims abstract description 52
- 238000012545 processing Methods 0.000 title claims abstract description 29
- 230000008569 process Effects 0.000 claims description 46
- 230000002441 reversible effect Effects 0.000 claims description 34
- 230000008878 coupling Effects 0.000 claims description 29
- 238000010168 coupling process Methods 0.000 claims description 29
- 238000005859 coupling reaction Methods 0.000 claims description 29
- 230000000875 corresponding effect Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 18
- 230000005540 biological transmission Effects 0.000 description 17
- 230000008901 benefit Effects 0.000 description 10
- 230000008859 change Effects 0.000 description 7
- 238000004886 process control Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000002238 attenuated effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 241000196324 Embryophyta Species 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 3
- 230000002349 favourable effect Effects 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003032 molecular docking Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000003534 oscillatory effect Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 235000017060 Arachis glabrata Nutrition 0.000 description 1
- 241001553178 Arachis glabrata Species 0.000 description 1
- 235000010777 Arachis hypogaea Nutrition 0.000 description 1
- 235000018262 Arachis monticola Nutrition 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000005669 field effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 235000020232 peanut Nutrition 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种处理音频信号的方法。本发明包括接收至少一个向下混合对象信号的向下混合信息、获取包括对象信息的边信息及混合信息、基于边信息和混合信息来生成多个通道信息、以及使用多个通道信息而从向下混合信息生成输出通道信号,其中,对象信息包括对象信号的电平信息、对象信号的相关性信息、对象信号的增益信息及其附加信息中的至少一个。
Description
技术领域
本发明涉及用于处理音频信号的方法和装置,更具体地涉及用于处理音频信号的装置及其方法。虽然本发明适合于广泛的应用,但其特别适合于处理经由数字媒体、广播信号等接收到的音频信号。
背景技术
通常,在处理基于对象的音频信号时,将构成输入信号的单个对象作为独立对象来处理。在这种情况下,由于在对象之间可能存在相关性,所以在使用该相关性执行编码的情况下实现更高效的编码。
发明内容
技术问题
本发明的目的是提高处理音频信号的效率。
技术解决方案
因此,本发明涉及一种基本上消除了由于相关技术的限制和缺点而引起的一个或多个问题的用于处理音频信号的装置及其方法。
本发明的目的是提供一种处理信号的方法,通过该方法,可以在处理基于对象的音频信号时使用辅助参数来更高效地处理信号。
本发明的另一目的是提供一种处理信号的方法,通过该方法,可以通过部分地控制对象信号来更高效地处理信号。
本发明的另一目的是提供一种处理信号的方法,通过该方法,可以使用对象之间的相关性来处理基于对象的音频信号。
本发明的另一目的是提供一种获取指示成组对象之间的相关性的信息的方法。
本发明的另一目的是提供一种发送信号的方法,通过该方法,可以更高效地发送信号。
本发明的另一目的是提供一种处理信号的方法,通过该方法,可以获得各种音响效果。
本发明的又一目的是提供一种处理信号的方法,其使得用户能够使用源信号来修改混合信号。
本发明的附加特征和优点将在以下说明中阐述,且将部分地通过以下说明而显而易见,或者可以从本发明的实践被习得。将由书面说明及其权利要求以及附图中特别指出的结构来实现和获取本发明的目标及其它优点。
为了实现这些和其它优点并且依照本发明的目的,如所体现和广泛描述的那样,一种根据本发明的处理音频信号的方法包括:接收至少一个向下混合对象信号的向下混合信息、获取包括对象信息的边信息(side information)、以及混合信息、基于所述边信息和所述混合信息来生成多个通道信息、以及使用所述多个通道信息而从所述向下混合信息生成输出通道信号,其中,所述对象信息包括对象信号的电平信息、对象信号的相关性信息、对象信号的增益信息及其附加信息中的至少一个。
优选地,所述附加信息包括所述对象信号的增益信息的实际值与其估计值之间的差信息。
优选地,基于对象信号的位置信息、对象信号的增益信息和对象信号的重放配置信息中的至少一个来生成所述混合信息。
优选地,所述方法包括:使用所述对象信息和所述混合信息来确定是否执行反向处理,以及当根据该确定执行所述反向处理时,获取用于增益补偿的反向处理增益值,其中,如果修改对象的数目大于未修改对象的数目,则所述反向处理指示参照所述未修改对象来执行增益补偿,并且其中,基于所述反向处理增益值来生成输出通道信号。
优选地,所述对象信号的电平信息包括基于所述混合信息修改的电平信息,且基于修改的电平信息来生成所述多个通道信息。
更优选地,如果参照规定阈值而放大或衰减特定对象信号的幅度,则通过将对象信号的电平信息乘以大于1的常数来生成所述经修改的电平信息。
为了进一步实现这些和其它优点并且依照本发明的目的,一种根据本发明的处理音频信号的方法包括:接收至少一个向下混合对象信号的向下混合信息、获取包括对象信息的边信息、以及混合信息、基于所获取的边信息和所获取的混合信息来生成多个通道信息、以及使用所述多个通道信息而从所述向下混合信息生成输出通道信号,其中,所述对象信息包括对象信号的电平信息、对象信号的相关性信息、对象信号的增益信息中的至少一个,并且其中,所述对象信息和所述混合信息中的至少一个被量化。
优选地,所述方法还包括获取指示对象是否被彼此分组的耦合信息,其中,基于所述耦合信息来获取对象信号的相关性信息。
更优选地,所述方法还包括获取基于所述耦合信息而分组的对象所共用的一个元信息(meta information)。
在这种情况下,所述元信息包括元数据的字符数目和元数据的每个字符信息。
为了进一步实现这些和其它优点并且依照本发明的目的,一种根据本发明的处理音频信号的方法包括:接收至少一个向下混合对象信号的向下混合信息、获取包括对象信息和耦合信息的边信息及混合信息、基于所获取的边信息和所获取的混合信息来生成多个通道信息、以及使用所述多个通道信息而从所述向下混合信息生成输出通道信号,其中,所述对象信号被区分为独立对象信号和背景对象信号,其中,所述对象信息包括对象信号的电平信息、对象信号的相关性信息、以及对象信号的增益信息中的至少一个,并且其中,基于所述耦合信息来获取对象信号的相关性信息。
优选地,所述独立对象信号包括声音对象信号。
优选地,所述背景对象信号包括伴奏(accompaniment)对象信号。
优选地,所述背景对象信号包括至少一个基于通道的信号。
优选地,基于标志信息而将所述对象信号区分为独立对象信号和背景对象信号。
优选地,所述音频信号被作为广播信号接收。
优选地,经由数字媒体来接收所述音频信号。
为了进一步实现这些和其它优点并且依照本发明的目的,一种计算机可读记录介质包括记录在其中的程序,其中,提供所述程序以执行权利要求11所述的方法。
为了进一步实现这些和其它优点并且依照本发明的目的,一种根据本发明的用于处理音频信号的装置包括:向下混合处理单元,其接收至少一个向下混合对象信号的向下混合信息;信息生成单元,其获取包括对象信息的边信息及混合信息,该信息生成单元基于所获取的边信息和所获取的混合信息来生成多个通道信息;以及多通道解码单元,其使用所述多个通道信息而从所述向下混合信息生成输出通道信号,其中,所述对象信息包括对象信号的电平信息、对象信号的相关性信息、对象信号的增益信息及其附加信息中的至少一个。
为了进一步实现这些和其它优点并且依照本发明的目的,一种根据本发明的用于处理音频信号的装置包括:向下混合处理单元,其接收至少一个向下混合对象信号的向下混合信息;信息生成单元,其获取包括对象信息的边信息及混合信息,该信息生成单元基于所获取的边信息和所获取的混合信息来生成多个通道信息;以及多通道解码单元,其使用所述多个通道信息而从所述向下混合信息生成输出通道信号,其中,所述对象信息包括对象信号的电平信息、对象信号的相关性信息、对象信号的增益信息中的至少一个,并且其中,所述对象信息和所述混合信息中的至少一个被量化。
为了进一步实现这些和其它优点并且依照本发明的目的,一种根据本发明的用于处理音频信号的装置包括:向下混合处理单元,其接收至少一个向下混合对象信号的向下混合信息;信息生成单元,其获取包括对象信息和耦合信息的边信息及混合信息,该信息生成单元基于所述边信息和所述混合信息来生成多个通道信息;以及多通道解码单元,其使用所述多个通道信息而从所述向下混合信息生成输出通道信号,其中,所述对象信号被区分为独立对象信号和背景对象信号,其中,所述对象信息包括对象信号的电平信息、对象信号的相关性信息和对象信号的增益信息中的至少一个,并且其中,基于所述耦合信息来获取对象信号的相关性信息。
应理解的是,本发明的前述一般说明及以下详细说明均是示例性和说明性的,且意图提供权利要求要求保护的本发明的进一步解释。
有益效果
因此,本发明提供以下效果或优点。首先,在对象信号之间具有密切的相关性的情况下,能够使用该相关性来提高处理音频信号的效率。其次,通过发送关于每个对象的详细属性信息,可以直接且细微地控制用户专用对象。
附图说明
被包括进来以提供对本发明的进一步理解的附图被并入本说明书中并构成本说明书的一部分,其示出了本发明的实施例,并连同说明书一起用于解释本发明的原理。
在附图中:
图1是根据本发明的实施例的音频信号处理装置的图示;
图2是解释根据本发明的实施例的使用混合信息来生成输出通道信号的方法的图示;
图3是解释根据本发明的实施例的更高效的音频信号处理方法的流程图;
图4是根据本发明的实施例的用于更高效地发送对象信号的音频信号处理装置的示意性框图;
图5是解释根据本发明的实施例的使用反向控制来处理对象信号的方法的流程图;
图6和7是根据本发明的另一实施例的用于使用反向控制来处理对象信号的音频信号处理装置的框图;
图8是根据本发明的实施例的包含关于对象的元信息的位流的结构图;
图9是根据本发明的实施例的用于高效地发送音频信号的语法结构的图示;
图10至12是解释根据本发明的实施例的用于发送源功率的无损耗编码处理的图示;以及
图13是解释根据本发明的实施例的用户接口的图示。
具体实施方式
实施方式
现在将对本发明的优选实施例进行详细的参考,其示例在附图中示出。
选择目前在全球使用的通用术语作为在本发明中使用的术语。并且,存在本申请人为特殊情况任意选择的术语,在本发明的优选实施例的说明中详细解释了这些术语的详细意义。因此,不应通过术语的名称、而是应通过术语的意义来理解本发明。
具体地说,应将在本公开中描述的信息理解为包括值、参数、系数、元素等的术语且可以将其理解为是不同的,而不限制本发明。
图1是根据本发明的实施例的音频信号处理装置的图示。
参照图1,根据本发明的实施例的音频信号处理装置可以包括信息生成单元110、向下混合处理单元120和多通道解码器130。
信息生成单元110经由音频信号位流来接收包括对象信息(OI)等的边信息,且还能够经由用户接口来接收混合信息(MXI)。在这种情况下,对象信息(OI)是关于包括在向下混合信号内的对象的信息,且可以包括对象电平信息、对象相关性信息、对象增益信息、元信息等等。
通过使用基准信息将对象水平归一化来生成所述对象电平信息。所述基准信息对应于对象水平之一,更具体地,对应于所有对象水平中最高的一个。所述对象相关性信息指示对象之间的相关性。所述对象相关性信息能够指示两个对象是具有相同来源的立体声输出的不同通道的信号。所述对象增益信息指示关于对象对每个向下混合信号的通道的贡献的值,更具体地指示对象修改贡献的值。
此外,预置信息(PI)可以指示基于预置位置信息、预置增益信息、重放配置信息等生成的信息。
预置位置信息可以指示被设置为控制每个对象的位置或摇摆(panning)的信息。预置增益信息是被设置为控制每个对象的增益的信息且包括每个对象的增益因数。在这种情况下,每个对象的增益因数可以根据时间而改变。
预置信息(PI)可以意指对应于特定模式的对象位置信息、对象增益信息和重放配置信息,其被预置以获取音频信号的特定声场效果和音响效果。例如,预置信息中的卡拉OK模式能够包括将声音对象的增益设置为0的预置增益信息。预置信息中的体育场模式可以包括提供音频信号处于广阔空间中的效果的预置位置信息和预置增益信息。因此,有利于用户通过在不调整每个对象的增益或摇摆的情况下从预置信息(PI)中选择特定模式来控制对象的增益或摇摆。
向下混合处理单元120接收向下混合信息(在下文中称为向下混合信号(DMX))并随后使用向下混合处理信息(DPI)来处理向下混合信号(DMX)。为了调整对象的摇摆或增益,能够处理向下混合(DMX)信号。
多通道解码器130接收经处理的向下混合信号并随后能够通过使用多个通道信息(MI)对经处理的向下混合信号进行向上混合来生成多通道信号。
在本发明中使用的向下混合信号可以包括单信号、立体声信号或多通道音频信号。例如,假设立体声信号被设置为x1(n)和x2(n),则可以将其表示为源信号的和,其中,‘n’指示时间索引。因此,可以将立体声信号表示为公式1。
[公式1]
在这种情况下,‘I’指示包括在立体声信号中的源信号的数目且s1(n)指示源信号。并且,‘ai’和‘bi’是用于分别确定每个源信号的振幅摇摆和增益的值。每个s1(n)可以是独立的。s1(n)可以是纯源信号,或者可以包括其中添加了很少的混响和音响效果信号分量的纯源信号。例如,可以将特定的混响信号分量表示为两个源信号,即被混合到左通道的信号和被混合到右通道的信号。
本发明的实施例能够修改包括源信号的立体声信号以便将M个源信号再混合(0≤M≤1)。可以用不同的增益因数将所述源信号再混合成立体声信号。可以将再混合信号表示为公式2。
[公式2]
在公式2中,‘ci’和‘di’是用于将被再混合的M个源信号的新增益因数。‘ci’和‘di’可以由解码器侧提供。
根据本发明的实施例,可以基于混合信息将传送的输入通道信号修改为输出通道信号。
在这种情况下,混合信息(MXI)可以指示基于对象位置信息、对象增益信息、重放配置信息等生成的信息。在这种情况下,对象位置信息可以指示由用户输入以控制每个对象的位置或摇摆的信息。所述对象增益信息可以指示由用户输入以控制每个对象的增益的信息。而且,所述重放配置信息是包括扬声器的数目、扬声器的位置、环境信息(扬声器的虚拟位置)等的信息。所述重放配置信息由用户输入,被预先存储或从另一设备接收。
所述混合信息能够直接指示特定对象被包括在特定输出通道中的程度,或者能够指示输入通道的状态的差值。所述混合信息可以使用单个内容内的相同值或随时间改变的值。在混合信息随时间改变的情况下,可以通过输入起始状态、最终状态和变化时间来使用混合信息。而且,还可以通过输入变化计时点的时间指数和计时点的状态的值来使用混合信息。
为了说明的明了和方便起见,本发明的实施例以在公式1中所示的形式描述混合信息指示特定对象被包括在特定输出通道中的程度的情况。在这种情况下,可以将每个输出通道构造为公式2。在这种情况下,为了将ai和bi与ci和di区分开,假设ai和bi是混合增益,并假设ci和di是重放混合增益。
假设混合信息不是作为重放混合增益而给出,而是作为增益和摇摆而给出。可以如公式3一样给出增益(gi)和摇摆(li)。
[公式3]
gi=10log10(ci 2+di 2)
li=20log10(di/ci)
因此,能够使用ai和bi来获取ci和di。而且,显而易见的是,可以将增益和摇摆与混合增益之间的关系表达式表示为不同的形式。
图2是解释根据本发明的实施例的使用混合信息来生成输出通道信号的方法的图示。
图1所示的向下混合处理单元120能够通过将输入通道信号乘以特定系数来获取输出通道信号。参照图2,假设x1和x2是输入通道信号,且假设y1和y2是输出通道信号,可以将实际输出通道信号表示为公式4。
[公式4]
y1_hat=w11*x1+w12*x2
y2_hat=w21*x1+w22*x2
在公式4中,yi_hat指示要与从公式2导出的理论值区分开的输出值。‘w11~w22’可以意指加权因数。而且,xi、wij和yi可以分别对应于特定时间的特定频率的信号。
本发明的一个实施例提供了一种使用加权因数来获取高效输出通道的方法。
可以以各种方式来估计加权因数。特别地,本发明可以使用最小二乘估计法。在这种情况下,可以将生成的估计误差定义为公式5。
[公式5]
e1=y1-y1_hat
e2=y2-y2_hat
可以对每个子带生成加权因数以使均方误差E{e12}和E{e22}最小化。在这种情况下,如果估计误差与x1和x2正交,则能够使用均方误差被最小化这一事实。此外,可以将w11和w12表示为公式6。
[公式6]
并且,可以生成E{x1y1}和E{x2y1}作为公式7。
[公式7]
同样地,可以将w21和w22表示为公式8。
[公式8]
并且,可以生成E{x2y1}和E{x2y2}作为公式9。
[公式9]
根据本发明的实施例,为了配置边信息或在基于对象的编码中生成输出信号,能够使用对象信号的能量信息(或电平信息)。
例如,在配置边信息的情况下,可以传送对象信号的能量、对象信号之间的相对能量值或对象信号与通道信号之间的相对能量值。此外,在生成输出信号的情况下,能够使用对象信号的能量。
使用输入通道信号、边信息和混合信息,能够生成具有特定音响效果的输出通道信号。在用于生成输出通道信号的处理中,能够使用对象信号的能量信息。对象信号的能量信息可以被包括在边信息中,或者可以使用边信息和通道信号来估计。此外,可以通过修改对象信号的能量信息来对其进行使用。
提出了根据本发明的实施例的修改对象信号的能量信息的方法,以改善输出通道信号的质量。根据本发明,能够在用户的控制下修改能量信息。
参照公式7和公式9,可以观察到对象信号的能量信息E{Si 2}被用来获取用于生成输出通道信号的加权因数w11~w22。本发明的实施例涉及使用自通道(self-channel)系数w11和w22及交叉通道系数w21和w12来生成输出信号的方法。在使用另一种方法的情况下,如在以上说明中所述,显而易见的是,对象信号的能量信息可用。
在用于获取输出信道的加权因数的处理中,本发明提出一种使用对象信号的电平信息(或能量信息)的修改方法。例如,公式10可用。
[公式10]
E{x1*y1}=E{x12}+∑[ai*(ci-ai)E_mod{si 2}]
E{x2*y1}=E{x1*x2}+∑[bi*(ci-ai)E_mod{si 2}]
E{x1*y2}=E{x1*x2}+∑[ai*(di-bi)E_mod{si 2}]
E{x2*y2}=E{x22}+∑[bi*(di-bi)E_mod{si 2}]
经修改的电平信息(E_mod)可根据对象信号被独立地应用或者同样地应用于每个对象信号。
可以基于混合信息来生成对象信号的经修改的电平信息。而且,能够基于经修改的电平信息来生成多个通道信息。例如,在相当大地改变特定对象信号的幅度的情况下,能够获取通过将特定对象信号的电平信息乘以预定值而修改的电平信息。在这种情况下,能够确定是否参照规定阈值而相当大地放大或衰减特定对象信号的幅度。例如,所述规定阈值可以是相对于另一对象信号的幅度的值。又例如,所述规定阈值可以是根据人的知觉心理的特定值或根据各种测试的计算值。而且,与特定对象信号的电平信息相乘的预定值可以包括大于1的常数。在以下说明中,将详细地解释以上实例。
可以使用E{Si 2}将公式10的‘E_mod{si 2}’修改为公式11。
[公式11]
E_mod{si 2}=alpha*E{si 2}
在公式11中,可以如下根据与重放混合信息和原始混合增益的关系给出‘α’。在根据每个对象信号来独立地修改对象信号的能量信息的情况下,显而易见的是,可以将α表示为alpha_i。例如,如果si被相当大地衰减,则可以有α>1。如果si被适当地衰减或放大,则可以有α=1。如果si被相当大地放大,则可以有α>1。
在这种情况下,能够通过原始混合增益ai和bi与重放混合增益ci和di之间的关系来知道si的衰减或放大。例如,如果ai 2+bi 2>ci. 2+di.2,则si被衰减。相反,如果ai 2+bj.2<ci 2+di 2,则si被放大。因此,可以通过表示为公式12至14的方案来调整α值。
[公式12]
(ai 2+bi 2)/(ci 2+di 2)>Thr_atten
alpha=alpha_atten,alpha_atten>1
[公式13]
(ai 2+bi 2)/(ci 2+di 2)<Thr_boost
alpha=alpha_boost,alpha_boost>1
[公式14]
Thr_atten>(ai 2+bi 2)/(ci 2+di 2)>Thr_boost
alpha=1
在这种情况下,Thr_atten和Thr_boost可以意指阈值。每个阈值可以是根据人的知觉心理的特定值或根据各种测试的计算值。而且,alpha_atten可以具有alpha_atten≥alpha_boost的特性。
在本发明中,能够使用alpha_atten来使得E_mod{si 2}与E{si 2}相比能够获取2dB的增益。
此外,在本发明中,能够使用100.2作为alpha_atten值。
根据本发明的另一实施例,能够使用独立的E_mod{si 2}而不是使用相同的E_mod{si 2}来获取加权因数。
例如,公式15可用。
[公式15]
E{x1*y1}=E{x12}+∑[ai*(ci-ai)E_mod1{si 2}]
E{x2*y1}=E{x1*x2}+∑[bi*(ci-ai)E_mod1{si 2}]
E{x1*y2}=E{x1*x2}+∑[ai*(di-bi)E_mod2{si 2}]
E{x2*y2}=E{x22}+∑[bi*(di-bi)E_mod2{si 2}]
同样地,可以将公式15的E_mod1{si 2}和E_mod2{si 2}修改为公式16。
[公式16]
E_mod1{si 2}=alpha1*E{si 2}
E_mod2{si 2}=alpha2*E{si 2}
在这种情况下,E_mod1和α1是有助于生成y1的值,且E_mod2和α2是有助于生成y2的值。
可以通过进行如下区分来使用用于公式11的E_mod_i{Si 2}。例如,假设Si只对于输出通道信号的一个通道被衰减/放大。在这种情况下,E{Si 2}不需要被修改且被用于相对通道。如果这样的话,如果Si只对于左通道来说受到抑制,则能够使用在只生成左输出通道信号时使用的w11和w12的E_mod值。在这种情况下,能够使用α1=alpha_atten和α2=1。而且,公式12至14可用作用于确定alpha_i的值的条件。特别地,通过确定特定对象信号在特定输出通道上被衰减/放大的程度,能够使用alpha_i值。
对于本发明的另一实施例,公式17和公式18可用。
[公式17]
E{x1*y1}=E{x12}+∑[ai*(ci-ai)E_mod11{si 2}]
E{x2*y1}=E{x1*x2}+∑[bi*(ci-ai)E_mod21{si 2}]
E{x1*y2}=E{x1*x2}+∑[ai*(di-bi)E_mod12{si 2}]
E{x2*y2}=E{x22}+∑[bi*(di-bi)E_mod22{si 2}]
[公式18]
E_mod11{si 2}=alpha11*E{si 2}
E_mod21{si 2}=alpha21*E{si 2}
E_mod12{si 2}=alpha12*E{si 2}
E_mod22{si 2}=alpha22*E{si 2}
根据本发明的另一实施例,在请求过度衰减/放大的情况下,能够修改并使用E{si 2}以便提高输出通道信号的质量。然而,在使用交叉通道的情况下,可以请求在不进行修改的情况下使用E{si 2}。为此,能够通过设置α21=α12=1以进行使用来满足该请求。
相反,可以请求对于自通道不修改对象信号的能量信息,但对于交叉通道来说修改该能量信息。在这种情况下,能够通过设置α11=α22=1以进行使用来满足该请求。
虽然未作为示例进行解释,但通过与以上说明中的方法类似的方法,可以使用α11至α22作为任意值。而且,可以利用输入通道信号、边信息、重放混合信息等来进行α值的选择。此外,可以利用原始混合增益与重放混合增益之间的关系来进行α值的选择。
在本示例中,α值等于或大于1。而且,应理解的是,可以利用α值小于1的情况。
同时,在编码器中,对象信号的能量信息可以被包括在边信息中,或者对象信号与通道信号之间的相对能量值可以被包括在边信息中。如果这样,则该编码器能够通过修改对象信号的能量信息来配置边信息。例如,能够通过修改特定对象信号的能量或整体对象信号的能量来配置边信息以使重放效果最大化。在这种情况下,解码器能够通过重构所述修改来执行信号处理。
例如,考虑通过由公式11进行的变换将E_mod{si 2}作为边信息而发送的情况。在这种情况下,解码器能够通过用E_mod{si 2}除以α来获取E{si 2}。在这样做时,解码器能够使用被选择性地发送的E_mod{si 2}和/或E{si 2}。可以通过将α值包括在边信息中来发送。替换地,可以由解码器使用传送的输入通道信号和边信息来估计α值。
根据本发明的实施例,能够使用加权因数来生成用户专用音响效果。在这种情况下,可以仅部分地使用加权因数。为了选择加权因数,能够使用输入通道之间的关系、输入通道特性、发送的边信息的特性、混合信息、估计加权因数的特性。为了明了和方便起见,假设w11和w22是自通道系数,且w12和w21是交叉通道系数。
根据本发明的实施例,在未部分地使用加权因数或部分地使用加权因数的情况下,能够重新估计所使用的加权因数。例如,在已经估计w11、w12、w21和w22之后,如果确定只使用了自通道系数,则可以在w1和w2的估计之后使用w1和w2而不是使用w11和w22。在不使用交叉通道系数的情况下,这是因为y_i_hat被修改为公式18,并且因为相应的最小均方估计改变。
[公式18]
y_1_hat=w1*x1
y_2_hat=w2*x2
在这种情况下,可以将使e i最小化的w1和w2估计为公式19。
[公式19]
w1=E{x1*y1}/E{x12}
w2=E{x2*y2}/E{x22}
同时,在部分地使用加权因数的情况下,y_i_hat被建模成适合于该情况并估计要使用的最佳加权因数。
如下解释用于利用加权因数的各种实施例。
作为第一实施例,可以存在基于输入通道的相干性的方法。
如果输入信号的通道间相关性非常高,则分别被包括在通道中的信号可以相互非常类似。如果这样,则能够获取如同使用交叉通道系数一样的效果,虽然是仅使用自通道系数。
例如,能够使用公式20来估计相关的程度。
[公式20]
Pi=E{x1*x2}/sqrt(E{x12}E{x22})
在这种情况下,如果Pi的值大于阈值,即,如果Pi>Pi_Threshold,则可以将w12和w21中的每一个设置为0。Pi_Threshold可以意指阈值。例如,阈值可以是根据人的知觉心理的特定值或根据各种测试的计算值。能够使用常规的w11和w22作为w11和w22。替换地,能够使用不同于w11和w22的那样的加权因数作为w11=w1和w22=w2。而且,可以通过表示为公式19的方法来得到w1和w2。
作为第二方法,可以存在使用加权因数的范数(norm)的方法。
在本实施例中,能够使用加权因数的范数来选择将被向下混合处理单元120利用的加权因数。
首先,能够得到包括利用交叉通道的加权因数的加权因数w11~w22。在这种情况下,可以通过公式21得到加权因数的范数。
[公式21]
A=w112+w122+w212+w222
而且,能够得到不利用交叉通道的加权因数w1和w2。在这种情况下,可以通过公式22得到加权因数的范数。
[公式22]
B=w12+w22
在这种情况下,如果A<B,则能够使用加权因数w11~w22。如果B<A,则能够使用加权因数w1和w2。即,通过将使用四个加权因数的情况与使用部分加权因数的情况相互比较,能够选择更高效的方法。如果使用上述方法,则能够防止系统由于加权因数的相当大幅值而变得不稳定的情况。
作为第三实施例,可以存在使用输入通道的能量的方法。
如果对于特定通道未能具有能量的情况、即在仅作为示例的一个通道上存在信号的情况,通过常规方法得到w11~w22,则可能产生不期望的结果。在这种情况下,由于不具有能量的输入通道不能对输出有贡献,所以能够将不具有能量的输入通道的加权因数设置为0。
可以通过表示为公式23的方法来估计特定通道是否具有能量。
[公式23]
E{xi2}<阈值
在这种情况下,能够以考虑x2是不具有能量的情况的方式来通过新方法估计w11和w12而不是使用通过常规方法得到的值。同样地,阈值值可以意指阈值。例如,阈值值可以包括根据人的知觉心理的特定值或根据各种测试的计算值。
例如,如果x2不具有能量,可以将输出信号生成为公式24。
[公式24]
y_1_hat=w11*x1
y_2_hat=w21*x2
并且,可以将w11和w21估计为公式25。
[公式25]
w11=E{x1*y1}/E{x12}
w21=E{x1*y2}/E{x12}
在这种情况下,变成w12=w22=0。
作为第四实施例,可以存在使用混合增益信息的方法。
作为基于对象的编码需要用于交叉通道的加权因数的情况,可能存在未从自通道的输入信号生成自通道的输出信号的情况。这可能在只包括在一个通道中的信号(或主要包括在一个通道中的信号)被发送到另一通道的情况下发生。即,其可能在尝试修改用于输入的相应摇摆特性(特定对象被摇摆到特定信道)的情况下发生。
在这种情况下,只有当使用用于交叉通道的加权因数时,才能够获取特定的音响效果。而且,需要有检测此类情况的方法和确定如何使用加权因数的方法。在本实施例中,提出了检测方法和加权因数利用方法。
例如,能够假设经处理的对象信号为单声道的情况。首先,能够确定对象信号是否为单声道。如果对象信号为单声道,则能够确定其是否被摇摆到一侧。在这种情况下,可以使用ai/bi来执行侧摇摆的确定。特别地,如果ai/bi=1,则可以观察到,对象信号被包括在同一水平处的每个通道中。这可以意指该对象信号位于音响空间中的中心处。如果ai/bi<Thr_B,则可以观察到,对象信号被摇摆到bi所指示的一侧(右)。相反,如果ai/bi<Thr_A,则可以观察到,对象信号被摇摆到ai所指示的一侧(左)。在这种情况下,Thr_A或Thr_B的值可以意指阈值值。例如,该阈值值可以是根据人的知觉心理的特定值或根据各种测试的计算值。
作为确定的结果,如果执行侧摇摆,则确定摇摆是否被重放混合增益改变。可以通过将ai/bi的值与ci/di的值相比较来确定摇摆是否改变。例如,假设ai/bi被向右摇摆的状态。如果ci/di被向右摇摆得更远,则可能不需要交叉通道系数。然而,如果ci/di被向左摇摆,则可能使用交叉通道系数将对象信号分量包括在左输出通道中。
在将ai/bi的值与ci/di的值相比较的情况下,能够通过将适当的加权因数应用于ai/bi或ci/di来调整比较的灵敏度。例如,作为将ci/di与ai/bi相比较的替代,能够使用公式26。
[公式26]
(ci/di)*alpha>ai/bi
(ci/di)*beta<ai/bi
在使用公式26的情况下,能够通过适当地调整α和β来调整对交叉通道系数的使用的灵敏度。
此外,虽然侧摇摆的对象信号的摇摆被改变,但是如果对象信号未能具有足够的能量,则可以只利用自通道系数而不利用交叉通道系数。例如,如果在相应内容的前部分中存在有在一侧被摇摆且其摇摆被重放混合增益改变的对象信号且如果其后不存在该对象信号,则能够对只存在对象信号的区段使用交叉通道系数。
如本发明的实施例提出的那样,使用相应对象的能量信息,可以选择是否利用交叉通道系数。可以以边信息的形式来发送相应对象的能量,或者可以使用发送的边信息和输入信号来对其进行估计。
作为第五实施例,可以存在使用对象特性的方法。
在对象信号是多通道对象信号的情况下,可以根据对象信号的特性来对其进行处理。为了以下说明的明了和方便起见,假设对象信号是立体声对象信号。
对于第一示例,通过对立体声对象信号进行向下混合来生成单声道对象信号,并通过将其表示为子边信息(sub-side information)来处理原始立体声对象信号的通道间关系。在这种情况下,子边信息是与常规边信息区分开的术语,并指示分级方面中的边信息的子概念。在基于对象的编码中,如果利用对象的能量信息作为边信息,则可以利用单声道对象信号的能量作为边信息。
对于第二示例,能够将对象信号的每个通道处理成单个独立的单声道对象信号。例如,在利用对象信号的能量信息作为边信息的情况下,可以利用每个通道的能量作为边信息。在这种情况下,可以使要发送的边信息的数目增加至高于第一示例的情况。
在第一示例的情况下,能够根据对应于上述第四实施例的‘使用混合增益信息的方法’来确定是否利用交叉通道系数。在这种情况下,能够利用子边信息以及混合增益信息。
在第二示例的情况下,如果左通道对象信号是s_i,则右通道对象信号可以变成s_i+1。在左通道对象信号的情况下,其变成b_1=0。在右通道对象信号的情况下,其变成a_i+1=0。特别地,在第二示例的情况下,虽然对象信号被处理为两个单声道对象,但由于其只被包括在一个通道中,所以其具有‘b_1=a_i+1=0’的特性。
为了对第二示例中的立体声对象信号执行基于对象的编码,可使用以下两种方法。
作为第一方法,可以存在不使用交叉通道系数的情况。例如,假设将重放混合增益给定为公式27。
[公式27]
c_i=alpha
c_i+1=beta
在立体声对象信号的情况下,可以将其表示为a_i+1=0。在这种情况下,如果c_i+1不是零,则被包括在右侧中的对象信号s_i+1应被包括在左侧中。因此,交叉通道系数变得必要。
然而,在立体声对象信号的情况下,能够假设包括在各通道中的分量相互类似。可以将其表示为公式28。
[公式28]
c_i_hat=c_i+c_i+1
c_i+1_hat=0
因此,可以不使用交叉通道系数。
同样地,通过表示为公式29的以下处理,可以不使用交叉通道系数。
[公式29]
d_i_hat=0
d_i+1_hat=d_i+d_i+1
作为第二方法,可以存在使用交叉通道系数的方法。
在尝试将包括在立体声对象信号的左侧中的信号包括在右输出信号中的情况下,必须使用交叉通道系数。因此,通过分析重放混合增益,能够在必要时仅使用交叉通道系数。
又例如,在立体声对象信号的情况下,另外能够进一步使用对象信号的特性。在立体声对象信号的情况下,可以以相互非常类似的信号构成各通道信号的方式来配置特定时区中的特定频带上的信号。在这种情况下,如果指示解码器中的立体声对象信号的相关性的值高于阈值,则可以进行表示为公式28或公式29的处理,而不是使用交叉通道系数。
为了分析通道之间的相关性,能够使用测量通道间相干性等的方法。替换地,可以由编码器将关于立体声对象信号的通道间相干性的信息包括在位流中。替换地,编码器在具有高度相干性的时域/频域中将立体声对象信号处理成单声道信号。而且,编码器通过在具有低相干性的时域/频域中将立体声对象信号处理成立体声信号来对其执行编码。
作为第六实施例,可以存在使用选择性系数的方法。
例如,左信号被发送到右通道。如果在左通道中未包括右信号,则可以最好不使用w12而使用w21。因此,作为虽然使用交叉通道系数但仍利用每个交叉系数的替代,能够通过检查原始混合增益和重放混合增益来仅仅允许必要的交叉。
如前述说明所述,如果特定对象的摇摆改变,则可以只使用允许摇摆所需的交叉通道系数。如果另一对象的摇摆面向相反方向,则可以使用两个交叉通道系数。
例如,在使用w11、w12和w22的情况下,即在不使用w21的情况下,w11、w12和w22可以不同于完全利用四个系数w11~w22的情况的w11、w12和w22。在这种情况下,如以上说明所述,可通过对y_1_hat和y_2_hat进行建模及通过最小均方估计来使用w11、w12和w22。在这种情况下,由于使用w11和w12,所以y_1_hat等效于普通情况中的y_1_hat。因此,w11和w12实际上可以使用先前的值。然而,由于只使用w22,所以y_2_hat与只使用w2的情况的y_2_hat相同。因此,w22可以使用公式11的w22。
因此,本发明提出一种只根据需要允许单向交叉通道系数的方法。为了确定这一点,可使用原始混合增益和重放混合增益。
此外,在使用单向交叉通道系数的情况下,可以重新执行加权因数估计。
作为第七实施例,可以存在只使用交叉通道系数的方法。
对于具有极端摇摆特性的输入信号,在每个对象信号沿相反方向摇摆的情况下,只使用w21和w12可能比使用w11~w22更高效。为了只使用交叉通道系数,可利用以下条件。第一条件对应于输入信号的混合增益是否被摇摆到一侧。第二条件对应于横向地摇摆的对象信号是否沿相反方向摇摆。第三条件对应于满足第一和第二条件两者的对象的数目与对象的总数之间的关系。而且,第四条件对应于未能满足第一和第二条件两者的对象的原始摇摆状态和所请求的摇摆状态。然而,在第四条件的情况下,如果原始摇摆被摇摆到一侧且如果所请求的摇摆被摇摆到同一侧,则其在只使用交叉通道系数时可能不是有利的。
此外,可选择性地一起或部分地使用上述各种方法。
图3是解释根据本发明的实施例的更高效音频信号处理方法的流程图。
首先,能够接收其中至少一个对象信号被向下混合的向下混合信息[S310]。而且,能够获取其中包括对象信息的边信息和混合信息[S320]。
在这种情况下,对象信息可以包括对象信号的电平信息、相关性信息、增益信息及其附加信息中的至少一个。附加信息可以包括电平信息的附加信息、相关性信息的附加信息和增益信息的附加信息。例如,增益信息的附加信息可以包括对象信号的增益信息的实际值与其估计值之间的差信息。
可以基于对象信号的位置信息、增益信息和重放配置信息中的至少一个来生成混合信息。
可以基于边信息和混合信息来生成多个通道信息[S330]。而且,能够使用多个通道信息从向下混合信息生成输出通道信号[S340]。在以下说明中解释详细实施例。
图4是根据本发明的实施例的用于更高效地发送对象信号的音频信号处理装置的示意性框图。
参照图4,音频信号处理装置可以主要包括增强再混合编码器400、混合信号编码单元430、混合信号解码单元440、参数生成单元450和再混合再现(rendering)单元460。而且,增强再混合编码器400可以包括边信息生成单元410和再混合编码单元420。
在执行再混合再现单元460中的再现时,可能需要边信息来生成加权因数。例如,边信息可以包括源信号的混合增益估计值(ai_est、bi_est)、重放混合增益(ci、di)、能量(Ps)等。参数生成单元450可以使用边信息来生成加权因数。
根据本发明的一个实施例,增强再混合编码器400能够发送混合增益(ai、bi)的估计值、即混合增益估计值(ai_est、bi_est)作为边信息。混合增益估计值意指使用混合信号和各对象信号来估计混合增益值(ai、bi)。在发送混合增益估计值的情况下,能够使用混合增益估计值和ci/di来生成加权因数w11~w22。根据另一实施例,编码器可以具有实际上用于将各对象信号混合的ai/bi的实际值作为单独信息。例如,在编码器本身生成混合信号的情况下或在混合信号在外部生成的情况下,能够发送指示ai/bi被用于规定值的单独混合控制信息。
例如,如果ci/di意指用户所指定的再混合场景且如果ai/bi意指混合信号,则可以基于两个值之间的差来执行实际再现。
例如,如果控制信息指示对于ai=1且bi=1的特定对象来说ci=1且di=1.5,则其可以意指左通道信号保持原样为(ai->ci)且可以意指右通道信号的增益(bi->di)被放大0.5。
然而,如果只发送混合增益估计值(ai_est、bi_est)而不是上述示例中的ai/bi,则可能引起问题。由于通过编码器中的计算来估计混合增益估计值(ai_est、bi_est),则其可能具有不同于实际值ai和bi的值,即ai_est=0.9且bi_est=1.1。在这种情况下,在解码器中,不同于用户的实际意图(右通道只被放大0.5),左通道被放大对应于ai_est与ci之间的差的+0.1增益,且右通道被放大+0.4。即,控制可能不同于用户的意图。因此,如果发送了ai和bi的实际值以及混合增益估计值(ai_est、bi_est),则可以更具体地重构信号。
同时,如果用户的输入被作为增益和摇摆输入而不是被作为ci/di对接,则解码器能够通过将增益和摇摆变换成ci/di的形式来应用增益和摇摆。在这种情况下,可以参照ai/bi或ai_est/bi_est来执行变换。
根据另一实施例,在发送ai/bi、ai_est和bi_est的情况下,可以分别将其作为ai与ai_est之间的差值和bi与bi_est之间的差值来发送而不是作为PCM信号来发送。这是因为ai和ai_est及bi和bi_est具有非常类似的特性。例如,能够发送ai、ai_delta=ai-ai_est、和bi、bi_delta=bi-bi_est。
根据本发明的实施例,能够在发送混合信息时发送量化值。例如,当解码器使用ai/bi与ci/di之间的相对关系来执行再混合时,实际发送的值可以是ai_q/bi_q的量化值。在这种情况下,如果将量化ai_q/bi_q与实值ci/di相比较,则可以再次产生误差。因此,ci/di也可以使用ci_q/di_q的量化值。
同时,一般可以由用户将ci/di输入到解码器。此外,可以通过将其包括在位流中来将其作为预置值发送。在这种情况下,可以单独地或与边信息一起发送位流。
从编码器传送的位流可以包括包含向下混合信号、对象信息和预置信息的统一单位流。对象信息和预置信息可以被存储在向下混合信号位流的边区域中。替换地,可以将对象信息和预置信息作为独立位序列来存储或发送。例如,可以由第一位流来载送向下混合信号。可以由第二位流来载送对象信息和预置信息。根据另一实施例,可以由第一位流来载送向下混合信号和对象信息。而且,可以由第二位流来单独地载送预置信息。根据另一实施例,可以分别由三个单独位流来载送向下混合信号、对象信息和预置信息。
第一、第二和单独位流可以是相同的,或者可以以不同的位速率来发送。特别地,在音频信号的重构之后,可以将预置信息与向下混合信号或对象信息分离并随后将其存储或发送。
根据本发明的另一实施例,ci/di在必要时可以是随时间改变的值。特别地,其可以是表示为时间的函数的增益值。因此,为了将指示重放混合增益的用户混合参数表示为根据时间的值,则可以将其作为指示应用的计时点的时间戳来输入。
在这种情况下,时间索引可以是指示在时间轴上的应用以下ci/di的时间点的值。替换地,时间索引可以是指示混合音频信号的样本位置的值。替换地,在用帧单元来表示音频信号时,时间索引可以是指示帧位置的值。在样本值的情况下,其可以只由特定的取样单位来表示。
一般,对应于时间索引的ci/di的应用可以继续,直至新的时间索引和ci/di出现。同时,可以使用时间间隔值来代替时间索引。而且,时间间隔可以意指应用相应的ci/di的区段。
此外,能够在位流内定义标志信息,该标志信息指示是否执行再混合。如果标志信息指示错误,则在相应的区段中不发送ci/di,但是可以输出原始ai/bi的立体声信号。特别地,在相应区段中可以不进行再混合处理。在通过上述方法来构成ci/di位流的情况下,可以使位速率最小化。而且,还能够防止执行不期望的再混合。
图5是解释根据本发明的实施例的使用反向控制来处理对象信号的方法的流程图。
在执行基于对象的编码时,可能存在只需要控制部分对象信号的情况。例如,类似于无伴奏的情况,可利用留下特定对象信号但抑制其余对象信号的形式的混合。当存在声音以及背景音乐时,背景的音量被降低以增强对声音的收听。即,上述情况可以对应于改变的对象信号的数目大于未改变的对象信号的数目的情况或更复杂的情况。如果是这样,则执行反向处理并随后补偿总增益,由此可以进一步提高音响质量。例如,在无伴奏的情况下,在只有声音对象信号已被放大之后,可以补偿总增益以便匹配原始声音对象信号的增益值。
参照图5,首先,能够接收其中至少一个对象信号被向下混合的向下混合信息[S510]。而且,能够获取其中包括对象信息的边信息和混合信息[S520]。
在这种情况下,对象信息可以包括对象信号的电平信息、相关性信息、增益信息及其附加信息中的至少一个。附加信息可以包括电平信息的附加信息、相关性信息的附加信息和增益信息的附加信息。例如,增益信息的附加信息可以包括对象信号的增益信息的实际值与其估计值之间的差信息。而且,可以基于对象信号的位置信息、增益信息和重放配置信息中的至少一个来生成混合信息。
对象信号可以被区分成独立对象信号和背景对象信号。例如,使用标志信息,能够确定对象信号是独立对象信号还是背景对象信号。独立对象信号可以包括声音对象信号。背景对象信号可以包括伴奏对象信号。而且,背景对象信号可以包括至少一个基于通道的信号。此外,使用增强对象信号,能够将独立对象信号与背景对象信号相互区分开。例如,增强对象信息可以包括残留信号。
能够使用对象信息和混合信息来确定是否执行反向处理[S530]。在改变对象的数目大于未改变对象的数目的情况下,反向处理意指参照未改变对象来补偿增益。例如,在尝试改变伴奏对象的增益的情况下,如果要改变的伴奏对象的数目大于未改变声音对象的数目,则能够相反地改变具有较小数目的声音对象的增益。因此,如果执行反向处理,则能够获取用于增益补偿的反向处理增益值[S540]。而且,能够基于反向处理增益值来生成输出通道信号[S550]。
图6和图7是根据本发明的另一实施例的用于使用反向控制来处理对象信号的音频信号处理装置的框图。
参照图6,音频信号处理装置可以包括反向处理控制单元610、参数生成单元620、再混合再现单元630和反向处理单元640。
可以由反向处理控制单元610使用ai/bi和ci/di来执行对是否执行反向处理的确定。如果根据该确定来执行反向处理,则参数生成单元620生成相应的加权因数w11~w22,通过增益补偿来计算反向处理增益值,并随后将所计算的值发送到反向处理单元640。而且,再混合再现单元630基于加权因数来执行再现。
例如,可以如下给定ai/bi和ci/di:ai/bi={1/1,1/1,1/0.0/1};且ci/di={1/1,0.1/0.1,0.1/0,0/0.1}。这是为了将除第一对象信号之外的其余对象信号抑制成1/10。如果是这样,则能够使用以下反向加权因数比(ci_rev/di_rev)和反向处理增益来获取更接近于更特定的信号的信号。在这种情况下,ci_rev/di_rev={10/10,1/1,1/0,0/1}且reverse_gain=0.1。
根据本发明的另一实施例,可以在位流中包括指示特定对象信号的复杂性的标志信息。例如,能够定义指示对象信号的复杂性的存在或不存在的complex_object_flag。可以参照固定值或相对值来确定复杂性的存在或不存在。
例如,假设音频信号包括两个对象信号,对象信号之一是诸如MR(录制音乐)伴奏等背景音乐,且另一个是声音。背景音乐可以是由具有比声音多得多的乐器的组合构成的复杂对象信号。在这种情况下,如果发送complex_object_flag信息,则反向处理控制单元能够以简单的方式来确定是否执行反向处理。特别地,如果ci/di通过将背景音乐抑制-24dB来进行用于实现无伴奏的请求,则能够根据标志信息通过将声音相反地放大+24dB并随后将反向处理增益设置为-24dB来生成特定信号。这种方法可共同应用于整个时间或整个波段,或者可以仅仅选择性地适用于特定时间或波段。
在以下说明中,解释根据本发明的另一实施例的在极端摇摆发生的情况下执行反向处理的方法。
例如,可能接收到对使左通道上的大部分对象向右移位且使右通道上的对象向左移位的再混合请求。在这种情况下,作为上述方法的替代,在交换左右通道之后在交换状态下执行再混合可能更加高效。
参照图7,音频信号处理装置可以包括反向处理控制单元710、通道交换单元720、再混合再现单元730和参数生成单元740。
反向处理控制单元710能够通过ai/bi和ci/di的分析来确定是否交换对象信号。如果根据该确定优选的是执行交换,则通道交换单元720执行通道交换。再混合再现单元730使用经通道交换的音频信号来执行再现。在这种情况下,可以参照交换的通道来生成加权因数w11~w22。
例如,假设ai/bi={1/0,1/0,0.5/0.5,0/1}且ci/di={0/1,0.1/0.9,0.5/0.5,1/0}。如果要执行上述摇摆,则应对第一、第二和第四对象信号执行非常极端的摇摆。在这种情况下,如果由本发明来执行通道交换,则不需要改变第一、第三和第四对象信号,但是需要细微地调整第二对象信号。
这种方法可共同地适用于整个时间或整个波段,或者可以仅仅选择性地适用于特定时间或波段。
提出了一种根据本发明的实施例的高效地处理高相关性的对象信号的方法。
可能频繁地发生的是,用于再混合的对象信号包括立体声对象信号。在立体声对象信号的情况下,通过将每个通道(L/R)视为独立单声道对象来发送独立参数,且可以使用发送的参数来执行再混合。同时,在再混合中,能够发送信息来指示对于立体声对象来说什么种类的两个对象被耦合以构成立体声对象信号。例如,能够将该信息定义为src_type。而且,能够发送每个对象的src_type。
又例如,可能存在立体声对象信号之中的左右通道信号实际上具有几乎相同的值的情况。在这种情况下,将左/右通道信号处理为单声道对象信号而不是将左/右通道信号处理为立体声对象信号促进再混合,且能够降低传输所需的位速率。
例如,如果输入了立体声对象信号,则能够确定是将其视为再混合编码器内的单声道对象信号还是立体声对象信号。而且,可以在位序列中包括相应的参数。在这种情况下,在将其作为立体声对象信号进行处理的情况下,对于左右声道来说分别需要一对ai/bi。在这种情况下,优选的是,用于左声道的bi为零。而且,优选的是,用于右声道的ai为零。此外,还需要源的一对功率(Ps)。
又例如,如果左右对象信号基本上是相同的信号,或者如果它们是具有高相关性的信号,则能够生成由两个信号的和得到的虚拟对象信号。此外,参照该虚拟对象信号来生成并发送ai/bi和Ps。如果通过此类方法来发送ai/bi和Ps,则能够降低位速率。当在解码器中执行再现时,能够省略不必要的摇摆动作。因此,解码器可以更稳定地操作。
在这种情况下,可以以各种方式来生成单声道向下混合信号。例如,可能存在将左对象信号与右对象信号加在一起的方法。替换地,可能存在将相加的对象信号除以归一化增益值的方法。因此,根据其是如何生成的,可以改变发送的ai/bi和Ps的值。
此外,能够发送能够辨别特定对象信号是单声道还是立体声或作为立体声的特定对象信号是否被编码器再现成单声道信号的信息。在这种情况下,在解码器中的ci/di对接的情况下可以保持兼容性。例如,在单声道的情况下,能够确定src_type=0。在立体声中的左通道信号的情况下,能够确定src_type=1。在立体声中的右声道信号的情况下,能够确定src_type=2。在将立体声信号向下混合成单声道信号的情况下,能够确定src_type=3。
同时,解码器能够接收用于左声道信号的ci/di和用于右声道信号的ci/di以用于立体声对象信号的控制。在对象信号的‘src_type=3’的情况下,可能优选的是,将用于左声道信号的ci/di和用于右声道信号的ci/di加在一起。一种相加可以采用生成虚拟对象信号的方法。
这种方法可共同地适用于整个时间或整个波段,或者可以仅仅选择性地适用于特定时间或波段。
根据本发明的另一实施例,在使得每个对象信号与每个通道信号以1∶1匹配的情况下,能够使用标志信息来减少传输量。在这种情况下,可以通过简单的混合处理而不是应用用于实际再现的每个再混合算法来执行再现。
例如,如果存在两个对象信号Obj 1和Obj 2且如果用于Obj 1和Obj 2的ai/bi是{1/0,0/1},则Obj 1只存在于混合信号的左通道信号中,且Obj 2只存在于混合信号的右通道信号中。在这种情况下,由于可以从混合信号中提取源功率(Ps),所以不需要将其单独发送。此外,在执行再现的情况下,可以直接从ci/di与ai/bi的关系来获取加权因数(w11~w22),且不单独地请求使用PS的操作。因此,在上述示例的情况下,还使用相关标志信息来进一步促进处理。
图8是根据本发明的实施例的包含关于对象的元信息的位流的结构图。
在基于对象的音频编码中,可以接收关于对象的元信息。例如,在用于将多个对象向下混合成单声道或立体声信号的处理中,可以从每个对象信号提取元信息。而且,可以通过由用户进行的选择来控制元信息。
在这种情况下,元信息可以意指元数据。特别地,元数据是关于数据的数据且可以意指用于描述信息源的属性的数据。即,不是要基本上被存储的数据(例如视频、音频等)本身的元数据意指用于提供直接或间接地与相应数据相关联的信息的数据。如果使用此类元数据,则能够检查用户特定数据是否正确,并且可以轻易且快速地得到特定数据。即,在处理数据方面保证了管理简易化,且在使用数据的方面保证了搜索简易化。
在基于对象的音频编码中,元信息可以意指指示对象的属性的信息。例如,元信息能够指示构成音响源的多个对象信号中的每一个是对应于声音对象还是背景对象。而且,元信息能够指示声音对象是用于左通道还是右通道的对象。此外,元信息能够指示背景对象对应于钢琴对象、鼓对象、吉他对象或其它乐器对象。
同时,位流可以意指一组参数或数据,或者可以意指为了传输或存储而被压缩的一般位流。此外,可以以广泛的意义将位流解释为指示被表示为位流之前的参数的类型。解码设备能够从基于对象的位流获取对象信息。在以下说明中,将解释包括在基于对象位流中的信息。
参照图8,基于对象的位流可以包括报头和数据。报头1可以包括元信息、参数信息等等。元信息可以包括以下信息。例如,元信息可以包括对象名称、指示对象的对象索引、关于对象的详细属性信息(对象特性)、关于对象数目的信息、元数据描述信息、关于元数据字符的数目的信息(字符数目)、元数据的字符信息(一个单字符)、元数据标志信息等等。
在这种情况下,对象名称可以意指指示诸如声音对象、乐器对象、吉他对象、钢琴对象等对象的属性的信息。指示对象的对象索引可以意指用于对关于对象的属性信息分配索引的信息。例如,向每个乐器名称分配索引以预先定义表格。关于对象的详细属性信息(对象特性)可以意指关于子对象的单独属性信息。在这种情况下,子对象可以在类似对象被分组成单组对象时意指类似对象中的每一个。例如,在声音对象的情况下,存在指示左通道对象的信息和指示右通道对象的信息。
此外,对象的数目信息(对象数目)可以意指用于发送基于对象的音频信号参数的对象的数目。元数据描述信息可以意指用于编码的对象的元数据的描述信息。元数据的字符信息(一个单字符)可以意指单个对象的元数据的每个字符。元数据标志信息可以意指指示是否将发送编码的对象的元数据信息的标志。
同时,参数信息可以包括取样频率、子带数目、源信号的数目、源类型等等。而且,参数信息可以选择性地包括源信号的重放配置信息。
数据可以包括至少一个帧数据。必要时,数据可以包括报头(报头2)以及帧数据。在这种情况下,报头2可以包括需要更新的信息。
帧数据能够包括关于包括在每个帧中的数据类型的信息。例如,在第一数据类型(类型0)的情况下,帧数据可以包括最少信息。特别地,帧数据可以只包括与边信息相关的源功率。在第二数据类型(类型1)的情况下,帧数据可以包括另外更新的增益。在第三或第四数据类型的情况下,可以将帧数据分配为保留区域以供将来使用。如果位流被用于广播,则保留区域可以包括匹配广播信号的调谐所需的信息(例如取样频率、子带数目等)。
图9是根据本发明的实施例的用于高效地发送音频信号的语法结构的图示。
传送与帧内的划分(频带)的数目一样多的源功率(Ps)。划分是基于心理学音响模型的不均匀波段。而且,一般使用约20个划分。因此,对于每个源信号传送20个源功率。每个量化源功率具有正值。而且,通过差分编码来传送源功率比作为线性PCM信号来传送源功率更有利。此外,可以通过选择时间差分编码、频率差分编码和BC(基于导频的编码)中的最佳一个来选择性地传送源功率。在立体声源的情况下,能够从耦合源发送差值。在这种情况下,源功率的差值可以具有正号或负号。
通过霍夫曼编码来传送差分编码源功率值。在这种情况下,霍夫曼编码表格包括仅处理正值的表格和处理正值和负值两者的表格。在使用只具有正值的无符号表格的情况下,单独地传送对应于符号的位。
本发明提出一种在使用无符号霍夫曼表格时传送符号位的方法。
在不传送每个差值样本的符号位的情况下,能够共同地传送对应于单个划分的20个差值的符号位。在这种情况下,能够传送标志uni_sign,来指示相同的符号是否被用于传送的符号位。如果uni_sign被设置为1,则意味着20个差值的符号彼此相同。如果是这样,则在不传送每样本符号位时,只传送1位全符号位。如果uni_sign被设置为0,则对每个差值传送符号位。在这种情况下,对于具有被设置为0的差值的样本,不传送符号位。如果20个差值全部为零,则不传送标志uni_sign。
通过上述方法,能够分别减少用于符号具有相同差值的区域中的符号位传输所需的位的数目。在实际源功率值的情况下,由于源信号在时域中具有瞬变特性,所以时间差值常常具有单个符号。因此,根据本发明的信号发送方法具有良好的效率。
图10至12是解释根据本发明的实施例的用于发送源功率的无损耗编码处理的图示。
参照图10,示出了用于发送源功率的无损耗编码处理。在已经生成时间轴或频率轴上的差分信号之后,使用在压缩方面最有利的霍夫曼码本来对差分PCM值执行编码。
在所有差分值为零的情况下,可以将其视为Huff_AZ的情况。在这种情况下,实际上不发送差值,且解码器能够通过已经采用Huff_AZ这一事实而知道它们全部为零。相对可能的是,差分值的幅值小。而且,还相对可能的是,差分值具有零值。因此,用于对两个或四个差分值中的每对进行编码的2D/4D霍夫曼编码方法可能是高效的。用于每个表格的编码的最大绝对值可以相互不同。一般,优选的是4D表格具有被设置为1的非常低的最大值。
在无符号霍夫曼编码的情况下,可应用使用上述uni_sign的符号编码方法。
同时,可选择性地从相互具有不同统计特性的多个表格中获取每个维度中的霍夫曼表。而且,能够根据FREQ_DIFF或TIME_DIFF来使用不同的表格。可以将指示使用什么种类的差分信号或霍夫曼编码的标志单独地包括在位流中。
为了使得使用位时的浪费最小化,能够使用标志来定义不使用编码方法的特定组合。例如,如果很少使用Freq_diff与Huff_4D的组合,则不采用该相应组合的编码。
由于频繁地使用标志的组合,所以能够通过经由霍夫曼编码来发送相应索引而另外压缩数据。
参照图11,示出了无损耗编码方法的另一示例。在差分编码方法中,可以存在各种示例。例如,CH_DIFF是使用对应于立体声对象信号的通道的源之间的差分值的发送方法。而且,可以存在基于导频的差分编码、时间差分编码等等。在时间差分编码的情况下,添加其中选择使用PWD或BWD的编码方法。在霍夫曼编码的情况下,添加有符号霍夫曼编码。
一般,在处理立体声对象信号时,能够将对象信号的每个通道处理为独立对象信号。例如,可以以将第一通道(例如左通道)信号视为s_i的独立单声道对象信号且将第二通道(例如右通道)信号视为s_i+1的独立单声道对象信号的方式来执行处理。如果是这样,则传送的对象信号的功率变成Ps_i或Ps_i+1。然而,在立体声对象信号的情况下,两个通道之间的特性常常相互类似。因此,可能有利的是在编码时一起考虑Ps_i和Ps_i+1两者。图10示出用于此耦合的示例。Ps_i的编码遵循图8和图9所示的方法,Ps_i+1的编码得出Ps_i与Ps_i+1之间的差,且对该差进行编码和发送。
如下解释根据本发明的另一实施例的使用通道间类似性来处理音频信号的方法。
作为第一实施例,可以存在使用源功率和通道间水平差的方法。将特定通道的源功率量化并随后发送。可以从相对于特定通道的源功率的值获取另一通道的源功率。在这种情况下,相对值可以包括功率比(例如Ps_i+1/Ps_i)或从对功率值取对数获取的值之间的差分值。例如,差分值包括10log10(Ps_i+1)-10log10(Ps_i)=10log10(Ps_i+1/Ps_i)。替换地,能够在量化之后发送索引差值。
如果使用上述形式,则立体声信号的通道的源功率具有相互非常类似的值。而且,其对于量化和压缩传输是非常有利的。如果在量化之前得到差分值,则能够发送更精确的源功率。
作为第二实施例,可以存在使用源功率或原始信号的和及差的方法。在这种情况下,传输效率比在发送原始通道信号时好。而且,在量化误差的平衡方面可能是高效的。
参照图12,能够只将耦合用于特定频域。而且,可以在位流中包括关于具有在其中发生的耦合的频域的信息。通常,例如,左右通道在低频带上的信号中具有类似特性。而且,在高频带上的信号中左右通道之间可能存在大的差异。因此,如果在频带上执行耦合,则能够提高压缩效率。如下解释执行耦合的各种方法。
例如,可以只对低频带上的信号执行耦合。在这种情况下,由于只对预置波段执行耦合,所以不需要单独地发送关于应用耦合的频带的信息。替换地,可以存在发送关于执行耦合的波段的信息的方法。编码器任意地确定将在其上面执行耦合的波段并将关于执行耦合的波段的信息包括在位流中。
替换地,可以存在使用耦合索引的方法。索引被给定给发生耦合的波段的可能组合且该索引随后被实际发送。例如,在通过将波段划分成20个频带来执行处理的情况下,能够根据表1中所示的索引而知道哪些波段被耦合。
[表1]
索引 | 0 | 1 | 2 | 3 |
耦合 | 0~3波段 | 0~7波段 | 0~12波段 | 0~19波段 |
可以将预定索引用作索引。替换地,可以通过确定相应内容的最佳值来发送索引表。替换地,能够将独立的值用于每个立体声对象信号。
如下解释根据本发明的实施例的获取指示成组对象之间的相关性的信息的方法。
首先,在处理基于对象的音频信号时,将构成输入信号的单个对象处理为独立对象。例如,在构成声音的立体声信号的情况下,通过将左通道信号或右通道信号每个识别为单个对象来进行处理。如果用这种方法来配置对象信号,则在具有相同来源的对象之间可能存在相关性。如果使用相关性来执行编码,则将可能有更高效的编码。例如,在由立体声信号的左通道信号构成的对象与由其右通道信号构成的对象之间可能存在相关性。而且,发送关于相关性的信息以便使用。
通过将之间具有相关性的对象分组并通过发送分组对象所共用的信息一次,可以进行更高效的编码。
当单个对象是立体声或多通道对象的一部分时,作为由位流载送的信息的bsRelatedTo可以是指示其它对象对应于同一立体声或多通道对象的一部分的信息。bsRelatedTo可以从位流获取1位信息。例如,如果bsRelatedTo[i][j]=1,则其意味着对象i和j对应于同一立体声或多通道对象的通道。
基于bsRelatedTo值,能够检查对象是否构成组。通过检查每个对象的bsRelatedTo值,能够检查关于对象间相关性的信息。对于存在相关性的分组对象,可以通过将同一信息(例如元信息)发送一次来实现更高效的编码。
图13是解释根据本发明的实施例的用户接口的图示。
首先,主控制窗口可以包括音乐列表区域、一般播放控制区域和再混合控制区域。例如,音乐列表区域可以包括至少一个样本音乐。一般播放控制区域可以控制播放、暂停、停止、FF(快进)、Rew(快退)、位置滑动、音量等等。再混合控制区域可以包括子窗口区域。子窗口区域可以包括增强控制区域。而且,在增强控制区域中可以控制用户特定项。
在CD播放器的情况下,用户能够通过在CD播放器中加载CD来收听音乐。在PC播放器的情况下,如果用户在PC中加载磁盘,则自动地执行再混合播放器。而且,可以从播放器的文件列表中选择要播放的音乐。播放器读取记录在CD和文件*.rms中的PCM声源以便自动地播放。播放器能够执行完全再混合控制以及一般播放控制。作为完全再混合控制的示例,存在音轨控制或摇摆控制。而且,可获取简易再混合控制。在进入简易再混合控制模式的情况下,多个功能是可控的。例如,简易再混合控制模式可以意指能够轻易地控制诸如卡拉OK和无伴奏等特定对象的简易控制窗口。在子窗口区域中,用户能够执行详细控制。
如前述说明所述,根据本发明的信号处理装置被提供给诸如DMB(数字多媒体广播)等多媒体广播的发送机/接收机并用于将音频信号、数据信号等解码。此外,多媒体广播发送机/接收机可以包括移动通信终端。
此外,根据本发明的信号处理装置可以在程序记录介质中实现为计算机可读代码。计算机可读介质包括其中存储计算机系统可读数据的各种各样的记录设备。计算机可读介质包括例如ROM、RAM、CD-ROM、磁带、软盘、光学数据存储设备等等,并且包括载波型实施方式(例如经由因特网的传输)。而且,由信号处理方法生成的位流被存储在计算机可读记录介质中,或者可以经由有线/无线通信网络来传送。
工业实用性
虽然在本文中已参照本发明的优选实施例描述并示出了本发明,但对于本领域的技术人员来说显而易见的是,在不脱离本发明的精神和范围的情况下,可以在其中进行各种修改和变更。因此,意图在于,本发明涵盖属于随附权利要求及其等价物范围内的本发明的修改和变更。
Claims (14)
1.一种处理音频信号的方法,包括:
接收至少一个向下混合对象信号的向下混合信号;
获取包括对象信息的边信息、以及混合信息;
基于所述边信息和所述混合信息来生成多个通道信息;以及
使用所述多个通道信息而从所述向下混合信号生成输出通道信号,
其中,所述对象信息包括对象信号的电平信息、所述对象信号的相关性信息、所述对象信号的增益信息及其附加信息,所述附加信息包括所述对象信号的所述增益信息的实际值与其估计值之间的差信息。
2.一种处理音频信号的方法,包括:
接收至少一个向下混合对象信号的向下混合信号;
获取包括对象信息的边信息、以及混合信息;
基于所述边信息和所述混合信息来生成多个通道信息;以及
使用所述多个通道信息而从所述向下混合信号生成输出通道信号,
其中,所述对象信息包括所述对象信号的电平信息、所述对象信号的相关性信息、所述对象信号的增益信息,并且其中,所述混合信息包括被量化的预置信息。
3.如权利要求1或权利要求2所述的方法,还包括获取指示对象是否被彼此分组的耦合信息,
其中,基于所述耦合信息来获取所述对象信号的相关性信息。
4.如权利要求3所述的方法,还包括获取基于所述耦合信息而分组的对象所共用的一个元信息。
5.如权利要求4所述的方法,其中,所述元信息包括元数据的字符数目和所述元数据的每个字符信息。
6.一种处理音频信号的方法,包括:
接收至少一个向下混合对象信号的向下混合信号;
获取包括对象信息和耦合信息的边信息、以及混合信息;
基于所述边信息和所述混合信息来生成多个通道信息;以及
使用所述多个通道信息而从所述向下混合信号生成输出通道信号,
其中,所述对象信号被区分为独立对象信号和背景对象信号,
其中,所述对象信息包括所述对象信号的电平信息、所述对象信号的相关性信息、以及所述对象信号的增益信息,以及
其中,基于所述耦合信息来获取所述对象信号的所述相关性信息。
7.如权利要求6所述的方法,其中,所述独立对象信号包括声音对象信号。
8.如权利要求6所述的方法,其中,所述背景对象信号包括伴奏对象信号。
9.如权利要求6所述的方法,其中,所述背景对象信号包括至少一个基于通道的信号。
10.如权利要求6所述的方法,其中,基于标志信息而将所述对象信号区分为所述独立对象信号和所述背景对象信号。
11.如权利要求6所述的方法,还包括:
使用所述对象信息和所述混合信息来确定是否执行反向处理;以及
当根据所述确定执行所述反向处理时,获取用于增益补偿的反向处理增益值,
其中,如果修改对象的数目大于未修改对象的数目,则所述反向处理指示参照所述未修改对象来执行所述增益补偿,并且其中,基于所述反向处理增益值来生成所述输出通道信号。
12.一种用于处理音频信号的装置,包括:
向下混合处理单元,接收至少一个向下混合对象信号的向下混合信号;
信息生成单元,获取包括对象信息的边信息、以及混合信息,该信息生成单元基于所述边信息和所述混合信息来生成多个通道信息;以及
多通道解码单元,使用所述多个通道信息而从所述向下混合信号生成输出通道信号,
其中,所述对象信息包括所述对象信号的电平信息、所述对象信号的相关性信息、所述对象信号的增益信息及其附加信息,所述附加信息包括所述对象信号的所述增益信息的实际值与其估计值之间的差信息。
13.一种用于处理音频信号的装置,包括:
向下混合处理单元,接收至少一个向下混合对象信号的向下混合信号;
信息生成单元,获取包括对象信息的边信息、以及混合信息,该信息生成单元基于所获取的边信息和所获取的混合信息来生成多个通道信息;以及
多通道解码单元,使用所述多个通道信息而从所述向下混合信号生成输出通道信号,
其中,所述对象信息包括所述对象信号的电平信息、所述对象信号的相关性信息、所述对象信号的增益信息,并且其中,所述混合信息包括被量化的预置信息。
14.一种用于处理音频信号的装置,包括:
向下混合处理单元,接收至少一个向下混合对象信号的向下混合信号;
信息生成单元,获取包括对象信息和耦合信息的边信息、以及混合信息,该信息生成单元基于所述边信息和所述混合信息来生成多个通道信息;以及
多通道解码单元,使用所述多个通道信息而从所述向下混合信号生成输出通道信号,
其中,所述对象信号被区分为独立对象信号和背景对象信号,
其中,所述对象信息包括所述对象信号的电平信息、所述对象信号的相关性信息、以及所述对象信号的增益信息,以及
其中,基于所述耦合信息来获取所述对象信号的相关性信息。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US94296707P | 2007-06-08 | 2007-06-08 | |
US60/942,967 | 2007-06-08 | ||
PCT/KR2008/003201 WO2008150141A1 (en) | 2007-06-08 | 2008-06-09 | A method and an apparatus for processing an audio signal |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103299363A CN103299363A (zh) | 2013-09-11 |
CN103299363B true CN103299363B (zh) | 2015-07-08 |
Family
ID=40093881
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200880100488.8A Active CN103299363B (zh) | 2007-06-08 | 2008-06-09 | 用于处理音频信号的方法和装置 |
Country Status (7)
Country | Link |
---|---|
US (1) | US8644970B2 (zh) |
EP (2) | EP2278582B1 (zh) |
JP (1) | JP5291096B2 (zh) |
KR (1) | KR101049144B1 (zh) |
CN (1) | CN103299363B (zh) |
ES (1) | ES2593822T3 (zh) |
WO (1) | WO2008150141A1 (zh) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010090019A1 (ja) * | 2009-02-04 | 2010-08-12 | パナソニック株式会社 | 結合装置、遠隔通信システム及び結合方法 |
PL3093843T3 (pl) | 2009-09-29 | 2021-06-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Dekoder sygnału audio MPEG-SAOC, koder sygnału audio MPEG-SAOC, sposób dostarczania reprezentacji sygnału upmixu z wykorzystaniem dekodowania MPEG-SAOC, sposób dostarczania reprezentacji sygnału downmixu z wykorzystaniem dekodowania MPEG-SAOC oraz program komputerowy wykorzystujący wspólną wartość parametru korelacji międzyobiektowej zależną od czasu/częstotliwości |
EP2491553B1 (en) | 2009-10-20 | 2016-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, method for encoding an audio information, method for decoding an audio information and computer program using an iterative interval size reduction |
US9305550B2 (en) * | 2009-12-07 | 2016-04-05 | J. Carl Cooper | Dialogue detector and correction |
CN102859583B (zh) | 2010-01-12 | 2014-09-10 | 弗劳恩霍弗实用研究促进协会 | 利用对数值先前脉络值的数字表示之修改的音频编码器、音频解码器、编码音频信息的方法及解码音频信息的方法 |
JP5719966B2 (ja) | 2011-04-08 | 2015-05-20 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 2つのエンコードされたビットストリームからのオーディオストリームの混合において使用するためのメタデータの自動設定 |
IL302167B2 (en) * | 2011-07-01 | 2024-11-01 | Dolby Laboratories Licensing Corp | A system and method for producing, encoding and realizing a given voice signal |
BR112014004129A2 (pt) | 2012-07-02 | 2017-06-13 | Sony Corp | dispositivos e métodos de decodificação e de codificação, e, programa |
TWI517142B (zh) | 2012-07-02 | 2016-01-11 | Sony Corp | Audio decoding apparatus and method, audio coding apparatus and method, and program |
EP2741285B1 (en) | 2012-07-02 | 2019-04-10 | Sony Corporation | Decoding device and method, encoding device and method, and program |
AU2013284705B2 (en) | 2012-07-02 | 2018-11-29 | Sony Corporation | Decoding device and method, encoding device and method, and program |
EP2863657B1 (en) | 2012-07-31 | 2019-09-18 | Intellectual Discovery Co., Ltd. | Method and device for processing audio signal |
EP2717265A1 (en) | 2012-10-05 | 2014-04-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and methods for backward compatible dynamic adaption of time/frequency resolution in spatial-audio-object-coding |
KR20140046980A (ko) | 2012-10-11 | 2014-04-21 | 한국전자통신연구원 | 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법 |
WO2014058138A1 (ko) * | 2012-10-12 | 2014-04-17 | 한국전자통신연구원 | 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치 |
KR20140047509A (ko) | 2012-10-12 | 2014-04-22 | 한국전자통신연구원 | 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치 |
MX345692B (es) * | 2012-11-15 | 2017-02-10 | Ntt Docomo Inc | Dispositivo codificador de audio, metodo de codificacion de audio, programa de codificacion de audio, dispositivo decodificador de audio, metodo de decodificacion de audio, y programa de decodificacion de audio. |
JP5591423B1 (ja) | 2013-03-13 | 2014-09-17 | パナソニック株式会社 | オーディオ再生装置およびオーディオ再生方法 |
US20140358565A1 (en) * | 2013-05-29 | 2014-12-04 | Qualcomm Incorporated | Compression of decomposed representations of a sound field |
KR101790641B1 (ko) | 2013-08-28 | 2017-10-26 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 하이브리드 파형-코딩 및 파라미터-코딩된 스피치 인핸스 |
EP3657823A1 (en) | 2013-11-28 | 2020-05-27 | Dolby Laboratories Licensing Corporation | Position-based gain adjustment of object-based audio and ring-based channel audio |
EP3127110B1 (en) | 2014-04-02 | 2018-01-31 | Dolby International AB | Exploiting metadata redundancy in immersive audio metadata |
JP6360253B2 (ja) * | 2014-09-12 | 2018-07-18 | ドルビー ラボラトリーズ ライセンシング コーポレイション | サラウンドおよび/または高さスピーカーを含む再生環境におけるオーディオ・オブジェクトのレンダリング |
CN110447071B (zh) * | 2017-03-28 | 2024-04-26 | 索尼公司 | 信息处理装置、信息处理方法和记录程序的可拆卸介质 |
CN110321619B (zh) * | 2019-06-26 | 2020-09-15 | 深圳技术大学 | 基于声音数据的参数化定制模型生成方法 |
CN114621395B (zh) * | 2020-12-11 | 2024-05-17 | 中国科学院上海光学精密机械研究所 | 用于单光束超分辨光存储的荧光聚合材料及其光存储方法 |
WO2022158943A1 (ko) * | 2021-01-25 | 2022-07-28 | 삼성전자 주식회사 | 다채널 오디오 신호 처리 장치 및 방법 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6952677B1 (en) * | 1998-04-15 | 2005-10-04 | Stmicroelectronics Asia Pacific Pte Limited | Fast frame optimization in an audio encoder |
WO2006084916A2 (en) * | 2005-02-14 | 2006-08-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Parametric joint-coding of audio sources |
WO2006126844A2 (en) * | 2005-05-26 | 2006-11-30 | Lg Electronics Inc. | Method and apparatus for decoding an audio signal |
WO2007013775A1 (en) * | 2005-07-29 | 2007-02-01 | Lg Electronics Inc. | Mehtod for generating encoded audio signal and method for processing audio signal |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100978018B1 (ko) | 2002-04-22 | 2010-08-25 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 공간 오디오의 파라메터적 표현 |
US7447317B2 (en) * | 2003-10-02 | 2008-11-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V | Compatible multi-channel coding/decoding by weighting the downmix channel |
US7394903B2 (en) * | 2004-01-20 | 2008-07-01 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal |
CN102176311B (zh) * | 2004-03-01 | 2014-09-10 | 杜比实验室特许公司 | 多信道音频编码 |
SE0400998D0 (sv) * | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Method for representing multi-channel audio signals |
KR100682904B1 (ko) * | 2004-12-01 | 2007-02-15 | 삼성전자주식회사 | 공간 정보를 이용한 다채널 오디오 신호 처리 장치 및 방법 |
US7573912B2 (en) | 2005-02-22 | 2009-08-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. | Near-transparent or transparent multi-channel encoder/decoder scheme |
US7961890B2 (en) * | 2005-04-15 | 2011-06-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. | Multi-channel hierarchical audio coding with compact side information |
US8082157B2 (en) * | 2005-06-30 | 2011-12-20 | Lg Electronics Inc. | Apparatus for encoding and decoding audio signal and method thereof |
EP1913577B1 (en) | 2005-06-30 | 2021-05-05 | Lg Electronics Inc. | Apparatus for encoding an audio signal and method thereof |
EP1906706B1 (en) | 2005-07-15 | 2009-11-25 | Panasonic Corporation | Audio decoder |
US20080075779A1 (en) | 2006-09-27 | 2008-03-27 | Chappa Ralph A | Additives And Methods For Enhancing Active Agent Elution Kinetics |
WO2008069594A1 (en) * | 2006-12-07 | 2008-06-12 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
US8463605B2 (en) * | 2007-01-05 | 2013-06-11 | Lg Electronics Inc. | Method and an apparatus for decoding an audio signal |
-
2008
- 2008-06-09 CN CN200880100488.8A patent/CN103299363B/zh active Active
- 2008-06-09 EP EP10013592.0A patent/EP2278582B1/en not_active Not-in-force
- 2008-06-09 ES ES10013592.0T patent/ES2593822T3/es active Active
- 2008-06-09 KR KR1020107000172A patent/KR101049144B1/ko active IP Right Grant
- 2008-06-09 WO PCT/KR2008/003201 patent/WO2008150141A1/en active Application Filing
- 2008-06-09 US US12/602,946 patent/US8644970B2/en active Active
- 2008-06-09 JP JP2010511125A patent/JP5291096B2/ja active Active
- 2008-06-09 EP EP08766163A patent/EP2158587A4/en not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6952677B1 (en) * | 1998-04-15 | 2005-10-04 | Stmicroelectronics Asia Pacific Pte Limited | Fast frame optimization in an audio encoder |
WO2006084916A2 (en) * | 2005-02-14 | 2006-08-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Parametric joint-coding of audio sources |
WO2006126844A2 (en) * | 2005-05-26 | 2006-11-30 | Lg Electronics Inc. | Method and apparatus for decoding an audio signal |
WO2007013775A1 (en) * | 2005-07-29 | 2007-02-01 | Lg Electronics Inc. | Mehtod for generating encoded audio signal and method for processing audio signal |
Non-Patent Citations (2)
Title |
---|
Improved Forward-Adaptive Prediction for MPEG-4 audio lossless coding;Tilman Liebchen et al.;《AES 118th Convention paper》;20050531;全文 * |
The MPEG-4 audio lossless coding (ALS) standard- Technology and applications;Tilman Liebchen et al.;《AES 119th Convention paper》;20051010;全文 * |
Also Published As
Publication number | Publication date |
---|---|
JP5291096B2 (ja) | 2013-09-18 |
ES2593822T3 (es) | 2016-12-13 |
CN103299363A (zh) | 2013-09-11 |
KR101049144B1 (ko) | 2011-07-18 |
KR20100024477A (ko) | 2010-03-05 |
EP2278582A2 (en) | 2011-01-26 |
JP2010529500A (ja) | 2010-08-26 |
WO2008150141A1 (en) | 2008-12-11 |
EP2278582B1 (en) | 2016-08-10 |
US8644970B2 (en) | 2014-02-04 |
EP2158587A4 (en) | 2010-06-02 |
EP2278582A3 (en) | 2011-02-16 |
US20100145487A1 (en) | 2010-06-10 |
EP2158587A1 (en) | 2010-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103299363B (zh) | 用于处理音频信号的方法和装置 | |
CN101542597B (zh) | 用于编码和解码基于对象的音频信号的方法和装置 | |
CN101553868B (zh) | 用于处理音频信号的方法和装置 | |
CN102779512B (zh) | 对多声道音频信号进行编码/解码的系统和方法 | |
CA2669091C (en) | A method and an apparatus for decoding an audio signal | |
CN1647156B (zh) | 参数编码方法、参数编码器、用于提供音频信号的设备、解码方法、解码器、用于提供解码后的多声道音频信号的设备 | |
CN1947172B (zh) | 方法、装置、编码器设备、解码器设备以及音频系统 | |
RU2007120634A (ru) | Стереофонически совместимое кодирование многоканального звука | |
AU2005204715A1 (en) | Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal | |
US11096002B2 (en) | Energy-ratio signalling and synthesis | |
CN101484936A (zh) | 音频解码 | |
CN101903943A (zh) | 用于处理信号的方法和装置 | |
RU2417459C2 (ru) | Способ и устройство для декодирования аудиосигнала | |
JP5680391B2 (ja) | 音響符号化装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |