CN104054126B - 空间音频渲染和编码 - Google Patents
空间音频渲染和编码 Download PDFInfo
- Publication number
- CN104054126B CN104054126B CN201380005998.8A CN201380005998A CN104054126B CN 104054126 B CN104054126 B CN 104054126B CN 201380005998 A CN201380005998 A CN 201380005998A CN 104054126 B CN104054126 B CN 104054126B
- Authority
- CN
- China
- Prior art keywords
- contracting
- mixed
- audio
- signal
- diffusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000009792 diffusion process Methods 0.000 claims abstract description 281
- 238000009877 rendering Methods 0.000 claims abstract description 76
- 238000006243 chemical reaction Methods 0.000 claims abstract description 19
- 238000000034 method Methods 0.000 claims description 74
- 238000002156 mixing Methods 0.000 claims description 49
- 239000000203 mixture Substances 0.000 claims description 20
- 230000004044 response Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 description 26
- 230000008859 change Effects 0.000 description 9
- 230000002349 favourable effect Effects 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 9
- 230000004069 differentiation Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 230000006978 adaptation Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 230000008447 perception Effects 0.000 description 6
- 230000007480 spreading Effects 0.000 description 6
- 238000003892 spreading Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000013519 translation Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 241001342895 Chorus Species 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 235000009508 confectionery Nutrition 0.000 description 3
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 230000004899 motility Effects 0.000 description 2
- 238000004091 panning Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 208000030984 MIRAGE syndrome Diseases 0.000 description 1
- 238000005267 amalgamation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000010181 polygamy Effects 0.000 description 1
- TVLSRXXIMLFWEO-UHFFFAOYSA-N prochloraz Chemical compound C1=CN=CN1C(=O)N(CCC)CCOC1=C(Cl)C=C(Cl)C=C1Cl TVLSRXXIMLFWEO-UHFFFAOYSA-N 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000000527 sonication Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/12—Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/308—Electronic adaptation dependent on speaker or headphone connection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
- H04S3/004—For headphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一种编码器(501)生成通过第一缩混和表征音频对象的数据来表示音频场景的数据。此外,指示残余缩混的扩散程度的方向相关扩散参数被提供,其中残余缩混对应于在所述音频对象被提取的情况下的音频场景的音频分量的缩混。渲染设备(503)包括从编码器(501)接收数据的接收器(701)。电路(703)从音频对象为空间扬声器配置生成信号。变换器(709)通过对残余缩混应用第一变换为空间扬声器配置生成非扩散声信号,并且另一变换器(707)通过对残余缩混应用第二变换为空间扬声器配置生成信号,其通过对残余缩混应用解相关来实现。所述变换取决于方向相关扩散参数。信号被组合以便生成输出信号。
Description
技术领域
本发明涉及空间音频渲染和/或编码,并且具体地但不排他地,涉及具有不同的空间扬声器配置的空间音频渲染系统。
背景技术
各种源信号的数字编码在过去数十年里已变得日益重要,因为数字信号表示和通信已日益代替模拟表示和通信。例如,诸如语音和音乐这样的音频内容是越来越多地基于数字内容编码的。
音频编码格式已被开发来提供越来越有能力的、变化的且灵活的音频服务,并且特别地,支持空间音频服务的音频编码格式已被开发。
像DTS和杜比数码(Dolby Digital)这样的众所周知的音频编码技术产生编码的多声道音频信号,所述编码的多声道音频信号将空间像表示为在固定位置处的收听者周围被放置的大量声道。对于与对应于多声道信号的设置不同的扬声器设置,空间像将是次优的。并且,这些基于声道的音频编码系统典型地不能够应付不同数目的扬声器。
MPEG环绕提供多声道音频编码工具,所述多声道音频编码工具允许现有的基于单音或立体声的编码器被扩展到多声道音频应用。图1图示了MPEG环绕系统的元件的例子。使用通过对原始多声道输入的分析所获得的空间参数,MPEG环绕解码器能够通过单音信号或立体声信号的受控上混(upmix)来重建空间像以便获得多声道输出信号。
因为多声道输入信号的空间像被参数化,所以MPEG环绕允许通过不使用多声道扬声器设置的渲染装置来解码相同的多声道比特流。例子是在头戴式耳机上的虚拟环绕重放,这被称为MPEG环绕双声道解码过程。在这种模式下,逼真的环绕体验能够在使用普通头戴式耳机时被提供。另一例子是高阶多声道输出(例如7.1声道)到低阶设置(例如5.1声道)的修剪。
为了提供音频的更加灵活的表示,MPEG标准化了称为“空间音频对象编码”(MPEG-D SAOC)的格式。和诸如DTS、杜比数码以及MPEG环绕这样的多声道音频编码系统对比,SAOC提供对单独的音频对象而不是音频声道的高效编码。然而在MPEG环绕中,每个扬声器声道可以被认为源自声音对象的不同混合,SAOC使得单独的声音对象在解码器侧可得到以用于如图2中所图示的交互式操纵。在SAOC中,多个声音对象连同允许声音对象在渲染侧被提取的参数数据一起被编码成单音或立体声缩混(downmix),从而允许单独的音频对象可用于例如由终端用户操纵。
实际上,类似于MPEG环绕,SAOC同样创建单音或立体声缩混。此外,对象参数被计算并且被包括。在解码器侧,用户可以操纵这些参数以便控制单独对象的各种特征,诸如位置、水平、均衡,或者甚至以便应用诸如混响这样的效果。图3图示了使得用户能够控制被包含在SAOC比特流中的单独对象的交互式接口。借助于渲染矩阵,单独的声音对象被映射到扬声器声道上。
实际上,在用于渲染空间声音的渲染配置方面的变化和灵活性在近年来已随着越来越多的再现格式变得可供主流消费者使用而显著地增加。这需要音频的灵活表示。随着MPEG环绕编解码器的引入已采取了重要的步骤。然而,音频仍然针对特定扩音器设置被产生和发送。在不同的设置之上和在非标准(即,灵活的或用户定义的)扬声器设置之上的再现未被指定。
这种问题能够部分地由SAOC解决,所述SAOC发送音频对象而非再现声道。这允许解码器侧将音频对象放置在空间中的任意位置处,只要该空间被扬声器充分地覆盖。这样,在被发送音频与再现设置之间不存在关系,因此任意扬声器设置能够被使用。这对于例如其中扬声器几乎从不在预定位置处的、典型起居室中的家庭影院设置来说是有利的。在SAOC中,在解码器侧判定对象在声音场景中被放置在的地方,其从艺术观点看常常不是期望的。SAOC标准确实提供了用来在比特流中发送默认渲染矩阵从而消除解码器职责的方式。然而,所提供的方法要么依赖固定的再现设置要么依靠未指定的语法。因此,SAOC没有提供独立于扬声器设置来发送音频场景的规范手段。更重要的是,SAOC没有准备好对于扩散信号分量的如实渲染。尽管存在包括所谓的多声道背景对象以便捕获扩散声的可能性,但是这个对象束缚于一个特定的扬声器配置。
针对3D音频的音频格式的另一规范正由3D音频联盟(3DAA)开发,所述3D音频联盟(3DAA)是由SRS(声音检索系统)实验室所发起的行业联盟。3DAA致力于开发用于3D音频的传输的标准,这“将促进从当前扬声器馈送范式到灵活的基于对象的方法的转变”。在3DAA中,允许旧有多声道缩混连同单独的声音对象一起发送的比特流格式将被定义。此外,对象定位数据被包括。生成3DAA音频流的原理在图4中被图示。
在3DAA方法中,声音对象在扩展流中被独立地接收,并且这些可以被从多声道缩混中提取。结果得到的多声道缩混连同单独地可用的对象一起被渲染。
对象可以由所谓的符干(stems)构成。这些符干基本上是分组的(缩混的)音轨或对象。因此,对象可以由包装成符干的多个子对象构成。在3DAA中,多声道参考混合能够被与音频对象的选择一起发送。3DAA发送针对每个对象的3D位置数据。对象然后能够使用3D位置数据被提取。替换地,逆混合矩阵可以被发送,从而描述对象与参考混合之间的关系。
根据3DAA的描述,声音场景信息很可能通过给每个对象分配角度和距离而被发送,从而指示对象应该相对于例如默认正向被放置在的地方。这对于点源来说是有用的,但是未能描述宽源(像例如合唱或欢呼)或扩散声场(诸如气氛)。当所有点源被从参考混合中提取时,环境多声道混合保持不变。与SAOC类似,3DAA中的残余对于特定扬声器设置而言是固定的。
因此,SAOC和3DAA方法两者都合并了能够在解码器侧被单独地操纵的单独的音频对象的传输。两个方法之间的差别是SAOC通过提供相对于缩混表征对象的参数来提供关于音频对象的信息(即,使得音频对象在解码器侧从缩混生成),然而3DAA将音频对象作为完全且独立的音频对象(即,其能够在解码器侧从缩混独立地生成)来提供。
典型的音频场景将包括不同类型的声音。特别地,音频场景将常常包括大量特定且空间定义明确的音频源。此外,音频场景可以典型地包含表示一般环境音频环境的扩散声分量。这样的扩散声可以包括例如混响效应、非定向噪声等。
关键问题是如何处理这样的不同音频类型以及特别地如何在不同的扬声器配置中处理这样的不同类型的音频。诸如SAOC和3DAA这样的格式能够灵活地渲染点源。然而,尽管这样的方法可能优于基于声道的方法,但是扩散声源在不同的扬声器配置下的渲染是次优的。
用于区分声音点源和扩散声的渲染的不同方法已在Ville Pulkki的文章“Spatial Sound Reproduction with Directional Audio Coding”, Journal AudioEngineering Society, Vol.55, No.6, June 2007中被提出。该文章提出了一种被称为DirAC(定向音频编码)的方法,其中缩混连同使得能够在合成侧再现空间像的参数一起被发送。在DirAC中传送的参数通过方向和扩散分析被获得。具体地,DirAC公开了除传送针对声源的方位角和仰角之外,扩散指示也被传送。在合成期间,缩混被动态地划分成两个流,对应于非扩散声的一个,以及对应于扩散声的另一个。非扩散声流用针对点状声源的技术被再现,以及扩散声流通过针对感知缺少突出方向的声音的技术被渲染。
文章中所描述的缩混是单音或B格式类型的缩混。在单音缩混的情况下,扩散扬声器信号通过针对每个扩音器位置使用独立的解相关器对缩混解相关而被获得。在B格式缩混的情况下,虚拟话筒信号针对每个扩音器位置从在再现扬声器的方向上的B格式建模心脏形曲线中提取。这些信号被分裂成表示定向源的一部分和表示扩散源的一部分。对于扩散分量,“虚拟信号”的解相关版本被加到所获得的针对每个扩音器位置的点源贡献。
然而,尽管DirAC提供了可能在不考虑空间定义的声源和扩散声的独立处理的一些系统上改进音频质量的方法,但是它往往提供次优的声音质量。特别地,当使系统与不同的扬声器配置适配时,仅基于缩混信号到扩散/非扩散分量的相对简单的划分对扩散声的特定渲染往往导致扩散声的不太理想的渲染。在DirAC中,扩散信号分量的能量通过存在于输入信号中的点源直接地确定。因此,不可能例如在存在点源的情况下生成真扩散的信号。
因此,改进的方法将是有利的,并且特别地允许增加的灵活性、改进的音频质量、对不同的渲染配置的改进的适应、声音场景的扩散声和/或音频点源的改进的渲染和/或改进的性能的方法将是有利的。
发明内容
因此,本发明寻求优选地单个地或者以任何组合方式缓解、减轻或者消除上面提到的缺点中的一个或多个。
根据本发明的一个方面,提供了空间音频渲染设备,其包括:用于提供残余缩混和表征至少一个音频对象的数据的电路,残余缩混对应于在所述至少一个音频对象被提取的情况下的音频场景的音频分量的缩混;用于接收扩散参数的接收器,所述扩散参数指示残余缩混的扩散程度;用于通过对残余缩混应用第一变换而为空间扬声器配置生成第一组信号的第一变换器,第一变换取决于扩散参数;用于通过对残余缩混应用第二变换而为空间扬声器配置生成第二组信号的第二变换器,第二变换取决于扩散参数并且包括对残余缩混的至少一个声道的解相关;用于从表征至少一个音频对象的数据为空间扬声器配置生成第三组信号的电路;以及用于通过组合第一、第二以及第三组信号为空间扬声器配置生成输出的一组信号的输出电路;并且,其中扩散参数是方向相关的。
本发明可以提供改进的音频渲染。特别地,它可以在许多实施例中并且针对许多不同的音频场景和渲染设置提供改进的音频质量和用户体验。在许多情景中,该方法可以特别地在对残余缩混的不同音频分量的空间特性的改进考虑的情况下提供残余缩混的改进的渲染。
本发明的发明人已经认识到,改进的性能常常能够通过不只考虑两种类型的音频分量被实现。实际上,和传统方法对比,发明人已经认识到,考虑残余缩混所得自的缩混以便包含至少三种类型的音频分量是有利的,所述至少三种类型的音频分量即:由音频对象表示的并且因此可以被提取的特定音频源、不由音频对象表示的并且因此不能够被从缩混中提取的特定空间定位的音频源(例如点源)、以及扩散声源。因此,发明人已经认识到,处理残余缩混以便渲染空间特定的声分量和扩散声分量可能是有利的。发明人已进一步认识到,与空间更特定的声分量独立地渲染扩散声分量可以提供改进的音频渲染。发明人还已经认识到,一些声分量可以是既扩散的又仍然展示空间特性,并且这样的部分扩散声源的改进的空间渲染提供改进的声音质量。
方向相关扩散参数的使用允许例如编码器控制渲染侧处理以便提供残余缩混的改进的渲染,并且特别地,可以允许(特别是)扩散或部分扩散声分量的渲染适应于各种各样的空间扬声器配置。
实际上,该方法可以在许多情景中为灵活的扬声器位置提供残余声场的改进的渲染,其中渲染提供对残余信号中点源和(部分)扩散声分量两者的适当的处理。例如,点状源可以使用平移(panning)被适配于给定配置,然而扩散分量可以被分发在可用扬声器之上以便提供同质(homogenous)非定向再现。声场还可以包括部分扩散声分量,即具有一些扩散分量和一些非扩散分量的声源。在下文中,对扩散信号分量的参考因此还旨在包括对部分扩散信号分量的参考。
在该方法中,残余缩混被并行处理以便提供适合于非扩散声分量的渲染和适合于扩散声分量的渲染。特别地,第一组信号可以表示非扩散声分量然而第二组信号可以表示扩散声分量。特别地,该方法可以导致第一组信号依照适合于特定声源的方法(例如平移)来渲染残余缩混的空间特定的声源,同时允许第二组信号提供适合于扩散声的扩散声渲染。此外,通过这样的过程,响应于可以在编码器处生成的方向相关扩散参数,两种类型的音频分量的适当的且改进的渲染能够被实现。此外,在该方法中,特定音频源可以使用音频对象处理和操纵被渲染。因此,该方法可以允许音频场景中三种类型的声分量的高效渲染,从而提供改进的用户体验。
由第二变换器对解相关的应用提供了扩散声分量的改进的感知,并且特别地允许它与残余缩混的正被再现为空间更明确的声分量的部分区分开(即,它允许来自第二组信号的被渲染声音在感知上与来自第一组信号的被渲染声音区分开)。当在针对残余缩混假定的位置与空间扬声器配置的实际位置之间存在扬声器位置中的失配时,解相关可以特别地提供改进的扩散声感知。实际上,解相关提供扩散的改进的感知,由于以并行路径的处理,其在该系统中能够在仍然维持针对例如在残余缩混中的点源的空间特性的同时被应用。扩散/非扩散渲染的相对加权可以取决于残余缩混中的扩散声与非扩散声之间的实际关系。这能够在编码器侧被确定并且经由扩散参数被传送到渲染侧。渲染侧因此能够取决于例如残余缩混中的扩散声与非扩散声的比来适配其处理。结果,系统可以提供改进的渲染,并且特别地对于与残余缩混相关联的空间渲染假设和在渲染侧处使用的空间扬声器配置之间的差异会鲁棒得多。这可以特别地提供能够实现对许多不同的渲染扬声器设置的改进的适应的系统。
用于提供残余缩混的电路可以具体地能够接收或者生成残余缩混。例如,残余缩混可以被从外部源或内部源接收。在一些实施例中,残余缩混可以被从编码器生成和接收。在其它实施例中,残余缩混可以由音频渲染设备例如从接收到的缩混和表征(一个或多个)音频对象的数据生成。
残余缩混可以与特定空间配置相关联。空间配置可以是渲染扬声器配置,诸如渲染扬声器(其可以是真实的或虚拟的扬声器)的位置的标称(nominal)、参考或假定的空间配置。在一些情景中,残余缩混的空间配置可以与声(场)捕获配置相关联,所述声(场)捕获配置诸如是导致残余缩混的声分量的话筒配置。这样的配置的例子是B格式表示,所述B格式表示可以被用作针对残余缩混的表示。
空间扬声器配置可以是真实的或虚拟的声换能器的空间配置。特别地,所述输出的一组信号的每个信号/声道可以与给定空间位置相关联。信号然后被渲染成对于收听者来说好像从这个位置到达。
表征(一个或多个)音频对象的数据可以通过相对表征(例如,相对于缩混(其也可以被从编码器接收))来表征(一个或多个)音频对象,或者可以是(一个或多个)音频对象的绝对和/或完整的表征(诸如完整的编码的音频信号)。具体地,表征音频对象的数据可以是描述音频对象如何从缩混生成的空间参数(诸如在SAOC中),或者可以是音频对象的独立表示(诸如在3DAA中)。
音频对象可以是与所表示的音频环境中的单个声源相对应的音频信号分量。具体地,音频对象可以包括来自音频环境中的仅一个位置的音频。音频对象可以具有关联的位置,但是不与任何特定渲染声源配置相关联,并且可以具体地不与任何特定扩音器配置相关联。
依照本发明的可选特征,扩散参数包括针对残余缩混的不同声道的单独的扩散值。
这可以在许多实施例中提供特别有利的音频渲染。特别地,多声道缩混的每个声道可以与空间配置(例如,真实的或虚拟的扬声器设置)相关联,并且方向相关扩散参数可以为这些声道/方向中的每一个提供单独的扩散值。具体地,扩散参数可以指示每个缩混声道中的扩散或非扩散的权重/比重。这可以允许渲染被适配于单独的缩混声道的特定特性。
在一些实施例中,扩散参数可以是频率相关的。这可以在许多实施例和情景中允许改进的渲染。
依照本发明的可选特征,在输出信号中相对于第一变换的贡献的第二变换的贡献因指示增加的扩散的扩散参数而增加(残余缩混的至少一个声道)。
这可以提供音频场景的改进的渲染。每个缩混声道的非相关的和解相关的渲染的加权可以基于扩散参数被适配,从而允许渲染被适配于音频场景的特定特性。增加的扩散将减少源自残余缩混的特定声道的第一组信号的分量的能量并且将增加源自残余缩混的特定声道的第二组信号的分量的能量。
在一些实施例中,针对用于第一变换的残余缩混的声道的第一权重因指示增加的扩散的扩散参数而减少,并且针对用于第二变换的残余缩混的声道的第二权重因指示增加的扩散的扩散参数而增加。
依照本发明的可选特征,第一组信号和第二组信号的组合能量基本上与扩散参数无关。
信号无关值可以与残余缩混的任何特性无关。具体地,信号无关值可以是固定值和/或预定值。该方法可以具体地维持第一和第二组信号中的(一个或多个)缩混声道的相对能量水平。有效地,每个缩混声道可以跨越第一变换和第二变换被分发,其具有取决于扩散参数但不改变缩混声道相对于其它缩混声道的总体能量水平的分布。
依照本发明的可选特征,第二变换器被布置成响应于与第二组信号中的第一信号相关联的扬声器位置到与第二组信号中的不同信号相关联的至少一个邻近扬声器位置的距离而调整第二组信号中的第一信号的音频水平。
这可以提供改进的渲染,并且可以特别地允许残余缩混的扩散声分量的改进的渲染。接近可以是角接近和/或到一个或多个最近扬声器的距离。在一些实施例中,针对第一声道的音频水平可以响应于与收听位置的角间隔而被调整,其中与第一声道相对应的扬声器是最近的扬声器。
在一些实施例中,空间扬声器配置可以包括与残余缩混中的声道的数目相对应的声道的数目,并且第二变换器可以被布置成响应于与残余缩混相关联的空间信息而将残余缩混的声道映射到空间渲染配置的扬声器位置。
这可以在一些实施例中提供改进的渲染。特别地,每个缩混声道可以与标称、参考或假定的空间位置相关联,并且这可以被与最接近地和其匹配的渲染配置的扬声器位置相匹配。
依照本发明的可选特征,残余缩混包括比空间扬声器配置的扬声器位置的数目要少的声道,并且其中第二变换器被布置成通过对残余缩混的至少第一声道应用多个解相关来生成第二组信号中的多个信号。
这可以提供扩散声的特别有利的渲染,并且可以提供改进的用户体验。
依照本发明的可选特征,第二变换器被布置成通过对残余缩混的第二声道应用多个解相关来生成第二组信号中的另外的多个信号,第二声道不是至少第一声道中的声道。
这可以提供扩散声的特别有利的渲染并且可以提供改进的用户体验。特别地,使用多个缩混声道以及在许多实施例中有利地使用所有的缩混声道来生成附加的扩散声信号可以提供特别有利的扩散声渲染。特别地,它可以增加声道之间的解相关并且因此增加扩散的感知。
在一些实施例中,相同的解相关可以被应用于第一声道和第二声道,从而降低复杂性,同时仍然生成被解相关并且因此被感知为扩散声的声音信号。这仍然可以提供解相关的信号,只要对于解相关器的输入信号被解相关。
依照本发明的可选特征,第二组信号包括比空间扬声器配置中的扬声器位置的数目要少的信号。
在一些实施例中,扩散信号可以仅被从空间扬声器配置的扬声器的子集渲染。这可以在许多情景中导致扩散声的改进的感知。
在一些实施例中,残余缩混包括比空间扬声器配置的扬声器位置的数目要多的声道,并且其中,第二变换器被布置成在生成第二组信号时忽略残余缩混的至少一个声道。
这可以提供扩散声的特别有利的渲染,并且可以提供改进的用户体验。
依照本发明的可选特征,残余缩混包括比空间扬声器配置的扬声器位置的数目要多的声道,并且其中第二变换器被布置成在生成第二组信号时组合残余缩混的至少两个声道。
这可以提供扩散声的特别有利的渲染,并且可以提供改进的用户体验。
依照本发明的可选特征,第二变换器被布置成生成第二组信号以便对应于音频从第二组信号的侧向渲染。
这可以提供扩散声的特别有利的渲染,并且可以提供改进的用户体验。
依照本发明的可选特征,接收器被布置成接收包括音频对象的接收到的缩混;并且用于提供残余缩混的电路被布置成响应于表征数据对象的数据而生成至少一个音频对象,并且被布置成通过从所接收到的缩混中提取至少一个音频对象来生成残余缩混。
这可以在许多实施例中提供特别有利的方法。
依照本发明的可选特征,空间扬声器配置不同于残余缩混的空间声音表示。
本发明可以特别适合于使特定(残余)缩混适配于不同的扬声器配置。该方法可以提供允许对不同的扬声器设置的改进的且灵活的适配的系统。
根据本发明的一个方面,提供了空间音频编码设备,其包括:用于生成通过第一缩混和表征至少一个音频对象的数据来表示音频场景的经编码的数据的电路;用于生成指示残余缩混的扩散程度的方向相关扩散参数的电路,残余缩混对应于在所述至少一个音频对象被提取的情况下的音频场景的音频分量的缩混;以及用于生成包括第一缩混、表征至少一个音频对象的数据、以及方向相关扩散参数的输出数据流的输出电路。
第一缩混可以是残余缩混。在一些实施例中,第一缩混可以是包括音频场景的音频分量的缩混,并且特别地可以是包括至少一个音频对象的缩混。
根据本发明的一个方面,提供了生成空间音频输出信号的方法,所述方法包括:提供残余缩混和表征至少一个音频对象的数据,残余缩混对应于在所述至少一个音频对象被提取的情况下的音频场景的音频分量的缩混;接收指示残余缩混的扩散程度的扩散参数;通过对残余缩混应用第一变换为空间扬声器配置生成第一组信号,第一变换取决于扩散参数;通过对残余缩混应用第二变换为空间扬声器配置生成第二组信号,第二变换取决于扩散参数并且包括残余缩混的至少一个声道的解相关;从表征至少一个音频对象的数据为空间扬声器配置生成第三组信号;以及通过组合第一、第二以及第三组信号为空间扬声器配置生成输出的一组信号;并且其中,扩散参数是方向相关的。
根据本发明的一个方面,提供了空间音频编码的方法,其包括:生成通过第一缩混和表征至少一个音频对象的数据来表示音频场景的经编码的数据;生成指示残余缩混的扩散程度的方向相关扩散参数,残余缩混对应于在所述至少一个音频对象被提取的情况下的音频场景的音频分量的缩混;以及生成包括第一缩混、表征至少一个音频对象的数据、以及方向相关扩散参数的输出数据流。
本发明的这些和其它方面、特征以及优点从在下文中所描述的(一个或多个)实施例将是明显的,并且将参考在下文中所描述的(一个或多个)实施例而被阐明。
附图说明
将参考附图仅通过例子对本发明的实施例进行描述,在附图中:
图1图示了依照现有技术的MPEG环绕系统的元件的例子;
图2例示了在MPEG SAOC中可能的音频对象的操纵;
图3图示了使得用户能够控制被包含在SAOC比特流中的单独对象的交互式接口;
图4图示了依照现有技术的3DAA的音频编码的原理的例子;
图5图示了依照本发明的一些实施例的音频渲染系统的例子;
图6图示了依照本发明的一些实施例的空间音频编码装置的例子;
图7图示了依照本发明的一些实施例的空间音频渲染装置的例子;以及
图8图示了空间扬声器配置的例子。
具体实施方式
图5图示了依照本发明的一些实施例的音频渲染系统的例子。该系统包括空间音频编码装置501,其接收要被编码的音频信息。经编码的音频数据经由适合的通信介质505被发送到空间音频渲染装置503。空间音频渲染装置503此外被耦合到与给定空间扬声器配置相关联的一组扬声器。
提供给空间音频编码装置501的音频数据可以被以不同的形式提供并且以不同的方式生成。例如,音频数据可以是从话筒捕获的音频和/或可以是诸如例如针对计算机游戏应用合成地生成的音频。音频数据可以包括大量分量,所述大量分量可以被编码为单独的音频对象,诸如例如特定的合成地生成的音频对象或被布置成捕获特定音频源的话筒,所述特定音频源诸如例如单个乐器。
每个音频对象典型地对应于单个声源。因此,和音频声道对比,并且特别地和常规空间多声道信号的音频声道对比,音频对象不包括来自可能具有大大不同的位置的多个声源的分量。类似地,每个音频对象提供声源的完全表示。每个音频对象因此典型地与针对仅单个声源的空间位置数据相关联。具体地,每个音频对象可以被认为是声源的单个且完整的表示,并且可以与单个空间位置相关联。
此外,音频对象不与任何特定渲染配置相关联并且具体地不与声换能器的任何特定空间配置相关联。因此,和典型地与特定空间扬声器设置(诸如特别是环绕声设置)相关联的传统空间声音声道对比,音频对象不是相对于任何特定空间渲染配置定义的。
空间音频编码装置501被布置成生成编码的信号,所述编码的信号包括缩混和表征一个或多个音频对象的数据。缩混在一些实施例中可以是残余缩混,所述残余缩混与音频场景的表示相对应,但是没有由音频对象数据所表示的音频对象。然而,被发送的缩混常常包括音频对象,使得缩混的直接渲染将导致声音场景的所有音频源的渲染。这可以提供后向兼容性。
经编码的音频流可以通过任何适合的通信介质来传送,所述通信介质包括直接通信或广播链路。例如,通信可以是经由因特网、数据网络、无线电广播等的。通信介质可以替换地或者附加地是经由诸如CD、Blu-RayTM盘、存储器卡等这样的物理存储介质的。
空间音频渲染装置503的输出被布置成和空间扬声器配置匹配。空间扬声器配置可以是标称的、参考的或假定的空间扬声器配置。因此,用于音频信号的渲染的扬声器的实际位置可能不同于空间扬声器配置,但是用户将典型地努力提供和实际可行的尽可能接近的、空间扬声器配置与实际扬声器位置之间的相关。
并且,在一些实施例中,空间扬声器配置可以表示虚拟扬声器。例如,对于双声道空间渲染系统(例如基于头部相关传递函数),音频输出的渲染可以是经由模仿例如环绕声设置的头戴式耳机的。替换地,虚拟扬声器的数目可以比典型的扬声器设置高得多,从而提供较高的空间分辨率以用于渲染音频对象。
图5的系统因此使用这样的编码方法,其支持音频对象并且具体地可以使用从SAOC和3DAA获知的方法。
图5的系统因此可以被看成通过将一些声分量编码为由表征音频对象的特定数据所表示的特定音频对象来提供在音频场景中不同类型的声分量之间的第一区分(differentiation),而其它声分量仅被编码在缩混中,即对于这些其它声分量,多个声源典型地在缩混的(一个或多个)声道中被一起编码。典型地,这种方法适合于将特定点状源编码为能够被平移到特定位置的音频对象,同时将更多扩散声分量编码为组合的缩混。然而,当前发明的发明人已经认识到,到扩散和非扩散(以及具体地到音频对象和扩散声)的简单区分是次优的。实际上,已经认识到,声音场景可以典型地包含四种不同类型的声分量:
1.已被作为单独的音频对象发送的空间特定的(点状)源(在下文中有时通过O参考),
2.尚未被作为单独的音频对象发送的空间特定的(点)源(在下文中有时通过O1参考),
3.具有特定空间起源区域的扩散声源,诸如例如小型合唱(在下文中有时通过O2参考),以及
4.全向扩散声场,例如环境噪声或混响(在下文中有时通过O3参考)。
传统系统仅仅寻求区分扩散声分量和非扩散声分量。例如,3DAA通过音频分量已从其中被提取的残余缩混的无区分渲染来渲染后面三个类别的声分量中的全部。然而,因为残余缩混仍然包括与具有一些空间特性的音频源(例如,点源、诸如合唱和扩散信号这样的具有某方向的扩散声源)以及基本上没有空间特性(诸如气氛或混响)的音频源相关的信号分量,所以组合渲染导致次优渲染。
在图5的系统中,信息被从编码器提供,所述编码器同样允许后面类别的有区分的渲染。具体地,扩散参数在编码器中被生成,所述扩散参数表示残余缩混的扩散程度。这允许解码器/渲染器将残余缩混划分成能够按对于点状声源适当的方式被渲染的一部分和能够按对于扩散声适当的方式被渲染的一部分。扩散参数可以具体地指示每个缩混声道的应该被分别渲染为点源以及渲染为扩散声的比重有多大。扩散参数可以是允许实现两种类型的音频分量之间的良好分开的参数。例如,扩散参数可以包括表征不同音频分量能够如何在解码器处被渲染的滤波器参数。
此外,扩散参数是方向相关的,从而允许针对扩散声再现空间特性。例如,扩散参数可以指示针对缩混的不同声道的点源和扩散声的不同部分,其中缩混的每个声道与不同的空间渲染位置相关联。这可以被空间音频渲染装置503用来将每个缩混声道的不同比重分别渲染为非扩散声和扩散声。具体地,取决于第二类型(O2)的声源的扩散的量和方向性,这些可以被部分地渲染为点源(O1)或扩散声(O3)。
方向相关扩散参数还可以提供对各种渲染扬声器配置的改进的适应。该方法使用与再现设置无关的扩散声场的表征。从空间音频编码装置501发送的数据流能够通过空间音频编码装置501而被转化为针对给定扬声器设置的扬声器信号。
在图5的系统中,提供给空间音频编码装置501的音频数据被用来使用缩混矩阵(D)创建缩混(诸如能够容易地被旧有环绕声渲染装备渲染的5.1声道缩混)。大量的音频对象(O)连同兼容的缩混一起被发送。作为对象选择过程的一部分,扩散参数在该例子中被确定,其中特定值针对每个缩混声道(索引c)和(可选地)频带(索引f)被提供。
在空间音频渲染装置503处,对应于在音频对象(O)被提取情况下的所接收到的缩混的残余缩混(残余缩混因此包含O1+O2+O3)通过使用缩混矩阵D而被确定。残余缩混然后基于扩散参数被渲染。
例如,扩散信号分量能够使用扩散参数被与点源分量分离。结果得到的点源分量然后能够被平移到当前渲染配置的扬声器位置。扩散信号分量首先被解相关并且然后被例如从扬声器位置渲染,所述扬声器位置与所对应的缩混信号的预定扬声器位置的位置最接近。由于扩散分量与直接分量之间的空间偏差,解相关可以提供改进的音频质量。为扩散的但具有空间特性的声分量的分布被部分地渲染为扩散声分量和部分地渲染为空间特定的声分量,其中分离是基于扩散参数的。因此,由空间音频编码装置501所生成的扩散参数提供关于残余缩混的特性的信息,这允许空间音频渲染装置503实施残余缩混的有区分的渲染,使得这更接近地对应于原始音频场景。替换地,扩散信号可以使用平移(后面是解相关)而被渲染到扬声器配置上的预定位置。解相关去除由平移所引入的相关。这种方法在具有空间特性的扩散分量中是特别有益的。
图6更详细地图示了空间音频编码装置501的一些元件。空间音频编码装置501包括编码器601,所述编码器601接收描述音频场景的音频数据。在该例子中,音频场景包括声音的所有四种类型的声分量O、O1、O2、O3。表示音频场景的音频数据可以被提供为表征单独声音类型中的每一个的离散且单独的数据。例如,合成音频场景可以被生成并且针对每个音频源的数据可以被提供为音频数据的单独和独立的集合。作为另一例子,音频数据可以由例如通过在音频环境中捕获声音的多个话筒所生成的音频信号来表示。在一些情景中,可以为每个音频源提供独立的话筒信号。替换地或附加地,单独的声源中的一些或全部可以被组合成话筒信号中的一个或多个。在一些实施例中,单独的声分量可以例如通过音频波束形成等从组合的话筒信号得到。
编码器601继续从所接收的音频数据生成表示音频场景的编码的音频数据。编码器601通过缩混和大量的单独的音频对象来表示音频。
例如,编码器601可以执行混合操作以便将由输入音频数据所表示的音频分量混合成适合的缩混。缩混可以例如是单音缩混、B格式表示缩混、立体声缩混或5.1缩混。这种缩混能够被旧有(非音频对象能力的)装备使用。例如,5.1空间声音渲染系统能够直接地使用5.1兼容的缩混。缩混依照任何适合的方法被执行。具体地,缩混可以使用缩混矩阵D被执行,所述缩混矩阵D还可以被传送到空间音频渲染装置503。
缩混还可以由混合工程师创建。
编码器此外生成表征大量的音频对象(O)的音频数据。这些音频对象典型地是音频场景的最重要的点状声源,诸如在音乐会的捕获中的最具优势的乐器。这个过程还可以受最大容许比特速率控制。在那种意义上,比特速率可伸缩的解决方案被实现。通过将它们表示为单独的音频对象,它们能够在渲染侧被单独地处理,例如从而允许终端用户为每个音频对象单独地滤波、定位以及设置音频水平。音频对象(O)可以被编码为独立的数据,即完全表征音频对象的音频对象数据(像使用3DAA可能的那样),或者可以例如通过提供描述如何从缩混生成音频对象的参数相对于缩混被编码(像在SAOC中所做的那样)。
编码器典型地同样生成预定音频场景的描述。例如,针对每个音频对象的空间位置允许空间渲染装置(503)提供改进的音频质量。
在该例子中,所生成的缩混因此表示包括所有声分量O、O1、O2、O3的整个音频场景。这允许缩混被直接地渲染而无需任何复杂的或进一步的处理。然而,在音频对象被提取并且被单独地渲染的情景中,渲染器不应该渲染整个缩混而是仅渲染在音频对象已被提取之后的剩余分量(即,O1、O2、O3)。在音频对象被提取情况下的声音级的缩混被称为残余缩混并且用声分量表示音频场景,所述声分量因为音频对象被去除而被单独地编码。
在许多实施例中,编码器601可以生成包括所有音频分量(O、O1、O2、O3)的缩混,即同样包括独立地编码的音频对象(O)的缩混。这种缩混可以连同表征音频对象的数据一起被传送。在其它实施例中,编码器601可以生成不包括独立地编码的音频对象(O)而是仅包括非独立地编码的音频对象的缩混。因此,在一些实施例中,例如仅通过对所关联的声分量(O1、O2、O3)进行混合并且忽略将被编码为单独的音频对象的声分量,编码器601可以仅生成残余缩混。
编码器601此外被耦合到扩散处理器603,所述扩散处理器603被馈送缩混。扩散处理器603被布置成生成指示残余缩混的扩散程度/水平的方向相关扩散参数。
在一些实施例中,扩散参数可以指示(非残余)缩混的扩散程度/水平。具体地,它可以指示针对从编码器501发送的全缩混的扩散程度。在这样的情况下,解码器503可以根据所接收到的扩散参数生成指示残余缩混中的扩散程度的扩散参数。实际上,在一些实施例中,相同的参数值可以被直接地使用。在其它实施例中,参数值可以例如针对提取的音频对象的能量等被补偿。因此,描述全(非残余)缩混的扩散参数将同样固有地被描述并且指示残余缩混。
在一些实施例中,扩散处理器603可以接收包括音频对象O的缩混并且通过提取对象O从其生成残余缩混。在其中编码器601直接地生成残余缩混的实施例中,扩散处理器603可以直接地接收残余缩混。
扩散处理器603可以以任何适合的方式生成方向相关扩散参数。例如,扩散处理器603可以评估残余缩混的每个声道以便为该声道确定扩散参数。这例如可以通过遍及残余缩混的声道并且替换地或附加地随着时间的推移而评估共同能量水平来完成。因为扩散分量典型地具有方向无关的特征。替换地,分量O2和O3对残余缩混声道的相对贡献可以被评估以便得到扩散参数。
在一些实施例中,扩散处理器603可以直接地接收输入音频数据和缩混矩阵(D)并且可以从其生成扩散参数。例如,输入数据可以表征单独的声分量是扩散的还是点状的,并且扩散处理器603可以针对缩混的每个声道来生成扩散值,所述扩散值指示声道的能量的相对于源自点状源的比重的、源自扩散源的比重。
扩散处理器603因此生成方向相关扩散参数,所述方向相关扩散参数针对缩混的每个声道指示声道的信号的比重有多大对应于扩散声并且有多少对应于非扩散声。
扩散参数可以进一步是频率相关的,并且具体地扩散参数的值的确定可以在单独的频带中被执行。典型地,频带可以在全频率范围上被用对数划分以便确保感知有关的分布。
编码器601和扩散处理器603被耦合到输出电路605,所述输出电路605生成编码的数据流,所述编码的数据流包括由编码器601所生成的缩混(即,残余缩混或全音频场景缩混)、表征音频对象的数据以及方向相关的扩散参数。
图7图示了空间音频渲染装置503的元件的例子。空间音频渲染装置503包括接收器,所述接收器从空间音频编码装置501接收经编码的音频流。因此,空间音频渲染装置503接收经编码的音频流,所述经编码的音频流包括形式为由音频对象所表示的声分量O和由缩混所表示的声分量O1、O2、O3以及可能地O的音频场景的表示。
接收器701被布置成提取音频对象数据并且被布置成将它们馈送给音频对象解码器703,所述音频对象解码器703被布置成重建音频对象O。应当了解,用于重建音频对象的传统方法可以被使用并且诸如用户特定空间定位、滤波或混合这样的本地渲染侧操纵可以被应用。音频对象被创建成和由空间音频渲染装置503所使用的给定扬声器设置匹配。音频对象解码器703因此生成一组信号,该组信号和被空间音频渲染装置503用来再现经编码的音频场景的特定空间扬声器配置匹配。
在图7的例子中,经编码的音频流包括音频场景的全缩混。因此,当音频对象像在图7的例子中那样被显式地渲染时,缩混的渲染不应该包括音频对象,而是应该替代地是基于不包括音频对象的残余缩混的。因此,图7的空间音频渲染装置503包括残余处理器705,所述残余处理器705被耦合到接收器701和音频对象解码器703。残余处理器705接收全缩混以及音频对象信息,并且它然后继续从缩混中提取音频对象以便生成残余缩混。提取过程必须这样提取音频对象,其与它们如何在编码器601中被包括在缩混中互补。这可以通过对被用来在编码器处生成缩混的音频对象应用相同的混合矩阵操作来实现,并且因此这个矩阵(D)可以在经编码的音频流中被传送。
在图7的例子中,残余处理器705因此生成残余缩混,但是应当了解,在其中残余缩混被编码在经编码的音频流中的实施例中,这个可以被直接地使用。
残余缩混被馈送给扩散声处理器707和非扩散声处理器709。扩散声处理器707继续使用适合于扩散声的渲染方法/技术来渲染缩混信号(的至少一部分),并且非扩散声处理器709继续使用适合于非扩散声以及具体地适合于点状源的渲染方法/技术来渲染缩混信号(的至少一部分)。因此,两个不同的渲染过程被并行应用于缩混以便提供有区分的渲染。此外,扩散声处理器707和非扩散声处理器709被馈送扩散参数并且响应于该扩散参数来适配它们的处理。
作为低复杂性例子,分别针对扩散声处理器707和非扩散声处理器709的增益可以取决于扩散参数而变化。特别地,针对扩散声处理器707的增益可以因扩散参数的增加值而被增加,以及针对非扩散声处理器709的增益可以因扩散参数的增加值而被减少。因此,扩散参数的值控制相对于非扩散渲染有多少扩散渲染被加权。
扩散声处理器707和非扩散声处理器709两者都对残余缩混应用变换,所述变换将残余缩混变换成适合于由在特定情境中使用的空间扬声器配置进行渲染的一组信号。
来自音频对象解码器703、扩散声处理器707以及非扩散声处理器709的结果得到的信号被馈送给输出驱动器709,其中它们被组合成一组输出信号。具体地,音频对象解码器703、扩散声处理器709以及非扩散声处理器709中的每一个都可以为空间扬声器配置的每个扬声器生成信号,并且输出驱动器709可以将针对每个扬声器的信号组合成针对该扬声器的单个驱动器信号。具体地,信号可以简单地被合计(summed),但是在一些实施例中,组合可以例如是用户可调整的(例如,允许用户改变扩散声相对于非扩散声的感知比重)。
扩散声处理器707在该组扩散信号的生成中包括解相关过程。例如,对于缩混的每个声道,扩散声处理器707可以应用解相关器,所述解相关器导致相对于由非扩散声处理器709所表示的音频被解相关的音频的生成。这确保由扩散声处理器707所生成的声分量实际上被感知为扩散声,而不是感知为源自特定位置的声音。
图7的空间音频渲染装置503因此生成作为由三个并行路径所生成的声分量的组合的输出信号,每个路径相对于被渲染声音的感知扩散提供不同的特性。每个路径的加权可以是变化的以便为被渲染音频级提供期望的扩散特性。此外,这种加权能够基于由编码器所提供的、音频场景中的扩散的信息而被调整。此外,方向相关扩散参数的使用允许扩散声以一些空间特性被渲染。此外,系统允许空间音频渲染装置503将所接收到的编码的音频信号适配成以许多不同的空间扬声器配置被渲染。
在图7的空间音频渲染装置503中,来自扩散声处理器707和非扩散声处理器709的信号的相对贡献被加权,使得扩散参数的渐增值(即指示渐增扩散)将相对于非扩散声处理器709的贡献而增加扩散声处理器707在输出信号中的贡献。因此,与从缩混生成的非扩散声相比,由编码器所指示的渐增扩散将导致输出信号包含从缩混生成的更高比重的扩散声。
具体地,对于残余缩混的给定声道,针对非扩散声处理器709的第一权重或增益可以因渐增的扩散参数值而被减少。同时,针对扩散声处理器707的第二权重或增益可以因渐增的扩散参数值而被增加。
此外,在一些实施例中,第一权重和第二权重能够被确定使得两个权重的组合具有基本上信号无关的值。具体地,第一权重和第二权重可以被确定使得由扩散声处理器707和非扩散声处理器709所生成的信号的组合能量基本上与扩散参数的值无关。这可以允许从缩混生成的输出信号的分量的能量水平对应于缩混。因此,扩散参数值中的变化将不被感知为声音音量中的改变而是仅声音的扩散特性中的改变。
在这点上,两个权重可能需要取决于来自707和709的两个路径之间的交叉相关中的适应而被不同地生成。例如,在扩散分量(O2 + O3)被解相关器处理的情况下,能量可以在与非扩散分量(O1)再组合时被减少。这能够通过例如对非扩散分量使用较高的增益而被补偿。替换地,输出级(711)中的加权因此能够被确定。
作为特定例子,扩散声处理器707和非扩散声处理器709的处理可以与除针对残余缩混的每个声道的单个增益设定外的扩散参数无关。
例如,残余缩混声道信号可以被馈送给扩散声处理器707和非扩散声处理器709。扩散声处理器707可以将信号乘以的因子,并且然后继续应用扩散参数无关处理(包括解相关)。相比之下,非扩散声处理器709将信号乘以的因子,并且然后继续应用扩散参数无关处理(没有解相关)。
替换地,将扩散信号乘以依赖扩散参数的因子可以在通过扩散声处理器707处理之后被应用或者作为扩散声处理器707中的最后步骤或中间步骤被应用。类似方法可以被应用于非扩散声处理器709。
在该系统中,扩散参数为缩混声道中的每一个提供独立的值(在多个声道情况下)并且因此乘法因子(增益)对于不同的声道来说将是不同的,从而允许扩散声与非扩散声之间的空间有区分的分离。这可以提供改进的用户体验,并且可以特别地改进针对具有一些空间特性的扩散声(诸如合唱)的渲染。
在一些实施例中,扩散参数可以是频率相关的。例如,可以为一组频率间隔(例如ERB或BARK带)中的每一个提供独立的值。残余缩混可以被转换为频带(或者可能已经是频带表示),扩散参数相关比例(scaling)在该频带中被执行。实际上,剩余处理还可以在频域中被执行,并且到时域的转换可以例如仅在三个并行路径的信号已被组合之后被执行。
应当了解,由扩散声处理器707和非扩散声处理器709所应用的特定处理可以取决于特定实施例的特定偏好和要求。
非扩散声处理器709的处理将典型地是基于被处理信号(例如在扩散参数相关加权之后的残余缩混)包含点状声分量的假设的。因此,它可以使用平移技术来从与残余缩混的声道相关联的给定空间位置转换为针对在空间扬声器配置的特定位置处的扬声器的信号。
作为例子,非扩散声处理器709可以对缩混声道应用平移以得到点状声分量在空间扬声器配置上的改进的定位。和扩散分量对比,点源的平移贡献必须被相关以便在两个或更多个扬声器之间获得幻象源。
相比之下,扩散声处理器707的操作将典型地不寻求维持缩混声道的诸声道的空间特性,而是将相反地设法在声道之间分发(distribute)声音使得空间特性被去除。此外,解相关确保声音被感知成与由非扩散声处理器709产生的声音区分开并且使得在渲染扬声器的空间位置与所假定的空间位置之间的差异的影响被减轻。扩散声处理器707可以如何为不同的空间扬声器配置生成渲染信号的一些例子将被描述。
所描述的系统的方法特别适合于使经编码的音频流适配于不同的空间渲染配置。例如,不同的终端用户可以在不同的空间扬声器配置的情况下(即在不同的真实的或虚拟的音频换能器位置的情况下)使用相同编码的音频信号。例如,一些终端用户可能具有五个空间声道扬声器,其它用户可能具有七个空间声道扬声器等。并且,给定数目的扬声器的位置可能在不同的设置之间大大地不同或者实际上对于相同的设置随着时间而不同。
图5的系统因此可以从使用N个空间声道的残余缩混表示转换为具有M个真实的或虚拟的扬声器位置的空间渲染配置。以下描述将集中于扩散声能够如何使用不同的空间扬声器配置被渲染。
扩散声处理器707可以首先通过对声道的信号应用解相关来从缩混的每个声道生成一个扩散信号(并且依照扩散参数定比例),从而生成N个扩散信号。
进一步的操作可以取决于空间扬声器配置相对于缩混的特性,并且具体地取决于每个的空间声道的相对数目(即,取决于残余缩混/生成的扩散声信号中的声道的数目N和空间扬声器配置中真实的或虚拟的扬声器的数目M)。
首先,注意的是,空间扬声器配置可能不是等距地分布在收听环境中。例如,如图8中所图示的那样,扬声器的集中向前面比向侧面或到背面可能常常是较高的。
这可以被图5的系统考虑到。具体地,扩散声处理器707可以被布置成取决于扬声器之间的接近来针对所生成的扩散信号调整音频水平/增益。例如,针对给定声道的水平/增益可以取决于与针对该声道的扬声器位置的和同样用于扩散渲染的一个或多个最近扬声器位置相距的距离。该距离可以是角距离。这样的方法可以解决扬声器典型地未被均等分布的问题。因此,在扩散声信号已被生成之后,单独扬声器中的功率被调整以便提供同质扩散声场。替换地,扩散能够通过调整单独扬声器中的功率而被给予空间分量。
调整功率以便提供同质声场的一个方法是将圆(或在3D情况下为球体)划分成扇区,扇区由单个扬声器表示(如图8中所指示的那样)。相对功率分布然后能够被确定为:
其中表示与扬声器k相对应的扇区的角宽度。类似地,在3D情况下,相对功率分布能够通过由扬声器所表示的、球体上的相对表面而被确定。
在一些实施例中,生成的扩散信号的初始数目(与缩混中的声道的数目相对应)可以与空间扬声器配置中的扬声器位置的数目相同,即N可以等于M。
在空间扬声器配置包括与残余缩混中的声道的数目相对应的声道的数目的一些实施例中,扩散声处理器707可以被布置成响应于与残余缩混相关联的空间信息而将残余缩混的声道映射到空间渲染配置的扬声器位置。替换地或附加地,它们可以简单地被随机地映射。因此,对于N=M,扩散信号可以取决于针对残余缩混声道的空间信息或随机地被映射。
具体地,系统能够通过设法找到所生成的N个扩散声信号(如被发送到解码器的)的角度与扬声器位置的角度之间的最好的可能匹配来这样做。如果这样的信息是不可得到的,则信号可以被以任意顺序表示。
在许多情景中,残余缩混声道的数目以及因此最初生成的扩散声道的数目可能小于由空间音频渲染装置503所输出的空间声道的数目,即空间扬声器配置中的扬声器位置的数目可能小于残余缩混声道的数目,N<M。
在这样的情景中,一个以上的解相关可以被应用于残余缩混的声道中的至少一个。因此,两个或更多个解相关的音频信号可以从单个缩混声道生成,从而导致两个或更多个扩散声信号被从单个残余缩混声道生成。通过对相同的声道应用两个不同的解相关,结果得到的信号还能够被生成为与彼此解相关从而提供扩散声。
在其中残余缩混包括两个或更多个声道并且两个或更多个附加的输出声道将被生成的情景中,使用残余缩混声道中的一个以上将典型地是有利的。例如,如果两个新的扩散声信号将被生成并且残余缩混是立体声信号,则一个新的扩散声信号可以通过对立体声缩混声道中的一个应用解相关而被生成并且另一个新的扩散声信号可以通过对另一个立体声缩混声道应用解相关而被生成。实际上,因为两个立体声缩混声道的扩散声典型地是高度解相关的,所以相同的解相关可以依次被应用于两个立体声缩混声道以便生成两个新的扩散声信号,所述两个新的扩散声信号不仅相对于残余缩混声道的扩散声而且相对于彼此是解相关的。
在生成解相关的信号时考虑空间扬声器配置可能是有利的。例如,残余缩混声道的扩散声可以被映射到配置中的空间上最接近于所对应的缩混声道的预定空间位置的扬声器。通过将最接近的缩混声道用作对于解相关器的输入,解相关的信号能够被馈送给剩余扬声器。
因此,在扬声器设置中的扬声器的数目大于残余缩混中的声道的数目的实施例中,附加的扩散声信号可能需要被生成。
例如如果单音残余缩混被接收到,则附加的扩散声信号能够通过对其应用解相关而被生成。第三扩散声信号能够通过对单音残余缩混应用解相关等而被生成。
应当了解,该方法可以进一步引入单独解相关的适当比例来为扩散声提供能量节约。因此,在扩散声场信号生成中所牵涉的处理可以简单地包括应用解相关和可选比例以便确保总的扩散源能量保持不变。
在存在残余缩混的一个以上的声道的情况下,即,N>1,使用和实际的一样多的残余缩混的声道以平衡方式来得到附加的扩散声信号典型地是有利的。例如,如果残余缩混的两个声道被发送并且四个扩散声信号是需要的,则两个解相关可以有利地被应用于两个残余缩混声道中的每一个,而不是对残余缩混声道中的一个应用三个或四个解相关。
在许多情况下,可能有利地因此使用来自残余缩混的扩散信号并且使用一个或多个解相关器仅生成缺失信号。
应当了解,用来生成附加的扩散声信号的解相关不需要被直接地应用于残余缩混的信号而是可以被应用于已经解相关的信号。例如,第一扩散声信号通过对残余缩混的信号应用解相关而被生成。结果得到的信号被直接地渲染。此外,第二扩散声信号通过对第一扩散声信号应用第二解相关而被生成。这个第二扩散声信号然后被直接地渲染。这种方法等同于对残余缩混的信号直接地应用两个不同的解相关,其中针对第二扩散声信号的总体解相关对应于第一和第二解相关的组合。
应当了解,用来生成附加的扩散声信号的解相关还可以在扩散分量的估计已被扩散声处理器707做出之后被应用。这具有如下优点:作为解相关的输入的信号具有更适合的性质,从而提高音频质量。
这样的方法在许多实施例中可能是特别高效的,因为第二解相关步骤可以被再用于多个第一相关,即用于多个残余缩混声道。
在一些情景中,扩散声处理器707可以被布置成生成比空间扬声器配置的扬声器位置要少的扩散声信号。实际上,在一些情景中,它可以提供改进的扩散声感知以便仅从扬声器位置的子集渲染扩散声。常常难以测量扩散声场(例如,声场话筒的话筒信号是高度相关的)或者难以高效地合成相互解相关的扩散声信号。采用大量的扬声器,在所有扬声器上渲染扩散信号的附加值是受限的,并且在一些情况下,解相关器的使用可能具有更大的负效应。因此,在一些情景中,仅将几个扩散声信号渲染到扬声器可能是优选的。如果扬声器信号是相互相关的,则这能够导致小的最佳听音位置(sweet spot)。
在一些实施例或情景中,残余缩混的声道的数目可以超过空间扬声器配置中的扬声器的数目,即N>M。在这个例子中,残余缩混的大量声道(具体地N-M个声道)可以简单地被忽略并且仅M个扩散声信号可以被生成。因此,在这个例子中,一个相关可以被应用于残余缩混的M个声道中的每一个,从而生成M个扩散声信号。要被使用的残余缩混声道可以被选择为在角度方面最接近于空间扬声器配置的扬声器位置的那些,或者可以例如简单地被随机地选择。
在其它实施例中,缩混声道可以要么在解相关之前要么在解相关之后被组合。例如,两个缩混声道可以被合计,并且解相关可以被应用于和信号来生成扩散声信号。在其它实施例中,解相关可以被应用于两个缩混信号并且结果得到的解相关的信号可以被合计。这样的方法可以确保所有(扩散)声分量在输出扩散信号中被表示。
在一些实施例中,扩散声处理器707可以被布置成生成扩散声信号,使得它们对应于针对空间扬声器配置的(标称或参考)收听位置的侧向渲染。例如,两个扩散声道可以被从标称或参考正面方向(在向左和向右的75°与105°之间)的相对侧渲染。
因此,作为经由解相关过程来生成附加的信号的低复杂性替代方案,扩散声场的合成可以通过生成向主体的左位置和右位置(即以相对于前面收听/查看方向约+/- 90°的角度)的少量的(虚拟)扩散声信号来构建。例如,如果N=2,并且信号将针对普通的5.1设置(在-110°、-30°、0°、+30°以及-110°处)被生成,则两个虚拟扩散声信号可以通过以大约-90°在左环绕(-110°)和左前(-30°)扬声器之间平移第一扩散声信号而被生成,第二扩散声信号可以以大约+90°在右前(+30°)和右环绕(+110°)扬声器之间被平移。所关联的复杂性典型地比在使用附加的解相关时要低。然而作为权衡,例如当转动头(增加的相关)或者移出最佳听音位置(优先效应)时,扩散声场的感知质量可以被降低。
应当了解,残余缩混的任何适合的表示可以被使用,包括作为单音缩混、立体声缩混或环绕声5.1缩混的表示。
在一些实施例中,残余缩混可以使用B格式信号表示来描述。这种格式表示与以下各项相对应的四个话筒信号:
1. 全向话筒,
2. 在前后方向上的八字结(figure-of-eight)话筒,
3. 在左右方向上的八字结话筒,以及
4. 在上下方向上的八字结话筒。
最后一个话筒信号有时被省略从而将描述限于水平平面。B格式表示常常可以在实践中得自A格式表示,所述A格式表示对应于来自四面体的面上的四个心状话筒的信号。
在扩散声场用A格式或B格式信号表示加以描述的情况下,例如当扩散声场用声场话筒加以记录时,扬声器信号能够得自这种表示。因为A格式能够被转化为B格式,所述B格式被通常且更容易地用于内容生成,所以进一步描述将假定B格式记录。
B格式表示的组成信号能够被混合来创建不同信号,所述不同信号表示其方向性能够被控制的另一虚拟话筒信号。这能够通过创建针对预定扬声器位置的虚拟话筒来完成,从而产生能够被直接地发送到所对应的扬声器的信号。
应当了解,上述描述为了清楚起见已经参考不同的功能电路、单元以及处理器描述了本发明的实施例。然而,将明显的是,在不偏离本发明的情况下可以使用功能性在不同的功能电路、单元或处理器之间的任何适合的分布。例如,被图示成由单独的处理器或控制器执行的功能性可以被相同的处理器或控制器执行。因此,对特定功能单元或电路的参考仅将被视为对用于提供所描述的功能性的适合的装置的参考,而不是指示严格的逻辑或物理结构或组织。
本发明能够以包括硬件、软件、固件或这些的任何组合的任何适合的形式被实施。本发明可以可选地被至少部分地实施为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。本发明的实施例的元件和构件可以以任何适合的方式被在物理上、功能上以及逻辑上实施。实际上,功能性可以被实施在单个单元中、实施在多个单元中或者作为其它功能单元的一部分被实施。因此,本发明可以被实施在单个单元中,或者可以在物理上和功能上被分布在不同的单元、电路以及处理器之间。
尽管已经与一些实施例有关地描述了本发明,但是本发明不旨在限于本文中所阐述的特定形式。相反,本发明的范围仅被所附权利要求限制。附加地,尽管特征可能似乎被与特定实施例有关地描述了,但是本领域的技术人员将认识到,所描述的实施例的各种特征可以依照本发明被组合。在权利要求中,术语包括不排除其它元件或步骤的存在。
此外,尽管被单独地列举,但是多个装置、元件、电路或方法步骤可以例如由单个电路、单元或处理器来实施。附加地,尽管单独的特征可以被包括在不同的权利要求中,但是这些有可能被有利地组合,并且在不同权利要求中的包括不暗示特征的组合是不可行的和/或有利的。因此,特征在一个类别的权利要求中的包括不暗示对这个类别的限制,而是指示特征视情况而定同样地适用于其它权利要求类别。此外,权利要求中的特征的顺序不暗示特征必须以其工作的任何特定顺序,并且特别地,方法权利要求中的单独的步骤的顺序不暗示步骤必须被以此顺序执行。相反,步骤可以被以任何适合的顺序执行。此外,单数参考不排除多个。因此,对“一”、“一个”、“第一”、“第二”等的参考不排除多个。权利要求中的附图标记被仅仅作为澄清例子来提供,不应该被解释为以任何方式限制权利要求的范围。
Claims (15)
1.一种空间音频渲染设备,包括:
用于提供残余缩混和表征至少一个音频对象的数据的电路,残余缩混对应于在所述至少一个音频对象被提取的情况下的音频场景的音频分量的缩混;
用于接收指示残余缩混的扩散程度的扩散参数的接收器(701);
用于通过对残余缩混应用第一变换为空间扬声器配置生成第一组信号的第一变换器(709),第一变换取决于扩散参数;
用于通过对残余缩混应用第二变换为空间扬声器配置生成第二组信号的第二变换器(707),第二变换取决于扩散参数并且包括残余缩混的至少一个声道的解相关;
用于从表征至少一个音频对象的数据为空间扬声器配置生成第三组信号的电路(703);以及
用于通过组合第一、第二以及第三组信号为空间扬声器配置生成输出的一组信号的输出电路(711);并且
其中,扩散参数是方向相关的。
2.根据权利要求1所述的空间音频渲染设备,其中扩散参数包括针对残余缩混的不同声道的单独的扩散值。
3.根据权利要求1所述的空间音频渲染设备,其中对于残余缩混的至少一个声道,在输出信号中相对于第一变换的贡献的第二变换的贡献因指示增加的扩散的扩散参数而增加。
4.根据权利要求1所述的空间音频渲染设备,其中第一组信号和第二组信号的组合能量基本上与扩散参数无关。
5.根据权利要求1所述的空间音频渲染设备,其中第二变换器(707)被布置成响应于与第二组信号中的第一信号相关联的扬声器位置到与第二组信号中的不同信号相关联的至少一个邻近扬声器位置的距离而调整第二组信号中的第一信号的音频水平。
6.根据权利要求1所述的空间音频渲染设备,其中残余缩混包括比空间扬声器配置的扬声器位置的数目要少的声道,并且其中第二变换器(707)被布置成通过对残余缩混的至少第一声道应用多个解相关来生成第二组信号中的多个信号。
7.根据权利要求6所述的空间音频渲染设备,其中第二变换器(707)被布置成通过对残余缩混的第二声道应用多个解相关来生成第二组信号中的另外的多个信号,第二声道不是至少第一声道中的声道。
8.根据权利要求1所述的空间音频渲染设备,其中第二组信号包括比空间扬声器配置中的扬声器位置的数目要少的信号。
9.根据权利要求1所述的空间音频渲染设备,其中残余缩混包括比空间扬声器配置的扬声器位置的数目要多的声道,并且其中第二变换器被布置成在生成第二组信号时组合残余缩混的至少两个声道。
10.根据权利要求1所述的空间音频渲染设备,其中第二变换器(707)被布置成生成第二组信号以便对应于音频从第二组信号的侧向渲染。
11.根据权利要求1所述的空间音频渲染设备,其中接收器(701)被布置成接收包括音频对象的接收到的缩混;并且其中用于提供残余缩混的电路被布置成响应于表征数据对象的数据而生成至少一个音频对象,并且被布置成通过从所接收到的缩混中提取至少一个音频对象来生成残余缩混。
12.根据权利要求1所述的空间音频渲染设备,其中空间扬声器配置不同于残余缩混的空间声音表示。
13.一种空间音频编码设备,其包括:
用于生成通过第一缩混和表征至少一个音频对象的数据来表示音频场景的经编码的数据的电路;
用于生成指示残余缩混的扩散程度的方向相关扩散参数的电路,残余缩混对应于在所述至少一个音频对象被提取的情况下的音频场景的音频分量的缩混;以及
用于生成包括第一缩混、表征至少一个音频对象的数据、以及方向相关扩散参数的输出数据流的输出电路(605)。
14.一种生成空间音频输出信号的方法,所述方法包括:
提供残余缩混和表征至少一个音频对象的数据,残余缩混对应于在所述至少一个音频对象被提取的情况下的音频场景的音频分量的缩混;
接收指示残余缩混的扩散程度的扩散参数;
通过对残余缩混应用第一变换为空间扬声器配置生成第一组信号,第一变换取决于扩散参数;
通过对残余缩混应用第二变换为空间扬声器配置生成第二组信号,第二变换取决于扩散参数并且包括残余缩混的至少一个声道的解相关;
从表征至少一个音频对象的数据为空间扬声器配置生成第三组信号;以及
通过组合第一、第二以及第三组信号为空间扬声器配置生成输出的一组信号;并且
其中,扩散参数是方向相关的。
15.一种空间音频编码的方法,其包括:
生成通过第一缩混和表征至少一个音频对象的数据来表示音频场景的经编码的数据;
生成指示残余缩混的扩散程度的方向相关扩散参数,残余缩混对应于在所述至少一个音频对象被提取的情况下的音频场景的音频分量的缩混;以及
生成包括第一缩混、表征至少一个音频对象的数据、以及方向相关扩散参数的输出数据流。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261588394P | 2012-01-19 | 2012-01-19 | |
US61/588,394 | 2012-01-19 | ||
US61/588394 | 2012-01-19 | ||
PCT/IB2013/050419 WO2013108200A1 (en) | 2012-01-19 | 2013-01-17 | Spatial audio rendering and encoding |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104054126A CN104054126A (zh) | 2014-09-17 |
CN104054126B true CN104054126B (zh) | 2017-03-29 |
Family
ID=47891796
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380005998.8A Expired - Fee Related CN104054126B (zh) | 2012-01-19 | 2013-01-17 | 空间音频渲染和编码 |
Country Status (7)
Country | Link |
---|---|
US (2) | US9584912B2 (zh) |
EP (1) | EP2805326B1 (zh) |
JP (1) | JP2015509212A (zh) |
CN (1) | CN104054126B (zh) |
BR (1) | BR112014017457A8 (zh) |
RU (1) | RU2014133903A (zh) |
WO (1) | WO2013108200A1 (zh) |
Families Citing this family (56)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2880653B1 (en) * | 2012-08-03 | 2017-11-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder and method for multi-instance spatial-audio-object-coding employing a parametric concept for multichannel downmix/upmix cases |
US9489954B2 (en) * | 2012-08-07 | 2016-11-08 | Dolby Laboratories Licensing Corporation | Encoding and rendering of object based audio indicative of game audio content |
US20140355769A1 (en) | 2013-05-29 | 2014-12-04 | Qualcomm Incorporated | Energy preservation for decomposed representations of a sound field |
BR112016001738B1 (pt) * | 2013-07-31 | 2023-04-04 | Dolby International Ab | Método, aparelho incluindo um sistema de renderização de áudio e meio não transitório de processamento de objetos de áudio espacialmente difusos ou grandes |
CN103400582B (zh) * | 2013-08-13 | 2015-09-16 | 武汉大学 | 面向多声道三维音频的编解码方法与系统 |
EP3503095A1 (en) * | 2013-08-28 | 2019-06-26 | Dolby Laboratories Licensing Corp. | Hybrid waveform-coded and parametric-coded speech enhancement |
EP3041272A4 (en) * | 2013-08-30 | 2017-04-05 | Kyoei Engineering Co., Ltd. | Sound processing apparatus, sound processing method, and sound processing program |
EP3056025B1 (en) | 2013-10-07 | 2018-04-25 | Dolby Laboratories Licensing Corporation | Spatial audio processing system and method |
WO2015056383A1 (ja) | 2013-10-17 | 2015-04-23 | パナソニック株式会社 | オーディオエンコード装置及びオーディオデコード装置 |
US9489955B2 (en) | 2014-01-30 | 2016-11-08 | Qualcomm Incorporated | Indicating frame parameter reusability for coding vectors |
US9922656B2 (en) | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
EP2925024A1 (en) * | 2014-03-26 | 2015-09-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for audio rendering employing a geometric distance definition |
US9620137B2 (en) | 2014-05-16 | 2017-04-11 | Qualcomm Incorporated | Determining between scalar and vector quantization in higher order ambisonic coefficients |
US9852737B2 (en) | 2014-05-16 | 2017-12-26 | Qualcomm Incorporated | Coding vectors decomposed from higher-order ambisonics audio signals |
CN110636415B (zh) * | 2014-08-29 | 2021-07-23 | 杜比实验室特许公司 | 用于处理音频的方法、系统和存储介质 |
US9782672B2 (en) * | 2014-09-12 | 2017-10-10 | Voyetra Turtle Beach, Inc. | Gaming headset with enhanced off-screen awareness |
US9747910B2 (en) | 2014-09-26 | 2017-08-29 | Qualcomm Incorporated | Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework |
CN105895086B (zh) * | 2014-12-11 | 2021-01-12 | 杜比实验室特许公司 | 元数据保留的音频对象聚类 |
US10595147B2 (en) | 2014-12-23 | 2020-03-17 | Ray Latypov | Method of providing to user 3D sound in virtual environment |
SG11201706101RA (en) | 2015-02-02 | 2017-08-30 | Fraunhofer Ges Forschung | Apparatus and method for processing an encoded audio signal |
JP6732764B2 (ja) | 2015-02-06 | 2020-07-29 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 適応オーディオ・コンテンツのためのハイブリッドの優先度に基づくレンダリング・システムおよび方法 |
CN105992120B (zh) * | 2015-02-09 | 2019-12-31 | 杜比实验室特许公司 | 音频信号的上混音 |
WO2016173658A1 (en) * | 2015-04-30 | 2016-11-03 | Huawei Technologies Co., Ltd. | Audio signal processing apparatuses and methods |
TR201910988T4 (tr) * | 2015-09-04 | 2019-08-21 | Koninklijke Philips Nv | Bir video görüntüsü ile ilişkili bir audio sinyalini işlemden geçirmek için yöntem ve cihaz |
JP2017055149A (ja) * | 2015-09-07 | 2017-03-16 | ソニー株式会社 | 音声処理装置および方法、符号化装置、並びにプログラム |
WO2017050482A1 (en) * | 2015-09-25 | 2017-03-30 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Rendering system |
US10341802B2 (en) | 2015-11-13 | 2019-07-02 | Dolby Laboratories Licensing Corporation | Method and apparatus for generating from a multi-channel 2D audio input signal a 3D sound representation signal |
ES2779603T3 (es) * | 2015-11-17 | 2020-08-18 | Dolby Laboratories Licensing Corp | Sistema y método de salida binaural paramétrico |
US10271157B2 (en) | 2016-05-31 | 2019-04-23 | Gaudio Lab, Inc. | Method and apparatus for processing audio signal |
US10419866B2 (en) * | 2016-10-07 | 2019-09-17 | Microsoft Technology Licensing, Llc | Shared three-dimensional audio bed |
US10123150B2 (en) * | 2017-01-31 | 2018-11-06 | Microsoft Technology Licensing, Llc | Game streaming with spatial audio |
US20180315437A1 (en) * | 2017-04-28 | 2018-11-01 | Microsoft Technology Licensing, Llc | Progressive Streaming of Spatial Audio |
US9820073B1 (en) | 2017-05-10 | 2017-11-14 | Tls Corp. | Extracting a common signal from multiple audio signals |
US11595774B2 (en) * | 2017-05-12 | 2023-02-28 | Microsoft Technology Licensing, Llc | Spatializing audio data based on analysis of incoming audio data |
WO2019002909A1 (en) * | 2017-06-26 | 2019-01-03 | Latypov Ray | METHOD FOR PROVIDING AN INTERACTIVE MUSICAL COMPOSITION TO A USER |
CN117319917A (zh) | 2017-07-14 | 2023-12-29 | 弗劳恩霍夫应用研究促进协会 | 使用多点声场描述生成经修改的声场描述的装置及方法 |
RU2736274C1 (ru) * | 2017-07-14 | 2020-11-13 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Принцип формирования улучшенного описания звукового поля или модифицированного описания звукового поля с использованием dirac-технологии с расширением глубины или других технологий |
RU2740703C1 (ru) | 2017-07-14 | 2021-01-20 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Принцип формирования улучшенного описания звукового поля или модифицированного описания звукового поля с использованием многослойного описания |
WO2019067370A1 (en) * | 2017-09-29 | 2019-04-04 | Zermatt Technologies Llc | 3D AUDIO RENDERING USING A VOLUMETRIC AUDIO RENDER AND A PRE-DEFINED AUDIO DETAIL LEVEL |
MX2020005044A (es) | 2017-11-17 | 2020-08-20 | Fraunhofer Ges Forschung | Aparato y metodo para codificar o decodificar parametros de codificacion de audio direccional utilizando diferentes resoluciones de tiempo/frecuencia. |
CN111630593B (zh) * | 2018-01-18 | 2021-12-28 | 杜比实验室特许公司 | 用于译码声场表示信号的方法和装置 |
EP4057281A1 (en) * | 2018-02-01 | 2022-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio scene encoder, audio scene decoder and related methods using hybrid encoder/decoder spatial analysis |
GB2572419A (en) * | 2018-03-29 | 2019-10-02 | Nokia Technologies Oy | Spatial sound rendering |
GB2572420A (en) | 2018-03-29 | 2019-10-02 | Nokia Technologies Oy | Spatial sound rendering |
GB2572650A (en) * | 2018-04-06 | 2019-10-09 | Nokia Technologies Oy | Spatial audio parameters and associated spatial audio playback |
CN112970270B (zh) * | 2018-11-13 | 2023-10-13 | 杜比实验室特许公司 | 沉浸式音频服务中的音频处理 |
GB201818959D0 (en) | 2018-11-21 | 2019-01-09 | Nokia Technologies Oy | Ambience audio representation and associated rendering |
KR20240005112A (ko) * | 2018-12-19 | 2024-01-11 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 공간 확장 음원을 재생하는 장치 및 방법 또는 공간 확장 음원으로부터 비트 스트림을 생성하는 장치 및 방법 |
EP3712788A1 (en) * | 2019-03-19 | 2020-09-23 | Koninklijke Philips N.V. | Audio apparatus and method therefor |
WO2020206177A1 (en) * | 2019-04-02 | 2020-10-08 | Syng, Inc. | Systems and methods for spatial audio rendering |
EP3963906B1 (en) * | 2019-05-03 | 2023-06-28 | Dolby Laboratories Licensing Corporation | Rendering audio objects with multiple types of renderers |
CN117499852A (zh) * | 2019-07-30 | 2024-02-02 | 杜比实验室特许公司 | 管理在多个扬声器上回放多个音频流 |
EP4005233A1 (en) * | 2019-07-30 | 2022-06-01 | Dolby Laboratories Licensing Corporation | Adaptable spatial audio playback |
US11430451B2 (en) * | 2019-09-26 | 2022-08-30 | Apple Inc. | Layered coding of audio with discrete objects |
US11710491B2 (en) * | 2021-04-20 | 2023-07-25 | Tencent America LLC | Method and apparatus for space of interest of audio scene |
GB2612587A (en) * | 2021-11-03 | 2023-05-10 | Nokia Technologies Oy | Compensating noise removal artifacts |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101361121A (zh) * | 2006-01-19 | 2009-02-04 | Lg电子株式会社 | 处理媒体信号的方法和装置 |
CN101433099A (zh) * | 2006-01-05 | 2009-05-13 | 艾利森电话股份有限公司 | 多声道环绕声的个性化解码 |
CN101553865A (zh) * | 2006-12-07 | 2009-10-07 | Lg电子株式会社 | 用于处理音频信号的方法和装置 |
CN101669167A (zh) * | 2007-03-21 | 2010-03-10 | 弗劳恩霍夫应用研究促进协会 | 用于在多声道音频格式之间进行转换的方法和设备 |
EP2249334A1 (en) * | 2009-05-08 | 2010-11-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio format transcoder |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8437868B2 (en) * | 2002-10-14 | 2013-05-07 | Thomson Licensing | Method for coding and decoding the wideness of a sound source in an audio scene |
JP5106115B2 (ja) * | 2004-11-30 | 2012-12-26 | アギア システムズ インコーポレーテッド | オブジェクト・ベースのサイド情報を用いる空間オーディオのパラメトリック・コーディング |
KR100857105B1 (ko) * | 2005-09-14 | 2008-09-05 | 엘지전자 주식회사 | 오디오 신호의 디코딩 방법 및 장치 |
US7974713B2 (en) * | 2005-10-12 | 2011-07-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Temporal and spatial shaping of multi-channel audio signals |
US8379868B2 (en) * | 2006-05-17 | 2013-02-19 | Creative Technology Ltd | Spatial audio coding based on universal spatial cues |
US8712061B2 (en) * | 2006-05-17 | 2014-04-29 | Creative Technology Ltd | Phase-amplitude 3-D stereo encoder and decoder |
US20080232601A1 (en) * | 2007-03-21 | 2008-09-25 | Ville Pulkki | Method and apparatus for enhancement of audio reconstruction |
WO2009084916A1 (en) * | 2008-01-01 | 2009-07-09 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
US8023660B2 (en) * | 2008-09-11 | 2011-09-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues |
EP2422344A1 (en) * | 2009-04-21 | 2012-02-29 | Koninklijke Philips Electronics N.V. | Audio signal synthesizing |
EP2449795B1 (en) * | 2009-06-30 | 2017-05-17 | Nokia Technologies Oy | Positional disambiguation in spatial audio |
EP2346028A1 (en) * | 2009-12-17 | 2011-07-20 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal |
EP2539889B1 (en) * | 2010-02-24 | 2016-08-24 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Apparatus for generating an enhanced downmix signal, method for generating an enhanced downmix signal and computer program |
CN103583054B (zh) * | 2010-12-03 | 2016-08-10 | 弗劳恩霍夫应用研究促进协会 | 用于产生音频输出信号的装置和方法 |
EP3182409B1 (en) * | 2011-02-03 | 2018-03-14 | Telefonaktiebolaget LM Ericsson (publ) | Determining the inter-channel time difference of a multi-channel audio signal |
WO2012122397A1 (en) * | 2011-03-09 | 2012-09-13 | Srs Labs, Inc. | System for dynamically creating and rendering audio objects |
JP6088444B2 (ja) * | 2011-03-16 | 2017-03-01 | ディーティーエス・インコーポレイテッドDTS,Inc. | 3次元オーディオサウンドトラックの符号化及び復号 |
EP2560161A1 (en) * | 2011-08-17 | 2013-02-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Optimal mixing matrices and usage of decorrelators in spatial audio processing |
-
2013
- 2013-01-17 BR BR112014017457A patent/BR112014017457A8/pt not_active IP Right Cessation
- 2013-01-17 US US14/372,068 patent/US9584912B2/en not_active Expired - Fee Related
- 2013-01-17 RU RU2014133903A patent/RU2014133903A/ru not_active Application Discontinuation
- 2013-01-17 CN CN201380005998.8A patent/CN104054126B/zh not_active Expired - Fee Related
- 2013-01-17 JP JP2014552731A patent/JP2015509212A/ja active Pending
- 2013-01-17 EP EP13710018.6A patent/EP2805326B1/en not_active Not-in-force
- 2013-01-17 WO PCT/IB2013/050419 patent/WO2013108200A1/en active Application Filing
-
2017
- 2017-01-18 US US15/408,519 patent/US20170125030A1/en not_active Abandoned
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101433099A (zh) * | 2006-01-05 | 2009-05-13 | 艾利森电话股份有限公司 | 多声道环绕声的个性化解码 |
CN101361121A (zh) * | 2006-01-19 | 2009-02-04 | Lg电子株式会社 | 处理媒体信号的方法和装置 |
CN101553865A (zh) * | 2006-12-07 | 2009-10-07 | Lg电子株式会社 | 用于处理音频信号的方法和装置 |
EP2187386A2 (en) * | 2006-12-07 | 2010-05-19 | LG Electronics Inc. | A method and an apparatus for processing an audio signal |
CN101669167A (zh) * | 2007-03-21 | 2010-03-10 | 弗劳恩霍夫应用研究促进协会 | 用于在多声道音频格式之间进行转换的方法和设备 |
EP2249334A1 (en) * | 2009-05-08 | 2010-11-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio format transcoder |
Also Published As
Publication number | Publication date |
---|---|
BR112014017457A2 (pt) | 2017-06-13 |
RU2014133903A (ru) | 2016-03-20 |
JP2015509212A (ja) | 2015-03-26 |
EP2805326B1 (en) | 2015-10-14 |
WO2013108200A1 (en) | 2013-07-25 |
CN104054126A (zh) | 2014-09-17 |
EP2805326A1 (en) | 2014-11-26 |
US9584912B2 (en) | 2017-02-28 |
BR112014017457A8 (pt) | 2017-07-04 |
US20140358567A1 (en) | 2014-12-04 |
US20170125030A1 (en) | 2017-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104054126B (zh) | 空间音频渲染和编码 | |
US9299353B2 (en) | Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction | |
JP5956994B2 (ja) | 拡散音の空間的オーディオの符号化及び再生 | |
CN104428835B (zh) | 音频信号的编码和解码 | |
RU2698775C1 (ru) | Способ и устройство для рендеринга звукового сигнала и компьютерно-читаемый носитель информации | |
CN105191354B (zh) | 音频处理装置及其方法 | |
JP4944902B2 (ja) | バイノーラルオーディオ信号の復号制御 | |
US7912566B2 (en) | System and method for transmitting/receiving object-based audio | |
CN103890841B (zh) | 音频对象编码和解码 | |
TWI686794B (zh) | 以保真立體音響格式所編碼聲訊訊號為l個揚聲器在已知位置之解碼方法和裝置以及電腦可讀式儲存媒體 | |
TW202016925A (zh) | 用於編碼、解碼、場景處理及與以指向性音訊編碼為基礎之空間音訊編碼有關的其他程序之裝置、方法及電腦程式 | |
JP2024020307A (ja) | 空間的に拡張された音源を再生するための装置および方法、または、空間的に拡張された音源からビットストリームを生成するための装置および方法 | |
TWI745795B (zh) | 使用低階、中階及高階分量產生器用於編碼、解碼、場景處理及基於空間音訊編碼與DirAC有關的其他程序的裝置、方法及電腦程式 | |
Paterson et al. | Producing 3-D audio | |
CN117119369A (zh) | 音频生成方法、计算机设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170329 Termination date: 20180117 |