CN109891503B - 声学场景回放方法和装置 - Google Patents
声学场景回放方法和装置 Download PDFInfo
- Publication number
- CN109891503B CN109891503B CN201680090424.9A CN201680090424A CN109891503B CN 109891503 B CN109891503 B CN 109891503B CN 201680090424 A CN201680090424 A CN 201680090424A CN 109891503 B CN109891503 B CN 109891503B
- Authority
- CN
- China
- Prior art keywords
- vlo
- microphone
- virtual
- listening position
- recording
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 95
- 238000009877 rendering Methods 0.000 claims abstract description 22
- 238000004590 computer program Methods 0.000 claims abstract description 7
- 230000003068 static effect Effects 0.000 claims description 27
- 230000002452 interceptive effect Effects 0.000 claims description 16
- 238000002156 mixing Methods 0.000 claims description 8
- 230000005855 radiation Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000001934 delay Effects 0.000 claims description 5
- 230000001902 propagating effect Effects 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 69
- 230000008859 change Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000001419 dependent effect Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 101000626795 Escherichia coli (strain K12) Uncharacterized lipoprotein YdeK Proteins 0.000 description 1
- 206010021403 Illusion Diseases 0.000 description 1
- 241000949477 Toona ciliata Species 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000005553 drilling Methods 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/403—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers loud-speakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/12—Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/02—Spatial or constructional arrangements of loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/01—Aspects of volume control, not necessarily automatic, in sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
- H04S7/304—For headphones
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Stereophonic System (AREA)
Abstract
一种声学场景回放方法包括:提供录音数据,包括位于声学场景内的一个或多个麦克风配置的麦克风信号和所述一个或多个麦克风配置的麦克风元数据,其中所述一个或多个麦克风配置中的每一个都包括一个或多个麦克风并且具有作为相应麦克风配置的中心位置的录音点;指定虚拟收听位置,其中所述虚拟收听位置是所述声学场景内的一个位置;为所述一个或多个麦克风配置中的每个麦克风配置分配一个或多个虚拟扬声器对象(Virtual Loudspeaker Object,VLO),其中每个VLO是虚拟自由场内的一个抽象声音输出对象;基于所述录音数据、所述虚拟收听位置和分配给所述一个或多个麦克风配置的VLO参数来生成编码数据流;基于回放配置对所述编码数据流进行解码,从而生成解码数据流;以及将所述解码数据流输入到渲染设备,从而驱动所述渲染设备在所述虚拟收听位置处再现所述声学场景中的声音。本发明还描述了一种用于执行所述声学场景回放方法的回放装置和计算机程序。
Description
技术领域
本发明涉及一种声学场景回放方法和装置。
背景技术
在经典的录音技术中,以单个听者的视角在原始声音场景中捕获和再现空间音频场景的环绕图像,空间音频场景还称为声学场景或声音场景。单视角录音通常通过立体声(基于声道)录音和再现技术或立体混响声录音和再现技术(基于场景)来实现。交互式音频显示器的出现可能性和音频传输媒体从磁带或CD到更灵活的媒体的推广使得音频的使用更动态,例如多通道数据的交互式客户端侧音频渲染或者客户端的独立预渲染音频流的服务器侧渲染和传输。虽然上述提及的技术在游戏中已经很常见,但是很少用于再现录制的音频场景。
到目前为止,已经可以只通过音频渲染基于所涉及的声音的单独隔离录音和混响(基于对象)的额外录音或渲染来在再现过程中遍历声音场景。通过改变录制声源的排列,可以调整再现侧的回放角度。
此外,另一种可能性是推断一种视差调整以通过重映射定向音频编码从单视角录音中创建视角变化的印象。这通过假设在将源位置的方向投射到凸包上之后获得源位置来进行。这种排列依赖于使用直达声/早期声的频谱分离假设进行的时变信号滤波。然而,这样会导致信号衰减。此外,源位于凸包上这一假设只适用于位置变化较小的情况。
因此,现有技术的局限性在于,当使用基于对象的音频渲染来渲染演练时,需要显式了解房间属性、源位置和源自身的属性。此外,从真实场景中获取基于对象的表示是一项艰难的任务,而且需要许多麦克风靠近所有所需的源,或者需要源分离技术以从混合源中提取各个源。因此,基于对象的方案只适用于合成场景,而不能用于实现真实声学场景中的高质量演练。
本发明解决了现有技术的不足之处,并且在虚拟监听位置处回放声学场景中的声音时,允许在真实录制的声学场景内不断改变进行音频回放的虚拟监听位置。因此,本发明解决了利用一种改进的方法和装置进行声学场景回放的问题。
发明内容
在第一方面中,提供了一种声学场景回放方法,其中所述方法包括:
提供录音数据,包括位于声学场景内的一个或多个麦克风配置的麦克风信号和所述一个或多个麦克风配置的麦克风元数据,其中所述一个或多个麦克风配置中的每一个都包括一个或多个麦克风并且具有作为相应麦克风配置的中心位置的录音点;
指定虚拟收听位置,其中所述虚拟收听位置是所述声学场景内的一个位置;
为所述一个或多个麦克风配置中的每个麦克风配置分配一个或多个虚拟扬声器对象(Virtual Loudspeaker Object,VLO),其中每个VLO是虚拟自由场内的一个抽象声音输出对象;
基于所述录音数据、所述虚拟收听位置和分配给所述一个或多个麦克风配置的VLO参数来生成编码数据流;
基于回放配置对所述编码数据流进行解码,从而生成解码数据流;以及
将所述解码数据流输入到渲染设备,从而驱动所述扬声器设备在所述虚拟收听位置再现所述声学场景中的声音。
虚拟自由场是一种包括直达声而不包括混响声的抽象(即虚拟)声场。虚拟意味着在计算机等机器上或在互动计算机的系统上建模或表示。声学场景包括空间区域以及该空间区域内的声音,除了声学场景,还可替代性地称为声场或空间音频场景。此外,渲染设备可以是一个或多个扬声器和/或一个或多个耳机。因此,聆听虚拟收听位置处的声学场景的再现声音的听者能够改变期望虚拟收听位置并且虚拟地穿过声学场景。这样,听者能够再次体验或重新体验整个原声场地,例如音乐会。用户可以在整个声学场景内行走,在场景内的任何点处聆听。因此,用户可以通过确定和输入声学场景内的期望位置来以互动方式探索整个声学场景,并且能够在所选位置处聆听声学场景内的声音。例如,在音乐会上,用户可以选择在后面、在人群里、在舞台正前方,甚至在音乐家环绕的舞台上聆听。此外,可以想到虚拟现实(virtual reality,VR)中的应用从旋转延伸到还能够翻译。在本发明中,只需要知道录音位置和虚拟收听位置。因此,在本发明中,不需要关于原声源(例如音乐家)的信息,例如他们的数量、位置或朝向。具体而言,由于使用了虚拟扬声器对象(virtualloudspeaker object,VLO),所以声源的空间分布本来就进行编码,无需估计实际位置。此外,混响等房间属性本身也进行了编码,并且使用了与源信号不对应的用于驱动VLO的驱动信号,因此无需录制或估计实际声源信号。这些驱动信号通过与数据无关的线性处理从麦克风信号中导出。此外,本发明计算效率高并且实现了实时编码和渲染。因此,听者能够互动地改变期望虚拟收听位置并且虚拟地穿过(录制的)声学场景(例如音乐会)。由于本发明的计算效率高,所以声学场景可以实时地流式传输到远端,例如回放装置。本发明不依赖于有关声源数量或位置的现有信息。与经典的单视角立体声或环绕录音技术类似,所有声源参数本来就进行编码,无需估计。与基于对象的音频方法相反,声源信号不需要隔离,因而无需闭式麦克风且避免了由于源信号分离而产生的可听假象。
虚拟扬声器对象(Virtual Loudspeaker Object,VLO)可以在计算机上实施,例如作为基于对象的空间音频层中的对象。每个VLO可以表示声源、早期反射和漫射声的混合物。在此背景下,声源是一种局部的原声源,例如说话或唱歌的个人、一种乐器或一个物理扬声器。一般而言,需要几个(即两个或更多)VLO的联合来再现声学场景。
根据所述第一方面,在所述方法的第一种实施形式中,在为每个麦克风配置分配一个或多个VLO之后,对于每个麦克风配置,将所述一个或多个VLO放置在所述虚拟声场内的与所述声学场景内的相应麦克风配置的录音点对应的位置处。
这有助于为一个常见虚拟自由场中的每个录音点虚拟地配置包括VLO的虚拟再现系统。因此,第一种实施形式的这些特征有助于实现一种安排,其中用户能够在回放与所选虚拟收听位置对应的信号时改变真实录制的声学场景内的音频回放的虚拟收听位置。
根据所述第一方面,在所述方法的第二种实施形式中,所述VLO参数包括所述一个或多个VLO的独立于所述虚拟收听位置并描述属性的一个或多个静态VLO参数,所述静态VLO参数对于所述声学场景回放是固定的。
因此,虚拟自由场内的VLO参数描述VLO的属性,属性对于特定回放配置排列是固定的,这有助于充分配置虚拟自由场中的再现系统并且描述虚拟自由场内的VLO的属性。例如,如果回放通过室内或耳机内提供的扬声器进行,则回放配置排列是指回放装置自身的属性等。
根据所述第一方面,在所述方法的第三种实施形式中,所述方法还包括:在生成所述编码数据流之前,基于所述麦克风元数据和/或临界距离来计算所述一个或多个静态VLO参数,其中,所述临界距离是直达声的声压级和混响声的声压级对于定向声源相等时的距离,或者,在生成所述编码数据流之前,从传输装置接收所述一个或多个静态VLO参数。
因此,静态VLO参数可以在回放装置内计算或者可以从别处接收,例如从传输装置接收。此外,由于静态VLO参数考虑了麦克风元数据和/或临界距离,所以静态VLO参数考虑录制声学场景时的参数,使得回放装置尽可能逼真地回放对应于某个虚拟收听位置的某个声音。
根据所述第一方面,在所述方法的第四种实施形式中,对于所述一个或多个麦克风配置中的每一个,所述一个或多个静态VLO参数包括:多个VLO,和/或每个VLO到所述相应麦克风配置的所述录音点的距离,和/或(例如,相对于所述相应麦克风配置的所述一个或多个麦克风的方向)已经分配给所述相应麦克风配置的所述一个或多个VLO的角布局,和/或定义所述相应麦克风配置的所述麦克风信号的混合的混合矩阵Bi。
因此,这些静态VLO参数是对于某个声学场景回放来说固定的参数而且在声学场景回放期间不会改变,并且不依赖于所选的虚拟收听位置。
根据所述第一方面,在所述方法的第五种实施形式中,所述VLO参数包括依赖于所述虚拟收听位置的一个或多个动态VLO参数,所述方法包括:在生成所述编码流之前,基于所述虚拟收听位置来计算所述一个或多个动态VLO参数,或者从传输装置接收所述一个或多个动态VLO参数。
因此,静态VLO参数和动态VLO参数都可以很容易地在回放装置内生成或者都可以从单独的(例如远距离的)传输装置接收。此外,动态VLO参数依赖于所选的虚拟收听位置,因此声音回放将根据所选虚拟收听位置和动态VLO参数确定。
根据所述第一方面,在所述方法的第六种实施形式中,所述一个或多个动态VLO参数对于所述一个或多个麦克风配置中的每一个包括:一个或多个VLO增益,其中每个VLO增益是对应VLO的控制信号的增益,和/或一个或多个VLO延迟,其中每个VLO延迟是声波从所述对应VLO传播到所述虚拟收听位置的时延,和/或一个或多个VLO入射角,其中每个VLO入射角是连接所述录音点和所述对应VLO的线与连接所述对应VLO和所述虚拟收听位置的线之间的角度,和/或一个或多个参数,指示所述对应VLO的辐射方向性。
通过提供VLO增益,可以通过对依赖于对应于VLO增益的对应VLO与虚拟收听位置之间的距离的增益进行正则化来执行接近正则化。此外,可以确保方向依赖性,因为VLO增益可以根据相对于虚拟自由场内的VLO位置的虚拟收听位置确定。因此,可以将更加逼真的声音印象传送给听者。此外,VLO延迟、VLO入射角和指示辐射方向性的参数还有助于达到逼真的声音印象。
根据所述第一方面,在所述方法的第七种实施形式中,所述方法还包括:在生成所述编码数据流之前,计算互动式VLO格式,其对于每个录音点和分配给所述录音点的每个VLO包括所得信号和入射角其中其中gij是第i个录音点处的第j个VLO的控制信号xij的增益因子,τij是声波从所述第i个录音点的所述第j个VLO传播到所述虚拟收听位置的时延,t表示时间,所述入射角是连接所述第i个录音点和所述第i个录音点处的所述第j个VLO的线与连接所述第i个录音点的所述第j个VLO和所述虚拟收听位置的线之间的角度。
因此,可以有效地使用某种互动式VLO格式作为输入以进行编码,使得这种互动式VLO格式有助于有效地执行编码。
因此,如果虚拟收听位置靠近对应VLO,则接近正则化是可能的。此外,可以确保方向依赖性,使得增益因子确认了接近正则化和方向依赖性。
因此,可以使用现有技术的立体混响声编码器,其中将具体信号输入到立体混响声编码器中进行编码,即,每个所得信号和入射角结合所述第一方面达到上述提及的效果。因此,根据所述第一方面或任意实施形式的本发明还提供了一种非常简单且成本低的排列,其中能够使用现有技术的立体混响声编码器实现本发明。
根据所述第一方面,在所述方法的第十种实施形式中,对于所述一个或多个麦克风配置中的每一个,在以所述相应麦克风配置的所述录音点作为所述虚拟自由场内的圆线中心的所述圆线上提供分配给所述相应麦克风配置的所述一个或多个VLO,所述圆线的半径Ri根据所述麦克风配置的方向性阶数、所述声学场景的混响以及所述相应麦克风配置的所述录音点与相邻麦克风配置的录音点之间的平均距离di确定。
因此,VLO可以有效地排列在虚拟自由场内,从而提供一种用于获取本发明效果的非常简单的排列。
根据所述第一方面,在所述方法的第十一种实施形式中,所述圆线上的VLO的数量和/或所述圆线上的每个VLO的角位置,和/或所述圆线上的每个VLO的声辐射的方向性根据所述相应麦克风配置的麦克风方向性阶数和/或所述相应麦克风配置的录音原理和/或第i个麦克风配置的录音点的半径Ri和/或所述第i个麦克风配置的第j个VLO与所述虚拟收听位置之间的距离dij确定。
这些特征有助于为听者生成逼真的声音印象并且有助于实现上文结合第一方面已经提及的所有优点。
根据所述第一方面,在所述方法的第十二种实施方式中,为了提供所述录音数据,从外部(即,从实现了所述VLO的所述装置的外部),具体是通过应用流式媒体,接收所述录音数据。
这使得录音数据不必在任何回放装置内生成,而是可以直接从某个对应传输装置等接收,例如,该传输装置正在录制某个声学场景,例如音乐会,并且在直播流中将录制数据提供给回放装置。随后,回放装置则可以执行此处提供的声学场景回放方法。因此,在本发明中,可以实现音乐会等声学场景的直播流。本发明中的VLO参数可以根据所选虚拟收听位置进行实时调整。因此,本发明计算效率高并且实现了实时编码和渲染。因此,听者能够互动地改变期望虚拟收听位置并且虚拟地穿过录制的声学场景。由于本发明的计算效率高,所以可以实时地将声学场景流式传输到回放装置。
根据所述第一方面,在所述方法的第十三种实施形式中,为了提供所述录音数据,从录音介质中,具体是从CD-ROM中提取所述录音数据。
这是将录音数据提供给回放装置的又一种可能性,即,通过将CD-ROM插入到回放装置中,其中从该CD-ROM中提取录音数据,从而提供录音数据进行声学场景回放。
根据第二方面,提供了一种回放装置或一种计算机程序或提供了这两者。所述回放装置用于执行根据所述第一方面(具体而言,根据其实施形式中的任一种)的方法。所述计算机程序可以提供在数据载体上,当所述计算机程序在计算机上运行时,可以指示所述回放装置执行根据所述第一方面(具体而言,根据其实施形式中的任一种)的方法。
附图说明
图1示出了代表性声学场景,该声学场景内有若干个虚拟收听位置;
图2a示出了根据本发明一实施例的一种声学场景回放方法;
图2b示出了根据本发明又一实施例的一种声学场景回放方法;
图2c示出了根据本发明又一实施例的一种声学场景回放方法;
图2d示出了根据本发明又一实施例的一种声学场景回放方法;
图2e示出了根据本发明又一实施例的一种声学场景回放方法;
图3示出了根据本发明实施例的一种声学场景回放方法的框图;
图4示出了声学场景内的示例性麦克风和声源分布;
图5示出了针对不同麦克风配置的示例性再现配置;
图6示出了虚拟自由场中的VLO和对应虚拟收听位置;
图7示出了根据本发明一实施例的用于计算麦克风信号的互动式VLO格式的框图;
图8示出了根据本发明一实施例的互动式VLO格式的编码/解码的框图;
图9示出了根据本发明一实施例的分配给对应麦克风配置的VLO的排列和构造;
图10示出了根据本发明一实施例的VLO的方向图;
图11示出了根据本发明一实施例的虚拟自由场中VLO与虚拟收听位置之间的一种关系;
图12a示出了根据本发明另一实施例的虚拟自由场中VLO与虚拟收听位置之间的另一种关系;
图12b示出了根据本发明另一实施例的虚拟自由场中VLO与虚拟收听位置之间的另一种关系;
图13示出了根据本发明一实施例的指示对应VLO的增益的函数f与VLO到虚拟收听位置的距离之间的一种关系。
一般而言,需要注意的是,本申请中描述的所有装置、设备、元件、单元和构件可以通过软件或硬件元件或其任意类型的组合实施。本申请中描述的各种实体执行的所有步骤和所描述的将由各种实体执行的功能旨在表明各个实体适于或用于执行各自的步骤和功能。即使在下文描述或特定实施例中,将由一般实体执行的具体功能或步骤没有体现在执行该具体步骤或功能的那个实体的具体详细元件的描述中,技术人员也应清楚,这些元件可以在各个软件或硬件元件或其任意类型的组合中实施。进一步地,本发明的方法和其各种步骤体现在所述各种装置元件的功能中。
附图详细说明
图1示出了声学场景(例如音乐厅)和该声学场景中的声音。这里,人群中的一些人正在欣赏乐队演奏音乐。靠近左下角的人表示某个虚拟收听位置。一般来说,不仅仅是在本示例中,虚拟收听位置可以例如由根据本发明实施例的用于声学场景回放的回放装置的用户来选择。图1示出了声学场景内的若干个虚拟收听位置,这些位置可以由回放装置的用户随意选择或者通过自动化过程来选择,无需回放装置的用户进行任何手动输入。例如,图1示出了人群后、人群内、人群前以及舞台前或舞台上的音乐家旁边的虚拟收听位置。
图2a示出了根据本发明一实施例的一种声学场景回放方法。在步骤200中,提供录音数据,包括放置在声学场景内的一个或多个麦克风配置的麦克风信号和该一个或多个麦克风配置的麦克风元数据。一个或多个麦克风配置均包括一个或多个麦克风。在此背景下,麦克风元数据可以是图1等中的声学场景内的麦克风位置、麦克风方向和麦克风特征,等等。根据步骤200,仅仅需要提供录音数据。该录音数据可以在执行声学场景回放方法的任意回放装置内计算或者可以从其它地方接收;提供录音数据(给回放装置)的方法步骤200是一个涵盖这两种选择的方法步骤。
随后,在步骤210中,可以指定虚拟收听位置。虚拟收听位置是声学场景内的一个位置。虚拟位置可以例如由使用回放装置的用户来指定。例如,可以使得用户能够通过将某个虚拟收听位置输入到回放装置中来指定该虚拟收听位置。然而,指定虚拟收听位置不限于该示例,也可以在没有听者进行手动输入的情况下以自动化方式来指定。例如,可以想象,从CD-ROM中读取或者从存储单元中提取虚拟收听位置,因此不用任何听者进行手动确定。
此外,在随后的步骤220中,可以为一个或多个麦克风配置中的每个麦克风配置分配一个或多个虚拟扬声器对象(virtual loudspeaker object,VLO)。每个麦克风配置包括(或定义)一个录音点,该录音点是麦克风配置的中心位置。每个VLO是虚拟自由场内的一个抽象声音输出对象。虚拟声场是一个抽象声场,包括直达声而不包括混响声。该方法步骤220有助于实现本发明实施例的优点,即,为虚拟自由场中的每个录音点虚拟地建立包括VLO的再现系统。在本发明实施例中,通过虚拟扬声器对象(virtual loudspeaker object,VLO)来获得期望效果,即,在期望的虚拟收听位置处再现声学场景中的声音。这些VLO是放置在虚拟自由场中的抽象声音对象。
在步骤230中,基于录音数据、虚拟收听位置和分配给一个或多个麦克风配置的VLO参数来(例如在录音阶段之后的回放阶段)生成编码数据流。针对一个或多个麦克风配置中的每一个,均可以通过虚拟地驱动分配给相应麦克风配置的一个或多个VLO来生成编码数据流,使得这一个或多个VLO虚拟地再现通过相应麦克风配置录制的声音。然后,可以通过在虚拟收听位置处重叠来自方法中的所有VLO(即,来自所有麦克风配置的VLO)的虚拟声音(即,通过形成虚拟声音的线性组合)来获得虚拟收听位置处的虚拟声音。
在步骤240中,基于回放配置对编码数据流进行解码,从而生成解码数据流。在此背景下,回放配置可以是一种对应于扬声器阵列或者耳机的配置,该扬声器阵列设置在例如听者想要收听对应于虚拟收听位置的声音时所在的家中的某个房间内,耳机是听者在虚拟收听位置处收听声学场景中的声音时佩戴的。
此外,在步骤250中,可以将该解码数据流输入到渲染设备,从而驱动该渲染设备在虚拟收听位置处再现声学场景中的声音。该渲染设备可以是一个或多个扬声器和/或耳机。
因此,使某个回放装置的用户改变真实录制的声学场景内用于(3D)音频回放的期望虚拟收听位置是有可能的。例如,由此使得用户能够在整个声学场景内行走并且在该场景中的任意点处收听。因此,用户可以通过将期望的虚拟收听位置输入到回放装置中来以互动的方式探索整个声学场景。在本发明中,根据图2a的实施例,当虚拟收听位置改变时,实时调整VLO参数。因此,根据图2a的实施例对应于计算效率高的方法,并且实现实时编码和渲染。根据图2a的实施例,只需要提供录音数据和虚拟收听位置。图2a的当前实施例不依赖于有关声源数量或位置的现有信息。此外,所有声源参数本来就要进行编码,无需估计。与基于对象的音频方法相反,声源信号不需要隔离,因而无需闭式麦克风并且避免了由于声源信号分离而产生的音频假象。
图2b示出了一种声学场景回放方法的本发明又一实施例。相比于图2a的实施例,图2b的实施例还包括步骤225:对于每个麦克风配置,将一个或多个VLO放置在虚拟声场内的与声学场景内麦克风配置的录音点对应的位置处。例如,可以如图9所示对虚拟自由场内的每个录音点对应的VLO进行放置。在图9中,若无其它说明,则第i个录音点处的一组麦克风2可以被认为是一个准重合麦克风阵列,只要麦克风组中的麦克风2之间的距离小于例如20cm,第i个录音点是该组麦克风2的中心位置。对于录音点i处的每个(准重合)麦克风阵列,可以基于所有麦克风位置,即所有麦克风坐标点,之和的德洛涅三角来估计与该麦克风阵列到其相邻(准重合)麦克风阵列的平均距离。对于具有第i个录音点的一个(准重合)麦克风阵列,平均距离di是与其所有相邻(准重合)麦克风阵列的中间距离。此外,通过在围绕位置ri的半径为Ri的圆形上提供的VLO对位于第i个录音点处的麦克风阵列的信号进行回放,其中ri是坐标原点到第i个录音点的中心位置的向量。该圆形包含Li个虚拟扬声器对象,其半径Ri可以根据以下公式计算:
Ri=c0max(di,3m)
这里,c0是一个设计参数,依赖于麦克风的方向性阶数和录音室的混响(尤其是临界距离rH,即直达声和混响声的声压级对于定向声源来说相等时的距离)。因此,对于麦克风方向性阶数N=0,c0为0;对于麦克风方向性阶数N≥1,对于混响室(低rH≤1m),c0为0.4;对于“平均房间”(rH≈2m),c0为0.5;对于干燥房间(rH≥3m),c0为0.6。记录第i个录音点处的麦克风阵列的信号的虚拟扬声器对象的数量Li、各个虚拟扬声器对象的角位置以及虚拟扬声器方向性控制根据麦克风方向性阶数Ni、麦克风阵列的基于通道或场景的录音原理、虚拟扬声器围绕向量ri的端点的排列的半径Ri以及第i个录音点处的第j个VLO与虚拟收听位置之间的距离dij确定。
此外,对于方向性阶数Ni=0和单个麦克风,第i个录音点处Li=1,不提供虚拟声波方向性的虚拟扬声器方向性控制(全向模式)。在这种情况下,在单个麦克风的录音位置处提供虚拟扬声器对象。
此外,对于使Ni≥1的情况,必须在两种情况之间做出决定,即基于通道的麦克风阵列和基于场景的麦克风阵列:
·对于具有Ki个通道的阶数Ni≥1的基于通道的麦克风阵列(例如单通道心脏形曲线、单通道猎枪式麦克风、双通道XY录音、双通道ORTF录音、小型正面三通道排列),作为默认调整,第i个录音点处的Li个VLO中的每一个均放置在相对于其被分配到的麦克风的同轴上,使用Ri作为从录音点i的中心位置到对应VLO的距离。同轴意味着在连接麦克风阵列中的一个麦克风和第i个录音点的同一条线上提供该麦克风的VLO。
否则,只要存在基于通道的麦克风阵列配置的标准扬声器布局,就不使用默认调整,该布局用于将VLO放置在第i个录音点的Ri上。ORTF也是如此,其中一针对双通道立体声方向±110°专门使用一个回放扬声器对。
·对于方向性阶数Ni≥1(例如B格式)的基于场景的麦克风阵列,根据以下参数来生成VLO:
Ri≤2.5m:Li=4Ni,90°/Ni的角间距以及根据虚拟收听位置确定的受控方向性,其中角间距表示分配给同一第i个录音点的两个相邻VLO的角间距;
2.5m<Ri≤3.5m:Li=5Ni,72°/Ni的角间距和根据虚拟收听位置确定的受控方向性;
Ri>3.5m:Li=6Ni,60°/Ni的角间距和根据虚拟收听位置确定的受控方向性。
此外,对于基于场景的麦克风阵列(立体混响声麦克风阵列),VLO的排列有可能在虚拟自由场中重叠。为避免这种情况,分配给对应录音点的VLO的每种排列相对于虚拟自由场中的其它VLO排列进行旋转,使得相邻VLO排列的最小距离变为最大。
这样,与对应录音点相对应的VLO的位置可以确定在虚拟自由场内。如上所述,图9仅仅表示一种示例,其中例如提供了包含五个麦克风2的麦克风配置1。此外,对应于麦克风2的对应VLO 3也与支持正确确定对应VLO 3的位置的构造线一起示出。
此外,如图2b所示的所有其它方法步骤与图2a中相同。
图2c示出了另一实施例,其另外提供方法步骤227:基于麦克风元数据和/或临界距离来计算一个或多个静态VLO参数,该临界距离是直达声和混响声的声压级对于定向声源相等时的距离,或者从传输装置接收一个或多个静态VLO参数。在此背景下,应注意,原则上,还可以在执行步骤200、210、220和225中的任一者之前或在这些方法步骤200、210、220或225中的两者之间提供方法步骤227。因此,图2c中的步骤227的位置仅仅是一种示例位置。在此背景下,静态VLO参数不依赖于任何期望的虚拟收听位置,而且对于某个录音配置和声学场景回放只确定一次,并且不会针对声学场景回放而改变。在此背景下,该录音配置是指声学场景录制现场的所有麦克风位置、麦克风方向、麦克风特征和其它特征。例如,静态VLO参数可以是每个录音点的VLO数量、VLO到分配的录音点的距离、VLO的角布局和第i个录音点的混合矩阵Bi。术语“角布局”可以指连接录音点和分配给录音点的VLO的线与从麦克风开始且指向麦克风的主要提取方向的线之间的角度。然而,术语“角布局”还可以指分配给同一录音点的相邻VLO之间的角间距。这些静态VLO参数根据麦克风位置、麦克风特征、麦克风方向和估计或假设的临界距离确定。在室内,临界距离为到声源的距离,在该声源处,其直达声等于室内的混响声。距离越短,直达声越响,而距离越长,混响声越响。
图2d示出了本发明又一实施例。相比于图2c的实施例,图2d还涉及方法步骤228:基于虚拟收听位置来计算一个或多个动态VLO参数,或者从传输装置接收一个或多个动态VLO参数。在此背景下,应注意,图2d中的步骤228在步骤227之后且在步骤230之前公开,然而,图2d的方法流程图内的步骤228的位置仅仅是一个示例,原则上,步骤228可以在图2d内的任何位置处移动,只要该方法步骤在生成编码数据流之前且在指定虚拟收听位置之后执行即可。因此,方法步骤228涉及两种可能性,即,计算回放装置内的动态VLO参数,或者可选地从外部,例如从传输装置接收动态VLO参数。在此背景下,动态参数根据期望的虚拟收听位置确定并且每当虚拟收听位置改变时就重新计算。动态VLO参数的示例包括:VLO增益,其中,每个VLO增益是对应VLO的控制信号的增益;VLO方向性,即,通过对应VLO辐射的虚拟声波的方向性;VLO延迟,其中,每个VLO延迟为声波从对应VLO传播到虚拟收听位置的时延;以及VLO入射角,其中,每个VLO入射角是连接录音点和对应VLO的线与连接对应VLO和虚拟收听位置的线之间的角度。例如,如图11可见,图11或图12b提供了示意视图,其中标示了入射角和三个角度都为入射角,每个入射角都是连接对应第i个录音点和对应第j个VLO的线与连接对应第j个VLO和虚拟收听位置的线之间的角度。此外,图11还示出了距离dij,即距离d12、d22和d31,指示对应第i个录音点处的对应第j个VLO与虚拟收听位置之间的距离。因此,如图12a中所见,距离向量dij可以计算为dij=rij–r,其中r是连接虚拟收听位置的位置和如图12a中所见的坐标系的原点的向量,向量rij是指示坐标系内的第i个录音点处的对应第j个VLO的位置的向量。此外,VLO延迟τij指示虚拟声波从第i个录音点处的第j个VLO传播出去所需要的时间,可以定义为τij=dij/c,其中c是声波的速度。此外,VLO增益gij可以计算为:在此背景下,函数 是一种由于依赖dij而提供接近正则化并且由于依赖而提供方向依赖性的函数。
在此背景下,函数示例性地如图13所示,图13在y轴上示出了一个VLO的f(dij,180°),x轴指示与该VLO的距离dij。因此,从上文的增益gij的定义可以清楚地看出,实现了对应虚拟扬声器对象的经典自由场1/dij衰减,并且由于函数提供了额外的距离相关衰减,这避免了每当虚拟收听位置非常接近虚拟扬声器对象时产生的不切实际的响亮信号。这可以在指示这种额外的距离相关衰减的图13中看到。如图13中所见,例如,如果虚拟收听位置到对应VLO的距离dij大于0.5m,则提供经典自由场1/r衰减。然而,如果距离dij=0,那么提供例如15dB的衰减。此外,从图13中还可以清楚地看出,当0<dij<0.5m时,提供了线性插值。此外,由此可以根据以下公式计算:
可以调整每个VLO的辐射特征,使得(根据虚拟收听位置确定的)互动式方向性在对应于对应麦克风配置的VLO的排列内的“内部”和“外部”进行区分,在某种程度上,减少了主导“外部”的信号振幅,以避免在漫射端远场处发生错位。此外,方向性以全向和八字形方向图的混合来制定,可控阶数为其中α和β指示计算对应VLO辐射的虚拟声波的方向依赖性时所使用的参数。这里,α确定全向辐射的权重,β确定上述表达式中的八字形方向图的权重。此外,还可以想象半球slepian函数的形状中的方向图。此外,具体而言,对于虚拟扬声器对象与虚拟收听位置之间的较大距离dij,可以通过控制α来降低每个VLO的向后振幅。一种实施示例是:dij≤1m时,对应VLO的向后振幅是α=1,而dij≥3m时,VLO的向后振幅是α=0,其中,在两者之间提供线性插值。此外,指数β控制在虚拟收听位置与第i个录音点处的第j个VLO之间的较大距离dij的内部和外部之间的选择性,使得远距离声源的定位不匹配或不必要漫射出现最小化。一种实施示例是:距离dij≤3m,使得β=1,当距离dij≥6m时,则β=2,其中,在两者之间提供线性插值。这样,录音位置得到限制,由于它们的方向而无法成为远距离或漫射音频场景中的常见声学凸包的一部分。在此背景下,图10示出了一个虚拟扬声器对象的心脏形曲线图。这里,示出了全向方向图,具有一个圆形,其中dij>1m,并且通过全向和八字形方向图的叠加来分别针对dij<3m和dij<6m生成其它方向图,其中。
此外,根据2d的实施例中的所有其它步骤与根据图2c的前一实施例中的相同。
图2e示出了另一实施例,其中,相比于图2d所示的实施例,图2e中的实施例还要求方法步骤229:计算互动式VLO格式,对于每个录音点和每个分配给录音点的VLO,该互动式VLO格式包括所得信号和入射角 其中,gij是第i个录音点处的第j个VLO的控制信号xij的增益因子,τij是声波从第i个录音点处的第j个VLO传播到虚拟收听位置的时延,t表示时间,入射角是连接第i个录音点和第i个录音点处的第j个VLO的线与连接第i个录音点处的第j个VLO和虚拟收听位置的线之间的角度。
一种用于执行方法步骤229,即生成互动式VLO格式的示例还可以如图7中所见,图7示出了用于计算麦克风信号中的互动式VLO格式的框图。对于声学场景中P个录音点中的每个,其中录音点即录音位置,从其分配的麦克风(阵列)信号中获得对应VLO的控制信号。第i个录音点处的控制信号如下获得:
xi(t)=Bisi(t),
其中,是分配给第i个录音点的所有VLO的控制信号向量(VLO信号向量)(维度为Li×1,即,长度为Li的列向量),是麦克风信号向量(维度为Ki×1),Bi是Li×Ki混合矩阵,Li是VLO的数量,Ki是麦克风的数量,t是时间。
在图7中,基于对应麦克风信号展示了用于计算互动式VLO格式的整体框图,其中在本示例中,假设总共给出了P个录音位置,即P个麦克风点。上述所得信号相应地在图7中示意性地绘制。
图3示出了根据本发明实施例的声学场景回放方法的整体框图。这里,左侧提供了录音数据,其中录音数据包括麦克风信号和麦克风元数据。在此背景下,本发明不限于任何录音硬件,例如特定的麦克风阵列。唯一的要求是麦克风分布在待捕获的声学场景内,而且位置、特征(全向心脏形曲线等)和方向均已知。然而,如果使用分布式麦克风阵列,则会获得最佳结果。这些阵列可以是(一阶或高阶)球形麦克风阵列或任意紧凑型经典立体声或环绕录音配置(例如XY、ORFT、MS、OCT环绕、Fukada树)。此外,如图3中所见,麦克风元数据用于计算静态VLO参数。此外,麦克风信号和静态VLO参数可以用于计算用来控制虚拟自由场中的每个VLO的控制信号,即VLO信号,其中每个控制信号用于控制虚拟自由场内的一个对应VLO。此外,如图3中所见,可以基于所选的虚拟收听位置以及基于静态VLO参数来计算动态VLO参数。此外,动态VLO参数和控制信号用作输入以进行编码,优选地进行高阶立体混响声编码。然后,将所得编码数据流解码为某个回放配置的函数。某个回放配置的示例可以是对应于室内的扬声器排列的配置,或者回放配置可以反映耳机的使用情况。根据这种回放配置,执行对应解码,如同样在图3中所见。然后,将所得解码数据流输入到渲染设备,该渲染设备可以是同样如图8所见的扬声器或耳机。
图3的框图可以由回放装置执行。在此背景下,应该提及,原则上,图3所示的方法步骤:提供录音数据、计算静态VLO参数、计算控制信号,即VLO信号,可以在回放装置之外的地方进行,例如在远离回放装置的位置处进行,但是也可以在回放装置内执行。由于必须向回放装置提供虚拟收听位置,所以必须优选地在回放装置内执行的唯一事情是与编码和解码步骤一起进行的动态VLO参数计算。然而,图3所示的所有其它方法步骤不需要在回放装置内执行,而是也可以在回放装置的外部执行。因此,例如,可以通过任何可想到的方式,即,例如通过经由互联网连接使用直播流或类似方式接收录音数据,来将录音数据提供给回放装置。另一种选择是:在从回放装置内提供的录音介质中提取录音数据的回放装置本身内生成录音数据。此外,图3的框图仅仅示出了一种示例,而且图3的方法步骤不必按照图3中描述的方式执行。
图4示出了声学场景中的麦克风和声源分布的示例,其中录制了有三种分布式紧凑型麦克风配置的声学场景。配置1是2D B格式麦克风,配置2是标准环绕配置,配置3是单向麦克风。
图5示出了三种麦克风配置1、2和3(参见图5的上排)中的每一种以及对应扬声器配置(参见图5的下排),这种扬声器配置可以用来再现通过各个麦克风配置捕获的声学场景(声场)。也就是说,这些扬声器配置中的每一种包含一个或多个虚拟扬声器对象,将准确地再现位于与各个扬声器配置相关联的对应麦克风配置的中心位置处的,即录音点处的空间声场。因此,本发明旨在为每个麦克风配置在包括扬声器配置的虚拟自由场中虚拟地建立再现系统。分配给对应麦克风配置的VLO放置在对应虚拟自由场内的与对应麦克风配置的位置对应的位置处。
图6示出了虚拟自由场内的VLO的可能配置。如果虚拟收听位置大致与麦克风配置的中心位置之一,即录音点之一一致,并且假设对应于其它录音点的所有VLO的控制信号都得到充分衰减,那么显然,在对VLO相应地进行编码和渲染时传送给听者的空间图像是准确的。在此背景下,应该注意,对于这些虚拟收听位置,只有VLO的角布局是重要的,而再现系统的半径(在图6中示为灰色圆圈)并不重要。图6示出了对应于如图4所示的麦克风配置1、2、3的VLO的排列。然而,如果虚拟收听位置与录音点不一致,则声学场景的空间图像很有可能遭到破坏,而且听者将很有可能使声源错位。此外,混合时移相关信号可能产生相位假象。因此,在本发明实施例中,通过VLO的自动参数化(例如VLO位置、增益、方向性等)来克服这些困难,以使错位减到最少并且将合理的空间图像传送给任意收听位置上的听者,同时避免相位假象。
如果虚拟收听位置是录音点的中心位置(录音位置),则虚拟扬声器对象的信号连接没有令人不安的干扰:典型的声学延迟在10ms到50ms之间。,此处音频技术无关信号的混合以及距离相关衰减将不会产生任何令人不安的音质干扰。此外,优先效应支持所有录音位置处的适当定位。而且,如果虚拟自由场中的每个回放点存在少数虚拟扬声器对象,则众多它回放点支持定位和房间印象。
然而,对于虚拟收听位置偏离任何录音点的中心位置的情况,可以通过调整根据虚拟收听位置确定的对应虚拟扬声器对象的位置、增益和延迟来避免潜在的定位混淆。此外,通过选择虚拟扬声器之间的合适距离来减少干扰,这控制了相位和延迟属性以确保高音质。分配给对应录音点的VLO的排列和位置可以根据麦克风配置的元数据自动生成。这产生了VLO的排列,VLO的叠加回放是可控的,以便为任意虚拟收听位置实现以下属性:通过最佳地考虑听觉优先效应的现象来将感知干扰(相位)最小化。具体而言,可以通过选择虚拟扬声器对象彼此之间的合适距离来发挥定位优势。这样做时,对声传播延迟进行调整,以便获得优异的音质。此外,选择虚拟扬声器对象彼此之间的角距离,以便产生幻想声源的最大可实现稳定性,这将依赖于与虚拟扬声器对象相关联的梯度麦克风方向性的阶数、室内混响的临界距离以及通过麦克风录制的声学场景中的覆盖程度。
图8示出了VLO格式的N阶HOA编码/解码。由于每个VLO通过其对应的所得信号和入射角来定义,所以可以使用能够渲染声音对象的任何再现系统(例如波场合成、双声道编码)。然而,在本发明实施例中,可以使用高阶立体混响声(higher order ambisonics,HOA)格式来实现有关再现系统的最大灵活性。首先,将互动式VLO格式编码到HOA信号,可以将HOA信号进行渲染以便用于某种扬声器排列或双声道耳机再现。HOA编码和解码的框图如图8所示,其中将对应所得信号和入射角作为输入,输入到对应编码器。在执行编码之后,对编码数据流求和,并且通过立体混响声总线将编码数据流输入到在扬声器或耳机内部提供的对应立体声混响解码器。可选地,可以提供头部跟踪器以充分执行如图8所见的立体混响声旋转。
在图8中,使用VLO参数(静态和动态VLO参数)将虚拟自由场内的VLO生成的虚拟声场编码到高阶立体混响声(higher-order ambisonics,HOA)。也就是说,在N阶的立体混响声信号的立体混响声总线上输入这些信号:
其中,yN是在对应于当前虚拟听者位置的VLO入射角处评估的圆形或球形谐波。此外,Li是指第i个麦克风录音点处的VLO的数量,P表示声学场景内的麦克风配置的总数量。编码的建议阶数大于3,通常5阶会获得稳定结果。
此外,关于解码,基于场景的材料的解码使用基于耳机或扬声器的HOA解码方法。一般而言,针对扬声器或者在耳机回放的情况下针对一组头部有关脉冲响应(head-related impulse response,HRIR)的最灵活因而最有利的解码方法称为ALLRAD。可以使用其它方法,例如通过采样、能量保存或正则化模式匹配进行解码。所有这些方法在定向分布良好的扬声器或HRIR布局上产生相似性能。解码器通常使用频率无关矩阵来获取已知配置方向的扬声器的信号或者用于与给定一组HRIR进行卷积的信号:
y(t)=DχN(t)
在基于耳机的回放中,定向信号y(t)与对应方向的左右HRIR进行卷积,然后针对每个耳朵进行求和:
为了表示静态虚拟音频场景,在基于耳机的回放中必须补偿通过头部跟踪测量到的头部旋转β。为了使该组HRIR保持静态,优选地通过在解码到HRIR组之前通过旋转矩阵修改环境立体声信号来进行。
χ′N(t)=R(-β)χN(t)
用于执行声学场景回放方法的回放装置可以包括处理器和存储介质,其中,处理器用于执行任意方法步骤,存储介质用于存储一个或多个麦克风配置的麦克风信号和/或元数据、静态和/或动态VLO参数,和/或执行本发明实施例中的方法所需的任何信息。存储介质还可以存储包含程序代码的计算机程序,用于执行实施例中的方法,处理器用于读取程序代码并且根据程序代码执行本发明实施例中的方法步骤。在又一实施例中,回放装置还可以包括单元,这些单元用于执行公开实施例中的方法步骤,其中,对于每个方法步骤,可以提供对应单元专门用于执行所分配的方法步骤。可选地,回放装置内的某个单元可以用于执行本发明实施例中公开的不止一个方法步骤。
本发明已经结合本文的各种实施例进行描述。但本领域技术人员通过实践本发明,研究附图、本发明以及所附的权利要求,能够理解并获得公开实施例的其它变体。在权利要求书中,词语“包括”不排除其它元素或步骤,不定冠词“一”不排除多个。单个处理器或其它单元可满足权利要求中描述的几项的功能。在仅凭某些措施被记载在相互不同的从属权利要求书中这个单纯的事实并不意味着这些措施的结合不能被有效地使用。计算机程序可以存储/分布到合适的媒体上,例如与其它硬件一起或者作为其它硬件的部分提供的光存储媒体或者固态媒体,还可以以其它形式例如通过因特网或者其它有线或无线电信系统分布。
Claims (15)
1.一种声学场景回放方法,其特征在于,所述方法包括:
提供录音数据,包括位于声学场景内的一个或多个麦克风配置的麦克风信号和所述一个或多个麦克风配置的麦克风元数据,其中所述一个或多个麦克风配置中的每一个都包括一个或多个麦克风并且具有作为相应麦克风配置的中心位置的录音点;
指定虚拟收听位置,其中所述虚拟收听位置是所述声学场景内的一个位置;
为所述一个或多个麦克风配置中的每个麦克风配置分配一个或多个虚拟扬声器对象VLO,其中每个VLO是虚拟自由场内的一个抽象声音输出对象;其中,虚拟自由场是由无混响声音的直接声音组成的虚拟声场;
基于所述录音数据、所述虚拟收听位置和分配给所述一个或多个麦克风配置的VLO参数来生成编码数据流;
基于回放配置对所述编码数据流进行解码,从而生成解码数据流;以及
将所述解码数据流输入到渲染设备,从而驱动所述渲染设备在所述虚拟收听位置再现所述声学场景中的声音;
其中,还包括:在为每个麦克风配置分配一个或多个VLO之后,对于每个麦克风配置,将所述一个或多个VLO放置在所述虚拟声场内的与所述声学场景内的相应麦克风配置的录音点对应的位置处;
其中,
对于所述一个或多个麦克风配置中的每一个,在以所述相应麦克风配置的所述录音点作为所述虚拟自由场内的圆线中心的所述圆线上提供分配给所述相应麦克风配置的所述一个或多个VLO,所述圆线的半径Ri根据所述麦克风配置的方向性阶数、所述声学场景的混响以及所述相应麦克风配置的所述录音点与相邻麦克风配置的录音点之间的平均距离di确定。
2.根据权利要求1所述的方法,其特征在于,所述VLO参数包括所述一个或多个VLO的独立于所述虚拟收听位置并描述属性的一个或多个静态VLO参数,所述静态VLO参数对于所述声学场景回放是固定的。
3.根据权利要求2所述的方法,其特征在于,还包括:
在生成所述编码数据流之前,基于所述麦克风元数据和/或临界距离来计算所述一个或多个静态VLO参数,其中所述临界距离是直达声的声压级与混响声的声压级对于定向声源相等时的距离,
或者
在生成所述编码数据流,从传输装置接收所述一个或多个静态VLO参数。
4.根据权利要求1至3任意一项所述的方法,其特征在于:
所述一个或多个静态VLO参数对于所述一个或多个麦克风配置中的每个包括:
多个VLO,
和/或
每个VLO到所述相应麦克风配置的所述录音点的距离,
和/或
相对于所述相应麦克风配置的所述一个或多个麦克风的方向,已经分配给所述相应麦克风配置的所述一个或多个VLO的角布局,
和/或
定义所述相应麦克风配置的所述麦克风信号的混合矩阵。
5.根据权利要求1所述的方法,其特征在于,所述VLO参数包括根据所述虚拟收听位置确定的一个或多个动态VLO参数,所述方法包括:在生成所述编码数据流之前,
基于所述虚拟收听位置来计算所述一个或多个动态VLO参数,
或者
从传输装置接收所述一个或多个动态VLO参数。
6.根据权利要求5所述的方法,其特征在于,所述一个或多个动态VLO参数对于所述一个或多个麦克风配置中的每一个包括:
一个或多个VLO增益,其中所述一个或多个VLO增益中的每一个是对应VLO的控制信号的增益,
和/或
一个或多个VLO延迟,其中每个VLO延迟是声波从所述对应VLO传播到所述虚拟收听位置的时延,
和/或
一个或多个VLO入射角,其中每个VLO入射角是连接所述录音点和所述对应VLO的线与连接所述对应VLO和所述虚拟收听位置的线之间的角度,
和/或
一个或多个参数,指示所述对应VLO的辐射方向性。
9.根据权利要求8所述的方法,其特征在于,为了生成所述编码数据流,将每个所得信号和入射角输入到编码器,具体是立体混响声编码器。
10.根据权利要求1所述的方法,其特征在于:
所述圆线上的VLO的数量和/或所述圆线上的每个VLO的角位置,和/或所述圆线上的每个VLO的声辐射的方向性根据所述相应麦克风配置的麦克风方向性阶数和/或所述相应麦克风配置的录音原理和/或第i个麦克风配置的录音点的半径Ri和/或所述第i个麦克风配置的第j个VLO与所述虚拟收听位置之间的距离dij确定。
11.一种声学场景回放方法,其特征在于,所述方法包括权利要求1至10任意一项所述方法的全部特征,其中:
为了提供所述录音数据,从外部,具体是通过应用流式媒体,接收所述录音数据。
12.一种声学场景回放方法,其特征在于,所述方法包括权利要求1至10任意一项所述方法的全部特征,其中:
为了提供所述录音数据,从录音介质中,具体是从CD-ROM中提取所述录音数据。
13.一种声学场景回放方法,其特征在于,所述方法包括:
提供录音数据,包括位于声学场景内的一个或多个麦克风配置的麦克风信号和所述一个或多个麦克风配置的麦克风元数据,其中所述一个或多个麦克风配置中的每一个都包括一个或多个麦克风并且具有作为相应麦克风配置的中心位置的录音点;
指定虚拟收听位置,其中所述虚拟收听位置是所述声学场景内的一个位置;
为所述一个或多个麦克风配置中的每个麦克风配置分配一个或多个虚拟扬声器对象VLO,其中每个VLO是虚拟自由场内的一个抽象声音输出对象;其中,虚拟自由场是由无混响声音的直接声音组成的虚拟声场;
基于所述录音数据、所述虚拟收听位置和分配给所述一个或多个麦克风配置的VLO参数来生成编码数据流;
基于回放配置对所述编码数据流进行解码,从而生成解码数据流;以及
将所述解码数据流输入到渲染设备,从而驱动所述渲染设备在所述虚拟收听位置再现所述声学场景中的声音;
14.一种用于执行根据权利要求1至13中任一项所述的方法的回放装置。
15.一种数据载体,所述数据载体上存储有计算机程序,其特征在于,当所述计算机程序在计算机上运行时,用于指示回放装置执行根据权利要求1至13中任一项所述的方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2016/075595 WO2018077379A1 (en) | 2016-10-25 | 2016-10-25 | Method and apparatus for acoustic scene playback |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109891503A CN109891503A (zh) | 2019-06-14 |
CN109891503B true CN109891503B (zh) | 2021-02-23 |
Family
ID=57206260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680090424.9A Active CN109891503B (zh) | 2016-10-25 | 2016-10-25 | 声学场景回放方法和装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10785588B2 (zh) |
EP (1) | EP3523799B1 (zh) |
CN (1) | CN109891503B (zh) |
WO (1) | WO2018077379A1 (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111108760B (zh) * | 2017-09-29 | 2021-11-26 | 苹果公司 | 用于空间音频的文件格式 |
US11432097B2 (en) | 2019-07-03 | 2022-08-30 | Qualcomm Incorporated | User interface for controlling audio rendering for extended reality experiences |
WO2021018378A1 (en) | 2019-07-29 | 2021-02-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method or computer program for processing a sound field representation in a spatial transform domain |
GB201914665D0 (en) * | 2019-10-10 | 2019-11-27 | Nokia Technologies Oy | Enhanced orientation signalling for immersive communications |
CN115380542A (zh) * | 2020-03-13 | 2022-11-22 | 弗劳恩霍夫应用研究促进协会 | 使用有效中间衍射路径渲染音频场景的装置和方法 |
US11494160B1 (en) | 2020-06-30 | 2022-11-08 | Apple Inc. | Methods and systems for manipulating audio properties of objects |
CN114582356A (zh) * | 2020-11-30 | 2022-06-03 | 华为技术有限公司 | 一种音频编解码方法和装置 |
CN114582357A (zh) * | 2020-11-30 | 2022-06-03 | 华为技术有限公司 | 一种音频编解码方法和装置 |
CN112579038B (zh) * | 2020-12-24 | 2023-05-23 | 上海商米科技集团股份有限公司 | 一种内置录音方法、装置、电子设备和存储介质 |
CN112929610B (zh) * | 2021-02-06 | 2022-12-13 | 北京智扬天地展览服务有限公司 | 一种基于音视频的低成本虚拟现实车展辅助系统 |
CN115376529B (zh) * | 2021-05-17 | 2024-10-11 | 华为技术有限公司 | 三维音频信号编码方法、装置和编码器 |
US20240298113A1 (en) * | 2023-03-03 | 2024-09-05 | Msg Entertainment Group, Llc | De-mixing a composite audio program for playback within a venue |
CN116437284A (zh) * | 2023-06-13 | 2023-07-14 | 荣耀终端有限公司 | 空间音频合成方法、电子设备及计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1302426A (zh) * | 1998-03-23 | 2001-07-04 | 诺基亚移动电话有限公司 | 用于处理声学虚拟环境中的定向声的方法和系统 |
US20110002469A1 (en) * | 2008-03-03 | 2011-01-06 | Nokia Corporation | Apparatus for Capturing and Rendering a Plurality of Audio Channels |
US20110261973A1 (en) * | 2008-10-01 | 2011-10-27 | Philip Nelson | Apparatus and method for reproducing a sound field with a loudspeaker array controlled via a control volume |
CN104581604A (zh) * | 2013-10-17 | 2015-04-29 | 奥迪康有限公司 | 再现声学声场的方法 |
US20150230040A1 (en) * | 2012-06-28 | 2015-08-13 | The Provost, Fellows, Foundation Scholars, & the Other Members of Board, of The College of the Holy | Method and apparatus for generating an audio output comprising spatial information |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2836571B1 (fr) * | 2002-02-28 | 2004-07-09 | Remy Henri Denis Bruno | Procede et dispositif de pilotage d'un ensemble de restitution d'un champ acoustique |
DE102006053919A1 (de) * | 2006-10-11 | 2008-04-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen einer Anzahl von Lautsprechersignalen für ein Lautsprecher-Array, das einen Wiedergaberaum definiert |
EP3313089A1 (en) * | 2016-10-19 | 2018-04-25 | Holosbase GmbH | System and method for handling digital content |
-
2016
- 2016-10-25 WO PCT/EP2016/075595 patent/WO2018077379A1/en unknown
- 2016-10-25 CN CN201680090424.9A patent/CN109891503B/zh active Active
- 2016-10-25 EP EP16787415.5A patent/EP3523799B1/en active Active
-
2019
- 2019-04-24 US US16/393,602 patent/US10785588B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1302426A (zh) * | 1998-03-23 | 2001-07-04 | 诺基亚移动电话有限公司 | 用于处理声学虚拟环境中的定向声的方法和系统 |
US20110002469A1 (en) * | 2008-03-03 | 2011-01-06 | Nokia Corporation | Apparatus for Capturing and Rendering a Plurality of Audio Channels |
US20110261973A1 (en) * | 2008-10-01 | 2011-10-27 | Philip Nelson | Apparatus and method for reproducing a sound field with a loudspeaker array controlled via a control volume |
US20150230040A1 (en) * | 2012-06-28 | 2015-08-13 | The Provost, Fellows, Foundation Scholars, & the Other Members of Board, of The College of the Holy | Method and apparatus for generating an audio output comprising spatial information |
CN104581604A (zh) * | 2013-10-17 | 2015-04-29 | 奥迪康有限公司 | 再现声学声场的方法 |
Non-Patent Citations (1)
Title |
---|
《Spatial Sound With Loudspeakers and Its Perception: A Review of the Current State》;Sascha Spors et al.;《Proceedings of the IEEE》;20130930;第101卷(第9期);第1920-1938页 * |
Also Published As
Publication number | Publication date |
---|---|
EP3523799B1 (en) | 2021-12-08 |
CN109891503A (zh) | 2019-06-14 |
WO2018077379A1 (en) | 2018-05-03 |
US10785588B2 (en) | 2020-09-22 |
EP3523799A1 (en) | 2019-08-14 |
US20190253826A1 (en) | 2019-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109891503B (zh) | 声学场景回放方法和装置 | |
Zotter et al. | Ambisonics: A practical 3D audio theory for recording, studio production, sound reinforcement, and virtual reality | |
KR102654507B1 (ko) | 다중-지점 음장 묘사를 이용하여 증강된 음장 묘사 또는 수정된 음장 묘사를 생성하기 위한 개념 | |
US10645518B2 (en) | Distributed audio capture and mixing | |
US11863962B2 (en) | Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description | |
KR20170106063A (ko) | 오디오 신호 처리 방법 및 장치 | |
WO2019229300A1 (en) | Spatial audio parameters | |
US20230370777A1 (en) | A method of outputting sound and a loudspeaker | |
WO2023085186A1 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
Sousa | The development of a'Virtual Studio'for monitoring Ambisonic based multichannel loudspeaker arrays through headphones | |
KR20180024612A (ko) | 오디오 신호 처리 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |