[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN102209988A - 基于麦克风信号来提供空间提示集合的设备、方法和计算机程序以及用于提供双声道音频信号和空间提示集合的设备 - Google Patents

基于麦克风信号来提供空间提示集合的设备、方法和计算机程序以及用于提供双声道音频信号和空间提示集合的设备 Download PDF

Info

Publication number
CN102209988A
CN102209988A CN2009801450879A CN200980145087A CN102209988A CN 102209988 A CN102209988 A CN 102209988A CN 2009801450879 A CN2009801450879 A CN 2009801450879A CN 200980145087 A CN200980145087 A CN 200980145087A CN 102209988 A CN102209988 A CN 102209988A
Authority
CN
China
Prior art keywords
signal
microphone
channel
binaural
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2009801450879A
Other languages
English (en)
Other versions
CN102209988B (zh
Inventor
克里斯托弗·弗勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN102209988A publication Critical patent/CN102209988A/zh
Application granted granted Critical
Publication of CN102209988B publication Critical patent/CN102209988B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/02Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

一种用于基于双声道麦克风信号来提供与具有多于两个声道的上混频音频信号相关联的空间提示集合的设备包括信号分析器和空间辅助信息发生器。信号分析器被配置为基于双声道麦克风信号来获得分量能量信息和方向信息,使得分量能量信息描述对双声道麦克风信号的直达声分量和双声道麦克风信号的散射声分量的能量的估计,以及使得方向信息描述对双声道麦克风信号的直达声分量所源自的方向的估计。空间辅助信息发生器被配置为将分量能量信息和方向信息映射到空间提示信息上,所述空间提示信息描述与具有多于两个声道的上混频音频信号相关联的空间提示集合。

Description

基于麦克风信号来提供空间提示集合的设备、方法和计算机程序以及用于提供双声道音频信号和空间提示集合的设备
背景技术
根据本发明的实施例涉及一种用于基于双声道麦克风信号来提供与具有多于两个声道的上混频音频信号相关联的空间提示集合的设备。根据本发明的其他实施例涉及一种对应的方法和一种对应的计算机程序。根据本发明的其他实施例涉及一种用于提供处理过的和未处理的双声道音频信号以及空间提示集合的设备。
根据本发明的另一实施例涉及一种用于空间音频编码器的麦克风前端。
在下文中,将介绍音频信号的参数表示的领域。
立体声和环绕音频信号的参数表示已经发展了几十年并且达到了成熟状态。强度立体声(R.Waal和R.Veldhuis,“Subband coding of stereophonic digital audio signals,”Proc.IEEE ICASSP 1991,pp.3601-3604,1991.)、(J.Herre,K.Brandenburg和D.Lederer,“Intensity stereo coding,”96th AES Conv.,Feb.1994,Amsterdam(preprint 3799),1994.)用在MP3(ISO/IEC,Coding of moving pictures and associated audio for digital storage media at up to about 1.5Mbit/s-Part 3:Audio.ISO/IEC 11172-3 International Standard,1993,jTC1/SC29/WG11.)、MPEG-2 AAC(——,Generic coding of moving pictures and associated audio information-Part 7:Advanced Audio Coding.ISO/IEC 13818-7International Standard,1997,jTC1/SC29/WG11.)以及其他音频编码器中。强度立体声是原始参数立体声编码技术,通过下混频和声级差信息来表示立体声信号。双耳提示编码(BCC)(C.Faller和F.Baumgarte,“Efficient representation of spatial audio using perceptual parametrization,”in Proc.IEEE Workshop on Appl.Of Sig.Proc.to Audio and Acoust.,Oct.2001,pp.199-202.),(——,“Binaural Cue Coding-Part II:Schemes and applications,”IEEE Trans.on Speech and Audio Proc.,vol.11,no.6,pp.520-531,Nov.2003.)通过针对参数立体声/环绕编码而不是针对音频编码使用不同的滤波器组使得可以实现音频质量的显著提高(F.Baumgarte和C.Faller,“Why Binaural Cue Coding is better than Intensity Stereo Coding,”in Preprint 112th Conv.Aud.Eng.Soc.,May 2002.),即,双耳提示编码(BCC)可以被看作是针对传统音频编码器的预处理器或后处理器。此外,双耳提示编码(BCC)还针对参数化而不是仅针对声级差(即,还针对时间差和声道间相干性)来使用附加的空间提示。以IEC/ISO MPEG来标准化的参数立体声(PS)(E.Schuijers,J.Breebaart,H.Purnhagen和J.Engdegard,“Low complexity parametric stereo coding,”in Preprint 117th Conv.Aud.Eng.Soc.,May 2004.)使用相位差而不是时间差,这具有的优点是与对于时间延迟合成相比,更容易实现无伪迹合成。BCC还将上述参数立体声构思应用于环绕声。MP3环绕(J.Herre,C.Faller,C.Ertel,J.Hilpert,A.Hoelzer和C.Spenger,“MP3 Surround:Efficient and compatible coding of multi-channel audio,”in Preprint 116th Conv.Aud.Eng.Soc.,May2004.)、(C.Faller,“Coding of spatial audio compatible with different playback formats,”in Preprint 117th Conv.Aud.Eng.Soc.,October 2004.)和MPEG环绕(J.Herre,K.
Figure BPA00001371628900021
J.Breebaart,C.Faller,S.Disch,H.Purnhagen,J.Koppens,J.Hilpert,J.
Figure BPA00001371628900022
W.Oomen,K.Linzmeier和K.S.Chong,“Mpeg surround-the iso/mpeg standard for efficient and compatible multi-channel audio coding,”in Preprint 122th Conv.Aud.Eng.Soc.,May 2007.)音频编码器基于立体声下混频来引入空间合成,使得可以实现立体声向后兼容性和更高的音频质量。参数多声道音频编码器(如,BCC、MP3环绕和MPEG环绕)常常被称作空间音频编码器(SAC)。
最近,提出了表示空间脉冲响应呈现(SIRR)的技术(J.Merimaa和V.Pulkki,“Spatial impulse response rendering i:Analysis and synthesis,”J.Aud.Eng.Soc.,vol.53,no.12,2005.)、(V.Pulkki和J.Merimaa,“Spatial impulse response rendering ii:Reproduction of diffuse sound and listening tests,”J.Aud.Eng.Soc.,vol.54,no.1,2006.),该技术基于单个音频声道(B格式的W信号(M.A.Gerzon,“Periphony:Width-Height Sound Reproduction,”J.Aud.Eng.Soc.,vol.21,no.1,pp.2-10,1973.),(K.Farrar,“Soundfield microphone,”Wireless World,pp.48-50,Oct.1979.)加上从B格式信号得到的空间信息,来合成(相对于麦克风位置的)任何方向的脉冲响应。这种技术后来还应用于音频信号,与脉冲响应和所谓的方向音频编码(DirAC)(V.Pulkki and C.Faller,“Directional audio coding:Filterbank and STFTbased design,”in Preprint120th Conv.Aud.Eng.Soc.,May 2006,p.preprint 6658.)相反,DirAC可以被看作是SAC,SAC可以直接应用于麦克风信号。已提出多种技术以用于DirAC(J.Ahonen,G.D.Galdo,M.Kallinger,F.Küch,V.Pulkki和R.Schultz-Amling,“Analysis and adjustment of planar microphone arrays for application in directional audio coding,”in Preprint 124th Conv.Aud.Eng.Soc.,May.2008.)、(J.Ahonen,M.Kallinger,F.Küch,V.Pulkki和R.Schultz-Amling,“ Directional analysis of sound field with linear microphone array and applications in sound reproduct
从上述观点来看,本发明的目的是建立一种在计算量上高效的构思,以得到空间提示信息,而同时保持对于声音换能而作出的努力非常小。
发明内容
以下设备和方法解决了该问题:根据权利要求1所述的用于基于双声道麦克风信号来提供与具有多于两个声道的上混频音频信号相关联的空间提示集合的设备,根据权利要求10所述的用于提供双声道音频信号以及与具有多于两个声道的上混频音频信号相关联的空间提示集合的设备,根据权利要求11所述的用于基于双声道麦克风信号来提供处理后的双声道音频信号以及与具有多于两个声道的上混频音频信号相关联的空间提示集合的设备,根据权利要求12所述的基于双声道麦克风信号来提供与具有多于两个声道的上混频音频信号相关联的空间提示集合的方法,以及根据权利要求13所述的计算机程序。
根据本发明的实施例提供了一种用于基于双声道麦克风信号来提供与具有多于两个声道的上混频音频信号相关联的空间提示集合的设备。所述设备包括:信号分析器,被配置为基于双声道麦克风信号来获得分量能量信息和方向信息,使得分量能量信息描述对双声道麦克风信号的直达声分量和双声道麦克风信号的散射声分量的能量的估计,以及使得方向信息描述对双声道麦克风信号的直达声分量所源自的方向的估计。所述设备还包括:空间辅助信息发生器,被配置为将双声道麦克风信号的分量能量信息和双声道麦克风信号的方向信息映射到空间提示信息上,所述空间提示信息描述与具有多于两个声道的上混频音频信号相关联的空间提示集合。
该实施例基于以下发现:如果从双声道信号提取直达声分量和散射声分量的能量的估计以及方向信息并将所述能量的估计和方向信息映射到空间提示上,则可以以具体有效的方式来计算上混频音频信号的空间提示,这是因为典型地可以以减小的计算量从具有仅两个声道的音频信号提取分量能量信息和方向信息,但仍然对于计算与具有多于两个声道的上混频音频信号相关联的空间提示而言构成良好的基础。换言之,即使分量能量信息和方向信息基于双声道信号,所述信息也非常适于直接计算空间提示而实际上不使用上混频音频声道作为中间量。
在优选实施例中,空间辅助信息发生器被配置为将方向信息映射到对与方向有关的直达声至环绕音频声道的映射加以描述的增益因子集合上。此外,空间辅助信息发生器被配置为基于分量能量信息和增益因子来得到声道强度估计,所述声道强度估计描述多于两个环绕声道的估计强度。在这种情况下,空间辅助信息发生器优选地被配置为基于声道强度估计来确定与上混频音频信号相关联的空间提示。该实施例基于以下发现:双声道麦克风信号允许提取方向信息,所述方向信息可以被良好地映射到对与方向有关的直达声到环绕音频声道的映射加以描述的增益因子集合上,使得能够得到有意义的声道强度估计,所述声道强度估计描述上混频信号并且构成计算空间提示信息的基础。
在优选实施例中,空间辅助信息发生器还被配置为基于分量能量信息和增益因子来得到声道相关性信息,声道相关性信息描述上混频信号的不同声道之间的相关性。在该实施例中,空间辅助信息发生器优选地被配置为基于一个或多个声道强度估计以及声道相关性信息来确定与上混频信号相关联的空间提示。已经发现,分量能量信息和增益因子构成了足以用于计算声道相关性信息的信息,使得优选地可以在不使用任何其他变量(一些常数除外,这些常数反映了散射声至上混频信号的声道的分布)的情况下计算声道相关性信息。此外,已经认识到,一旦已知声道强度估计和声道相关性信息,就能够容易地确定对上混频信号的声道间相关性加以描述的空间提示。
在另一优选实施例中,空间辅助信息发生器被配置为:对双声道麦克风信号的直达声分量的强度的估计与双声道麦克风信号的散射声分量的强度的估计进行线性组合,以得到声道强度估计。在该实施例中,空间辅助信息发生器优选地被配置为根据增益因子以及根据方向信息来对直达声分量的强度的估计进行加权。可选地,空间辅助信息发生器还可以被配置为根据恒定值来对散射声分量的强度的估计进行加权,其中所述恒定值反映了散射声分量至上混频音频信号的不同声道的分布。已认识到,可以通过非常简单的数学运算(即,线性组合)从分量能量信息得到声道强度估计,其中可以高效地从双声道麦克风信号得到的增益因子构成了合适的加权因子。
本发明的另一实施例提供了一种用于提供双声道音频信号以及与具有多于两个声道的上混频音频信号相关联的空间提示集合的设备。所述设备包括麦克风布置,麦克风布置包括第一方向性麦克风和第二方向性麦克风,其中,第一方向性麦克风和第二方向性麦克风相隔不大于30cm(或甚至不超过5cm),第一方向性麦克风和第二方向性麦克风被定向为使得第二方向性麦克风的方向特性是第一方向性麦克风的方向特性的旋转版本。用于提供双声道音频信号的所述设备还包括上述用于基于双声道麦克风信号来提供与具有多于两个声道的上混频音频信号相关联的空间提示集合的设备。用于提供与上混频音频信号相关联的空间提示集合的所述设备优选地被配置为:接收第一方向性麦克风和第二方向性麦克风的麦克风信号作为双声道麦克风信号,以及基于所述双声道麦克风信号来提供所述空间提示集合。用于提供双声道音频信号的所述设备还包括双声道音频信号提供器,双声道音频信号提供器被配置为提供第一方向性麦克风和第二方向性麦克风的麦克风信号或其处理后的版本,作为双声道音频信号。根据本发明,该实施例基于以下发现:如果相距较近的麦克风的方向特性相对于彼此而旋转,则所述相距较近的麦克风可以用于提供适当的空间提示信息。因此,已认识到,能够基于物理布置来计算与具有多于两个声道的上混频音频信号相关联的空间提示集合,这种方式的计算量较小。显然,已发现如果提供双声道麦克风信号的两个麦克风被布置为彼此相距较近(例如,彼此间相隔不超过30cm)并因而包括非常相似的散射声信息,则通过较小的努力就可以提取分量能量信息和方向信息,所述分量能量信息和方向信息允许高效地计算空间提示信息。此外,已发现,使用具有相对于彼此而旋转的方向特性的方向性麦克风使得可以计算分量能量信息和方向信息,这是因为不同的方向特性使得可以将直达声和散射声分开。
根据本发明的另一实施例提供了一种用于基于双声道麦克风信号来提供处理后的双声道音频信号以及与具有多于两个声道的上混频音频信号相关联的空间提示集合的设备。用于提供处理后的双声道音频信号的所述设备包括:上述用于基于双声道麦克风信号来提供与具有多于两个声道的上混频音频信号相关联的空间提示集合的设备。用于提供处理后的双声道音频信号和空间提示集合的所述设备还包括双声道音频信号提供器,双声道音频信号提供器被配置为基于双声道麦克风信号来提供处理后的双声道音频信号。双声道音频信号提供器优选地被配置为使用一个或多个第一麦克风信号缩放因子来缩放双声道麦克风信号的第一音频信号,以得到处理后的双声道音频信号的第一处理后的音频信号。双声道音频信号提供器还优选地被配置为使用一个或多个第二麦克风信号缩放因子来缩放双声道麦克风信号的第二音频信号,以得到处理后的双声道音频信号的第二处理后的音频信号。双声道音频信号提供器优选地被配置为:基于用于提供空间提示集合的设备的信号分析器所提供的分量能量信息,来计算所述一个或多个第一麦克风信号缩放因子和所述一个或多个第二麦克风信号缩放因子,使得所述空间提示和所述麦克风信号缩放因子都由分量能量信息来确定。该实施例基于以下思想:对于空间提示集合的计算以及对于麦克风信号的适当缩放来说,使用由信号分析器提供的分量能量信息都是高效的,其中,麦克风信号的适当缩放可以引起麦克风信号和空间提示的适配,使得既包括处理后的麦克风信号又包括空间提示信息的组合信息符合期望的空间音频编码工业标准(例如,MPEG环绕),从而使得可以在传统的空间音频编码解码器(例如,传统的MPEG环绕解码器)上回放音频内容。
本发明的另一实施例提供了一种基于双声道麦克风信号来提供与具有多于两个声道的上混频音频信号相关联的空间提示集合的方法。
根据本发明的另一实施例提供了一种用于执行所述方法的计算机程序。
附图说明
随后参考附图来描述根据本发明的实施例,附图中:
图1示出了根据本发明实施例的设备的示意框图,该设备用于基于双声道麦克风信号来提供与具有多于两个声道的上混频音频信号相关联的空间提示集合;
图2示出了根据本发明另一实施例的设备的示意框图,该设备用于提供与具有多于两个声道的上混频音频信号相关联的空间提示集合;
图3示出了根据本发明另一实施例的设备的示意框图,该设备用于提供与具有多于两个声道的上混频音频信号相关联的空间提示集合;
图4示出了可以在本发明的实施例中使用的两个双极麦克风的方向响应的图形表示;
图5a示出了根据双极立体声麦克风的声音到达方向的左右之间幅度比的图形表示;
图5b示出了根据双极立体声麦克风的声音到达方向的总功率的图形表示;
图6示出了可以在本发明的一些实施例中使用的两个心形麦克风(cardioid microphone)的方向响应的图形表示;
图7a示出了根据心形立体声麦克风的声音到达方向的左右之间幅度比的图形表示;
图7b示出了根据心形立体声麦克风的声音到达方向的总功率的图形表示;
图8示出了可以在本发明的一些实施例中使用的两个超心形麦克风的方向响应的图形表示;
图9a示出了根据超心形立体声麦克风的声音到达方向的左右之间幅度比的图形表示;
图9b示出了根据超心形立体声麦克风的声音到达方向的总功率的图形表示;
图10a示出了根据心形立体声麦克风的声音到达方向的增益修改的图形表示;
图10b示出了根据心形立体声麦克风的声音到达方向的总功率的图形表示(实线:没有增益修改;虚线:有增益修改);
图11a示出了根据超心形立体声麦克风的声音到达方向的增益修改的图形表示;
图11b示出了根据超心形立体声麦克风的声音到达方向的总功率的图形表示(实线:没有增益修改;虚线:有增益修改);
图12示出了根据本发明另一实施例的设备的示意框图,该设备用于提供与具有多于两个声道的上混频音频信号相关联的空间提示集合;
图13示出了将立体声麦克风信号转换成SAC兼容下混频和辅助信息的编码器的示意框图,并且还示出了相应的(传统的)SAC解码器;
图14示出了将立体声麦克风信号转换成SAC兼容空间辅助信息的编码器的示意框图,并且还示出了采用下混频处理的相应SAC解码器的示意框图;
图15示出了盲SAC解码器的示意框图,可以直接向该盲SAC解码器馈送立体声麦克风信号,其中,通过对立体麦克风信号的分析处理,得到SAC下混频和SAC空间辅助信息;以及
图16示出了根据本发明实施例的提供空间提示集合的方法的流程图。
具体实施方式
图1示出了设备100的示意框图,设备100用于基于双声道麦克风信号来提供与具有多于两个声道的上混频音频信号相关联的空间提示集合。设备100被配置为接收双声道麦克风信号,所述双声道麦克风信号可以例如包括第一声道信号110(还表示为x1)和第二声道信号112(还表示为x2)。设备100还被配置为提供空间提示信息120。
设备100包括信号分析器130,信号分析器130被配置为接收第一声道信号110和第二声道信号112。信号分析器130被配置为基于双声道麦克风信号,即,基于第一声道信号110和第二声道信号112,来获得分量能量信息132和方向信息134。优选地,信号分析器130被配置为获得分量能量信息132和方向信息134,使得分量能量信息132描述对双声道麦克风信号的直达声分量的以及双声道麦克风信号的散射声分量的能量的估计,并且使得方向信息134描述对双声道麦克风信号110、112的直达声分量所源自的方向的估计。
设备100还包括空间辅助信息发生器140,所述空间辅助信息发生器140被配置为接收分量能量信息132和方向信息134,并且基于所述分量能量信息132和方向信息134来提供空间提示信息120。优选地,空间辅助信息发生器140被配置为将双声道麦克风信号110、112的分量能量信息132和双声道麦克风信号110、112的方向信息134映射到空间提示信息120上。相应地,获得空间提示信息120,使得空间提示信息120描述与具有多于两个声道的上混频音频信号相关联的空间提示集合。
因此,空间辅助信息120使得可以基于双声道麦克风信号,在计算量上非常高效地计算与具有多于两个声道的上混频音频信号相关联的空间提示信息。信号分析器130可以从双声道麦克风信号中提取大量的信息,即,分量能量信息和方向信息,其中,分量能量信息描述了对直达声分量的能量的估计和对散射声分量的能量的估计,以及方向信息描述了对双声道麦克风信号的直达声分量所源自的方向的估计。已发现,信号分析器基于双声道信号110、112得到的该信息足以甚至针对具有多于两个声道的上混频音频信号来得到空间提示信息。重要的是,已发现分量能量信息132和方向信息134足以在实际上不使用上混频音频声道作为中间量的情况下直接确定空间提示信息120。
在下文中,参考图2和3来描述设备100的一些扩展。
图2示出了设备200的示意框图,设备200用于提供双声道音频信号以及与具有多于两个声道的上混频音频信号相关联的空间提示集合。设备200包括麦克风布置210,麦克风布置210被配置为提供双声道麦克风信号,所述双声道麦克风信号包括第一声道信号212和第二声道信号214。设备200还包括设备100,如参考图1所描述的,设备100用于基于双声道麦克风信号来提供与具有多于两个声道的上混频音频信号相关联的空间提示集合。设备100被配置为接收由麦克风布置210提供的第一声道信号212和第二声道信号214作为其输入信号。设备100还被配置为提供空间提示信息220,空间提示信息220可以与空间提示信息120相同。设备200还包括双声道音频信号提供器230,所述双声道音频信号提供器230被配置为接收由麦克风布置210提供的第一声道信号212和第二声道信号214,以及提供第一声道信号212和第二声道信号214或其处理后的版本,作为双声道音频信号232。
麦克风布置210包括第一方向性麦克风216和第二方向性麦克风218。优选地,第一方向性麦克风216和第二方向性麦克风218相隔不多于30厘米。相应地,第一方向性麦克风216和第二方向性麦克风218接收到的信号有很强的相关性,已发现这对于信号分析器130对分量能量信息和方向信息的计算而言是有益的。然而,第一方向性麦克风216和第二方向性麦克风218被定向为使得第二方向性麦克风218的方向特性219是第一方向性麦克风216的方向特性217的旋转版本。相应地,第一声道麦克风信号212与第二声道麦克风信号214之间也有很强的相关性(由于麦克风216、218在空间上接近),但是第一声道麦克风信号212和第二声道麦克风信号214不同(由于方向性麦克风216、218的方向特性217、219不同)。具体地,从近似恒定的方向入射到麦克风布置210上的方向信号引起了第一声道麦克风信号212和第二声道麦克风信号214的强相关信号分量,所述强相关信号分量具有在时间上恒定的、与方向有关的幅度比(或强度比)。从时间上变化的方向入射到麦克风阵列210上的环境音频信号引起了第一声道麦克风信号212和第二声道麦克风信号214的信号分量具有显著的相关性,但是所述信号分量具有在时间上波动的幅度比(或强度比)。相应地,麦克风布置210提供双声道麦克风信号212、214,双声道麦克风信号212、214使得即使麦克风216、218间距较小,设备100的信号分析器130也能够区分直达声和散射声。因此,设备200构成了音频信号提供器,所述音频信号提供器可以以空间上紧凑的形式来实现,尽管如此,所述音频信号提供器也能够提供与具有多于两个声道的上混频音频信号相关联的空间提示。空间音频解码器可以使用空间提示信息220以及所提供的双声道音频信号232,来提供环绕声输出信号。
图3示出了设备300的示意框图,设备300用于基于双声道麦克风信号来提供与具有多于两个声道的上混频音频信号相关联的空间提示集合。设备300被配置为接收双声道麦克风信号,所述双声道麦克风信号包括第一声道信号312和第二声道信号314。设备300被配置为基于双声道麦克风信号312、314来提供空间提示信息316。此外,设备300被配置为提供双声道麦克风信号的处理后的版本,其中双声道麦克风信号的处理后的版本包括第一声道信号322和第二声道信号324。
设备300包括设备100,设备100用于基于双声道信号312、314来提供与具有多于两个声道的上混频音频信号相关联的空间提示集合。在设备300中,设备100被配置为接收第一声道信号312和第二声道信号314作为其输入信号110、112。此外,设备100所提供的空间提示信息120构成了设备300的输出信息316。
此外,设备300包括双声道信号提供器340,双声道信号提供器340被配置为接收第一声道信号312和第二声道信号314。双声道信号提供器340还被配置为接收由设备100的信号分析器130提供的分量能量信息342。双声道音频信号提供器340还被配置为提供处理后的双声道音频信号的第一声道信号322和第二声道信号324。
优选地,双声道音频信号提供器包括缩放器350,缩放器350被配置为接收双声道麦克风信号的第一声道信号312,并缩放第一声道信号312或第一声道信号312的各个单独的时间/频率段,以得到处理后的双声道音频信号的第一声道信号322。缩放器350还被配置为接收双声道麦克风信号的第二声道信号314,并缩放第二声道信号314或第二声道信号314的各个单独的时间/频率段,以得到处理后的双声道音频信号的第二声道信号324。
双声道信号提供器340还包括缩放因子计算器360,缩放因子计算器360被配置为基于分量能量信息342来计算缩放器350所使用的缩放因子。相应地,对双声道麦克风信号的直达声分量以及双声道麦克风信号的散射声分量的能量估计加以描述的分量能量信息342确定了对双声道麦克风信号的第一声道信号312和第二声道信号314的缩放,所述缩放用于从双声道麦克风信号得到处理后的双声道音频信号的第一声道信号322和第二声道信号324。相应地,使用相同的分量能量信息来确定对双声道麦克风信号的第一声道信号312和第二声道信号314的缩放,空间提示信息120也是如此。还发现,对分量能量信息342的双重使用是一种在计算量上非常高效的解决方案,并且确保了处理后的双声道音频信号与空间提示信息之间的良好一致性。相应地,能够产生处理后的双声道音频信号以及空间提示信息,使得所述处理后的双声道音频信号以及空间提示信息允许使用标准化的环绕解码器来对双声道麦克风信号312、314所表示的音频内容进行环绕回放。
实现细节——立体声麦克风以及立体声麦克风对于环绕记录的 适合性
在本部分中,在对于通过后处理来产生环绕声信号的适合性方面,讨论了多种双声道麦克风配置。下一部分将这些认识应用于空间音频编码(SAC)与立体声麦克风的一起使用。
本文所描述的麦克风配置可以例如用于得到双声道麦克风信号110、112或双声道麦克风信号212、214或双声道麦克风信号312、314。本文描述的麦克风配置可以用在麦克风布置210中。
由于“第一波前定律”,人类的声源定位很大程度上取决于直达声,(J.Blauert,Spatial Hearing:The Psychophysics of Human Sound Localization,revised ed.Cambridge,Massachusetts,USA:The MIT Press,1997),因此本部分中的分析是针对在自由场(没有反射)中在麦克风处从特定角度α到达的单个直接远场声来执行的。在不丢失一般性的前提下,为了简单起见,假定麦克风是一致的,即,两个麦克风碳精盒(例如,方向性麦克风216、218)位于同一点处。在这些假定下,左侧麦克风信号和右侧麦克风信号可以被写作:
x1(n)=r1(α)s(n)
x2(n)=r2(α)s(n),(1)
其中,n是离散时间索引,s(n)对应于麦克风位置处的声压,r1(α)是左侧麦克风对于从角度α到达的声音的方向响应,r2(α)是右侧麦克风的对应响应。左侧麦克风与右侧麦克风之间的信号幅度比是:
a ( α ) = r 2 ( α ) r 1 ( α ) . - - - ( 2 )
注意,幅度比捕获了声级差以及信号是同相(a(α)>0)还是异相(a(α)<0)的信息。如果使用(例如,麦克风信号x1(n),x2(n)的)复信号表示,如短时傅里叶变换,则相位a(α)提供了与信号之间的相位差有关的信息以及与延迟有关的信息。当麦克风不一致时,该信息是有用的。
图4示出了两个一致的双极(8字形)麦克风的方向响应,其中所述两个一致的双极(8字形)麦克风相对于正向x轴指向±45度。标记为+的响应部分捕获具有正号的声音,标记为-的响应部分捕获具有负号的声音。图5(a)示出了根据声音的到达方向的幅度比。注意,幅度比a(α)不是可逆函数,即,对于每个幅度比值,存在可以产生该幅度比的两个到达方向。如果声音仅从前方到达,即,图4中在相对于正x方向的±90度之内,则幅度比唯一地指示声音从哪里到达。然而,对于前面的每个方向,存在产生同样幅度比的后向方向,该幅度比捕获了声级差和幅度比。图5(b)示出了以dB为单位的两个双极的总体响应,即,
p ( α ) = 10 log 10 ( r 1 2 ( α ) + r 2 2 ( α ) ) . - - - ( 3 )
注意,两个双极麦克风从所有方向捕获具有相同的总体响应的声音(0dB)。
从以上可以看出,具有如图4所示的响应的两个双极麦克风并不很适合环绕声信号产生,原因如下:
●仅针对180度的角范围,幅度比才唯一地确定声音到达的方向。
●捕获具有相同的总体响应的前后声音。对于来自在幅度比唯一的范围之外的方向的声音,没有抑制。
所考虑的下一个麦克风配置由两个心形麦克风构成,这两个心形麦克风指向±45度,并且具有如图6所示的响应。图7示出了与前述相类似的分析结果。图7(a)示出了根据声音的到达方向的a(α)。注意,对于在-135与135度之间的方向,a(α)唯一地确定了麦克风处声音的到达方向。图7(b)示出了根据到达方向的总体响应。注意,捕获到的来自前方的声音越强,则捕获到的从后方到达的声音越弱。
从以上可以看出,具有如图6所示的响应的两个心形麦克风适于环绕声产生,原因如下:
●通过测量幅度比a(α),可以唯一地确定所有可能到达方向的三个象限(270度),即,声音从±135度之间的方向到达。
●从不能唯一确定的方向到达的(即,在135度和225度之间来自于后方的)声音被衰减,从而部分地减弱了将这些声音解释为来自前方的负面效应。
具体地合适的麦克风配置包括使用超心形麦克风或具有负后波瓣(lobe)的其他麦克风。图8示出了指向大约±60度的两个超心形麦克风的响应。图9(a)示出了根据到达角度的幅度比。注意,幅度比唯一地确定了声音到达的方向。这是因为选择了麦克风方向使得两个麦克风在180度处具有零响应。其他零响应在大约±60度处。
注意,这种麦克风配置在大约±60度的范围内拾取前方同相(a(α)>0)的声音。捕获异相的(a(α)<0)(即,具有不同符号的)后方信号。矩阵环绕编码(J.M.Eargle,“Multichannel stereo matrix systems:An overview,”IEEE Trans.on Speech and Audio Proc.,vol.19,no.7,pp.552-559,July 1971.)、(K.Gundry,“A new active matrix decoder for surround sound,”in Proc.AES 19th Int.Conf.,June 2001.)在矩阵编码的双声道信号中给出了类似的幅度比提示(C.Faller,“Matrix surround revisited,”in Proc.30th Int.Conv.Aud.Eng.Soc.,March 2007.)。从这一观点来看,该麦克风配置适于通过处理所捕获的信号来产生环绕声信号。
图9(b)示出了根据到达方向的麦克风配置的总体响应。在较大范围的方向上,捕获具有类似强度的声音。总体响应向着后方而衰减,直到在180度处达到零(负无穷大dB)。
函数
α ^ = f ( a ) - - - ( 4 )
产生了根据麦克风信号之间的幅度比的声音到达方向。(4)中的函数是通过在(2)可逆的期望范围内对(2)中的函数求逆而得到的。
对于图6所示的两个心形的示例,到达方向在±135度范围内。如果声音从该范围之外到达,则该声音的幅度比将被错误地解释,并且该函数将返回在±135度范围内的方向。对于图8所示的两个超心形麦克风的示例,所确定的到达方向可以是除了180度以外的任何值,这是因为这两个麦克风都在180度处具有零点。
根据到达方向,需要修改麦克风信号的增益,以在期望的方向范围内捕获具有相同强度的声音。在设备100中,例如,在麦克风布置210内,可以在处理麦克风信号之前执行对麦克风信号的增益的修改。根据到达方向的增益修改是:
g ( α ^ ) = min { - p ( α ^ ) , G } , - - - ( 5 )
其中,G确定了针对增益修改的以dB为单位的上限。通常需要这样的上限来防止将信号缩放过大。
图10(a)的中的实线示出了对于两个心形的情况在期望的到达方向范围±135内的增益修改。图10(a)中的虚线示出了对来自后方的(即,在135度与225度之间的)声音应用的增益修改,其中(4)产生(错误的)前方。例如,对于到达方向α=180度,(4)估计的到达方向是度。因此,增益修改与对于α=0度的增益修改相同,即,0dB。图10(b)示出了两个心形麦克风的总体响应(实线)以及在应用增益修改的情况下的总体响应(虚线)。(4)中的极限G被选择为10dB,但如图7(a)中的数据所指示的没有达到该极限G。
针对超心形麦克风对的情况,执行类似的分析。图11(a)示出了针对该情况的增益修改。注意,在180度附近,达到极限G=10dB。图11(b)示出了总体响应(实线)和在应用了增益修改的情况下的总体响应(虚线)。由于增益修改的限制,总体响应向着后方而减小(由于108度处的零点,需要无限修改)。在增益修改之后,在大约160度的范围内捕获具有零电平(0dB)的声音,使得该立体声麦克风配置在原理上非常适于捕获要被转换成环绕声信号的信号。
上述分析表明,原理上,两个麦克风可以用于捕获信号,信号包含足够的信息来产生环绕声音频信号。在下文中,说明如何使用空间音频编码(SAC)来实现这一点。
实现细节——将立体声麦克风与空间音频编码器一起使用
在下文中,将参考图12来详细描述本发明的构思,图12示出了用于基于双声道输入音频信号(典型地,双声道麦克风信号)来提供处理后的麦克风信号和空间提示信息的设备的示例,所述空间提示信息描述了与具有多于两个声道的上混频音频信号相关联的空间提示集合。
图12的设备1200示出了所涉及的功能。然而,将关于如何使用立体声麦克风以及空间音频编码器(SAC)来产生多声道环绕信号来描述三种不同配置。将参考图13、14和15来描述这三种配置,这三种配置可以包括相同的功能,其中,将实现所述功能的模块以不同方式分派到编码器侧和解码器侧。
应注意,在以上部分中,给出了合适的立体声麦克风配置的两个示例(即,包括两个心形麦克风的布置以及包括两个超心形麦克风的布置)。然而,当然也可以使用其他麦克风布置,如,包括双极麦克风的布置,即使性能可能会稍微下降。
完全SAC后向兼容的系统
第一种可能性是使用编码器,该编码器产生与SAC兼容的下混频和比特流。图12和13示出了SAC兼容编码器1200和1300。在给定两个麦克风信号x1(t)、x2(t)和相应的方向性响应信息1310的情况下,产生与SAC解码器1370兼容的SAC辅助信息1220和1320。此外,处理这两个麦克风信号x1(t)、x2(t),以产生与SAC解码器1370兼容的下混频信号1322。注意,不需要在编码器1200、1300处产生环绕音频信号,从而得到较低的计算复杂度和较低的存储需求。
完全SAC后向兼容的系统——麦克风信号分析
在下文中将描述麦克风信号分析,可以由信号分析器1212或由分析单元1312来执行所述麦克风信号分析。
麦克风信号x1(n)和x2(n)(或者x1(t)和x2(t))的时间-频率表示(例如,短时傅里叶变换)是X1(l,i)和X2(k,i),其中k和i是时间和频率索引。假定X1(k,i)和X2(k,i)可以被建模为:
X1(k,i)=S(k,i)+N1(k,i)
X2(k,i)=a(k,i)S(k,i)+N2(k,i),  (6)
其中a(k,i)是增益因子,S(k,i)是直达声,N1(k,i)和N2(k,i)表示散射声。注意,在下文中,为了使表述简单,通常忽略时间和频率索引k和i。信号模型(6)与(——,“Multi-loudspeaker playback of stereo signals,”J.of the Aud.Eng.Soc.,vol.54,no.11,pp.1051-1064,Nov.2006.)中用于立体声信号分析的信号模型相类似,不同之处在于不假定N1和N2是独立的。
两个麦克风信号之间的归一化的互相关系数(稍后使用)被定义为:
Φ = E { X 1 X 2 * } E { X 1 X 1 * } E { X 2 X 2 * } , - - - ( 7 )
其中*表示复共轭,E{.}是求平均运算。
对于水平散射声,Φ是:
Φ diff = ∫ - π π r 1 ( φ ) r 2 ( φ ) dφ ∫ - π π r 1 ( φ ) 2 dφ ∫ - π π r 2 ( φ ) 2 dφ , - - - ( 8 )
如使用与在(——,“A highly directive 2-capsule based microphone system,”in Preprint 123rd Conv.Aud.Eng.Soc.,Oct.2007.)中针对归一化的互相关系数计算所使用的假设类似的假设可以容易地验证的。
根据a、E{SS*}、
Figure BPA00001371628900183
Figure BPA00001371628900184
来计算SAC下混频信号和辅助信息,其中E{.}是短时求平均运算,如下得出这些值。
从(6)可以得出:
E { X 1 X 1 * } = E { S S * } + E { N 1 N 1 * }
E { X 2 X 2 * } = a 2 E { S S * } + E { N 2 N 2 * }
E { X 1 X 2 * } = aE { SS * } + E { N 1 N 2 * } . - - - ( 9 )
假定两个麦克风信号中散射声的量相同,即
Figure BPA00001371628900188
Figure BPA00001371628900189
并且在N1和N2之间的归一化互相关系数是Φdiff(8)。在给定这些假设的情况下,(9)可以写成:
E { X 1 X 1 * } = E { S S * } + E { N N * }
E { X 2 X 2 * } = a 2 E { S S * } + E { N N * }
E { X 1 X 2 * } = aE { S S * } + Φ diff E { N N * } . - - - ( 10 )
(9)中E{SS*}和a的估计产生了二次方程
aE{NN*}2+BE{NN*}+C=0    (11)
其中,
A = 1 - Φ diff 2 ,
B = 2 Φ diff E { X 1 X 2 * } - E { X 1 X 1 * } - E { X 2 X 2 * } ,
C = E { X 1 X 1 * } E { X 2 X 2 * } - E { X 1 X 2 * } 2 . - - - ( 12 )
那么E{NN*}是(11)的两个解之一,在物理上可能的一次,即,
E { N N * } = - B - B 2 - 4 AC 2 A . - - - ( 13 )
(11)的另一个解产生比麦克风信号功率大的散射声功率,这在物理上是不可能的。
在给定(13)的情况下,容易计算a和E{SS*}:
a = E { X 2 X 2 * } - E { N N * } E { X 1 X 1 * } - E { N N * }
E { S S * } = E { X 1 X 1 * } - E { N N * } . - - - ( 14 )
使用(4)中的α(k,i)来计算直达声到达方向α(k,i)。
综上所述,直达声能量信息E{SS*}、散射声能量信息E{NN*}以及方向信息a、α由信号分析器1212或分析单元1312来获得。本文中使用了对麦克风的方向特性的认知。对提供双声道麦克风信号的麦克风的方向特性的认知使得可以计算估计的相关系数Φdiff(例如,根据等式(8)),其中所述估计的相关系数反映了以下事实:散射声信号呈现出与直达声分量不同的互相关特性。可以在设计信号分析器1212、1312时应用对麦克风特性的认知,或者可以在运行时使用对麦克风特性的认知。在一些情况下,信号分析器1212、1312可以被配置为接收对麦克风的方向特性加以描述的信息,使得信号分析器1212、1312可以动态地适应麦克风特性。
综上所述,可以认为信号分析器1212、1312被配置为对描述了以下关系的方程组求解:
(1)双声道麦克风信号的第一声道麦克风信号的估计能量(或强度)、双声道麦克风信号的直达声分量的估计能量(或强度)、以及双声道麦克风信号的散射声分量的估计能量之间的关系;
(2)双声道麦克风信号的第二声道麦克风信号的估计能量(或强度)、双声道麦克风信号的直达声分量的估计能量(或强度)、以及双声道麦克风信号的散射声分量的估计能量之间的关系;以及
(3)第一声道麦克风信号与第二声道麦克风信号的估计互相关值、双声道麦克风信号的直达声分量的估计能量(或强度)、以及双声道麦克风信号的散射声分量的估计能量(或强度)之间的关系;
(参见等式(10)。
当对该方程组求解时,信号分析器可以考虑以下假设:假设散射声分量的能量在第一声道麦克风信号和第二声道麦克风信号中相同。此外,可以考虑第一麦克风信号与第二麦克风信号中的直达声分量的能量比是直接相关的。此外,可以考虑第一麦克风信号与第二麦克风信号中的散射声分量之间的归一化互相关系数采用小于1的恒定值,所述恒定值取决于提供第一麦克风信号和第二麦克风信号的麦克风的方向特性。可以在设计时预先计算等式(8)中给出的互相关系数,或者可以在运行时基于描述麦克风特性的信息来计算等式(8)中给出的互相关系数。
相应地,可以首先计算第一麦克风信号x1的自相关、第二麦克风信号x2的自相关、以及第一麦克风信号x1与第二麦克风信号x2的互相关,并例如使用等式(12)、(13)和(14),从所得到的自相关值和所得到的互相关值得到分量能量信息和方向信息。
上述麦克风信号分析可以例如由信号分析器1212或由分析单元1312来执行。
完全SAC后向兼容系统——SAC下混频信号的产生
在优选实施例中,本发明的设备包括SAC下混频信号发生器1214、1314,所述下混频信号发生器1214、1314被配置为执行下混频处理以基于双声道麦克风信号x1、x2来提供SAC下混频信号1222、1322。因此,SAC下混频信号发生器1214和下混频处理1314可以被配置为处理或修改双声道麦克风信号x1、x2,使得双声道麦克风信号x1、x2的处理后的版本1222、1322包括SAC下混频信号的特性,并且可以作为输入信号而被应用到传统的SAC解码器。然而,应注意,SAC下混频信号发生器1214和下混频处理1314应当被看作是可选的。
麦克风信号(x1,x2)有时不直接适于作为下混频信号,这是因为来自侧方和后方的直达声相对于从前方到达的声音有衰减。需要利用(5)中的g(α)dB对麦克风信号(x1,x2)中包含的直达声进行增益补偿,即,理想地,SAC下混频应当为:
Y 1 ( k , i ) = 10 g ( α ( k , i ) ) 20 S ( k , i ) + 10 h 20 N 1 ( k , i )
Y 2 ( k , i ) = 10 g ( α ( k , i ) ) 20 a ( k , i ) S ( k , i ) + 10 h 20 N 2 ( k , i ) , - - - ( 15 )
其中h是以dB为单位的增益,控制下混频中散射声的量。(本文中,假定SAC使用下混频矩阵,其中对于前侧声道和后侧声道的权重相同,如可选地由ITU(Rec.ITU-R BS.775,Multi-Channel Stereophonic Sound System with or without Accompanying Picture.ITU,1993,http://www.itu.org.)推荐的,附加地考虑这一点。)
维纳滤波器(S.Haykin,Adaptive Filter Theory(third edition).Prentice Hall,1996.)用于估计期望的下混频信号,
Y ^ 1 ( k , i ) = H 1 ( k , i ) X 1 ( k , i )
Y ^ 2 ( k , i ) = H 2 ( k , i ) X 2 ( k , i ) , - - - ( 16 )
其中,维纳滤波器是:
H 1 = E { X 1 Y 1 * } E { X 1 X 1 * }
H 2 = E { X 2 Y 2 * } E { X 2 X 2 * } . - - - ( 17 )
注意,为了使表述简要,同样省略了时间和频率索引k和i。将(6)和(15)代入(17),获得
H 1 = 10 g ( α ) 20 E { S S * } + 10 h 20 E { N N * } E { S S * } + E { N N * }
H 2 = 10 g ( α ) 20 a 2 E { S S * } + 10 h 20 E { N N * } a 2 E { S S * } + E { N N * } . - - - ( 18 )
例如可以由SAC下混频信号发生器1214的滤波器系数计算器(或缩放因子计算器)1214a来计算例如在等式(18)中给出的维纳滤波器系数。一般来说,可以由下混频处理1314来计算维纳滤波器系数。此外,滤波器(或缩放器)1214b可以将维纳滤波器系数应用到双声道麦克风信号x1、x2,以得到处理后的双声道音频信号或处理后的声道麦克风信号1222,其中处理后的双声道音频信号或处理后的声道麦克风信号1222包括处理后的第一声道信号
Figure BPA00001371628900221
和处理后的第二声道信号一般来说,下混频处理1314可以应用维纳滤波器系数从双声道麦克风信号x1、x2得到SAC下混频信号1322。
完全SAC后向兼容系统——空间辅助信息的产生
在下文中,将描述如何通过设备1200的空间辅助信息发生器1216来得到空间提示信息1220,以及如何通过设备1300的分析单元1312来得到SAC辅助信息1320。应注意,空间辅助信息发生器1216和分析单元1312可以被配置为提供相同的输出信息,使得空间提示信息1220可以等同于SAC辅助信息1320。
在给定立体声信号分析结果(即,分别地,参数α(4)、E{SS*}和E{NN*})的情况下,空间辅助信息发生器1216或分析单元1312产生SAC解码器兼容空间参数1220、1320。一种执行该操作的方式是考虑多声道信号模型,例如:
L ( k , i ) = g 1 ( k , i ) 1 + a 2 S ( k , i ) + h 1 ( k , i ) N ~ 1 ( k , i )
R ( k , i ) = g 2 ( k , i ) 1 + a 2 S ( k , i ) + h 2 ( k , i ) N ~ 2 ( k , i )
C ( k , i ) = g 3 ( k , i ) 1 + a 2 S ( k , i ) + h 3 ( k , i ) N ~ 3 ( k , i )
L s ( k , i ) = g 4 ( k , i ) 1 + a 2 S ( k , i ) + h 4 ( k , i ) N ~ 4 ( k , i )
R s ( k , i ) = g 5 ( k , i ) 1 + a 2 S ( k , i ) + h 5 ( k , i ) N ~ 5 ( k , i ) - - - ( 19 )
其中,假定信号
Figure BPA00001371628900228
Figure BPA00001371628900229
的功率等于E{NN*},并且
Figure BPA000013716289002210
Figure BPA000013716289002211
互不相关。如果期望多于5个环绕音频声道,则使用具有更多声道的模型和SAC。
在第一步骤中,根据直达声的到达方向α(k,i),应用多声道幅度平移(panning)定律(V.Pulkki,“Virtual sound source positioning using Vector Base Amplitude Panning,”J.Audio Eng.Soc.,vol.45,pp.456-466,June 1997.),(D.Griesinger,“Stereo and surround panning in practice,”in Preprint 112th Conv.Aud.Eng.Soc.,May 2002.)来确定增益因子g1至g5。可以由空间辅助信息发生器1216的增益因子计算器1216a来执行该计算。然后,使用启发过程来确定散射声增益h1至h5。可以在设计时选择的恒定值h1=1:0、h2=1:0、h3=0、h4=1:0以及h5=1:0是合理的选择,即,环境均等地分派到前方和后方,而产生中心声道作为干信号(dry signal)。
在给定环绕声信号模型(19)的情况下,向信号模型应用对所使用的特定SAC的空间提示分析,以得到空间提示。在下文中,得到MPEG环绕所需的提示,可以由空间辅助信息发生器1216来得到这些提示作为输出信息1220,或者可以由分析单元1312来得到这些提示作为SAC辅助信息1320。
(19)中定义的信号的功率谱为:
P L ( k , i ) = g 1 2 ( 1 + a 2 ) E { S S * } + h 1 2 E { N N * }
P R ( k , i ) = g 2 2 ( 1 + a 2 ) E { S S * } + h 2 2 E { N N * }
P C ( k , i ) = g 3 2 ( 1 + a 2 ) E { S S * } + h 3 2 E { N N * }
P L s ( k , i ) = g 4 2 ( 1 + a 2 ) E { S S * } + h 4 2 E { N N * }
P R s ( k , i ) = g 5 2 ( 1 + a 2 ) E { S S * } + h 5 2 E { N N * } . - - - ( 20 )
可以,基于信号分析器1212和增益因子计算器1216提供的信息,利用声道强度估计计算器1216b来计算这些功率谱,例如,考虑h1至h5的恒定值。备选地,可以由分析单元1312来计算这些功率谱。
下文中需要的交叉谱是:
P LL s ( k , i ) = g 1 g 4 ( 1 + a 2 ) E { S S * }
P RR s ( k , i ) = g 2 g 5 ( 1 + a 2 ) E { S S * } . - - - ( 21 )
还可以利用声道强度估计计算器1216b来计算交叉谱。备选地,可以由分析单元1312来计算交叉谱。
MPEG环绕的第一二至一(TTO)盒使用L与Ls(基于(19))之间的声道间声级差(ICLD)和声道间相干性(ICC),,所述声道间声级差(ICLD)和声道间相干性(ICC)为:
ICLD LL s = 10 log 10 P L ( k , i ) P L s ( k , i )
ICC LL s = P LL s ( k , i ) P L ( k , i ) P L s ( k , i ) . - - - ( 22 )
相应地,空间提示计算器1216可以被配置为:基于声道强度估计计算器1216b所提供的声道强度估计和交叉谱,来计算如等式(22)中所限定的空间提示ICLDLLs和ICCLLs。备选地,分析单元1312可以计算如等式(22)中限定的空间提示。
类似地,计算针对R和Rs的第二TTO盒的ICLD和ICC:
ICLD RR s = 10 log 10 P R ( k , i ) P R s ( k , i )
ICC RR s = P RR s ( k , i ) P R ( k , i ) P R s ( k , i ) . - - - ( 23 )
相应地,空间提示计算器1216c可以被配置为:基于声道强度估计计算器1216b所提供的声道强度估计和交叉谱,来计算如等式(23)所限定的空间提示ICLDRRs和ICCRRs。备选地,分析单元1312可以计算如等式(23)所限定的空间提示ICLDRRs和ICCRRs
MPEG环绕的三到二(TTT)盒用在“能量模式”下。由TTT盒使用的两个ICLD参数为:
ICLD 1 = 10 log 10 P L + P L s + P R + P R s 1 2 P c
ICLD 2 = 10 log 10 P L + P L s P R + P R s . - - - ( 24 )
相应地,空间提示计算器1216c可以被配置为:基于声道强度估计计算器1216b所提供的声道强度估计来计算如等式(24)所限定的空间提示ICLD1和ICLD2。备选地,分析单元1312可以计算如等式(24)所限定的空间提示ICLD1和ICLD2
注意,同样为了描述的简要,省略了索引i和k。
当然,并不强制空间提示计算器1216c计算所有上述提示ICLDLLs、ICLDRRs、ICLD1、ICLD2、ICCLLs、ICCRRs。空间提示计算器1216c(或分析单元1312)计算在实际应用中所需的空间提示子集就足够了,在实际应用中需要哪个一个就使用哪一个。类似地,声道强度估计计算器1216b(或分析单元1312)不必须计算上述所有的声道强度估计PL、PR、PC、PLs、PRs和交叉谱PLLs、PRRs。当然,声道强度估计计算器1216b计算对于空间辅助信息发生器1216后续计算期望的空间提示而言所需的那些声道强度估计和交叉谱就足够了。
使用麦克风信号作为下混频的系统
使用编码器1200、1300来产生SAC兼容下混频1222、1322和空间辅助信息1220、1320的上述情况具有的优点是,可以使用传统的SAC解码器1320来产生环绕音频信号。
如图14所示,如果后向兼容不起作用,以及如果出于某种原因期望使用未修改的麦克风信号x1、x2作为下混频信号,则可以将“下混频”处理从编码器1300移到解码器1370。注意,在这种情况下,除了空间辅助信息以外,还必须将下混频处理(即,(18))所需的信息发送至解码器(除非成功地设计了从空间辅助信息得到该信息的启发算法)。
换言之,图14示出了空间音频编码编码器和空间音频编码解码器的示意框图。编码器1400包括分析单元1410,分析单元1410与分析单元1310相同,因此包括信号分析器1212的功能以及空间辅助信息发生器1216的功能。在图14的实施例中,从编码器1400发送到扩展解码器1470的信号包括双声道麦克风信号x1、x2(或其编码后的表示)。此外,从编码器1400发送到扩展解码器1470的信号还包括信息1413,信息1413可以例如包括直达声能量信息E{SS*}和散射声能量信息E{NN*}(或其编码后的版本)。此外,从编码器1400发送到扩展解码器1470的信息包括SAC辅助信息1420,SAC辅助信息1420可以与空间提示信息1220或SAC辅助信息1320相同。在图14的实施例中,扩展解码器1470包括下混频处理1472,下混频处理1472可以接管SAC下混频信号发生器1214的功能或下混频处理器1314的功能。扩展解码器1470还可以包括传统的SAC解码器1480,传统的SAC解码器1480可以与SAC解码器1370在功能上相同。SAC解码器1480因此可以被配置为接收SAC辅助信息1420和SAC下混频信息1474,SAC辅助信息1420是由编码器1400的分析单元1410提供的,SAC下混频信息1474是由解码器的下混频处理1472基于由编码器1400提供的双声道麦克风信号x1、x2和由编码器1400提供的附加信息1413来提供的。SAC下混频信息1474可以等同于SAC下混频信息1322。因此SAC解码器1480可以被配置为基于SAC下混频信号1474和SAC辅助信息1420来提供环绕声输出信号,所述环绕声输出信号包括多于两个音频声道。
盲系统
所描述的用于将SAC与立体声麦克风一起使用的第三种情况是修改后的“盲”SAC解码器,可以直接为该“盲”SAC解码器馈送麦克风信号x1、x2,以产生环绕声信号。这对应于不仅将“下混频处理”模块1314,还将“分析”模块1312从编码器1300移到解码器1370,如图15所示。与前两个提出的系统的解码器不同,盲SAC解码器需要与所使用的特定麦克风配置有关的信息。
图15示出了这种修改后的盲SAC解码器的示意框图。可以看出,修改后的盲SAC解码器1500被配置为接收麦克风信号x1、x2,以及可选地接收方向响应信息,所述方向性响应信息表征了产生麦克风信号x1、x2的麦克风布置的方向响应。从图15可以看出,解码器包括分析单元1510,分析单元等1510等同于分析单元1310以及等同于分析单元1410。此外,盲SAC解码器1500包括下混频处理1514,所述下混频处理器1514等同于下混频处理1314、1472。此外,修改后的盲SAC解码器1500包括SAC合成1570,所述SAC合成1570等同于SAC解码器1370、1480。相应地,盲SAC解码器1500的功能与编码器/解码器系统1300、1370以及编码器/解码器系统1400、1470的功能相同,区别在于所有上述组件1510、1514、1540、1570都布置在解码器侧。因此,优选地由盲SAC解码器1500来接收未处理的麦克风信号x1、x2,而不是由SAC解码器1370来接收的处理后的麦克风信号1322。盲SAC解码器1500被配置为自己得到SAC空间提示形式的SAC辅助信息,而不是从编码器接收该SAC辅助信息。
关于SAC解码器1370、1480、1570,应注意,该单元用于基于下混频音频信号和空间提示1320、1420、1520来提供环绕声输出信号。因此,SAC解码器1370、1480、1570包括上混频器,上混频器被配置为:使用空间提示信息,基于下混频信号(例如,未处理的或处理后的双声道麦克风信号)来合成环绕声输出信号(典型地包括多于两个音频声道,优选地包括6个或更多个音频声道(例如,5个环绕声道和1个低频声道),其中,空间提示信息典型地包括以下参数中的一个或多个参数:声道间声级差(ICLD)、声道间相关性(ICC)。
方法
图16示出了方法1600的流程图,方法1600基于双声道麦克风信号来提供与具有多于两个声道的上混频音频信号相关联的空间提示集合。方法1600包括第一步骤1610,在第一步骤1610中,基于双声道麦克风信号来得到分量能量信息和方向信息,使得分量能量信息描述对双声道麦克风信号的直达声分量和双声道麦克风信号的散射声分量的能量的估计,以及使得方向信息描述对双声道麦克风信号的直达声分量所源自的方向的估计。方法1600还包括步骤1620,在步骤1620中,将双声道麦克风信号的分量能量信息和双声道麦克风信号的方向信息映射到空间提示信息,所述空间提示信息描述与具有多于两个声道的上混频音频信号相关联的空间提示。自然,还可以利用本文描述的本发明的设备的任何特征和功能来补充该方法1600。
计算机实现
尽管在设备的上下文中描述了一些方面,然而应清楚,这些方面也可以表示对相应方法的描述,其中,模块或装置对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面也可以表示对相应设备的相应模块或条目或特征的描述。
本发明的编码音频信号,例如,与SAC辅助信息1320相结合的SAC下混频信号1322,或者与信息1413相结合的麦克风信号x1、x2,和SAC辅助信息1420或麦克风信号x1、x2,可以存储在数字存储介质上,或者可以在诸如无线传输介质或有线传输介质(如,互联网)之类的传输介质上传输,
根据特定的实现需要,本发明的实施例可以以硬件或软件的形式实现。可以使用数字存储介质来执行这种实现,所述数字存储介质例如是上面存储有电可读控制信号的软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存,所述电可读控制信号与可编程计算机系统协作(或能够与可编程计算机系统协作),以执行相应的方法。因此,所述数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括数据载体,所述数据载体具有电可读控制信号,所述电可读控制信号可以与可编程计算机系统协作,以执行本文描述的方法之一。
通常,本发明的实施例可以被实现为具有程序代码的计算机程序产品,所述程序代码用于在所述计算机程序产品在计算机上运行时执行上述方法之一。程序代码例如可以存储在机器可读载体上。
其他实施例包括用于执行本文中描述的方法之一的计算机程序,所述计算机程序存储在机器可读载体上。
换言之,本发明的方法的实施例因此是一种具有程序代码的计算机程序,所述程序代码用于在计算机程序在计算机上运行时执行本文描述的方法之一。
本发明方法的另一实施例因此是一种数据载体(或数字存储介质,或计算机可读介质),包括记录在该数据载体上的计算机程序,所述计算机程序用于执行本文描述的方法之一。
因此本发明的方法的另一实施例是一种数据流或信号序列,所述数据流或信号序列表示用于执行本文描述的方法之一的计算机程序。所述数据流或信号序列可以例如被配置为经由数据通信连接(例如,经由互联网)来传递。
另一实施例包括一种处理装置,例如计算机或可编程逻辑装置,所述处理装置被配置为适于执行本文描述的方法之一。
另一实施例包括一种上面安装有计算机程序的计算机,所述计算机程序用于执行本文描述的方法之一。
在一些实施例中,可以使用可编程逻辑装置(例如,现场可编程门阵列)来执行本文描述的方法的一些或全部功能。在一些实施例中,现场可编程门阵列可以与微处理器协作,以执行本文描述的方法之一。通常,方法优选地由任何硬件设备来执行。
上述实施例仅用于说明本发明的原理。应理解,对于本领域技术人员来说,本文描述的布置和细节的修改和变化是显而易见的。因此,本发明仅由非待审专利权利要求来限制,而不由本文中通过描述和说明实施例而提供的特定细节来限制。
总结
论述了立体声麦克风对于通过使用空间音频编码(SAC)来记录环绕声的适合性。提供了基于立体声麦克风信号使用SAC来产生多声道环绕音频的三个系统。这些系统之一(即,根据图12和13的提示系统)是与现有的SAC兼容的比特流和解码器,其中,专用的编码器直接从麦克风立体声信号产生兼容的下混频立体声信号和辅助信息。参考图14描述的第二个提出的系统直接将麦克风立体声信号用作SAC下混频信号,参考图15描述的第三系统是将立体声麦克风信号直接转换成多声道环绕音频信号的“盲”SAC解码器。
关于如何使用立体声麦克风和空间音频编码器(SAC)来产生多声道环绕音频信号来描述了三种不同配置。在之前的部分中,给出了特别合适的立体声麦克风配置的两个示例。
根据本发明的实施例创建了多个基于二碳精盒的麦克风前端以与传统SAC一起使用,从而直接捕获编码环绕声。所提出的方案的特征是:
●麦克风配置可以是传统的立体声麦克风,或者是为此目的而特别优化的立体声麦克风。
●在不需要在编码器处产生环绕信号的情况下,产生SAC兼容下混频和辅助信息。
●产生高质量的立体声下混频信号,SAC解码器使用该信号来产生环绕声。
●如果不需要编码,则可以使用修改后的“盲”SAC解码器将麦克风信号直接转换成环绕音频信号。
在本描述中,已经论述了不同立体声麦克风配置对于捕获环绕声信息的适合性。基于这些认识,提出了三个系统以将SAC与立体声麦克风一起使用,并且提出了一些结论。
在标题为“立体声麦克风及其对于环绕记录的适合性”的部分中,论述了不同的立体声麦克风配置对于捕获环绕声信息的适合性。在标题为“将立体声麦克风与空间音频编码器一起使用”的部分中描述了三个系统。
总之,诸如MPEG环绕之类的空间音频编码器使得可以实现对多声道环绕音频的低比特率且立体声后向兼容编码。方向性音频编码(DirAC)可以被看作是围绕特定的麦克风前端而设计的空间音频编码。DirAC基于B格式空间声分析并且不具有直接立体声后向兼容性。本发明创建了多个基于二碳精盒的立体声兼容麦克风前端以及相应的空间音频编码器修改,这使得可以使用空间音频编码器来直接捕获和编码环绕声。

Claims (13)

1.一种用于基于双声道麦克风信号(X1(t),X2(t))来提供与具有多于两个声道的上混频音频信号相关联的空间提示集合(ICLDLLs,ICCLLsICLDRRs,ICCRRs,ICLD1,ICLD2)的设备(100;200;300;1200;1300;1400;1500),所述设备包括:
信号分析器(130;1212;1312;1410;1510),被配置为基于双声道麦克风信号(X1(t),X2(t))来获得分量能量信息(E{SS*},E{NN*})和方向信息(a,α),使得分量能量信息(E{SS*},E{NN*})描述对双声道麦克风信号的直达声分量(S)和双声道麦克风信号的散射声分量(N)的能量的估计,以及使得方向信息(a,α)描述对双声道麦克风信号的直达声分量(S)所源自的方向的估计;以及
空间辅助信息发生器(140;1216;1312;1410;1510),被配置为将双声道麦克风信号的分量能量信息(E{SS*},E{NN*})和双声道麦克风信号的方向信息(a,α)映射到空间提示信息上,所述空间提示信息描述与具有多于两个声道的上混频音频信号相关联的空间提示集合。
2.根据权利要求1所述的设备(100;200;300;1200;1300;1400;1500),其中,空间辅助信息发生器(140;1216;1312;1410;1510)被配置为将双声道麦克风信号(X1(t),X2(t))的分量能量信息(E{SS*},E{NN*})和双声道麦克风信号(X1(t),X2(t))的方向信息(a,α)直接映射到空间提示信息上,所述空间提示信息描述与具有多于两个声道的上混频音频信号相关联的空间提示集合。
3.根据权利要求1或2所述的设备(100;200;300;1200;1300;1400;1500),其中,空间辅助信息发生器(140;1216;1312;1410;1510)被配置为:将双声道麦克风信号(X1(t),X2(t))的分量能量信息(E{SS*},E{NN*})和双声道麦克风信号(X1(t),X2(t))的方向信息(a,α)映射到空间提示信息(ICLDLL,ICCLLsICLDRRs,ICLD1,ICLD2)上,而实际上不使用上混频音频声道作为中间量,所述空间提示信息(ICLDLL,ICCLLs ICLDRRs,ICLD1,ICLD2)描述与具有多于两个声道的上混频音频信号相关联的空间提示集合。
4.根据权利要求1至3中任一项所述的设备(100;200;300;1200;1300;1400;1500),其中,
空间辅助信息发生器(140;1216;1312;1410;1510)被配置为将方向信息(a,α)映射到增益因子集合(g1,g2,g3,g4,g5)上,所述增益因子集合(g1,g2,g3,g4,g5)描述与方向有关的直达声到环绕音频声道的映射;
空间辅助信息发生器还被配置为基于分量能量信息(E{SS*},E{NN*})和增益因子(g1,g2,g3,g4,g5)来得到对多于两个的环绕声道(L,R,C,Ls,Rs)的估计强度加以描述的声道强度估计(PL,PR,PC,PLs,PRs);以及
空间辅助信息发生器被配置为基于声道强度估计(PL,PR,PC,PLs,PRs)来确定与上混频音频信号相关联的空间提示(ICLDLLs,ICCLLsICLDRRs,ICLD1,ICLD2)。
5.根据权利要求4所述的设备(100;200;300;1200;1300;1400;1500),其中,空间辅助信息发生器(140;1216;1312;1410;1510)还被配置为基于分量能量信息(E{SS*},E{NN*})和增益因子(g1,g2,g4,g5)来得到声道相关性信息(PLLs,PRRs),所述声道相关性信息(PLLs,PRRs)描述上混频信号的不同声道(L,Ls,R,Rs)之间的相关性;以及
空间辅助信息发生器还被配置为基于一个或多个声道强度估计(PL,PLs,PR,PRs)以及声道相关性信息(PLLs,PRRs)来确定与上混频信号相关联的空间提示(ICCLLs,ICCRRs)。
6.根据权利要求4或5所述的设备(100;200;300;1200;1300;1400;1500),其中,空间辅助信息发生器(140;1216;1312;1410;1510)被配置为:对双声道麦克风信号(X1(t),X2(t))的直达声分量(S)的强度的估计(E{SS*})与双声道麦克风信号的散射声分量(N)的强度的估计(E{NN*})进行线性组合,以得到声道强度估计(PL,PR,PC,PLs,PRs),以及
空间辅助信息发生器被配置为根据增益因子(g1,...,g5)以及根据方向信息(a,α)来对直达声分量的强度的估计(E{SS*})进行加权。
7.根据权利要求4至6中任一项所述的设备(100;200;300;1200;1300;1400;1500),其中,空间辅助信息发生器(140;1216;1312;1410;1510)被配置为:
根据
Figure FPA00001371628800031
来得到上混频音频信号的左前环绕声道的估计功率谱值PL
根据
Figure FPA00001371628800032
来得到上混频音频信号的右前环绕声道的估计功率谱值PR
根据
Figure FPA00001371628800033
来得到上混频音频信号的中心环绕声道的估计功率谱值PL
根据来得到上混频音频信号的左后环绕声道的估计功率谱值PLs
根据
Figure FPA00001371628800035
来得到上混频音频信号的右后环绕声道的估计功率谱值PRs
并且其中,
空间辅助信息发生器还被配置为使用估计功率谱值来计算多个不同的声道间声级差(ICLDLLs,ICLDRRs,ICLD1,ICLD2),
其中,g1、g2、g3、g4、g5是对与方向有关的直达声到环绕音频声道的映射加以描述的增益因子,
f(a)是与方向有关的幅度校正因子,
E{SS*}是对双声道麦克风信号(X1,X2)的直达声分量(S)的能量的估计加以描述的分量能量信息,
E{NN*}是对双声道麦克风信号(X1,X2)的散射声分量(N)的能量的估计加以描述的分量能量信息,以及
h1、h2、h3、h4、h5是对散射声到环绕音频声道的映射加以描述的散射声分布因子。
8.根据权利要求4至7中任一项所述的设备(100;200;300;1200;1300;1400;1500),其中,空间辅助信息发生器(140;1216;1312;1410;1510)被配置为:
根据PLLs=g1g4f(a)E{SS*}来得到在上混频音频信号的左前环绕声道与左后环绕声道之间的估计互相关谱值PLLs
根据PRRs=g2g5f(a)E{SS*}来得到在右前环绕声道与右后环绕声道之间的估计互相关谱值PRRs,以及
将所述估计互相关谱值与上混频音频信号的环绕声道的估计功率谱值(PL,PLs,PR,PRs)相组合,以得到声道间相干性提示(ICCLLsICCRRs),
其中,g1、g2、g4、g5是对与方向有关的直达声到环绕音频声道的映射加以描述的增益因子,
f(a)是与方向有关的幅度校正因子,
E{SS*}是对双声道麦克风信号(X1,X2)的直达声分量(S)的能量的估计加以描述的分量能量信息,
E{NN*}是对双声道麦克风信号((X1,X2)的散射声分量(N)的能量的估计加以描述的分量能量信息。
9.根据权利要求1至8中任一项所述的设备(100;200;300;1200;1300;1400;1500),其中,信号分析器(130;1212;1312;1410;1510)被配置为对描述以下关系的方程组求解:
(1)双声道麦克风信号的第一声道麦克风信号(X1)的估计能量(E{X1X1 *})、双声道麦克风信号的直达声分量(S)的估计能量(E{SS*})、以及双声道麦克风信号的散射声分量(N)的估计能量(E{NN*})之间的关系,
(2)双声道麦克风信号的第二声道麦克风信号(X2)的估计能量(E{X2X2 *})、双声道麦克风信号的直达声分量(S)的估计能量(E{SS*})、以及双声道麦克风信号的散射声分量(N)的估计能量(E{NN*})之间的关系,
(3)第一声道麦克风信号(X1)和第二声道麦克风信号(X2)的估计互相关值(E{X1X2 *})、双声道麦克风信号的直达声分量(S)的估计能量(E{SS*})、以及双声道麦克风信号的散射声分量(N)的估计能量(E{NN*})之间的关系,
考虑以下假设:
散射声分量(N)的能量(E{NN*})在第一声道麦克风信号(X1)和第二声道麦克风信号(X2)中相同,
在第一麦克风信号(X1)和第二麦克风信号(X2)中的直达声分量(S)的能量(E{SS*},a2E{SS*})的比值与方向有关,以及
第一麦克风信号(X1)和第二麦克风信号(X2)中的散射声分量(N1,N2)之间的归一化互相关系数(Φ)采用小于1的恒定值,所述恒定值取决于提供第一麦克风信号(X1)和第二麦克风信号(X2)的麦克风的方向特性。
10.一种用于提供双声道音频信号
Figure FPA00001371628800051
以及与具有多于两个声道的上混频音频信号相关联的空间提示集合(ICLDLLs,ICCLLsICLDRRs,ICCRRs,ICLD1,ICLD2)的设备(200),所述设备包括:
麦克风布置(210)包括第一方向性麦克风(216)和第二方向性麦克风(218),
其中,第一方向性麦克风和第二方向性麦克风相隔不大于30cm,第一方向性麦克风和第二方向性麦克风被定向为使得第二方向性麦克风的方向特性是第一方向性麦克风的方向特性的旋转版本;以及
根据权利要求1至9中任一项所述的用于基于双声道麦克风信号(X1,X2)来提供与具有多于两个声道的上混频音频信号相关联的空间提示集合(ICLDLLs,ICCLLsICLDRRs,ICCRRs,ICLD1,ICLD2)的设备(100),
其中用于提供与上混频音频信号相关联的空间提示集合的所述设备(100)被配置为:接收第一方向性麦克风和第二方向性麦克风的麦克风信号(X1,X2)作为双声道麦克风信号,以及基于接收到的麦克风信号(X1,X2)来提供所述空间提示集合;以及
双声道音频信号提供器(230;340;1214;1314)被配置为提供第一方向性麦克风和第二方向性麦克风的麦克风信号(x1,x2)或其处理后的版本,作为双声道音频信号。
11.一种用于基于双声道麦克风信号(X1,X2)来提供处理后的双声道音频信号以及与具有多于两个声道的上混频音频信号相关联的空间提示集合(ICLDLLs,ICCLLsICLDRRs,ICCRRs,ICLD1,ICLD2)的设备(300),所述设备包括:
根据权利要求1至9中任一项所述的用于基于双声道麦克风信号(X1,X2)来提供与具有多于两个声道的上混频音频信号相关联的空间提示集合(ICLDLLs,ICCLLsICLDRRs,ICCRRs,ICLD1,ICLD2)的设备(100);以及
双声道音频信号提供器(230;340;1214;1314)被配置为基于双声道麦克风信号(X1,X2)来提供处理后的双声道音频信号,
其中,双声道音频信号提供器被配置为使用一个或多个第一麦克风信号缩放因子(H1)来缩放双声道麦克风信号的第一音频信号(X1),以得到处理后的双声道音频信号的第一处理后的音频信号
Figure FPA00001371628800061
双声道音频信号提供器还被配置为使用一个或多个第二麦克风信号缩放因子(H2)来缩放双声道麦克风信号的第二音频信号(X2),以得到处理后的双声道音频信号的第二处理后的音频信号
Figure FPA00001371628800062
双声道音频信号提供器被配置为:基于用于提供空间提示集合的设备的信号分析器所提供的分量能量信息(E{SS*},E{NN*}),来计算所述一个或多个第一麦克风信号缩放因子(H1)和所述一个或多个第二麦克风信号缩放因子(H2),使得所述空间提示和所述麦克风信号缩放因子(H1,H2)都由分量能量信息来确定。
12.一种基于双声道麦克风信号来提供与具有多于两个声道的上混频音频信号相关联的空间提示集合的方法(1600),所述方法包括:
基于双声道麦克风信号来获得(1610)分量能量信息和方向信息,使得分量能量信息描述对双声道麦克风信号的直达声分量和双声道麦克风信号的散射声分量的能量的估计,以及使得方向信息描述对双声道麦克风信号的直达声分量所源自的方向的估计;以及
将双声道麦克风信号的分量能量信息和双声道麦克风信号的方向信息映射(1620)到空间提示信息上,所述空间提示信息描述与具有多于两个声道的上混频音频信号相关联的空间提示。
13.一种计算机程序,用于当所述计算机程序运行在计算机上时,执行根据权利要求12所述的方法。
CN200980145087.9A 2008-09-11 2009-09-04 基于麦克风信号来提供空间提示集合的设备、方法以及用于提供双声道音频信号和空间提示集合的设备 Active CN102209988B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US9596208P 2008-09-11 2008-09-11
US61/095,962 2008-09-11
PCT/EP2009/006457 WO2010028784A1 (en) 2008-09-11 2009-09-04 Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues

Publications (2)

Publication Number Publication Date
CN102209988A true CN102209988A (zh) 2011-10-05
CN102209988B CN102209988B (zh) 2014-01-08

Family

ID=41395014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200980145087.9A Active CN102209988B (zh) 2008-09-11 2009-09-04 基于麦克风信号来提供空间提示集合的设备、方法以及用于提供双声道音频信号和空间提示集合的设备

Country Status (10)

Country Link
EP (1) EP2347410B1 (zh)
JP (1) JP5520300B2 (zh)
KR (2) KR101296757B1 (zh)
CN (1) CN102209988B (zh)
AU (1) AU2009291259B2 (zh)
BR (1) BRPI0913460B1 (zh)
CA (1) CA2736709C (zh)
MX (1) MX2011002626A (zh)
RU (1) RU2493617C2 (zh)
WO (1) WO2010028784A1 (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103702258A (zh) * 2013-12-27 2014-04-02 深圳泰山在线科技有限公司 麦克风装置及消除近场声源干扰的麦克风设置方法
CN104981866A (zh) * 2013-01-04 2015-10-14 华为技术有限公司 用于确定立体声信号的方法
CN105723453A (zh) * 2013-10-22 2016-06-29 弗朗霍夫应用科学研究促进协会 用于对降混合矩阵进行解码及编码的方法、用于呈现音频内容的方法、用于降混合矩阵的编码器及解码器、音频编码器及音频解码器
CN106658327A (zh) * 2015-10-28 2017-05-10 音乐集团公司 声级估计
CN107113496A (zh) * 2014-12-18 2017-08-29 华为技术有限公司 移动设备的环绕声记录
CN110068797A (zh) * 2019-04-23 2019-07-30 浙江大华技术股份有限公司 一种校准麦克风阵列的方法、声源定位方法及相关设备
CN110178043A (zh) * 2016-11-11 2019-08-27 弗劳恩霍夫应用研究促进协会 基于延迟和路径强度的移动通信网络中的用户设备定位
CN110447237A (zh) * 2017-03-24 2019-11-12 雅马哈株式会社 拾音装置及拾音方法
CN110495184A (zh) * 2017-03-24 2019-11-22 雅马哈株式会社 拾音装置及拾音方法
CN110537221A (zh) * 2017-02-17 2019-12-03 诺基亚技术有限公司 用于空间音频处理的两阶段音频聚焦
CN111256238A (zh) * 2020-01-21 2020-06-09 金文睿 负离子发生仪的方向调整方法、系统及负离子发生仪系统
WO2022016533A1 (zh) * 2020-07-24 2022-01-27 深圳市大疆创新科技有限公司 音频处理方法和电子设备

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103811010B (zh) * 2010-02-24 2017-04-12 弗劳恩霍夫应用研究促进协会 产生增强下混频信号的装置和产生增强下混频信号的方法
US9313599B2 (en) 2010-11-19 2016-04-12 Nokia Technologies Oy Apparatus and method for multi-channel signal playback
US9055371B2 (en) 2010-11-19 2015-06-09 Nokia Technologies Oy Controllable playback system offering hierarchical playback options
US9456289B2 (en) * 2010-11-19 2016-09-27 Nokia Technologies Oy Converting multi-microphone captured signals to shifted signals useful for binaural signal processing and use thereof
BR112013013673B1 (pt) * 2010-12-03 2021-03-30 Fraunhofer-Gesellschaft Zur Eorderung Der Angewandten Forschung E.V Aparelho e método para aquisição de som espacialmente seletivo por triangulação acústica
MX338525B (es) 2010-12-03 2016-04-20 Fraunhofer Ges Forschung Aparato y método para la codificación de audio espacial basada en la geometría.
CN104335599A (zh) 2012-04-05 2015-02-04 诺基亚公司 柔性的空间音频捕捉设备
EP2982139A4 (en) 2013-04-04 2016-11-23 Nokia Technologies Oy AUDIOVISUAL PROCESSING APPARATUS
EP2997573A4 (en) 2013-05-17 2017-01-18 Nokia Technologies OY Spatial object oriented audio apparatus
WO2015071173A1 (en) 2013-11-13 2015-05-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder for encoding an audio signal, audio transmission system and method for determining correction values
DE102015104699A1 (de) 2015-03-27 2016-09-29 Hamburg Innovation Gmbh Verfahren zur Analyse und Dekomposition von Stereoaudiosignalen
CN106019230B (zh) * 2016-05-27 2019-01-08 南京邮电大学 一种基于i-vector说话人识别的声源定位方法
GB2572650A (en) * 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04158000A (ja) * 1990-10-22 1992-05-29 Matsushita Electric Ind Co Ltd 音場再生システム
US6154549A (en) * 1996-06-18 2000-11-28 Extreme Audio Reality, Inc. Method and apparatus for providing sound in a spatial environment
JP2004526355A (ja) * 2001-02-07 2004-08-26 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション オーディオチャンネル変換方法
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
JP4195267B2 (ja) * 2002-03-14 2008-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
JP4247037B2 (ja) * 2003-01-29 2009-04-02 株式会社東芝 音声信号処理方法と装置及びプログラム
FR2858403B1 (fr) * 2003-07-31 2005-11-18 Remy Henri Denis Bruno Systeme et procede de determination d'une representation d'un champ acoustique
SE0400997D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
US7961890B2 (en) * 2005-04-15 2011-06-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. Multi-channel hierarchical audio coding with compact side information
AU2006255662B2 (en) * 2005-06-03 2012-08-23 Dolby Laboratories Licensing Corporation Apparatus and method for encoding audio signals with decoding instructions
BRPI0613734B1 (pt) * 2005-07-19 2019-10-22 Agere Systems decodificador, método e receptor para gerar um sinal de áudio de multi-canais, unidade legível por computador, sistema de transmissão, método para transmitir e receber um sinal de áudio, e, dispositivo de reprodução de áudio
EP1761110A1 (en) * 2005-09-02 2007-03-07 Ecole Polytechnique Fédérale de Lausanne Method to generate multi-channel audio signals from stereo signals
JP4670682B2 (ja) * 2006-02-28 2011-04-13 日本ビクター株式会社 オーディオ装置及び指向音生成方法
JP5222279B2 (ja) * 2006-03-28 2013-06-26 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン マルチチャネルオーディオ再構成における信号整形のための改善された方法
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104981866A (zh) * 2013-01-04 2015-10-14 华为技术有限公司 用于确定立体声信号的方法
CN104981866B (zh) * 2013-01-04 2018-09-28 华为技术有限公司 用于确定立体声信号的方法
US10468038B2 (en) 2013-10-22 2019-11-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
CN105723453A (zh) * 2013-10-22 2016-06-29 弗朗霍夫应用科学研究促进协会 用于对降混合矩阵进行解码及编码的方法、用于呈现音频内容的方法、用于降混合矩阵的编码器及解码器、音频编码器及音频解码器
US11393481B2 (en) 2013-10-22 2022-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
US11922957B2 (en) 2013-10-22 2024-03-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
CN105723453B (zh) * 2013-10-22 2019-11-08 弗朗霍夫应用科学研究促进协会 用于对降混合矩阵解码及编码的方法、编码器及解码器
CN103702258B (zh) * 2013-12-27 2017-02-22 深圳泰山在线科技有限公司 麦克风装置及消除近场声源干扰的麦克风设置方法
CN103702258A (zh) * 2013-12-27 2014-04-02 深圳泰山在线科技有限公司 麦克风装置及消除近场声源干扰的麦克风设置方法
CN107113496A (zh) * 2014-12-18 2017-08-29 华为技术有限公司 移动设备的环绕声记录
CN107113496B (zh) * 2014-12-18 2020-12-08 华为技术有限公司 移动设备的环绕声记录
CN106658327A (zh) * 2015-10-28 2017-05-10 音乐集团公司 声级估计
CN106658327B (zh) * 2015-10-28 2021-02-09 音乐集团公司 声级估计
CN110178043A (zh) * 2016-11-11 2019-08-27 弗劳恩霍夫应用研究促进协会 基于延迟和路径强度的移动通信网络中的用户设备定位
CN110178043B (zh) * 2016-11-11 2023-06-20 弗劳恩霍夫应用研究促进协会 基于延迟和路径强度的移动通信网络中的用户设备定位
CN110537221A (zh) * 2017-02-17 2019-12-03 诺基亚技术有限公司 用于空间音频处理的两阶段音频聚焦
CN110537221B (zh) * 2017-02-17 2023-06-30 诺基亚技术有限公司 用于空间音频处理的两阶段音频聚焦
CN110495184A (zh) * 2017-03-24 2019-11-22 雅马哈株式会社 拾音装置及拾音方法
CN110495184B (zh) * 2017-03-24 2021-12-03 雅马哈株式会社 拾音装置及拾音方法
US11197091B2 (en) 2017-03-24 2021-12-07 Yamaha Corporation Sound pickup device and sound pickup method
US11758322B2 (en) 2017-03-24 2023-09-12 Yamaha Corporation Sound pickup device and sound pickup method
CN110447237B (zh) * 2017-03-24 2022-04-15 雅马哈株式会社 拾音装置及拾音方法
CN110447237A (zh) * 2017-03-24 2019-11-12 雅马哈株式会社 拾音装置及拾音方法
CN110068797A (zh) * 2019-04-23 2019-07-30 浙江大华技术股份有限公司 一种校准麦克风阵列的方法、声源定位方法及相关设备
CN111256238A (zh) * 2020-01-21 2020-06-09 金文睿 负离子发生仪的方向调整方法、系统及负离子发生仪系统
CN114145025A (zh) * 2020-07-24 2022-03-04 深圳市大疆创新科技有限公司 音频处理方法和电子设备
WO2022016533A1 (zh) * 2020-07-24 2022-01-27 深圳市大疆创新科技有限公司 音频处理方法和电子设备
CN114145025B (zh) * 2020-07-24 2024-04-12 深圳市大疆创新科技有限公司 音频处理方法和电子设备

Also Published As

Publication number Publication date
CN102209988B (zh) 2014-01-08
MX2011002626A (es) 2011-04-07
WO2010028784A1 (en) 2010-03-18
CA2736709C (en) 2016-11-01
CA2736709A1 (en) 2010-03-18
BRPI0913460A2 (pt) 2023-03-28
JP2012502570A (ja) 2012-01-26
KR20130031923A (ko) 2013-03-29
KR101392546B1 (ko) 2014-05-08
EP2347410A1 (en) 2011-07-27
EP2347410B1 (en) 2018-04-11
BRPI0913460B1 (pt) 2024-03-05
KR101296757B1 (ko) 2013-08-14
JP5520300B2 (ja) 2014-06-11
KR20110063826A (ko) 2011-06-14
RU2011113850A (ru) 2012-10-20
AU2009291259A1 (en) 2010-03-18
AU2009291259B2 (en) 2013-10-31
RU2493617C2 (ru) 2013-09-20

Similar Documents

Publication Publication Date Title
CN102209988A (zh) 基于麦克风信号来提供空间提示集合的设备、方法和计算机程序以及用于提供双声道音频信号和空间提示集合的设备
US9183839B2 (en) Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues
CN102859590B (zh) 产生增强下混频信号的装置、产生增强下混频信号的方法以及计算机程序
RU2439719C2 (ru) Устройство и способ для синтезирования выходного сигнала
JP5563647B2 (ja) マルチチャンネル復号化方法及びマルチチャンネル復号化装置
US20230238006A1 (en) Apparatus, Method, or Computer Program for Processing an Encoded Audio Scene using a Parameter Conversion
AU2021357364B2 (en) Apparatus, method, or computer program for processing an encoded audio scene using a parameter smoothing
AU2021357840B2 (en) Apparatus, method, or computer program for processing an encoded audio scene using a bandwidth extension

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant