CN118235431A - 空间音频采集方法及装置 - Google Patents
空间音频采集方法及装置 Download PDFInfo
- Publication number
- CN118235431A CN118235431A CN202280004436.0A CN202280004436A CN118235431A CN 118235431 A CN118235431 A CN 118235431A CN 202280004436 A CN202280004436 A CN 202280004436A CN 118235431 A CN118235431 A CN 118235431A
- Authority
- CN
- China
- Prior art keywords
- microphone
- spatial audio
- array
- arrays
- signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000003491 array Methods 0.000 claims abstract description 68
- 230000005236 sound signal Effects 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000004891 communication Methods 0.000 claims description 28
- 230000015654 memory Effects 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 6
- 230000035945 sensitivity Effects 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 17
- 238000010295 mobile communication Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 21
- 238000004590 computer program Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 13
- 238000013461 design Methods 0.000 description 5
- 239000004065 semiconductor Substances 0.000 description 5
- 229910044991 metal oxide Inorganic materials 0.000 description 4
- 150000004706 metal oxides Chemical class 0.000 description 4
- 229910000577 Silicon-germanium Inorganic materials 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000001010 compromised effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- JBRZTFJDHDCESZ-UHFFFAOYSA-N AsGa Chemical compound [As]#[Ga] JBRZTFJDHDCESZ-UHFFFAOYSA-N 0.000 description 1
- 244000062793 Sorghum vulgare Species 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- LEVVHYCKPQWKOP-UHFFFAOYSA-N [Si].[Ge] Chemical compound [Si].[Ge] LEVVHYCKPQWKOP-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 235000019713 millet Nutrition 0.000 description 1
- 239000011295 pitch Substances 0.000 description 1
- 150000003071 polychlorinated biphenyls Chemical class 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本公开提出了一种空间音频采集方法及装置,涉及移动通信技术领域。该方法通过在UE中布置有多组相互正交的麦克风阵列,对麦克风阵列获取的麦克风信号进行差分波束处理,以获取空间音频信号。本公开可使用运用波束技术的微型麦克风形成的相互正交的麦克风阵列,将空间音频采集系统大小控制在一定尺寸以内,以便内置在现在的移动设备之内,构成能内置移动智能设备的拾音系统,同时通过差分波束技术,控制麦克风阵列的指向性,减少额外的电声、声学硬件的要求,从而在控制设备体积的情况下,解决移动智能设备对于采集沉浸式音频要求。
Description
本公开涉及移动通信技术领域,特别涉及一种空间音频采集方法及装置。
随着技术发展,空间音频在民用设备的多媒体、即时通信方面有了很多的应用。但是目前空间音频的采集都依赖于外置设备,不能直接通过智能移动设备直接采集,并且目前的空间音频采集设备都存在体积过大、操作不易的问题,不适用于用户日益增长的高质量音视频采集需求。
发明内容
本公开提出了一种空间音频采集方法及装置,以解决现有技术中无法将空间音频采集系统集成于UE中进行有效、高质量的空间音频采集问题。
本公开的第一方面实施例提供了一种空间音频采集方法,该方法由用户设备UE执行,UE中布置有多组麦克风阵列,每组阵列的最大响应方向相互正交,该方法包括:对麦克风阵列获取的麦克风信号进行差分波束处理,以获取空间音频信号。
在一些实施例中,对麦克风阵列获取的麦克风信号进行差分波束处理,以获取空间音频信号包括:对麦克风信号添加适当的延时滤波和对应的补偿滤波器,获得所需指向性的阵列信号;对阵列信号进行解码,获取空间音频信号。
在一些实施例中,该方法还包括:获取麦克风阵列的多个指向性,指向性表征不同方向上信号的灵敏度。
在一些实施例中,该方法还包括:获取多个指向性的差分阵列;通过不同差分阵列的组合,获取三维空间上所需的指向性,以获取空间音频信号。
在一些实施例中,该方法还包括:对空间音频信号进行解码处理,以输出沉浸式的多声道音频和/或ambisonic音频。
在一些实施例中,该方法还包括:对麦克风信号进行滤波处理,以获取低频成分和高频成分,其中,低频成分作为低频效果输出,高频成分用于形成空间音频信号。
在一些实施例中,麦克风阵列在UE中以如下任一种方式布置:麦克风阵列布置于UE中靠近人声采集组件的位置;麦克风阵列布置于UE中靠近图像采集组件的位置。
在一些实施例中,麦克风阵列包括预定个数麦克风,预定个数麦克风形成三组麦克风阵列,所述三组麦克风阵列相互正交或角度偏离正交误差在预定范围内,三组麦克风阵列的中心重合或具有不超过误差阈值的距离。
本公开的第二方面实施例提供了一种空间音频采集装置,该装置布置于用户设备UE执行,UE中布置有多组麦克风阵列,每组阵列的最大响应方向相互正交,该装置包括:空间音频信号获取模块,用于对麦克风阵列获取的麦克风信号进行差分波束处理,以获取空间音频信号。
本公开的第三方面实施例提供了一种通信设备,包括:收发器;存储器;处理器,分别与收发器及存储器连接,配置为通过执行存储器上的计算机可执行指令,控制收发器的无线信号收发,并能够实现上述第一方面实施例的空间音频采集方法。
本公开第四方面实施例提出了一种计算机存储介质,其中,计算机存储介质存储有计算机可执行指令;计算机可执行指令被处理器执行后,能够实现上述第一方面实施例的空间音频采集方法。
本公开实施例提供了一种空间音频采集方法及装置,通过在UE中布置有多组相互正交的麦克风阵列,对麦克风阵列获取的麦克风信号进行差分波束处理,以获取空间音频信号。本公开通过设置相互正交的麦克风阵列,在控制麦克风指向性的同时,将采集系统大小控制在一定尺寸以内,以便内置在现在的移动设备之内,构成能内置移动智能设备的拾音系统。并且通过差分波束技术,控制拾音系统采集到的信号,以采集空间音频,减少额外的电声、声学硬件的要求,从而在控制设备体积的情况下,解决移动智能设备对于采集沉浸式音频要求。
本公开附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。
本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本公开实施例的一种空间音频采集方法的流程示意图;
图2为根据本公开实施例的一种空间音频采集方法的流程示意图;
图3为根据本公开实施例的一种空间音频采集逻辑示意图;
图4为根据本公开实施例的一种一阶差分阵列示意图;
图5为根据本公开实施例的麦克风阵列的指向性示意图;
图6为根据本公开实施例的解码后左声道和右声道的指向性示意图;
图7为根据本公开实施例的一阶B格式示意图;
图8为根据本公开实施例的一阶B格式指向信号分量示意图;
图9为根据本公开实施例的一种麦克风阵列在移动设备中的布置示意图;
图10为根据本公开实施例的一种麦克风阵列在移动设备中的布置示意图;
图11为根据本公开实施例的一种空间音频采集装置的框图;
图12为本公开实施例提供的一种通信装置的结构示意图;
图13为本公开实施例提供的一种芯片的结构示意图。
下面详细描述本公开的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本公开,而不能理解为对本公开的限制。
随着技术发展,空间音频在民用设备方面有了很多的应用,Youtube、facebook等网站都支持空间音频内容。实时通信方面,AVS等音视频编解码都支持空间音频的编解码。
现有的空间音频采集技术,虽然能做到很好的音频质量和沉浸式的声场再现,但是目前空间音频的采集都依赖于外置设备,不能直接通过智能移动设备直接采集。此外,目前的空间音频采集设备都存在体积过大、操作不易的问题。下表示出了现有技术中的3D空间音频采集设备:
可以看出,相关技术中的空间音频采集设备无法内置在现在的移动智能设备内,不适用于用户日益增长的高质量音视频采集需求。以现在最普遍的移动智能设备—智能手机为例,大小都在7寸左右,如小米12S PRO(长度163.6mm,宽度:74.6mm,厚度:8.16mm)。加上移动智能设备内硬件布置十分紧凑,移动智能设备的内置音频采集系统的体积十分有限。
为此,本公开提出了一种空间音频采集方法及装置,以解决现有技术中无法将空间音频采集系统集成于UE中进行有效、高质量的空间音频采集问题。
下面结合附图对本申请所提供的空间音频采集方法及装置进行详细地介绍。
图1示出了根据本公开实施例的一种空间音频采集方法的流程示意图。该方法可由用户设备(User Equipment,UE)。本公开中UE布置有多组麦克风阵列,每组阵列的最大响应方向相互正交。如图1所示,该方法可以包括以下步骤。
S101,对麦克风阵列获取的麦克风信号进行差分波束处理,以获取空间音频信号。
在本公开的实施例中,UE中设置的多组相互正交的麦克风阵列,每个麦克风阵列可以包括多个麦克风。本公开不限制麦克风类型,可以采用体积小、误差小、更适合集成于用户设备等小型设备中且适合于进行波束控制的全指向微型麦克风,例如MEMS(微型机电系统)麦克风、驻极体麦克风等,以控制拾音系统的大小,相较以往空间音频采集设备而言,本公开运用全指向微型麦克风能够大大缩小空间音频采集系统的体积。
传统麦克风波束有延时累加(delay-sum),滤波相加(filter-sum),自适应波束形成(MVDR),以及差分波束(Differential beamforming)。由于差分波束具有布局紧凑,频率不变波束模式的优势。在本公开的实施例中,对于多组麦克风阵列,可以通过差分麦克风波束技术控制指向性,以辅助获取空间音频信号。本公开中,通过不同的差分波束设计,以不同低阶阵列的组合,获取三维空间上所需的指向 性,从而采集空间音频信号。本公开的方案仅依靠波束技术控制指向性,能够有效降低拾音系统对电声、声学硬件的依赖性。
综上,根据本公开提供的空间音频采集方法,通过在UE中布置有多组相互正交的麦克风阵列,对麦克风阵列获取的麦克风信号进行差分波束处理,以获取空间音频信号。本公开可使用运用波束技术的微型麦克风形成的相互正交的麦克风阵列,将空间音频采集系统大小控制在一定尺寸以内,以便内置在现在的移动设备之内,构成能内置移动智能设备的拾音系统,同时通过差分波束技术,控制麦克风阵列的指向性,减少额外的电声、声学硬件的要求,从而在控制设备体积的情况下,解决移动智能设备对于采集沉浸式音频要求。
图2示出了根据本公开实施例的一种空间音频采集方法的流程示意图。该方法可由UE执行,在本公开的实施例中,首先介绍麦克风阵列的布置方式。
在一些可选的实施例中,麦克风阵列包括预定个数麦克风,预定个数麦克风形成三组麦克风阵列,所述三组麦克风阵列相互正交或角度偏离正交误差在预定范围内,三组麦克风阵列的中心重合或具有不超过误差阈值的距离。
换言之,本公开中麦克风阵列中的麦克风并不限定数目,每个阵列可以由任意数量的麦克风组成。在一种优选的实施例中,4颗MEMS麦克风为成本最优的设计,例如布置在正6面体相邻的4个顶点上,形成相互正交的三组麦克风阵列。
本公开中不限制麦克风类型,可以用微型麦克风(如MEMS)以控制拾音系统的大小,相较以往空间音频采集设备而言,本公开提供的方案能够大大缩小体积。
应当理解,三组麦克风阵列以正交的角度布置为本发明的一种优选方式,在一些可选的实施例中,三组麦克风可以有一定的角度偏移,并且三组阵列在理想状态下中心完全重合,在一些可选的实施例中,分离式或是中心有一定距离可以认为是误差。当然,在实际设备上的麦阵应保持阵列之间相互正交,从而减少位置误差带来的干扰。此外,由于位置误差、麦克风之间不一致性、设备本身干扰都会影响最终性能,因此需要根据实际情况进行校准。
举例而言,本公开使用参数完全一致的全指向的微型麦克风布置3对相互正交的麦克风,并且每对麦克风连线中点重合。构成阵列的麦克风信号可以复用,因此最少只需要4颗麦克风即可构成本发明所需的麦阵,布置在正六面体的任意4个顶点即可。由于移动智能设备的体积限制,本公开的一种优选实施例推荐布置4颗麦克风,布置在正6面体相邻的4个顶点上,麦克风主轴方向一致,麦阵间距尽量小。
在该示例中,以麦克风0为原点建立三维空间坐标系,麦克风1在x轴上,麦克风2在y轴上,麦克风3在z轴上。麦克风0与麦克风1,麦克风2,麦克风3的3组麦克风间距相等,形成3对正交的一阶差分阵列。由于微型麦克风相较于传统电容、动圈麦克风具有体积小的优势,3对麦克风间距完全可以控制在4mm,远小于目标信号(20-20kHz)的波长(1.7cm),因此麦克风间距造成的误差可以忽略不计。
基于图1所示实施例,如图2所示,该方法可以包括以下步骤。
S201,对麦克风阵列获取的麦克风信号进行滤波处理,以获取低频成分和高频成分。
在本公开的实施例中,对麦克风阵列获取的麦克风信号进行滤波处理,其中所获得的低频成分作为低频效果输出,高频成分用于进行后续处理以形成空间音频信号,如图3所示,示出了本公开所描述的空间音频采集逻辑示意图。
应理解的是,由于差分波束的高通特性,在低频部分表现较差,因此可以将麦克风0的原始信号(即麦克风阵列获取的麦克风信号),通过低通滤波器只保留低频成分,作为LFE声道,由于低频成分波长较长,对人耳的定位影响较少,在加强低频效果的同时,不影响空间感。其余声道经过高通滤波器滤除低频成分后作为高频成分,以用于后续处理形成空间音频信号。
S202,对麦克风信号添加适当的延时滤波和对应的补偿滤波器,获得所需指向性的阵列信号。
应理解的是,对于步骤S201所得到的高频成分,可以添加适当的延时滤波和对应的补偿滤波器,获得所需指向性的阵列信号。
S203,获取麦克风阵列的多个指向性。
在本公开的实施例中,指向性表征不同方向上信号的灵敏度。本公开通过获取多个指向性的差分阵列,通过不同差分阵列的组合,获取三维空间上所需的指向性,如图4所示,示出了一阶差分阵列示意图。
具体地,下面对上述步骤S202-S203进行详细说明。
标准的一阶差分阵列通过两个主轴方向相同的麦克风之间的麦克风相减得到目标信号,通过在减去的麦克风信号上添加角频率不变的延时来控制指向性:
首先,令
其中δ为麦克风间距,c为声速。
输出补偿滤波器可表示为:
其中ω为角频率,∝
1,1为延时滤波器系数,
因此,针对θ角度(声源在麦克风处的入射角)上的信号,阵列输出的信号(即上述的阵列信号)表示为:Y(ω,θ)=(X
1(ω,θ)-X
2(ω,θ))H
L(ω),其中X
n(ω,θ)表示第n个麦克风信号。
由于麦克风间距远小于波长,τ
0-∝
1,1τ
0<<2π,X
1,X
2的幅度差异可以忽略不记,且e
x=1+x。
因此阵列输出的信号Y(ω,θ)可表示为:
则阵列的指向性(对于不同方向上信号灵敏度)为:
经简化,表示为:
其中两种最常见的指向为(主轴方向为90°):
指向性 | ∝ 1,1 | 灵敏度为0的角度 |
8字形\偶极性 | 0 | 0°,180° |
心型 | -1 | -90° |
因此通过控制延迟滤波器系数,即可控制差分波束的指向。
S204,对阵列信号进行解码,获取空间音频信号。
在本公开的实施例中,根据差分阵列的原理,3对麦克风可以构成以下5种不同指向性的一阶差分阵列:
序号 | 主轴方向 | 指向性 | 选用麦克风 |
阵列1: | X轴正方向 | 心型 | 麦克风0,麦克风1 |
阵列2: | X轴负方向 | 心型 | 麦克风0,麦克风1 |
阵列3: | Y轴正方向 | 8字 | 麦克风0,麦克风2 |
阵列4: | Z轴正方向 | 8字 | 麦克风0,麦克风3 |
阵列5: | X轴正方向 | 8字 | 麦克风0,麦克风1 |
通过不同一阶阵列的组合,获取三维空间上所需的指向性,从而采集空间音频信号。
S205,对空间音频信号进行解码处理,以输出沉浸式的多声道音频和/或ambisonic音频。
在本公开的实施例中,通过不同的差分波束设计,得到空间音频所需的音频信号。例如,可以输出不同音频格式如多声道音频和ambisonic(B-format),其中,多声道音频、ambisonic音频是沉浸式(环绕声)的两种格式。
举例而言,在一种可选的实施例中,根据M\S录音原理,构筑M\S-3D录音制式,通过对空间音频信号进行解码,输出5.1.4声道的多声道音频。其中,两个指向性相反的心型指向的阵列指向X轴正向和反相,两个8字型指向的阵列分别指向Y轴正方向和Z轴正方向。
解码获得多声道音频的方式如下所示,其中,“+”表示信号相加,“-”表示信号反相相加。
声道 | 阵列1 | 阵列2 | 阵列3 | 阵列4 |
左 | + | + | - | |
中 | + | |||
右 | + | - | - | |
左环 | + | + | - | |
右环 | + | - | - | |
前方顶部左侧 | + | + | + | |
前方顶部右侧 | + | + | ||
顶部左后 | + | + | + | |
顶部右后 | + | - | + |
本发明中所提出的麦克风阵列的布置方式,如上述所示出的五种阵列,其中,阵列1指向性在xoy切面如图5(a)所示;阵列3指向性在xoy切面如图5(b)所示,其中+为正相位,-为负相位,相同的正负相位信号会相互抵消;阵列4在xoz平面切面如图5(c)所示,其中+为正相位,-为负相位,相同的正负相位信号会相互抵消。
进行解码后左声道和右声道指向性在坐标轴平面切面如图6所示,其中左声道如图6(a)所示,右声道如图6(b)所示。
在本公开的另一种实施方式中,本公开可以输出标准的ambisonic音频。应理解的是,一阶B-format是球谐函数的一阶分解,如图7所示。构成标准的B格式需要一个全指向信号(W)和三个互相正向的8字型指向信号(X,Y,Z)。通过选取对应的阵列,获取B格式所需的四个分量可以表示为:W=麦克风0;X=阵列1;Y=阵列2;Z=阵列5,如图8所示。
因此,本公开通过对空间音频信号进行解码,获取不同格式的音频信号,以满足空间音频采集的多样性需求。
此外,在一种可选示例中,麦克风阵列在UE中的方式布置可以根据实际需要进行布局。
在一种示例中,当兼顾手持通话需求时,麦克风阵列布置于UE中靠近人声采集组件的位置。例如,将麦阵布置在移动智能设备下端,更靠近人嘴的位置,保证更好的信噪比,如图9示出了麦克风阵列在移动设备中的布置示意图,其中图9(a)为移动设备的反面示意图,图9(b)为的正面示意图。
在另一种示例中,当兼顾视频效果时,麦克风阵列布置于UE中靠近图像采集组件的位置。例如,麦阵布置在靠近相机的位置,并且和相机正方向保持一致。通过保证和相机的视角尽量一致,进而保证更好的视听效果。如图10示出了麦克风阵列在移动设备中的布置示意图,其中图10(a)为移动设备的反面示意图,图10(b)为的正面示意图。
综上,根据本公开提供的空间音频采集方法,通过在UE中布置有多组相互正交的麦克风阵列,对麦克风阵列获取的麦克风信号进行差分波束处理,以获取空间音频信号。本公开可使用运用波束技术的微型麦克风形成的相互正交的麦克风阵列,将空间音频采集系统的大小控制在一定尺寸以内,以便内置在现在的移动设备之内,构成能内置移动智能设备的拾音系统,同时通过差分波束技术,控制麦克风阵列的指向性,减少额外的电声、声学硬件的要求,从而在控制设备体积的情况下,解决移动智能设备对于采集沉浸式音频要求。此外,通过输出不同格式的音频,可以满足不同的应用需求,并且本公开通过将麦克风阵列布置在移动设备内的不同位置,能够适应不同的应用场景。
上述本申请提供的实施例中,从用户设备的角度对本申请实施例提供的方法进行了介绍。为了实现上述本申请实施例提供的方法中的各功能,用户设备可以包括硬件结构、软件模块,以硬件结构、软件模块、或硬件结构加软件模块的形式来实现上述各功能。上述各功能中的某个功能可以以硬件结构、软件模块、或者硬件结构加软件模块的方式来执行。
与上述几种实施例提供的空间音频采集方法相对应,本公开还提供一种空间音频采集装置,由于本公开实施例提供的空间音频采集装置与上述几种实施例提供的空间音频采集方法相对应,因此空间音频采集方法的实施方式也适用于本实施例提供的空间音频采集装置,在本实施例中不再详细描述。
图11为本公开实施例提供的一种空间音频采集装置1100的结构示意图,该空间音频采集装置1100布置于用户设备UE执行,UE中布置有多组麦克风阵列,每组阵列的最大响应方向相互正交。
如图11所示,装置1100包括:空间音频信号获取模块1110,用于对麦克风阵列获取的麦克风信号进行差分波束处理,以获取空间音频信号。
根据本公开提供的空间音频采集装置,通过在UE中布置有多组相互正交的麦克风阵列,对麦克风阵列获取的麦克风信号进行差分波束处理,以获取空间音频信号。本公开可使用运用波束技术的微型麦克风形成的相互正交的麦克风阵列,在控制麦克风指向性的同时,将空间音频采集系统大小控制在一定尺寸以内,以便内置在现在的移动设备之内,构成能内置移动智能设备的拾音系统,通过差分波束技术,控制拾音系统采集到的信号的指向性,减少额外的电声、声学硬件的要求,从而在控制设备体积的情况下,解决移动智能设备对于采集沉浸式音频要求。
在一些实施例中,空间音频信号获取模块1110还用于:对麦克风信号添加适当的延时滤波和对应的补偿滤波器,获得所需指向性的阵列信号;对阵列信号进行解码,获取空间音频信号。
在一些实施例中,空间音频信号获取模块1110还用于:获取麦克风阵列的多个指向性,指向性表征不同方向上信号的灵敏度。
在一些实施例中,空间音频信号获取模块1110还用于:获取多个指向性的差分阵列;通过不同差分阵列的组合,获取三维空间上所需的指向性,以获取空间音频信号。
在一些实施例中,空间音频信号获取模块1110还用于:对空间音频信号进行解码处理,以输出沉浸式的多声道音频和/或ambisonic音频。
在一些实施例中,空间音频信号获取模块1110还用于:对麦克风信号进行滤波处理,以获取低频成分和高频成分,其中,低频成分作为低频效果输出,高频成分用于形成空间音频信号。
在一些实施例中,麦克风阵列在UE中以如下任一种方式布置:麦克风阵列布置于UE中靠近人声采集组件的位置;麦克风阵列布置于UE中靠近图像采集组件的位置。
在一些实施例中,麦克风阵列包括预定个数麦克风,预定个数麦克风形成三组麦克风阵列,所述三组麦克风阵列相互正交或角度偏离正交误差在预定范围内,三组麦克风阵列的中心重合或具有不超过误差阈值的距离。
根据本公开提供的空间音频采集装置,通过在UE中布置有多组相互正交的麦克风阵列,对麦克风阵列获取的麦克风信号进行差分波束处理,以获取空间音频信号。本公开可使用运用波束技术的微型麦克风形成的相互正交的麦克风阵列,在控制麦克风指向性的同时,将空间音频采集系统大小控制在一定尺寸以内,以便内置在现在的移动设备之内,构成能内置移动智能设备的拾音系统,通过差分波束技术,控制拾音系统采集到的信号的指向性,减少额外的电声、声学硬件的要求,从而在控制设备体积的情况下,解决移动智能设备对于采集沉浸式音频要求。此外,通过输出不同格式的音频,可以满足不同的应用需求,并且本公开通过将麦克风阵列布置在移动设备内的不同位置,能够适应不同的应用应用场景。
请参见图12,图12是本申请实施例提供的一种通信装置1200的结构示意图。通信装置1200可以是网络设备,也可以是用户设备,也可以是支持网络设备实现上述方法的芯片、芯片系统、或处理器等,还可以是支持用户设备实现上述方法的芯片、芯片系统、或处理器等。该装置可用于实现上述方法实施例中描述的方法,具体可以参见上述方法实施例中的说明。
通信装置1200可以包括一个或多个处理器1201。处理器1201可以是通用处理器或者专用处理器等。例如可以是基带处理器或中央处理器。基带处理器可以用于对通信协议以及通信数据进行处理,中央处理器可以用于对通信装置(如,基站、基带芯片,终端设备、终端设备芯片,DU或CU等)进行控制,执行计算机程序,处理计算机程序的数据。
可选的,通信装置1200中还可以包括一个或多个存储器1202,其上可以存有计算机程序1204,处理器1201执行计算机程序1204,以使得通信装置1200执行上述方法实施例中描述的方法。可选的,存储器1202中还可以存储有数据。通信装置1200和存储器1202可以单独设置,也可以集成在一起。
可选的,通信装置1200还可以包括收发器1205、天线1206。收发器1205可以称为收发单元、收发机、或收发电路等,用于实现收发功能。收发器1205可以包括接收器和发送器,接收器可以称为接收机或接收电路等,用于实现接收功能;发送器可以称为发送机或发送电路等,用于实现发送功能。
可选的,通信装置1200中还可以包括一个或多个接口电路1207。接口电路1207用于接收代码指令并传输至处理器1201。处理器1201运行代码指令以使通信装置1200执行上述方法实施例中描述的方法。
在一种实现方式中,处理器1201中可以包括用于实现接收和发送功能的收发器。例如该收发器可以是收发电路,或者是接口,或者是接口电路。用于实现接收和发送功能的收发电路、接口或接口电路可以是分开的,也可以集成在一起。上述收发电路、接口或接口电路可以用于代码/数据的读写,或者,上述收发电路、接口或接口电路可以用于信号的传输或传递。
在一种实现方式中,处理器1201可以存有计算机程序1203,计算机程序1203在处理器1201上运行,可使得通信装置1200执行上述方法实施例中描述的方法。计算机程序1203可能固化在处理器1201中,该种情况下,处理器1201可能由硬件实现。
在一种实现方式中,通信装置1200可以包括电路,电路可以实现前述方法实施例中发送或接收或者通信的功能。本申请中描述的处理器和收发器可实现在集成电路(integrated circuit,IC)、模拟IC、射频集成电路RFIC、混合信号IC、专用集成电路(application specific integrated circuit,ASIC)、印刷电路板(printed circuit board,PCB)、电子设备等上。该处理器和收发器也可以用各种IC工艺技术来制造,例如互补金属氧化物半导体(complementary metal oxide semiconductor,CMOS)、N型金属氧化物半导体(nMetal-oxide-semiconductor,NMOS)、P型金属氧化物半导体(positive channel metal oxide semiconductor,PMOS)、双极结型晶体管(bipolar junction transistor,BJT)、双极CMOS(BiCMOS)、硅锗(SiGe)、砷化镓(GaAs)等。
以上实施例描述中的通信装置可以是网络设备或者用户设备,但本申请中描述的通信装置的范围并不限于此,而且通信装置的结构可以不受图12的限制。通信装置可以是独立的设备或者可以是较大设备的一部分。例如通信装置可以是:
(1)独立的集成电路IC,或芯片,或,芯片系统或子系统;
(2)具有一个或多个IC的集合,可选的,该IC集合也可以包括用于存储数据,计算机程序的存储部件;
(3)ASIC,例如调制解调器(Modem);
(4)可嵌入在其他设备内的模块;
(5)接收机、终端设备、智能终端设备、蜂窝电话、无线设备、手持机、移动单元、车载设备、网络设备、云设备、人工智能设备等等;
(6)其他等等。
对于通信装置可以是芯片或芯片系统的情况,可参见图13所示的芯片的结构示意图。图13所示的芯片包括处理器1301和接口1302。其中,处理器1301的数量可以是一个或多个,接口1302的数量可以是多个。
可选的,芯片还包括存储器1303,存储器1303用于存储必要的计算机程序和数据。
本领域技术人员还可以了解到本申请实施例列出的各种说明性逻辑块(illustrative logical block)和步骤(step)可以通过电子硬件、电脑软件,或两者的结合进行实现。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现的功能,但这种实现不应被理解为超出本申请实施例保护的范围。
本申请还提供一种可读存储介质,其上存储有指令,该指令被计算机执行时实现上述任一方法实施例的功能。
本申请还提供一种计算机程序产品,该计算机程序产品被计算机执行时实现上述任一方法实施例的功能。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机程序。在计算机上加载和执行计算机程序时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机程序可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机程序可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,高密度数字视频光盘(digital video disc,DVD))、或者半导体介质(例如,固态硬盘(solid state disk,SSD))等。
本领域普通技术人员可以理解:本申请中涉及的第一、第二等各种数字编号仅为描述方便进行的区分,并不用来限制本申请实施例的范围,也表示先后顺序。
本申请中的至少一个还可以描述为一个或多个,多个可以是两个、三个、四个或者更多个,本申请不做限制。在本申请实施例中,对于一种技术特征,通过“第一”、“第二”、“第三”、“A”、“B”、“C”和“D”等区分该种技术特征中的技术特征,该“第一”、“第二”、“第三”、“A”、“B”、“C”和“D”描述的技术特征间无先后顺序或者大小顺序。
如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
此外,应该理解,本申请的各种实施例可以单独实施,也可以在方案允许的情况下与其他实施例组合实施。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (11)
- 一种空间音频采集方法,其特征在于,所述方法由用户设备UE执行,所述UE中布置有多组麦克风阵列,每组阵列的最大响应方向相互正交,所述方法包括:对所述麦克风阵列获取的麦克风信号进行差分波束处理,以获取空间音频信号。
- 根据权利要求1所述的方法,其特征在于,所述对所述麦克风阵列获取的麦克风信号进行差分波束处理,以获取空间音频信号包括:对所述麦克风信号添加适当的延时滤波和对应的补偿滤波器,获得所需指向性的阵列信号;对所述阵列信号进行解码,获取所述空间音频信号。
- 根据权利要求2所述的方法,其特征在于,所述方法还包括:获取所述麦克风阵列的多个指向性,所述指向性表征不同方向上信号的灵敏度。
- 根据权利要求3所述的方法,其特征在于,所述方法还包括:获取所述多个指向性的差分阵列;通过不同差分阵列的组合,获取三维空间上所需的指向性,以获取所述空间音频信号。
- 根据权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括:对所述空间音频信号进行解码处理,以输出沉浸式的多声道音频和/或ambisonic音频。
- 根据权利要求1至5中任一项所述的方法,其特征在于,所述方法还包括:对所述麦克风信号进行滤波处理,以获取低频成分和高频成分,其中,所述低频成分作为低频效果输出,所述高频成分用于形成所述空间音频信号。
- 根据权利要求1至6中任一项所述的方法,其特征在于,所述麦克风阵列在所述UE中以如下任一种方式布置:所述麦克风阵列布置于所述UE中靠近人声采集组件的位置;所述麦克风阵列布置于所述UE中靠近图像采集组件的位置。
- 根据权利要求1至7中任一项所述的方法,其特征在于,所述麦克风阵列包括预定个数麦克风,所述预定个数麦克风形成三组麦克风阵列,所述三组麦克风阵列相互正交或角度偏离正交误差在预定范围内,所述三组麦克风阵列的中心重合或具有不超过误差阈值的距离。
- 一种空间音频采集装置,其特征在于,所述装置布置于用户设备UE执行,所述UE中布置有多组麦克风阵列,每组阵列的最大响应方向相互正交,所述装置包括:空间音频信号获取模块,用于对所述麦克风阵列获取的麦克风信号进行差分波束处理,以获取空间音频信号。
- 一种通信设备,其中,包括:收发器;存储器;处理器,分别与所述收发器及所述存储器连接,配置为通过执行所述存储器上的计算机可执行指令,控制所述收发器的无线信号收发,并能够实现权利要求1-8中任一项所述的方法。
- 一种计算机存储介质,其中,所述计算机存储介质存储有计算机可执行指令;所述计算机可执行指令被处理器执行后,能够实现权利要求1-8中任一项所述的方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2022/126234 WO2024082181A1 (zh) | 2022-10-19 | 2022-10-19 | 空间音频采集方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118235431A true CN118235431A (zh) | 2024-06-21 |
Family
ID=90736504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280004436.0A Pending CN118235431A (zh) | 2022-10-19 | 2022-10-19 | 空间音频采集方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN118235431A (zh) |
WO (1) | WO2024082181A1 (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9161149B2 (en) * | 2012-05-24 | 2015-10-13 | Qualcomm Incorporated | Three-dimensional sound compression and over-the-air transmission during a call |
CN105451151B (zh) * | 2014-08-29 | 2018-09-21 | 华为技术有限公司 | 一种处理声音信号的方法及装置 |
WO2016123572A1 (en) * | 2015-01-30 | 2016-08-04 | Dts, Inc. | System and method for capturing, encoding, distributing, and decoding immersive audio |
US10477304B2 (en) * | 2016-06-15 | 2019-11-12 | Mh Acoustics, Llc | Spatial encoding directional microphone array |
-
2022
- 2022-10-19 CN CN202280004436.0A patent/CN118235431A/zh active Pending
- 2022-10-19 WO PCT/CN2022/126234 patent/WO2024082181A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2024082181A1 (zh) | 2024-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6023779B2 (ja) | オーディオ情報処理の方法及び装置 | |
CN108777732B (zh) | 多麦克风的音频捕获 | |
US8638951B2 (en) | Electronic apparatus for generating modified wideband audio signals based on two or more wideband microphone signals | |
CN113038342B (zh) | 音频播放电路和终端 | |
CN105814909B (zh) | 用于反馈检测的系统和方法 | |
CN104321812A (zh) | 在呼叫期间的三维声音压缩及空中发射 | |
CN107534725A (zh) | 一种语音信号处理方法及装置 | |
WO2004034734A1 (ja) | アレイ装置および携帯端末 | |
TWI566525B (zh) | 混合式共模扼流線圈 | |
KR101710174B1 (ko) | 통합 헤드셋의 크로스토크 감소 방법 및 장치 | |
US20210266665A1 (en) | Apparatus, Method and Computer Program for Obtaining Audio Signals | |
CN106205630A (zh) | 视频摄录系统中降低马达振动噪声的系统 | |
US20100104118A1 (en) | Earpiece based binaural sound capturing and playback | |
WO2022012328A1 (zh) | 一种会议语音增强的方法、装置和系统 | |
CN118235431A (zh) | 空间音频采集方法及装置 | |
US20160232886A1 (en) | Adaptive filtering for wired speaker amplifiers | |
CN111479180A (zh) | 拾音控制方法及相关产品 | |
CN113302689B (zh) | 用于信号增强的声学路径建模 | |
EP3240266A1 (en) | An apparatus, electronic device, system and method for capturing audio signals | |
CN111246345B (zh) | 一种远程声场实时虚拟重现的方法与装置 | |
CN108597533B (zh) | 一种增强智能终端的语音输入信号的方法和系统 | |
CN109218920B (zh) | 一种信号处理方法、装置及终端 | |
EP2922222B1 (en) | Electronic device and audio-data transmission method | |
US20230156399A1 (en) | Electronic device and method of operating the same | |
WO2024026639A1 (zh) | 一种波束赋形方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |