CN113938811A - 基于音床音频通道元数据和生成方法、设备及存储介质 - Google Patents
基于音床音频通道元数据和生成方法、设备及存储介质 Download PDFInfo
- Publication number
- CN113938811A CN113938811A CN202111021068.4A CN202111021068A CN113938811A CN 113938811 A CN113938811 A CN 113938811A CN 202111021068 A CN202111021068 A CN 202111021068A CN 113938811 A CN113938811 A CN 113938811A
- Authority
- CN
- China
- Prior art keywords
- audio
- sound
- audio channel
- position information
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 230000015654 memory Effects 0.000 claims description 18
- 230000004044 response Effects 0.000 claims description 3
- 238000009877 rendering Methods 0.000 abstract description 3
- 238000004519 manufacturing process Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/307—Frequency adjustment, e.g. tone control
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Stereophonic System (AREA)
Abstract
本公开涉及一种基于音床音频通道元数据和生成方法、设备及存储介质。基于音床音频通道元数据,包括:属性区,包括音频通道名称、音频通道标识和音频通道类型描述信息;子元素区,包括至少一个用于指示音频通道时域划分的音频块格式和音频截止频率信息,其中,所述音频块格式包括音频块标识和用于指示扬声器位置信息的坐标系元素。音频数据在渲染时在空间中能够实现三维声的复现,从而提高了声音场景的质量。
Description
技术领域
本公开涉及音频处理的技术领域,尤其涉及一种基于音床音频通道元数据和生成方法、设备及存储介质。
背景技术
随着科技的发展,音频变得越来越复杂。由早期的单声道音频演变成立体声,工作重心也注重左右声道的正确处理方式。但环绕声出现后,处理过程开始变得复杂。而环绕5.1扬声器系统则对多个通道进行排序约束,进而环绕6.1扬声器系统、环绕7.1扬声器系统等使音频处理千变万化,把正确的信号传递给合适的扬声器形成相互牵连的效果。因此,随着声音变得更具沉浸感和交互性,音频处理的复杂性也大大增加。
音频声道(或声道),是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号。而声道数也就是声音录制时的音源数量或回放时相应的扬声器数量。例如,在环绕5.1扬声器系统中包括6个不同空间位置的音频信号,每个独立的音频信号被用于驱动对应空间位置的扬声器;在环绕7.1扬声器系统中包括8个不同空间位置的音频信号,每个独立的音频信号被用于驱动对应空间位置的扬声器。
因此,当前扬声器系统实现的效果依赖于扬声器的数量和空间位置。例如,双声道扬声器系统无法实现环绕5.1扬声器系统的效果。
本公开提供了一种音频通道元数据和构造方法,以便提供一种能够解决上述技术问题的元数据。
发明内容
本公开的目的在于提出一种基于音床音频通道元数据和生成方法、设备及存储介质,以解决上述技术问题之一。
为实现上述目的,本公开第一方面提供了一种基于音床音频通道元数据,包括:
属性区,包括音频通道名称、音频通道标识和音频通道类型描述信息;
子元素区,包括至少一个用于指示音频通道时域划分的音频块格式和音频截止频率信息,其中,所述音频块格式包括音频块标识和用于指示扬声器位置信息的坐标系元素。
为实现上述目的,本公开第二方面提供了一种音频通道元数据的生成方法,包括:
响应于用户针对音频通道元数据的设置操作,生成包括如第一方面所述基于音床音频通道元数据。
为实现上述目的,本公开第三方面提供了一种电子设备,包括:存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器生成包括如第一方面所述基于音床音频通道元数据。
为实现上述目的,本公开第四方面提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器生成包括如第一方面所述基于音床音频通道元数据。
由上可见,本公开基于音床音频通道元数据,包括:属性区,包括音频通道名称、音频通道标识和音频通道类型描述信息;子元素区,包括至少一个用于指示音频通道时域划分的音频块格式和音频截止频率信息,其中,所述音频块格式包括音频块标识和至少一个用于指示扬声器位置信息的坐标系元素。所述基于音床音频通道元数据描述了音频通道的类型,并描述了扬声器的坐标位置信息,以在空间中能够实现三维声的复现,从而提高了声音场景的质量。
附图说明
图1为本公开实施例1中提供了一种三维声音频制作模型的示意图;
图2为本公开实施例2中提供的一种基于音床音频通道元数据的生成方法的流程图;
图3为本公开实施例3提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
如图1所示,三维声音频制作模型由一组制作元素组成,每个制作元素用于描述音频制作的一个阶段,三维声音频制作模型包括内容制作部分和格式制作部分。
内容制作部分包括:音频节目、音频内容、音频对象和音轨唯一标识。
所述音频节目包括叙述、声音效果和背景音乐,音频节目引用一个或多个音频内容,音频内容组合在一起以构建为完整的音频节目。
所述音频内容描述音频节目的一个组成部分(例如背景音乐)的内容,并引用一个或多个音频对象将内容与其格式联系起来。
所述音频对象用于建立内容、格式和使用音轨唯一标识元素的资源之间的关系,并确定实际音轨的音轨唯一标识。
格式制作部分包括:音频包格式、音频通道格式、音频流格式、音频轨道格式。
所述音频包格式将是音频对象和原始音频数据依据通道分组打包时所采用的格式。
所述音频通道格式表示单个音频采样序列,可以对其执行某种操作,例如,在场景中渲染对象的移动。
流,是渲染通道、对象、高阶环境音组件或包所需的音轨的组合。所述音频流格式建立音频轨道格式集和音频通道格式集或音频包格式之间的关系。
所述音频轨道格式对应于存储介质中单个音轨中的一组样本或数据,用于描述原始音频数据的格式,及渲染器的解码信号。音频轨道格式来自音频流格式,用于识别成功解码音轨数据所需的音轨组合。
通过三维声音频制作模型对原始音频数据进行制作后生成包含元数据的合成音频数据。
所述元数据(Metadata)是描述数据特性的信息,元数据支持的功能包括指示存储位置、历史数据、资源查找或文件记录。
合成音频数据以通信方式传输到远端后,由远端基于元数据对合成音频数据进行渲染,还原原始声音场景。
实施例1
本公开提供了三维声音频模型中的一种音频通道元数据,并进行详细说明。
现有技术中所使用的基于通道的音频类型,是一种无需任何信号改动,而直接将每个通道音频信号传送到对应的每个扬声器的方式。例如,单声道、立体声、环绕5.1、环绕7.1和环绕22.2都是基于通道的音频格式,每个通道都输送到一个扬声器。虽然基于通道的音频类型在现有技术中有所应用,但为基于通道的音频类型增加对应的音频通道元数据,可以使音频处理变得容易,通过用合适的标识符标记每个通道,可以确保音频指向正确的扬声器。
音频通道格式表示单个音频采样序列,可以对其执行某些操作,例如在场景中渲染对象的移动。本公开实施例采用音频通道元数据描述音频通道格式。对音床类型的音频通道格式进行说明。在本公开实施例中基于通道的音频称为“音床”。
该音频通道元数据包括属性区和子元素区。
属性区,包括音频通道名称、音频通道标识和音频通道类型描述信息;
子元素区,包括至少一个用于指示音频通道时域划分的音频块格式和音频截止频率信息,其中,所述音频块格式包括音频块标识和至少一个用于指示扬声器位置信息的坐标系元素。
其中,音频通道格式包含一个或多个音频块格式集,这些音频块格式在时域中将音频通道格式细分。
属性区包括对音频通道元数据的通用定义。音频通道名称可以是为音频通道设置的名称,用户可以通过音频通道名称确定音频通道。音频通道标识为音频通道标识符号。音频通道类型描述信息可以是音频通道类型的描述符和/或音频通道类型的说明信息,可以采用类型定义和/或类型标签定义通道的类型。音频通道格式的类型定义指定它所描述的音频类型,并确定在音频块格式子级中使用哪些参数。在本公开实施例中,音频类型,可以包括:通道类型、矩阵类型、对象类型、场景类型和双耳声道类型。类型标签可以是数字代码,每种通道类型可以有对应的数字代码表示。例如,音床类型的通道以0001表示。
所述音频通道标识可以包括:用于指示所述音频通道中包含的音频类型的音频类型标识和用于指示所述音频通道中包含的音频流格式的音频流标识。可选的,音频通道标识可以包含8位十六进制数字,在前的四位数字表示通道中包含的音频类型,在后的四位数字表示相匹配的音频流格式。例如,音频通道标识为AC_yyyyxxxx,yyyy表示通道中包含的音频类型,xxxx与音频流格式数字匹配。如表1所示,
表1
表1中,需求一项是指在生成音频通道元数据时,是否需要设置该项属性,“是”表示该项属性为必须项,“可选”表示该项属性为可选项,而类型定义和类型标签至少需要设置其中之一。
子元素区中包括至少一个区,音频块包含动态元数据的通道时域划分。子元素区中还可以包括音频截止频率信息,音频截止频率信息可以设置为指示高频截止和/或低频截止的音频频率。如表2所示,
表2
表2中数量一项表明子元素可以设置的数量,音频通道可以包括至少一个音频块,所以音频通道格式的子元素音频块的数量可以是大于0的整数,而音频截止频率信息为可选项,不设置该项时,该项的数量为0,设置低频截止和高频截止的音频频率之一时,该项的数量为1,设置低频截止和高频截止的音频频率两个属性时,该项的数量为2。
每个音频块格式中设置有音频块标识,其中,音频块标识可以包括用于指示音频通道内音频块的索引。音频块标识中可以包括8位十六进制数字作为通道内音频块的索引,例如,音频块标识为AB_00010001_00000001,最后8位十六进制数字作为通道内音频块的索引,音频通道中第一个音频块的索引可以从00000001开始。音频块格式还可以包括块的启动时间和块的持续时间,如果未设置块的启动时间,则可以认为音频块从00:00:00.0000开始,对于时间格式,可以采用“hh:mm:ss.ZZZZ”格式,其中,“hh”表示时,“mm”表示分,“ss”表示秒的整数部分,“ZZZZ”表示更小级数的秒,如:毫秒;如果未设置块的持续时间,则该音频块将持续整个音频通道的持续时间。如果音频通道格式中只有一个音频块格式,则假定它是一个“静态”对象,块持续时间等于该音频通道的持续时间,因此应忽略块的启动时间和块的持续时间。如果音频通道格式中包含多个音频块格式,则假定它们是“动态”对象,因此应同时使用块的启动时间和块的持续时间。音频块格式属性设置如表3,
表3
音频通道格式的类型可以包括:音床、矩阵、对象、场景和双耳声道,本公开实施例对音床类型的音频通道格式元数据进行说明。
属性区中音频通道类型描述信息设置为音床类型,可以是类型定义为“音床”。子元素区中的信息也设置为用于类型定义“音床”。音频块格式除了上述音频块格式所包含的信息外,还为类型定义为“音床”的音频块格式定义了坐标系元素,作为音频块格式的子元素。其中,坐标系元素包括:极坐标系元素和/或笛卡尔坐标系元素。
所述极坐标系元素包括:扬声器位置标签、声音方位位置信息、声音的最大方位位置信息、声音的最小方位位置信息、声音仰角位置信息、声音的最大仰角位置信息、声音的最小仰角位置信息、距原点距离信息、距原点的最大距离信息和距原点的最小距离信息。
其中,扬声器位置标签用于描述扬声器位置标签的引用,根据存在的扬声器的数量设置对应数量的扬声器位置标签,并设置对应的位置信息,在上述信息中,声音方位位置信息、声音的最大方位位置信息、声音的最小方位位置信息、声音仰角位置信息、声音的最大仰角位置信息、声音的最小仰角位置信息、距原点距离信息、距原点的最大距离信息和距原点的最小距离信息都属于位置信息,而其中的声音方位位置信息和声音仰角位置信息为必须设置信息,其余位置信息为可选设置信息。声音方位位置信息表示声音的准确方位位置,而声音的最大方位位置信息和声音的最小方位位置信息,两者表示声音的方位范围。声音方位位置信息、声音的最大方位位置信息、声音的最小方位位置信息,三者对应方位角坐标轴azimuth上的数值。声音仰角位置信息表示声音的准确仰角位置,而声音的最大仰角位置信息和声音的最小仰角位置信息,两者表示声音的仰角范围。声音仰角位置信息、声音的最大仰角位置信息、声音的最小仰角位置信息,三者对应俯仰角坐标轴elevation上的数值。距原点距离信息表示声音距极坐标系原点的准确距离,距原点的最大距离信息和距原点的最小距离信息,两者表示声音距极坐标系原点的距离范围。距原点距离信息、距原点的最大距离信息和距原点的最小距离信息三者可以为标准化距离,也就是归一化距离,对应距离坐标轴distance上的数值。对于音床类型,由于很少使用扬声器和原点的绝对距离,距原点距离信息、距原点的最大距离信息和距原点的最小距离信息三者采用标准化距离。但音频包格式中提供了绝对参考距离。如表4,
表4
表4中,数量为“0或1”的元素为可选项,数量为“1”的元素为必选项,speakerLabel一项表示对扬声器位置标签的引用,根据扬声器数量设置相同数量的声音位置标签speakerLabel,声音位置标签speakerLabel的数量为大于等于0的整数。
所述笛卡尔坐标系元素包括:扬声器位置标签、声音X轴位置信息、声音的最大X轴位置信息、声音的最小X轴位置信息、声音Y轴位置信息、声音的最大Y轴位置信息、声音的最小Y轴位置信息、声音Z轴位置信息、声音的最大Z轴位置信息和声音的最小Z轴位置信息。
其中,描述音频通道和扬声器位置的常用坐标系一般是基于极坐标系,但是,也可以通过使用不同的坐标属性来使用笛卡尔坐标系(即采用“X”、“Y”和“Z”三个两两垂直的坐标轴)。
扬声器位置标签用于描述扬声器位置标签的引用,根据存在的扬声器的数量设置对应数量的扬声器位置标签,并设置对应的声音位置信息,在上述信息中,声音X轴位置信息、声音的最大X轴位置信息、声音的最小X轴位置信息、声音Y轴位置信息、声音的最大Y轴位置信息、声音的最小Y轴位置信息、声音Z轴位置信息、声音的最大Z轴位置信息和声音的最小Z轴位置信息都属于位置信息,而其中的声音X轴位置信息、声音Y轴位置信息和声音Z轴位置信息为必须设置信息,其余位置信息为可选设置信息。声音X轴位置信息表示声音从左到右的准确X轴位置,声音的最大X轴位置信息和声音的最小X轴位置信息,两者表示声音从左到右的X轴范围。声音Y轴位置信息表示声音从前到后的准确Y轴位置,声音的最大Y轴位置信息和声音的最小Y轴位置信息,两者表示声音从前到后的Y轴范围。声音Z轴位置信息表示声音从上到下的准确Z轴位置,声音的最大Z轴位置信息和声音的最小Z轴位置信息,两者表示声音从上到下的Z轴范围。笛卡尔坐标系元素下的位置信息都可以为标准化距离,也就是归一化距离。
可选的,所述坐标系元素还包括:屏幕边缘锁定信息,用于定义屏幕边缘的扬声器位置,如表5所示。
表5
表5中,数量为“0或1”的元素为可选项,数量为“1”的元素为必选项,speakerLabel一项表示对扬声器位置标签的引用,根据扬声器数量设置相同数量的扬声器位置标签speakerLabel,扬声器位置标签speakerLabel的数量为大于等于0的整数。如不需定义屏幕边缘的扬声器位置,screenEdgeLock可以设置数量为0,如果扬声器位于屏幕某条边,则screenEdgeLock可以设置数量为1,如果扬声器位于屏幕某角,则screenEdgeLock可以设置数量为2。
其中,在极坐标系元素和笛卡尔坐标系元素下均可包括该屏幕边缘锁定信息,屏幕边缘锁定信息虽然仅在表5中示出,而在表4中未示出,但其不限于笛卡尔坐标系元素中。屏幕边缘锁定信息也属于位置信息,用于定义屏幕边缘的扬声器位置。该属性允许将扬声器放置在屏幕边缘。该属性可以与坐标系元素中的位置信息结合使用,在编码中屏幕边缘锁定信息被设置为一个字符串,说明应该设定在屏幕哪个边缘扬声器的位置(如果屏幕大小信息可用的情况下),因此,屏幕边缘锁定信息可以设置为“left”、“right”、“top”和“bottom”。坐标系元素的坐标属性仍然须包括在内,以便清楚地确定要设置的维度,并在屏幕不存在或没有可用的屏幕大小信息的情况下提供替代位置。例如,屏幕边缘锁定信息可以与coordinate=“elevation”和/或coordinate=“azimuth”结合使用,以XML(Extensible Markup Language,可扩展标记语言)编码为例,
<position coordinate=“azimuth”screenEdgeLock=“right”>-29.0</position>
说明如何定义位于屏幕右边缘的扬声器(其中,如果屏幕不存在,则使用-29.0度作为代替位置)。对于位于屏幕角部的扬声器,需要两个屏幕边缘锁定信息,也就是以形成角部的两个边缘来表示屏幕角部。这种需要两个屏幕边缘锁定信息的情况下,对于XML编码,则须使用两个坐标系元素的位置信息,例如,
<position coordinate=“azimuth”screenEdgeLock=“right”>-29.0</position>
<position coordinate=“elevation”screenEdgeLock=“top”>15.0</position>
由于XML不允许同一元素中有多高同名属性,所以对于角部需要两个边缘来确定时,采用两个位置信息分别与屏幕边缘锁定信息结合。
本公开实施例通过音频通道元数据描述了每个通道,使用合适的标识符可以标记每个通道,确保音频指向正确的扬声器,从而在空间中能够实现三维声的复现,从而提高了声音场景的质量。
实施例2
本公开还提供了与上述实施例承接的方法实施例,用于音频通道元数据的生成方法,基于相同的名称含义的解释与如上实施例相同,具有与如上实施例相同的技术效果,此处不再赘述。
一种音频通道元数据的生成方法,如图2所示,包括以下步骤:
步骤S110,响应于用户针对音频通道元数据的设置操作,生成音频通道元数据,所述音频通道元数据包括:
属性区,包括音频通道名称、音频通道标识和音频通道类型描述信息;
子元素区,包括至少一个用于指示音频通道时域划分的音频块格式和音频截止频率信息,其中,所述音频块格式包括音频块标识和用于指示扬声器位置信息的坐标系元素。
用户针对音频通道元数据的设置操作,可以是用户针对音频通道元数据的相关属性进行设置的操作,例如,接收用户逐项输入的音频通道元数据的相关属性;或者,根据用户对预设元数据生成程序的操作自动生成音频通道元数据,该预设元数据生成程序可以设置为根据系统默认属性设置音频通道元数据的全部属性;或者,根据用户对预设元数据生成程序的操作自动生成音频通道元数据,该预设元数据生成程序可以设置为根据系统默认属性设置音频通道元数据的部分属性,然后接收用户输入的剩余属性。
可选的,所述音频通道标识包括:用于指示所述音频通道中包含的音频类型的音频类型标识和用于指示所述音频通道中包含的音频流格式的音频流标识。
可选的,所述音频通道类型描述信息,包括类型标签和/或类型定义。
可选的,所述音频块标识包括用于指示音频通道内音频块的索引。
可选的,所述音频截止频率信息用于指示高频截止和/或低频截止的音频频率。
可选的,所述坐标系元素包括:极坐标系元素和/或笛卡尔坐标系元素;其中,
所述极坐标系元素包括:扬声器位置标签、声音方位位置信息、声音的最大方位位置信息、声音的最小方位位置信息、声音仰角位置信息、声音的最大仰角位置信息、声音的最小仰角位置信息、距原点距离信息、距原点的最大距离信息和距原点的最小距离信息;
所述笛卡尔坐标系元素包括:扬声器位置标签、声音X轴位置信息、声音的最大X轴位置信息、声音的最小X轴位置信息、声音Y轴位置信息、声音的最大Y轴位置信息、声音的最小Y轴位置信息、声音Z轴位置信息、声音的最大Z轴位置信息和声音的最小Z轴位置信息。
可选的,所述坐标系元素还包括:屏幕边缘锁定信息,用于定义屏幕边缘的扬声器位置。
本公开实施例生成音频通道元数据,用于描述音床类型的音频通道,通过合适的标识标记每个通道,确保音频指向正确的扬声器,在空间中能够实现三维声的复现,从而提高了声音场景的质量。
实施例3
图3为本公开实施例3提供的一种电子设备的结构示意图。如图3所示,该电子设备包括:处理器30、存储器31、输入装置32以及输出装置33。该电子设备中处理器30的数量可以是一个或者多个,图3中以一个处理器30为例。该电子设备中存储器31的数量可以是一个或者多个,图3中以一个存储器31为例。该电子设备的处理器30、存储器31、输入装置32以及输出装置33可以通过总线或者其他方式连接,图3中以通过总线连接为例。该电子设备可以是电脑和服务器等。本公开实施例以电子设备为服务器进行详细说明,该服务器可以是独立服务器或集群服务器。
存储器31作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本公开任意实施例所述生成音频通道元数据的程序指令/模块。存储器31可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器31可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器31可进一步包括相对于处理器30远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置32可用于接收输入的数字或者字符信息,以及生成与电子设备的观众用户设置以及功能控制有关的键信号输入,还可以是用于获取图像的摄像头以及获取音频数据的拾音设备。输出装置33可以包括扬声器等音频设备。需要说明的是,输入装置32和输出装置33的具体组成可以根据实际情况设定。
处理器30通过运行存储在存储器31中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即生成音频通道元数据。
实施例4
本公开实施例4还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器生成包括如实施例1所述音频通道元数据。
当然,本公开实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的电子方法操作,还可以执行本公开任意实施例所提供的电子方法中的相关操作,且具备相应的功能和有益效果。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本公开可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是机器人,个人计算机,服务器,或者网络设备等)执行本公开任意实施例所述的生成音频通道元数据的方法。
值得注意的是,上述电子装置中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本公开的保护范围。
应当理解,本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“在一实施例中”、“在又一实施例中”、“示例性的”或“在具体的实施例中”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
虽然,上文中已经用一般性说明、具体实施方式及试验,对本公开作了详尽的描述,但在本公开基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本公开精神的基础上所做的这些修改或改进,均属于本公开要求保护的范围。
Claims (10)
1.一种基于音床音频通道元数据,其特征在于,包括:
属性区,包括音频通道名称、音频通道标识和音频通道类型描述信息;
子元素区,包括至少一个用于指示音频通道时域划分的音频块格式和音频截止频率信息,其中,所述音频块格式包括音频块标识和用于指示扬声器位置信息的坐标系元素。
2.根据权利要求1所述的基于音床音频通道元数据,其特征在于,所述音频通道标识包括:用于指示所述音频通道中包含的音频类型的音频类型标识和用于指示所述音频通道中包含的音频流格式的音频流标识。
3.根据权利要求1所述的基于音床音频通道元数据,其特征在于,所述音频通道类型描述信息,包括类型标签和/或类型定义。
4.根据权利要求1所述的基于音床音频通道元数据,其特征在于,所述音频块标识包括用于指示音频通道内音频块的索引。
5.根据权利要求1所述的基于音床音频通道元数据,其特征在于,所述音频截止频率信息用于指示高频截止和/或低频截止的音频频率。
6.根据权利要求1所述的基于音床音频通道元数据,其特征在于,所述坐标系元素包括:极坐标系元素和/或笛卡尔坐标系元素;其中,
所述极坐标系元素包括:扬声器位置标签、声音方位位置信息、声音的最大方位位置信息、声音的最小方位位置信息、声音仰角位置信息、声音的最大仰角位置信息、声音的最小仰角位置信息、距原点距离信息、距原点的最大距离信息和距原点的最小距离信息;
所述笛卡尔坐标系元素包括:扬声器位置标签、声音X轴位置信息、声音的最大X轴位置信息、声音的最小X轴位置信息、声音Y轴位置信息、声音的最大Y轴位置信息、声音的最小Y轴位置信息、声音Z轴位置信息、声音的最大Z轴位置信息和声音的最小Z轴位置信息。
7.根据权利要求6所述的基于音床音频通道元数据,其特征在于,所述坐标系元素还包括:屏幕边缘锁定信息,用于定义屏幕边缘的扬声器位置。
8.一种音频通道元数据的生成方法,其特征在于,设置为响应于用户针对音频通道元数据的设置操作,生成包括如权利要求1-7任一项所述的基于音床音频通道元数据。
9.一种电子设备,其特征在于,包括:存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器生成包括如权利要求1-7任一项所述基于音床音频通道元数据。
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器生成包括如权利要求1-7任一项所述基于音床音频通道元数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111021068.4A CN113938811A (zh) | 2021-09-01 | 2021-09-01 | 基于音床音频通道元数据和生成方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111021068.4A CN113938811A (zh) | 2021-09-01 | 2021-09-01 | 基于音床音频通道元数据和生成方法、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113938811A true CN113938811A (zh) | 2022-01-14 |
Family
ID=79274820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111021068.4A Pending CN113938811A (zh) | 2021-09-01 | 2021-09-01 | 基于音床音频通道元数据和生成方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113938811A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140133683A1 (en) * | 2011-07-01 | 2014-05-15 | Doly Laboratories Licensing Corporation | System and Method for Adaptive Audio Signal Generation, Coding and Rendering |
WO2015164572A1 (en) * | 2014-04-25 | 2015-10-29 | Dolby Laboratories Licensing Corporation | Audio segmentation based on spatial metadata |
CN105340300A (zh) * | 2013-06-18 | 2016-02-17 | 杜比实验室特许公司 | 用于音频呈现的低音管理 |
US20170243596A1 (en) * | 2014-07-31 | 2017-08-24 | Dolby Laboratories Licensing Corporation | Audio Processing Systems and Methods |
CN107925391A (zh) * | 2015-09-30 | 2018-04-17 | 苹果公司 | 基于编码音频元数据的响度均衡和drc期间的动态均衡 |
US20200204939A1 (en) * | 2018-12-21 | 2020-06-25 | Qualcomm Incorporated | Signalling beam pattern with objects |
US20210050028A1 (en) * | 2018-01-26 | 2021-02-18 | Lg Electronics Inc. | Method for transmitting and receiving audio data and apparatus therefor |
US20210112287A1 (en) * | 2018-04-11 | 2021-04-15 | Lg Electronics Inc. | Method and apparatus for transmitting or receiving metadata of audio in wireless communication system |
-
2021
- 2021-09-01 CN CN202111021068.4A patent/CN113938811A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140133683A1 (en) * | 2011-07-01 | 2014-05-15 | Doly Laboratories Licensing Corporation | System and Method for Adaptive Audio Signal Generation, Coding and Rendering |
CN105340300A (zh) * | 2013-06-18 | 2016-02-17 | 杜比实验室特许公司 | 用于音频呈现的低音管理 |
WO2015164572A1 (en) * | 2014-04-25 | 2015-10-29 | Dolby Laboratories Licensing Corporation | Audio segmentation based on spatial metadata |
US20170243596A1 (en) * | 2014-07-31 | 2017-08-24 | Dolby Laboratories Licensing Corporation | Audio Processing Systems and Methods |
CN107925391A (zh) * | 2015-09-30 | 2018-04-17 | 苹果公司 | 基于编码音频元数据的响度均衡和drc期间的动态均衡 |
US20210050028A1 (en) * | 2018-01-26 | 2021-02-18 | Lg Electronics Inc. | Method for transmitting and receiving audio data and apparatus therefor |
US20210112287A1 (en) * | 2018-04-11 | 2021-04-15 | Lg Electronics Inc. | Method and apparatus for transmitting or receiving metadata of audio in wireless communication system |
US20200204939A1 (en) * | 2018-12-21 | 2020-06-25 | Qualcomm Incorporated | Signalling beam pattern with objects |
Non-Patent Citations (3)
Title |
---|
国际电信联盟: "音频定义模型", 《ITU-R BS.2076-1建议书》 * |
张久珍;段明莲;沈正华: "国外视音频信息元数据元素集研究综述", 《情报科学》 * |
张静琦: "音频定义模型简介", 《电声技术》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3574662B1 (en) | Ambisonic audio with non-head tracked stereo based on head position and time | |
US9900720B2 (en) | Using single bitstream to produce tailored audio device mixes | |
CN113905321A (zh) | 基于对象音频通道元数据和生成方法、设备及存储介质 | |
CN114023339A (zh) | 基于音床音频包格式元数据和产生方法、设备及介质 | |
CN104506920A (zh) | 一种播放全媒体数据信息的方法及装置 | |
CN113938811A (zh) | 基于音床音频通道元数据和生成方法、设备及存储介质 | |
CN114203189A (zh) | 基于双耳音频包格式元数据和产生方法、设备及介质 | |
CN114023340A (zh) | 基于对象音频包格式元数据和产生方法、设备及介质 | |
CN114979935A (zh) | 一种对象输出渲染项确定方法、装置、设备及存储介质 | |
CN113923264A (zh) | 基于场景音频通道元数据和生成方法、设备及存储介质 | |
CN115226002A (zh) | 一种场景渲染项数据映射方法、装置、设备及存储介质 | |
CN114203190A (zh) | 基于矩阵音频包格式元数据和产生方法、设备及存储介质 | |
US7917546B2 (en) | Method and apparatus for generating media-exchangeable multimedia data, and method and apparatus for reconstructing media-exchangeable multimedia data | |
CN115348528A (zh) | 一种音床渲染项数据映射方法、装置、设备及存储介质 | |
CN114121036A (zh) | 音轨唯一标识元数据和生成方法、电子设备及存储介质 | |
CN114051194A (zh) | 一种音频轨道元数据和生成方法、电子设备及存储介质 | |
CN113905322A (zh) | 基于双耳音频通道元数据和生成方法、设备及存储介质 | |
CN114530157A (zh) | 音频元数据通道分配区块生成方法、装置、设备及介质 | |
CN114512152A (zh) | 一种广播音频格式文件生成方法、装置、设备及存储介质 | |
CN113923584A (zh) | 基于矩阵音频通道元数据和生成方法、设备及存储介质 | |
CN115190412A (zh) | 生成渲染器内部数据结构的方法、装置、设备及存储介质 | |
CN114203188A (zh) | 基于场景音频包格式元数据和产生方法、设备及存储介质 | |
CN115038029A (zh) | 音频渲染器的渲染项处理方法、装置、设备及存储介质 | |
CN114360556A (zh) | 串行音频元数据帧生成方法、装置、设备及存储介质 | |
CN114510598A (zh) | 音频元数据区块的生成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220114 |
|
RJ01 | Rejection of invention patent application after publication |