CN112005560A - 使用元数据处理音频信号的方法和设备 - Google Patents
使用元数据处理音频信号的方法和设备 Download PDFInfo
- Publication number
- CN112005560A CN112005560A CN201980024365.9A CN201980024365A CN112005560A CN 112005560 A CN112005560 A CN 112005560A CN 201980024365 A CN201980024365 A CN 201980024365A CN 112005560 A CN112005560 A CN 112005560A
- Authority
- CN
- China
- Prior art keywords
- distance
- signal
- distance information
- reference distance
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 130
- 238000012545 processing Methods 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title description 34
- 238000009877 rendering Methods 0.000 claims description 28
- 238000012886 linear function Methods 0.000 description 6
- 238000013139 quantization Methods 0.000 description 6
- 238000012805 post-processing Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 210000005069 ears Anatomy 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/305—Electronic adaptation of stereophonic audio signals to reverberation of the listening space
- H04S7/306—For headphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
- H04S7/304—For headphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
- H04S3/004—For headphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/13—Aspects of volume control, not necessarily automatic, in stereophonic sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Stereophonic System (AREA)
Abstract
公开了一种用于处理音频信号的设备,该设备渲染音频信号。用于处理音频信号的设备包括处理器。处理器接收包括音频信号和第一元素参考距离信息的元数据,并基于第一元素参考距离信息渲染第一元素信号,其中,第一元素参考距离信息指示元素信号的参考距离。音频信号能够包括可以与第一元素信号同时渲染的第二元素信号,并且元数据能够包括指示第二元素信号的距离的第二元素距离信息。表示第一元素参考距离信息所需的比特数小于表示第二元素距离信息所需的比特数。
Description
技术领域
本发明涉及一种用于处理音频信号的方法和设备。具体地,本发明涉及一种用于使用元数据处理音频信号的方法和设备。
背景技术
3D音频完整地表示一系列信号处理、传输、编码和再现技术,用于通过将与高度方向相对应的另一轴提供给由典型的环绕音频提供的水平面(2D)上的声音场景,在三维空间提供逼真的声音。特别地,为了提供3D音频,存在针对一种渲染技术的需求,该渲染技术即使当与现有技术相比使用大量扬声器或少量的扬声器时,也允许在不存在扬声器的虚拟位置处形成声像。
预期3D音频将成为与超高清电视(UHDTV)相对应的音频解决方案,并将应用于各种领域,诸如电影院声音、个人3DTV、平板电脑、智能手机、无线通信终端、云游戏、以及演变成高品质信息娱乐空间的车辆中的声音。
同时,可以存在基于声道的信号和基于对象的信号,作为提供给3D音频的声源的形式。另外,可能存在其中基于声道的信号和基于对象的信号被混合的声源的形式,并且通过这种声源,可以向用户提供新型的内容体验。
双耳渲染将3D音频建模为信号,该信号被传送到人的双耳。通过经由头戴式耳机或耳机双耳渲染的两声道音频输出信号,用户可能会感觉到立体效果。双耳渲染的理论基础如下。一个人总是通过两只耳朵听到声音,并通过声音来识别声源的位置和方向。因此,如果可以将3D音频建模为传送到人的双耳的音频信号的形式,则可以在没有大量扬声器的情况下通过两声道输出音频信号来再现3D音频的立体效果。
发明内容
技术问题
本发明的实施例是要提供一种用于使用元数据处理音频信号的方法和设备。
具体地,本发明的实施例是要提供一种用于处理音频信号的方法和设备,其中使用元数据来渲染对象信号、声道信号或立体混响(ambisonic)信号。
技术方案
根据本发明的实施例的渲染包括第一元素信号的音频信号的音频信号处理设备包括:处理器,该处理器用于获得包括音频信号和第一元素参考距离信息的元数据,并且基于第一元素参考距离信息来渲染第一元素信号,其中,第一元素参考距离信息指示第一元素信号的参考距离。音频信号可以包括可以与第一元素信号同时渲染的第二元素信号。元数据可以包括指示第二元素的距离的第二元素距离信息。表示第一元素参考距离信息所需的比特数可以小于表示第二元素距离信息所需的比特数。可以由第一元素参考距离信息表示的参考距离集可以是可以由第二元素距离信息表示的距离集的子集。
第一元素参考距离信息可以使用指数函数来指示第一元素信号的参考距离。
第一元素参考距离信息可以确定指数函数的指数的值。
表示第一元素参考距离信息所需的比特数可以是7,并且表示第二元素距离信息所需的比特数可以是9。
处理器可以使用以下等式从第一元素参考距离信息中获得第一元素信号的参考距离。
参考距离=0.01*2^(0.0472188798661443*(bs_Reference_Distance+119))
“参考距离”可以是第一元素信号的参考距离,第一元素信号的参考距离的单位可以是米(m),
bs_Reference_Distance可以是第一元素参考距离信息,
并且第一元素参考距离信息的值可以是0至127的整数。
可以由第二元素距离信息表示的值可以是0到511的整数。当第二元素距离信息的值是0时,处理器可以确定第二元素信号的距离为0,并且当第二元素距离信息的值为1至511时,可以使用以下等式从第二元素距离信息获得第二元素信号的距离。
距离=0.01*2^(0.0472188798661443*(Position_Distance-1))
“距离”可以是第二元素信号的距离,第二元素信号的距离的单位可以是米(m),并且Position_Distance可以是第二元素距离信息。
当第一元素参考距离信息未被定义时,处理器可以假设第一元素参考距离信息指示第一元素默认参考距离,并且当第二元素距离信息未被定义时,处理器可以假设第二元素距离信息指示第二元素默认距离。第一元素默认参考距离和第二元素默认距离可以具有相同的值。
可以由第一元素参考距离信息指示的最小参考距离可以是大于0的预定的正数。
包括第一元素信号的音频信号包括第二元素信号,并且处理器可以同时渲染第一元素信号和第二元素信号。在这种情况下,处理器可以基于第一元素参考距离信息来调整其中第一元素信号被渲染的声音输出的响度,并且可以基于第二元素距离信息来调整其中第二元素信号被渲染的声音输出的响度。此外,处理器可以基于第一元素参考距离信息将延迟应用于第一元素信号,并且可以基于第二元素距离信息将延迟应用于第二元素信号。
第一元素信号可以是声道信号,并且第一元素信号和第二元素信号可以是对象信号。
第一元素信号可以是立体混响信号,并且第二元素信号可以是对象信号。
第一元素信号可以是声道信号,并且音频信号可以进一步包括立体混响信号。处理器可以基于第一元素信号的参考距离来渲染立体混响信号。
第一元素信号可以是声道信号,并且音频信号可以进一步包括立体混响信号。第一元素参考距离信息是声道参考距离信息,并且元数据可以包括指示立体混响信号的参考距离的立体混响参考距离信息。处理器可以基于声道参考距离信息来渲染声道信号,并且可以基于立体混响参考距离信息来渲染立体混响信号。
处理器可以基于第一元素参考距离信息来渲染第二元素信号。
根据本发明的另一实施例的对包括第一元素信号的音频信号进行编码的音频信号处理设备包括:处理器,该处理器用于设置指示第一元素信号的参考距离的第一元素参考距离信息并生成包括第一元素参考距离信息的元数据。
音频信号可能能够包括第二元素信号,并且元数据可能能够包括指示第二元素信号的距离的第二元素距离信息。
用于指示第一元素参考距离信息的比特数可以小于用于指示第二元素距离信息的比特数。可以由第一元素参考距离信息表示的参考距离集可以是可以由第二元素距离信息表示的距离集的子集。
第一元素参考距离信息可以使用指数函数来指示第一元素信号的参考距离。
第一元素参考距离信息可以确定指数函数的指数的值。
表示第一元素参考距离信息所需的比特数可以是7,并且表示第二元素距离信息所需的比特数可以是9。
处理器可以设置第一元素参考距离信息的值,使得第一元素参考距离信息根据以下等式来指示第一元素信号的参考距离。
参考距离=0.01*2^(0.0472188798661443*(bs_Reference_Distance+119))
“参考距离”可以是第一元素信号的参考距离,第一元素信号的参考距离的单位可以是米(m),bs_Reference_Distance可以是第一元素参考距离信息,并且第一元素参考距离信息可以是0至127的整数。
可以由第二元素距离信息表示的值可以是0到511的整数。当第二元素信号的距离为0时,处理器可以将第二元素距离信息的值设置为0,并且当第二元素信号的距离不为0时,可以设置第二元素距离信息的值,使得第二元素距离信息根据以下等式指示第二元素信号的距离。
距离=0.01*2^(0.0472188798661443*(Position_Distance-1))
“距离”可以是第二元素信号的参考距离,第二元素信号的距离的单位可以是米(m),Position_Distance可以是第二元素距离信息,并且第二元素距离信息的值可以是1到511的整数。
当第一元素参考距离信息未被定义时,假定第一元素参考距离信息指示第一元素默认参考距离,并且当第二元素距离信息未被定义时,假定第二元素距离信息指示第二元素默认距离。
可以由第一元素参考距离信息指示的最小参考距离可以是大于0的预定的正数。
第一元素信号可以是声道信号,并且第二元素信号可以是对象信号。
第一元素信号可以是立体混响信号,并且第二元素信号可以是对象信号。
有益效果
本发明的实施例提供一种用于使用元数据处理音频信号的方法和设备。
具体地,本发明的实施例提供一种用于处理音频信号的方法和设备,其中使用元数据来渲染对象信号、声道信号或立体混响信号。
附图说明
图1是示出根据本发明的实施例的对音频信号进行编码的音频信号处理设备的框图;
图2是示出根据本发明的实施例的对音频信号进行解码的音频信号处理设备的框图;
图3示出根据本发明的实施例的由渲染器使用的元数据;
图4示出根据本发明的另一实施例的由渲染器使用的元数据配置的语法;
图5示出根据本发明的实施例的帧内编码的元数据帧(intracodedProdMetadataFrame)的语法;
图6示出根据本发明的实施例的动态元数据帧(dynamicProdMetadataFrame)的语法和单个动态元数据帧(singleDynamicProdMetadataFrame)的语法;
图7示出根据本发明的实施例的由未根据MPEG-H 3D音频标准定义的外部渲染器使用的作为对象信号的元数据的GOA元数据、作为声道信号的元数据的GCA元数据、以及作为立体混响信号的元数据GHA元数据;
图8示出根据本发明的实施例的元数据的声道参考距离信息的值、对象距离信息的值和声道信号的参考距离之中的关系;
图9示出根据本发明的另一实施例的指示元数据相关设置的元数据配置的语法;
图10示出根据本发明的另一实施例的帧内编码的元数据帧(intracodedProdMetadataFrame)的语法;
图11示出根据本发明的实施例的单个动态元数据帧(singleDynamicProdMetadataFrame)的语法。
图12示出根据本发明的另一实施例的由未根据MPEG-H 3D音频标准定义的外部渲染器使用的作为对象信号的元数据的GOA元数据、作为声道信号的元数据的GCA元数据、以及作为立体混响信号的元数据的GHA元数据;
图13示出根据本发明的实施例的由对包括第一元素信号的音频信号进行编码的音频信号处理设备来生成元数据的操作;以及
图14示出根据本发明的实施例的由渲染包括第一元素信号的音频信号的音频信号处理设备来渲染第一元素信号的操作。
具体实施方式
在下文中,将参考附图详细描述本发明的实施例,使得本发明所属的本领域的技术人员可以容易地实践实施例。然而,本发明可以以许多不同的形式实施,并且不限于在此阐述的实施例。另外,为了清楚地描述本发明,在附图中省略了与描述无关的部分,并且在整个说明书中,相似的附图标记指代相似的元件。
此外,当部分被说明为“包括”任何组件时,除非另有说明,否则该部分可以进一步包括其他组件,而不是排除其他组件。
图1是示出根据本发明的实施例的对音频信号进行编码的音频信号处理设备的框图。
根据本发明的实施例的对音频信号进行编码的音频信号处理设备可以对声道、立体混响(HOA)和对象信号中的至少一个进行编码。预渲染器/混合器10接收并混合声道信号、立体混响信号和对象信号中的至少一个。当需要进行预渲染时,预渲染器/混合器10可以预渲染声道信号、立体混响信号和对象信号中的至少一个。
HOA空间编码器30合成立体混响信号和预渲染的对象信号,以将其转换成用于传输预渲染对象信号的立体混响声道信号以及与立体混响声道信号有关的元数据。
SAOC 3D编码器40将离散的对象信号转换成用于传输的SAOC声道类型和与SAOC声道有关的元数据。
如果将在产生音频信号时使用的再现系统配置成扬声器布局,或者其中再现音频信号的再现系统是由通过虚拟扬声器布局的双耳渲染再现的两声道再现系统,则音频信号处理设备可以接收相应的扬声器布局的位置信息作为再现布局。扬声器布局的位置信息中的从扬声器布局的最佳位置的收听者到扬声器的距离可以被编码为相应布局的参考距离。OAM编码器20可以将参考距离编码在比特流的元数据中。另外,从对象到最佳位置的收听者的距离可以作为对象距离被输入。SAOC 3D编码器40可以将对象距离编码到元数据中。在另一个实施例中,对象距离被单独地传送到编码器80,并且编码器80可以将对象距离编码到比特流的元数据中。
图2是示出根据本发明的实施例的对音频信号进行解码的音频信号处理设备的框图。
根据本发明的实施例的音频信号解码器包括核心解码器110、混合器130和后处理器140。核心解码器110可以解码扩音器声道信号、离散对象信号、对象下混信号和预渲染信号中的至少一个。核心解码器10可以使用基于统一语音和音频编码(USAC)的编解码器。核心解码器110可以对由核心解码器110接收到的比特流进行解码,并取决于经解码的信号的类型将经解码的信号传送到格式转换器122、对象渲染器124、OAM解码器125、SAOC解码器126和HOA解码器129中的至少一个。
格式转换器122将传送的声道信号转换为输出扬声器声道信号。格式转换器122可以将传送的声道的配置转换为要再现的扬声器声道的配置。当输出扬声器声道的数量(例如,5.1声道)小于传送的声道的数量(例如,22.2声道),或传送的声道的配置和要再现的声道的配置不同时,格式转换器122可以对传送的声道信号执行下混合。解码器使用输入声道信号和输出扬声器声道信号的组合来生成最佳下混合矩阵,并且可以使用所生成的矩阵来执行下混合。由格式转换器122处理的声道信号可以包括预渲染的对象信号。至少一个对象信号可以在要与声道信号混合的音频信号的编码之前被预渲染。格式转换器122可以将如上所述的混合的对象信号转换为具有声道信号的输出扬声器声道信号。
对象渲染器123和SAOC解码器126可以渲染对象信号。对象信号可以包括离散对象波形和参数化对象波形。当对象信号包括对象波形时,编码器可以接收以单音波形形式的对象信号。在这种情况下,编码器可以使用单声道元素(SCE)来发送对象信号。当对象信号包括参数化对象波形时,可以将多个对象信号下混合到至少一个声道信号。在这种情况下,每个对象的特性以及对象之间的关系可以表达为空间音频对象编译(SAOC)参数。对象信号被下混合并编码为核心编解码器,并且编码器可以将在编码时生成的参数信息发送到解码器。
当对象信号被发送到解码器时,与对象信号相对应的压缩对象元数据可以一起被发送。对象元数据可以通过时间和空间来量化对象属性,以指示每个对象在三维空间中的位置和增益值。OAM解码器125接收压缩的对象元数据,并对压缩的对象元数据进行解码,以将经解码的压缩的对象元数据传送给对象渲染器124和SAOC解码器126中的至少一个。
对象渲染器124可以使用对象元数据根据给定的再现格式来渲染每个对象信号。在这种情况下,对象渲染器124可以基于对象元数据将对象信号渲染到特定的输出声道。SAOC解码器126可以从解码的SAOC传输声道和参数化信息恢复对象信号和声道信号中的至少一个。SAOC解码器126可以基于再现布局信息和对象元数据来生成输出音频信号。如上所述,对象渲染器123和SAOC解码器126可以将对象信号渲染为声道信号。
HOA解码器128接收高阶立体混响(HOA)信号和HOA附加信息,并且可以解码HOA信号和HOA附加信息。HOA解码器128通过单独的等式对声道信号或对象信号进行建模,并生成声音场景。当扬声器在所生成的声音场景中的空间中的位置被选择时,可以对扬声器声道信号执行渲染。
尽管未在图2中图示,可以对从核心解码器110输出的信号执行动态范围控制(DRC),作为预处理过程。DRC将再现的音频信号的动态范围限制为预定级别。在施加DRC的信号中,将小于预设范围的声音调整为更大的声音,并且将大于预设范围的声音调整为较小的声音。
从格式转换器122、对象渲染器124、OAM解码器125、SAOC解码器126和HOA解码器128输出的音频信号被传送到混合器130。混合器130调整基于声道的波形的延迟和渲染对象波形的延迟,并以采样为单位对基于声道的波形和渲染对象波形求和。由混合器130求和的音频信号被传送到后处理单元140。
后处理单元140包括渲染器150。渲染器150可以包括扬声器渲染器151和双耳渲染器153中的至少一个。扬声器渲染器151执行后处理以输出从混合器130传送的多声道和多对象音频信号中的至少一个。上述后处理可以包括动态范围控制DRC、响度标准化LN和峰值限制器PL中的至少之一。
双耳渲染器152生成多声道和多对象音频信号中的至少一个的双耳下混合信号。双耳下混合信号是两声道音频信号,用于允许每个输入声道信号和对象信号在三维相位上被表达。双耳渲染器153可以接收被供应给扬声器渲染器153的音频信号作为输入信号。双耳渲染基于双耳房间冲激响应(BRIR)滤波器执行,并且可以在时域或QMF域上执行。后处理器140可以附加地执行上述动态范围控制DRC、响度标准化LN和峰值限制器PL中的至少一项,作为双耳渲染的后处理。
当渲染包括声道信号、对象信号和立体混响信号的内容时,渲染器需要在维持每个元素之间的响度和距离的相对平衡的同时进行渲染。特别地,元素元数据可以包括指示再现布局的参考距离的信息。音频信号的每个元素信号的参考距离表示当收听者处于由音频信号表达的虚拟空间中的最佳位置中的位置时渲染每个元素信号所需的虚拟扬声器布局的圆周与收听者之间的距离,即,半径。对象信号的距离,即,对象距离,可以表示从当收听者被定位在由包括对象信号的音频信号所表达的虚拟空间中的最佳位置处时收听者头部的中心到被模拟并再现的对象的距离。另外,声道信号的参考距离可以表示为从收听者头部的中心到当产生包括声道信号的音频信号时所使用的扬声器布局的距离。另外,立体混响信号的参考距离可以表示为从当收听者被定位在由包括立体混响信号的音频信号表达的虚拟空间中的最佳位置处时的收听者头部的中心到被解码以再现立体混响信号的真实或虚拟的扬声器布局的距离。为了便于描述,将指示对象信号的距离,即,对象距离的信息称为对象距离信息。即使渲染器使用对象距离信息,但如果未定义用于确定在渲染声道信号或混响信号时使用的参考距离的方法,也会出现以下问题。例如,在双耳渲染对象中,当将对象信号渲染为虚拟扬声器声道信号,并且然后将声道信号再次渲染为双耳信号以再现最终的双耳信号时,取决于在最终的再现系统中使用的虚拟扬声器布局的变化,对象信号和非剧情性声道信号之间的音量平衡可能无法被维持为创建者的预期。在这种情况下,非剧情性音频信号可以是构成基于收听者固定的音频场景的信号。在虚拟空间中,无论收听者的移动如何,响应于非剧情性音频信号而输出的声音的方向性都不会改变。另外,由收听者感知到的声道信号或立体混响信号模拟的声像与对象之间的相对距离可能不同于创建者所预期的相对距离。另外,当渲染器执行距离相关的立体混响渲染时,与创建者所预期的距离相比,渲染器可能会欠补偿或过度补偿立体混响信号。
因此,需要提供关于声道信号和立体混响信号中的每个的参考距离的信息。另外,渲染器需要基于声道信号的参考距离的信息来渲染声道信号。另外,渲染器需要基于关于立体混响信号的参考距离的信息来渲染立体混响信号。具体地,基于关于元素信号的参考距离的信息,渲染器需要调整其中渲染元素信号的声音输出的响度。另外,当渲染器渲染元素信号时,渲染器需要基于关于元素信号的参考距离的信息应用延迟。为了便于描述,关于声道信号的参考距离的信息被称为声道参考距离信息。为了便于描述,关于立体混响信号的参考距离的信息被称为立体混响参考距离信息。将参考图3至图14描述用于设置和使用声道参考距离信息和立体混响参考距离信息的方法。另外,在本公开中,将以ISO/IEC的MPEG-H 3D音频标准为例来描述本发明的实施例。然而,本发明的实施例不限于ISO/IEC的MPEG-H 3D音频标准。
首先,将描述包括关于参考距离的信息的元数据的语法的实施例。
图3示出根据本发明的实施例的由渲染器使用的元数据。具体地,图3(a)示出根据本发明的实施例的指示元数据相关设置的元数据配置的语法。图3(b)示出根据本发明的实施例的根据元数据相关设置逐帧指示元数据的元数据帧的语法。图3(c)示出根据本发明的实施例的被定义为用于将对象信号的元数据传送到未根据MPEG-H 3D音频标准定义的外部渲染器的接口的GOA元数据。
渲染器可以将声道信号的参考距离的默认值应用于声道参考距离信息未被定义的声道信号。为了便于描述,将声道信号的参考距离的默认值称为声道默认参考距离。当比特流尚未定义声道信号的参考距离时,渲染器可以将声道默认参考距离假定为声道信号的参考距离。元数据配置可以包括参考距离标记(has_reference_distance),该参考距离标记表示在元数据帧中声道参考距离信息(reference_distance)是否指示声道默认参考距离以外的值。当参考距离标记未被激活时,声道参考距离信息的值(bs_reference_distance)可以被设置为预定值。稍后将再次描述。
渲染器可以将默认距离值应用于对象距离信息未被定义的对象信号,例如,仅具有方位和高度的对象信号。为了便于描述,音频信号的默认距离值被称为对象默认距离。当其中对象信号被编码的比特流尚未定义对象信号的距离时,渲染器可将对象默认距离假定为对象信号的距离。元数据配置可以包括对象距离标记(has_object_distance),其表示在元数据帧中对象距离信息(reference_distance)是否指示对象默认距离以外的值。对象距离标记可以逐对象信号组指示对象距离信息是否指示除了对象默认距离之外的值。另外,当执行双耳渲染时,元数据配置可以包括指示相应的声道信号组是否直接输出到耳机的标记(directHeadphone)。
元数据帧可以包括声道参考距离信息(reference_distance)。具体地,当参考距离标记(has_reference_distance)被激活时,元数据帧的声道参考距离信息(reference_distance)可以指示除声道默认参考距离之外的值。声道参考距离信息(reference_distance)可以由6个比特指示。另外,当对象距离标记(has_object_distance)被激活时,元数据帧可以包括表示当前帧是否包括帧内编码(intracoded)数据的帧内编码标记(has_intracoded_data)。根据与元数据帧相对应的帧是否被帧内编码,元数据帧可以包括帧内编码的元数据帧(intracodedProdMetadataFrame)或动态元数据帧(dynamicProdMetadataFrame)。
GOA元数据可以包括GOA参考距离标记(goa_hasReferenceDistance),其表示GOA元数据的声道参考距离信息(goa_bsReferenceDistance)是否指示除了声道默认参考距离之外的值。当GOA参考距离标记被激活时,声道参考距离信息指示除声道默认参考距离以外的值。声道参考距离信息可以由6个比特指示。GOA元数据可以包括对象距离标记(goa_hasObjectDistance),其表示GOA元数据的对象距离信息(goa_bsObjectDistance)是否指示除对象默认距离以外的值。在这种情况下,GOA元数据可以逐对象信号组表示GOA元数据的对象距离信息(goa_bsObjectDistance)是否指示除对象默认距离的默认值以外的值。当GOA对象距离标记(goa_hasObjectDistance)被激活时,GOA元数据的对象距离信息(goa_bsObjectDistance)可以指示除对象默认距离以外的值。在这种情况下,对象距离信息(reference_distance)可以由8个比特指示。
如在上述语法中一样,在元数据中可以被分配以指示关于参考距离的信息的比特数可能被限制。因为使用的比特数有限,所以当关于参考距离的信息的量化等级之间的差异太大时,渲染器可能无法反映距离变化对渲染的影响。另外,当关于参考距离的信息的量化等级之间的差异太小时,指示关于参考距离的信息的字段的传输和存储负担可能增加。因此,需要一种合适的量化方法来表示关于参考距离的信息。
元数据可以使用指数函数来指示声道参考距离。具体地,声道参考距离信息可以确定相应的指数函数的指数的值。在这样的实施例中,随着声道参考距离信息的值增加,由声道参考距离信息表示的距离也根据指数函数而增加。因此,渲染器可以均匀地渲染根据距离而衰减的声音的大小。
如在上述元数据中一样,指示声道参考距离信息的字段的比特数可以小于指示对象距离信息的字段的比特数。这是因为模拟实时变化的对象的位置的对象信号的距离表示可能需要比模拟扬声器的位置的声道信号的距离表示更加精确。可以由声道参考距离信息表示的参考距离值集可以是可以由对象距离信息表示的对象距离值集的子集。通过以上,当可以一起渲染声道信号和对象信号时,渲染器可以有效地渲染声道信号和对象信号中的至少一个。
可以由声道参考距离信息指示的最小距离可以是大于0的预定正数。在这种情况下,最小距离可以是450mm。这是因为当参考距离等于或小于预定大小时,参考距离的变化对渲染的影响可能微不足道。通过这样的实施例,可以减少表示声道参考信息所需的比特数。
另外,渲染器可以将声道默认参考距离应用于声道参考距离信息未被定义的声道信号。当其中声道信号被编码的比特流没有定义声道信号的参考距离时,渲染器可以将声道默认参考距离假定为声道信号的参考距离。在这种情况下,声道默认参考距离可以是预定值。预定值可以是1008mm。
在特定实施例中,声道参考距离信息可以根据以下等式指示声道信号的参考距离。
参考距离=distanceOffset+[10^(0.03225380*(referece_distance+82))-1]
在这种情况下,“参考距离”是声道信号的参考距离,并且参考距离的单位是毫米(mm)。另外,distanceOffset表示声道信号的参考距离的偏移值。具体地,distanceOffset的值可以是10mm。另外,reference_distance表示声道参考距离信息的值。声道参考距离信息可以指示对应于最小450mm至最大47521mm的距离。
具体地,上述元数据帧的声道参考信息(bs_reference_distance)可以根据下表指示声道信号的参考距离。
此外,上述GOA元数据的声道参考信息(goa_bsReferenceDistance)可以根据下表指示声道信号的参考距离。
图4示出根据本发明的另一实施例的渲染器所使用的元数据配置的语法。另外,图5示出根据本发明的实施例的帧内编码的元数据帧(intracodedProdMetadataFrame)的语法。图6示出根据本发明的实施例的动态元数据帧的语法(dynamicProdMetadataFrame)和单个动态元数据帧的语法(singleDynamicProdMetadataFrame)。
声道默认参考距离可以被设置为与可以与声道信号一起被再现的元素信号的参考距离的默认值相同。具体地,可以将声道默认参考距离设置为与对象默认距离相同的值。具体地,可以将声道默认参考距离设置为与立体混响信号的默认值相同。另外,当声道参考距离信息的值是特定值时,声道参考距离信息可以指示声道信号的参考距离的默认值。当声道参考距离信息指示声道默认参考距离时,声道参考距离信息可以指示预定值,而不使用用于指示声道参考距离的指数函数。具体地,当声道参考距离信息的值是从0到62时,声道参考距离信息可以使用以下等式指示声道信号的参考距离。
参考距离=distanceOffset+[10^(0.03225380*(bs_reference_distance+83))-1]
在这种情况下,“参考距离”是声道信号的参考距离,并且参考距离的单位是毫米(mm)。另外,distanceOffset表示声道信号的参考距离的偏移值。具体地,distanceOffset的值可以是10mm。另外,bs_reference_distance表示声道参考距离信息的值。声道参考距离信息可以指示对应于最小484mm到最大51184mm的距离。
另外,当声道参考距离信息的值是63时,声道参考距离信息可以指示声道信号的参考距离是声道默认参考值。声道默认参考值可以表示为2^(5/3)m(即,3174mm)。
元数据帧的声道参考信息(bs_reference_distance)可以根据下表指示声道信号的参考距离。
当在图4的实施例中参考距离标记(has_reference_distance)未被激活时,参考距离信息的值(bs_reference_distance)可以被设置为指示默认参考距离的预定值。在这种情况下,预定值可以是63。图4的元数据配置的其余语法可以与参考图3描述的相同。
如上所述,当对与元数据帧相对应的帧进行帧内编码时,元数据帧可以包括帧内编码的元数据帧(intracodedProdMetadataFrame)。图5示出根据特定实施例的帧内编码的元数据帧(intracodedProdMetadataFrame)的语法。
帧内编码的元数据帧(intracodedProdMetadataFrame)可以包括指示所有对象信号的距离是否为固定值的固定距离标记(fixed_distance)。另外,帧内编码的元数据帧(intracodedProdMetadataFrame)可以包括公共距离(common_distance)标记,其指示是否使用了对所有对象公共的对象距离。当固定距离标记或公共距离标记被激活时,渲染器可以使用对象信号的距离的默认值来渲染所有对象信号。当固定距离标记或公共距离标记未被激活时,渲染器可以基于每个对象信号的距离(position_distance)渲染每个对象信号。
另外,动态元数据帧(dynamicProdMetadataFrame)可以通过单个动态元数据帧(singleDynamicProdMetadataFrame)指示对象信号的参考距离。图6(a)示出根据特定实施例的动态元数据帧(dynamicProdMetadataFrame)的语法。图6(b)示出根据特定实施例的单个动态元数据帧(singleDynamicProdMetadataFrame)的语法。
在单个动态元数据帧中,对象信号的距离(position_distance)可以作为绝对值被发送或可以被区别地发送。单个动态元数据帧可以包括绝对距离标记(flag_dist_absolute),其指示对象距离是作为绝对值还是区别地被发送。当绝对距离标记(flag_dist_absolute)被激活时,单个动态元数据帧将对象信号的距离指示为绝对值。具体地,包括在单个动态元数据帧中的对象距离信息(position_distance)可以指示对象信号的距离。对象信号的距离可以是从处于最佳位置的收听者头部的中心到对象的距离。在这种情况下,包括在单个动态元数据帧中的对象距离信息(position_distance)可以根据下表指示对象信号的距离。
此外,当绝对距离标记(flag_dist_absolute)未被激活时,单个动态元数据帧可以指示对象信号的先前对象的距离值与当前对象的距离值之间的差。具体地,单个动态元数据帧中包括的对象距离信息(position_distance)可以指示对象信号的先前对象的距离值与当前对象的距离值之间的差。单个动态元数据帧可以包括指示在帧内时段(intra-frame period)期间对象信号的距离是否改变的距离标记(distance_flag)。当距离标记(distance_flag)被激活时,单个动态元数据帧可以指示线性内插值和对象信号的实际对象距离值之间的距离差(position_distance_difference)。另外,当距离标记(distance_flag)被激活时,单个动态元数据帧还可以指示指示对象距离差所需的比特数(nBitsDistance)。声道参考距离信息的上述实施例可以等同地应用于立体混响参考距离信息。将参考图7对此进行详细描述。
图7示出根据本发明的实施例的由未根据MPEG-H 3D音频标准定义的外部渲染器使用的作为对象信号的元数据的GOA元数据、作为声道信号的元数据的GCA元数据以及作为立体混响信号的元数据的GHA元数据。
元数据可以使用指数函数来指示立体混响参考距离。具体地,立体混响参考距离信息可以确定相应指数函数的指数的值。在这样的实施例中,随着立体混响参考距离信息的值增加,由立体混响参考距离信息表示的距离也根据指数函数而增加。因此,渲染器可以均匀地渲染根据距离而衰减的声音的大小。
如在上述元数据中一样,指示立体混响参考距离信息的字段的比特数可以小于指示对象距离信息的字段的比特数。可以由立体混响参考距离信息表示的参考距离值集可以是可以由对象距离信息表示的对象距离值集的子集。通过以上,当可以将立体混响信号和对象信号一起渲染时,渲染器可以有效地渲染立体混响信号和对象信号中的至少一个。
可以由立体混响参考距离信息指示的最小距离可以是大于0的预定正数。在这种情况下,最小距离可以是484mm。这是因为当参考距离等于或小于预定大小时,参考距离的变化对渲染的影响可能微不足道。
渲染器可以将立体混响信号的参考距离的默认值应用于立体混响参考距离信息未被定义的立体混响信号。为了便于描述,立体混响信号的参考距离的默认值被称为立体混响默认参考距离。当其中立体混响信号被编码的比特流没有定义立体混响信号的参考距离时,渲染器可以将立体混响默认参考距离假定为立体混响信号的参考距离。立体混响默认参考距离可以被设置为与可以与立体混响信号一起被再现的元素信号的参考距离的默认值相同。具体地,立体混响默认参考距离可以被设置为与对象信号或声道信号的默认值相同。另外,当立体混响参考距离信息的值是特定值时,立体混响参考距离信息可以指示立体混响默认参考距离。当立体混响参考距离信息指示立体混响默认参考距离时,立体混响参考距离信息可以在不使用用于指示参考距离的指数函数的情况下指示预定值。具体地,当立体混响参考距离信息的值是从0到62时,立体混响参考距离信息可以使用以下等式来指示立体混响信号的参考距离。
参考距离=distanceOffset+[10^(0.03225380*(bs_reference_distance+83))-1]
在这种情况下,“参考距离”是立体混响信号的参考距离,并且参考距离的单位是毫米(mm)。另外,distanceOffset表示立体混响信号的参考距离的偏移值。具体地,distanceOffset的值可以是10mm。另外,reference_distance表示立体混响参考距离信息的值。立体混响参考距离信息可以指示对应于最小484mm至最大51184mm的距离。
此外,当立体混响参考距离信息的值是63时,立体混响参考距离信息可以指示立体混响默认参考距离。立体混响默认参考距离可以是2^(5/3)m(即,3174.8mm)。当比特流还没有定义立体混响信号的参考距离时,渲染器可以假定立体混响默认参考距离作为立体混响信号的参考距离。
图7(a)示出GOA元数据。GOA元数据可以包括对象距离标记(goa_hasObjectDistance),其表示GOA元数据的对象距离信息(goa_bsObjectDistance)是否指示除对象默认距离以外的值。在这种情况下,GOA元数据可以逐对象信号组表示GOA元数据的对象距离信息是否指示除对象默认距离以外的值。当GOA对象距离标记(goa_hasObjectDistance)被激活时,GOA元数据的对象距离信息(goa_bsObjectDistance)指示除对象默认距离以外的值。在这种情况下,对象距离信息(goa_bsObjectDistance)可以由8个比特指示。GOA元数据中包括的对象距离信息(goa_bsObjectDistance)可以根据下表指示对象信号的距离。在这种情况下,对象距离信息(goa_bsObjectDistance)可以指示与最小0至最大167km相对应的距离。
图7(b)示出GCA元数据。GCA元数据可以包括GCA声道距离标记(gca_hasReferenceDistance),该GCA声道距离标记表示GCA元数据的声道参考距离信息(gca_bsReferenceDistance)是否指示除默认距离以外的值。在这种情况下,GCA元数据可以逐声道信号组表示GCA元数据的声道参考距离信息(gca_bsReferenceDistance)是否指示除声道默认参考距离以外的值。当GCA声道距离标记(gca_hasReferenceDistance)被激活时,GCA元数据的声道参考距离信息(gca_bsReferenceDistance)指示除声道默认参考距离以外的值。声道参考距离信息(gca_bsReferenceDistance)可以由6个比特指示。另外,当执行双耳渲染时,GCA元数据可以包括指示相应的声道信号组是否直接输出到头戴式耳机的标记(gca_directHeadphone)。GCA元数据中包括的声道参考距离信息(gca_bsReferenceDistance)可以根据下表指示声道信号的参考距离。
图7(c)示出GHA元数据。GHA元数据可以包括GHA立体混响距离标记(gha_hasReferenceDistance),其表示GHA元数据的立体混响参考距离信息(gha_bsReferenceDistance)是否指示除立体混响默认参考距离以外的值。在这种情况下,GHA元数据可以逐立体混响信号组表示GHA元数据的立体混响参考距离信息(gha_bsReferenceDistance)是否指示除立体混响默认参考距离以外的值。当GHA立体混响距离标记(gha_hasReferenceDistance)被激活时,GHA元数据的立体混响参考距离信息(gha_bsReferenceDistance)指示除立体混响默认参考距离以外的值。立体混响参考距离信息可以由6个比特指示。包括在GHA元数据中的立体混响参考距离信息(gha_bsReferenceDistance)可以根据下表指示立体混响信号的参考距离。
如上所述,可以将声道默认参考距离设置为与可以与声道信号一起再现的元素信号的参考距离的默认值相同。另外,当声道参考距离信息的值是特定值时,声道参考距离信息可以指示声道信号的参考距离的默认值。为此,声道参考距离信息可以在特定值处使用对应于声道默认参考距离的指数函数来指示声道信号的参考距离。在以下描述的实施例中,如果没有与上述实施例的描述相反的描述,则可以将以下描述的实施例和上述实施例一起应用。
具体地,根据以下等式,声道参考距离信息可以指示声道信号的参考距离。
参考距离=distanceOffset+2^[(bs_reference_distance+99)/11]
在这种情况下,“参考距离”是声道信号的参考距离,并且参考距离的单位是毫米(mm)。另外,distanceOffset表示声道信号的参考距离的偏移值。具体地,distanceOffset的值可以是2^(5/3)*1000-2^(128/11)≈-8.6220mm。另外,bs_reference_distance表示声道参考距离信息的值。声道参考距离信息可以指示对应于最小503mm至最大27115mm的距离。另外,当声道参考距离信息的值为29时,声道参考距离信息指示声道默认参考距离。
元数据帧的声道参考信息(bs_reference_distance)可以根据下表指示声道信号的参考距离。
另外,随着由声道参考距离信息指示的声道信号的参考距离改变,可以改变其中对象距离信息指示对象信号的距离的方法。单个动态元数据帧中包括的对象距离信息(position_distance)可以根据下表指示对象信号的距离。在这种情况下,对象距离信息(position_distance)可以指示与最小0到最大167km相对应的距离。
根据下表,GOA元数据中包括的对象距离信息(goa_bsObjectDistance)可以指示对象信号的距离。对象距离信息(goa_bsObjectDistance)可以指示与最小0到最大167km相对应的距离。
包括在GCA元数据中的声道参考距离信息(gca_bsReferenceDistance)可以根据下表指示声道信号的参考距离。声道参考距离信息(gca_bsReferenceDistance)可以指示与最小503mm至最大27115mm相对应的距离。另外,当声道参考距离信息(gca_bsReferenceDistance)的值是29时,声道参考距离信息指示声道默认参考距离。
另外,随着由声道参考距离信息指示的声道信号的参考距离改变,其中立体混响参考距离信息指示立体混响信号的参考距离的方法也可以改变。根据下表,包括在GHA元数据中的立体混响参考距离信息(gha_bsReferenceDistance)可以指示立体混响信号的参考距离。立体混响参考距离信息(gca_bsReferenceDistance)可以指示对应于最小503mm至最大27115mm的距离。另外,当立体混响参考距离信息的值(gca_bsReferenceDistance)为29时,立体混响参考距离信息指示立体混响默认参考距离。
在另一特定实施例中,元数据可以以线性化间隔指示声道信号的参考距离,该声道信号具有等于或小于预定距离的参考距离。在这种情况下,元数据可以使用指数函数指示声道信号的参考距离,该声道信号具有大于预定距离的参考距离。预定距离可以是3.1m。在这样的实施例中,当声道信号的参考距离相对较小时,声道参考距离信息可以使用精细的量化间隔来指示声道信号的参考距离。当声道信号的参考距离相对较大时,声道参考距离信息可以使用不精细的量化间隔来指示声道信号的参考距离。在以下描述的实施例中,如果没有与上述实施例的描述相反的描述,则可以应用以下描述的实施例和上述实施例。
具体地,当声道参考距离信息的值是从1到38时,声道参考距离信息可以根据以下等式指示声道信号的参考距离。
Reference_distance=(4*bs_reference_distance+4)/160*default_reference_distance
具体地,当声道参考距离信息的值是从39到63时,声道参考距离信息可以根据以下等式指示声道信号的参考距离。
Reference_distance=10^(1/20*(bs_reference_distance-39))*default_reference_distance
在这种情况下,参考距离是声道信号的参考距离,并且参考距离的单位是毫米(m)。另外,default_reference_distance表示声道默认参考距离。default_reference_distance的值可以是2^(5/3)(即,3.1748m)。另外,bs_reference_distance表示声道参考距离信息的值。声道参考距离信息可以指示对应于最小0.0794m至最大50.317m的距离。另外,当声道参考距离信息的值为39时,声道参考距离信息指示声道默认参考距离。
元数据帧的声道参考信息(bs_reference_distance)可以根据下表指示声道信号的参考距离。
另外,随着由声道参考距离信息指示的声道信号的参考距离改变,其中对象距离信息指示对象信号的距离的方法也可以改变。单个动态元数据帧中包括的对象距离信息(position_distance)可以根据下表指示对象信号的距离。在这种情况下,对象距离信息(position_distance)可以指示与最小0到最大167km相对应的距离。
GOA元数据中包括的对象距离信息(goa_bsObjectDistance)可以根据下表指示对象信号的距离。对象距离信息(goa_bsObjectDistance)可以指示与最小0到最大167km相对应的距离。
包括在GCA元数据中的声道参考距离信息(gca_bsReferenceDistance)可以根据下表指示声道信号的参考距离。声道参考距离信息(gca_bsReferenceDistance)可以指示与最小0.0794m至最大50.317m相对应的距离。另外,当声道参考距离信息的值(gca_bsReferenceDistance)为39时,声道参考距离信息指示声道默认参考距离。
另外,随着由声道参考距离信息指示的声道信号的参考距离改变,其中立体混响参考距离信息指示立体混响信号的参考距离的方法也可以改变。包括在GHA元数据中的立体混响参考距离信息(gha_bsReferenceDistance)可以根据下表指示立体混响信号的参考距离。立体混响参考距离信息(gha_bsReferenceDistance)可以指示与最小0.0794m至最大50.317m相对应的距离。另外,当立体混响参考距离信息(gca_bsReferenceDistance)的值为39时,立体混响参考距离信息指示立体混响默认参考距离。
在另一个特定实施例中,元数据可以使用指数函数来指示声道信号的参考距离。在以下描述的实施例中,如果没有与上述实施例的描述相反的描述,则可以将以下描述的实施例和上述实施例一起应用。
具体地,当声道参考距离信息的值是从0到38时,声道参考距离信息可以根据以下等式指示声道信号的参考距离。
参考距离=A*[2^(C*bs_reference_distance)]+B;
在这种情况下,可能是A=2^9,B=2^(5/3)*1000–2^(128/11)≈–8.6220mm,并且C=1/11。
在这种情况下,“参考距离”是声道信号的参考距离,并且参考距离的单位是毫米(mm)。另外,bs_reference_distance表示声道参考距离信息的值。声道参考距离信息可以指示对应于最小503mm至最大27115mm的距离。另外,当声道参考距离信息的值为29时,声道参考距离信息指示声道默认参考距离。
元数据帧的声道参考信息(bs_reference_distance)可以根据下表指示声道信号的参考距离。
另外,随着由声道参考距离信息指示的声道信号的参考距离改变,其中对象距离信息指示对象信号的距离的方法也可以改变。单个动态元数据帧中包括的对象距离信息(position_distance)可以根据下表指示对象信号的距离。在这种情况下,对象距离信息(position_distance)可以指示与最小0到最大167km相对应的距离。
GOA元数据中包括的对象距离信息(goa_bsObjectDistance)可以根据下表指示对象信号的距离。对象距离信息(goa_bsObjectDistance)可以指示与最小0到最大167km相对应的距离。
包括在GCA元数据中的声道参考距离信息(gca_bsReferenceDistance)可以根据下表指示声道信号的参考距离。声道参考距离信息(gca_bsReferenceDistance)可以指示与最小503mm至最大27115mm相对应的距离。另外,当声道参考距离信息(gca_bsReferenceDistance)的值是29时,声道参考距离信息指示声道默认参考距离。
另外,随着由声道参考距离信息指示的声道信号的参考距离改变,其中立体混响参考距离信息指示立体混响信号的参考距离的方法也可以改变。包括在GHA元数据中的立体混响参考距离信息(gha_bsReferenceDistance)可以根据下表指示立体混响信号的参考距离。立体混响参考距离信息(gha_bsReferenceDistance)可以指示与最小503mm至最大27115mm相对应的距离。另外,当立体混响参考距离信息(gca_bsReferenceDistance)的值为29时,立体混响参考距离信息指示立体混响默认参考距离。
然而,当遵循实施例时,声道参考距离信息在相对短的距离处使用过度精细的量化间隔来指示声道信号的参考距离。在另一特定实施例中,元数据可以使用指数函数来指示声道信号的参考距离。在以下描述的实施例中,如果不存在与上述实施例的描述相反的描述,则可以应用上述实施例。
具体地,元数据可以使用以下等式指示声道信号的参考距离。
reference_distance=A*2^(C*bs_reference_distance)+B;
在这种情况下,参考距离是声道信号的参考距离。另外,bs_reference_distance表示声道参考距离信息的值。当声道参考距离信息的值是0至37时,可能是A=2^(-13/12),B=0并且C=1/12。此外,当声道参考距离信息的值是38至55时,可能是A=2^(-28/9),B=0并且C=1/9。此外,当声道参考距离信息的值是56至63时,可能是A=2^(-31/6),B=0并且C=1/6。声道参考距离信息可以指示对应于最小472mm至最大40318mm的距离。另外,当声道参考距离信息的值为33时,声道参考距离信息指示声道默认参考距离。
元数据帧的声道参考信息(bs_reference_distance)可以根据下表指示声道信号的参考距离。
另外,随着由声道参考距离信息指示的声道信号的参考距离改变,其中对象距离信息指示对象信号的距离的方法也可以改变。单个动态元数据帧中包括的对象距离信息(position_distance)可以根据下表指示对象信号的距离。在这种情况下,对象距离信息(position_distance)可以指示与最小0到最大167km相对应的距离。
GOA元数据中包括的对象距离信息(goa_bsObjectDistance)可以根据下表指示对象信号的距离。对象距离信息(goa_bsObjectDistance)可以指示与最小0到最大167km相对应的距离。
包括在GCA元数据中的声道参考距离信息(gca_bsReferenceDistance)可以根据下表指示声道信号的参考距离。声道参考距离信息(gca_bsReferenceDistance)可以指示与最小472mm至最大40318mm相对应的距离。另外,当声道参考距离信息(gca_bsReferenceDistance)的值为33时,声道参考距离信息指示声道默认参考距离。
另外,随着由声道参考距离信息指示的声道信号的参考距离的改变,其中立体混响参考距离信息指示立体混响信号的参考距离的方法也可以改变。包括在GHA元数据中的立体混响参考距离信息(gha_bsReferenceDistance)可以根据下表指示立体混响信号的参考距离。立体混响参考距离信息(gha_bsReferenceDistance)可以指示对应于最小472mm至最大40318mm的距离。另外,当立体混响参考距离信息(gha_bsReferenceDistance)的值为33时,立体混响参考距离信息指示立体混响默认参考距离。
在本发明的另一实施例中,元数据可以使用等式来指示声道信号的参考距离,在等式中,线性函数和指数函数被组合。在这种情况下,在组合线性函数和指数函数的等式中,线性函数的特性可以在相对短距离处比指数函数的特性被更多地反映,并且指数函数的特性可以在相对长的距离处比线性函数的特性被更多地反映。具体地,声道参考距离信息可以使用以下等式来指示声道信号的参考距离。
y=alpha*b/Bref*Dref+(1-alpha)*10.^(h*(b-Bref))*Dref;
h=log10(1/(1-alpha)*(Dmax/Dref-alpha*Bmax/Bref))/(Bmax-Bref);
在这种情况下,y是声道信号的参考距离,并且参考距离的单位是毫米(mm)。另外,Dref、Dmax和Bmax的值可以如下。
Dref=2^(5/3),Dmax=167000,Bmax=255
另外,随着在上述等式中将alpha设置为0到1之间的值,可以调整指数函数的特性与线性函数的特性之比。在具体的实施例中,alpha可以是0.65。
如上所述,可以由声道参考距离信息表示的参考距离集可以是可以由对象距离信息表示的距离值集的子集。因此,在另一特定信息中,元数据可以使用通过对可以由对象距离信息表示的距离集进行采样而获得的值来指示声道信号的参考距离。将参考图8对此进行描述。
图8示出根据本发明的实施例的元数据的声道参考距离信息的值、对象距离信息的值和声道信号的参考距离之中的关系。
由元数据的声道参考距离信息指示的参考距离之间的间隔可以考虑最小可觉差(JND)来设置。在以下要描述的实施例中,如果没有与上述实施例的描述相反的描述,则可以将以下描述的实施例和上述实施例一起应用。具体地,由元数据的声道参考距离信息指示的参考距离之间的间隔可以被设置为等于或大于由于声音衰减而在两个点处音量差JND的距离。在这样的实施例中,可以根据以下代码从对象信号的距离集中采样声道信号的参考距离集。
另外,在实施例中,对象距离信息可以使用其中指数函数和线性函数被组合的函数来指示对象信号的距离。而且,可以设置由声道参考距离信息指示的参考距离之间的间隔,使得由于声音衰减,两点处的音量差为0.7dB。图8相应地示出元数据集中的元数据的声道参考距离信息的值(比特)、对象距离信息的值(Obj_Distance_Index)和声道信号的参考距离(Ch_Reference_Distance)之中的关系。
元数据帧的声道参考信息(bs_reference_distance)可以根据下表指示声道信号的参考距离(reference distance)。声道参考距离信息(bs_reference_distance)可以指示与最小0.5m至最大36.1m相对应的距离。另外,当声道参考距离信息(bs_reference_distance)的值为26时,声道参考距离信息指示声道默认参考距离为3.175m。
另外,随着由声道参考距离信息指示的声道信号的参考距离被改变,其中对象距离信息指示对象信号的距离的方法也可以改变。单个动态元数据帧中包括的对象距离信息(position_distance)可以根据下表指示对象信号的距离。在这种情况下,对象距离信息(position_distance)可以指示与最小0到最大167km相对应的距离。
GOA元数据中包括的对象距离信息(goa_bsObjectDistance)可以根据下表指示对象信号的距离。对象距离信息(goa_bsObjectDistance)可以指示与最小0到最大167km相对应的距离。
包括在GCA元数据中的声道参考距离信息(gca_bsReferenceDistance)可以根据下表指示声道信号的参考距离。声道参考距离信息(gca_bsReferenceDistance)可以指示对应于最小0.5m至最大36.1m的距离。另外,当声道参考距离信息(gca_bsReferenceDistance)的值为26时,声道参考距离信息指示声道默认参考距离为3.175m。
在这种情况下,当对象距离信息的值为x时。距离(x)是由对象距离信息指示的参考距离。
另外,随着由声道参考距离信息指示的声道信号的参考距离改变,其中立体混响参考距离信息指示立体混响信号的参考距离的方法也可以改变。包括在GHA元数据中的立体混响参考距离信息(gha_bsReferenceDistance)可以根据下表指示立体混响信号的参考距离。立体混响参考距离信息(gha_bsReferenceDistance)可以指示对应于最小0.5m至最大36.1m的距离。另外,当立体混响参考距离信息(gca_bsReferenceDistance)的值为26时,立体混响参考距离信息指示立体混响默认参考距离为3.175m。
在这种情况下,当对象距离信息的值为x时,距离(x)是由对象距离信息指示的参考距离。
在上述实施例中,声道参考距离信息和立体混响参考距离信息以6个比特表达,并且对象距离信息以8个比特表达。在特定实施例中,声道参考距离信息和立体混响参考距离信息以7个比特表达,并且对象距离信息可以以9个比特表达。
即使当元数据的声道参考距离信息以8个比特表达时,也可以应用上述实施例。具体地,元数据可以使用指数函数来指示声道参考距离。具体地,声道参考距离信息可以确定相应的指数函数的指数的值。
声道信号的参考距离值集可以是对象信号的参考距离值集的子集。可以由声道参考距离信息指示的最小距离可以是大于0的预定正数。在这种情况下,最小距离可以是0.5m。另外,渲染器可以将声道默认参考距离应用于声道参考距离信息未被定义的声道信号。在这种情况下,声道默认参考距离可以是预定值。预定值可以与对象默认距离相同。具体地,预定值可以是3.1748m。
在特定实施例中,声道参考距离信息可以使用以下等式指示声道信号的参考距离。
参考距离=0.01*2^(0.0472188798661443*(bs_Reference_Distance+119))
在这种情况下,“参考距离”是声道信号的参考距离,并且参考距离的单位是米(m)。bs_Reference_Distance是声道参考距离信息的值。
这样的用于声道参考距离信息的实施例可以应用于立体混响参考距离信息。将参考图9至图12描述应用于以上实施例的元数据的语法。在以下描述中,除非另有说明,否则可以将上述实施例一起应用。
图9示出根据本发明的另一实施例的指示元数据相关设置的元数据配置的语法。
如上所述,声道参考距离信息可以以7个比特表达。因此,元数据配置的声道参考距离信息(bs_reference_distance)可以通过7个比特来指示。而且,指示声道默认参考距离的声道参考距离信息的值(bs_reference_distance)可以是57。这将在后面再次描述。声道参考距离信息(bs_reference_distance)可以根据下表指示声道信号的参考距离(reference distance)。
上文未描述的元数据配置的语法的一部分可以通过参考图4所描述的实施例来应用。
图10示出根据本发明的另一实施例的帧内编码元数据帧(intracodedProdMetadataFrame)的语法。
如上所述,对象距离信息可以以9个比特来表达。因此,可以通过9个比特来指示帧内编码的元数据帧(intracodedProdMetadataFrame)的对象距离信息(position_distance)。另外,还通过9个比特指示对象默认距离(default_distance)。
对象默认距离(default_distance)可以根据下表指示对象信号的距离(distance)。
position_distance | 距离 |
0 | 距离=0m |
1-511 | 距离=0.01<sup>*</sup>2^(0.0472188798661443<sup>*</sup>(position_distance-1)) |
上面未描述的帧内编码的元数据帧(intracodedProdMetadataFrame)的语法的一部分可以通过参考图5描述的实施例来应用。
图11示出根据本发明的实施例的单个动态元数据帧(singleDynamicProdMetadataFrame)的语法。
单个动态元数据帧(singleDynamicProdMetadataFrame)的对象距离信息(position_distance)也可以通过9个比特指示。上面未描述的单个动态元数据帧(singleDynamicProdMetadataFrame)的语法的一部分可以通过参考图6描述的实施例来应用。
图12示出根据本发明的另一实施例的由未根据MPEG-H 3D音频标准定义的外部渲染器使用的作为对象信号的元数据的GOA元数据、作为声道信号的元数据的GCA元数据以及作为立体混响信号的元数据的GHA元数据。
图12(a)示出GOA元数据。对象距离信息(goa_bsObjectDistance)可以由9个比特指示。GOA元数据中包括的对象距离信息(goa_bsObjectDistance)可以根据下表指示对象信号的距离。在这种情况下,对象距离信息(goa_bsObjectDistance)可以指示与最小0至最大167km相对应的距离。
图12(b)示出GCA元数据。GCA元数据的声道参考距离信息(gca_bsReferenceDistance)指示除声道默认参考距离以外的值。声道参考距离信息(gca_bsReferenceDistance)可以由7个比特指示。GCA元数据中包括的声道参考距离信息(gca_bsReferenceDistance)可以根据下表指示声道信号的参考距离。
图12(c)示出GHA元数据。GHA元数据的立体混响参考距离信息(gha_bsReferenceDistance)可以由7个比特指示。包括在GHA元数据中的立体混响参考距离信息(gha_bsReferenceDistance)可以根据下表指示立体混响信号的参考距离。
图13示出根据本发明的实施例的由对包括第一元素信号的音频信号进行编码的音频信号处理设备来生成元数据的操作。
音频信号处理设备设置指示第一元素信号的参考距离的第一元素参考距离信息S1301。音频信号处理设备生成包括第一元素参考距离信息的元数据S1303。在这种情况下,音频信号能够包括第二元素信号。另外,元数据能够包括指示第二元素信号的距离的第二元素距离信息。在这种情况下,用于指示第一元素参考距离信息的比特数可以小于用于指示第二元素距离信息的比特数。具体地,表示第一元素参考距离信息所需的比特数可以是7,并且表示第二元素距离信息所需的比特数可以是9。另外,第一元素信号可以是声道信号,并且第二元素信号可以是对象信号。另外,第一元素信号可以是立体混响信号,并且第二元素信号可以是对象信号。
可以由第一元素参考距离信息表示的参考距离集可以是可以由第二元素距离信息表示的距离集的子集。通过以上,可以减少渲染器为支持第一元素信号和第二元素信号的渲染而要考虑的参考距离和距离的数量。因此,通过以上实施例,可以提高渲染效率。
对于用于指示第一元素参考距离信息的方法,可以应用参考图3至图12描述的与用于指示声道信号的参考距离的方法有关的实施例以及与用于指示立体混响信号的参考距离的方法有关的实施例。另外,对于用于指示第二元素距离信息的方法,可以应用参考图3至图12描述的与用于指示对象信号的距离的方法有关的实施例。
具体地,第一元素参考距离信息可以使用指数函数来指示第一元素信号的参考距离。具体地,第一元素参考距离信息可以确定指数函数的指数的值。在特定实施例中,第一元素参考距离信息可以使用以下等式指示第一元素信号的参考距离。音频信号处理设备可以设置第一元素参考距离信息的值,使得第一元素参考距离信息使用以下等式来指示第一元素的参考距离。
参考距离=0.01*2^(0.0472188798661443*(bs_Reference_Distance+119))
在这种情况下,“参考距离”是第一元素信号的参考距离,并且第一元素信号的参考距离的单位是米(m)。另外,bs_Reference_Distance是第一元素参考距离信息,并且第一元素参考距离信息的值是0至127的整数。
可以由第二元素距离信息表示的值可以是0至511的整数。当第二元素距离信息的值是0时,第二元素距离信息可以指示第二元素信号的距离是0。当第二元素信号的距离是0时,音频信号处理设备可以将第二元素距离信息的值设置为0。当第二元素距离信息的值是1至511时,第二元素距离信息可以使用以下等式指示第二元素信号的距离。当第二元素信号的距离不为0时,音频信号处理设备可以设置第二元素距离信息的值,使得第二元素参考距离信息根据以下等式来指示第二元素信号的距离。
距离=0.01*2^(0.0472188798661443*(Position_Distance-1))
“距离”是第二元素信号的距离,并且第二元素信号的距离的单位可以是米(m)。另外,Position_Distance是第二元素距离信息,并且第二元素距离信息的值是1至511的整数。
如果没有定义第一元素参考距离信息,则音频信号处理设备可以假定第一元素参考距离信息指示第一元素默认参考距离。另外,当第二元素距离信息未被定义时,音频信号处理设备可以假定第二元素距离信息指示第二元素默认距离。第一元素默认参考距离和第二元素默认参考距离可以具有相同的值。
可以由第一元素参考距离信息指示的最小参考距离可以是大于0的预定正数。在这种情况下,可以由第二元素距离信息指示的最小距离可以为0。通过上述,可以通过将距离指示为一个值来减少表示第一元素参考距离信息所需的比特数,该距离等于或小于预定距离并且对参考距离的影响不明显。
图14示出根据本发明的实施例的由渲染包括第一元素信号的音频信号的音频信号处理设备来渲染第一元素信号的操作。
音频信号处理设备获得元数据,该元数据包括指示音频信号和第一元素信号的参考距离的第一元素参考距离信息S1401。在这种情况下,音频信号能够包括第二元素信号。另外,元数据能够包括指示第二元素信号的距离的第二元素距离信息。在这种情况下,用于指示第一元素参考距离信息的比特数可以小于用于指示关于第二元素的距离的信息的比特数。具体地,表示第一元素参考距离信息所需的比特数可以是7,并且表示第二元素距离信息所需的比特数可以是9。另外,第一元素信号可以是声道信号,并且第二元素信号可以是对象信号。另外,第一元素信号可以是立体混响信号,第二元素信号可以是对象信号。
由第一元素参考距离信息表示的参考距离集可以是由关于第二元素的距离的信息表示的距离集的子集。通过上述,可以减少渲染器为支持第一元素信号和第二元素信号的渲染而要考虑的参考距离的数量。因此,通过以上实施例,可以提高渲染效率。
对于用于指示第一元素参考距离信息的方法,可以应用参考图3至图12描述的与用于指示声道信号的参考距离的方法有关的实施例以及与用于指示立体混响信号的参考距离的方法有关的实施例。另外,对于用于指示第二元素距离信息的方法,可以应用参考图3至图12描述的与用于指示对象信号的距离的方法有关的实施例。
具体地,第一元素参考距离信息可以使用指数函数来指示第一元素信号的参考距离。具体地,第一元素参考距离信息可以确定指数函数的指数的值。在特定实施例中,第一元素参考距离信息可以使用以下等式指示第一元素信号的参考距离。音频信号处理设备可以根据以下等式获得第一元素信号的参考距离。
参考距离=0.01*2^(0.0472188798661443*(bs_Reference_Distance+119))
在这种情况下,“参考距离”是第一元素信号的参考距离,并且第一元素信号的参考距离的单位是米(m)。另外,bs_Reference_Distance是第一元素参考距离信息,并且第一元素参考距离信息的值是0至127的整数。
可以由第二元素距离信息表示的值是0至511的整数。当第二元素距离信息的值是0时,第二元素距离信息可以指示第二元素信号的距离是0。当第二元素距离信息的值是0时,音频信号处理设备可以确定第二元素信号的距离是0。在这种情况下,当第二元素距离信息的值是1至511时,第二元素距离信息可以使用以下等式指示第二元素信号的距离。当第二元素距离信息的值是1至511的整数时,音频信号处理设备可以根据以下等式获得第二元素信号的距离。
距离=0.01*2^(0.0472188798661443*(Position_Distance-1))
“距离”是第二元素信号的距离,并且第二元素信号的距离的单位可以是米(m)。另外,Position_Distance是第二元素距离信息。第二元素距离信息的值是0至511的整数。
如果没有定义第一元素参考距离信息,则音频信号处理设备可以假定第一元素参考距离信息指示第一元素默认参考距离。另外,当第二元素距离信息未被定义时,音频信号处理设备可以假定第二元素距离信息指示第二元素默认距离。第一元素默认参考距离和第二元素默认参考距离可以具有相同的值。
可以由第一元素参考距离信息指示的最小参考距离可以是大于0的预定正数。在这种情况下,可以由第二元素距离信息指示的最小距离可以为0。通过上述,可以通过将距离指示为一个值来减少表示第一元素参考距离信息所需的比特数,该距离等于或小于预定距离并且对参考距离的影响不明显。
音频信号处理设备基于第一元素参考距离信息渲染第一元素信号(S1403)。具体地,音频信号处理设备可以基于第一元素参考距离信息来调整其中第一元素信号被渲染的声音的响度。音频信号处理设备可以同时渲染第一元素信号和第二元素信号。音频信号处理设备可以同时输出从第一元素信号渲染的声音和从第二元素信号渲染的声音。音频信号处理设备可以基于第一元素参考距离信息和第二元素距离信息来调整其中第一元素信号被渲染的声音输出的响度和其中第二元素信号被渲染的声音输出的响度。通过以上,音频信号处理设备可以调整其中第一元素信号被渲染的声音输出的响度与其中第二元素信号被渲染的声音输出的响度之间的平衡。
此外,音频信号处理设备可以基于第一元素参考距离信息将延迟应用于第一元素信号。音频信号处理设备可以同时渲染第一元素信号和第二元素信号。在这种情况下,音频信号处理设备可以基于第一元素参考距离信息和第二元素距离信息对第一元素信号和第二元素信号中的每一个应用延迟,以调整声音延迟时间。这是因为,根据第一元素信号的参考距离和第二元素信号的距离,收听者可以感觉到的距离感被改变。
另外,音频信号可以包括立体混响信号和声道信号两者。在这种情况下,音频信号处理设备可以使用一条参考距离信息同时渲染立体混响信号和声道信号。具体地,音频信号处理设备可以使用相同的参考距离同时渲染立体混响信号和声道信号。在另一个特定实施例中,音频信号处理设备可以通过向其应用不同的参考距离来渲染立体混响信号和声道信号。在这种情况下,可以执行根据参考距离的差的声场校正和响度校正。此外,可以根据参考距离的差来应用不同的延迟,以调整声音延迟时间。在另一个特定实施例中,音频信号处理设备可以基于声道参考距离信息来渲染声道信号,并且可以基于立体混响参考距离信息来渲染立体混响信号。而且,音频信号处理设备可以基于第一元素参考距离信息来渲染第二元素信号。
尽管已经参考特定实施例描述了本发明,但是对于本领域的技术人员显而易见的是,在不脱离本发明的精神和范围的情况下可以进行修改和变型。即,尽管已经关于处理多音频信号的实施例描述了本发明,但是本发明可以等同地应用于并且扩展到包括视频信号以及音频信号的各种多媒体信号。因此,从本发明的详细描述和实施方式解释,属于本发明所属技术领域的人可以容易地推断出的内容属于本发明的范围。
Claims (26)
1.一种渲染包括第一元素信号的音频信号的音频信号处理设备,
所述设备包括处理器,所述处理器用于获得包括所述音频信号和指示所述第一元素信号的参考距离的第一元素参考距离信息的元数据,并且基于所述第一元素参考距离信息渲染所述第一元素信号,其中:
所述音频信号能够包括能够与所述第一元素信号同时被渲染的第二元素信号,
所述元数据能够包括指示所述第二元素信号的距离的第二元素距离信息;
表示所述第一元素参考距离信息所需的比特数小于表示所述第二元素距离信息所需的比特数;并且
能够由所述第一元素参考距离信息表示的参考距离集是能够由所述第二元素距离信息表示的距离集的子集。
2.根据权利要求1所述的音频信号处理设备,其中,所述第一元素参考距离信息使用指数函数来指示所述第一元素信号的参考距离。
3.根据权利要求2所述的音频信号处理设备,其中,所述第一元素参考距离信息确定所述指数函数的指数的值。
4.根据权利要求3所述的音频信号处理设备,其中,用于表示所述第一元素参考距离信息的比特数是7,以及用于表示所述第二元素距离信息的比特数是9。
5.根据权利要求4所述的音频信号处理设备,其中,所述处理器使用下述等式从所述第一元素参考距离信息中获得所述第一元素信号的参考距离:
参考距离=0.01*2^(0.0472188798661443*(bs_Reference_Distance+119))
其中,“参考距离”是所述第一元素信号的参考距离,所述第一元素信号的参考距离的单位是米(m),bs_Reference_Distance是所述第一元素参考距离信息,并且所述第一元素参考距离信息的值是0至127的整数。
6.根据权利要求5所述的音频信号处理设备,其中,能够由所述第二元素距离信息表示的值是0到511的整数,并且当所述第二元素距离信息的值是0时,所述处理器确定所述第二元素信号的距离为0,并且当所述第二元素距离信息的值为1至511时,使用下述等式从所述第二元素距离信息获得所述第二元素信号的距离:
距离=0.01*2^(0.0472188798661443*(Position_Distance-1))
其中,“距离”是所述第二元素信号的距离,所述第二元素信号的距离的单位是米(m),并且Position_Distance是所述第二元素距离信息。
7.根据权利要求1所述的音频信号处理设备,其中,当所述第一元素参考距离信息未被定义时,所述处理器假定所述第一元素参考距离信息指示第一元素默认参考距离,并且,当所述第二元素距离信息未被定义时,所述处理器假定所述第二元素距离信息指示第二元素默认距离,并且所述第一元素默认参考距离和所述第二元素默认距离具有相同的值。
8.根据权利要求1所述的音频信号处理设备,其中,能够由所述第一元素参考距离信息指示的最小参考距离是大于0的预定正数。
9.根据权利要求1所述的音频信号处理设备,其中:
包括所述第一元素信号的所述音频信号包括所述第二元素信号,并且
所述处理器同时渲染所述第一元素信号和所述第二元素信号。
10.根据权利要求9所述的音频信号处理设备,其中,所述处理器基于所述第一元素参考距离信息调整其中所述第一元素信号被渲染的声音输出的响度,并且基于所述第二元素距离信息调整其中所述第二元素信号被渲染的声音输出的响度。
11.根据权利要求9所述的音频信号处理设备,其中,所述处理器基于所述第一元素参考距离信息将延迟应用于所述第一元素信号,并且基于所述第二元素距离信息将延迟应用于所述第二元素信号。
12.根据权利要求1所述的音频信号处理设备,其中,所述第一元素信号是声道信号,并且所述第二元素信号是对象信号。
13.根据权利要求1所述的音频信号处理设备,其中,所述第一元素信号是立体混响信号,并且所述第二元素信号是对象信号。
14.根据权利要求1所述的音频信号处理设备,其中:
所述第一元素信号是声道信号,
所述音频信号进一步包括立体混响信号;并且
所述处理器基于所述第一元素信号的参考距离渲染所述声道信号和所述立体混响信号。
15.根据权利要求1所述的音频信号处理设备,其中:
所述第一元素信号是声道信号,
所述音频信号进一步包括立体混响信号;
所述元数据包括指示所述声道信号的参考距离的声道参考距离信息和指示所述立体混响信号的参考距离的立体混响参考距离信息;并且
所述处理器基于所述声道参考距离信息渲染所述声道信号,并且基于所述立体混响参考距离信息渲染所述立体混响信号。
16.根据权利要求1所述的音频信号处理设备,其中,所述处理器基于所述第一元素参考距离信息渲染所述第二元素信号。
17.一种编码包括第一元素信号的音频信号的音频信号处理设备,所述设备包括处理器,所述处理器用于设置指示所述第一元素信号的参考距离的第一元素参考距离信息,并且生成包括所述第一元素参考距离信息的元数据,其中:
所述音频信号能够包括第二元素信号;
所述元数据能够包括指示所述第二元素信号的距离的第二元素距离信息,
用于指示所述第一元素参考距离信息的比特数小于用于指示所述第二元素距离信息的比特数,并且
能够由所述第一元素参考距离信息表示的参考距离集是能够由所述第二元素距离信息表示的距离集的子集。
18.根据权利要求17所述的音频信号处理设备,其中,所述第一元素参考距离信息使用指数函数来指示所述第一元素信号的参考距离。
19.根据权利要求18所述的音频信号处理设备,其中,所述第一元素参考距离信息确定所述指数函数的指数的值。
20.根据权利要求19所述的音频信号处理设备,其中,表示所述第一元素参考距离信息所需的比特数是7,以及表示所述第二元素距离信息所需的比特数是9。
21.根据权利要求20所述的音频信号处理设备,其中,所述处理器设置所述第一元素参考距离信息的值,使得所述第一元素参考距离信息根据下述等式来指示所述第一元素信号的参考距离:
参考距离=0.01*2^(0.0472188798661443*(bs_Reference_Distance+119))
其中,“参考距离”是所述第一元素信号的参考距离,所述第一元素信号的参考距离的单位是米(m),bs_Reference_Distance是所述第一元素参考距离信息,以及所述第一元素参考距离信息的值是0至127的整数。
22.根据权利要求21所述的音频信号处理设备,其中,能够由所述第二元素距离信息表示的值是0到511的整数,并且当所述第二元素信号的距离为0时,所述处理器将所述第二元素距离信息的值设置为0,并且当所述第二元素信号的距离不为0时,设置所述第二元素距离信息的值,使得所述第二元素距离信息根据下述等式指示所述第二元素信号的距离:
距离=0.01*2^(0.0472188798661443*(Position_Distance-1))
其中,“距离”是所述第二元素信号的参考距离,所述第二元素信号的距离的单位是米(m),Position_Distance是所述第二元素距离信息,并且所述第二元素距离信息的值是1到511的整数。
23.根据权利要求17所述的音频信号处理设备,其中,当所述第一元素参考距离信息未被定义时,假定所述第一元素参考距离信息指示第一元素默认参考距离,
当所述第二元素距离信息未被定义时,假定所述第二元素距离信息指示第二元素默认距离,并且
所述第一元素默认参考距离和所述第二元素默认距离具有相同的值。
24.根据权利要求17所述的音频信号处理设备,其中,能够由所述第一元素参考距离信息指示的最小参考距离是大于0的预定正数。
25.根据权利要求17所述的音频信号处理设备,其中,所述第一元素信号是声道信号,并且所述第二元素信号是对象信号。
26.根据权利要求17所述的音频信号处理设备,其中,所述第一元素信号是立体混响信号,并且所述第二元素信号是对象信号。
Applications Claiming Priority (11)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20180041394 | 2018-04-10 | ||
KR10-2018-0041394 | 2018-04-10 | ||
KR20180078449 | 2018-07-05 | ||
KR10-2018-0078449 | 2018-07-05 | ||
KR20180079649 | 2018-07-09 | ||
KR10-2018-0079649 | 2018-07-09 | ||
KR20180080911 | 2018-07-12 | ||
KR10-2018-0080911 | 2018-07-12 | ||
KR20180083819 | 2018-07-19 | ||
KR10-2018-0083819 | 2018-07-19 | ||
PCT/KR2019/004248 WO2019199040A1 (ko) | 2018-04-10 | 2019-04-10 | 메타데이터를 이용하는 오디오 신호 처리 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112005560A true CN112005560A (zh) | 2020-11-27 |
CN112005560B CN112005560B (zh) | 2021-12-31 |
Family
ID=68162888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980024365.9A Active CN112005560B (zh) | 2018-04-10 | 2019-04-10 | 使用元数据处理音频信号的方法和设备 |
Country Status (5)
Country | Link |
---|---|
US (2) | US11540075B2 (zh) |
JP (2) | JP7102024B2 (zh) |
KR (1) | KR102637876B1 (zh) |
CN (1) | CN112005560B (zh) |
WO (1) | WO2019199040A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102637876B1 (ko) * | 2018-04-10 | 2024-02-20 | 가우디오랩 주식회사 | 메타데이터를 이용하는 오디오 신호 처리 방법 및 장치 |
US11381209B2 (en) * | 2020-03-12 | 2022-07-05 | Gaudio Lab, Inc. | Audio signal processing method and apparatus for controlling loudness level and dynamic range |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005103622A1 (ja) * | 2004-04-21 | 2005-11-03 | Matsushita Electric Industrial Co., Ltd. | 音情報出力装置及び音情報出力方法 |
CN103493513A (zh) * | 2011-04-18 | 2014-01-01 | 杜比实验室特许公司 | 用于将音频上混以便产生3d音频的方法和系统 |
US20140303984A1 (en) * | 2013-04-05 | 2014-10-09 | Dts, Inc. | Layered audio coding and transmission |
US20150230040A1 (en) * | 2012-06-28 | 2015-08-13 | The Provost, Fellows, Foundation Scholars, & the Other Members of Board, of The College of the Holy | Method and apparatus for generating an audio output comprising spatial information |
CN105120418A (zh) * | 2015-07-17 | 2015-12-02 | 武汉大学 | 双声道3d音频生成装置及方法 |
US20160111096A1 (en) * | 2013-04-27 | 2016-04-21 | Intellectual Discovery Co., Ltd. | Audio signal processing method |
CN105556991A (zh) * | 2013-07-22 | 2016-05-04 | 弗朗霍夫应用科学研究促进协会 | 将输入声道配置的多个输入声道映射至输出声道配置的输出声道的方法、信号处理单元和计算机程序 |
CN105657633A (zh) * | 2014-09-04 | 2016-06-08 | 杜比实验室特许公司 | 生成针对音频对象的元数据 |
CN106170992A (zh) * | 2014-02-27 | 2016-11-30 | Dts(英属维尔京群岛)有限公司 | 基于对象的音频响度管理 |
CN106465034A (zh) * | 2014-03-26 | 2017-02-22 | 弗劳恩霍夫应用研究促进协会 | 采用几何距离定义的音频呈现装置和方法 |
US20170171687A1 (en) * | 2015-12-14 | 2017-06-15 | Dolby Laboratories Licensing Corporation | Audio Object Clustering with Single Channel Quality Preservation |
US20170366914A1 (en) * | 2016-06-17 | 2017-12-21 | Edward Stein | Audio rendering using 6-dof tracking |
CN107623894A (zh) * | 2013-03-29 | 2018-01-23 | 三星电子株式会社 | 渲染音频信号的方法 |
WO2018026828A1 (en) * | 2016-08-01 | 2018-02-08 | Magic Leap, Inc. | Mixed reality system with spatialized audio |
CN107820166A (zh) * | 2017-11-01 | 2018-03-20 | 江汉大学 | 一种声音对象的动态渲染方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4134794B2 (ja) * | 2003-04-07 | 2008-08-20 | ヤマハ株式会社 | 音場制御装置 |
WO2010113454A1 (ja) * | 2009-03-31 | 2010-10-07 | パナソニック株式会社 | 記録媒体、再生装置、及び集積回路 |
EP2434769B1 (en) * | 2009-05-19 | 2016-08-10 | Panasonic Intellectual Property Management Co., Ltd. | Recording method and playback method |
EP2450880A1 (en) | 2010-11-05 | 2012-05-09 | Thomson Licensing | Data structure for Higher Order Ambisonics audio data |
KR20140046980A (ko) | 2012-10-11 | 2014-04-21 | 한국전자통신연구원 | 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법 |
CN109166587B (zh) | 2013-01-15 | 2023-02-03 | 韩国电子通信研究院 | 处理信道信号的编码/解码装置及方法 |
TWI615834B (zh) * | 2013-05-31 | 2018-02-21 | Sony Corp | 編碼裝置及方法、解碼裝置及方法、以及程式 |
EP2830049A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for efficient object metadata coding |
CA2924458C (en) | 2013-09-17 | 2021-08-31 | Wilus Institute Of Standards And Technology Inc. | Method and apparatus for processing multimedia signals |
EP3069528B1 (en) * | 2013-11-14 | 2017-09-13 | Dolby Laboratories Licensing Corporation | Screen-relative rendering of audio and encoding and decoding of audio for such rendering |
EP2928216A1 (en) | 2014-03-26 | 2015-10-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for screen related audio object remapping |
US20180060025A1 (en) * | 2016-08-31 | 2018-03-01 | Harman International Industries, Incorporated | Mobile interface for loudspeaker control |
KR102637876B1 (ko) * | 2018-04-10 | 2024-02-20 | 가우디오랩 주식회사 | 메타데이터를 이용하는 오디오 신호 처리 방법 및 장치 |
-
2019
- 2019-04-10 KR KR1020197033407A patent/KR102637876B1/ko active IP Right Grant
- 2019-04-10 WO PCT/KR2019/004248 patent/WO2019199040A1/ko active Application Filing
- 2019-04-10 JP JP2020554183A patent/JP7102024B2/ja active Active
- 2019-04-10 US US17/046,302 patent/US11540075B2/en active Active
- 2019-04-10 CN CN201980024365.9A patent/CN112005560B/zh active Active
-
2022
- 2022-06-29 JP JP2022104743A patent/JP7371968B2/ja active Active
- 2022-11-23 US US17/992,944 patent/US11950080B2/en active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005103622A1 (ja) * | 2004-04-21 | 2005-11-03 | Matsushita Electric Industrial Co., Ltd. | 音情報出力装置及び音情報出力方法 |
CN103493513A (zh) * | 2011-04-18 | 2014-01-01 | 杜比实验室特许公司 | 用于将音频上混以便产生3d音频的方法和系统 |
US20150230040A1 (en) * | 2012-06-28 | 2015-08-13 | The Provost, Fellows, Foundation Scholars, & the Other Members of Board, of The College of the Holy | Method and apparatus for generating an audio output comprising spatial information |
CN107623894A (zh) * | 2013-03-29 | 2018-01-23 | 三星电子株式会社 | 渲染音频信号的方法 |
US20140303984A1 (en) * | 2013-04-05 | 2014-10-09 | Dts, Inc. | Layered audio coding and transmission |
US20160111096A1 (en) * | 2013-04-27 | 2016-04-21 | Intellectual Discovery Co., Ltd. | Audio signal processing method |
CN107040861A (zh) * | 2013-07-22 | 2017-08-11 | 弗朗霍夫应用科学研究促进协会 | 将输入声道配置的多个输入声道映射至输出声道配置的输出声道的方法和信号处理单元 |
CN105556991A (zh) * | 2013-07-22 | 2016-05-04 | 弗朗霍夫应用科学研究促进协会 | 将输入声道配置的多个输入声道映射至输出声道配置的输出声道的方法、信号处理单元和计算机程序 |
CN106170992A (zh) * | 2014-02-27 | 2016-11-30 | Dts(英属维尔京群岛)有限公司 | 基于对象的音频响度管理 |
CN106465034A (zh) * | 2014-03-26 | 2017-02-22 | 弗劳恩霍夫应用研究促进协会 | 采用几何距离定义的音频呈现装置和方法 |
CN105657633A (zh) * | 2014-09-04 | 2016-06-08 | 杜比实验室特许公司 | 生成针对音频对象的元数据 |
CN105120418A (zh) * | 2015-07-17 | 2015-12-02 | 武汉大学 | 双声道3d音频生成装置及方法 |
US20170171687A1 (en) * | 2015-12-14 | 2017-06-15 | Dolby Laboratories Licensing Corporation | Audio Object Clustering with Single Channel Quality Preservation |
US20170366914A1 (en) * | 2016-06-17 | 2017-12-21 | Edward Stein | Audio rendering using 6-dof tracking |
WO2018026828A1 (en) * | 2016-08-01 | 2018-02-08 | Magic Leap, Inc. | Mixed reality system with spatialized audio |
CN107820166A (zh) * | 2017-11-01 | 2018-03-20 | 江汉大学 | 一种声音对象的动态渲染方法 |
Also Published As
Publication number | Publication date |
---|---|
US11950080B2 (en) | 2024-04-02 |
WO2019199040A1 (ko) | 2019-10-17 |
US20230091281A1 (en) | 2023-03-23 |
JP2022126849A (ja) | 2022-08-30 |
KR20200130644A (ko) | 2020-11-19 |
JP7371968B2 (ja) | 2023-10-31 |
KR102637876B1 (ko) | 2024-02-20 |
JP2021517668A (ja) | 2021-07-26 |
US20210084426A1 (en) | 2021-03-18 |
US11540075B2 (en) | 2022-12-27 |
JP7102024B2 (ja) | 2022-07-19 |
CN112005560B (zh) | 2021-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12010502B2 (en) | Apparatus and method for audio rendering employing a geometric distance definition | |
KR102477610B1 (ko) | 채널 신호를 처리하는 부호화/복호화 장치 및 방법 | |
CN101356573B (zh) | 对双耳音频信号的解码的控制 | |
KR101120909B1 (ko) | 멀티 채널 파라미터 변환 장치, 방법 및 컴퓨터로 판독가능한 매체 | |
AU2018204427C1 (en) | Method and apparatus for rendering acoustic signal, and computer-readable recording medium | |
US10271156B2 (en) | Audio signal processing method | |
KR20140128564A (ko) | 음상 정위를 위한 오디오 시스템 및 방법 | |
KR102148217B1 (ko) | 위치기반 오디오 신호처리 방법 | |
US11950080B2 (en) | Method and device for processing audio signal, using metadata | |
CN114600188A (zh) | 用于音频编码的装置和方法 | |
CN112562696A (zh) | 具有离散对象的音频的分层编码 | |
EP3808106A1 (en) | Spatial audio capture, transmission and reproduction | |
KR20190060464A (ko) | 오디오 신호 처리 방법 및 장치 | |
US11062713B2 (en) | Spatially formatted enhanced audio data for backward compatible audio bitstreams | |
KR20140017344A (ko) | 오디오 신호 처리 방법 및 장치 | |
KR20080078907A (ko) | 양 귀 오디오 신호들의 복호화 제어 | |
WO2024146408A1 (zh) | 场景音频解码方法及电子设备 | |
WO2024212637A1 (zh) | 场景音频解码方法及电子设备 | |
WO2024114372A1 (zh) | 场景音频解码方法及电子设备 | |
WO2024212634A1 (zh) | 场景音频编码方法及电子设备 | |
WO2024114373A1 (zh) | 场景音频编码方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |