[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN108206022B - 利用aes/ebu信道传输三维声信号的编解码器及其编解码方法 - Google Patents

利用aes/ebu信道传输三维声信号的编解码器及其编解码方法 Download PDF

Info

Publication number
CN108206022B
CN108206022B CN201611171121.8A CN201611171121A CN108206022B CN 108206022 B CN108206022 B CN 108206022B CN 201611171121 A CN201611171121 A CN 201611171121A CN 108206022 B CN108206022 B CN 108206022B
Authority
CN
China
Prior art keywords
channel
downmix
basic
sound
compatible
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611171121.8A
Other languages
English (en)
Other versions
CN108206022A (zh
Inventor
潘兴德
陈笑天
吴超刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing panoramic sound information technology Co.,Ltd.
Original Assignee
Nanjing Qingjin Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Qingjin Information Technology Co ltd filed Critical Nanjing Qingjin Information Technology Co ltd
Priority to CN201611171121.8A priority Critical patent/CN108206022B/zh
Publication of CN108206022A publication Critical patent/CN108206022A/zh
Application granted granted Critical
Publication of CN108206022B publication Critical patent/CN108206022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)

Abstract

本发明公开一种利用AES/EBU信道传输三维声信号的编解码器及其编解码方法,包括下混及基础声道划分模块,用于接收基础声道和/或声音对象,按照下混方案进行下混和基础声道划分操作,输出下混兼容基础声道数据、扩展基础声道、基础声道划分边信息;扩展编码模块用于接收声音对象、下混方案、扩展基础声道、基础声道划分边信息,输出扩展编码数据;扩展编码数据再组织模块,用于接收扩展编码数据并进行重组操作;DCP打包模块,用于接收下混兼容基础声道数据和重组后的扩展编码数据并按照DCP规范打成DCP码流。本发明能够更好地兼容已有的环绕声电影播放系统,同时具备三维声的输出能力。

Description

利用AES/EBU信道传输三维声信号的编解码器及其编解码 方法
技术领域
本发明涉及一种三维声编解码处理技术领域,具体涉及一种利用AES/EBU信道传输三维声信号的编解码器及其编解码方法。
背景技术
经过多年发展,立体声、5.1、7.1环绕声等系统已经获得了广泛的应用,这些系统因缺乏声音的高度信息,最多只能呈现二维的声音。在真实的世界中,三维声是声音最真实的呈现和表达方式,无论自然界、艺术领域或视听娱乐领域,三维声都是未来的发展趋势。
在现有的系统中,三维声可以是多声道信号(如9.1、11.1、13.1和22.2等),可以是多个声音对象,也可以是两者的组合。在三维声系统中,多声道信号可以是环绕声信号,如5.1、7.1等,也可以是多层多声道信号(即多层声道信号分布在不同高度平面)。例如,有些三维声系统采用中间层及顶层的两层平面,有些三维声系统采用三层系统等。有些三维声系统只有多层多声道信号,但没有声音对象,例如SMPTE的22.2三维声系统和AURO 9.1系统等。有些三维声系统则既有多层多声道信号,也有声音对象,例如MPEG-H、Dolby Atmos和DTS:X系统。当然,作为一个极端的例子,三维声也可以全部是声音对象信号。
三维声作为刚刚出现的新技术和系统,还没有获得广泛的应用,其推广需要一个很长的发展阶段。因立体声、环绕声系统的普遍存在,三维声系统只有最大限度的兼容已经普遍存在的立体声或环绕声系统,才能获得市场的接受,并逐步成为主流。
发明内容
发明目的:本发明目的在于针对现有技术的不足,提供一种利用AES/EBU信道传输三维声信号的编解码方法,该方法可以更好兼容已有电影系统的内容制作和影院放映,同时具备三维声的输出能力。
技术方案:本发明所述的三维声编码器,包括:下混及基础声道划分模块,用于接收基础声道和/或声音对象,按照下混方案进行下混和基础声道划分操作,输出下混兼容基础声道数据、扩展基础声道、基础声道划分边信息;扩展编码模块用于接收声音对象、下混方案、扩展基础声道、基础声道划分边信息,输出扩展编码数据;扩展编码数据再组织模块,用于接收扩展编码数据并进行重组操作;DCP打包模块,用于接收下混兼容基础声道数据和重组后的扩展编码数据并按照DCP规范打成DCP码流。
进一步完善上述技术方案,在采用系统自适应选择的下混方案时,所述下混及基础声道划分模块包括下混模块和基础声道划分模块,下混模块用于接收基础声道和声音对象,输出下混兼容基础声道数据和下混方案,基础声道划分模块用于接收基础声道、下混模块生成的下混方案,输出扩展基础声道、基础声道划分边信息。
进一步地,在采用外部输入确定的下混方案时,所述下混及基础声道划分模块包括下混模块和基础声道划分模块,下混模块用于接收基础声道、声音对象、外部输入的下混方案,输出下混兼容基础声道数据;基础声道划分模块用于接收基础声道、外部输入的下混方案,输出扩展基础声道、基础声道划分边信息。
所述扩展编码模块采用有损编码或无损编码进行编码,在采用有损编码和外部输入确定的下混方案时,所述下混及基础声道划分模块包括下混模块和基础声道划分模块,基础声道划分模块用于接收基础声道和外部输入的下混方案,输出所述扩展基础声道和基础声道划分边信息;在采用有损编码时通过有损扩展解码模块将其输出的扩展编码数据进行解码,解码的扩展基础声道、解码的基础声道划分边信息、解码的下混方案、解码的声音对象与所述基础声道输入至下混模块,下混模块输出所述下混兼容基础声道数据。
进一步地,所述下混模块按照下混方案将基础声道、声音对象下混为下混兼容基础声道,下混兼容基础声道信号分为基础声道下混分量、声音对象下混分量,基础声道下混分量分为扩展基础声道下混分量、兼容基础声道下混分量。所述下混模块采用PAN系统或WFS系统或Ambisonic系统或者功能类似的下混系统执行下混操作。
进一步地,所述基础声道划分模块将基础声道划分为兼容基础声道、扩展基础声道,采用的基础声道划分方案根据基础声道的声道配置、所要兼容的多声道系统及下混映射函数确定,如根据对应下混声道的划分方法确定或者根据基于QR分解的划分方法确定。
根据对应下混声道的划分方法确定采用的基础声道划分方案包括:
S11:令集合Sbedt=Sbed,
Figure BDA0001183487370000021
Ssrt=Ssr,基础声道信号集合
Figure BDA0001183487370000031
下混兼容基础声道信号集合
Figure BDA0001183487370000032
fb(k,i)为下混映射函数;
S12:遍历集合Ssrt,找出一个满足如下关系的下混兼容基础声道k:
Figure BDA0001183487370000033
对于所有属于Sc中的声道n,有fb(k,n)=0;
若没有找到,执行步骤S15;
S13:对于步骤S12中的下混兼容基础声道k,遍历集合Sbedt,找出fb(k,m)不为0且fb(k,m)可逆的基础声道m,若没有找到,执行步骤S15;
S14:将步骤S13中找到的基础声道m加入到集合Sc中,得到新的Sc,从Ssrt中去除下混兼容基础声道k,得到新的Ssrt,从Sbedt中去除所有满足fb(k,i)不为0的基础声道i,得到新的Sbedt,若新的Ssrt、新的Sbedt都不为空,跳转到步骤S12,若新的Ssrt、新的Sbedt为空,则执行步骤S15;
S15:Sc或Sc的子集作为基础声道集合Sbed的兼容基础声道集合。
根据基于QR分解的划分方法确定的基础声道划分方案具体包括:
S21:令Sbedc=Sbed,Sbed为基础声道信号集合;
S22:采用矩阵运算形式表达Sbedc的下混:Hs_bedcop=HAc*Hbc,Hs_bedcop为Sbedc下混形成的下混分量组成的矩阵,Hbc为Sbedc中基础声道信号组成的矩阵,HAc为Sbedc下混系数矩阵;
S23:对HAc进行QR分解,得HAc=Q*HR,其中Q为一个Ns×Ns的酉矩阵,HR是一个Ns×Nbc的上三角矩阵;
S24:设M=min(Ns,Nbc),Ns为基础声道下混的声道数、Nbc为Sbedc的声道数,如果对于HR中每一个n=1…M,都满足r(n,n)>0,执行步骤S25;否则,对于每一个n=1…M,如果HR中r(n,n)=0,将Sbedc中第n个声道从Sbedc中剔除形成新的集合Sbedc‘,令Sbedc=Sbedc‘并执行步骤S22;
S25:保留Sbedc中n=1…M的声道组成的集合,该集合或集合的子集作为基础声道集合Sbed的兼容基础声道集合。
进一步地,所述下混兼容基础声道数据占用nn/2个AES/EBU信道数进行传输,其中nn为下混兼容基础声道的声道数,所述扩展编码数据占用mm个AES/EBU信道数进行传输,mm≤(8-nn/2);所述扩展编码数据重组后每帧的大小等于mm个AES/EBU信道传输能力ll,ll=mm*L*K*N,ll以字节为单位,L为一个AES/EBU信道能够传输的PCM声道数、K为单个扩展基础声道或声音对象进行编码时一帧的音频样本点数、N为一个音频样本点占用的字节数。
为在AES/EBU信道实时传输扩展编码数据,所述扩展编码数据再组织模块对扩展编码数据进行重组操作:在每帧扩展编码数据的帧头添加音频标识头,在每帧扩展编码数据尾部填充数据使总帧长等于ll,将总帧长为ll的扩展编码数据等份成mm份子帧。
采用上述三维编码器进行三维声编码方法,包括如下步骤:按照下混方案将基础声道和/或声音对象下混为所兼容的下混兼容基础声道数据,将基础声道划分为扩展基础声道、兼容基础声道并确定基础声道划分边信息;将声音对象、下混方案、扩展基础声道、基础声道划分边信息进行编码得到扩展编码数据;对扩展编码数据进行重组操作;按照DCP规范将下混兼容基础声道数据和重组后的扩展编码数据打成DCP码流包。
进一步地,所述扩展编码数据的重组操作包括在每帧扩展编码数据的帧头添加音频标识头,在每帧扩展编码数据尾部填充数据使总帧长等于ll,将总帧长为ll的扩展编码数据等份成mm份子帧。
用于上述三维声编码器编码生成DCP码流包解码的三维声解码器,包括:接收下混兼容基础声道数据模块,用于接收AES/EBU信道输入的下混兼容基础声道数据;接收扩展编码数据模块,用于接收AES/EBU信道输入的扩展编码码流;扩展解码数据重构模块,用于接收扩展编码码流,输出扩展编码数据;扩展解码模块,用于接收扩展解码数据,输出解码的下混方案、解码的扩展基础声道、解码的基础声道划分边信息、解码的声音对象;去下混模块,用于接收下混兼容基础声道数据、解码的下混方案、解码的扩展基础声道、解码的基础声道划分边信息、解码的声音对象,输出兼容基础声道;基础声道组合模块,用于接收兼容基础声道、解码的扩展基础声道、解码的基础声道划分边信息,输出基础声道;三维声渲染模块,用于接收基础声道、解码的声音对象,输出三维声多通道PCM码流。
进一步地,所述扩展解码数据重构模块对扩展编码码流执行操作包括找到音频标识头,组合等份子帧,读取音频标识头中有效信息,去除尾部填充数据,去音频标识头,获取完整的扩展编码数据的帧。
进一步地,所述去下混模块包括:按照解码的下混方案,从下混兼容基础声道信号中去除解码的扩展基础声道信号和/或解码的声音对象的下混成分,得到解码的兼容基础声道信号。
进一步地,所述去下混模块包括如下步骤:
1)计算兼容基础声道下混分量:按照解码的下混方案,从下混兼容基础声道信号中去除解码的扩展基础声道信号和/或解码的声音对象的下混成分,得到解码的兼容基础声道下混分量;
2)逆映射:对解码的兼容基础声道下混分量进行逆映射得到解码的兼容基础声道信号。
进一步地,针对根据对应下混声道的划分方法确定的基础声道划分方案进行的下混和基础声道划分操作,所述去下混模块包括如下步骤:
1)计算兼容基础声道下混分量:对于每一个兼容基础声道n=1...Nbc,k=compat(n)为其对应的下混兼容基础声道,从下混兼容基础声道信号
Figure BDA0001183487370000051
中去除解码的扩展基础声道信号和/或解码的声音对象的下混成分得到兼容基础声道下混分量
Figure BDA0001183487370000052
2)逆映射:对于每一个兼容基础声道n=1...Nbc,k=compat(n)为其对应的下混兼容基础声道,按照解码的下混方案中映射函数fb(k,bctob(n))的逆函数fb-1(k,bctob(n))对解码的兼容基础声道下混分量
Figure BDA0001183487370000053
进行逆映射,得到解码的兼容基础声道
Figure BDA0001183487370000054
Figure BDA0001183487370000055
进一步地,针对根据基于QR分解的划分方法确定的基础声道划分方案进行的下混和基础声道划分操作,所述去下混模块包括如下步骤:
1)计算兼容基础声道下混分量:对于每一个下混兼容基础声道k,从下混兼容基础声道信号
Figure BDA0001183487370000056
中去除解码的扩展基础声道信号和/或解码的声音对象的下混成分得到兼容基础声道下混分量
Figure BDA0001183487370000057
所有的
Figure BDA0001183487370000058
Figure BDA0001183487370000059
组成矩阵Hs_bedcop
Figure BDA0001183487370000061
2)逆映射:根据解码的兼容基础声道映射系数逆矩阵invHRQ,对Hs_bedcop进行逆映射求得Hbc
Hbc=invHRQ*Hs_bedcop
Hbc中的第n行即为解码的兼容基础声道信号
Figure BDA0001183487370000062
上述三维声解码器进行三维声解码方法,包括如下步骤:获取DCP码流包中的下混兼容基础声道数据和扩展编码码流,找到音频标识头,对扩展编码码流进行等份子帧组合,读取音频标识头中有效信息,去除尾部填充数据和音频标识头,获取扩展编码数据;对扩展编码数据进行解码,输出解码的下混方案、解码的扩展基础声道、解码的基础声道划分边信息、解码的声音对象与下混兼容基础声道数据进行去下混操作输出兼容基础声道;根据解码的基础声道划分边信息,将兼容基础声道与解码的扩展基础声道进行组合生成基础声道;基础声道与解码的声音对象进行三维声渲染生成三维声多声道PCM码流。
有益效果:针对数字电影行业的三维声系统应用,本发明提供一种利用AES/EBU信道传输三维声信号的编解码器及其编解码方法,该方法可以更好兼容已有电影系统的内容制作和影院放映,下混生成的下混兼容基础声道和重组后的三维声扩展编码数据无需进行特别处理即可打成DCP包,在电影放映时,下混兼容基础声道和三维声扩展编码数据可通过AES/EBU信道进行传输,对AES/EBU信道进行最大程度利用;采用本申请的后向兼容三维声编码方法制作的数字电影,可以兼容现有符合DCP协议的电影服务器和环绕声影院还音系统,对于只支持环绕声格式的环绕声处理器可以通过nn/2个AES/EBU信道获得下混兼容基础声道数据,并直接播放该下混兼容基础声道数据,可以获得和现有5.1或7.1环绕声相同的听觉体验,且没有基本二维声音信息的损失。对于配置了三维声处理器的三维声影院还音系统,可以通过nn/2个AES/EBU信道获得下混兼容基础声道数据和mm个AES/EBU信道获得三维声扩展编码数据,通过三维声解码器解码和渲染,可以实现影院的三维声回放。
附图说明
图1为实施例1中三维声编码方法框图;
图2为扩展兼容数据再组织模块的操作示意图;
图3为实施例2中三维声编码方法框图;
图4为第一种下混运算示意图;
图5为第二种下混运算示意图;
图6为实施例3中三维声编码方法框图;
图7为实施例4中三维声编码方法框图;
图8为三维声编码方法制作数字电影的播放过程示意图;
图9为三维声解码方法框图;
图10为去下混模块的操作方法图。
具体实施方式
下面通过附图对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
实施例1:
三维声信号由多声道信号(即基础声道)和/或声音对象信号(包括对象渲染描述信息和对象音频数据)组成。为满足后向兼容多声道(立体声、环绕声)节目或系统的需要,本发明所提出的三维声编码方法按照下混方案将三维声信号下混为所兼容的下混兼容基础声道数据,对下混方案、扩展基础声道、基础声道划分边信息、声音对象进行编码得到扩展编码数据。其中下混兼容基础声道数据经处理后占用AES/EBU信道的环绕声信道,因一个AES/EBU信道可传输两个声道信号,因此,当下混兼容基础声道数据为nn时,需要占用的AES/EBU信道数为nn/2个。在数字电影应用中,环绕声信道对应的AES/EBU信道顺序为前nn/2个,即5.1时为前三个AES/EBU信道,7.1时为前四个AES/EBU信道;扩展编码数据经重组处理后通过其它AES/EBU信道传输。一般数字电影最多可支持8个AES/EBU信道,因此,传输扩展编码数据可使用除环绕声信道外的mm个AES/EBU信道,且mm等于或小于8-nn/2。
例如,若三维声信号由5.1.4两层多声道系统(即中间层5个声道、1个次低音声道和4个顶层声道)和20个声音对象组成,为兼容5.1环绕声系统,其中5.1被作为下混兼容基础声道数据独立处理,由三个环绕声信道传输,4个顶层声道作为扩展基础声道与20个声音对象一起处理打包后由其它的AES/EBU信道传输。
基础声道可以是立体声、5.1、7.1等多声道信号,也可以是9.1、11.1、13.1和22.2等多层多声道三维声信号,基础声道中每一个声道的数据表示为
Figure BDA0001183487370000081
Figure BDA0001183487370000082
Nb为基础声道的声道数量,Nb等于0时该三维声信号中不含多声道信号而只有声音对象信号,所有基础声道信号组成集合
Figure BDA0001183487370000083
声音对象信号obj_signal[j]包括对象渲染描述信息obj_info[j]和对象信号
Figure BDA0001183487370000084
M为声音对象的数量,M等于0时该三维声信号中不包含声音对象。声音对象信号可以是单声道、立体声或多声道信号。所兼容的下混兼容基础声道信号表示为
Figure BDA0001183487370000085
Ns为所兼容的立体声、环绕声系统的声道数,所有下混兼容基础声道信号组成集合
Figure BDA0001183487370000086
每一个声道或声音对象的数据
Figure BDA0001183487370000087
是时间序列信号,即PCM(脉冲编码调制采样)数据,当进行分帧处理时,则可以表示一帧内的时间序列信号。
按照某一个下混方案,将三维声信号下混为下混兼容基础声道信号时,每一个下混兼容基础声道信号包括基础声道下混分量和声音对象下混分量:
Figure BDA0001183487370000088
下混方案可以表达为一组映射函数fo(k,j)、fb(k,i)。所有下混兼容基础声道信号的基础声道下混分量组成集合
Figure BDA0001183487370000089
所有下混兼容基础声道信号的声音对象下混分量组成集合
Figure BDA00011834873700000810
Figure BDA00011834873700000811
基础声道下混分量由基础声道信号所生成,可以表示为:
Figure BDA00011834873700000812
fb(k,i)是第i个基础声道信号向下混兼容基础声道信号的第k个声道进行下混时的下混映射函数。声音对象下混分量是根据所要兼容的下混兼容基础声道系统对每一个声音对象的信号进行下混渲染所生成,可以表示为:
Figure BDA0001183487370000091
fo(k,j)是第j个对象向下混兼容基础声道的第k个声道进行下混时的下混映射函数,与对象的位置坐标等信息相关。函数fo(k,j)、fb(k,i)表达的可以是增益、延时等操作,例如fb(k,i)(x(t))=a(k,i)*x(t-Δ(k,i));也可以是更复杂的映射函数,如WFS和HOA驱动函数等。WFS(Wave field Synthesis)是一种声音渲染方法,通过在求解波动方程的时候采用Kirchhoff-Helmholtz积分,实现用还音扬声器组还原原始声场。HOA(High OrderAmbisonic)也是一种声音渲染方法,通过在求解波动方程的时候采用球面波级数,实现用扬声器组还原原始声场。WFS和HOA方法具体可参考文献“Comparison of Higher orderAmbisonics and Wave Field Synthesis With Respect to Spatial DiscretizationArtifacts in Time Domain”(SaschaSpors and Jens Ahrens,19th InternationalCongress on Acoustics Madrid,2-7Sept.2007)。
可以将基础声道信号的集合
Figure BDA0001183487370000092
进行声道划分,分为两个集合Sbede和Sbedc,满足:
Figure BDA0001183487370000093
Figure BDA0001183487370000094
Nbe+Nbc=Nb
Sbede ∪ Sbedc=Sbed
Figure BDA0001183487370000095
据此,基础声道下混分量
Figure BDA0001183487370000096
又可以分为
Figure BDA0001183487370000097
Figure BDA0001183487370000098
之和,可以表示为:
Figure BDA0001183487370000099
Figure BDA00011834873700000910
Figure BDA00011834873700000911
其中,betob(m)(m=1...Nbe)是Sbede中第m个声道在基础声道中的序号,
Figure BDA0001183487370000101
bctob(n)(n=1...Nbc)是Sbedc中第n个声道在基础声道中的序号,
Figure BDA0001183487370000102
Figure BDA0001183487370000103
由Sbed集合中的基础声道下混生成,所有
Figure BDA0001183487370000104
组成集合
Figure BDA0001183487370000105
如果能根据集合Ssrbedcop和下混映射函数fb(k,i)、基础声道划分边信息(betob(m)、bctob(n))等运算得到Sbedc中的所有信号,则称Sbedc为兼容基础声道集合,其中的声道信号
Figure BDA0001183487370000106
称为兼容基础声道;Sbede称为与Sbedc对应的扩展基础声道集合,
Figure BDA0001183487370000107
称为扩展基础声道。
Figure BDA0001183487370000108
称为扩展基础声道下混分量;Ssrbedcop称为兼容基础声道下混分量集合,
Figure BDA0001183487370000109
称为兼容基础声道下混分量。
对于基础声道集合Sbed来说,其兼容基础声道集合Sbedc与扩展基础声道集合Sbede的划分方式和划分准则可能有多种,显然,Sbede=Sbed,
Figure BDA00011834873700001011
的划分符合上述定义;如果Sbedc1是Sbed的兼容基础声道集合,则Sbedc1的任意子集Sbedct也是Sbed的兼容基础声道集合。
如图1所示,本发明提供的三维声编码器包括一个下混及基础声道划分模块、一个扩展编码模块、一个扩展编码数据再组织模块和一个DCP打包模块。
步骤1.1)下混及基础声道划分模块
根据外界输入或系统自适应选择的下混方案(比如可以以一组映射函数fb(k,i)、fo(k,j)来表达),将三维声节目下混为所兼容的立体声/多声道信号,得到下混兼容基础声道信号
Figure BDA00011834873700001010
将基础声道划分为下混兼容基础声道数据和扩展基础声道两部分,并确定基础声道划分边信息(如betob(m)、bctob(n)),输出所用下混方案。
“外界输入”一般指录音师在三维声节目缩混时人工选择的下混方案,这种方式允许录音师通过反复监听,比较和选择下混方案;“系统自适应”是指编码系统智能的选择一种下混的方案,如对于基础声道的下混,可以自适应地根据不同的基础声道系统与下混兼容多声道系统之间的扬声器布局的关系,将多层多声道系统中表达高度信息的声道层的信号按照位置关系下混到中间层的环绕声声道上(比如顶前左声道直接混入左声道,顶前右声道直接混入右声道),形成一种下混方案(可以以一组映射函数fb(k,i)来表达);如对于声音对象的下混,可以自适应地根据对象渲染描述信息(对象的位置坐标等),按照WFS/HOA/PAN等渲染方法,形成一种下混方案(可以以一组映射函数fo(k,j)来表达)。
如果该三维声节目中不包括基础声道,或兼容基础声道、扩展基础声道与基础声道之间是简单明确的一一对应关系,则可以不需要进行该步骤1.1。
步骤1.2)扩展编码模块
对扩展基础声道、基础声道划分边信息、下混方案和声音对象进行扩展编码,得到扩展编码数据。如果该三维节目没有基础声道,则可不包括对扩展基础声道、基础声道划分边信息进行编码的部分;如果该三维节目没有声音对象,则可不包括对声音对象进行编码的部分。如果在编码、解码中都遵循同样的可确定的基础声道划分方式,则可不对基础声道划分边信息进行编码。如果在编码、解码中都遵循同样的可确定的下混方案,则可不对下混方案进行编码。
对扩展基础声道的编码和声音对象的编码可以采用非压缩的编码也可以采用压缩的编码方法,可以是矢量编码也可以是标量编码,如杜比AC3、MPEG-1 layer3、MPEG-2/4AAC、MPEG H、杜比Atmos、AVS三维音频编码等编码方式。对声音对象的编码包括对对象渲染描述信息obj_info[j]和对象信号obj_data[j]的编码。对下混方案进行编码时,可以对下混映射函数fb(k,i)、fo(k,j)的参数a(k,i)、Δ(k,i)等进行有损或无损的编码;也可以对将a(k,i)、Δ(k,i)进行矢量编码。对基础声道划分边信息(比如betob(m)(m=1...Nbe)、bctob(n)(n=1...Nbc))进行编码时,可以进行有损或无损的编码;也可以采用矢量编码的方式。
步骤1.3)扩展编码数据再组织模块
扩展编码数据再组织模块对扩展编码数据进行重组操作,以通过AES/EBU信道传输。AES/EBU信道传输是实时传输,要求在单位时间内传输的下混兼容基础声道数据对应的音频播放时长以及扩展编码数据对应的音频播放时长是一致的,且等于单位时间长度。下混兼容基础声道数据是PCM格式数据(24比特、48kHz或96kHz的脉冲编码调制格式),根据DCP协议,打成DCP包后自然能满足这一要求,不需要经过任何特别处理,但扩展编码数据则需要经过重组操作。
扩展编码数据再组织模块对扩展编码数据进行重组操作,以通过AES/EBU信道传输。AES/EBU信道采用24比特位精度传输音频信号,采样频率可选择48kHz或96kHz。为在AES/EBU信道实时传输扩展编码数据,首先需要计算mm个AES/EBU信道的最大传输能力。计算方法如下:
设扩展编码数据以K个样本点/声道为一帧进行编码,所有扩展基础声道(数量为a)和声音对象(数量为b)的(a+b)*K个样点经过编码后的数据的基本单位为帧。
为了实时播放和传输三维声信号,扩展编码数据每帧的大小必须正好等于对应mm个AES/EBU信道的传输能力。此时mm个AES/EBU信道传输能力ll=mm*2(通道数)*K(样本数)*3(字节),ll以字节为单位,DCP音频样本点的位精度一般为24bit,24/8=3个字节。
扩展编码数据再组织模块的再组织的流程或方法如图2所示:
第一步、在帧头添加音频标识头:添加音频标识头的目的是为了便于音频处理器处理数据,一般包括同步字、帧长等信息;
第二步、尾部填充:扩展编码帧+音频标识头的长度小于ll时,需要尾部填充使总帧长等于ll;
第三部、等份切割:将ll长度的数据等份切割mm份(称为子帧),打成DCP包后,输出时分别对应AES/EBU的nn/2+1~n/2+mm的信道,每一个子帧的长度subframe_length=ll/mm。
步骤1.3)DCP打包模块
DCP打包模块将下混兼容基础声道数据和再组织后的扩展编码数据作DCP打包,打包格式符合DCI协议及MXF编码格式。对于再组织后的扩展编码数据,在DCP打包时,把再组织后的扩展编码数据子帧按照双声道PCM数据与下混兼容基础声道的PCM数据按照DCP的规范打成DCP码流包。
其中,在MXF的body中可以如下表的顺序打包:
Figure BDA0001183487370000121
Figure BDA0001183487370000131
实施例2:
如图3所示,在采用系统自适应选择的下混方案,本发明提供的三维声编码器包括下混模块、基础声道划分模块、扩展编码模块、扩展编码数据再组织模块、DCP打包模块。与实施例1的区别在于下混及基础声道划分模块分为下混模块和基础声道划分模块。
步骤2.1)下混模块
根据系统自适应选择的下混方案,将三维声节目下混为所兼容的立体声/多声道信号,得到下混兼容基础声道信号
Figure BDA0001183487370000132
输出所用下混方案。
如前所述,下混兼容基础声道信号包括基础声道下混分量和声音对象下混分量:
Figure BDA0001183487370000133
基础声道下混分量由每一个基础声道的信号所生成,可以按照如下公式计算每一个下混兼容基础声道k的基础声道下混分量:
Figure BDA0001183487370000134
fb(k,i)是第i个基础声道信号向下混多声道信号的第k个声道进行下混时的下混映射函数。
声音对象下混分量是根据所要兼容的多声道系统对每一个声音对象的信号进行下混渲染所生成,可以根据如下公式计算每一个下混兼容基础声道k的声音对象下混分量:
Figure BDA0001183487370000141
fo(k,j)是第j个对象向下混多声道信号的第k个声道进行下混时的下混映射函数。这种情况下下混运算的示意图见图4。
基础声道下混分量
Figure BDA0001183487370000142
又可以分为扩展基础声道下混分量
Figure BDA0001183487370000143
和兼容基础声道下混分量
Figure BDA0001183487370000144
Figure BDA0001183487370000145
可以分别按如下公式计算扩展基础声道下混分量
Figure BDA0001183487370000146
和兼容基础声道下混分量
Figure BDA0001183487370000147
Figure BDA0001183487370000148
Figure BDA0001183487370000149
这种情况下下混运算的示意图见图5。
步骤2.2)基础声道划分模块
根据下混模块所用的下混方案(比如可以以一组映射函数fb(k,i)、fo(k,j)来表达),将基础声道划分为兼容基础声道和扩展基础声道两部分,并确定基础声道划分边信息(如betob(m)、bctob(n))。
如果该三维声节目中不包括基础声道,或兼容基础声道、扩展基础声道与基础声道之间是简单明确的一一对应关系,则可以不需要进行该步骤2.2。
下面以两种情况为例来对基础声道划分方法进行详细说明。
1)对应下混声道的划分方法:
当三维声节目的基础声道的声道配置、所要兼容的多声道系统及下混映射函数fb(k,i)都已确定时,可以根据如下划分规则将基础声道
Figure BDA00011834873700001410
Figure BDA00011834873700001412
分为
Figure BDA00011834873700001411
Figure BDA0001183487370000151
两部分:
对于每一个n=1...Nbc,存在k=compat(n),及n=invcompat(k),其中compat(n)是第n个兼容基础声道所对应的下混兼容基础声道的序号,有
Figure BDA0001183487370000152
且fb(k,bctob(n))存在逆函数。
在满足上述规则的情况下,可以按照如下公式来计算得到解码的兼容基础声道信号
Figure BDA0001183487370000153
对于每一个n,存在k=compat(n)
Figure BDA0001183487370000154
Figure BDA0001183487370000155
即,集合
Figure BDA0001183487370000156
可以根据集合
Figure BDA0001183487370000157
Figure BDA0001183487370000158
和下混映射函数fb(k,i)、基础声道划分边信息(betob(m)、bctob(n))等运算得到,满足前述对兼容基础声道集合的定义,所以Sbedc为Sbed的兼容基础声道集合。这种情况下的特征是:兼容基础声道n可以通过对其所对应的下混兼容基础声道k的兼容基础声道下混分量
Figure BDA0001183487370000159
进行逆映射得到,逆映射的函数为下混映射函数的逆函数。
这种情况下,基础声道划分边信息包括betob(m)(m=1...Nbe)、bctob(n)(n=1...Nbc)、compat(n)(n=1...Nbc)。其中,compat(n)是第n个兼容基础声道所对应的下混兼容基础声道的序号,fb(k,bctob(n))存在逆函数fb-1(k,bctob(n)),例如
fb(k,i)(x(t))=a(k,i)*x(t-Δ(k,i))
fb-1(k,i)(x(t))=x(t+Δ(k,i))/a(k,i)
特殊情况下,
fb(k,i)(x(t))=x(t)
fb-1(k,i)(x(t))=x(t)
例如基础声道为5.1.4(5.1+4H,5.1环绕声系统加上4个顶部音箱),所兼容的多声道系统为5.1时,假定5.1.4的声道顺序为左声道(1)、右声道(2)、中央声道(3)、重低音声道(4)、左环绕声道(5)、右环绕声道(6)、顶前左声道(7)、顶前右声道(8)、顶后左声道(9)、顶后右声道(10),5.1的声道顺序为左声道(1)、右声道(2)、中央声道(3)、重低音声道(4)、左环绕声道(5)、右环绕声道(6),下混算法按照顶前左声道(7)、顶后左声道(9)直接混入左声道,顶前右声道(8)、顶后右声道(10)直接混入右声道的方式进行,声道映射函数简化为:
betob(m)=m+6
bctob(n)=n
兼容基础声道与下混兼容基础声道的对应关系compat(n)简化为:
compat(n)=n
基础声道的下混映射函数简化为
fb(k,i)(x(t))=x(t)
此时可以将基础声道分为扩展基础声道{顶前左声道(7)、顶前右声道(8)、顶后左声道(9)、顶后右声道(10)}和兼容基础声道{左声道(1)、右声道(2)、中央声道(3)、重低音声道(4)、左环绕声道(5)、右环绕声道(6)}两部分。
比如,可以按照如下步骤进行基础声道划分:
步骤2.2a.1):令集合Sbedt=Sbed,
Figure BDA0001183487370000161
Ssrt=Ssr。
步骤2.2a.2):遍历集合Ssrt,直到找到一个下混兼容基础声道k满足如下关系或遍历结束:
Figure BDA0001183487370000162
对于所有属于Sc中的声道n,有fb(k,n)=0。
如果找不到这样的下混兼容基础声道k,则跳转到步骤2.2a.5。
步骤2.2a.3):对于步骤2.2a.2中找到的下混兼容基础声道k,从Sbedt中选择一个基础声道m,使得fb(k,m)不为0,且fb(k,m)可逆,且基础声道m不在Se中。如果找不到这样的基础声道m,则跳转到步骤2.2a.5。
步骤2.2a.4):从Sbedt中去除所有满足fb(k,i)不为0的基础声道i,得到新的Sbedt;将步骤2.2a.3)中找到的基础声道m加入到Sc中,得到新的Sc;从Ssrt中去除下混兼容基础声道k,得到新的Ssrt。如果Ssrt、Sbedt都不为空,则跳转到步骤2.2a.2。
步骤2.2a.5):Sc为兼容基础声道集合。
2)基于QR分解的划分方法
如果下混函数可以表达为fb(k,i)(x(t))=a(k,i)*(x(t))(a(k,i)为实数),基础声道的下混可以表达为矩阵运算的形式:
Figure BDA0001183487370000171
组成下混多声道信号矩阵Hs_bed
Figure BDA0001183487370000172
Figure BDA0001183487370000173
组成基础声道信号矩阵Hb
Figure BDA0001183487370000174
a(k,i)组成基础声道下混系数矩阵HA,HA为Ns*Nb矩阵
Figure BDA0001183487370000175
Hs_bed=HA*Hb
此时,可以按照如下步骤进行基础声道的划分:
步骤2.2b.1):令Sbedc=Sbed,
步骤2.2b.2):由Sbedc中所有的声道信号
Figure BDA0001183487370000176
组成矩阵
Figure BDA0001183487370000177
他们所对应的a(k,i)组成兼容基础声道下混系数矩阵HAcHAc,HAc为Ns*Nbc矩阵
Figure BDA0001183487370000178
他们下混形成的兼容基础声道下混分量集合Ssrbedcop的所有
Figure BDA0001183487370000181
组成矩阵
Figure BDA0001183487370000182
满足:Hs_bedcop=HAc*Hbc
步骤2.2b.3):对HAc进行QR分解,可得HAc=Q*HR,其中Q为一个Ns×Ns的酉矩阵,HR是一个Ns×Nbc的上三角矩阵。
Figure BDA0001183487370000183
步骤2.2b.4):设M为Ns和Nbc中的最小值,M=min(Ns,Nbc),如果对于每一个n=1...M都满足r(n,n)>0则执行2.2b.5;否则进行如下操作:对于每一个n=1...M,如果r(n,n)=0则将Sbedc中第n个声通
Figure BDA0001183487370000184
从Sbedc中剔除,如此,形成新的集合Sbedc‘,令Sbedc=Sbedc‘并跳转到步骤2.2b.2。
步骤2.2b.5):只保留Sbedc中n=1...M的声道,组成新的Sbedc,Nbc=M≤Ns;也可以Sbedc的任意子集作为新的Sbedc。
通过以上步骤运算得到Sbedc,由Sbedc中所有的声道信号
Figure BDA0001183487370000185
Figure BDA0001183487370000186
组成矩阵
Figure BDA0001183487370000187
他们所对应的a(k,i)组成下混系数矩阵HAc,HAc为Ns*Nbc矩阵
Figure BDA0001183487370000188
他们下混形成的兼容基础声道下混分量集合Ssrbedcop中的信号
Figure BDA0001183487370000189
组成矩阵
Figure BDA0001183487370000191
满足:Hs_bedcop=HAc*Hbc。对HAc进行QR分解的结果是HAc=Q*HR,其中Q为一个Ns×Ns的酉矩阵,HR是一个Ns×Nbc的上三角矩阵:
Figure BDA0001183487370000192
M=Nbc≤Ns,对于每一个n=1...M都满足r(n,n)>0。
可以证明通过以上步骤运算得到的Sbedc为Sbed的兼容基础声道集合:
Hs_bedcop=HAc*Hbc=Q*HR*Hbc
因为Q为一个Ns×Ns的酉矩阵,所以其存在逆矩阵Q-1,可得
HR*Hbc=Q-1*Hs_bedcop=QHs_bedcop
因为M=min(Ns,Nbc)=Nbc,且对每一个n=1...M都有r(n,n)>0,所以可以取HR的前Nbc行构造方阵HRm
Figure BDA0001183487370000193
方阵HRm是上三角矩阵且每一个n=1...M都有r(n,n)>0,所以HRm存在逆矩阵HRm-1。取Q-1的前Nbc行构造矩阵invQm,满足
HRm*Hbc=invQm*Hs_bedcop
所以有:
Hbc=HRm-1*HRm*Hbc=HRm-1*invQm*Hs_bedcop
令invHRQ=HRm-1*invQm,有
Hbc=invHRQ*Hs_bedcop
即Sbedc中所有的声道信号
Figure BDA0001183487370000194
都可以根据集合Ssrbedcop和fb(k,i)、betob(m)、bctob(n)运算得到,满足前述对兼容基础声道集合的定义,所以Sbedc为Sbed的兼容基础声道集合。这种情况下的特征是:兼容基础声道组成的矩阵可以通过对所有兼容基础声道下混分量所组成的矩阵进行逆映射求得,逆映射的过程可以通过矩阵invHRQ来表达。这种情况下,基础声道划分边信息包括betob(m)(m=1...Nbe)、bctob(n)(n=1...Nbc)、invHRQ,将invHRQ称为兼容基础声道映射系数逆矩阵,它可以通过fb(k,i)、betob(m)、bctob(n)等信息计算得到。
更宽泛的范围内,如果fb(k,i)(x(t))=a(k,i)*fb(k,1)(x(t)),且fb(k,1)存在逆函数fb-1(k,1),则也可以按照上述基于QR分解的划分方法进行基础声道划分,这种情况下通过矩阵运算得到Hbc后,还需要对每个解码的声道信号进行fb-1(k,1)的操作,以得到最终的解码的兼容基础声道信号。
实施例3
如图6所示,本发明提供的三维声编码器包括基础声道划分模块、下混模块、扩展编码模块、扩展编码数据再组织模块、DCP打包模块。与实施例2的区别在于下混方案采用外部输入。
步骤3.1)基础声道划分模块
根据外部输入的下混方案(比如可以以一组映射函数fb(k,i)、fo(k,j)来表达),将基础声道划分为兼容基础声道和扩展基础声道两部分,并确定基础声道划分边信息(如)betob(m)、bctob(n)。
如果该三维声节目中不包括基础声道,或兼容基础声道、扩展基础声道与基础声道之间是简单明确的一一对应关系,则可以不需要进行该步骤3.1)。
步骤3.2)下混模块
根据外部输入的下混方案(比如可以以一组映射函数fb(k,i)、fo(k,j)来表达),将三维声节目下混为所兼容的立体声/多声道信号,得到下混兼容基础声道信号
Figure BDA0001183487370000201
如前所述,下混兼容基础声道信号包括基础声道下混分量和声音对象下混分量:
Figure BDA0001183487370000202
基础声道下混分量由每一个基础声道的信号所生成,可以按照如下公式计算每一个下混兼容基础声道k的基础声道下混分量:
Figure BDA0001183487370000203
fb(k,i)是第i个基础声道信号向下混多声道信号的第k个声道进行下混时的下混映射函数。
声音对象下混分量是根据所要兼容的多声道系统对每一个声音对象的信号进行渲染所生成,可以根据如下公式计算每一个下混兼容基础声道k的声音对象下混分量:
Figure BDA0001183487370000211
fo(k,j)是第j个对象向下混多声道信号的第k个声道进行下混时的下混映射函数。
基础声道下混分量
Figure BDA0001183487370000212
又可以分为扩展基础声道下混分量
Figure BDA0001183487370000213
和兼容基础声道下混分量
Figure BDA0001183487370000214
Figure BDA0001183487370000215
可以分别按如下公式计算扩展基础声道下混分量
Figure BDA0001183487370000216
和兼容基础声道下混分量
Figure BDA0001183487370000217
Figure BDA0001183487370000218
Figure BDA0001183487370000219
实施例4
在扩展编码模块采用有损编码时,三维声编码器可进一步优化为包括有损扩展解码器。如图7所示,在改进的三维声编码器中,包括一个下混模块、一个基础声道划分模块、一个有损扩展编码模块、一个有损扩展解码模块,一个扩展编码数据再组织模块和一个DCP打包模块;解码器将有损扩展编码模块输出的扩展编码数据解码,并将解码的下混方案、解码的扩展基础声道、解码的声音对象、解码的基础声道划分边信息输出到下混模块。
实施例5
采用本申请的后向兼容三维声编码方法制作的数字电影,可以兼容现有符合DCP协议的电影服务器。DCP电影服务器在播放采用后向兼容三维声编码方法制作的数字电影时,如果影院安装的音频处理器只支持环绕声格式的环绕声处理器,此时,环绕声处理器可以通过nn/2个AES/EBU信道获得下混兼容基础声道数据,并直接播放该下混兼容基础声道数据,能够获得与现有5.1或7.1环绕声相同的听觉体验,且没有基本二维声音信息的损失。如果影院安装了后向兼容的三维声处理器,可以实现影院的三维声回放,后向兼容三维声编码方法制作数字电影的播放及声音处理过程如图8所示。
如图9所示的用于三维声系统的三维声解码器,包括接收下混兼容基础声道数据模块和接收扩展编码数据模块、扩展解码数据重构模块、扩展解码模块、去下混模块、基础声道组合模块、三维声渲染模块;
步骤5.1)接收下混兼容基础声道数据模块和接收扩展编码数据模块
通过nn/2+mm个AES/EBU信道接收电影服务器传输过来的三维声数据,包括nn/2个AES/EBU信道的下混兼容基础声道数据和mm个AES/EBU信道的再组织后的扩展编码数据,用于输出下混兼容基础声道数据和扩展编码码流。
步骤5.2)扩展解码数据重构模块
对扩展编码码流执行如下操作获得扩展编码数据:
第一步:找到音频标识头,等份切割组合;
第二步:去尾部填充;
第三部:去音频标识头。
步骤5.3)扩展解码模块
用于接收扩展解码数据,输出解码的下混方案、解码的扩展基础声道、解码的基础声道划分边信息、解码的声音对象。如果在编码、解码中遵循确定的同样的下混方案、基础声道划分边信息,则可以不对基础声道划分边信息、下混方案进行解码,而是按照确定的规则生成。扩展解码的过程是前述扩展编码的逆过程。
步骤5.4)去下混模块
按照解码的下混方案,从解码的下混兼容基础声道信号中去除解码的扩展基础声道信号、解码的声音对象的下混成分,并进行逆映射得到解码的兼容基础声道信号。分为两个步骤:
步骤5.4.1):计算兼容基础声道下混分量
按照解码的下混方案,对解码的扩展基础声道信号、解码的声音对象进行下混,从解码的下混兼容基础声道信号中去除解码的扩展基础声道信号、解码的声音对象的下混成分,得到解码的兼容基础声道下混分量;
步骤5.4.2):逆映射
对解码的兼容基础声道下混分量进行逆映射得到解码的兼容基础声道信号。
如果逆映射的过程是简单的直通关系,即解码的兼容基础声道信号与解码的兼容基础声道信号相同,这时则不需要步骤5.4.2):逆映射。
下面以与编码端相对应的两种情况为例对去下混过程进行详细说明。
1)如果编码过程中使用的是对应下混声道的划分方法:
此时,解码的基础声道划分边信息包括betob(m)(m=1...Nbe)、bctob(n)(n=1...Nbc)、compat(n)(n=1...Nbc),解码的下混方案包括下混映射函数fb(k,i)、fo(k,j)。
步骤5.4a.1):计算兼容基础声道下混分量
如图10所示,对于每一个兼容基础声道n=1...Nbc,k=compat(n)为其对应的下混兼容基础声道,从下混兼容基础声道信号
Figure BDA0001183487370000231
中去除解码的扩展基础声道信号、解码的声音对象的下混成分得到兼容基础声道下混分量
Figure BDA0001183487370000232
Figure BDA0001183487370000233
Figure BDA0001183487370000234
其中,扩展基础声道下混分量
Figure BDA0001183487370000235
按照解码的下混方案对解码的扩展基础声道信号下混而来:
Figure BDA0001183487370000236
声音对象下混分量
Figure BDA0001183487370000237
按照解码的下混方案对解码的声音对象下混渲染而来:
Figure BDA0001183487370000238
步骤5.4a.2):逆映射
按照解码的下混方案中映射函数fb(k,bctob(n))的逆函数fb-1(k,bctob(n))对兼容基础声道下混分量
Figure BDA0001183487370000239
进行逆映射,得到解码的兼容基础声道
Figure BDA00011834873700002310
Figure BDA00011834873700002311
逆函数fb-1((k,bctob(n))的运算就是逆映射的过程。
2)如果编码过程中使用的是基于QR分解的划分方法:
此时,解码的基础声道划分边信息包括betob(m)(m=1...Nbe)、bctob(n)(n=1...Nbc)、兼容基础声道映射系数逆矩阵invHRQ,解码的下混方案包括下混映射函数fb(k,i)、fo(k,j)。
步骤5.4b.1):计算兼容基础声道下混分量
对于每一个下混兼容基础声道k,从下混兼容基础声道信号
Figure BDA0001183487370000241
中去除解码的扩展基础声道信号、解码的声音对象的下混成分得到兼容基础声道下混分量
Figure BDA0001183487370000242
Figure BDA0001183487370000243
Figure BDA0001183487370000244
其中,扩展基础声道下混分量
Figure BDA0001183487370000245
按照解码的下混方案对解码的扩展基础声道信号下混而来:
Figure BDA0001183487370000246
声音对象下混分量
Figure BDA0001183487370000247
按照解码的下混方案对解码的声音对象下混渲染而来:
Figure BDA0001183487370000248
所有的
Figure BDA0001183487370000249
组成矩阵
Figure BDA00011834873700002410
步骤5.4b.2):逆映射
如前所述,此时的下混映射函数fb(k,i)满足:
fb(k,i)(x(t))=a(k,i)
根据解码的兼容基础声道映射系数逆矩阵invHRQ,通过如下逆映射求得Hbc
Hbc=invHRQ*Hs_bedcop
Hbc中的第n行即为解码的兼容基础声道信号
Figure BDA0001183487370000251
如果编码端没有对兼容基础声道映射系数逆矩阵invHRQ进行编码,则解码端通过与步骤2.2)基础声道划分模块中所述同样的方法计算而得到invHRQ。
需要指出的是,上述表达式是对逆映射的数学关系的表达,与其等效的实现方式和过程可以有多种,比如也可以通过如下过程求得Hbc:
由兼容基础声道的下混系数a(k,i)构造兼容基础声道下混系数矩阵HAc,HAc为Ns*Nbc矩阵:
Figure BDA0001183487370000252
对HAc进行QR分解的结果是HAc=Q*HR,其中Q为一个Ns×Ns的酉矩阵,HR是一个Ns×Nbc的上三角矩阵:
Figure BDA0001183487370000253
M=Nbc≤Ns,对于每一个n=1...M都满足r(n,n)>0。
因为Q为一个Ns×Ns的酉矩阵,所以其存在逆矩阵Q-1,构造矩阵
QHs_bedcop=Q-1*Hs_bedcop
因为M=min(Ns,Nbc)=Nbc,且对每一个n=1...M都有r(n,n)>0,所以可以取HR的前Nbc行构造方阵
Figure BDA0001183487370000254
方阵HRm是上三角矩阵且每一个n=1...M都有r(n,n)>0,所以HRm存在逆矩阵HRm-1。可以取QHs_bedcop的前Nbc行构造方阵QHs_bedcopm,按照如下方式进行运算得到Hbc:
Hbc=HRm-1*QHs_bedcopm
Hbc中的第n行即为解码的兼容基础声道信号
Figure BDA0001183487370000255
更宽泛的范围内,如果fb(k,i)(x(t))=a(k,i)*fb(k,1)(x(t)),且fb(k,1)存在逆函数fb-1(k,1),则按照上述运算得到Hbc后,还需要对每个解码的声道信号进行fb-1(k,1)的运算,以得到最终的解码的兼容基础声道信号。
步骤5.5:基础声道组合模块
根据前述解码的基础声道划分边信息,将解码的兼容基础声道信号与解码的扩展基础声道信号进行组合,得到解码的基础声道信号。
如果该三维节目没有基础声道信号,或者兼容基础声道信号、扩展基础声道信号与基础声道之间是简单的一一对应关系,或扩展基础声道已经包含了所有基础声道,则可不进行此步骤5.5)的操作。
步骤5.6):三维声渲染模块
接收兼容基础声道码流、解码后的扩展基础声道和声音对象数据进行三维声渲染,生成三维声PCM数据。
步骤5.2)与步骤5.3)之间没有先后顺序的约束关系。
在兼容的立体声、环绕声系统中,则只进行步骤5.1),得到下混兼容基础声道信号。
如上所述,尽管参照特定的优选实施例已经表示和表述了本发明,但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下,可对其在形式上和细节上作出各种变化。

Claims (19)

1.一种三维声编码器,其特征在于,包括:下混及基础声道划分模块,用于接收基础声道和/或声音对象,按照下混方案进行下混和基础声道划分操作,输出下混兼容基础声道数据、扩展基础声道、基础声道划分边信息;扩展编码模块用于接收声音对象、下混方案、扩展基础声道、基础声道划分边信息,输出扩展编码数据;扩展编码数据再组织模块,用于接收扩展编码数据并进行重组操作,使其通过AES/EBU信道传输;DCP打包模块,用于接收下混兼容基础声道数据和重组后的扩展编码数据并按照DCP规范打成DCP码流。
2.根据权利要求1所述的三维声编码器,其特征在于:所述下混及基础声道划分模块包括下混模块和基础声道划分模块,下混模块用于接收基础声道和/或声音对象,输出下混兼容基础声道数据和下混方案,基础声道划分模块用于接收基础声道、下混模块生成的下混方案,输出扩展基础声道、基础声道划分边信息;当所述下混模块接收不包括基础声道时,下混及基础声道划分模块不进行基础声道划分操作,扩展编码模块不进行扩展基础声道、基础声道划分边信息的扩展编码操作;当所述下混模块接收不包括声音对象时,扩展编码模块不进行声音对象的扩展编码操作。
3.根据权利要求1所述的三维声编码器,其特征在于:所述下混及基础声道划分模块包括下混模块和基础声道划分模块,下混模块用于接收基础声道和/或声音对象、外部输入的下混方案,输出下混兼容基础声道数据;基础声道划分模块用于接收基础声道、外部输入的下混方案,输出扩展基础声道、基础声道划分边信息;当所述下混模块接收不包括基础声道时,下混及基础声道划分模块不进行基础声道划分操作,扩展编码模块不进行扩展基础声道、基础声道划分边信息的扩展编码操作;当所述下混模块接收不包括声音对象时,扩展编码模块不进行声音对象的扩展编码操作。
4.根据权利要求1所述的三维声编码器,其特征在于:所述下混及基础声道划分模块包括下混模块和基础声道划分模块,基础声道划分模块用于接收基础声道和外部输入的下混方案,输出所述扩展基础声道和基础声道划分边信息;所述扩展编码模块采用有损编码或无损编码,在采用有损编码时通过有损扩展解码模块将其输出的扩展编码数据进行解码,解码的扩展基础声道、解码的基础声道划分边信息、解码的下混方案、解码的声音对象与所述基础声道输入至下混模块,下混模块输出所述下混兼容基础声道数据;当所述三维声不包括声音对象时,扩展编码模块不进行声音对象的扩展编码操作。
5.根据权利要求2至4任一所述三维声编码器,其特征在于:所述下混模块按照下混方案将基础声道、声音对象下混为下混兼容基础声道,下混兼容基础声道信号分为基础声道下混分量、声音对象下混分量,基础声道下混分量分为扩展基础声道下混分量、兼容基础声道下混分量。
6.根据权利要求2至4任一所述的三维声编码器,其特征在于:所述基础声道划分模块将基础声道划分为兼容基础声道、扩展基础声道;所述基础声道划分模块采用的基础声道划分方案根据基础声道的声道配置、所要兼容的多声道系统及下混映射函数确定。
7.根据权利要求6所述的三维声编码器,其特征在于:根据对应下混声道的划分方法确定的基础声道划分方案包括:
S11:令集合Sbedt=Sbed,
Figure FDA0002621994840000021
Ssrt=Ssr,基础声道信号集合
Figure FDA0002621994840000022
Figure FDA0002621994840000023
下混兼容基础声道信号集合
Figure FDA0002621994840000024
Figure FDA0002621994840000025
fb(k,i)为下混映射函数;
S12:遍历集合Ssrt,找出一个满足如下关系的下混兼容基础声道k:
Figure FDA0002621994840000026
对于所有属于Sc中的声道n,有fb(k,n)=0;
若没有找到,执行步骤S15;
S13:对于步骤S12中的下混兼容基础声道k,遍历集合Sbedt,找出fb(k,m)不为0且fb(k,m)可逆的基础声道m,若没有找到,执行步骤S15;
S14:将步骤S13中找到的基础声道m加入到集合Sc中,得到新的Sc,从Ssrt中去除下混兼容基础声道k,得到新的Ssrt,从Sbedt中去除所有满足fb(k,i)不为0的基础声道i,得到新的Sbedt,若新的Ssrt、新的Sbedt都不为空,跳转到步骤S12,若新的Ssrt、新的Sbedt为空,则执行步骤S15;
S15:Sc或Sc的子集作为基础声道集合Sbed的兼容基础声道集合。
8.根据权利要求6所述的三维声编码器,其特征在于:根据基于QR分解的划分方法确定的基础声道划分方案包括:
S21:令Sbedc=Sbed,Sbed为基础声道信号集合;
S22:采用矩阵运算形式表达Sbedc的下混:Hs_bedcop=HAc*Hbc,Hs_bedcop为Sbedc下混形成的下混分量组成的矩阵,Hbc为Sbedc中基础声道信号组成的矩阵,HAc为Sbedc下混系数矩阵;
S23:对HAc进行QR分解,得HAc=Q*HR,其中Q为一个Ns×Ns的酉矩阵,HR是一个Ns×Nbc的上三角矩阵;
S24:设M=min(Ns,Nbc),Ns为基础声道下混的声道数、Nbc为Sbedc的声道数,如果对于HR中每一个n=1…M,都满足r(n,n)>0,执行步骤S25;否则,对于每一个n=1…M,如果HR中r(n,n)=0,将Sbedc中第n个声道从Sbedc中剔除形成新的集合Sbedc‘,令Sbedc=Sbedc‘并执行步骤S22;
S25:保留Sbedc中n=1…M的声道组成的集合,该集合或集合的子集作为基础声道集合Sbed的兼容基础声道集合。
9.根据权利要求1所述的三维声编码器,其特征在于:所述下混兼容基础声道数据占用nn/2个AES/EBU信道数进行传输,其中nn为下混兼容基础声道的声道数,所述扩展编码数据占用mm个AES/EBU信道数进行传输,mm≤(8-nn/2);所述扩展编码数据重组后每帧的大小等于mm个AES/EBU信道传输能力ll,ll=mm*L*K*N,ll以字节为单位,L为一个AES/EBU信道能够传输的PCM声道数、K为单个扩展基础声道或声音对象进行编码时一帧的音频样本点数、N为一个音频样本点占用的字节数。
10.根据权利要求1或9所述的三维声编码器,其特征在于:所述扩展编码数据再组织模块对扩展编码数据的重组操作包括在每帧扩展编码数据的帧头添加音频标识头,在每帧扩展编码数据尾部填充数据使总帧长等于ll,将总帧长为ll的扩展编码数据等份成mm份子帧。
11.一种三维声编码方法,其特征在于,包括如下步骤:按照下混方案将基础声道和/或声音对象下混为所兼容的下混兼容基础声道数据,将基础声道划分为扩展基础声道、兼容基础声道并确定基础声道划分边信息;将声音对象、下混方案、扩展基础声道、基础声道划分边信息进行编码得到扩展编码数据;对扩展编码数据进行重组操作;按照DCP规范将下混兼容基础声道数据和重组后的扩展编码数据打成DCP码流包。
12.根据权利要求11所述的三维声编码方法,其特征在于:所述扩展编码数据的重组操作包括在每帧扩展编码数据的帧头添加音频标识头,在每帧扩展编码数据尾部填充数据使总帧长等于ll,将总帧长为ll的扩展编码数据等份成mm份子帧。
13.一种用于权利要求1至4任一所述三维声编码器生成DCP码流包解码的三维声解码器,其特征在于,包括接收下混兼容基础声道数据模块,用于接收AES/EBU信道输入的下混兼容基础声道数据;接收扩展编码数据模块,用于接收AES/EBU信道输入的扩展编码码流;扩展解码数据重构模块,用于接收扩展编码码流,输出扩展编码数据;扩展解码模块,用于接收扩展解码数据,输出解码的下混方案、解码的扩展基础声道、解码的基础声道划分边信息、解码的声音对象;去下混模块,用于接收下混兼容基础声道数据、解码的下混方案、解码的扩展基础声道、解码的基础声道划分边信息、解码的声音对象,输出兼容基础声道;基础声道组合模块,用于接收兼容基础声道、解码的扩展基础声道、解码的基础声道划分边信息,输出基础声道;三维声渲染模块,用于接收基础声道、解码的声音对象,输出三维声多通道PCM码流。
14.根据权利要求13所述的三维声解码器,其特征在于:所述扩展解码数据重构模块对扩展编码码流执行操作包括找到音频标识头,组合等份子帧,读取音频标识头中有效信息,去除尾部填充数据,去音频标识头,获取完整的扩展编码数据的帧。
15.根据权利要求13所述的三维声解码器,其特征在于:所述去下混模块包括:按照解码的下混方案,从下混兼容基础声道信号中去除解码的扩展基础声道信号和/或解码的声音对象的下混成分,得到解码的兼容基础声道信号。
16.根据权利要求15所述的三维声解码器,其特征在于:所述去下混模块包括如下步骤:
1)计算兼容基础声道下混分量:按照解码的下混方案,从下混兼容基础声道信号中去除解码的扩展基础声道信号和/或解码的声音对象的下混成分,得到解码的兼容基础声道下混分量;
2)逆映射:对解码的兼容基础声道下混分量进行逆映射得到解码的兼容基础声道信号。
17.根据权利要求16所述的三维声解码器,其特征在于:针对根据对应下混声道的划分方法确定的基础声道划分方案进行的下混和基础声道划分操作,所述去下混模块包括如下步骤:
1)计算兼容基础声道下混分量:对于每一个兼容基础声道n=1...Nbc,k=compat(n)为其对应的下混兼容基础声道,从下混兼容基础声道信号
Figure FDA0002621994840000041
中去除解码的扩展基础声道信号和/或解码的声音对象的下混成分得到兼容基础声道下混分量
Figure FDA0002621994840000042
2)逆映射:对于每一个兼容基础声道n=1...Nbc,k=compat(n)为其对应的下混兼容基础声道,按照解码的下混方案中映射函数fb(k,bctob(n))的逆函数fb-1(k,bctob(n))对兼容基础声道下混分量
Figure FDA0002621994840000051
进行逆映射,得到解码的兼容基础声道
Figure FDA0002621994840000052
Figure FDA0002621994840000053
18.根据权利要求16所述的三维声解码器,其特征在于,针对根据基于QR分解的划分方法确定的基础声道划分方案进行的下混和基础声道划分操作,所述去下混模块包括如下步骤:
1)计算兼容基础声道下混分量:对于每一个下混兼容基础声道k,从下混兼容基础声道信号
Figure FDA0002621994840000054
中去除解码的扩展基础声道信号和/或解码的声音对象的下混成分得到兼容基础声道下混分量
Figure FDA0002621994840000055
所有的
Figure FDA0002621994840000056
Figure FDA0002621994840000057
组成矩阵Hs_bedcop
Figure FDA0002621994840000058
2)逆映射:根据解码的下混方案中兼容基础声道映射系数逆矩阵invHRQ,对Hs_bedcop进行逆映射求得Hbc
Hbc=invHRQ*Hs_bedcop
Hbc中的第n行即为解码的兼容基础声道信号
Figure FDA0002621994840000059
19.一种用于权利要求11所述三维声编码方法生成DCP码流包解码的三维声解码方法,其特征在于,包括如下步骤:获取AES/EBU信道传输的下混兼容基础声道数据和扩展编码码流,找到音频标识头,对扩展编码码流进行等份子帧组合,读取音频标识头中有效信息,去除尾部填充数据和音频标识头,获取扩展编码数据;对扩展编码数据进行解码,输出解码的下混方案、解码的扩展基础声道、解码的基础声道划分边信息、解码的声音对象与下混兼容基础声道数据进行去下混操作输出兼容基础声道;根据解码的基础声道划分边信息,将兼容基础声道与解码的扩展基础声道进行组合生成基础声道;基础声道与解码的声音对象进行三维声渲染生成三维声多声道PCM码流。
CN201611171121.8A 2016-12-16 2016-12-16 利用aes/ebu信道传输三维声信号的编解码器及其编解码方法 Active CN108206022B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611171121.8A CN108206022B (zh) 2016-12-16 2016-12-16 利用aes/ebu信道传输三维声信号的编解码器及其编解码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611171121.8A CN108206022B (zh) 2016-12-16 2016-12-16 利用aes/ebu信道传输三维声信号的编解码器及其编解码方法

Publications (2)

Publication Number Publication Date
CN108206022A CN108206022A (zh) 2018-06-26
CN108206022B true CN108206022B (zh) 2020-12-18

Family

ID=62601353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611171121.8A Active CN108206022B (zh) 2016-12-16 2016-12-16 利用aes/ebu信道传输三维声信号的编解码器及其编解码方法

Country Status (1)

Country Link
CN (1) CN108206022B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109743627B (zh) * 2019-01-16 2021-11-09 上海文广科技(集团)有限公司 基于avs+视频编码数字电影包的播放方法
CN113948097A (zh) * 2020-07-17 2022-01-18 华为技术有限公司 多声道音频信号编码方法和装置
CN113948096A (zh) * 2020-07-17 2022-01-18 华为技术有限公司 多声道音频信号编解码方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101790753A (zh) * 2007-05-10 2010-07-28 法国电信 音频编/解码方法及相关音频编/解码器和计算机程序
JP2012123090A (ja) * 2010-12-07 2012-06-28 Nippon Hoso Kyokai <Nhk> 音響符号化装置及び復号装置、並びにこれらのプログラム
CN104064194A (zh) * 2014-06-30 2014-09-24 武汉大学 用于提高三维音频空间感距离感的参数编解码方法及系统
CN104240712A (zh) * 2014-09-30 2014-12-24 武汉大学深圳研究院 一种三维音频多声道分组聚类编码方法及系统
CN104978967A (zh) * 2015-07-09 2015-10-14 武汉大学 用于降低空间参数误码率的三维音频编码方法及装置
CN105336333A (zh) * 2014-08-12 2016-02-17 北京天籁传音数字技术有限公司 多声道声音信号编码方法、解码方法及装置
CN105578380A (zh) * 2011-07-01 2016-05-11 杜比实验室特许公司 用于自适应音频信号产生、编码和呈现的系统和方法
CN106023999A (zh) * 2016-07-11 2016-10-12 武汉大学 用于提高三维音频空间参数压缩率的编解码方法及系统
CN106205626A (zh) * 2015-05-06 2016-12-07 南京青衿信息科技有限公司 一种针对被舍弃的子空间分量的补偿编解码装置及方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9247369B2 (en) * 2008-10-06 2016-01-26 Creative Technology Ltd Method for enlarging a location with optimal three-dimensional audio perception
US20130177158A1 (en) * 2011-11-17 2013-07-11 Digital Audio Labs Method for sending multiple pcm audio channels over an industry-standard stereo link
CN105659320B (zh) * 2013-10-21 2019-07-12 杜比国际公司 音频编码器和解码器
CN204795545U (zh) * 2015-07-08 2015-11-18 深圳市宝业恒实业发展有限公司 具有aes/ebu输入并设定左右声道的监听音箱

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101790753A (zh) * 2007-05-10 2010-07-28 法国电信 音频编/解码方法及相关音频编/解码器和计算机程序
JP2012123090A (ja) * 2010-12-07 2012-06-28 Nippon Hoso Kyokai <Nhk> 音響符号化装置及び復号装置、並びにこれらのプログラム
CN105578380A (zh) * 2011-07-01 2016-05-11 杜比实验室特许公司 用于自适应音频信号产生、编码和呈现的系统和方法
CN104064194A (zh) * 2014-06-30 2014-09-24 武汉大学 用于提高三维音频空间感距离感的参数编解码方法及系统
CN105336333A (zh) * 2014-08-12 2016-02-17 北京天籁传音数字技术有限公司 多声道声音信号编码方法、解码方法及装置
CN104240712A (zh) * 2014-09-30 2014-12-24 武汉大学深圳研究院 一种三维音频多声道分组聚类编码方法及系统
CN106205626A (zh) * 2015-05-06 2016-12-07 南京青衿信息科技有限公司 一种针对被舍弃的子空间分量的补偿编解码装置及方法
CN104978967A (zh) * 2015-07-09 2015-10-14 武汉大学 用于降低空间参数误码率的三维音频编码方法及装置
CN106023999A (zh) * 2016-07-11 2016-10-12 武汉大学 用于提高三维音频空间参数压缩率的编解码方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
龚惠哲.Ambisonic声重发系统的优化改进.《中国博士学位论文全文数据库 工程科技II辑》.2011,(第10期),C038-7. *

Also Published As

Publication number Publication date
CN108206022A (zh) 2018-06-26

Similar Documents

Publication Publication Date Title
JP6117997B2 (ja) 符号化表現に基づいて少なくとも4つのオーディオチャネル信号を提供するためのオーディオデコーダ、オーディオエンコーダ、方法、帯域幅拡張を用いた少なくとも4つのオーディオチャネル信号に基づいて符号化表現を提供するための方法およびコンピュータプログラム
CA2645912C (en) Methods and apparatuses for encoding and decoding object-based audio signals
KR101492826B1 (ko) 다수의 출력 오디오 채널들을 생성하기 위한 장치 및 방법과, 그 장치를 포함하는 수신기 및 오디오 재생 디바이스, 데이터 스트림 수신 방법, 및 컴퓨터 판독가능 기록매체
KR101810342B1 (ko) 제 1 및 제 2 입력 채널들을 적어도 하나의 출력 채널에 매핑하기 위한 장치 및 방법
AU2007300810B2 (en) Methods and apparatuses for encoding and decoding object-based audio signals
US9966080B2 (en) Audio object encoding and decoding
RU2406166C2 (ru) Способы и устройства кодирования и декодирования основывающихся на объектах ориентированных аудиосигналов
US20170365262A1 (en) Audio decoding device
JP2011501544A (ja) ダウンミックスを用いたオーディオコーディング
CN108206022B (zh) 利用aes/ebu信道传输三维声信号的编解码器及其编解码方法
CN108206984B (zh) 利用多信道传输三维声信号的编解码器及其编解码方法
CN108206021B (zh) 一种后向兼容式三维声编码器、解码器及其编解码方法
CN108206983B (zh) 兼容现有音视频系统的三维声信号的编码器及其方法
KR20160101692A (ko) 다채널 신호 처리 방법 및 상기 방법을 수행하는 다채널 신호 처리 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 210000 stone city, Gulou District, Nanjing, Jiangsu

Patentee after: WAVARTS TECHNOLOGIES CO.,LTD.

Address before: 210000 Room 302, No. 69, shitoucheng, Nanjing, Jiangsu

Patentee before: NANJING QINGJIN INFORMATION TECHNOLOGY Co.,Ltd.

CP03 Change of name, title or address
TR01 Transfer of patent right

Effective date of registration: 20220414

Address after: 101399 room 1001, building 1, No. 8, jinmayuan Third Street, Gaoliying Town, Shunyi District, Beijing

Patentee after: Beijing panoramic sound information technology Co.,Ltd.

Address before: 210000 stone city, Gulou District, Nanjing, Jiangsu

Patentee before: WAVARTS TECHNOLOGIES CO.,LTD.

TR01 Transfer of patent right