CN103369326A

CN103369326A - 适于高性能视频编码标准hevc的变换编码器

Info

Publication number: CN103369326A
Application number: CN2013102833903A
Authority: CN
Inventors: 李甫; 樊春晓; 牛毅; 石光明; 齐飞; 周蕾蕾; 张犁; 宋晓丹; 焦丹丹
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2013-07-05
Filing date: 2013-07-05
Publication date: 2013-10-23
Anticipated expiration: 2033-07-05
Also published as: CN103369326B

Abstract

本发明公开了一种适于高性能视频编码标准HEVC的变换编码器，主要解决现有技术中乘法器使用过多，电路复杂的问题。其包括：一维DCT模块(1)、转置缓冲模块(2)和顶层控制模块(3)，其中一维DCT模块(1)采用多个蝶形运算单元与多个奇系数处理单元完成HEVC标准中的各种DCT变换，该奇系数处理单元，通过将复杂的乘法操作分解至多级电路并使用移位器、加法器和减法器实现，即使用多级移位器、加法器和减法器替代矩阵乘法器，以简化电路结构。本发明具有结构简单规整，复用度高，关键路径短，时钟频率高，易于集成的优点，可在不使用乘法器的情况下高效地实现对视频残差数据的变换编码。

Description

适于高性能视频编码标准HEVC的变换编码器

技术领域

本发明属于电子电路技术领域，具体涉及视频压缩编码标准HEVC中的变换编码器结构，可应用于超大规模集成电路设计。

背景技术

众所周知，随着电子信息产业的不断发展，数字视频技术的应用已经变得日益广泛。然而，随着图像分辨率的不断提升，其对应的数据量也随之增大。这些海量数据与硬盘容量和信道容量间的矛盾也显得日益突出。因而，高数据率、大数据量问题对现有的压缩算法提出了巨大的挑战，成为了扩展高分辨率视频应用领域的一大瓶颈。如何在不损失或者尽量不损失信息的情况下减少数据量已经成为人们正在研究的问题。因此，许多图像视频压缩算法被人们相继提出。

其中，HEVC作为最新的视频压缩编码标准，其采用了很多高效的图像压缩算法。相对于H.264视频压缩编码标准，它采用了更精细的树状分块结构，使得图像的分块更加精细；而且基本块的大小也由H.264中采用的16×16增大到64×64，使其更适于大图像的压缩。然而在获得更高的压缩效率的同时，其对应的运算复杂度也大大增加。随着基本块大小的提升，HEVC变换单元的大小也随之增大，其需支持4×4、8×8、16×16和32×32四种DCT变换，使得其对应电路中的乘法器个数急剧增大，变换电路变得十分复杂，成为硬件实现的一个难点。因而，设计一个高效的变换编码器显得十分重要。

目前为止，为了减少变换编码模块中的乘法器个数，降低变换编码模块的复杂度，已提出的变换编码结构主要有以下两种：

第一种是在HEVC测试模型中采用的部分蝶形与矩阵乘法器相结合的结构，其利用了变换编码中基矩阵的对称性，减少了3倍的乘法器个数。该结构由四个蝶形结构和四个矩阵乘法器构成。其中，蝶形结构由一系列加法器和减法器组成，在蝶形结构之后，运算被分成两个部分，偶数部分和奇数部分，该奇数部分通过复用变换块大小更小的变换电路来完成计算，该偶数部分则是使用矩阵乘法器进行计算。虽然该结构已经经过优化，但是其矩阵乘法器中乘法器的个数依然很多，不易硬件实现。

第二种是西安电子科技大学提出的专利申请“适于HEVC标准的变换编码器”（专利申请号201210251115.9，公开号CN102857756A）。该发明公布了一种适于HEVC标准的变换编码器，主要用于解决部分蝶形与矩阵乘法器相结合结构中乘法器使用过多的问题。该结构包括一维DCT/DST模块、转置缓冲模块和顶层控制单元。其中，一维DCT/DST模块结合蝶形结构和矩阵乘法阵列，完成HEVC的各种变换编码；转置缓冲模块利用寄存器间的路径延迟和存储器不同的存储和读取顺序，完成变换数据的转置操作；顶层控制单元产生一维DCT/DST模块和转置缓冲模块的复位和使能信号，控制各模块协调工作。但该结构中的一维变换模块依然要使用48个乘法器，其电路结构较复杂，不利于硬件高效实现，且其在实现较大块的变换编码时所需要的时钟周期也比较长。

发明内容

本发明的目的在于针对上述已有技术的不足，提出一种适于高性能视频编码标准HEVC的变换编码器，以降低电路结构的复杂度，减少变换编码时所需要的时钟周期，易于硬件实现，满足HEVC编码标准的高性能实现要求。

实现本发明目的技术思路是：通过对部分蝶形与矩阵乘法器相结合结构中的矩阵乘法操作进行分解，将其复杂的乘法操作分解至多级电路完成，即由简单的移位器和加法器完成操作，使得每一级电路的运算复杂度大大降低，从而缩短关键路径，提高变换编码电路的时钟频率和编码效率，最终得到一个不包含乘法器的适于高性能视频编码标准HEVC的变换编码器。

根据上述思路，本发明的变换编码器包括：一维DCT模块、转置缓冲模块和顶层控制模块，该一维DCT模块的数据输出端与转置缓冲模块的数据输入端相连，数据输入端与转置缓冲模块的数据输出端相连；该顶层控制模块分别与一维DCT模块的复位端、使能端以及转置缓冲模块的复位端、使能端相连，其特征在于：

所述一维DCT模块，包括：

32点蝶形运算单元，用于完成对输入的待变换系数两两相加和两两相减的操作，并将相加操作得到的16个数据输入给16点蝶形运算单元，将相减操作得到的16个数据输入给32点奇系数处理单元；

16点蝶形运算单元，用于完成对32点蝶形运算单元输入的16个数据两两相加和两两相减的操作，并将相加得到的8个数据输入给8点蝶形运算单元，将相减得到的8个数据输入给16点奇系数处理单元；

32点奇系数处理单元，用于求出由32点蝶形运算单元输入的16个数据与这16个数据自身左移后系数的和，并按16组不同的移位次数将求和结果分别进行移位、相加、相减，求得16个变换数据，并输入给转置缓冲模块；

8点蝶形运算单元，用于完成对16点蝶形运算单元输入的8个数据两两相加和两两相减的操作，并将相加得到的4个数据输入给4点蝶形运算单元，将相减得到的4个数据输入给8点奇系数处理单元；

16点奇系数处理单元，用于求出由16点蝶形运算单元输入的8个数据与这8个数据自身左移后系数的和，并按8组不同的移位次数将求和结果分别进行移位、相加、相减，求得8个变换数据，并输入给转置缓冲模块；

4点蝶形运算单元，用于完成对8点蝶形运算单元输入的4个数据两两相加和两两相减，并将相加得到的2个数据输入给4点偶系数处理单元，将相减得到的2个数据输入给4点奇系数处理单元；

8点奇系数处理单元，用于求出由8点蝶形运算单元输入的4个数据与这4个数据自身左移后系数的和，并按4组不同的移位次数将求和结果分别进行移位、相加、相减，求得4个变换数据并输入给转置缓冲模块；

4点偶系数处理单元，用于完成对4点蝶形运算单元输入的2个数据进行延迟，并移位相加、相减的操作，求得2个变换数据并输入给转置缓冲模块；

4点奇系数处理单元，用于求出由4点蝶形运算单元输入的2个数据与这2个数据自身左移后系数的和，并按2组不同的移位次数将求和结果分别进行移位、相加、相减，求得2个变换数据并输入给转置缓冲模块；

复位使能控制单元，与顶层控制模块相连，用于接收顶层控制模块输出的复位和使能信号，并根据复位和使能信号控制一维DCT模块中的各个单元的复位和使能。

本发明与现有技术相比具有以下优点：

第一，本发明采用了统一的变换实现结构，可以使用同一个的编码器电路完成4种不同块大小的DCT变换，从而提高了电路的复用程度，极大的减小了电路规模；

第二，本发明采用的一维DCT模块，通过将复杂的乘法运算分配到多级电路中完成，使用不包含乘法器的奇系数处理单元完成复杂的乘法操作，减小了每一级电路中的复杂度，提高了系统时钟频率，更适于硬件实现；

附图说明

图1为本发明变换编码器的总体结构框图；

图2为本发明转置缓冲模块结构示意图；

图3为本发明中一维DCT模块的结构框图；

图4为本发明中32点蝶形运算单元、16点蝶形运算单元、8点蝶形运算单元和4点蝶形运算单元的结构与连接示意图；

图5为本发明中4点偶系数处理单元的结构图；

图6为本发明中4点奇系数处理单元的结构图；

图7为本发明中8点系数相加子单元的结构图；

图8为本发明中16点系数相加子单元的结构图；

图9为本发明中32点系数相加子单元的结构图。

具体实施方式

本发明是对现有HEVC标准中一维变换结构的改进，可以减少每级流水的运算复杂度，提高系统时钟，且更易于硬件的并行实现。

下面结合附图和实施例对本发明进行详细说明。

参照图1，本发明的高性能视频编码标准HEVC的变换编码器，由一维DCT模块1、转置缓冲模块2和顶层控制模块3构成，其中顶层控制模块3的输出分为两路，第一路与一维DCT模块1连接，第二路与转置缓冲模块2连接；一维DCT模块1的数据输入端的输入分为两路，第一路与外部的输入数据连接，第二路与转置缓冲模块2的数据输出端连接；一维DCT模块1的数据输出端与转置缓冲模块2的数据输入端连接；转置缓冲模块2的数据输入端与一维DCT模块1的数据输出端连接，转置缓冲模块2的数据输出端的输出分为两路，第一路与一维DCT模块1的数据输入端连接，第二路与外部的输出端连接。其中：

所述顶层控制模块3，包括复位使能模块30和数据流控制模块31，复位使能模块30分别与一维DCT模块1的复位使能控制单元19和转置缓冲模块2的转置复位使能单元20相连，为这两个模块提供使能和复位信号；数据流控制模块31与转置缓冲模块2的地址控制单元22相连，用于产生控制信号，控制转置缓冲模块2的读写方式及读写顺序。该复位使能模块30和数据流控制模块31均由计数器和逻辑电路构成，用于根据计数器的计数状态和当前进行的变换类型，由逻辑电路产生一维DCT模块1的复位、使能和转置缓冲模块2的复位、使能、数据流控制信号，控制一维DCT模块1对变换编码器的输入数据进行一维行变换，并产生控制信号控制转置缓冲模块2接收一维DCT模块1的行变换结果，在所有行数据处理完成之后，控制转置缓冲模块2将转置后的行变换结果输出至一维DCT模块1进行一维列变换。

参照图2，所述转置缓冲模块2，包括转置复位使能单元20、RAM存储器21和地址控制单元22，转置复位使能单元20由逻辑电路构成，用于接收顶层控制模块3发出的复位、使能信号，并产生控制信号控制RAM存储器21和地址控制单元22的复位和使能；RAM存储器21由8个存储器阵列构成，每一个存储器阵列均与一维DCT模块1相连；地址控制单元22与RAM存储器21中每个存储器阵列的地址端相连，用于产生每个存储器的输入输出使能及输入输出地址，实现将一维DCT模块1输入的DCT变换结果分别存入8个存储器阵列中，再按行或按列输出的操作。

所述一维DCT模块1，用于完成HEVC标准中的4点DCT、8点DCT、16点DCT以及32点DCT一维变换，其结构如图3所示。

参照图3，一维DCT模块1，包括32点蝶形运算单元10，16点蝶形运算单元11，32点奇系数处理单元12，8点蝶形运算单元13，16点奇系数处理单元14，4点蝶形运算单元15，8点奇系数处理单元16，4点偶系数处理单元17，4点奇系数处理单元18，复位使能控制单元19，其中：

所述复位使能控制单元19，由逻辑电路构成，其与顶层控制模块3的复位使能单元30和一维DCT模块1的各个单元相连，用于接收顶层控制模块3输出的复位和使能信号，并根据复位和使能信号控制整个一维DCT模块1中的各个单元的复位和使能。

所述32点蝶形运算单元10，由16个加法器和16个减法器构成，这16个加法器与16点蝶形运算单元11相连，这16个减法器与32点奇系数处理单元12相连，如图4所示。

该16个加法器对从一维DCT模块1输入端输入的32个数据进行首尾两两求和，即求得第1个数据与第32数据之和E₀，再求第2个数据与第31数据之和E₁，如此类推，求得第16个数据与第17个数据之和E₁₅，并将求得的16个相加结果E₀～E₁₅输入给16点蝶形运算单元11；

该16个减法器对从一维DCT模块1输入端输入的32个系数进行首尾两两求差，即求得第1个数据与第32数据之差O₀，再求得第2个数据与第31数据之差O₁，如此类推，求得第16个数据与第17个数据之差O₁₅，并将求得的16个相减结果O₀～O₁₅输入给32点奇系数处理单元12。

所述16点蝶形运算单元11，由8个加法器和8个减法器构成，这8个加法器与8点蝶形运算单元13相连，这8个减法器与16点奇系数处理单元14相连，如图4所示。

该8个加法器对由32点蝶形运算单元10输入的数据E₀～E₁₅进行首尾两两求和，即求得E₀与E₁₅之和EE₀，再求得E₁与E₁₄之和EE₁，如此类推，求得E₇与E₈之和EE₇，并将求得的8个相加结果EE₀～EE₇输入给8点蝶形运算单元13；

该8个减法器对数据E₀～E₁₅进行首尾两两求差，即求得E₀与E₁₅之差EO₀，再求得E₁与E₁₄之差EO₁，如此类推，求得E₇与E₈之差EO₇，并将求得的8个相减结果EO₀～EO₇输入给16点奇系数处理单元14。

所述8点蝶形运算单元13，由4个加法器和4个减法器构成，这4个加法器与4点蝶形运算单元15，这4个减法器与8点奇系数处理单元16相连，如图4所示。

该4个加法器对由16点蝶形运算单元11输入的数据EE₀～EE₇进行首尾两两求和，即求得EE₀与EE₇之和EEE₀，再求得EE₁与EE₆之和EEE₁，如此类推，求得并EE₃与EE₄之和EEE₃，将求得的4个相加结果EEE₀～EEE₃输入给4点蝶形运算单元15；

该4个减法器对数据EE₀～EE₇进行首尾两两求差，即求得EE₀与EE₇之差EEO₀，再求得EE₁与EE₆之差EEO₁，如此类推，求得并，并EE₃与EE₄之差EEO₃将求得的4个相减结果EEO₀～EEO₃输入给8点奇系数处理单元16。

所述4点蝶形运算单元15，由2个加法器和2个减法器构成，这2个加法器与4点偶系数处理单元17，这2个减法器与4点奇系数处理单元18相连，如图4所示。

该2个加法器用以求得由8点蝶形运算单元13输入的数据EEE₀与EEE₃之和EEEE₀，及输入的数据EEE₁与EEE₂之和EEEE₁，并将求得的这2个相加结果EEEE₀、EEEE₁输入给4点偶系数处理单元17；

该2个减法器用以求得输入的数据EEE₀与EEE₃之差EEEO₀，及输入的数据EEE₁与EEE₂之差EEEO₁，并将求得的2个相减结果EEEO₀、EEEO₁输入给4点奇系数处理单元18。

参照图5，所述4点偶系数处理单元17，由延迟子单元170、2点蝶形运算子单元171和移位子单元172构成；

该延迟子单元170，对由4点蝶形运算单元15输入的数据EEEE₀与EEEE₁进行2个时钟周期的延迟，得到延迟数据EEEE_{0_0}与EEEE_{1_0}，并将这2个数据送入2点蝶形运算子单元171；

该2点蝶形运算子单元171，由1个加法器和1个减法器构成，用于对延迟子单元170输入的延迟数据EEEE_{0_0}与EEEE_{1_0}分别进行相加和相减，得到相加数据EEEEE和相减数据EEEEO送入移位子单元172；

该移位子单元172，由2个移位器构成，用于对由2点蝶形运算子单元171输入的数据EEEEE与EEEEO进行左移6位，并将求得的2个结果系数并输出给转置缓冲模块2。

参照图6，所述4点奇系数处理单元18，由1个4点系数运算子单元180和2个4点系数相加子单元181构成；

该4点系数运算子单元180，由寄存器、移位器和加法器级联构成，用于完成对由4点蝶形运算单元15输入的数据EEEO₀、EEEO₁进行延迟，得到延迟系数EEEO_{0_0}、EEEO_{1_0}，并分别求得EEEO₀与EEEO₀，及EEEO₁与EEEO₁自身左移不同位后的数据之和，即：

求得EEEO₀与EEEO₀自身左移1位后的数据之和，得到4点的第一求和系数EEEO_{0_1}，

求得EEEO₁与EEEO₁自身左移1位后的数据之和，得到4点的第二求和系数EEEO_{1_1}，

求得EEEO₀与EEEO₀自身左移2位后的数据之和，得到4点的第三求和系数EEEO_{0_2}，

求得EEEO₁与EEEO₁自身左移2位后的数据之和，得到4点的第四求和系数EEEO_{1_2}，

再将这些延迟系数及求和系数输入给每个4点系数相加子单元181；

每个4点系数相加子单元181，由移位器、加法器和减法器级联构成，用于求得DCT变换的一个结果系数，即分3级对4点系数运算子单元180输入的两个延迟系数EEEO_{0_0}，EEEO_{1_0}，以及四个求和系数EEEO_{0_1}，EEEO_{0_2}，EEEO_{1_1}，EEEO_{1_2}进行合并，其中：

第1级，同时是对如下三组系数分别进行一次合并：

第一组是将EEEO_{0_0}和EEEO_{1_0}这两个延迟系数分别左移后，再进行相加或相减，得到4点的第1级的第一个合并系数COE_{4_101}；

第二组是将EEEO_{0_1}和EEEO_{1_1}这两个求和系数分别左移后，再进行相加或相减，得到4点的第1级的第二个合并系数COE_{4_102}；

第三组是将EEEO_{0_2}和EEEO_{1_2}这两个求和系数分别左移后，再进行相加或相减，得到4点的第1级的第三个合并系数COE_{4_103}；

第2级是同时对第1级求得的三个合并系数分别进行二次合并：

将4点的第1级的第一个合并系数COE_{4_101}和4点的第1级的第二个合并系数COE_{4_102}分别左移后，再进行相加或相减，得到4点的第2级的第一个合并系数COE_{4_201}；

将4点的第1级的第三个合并系数COE_{4_103}进行左移，得到4点的第2级的第二个合并系数COE_{4_202}；

第3级是对第2级求得的两个合并系数进行合并，即将4点的第2级的第一个合并系数COE_{4_201}和4点的第2级的第二个合并系数COE_{4_202}分别左移后，再进行相加或相减，得到一个4点的结果系数COEFF₄，并将该4点的结果系数COEFF₄输出给转置缓冲模块2。

所述8点奇系数处理单元16，由1个8点系数运算子单元160和4个8点系数相加子单元161构成；

该8点系数运算子单元160，由寄存器、移位器和加法器级联构成，用于对8点蝶形运算单元13输入的数据EEO₀～EEO₃分别进行延迟，得到延迟系数EEO_{0_0}～EEO_{3_0}，并分别求得数据EEO₀～EEO₃与该数据EEO₀～EEO₃自身左移不同位后的数据之和，即：

求得EEO₀与EEO₀自身左移1位后的数据之和，得到8点的第一求和系数EEO_{0_1}；

求得EEO₁与EEO₁自身左移1位后的数据之和，得到8点的第二求和系数EEO_{1_1}；

求得EEO₂与EEO₂自身左移1位后的数据之和，得到8点的第三求和系数EEO_{2_1}；

求得EEO₃与EEO₃自身左移1位后的数据之和，得到8点的第四求和系数EEO_{3_1}；

求得EEO₀与EEO₀自身左移2位后的数据之和，得到8点的第五求和系数EEO_{0_2}；

求得EEO₁与EEO₁自身左移2位后的数据之和，得到8点的第六求和系数EEO_{1_2}；

求得EEO₂与EEO₂自身左移2位后的数据之和，得到8点的第七求和系数EEO_{2_2}；

求得EEO₃与EEO₃自身左移2位后的数据之和，得到8点的第八求和系数EEO_{3_2}；

将这八个求和系数送入给每个8点系数相加子单元161；

每个8点系数相加子单元161，由移位器、加法器和减法器级联构成，用于求得DCT变换的一个结果系数，即分4级对由8点系数运算子单元160输入的系数EEO_{0_0}～EEO_{3_0}、EEO_{0_1}～EEO_{3_1}及EEO_{0_2}～EEO_{3_2}进行移位相加或移位相减，其中：

第1级，同时是对如下六组系数分别进行一次合并：

第一组是将EEO_{0_0}和EEO_{1_0}这两个延迟系数分别左移后，再进行相加或相减，得到8点第1级的第一个合并系数COE_{8_101}；

第二组是将EEO_{2_0}和EEO_{3_0}这两个延迟系数分别左移后，再进行相加或相减，得到8点第1级的第二个合并系数COE_{8_102}；

第三组是将EEO_{0_1}和EEO_{1_1}这两个求和系数分别左移后，再进行相加或相减，得到8点第1级的第三个合并系数COE_{8_103}；

第四组是将EEO_{2_1}和EEO_{3_1}这两个求和系数分别左移后，再进行相加或相减，得到8点第1级的第四个合并系数COE_{8_104}；

第五组是将EEO_{0_2}和EEO_{1_2}这两个求和系数分别左移后，再进行相加或相减，得到8点第1级的第五个合并系数COE_{8_105}；

第六组是将EEO_{2_2}和EEO_{3_2}这两个求和系数分别左移后，再进行相加或相减，得到8点第1级的第六个合并系数COE_{8_106}；

第2级，同时是对第1级求得的三组合并系数分别进行二次合并：

第一组是将COE_{8_101}和COE_{8_102}这两个合并系数分别左移后，再进行相加或相减，得到8点第2级的第一个合并系数COE_{8_201}；

第二组是将COE_{8_103}和COE_{8_104}这两个合并系数分别左移后，再进行相加或相减，得到8点第2级的第二个合并系数COE_{8_202}；

第三组是将COE_{8_105}和COE_{8_106}这两个合并系数分别左移后，再进行相加或相减，得到8点第2级的第三个合并系数COE_{8_203}；

第3级是同时对第2级求得的三个合并系数分别进行三次合并：

将8点第2级的第一个合并系数COE_{8_201}和8点第2级的第二个合并系数COE_{8_202}分别左移后，再进行相加或相减，得到8点第3级的第一个合并系数COE_{8_301}；

将8点第2级的第三个合并系数COE_{8_203}进行左移，得到8点第3级的第二个合并系数COE_{8_302}；

第4级是对第3级求得的两个合并系数进行合并，即将8点第3级的第一个合并系数COE_{8_301}和8点第3级的第二个合并系数COE_{8_302}分别左移后，再进行相加或相减，得到一个8点的结果系数COEFF₈，并将该8点的结果系数COEFF₈输出给转置缓冲模块2，如图7所示。

所述16点奇系数处理单元14，由1个16点系数运算子单元140和8个16点系数相加子单元141构成；

该16点系数运算子单元140，由寄存器、移位器和加法器级联构成，用于对16点蝶形运算单元11输入的数据EO₀～EO₇分别进行延迟，得到延迟系数EO_{0_0}～EO_{7_0}，并分别求得延迟系数EO₀～EO₇与EO₀～EO₇自身左移不同位后的数据之和，即：

求得数据EO₀与EO₀自身左移1位后的数据之和，得到16点的第一求和系数EO_{0_1}；

求得数据EO₁与EO₁自身左移1位后的数据之和，得到16点的第二求和系数EO_{1_1}；

如此类推；

求得数据EO₇与EO₇自身左移1位后的数据之和，得到16点的第八求和系数EO_{7_1}；

求得数据EO₀与EO₀自身左移2位后的数据之和，得到16点的第九求和系数EO_{0_2}；

求得数据EO₁与EO₁自身左移2位后的数据之和，得到16点的第十求和系数EO_{1_2}；

如此类推；

求得数据EO₇与EO₇自身左移2位后的数据之和，得到16点的第十六求和系数EO_{7_2}；

将这十六个求和系数送入给每个16点系数相加子单元141；

所述16点系数相加子单元141，由移位器、加法器和减法器级联构成，用于求得DCT变换的一个结果系数，即分5级对由16点系数运算子单元140输入的系数EO_{0_0}～EO_{7_0}、EO_{0_1}～EO_{7_1}及EO_{0_2}～EO_{7_2}进行移位相加或移位相减，其中：

第1级，同时是对如下十二组系数分别进行一次合并：

第一组是将EO_{0_0}和EO_{1_0}这两个延迟系数分别左移后，再进行相加或相减，得到16点的第1级的第一个合并系数COE_{16_101}；

第二组是将EO_{2_0}和EO_{3_0}这两个延迟系数分别左移后，再进行相加或相减，得到16点的第1级的第二个合并系数COE_{16_102}；

第三组是将EO_{4_0}和EO_{5_0}这两个延迟系数分别左移后，再进行相加或相减，得到16点的第1级的第三个合并系数COE_{16_103}；

第四组是将EO_{6_0}和EO_{7_0}这两个延迟系数分别左移后，再进行相加或相减，得到16点的第1级的第四个合并系数COE_{16_104}；

第五组是将EO_{0_1}和EO_{1_1}这两个求和系数分别左移后，再进行相加或相减，得到16点的第1级的第五个合并系数COE_{16_105}；

第六组是将EO_{2_1}和EO_{3_1}这两个求和系数分别左移后，再进行相加或相减，得到16点的第1级的第六个合并系数COE_{16_106}；

如此类推；

第十一组是将EO_{4_2}和EO_{5_2}这两个求和系数分别左移后，再进行相加或相减，得到16点的第1级的第十一个合并系数COE_{16_111}；

第十二组是将EO_{6_2}和EO_{7_2}这两个求和系数分别左移后，再进行相加或相减，得到16点的第1级的第十二个合并系数COE_{16_112}；

第2级，同时是对如下六组系数分别进行二次合并：

第一组是将COE_{16_101}和COE_{16_102}这两个合并系数分别左移后，再进行相加或相减，得到16点的第2级的第一个合并系数COE_{16_201}；

第二组是将COE_{16_103}和COE_{16_104}这两个合并系数分别左移后，再进行相加或相减，得到16点的第2级的第二个合并系数COE_{16_202}；

第三组是将COE_{16_105}和COE_{16_106}这两个合并系数分别左移后，再进行相加或相减，得到16点的第2级的第三个合并系数COE_{16_203}；

第四组是将COE_{16_107}和COE_{16_108}这两个合并系数分别左移后，再进行相加或相减，得到16点的第2级的第四个合并系数COE_{16_204}；

第五组是将COE_{16_109}和COE_{16_110}这两个合并系数分别左移后，再进行相加或相减，得到16点的第2级的第五个合并系数COE_{16_205}；

第六组是将COE_{16_111}和COE_{16_112}这两个合并系数分别左移后，再进行相加或相减，得到16点的第2级的第六个合并系数COE_{16_206}；

第3级，同时是对如下三组合并系数分别进行三次合并：

第一组是将COE_{16_201}和COE_{16_202}这两个合并系数分别左移后，再进行相加或相减，得到16点的第3级的第一个合并系数COE_{16_301}；

第二组是将COE_{16_203}和COE_{16_204}这两个合并系数分别左移后，再进行相加或相减，得到16点的第3级的第二个合并系数COE_{16_302}；

第三组是将COE_{16_205}和COE_{16_206}这两个合并系数分别左移后，再进行相加或相减，得到16点的第3级的第三个合并系数COE_{16_303}；

第4级是同时对第3级求得的三个合并系数分别进行四次合并：

将16点的第3级的第一个合并系数COE_{16_301}和16点的第3级的第二个合并系数COE_{16_302}分别左移后，再进行相加或相减，得到16点的第4级的第一个合并系数COE_{16_401}；

将16点的第3级的第三个合并系数COE_{16_303}进行左移，得到16点的第4级的第二个合并系数COE_{16_402}；

第5级是对第4级求得的两个合并系数进行合并，即将16点的第4级的第一个合并系数COE_{16_401}和16点的第4级的第二个合并系数COE_{16_402}分别左移后，再进行相加或相减，得到一个16点的结果系数COEFF₁₆，并将该16点的结果系数COEFF₁₆输出给转置缓冲模块2，如图8所示。

所述32点奇系数处理单元12，由1个32点系数运算子单元120和16个32点系数相加子单元121构成；

该32点系数运算子单元120，由寄存器、移位器和加法器级联构成，用于对32点蝶形运算单元10输入的数据O₀～O₁₅分别进行延迟，得到延迟系数O_{0_0}～O_{15_0}，并分别求得输入数据O₀～O₁₅与该O₀～O₁₅自身左移不同位后的数据之和，即：

求得O₀与O₀自身左移1位后的数据之和，得到32点的第一求和系数O_{0_1}；

求得O₁与O₁自身左移1位后的数据之和，得到32点的第二求和系数O_{1_1}；

如此类推；

求得O₁₅与O₁₅自身左移1位后的数据之和，得到32点的第十六求和系数O_{15_1}；

求得O₀与O₀自身左移2位后的数据之和，得到32点的第十七求和系数O_{0_2}；

求得O₁与O₁自身左移2位后的数据之和，得到32点的第十八求和系数O_{1_2}；

如此类推；

求得O₁₅与O₁₅自身左移2位后的数据之和，得到32点的第三十二求和系数O_{15_2}；

求得O₀与O₀自身左移3位后的数据之和，得到32点的第三十三求和系数O_{0_3}；

求得O₁与O₁自身左移3位后的数据之和，得到32点的第三十四求和系数O_{1_3}；

如此类推；

求得O₁₅与O₁₅自身左移3位后的数据之和，得到32点的第四十八求和系数O_{15_3}；

将这四十八个求和系数送入给每个32点系数相加子单元121；

每个32点系数相加子单元121，用于求得DCT变换的一个结果系数，该子单元由移位器、加法器和减法器级联构成，分6级对由32点系数运算子单元120输入的系数O_{0_0}～O_{15_0}、O_{0_1}～O_{15_1}、O_{0_2}～O_{15_2}和O_{0_3}～O_{15_3}进行移位相加或移位相减，

其中：

第1级，同时是对如下三十二组系数分别进行一次合并：

第一组是将O_{0_0}和O_{1_0}这两个延迟系数分别左移后，再进行相加或相减，得到32点的第1级的第一个合并系数COE_{32_101}；

第二组是将O_{2_0}和O_{3_0}这两个延迟系数分别左移后，再进行相加或相减，得到32点的第1级的第二个合并系数COE_{32_102}；

第三组是将O_{4_0}和O_{5_0}这两个延迟系数分别左移后，再进行相加或相减，得到32点的第1级的第三个合并系数COE_{32_103}；

如此类推；

第八组是将O_{14_0}和O_{15_0}这两个延迟系数分别左移后，再进行相加或相减，得到32点的第1级的第八个合并系数COE_{32_108}；

第九组是将O_{0_1}和O_{1_1}这两个求和系数分别左移后，再进行相加或相减，得到32点的第1级的第九个合并系数COE_{32_109}；

第十组是将O_{2_1}和O_{3_1}这两个求和系数分别左移后，再进行相加或相减，得到32点的第1级的第十个合并系数COE_{32_110}；

如此类推；

第三十一组是将O_{12_3}和O_{13_3}这两个求和系数分别左移后，再进行相加或相减，得到32点的第1级的第三十一个合并系数COE_{32_131}；

第三十二组是将O_{14_3}和O_{15_3}这两个求和系数分别左移后，再进行相加或相减，得到32点的第1级的第三十二个合并系数COE_{32_132}；

第2级，同时是对如下十六组系数分别进行二次合并：

第一组是将COE_{32_101}和COE_{32_102}这两个合并系数分别左移后，再进行相加或相减，得到32点的第2级的第一个合并系数COE_{32_201}；

第二组是将COE_{32_103}和COE_{32_104}这两个合并系数分别左移后，再进行相加或相减，得到32点的第2级的第二个合并系数COE_{32_202}；

第三组是将COE_{32_105}和COE_{32_106}这两个合并系数分别左移后，再进行相加或相减，得到32点的第2级的第三个合并系数COE_{32_203}；

第四组是将COE_{32_107}和COE_{32_108}这两个合并系数分别左移后，再进行相加或相减，得到32点的第2级的第四个合并系数COE_{32_204}；

第五组是将COE_{32_109}和COE_{32_110}这两个合并系数分别左移后，再进行相加或相减，得到32点的第2级的第五个合并系数COE_{32_205}；

第六组是将COE_{32_110}和COE_{32_111}这两个合并系数分别左移后，再进行相加或相减，得到32点的第2级的第六个合并系数COE_{32_206}；

如此类推；

第十五组是将COE_{32_128}和COE_{32_129}这两个合并系数分别左移后，再进行相加或相减，得到32点的第2级的第十五个合并系数COE_{32_215}；

第十六组是将COE_{32_130}和COE_{32_131}这两个合并系数分别左移后，再进行相加或相减，得到32点的第2级的第十六个合并系数COE_{32_216}；

第3级，同时是对如下八组系数分别进行三次合并：

第一组是将COE_{32_201}和COE_{32_202}这两个合并系数分别左移后，再进行相加或相减，得到32点的第3级的第一个合并系数COE_{32_301}；

第二组是将COE_{32_203}和COE_{32_204}这两个合并系数分别左移后，再进行相加或相减，得到32点的第3级的第二个合并系数COE_{32_302}；

第三组是将COE_{32_205}和COE_{32_206}这两个合并系数分别左移后，再进行相加或相减，得到32点的第3级的第三个合并系数COE_{32_303}；

如此类推；

第七组是将COE_{32_213}和COE_{32_214}这两个合并系数分别左移后，再进行相加或相减，得到32点的第3级的第七个合并系数COE_{32_307}；

第八组是将COE_{32_215}和COE_{32_216}这两个合并系数分别左移后，再进行相加或相减，得到32点的第3级的第八个合并系数COE_{32_308}；

第4级，同时是对如下四组合并系数分别进行四次合并：

第一组是将COE_{32_301}和COE_{32_302}这两个合并系数分别左移后，再进行相加或相减，得到32点的第4级的第一个合并系数COE_{32_401}；

第二组是将COE_{32_303}和COE_{32_304}这两个合并系数分别左移后，再进行相加或相减，得到32点的第4级的第二个合并系数COE_{32_402}；

第三组是将COE_{32_305}和COE_{32_306}这两个合并系数分别左移后，再进行相加或相减，得到32点的第4级的第三个合并系数COE_{32_403}；

第四组是将COE_{32_307}和COE_{32_308}这两个合并系数分别左移后，再进行相加或相减，得到32点的第4级的第四个合并系数COE_{32_404}；

第5级是同时对第4级求得的四个合并系数分别进行五次合并：

将32点的第4级的第一个合并系数COE_{32_401}和32点的第4级的第二个合并系数COE_{32_402}分别左移后，再进行相加或相减，得到32点的第5级的第一个合并系数COE_{32_501}；

将32点的第4级的第三个合并系数COE_{32_403}和32点的第4级的第四个合并系数COE_{32_404}分别左移后，再进行相加或相减，得到32点的第5级的第二个合并系数COE_{32_502}；

第6级是对第5级求得的两个合并系数进行合并，即将32点的第5级的第一个合并系数COE_{32_501}和32点的第5级的第二个合并系数COE_{32_502}分别左移后，再进行相加或相减，得到一个32点的结果系数COEFF₃₂，并将该32点的结果系数COEFF₃₂输出给转置缓冲模块2，如图9所示。

在上述每个4点系数相加子单元181、8点系数相加子单元161、16点系数相加子单元141和32点系数相加子单元121中的每一级合并中，移位次数与加法器或减法器的选取，是根据实际的需求与实验确定。

Claims

1.一种适于高性能视频编码标准HEVC的变换编码器，包括：一维DCT模块（1）、转置缓冲模块（2）和顶层控制模块（3），该一维DCT模块（1）的数据输出端与转置缓冲模块（2）的数据输入端相连，数据输入端与转置缓冲模块（2）的数据输出端相连；该顶层控制模块（3）分别与一维DCT模块（1）的复位端、使能端以及转置缓冲模块（2）的复位端、使能端相连，其特征在于：

所述一维DCT模块（1），包括：

32点蝶形运算单元（10），用于完成对输入的待变换系数两两相加和两两相减的操作，并将相加操作得到的16个数据输入给16点蝶形运算单元（11），将相减操作得到的16个数据输入给32点奇系数处理单元（12）；

16点蝶形运算单元（11），用于完成对32点蝶形运算单元（10）输入的16个数据两两相加和两两相减的操作，并将相加得到的8个数据输入给8点蝶形运算单元（13），将相减得到的8个数据输入给16点奇系数处理单元（14）；

32点奇系数处理单元（12），用于求出由32点蝶形运算单元（10）输入的16个数据与这16个数据自身左移后系数的和，并按16组不同的移位次数将求和结果分别进行移位、相加、相减，求得16个变换数据，并输入给转置缓冲模块（2）；

8点蝶形运算单元（13），用于完成对16点蝶形运算单元（11）输入的8个数据两两相加和两两相减的操作，并将相加得到的4个数据输入给4点蝶形运算单元（15），将相减得到的4个数据输入给8点奇系数处理单元（16）；

16点奇系数处理单元（14），用于求出由16点蝶形运算单元（11）输入的8个数据与这8个数据自身左移后系数的和，并按8组不同的移位次数将求和结果分别进行移位、相加、相减，求得8个变换数据，并输入给转置缓冲模块（2）；

4点蝶形运算单元（15），用于完成对8点蝶形运算单元（13）输入的4个数据两两相加和两两相减，并将相加得到的2个数据输入给4点偶系数处理单元（17），将相减得到的2个数据输入给4点奇系数处理单元（18）；

8点奇系数处理单元（16），用于求出由8点蝶形运算单元（13）输入的4个数据与这4个数据自身左移后系数的和，并按4组不同的移位次数将求和结果分别进行移位、相加、相减，求得4个变换数据并输入给转置缓冲模块（2）；

4点偶系数处理单元（17），用于完成对4点蝶形运算单元（15）输入的2个数据进行延迟，并移位相加、相减的操作，求得2个变换数据并输入给转置缓冲模块（2）；

4点奇系数处理单元（18），用于求出由4点蝶形运算单元（15）输入的2个数据与这2个数据自身左移后系数的和，并按2组不同的移位次数将求和结果分别进行移位、相加、相减，求得2个变换数据并输入给转置缓冲模块（2）；

复位使能控制单元（19），与顶层控制模块（3）相连，用于接收顶层控制模块（3）输出的复位和使能信号，并根据复位和使能信号控制一维DCT模块（1）中的各个单元的复位和使能。

2.根据权利要求1所述的变换编码器，其特征在于：32点蝶形运算单元（10），由16个加法器和16个减法器构成，16个加法器对输入数据进行首尾两两求和，并将求得的16个相加结果E₀～E₁₅输入给16点蝶形运算单元（11）；16个减法器对输入系数进行首尾两两求差，并将求得的16个相减结果O₀～O₁₅输入给32点奇系数处理单元（12）。

3.根据权利要求1所述的变换编码器，其特征在于：16点蝶形运算单元（11），由8个加法器和8个减法器构成，8个加法器对由32点蝶形运算单元（10）输入的数据E₀～E₁₅进行首尾两两求和，并将求得的8个相加结果EE₀～EE₇输入给8点蝶形运算单元（13），8个减法器对数据E₀～E₁₅进行首尾两两求差，并将求得的8个相减结果EO₀～EO₇输入给16点奇系数处理单元（14）。

4.根据权利要求1所述的变换编码器，其特征在于：32点奇系数处理单元（12），由1个32点系数运算子单元（120）和16个32点系数相加子单元（121）级联构成；

所述32点系数运算子单元（120）由寄存器、移位器和加法器级联构成，用于完成对由32点蝶形运算单元（10）输入的数据O₀～O₁₅进行延迟得到延迟系数O_{0_0}～O_{15_0}，并求得O₀～O₁₅与O₀～O₁₅自身左移1位、2位、3位的和O_{0_1}～O_{15_1}、O_{0_2}～O_{15_2}、O_{0_3}～O_{15_3}，将这些系数送入给每个32点系数相加子单元（121）；

所述32点系数相加子单元（121），由移位器、加法器和减法器级联构成，用于完成对由32点系数运算子单元（120）输入的系数O_{0_0}～O_{15_0}、O_{0_1}～O_{15_1}、O_{0_2}～O_{15_2}和O_{0_3}～O_{15_3}进行移位相加或移位相减，最终求得的1个数据并将其输出给转置缓冲模块（2）。

5.根据权利要求1所述的变换编码器，其特征在于：8点蝶形运算单元（13），由4个加法器和4个减法器构成，4个加法器对由16点蝶形运算单元（11）输入的数据EE₀～EE₇进行首尾两两求和，并将求得的4个相加结果EEE₀～EEE₃输入给4点蝶形运算单元（15），4个减法器对数据EE₀～EE₇进行首尾两两求差，并将求得的4个相减结果EEO₀～EEO₃输入给8点奇系数处理单元（16）。

6.根据权利要求1所述的变换编码器，其特征在于：16点奇系数处理单元（14），由1个16点系数运算子单元（140）和8个16点系数相加子单元（141）级联构成；

所述16点系数运算子单元（140），由寄存器、移位器和加法器级联构成，用于完成对由16点蝶形运算单元（11）输入的数据EO₀～EO₇进行延迟，得到延迟系数EO_{0_0}～EO_{7_0}，并求得EO₀～EO₇分别与EO₀～EO₇自身左移1位之和系数EO_{0_1}～EO_{7_1}及EO₀～EO₇自身左移2位之和系数EO_{0_2}～EO_{7_2}，将这些系数送入给每个16点系数相加子单元（141）；

所述16点系数相加子单元（141），由移位器、加法器和减法器级联构成，用于完成对由16点系数运算子单元（140）输入的系数EO_{0_0}～EO_{7_0}、EO_{0_1}～EO_{7_1}及EO_{0_2}～EO_{7_2}进行移位相加或移位相减，最终求得的1个数据输出给转置缓冲模块（2）。

7.根据权利要求1所述的变换编码器，其特征在于：4点蝶形运算单元（15），由2个加法器和2个减法器构成，2个加法器用以求得由8点蝶形运算单元（13）输入的数据EEE₀与EEE₃之和EEEE₀，及输入的数据EEE₁与EEE₂之和EEEE₁，并将求得的这2个相加结果EEEE₀、EEEE₁输入给4点偶系数处理单元（17）；2个减法器用以求得输入的数据EEE₀与EEE₃之差EEEO₀，及输入的数据EEE₁与EEE₂之差EEEO₁，并将求得的2个相减结果EEEO₀、EEEO₁输入给4点奇系数处理单元（18）。

8.根据权利要求1所述的变换编码器，其特征在于：8点奇系数处理单元（16），由1个8点系数运算子单元（160）和4个8点系数相加子单元（161）级联构成；

所述8点系数运算子单元（160），由寄存器、移位器和加法器级联构成，用于完成对由8点蝶形运算单元（13）输入的数据EEO₀～EEO₃进行延迟，得到延迟系数EEO_{0_0}～EEO_{3_0}，并求得EEO₀～EEO₃分别与EEO₀～EEO₃自身左移1位之和系数EEO_{0_1}～EEO_{3_1}及EEO₀～EEO₃自身左移2位之和系数EEO_{0_2}～EEO_{3_2}，将这些系数送入给每个8点系数相加子单元（161）；

所述8点系数相加子单元（161），由移位器、加法器和减法器级联构成，用于完成对由8点系数运算子单元（160）输入的系数EEO_{0_0}～EEO_{3_0}、EEO_{0_1}～EEO_{3_1}及EEO_{0_2}～EEO_{3_2}进行移位相加或移位相减，最终求得的1个数据输出给转置缓冲模块（2）。

9.根据权利要求1所述的变换编码器，其特征在于：4点偶系数处理单元（17），由延迟子单元（170）、2点蝶形运算子单元（171）和移位子单元（172）级联构成；

所述延迟子单元（170），对由4点蝶形运算单元（15）输入的数据EEEE₀与EEEE₁进行2个时钟周期的延迟，得到延迟数据EEEE_{0_0}与EEEE_{1_0}，并将这2个数据送入2点蝶形运算子单元（171）；

所述2点蝶形运算子单元（171），由1个加法器和1个减法器构成，用于对延迟子单元（170）输入的延迟数据EEEE_{0_0}与EEEE_{1_0}分别进行相加和相减，得到相加数据EEEEE和相减数据EEEEO送入移位子单元（172）；

所述移位子单元（172），由2个移位器构成，用于对由2点蝶形运算子单元（171）输入的数据EEEEE与EEEEO进行左移，并将求得的2个数据输出给转置缓冲模块（2）。

10.根据权利要求1所述的变换编码器，其特征在于：4点奇系数处理单元（18），由1个4点系数运算子单元（180）和2个4点系数相加子单元（181）构成；

所述4点系数运算子单元（180），由寄存器、移位器和加法器级联构成，用于完成对由4点蝶形运算单元（15）输入的数据EEEO₀、EEEO₁进行延迟，得到延迟系数EEEO_{0_0}、EEEO_{1_0}，并分别求得EEEO₀与EEEO₀，及EEEO₁与EEEO₁自身左移不同位后的数据之和，即：

求得EEEO₀与EEEO₀自身左移1位后的数据之和EEEO_{0_1}，

求得EEEO₁与EEEO₁自身左移1位后的数据之和EEEO_{1_1}，

求得EEEO₀与EEEO₀自身左移2位后的数据之和EEEO_{0_2}，

求得EEEO₁与EEEO₁自身左移2位后的数据之和EEEO_{1_2}，

将这些系数输入给每个4点系数相加子单元（181）；

所述4点系数相加子单元（181），由移位器、加法器和减法器级联构成，用于对4点系数运算子单元（180）输入的系数EEEO_{0_0}、EEEO_{1_0}、EEEO_{0_1}、EEEO_{1_1}、EEEO_{0_2}和EEEO_{1_2}进行移位相加或移位相减，最终求得的1个数据输出给转置缓冲模块（2）。