CN1926884A - 视频编码方法和装置 - Google Patents
视频编码方法和装置 Download PDFInfo
- Publication number
- CN1926884A CN1926884A CNA2005800065857A CN200580006585A CN1926884A CN 1926884 A CN1926884 A CN 1926884A CN A2005800065857 A CNA2005800065857 A CN A2005800065857A CN 200580006585 A CN200580006585 A CN 200580006585A CN 1926884 A CN1926884 A CN 1926884A
- Authority
- CN
- China
- Prior art keywords
- image
- block
- transformed
- image block
- video encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/593—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/61—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
一种视频编码器生成图像的多个参考块(111)和图像块。图像选择器(105)选择一个参考块,编码器(103、107)通过使用所选择的参考块来编码图像块。第一变换处理器(113)通过对每个参考块应用相关图像变换来生成被变换的参考块,以及第二变换处理器(115)通过对第一图像块应用该相关图像变换来生成被变换的图像块。视频编码器(100)包括响应于被变换的图像块的数据来分析图像的分析处理器(117)。剩余处理器(119)生成多个剩余图像块作为被变换的图像块和每个被变换的参考块之间的差异,并且作为响应,选择适当的参考块。通过使用相关变换,诸如Hadamard变换,通过相同操作生成既适合于图像分析又适合参考块选择的变换数据。
Description
技术领域
本发明涉及视频编码器及其视频编码方法,因此并特别地,但并非专用地,涉及根据H.264/AVC视频编码标准进行视频编码的系统。
背景技术
近年来,数字存储的使用和视频信号的分配已经变得越来越普遍。为了减少传输数字视频信号所需的带宽,众所周知地使用包括视频数据压缩的有效数字视频编码,因而可以充分地减少数字视频信号的数据率。
为了确保互操作性,视频编码标准已经在对许多专业人员和消费者应用采取数字视频的推动当中扮演了一个关键的角色。传统上不是国际电信同盟(ITU-T)就是ISO/IEC(国际标准化组织/国际电工技术委员会)委员会的MPEG(运动图像专家组)来开发最有影响的标准。通常所建议的ITU-T标准典型地针对实时通信(例如,视频会议),同时多数MPEG标准适用于存储(例如,数字通用盘(DVD))和广播(例如,数字视频广播(DVB)标准)。
目前,最广泛使用的视频压缩技术之一是公知的MPEG-2(运动图像专家组)标准。MPEG-2是基于压缩方案的一个块,其中帧被分为每个包括8个垂直像素和8个水平像素的多个块。对于亮度数据的压缩,紧随量化使用离散余弦变换(DCT)来单独压缩每个块,所述量化将所转换数据值的有效数减少到零。对于色度数据的压缩,通常首先通过下采样来减少色度数据量,以便对于每四个亮度块,获得两个色度块(4:2:0格式),使用DCT和量化来类似地压缩它们。仅基于帧内压缩的帧被认为是内帧(I帧)。
除帧内压缩之外,MPEG-2使用帧间压缩来进一步减少数据率。帧间压缩包括基于预先解码和重构帧的预测帧(P帧)的生成。此外,MPEG-2使用运动估计,其中通过使用运动矢量来简单地传送在随后帧中在不同位置上找到的一帧的宏块的图像。运动估计数据通常是指在运动估计处理期间所应用的数据。执行运动估计以确定用于运动补偿或等价地用于帧间预测处理的参数。在例如由诸如MPEG-2和H.264这样的标准所规定的基于块的视频编码中,运动估计数据典型地包括候选运动矢量、预测块大小(H.264)、参考图响的选择或,等价地,用于某一宏块的运动估计类型(后向、前向或双向),在其中做出一个选择以形成实际被编码的运动补偿数据。
作为这些压缩技术的结果,标准TV演播室广播质量水平的视频信号能够以大约2-4Mbps的数据率传输。
近来,出现了新的ITU-T标准,通常所说的H.26L。与当前诸如MPEG-2这样的标准相比,H.26L正以它优良的编码效率得到广泛的认可。虽然H.26L的增益通常与图像尺寸成比例地减少,但是在广泛范围应用中采用它的潜力是毫无疑问的。这个潜力已经通过联合视频组(JVT)研讨会的设立得到认可,其负责最终确定H.26L作为新的联合ITU-T/MPEG标准。新的标准被认为是H.264或MPEG-4AVC(高级视频编码)。进一步地,基于H.264的解决方案正被诸如DVB和DVD研讨会这样的其他标准化实体考虑。
H.264/AVC标准应用了相同的基于块的运动补偿的混合变换编码的原理,它们是从已建立的诸如MPEG-2这样的标准中得知的。因此,用常见的首标分级结构来组织H.264/AVC语法,诸如图像-、片-、和宏块首标、和数据,诸如运动矢量、块变换系数、量化等级等等。然而,H.264/AVC标准分离表示视频数据内容的视频编码层(VCL)和格式化数据并提供首标信息的网络适配层(NAL)。
进一步地,H.264/AVC允许大量增加编码参数的选择。例如,它允许更细致的分割和宏块的手动处理,由此例如,能够在如4×4大小的宏块中的16×16亮度块的分段上执行运动补偿处理。另外,更有效的扩展可能是对宏块预测采用可变块大小。因此,可以将宏块(仍然是16×16象素)分割为多个更小的块,并可以单独地预测这些子块中的每一个。因此,不同的子块可以有不同的运动矢量,并可以从不同的参考图像中重新获得。同样,对于采样块的运动补偿预测的选择处理可以包含多个已存储的、预先解码的图像(也称为帧),而不仅仅是相邻图像(或帧)。同样,可以基于4×4块大小而不是传统的8×8大小来变换和量化紧接着运动补偿而引起的预测误差。
由H.264所引入的进一步增强是有可能在单一帧(或图像)内进行空间预测。依据该增强,有可能使用从相同帧中预先解码的采样来形成块预测。
数字视频标准的出现以及在数据和信号处理中的技术进步已经允许在视频处理和存储装置中执行附加功能。例如,近些年已看到在视频信号内容分析领域中进行的重要研究。这样的内容分析允许视频信号内容的自动确定或估计。已确定的内容可以用于向用户提供包括内容项的滤波、分类或组织这样的功能。例如,近年来,来自诸如TV广播的可用视频内容中的可用性和可变性已经得到充分提高,并且内容分析可以用于将可用内容自动滤波并组织到合适的分类中。进一步地,响应内容检测,可以改变视频装置的操作。
内容分析可以基于视频编码参数,以及有意义的研究已经集中到一种算法,该算法用于执行基于特定MPEG-2视频编码参数和算法的内容分析。目前,MPEG-2对消费者应用来说是最普遍的视频编码标准,从而基于MPEG-2的内容分析更可能得到广泛实施。
作为一个新的视频编码标准,诸如H.264/AVC出现了(rolledout),在许多应用中将需要或希望进行内容分析。因此,必须开发适用于新的视频编码标准的内容分析算法。这需要有效的研究和开发,这费时而且成本高。因而,合适的内容分析算法的缺乏将延迟或阻碍前导(uptake)新的视频编码标准或明显地减少能够提供给该标准的功能。
进一步地,为了引入新的内容分析算法,将需要替换或更新现存的视频系统。这将也是高成本的并会延迟新视频编码标准的引入。可替换地,必须引入一个附加装置,该附加装置可操作性地继根据MPEG-2视频编码标准进行再编码之后根据新的视频编码标准对信号进行解码。这样的装置是复杂的、高成本的,并具有大的计算资源需求。
特别地,许多内容分析算法是基于使用离散余弦变换(DCT)系数,该系数是从帧内编码的图像中获得。这样的算法例子公开在J.Wang,Mohan S.Kankanhali,Philippe Mulhem,Hadi HassanAbdulredha“Face Detection Using DCT Coefficients in MPEG Video”,In Proc.Int.Workshop on Advanced Image Technology(IWAIT2002),pp60-70,Hualien,Taiwan,2002年1月,和F.Snijder,P.Merlo“Cartoon Detection Using Low-Level AV Features”,3rdInt.Workshop on Content-Based Multimedia Indexing(CBMI 2003),Rennes,法国,2003年9月。
特别地,在一个图像中DCT图像块的系数DC(“直流”)的统计可以直接表示图像块亮度的本地特性,其用在许多类型的内容分析中(例如,用于肤色检测)。进一步地,通常在图像编码和解码期间生成用于帧内编码图像中图像块的DCT系数,所以内容分析没有引起额外的复杂度。
然而,在根据H.264/AVC标准的帧内编码中,仅对图像块和预测块之间的差差异用DCT变换进行变换。术语DCT变换意图包括H.264/AVC中不同的编码块变换,其包括从DCT变换中获得的块变换。因此,由于根据H.264/AV的DCT被应用于空间预测的余量而不是如先前的标准直接用于图像块,因此DC系数表示预测误差的平均值而不是被预测的图像块的亮度平均值。因此,不能对DCT系数直接应用基于该DC值的现有内容分析算法。
从编码处理中独立并分别地生成亮度平均是有可能的,例如,通过在原始图像块上额外地执行H.264/AVC DCT变换。然而,这需要一个单独操作并将导致复杂度以及计算资源需求的增加。
因此,改进的视频编码将是有利的,并特别地,允许简化的和/或增加的图像性能分析和/或简化的和/或增加的视频编码性能的视频编码将是有利的。
发明内容
因此,本发明优选地设法缓和、减轻或消除一个或多个上述个别的不利因素或它们的组合。
根据本发明的第一方面,提供的一种视频编码器包括:用于从将被编码的图像中生成第一图像块的装置;用于生成多个参考块的装置;用于通过对第一图像块应用相关图像变换来生成被变换的图像块的装置;用于通过对多个参考块中的每一个应用相关图像变换来生成多个被变换的参考块的装置;用于通过确定被变换的图像块与多个被变换的参考块中的每一个之间的差异来生成多个剩余图像块的装置;用于响应多个剩余图像块来选择多个参考块中的被选择的参考块的装置;用于响应被选择的参考块来编码第一图像块的装置;和用于响应被变换的图像块的数据来执行图像分析的装置。
本发明能够提供一种用于执行图像分析的方便的、易于实施和/或低复杂度的方式。特别地,用于分析的合适数据的生成能够与选择用于编码的合适参考块的功能集成到一起。因此,达到编码功能和分析功能之间的协同效应。特别地,通过对第一图像块应用相关图像变换来生成被变换的图像块的结果可以既用于图像分析,又可以用于编码图像。
在一些应用中,可以达到更简单和/或更合适的实施。例如,如果参考块在不同的图像块之间没有实质上的改变,那么相同的被变换的参考块可以用于对多个图像块中,因而减少复杂度和/或所需的计算资源。在一些应用中,通过首先生成被变换的块而后生成差异块而不是首先生成差异块并且随后执行变换来实现改进的数据和/或流结构。
特别地,本发明允许编码功能性并尤其是参考块的选择响应图像块本身的变换而不是剩余图像块的变换。这允许变换的结果保留表示图像块的信息,其可以用于图像的适当分析。特别地,被变换的图像块可以包括表示相应的DCT变换的DC系数的数据,因而允许大量的现存算法来使用已生成的数据。
确定剩余图像块可以被确定为被变换的图像块的各个分量与多个被变换的参考块的每一个的各个分量之间的差异。
根据本发明的一个特性,相关变换是线性变换。这提供了一个合适的实施例。
根据本发明的不同特性,相关变换是Hadamard变换。Hadamard变换是一个特别合适的相关变换,其提供了一个相对低复杂度和计算资源需求的变换,同时生成适合分析和参考块选择的变换特性。特别地,Hadamard变换生成合适的DC系数(系数表示图像块采样的平均数据值),并典型地,也生成表示应用于相同图像块的DCT变换的较高频率系数的系数。进一步地,Hadamard变换与诸如H.264这样的某些有利编码方案的建议是兼容的。
根据本发明的不同特性,相关变换是这样的以便被变换的图像块的数据点与对应的非变换图像块的数据点的平均值之间具有预定关系。
图像数据点的平均值典型地对执行图像分析特别重要。例如,DCT的DC系数用在许多分析算法中。DC系数对应图像块的数据点的平均值,并通过使用生成对应该值的数据点的变换(直接或通过预定关系),这些分析可以与相关变换一起使用。
根据本发明的不同特性,用于执行图像分析的装置可操作地响应被变换的图像块的数据来执行图像内容分析。
因此,本发明提供了一种视频编码器,其便于组合的内容分析和图像编码,以及开发这些功能之间的协同效应。
根据本发明的不同特性,用于执行图像分析的装置可操作地响应于被变换的图像块的DC(直流)参数来执行图像内容分析。DC参数对应于表示图像块的数据的平均值的参数。这提供了一个特别适合的提供高性能的内容分析。
根据本发明的不同特性,用于生成多个参考块的装置可操作地响应于仅仅该图像的数据值来生成参考块。优选地,视频编码器可操作地将图像编码为帧内图像(intra-image),即,仅仅通过使用来自当前图像的图像数据并且没有使用来自其他图像(或帧)的运动估计或预测。这允许一个特别有利的实施例。
根据本发明的不同特性,第一图像块包括亮度数据。优选地,第一图像块仅仅包括亮度数据。这提供了一个特别有利的实施例,并且特别地它允许相对低复杂度的分析,同时提供了有效的性能。
优选地,第一图像块可以包括4乘4的亮度数据矩阵。第一图像块还可以包括例如16乘16的亮度数据矩阵。
根据本发明的不同特性,用于编码的装置包括确定第一图像块与被选择的参考块之间的差异块,并用于通过使用非相关变换来变换差异块。这提供了改进的编码质量,例如,DCT变换可以用于编码图像块的图像数据。特别地提供了与例如需要使用DCT变换的合适的视频编码算法之间的兼容性。
优选地,视频编码器是一个H.264/AVC视频编码器。
根据本发明的第二方面,提供了一种视频编码方法,该方法包括步骤:从将被编码的图像中生成第一图像块;生成多个参考块;通过对第一图像块应用相关图像变换来生成被变换的图像块;通过对多个参考块中的每一个应用相关图像变换来生成多个被变换的参考块;通过确定被变换的图像块与多个被变换的参考块的每一个之间的差异来生成多个剩余图像块;响应多个剩余图像块来选择多个参考块的被选择的参考块;响应被选择的参考块来编码第一图像块;响应于被变换图像块的数据来执行图像分析。
本发明的这些和其他方面、特征和优点将通过参考下文描述的实施例来明了和充分地阐明。
附图说明
参考附图、通过仅示例的方式来描述本发明的实施例。
图1示出了根据本发明一个实施例的视频编码器;
图2示出了将被编码的亮度宏块;
图3示出了随后的一个4×4参考块的图像采样;以及
图4示出了用于H.264/AVC不同预测模式的预测方向。
具体实施方式
下面的描述集中在适合执行图像帧内编码的视频编码器、以及特别是H.264/AVC编码器的本发明的一个实施例。另外,视频编码器包括用于执行内容分析的功能。然而,应当明白本发明不限于这个应用,而是可以应用于许多其他类型的视频编码器、视频编码操作以及其他的分析算法。
图1表示了根据本发明一个实施例的视频编码器。特别地,图1示出了用于执行图像的帧内编码的功能(即,仅基于那个图像(或帧)本身的图像信息)。图1的视频编码器依据H.264/AVC编码标准来操作。
类似于先前的标准,诸如MPEG-2、H.264/AVC包括用于在帧内模式中编码图像块的规定,即,没有使用时间预测(基于相邻图像的内容)。然而,与先前的标准相比,H.264/AVC在图像内提供了空间预测以用于帧内编码。因此,可以从在相同图像中预先编码并重构的采样中生成参考或预测块P。然后,在编码前,从实际的图像块中减去参考块P。因此,在H.264/AVC中,可以在帧内编码中生成差异块,以及随后通过应用DCT和量化操作来编码差异块而不是实际图像块。
对于亮度采样,P被形成用于16×16图像单元宏块或其每个4×4子块。对于每个4×4块总共有9种可选的预测模式;4种可选模式用于16×16宏块,以及总是应用于4×4色度块的一种模式。
图2表示了将被编码的亮度宏块。图2a描述了原始宏块以及图2b显示了其4×4子块,其通过使用从已编码图像单元的图像采样中生成的参考或预测块来编码。在该例子中,已经预先编码并重构了子块上方和左侧的图像采样,并因此可用于编码处理(以及将可用于解码器解码宏块)。
图3示出了随后的一个4×4参考块的图像采样。特别地,图3示出了组成了预测块P(a-p)的图像采样的标记和相对位置以及用于生成预测块P的图像采样的标记(A-M)。
图4示出了用于H.264/AVC不同预测模式的预测方向。对于模式3-8,每一个预测采样a-p都作为采样A-M的加权平均值来计算。对于模式0-2,对所有的采样a-p给出了相同的值,其可以对应采样A-D(模式2)、I-L(模式1)或A-D和I-L一起(模式0)的平均值。应当明白,存在类似的预测模式用于诸如宏块这样的其它图像块。
编码器典型地选择用于每个4×4块的预测模式,其最小化块与对应的预测P之间的差异。
因此,传统的H.264/AVC编码器典型地生成用于每个预测模式的预测块,从将被编码的图像块中减去该预测块以便生成差异数据块,通过使用合适的变换来变换该差异数据块以及选择产生最小值的预测块。差异数据典型地被形成为将被编码的实际图像块与对应的预测块之间的像素方式(pixel-wise)的差异。
应当注意,对于每个4×4块的帧内预测模式的选择必须用信号通知解码器,为此目的,H.264定义了一个有效的编码过程。
由下面可以描述编码器所使用的块变换:
Y=CXCT (1)
其中X是一个N×N图像块,Y包含N×N变换系数,以及C是预定义的N×N变换矩阵。当对图像块应用一个变换时,它将生成被称为变换系数的加权值矩阵Y,表示在原始图像中存在多少每个基本功能。
例如,对于DCT变换,产生反映处于不同空间频率的信号分布的变换系数。特别地,DCT变换生成对应于基本上为零的频率的DC(“直流”)系数。因此,DC系数对应于已经对其应用了变换的图像块的图像采样的平均值。典型地,DC系数具有比剩余较高空间频率(AC)系数大得多的值。
虽然H.264/AVC没有规定用于选择预测模式的标准化过程,但是推荐一种基于2D Hadamard变换和比率失真(RD)优化的方法。根据该方法,每个差异图像块,即,在原始图像块与预测块之间的差异,在被估计(例如,根据RD标准)以用于选择之前,通过Hadamard变换来进行变换。
与DCT相比,Hadamard变换更简单并且是需要更少的计算需求的变换。它进一步地产生通常表示通过DCT可获得的结果的数据。因此,有可能将预测块的选择基于Hadamard变换的基础而不是需要全DCT变换。一旦已经选择了预测块,那么可以接着通过DCT变换来编码对应的差异块。
然而,由于该方法对差异数据块而不是直接对图像块应用该变换,因此所生成的信息不表示原始图像块而仅仅表示预测误差。这阻碍了,或至少使基于变换系数的图像分析变得复杂。例如,已经开发了基于图像块的变换系数的开发信息的许多分析算法,因此这些不能直接应用在传统的H.264/AVC编码器中。特别是,许多算法是基于表示图像块的平均特性的变换的DC系数。然而,对于典型的H.264/AVC方法来说,DC系数不表示原始图像块,而仅仅表示预测误差的平均值。
作为一个例子,内容分析包括根据涉及基于视频信号特性而自动确定视频内容的图像处理、模式识别以及人工智能的方法。所使用的该特性从诸如颜色和纹理的低水平信号相关特性到诸如脸部的出现和定位的更高水平信号信息进行改变。内容分析的这个结果用于各种应用中,诸如商业广告探测、视频预览的生成、类型分类等等。
目前,许多内容分析算法是基于对应于帧内编码图像的DCT(离散余弦变换)系数。特别地,用于亮度块的DC(“直流”)系数的统计可以直接表示图像块亮度的本地特性,并因此它在许多类型的内容分析(例如,肤色检测)中是一个重要的参数。然而,在传统的H.264/AVC编码器中,该数据不可用于使用帧内预测的图像块。因此,不能使用这些算法,或必须独立生成该信息,导致增加了编码器的复杂度。
在当前实施例中,建议了一种预测块选择的不同方法。直接对图像块和预测块而不是差异数据块应用相关变换。然后可以直接使用图像块的变换系数,从而允许使用基于图像块变换系数的算法。例如,可以应用基于DC系数的内容分析。进一步地,通过从被变换的图像块中减去被变换的参考块来在变换域中生成剩余数据块。因为该变换是相关的,所以操作的顺序不是重要的,并且在该变换后执行减法而不是在该变换之前执行减法不会改变该结果。因此,该方法提供了关于参考块选择的相同性能(和这样的预测模式),但是也另外生成了作为编码处理的整体部分的适合于图像分析的数据。
在更详细的说明中,图1中的视频编码器100包括图像分割器101,其接收视频序列的图像(或帧)以用于帧内编码(即,用于编码为H.264/AVC的I帧)。图像分割器101将图像分割为合适的宏块,并在本实施例中生成一个将被编码的特定4×4亮度采样图像块。将参考这个图像块的处理来简短并清楚地进行描述视频编码器100的操作。
图像分割器101被连接到差异处理器103上,该差异处理器103还可以连接到图像选择器105上。差异处理器103从图像选择器105中接收被选择的参考块,并作为响应,通过从原始图像块中减去被选择的参考块来确定差异块。
差异处理器103进一步连接到编码单元107上,该编码单元107通过依据H.264/AVC标准执行DCT变换和量化该系数来对差异块进行编码。编码单元可以进一步组合来自差异图像块和帧中的数据以便生成本领域公知的H.264/AVC比特流。
编码单元107进一步被连接到解码单元109上,该解码单元109从编码单元107中接收图像数据,并依据H.264/AVC标准来执行该数据的解码。因此,解码单元109生成对应于将由H.264/AVC解码器生成的数据的数据。特别地,当编码一个给定的图像块时,该解码单元109可以生成对应已被编码的图像块的已解码的图像数据。例如,解码单元可以生成图3中的采样A-M。
解码单元109被连接到参考块生成器111上,该参考块生成器111接收已解码数据。作为响应,参考块生成器111生成多个可能的参考块用于当前图像块的编码。特别地,参考块生成器111为每个可能的预测模式生成一个参考块。因此,在特定的实施例中,参考块生成器111依据H.264/AVC预测模式来生成九个预测块。参考块生成器111被连接到图像选择器105上,并将参考块馈送到其上用于选择。
参考块生成器111进一步被连接到第一变换处理器113上,该第一变换处理器113从参考块生成器111接收参考块。第一变换处理器113在每个参考块上执行相关变换由此生成被变换的参考块。应当明白,对于一些预测模式来说,不需要完全实施变换,例如,对于参考块的所有采样值都相同的预测模式来说,可以使用一个简单求和来确定DC系数而所有其他系数被设置为零。
在该实施例中,相关变换是线性变换,并特别是Hadamard变换。该Hadamard变换实施简单,而且是相关的,从而允许在图像块被变换之后而不是在变换之前执行图像块之间的减法。在当前实施例中采用了该事实。
因此,视频编码器100进一步包括连接到图像分割器101上的第二变换处理器115。该第二变换处理器115从图像分割器101中接收图像块,并在图像块上执行相关变换,以便生成被变换的图像块。特别地,第二变换处理器115在图像块上执行Hadamard变换。
该方法的优点在于编码处理包括对实际图像块而不是对剩余或差异图像数据应用变换。因此,被变换的图像块包括直接与图像块的图像数据相关而不是与它和参考块之间的预测误差相关的信息。特别地,Hadamard生成与图像块的采样平均值相关的DC系数。
因此,第二变换处理器115进一步被连接到图像分析处理器117。该图像分析处理器117可操作地用于使用被变换的图像块来执行图像分析,并特别地可操作用于使用该图像块和其他图像块的DC系数来执行内容分析。
一个例子是视频中镜头(shot)边界的检测(镜头可以定义为一个摄像机所拍摄图像的完整序列)。可以使用DC系数以便沿着一系列连续帧来测量DC系数差异总和的统计。然后将这些统计的变化用于表示内容中的潜在过渡,诸如镜头切换(shot-cut)。
可以在视频编码器中内部地使用图像分析的结果,或例如可以将其传送给其他单元。例如,内容分析的结果可以作为元数据包括在已生成的H.264/AVC比特流中,例如通过在H.264/AVC比特流的辅助或用户数据中包括该数据。
第一变换处理器113和第二变换处理器115都连接到剩余处理器119,该剩余处理器119通过确定被变换的图像块与多个被变换的参考块的每一个之间的差异来生成多个剩余图像块。因此,对于每个可能的预测模式来说,剩余处理器119生成一个剩余图像块,该剩余图像块包括图像块和对应参考块之间的预测误差信息(在变换域中)。
由于所应用变换的相关性质,所生成的剩余图像块等价于通过首先在非变换域中生成差异图像块并随后变换它们所获得的被变换的差异块。然而,另外,当前实施例允许生成作为编码处理整体部分的适合于图像分析的数据。
剩余处理器119被连接到图像选择器105,该图像选择器105接收已确定的剩余图像块。于是,该图像选择器105在图像块编码中选择差异处理器103和编码单元107所使用的参考块(以及这样的预测模式)。选择标准可以例如是推荐用于H.264/AVC编码的比率失真(Rate-Distortion)标准。
特别地,比率失真优化的目的在于有效地达到对于给定目标比特率的好的解码视频质量。例如,最佳预测块不必是给出与原始图像块的最小差异的那个,而是达到块差异大小与考虑数据编码的比特率之间一个好的平衡的那个。特别地,通过将对应剩余块通过编码处理的连续阶段,可以估计每个比特率预测。
应当明白,在上述描述中已经简单而清楚地示出了功能的一个特定划分,但是这不是暗示对应的硬件或软件划分,以及任何合适的功能实施都将是同样合适的。例如,整个的编码处理可以有利地实施为为一个单一的微处理器或数字信号处理器的固件。进一步地,第一变换处理器113和第二变换处理器115不必作为并行的不同单元来实施,而是可以通过顺序地使用相同的功能来实施。例如,它们可以通过相同的专用硬件或相同的子程序来实施。
依据所描述的实施例,相关变换用于选择预测模式。因此,该变换特别地可以满足下面的标准:
T(I)-T(R)=T(I-R)
其中T表示该变换,I表示图像块(矩阵),以及R表示参考块(矩阵)。因此,变换关于减法和加法是相关的。特别地,函数是线性函数。
Hadamard变换特别适合当前实施例。Hadamard变换是线性变换,以及Hadamard系数通常具有类似于对应DCT系数的特征。尤其是,Hadamard变换生成DC系数,其表示下面图像块中采样的比例(scaled)平均。进一步地,基于该线性特性,两个块的差异的Hadamard变换可以等效地计算为两个块Hadamard变换的差异。
特别地,在下面描述了Hadamard变换的相关性质:
设A和B是两个N×N矩阵,通过从来自A的对应元素中减去来自B的每个元素来获得A-B剩余,以及C是N×N Hadamard矩阵。通过将这些代入该变换等式:
Y=CXCT
可以计算对应的Hadamard变换YA、YB、YA-B。现在,目标是证明YA-YB恒等于YA-B。
让我们简单地考虑N=2的情况。那么,我们有:
这得到:
证明完毕。
因此,在特定的实施例中,对每个亮度块和对每个对应预测(参考)块应用Hadamard变换实现生成既适合内容分析又适合选择用于编码的预测模式的参数的相同的操作。
可以以包括硬件、软件、固件或这些的任何组合的任何合适形式来实施本发明。然而,特别地,本发明作为一个运行在一个或多个数据处理器和/或数字信号处理器之上的计算机软件来实施。可以以任何合适的方式来物理地、功能性地和逻辑地实施本发明实施例的单元和部件。实际上,可以单个单元、多个单元或作为其他功能单元的部分来实施该功能。因而,可以以单个单元来实施本发明,或可以在不同的单元和处理器之间物理地和功能性的分布本发明。
虽然已经结合优选实施例描述了本发明,但是这不意味着本发明限制于在这里所描述的特定形式。相反,仅由附加的权利要求来限制本发明的范围。在权利要求中,术语“包括”不是排除其他单元或步骤的出现。进一步地,虽然个别的列出,但是可以通过例如单个单元或处理器来实现多个装置、单元或方法步骤。此外,虽然各个特征可以包括在不同的权利要求中,但是这些可能被有利地组合,以及在不同的权利要求中包含不是暗示特征的组合是不可行的和/或不利的。此外,单数引用不排除复数。因此涉及的“一”、“一个”、“第一”、“第二”等等不排除多个。
Claims (14)
1.一种视频编码器包括:
用于从将被编码的图像中生成第一图像块(101)的装置;
用于生成多个参考块(111)的装置;
用于通过对第一图像块应用相关图像变换来生成被变换的图像块(115)的装置;
用于通过对多个参考块的每一个应用相关图像变换来生成多个被变换的参考块(113)的装置;
用于通过确定被变换的图像块与多个被变换的参考块的每一个之间的差异来生成多个剩余图像块(119)的装置;
用于响应于多个剩余图像块来选择多个参考块的被选择的参考块(105)的装置;
用于响应于被选择的参考块来编码(103、107)第一图像块的装置;和
用于响应于被变换的图像块的数据来执行图像分析(117)的装置。
2.如权利要求1所述的视频编码器,其中相关变换是线性变换。
3.如权利要求1所述的视频编码器,其中相关变换是Hadamard变换。
4.如权利要求1所述的视频编码器,其中相关变换是这样的以便被变换的图像块的数据点与对应的非变换图像块的数据点的平均值之间具有预定关系。
5.如权利要求1所述的视频编码器,其中用于执行图像分析(117)的装置可操作用于响应于被变换的图像块的数据来执行图像的内容分析。
6.如权利要求5所述的视频编码器,其中用于执行图像分析(117)的装置可操作用于响应于被变换的图像块的DC(直流)参数来执行图像的内容分析。
7.如权利要求1所述的视频编码器,其中用于生成多个参考块(111)的装置可操作用于响应于仅仅该图像的数据值来生成多个参考块。
8.如权利要求1所述的视频编码器,其中第一图像块包括亮度数据。
9.如权利要求1所述的视频编码器,其中第一图像块包括4乘4亮度数据矩阵。
10.如权利要求1所述的视频编码器,其中用于编码的装置(103、107)包括确定第一图像块与被选择的参考块之间的差异块(103)和用于使用非相关变换来变换差异块(107)的装置。
11.如权利要求1所述的视频编码器,其中视频编码器是H.264/AVC视频编码器。
12.一种视频编码方法,包括步骤:
-从将被编码的图像中生成第一图像块;
-生成多个参考块;
-通过对第一图像块应用相关图像变换来生成被变换的图像块;
-通过对多个参考块的每一个应用相关图像变换来生成多个被变换的参考块;
-通过确定被变换的图像块与多个被变换的参考块的每一个之间的差异来生成多个剩余图像块;
-响应于多个剩余图像块来选择多个参考块的被选择的参考块;
-响应于被选择的参考块来编码第一图像块;
-响应于被变换的图像块的数据来执行图像分析。
13.一种能够执行如权利要求12所述方法的计算机程序。
14.一种包括如权利要求13所述计算机程序的记录载体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP04100808.7 | 2004-03-01 | ||
EP04100808 | 2004-03-01 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1926884A true CN1926884A (zh) | 2007-03-07 |
Family
ID=34960716
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2005800065857A Pending CN1926884A (zh) | 2004-03-01 | 2005-02-24 | 视频编码方法和装置 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20070140349A1 (zh) |
EP (1) | EP1723801A1 (zh) |
JP (1) | JP2007525921A (zh) |
KR (1) | KR20070007295A (zh) |
CN (1) | CN1926884A (zh) |
TW (1) | TW200533206A (zh) |
WO (1) | WO2005088980A1 (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090074164A (ko) * | 2006-09-29 | 2009-07-06 | 톰슨 라이센싱 | 기하학적 인트라 예측 |
US20080225947A1 (en) * | 2007-03-13 | 2008-09-18 | Matthias Narroschke | Quantization for hybrid video coding |
EP2048887A1 (en) * | 2007-10-12 | 2009-04-15 | Thomson Licensing | Encoding method and device for cartoonizing natural video, corresponding video signal comprising cartoonized natural video and decoding method and device therefore |
US8798131B1 (en) | 2010-05-18 | 2014-08-05 | Google Inc. | Apparatus and method for encoding video using assumed values with intra-prediction |
US9210442B2 (en) | 2011-01-12 | 2015-12-08 | Google Technology Holdings LLC | Efficient transform unit representation |
US9380319B2 (en) | 2011-02-04 | 2016-06-28 | Google Technology Holdings LLC | Implicit transform unit representation |
CN108337522B (zh) | 2011-06-15 | 2022-04-19 | 韩国电子通信研究院 | 可伸缩解码方法/设备、可伸缩编码方法/设备和介质 |
WO2013137613A1 (en) * | 2012-03-12 | 2013-09-19 | Samsung Electronics Co., Ltd. | Method and apparatus for determining content type of video content |
US8655030B2 (en) * | 2012-04-18 | 2014-02-18 | Vixs Systems, Inc. | Video processing system with face detection and methods for use therewith |
US20150169960A1 (en) * | 2012-04-18 | 2015-06-18 | Vixs Systems, Inc. | Video processing system with color-based recognition and methods for use therewith |
US9219915B1 (en) | 2013-01-17 | 2015-12-22 | Google Inc. | Selection of transform size in video coding |
US9967559B1 (en) | 2013-02-11 | 2018-05-08 | Google Llc | Motion vector dependent spatial transformation in video coding |
US9544597B1 (en) | 2013-02-11 | 2017-01-10 | Google Inc. | Hybrid transform in video encoding and decoding |
US9674530B1 (en) | 2013-04-30 | 2017-06-06 | Google Inc. | Hybrid transforms in video coding |
US9565451B1 (en) | 2014-10-31 | 2017-02-07 | Google Inc. | Prediction dependent transform coding |
CN104469388B (zh) | 2014-12-11 | 2017-12-08 | 上海兆芯集成电路有限公司 | 高阶视频编解码芯片以及高阶视频编解码方法 |
US9769499B2 (en) | 2015-08-11 | 2017-09-19 | Google Inc. | Super-transform video coding |
US10277905B2 (en) * | 2015-09-14 | 2019-04-30 | Google Llc | Transform selection for non-baseband signal coding |
US9807423B1 (en) | 2015-11-24 | 2017-10-31 | Google Inc. | Hybrid transform scheme for video coding |
US11122297B2 (en) | 2019-05-03 | 2021-09-14 | Google Llc | Using border-aligned block functions for image compression |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3655651B2 (ja) * | 1994-09-02 | 2005-06-02 | テキサス インスツルメンツ インコーポレイテツド | データ処理装置 |
ES2190935T3 (es) * | 1996-05-28 | 2003-09-01 | Matsushita Electric Ind Co Ltd | Procedimiento y dispositivo de anticipacion y de codificado/descodificado de imagen. |
US6449392B1 (en) * | 1999-01-14 | 2002-09-10 | Mitsubishi Electric Research Laboratories, Inc. | Methods of scene change detection and fade detection for indexing of video sequences |
US6327390B1 (en) * | 1999-01-14 | 2001-12-04 | Mitsubishi Electric Research Laboratories, Inc. | Methods of scene fade detection for indexing of video sequences |
US6751354B2 (en) * | 1999-03-11 | 2004-06-15 | Fuji Xerox Co., Ltd | Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models |
JP2002044663A (ja) * | 2000-07-24 | 2002-02-08 | Canon Inc | 画像符号化装置及び方法、画像表示装置及び方法、画像処理システム並びに撮像装置 |
US7185037B2 (en) * | 2001-08-23 | 2007-02-27 | Texas Instruments Incorporated | Video block transform |
-
2005
- 2005-02-24 EP EP05708826A patent/EP1723801A1/en not_active Withdrawn
- 2005-02-24 KR KR1020067017521A patent/KR20070007295A/ko not_active Application Discontinuation
- 2005-02-24 CN CNA2005800065857A patent/CN1926884A/zh active Pending
- 2005-02-24 JP JP2007501404A patent/JP2007525921A/ja active Pending
- 2005-02-24 WO PCT/IB2005/050673 patent/WO2005088980A1/en not_active Application Discontinuation
- 2005-02-24 US US10/598,224 patent/US20070140349A1/en not_active Abandoned
- 2005-02-25 TW TW094105963A patent/TW200533206A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
EP1723801A1 (en) | 2006-11-22 |
TW200533206A (en) | 2005-10-01 |
JP2007525921A (ja) | 2007-09-06 |
US20070140349A1 (en) | 2007-06-21 |
KR20070007295A (ko) | 2007-01-15 |
WO2005088980A1 (en) | 2005-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Learning for video compression | |
CN1926884A (zh) | 视频编码方法和装置 | |
CN100338956C (zh) | 产生压缩的代码转换提示元数据的方法和设备 | |
US8135065B2 (en) | Method and device for decoding a scalable video stream | |
CN1250003C (zh) | 用于改善压缩图像色度信息的方法和系统 | |
CN1258925C (zh) | 多视角视频编解码预测补偿方法及装置 | |
US9083947B2 (en) | Video encoder, video decoder, method for video encoding and method for video decoding, separately for each colour plane | |
CN101035277A (zh) | 产生压缩的代码转换提示元数据的方法和设备 | |
CN1774930A (zh) | 视频转码 | |
CN1719735A (zh) | 编码源图像序列的方法和设备 | |
CN1695381A (zh) | 在数字视频信号的后处理中使用编码信息和局部空间特征的清晰度增强 | |
CN1875637A (zh) | 最小化用于相互编码的参考画面数目的方法和装置 | |
CN1757240A (zh) | 视频编码 | |
WO2011101448A2 (en) | Data compression for video | |
US20110235715A1 (en) | Video coding system and circuit emphasizing visual perception | |
CN1943247A (zh) | 应用于多媒体数据的编码方法 | |
KR20120116936A (ko) | 영상 블록 코딩 및 재구성 방법 | |
CN1808469A (zh) | 图像检索装置及方法、程序和程序记录介质 | |
CN1650328A (zh) | 增强编码的数字视频的清晰度的系统和方法 | |
CN1320830C (zh) | 噪声估计方法和设备、以及利用其编码视频的方法和设备 | |
CN1774931A (zh) | 对编码视频数据的内容分析 | |
CN1921627A (zh) | 视频数据压缩编码方法 | |
CN1158058A (zh) | 数字视频信号编码的方法和设备 | |
CN100337481C (zh) | 一种mpeg-2到avs视频码流格式转换方法及其装置 | |
CN1754389A (zh) | 用于改进的编码模式选择的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |