CN112511837B - 视频合成系统、视频合成方法及计算机可读存储介质 - Google Patents
视频合成系统、视频合成方法及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112511837B CN112511837B CN202011420006.6A CN202011420006A CN112511837B CN 112511837 B CN112511837 B CN 112511837B CN 202011420006 A CN202011420006 A CN 202011420006A CN 112511837 B CN112511837 B CN 112511837B
- Authority
- CN
- China
- Prior art keywords
- video data
- data stream
- picture
- pictures
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 69
- 239000000203 mixture Substances 0.000 title claims description 20
- 230000033001 locomotion Effects 0.000 claims abstract description 242
- 230000002123 temporal effect Effects 0.000 claims abstract description 170
- 239000002131 composite material Substances 0.000 claims description 54
- 239000013598 vector Substances 0.000 claims description 52
- 238000011049 filling Methods 0.000 claims description 20
- 230000011664 signaling Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 13
- 238000013139 quantization Methods 0.000 claims description 10
- 230000002194 synthesizing effect Effects 0.000 claims description 9
- 230000036961 partial effect Effects 0.000 claims description 8
- 238000003786 synthesis reaction Methods 0.000 abstract description 17
- 230000015572 biosynthetic process Effects 0.000 abstract description 16
- 230000008859 change Effects 0.000 description 30
- 238000010586 diagram Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 11
- 239000000872 buffer Substances 0.000 description 10
- 238000001914 filtration Methods 0.000 description 10
- 238000003780 insertion Methods 0.000 description 10
- 230000037431 insertion Effects 0.000 description 10
- 238000002156 mixing Methods 0.000 description 9
- 238000007430 reference method Methods 0.000 description 8
- 238000013459 approach Methods 0.000 description 6
- 238000012952 Resampling Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 238000013469 resistive pulse sensing Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013213 extrapolation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- NUHSROFQTUXZQQ-UHFFFAOYSA-N isopentenyl diphosphate Chemical compound CC(=C)CCO[P@](O)(=O)OP(O)(O)=O NUHSROFQTUXZQQ-UHFFFAOYSA-N 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008707 rearrangement Effects 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 108091000069 Cystinyl Aminopeptidase Proteins 0.000 description 1
- 241000385654 Gymnothorax tile Species 0.000 description 1
- 102100020872 Leucyl-cystinyl aminopeptidase Human genes 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000001595 contractor effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000005043 peripheral vision Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000007727 signaling mechanism Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000002747 voluntary effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/105—Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/13—Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/157—Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
- H04N19/159—Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/30—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
- H04N19/31—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/40—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
- H04N19/436—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation using parallelised computational arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/48—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using compressed domain processing techniques other than decoding, e.g. modification of transform coefficients, variable length coding [VLC] data or run-length data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/61—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4312—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/816—Monomedia components thereof involving special video data, e.g 3D video
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/172—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/174—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a slice, e.g. a line of blocks or a group of blocks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/177—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Television Signal Processing For Recording (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Image Processing (AREA)
Abstract
通过收集和复制而填充所合成视频数据流的一部分来执行视频合成,以及另一部分通过经由运动补偿时间预测参考所合成视频数据流的其它部分来合成地添加,所述其它部分通过收集和复制来获得。
Description
分案说明
本申请是申请日为2014年8月20日、申请号为201480081304.3、发明名称为“视频合成系统、视频合成方法及计算机可读存储介质”的发明专利申请的分案申请。
技术领域
本申请涉及视频合成,例如使用一个或多个输入视频数据流来合成所合成视频数据流。
背景技术
存在多个应用和使用情况,如视频会议、视频监控、医疗应用、全景流、广告插入、画中画显示或视频叠加,其中若干个专用视频比特流被同时解码并以合成形式显示给用户。这种应用的说明性示例是具有向用户呈现的多个视频源的交通监控系统。这种应用的问题是许多设备仅包括单个硬件视频解码器或者否则在计算、功率和/或其他资源方面受到限制。这样的设备的示例是机顶盒(STB)、低成本电视机或电池供电的移动设备。
为了在这种设备上启用所述应用和用例,必须预先创建合并若干专用视频比特流的单个视频比特流。为了实现这样的单个视频比特流,通常应用像素域视频处理(例如,诸如缝合、归并或混合的合成),其中不同的视频比特流被代码转换(transcode)为单个比特流。代码转换可以使用级联视频解码器和编码器来实现,其需要对输入比特流进行解码,从像素域中的输入比特流合成新视频并将新视频编码为单个比特流。该方法还可以被称为包括在未压缩域中的处理的传统完全代码转换。然而,它有许多缺点。首先,视频信息的重复编码可能通过编码伪像引入进一步的信号质量劣化。第二和更重要的是,通过对输入和输出视频比特流的多重解码和编码,完全代码转换在计算上是复杂的,因此不能很好地按比例缩放。
因此,在[1]中提出了另一种方法,其中视频缝合在压缩域中执行。[1]背后的主要思想是在编码器处设置约束,例如不允许一些运动矢量以及画面边界处的运动矢量预测,这允许可以应用于不同比特流的低复杂度比特流重写过程,以便生成包含预期要混合的所有视频的单个比特流。这种缝合方法同样在计算上比完全代码转换较不复杂,并且不引入信号质量劣化。
这种系统的说明性示例在图23中示出,其用于使用云服务器基础设施的视频监控系统。如可以看出的,多个视频比特流900a-d由不同的发送器902a-d发送并且在云混合器904中缝合以产生单个视频比特流906。
在所应用的缝合过程背后的技术的更详细的描述可以在[1]中找到。
压缩域处理可以应用于许多应用和用例,以允许低复杂度的视频处理,节省电池寿命和/或实现成本。然而,每一个应用的特性对于压缩域视频处理造成各个问题。同样地,可以利用视频压缩标准/方案的特性和特征来使得能够实现用于新应用的低复杂度压缩域处理。
例如,如果合成来自入站视频比特流900a-d中的单个视频比特流906的方式将经历诸如例如在所合成视频比特流906内的入站视频比特流的重新布置、在所合成视频比特流906画面区域内的某个输入视频比特流的空间位移等的改变,则发生通过图23的编码域缝合方案的方式没有充分解决的问题。对于所有这些情况,图23的合成方案由于时间运动补偿预测而不能正常工作,该时间运动补偿预测将入站视频比特流900a至900d的各个画面在时间上相互关联,使得在入站视频比特流的重新布置中,在不使用经由解码/未压缩域的迂回的情况下除了由不使用任何时间运动补偿预测的帧内画面表示的入站视频比特流的随机访问点以外,其导致比特率和带宽峰值的不期望的瞬时增加。因此,在没有任何额外努力的情况下,改变输出视频比特流906的合成而不离开压缩域的自由度将被限制为仅在某些时刻由不使用任何时间运动补偿预测的入站视频比特流的随机访问点发生。然而,入站视频比特流900a-900d内的这种随机访问点的高频率由于内部所预测画面中缺乏时间预测器而包含较低的压缩率。
发明内容
因此,本发明的目的是提供一种使用一个或多个输入视频数据流来合成所合成视频数据流的概念,其允许在低计算量的情况下在所合成视频数据流的合成中更大的自由度。
该目的是通过以下的主题来实现的。
根据本申请的第一方面,使用至少一个输入视频数据流来合成所合成视频数据流,其中,使用运动补偿时间预测对所合成视频数据流和至少一个输入视频数据流进行编码,并且通过以下操作来执行视频合成:在通过收集和复制所述至少一个输入视频数据流的运动补偿辅助信息和预测残差数据来填充所继承的画面的空间部分的情况下形成所合成视频数据流的所继承画面序列,其中空间部分的空间位置在所继承的画面序列中从一个所继承的画面到下一个在时间上发生改变,以及将至少一个非输出画面插入所继承的画面序列的所继承画面之间的所合成视频数据流中,所述至少一个非输出画面经由运动补偿时间预测参考所继承画面的子集。根据该方面,通过在所继承的画面之间插入至少一个非输出画面,在计算复杂性意义上减轻空间部分的空间位置的时间变化。使用该方法,避免了离开压缩域的必要性,并且可以通过至少一个非输出画面来避免至少一个输入视频数据流的画面之间的“误参考”,通过使用非输出画面,分别在空间位置改变之前和之后“重新配准”至少一个输入视频数据流的画面是可行的。
根据本申请的另一方面,一种用于从多个输入视频数据流中合成所合成视频数据流的概念包括:通过将所述多个输入视频数据流的运动补偿辅助信息和预测残差数据收集并复制到所合成视频数据流中,将多个输入视频数据流多路复用为所合成视频数据流的第一部分画面;并且用通过经由运动补偿时间预测参考所合成视频数据流的第一部分来收集的视频填充所合成视频数据流的第二部分画面,其中所述第一部分被发信号通知以不被输出,并且所述第二部分被发信号通知以被输出。根据第一方面的想法,根据本申请的第二方面的视频合成在通过收集和复制而填充的所合成视频数据流的一部分与通过经由运动补偿时间预测参考所合成视频数据流的其它部分而综合地添加的另一部分之间分离,所合成视频数据流的其它部分通过收集和复制来获得。然而,根据第二方面,第二部分形成实际收集的视频并且被发信号通知以被输出。第一部分简单地表示参考画面内容的一种库,基于该库可以通过使用运动补偿时间预测参考所合成视频数据流的第一部分的某些子部分来选择性地合成画面内容。
因此,基于一个或多个输入视频数据流执行的视频合成产生所合成视频数据流,其可以由标准视频解码器解码,该标准视频解码器不需要能够重新布置入站视频数据流或者不需要能够并行地解码多个输入视频数据流。相反,视频合成假定了代码转换的任务,并且这种代码转换避免了离开关于一个或多个输入视频数据流的压缩/编码域,从而保持计算量在合理量中。
附图说明
在下文中关于附图描述了本申请的优选实施例,在附图中:
图1示出了根据实施例的视频合成装置的示意性框图以及至少一个输入视频数据流和所合成视频数据流的示意性表示;
图2示出了所继承的画面连同入站视频数据流的画面的示意图,以便示出根据实施例的通过收集和复制输入视频数据流的画面的运动补偿辅助信息和预测残差数据来填充所继承画面的空间部分的过程;
图3示出了示出插入的非输出画面以及在其空间部分内携带参考画面、非输出画面替代和所合成视频数据流的所继承画面的示意图,以便示出根据本申请的实施例的在构造/编码非输出画面的空间部分方面的可能性;
图4示出了从其空间部分经由所合成视频数据流的非输出画面的迂回参考先前参考画面的空间部分的所继承画面的示意图;
图5示出了使用视频合成装置并且还包括一个或多个视频编码器70的系统的示意图,该系统被示为将所合成视频数据流输出到解码器;
图6示出了全景流应用;
图7示出了由于位置改变而导致的失败的时间参考;
图8示出了所生成的参考画面概念的图示;
图9示出了在视频会议的上下文中的GRP;
图10示出了来自遥控车辆的360度全景;
图11示出了根据实施例的视频合成装置以及多个输入视频数据流和所合成视频数据流的示意性表示的示意性框图;
图12示出了所合成视频数据流的核对视频部分的SLCP以及虚线箭头的示意图,所述虚线箭头示出了从所合成视频数据流的参考部分复制的运动/预测矢量;
图13示出了背对背参考方法的图示;
图14示出了缝合参考方法的图示;
图15示出了使用非输出方法的具有不同空间维度的缝合参考的SLCP的示意图;
图16示出了用于时间重采样的虚拟使用的图示;
图17示出了具有B2B参考的SLCP的图示;
图18A-B示出了具有缝合参考的SLCP的图示;
图19示出了通过加权预测的α混成的SLCP;
图20示出了通过变化中的预测矢量使用重采样的SLCP;
图21示出了用于迭代重采样的多步SLCP的示例;
图22示例性地描述了以SEI消息的形式的相应信令;和
图23示出了用于视频混合的典型系统架构,这里针对交通视频监控示例性地示出。
具体实施方式
图1示出了根据本申请的一个实施例的视频合成装置。图1的视频合成装置执行根据本申请的一个方面的视频合成,根据该方面,没有输出的画面被插入到所合成视频数据流中,从而允许空间部分的空间位置的时间变化,所述空间部分通过以下来填充:收集并复制某一输入视频数据的运动补偿辅助信息和预测残差数据,插入非输出画面,所述非输出画面代替显示在时间变化之前的空间部分的空间位置的参考画面,其中,参考画面显示在解码器的经解码画面缓冲器中在时间变化之后的空间部分的空间位置,所述解码器对所合成视频数据流进行解码。
图1的视频合成装置通常使用附图标记10来表示,并且包括用于接收输入视频数据流14的输入12和用于输出所合成视频数据流18的输出16。使用运动补偿时间预测对所合成视频数据流18和输入视频数据流14进行编码。例如,它们可以使用HEVC、VP9或使用一些其它视频编码方案来编码。如下面将更详细地概述的,就输入视频数据流14而言,视频合成装置10能够以低计算量并保留在压缩/编码域内生成或合成所合成视频数据流18。
以下面更详细地概述的方式,图1能够生成所合成视频数据流18,使得在对所合成视频数据流进行解码时,由输入视频数据流14表示的视频被显示在空间部分20处,其在所合成视频数据流18的画面内在时间上改变其空间位置。例如,输入视频数据流14的画面具有第一大小,例如n×m个样本宽,而所合成视频数据流18的画面具有大于第一大小的第二大小,诸如N×M个样本宽,其中n<N和/或m<M,其中n<N和m<M在图1中示出。根据图1的示例,输入视频数据流14的内容在其内的空间部分20具有第一大小,即n×m宽,尽管图1的示例可以被修改,因为视频合成装置10在所合成视频数据流18的空间部分20内仅描绘输入视频数据流14的某一静止空间子部分。
为了便于理解图1的视频合成装置10的操作模式,图1示出了输入视频数据流14的画面22的序列的示例性部分。图1中示例性地示出的画面22根据它们在数据流14中的编码次序并使用连续线箭头24从0到7编号。图1示出了通过运动补偿时间预测的画面22之间的相互依赖性,即哪一个画面22经由运动补偿时间预测参考哪一个画面。也就是说,箭头24指向的任何一个画面22表示相应箭头从其开始的画面的参考画面。例如,编号为1的画面22表示编号为2和4的画面22的参考画面。通过相应的运动补偿辅助信息在输入视频数据流14内控制运动补偿时间预测,此外,输入视频数据流14包括用于通过运动补偿时间预测校正预测的预测残差数据。例如,运动补偿辅助信息可以包括用于相应参考画面的块的运动矢量,并且还可以使用例如变换编码,使用例如频谱分解变换(例如DCT)等来对预测残差数据进行逐块编码,使得预测残差数据可以例如包括变换系数。存在于输入视频数据流14中的针对每个画面22的运动补偿辅助信息和预测残差数据可以使用例如可变长度编码和/或算术编码以例如熵编码的形式存在于数据流中。特别地,用于特定画面22的运动补偿辅助信息和预测残差数据可以以一个或多个片分组的形式存在于数据流14中,每个画面22可以沿着例如某些遍历相应的画面22的编码次序在空间上被细分成所述片。
就所合成视频数据流18而言,图1示出了该所合成视频数据流18中的画面序列26的片段,其中显示输入视频数据流14的时间对应部分,其由图1所示的编号为0到7的画面22构成。为了说明的目的,图1示出了视频合成装置10在该时间期间根据其空间位置改变在其内显示视频数据流14的内容的空间部分20一次,但是应当注意,视频合成装置10不受限于暂时改变空间部分20的空间位置仅一次,既不涉及整个所合成视频数据流18也不涉及其任何子序列。
为了避免上述在改变数据流18的画面26内的空间部分20的空间位置中简要概述的问题,视频合成装置10如下动作。
在空间部分20的空间位置改变之前(该时刻示意性地使用图2中的箭头28来指示),视频合成装置10通过简单地继承来自输入视频数据流14的对应画面22的数据来形成所合成视频数据流18的画面26。更准确地说,在图1的示例中,输入视频数据流14的图1中所示的前三个画面22在频谱部分20的空间位置中在变化28之前,因此所合成视频数据流18的前三个画面是“继承画面”,其频谱部分20由视频合成装置10通过收集和复制输入视频数据流14的运动补偿辅助信息和预测残差数据来填充。更准确地说,例如通过收集和复制编号为0的视频14的对应画面22的运动补偿辅助信息和预测残差数据来填充所合成视频数据流18中的编号为0'的画面26的空间部分20,以及类似地,通过收集和复制编号为1的对应画面22的运动补偿辅助信息和预测残差数据来填充编号为1'的画面26的空间部分20,并且使用编号为2的画面22的相应数据相应地填充编号为2'的画面26的空间部分20。也就是说,每个继承画面26的空间部分20在保持画面22的画面次序的情况下使用画面22中的相关联的一个画面来填充。
所合成视频数据流18的画面26(其空间部分20因此通过收集和复制输入视频数据流14的对应画面22的相应数据来填充)如刚才所述被称为“继承画面”,并且在图1中被示出为在空间部分20外部的画面26的区域内使用简单阴影。围绕空间部分20的区域可以由视频合成装置10人为地填充,例如,可以简单地是黑色的,或者可以示出一些其他静止画面等。在视频合成装置10中,还可行的是,在空间部分20外部的画面26的周围/剩余区域内示出由另一输入视频数据流表示的另一视频。下面进一步描述的实施例表示视频合成装置10的这种扩展的示例。如在那里所描述的,可以并行处理在所合成视频数据流的画面中具有相关联的空间部分的多于一个的输入数据流。输入数据流的空间部分可以例如在时刻28相互改变它们的位置。对于进一步的细节,参考下面提出的描述。
视频合成装置10在画面26内的空间部分20的空间位置变化之后继续形成继承画面26的序列。因此,编号为5'的画面26是继承画面,其空间部分20相对于编号为0'至2'的上述画面26的空间部分20在空间上移位,并且其空间部分20通过收集并复制输入视频数据流14的编号为3的画面22的运动补偿辅助信息和预测残差数据来填充,其中所合成视频数据流18的以下编号为6'到9'的后续画面26同样通过收集并复制输入视频数据流14的编号为4至7的后续画面22的相应数据来被填充在空间部分20内。
因此,编号为0'、1'、2'、5'至9'的画面26形成如所描述的使用输入视频数据流14的对应画面22的相应运动补偿辅助信息和预测残差数据的收集和复制来填充的继承画面的序列,并且以其他方式填充空间部分20之外的外部区域。然而,由于空间部分20的空间位置中的变化28,在时间实例28之后没有任何进一步措施的情况下,空间部分20内的所合成视频数据流18的内容将是不正确的,这是由于在时刻28处空间部分20的移动或移位。例如,参见编号为5’的画面26:由于通过收集并复制编号为3的对应画面22的相应运动补偿辅助信息和预测残差数据来在空间部分20内填充该画面26,所以经由运动补偿时间预测,它指向紧接的前一画面,所述前一画面在没有任何进一步措施的情况下是前一继承画面2'。然而,后一画面26具有从编号为3的画面22的参考画面继承的画面内容,即插入在移位后的位置处的编号为2的画面22,因此,视频合成装置10以下列方式解决该问题。
具体地,图1的视频合成装置10将非输出画面30在继承画面26之间插入所合成视频数据流18中,其中非输出画面30通过运动补偿时间预测来参考继承画面的子集。
为了说明非输出画面克服了刚刚概述的误参考的问题的方式,图1示出了使用连续线箭头32从所收集和复制的运动补偿辅助信息得到的所合成视频数据流18的画面26和30之间的相互依赖性,而使用虚线箭头34示出通过非输出画面30添加的相互依赖性以及以下面更详细描述的方式由视频合成装置10人为生成的它们的运动补偿辅助信息。如可以看出,视频合成装置10在时刻38插入了非输出画面30,在所述时刻38,空间部分20已经在空间上改变了其空间位置。先前讨论的“有问题的”画面26例如是画面5'。后者涉及数据流18的紧接的前一画面,然而,其现在是编号为4'的非输出画面30。如可以看出,视频合成装置10填充非输出画面30的空间部分20,使得1)非输出画面30的空间部分20位于与画面5’的空间部分20共址的空间部分20的新位置处,并且使得2)经由运动补偿预测通过复制继承画面2'的空间部分20的内容来填充编号为4'的非输出画面30的空间部分20的区域。后一个继承画面(即画面2')又是画面5'的参考画面——如果非输出画面30没有被插入到数据流18中的话。换句话说,编号为4'的无输出画面30将继承画面2'的空间部分20的内容复制到在改变时刻28之后有效的空间部分20的新位置中,并且因此假设其空间部分20,画面2的角色关于画面2作为参考画面相对于画面3的角色。更准确地说,非输出画面4'是画面5'的参考画面,就像画面2'是画面3的参考画面一样,通过使用其运动补偿辅助信息和预测残差信息数据,继承画面5’的空间部分20被填充。现在,用于继承画面5'的空间部分20的参考画面内容处于正确的位置:它在紧接的前一画面或数据流18内,即在编号为4'的非输出画面内,并且它处于正确的空间位置,即处于在空间上精确对应于画面5'的空间部分20的位置。
如图1所示,视频合成装置10还在时刻28的位置处插入非输出画面30,其替代之前的继承参考画面1':即视频合成装置10利用运动补偿辅助信息在与时刻28之后的继承画面26的空间部分20共址的空间部分20处填充非输出画面30,运动补偿辅助信息参考并由此复制在其空间部分20内的继承画面1'的画面内容。通过这种措施,这个非输出画面30,即画面3',被正确地用作继承画面6'的参考画面,因为它在空间部分20内被填充有附图标记为1的画面22的画面内容,其是填充了继承画面6'的空间部分20的使用运动补偿辅助信息和预测残差数据的画面4的先前参考画面。换句话说,图1的视频合成装置10在时刻28插入与在时刻28之前的输入视频数据流14中的画面22中的参考画面一样多的非输出画面30,其是在时刻28之后的输入视频数据流14的画面22的参考画面。甚至换句话说,视频合成装置10在时刻28插入与在数据流18中存在继承画面26一样多的非输出画面30,这将在没有插入的情况下代表用于在时刻28之后的数据流18的继承画面26的参考画面。
视频合成装置10在执行输入视频数据流14的画面22的运动补偿辅助信息和预测残差数据的收集和复制时,可以预先从例如熵编码域返回句法(syntax)级域,即,执行输入视频数据流14的画面22的运动补偿辅助信息和预测残差数据的熵解码,以便在使用从而收集和复制的运动补偿辅助信息和预测残差数据的情况下获得描述画面22的运动补偿辅助信息和预测残差数据的句法元素,从而填充空间部分20内的相应继承画面26,其中对其执行熵编码以形成所合成视频数据流。通过该措施,输入视频数据流14的画面22的运动补偿辅助信息和预测残差数据甚至可以在空间上重新分类或重新排序,以便考虑例如与对相应画面22进行编码所使用的编码次序相比的在继承画面26中遍历空间部分20的不同编码次序。然而,尽管执行收集和复制的这种方式避免了视频合成装置10再次执行运动补偿搜索的必要性,但是即使经由句法元素级的熵解码/编码迂回也可以通过根据实施例的视频合成装置10来避免。换句话说,可以以保留在熵编码域中的方式执行收集和复制。为了说明这种可能性,参考图2。
图2代表性地示出了继承画面5'和编号为3的对应输入画面22,其运动补偿辅助信息和预测残差数据用于通过收集和复制来填充画面5'的空间部分20。图2还示出了编号为3的画面22被表示在数据流14中的方式:按照预定的编码次序,例如光栅扫描次序36,画面22的内容以一个或多个片38为单位顺序地编码到数据流14中。在图2中示例性地示出了两个片。每个片38例如在数据流14内包括片头40,片头40指示例如位于画面22内的相应片,例如相对于画面22的左上角指示的片。
为了能够基本上按照原样将片38继承到所合成视频数据流18中,而不离开熵编码域,至少对于它们的有效载荷部分42而言,其包括使用熵编码来编码的运动补偿辅助信息和预测残差数据,以便对画面26的内容进行编码,就空间部分20而言,视频合成装置根据图2的实施例将画面26细分为拼块44,拼块分割使用点划线在图2中示出并且例如在HEVC中可用。通过将画面26细分为拼块44,画面26在数据流18中编码所使用的编码次序被引导,使得在画面26的空间部分20内,编码次序与编码次序36一致,画面22使用所述编码次序被编码为片38。更精确地,如上所述,画面26大于画面22。空间部分20具有与画面22相同的大小。将画面26拼块分割为拼块44使得空间部分20与拼块44中的一个精确地重合。画面26的编码次序通过拼块分割来修改,因为画面26的编码次序根据拼块次序遍历拼块44,其中,在以拼块次序继续下一拼块之前首先在一个拼块内遍历画面26。通过这种措施,可行的是,视频合成装置10直接将片38复制到数据流18中,即直接复制到访问单元46中,画面26在数据流18中被编码到该访问单元46中。这些片38然后对表示空间部分20的相应拼块44进行编码。
可能的是,在使用/应用图2的概念时,视频合成装置10修改片头40内的一些数据。例如,每个片头40可以包括片地址,其指示相对于相应画面的左上角的相应片的起始位置(编码次序36)。因此,为了考虑片在继承画面26内(即在空间部分20内)的新位置,视频合成装置10可以改变片地址以测量片在空间部分20内相对于继承画面26的左上角的新位置。
附加地或备选地,每一个片头40可包含画面次序计数数据。画面次序计数可以排序相应数据流内的画面。如上所述,由于视频合成装置10将非输出画面30插入所合成视频数据流18中,所以当填充继承画面26的空间部分20时,视频合成装置10可以改变片头40中的这种画面次序计数数据。例如,图2的片头40可以指示3作为画面次序计数,而数据流18内的片38的片头可以指示5,以便考虑两个非输出画面30的插入。
附加地或备选地,片头40可包含参考画面次序计数差值,即指示相对意义上的当前画面22的参考画面的值,即当前画面22之前或之后的第x画面。在关于图1描述的实施例中,由于非输出画面30被定位在视频数据流18内的正确位置处,所以不需要改变参考画面次序计数差值,但是根据另一示例,视频合成装置10可以改变在片头40内的这些参考画面次序计数差值。
此外,并且还附加地或备选地,片头40可包括对一组参考画面次序计数差值的参考。这种参考可以例如涉及在输入视频数据流14内传送的参数集,并且在使用片38填充空间部分20时,可以在片头40中改变参考。同样,参数集本身可以在不修改它们或修改它们的情况下从输入视频数据流采用。
另外,附加地或备选地,可行的是,片头40包括差分编码量化参数。也就是说,例如,在数据流14内,相对于在对于画面22或者甚至对于包括画面22的画面序列的数据流14内传送的量化参数,可以对片头40的差分编码量化参数进行差分编码。在构造所合成视频数据流18时,视频合成装置10同样可以针对画面26或者甚至包括数据流18内的画面26的画面序列选择特定量化参数,并且其可以例如不同于用作片头40内的差分编码量化参数的基础的量化参数。因此,被传送到数据流18中的片38的片头40可以由视频合成装置10改变,以便考虑由装置10在数据流18中其他地方发信号通知的参考量化参数的变化。
图3示出了视频合成装置10可以如何人为生成非输出画面的可能性。特别地,图3代表性地示出了编号为4'的非输出画面30和编号为2'的继承画面26,即非输出画面30经由运动补偿时间预测替代并参考的继承画面26。特别地,图3示出了以基于块的方式使用运动补偿时间预测对数据流14和18进行编码的情况。也就是说,将相应画面分割成块,其中一些块使用运动补偿时间预测来预测,并且对于这些块中的每一个,通过运动补偿辅助信息指示自己的运动矢量。装置10确定非输出画面30的空间部分20的运动补偿辅助信息,使得非输出画面30的部分20通过平移从继承画面26的空间部分20复制,其中两个部分20都是相同大小。也就是说,非输出画面30的部分20的每个样本从使用同一个运动矢量50相对于具有画面26的位置移位的画面26内的对应样本被复制,所述位置与非输出画面30的部分20的相应样本共址。然而,因为根据一个实施例,运动矢量50对于所有块52是相同的,所以如果由数据流14和18之下的编码方案可用,装置10利用空间预测机制以便对非输出画面30的部分20的运动补偿辅助信息进行编码。在这种情况下,例如,运动矢量50将在数据流18内仅针对非输出画面30的空间部分20的块52中的一个被明确地编码,而对于部分20的其他块52,将通过空间预测采用/预测运动矢量。例如,跳过模式可以用于除了运动矢量50被明确编码的块之外的块52。例如,使用跳过模式将向每个块52发信号通知运动矢量52被采用或在空间上预测,并且对于相应块52不存在预测残差数据。装置10不针对任何非输出画面30的无空间部分20对预测残差数据进行编码,例如,以便复制未修改的、非输出画面30替代的继承画面26的空间部分20的画面内容。
简要回顾图1,图1示出了以下的可能性;图1的视频合成装置10可以被配置为响应于外部信号60(即针对改变的外部请求)来控制空间部分20的空间位置的时间变化。如果是这样,则视频合成装置10可以不立即且明确地执行这样的针对改变的外部请求。相反,视频合成装置10可以在接收到请求60时,顺序地检查输入画面22,以便确定未经由时间运动补偿辅助信息预测被任何其他输入画面22所参考的第一个输入画面22。这样做的细节和原因在下面更详细地陈述。
例如,参见图4。图4示出了相对于画面5'的由非输出画面4'对画面2'进行的替代。也就是说,已经由装置10插入的非输出画面4'复制在空间部分位置改变之前有效的空间部分20的位置的画面内容,以便在空间部分20的新位置处插入在非输出画面4'中,使得其空间部分20已经通过从输入画面之一(即输入画面3)收集和复制而被填充的画面5'能够从非输出画面4'的共址的空间部分20使用输入画面3的运动补偿辅助信息来预测空间部分20内的画面内容(使用图4中的若干箭头62示出的)。换句话说,从输入画面3收集并复制到画面5'的空间部分20中的运动补偿辅助信息可以例如在空间部分20内按每个帧间预测块对一个运动矢量编码。
如关于图3所解释的,时间预测可以是一个选项,以便降低用于运动补偿辅助信息(例如输入画面22的运动补偿辅助信息)所花费的比特率。然而,在时间上从参考画面预测画面5'的空间部分20的运动补偿辅助信息目前将导致误差,原因如下:非输出画面4'关于画面2'的功能代替画面2'作为画面5'的参考画面。这关于画面内容(即,通过运动补偿辅助信息62被复制到画面5'的空间部分20中的最终重建的画面内容)工作。然而,如从图3的描述变得清楚的,在非输出画面4'的空间画面20的数据流中传送的运动补偿辅助信息与针对画面2'的空间部分20发信号通知的运动补偿辅助信息不一致,因为非输出画面4'的空间部分20的运动补偿辅助信息仅以平移的方式将画面2'的空间部分20复制到非输出画面4'的空间部分20中。换句话说,非输出部分4'的空间部分20的运动矢量仅仅是在整个空间部分20中是均匀的人为运动矢量,而针对画面2'的空间部分20发信号通知的运动矢量表示视频场景中的画面内容的移动。
因此,根据本申请的实施例,视频合成装置10被配置为执行针对不直接但在遇到顺序下一时机或时刻的改变的外部请求60,在所述下一时机或时刻处,通过如何后续的——相对于该时机或时刻——输入画面22,在过去——相对于该时机或时刻——继承画面中参考画面的替换可能不会导致错误的时间运动补偿辅助信息预测。例如,假设请求60将在画面1'的空间部分20通过收集和复制图1中的输入画面1的相应数据而被填充的时间处已经到达装置10。装置10将检查当前可用的参考画面中的任何一个(即参考画面中的任何一个,如果时刻28在画面1的正前方,则其将是将被相应的非输出画面替换的候选者)是否用于时间预测,以用于预测运动补偿辅助信息。如果是这样,则装置将推迟对空间部分20的空间位置的改变的执行。然后,装置10将同样检查例如输入画面2。也就是说,装置将检查在该时刻的参考画面(即将被非输出画面替换的候选者)是否被参考用于运动补偿辅助信息。在图1的情况下,例如,画面3可能是第一输入画面22,从该画面上没有画面使用时间预测来从在那时要被替换的参考画面中的任何一个预测运动补偿辅助信息,即所有然后可用的参考画面不用于运动补偿辅助信息的时间预测,并因此装置10执行输入画面22的画面2和3之间的请求60。
一种有效地向视频合成装置10发信号通知可以执行请求60的可能时间点的方式(即,检测输入画面的有效方式,在该输入画面处可以通过在相应画面之前插入非输出画面30来执行请求60)将生成视频14,使得一个或多个特定时间体系层的画面被保证不用于运动补偿辅助信息的时间预测。也就是说,尽管允许经由用于运动补偿辅助信息的时间预测,从数据流14的其它画面22参考特定时间层ID(例如超过某个阈值时间层次ID的特定时间层ID)的画面22,数据流14可以向视频合成装置10发信号通知除了一个或多个特定时间层ID之外的时间体系层ID(例如,在超过该阈值的时间体系层之上)的画面22被保证不是被用作运动补偿辅助信息的时间预测中的参考。在这种情况下,装置10可以检测遇到在输入画面22的序列内的顺序下一个——从请求60的到达的时间上——在其编码时间处,一个或多个当前参考画面(如果该编码时间被证明是合适的切换时刻28,则所述当前参考画面由非输出画面替换)中没有一个具有包含允许被参考用于运动补偿辅助信息的画面的时间层ID。该装置可以仅基于输入画面的画面范围时间体系层ID和由入站数据流14的高级句法包括的超出画面范围时间体系层识别符来执行该检查。输入画面22的画面范围时间体系层ID可以例如被包含在与每个画面22单独相关联的访问单元头部中,或者在相应输入画面22的片的片头40内。包括所提到的超出画面范围时间体系层识别符的高级句法可以被包括在数据流14的SEI消息中,如下面将相对于具体的SEI消息句法示例所概述的。备选地,装置10可以通过相应的高级句法检测数据流14中的时间运动补偿辅助信息预测的完全不存在(与编码效率的损失相关联),并且因此独立于画面范围时间体系层ID执行请求60。甚至备选地,入站数据流14可以包括指示符,例如,以SEI消息或特殊NAL单元类型的形式,其通过指示符在比特流内的位置指示当前画面用于执行请求60的适合性。甚至备选地,装置10可以默认地预期在数据流14中完全不存在时间运动补偿辅助信息预测,而不明确地验证该事实。输入视频数据流将相应地被提供给装置10,即服从相应的约束。
关于人为插入的非输出画面30,注意,为了降低其数据速率,装置可以使用在一个非输出画面30和另一个之间的运动补偿辅助信息的时间预测,例如在一个特定时刻28插入的不同非输出画面之间,或甚至在不同时刻插入的非输出画面之间。通过这种措施,甚至用于对形成用于非输出画面的空间部分中的其它块的空间运动补偿辅助信息预测的种子的一个明确编码的运动矢量进行编码的编码开销被减少,因为仅仅其时间预测的残差被编码。
图5示出了与视频编码器70和接收所合成视频数据流18的解码器72一起的框架中的视频合成装置10。这里,视频合成装置10与视频编码器70一起形成系统74,下面关于使用多于一个视频编码器70的实施例给出其示例,诸如,例如,向一个或多个客户端提供可用的交通摄像机视图的混合(blend)的交通监控系统、实现向一个或多个客户端提供全景视频的子部分的全景视频应用的虚拟现实系统或者向一个或多个客户端提供第三方参与者的视图的混合的电话会议系统。
视频合成装置10从视频编码器70接收输入视频数据流14,并以上述方式将其显示在合成视频数据流18的画面的空间部分20中。视频解码器72仅需要对如由装置10输出的输入的所合成视频数据流18进行解码。在解码器72的输出处,输出要显示的重建画面序列,在图5中使用附图标记76指示的。在内部,解码器72示例性地被指示为由编码画面缓冲器78的序列合成,后面是解码引擎80,再次后面是解码画面缓冲器82。入站合成视频数据流18进入缓冲器78。解码引擎80顺序地对数据流18的画面26和30进行解码,并将对这些画面的解码的结果插入解码画面缓冲器82。如箭头84所示,解码画面缓冲器82的输出也被反馈到解码引擎80,使得缓冲器82中的解码画面可以用作用于随后解码画面的参考画面,如上面关于运动补偿时间预测已经概述的。
在输出解码画面时,解码器72一方面区分继承画面26,另一方面区分插入的非输出画面30:在数据流18中发信号通知非输出画面30作为不输出的画面,即不作为要显示的视频76的一部分。例如,对于数据流18的每个画面26和30,数据流18可以包括指示是否要输出相应画面的标志。然而,也可以在逐个片的基础上发信号通知该标志。也就是说,属于非输出画面30的所有片将发信号通知不显示的相应画面内容。在HEVC中,例如,标志pic_output_flag可以用于此目的。应当注意,输入视频数据流的画面可以是所有输出画面类型,但是备选地,它可以是其已经被非输出画面散布。
尽管上文未特别概述,但视频编码器70可被配置为遵守由视频编解码器本身强加的约束之外的一些编码约束。例如,在基于输入画面22的相应数据填充继承画面26的空间部分20中,变得清楚的是,输入画面22的以前的画面边界在填充空间部分20之后变为空间部分20的内部边界。然而,这种情况变化可以改变时间运动补偿预测:指向延伸到画面边界之外的参考画面的区域的运动矢量可以调用参考画面的拷贝区域的位于参考画面外部的部分的一些特殊处理,诸如外插等。然而,这种调用可能不发生在空间部分20的边界处,因为后一边界可能例如位于相应的继承画面26内。因此,视频编码器70可将画面22边界附近的运动补偿辅助信息限制到运动补偿辅助信息不在延伸到画面22边界之外的区域处复制参考画面的程度。另外,视频编码器70可被约束以避免子像素精度接近输入画面22的边界的运动矢量所需的子像素内插。例如,在输入画面22的区域内具有块的子像素精度的运动矢量可以调用用于亮度或色度样本值的内插的有限脉冲响应滤波过程。当运动矢量子像素位置在空间上接近输入画面22的空间画面边界时,在内插子像素样本值时,滤波器内核可以与延伸超过画面22边界的区域重叠。在这种情况下,可以调用前述的特殊画面边界处理,例如外插等。基于输入画面22的相应数据填充继承画面26的空间部分20,在填充空间部分20之后,输入画面22的画面边界可以变成继承画面26的空间部分20的内部边界,并且可以不发生这种调用。因此,视频编码器70可限制对画面22边界附近的子像素精度运动矢量的使用,达到子像素内插处理不使用延伸超过画面22边界的参考画面区域的程度。另外,当对空间上位于输入画面22空间边界处的块的运动补偿辅助信息执行时间预测时,编码器70可促进邻近参考画面内的并置块的块的运动矢量(如果存在这些块)。如前所述,基于输入画面22的相应数据填充继承画面26的空间部分20可以将输入画面22的画面边界变为继承画面26的空间部分20的内部边界。因此,空间上接近部分20的内部边界的给定块的运动矢量辅助信息的时间预测过程可以访问与相应并置块相邻的参考画面内的块,并且因此可以访问其中不可用于编码器70的块,导致预测不匹配。因此,视频编码器70可将画面22边界附近的运动补偿辅助信息的时间预测限制到预测过程不使用来自延伸超过画面22边界的参考画面区域的信息的程度。同样地,输入画面22的内部边界可以变为画面26内的画面边界,并且编码器70可以相对于输入画面22的内部边界相应地限制运动矢量辅助信息的时间预测。关于(Re)环路内滤波,视频编码器70可被设置为在提供输入视频数据流时使用或不使用环路内滤波。如果环路内滤波被发信号通知用在输入数据视频数据流中,则装置10可以采用对继承画面22的对应空间部分的环路内滤波,并且如果被发信号通知不用在输入数据视频数据流中,则装置10可以不对继承画面22的对应空间部分应用环路内滤波。然而,如果使用环路内滤波器,则装置以这样的方式抑制激活对继承画面22的环路内滤波,使得环路内滤波在继承画面中越过空间部分20的边界。例如,没有附加的环路内滤波由装置10在非输出画面30中激活,以便不改变参考画面内容。
此外,在使用多于一个视频编码器70的情况下,可能有利的是使这些视频编码器70关于图1中使用箭头24所示出的时间预测GOP结构和/或另外的编码工具和参数同步。
此外,视频编码器70可如上文关于图4所概述,在生成数据流14中使用时间体系编码概念,并且关于时间体系层级的子集,视频编码器70可以在自愿的基础上抑制使用时间运动补偿辅助信息预测,即抑制使用时间体系层级的相应子集的画面作为TMVP的参考,其中,使用经由相应的数据流14的高级句法的上述保证信令来保证对装置10的这种不使用,使得装置10又可以识别入站数据流14的可以发生空间部分20的空间位置的改变的那些画面22。
从关于图6至10描述的具体应用场景的描述中也将变得清楚的,生成(一个或多个)输入视频数据流14的(一个或多个)视频编码器70可以被配置为对由相应摄像机捕获的视频进行编码,其中该视频编码可以分别匆忙地(on the fly)或实时地进行。视频编码器70可以集成在这种摄像机内。装置10可以被包括在服务器中,而解码器72可以被集成在该服务器的客户端中。然而,甚至备选地,装置10也在客户端侧实现,从而以便宜的方式扩展(标准)解码器72的能力,以通过仅将解码器72上游的装置10串联连接来实现上述的合成自由度。下面描述的实施例涉及例如电话会议系统,其中例如解码器72是参与者的客户端的一部分。备选地,解码器72可以是客户端,例如头戴式显示场合,从全景视频阵列检索全景视频子部分,其中由视频合成装置10以下面更详细地概述的方式执行合成。视频合成装置10本身可以以在计算机等上运行的软件的形式来实现,而解码器72可以使用移动设备上的软件、硬件或可编程硬件来实现。
尽管在图5中未示出,可以是,到达视频合成装置10的请求60可以源于解码侧。备选地,在某个控制点(例如监控实体)手动生成请求60。
在下文中,描述了实施例,根据该实施例,图1至5的实施例是关于多于一个输入视频数据流同时使用的。在下面的描述中,非输出画面30被称为生成的参考画面(GRP)。它们关于多个输入视频数据流代替参考画面。如上所述,GRP是插入到所合成视频数据流/比特流中的所合成画面,其未被输出并且目标为在解码所合成视频数据流时在特定时间位置处替换原始参考画面。关于GRP的更多细节,除了上面已经提出的之外,在下面使用若干样本应用来呈现,但是也适用于另外的应用。特别地,这样的细节还应当能够单独地可转移到上述描述中。
图6表示基于拼块的全景流传输应用。现在实现全景流传输的方式是通过具有跟踪感兴趣的客户端区(ROI)(即客户端设备上的内容区域显示)的专用服务器,并且将全景视频转码为仅包含用于给定客户端的ROI的视频。这种方法具有不能很好地按比例缩放的缺点。然而,使用HEVC,例如,视频比特流可以被分割为称为拼块的较小部分。拼块是画面的小矩形形式的分区,其可以以去除不同拼块中的时间依赖性的方式来编码[2]。然而,如果独立地解码拼块,则不能使用单个视频解码器,因此需要类似于[1]中所示的技术的拼块缝合过程。
图6中描绘了特征为客户端屏幕移动的两个时刻,即T=0和T=1,其中T=1表示交互流传输的切换点,在该切换点处客户端侧改变所呈现的拼块的位置。在全景流场景中,客户端通常通过随时间自适应地选择ROI(例如,通过用户交互或诸如ROI识别之类的自动化过程)来在全景上导航。
这意味着接收/下载的拼块相对于整个全景序列的位置随时间变化。在T=1处的流传输过程期间接收的新位置处的任何拼块(即,先前未在T=0处接收到)需要在该拼块的解压缩视频内容处的随机访问,因为前一时刻T<1不可用于解码器以进行参考。
然而,之前接收的位置的第二组拼块不一定需要随机访问,因为该组中的拼块的信息已经被接收。这些拼块在图6和7中使用阴影来指示。对于那些拼块,只有输出画面中的位置不同于可用于参考的已经解码的画面中的位置。因此,不能按原样使用[1]中描述的技术。来自视频解码器缓冲器中的规则参考帧的时间预测对于该第二组拼块失败,因为参考画面将具有与在编码器侧遇到的信息不同的信息。
作为次要中间记录,注意,在仅用于图示目的的图6和7中已经选择了所合成视频的九个拼块分割,并且自然地也可以使用一些其他分割。使用附图标记90来指示拼块。如从下面的描述将变得清楚的,所合成视频数据流的拼块表示可以显示相应输入视频数据流的空间部分的可能的空间位置。在图6所描绘的全景应用场景中,许多输入视频数据流可用:在图6的示例中,11×5个输入视频流92覆盖全景视频场景,因为输入视频数据流92全部捕获全景场景的不同空间部分,空间部分例如彼此无间隙地接壤并且在空间上以阵列形式分布在如图6所描绘的行和列中,使得视频92分别与按行和列布置的全景场景部分相关联。在每个时刻,所合成视频数据流在其3×3个拼块内仅描绘11×5个输入视频数据流92中的3×3子矩阵。
图7示出由于在时刻T=1中拼块的新位置,在缝合视频(即,所合成视频数据流)中使用的参考(所述参考在图7中的94处指示)将不同于使用图7中的块96所示的编码器侧上的原始参考,导致不允许使用针对图6和7中用线虚线化的非刷新部分的时间预测的漂移。因此,已经接收并被重新定位到合成/缝合输出信号中的新位置的拼块也需要随机访问,使得不允许时间预测,从而导致接收到的所合成比特流的更高比特率。GRP的概念解决了这个问题。
图8示出了解决关于图6和7的上述问题的GRP概念。GRP是执行常规参考画面的内容的移位的画面,使得随后画面可以使用先前接收的拼块(即,视频的区)的时间预测,并且移位到在图1中由28指示的流传输交换点处和之后的合成/缝合视频中的新位置。GRP仅用于参考,且不输出。
在继续下一个应用的布景(其中,图1至图5适用于使用若干输入视频数据流的情况)之前,通过组合图1至8简要地解释刚刚提到的实施例。具体地,根据上面关于图6至8描述的实施例,例如,图5的系统将包括每个全景部分视频92(即在图6的示例性实施例中11×5)的一个视频编码器70。视频合成装置10将例如3×3入站视频数据流的子阵列缝合成所合成视频数据流。每当子阵列跨越输入视频数据流92的阵列移动时,视频合成装置10执行非输出画面或GRP的插入,其中在该时刻28插入的GRP 30将包括在拼块位置处的人为运动补偿辅助信息,其对应于已经是时刻28之前子阵列的一部分的输入视频数据流。在子阵列的对角线移动的情况下,这些数目为4,而水平或垂直移动在每个切换时刻之前和之后共同拥有六个数据流。在图6的情况下,例如,在时刻之后(即在T=1处)作为子阵列的一部分的四个输入视频数据流已经是在时刻之前(即在T=0处)的子阵列的一部分,即使用阴影所指示的那些。在时刻28处(即在继承画面26之间)插入的一个或多个GRP在图8中将以平移方式将这四个输入视频数据流先前定位的拼块的内容复制到这四个输入视频数据流的新拼块位置。(一个或多个)GRP可以因此针对若干输入视频数据流14并行地执行此操作。在该全景应用场景的情况下,人为运动补偿辅助信息将例示对应于保留在当前显示的所合成视频数据流中的所有输入视频数据流的空间部分的平移移动。在接下来描述的应用场景中,这可能不同,即,针对GRP的人为生成的运动补偿辅助信息可以是针对一个输入视频数据流的平移,但是运动方向对于并行处理的不同输入视频数据流可以是不同的。
特别地,虽然GRP概念在上面关于图5至8的全景流传输应用的上下文中进行了描述,下面关于图9呈现了不同的示例。如前所述,GRP还允许其他应用,例如,视频会议。在视频会议系统中,所有参与者的视频比特流以大致类似的方式组合/缝合成单个视频比特流。在改变发言者合成布局时,通过发言者改变或参与者波动,GRP被添加到比特流以允许对改变了合成中的位置的参与者视频比特流的正确的时间预测。在这样的应用中,相应GRP中的运动矢量在整个GRP中不一定是恒定的,而是至少对于由如图9所示的每个参与者的视频比特流覆盖的区域(其中对于T=0和T=1给出两个不同的合成,并且还示出了GRP的运动矢量)是恒定的。因此,在这种情况下,可以使用对应于布局方案的更多片或拼块,使得对于每个发言者,单个编码单元具有运动矢量信息,并且跳过用于编码的发言者的剩余编码单元。换句话说,图9的GRP 30可以以类似于以上关于图3所提出的描述的方式来编码:画面30可以被细分,以便产生在切换时刻28之前和之后存在的每个输入视频数据流的一个空间部分20,其在图9的情况下示例性地为3,并且通过使用空间预测,这三个输入视频数据流中的每一个的空间部分的移位可以仅针对这三个输入视频数据流中的每一个(即仅针对相应空间部分内的一个块)被编码一次,而可以使用空间预测以便分别避免针对相同空间部分内的剩余块重新发信号通知每个输入视频数据流的平移运动。
GRP概念的进一步目标应用是通常在具有变化的随机访问速率和输入流14中的流传输控制的虚拟现实或电视存在使用情况下发现的向头戴式显示器的全景流传输。在所提及的应用中,可用的视频流可能在(一个或多个)摄像机位置处覆盖高达360度的视角。同样地,可用视角视频的相当大部分被同时呈现给用户以提供周边视觉。此外,由于头部移动而导致的全景视频的显示区的调整可能以比例如基于触摸的输入系统上的短得多的间隔和更高的速度发生。
在一些情况下,在视频流中存在明显优选的感兴趣(ROI)区,例如,如图10所示的远程控制的车辆上的移动方向等。位于区内的画面区域可以用较粗(或零)的随机访问速率来编码,因为参考视频预期在解码器侧可用(即不断解码),即使没有显示以提供即时访问(如果指示的话)。其他观看角度(周边区域)提供相对精细的随机访问速率以提供观看方向的偶尔改变。在该场景中的缝合视频总是包含ROI和可选的周边区域的部分。然后根据所呈现的视频区域如上所述生成GRP。
与[1]中概述的技术相比,上面概述的GRP概念可以涉及一些扩展和以下列表细节约束和性质,输入视频数据流14和GRP可以服从和包括所述约束和性质。
时间运动矢量预测:在上面已经讨论了基于其生成输入视频数据流14的一些比特流约束,诸如关于画面22的边缘部分处的运动矢量的一些限制。此外,可以限制时间运动矢量预测(TMVP),即运动补偿辅助信息的时间预测,使得没有可以被GRP替代的画面被用于TMVP。通常,在所列出的示例性应用中,将存在被定义为用于从该时间点向前改变ROI或发言者布局的切换点。例如,如果使用分层预测时间可缩放性,则切换点可以例如被选择为可用时间层的一些其他子集的时间级0的一个或多个画面。在这种情况下,对于TMVP,不选择具有时间级0的画面,因为该画面可能被改变为GRP。备选地,对于由预测结构确定的画面/时间量,可以针对切换点处的所有时间级禁用TMVP。GOP结构可以在比特流上保持恒定,使得缝合画面具有时间级指示符的相同值,并且重写过程被简化。
参考画面集:为了避免在接收器/解码器处所需的存储器的增加并减少必要的解码画面缓冲器(DPB)大小,有利的是输入视频数据流总体上使用相同的预测结构,使得参考画面集(RPS)的量和大小当以同步方式混合/缝合/合成输入视频数据流(例如,拼块)时,特别是当一些具有I片而一些具有P或B片时可以保持最小。例如,当一个输入视频数据流的HEVC IDR或CRA被转换为具有在所合成视频数据流中的I片的尾部画面时,可以选择一致的RPS,可以选择与拼块的RPS匹配的非空RPS,I片拼块与所述非空RPS混合/缝合,并且对于仅使用I片作为参考的后续片,可以指示(与其他片)相干的RPS,以及将I片识别为唯一参考画面的句法结构,用于参考画面列表和画面索引的句法结构必须被添加到片。
画面次序计数(POC):GRP 30的插入/添加可以伴随着装置10在比较输入画面22和另一方面对应的继承画面26的POC值时改变另外的POC值。GRP的POC差异保持与替代的原始画面相同,这可以通过定义大于或等于DPB中的所有画面的最大POC差的POC增量(delta)加1来实现。该POC增量用于GRP,以通过将其添加到DPB中的替代画面的POC来计算POC值。来自最后一个IDR的所有POC增量的总和可以被添加到从片头导出的POC值。另外,另外的高级句法结构例如在使用HEVC的情况下可能需要适应,VPS中的vui_poc_proportional_to_timing_flag可能在输出流中未设置。
环路内滤波器:另外,为了避免由于当通过预测(箭头34)空间重新定位时原始输入视频流画面22的修改而导致的(一个或多个)GRP 30之后的画面的预测漂移,GRP 30中的环路内滤波器,例如HEVC中的解块和样本自适应偏移滤波器应被禁用,例如在PPS中,即除了由视频编码器70执行的环路内滤波之外没有附加的环路内滤波可以应用于GRP 30。
拼块和片:为了减少数据的插入量,装置10可以通过在最小值处的拼块和片来保持GRP的结构化,因为它引入了不必要的信令开销。然而,类似于缝合画面或任何其它画面的拼块/片设置可以是所需的/有利的实现或源视频方式。
输出信号化:如上所述,在所合成视频数据流之下的视频编解码器使得能够例如通过HEVC片头中的output_flag发信号通知GRP的输出性质,即GRP不被输出并且仅用于参考。片头中这样的句法元素的存在可能需要附加的PPS,其发信号通知其在参考该PPS的片中的存在。
参数集插入:GRP不一定与流的其他画面共享在它们各自的参数集中发信号通知的所有性质。因此,可能有利的是将附加参数集插入到输出比特流中以供GRP参考。
(一个或多个)GRP NAL单元:通过使用编码单元(CU)或具有最大可能大小的块来对GRP进行编码是有利的,以便产生尽可能少的比特。第一CU或块可以被编码,如关于图3所概述的,指示画面的必要移位,即,多少像素以及(一个或多个)相应拼块在哪个方向上移动。由于对于相应空间部分的所有CU的移动是相同的,所以CU或块的其余部分以跳过模式等来编码。然而,输入流的CU大小或每画面区域的个别运动可激发较小的CU大小。GRP片可以包括新的RPS或者对SPS中的RPS的索引,其在需要时将代替的画面标记为不需要参考。后者意味着一旦画面被GRP替代并且包括另外的GRP,则另外的GRP的RPS不包括对原始画面的参考以保持DPB存储器要求低。
SPS一致性:IDR可以激活具有不同于先前活动SPS的值的新SPS。然而,为了能够在单个比特流中将不同的比特流缝合在一起,需要不同流的SPS是一致的。为了将IDR重写到尾部画面的I片并且与其它非I片缝合,它不必激活具有与先前的活动SPS句法元素不同的句法元素的SPS。
关于上述描述,应当注意,例如以片数据或片有效载荷部分42的形式的GRP 30可以被预编码以用于插入。也就是说,装置10可以具有与预想的输入数据流配置匹配的一组这样的预编码GRP 30。以这种方式,这样的GRP可以被插入到所合成视频数据流18中,因为它们的片有效负载内容仅取决于高级参数,例如画面尺寸、移位或拼块结构。这允许例如不具有实际熵编码器的实现,诸如,例如用于H.264/AVC或HEVC编码内容的上下文自适应二进制算术编码(CABAC)引擎。
在上述实施例中,存在将若干输入视频数据流合成为一个所合成视频数据流的实施例。在下文中,描述了使用略微不同的概念实现所合成视频数据流或多个输入视频数据流的合成的实施例。图11示出了具有用于接收多个输入视频数据流1051、1052……105N的输入102和用于输出所合成视频数据流108的输出106的装置100。在下面的描述中有时省去输入视频数据流的索引。使用运动补偿时间预测对输入视频数据流105和所合成视频数据流108进行编码。
以下面更详细地概述的方式,图11的视频合成装置100能够以如下的合成自由度来合成入站输入视频数据流105中的视频,所述合成自由度与上面关于图1至10所描述的实施例相比增加,但是以将画面数量扩展到由所合成视频数据流18跨过的空间维度空间为代价。一般来说,图11的视频合成装置100“隐藏”所合成视频数据流18的参考部分内的输入视频数据流105,而不输出,同时由视频合成装置100合成地生成的所合成视频数据流的另一部分通过经由运动补偿时间预测参考在参考部分之外的各个区域来合成核对视频。合成地生成的内容的后面部分是在解码侧实际输出的所合成视频数据流18的部分。
换句话说,根据图11的概念,多个输入视频数据流105在压缩域中被装置100处理以创建单个输出视频数据流/比特流108,当馈送到单个解码器中时,其产生多个输入视频数据流/比特流105的空间组合。图12示出了第一示例性使用情况,其中一个输入比特流(流1)1051的内容与另一输入比特流(流2)1052的部分重叠,以便合成通过对输出比特流108进行解码而实现的预期合成110。
在下面更详细概述的一种方式中,为此,输出数据流108包括携带输入数据流1051和1052的视频内容的参考部分112和要实际输出的合成部分,所述合成部分经由运动补偿时间预测参考参考部分112。在图12中,不同阴影线箭头示出了输入视频数据流105中使用的参考区域。换句话说,同样将示出用于在部分114中创建所合成视频内容的预测矢量。更详细信息呈现如下。
参考回图11,视频合成装置100通过将多个104输入视频数据流105的运动补偿辅助信息和预测残差数据收集并复制到第一部分112中来将多个输入视频数据流105多路复用到所合成视频数据流108的画面116的参考部分112中。通过经由运动补偿时间预测参考参考部分112,所合成视频数据流108的画面116的第二部分114用合成地生成的核对视频来填充。当在数据流108中发信号通知参考部分不被输出时,第二部分114被发信号通知以被输出。
如下面将更详细地概述的,关于如何将输入视频数据流105多路复用到参考部分112中存在若干可能性。让由特定输入视频数据流105i传送的“视频量”表示例如相应输入视频数据流105i的每个画面118的样本数量,例如ni×mi乘以每秒的画面数量(诸如ti),并且进一步将第二部分114的“视频量”表示为核对视频的每个画面的样本数量,例如no×mo乘以每秒的画面数量,则核对视频数据流108包括例如每秒至少n0×mo×to+∑ni×mi×ti个样本。视频输入数据流当中的画面大小变化可导致虚拟数据填充区域被添加到最小大小,如将关于图15解释的。存在如何可以将输入视频数据流105“隐藏”或多路复用到参考部分112中的各种方式。为此,例如,参考部分112可以包括非输出画面和/或所合成视频数据流108的输出画面的要修剪的画面区域。更多细节描述如下。
换句话说,图11的概念使用若干输入比特流105通过多路复用来创建新的单输出比特流108的一部分112。输入比特流105的要在单个时刻形成要输出的合成的画面118或其部分在下文中被称为一组参考画面(PSR)中的画面。
关于图13和14,用于将输入比特流105多路复用到参考部分112中的两个备选方案在下面更详细地描述
关于图13呈现并示出第一备选方案。图13示出了两个输入视频数据流105都使用IPPP参考GOP结构的示例,但这在图13中仅被选择用于说明的目的。
图13的示例性两个输入视频数据流1051和1052使用时分多路复用被多路复用到所合成视频数据流108的画面116的至少一个子集的空间上静止的空间部分119中。
也就是说,在图13的情况下,画面118交替地用于填充数据流108的画面116的至少一个子集,使得如图13所示,数据流108的一对连续画面116使其空间上静止空间部分119填充有输入数据流1051的一个画面118和另一个输入视频数据流1052的一个画面118,两者都旨在在同一时刻形成所合成视频并且例如属于两个输入视频数据流1051和1052中的相同时刻。例如,输入视频数据流1051的画面118可以具有与输入视频数据流1052的画面118相同的大小,即n1=n2和m1=m2,使得所合成视频数据流108的画面116的至少一个子集中的相同大小的相应空间上静止的空间部分119通过收集和复制这些输入视频数据流105的相应画面118的运动补偿辅助信息和预测残差数据来填充。尽管如此描绘在图13中,但是在另一方面输入视频数据流1051和1052的画面118可以无论如何具有不同的大小。因此,在输出视频数据流的参考部分112中,输入视频数据流1051和1052的画面118以下面称为背对背(B2B)的方式彼此跟随。换句话说,旨在在特定时刻形成合成的画面在所合成视频数据流中彼此跟随,作为具有不同POC值的各个画面。由于输出视频数据流108中的输入视频数据流1051和1052的画面118的时间交错,装置10可修改参考画面次序计数差值或对输入视频数据流1051和1052的画面118的片中的片头中的参考画面次序计数差值的集合的参考,以便考虑采用画面118的内容的画面116的POC值的变化。
例如,在图13中,示出了输入视频数据流1051的两个画面以用于填充数据流108的输出画面116的部分119。由于原始输入视频数据流1051IPPP参考结构,这些画面中的第一个画面形成这些画面中的第二个画面的参考画面,如使用箭头120所示。为了在所合成视频数据流108中维持该参考,装置10可以考虑如下的事实,虽然输入视频数据流1051中的对应画面具有例如如由画面116的左上角中的小数字“1”和“2”所示的POC差1,但是具有填充有相应输入画面118的空间部分119的输出视频数据流108的输出视频数据流的画面116之间的POC差现在具有2的POC差,即3-1。这同样适用于如附图标记122所示的输入视频数据流1052的画面之间的时间预测122。
因此,尽管可以执行由装置10对诸如POC和RPS之类的高级句法信息的调整,但是相对于上面关于图1至10所描述的实施例,可以增加由视频编码器生成输入视频数据流1051至105N的自由度。例如,因为图13的背对背方法不涉及使用拼块来缝合输入画面118,所以可以不发生编码器-解码器不匹配。
将输入视频数据流105的画面118的画面内容多路复用到所合成视频流108的参考部分112中的第二种可能性在图14中描绘。这里,使用空分多路复用以将输入视频数据流105的画面118多路复用到数据流108中。输入视频数据流1051和1052占据所合成视频数据流108的画面116的不同拼块122和124。特别地,图14示出了与图13的情况相同的参考结构的示例性使用。这里,PSR如[1]中所述和/或如上面关于图6至10所述缝合在一起。这里,与图13相比,输出比特流的画面大小,即画面116的大小,取决于缝合的PSR的空间尺寸而相对于各个输入比特流增加。也就是说,在图14的情况下,装置10例如用第一输入视频数据流1051的画面118填充第一拼块122内的一个画面116,并且用视频数据流1052的时间上对准的画面118填充相同画面116的另一个拼块124,并且对于其它画面116也是这样做。例如,所合成视频数据流108的下一个画面116使用上面已经关于图1至13概述的收集和复制方法来填充,在拼块122处使用输入视频数据流1051的下一画面118以及在拼块124处使用输入视频数据流1052的时间上对准的画面118。因此,输入视频数据流115中的不同输入视频数据流115的时间上对准的画面118被采用到所合成视频数据流108的一个画面116的不同拼块中,并且因此在视频数据流108中与在对于图14中所示的输入视频数据流1051和1052的第一画面118的t(1)和对于这些输入视频数据流1051和1052的第二画面的t(2)处指示的一个共同的POC值相关联。根据如下面更详细描述的将第二部分114添加到数据流108的方式,装置10可以修改或可以不修改参考画面次序计数差值和/或对所合成视频数据流108相对于输入视频数据流105的参考画面次序计数差值的集合的参考。例如,如下面将更详细地描述的,可以是以在空间上附接到参考部分112的方式在所合成视频数据流108内传送核对视频部分114,并且在这种情况下,所合成视频数据流108可以不包括具有使用输入视频数据流105填充的拼块122和124的画面116以外的任何画面116,使得例如时间预测120和122的相对POC差参考保持相同。如果将核对视频部分114插入到所合成视频数据流108中导致将附加画面116插入到所合成视频数据流108(图14中未示出)中,则装置10可以相应地修改高级句法结构,诸如画面次序计数值、参考画面次序计数差值或对参考画面次序计数差值的集合的参考。
因此,在图14的情况下,如图14所示,例如,当输入视频数据流的画面118具有相等大小n×m时,参考部分112从属于参考部分112的所合成视频数据流108的画面116中空间上消耗例如2×n×m个样本。
不同输入视频数据流105的画面118具有相同大小的后一假定不一定需要被满足。在这两种情况下,不同输入视频数据流105的画面118可以具有不同的大小。在这种情况下,所合成视频数据流108的一些区域可以用虚拟内容填充,如下面关于图15所描述的。
图15示意性地示出了形成如图12完成的形成核对视频的方式,但是现在示出了输入视频数据流1052的画面118具有比输入视频数据流1051的画面小的大小的情况。在上面关于图14呈现的缝合参考方法中,例如,这将导致参考部分112在空间上消耗输出数据流108的只要属于参考部分112的每个画面116的(n1+n2)×m1个样本的区域,假设第一输入视频数据流1051的画面的大小是n1×m1,并且第二输入视频数据流1052的画面的大小是n2×m2。在这种情况下,参考部分112的每个画面116内的矩形区域可以例如被填充有虚拟信息130。自然地,输入视频数据流1051和1052的画面可以替代地彼此垂直地而不是水平地缝合,如图14和15所描绘。将刚刚概述的方法转换成上面关于图13所示的B2B方法可以意味着例如具有填充有输入视频数据流1052的画面118的空间部分119的所合成视频数据流的每个画面116具有填充有虚拟数据的(n1×m1)-(n2×m2)个样本的非填充部分。例如,输入视频数据流1051和1052的画面118可以全部被配准到静止空间部分119的左上角,使得要填充的虚拟部分可以沿着部分119的底部和右手侧是L形的。
图15示出了所合成视频数据流108的核对视频部分114的大小与图15中的第一和第二输入视频数据流1051和1052的画面中的较大一个的大小一致的事实仅仅被选择用于说明目的。
因此,图15已经示出了输入视频数据流可以伴随有在解码时具有任意内容的虚拟片,并且不被用于由核对视频部分或SLCP 114参考。虚拟片可以用于在B2B方法中对准所有输入比特流105的空间图像尺寸,或者如果必要,通过对准至少一个图像尺寸来允许缝合,如图6中可以看到的。
注意,仅为了说明的目的,所有以下解释使用缝合参考方法,但是所有这些以下解释也可以替代地使用B2B方法来实现。
尽管图15示出了如何处理在空间尺寸方面的输入视频数据流之间的差异的可能性,图16示出了装置10处理不同帧速率的输入视频数据流105的可能性。不同帧速率的输入比特流105可以通过将较低帧速率的输入比特流105重新采样为在所有输入比特流105中遇到的最大帧速率而由装置10多路复用到参考部分112中。在所合成视频数据流108中对准帧速率的一种方式是通过选择性地添加不用于参考的虚拟片并且在多个连续SLCP中使用相同的参考画面(区域),如图16所示,其中输入视频数据流1052的帧速率示例性地为输入视频数据流1051的帧速率的一半,并且以最高可用帧速率(即输入视频数据流1051的帧速率)创建SLCP。类似地,通过不使用例如这些较高帧速率输入视频数据流的一些参考画面用于合成,SLCP的帧速率可以例如低于输入视频数据流中的最大帧速率。
RPS应当由装置10以这样的方式设置,即PSR所需的参考包括所有多路复用流的所有必要的参考画面。对于B2B方法,其中属于相同时刻的参考不共享共同的POC,这不可避免地引入每个相应RPS的大小的增加。对于缝合参考方法和当RPS对准时(根据实际RPS和对RPS的参考),大小或量的增加是最小的。
直接实现可以例如在参考画面和/或SLCP画面的片头中用信号发送新的RPS,尽管这可能导致信令开销。然而,当在终端设备上执行该过程而没有后续传输时,这是可以忽略的。当在远程实体(例如远离终端设备的云服务器)上执行该过程并且随后将其发送到终端设备时,可能有益的是将参数集中的RPS调整为适于最小化信令开销。
在将用于参考的输入流104合并/多路复用到输出视频数据流108的参考部分中以便产生每个时刻的相应PSR之后,借助于对B2B或缝合参考画面部分112的时间预测参考包含合成的附加SLCP片数据被生成,并作为部分114被添加到数据流108。这种所合成SLCP旨在由解码器和/或显示器输出到终端用户。SLCP可以包括诸如预测/运动矢量的运动补偿辅助信息,其指向PSR中的像素位置以通过样本预测创建图像内容的合成。
存在以下各种可能性,装置10在画面次序计数-空间访问空间中相对于参考部分112定位部分114,其中一些在下面相对于图17、18A和18B呈现。
可以根据所应用的参考/多路复用方法来选择SLCP在输出比特流108中的位置。对于上文关于图13所呈现的B2B参考方法,例如,SLCP片数据可以以具有与输出比特流108的画面116不同的POC的各个画面的形式被多路复用到输出比特流108中,输入画面118已经被多路复用到所述输出比特流108中。具体地,在这种情况下,部分114将包括散布在图13所示的参考画面内的输出画面,在时间上布置在参考PSR之后的输出画面。这在图17中示例性地示出,其在由部分114延伸如图13中描绘的B2B方法的范围内。
也就是说,根据图17,装置10通过时分多路复用将入站输入视频比特流1051和1052的画面118多路复用到所合成视频比特流108的相应画面116中,以形成比特流108的参考部分112,并且在这些画面之间散布填充有经由运动补偿时间预测130参考形成参考部分112的画面116的数据的另外的画面116。在图17的示例中,属于部分114的画面116的整个区域可以专用于显示/输出。备选地,仅其子部分可专用于在其余部分被修剪出的情况下输出。具体地,装置10可以以在时间上彼此配准的方式在属于参考部分112的画面116之间放置画面116,使得属于一个时刻并因此形成参考画面集合的参考部分112的画面116是彼此紧接连续的,并且作为部分114的一部分的画面116散布在通过从输入视频数据流105的画面或相等时刻收集和复制而被填充的参考部分112的这些画面116之间。如上所述,属于部分114的画面116的帧速率可以与输入视频比特流105的画面的帧速率相同。在图17的情况下,输出数据流108的画面116将由装置10指示为比特流108的非输出画面,而形成部分114的画面116将被信号通知给输出画面,即要在解码侧输出的画面。简要地注意,图17指示通过使用时分多路复用被填充有输入画面118,属于部分114的画面116在形成参考部分112的画面116之间的布置导致比属于部分114的未插入的画面116更高的POC增加速率,该事实在管理时间预测参考(即参考画面次序计数差值和片头和/或对一组参考画面次序计数差值的参考的修改)中适当地由装置10处理。更准确地,装置10可以例如通过采用其中以对应于图2的描述的方式对相应输入视频流105的相应输入画面118进行编码的一个或多个片来填充属于参考部分112的数据流108的每个画面116,同时修正片头40,以便考虑到相同输入视频比特流的画面被多路复用到其中的画面116的POC差变化。如刚刚概述的,属于参考部分112的画面116不被输出。它们是非输出画面。核对视频由属于部分114的输出画面116定义。装置10能够简单地通过对属于部分114的画面116的不同区域的运动补偿辅助信息进行编码来形成核对视频。
在图12和15,例如,已经示出作为部分114的一部分的画面116,即SLCP,被分割成多个区域,其中在每个时间运动矢量在相应区域上是恒定的,但是时间运动补偿辅助信息在各个区域之间是不同的。在图17中,例如,属于部分114的画面116的子区域132例如使用运动补偿辅助信息进行编码,运动补偿辅助信息以平移方式复制与例如属于具有输出比特流POC 1的输入视频数据流1051的PSR 116相等大小的相应部分,而该SLCP 116的剩余区域134使用运动补偿辅助信息进行编码,运动补偿辅助信息例如以平移方式复制与来自另一输入视频比特流1052的PSR 116相同的大小和形状的相应部分。下一时刻的SLCP 116(图17中未示出)可以使用相同的运动补偿辅助信息和细分为区域132和134或者使用不同的设置来进行编码。想象一下,例如,使用连续SLCP的相同编码。此外,想象区域134中的一个使用零运动矢量,即,它简单地在空间上复制相应输入视频数据流的共址的部分。在这种情况下,这样的所合成视频数据流将导致输入视频数据流之一与在输入视频数据流的特定区域处呈现或重叠的输入视频数据流中的另一个的呈现/显示。该示例在图12和14中示出。在使用PSR的画面内容的平移复制的情况下,装置10可以以上面关于图3描述的方式对SLCP 116的区域132和134进行编码,即例如分别使用空间预测和/或使用跳过模式用于在相应区域132和134的第一块之后的任何块。装置10甚至可以使用预测残差数据对SLCP进行编码,或者可以使用静止画面编码等来对除了在PSR中时间预测的区域132和134之外的另外区域进行编码。
当使用如上面图14和16中所述的用于多路复用输入视频数据流的缝合参考方法时,存在SLCP比特流位置的若干可能性,即对于所合成视频比特流108的定位部分114,其具有图18A和18B中所示的两种可能性。图18B示出了上面在图16中已经描绘的可能性:输入视频数据流105由装置10在空间上缝合在一起,直到第一画面116针对每个输入视频数据流具有一个拼块,并且SLCP散布在其间,并基于缝合的参考画面使用运动补偿预测进行合成。SLCP 116具有对应于各种输入视频比特流的空间缝合的增加的大小,但是修剪出一部分SLCP可以用于减小要显示的画面的大小,因此,核对视频的大小因此由装置10限定。
尽管图18B因此根据图18A在时间上使属于部分114的画面116和属于参考部分112的画面交错,SLCP(即,核对视频部分114)在空间上附接到所合成视频比特流108的画面116。值得注意的是,由于用于合成SLCP的画面内容的时间运动补偿预测,在由部分114限定的核对视频(即SLCP)与输入视频数据流105的参考内容之间产生时间延迟。
因此,在图18A的情况下,装置10可以合成所合成视频数据流108的画面116,以便包括每个输入视频数据流105一个拼块,以及用于传送部分114的另一个附加拼块。如果输入视频数据流中的一个或多个已经被分割成多个拼块,则输入视频数据流的每个拼块的一个拼块可以存在于所合成视频数据流108中。当使用一方面输入视频数据流105和另一方面SLCP的不同帧速率时,则可以用虚拟数据填充拼块中的一些,这对于输入视频数据流和SLCP中的任何一个都是真实的,无论哪一个具有较低帧速率。
因此,图18A和18B示出了SLCP片数据可以以各个画面的形式由装置10插入,例如在参考的PSR之后具有不同的POC值,或者SLCP可以与参考的PSR之后的PSR的数据缝合。
当使用缝合参考方法时,SLCP可被修剪回到预想的输出画面大小,例如,例如各个输入流之一的画面大小。
总结图17至18B,装置100可以如下动作:
根据图17,装置100可以通过收集和复制输入视频数据流n的索引i的画面的运动补偿辅助信息和预测残差数据来填充所合成视频数据流的画面其中0<n<=N(N是输入视频数据流的数目,K是画面的数目——中间部分的中间画面或属于核对视频(或输出)部分的画面——由装置100相同索引i的每N个画面插入),并且通过经由运动补偿时间预测参考所合成视频数据流的画面0<k<=K(插入画面的k个索引序列)来合成核对视频,所合成视频数据流的画面中的一个或多个附加地包括用于序列k>1的画面(如果有的话),可选地,画面 形成画面的“参考总区域”。参数K可以是一,如图17所描绘,但是为了实现更高的SLCP帧速率——K序列可以包括形成输出部分114的两个或更多个输出画面序列——或者为了实现下文所述的多级参考方法——K序列可以包括至少一个中间画面序列和至少一个输出画面序列。
备选地,根据图18A,装置100通过分别收集和复制输入视频数据流n的画面的运动补偿辅助信息来填充所合成视频数据流的画面的N个拼块Tn,并且通过经由运动补偿时间预测参考所合成视频数据流的画面画面的拼块T1……TN中的一个或多个,附加地包括序列k>1的画面(如果有的话),可选地,画面形成画面的“参考总区域”。参数K可以是一,如图18A所描绘,但是为了实现更高的SLCP帧速率——K序列也可以包括形成输出部分114的两个或更多个输出画面序列——或者为了实现下文所述的多级参考方法——K序列可以包括至少一个中间画面序列和至少一个输出画面序列。
备选地,装置10通过收集和复制输入视频数据流n的画面Pi n的运动补偿辅助信息和预测残差数据来填充所合成视频数据流的画面的拼块TN,并且通过经由运动补偿时间预测参考所合成视频数据流的画面的拼块TN+1,所合成视频数据流的画面的拼块T1……TN,形成画面的TN+1的“参考总区域”。以类似于上述K>1所表示的情况的方式,对于多级预测,可以针对每个画面插入多于一个拼块,如下面更详细地描述的,即,为了形成所合成视频数据流的中间部分。
在合成核对视频的过程中的参考可以由装置100通过将所合成视频数据流的相应画面或拼块的输出区域A分割为J个区域Aj,这些区域的至少一个子集的每个区域Aj,0<j<=J,使用一个或多个恒定运动矢量(具有“参考总区域”中的相关联的参考图像)的集合m(Aj)参考相应“参考总区域”中的一个或两个(或甚至更多)部分,即对于在Aj内的所有块p和q或者沿着水平和/或垂直维度逐渐变化的一个或多个运动矢量的集合,即|m(p)-m(q)|<在Aj内的所有相邻块p和q的阈值,m(p)=m(q),以便实现如下面进一步描述的放大或收缩效果。因此,“参考总区域”中的空间子部分在第一种情况下,可以以平移(translator)方式被复制,并且在第二种情况下,以块内感测平移但以块间感测放大和/或收缩方式被复制。区域Aj的至少子集的区域可以由时间编码的块组成。对于“输出区域”的编码,可以为逐渐变化的情况选择可用于对运动补偿辅助信息进行编码的最小可能块大小。根据它们的轮廓和数量,区域的至少子集可以分别对于画面画面和画面的拼块TN+1的序列在时间上是恒定的,或者可以沿着序列改变(由i索引)。输出区域可以与画面的序列的画面区域一致,画面的画面区域或画面的拼块TN+1的拼块区域可以分别是其一部分,其余部分被修剪掉。可以存在具有零运动矢量的一个区域。如所描述的,区域Aj中的一个或多个可以具有多于一个运动矢量的集合m(Aj),即m(Aj)={(m1,ΔP1),...,(mM,ΔPM)},其中,ml(0<l<M)指示运动矢量参考画面是包括当前区域Aj的当前画面上游的所合成视频数据流的第ΔP1个画面。在两个运动矢量(即M=2)的情况下,这可被称为双预测。对于每个运动矢量,运动补偿辅助信息还可以包括预测/加权因子αl,导致根据“对在由αl加权的相对移位的位置ml处的的拷贝求和以获得Aj”的运动补偿预测。通过该措施,可以在区域Aj处实现两个或更多个输入视频数据流之间的覆盖。通过在针对Aj的输出区域的序列中随时间逐渐改变权重αl,可以实现两个输入视频数据流之间的混合。
重叠或者在刚刚描述的区域的子集之外,可以存在“输出区域”的空间部分,其中使用预测残差数据来对核对视频部分114进行编码。在这样的空间部分中,可以对诸如非移动图像、服务标识等的特殊内容进行编码。在运动补偿区域Aj之外的区域中,空间预测模式可以用于降低用于对核对视频部分114的输出区域进行编码的比特消耗。因此,在输出区域内可能存在纯的帧内编码区域。
为了减少用于对核对视频部分114的输出区域进行编码的数据速率,装置100可以使用运动补偿辅助信息的时间预测,即在核对视频部分114的连续画面之间,即分别在画面的序列中的连续画面、画面的序列中的连续画面和画面的序列的TN+1的连续画面之间。
通过收集和复制进行的填充可以由装置100以上面关于图3概述的方式来执行。例如,装置100在将来自输入视频数据流的复制的画面的片传送到所合成视频数据流的相应拼块或画面,并且例如填充没有通过如上面关于图15描述的虚拟数据的收集和复制来在所合成视频数据流的相应拼块或画面中填充的剩余区域时,附加地修正对片头中的参考画面的参考。另外,在图17的情况下,装置10可以发信号通知画面是非输出画面,而画面是输出画面或中间画面,其中k=K的画面可以是输出画面。在图18A的情况下,装置10可以发信号通知画面是非输出画面,而画面是输出画面或中间画面,其中k=K的画面可以是输出画面,并且在图18B的情况下,装置10可以发信号通知所合成视频数据流的所有画面是输出画面,然而发信号通知在显示/再现所合成视频数据流时将修剪出除了拼块TN+1之外的所有拼块。后一修剪信令还可以应用于关于图18A的装置10:只有画面当中的输出画面中的一部分可以用于生成所合成视频数据流的输出,即输出画面的其他部分可以被修剪。
如下一个相对于图21将概述的,视频合成装置可以被配置为通过经由运动补偿时间预测参考所合成视频数据流的参考部分112来填充所合成视频数据流的画面的中间部分,其中所合成视频数据流的画面的核对视频形成部分108通过经由运动补偿时间预测间接经由中间部分参考所合成视频数据流的第一部分来被填充有核对视频。例如,除了已经提到的拼块T1至TN+1之外,其他拼块如拼块TN+2可以由装置100利用经由所合成视频数据流的画面的拼块TN+2(其又参考所合成视频数据流的画面的图块T1……TN中的一个或多个)间接地参考所合成视频数据流的画面的拼块T1……TN中的一个或多个的所合成视频数据流的画面的拼块TN+1来生成。
换句话说,由于只有部分114的SLCP要由解码器输出和/或显示,而PSR仅用于由SLCP和(如果存在的话)所合成视频数据流的中间部分进行参考而不输出,所以例如,在输入视频数据流105以及所合成视频数据流108下面所应用的编解码器应当支持不作为输出的可用于参考的画面的概念或者应当在系统层上应用任何可比较的机制。备选地,对于缺少此特征的编解码器(诸如,例如,H.264/AVC),可以替代地使用缝合参考方法,且可以将所参考PSR之后的SLCP及PSR的数据缝合成如上所述的单个画面。
由于只有部分114的SLCP旨在由解码器利用所呈现的方法中的任何一个及其组合来输出,所以可能期望修剪将由解码器输出的解码画面,以去除PSR的图像内容,或者调整如上所述作为个别画面携带的经解码SLCP的空间尺寸。
各个方面激发由拼块或片来结构化SLCP。首先,SLCP可以遵循在所缝合参考画面的结构的一个或多个输入流中采用的拼块/片结构,从而不需要对于每个SLCP(即对于在其一部分属于部分114的至少空间处的每个画面)的并行解码基础设施的新的初始化。第二,SLCP片数据的高效压缩可以激发遵循预测矢量的分布的拼块或片结构,使得可将相等、相似或相关预测矢量的区域有效地编码到单个拼块和/或片中。
存在其中可能需要混合所得到的SLCP(部分或完整)的两个输入视频(再次部分或完整)的使用情况。图19中给出了之前描述的参考相应“参考总区域”中的两个部分的示例性使用情况,所述图19具有关于压缩域中的视频内容的覆盖在图形用户界面(GUI)上的虚拟机顶盒应用。在该示例中,输入流1被覆盖有用于合成的另一输入流2的形式的GUI。
图19中的合成中的下虚线矩形在下文中被称为α混合区。使用加权预测程序来生成SLCP的α混合区的期望效果。根据多个参考画面(当使用B2B参考方法时)或单个参考画面的多个空间区(当使用缝合参考方法时)(每个空间区具有个别的权重)预测α混合区中的样本值。将来自相同或各种输入流的SLCP内的若干α混合区组合是可能的,例如GUI覆盖和信道、站或服务标识。
基于画中画应用程序,图20中示出了之前描述为逐渐变化的运动矢量的SLCP的另一特征。该概念合并用于合成的输入流画面内容的空间恢复大小。这通过提供关于最小可能编码单元和/或预测单元块粒度的预测矢量来实现。在遍历SLCP内的相应区的过程中调整预测矢量坐标,以便重新采样目标输入比特流。经解码的SLCP中的结果是部分或完整的相应输入比特流图像内容的空间上不同的表示。
对于SLCP中的重采样区的每个样本位置(即,编码单元和/或预测单元),可以应用来自输入画面的多个(例如相邻)编码单元和/或预测单元的加权预测以增加相应重采样画面区的质量。
通常,应避免在诸如解块滤波器的环路内滤波器中处理SLCP,以便不引入关于输入比特流的画面的差异。然而,为了减少由重采样程序引入的可能的质量劣化,可以在整个SLCP或二次采样区上使用附加的环路内滤波器(例如HEVC中的解块滤波器或SAO滤波器)作为拟合。
在一些情况下,在单个输出比特流中从输入比特流创建期望的合成可能需要若干预测步骤,即要被添加到输出比特流的若干附加的非输出画面。使用PSR和/或较早产生的中间画面来预测中间画面,直到可以在参考这些中间画面中的一个或多个和/或甚至初始PSR的SLCP中创建最终期望的合成,同时仅SLCP旨在用于输出。
这种情况的第一示例是迭代二次采样,其中在所合成视频数据流的第一中间部分中,使用加权双预测在水平方向上对输入比特流图像内容进行空间二次采样,并且在第二步骤中,再次使用加权双预测在垂直方向上对该中间画面的内容进行空间二次采样,并创建最终SLCP合成以如图21所示作为输出。
这种情况的另一个示例是使用VP9中的复合预测来创建α混合效果,并且使用所得到的中间画面作为要输出的SLCP的参考。
如前面的章节所示,许多应用和使用情况可以通过相应地调整SLCP的预测矢量来实现。除了合成典型视频内容之外的另一示例是提供字母表或其集合的字母作为(一个或多个)输入比特流的图像内容以使用正确的预测矢量来将在SLCP中的消息合成到描述各个字母的输入比特流画面区域。
虽然所有给出的示例采用特定的参考结构,但是所提出的概念适用于更多的参考结构。还值得一提的是,所描述的SLCP概念同样允许处理多于两个输入视频比特流。
类似于GRP,SLCP片数据可以被预编码用于插入到任意比特流中,因为它们的内容仅仅依赖于高级参数,例如画面尺寸和移位。
如上面关于图1至10的视频合成装置已经描述的,上面关于图11至21描述的视频合成装置100可用于如图5所示的系统内,然而,其中,如关于图11至21描述的,多个视频编码器可以如上所述在生成输入视频数据流方面具有更多的自由度。请求60可以被装置100处理为改变SLCP的请求,即参考输入视频数据流到最终核对视频的合成。这些请求可以源于也包括解码器的客户端或包括装置100的服务器的操作者。
经由所描述的SLCP来缝合、插入GRP和/或合成所需的满足的编码约束的带内或带外信令允许系统协商和/或检测输入流可以被缝合以用于如上所述的进一步处理。因此,例如在用于RTP流传输的SDP中的或在用于基于DASH的流传输的MPD中的或另外的信令可以如上所述被使用。图22示例性地描述了SEI消息的形式的相应信令。
composition_enabled_type指示可应用于当前比特流以用于输出比特流的合成的合成(处理)的类型,其中当前比特流是子比特流或所合成比特流的部分(拼块/片)。具有等于0的值的composition_enabled_type指示当前比特流可以如[1]中所述被缝合,其他比特流满足[1]中描述的具有IDR对准的约束。具有等于1的值的composition_enabled_type指示当前比特流可以如[1]中所述被缝合,其他比特流满足[1]中描述的约束,但是IDR画面可以被转换为尾部画面的I片,并且可以与非I片合并,即具有等于1的值的composition_enabled_type指示如果完全发生参数集激活,则IDR或IRAP不激活具有与先前活动的SPS不同的值的SPS。具有2的值的composition_enabled_type附加地指示TVMP被进一步限制,并且具有小于或等于max_temporial_id_plus1_TMVP_disabled的temporal_id_plus1的画面不被用作TMVP的参考。
max_temporal_id_plus1_TMVP_disabled表示将不用作TMVP的参考的画面的temporal_id_plus1的上边界值。
结合所提出的SEI消息,现有的SEI可以用于使比特流处理更容易的协商。一个示例是struct_of_pictures_info SEI,其中不同比特流的GOP结构被概括,并且其可以用于标识用于GRP插入的切换点。针对任何一个画面在对列表RefPicSetStCurrBefore、RefPicSetStCurrAfter或RefPicSetLtCurr进行解码的实例(换句话说,解码器参考画面缓冲器)处仅包含具有低于或等于max_temporal_id_plus1_TMVP_disabled减去1的值的TemporalID的画面,所述任何一个画面可以用作GRP插入的切换点。
备选地,输入数据流内的SEI消息可用于发信号通知可用作用于插入GRP的切换点的画面。在该特定SEI的比特流出现时,将不存在用作在解码次序中之后的画面的TMVP的参考的包括在RefPicSetStCurrBefore、RefPicSetStCurrAfter或RefPicSetLtCurr中的画面。
甚至备选地,NAL单元类型指示符值可以用于以类似于STSA NAL单元信令的方式针对上述约束发信号通知。在该特定NAL单元类型指示符值的画面A的比特流出现时,将不存在用作在解码次序中之后的并且包括画面A的画面的TMVP的参考的包括在RefPicSetStCurrBefore、RefPicSetStCurrAfter或RefPicSetLtCurr中的画面。
类似地,SDP或MPD或任何其它形式的信令机制可以包括与所提出的SEI等效的信令,以便在带外传送该信息。
虽然已经在装置的上下文中描述了一些方面,但是将清楚的是,这些方面还表示对应方法的描述,其中,块或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方案也表示对相应块或项或者相应装置的特征的描述。可以由(或使用)硬件装置(诸如,微处理器、可编程计算机或电子电路)来执行一些或全部方法步骤。在一些实施例中,可以由这种装置来执行最重要方法步骤中的某一个或多个方法步骤。
取决于某些实现要求,可以在硬件中或在软件中实现本发明的实施例。可以使用其上存储有电子可读控制信号的数字存储介质(例如,软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行实现,该电子可读控制信号与可编程计算机系统协作(或者能够与之协作)从而执行相应方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,该电子可读控制信号能够与可编程计算机系统协作从而执行本文所述的方法之一。
通常,本发明的实施例可以实现为具有程序代码的计算机程序产品,程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。
其他实施例包括存储在机器可读载体上的计算机程序,该计算机程序用于执行本文所述的方法之一。
换言之,本发明方法的实施例因此是具有程序代码的计算机程序,该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。
因此,本发明方法的另一实施例是其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质),该计算机程序用于执行本文所述的方法之一。数据载体、数字存储介质或记录介质通常是有形的和/或非瞬时性的。
因此,本发明方法的另一实施例是表示计算机程序的数据流或信号序列,所述计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如,经由互联网)传送。
另一实施例包括处理装置,例如,计算机或可编程逻辑器件,所述处理装置被配置为或适于执行本文所述的方法之一。
另一实施例包括其上安装有计算机程序的计算机,该计算机程序用于执行本文所述的方法之一。
根据本发明的另一实施例包括被配置为向接收机(例如,以电子方式或以光学方式)传输计算机程序的装置或系统,该计算机程序用于执行本文所述的方法之一。接收机可以是例如计算机、移动设备、存储设备等。该装置或系统可以例如包括用于向接收机传输计算机程序的文件服务器。
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列)可以用于执行本文所述的方法的功能中的一些或全部。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常,方法优选地由任意硬件装置来执行。
上述实施例对于本发明的原理仅是说明性的。应当理解的是:本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此,旨在不是由借助对本文的实施例的描述和解释所给出的具体细节来限制。
根据本公开的第一方面,公开了一种视频合成装置(10),被配置为使用至少一个输入视频数据流(14)来合成所合成视频数据流(18),所合成视频数据流(18)和所述至少一个输入视频数据流(14)使用运动补偿时间预测来编码,所述视频合成装置被配置为通过以下操作来合成所合成视频数据流(18):
通过收集和复制所述至少一个输入视频数据流(14)的运动补偿辅助信息和预测残差数据来填充继承画面(26)的空间部分,形成所合成视频数据流(18)的继承画面(26)的序列,其中所述空间部分的空间位置在所述继承画面的序列中从一个继承画面到下一个继承画面在时间上发生改变,以及
将至少一个非输出画面(30)在所述继承画面的序列中的继承画面之间插入到所合成视频数据流(18)中,所述至少一个非输出画面经由运动补偿时间预测来参考继承画面的子集。
根据本公开的第一方面所述的视频合成装置,其中所述视频合成装置(10)被配置为:在所述空间部分在空间上改变的时刻插入一个或多个非输出画面(30),使得所述一个或多个非输出画面中的每一个替代所述时刻之前的继承画面当中的如下参考画面,所述参考画面经由运动补偿时间预测通过如下运动补偿辅助信息来参考,通过收集和复制所述运动补偿辅助信息,对所述时刻之后的继承画面中的任何一个的空间部分进行填充。
根据本公开的第一方面所述的视频合成装置,其中,所述视频合成装置被配置为:插入所述一个或多个非输出画面(30),使得每个非输出画面经由运动补偿时间预测在空间上与所述空间部分在所述时刻改变到的空间部分相对应的空间部分处参考由相应的非输出画面替代的参考画面的空间部分。
根据本公开的第一方面所述的视频合成装置,其中,所述视频合成装置被配置为:在所述空间部分从所述继承画面的序列中的继承画面中的第一继承画面到所述继承画面中的第二继承画面发生改变时、且紧接在所述第一继承画面之后的时刻,插入与所述继承画面中所述第一继承画面及该第一继承画面之前的继承画面当中的如下参考画面一样多的非输出画面,所述参考画面经由运动补偿时间预测通过如下运动补偿辅助信息来进行参考,通过收集和复制所述运动补偿辅助信息,对所述继承画面中所述第二继承画面及该第二继承画面之后的继承画面中的任何一个继承画面的空间部分进行填充。
根据本公开的第一方面所述的视频合成装置,其中,所述视频合成装置被配置为:将包括所述至少一个输入视频数据流在内的多个输入视频数据流多路复用到第一画面的序列中,使得所述继承画面的序列在空间上被细分为拼块,并且使得每一个拼块根据所述多个输入视频数据流中与相应拼块相关联的输入视频数据流,通过收集和复制相关联的输入视频数据流的运动补偿辅助信息和预测残差数据来形成,其中所述空间部分由与所述至少一个输入视频数据流相关联的拼块限定,并且所述空间部分的空间位置响应于拼块与所述多个输入视频数据流之间的关联中的时间改变而在继承画面的序列中从一个继承画面到下一个继承画面在时间上发生改变。
根据本公开的第一方面所述的视频合成装置,其中所述视频合成装置被配置为:在拼块与所述多个输入视频数据流之间的关联发生改变的时刻插入非输出画面,所述非输出画面包括如下运动补偿辅助信息,所述运动补偿辅助信息使在相应改变之前与所述多个输入视频数据流中的预定的输入视频数据流相关联的拼块的画面区域移动到在该改变之后与所述预定的输入视频数据流相关联的拼块的画面区域。
根据本公开的第一方面所述的视频合成装置,其中,所述视频合成装置被配置为:控制所述空间部分的空间位置的时间改变响应于针对改变的外部请求而在时间上改变。
根据本公开的第一方面所述的视频合成装置,被配置为:填充所述继承画面的空间部分,形成所合成视频数据流的所述继承画面的序列,使得通过收集和复制所述至少一个输入视频数据流的输入画面的序列中的恰好一个输入画面的运动补偿辅助信息和预测残差数据来填充所述继承画面中的每一个继承画面的空间部分。
根据本公开的第一方面所述的视频合成装置,其中,所述视频合成装置被配置为:在遇到所述输入画面的序列中顺序下一个如下输入画面时执行针对改变的外部请求,在该输入画面处,当前一组参考画面中没有一个经由时间运动补偿辅助信息预测被任何一个之后的输入画面所参考。
根据本公开的第一方面所述的视频合成装置,其中,所述视频合成装置被配置为:基于输入画面的画面范围时间体系层ID和由所述至少一个输入视频数据流的高级句法包括的超出画面范围时间体系层ID识别符来检测遇到输入画面的序列中的顺序下一个如下输入画面,在该输入画面处,一组参考画面中没有一个经由时间运动补偿辅助信息预测被任何一个之后的输入画面所参考,从而针对一个或多个时间体系级别ID保证相应一个或多个时间体系级别ID的输入画面不会经由时间运动补偿辅助信息预测被任何一个其它输入画面所参考。
根据本公开的第一方面所述的视频合成装置,其中,所述运动补偿辅助信息和预测残差数据被熵编码,并且在没有熵解码的情况下执行收集和复制。
根据本公开的第一方面所述的视频合成装置,其中,形成所合成视频数据流的所述继承画面的序列包括:收集并复制所述至少一个输入视频数据流的片,使所述片的有效载荷数据不变并修改片头中的数据。
根据本公开的第一方面所述的视频合成装置,其中,所述片头中的数据包括片地址和/或画面次序计数数据和/或参考画面次序计数差值和/或对一组参考画面次序计数差值的参考和/或差分编码的量化参数。
根据本公开的第一方面所述的视频合成装置,其中所述至少一个非输出画面没有预测残差数据。
根据本公开的第一方面所述的视频合成装置,其中,所述视频合成装置被配置为:插入所述至少一个非输出画面,使得所述至少一个非输出画面经由运动补偿时间预测来参考所述继承画面的子集,以使得所述至少一个输入视频数据流的输入画面的序列中的输入画面的空间部分通过平移被复制到所述至少一个非输出画面的空间部分中。
根据本公开的第一方面所述的视频合成装置,其中所合成视频数据流和所述至少一个输入视频数据流以块粒度方式使用运动补偿时间预测进行编码,并且其中所述视频合成装置被配置为使得所述至少一个非输出画面的空间部分由多个块合成,所述多个块的运动矢量彼此相等,并且仅针对所述多个块中的一个被编码在所合成视频数据流内,而针对所述多个块中除了该一个块之外的块使用空间预测来进行编码。
根据本公开的第一方面所述的视频合成装置,其中,所述视频合成装置被配置为使得使用跳过模式来对除了所述一个块之外的任何块进行编码,所述跳过模式发信号通知不存在预测残差数据并且采用来自相邻块的运动补偿辅助信息。
根据本公开的第一方面所述的视频合成装置,其中,所述视频合成装置被配置为:基于所述至少一个视频输入数据流的参数集来为所合成视频数据流构建新的参数集。
根据本公开的第二方面,公开了一种视频合成装置,被配置为从多个输入视频数据流中合成所合成视频数据流,所合成视频数据流和所述多个输入视频数据流使用运动补偿时间预测来编码,所述视频合成装置被配置为通过以下操作来合成所合成视频数据流:
通过将所述多个输入视频数据流的运动补偿辅助信息和预测残差数据收集和复制到所合成视频数据流的第一部分画面中,将所述多个输入视频数据流多路复用到所合成视频数据流的所述第一部分中,以及
通过经由运动补偿时间预测参考所合成视频数据流的所述第一部分,用核对视频填充所合成视频数据流的第二部分画面,
其中,所述第一部分被发信号通知以不被输出,并且所述第二部分被发信号通知以被输出。
根据本公开的第二方面所述的视频合成装置,其中,
第一部分包括非输出画面和/或修剪出的所合成视频数据流的输出画面的画面区域。
根据本公开的第二方面所述的视频合成装置,其中所述视频合成装置被配置为:通过使用所述多个输入视频数据流的至少子集的时间上交错的画面来填充所合成视频数据流的画面的至少子集的空间上静止的空间部分,使用时分复用将所述多个输入视频数据流多路复用到所合成视频数据流的第一部分画面中。
根据本公开的第二方面所述的视频合成装置,其中所合成视频数据流的画面的所述子集形成所合成视频数据流的所述第一部分,并且所合成视频数据流的画面的所述子集中的画面是与所合成视频数据流中形成所合成视频数据流的所述第二部分的输出画面交错的非输出画面。
根据本公开的第二方面所述的视频合成装置,其中,所述视频合成装置被配置为:通过使用所述多个输入视频数据流的至少子集并行地填充拼块来使用空分复用将所述多个输入视频数据流多路复用到所合成视频数据流的第一部分中,其中所述拼块是将所合成视频数据流的画面在空间上细分得到的。
根据本公开的第二方面所述的视频合成装置,其中,所合成视频数据流的画面具有形成所合成视频数据流的第二部分的附加拼块,所合成视频数据流的画面在空间上被细分而得到的拼块形成所合成视频数据流的第一部分并且被修剪出。
根据本公开的第二方面所述的视频合成装置,其中,所述视频合成装置被配置为:通过在被细分为由所述多个输入视频数据流的至少所述子集并行地填充的拼块的所合成视频数据流的画面之间插入另外的画面,形成所述第二部分。
根据本公开的第二方面所述的视频合成装置,被配置为:通过经由运动补偿时间预测来参考所合成视频数据流的第一部分,用所述核对视频填充所合成视频数据流的第二部分画面,使得第一部分的画面的空间部分被复制到第二部分的画面的空间部分中。
根据本公开的第二方面所述的视频合成装置,被配置为:通过经由运动补偿时间预测来参考所合成视频数据流的所述第一部分,用所述核对视频填充所合成视频数据流的第二部分画面,使得第一部分的画面的空间部分以平移方式复制到第二部分的画面的空间部分中。
根据本公开的第二方面所述的视频合成装置,所合成视频数据流和所述多个输入视频数据流以块粒度方式使用运动补偿时间预测进行编码,并且其中所述视频合成装置被配置为:通过经由运动补偿时间预测来参考所合成视频数据流的第一部分,用所述核对视频填充所合成视频数据流的第二部分画面,使得所述第一部分的画面的空间部分以块内平移但块间放大和/或收缩方式被复制到所述第二部分的画面的空间部分中。
根据本公开的第二方面所述的视频合成装置,其中,所合成视频数据流和所述多个输入视频数据流以块粒度方式使用运动补偿时间预测进行编码,并且其中所述视频合成装置被配置为使得所述第二部分的画面的空间部分分别由多个块合成,所述多个块的运动矢量彼此相等,并且仅针对所述多个块中的一个被编码在所合成视频数据流内,而针对所述多个块中除了该一个块之外的块使用空间预测来进行编码。
根据本公开的第二方面所述的视频合成装置,其中,所述视频合成装置被配置为使得对于每个空间部分,使用跳过模式来对相应空间部分的多个块中除了所述一个块之外的任何块进行编码,所述跳过模式发信号通知不存在预测残差数据并且采用来自相邻块的运动补偿辅助信息。
根据本公开的第二方面所述的视频合成装置,被配置为:部分地仅使用帧内编码来用所述核对视频填充所合成视频数据流的所述第二部分画面。
根据本公开的第二方面所述的视频合成装置,其中所述视频合成装置被配置为:通过经由运动补偿时间预测来参考所合成视频数据流的第一部分,填充所合成视频数据流的画面的中间部分,其中通过经由运动补偿时间预测经由所述中间部分间接参考所合成视频数据流的所述第一部分,用所述核对视频填充所合成视频数据流的所述第二部分画面。
根据本公开的第二方面所述的视频合成装置,其中,运动补偿辅助信息和预测残差数据被熵编码,并且在没有熵解码的情况下执行收集和复制。
根据本公开的第二方面所述的视频合成装置,其中,执行收集和复制,使得视频输入数据流的片的有效载荷数据保持不变,且修改片头中的数据。
根据本公开的第二方面所述的视频合成装置,其中,所述片头中的数据包括片地址和/或画面次序计数数据和/或参考画面次序计数差值和/或对一组参考画面次序计数差值的参考和/或差分编码的量化参数。
根据本公开的第二方面所述的视频合成装置,其中,所述视频合成装置被配置为:通过经由运动补偿时间预测来参考所合成视频数据流的第一部分、使用所合成视频数据流的第一部分的两个部分之间的加权双预测,用所述核对视频数据流填充所合成视频数据流的所述第二部分画面。
根据本公开的第三方面,公开了一种系统(74),包括:
至少一个视频编码器(70),被配置为提供至少一个输入视频数据流;以及
根据本公开的第一方面所述的视频合成装置(10),被配置为使用所述至少一个输入视频数据流来合成所合成视频数据流,所合成视频数据流和所述至少一个输入视频数据流使用运动补偿时间预测来进行编码。
根据本公开的第三方面所述的系统,其中,所述至少一个视频编码器(70)被配置为:向所述至少一个输入视频数据流提供所述至少一个输入视频数据流的限制运动补偿辅助信息,使得所述至少一个输入视频数据流的画面不会经由运动补偿时间预测在延伸到所述至少一个输入视频数据流的预定静止空间区域的边界之外的部分处对所述至少一个输入视频数据流的先前画面。
根据本公开的第三方面所述的系统,其中,所述系统包括包含所述至少一个视频编码器在内的多个视频编码器,并且所述至少一个视频编码器被配置为使用在所述多个视频编码器当中同步的时间预测GOP结构来提供所述至少一个输入视频数据流。
根据本公开的第三方面所述的系统,其中,所述至少一个视频编码器被配置为:
使用时间体系编码和时间运动补偿辅助信息预测来提供所述至少一个输入视频数据流,
提供所述至少一个输入视频数据流,使得画面范围的时间体系层ID与所述至少一个输入视频数据流的画面中的每一个相关联,以及
针对一个或多个时间体系级ID,限制相应一个或多个时间体系级ID的画面时间运动补偿辅助信息预测到以下的程度:相应一个或多个时间体系级ID的画面不会经由时间运动补偿辅助信息预测被任何一个其它输入画面所参考;以及
向所述至少一个输入视频数据流的高级句法提供超出画面范围的时间体系层ID识别符,针对一个或多个时间体系级ID保证相应一个或多个时间体系级ID的输入画面不会经由时间运动补偿辅助信息预测被任何一个其它输入画面所参考。
根据本公开的第四方面,公开了一种系统,包括:
多个视频编码器,每个视频编码器被配置为提供多个输入视频数据流中的相应一个;以及
根据本公开的第二方面所述的视频合成装置,被配置为从所述多个输入视频数据流中合成所合成视频数据流,所合成视频数据流和所述多个输入视频数据流使用运动补偿时间预测进行编码。
根据本公开的再一个方面所述的系统,其中,所述多个视频编码器被配置为使用在所述多个视频编码器当中同步的时间预测GOP结构来提供所述多个输入视频数据流。
根据本公开的第五方面,公开了一种用于使用至少一个输入视频数据流(14)来合成所合成视频数据流(18)的视频合成方法(10),所合成视频数据流(18)和所述至少一个输入视频数据流(14)使用运动补偿时间预测进行编码,所述视频合成方法包括:
通过收集和复制所述至少一个输入视频数据流(14)的运动补偿辅助信息和预测残差数据,填充继承画面(26)的空间部分,形成所合成视频数据流(18)的继承画面(26)的序列,其中所述空间部分的空间位置在所述继承画面的序列中从一个继承画面到下一个继承画面在时间上发生改变,以及
将非输出画面(30)在所述继承画面的序列的继承画面之间插入所合成视频数据流(18)中,所述非输出画面经由运动补偿时间预测来参考继承画面的子集。
根据本公开的第六方面,公开了一种用于从多个输入视频数据流中合成所合成视频数据流的视频合成方法,所合成视频数据流和所述多个输入视频数据流使用运动补偿时间预测进行编码,所述视频合成方法包括:
通过将所述多个输入视频数据流的运动补偿辅助信息和预测残差数据收集和复制到所合成视频数据流的第一部分画面中,将所述多个输入视频数据流多路复用到所合成视频数据流的所述第一部分中,以及
通过经由运动补偿时间预测参考所合成视频数据流的所述第一部分,用核对视频填充所合成视频数据流的第二部分画面,
其中,所述第一部分被发信号通知以不被输出,并且所述第二部分被发信号通知以被输出。
根据本公开的第七方面,公开了一种使用运动补偿时间预测和运动补偿辅助信息预测进行编码的体系时间编码的视频数据流,其中体系时间编码的视频数据流发信号通知体系时间编码的视频数据流的每个画面的画面范围时间体系层ID,并且包括具有超出画面范围时间体系层ID识别符的高级句法,所述超出画面范围时间体系层ID识别符针对一个或多个时间体系级ID保证相应一个或多个时间体系级ID的画面不会经由时间运动补偿辅助信息预测被任何一个其它输入画面所参考。
根据本公开的第八方面,公开了一种使用运动补偿时间预测和运动补偿辅助信息预测进行编码的视频数据流,其中所述视频数据流通过逐画面信令来区分:
第一画面,在所述第一画面处,当前一组参考画面中没有一个参考画面经由时间运动补偿辅助信息预测被视频数据流中的任何一个之后的画面所参考,以及
第二画面,在所述第二画面处,当前一组参考画面中的一个参考画面经由时间运动补偿辅助信息预测被视频数据流中的任何一个之后的画面所参考,或者是经由时间运动补偿辅助信息预测被视频数据流中的任何一个之后的画面所参考的候选者。
根据本公开的第九方面,公开了一种具有程序代码的计算机程序,所述程序代码用于当在计算机上运行时执行根据本公开的第五方面或第六方面所述的方法。
参考文献
[1]YagoSanchézde la Fuente,Ralf Globisch,Thomas Schierl和ThomasWiegand,“Low Complexity Cloud-video-Mixing Using HEVC”,Proceedings of IEEEConoceed Communications and Networking Conference,Las Vegas,NV,USA,2014年1月。
[2]Sullivan,Gary J.,et al.“Overview of the high efficiency videocoding(HEVC)standard.”Circuits and Systems for Video Technology,IEEETransactions on 22.12(2012):1649-1668。
Claims (19)
1.一种视频合成系统,包括:
编码器,用于将视频编码为体系时间编码的视频数据流以提供多个输入视频数据流,其中,所述编码器被配置为:
使用运动补偿时间预测和运动补偿辅助信息预测,
用信号通知来提供所述体系时间编码的视频数据流,所述信号通知发信号通知所述体系时间编码的视频数据流的每个画面的画面范围时间体系层ID,以及
对所述视频进行编码,使得针对一个或多个时间体系级ID,相应一个或多个时间体系级ID的画面不会经由时间运动补偿辅助信息预测被任何一个其它画面所参考,以及
向所述体系时间编码的视频数据流提供具有超出画面范围的高级句法,所述高级句法针对一个或多个时间体系级ID,保证相应一个或多个时间体系级ID的画面不会经由时间运动补偿辅助信息预测被任何一个其它画面所参考,
视频合成装置,被配置为:
从所述多个输入视频数据流中合成所合成视频数据流,所合成视频数据流和所述多个输入视频数据流使用运动补偿时间预测来编码,所述视频合成装置被配置为通过以下操作来合成所合成视频数据流:
通过将所述多个输入视频数据流的运动补偿辅助信息和预测残差数据收集和复制到所合成视频数据流的第一部分画面中,将所述多个输入视频数据流复用到所合成视频数据流的所述第一部分中,以及
通过经由运动补偿时间预测参考所合成视频数据流的所述第一部分,用核对视频填充所合成视频数据流的第二部分画面,
其中,所述第一部分被发信号通知以不被输出,并且所述第二部分被发信号通知以被输出,
其中,所述视频合成装置被配置为:通过在被细分为拼块的所合成视频数据流的画面之间插入另外的画面,来形成所述第二部分,所述拼块由所述多个输入视频数据流的至少子集并行地填充。
2.根据权利要求1所述的视频合成系统,其中,
所述第一部分包括非输出画面和/或修剪出的所合成视频数据流的输出画面的画面区域。
3.根据权利要求1所述的视频合成系统,其中所述视频合成装置被配置为:通过使用所述多个输入视频数据流的至少子集的时间上交错的画面来填充所合成视频数据流的画面的至少子集的空间上静止的空间部分,使用时分复用将所述多个输入视频数据流复用到所合成视频数据流的所述第一部分画面中。
4.根据权利要求3所述的视频合成系统,其中所合成视频数据流的画面的所述子集形成所合成视频数据流的所述第一部分,并且所合成视频数据流的画面的所述子集中的画面是与所合成视频数据流中形成所合成视频数据流的所述第二部分的输出画面交错的非输出画面。
5.根据权利要求1所述的视频合成系统,其中,所述视频合成装置被配置为:通过使用所述多个输入视频数据流的至少子集并行地填充拼块来使用空分复用将所述多个输入视频数据流复用到所合成视频数据流的所述第一部分中,其中所述拼块是将所合成视频数据流的画面在空间上细分得到的。
6.根据权利要求5所述的视频合成系统,其中,所合成视频数据流的画面具有形成所合成视频数据流的所述第二部分的附加拼块,并且所合成视频数据流的画面在空间上被细分而得到的拼块形成所合成视频数据流的所述第一部分并且被修剪出。
7.根据权利要求1所述的视频合成系统,其中,所述视频合成装置被配置为:通过经由运动补偿时间预测来参考所合成视频数据流的所述第一部分,用所述核对视频填充所合成视频数据流的所述第二部分画面,使得所述第一部分的画面的空间部分被复制到所述第二部分的画面的空间部分中。
8.根据权利要求7所述的视频合成系统,其中,所述视频合成装置被配置为:通过经由运动补偿时间预测来参考所合成视频数据流的所述第一部分,用所述核对视频填充所合成视频数据流的所述第二部分画面,使得所述第一部分的画面的空间部分以平移方式复制到所述第二部分的画面的空间部分中。
9.根据权利要求7所述的视频合成系统,所合成视频数据流和所述多个输入视频数据流以块粒度方式使用运动补偿时间预测进行编码,并且其中所述视频合成装置被配置为:通过经由运动补偿时间预测来参考所合成视频数据流的所述第一部分,用所述核对视频填充所合成视频数据流的所述第二部分画面,使得所述第一部分的画面的空间部分以块内平移但块间放大和/或收缩方式被复制到所述第二部分的画面的空间部分中。
10.根据权利要求7所述的视频合成系统,其中,所合成视频数据流和所述多个输入视频数据流以块粒度方式使用运动补偿时间预测进行编码,并且其中所述视频合成装置被配置为使得所述第二部分的画面的空间部分分别由多个块合成,所述多个块的运动矢量彼此相等,并且仅针对所述多个块中的一个被编码在所合成视频数据流内,而针对所述多个块中除了所述一个块之外的块使用空间预测来进行编码。
11.根据权利要求10所述的视频合成系统,其中,所述视频合成装置被配置为使得对于每个空间部分,使用跳过模式来对相应空间部分的多个块中除了所述一个块之外的任何块进行编码,所述跳过模式发信号通知不存在预测残差数据并且采用来自相邻块的运动补偿辅助信息。
12.根据权利要求1所述的视频合成系统,其中,所述视频合成装置被配置为:部分地仅使用帧内编码来用所述核对视频填充所合成视频数据流的所述第二部分画面。
13.根据权利要求1所述的视频合成系统,其中所述视频合成装置被配置为:通过经由运动补偿时间预测来参考所合成视频数据流的所述第一部分,填充所合成视频数据流的画面的中间部分,其中通过经由运动补偿时间预测经由所述中间部分间接参考所合成视频数据流的所述第一部分,用所述核对视频填充所合成视频数据流的所述第二部分画面。
14.根据权利要求1所述的视频合成系统,其中,运动补偿辅助信息和预测残差数据被熵编码,并且在没有熵解码的情况下执行收集和复制。
15.根据权利要求1所述的视频合成系统,其中,执行收集和复制,使得视频输入数据流的片的有效载荷数据保持不变,且修改片头中的数据。
16.根据权利要求15所述的视频合成系统,其中,所述片头中的数据包括片地址和/或画面次序计数数据和/或参考画面次序计数差值和/或对一组参考画面次序计数差值的参考和/或差分编码的量化参数。
17.根据权利要求1所述的视频合成系统,其中,所述视频合成装置被配置为:通过经由运动补偿时间预测来参考所合成视频数据流的所述第一部分、使用所合成视频数据流的所述第一部分的两个部分之间的加权双预测,用所述核对视频数据流填充所合成视频数据流的所述第二部分画面。
18.一种用于从多个输入视频数据流中合成所合成视频数据流的视频合成方法,所合成视频数据流和所述多个输入视频数据流使用运动补偿时间预测进行编码,所述视频合成方法包括:
通过将所述多个输入视频数据流的运动补偿辅助信息和预测残差数据收集和复制到所合成视频数据流的第一部分画面中,将所述多个输入视频数据流复用到所合成视频数据流的所述第一部分中,以及
通过经由运动补偿时间预测参考所合成视频数据流的所述第一部分,用核对视频填充所合成视频数据流的第二部分画面,
其中,所述第一部分被发信号通知以不被输出,并且所述第二部分被发信号通知以被输出,
其中,通过在被细分为拼块的所合成视频数据流的画面之间插入另外的画面,来形成所述第二部分,所述拼块由所述多个输入视频数据流的至少子集并行地填充。
19.一种计算机可读介质,存储计算机程序,所述计算机程序在计算机上运行时执行根据权利要求18所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011420006.6A CN112511837B (zh) | 2014-08-20 | 2014-08-20 | 视频合成系统、视频合成方法及计算机可读存储介质 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011420006.6A CN112511837B (zh) | 2014-08-20 | 2014-08-20 | 视频合成系统、视频合成方法及计算机可读存储介质 |
PCT/EP2014/067757 WO2016026526A2 (en) | 2014-08-20 | 2014-08-20 | Video composition |
CN201480081304.3A CN106797495B (zh) | 2014-08-20 | 2014-08-20 | 视频合成系统、视频合成方法及计算机可读存储介质 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480081304.3A Division CN106797495B (zh) | 2014-08-20 | 2014-08-20 | 视频合成系统、视频合成方法及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112511837A CN112511837A (zh) | 2021-03-16 |
CN112511837B true CN112511837B (zh) | 2024-08-30 |
Family
ID=51392247
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011420006.6A Active CN112511837B (zh) | 2014-08-20 | 2014-08-20 | 视频合成系统、视频合成方法及计算机可读存储介质 |
CN201480081304.3A Active CN106797495B (zh) | 2014-08-20 | 2014-08-20 | 视频合成系统、视频合成方法及计算机可读存储介质 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480081304.3A Active CN106797495B (zh) | 2014-08-20 | 2014-08-20 | 视频合成系统、视频合成方法及计算机可读存储介质 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10425652B2 (zh) |
EP (1) | EP3183878B1 (zh) |
JP (1) | JP6437096B2 (zh) |
KR (1) | KR102037158B1 (zh) |
CN (2) | CN112511837B (zh) |
WO (1) | WO2016026526A2 (zh) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016180486A1 (en) | 2015-05-12 | 2016-11-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Composite scalable video streaming |
JP6362116B2 (ja) * | 2016-11-30 | 2018-07-25 | キヤノン株式会社 | 表示装置及びその制御方法、プログラム、記憶媒体 |
JP6922215B2 (ja) * | 2016-12-27 | 2021-08-18 | 富士通株式会社 | 動画像符号化装置 |
US20200112710A1 (en) * | 2017-03-17 | 2020-04-09 | Lg Electronics Inc. | Method and device for transmitting and receiving 360-degree video on basis of quality |
KR102318816B1 (ko) * | 2017-03-20 | 2021-10-28 | 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. | 고급 비디오 데이터 스트림 추출 및 다중 해상도 비디오 송신 |
EP3673665A4 (en) * | 2017-08-24 | 2021-03-10 | Nokia Technologies Oy | APPARATUS, PROCESS AND COMPUTER PROGRAM FOR OMNIDIRECTIONAL VIDEO |
GB2570879B (en) * | 2018-02-06 | 2022-08-17 | Advanced Risc Mach Ltd | Encoding data arrays |
US11202088B2 (en) | 2018-03-15 | 2021-12-14 | Sony Corporation | Image processing apparatus and method |
EP3576413A1 (en) * | 2018-05-31 | 2019-12-04 | InterDigital CE Patent Holdings | Encoder and method for encoding a tile-based immersive video |
US11570400B2 (en) * | 2018-06-13 | 2023-01-31 | Analog Devices, Inc. | Systems and methods for asymmetric image splitter clock generation |
CN116405721A (zh) * | 2018-06-13 | 2023-07-07 | 马克西姆综合产品公司 | 用于不对称图像分离器时钟生成的系统和方法 |
CN112640455B (zh) | 2018-06-21 | 2024-06-14 | 瑞典爱立信有限公司 | 视频编码中具有子图块的图块分区 |
WO2019243541A2 (en) | 2018-06-21 | 2019-12-26 | Telefonaktiebolaget Lm Ericsson (Publ) | Flexible tile partitions |
EP3811624A1 (en) * | 2018-06-21 | 2021-04-28 | Telefonaktiebolaget LM Ericsson (publ) | Tile shuffling for 360 degree video decoding |
EP3591972A1 (en) * | 2018-07-02 | 2020-01-08 | Axis AB | Method and system for encoding video with overlay |
CN108810417A (zh) * | 2018-07-04 | 2018-11-13 | 深圳市歌美迪电子技术发展有限公司 | 一种图像处理方法、机构及后视镜 |
CN110832868A (zh) | 2018-08-31 | 2020-02-21 | 深圳市大疆创新科技有限公司 | 编码方法、解码方法、编码设备和解码设备 |
KR102154407B1 (ko) * | 2018-11-15 | 2020-09-09 | 한국전자기술연구원 | 타일 기반 스트리밍을 위한 모션 제한 av1 영상 부호화 방법 및 장치 |
EP3868095A4 (en) * | 2018-11-26 | 2021-12-15 | Huawei Technologies Co., Ltd. | APPARATUS AND METHOD FOR DERIVATING A CHROMINANCE QUANTIFICATION PARAMETER |
CN118714302A (zh) | 2019-02-01 | 2024-09-27 | 弗劳恩霍夫应用研究促进协会 | 允许按照子画面或区域随机接入的视频编解码器以及使用该视频编解码器的视频合成概念 |
CN116233436A (zh) * | 2019-06-20 | 2023-06-06 | 腾讯美国有限责任公司 | 视频解码方法、设备和计算机可读存储介质 |
CN114009032A (zh) * | 2019-06-21 | 2022-02-01 | 瑞典爱立信有限公司 | 视频编码层上切换指示 |
CN112533022A (zh) * | 2019-08-30 | 2021-03-19 | 中兴通讯股份有限公司 | 云化机顶盒透明度叠加方法、云化机顶盒及存储介质 |
CA3153225A1 (en) | 2019-09-03 | 2021-03-11 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Data structure for indicating characteristics of a video coding unit of a video data stream |
KR20220161426A (ko) * | 2020-03-30 | 2022-12-06 | 엘지전자 주식회사 | Dpb 파라미터의 개수 정보를 시그널링하는 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 컴퓨터 판독 가능한 기록 매체 |
US20230222754A1 (en) * | 2022-01-07 | 2023-07-13 | Sony Interactive Entertainment Inc. | Interactive video playback techniques to enable high fidelity magnification |
CN115589453A (zh) * | 2022-09-27 | 2023-01-10 | 维沃移动通信有限公司 | 视频处理方法、装置、电子设备及存储介质 |
EP4387228A1 (en) * | 2022-12-15 | 2024-06-19 | Axis AB | Method and device for combining image data from two or more encoded image frames |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014010537A1 (en) * | 2012-07-09 | 2014-01-16 | Mitsubishi Electric Corporation | Method and system for processing multiview videos for view synthesis using motion vector predictor list |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3879252B2 (ja) * | 1998-05-22 | 2007-02-07 | ソニー株式会社 | 編集方法および編集装置 |
AU1910800A (en) * | 1998-11-09 | 2000-05-29 | Broadcom Corporation | Graphics display system |
US6901110B1 (en) * | 2000-03-10 | 2005-05-31 | Obvious Technology | Systems and methods for tracking objects in video sequences |
JP2003299103A (ja) * | 2002-03-29 | 2003-10-17 | Toshiba Corp | 動画像符号化方法と装置及び動画像復号化方法と装置 |
US20050008240A1 (en) * | 2003-05-02 | 2005-01-13 | Ashish Banerji | Stitching of video for continuous presence multipoint video conferencing |
US7599565B2 (en) * | 2004-03-10 | 2009-10-06 | Nokia Corporation | Method and device for transform-domain video editing |
DE102004059993B4 (de) * | 2004-10-15 | 2006-08-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen einer codierten Videosequenz unter Verwendung einer Zwischen-Schicht-Bewegungsdaten-Prädiktion sowie Computerprogramm und computerlesbares Medium |
US8004542B2 (en) * | 2005-01-17 | 2011-08-23 | Kabushiki Kaisha Toshiba | Video composition apparatus, video composition method and video composition program |
CN101427573B (zh) * | 2006-02-16 | 2013-07-03 | 维德约股份有限公司 | 用于可缩放视频编码比特流的稀疏化的系统和方法 |
US8773494B2 (en) * | 2006-08-29 | 2014-07-08 | Microsoft Corporation | Techniques for managing visual compositions for a multimedia conference call |
JP2008066851A (ja) * | 2006-09-05 | 2008-03-21 | Sony Corp | 情報処理装置および情報処理方法、記録媒体、並びに、プログラム |
US8948243B2 (en) * | 2010-03-31 | 2015-02-03 | Mitsubishi Electric Corporation | Image encoding device, image decoding device, image encoding method, and image decoding method |
JP2013055587A (ja) * | 2011-09-06 | 2013-03-21 | Sony Corp | 画像処理装置、画像処理方法、および画像処理システム |
KR20240027889A (ko) * | 2011-11-11 | 2024-03-04 | 지이 비디오 컴프레션, 엘엘씨 | 깊이-맵 추정 및 업데이트를 사용한 효율적인 멀티-뷰 코딩 |
US9288506B2 (en) * | 2012-01-05 | 2016-03-15 | Qualcomm Incorporated | Signaling view synthesis prediction support in 3D video coding |
US9674534B2 (en) * | 2012-01-19 | 2017-06-06 | Samsung Electronics Co., Ltd. | Method and apparatus for encoding multi-view video prediction capable of view switching, and method and apparatus for decoding multi-view video prediction capable of view switching |
EP2839660B1 (en) * | 2012-04-16 | 2020-10-07 | Nokia Technologies Oy | An apparatus, a method and a computer program for video coding and decoding |
US9838685B2 (en) * | 2012-06-15 | 2017-12-05 | Google Technology Holdings LLC | Method and apparatus for efficient slice header processing |
US10375405B2 (en) * | 2012-10-05 | 2019-08-06 | Qualcomm Incorporated | Motion field upsampling for scalable coding based on high efficiency video coding |
US9948915B2 (en) * | 2013-07-24 | 2018-04-17 | Qualcomm Incorporated | Sub-PU motion prediction for texture and depth coding |
-
2014
- 2014-08-20 JP JP2017510316A patent/JP6437096B2/ja active Active
- 2014-08-20 CN CN202011420006.6A patent/CN112511837B/zh active Active
- 2014-08-20 CN CN201480081304.3A patent/CN106797495B/zh active Active
- 2014-08-20 EP EP14755059.4A patent/EP3183878B1/en active Active
- 2014-08-20 WO PCT/EP2014/067757 patent/WO2016026526A2/en active Application Filing
- 2014-08-20 KR KR1020177007616A patent/KR102037158B1/ko active IP Right Grant
-
2017
- 2017-02-16 US US15/435,147 patent/US10425652B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014010537A1 (en) * | 2012-07-09 | 2014-01-16 | Mitsubishi Electric Corporation | Method and system for processing multiview videos for view synthesis using motion vector predictor list |
Also Published As
Publication number | Publication date |
---|---|
JP2017530613A (ja) | 2017-10-12 |
EP3183878B1 (en) | 2019-11-13 |
US10425652B2 (en) | 2019-09-24 |
CN106797495B (zh) | 2020-12-22 |
CN112511837A (zh) | 2021-03-16 |
WO2016026526A2 (en) | 2016-02-25 |
KR102037158B1 (ko) | 2019-11-26 |
WO2016026526A3 (en) | 2016-07-14 |
JP6437096B2 (ja) | 2018-12-12 |
EP3183878A2 (en) | 2017-06-28 |
KR20170044169A (ko) | 2017-04-24 |
CN106797495A (zh) | 2017-05-31 |
US20170163994A1 (en) | 2017-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112511837B (zh) | 视频合成系统、视频合成方法及计算机可读存储介质 | |
JP6556868B2 (ja) | ビデオストリーミング装置、ビデオストリーム、ビデオストリーミング方法、及び、コンピュータプログラム | |
KR102373013B1 (ko) | 효율적인 감소성 또는 효율적인 랜덤 액세스를 허용하는 픽처/비디오 데이터 스트림들에 대한 개념 | |
CN113796080A (zh) | 用于以子图片发信号通知输出层集的方法 | |
US11483558B2 (en) | Method for region-wise scalability with adaptive resolution change | |
JP2022514513A (ja) | タイル及びサブ画像の分割 | |
US20230013085A1 (en) | Region-wise scalability with adaptive resolution change | |
JP2022526726A (ja) | 符号化ビデオストリームにおける適応パラメータセット参照および制約のための方法 | |
CN114127800A (zh) | 已编码视频流中跨层对齐的方法 | |
CN114514742A (zh) | 采用已编码视频流中的子图片进行信号发送的用信号发送虚拟边界的方法 | |
AU2023251442A1 (en) | Method for parameter set reference in coded video stream | |
RU2785918C1 (ru) | Способ ссылки на набор параметров в битовом потоке кодированного видео | |
RU2799572C1 (ru) | Способ сигнализации набора выходных слоев с субизображением |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |