CN108900894A - 视频数据的处理方法、装置和系统 - Google Patents
视频数据的处理方法、装置和系统 Download PDFInfo
- Publication number
- CN108900894A CN108900894A CN201810934972.6A CN201810934972A CN108900894A CN 108900894 A CN108900894 A CN 108900894A CN 201810934972 A CN201810934972 A CN 201810934972A CN 108900894 A CN108900894 A CN 108900894A
- Authority
- CN
- China
- Prior art keywords
- video data
- image
- network model
- image collection
- obtains
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims description 19
- 238000012545 processing Methods 0.000 claims abstract description 55
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000003062 neural network model Methods 0.000 claims description 105
- 238000012549 training Methods 0.000 claims description 62
- 238000005070 sampling Methods 0.000 claims description 39
- 238000003860 storage Methods 0.000 claims description 18
- 239000011248 coating agent Substances 0.000 claims description 12
- 238000000576 coating method Methods 0.000 claims description 12
- 230000003321 amplification Effects 0.000 claims description 9
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 8
- 238000007906 compression Methods 0.000 claims description 7
- 230000006835 compression Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 5
- 230000008901 benefit Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 14
- 230000003993 interaction Effects 0.000 description 46
- 230000006870 function Effects 0.000 description 28
- 230000015654 memory Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 241000208340 Araliaceae Species 0.000 description 4
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 4
- 235000003140 Panax quinquefolius Nutrition 0.000 description 4
- 235000008434 ginseng Nutrition 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012804 iterative process Methods 0.000 description 3
- 210000004218 nerve net Anatomy 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000005036 nerve Anatomy 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种视频数据的处理方法、装置和系统。其中,该方法包括:通过USB连接获取视频源采集到的第一视频数据,其中,第一视频数据的分辨率小于或等于第一预设值;利用预先训练好的网络模型对第一视频数据进行处理,得到第二视频数据,其中,网络模型用于对第一视频数据的分辨率进行放大;显示第二视频数据。本发明解决了现有技术中显示端接收到的视频数据的分辨率较低,导致显示效果差的技术问题。
Description
技术领域
本发明涉及智能交互平板领域,具体而言,涉及一种视频数据的处理方法、装置和系统。
背景技术
在视频会议应用场景中,智能交互平板通过USB连接与视频源连接,视频源可以是Camera,Camera视频源通过USB传输模块将采集到的视频数据传输至智能交互平板进行显示,由于USB传输模块的带宽限制,输出到显示端的视频数据无法到2K分辨率(显示端的屏幕横向像素达到2000K以上)或者4K分辨率(即4096*2160的像素分辨率),导致显示端的显示效果差。
针对现有技术中显示端接收到的视频数据的分辨率较低,导致显示效果差的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种视频数据的处理方法、装置和系统,以至少解决现有技术中显示端接收到的视频数据的分辨率较低,导致显示效果差的技术问题。
根据本发明实施例的一个方面,提供了一种视频数据的处理方法,包括:通过USB连接获取视频源采集到的第一视频数据,其中,第一视频数据的分辨率小于或等于第一预设值;利用预先训练好的网络模型对第一视频数据进行处理,得到第二视频数据,其中,网络模型用于对第一视频数据的分辨率进行放大;显示第二视频数据。
进一步地,在利用预先训练好的网络模型对第一视频数据进行处理,得到第二视频数据之前,上述方法还包括:建立神经网络模型,其中,神经网络模型包括多个残差学习块,每个残差学习块包括:两个卷积层和一个激活层,激活层连接在两个卷积层之间;获取多组样本数据,其中,多组样本数据包括:第一图像集合、对第一图像集合进行下采样得到的第二图像集合以及对第二图像集合进行上采样得到的第三图像集合,第一图像集合的分辨率和第三图像集合的分辨率相同,且均大于第二图像集合的分辨率;利用多组样本数据对神经网络模型进行训练,得到网络模型。
进一步地,利用多组样本数据对神经网络模型进行训练,得到网络模型包括:步骤A,分别对第一图像集合和第二图像集合进行归一化处理,得到标签图像集合和训练图像集合;步骤B,将训练图像集合输入至神经网络模型,得到神经网络模型的输出的残差图像集合;步骤C,将残差图像集合和第三图像集合进行叠加,得到第四图像集合;步骤D,根据第四图像集合和标签图像集合,调整神经网络模型的参数;步骤E,重复执行上述步骤B至步骤D,直至当前迭代次数达到预设迭代次数,并根据调整后的神经网络模型的参数,得到网络模型。
进一步地,在根据第四图像集合和标签图像集合,调整神经网络模型的参数之后,上述方法还包括:获取调整参数后的神经网络模型输出的结果图像集合;基于结果图像集合、训练图像集合和标签图像集合,得到神经网络模型的参数的梯度信息;根据梯度信息,调整神经网络模型的参数。
进一步地,基于结果图像集合、训练图像集合和标签图像集合,得到神经网络模型的参数的梯度信息包括:利用双三次插值对结果图像集合进行下采样,得到第五图像集合;根据结果图像集合、训练图像集合、第五图像集合、标签图像集合以及代价函数公式,得到梯度信息。
进一步地,代价函数公式定义如下:
其中,x_LR为训练图像集合,y_HR为标签图像集合,f(x_LR)为结果图像集合,f'(f(x_LR))为第五图像集合,α为正则化因子,(w_lr,h_lr)为训练图像集合的尺寸,(w_hr,h_hr)为标签图像集合的尺寸。
进一步地,获取多组样本数据包括:获取第一图像集合;按照目标倍数对第一图像集合进行下采样,得到第二图像集合,其中,目标倍数是网络模型的放大倍数;利用双三次插值对第二图像集合进行上采样,得到第三图像集合。
进一步地,获取第一图像集合包括:获取预设图像集合和预设图像块尺寸,其中,预设图像集合的分辨率与第一图像集合的分辨率相同;基于预设图像块尺寸,得到第一步长;按照第一步长对预设图像集合进行裁剪,得到第一图像集合。
进一步地,按照目标倍数对第一图像集合进行下采样,得到第二图像集合包括:按照目标倍数对第一图像集合进行下采样,得到第五图像集合;按照目标倍数对第五图像集合进行裁剪,得到图像块集合;按照多个不同压缩比对图像块集合进行压缩,得到压缩后的图像块集合;将多个不同噪声水平的高斯噪声添加至压缩后的图像块集合中,得到第二图像集合。
进一步地,按照目标倍数对第五图像集合进行裁剪,得到图像块集合包括:获取第一图像集合的第一步长;根据第一步长和目标倍数,得到第二步长;按照第二步长对第五图像集合进行裁剪,得到图像块集合。
进一步地,在按照目标倍数对第一图像集合进行下采样,得到第五图像集合之前,上述方法还包括:对第一图像集合进行高斯滤波,得到滤波后的第一图像集合;按照目标倍数对滤波后的第一图像集合进行下采样,得到第五图像集合。
进一步地,在显示第二视频数据之前,上述方法还包括:对第二视频数据进行反归一化处理,得到处理后的第二视频数据;显示处理后的第二视频数据。
根据本发明实施例的另一方面,还提供了一种视频数据的处理装置,包括:获取模块,用于通过USB连接获取视频源采集到的第一视频数据,其中,第一视频数据的分辨率小于或等于第一预设值;处理模块,用于利用预先训练好的网络模型对第一视频数据进行处理,得到第二视频数据,其中,网络模型用于对第一视频数据的分辨率进行放大;显示模块,用于显示第二视频数据。
根据本发明实施例的另一方面,还提供了一种视频数据的处理系统,包括:视频源,用于采集第一视频数据,其中,第一视频数据的分辨率小于或等于第一预设值;处理器,通过USB连接与视频源连接,用于利用预先训练好的网络模型对第一视频数据进行处理,得到第二视频数据,其中,网络模型用于对第一视频数据的分辨率进行放大;显示屏,与处理器连接,用于显示第二视频数据。
根据本发明实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述的视频数据的处理方法。
根据本发明实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述的视频数据的处理方法。
在本发明实施例中,通过USB连接获取视频源采集到的第一视频数据,利用预先训练好的网络模型对第一视频数据的分辨率进行放大,得到第二视频数据,并将该第二视频数据进行显示,从而实现对输出到智能交互平板的视频数据的分辨率进行放大,确保智能交互平板显示的视频数据达到2K或者4K,达到提高显示效果,提升用户的体验感和好感度的技术效果,进而解决了现有技术中显示端接收到的视频数据的分辨率较低,导致显示效果差的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例1的一种视频数据的处理方法的流程图;
图2是根据本发明实施例的一种网络模型的结构示意图;
图3是根据本发明实施例2的一种视频数据的处理方法的流程图;
图4是根据本发明实施例3的一种视频数据的处理装置的结构示意图;
图5是根据本发明实施例4的一种视频数据的处理系统的结构示意图;以及
图6是根据本发明实施例的一种视频数据的处理系统的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种视频数据的处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例提供的视频数据的处理方法可以由视频数据的处理系统执行,该视频数据的处理系统可以通过软件和/或硬件的方式实现,该批注显示设备可以是两个或多个物理实体构成,也可以是一个物理实体构成。该批注显示设备可以是电脑,手机,平板,投影仪或智能交互平板等。在实施例中,以智能交互平板为批注显示设备为例进行描述,其中,智能交互平板可以是通过触控技术对显示在显示平板上的内容进行操控和实现人机交互操作的一体化设备,其集成了投影机、电子白板、幕布、音响、电视机以及视频会议终端等一种或多种功能。
在实施例中,智能交互平板与至少一个视频源建立数据连接。其中,视频源包括但不限于:手机、笔记本电脑、USB闪存盘、平板电脑及台式电脑等。视频源与智能交互平板通过USB连接的方式进行连接。视频源可以有一个或者多个,视具体的应用场景来设置,实施例不做限定。
可选的,智能交互平板中安装有投屏应用软件,该投屏应用软件可以预先安装在上述智能交互平板中,也可以是在智能交互平板启动投屏应用时,从第三方设备或服务器进行下载并安装使用。其中,第三方设备在实施例中不作限定。具体的,投屏应用软件用于接收视频源传输的视频数据,并将视频数据转换成相应的内容,便于智能交互平板进行显示。需要说明的是,视频源的显示屏与智能交互平板的显示屏的分辨率不同,而视频数据是基于视频源的分辨率获取的,因此,为了在智能交互平板的显示屏中显示视频数据,投屏应用软件需要根据视频源的显示屏和智能交互平板的显示屏的分辨率确定屏幕映射关系,进而根据屏幕映射关系对视频数据进行转换以得到投屏内容。需要说明的是,在实施例中,投屏内容和视频数据的显示内容实质相同,仅是分辨率不同。
实施例中以视频源为Camera、并且通过Camera与智能交互平板间的交互为例,来对本发明进行示例性描述。
图1是根据本发明实施例1的一种视频数据的处理方法的流程图,如图1所示,该方法包括如下步骤:
步骤S100,通过USB连接获取视频源采集到的第一视频数据,其中,第一视频数据的分辨率小于或等于第一预设值。
具体地,上述的第一预设值可以是表示第一视频数据为低分辨率视频的分辨率值,例如,第一预设值可以是1080P,由于视频源的限制,例如Camera,视频源采集到的第一视频数据的分辨率可以是720P。为了保证智能交互平板准确的显示投屏内容,视频源可以实时将采集到的第一视频数据通过USB连接传输至智能交互平板进行显示。在视频会议的应用场景中,上述的第一视频数据可以是视频会议图像。
步骤S102,建立神经网络模型,其中,神经网络模型包括多个残差学习块,每个残差学习块包括:两个卷积层和一个激活层,激活层连接在两个卷积层之间。
具体地,现有的智能交互平板为了提升显示效果,智能交互平板的显示屏分辨率较高,例如,可以是2K或者4K,由于视频源采集到的第一视频数据为低分辨率视频,需要对视频源采集到的低分辨率视频的分辨率进行放大,得到高分辨率视频。可以通过预先训练好的神经网络模型对低分辨率视频进行处理,得到分辨率放大后的第二视频数据。在对低分辨率视频进行处理之前,首先需要训练神经网络模型,具体实现为建立神经网络模型,如图2所示,网络模型中包含多个残差学习块(图2中仅示出两个残差学习块,图2中的“…”表示残差学习块的数量可以根据需要进行选择),每一个残差学习块的结构包括一个卷积层conv、一个激活层relu以及一个卷积层conv。
步骤S104,获取多组样本数据,其中,多组样本数据包括:第一图像集合、对第一图像集合进行下采样得到的第二图像集合以及对第二图像集合进行上采样得到的第三图像集合,第一图像集合的分辨率和第三图像集合的分辨率相同,且均大于第二图像集合的分辨率。
具体地,对视频数据的分辨率进行放大可以是对视频数据中每帧图像的分辨率进行放大。实施例中,在建立好神经网络模型之后,需要对神经网络模型进行训练,可以预先制作多组样本数据,具体包括高分辨率的第一图像集合HR,下采样得到的低分辨率的第二图像集合LR,以及对第二图像集合进行上采样得到的高分辨率的第三图像集合LR’,其中,对第二图像集合的分辨率进行放大,使得第三图像集合和第一图像集合的分辨率相同。通过第三图像集合作为基准图像来叠加残差图像集合,也即可以确定对第一图像集合的分辨率进行缩小,带来的误差,通过将误差引入至神经网络模型中进行训练之后,可以提高神经网络模型对第一视频数据进行处理的准确度。
步骤S106,利用多组样本数据对神经网络模型进行训练,得到网络模型。
具体地,可以将第一图像集合作为神经网络模型的输出,将第二图像集合作为神经网络模型的输入,并结合第三图像集合,对神经网络模型进行训练,从而得到训练好的神经网络模型。实施例中,样本数据越多,类型越丰富,训练得到的神经网络模型的准确度越高;但是,样本数据越多,神经网络模型训练时间越长。样本数据的数量可以根据实际情况进行确定,本发明对此不作具体限定。具体实现如步骤S1061至步骤S1068:
步骤S1061,分别对第一图像集合和第二图像集合进行归一化处理,得到标签图像集合和训练图像集合。
具体地,上述的归一化处理可以是图像数据的归一化处理,具体可以是通过一系列变换,将原始图像数据转换成相应的唯一标准形式。实施例中,通过对第一图像集合和第二图像集合进行归一化处理,可以加快训练神经网络的收敛性。
步骤S1062,将训练图像集合输入至神经网络模型,得到神经网络模型的输出的残差图像集合。
具体地,在每次迭代过程中,可以将训练图像集合输入至上一次训练好的神经网络模型,得到残差图像集合。
步骤S1063,将残差图像集合和第三图像集合进行叠加,得到第四图像集合。
具体地,可以基于低分辨率的第二图像集合作为输入,与第二图像集合经过双三次插值上采样得到的第三图像集合作为基准图像来叠加残差图像。
步骤S1064,根据第四图像集合和标签图像集合,调整神经网络模型的参数。
在一种可选的方案中,在每次迭代过程中,在神经网络模型训练过程中叠加残差图像集合,并基于高分辨率的第一图像集合,对神经网络模型的参数进行调整,得到神经网络模型的新参数,从而得到训练好的神经网络模型,以提高神经网络模型的准确度。
步骤S1065,获取调整参数后的神经网络模型输出的结果图像集合。
具体地,在每次迭代过程中,在基于第四图像集合和标签图像集合对神经网络模型的参数进行调整之后,可以获取调整参数后的神经网络模型输出的高分辨率的图像集合,也即,获取调整参数后的神经网络模型输出的结果图像集合。
步骤S1066,基于结果图像集合、训练图像集合和标签图像集合,得到神经网络模型的参数的梯度信息。
具体地,为了确定每次迭代完成之后,神经网络模型的拟合度是否满足训练要求,避免神经网络模型出现过拟合,可以根据神经网络模型输出的结果图像集合、低分辨率的训练图像集合和高分辨率的标签图像集合,得到神经网络模型参数的梯度信息,从而可以根据神经网络模型的拟合度确定相应的模型参数。具体实现方式包括步骤S10662至步骤S10664:
步骤S10662,利用双三次插值对结果图像集合进行下采样,得到第五图像集合。
具体地,可以将神经网络模型重建得到的高分辨率的结果图像集合经过双三次插值下采样,得到低分辨率的第五图像集合。
需要说明的是,在实际处理过程中,无需获取第五图像集合,可以利用双三次插值对结果图像集合进行下采样,并与训练图像集合中对应的图像得到第二约束值。
步骤S10664,根据结果图像集合、训练图像集合、第五图像集合、标签图像集合以及代价函数公式,得到梯度信息。
具体地,为了得到神经网络模型的代价函数值,可以预先建立神经网络模型的代价函数公式,具体可以采用双节点约束,在代价函数公式中体现反投影部分,可以通过神经网络模型重建得到的高分辨率的结果图像集合与高分辨率的标签图像结合求二范数,作为代价函数的第一约束值;将第五图像集合和训练图像集合,作为代价函数的第二约束值。在确定代价函数公式之后,可以将结果图像集合、训练图像集合、第五图像集合、标签图像集合代入到代价函数公式中,并通过计算代价函数公式的导数,从而可以得到参数的梯度信息。
可选地,代价函数公式定义如下:
其中,x_LR为训练图像集合,y_HR为标签图像集合,f(x_LR)为结果图像集合,f'(f(x_LR))为第五图像集合,α为正则化因子,(w_lr,h_lr)为训练图像集合的尺寸,(w_hr,h_hr)为标签图像集合的尺寸。
实施例中,正则化因子α可以是经验值,例如,可以是0.001~0.005。代价函数的形式为二范数,通过对代价函数进行求导,可以得到卷积核参数,也即得到神经网络模型的参数。
步骤S1067,根据梯度信息,调整神经网络模型的参数。
具体地,在计算得到梯度信息之后,可以根据计算得到的梯度信息,对神经网络模型的参数进行调整,得到神经网络模型在下一次迭代过程中的参数,并开始下一次迭代过程。
步骤S1068,重复执行上述步骤S1062至步骤S1067,直至当前迭代次数达到预设迭代次数,并根据调整后的神经网络模型的参数,得到网络模型。
具体地,上述的预设迭代次数可以是根据训练要求确定的迭代次数,当前迭代次数达到预设迭代次数时,可以确定训练完成,在训练完成之后,可以根据最后调整得到的参数,得到训练好的神经网络模型。
在一种可选的方案中,对神经网络模型进行训练,实质上是对神经网络模型中的参数进行调整,通过多次迭代过程,使得神经网络模型中的参数满足训练要求。如图2所示,将第二图像集合LR输入到多个残差学习块中,输出残差图像集合,并通过第三图像集合LR’进行叠加,从而得到结果图像集合,结果图像集合与标签图像集合HR的误差越小,损失越小,表明神经网络模型训练的拟合度越高,越符合训练要求。
步骤S108,利用预先训练好的网络模型对第一视频数据进行处理,得到第二视频数据,其中,网络模型用于对第一视频数据的分辨率进行放大。
在一种可选的方案中,在实时接收到视频源通过USB连接输出的第一视频数据,并且训练好神经网络模型之后,可以将第一视频数据输入到预先训练好的神经网络模型中,神经网络模型对第一视频数据的分辨率进行放大,将低分辨率的视频数据放大为高分辨率的视频数据,从而输出第二视频数据。具体地,第二视频数据的分辨率与智能交互平板的显示屏分辨率一致。
步骤S110,显示第二视频数据。
具体地,第二视频数据是通过神经网络模型对第一视频数据的分辨率进行放大得到的。智能交互平板的显示屏可以显示第二视频数据,从而用户可以观看到显示屏显示的第二视频数据。
在本发明实施例中,通过USB连接获取视频源采集到的第一视频数据,利用预先训练好的网络模型对第一视频数据的分辨率进行放大,得到第二视频数据,并将该第二视频数据进行显示,从而实现对输出到智能交互平板的视频数据的分辨率进行放大,确保智能交互平板显示的视频数据达到2K或者4K,达到提高显示效果,提升用户的体验感和好感度的技术效果,进而解决了现有技术中显示端接收到的视频数据的分辨率较低,导致显示效果差的技术问题。
实施例2
图3是根据本发明实施例2的一种视频数据的处理方法的流程图。本实施例是在上述实施例1的基础上进行具体化。如图3所示,该方法包括如下步骤:
步骤S100,通过USB连接获取视频源采集到的第一视频数据,其中,第一视频数据的分辨率小于或等于第一预设值。
步骤S102,建立神经网络模型,其中,神经网络模型包括多个残差学习块,每个残差学习块包括:两个卷积层和一个激活层,激活层连接在两个卷积层之间。
步骤S104,获取多组样本数据,其中,多组样本数据包括:第一图像集合、对第一图像集合进行下采样得到的第二图像集合以及对第二图像集合进行上采样得到的第三图像集合,第一图像集合的分辨率和第三图像集合的分辨率相同,且均大于第二图像集合的分辨率。
具体地,为了获取多组样本数据,其具体实现可以包括步骤S1042至步骤S1046:
步骤S1042,获取第一图像集合。
其中,上述第一图像集合的分辨率与智能交互平板的显示屏分辨率一致,可以直接在智能交互平板的显示屏进行显示。具体实现包括步骤S122至步骤S126:
步骤S122,获取预设图像集合和预设图像块尺寸,其中,预设图像集合的分辨率与第一图像集合的分辨率相同。
具体地,上述的预设图像集合的分辨率与智能交互平板的显示屏分辨率一致,例如可以是预先制作的2K图像集合或者4K图像集合。上述的预设图像块尺寸可以是用户预先设置的标签图像集合的尺寸,也即,可以是(w_hr,h_hr)。
步骤S124,基于预设图像块尺寸,得到第一步长。
具体地,可以根据预设图像块尺寸,确定对预设图像集合进行裁剪,从而得到第一图像集合的滑动步长,也即,得到第一步长。
步骤S126,按照第一步长对预设图像集合进行裁剪,得到第一图像集合。
具体地,通过按照预先确定好的第一步长对预设图像集合进行裁剪,得到的图像块可以作为第一图像集合。
步骤S1044,按照目标倍数对第一图像集合进行下采样,得到第二图像集合,其中,目标倍数是网络模型的放大倍数。
具体地,为了能够实现通过神经网络模型对第一视频数据的分辨率进行放大,得到第二视频数据,在获取到第一图像集合之后,可以按照神经网络模型的放大倍数对第一图像集合进行下采样,从而得到第二图像集合,第二图像集合的分辨率与第一视频数据的分辨率相同。具体实现可以包括步骤S130至步骤S138:
步骤S130,对第一图像集合进行高斯滤波,得到滤波后的第一图像集合。
具体地,为了降低第一视频数据的噪声,可以对第一图像集合进行高斯滤波。
步骤S132,按照目标倍数对滤波后的第一图像集合进行下采样,得到第五图像集合。
具体地,在对第一图像集合进行高斯滤波之后,可以按照目标倍数对高斯滤波后的图像集合进行下采样,从而得到低分辨率的第五图像集合,第五图像集合的分辨率与第二图像集合的分辨率相同。
步骤S134,按照目标倍数对第五图像集合进行裁剪,得到图像块集合。
具体地,在下采样得到第五图像集合之后,可以按照目标倍数,也即,按照神经网络模型的放大倍数,对第五图像集合进行裁剪,得到小的图像块集合。具体实现可以包括步骤S1342至步骤S1346:
步骤S1342,获取第一图像集合的第一步长。
具体地,上述的第一步长可以是裁剪得到第一图像集合的过程中得到的滑动步长。
步骤S1344,根据第一步长和目标倍数,得到第二步长。
具体地,将第一图像集合的滑动步长除以神经网络模型的放大倍数,得到第二步长。
步骤S1346,按照第二步长对第五图像集合进行裁剪,得到图像块集合。
具体地,按照第二步长对低分辨率的第五图像集合进行裁剪,得到小的图像块集合。
步骤S136,按照多个不同压缩比对图像块集合进行压缩,得到压缩后的图像块集合。
具体地,为了避免视频数据压缩造成的损耗问题,可以对图像块集合进行压缩,,得到压缩后的图像块集合。实施例中,不同压缩比具体可以包括:70%、80%、90%和100%。
步骤S138,将多个不同噪声水平的高斯噪声添加至压缩后的图像块集合中,得到第二图像集合。
具体地,为了避免视频数据的噪声问题,可以在图像块集合中添加不同噪声水平的高斯噪声,从而将执行了不同压缩比和添加了不同噪声水平的图像块集合作为第二图像集合。实施例中,不同噪声水平具体可以包括:σ=5,σ=10,σ=15,σ=20以及σ=25。
步骤S1046,利用双三次插值对第二图像集合进行上采样,得到第三图像集合。
具体地,可以将第二图像集合进行双三次插值上采样得到高分辨率的第三图像集合LR’,用于叠加残差图像。
步骤S106,利用多组样本数据对神经网络模型进行训练,得到网络模型。
可选地,具体实现如步骤S1061至步骤S1068:
步骤S1061,分别对第一图像集合和第二图像集合进行归一化处理,得到标签图像集合和训练图像集合。
步骤S1062,将训练图像集合输入至神经网络模型,得到神经网络模型的输出的残差图像集合。
步骤S1063,将残差图像集合和第三图像集合进行叠加,得到第四图像集合。
步骤S1064,根据第四图像集合和标签图像集合,调整神经网络模型的参数。
步骤S1065,获取调整参数后的神经网络模型输出的结果图像集合。
步骤S1066,基于结果图像集合、训练图像集合和标签图像集合,得到神经网络模型的参数的梯度信息。
可选地,具体实现方式包括步骤S10662至步骤S10664:
步骤S10662,利用双三次插值对结果图像集合进行下采样,得到第五图像集合。
步骤S10664,根据结果图像集合、训练图像集合、第五图像集合、标签图像集合以及代价函数公式,得到梯度信息。
可选地,代价函数公式定义如下:
其中,x_LR为训练图像集合,y_HR为标签图像集合,f(x_LR)为结果图像集合,f'(f(x_LR))为第四图像集合,α为正则化因子,(w_lr,h_lr)为训练图像集合的尺寸,(w_hr,h_hr)为标签图像集合的尺寸。
步骤S1067,根据梯度信息,调整神经网络模型的参数。
步骤S1068,重复执行上述步骤S1062至步骤S1067,直至当前迭代次数达到预设迭代次数,并根据调整后的神经网络模型的参数,得到网络模型。
步骤S108,利用预先训练好的网络模型对第一视频数据进行处理,得到第二视频数据,其中,网络模型用于对第一视频数据的分辨率进行放大。
步骤S112,对第二视频数据进行反归一化处理,得到处理后的第二视频数据。
具体地,由于神经网络模型训练的过程中样本数据进行归一化处理,为了确保智能交互平板的显示屏正常显示第二视频数据,在神经网络模型输出第二视频数据之后,可以对第二视频数据进行反归一化处理,并将处理后的第二视频数据输出至智能交互平板的显示屏。
步骤S114,显示处理后的第二视频数据。
具体地,由智能交互平板的显示屏显示处理后的第二视频数据。
实施例3
根据本发明实施例,提供了一种视频数据的处理器的实施例。本实施例提供的视频数据的处理器可以集成在视频数据的处理系统中,该视频数据的处理系统可以是两个或多个物理实体构成,也可以是一个物理实体构成,该视频数据的处理系统可以是电脑、手机、平板、投影仪或智能交互平板等。
图4是根据本发明实施例3的一种视频数据的处理器的结构示意图,如图4所示,该装置包括:获取模块42、处理模块44和显示模块46。
其中,获取模块42,用于通过USB连接获取视频源采集到的第一视频数据,其中,第一视频数据的分辨率小于或等于第一预设值;处理模块44,用于利用预先训练好的网络模型对第一视频数据进行处理,得到第二视频数据,其中,网络模型用于对第一视频数据的分辨率进行放大;显示模块46,用于显示第二视频数据。
在本发明实施例中,通过USB连接获取视频源采集到的第一视频数据,利用预先训练好的网络模型对第一视频数据的分辨率进行放大,得到第二视频数据,并将该第二视频数据进行显示,从而实现对输出到智能交互平板的视频数据的分辨率进行放大,确保智能交互平板显示的视频数据达到2K或者4K,达到提高显示效果,提升用户的体验感和好感度的技术效果,进而解决了现有技术中显示端接收到的视频数据的分辨率较低,导致显示效果差的技术问题。
在上述实施例的基础上,视频数据的处理器还包括:建立模块,用于在利用预先训练好的网络模型对第一视频数据进行处理,得到第二视频数据之前,建立神经网络模型,其中,神经网络模型包括多个残差学习块,每个残差学习块包括:两个卷积层和一个激活层,激活层连接在两个卷积层之间;获取模块还用于获取多组样本数据,其中,多组样本数据包括:第一图像集合、对第一图像集合进行下采样得到的第二图像集合以及对第二图像集合进行上采样得到的第三图像集合,第一图像集合的分辨率和第三图像集合的分辨率相同,且均大于第二图像集合的分辨率;训练模块,用于利用多组样本数据对神经网络模型进行训练,得到网络模型。
在上述实施例的基础上,训练模块包括:第一处理单元,用于分别对第一图像集合和第二图像集合进行归一化处理,得到标签图像集合和训练图像集合;第二处理单元,用于将训练图像集合输入至神经网络模型,得到神经网络模型的输出的残差图像集合;叠加单元,用于将残差图像集合和第三图像集合进行叠加,得到第四图像集合;第一调整单元,用于根据第四图像集合和标签图像集合,调整神经网络模型的参数;执行单元,用于重复执行上述第二处理单元、叠加单元和第一调整单元的功能,直至当前迭代次数达到预设迭代次数,并根据调整后的神经网络模型的参数,得到网络模型。
在上述实施例的基础上,训练模块还包括:第一获取单元,用于在根据第四图像集合和标签图像集合,调整神经网络模型的参数之后,获取调整参数后的神经网络模型输出的结果图像集合;第三处理单元,用于基于结果图像集合、训练图像集合和标签图像集合,得到神经网络模型的参数的梯度信息;第二调整单元,用于根据梯度信息,调整神经网络模型的参数。
在上述实施例的基础上,第三处理单元还包括:第一处理子模块,用于利用双三次插值对结果图像集合进行下采样,得到第五图像集合;第二处理子模块,用于根据结果图像集合、训练图像集合、第五图像集合、标签图像集合以及代价函数公式,得到梯度信息。
在上述实施例的基础上,代价函数公式定义如下:
其中,x_LR为训练图像集合,y_HR为标签图像集合,f(x_LR)为结果图像集合,f'(f(x_LR))为第五图像集合,α为正则化因子,(w_lr,h_lr)为训练图像集合的尺寸,(w_hr,h_hr)为标签图像集合的尺寸。
在上述实施例的基础上,获取模块包括:第二获取单元,用于获取第一图像集合;第四处理单元,用于按照目标倍数对第一图像集合进行下采样,得到第二图像集合,其中,目标倍数是网络模型的放大倍数;第五处理单元,用于利用双三次插值对第二图像集合进行上采样,得到第三图像集合。
在上述实施例的基础上,第二获取单元包括:获取子模块,用于获取预设图像集合和预设图像块尺寸,其中,预设图像集合的分辨率与第一图像集合的分辨率相同;第三处理子模块,用于基于预设图像块尺寸,得到第一步长;第一裁剪子模块,用于按照第一步长对预设图像集合进行裁剪,得到第一图像集合。
在上述实施例的基础上,第四处理单元包括:第四处理子模块,用于按照目标倍数对第一图像集合进行下采样,得到第五图像集合;第二裁剪子模块,用于按照目标倍数对第五图像集合进行裁剪,得到图像块集合;压缩子模块,用于按照多个不同压缩比对图像块集合进行压缩,得到压缩后的图像块集合;添加子模块,用于将多个不同噪声水平的高斯噪声添加至压缩后的图像块集合中,得到第二图像集合。
在上述实施例的基础上,第二裁剪子模块包括:获取子单元,用于获取第一图像集合的第一步长;根据第一步长和目标倍数,得到第二步长;裁剪子单元,用于按照第二步长对第五图像集合进行裁剪,得到图像块集合。
在上述实施例的基础上,第四处理单元还包括:滤波子模块,用于在按照目标倍数对第一图像集合进行下采样,得到第五图像集合之前,对第一图像集合进行高斯滤波,得到滤波后的第一图像集合;第五处理子模块,用于按照目标倍数对滤波后的第一图像集合进行下采样,得到第五图像集合。
在上述实施例的基础上,处理模块还用于对第二视频数据进行反归一化处理,得到处理后的第二视频数据;显示模块还用于显示处理后的第二视频数据。
上述提供的视频数据的处理器可用于执行上述任意实施例提供的视频数据的处理方法,具备相应的功能和有益效果。
实施例4
根据本发明实施例,提供了一种视频数据的处理系统的实施例。
图5是根据本发明实施例4的一种视频数据的处理系统的结构示意图,如图5所示,该系统包括:视频源52、处理器54和显示屏56。该视频数据的处理系统的处理器54可以是一个或多个,图5中以一个处理器54为例。该视频数据的处理系统的视频源52和处理器54可以通过USB连接。实施例中,处理器54和显示屏56可以是电脑,手机,平板,投影仪或智能交互平板的处理器54和显示屏56等。实施例中,以处理器54和显示屏56是智能交互平板的处理器54和显示屏56为例,进行描述。
视频源52可以是与智能交互平板进行数据交互的外部装置,可以有一个或者多个,视具体的应用场景来设置,实施例不做限定。
处理器54通过运行存储在存储器中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现视频数据的处理方法。存储器作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明任意实施例所述的批注显示方法对应的程序指令/模块(例如,批注显示装置中的获取模块42、处理模块44和显示模块46)。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器可进一步包括相对于处理器54远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
显示屏56为具有触摸功能的显示屏56,其可以是电容屏、电磁屏或者红外屏。一般而言,显示屏56用于根据处理器54的指示显示数据,还用于接收作用于显示屏56的触摸操作,并将相应的信号发送至处理器54或其他装置。可选的,当显示屏56为红外屏时,其还包括红外触摸框,该红外触摸框设置在显示屏56的四周,其还可以用于接收红外信号,并将该红外信号发送至处理器54或者其他设备。
具体的,实施例中,处理器54执行存储器中存储的一个或多个程序时,具体实现如下操作:通过USB连接获取视频源52采集到的第一视频数据,其中,第一视频数据的分辨率小于或等于第一预设值;利用预先训练好的网络模型对第一视频数据进行处理,得到第二视频数据,其中,网络模型用于对第一视频数据的分辨率进行放大;指示显示屏56显示第二视频数据。
在上述实施例的基础上,一个或多个处理器54在实现利用预先训练好的网络模型对第一视频数据进行处理,得到第二视频数据之前,还实现如下操作:建立神经网络模型,其中,神经网络模型包括多个残差学习块,每个残差学习块包括:两个卷积层和一个激活层,激活层连接在两个卷积层之间;获取多组样本数据,其中,多组样本数据包括:第一图像集合、对第一图像集合进行下采样得到的第二图像集合以及对第二图像集合进行上采样得到的第三图像集合,第一图像集合的分辨率和第三图像集合的分辨率相同,且均大于第二图像集合的分辨率;利用多组样本数据对神经网络模型进行训练,得到网络模型。
在上述实施例的基础上,处理器54在实现利用多组样本数据对神经网络模型进行训练,得到网络模型时,具体包括:步骤A,分别对第一图像集合和第二图像集合进行归一化处理,得到标签图像集合和训练图像集合;步骤B,将训练图像集合输入至神经网络模型,得到神经网络模型的输出的残差图像集合;步骤C,将残差图像集合和第三图像集合进行叠加,得到第四图像集合;步骤D,根据第四图像集合和标签图像集合,调整神经网络模型的参数;步骤E,重复执行上述步骤B至步骤D,直至当前迭代次数达到预设迭代次数,并根据调整后的神经网络模型的参数,得到网络模型。
在上述实施例的基础上,处理器54在实现在根据第四图像集合和标签图像集合,调整神经网络模型的参数之后,还实现如下操作:获取调整参数后的神经网络模型输出的结果图像集合;基于结果图像集合、训练图像集合和标签图像集合,得到神经网络模型的参数的梯度信息;根据梯度信息,调整神经网络模型的参数。
在上述实施例的基础上,处理器54在实现基于结果图像集合、训练图像集合和标签图像集合,得到神经网络模型的参数的梯度信息时,具体包括:利用双三次插值对结果图像集合进行下采样,得到第五图像集合;根据结果图像集合、训练图像集合、第五图像集合、标签图像集合以及代价函数公式,得到梯度信息。
在上述实施例的基础上,处理器54还具体实现:代价函数公式定义如下:
其中,x_LR为训练图像集合,y_HR为标签图像集合,f(x_LR)为结果图像集合,f'(f(x_LR))为第五图像集合,α为正则化因子,(w_lr,h_lr)为训练图像集合的尺寸,(w_hr,h_hr)为标签图像集合的尺寸。
在上述实施例的基础上,处理器54在实现获取多组样本数据时,具体包括:获取第一图像集合;按照目标倍数对第一图像集合进行下采样,得到第二图像集合,其中,目标倍数是网络模型的放大倍数;利用双三次插值对第二图像集合进行上采样,得到第三图像集合。
在上述实施例的基础上,处理器54在实现获取第一图像集合时,具体包括:获取预设图像集合和预设图像块尺寸,其中,预设图像集合的分辨率与第一图像集合的分辨率相同;基于预设图像块尺寸,得到第一步长;按照第一步长对预设图像集合进行裁剪,得到第一图像集合。
在上述实施例的基础上,处理器54在实现按照目标倍数对第一图像集合进行下采样,得到第二图像集合时,具体包括:按照目标倍数对第一图像集合进行下采样,得到第五图像集合;按照目标倍数对第五图像集合进行裁剪,得到图像块集合;按照多个不同压缩比对图像块集合进行压缩,得到压缩后的图像块集合;将多个不同噪声水平的高斯噪声添加至压缩后的图像块集合中,得到第二图像集合。
在上述实施例的基础上,处理器54在实现按照目标倍数对第五图像集合进行裁剪,得到图像块集合时,具体包括:获取第一图像集合的第一步长;根据第一步长和目标倍数,得到第二步长;按照第二步长对第五图像集合进行裁剪,得到图像块集合。
在上述实施例的基础上,处理器54在按照目标倍数对第一图像集合进行下采样,得到第五图像集合之前,还实现如下操作:对第一图像集合进行高斯滤波,得到滤波后的第一图像集合;按照目标倍数对滤波后的第一图像集合进行下采样,得到第五图像集合。
在上述实施例的基础上,一个或多个处理器54还具体实现:对第二视频数据进行反归一化处理,得到处理后的第二视频数据;显示处理后的第二视频数据。
上述提供的视频数据的处理系统可用于执行上述任意实施例提供的视频数据的处理方法,具备相应的功能和有益效果。
下面对本实施例提供的技术方案进行示例性的描述:
本实施例中,图6是根据本发明实施例的一种视频数据的处理系统的结构示意图,如图6所示,Camera视频源通过USB传输模块与智能交互平板进行连接,超分辨率处理模块预先安装在智能交互平板中,显示端可以是智能交互平板的显示屏。
具体地,Camera视频源实时将采集到的视频数据通过USB传输模块传输到超分辨率处理模块,通过超分辨率处理模块将输入的视频数据的分辨率进行放大得到显示端图像,由超分辨率处理模块将显示端图像传输给显示端,由显示端进行显示。
本实施例提供的技术方案,通过USB连接获取视频源采集到的第一视频数据,利用预先训练好的网络模型对第一视频数据的分辨率进行放大,得到第二视频数据,并将该第二视频数据进行显示,从而实现对输出到智能交互平板的视频数据的分辨率进行放大,确保智能交互平板显示的视频数据达到2K或者4K,达到提高显示效果,提升用户的体验感和好感度的技术效果,进而解决了现有技术中显示端接收到的视频数据的分辨率较低,导致显示效果差的技术问题。
实施例5
根据本发明实施例,提供了一种存储介质的实施例,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述的视频数据的处理方法。
实施例6
根据本发明实施例,提供了一种处理器的实施例,处理器用于运行程序,其中,程序运行时执行上述的视频数据的处理方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (16)
1.一种视频数据的处理方法,其特征在于,包括:
通过USB连接获取视频源采集到的第一视频数据,其中,所述第一视频数据的分辨率小于或等于第一预设值;
利用预先训练好的网络模型对所述第一视频数据进行处理,得到第二视频数据,其中,所述网络模型用于对所述第一视频数据的分辨率进行放大;
显示所述第二视频数据。
2.根据权利要求1所述的方法,其特征在于,在利用预先训练好的网络模型对所述第一视频数据进行处理,得到第二视频数据之前,所述方法还包括:
建立神经网络模型,其中,所述神经网络模型包括多个残差学习块,每个残差学习块包括:两个卷积层和一个激活层,所述激活层连接在所述两个卷积层之间;
获取多组样本数据,其中,所述多组样本数据包括:第一图像集合、对所述第一图像集合进行下采样得到的第二图像集合以及对所述第二图像集合进行上采样得到的第三图像集合,所述第一图像集合的分辨率和所述第三图像集合的分辨率相同,且均大于所述第二图像集合的分辨率;
利用所述多组样本数据对所述神经网络模型进行训练,得到所述网络模型。
3.根据权利要求2所述的方法,其特征在于,利用所述多组样本数据对所述神经网络模型进行训练,得到所述网络模型包括:
步骤A,分别对所述第一图像集合和所述第二图像集合进行归一化处理,得到标签图像集合和训练图像集合;
步骤B,将所述训练图像集合输入至所述神经网络模型,得到所述神经网络模型的输出的残差图像集合;
步骤C,将所述残差图像集合和所述第三图像集合进行叠加,得到第四图像集合;
步骤D,根据所述第四图像集合和所述标签图像集合,调整所述神经网络模型的参数;
步骤E,重复执行上述步骤B至步骤D,直至当前迭代次数达到预设迭代次数,并根据调整后的所述神经网络模型的参数,得到所述网络模型。
4.根据权利要求3所述的方法,其特征在于,在根据所述第四图像集合和所述标签图像集合,调整所述神经网络模型的参数之后,所述方法还包括:
获取调整参数后的神经网络模型输出的结果图像集合;
基于所述结果图像集合、所述训练图像集合和所述标签图像集合,得到所述神经网络模型的参数的梯度信息;
根据所述梯度信息,调整所述神经网络模型的参数。
5.根据权利要求4所述的方法,其特征在于,基于所述结果图像集合、所述训练图像集合和所述标签图像集合,得到所述神经网络模型的参数的梯度信息包括:
利用双三次插值对所述结果图像集合进行下采样,得到第五图像集合;
根据所述结果图像集合、所述训练图像集合、所述第五图像集合、所述标签图像集合以及代价函数公式,得到所述梯度信息。
6.根据权利要求5所述的方法,其特征在于,所述代价函数公式定义如下:
其中,所述x_LR为所述训练图像集合,所述y_HR为标签图像集合,所述f(x_LR)为所述结果图像集合,所述f'(f(x_LR))为所述第五图像集合,所述α为正则化因子,所述(w_lr,h_lr)为所述训练图像集合的尺寸,所述(w_hr,h_hr)为所述标签图像集合的尺寸。
7.根据权利要求2所述的方法,其特征在于,获取多组样本数据包括:
获取所述第一图像集合;
按照目标倍数对所述第一图像集合进行下采样,得到所述第二图像集合,其中,所述目标倍数是所述网络模型的放大倍数;
利用双三次插值对所述第二图像集合进行上采样,得到所述第三图像集合。
8.根据权利要求7所述的方法,其特征在于,获取所述第一图像集合包括:
获取预设图像集合和预设图像块尺寸,其中,所述预设图像集合的分辨率与所述第一图像集合的分辨率相同;
基于所述预设图像块尺寸,得到第一步长;
按照所述第一步长对所述预设图像集合进行裁剪,得到所述第一图像集合。
9.根据权利要求7所述的方法,其特征在于,按照目标倍数对所述第一图像集合进行下采样,得到所述第二图像集合包括:
按照所述目标倍数对所述第一图像集合进行下采样,得到第五图像集合;
按照所述目标倍数对所述第五图像集合进行裁剪,得到图像块集合;
按照多个不同压缩比对所述图像块集合进行压缩,得到压缩后的图像块集合;
将多个不同噪声水平的高斯噪声添加至所述压缩后的图像块集合中,得到所述第二图像集合。
10.根据权利要求9所述的方法,其特征在于,按照所述目标倍数对所述第五图像集合进行裁剪,得到图像块集合包括:
获取所述第一图像集合的第一步长;
根据所述第一步长和所述目标倍数,得到第二步长;
按照所述第二步长对所述第五图像集合进行裁剪,得到所述图像块集合。
11.根据权利要求9所述的方法,其特征在于,在按照所述目标倍数对所述第一图像集合进行下采样,得到第五图像集合之前,所述方法还包括:
对所述第一图像集合进行高斯滤波,得到滤波后的第一图像集合;
按照所述目标倍数对所述滤波后的第一图像集合进行下采样,得到所述第五图像集合。
12.根据权利要求1所述的方法,其特征在于,在显示所述第二视频数据之前,所述方法还包括:
对所述第二视频数据进行反归一化处理,得到处理后的第二视频数据;
显示所述处理后的第二视频数据。
13.一种视频数据的处理装置,其特征在于,包括:
获取模块,用于通过USB连接获取视频源采集到的第一视频数据,其中,所述第一视频数据的分辨率小于或等于第一预设值;
处理模块,用于利用预先训练好的网络模型对所述第一视频数据进行处理,得到第二视频数据,其中,所述网络模型用于对所述第一视频数据的分辨率进行放大;
显示模块,用于显示所述第二视频数据。
14.一种视频数据的处理系统,其特征在于,包括:
视频源,用于采集第一视频数据,其中,所述第一视频数据的分辨率小于或等于第一预设值;
处理器,通过USB连接与所述视频源连接,用于利用预先训练好的网络模型对所述第一视频数据进行处理,得到第二视频数据,其中,所述网络模型用于对所述第一视频数据的分辨率进行放大;
显示屏,与所述处理器连接,用于显示所述第二视频数据。
15.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至12中任意一项所述的视频数据的处理方法。
16.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至12中任意一项所述的视频数据的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810934972.6A CN108900894B (zh) | 2018-08-16 | 2018-08-16 | 视频数据的处理方法、装置和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810934972.6A CN108900894B (zh) | 2018-08-16 | 2018-08-16 | 视频数据的处理方法、装置和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108900894A true CN108900894A (zh) | 2018-11-27 |
CN108900894B CN108900894B (zh) | 2021-03-02 |
Family
ID=64354715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810934972.6A Active CN108900894B (zh) | 2018-08-16 | 2018-08-16 | 视频数据的处理方法、装置和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108900894B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740505A (zh) * | 2018-12-29 | 2019-05-10 | 成都视观天下科技有限公司 | 一种训练数据生成方法、装置及计算机设备 |
CN110647936A (zh) * | 2019-09-20 | 2020-01-03 | 北京百度网讯科技有限公司 | 视频超分辨率重建模型的训练方法、装置和电子设备 |
CN111580765A (zh) * | 2020-04-27 | 2020-08-25 | Oppo广东移动通信有限公司 | 投屏方法、投屏装置、存储介质、被投屏设备与投屏设备 |
CN112468830A (zh) * | 2019-09-09 | 2021-03-09 | 阿里巴巴集团控股有限公司 | 视频图像处理方法、装置及电子设备 |
WO2022022019A1 (zh) * | 2020-07-30 | 2022-02-03 | 华为技术有限公司 | 投屏数据处理方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106683067A (zh) * | 2017-01-20 | 2017-05-17 | 福建帝视信息科技有限公司 | 一种基于残差子图像的深度学习超分辨率重建方法 |
CN107358576A (zh) * | 2017-06-24 | 2017-11-17 | 天津大学 | 基于卷积神经网络的深度图超分辨率重建方法 |
CN107481188A (zh) * | 2017-06-23 | 2017-12-15 | 珠海经济特区远宏科技有限公司 | 一种图像超分辨率重构方法 |
CN107679525A (zh) * | 2017-11-01 | 2018-02-09 | 腾讯科技(深圳)有限公司 | 图像分类方法、装置及计算机可读存储介质 |
US20180182067A1 (en) * | 2016-12-27 | 2018-06-28 | Kla-Tencor Corporation | System and Method for Reconstructing High-Resolution Point Spread Functions from Low-Resolution Inspection Images |
CN108305214A (zh) * | 2017-12-28 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 图像数据处理方法、装置、存储介质和计算机设备 |
-
2018
- 2018-08-16 CN CN201810934972.6A patent/CN108900894B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180182067A1 (en) * | 2016-12-27 | 2018-06-28 | Kla-Tencor Corporation | System and Method for Reconstructing High-Resolution Point Spread Functions from Low-Resolution Inspection Images |
CN106683067A (zh) * | 2017-01-20 | 2017-05-17 | 福建帝视信息科技有限公司 | 一种基于残差子图像的深度学习超分辨率重建方法 |
CN107481188A (zh) * | 2017-06-23 | 2017-12-15 | 珠海经济特区远宏科技有限公司 | 一种图像超分辨率重构方法 |
CN107358576A (zh) * | 2017-06-24 | 2017-11-17 | 天津大学 | 基于卷积神经网络的深度图超分辨率重建方法 |
CN107679525A (zh) * | 2017-11-01 | 2018-02-09 | 腾讯科技(深圳)有限公司 | 图像分类方法、装置及计算机可读存储介质 |
CN108305214A (zh) * | 2017-12-28 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 图像数据处理方法、装置、存储介质和计算机设备 |
Non-Patent Citations (2)
Title |
---|
YUJIA LIU等: "Image Super-Resolution Reconstruction Based on Disparity Map and CNN", 《IEEE ACCESS》 * |
叶会娟等: "基于稀疏卷积核的卷积神经网络研究及其应用", 《信息技术》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740505A (zh) * | 2018-12-29 | 2019-05-10 | 成都视观天下科技有限公司 | 一种训练数据生成方法、装置及计算机设备 |
CN112468830A (zh) * | 2019-09-09 | 2021-03-09 | 阿里巴巴集团控股有限公司 | 视频图像处理方法、装置及电子设备 |
CN110647936A (zh) * | 2019-09-20 | 2020-01-03 | 北京百度网讯科技有限公司 | 视频超分辨率重建模型的训练方法、装置和电子设备 |
CN111580765A (zh) * | 2020-04-27 | 2020-08-25 | Oppo广东移动通信有限公司 | 投屏方法、投屏装置、存储介质、被投屏设备与投屏设备 |
CN111580765B (zh) * | 2020-04-27 | 2024-01-12 | Oppo广东移动通信有限公司 | 投屏方法、投屏装置、存储介质、被投屏设备与投屏设备 |
WO2022022019A1 (zh) * | 2020-07-30 | 2022-02-03 | 华为技术有限公司 | 投屏数据处理方法和装置 |
CN114071197A (zh) * | 2020-07-30 | 2022-02-18 | 华为技术有限公司 | 投屏数据处理方法和装置 |
CN114071197B (zh) * | 2020-07-30 | 2024-04-12 | 华为技术有限公司 | 投屏数据处理方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108900894B (zh) | 2021-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108900894A (zh) | 视频数据的处理方法、装置和系统 | |
DE112016003352T5 (de) | Reibungslose Benutzeroberfläche für virtuelle Kollaboration, Kommunikation und Cloud-Computing | |
US11503205B2 (en) | Photographing method and device, and related electronic apparatus | |
DE202019006001U1 (de) | Elektronische Vorrichtung zur Gewinnung von Tiefeninformation | |
CN103297699A (zh) | 一种图像的拍摄方法和终端 | |
DE10226610A1 (de) | Verfahren und System zum Übertragen von Daten zwischen einer Digitalkamera und einem Hauptrechner | |
DE102012212514A1 (de) | Fernbedienungs-Benutzerschnittstelle für Handgerät | |
CN105915766B (zh) | 基于虚拟现实的控制方法和装置 | |
CN103828350A (zh) | 增强视频会议 | |
EP2892205B1 (en) | Method and device for determining a sharing terminal | |
DE202020005855U1 (de) | Audioausgabesystem und Endgerät | |
CN108833784A (zh) | 一种自适应构图方法、移动终端及计算机可读存储介质 | |
DE102019106329A1 (de) | Verfahren zur Steuerung eines Gargeräts und Gargerät sowie System | |
CN104135641A (zh) | 一种移动终端的工具及智能整合音视频的服务器 | |
CN106295742B (zh) | 纸质载体与电子载体同时获取的医疗打印查询系统 | |
CN109788359A (zh) | 一种视频数据处理方法和相关装置 | |
CN108460354B (zh) | 无人机控制方法、装置、无人机及系统 | |
CN104917972A (zh) | 远程控制拍照的方法、装置及系统 | |
CN106303235A (zh) | 拍照处理方法及装置 | |
CN109685750A (zh) | 图像增强方法及计算设备 | |
EP3975545A1 (en) | Video communication method, terminal and storage medium | |
DE102015119593A1 (de) | Techniken zur Bildvorschau und Aufnahme von Selbstportraitbildern | |
CN103139457B (zh) | 一种图像获得控制方法及电子设备 | |
CN106888353A (zh) | 一种图像采集方法及设备 | |
CN104020843A (zh) | 一种信息处理方法及一种电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |