CN116886996B - 一种数字乡村多媒体显示屏广播系统 - Google Patents
一种数字乡村多媒体显示屏广播系统 Download PDFInfo
- Publication number
- CN116886996B CN116886996B CN202311140360.7A CN202311140360A CN116886996B CN 116886996 B CN116886996 B CN 116886996B CN 202311140360 A CN202311140360 A CN 202311140360A CN 116886996 B CN116886996 B CN 116886996B
- Authority
- CN
- China
- Prior art keywords
- feature
- caption
- characteristic
- frame
- feature point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002776 aggregation Effects 0.000 claims abstract description 35
- 238000004220 aggregation Methods 0.000 claims abstract description 35
- 230000003287 optical effect Effects 0.000 claims abstract description 14
- 239000013598 vector Substances 0.000 claims description 52
- 238000000034 method Methods 0.000 claims description 41
- 238000001514 detection method Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000005516 engineering process Methods 0.000 claims description 8
- 238000003708 edge detection Methods 0.000 claims description 7
- 238000009826 distribution Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 abstract description 7
- 238000005096 rolling process Methods 0.000 abstract description 7
- 230000007547 defect Effects 0.000 abstract description 5
- 238000004891 communication Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 11
- 230000008859 change Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000007797 corrosion Effects 0.000 description 2
- 238000005260 corrosion Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
- H04N21/440281—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the temporal resolution, e.g. by frame skipping
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/61—Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
- H04L65/611—Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for multicast or broadcast
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/80—Responding to QoS
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Television Systems (AREA)
Abstract
本发明涉及图像通信技术领域,提出了一种数字乡村多媒体显示屏广播系统,包括:获取多媒体显示屏上的待播放视频;根据多媒体显示屏中待播放视频内字幕的滚动特点提取每帧广播灰度图上的字幕特征点;根据同一位置字幕特征点在相邻两帧广播灰度图上的匹配程度获取字幕特征点的特征点聚集度;根据相邻帧上字幕特征点及其匹配特征点获取字幕特征点的特征点权重;根据特征点权重获取相邻两帧之间的广播插帧图像,将所有广播插帧图像按照时间顺序插入待播放视频后传输到多媒体显示屏。本发明利用字幕滚动特点基于不同位置字幕特征点的特征点权重确定插帧图像中不同类型的像素点,解决传统LK光流插帧算法产生的光流估计不准确导致文字残缺问题。
Description
技术领域
本发明涉及图像传输技术领域,具体涉及一种数字乡村多媒体显示屏广播系统。
背景技术
数字乡村是伴随网络化、信息化和数字化在农业农村经济社会发展中的应用,以及农民现代信息技能的提高而内生的农业农村现代化发展和转型进程。多媒体显示屏广播系统,是一种整合数字技术和多媒体元素的创新通信系统,旨在为乡村地区提供信息传播、宣传推广、文化传承等功能,通过播放新闻、宣传片、文化节目等,以满足乡村居民的信息需求,促进乡村发展和文化交流。
而数字乡村的多媒体显示器在播放视频时网络环境相对较不稳定,受限于传输带宽和存储容量,在许多情况下,获取到的视频存在帧率较低的问题,极大地影响乡村居民观看视频的体验,故通常需要对视频进行插帧处理,而在数字乡村多媒体显示屏中播放的视频多为地方性内容、宣传片等,视频中包含的文字性内容较多,如字幕等,使用传统的光流插帧算法对该类视频进行插帧时,容易出现光流估计不准确导致文字残缺的问题,而视频中的文字残缺可能导致乡村居民无法获取真实完整的信息。
发明内容
本发明提供一种数字乡村多媒体显示屏广播系统,以解决传统光流插帧算法进行插帧时,出现光流估计不准确导致文字残缺的问题,所采用的技术方案具体如下:
本发明一个实施例一种数字乡村多媒体显示屏广播系统,该系统包括以下模块:
视频数据采集模块,获取多媒体显示屏上的待播放视频;
字幕特征点提取模块,利用边缘检测算法获取待播放视频中每帧广播灰度图对应的显示边缘图,利用特征点匹配算法获取显示边缘图中每个特征点的笔画匹配向量;将存在元素大于预设阈值的笔画匹配向量对应的特征点作为字幕特征点;
特征聚集度计算模块,根据每个字幕特征点所取检测窗口内不同方向上特征点的笔画匹配向量中元素的显著程度获取每个字幕特征点的特征聚集度;
特征权重计算模块,根据当前帧中字幕特征点与当前帧下一帧中同一位置字幕特征点的笔画匹配向量以及特征点聚集度获取当前帧中字幕特征点的匹配特征点;根据当前帧中字幕特征点及其匹配特征点获取当前帧以及当前帧下一帧中字幕特征点的特征权重;
广播视频插帧模块,根据相邻两帧显示边缘图中的特征权重获取相邻两帧显示边缘图之间的特征灰度图;根据相邻两帧显示边缘图之间的特征灰度图获取相邻两帧之间的广播插帧图像;将所有广播插帧图像按照时间顺序插入待播放视频后传输到多媒体显示屏。
优选的,所述利用特征点匹配算法获取显示边缘图中每个特征点的笔画匹配向量的方法为:
每一帧显示边缘图与预设笔画的边缘图作为特征点匹配算法的输入,将每一帧显示边缘图中利用特征点匹配算法获取的每个特征点与预设笔画的匹配度组成的向量作为每个特征点的笔画匹配向量。
优选的,所述根据每个字幕特征点所取检测窗口内不同方向上特征点的笔画匹配向量中元素的显著程度获取每个字幕特征点的特征聚集度的方法为:
根据每个字幕特征点所取检测窗口内不同方向上笔画匹配向量的分布特征获取每个字幕特征点的聚集指数;
将每个字幕特征点的聚集指数在其所取检测窗口内每个方向上所有特征点上的累加作为分子,将所述检测窗口内所有特征点的数量作为分母,将分子与分母的比值作为每个字幕特征点在每个方向上的特征显著度;
将每个字幕特征点所取检测窗口内不同方向上的特征显著度的最大值作为每个字幕特征点的特征聚集度。
优选的,所述根据每个字幕特征点所取检测窗口内不同方向上笔画匹配向量的分布特征获取每个字幕特征点的聚集指数的方法为:
将每个字幕特征点所取检测窗口内不同方向上每个特征点的笔画匹配向量中所有元素的最大值作为每个字幕特征点的目标指数,将以自然常数为底数,以所述目标指数为指数的计算结果作为每个字幕特征点的显著值;
将每个字幕特征点的显著值与预设参数之和的倒数作为每个字幕特征点的聚集指数。
优选的,所述根据当前帧中字幕特征点与当前帧下一帧中同一位置字幕特征点的笔画匹配向量以及特征点聚集度获取当前帧中字幕特征点的匹配特征点的方法为:
获取当前帧下一帧显示边缘图中与当前帧显示边缘图中字幕特征点位于同一位置的字幕特征点对应的特征窗口;
根据每个字幕特征点与所述特征窗口内字幕特征点之间的差异获取每个字幕特征点的决策距离;
将所述特征窗口内决策距离最小值对应的字幕特征点作为当前帧中字幕特征点的匹配特征点。
优选的,所述根据每个字幕特征点与所述特征窗口内字幕特征点之间的差异获取每个字幕特征点的决策距离的方法为:
将当前帧显示边缘图中字幕特征点与所述特征窗口内每个字幕特征点的特征聚集度之间差值的绝对值作为第一乘积因子;
将当前帧显示边缘图中字幕特征点与所述特征窗口内每个字幕特征点笔画匹配向量之间的度量距离作为第二乘积因子;
字幕特征点的决策距离由第一乘积因子、第二乘积因子两部分组成,其中,所述决策距离与第一乘积因子、第二乘积因子成正比关系。
优选的,所述根据当前帧中字幕特征点及其匹配特征点获取当前帧以及当前帧下一帧中字幕特征点的特征权重的方法为:
将当前帧显示边缘图中每个字幕特征点与其匹配特征点之间的决策距离的倒数的归一化结果作为当前帧显示边缘图中每个字幕特征点的特征权重;
将预设参数与当前帧显示边缘图中每个字幕特征点的特征权重之间的差值作为所述字幕特征点的匹配特征点的特征权重。
优选的,所述根据相邻两帧显示边缘图中的特征权重获取相邻两帧显示边缘图之间的特征灰度图的方法为:
根据相邻两帧显示边缘图中的特征权重获取相邻两帧显示边缘图之间插帧图像中特征点的插帧灰度值;
遍历当前帧显示边缘图上所有特征点,将利用所有特征点的插帧灰度值构成的图像作为相邻两帧显示边缘图之间的特征灰度图。
优选的,所述根据相邻两帧显示边缘图中的特征权重获取相邻两帧显示边缘图之间插帧图像中特征点的插帧灰度值的方法为:
将相邻两帧显示边缘图中的特征权重以及相邻显示边缘图中特征点的灰度值作为双线性插值算法的输入,利用双线性插值算法获取相邻两帧之间插帧图上特征点的插帧灰度值。
优选的,所述根据相邻两帧显示边缘图之间的特征灰度图获取相邻两帧之间的广播插帧图像的方法为:
利用光流插针算法获取相邻两帧广播灰度图之间插帧图像上非特征点的插帧灰度值,遍历当前帧广播灰度图上所有非特征点,将利用所有非特征点的插帧灰度值构成的图像作为相邻两帧广播灰度图之间的非特征灰度图;
将相邻两帧显示边缘图之间的特征灰度图与所述非特征灰度图线性加权结果作为相邻两帧广播灰度图之间的广播插帧图像。
本发明的有益效果是:本发明通过对多媒体显示屏中待播放视频中字幕、背景分开处理的方式得到中间帧,对于字幕部分,通过汉字特征构建笔画匹配向量,反映视频各帧图像特征点与汉字的匹配程度,并结合字幕在视频中的移动、位置特征构建字幕特征点聚集度,综合反映各帧图像中的汉字特征,通过分析相邻两帧图像中字幕特征点的笔画匹配向量、字幕特征点聚集度构建相邻两帧图像中各字幕特征点的权重,反映在生成中间帧时,前后帧对于中间帧的影响程度,进而使用加权双线性插值法计算中间帧各字幕特征点的灰度值,对于非字幕特征点,则通过传统的LK光流插帧算法得到中间帧像素点的灰度值,基于字幕特征点与非字幕特征点的灰度值,则可以得到中间帧像素点的灰度值,解决了传统的LK光流插帧算法在数字乡村多媒体显示屏广播系统中所播放视频进行插帧处理时产生的光流估计不准确导致文字残缺问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例所提供的一种数字乡村多媒体显示屏广播系统的流程示意图;
图2为本发明一个实施例所提供的检测窗口示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明一个实施例提供的一种数字乡村多媒体显示屏广播系统流程图,该系统包括:视频数据采集模块、字幕特征点提取模块、特征聚集度计算模块、特征权重计算模块、广播视频插帧模块。
视频数据采集模块,通过相关数字乡村媒体库、社区广播平台、乡村新闻视频库等多媒体显示屏播放视频来源获取需要在数字乡村多媒体显示屏广播系统中播放的视频,由于采集的视频可能来自于多个视频源,即不同的视频可能具有不同的格式与不同的分辨率,因此需要对采集到的视频文件进行预处理,包括将视频文件转换为统一的mp4格式文件,将视频文件的分辨率调整为数字乡村多媒体显示屏的分辨率,将预处理后的视频记为待播放视频,视频格式的转换为公知技术,具体过程不再赘述。
至此,得到数字乡村多媒体显示屏的待播放视频,用于后续视频滚动字幕的提取。
字幕特征点提取模块,使用LK光流插帧算法对乡村多媒体显示屏待播放的如新闻、宣传片、文化节目等视频进行插帧时,容易出现光流估计不准确导致文字残缺的问题,即当处于文字不动背景在动的情况时,文字所在位置的光流估计被背景的运动带偏,导致文字所在位置的光流估计不准确,导致文字残缺,造成合成的中间帧的质量较低,影响观看者的体验。
首先对待播放视频中的每帧图像进行灰度化,得到每帧图像对应的广播灰度图,其次本发明中利用Canny边缘检测技术对每帧广播灰度图进行边缘提取,将将第i帧广播灰度图的边缘检测结果记为第i帧显示边缘图,Canny边缘检测为公知技术,具体过程不再赘述。
在新闻、宣传片等类型的待播放视频中,通常包含滚动字幕与固定字幕,其中滚动字幕通常沿着一个方向匀速移动,即相邻两帧广播灰度图中滚动字幕具有一定的关联性;而对于固定字幕而言,例如视频中的对白字幕,通常在人物将话讲完后就消失,变为人物将要表达的下一句话,即对白字幕在待播放视频中的特征为若干秒内不发生变化,随后突变为下一条字幕,突变后若干秒内仍不发生变化的周期性规律,相邻两帧广播灰度图中字幕突变的时间间隔较短,通常在2-5帧内变化完成,且相邻两条对白字幕一般不同。
在乡村多媒体显示屏中播放的新闻、宣传片等视频中的文字通常均为汉字,汉字由基本的横、竖、撇、捺、折等基本笔画构成,且字幕的作用是为了使观众能够更清楚的理解视频中的声音信息,其对比度相对较强,本发明中利用Canny边缘检测技术分别提取永字八法,即点、横、竖、撇、捺、折、提、钩的边缘图像,将永字八法的边缘图像以及每帧显示边缘图作为尺度不变特征变换SIFT特征点匹配算法的输入,利用SIFT算法获取显示边缘图上每个特征点固定维度的特征向量,其次分别计算显示边缘图上每个特征点固定维度的特征向量与永字八法中每个笔画的边缘图像中每个特征点固定维度的特征向量之间的皮尔逊相关系数,尺度不变特征变换SIFT特征点匹配算法为公知技术,具体过程不再赘述。
基于所述获取特征向量之间的皮尔逊相关系数构建每帧显示边界图中每个特征点的笔画匹配向量,将显示边缘图中位置坐标为/>的特征点的笔画匹配向量记为:
其中,分别是显示边缘图/>中位置坐标为/>的特征点对应的特征向量与永字八法的边缘图像中特征点之间皮尔逊相关系数的最大值,皮尔逊相关系数为公知技术,具体过程不再赘述。
根据上述步骤可以计算视频中每一帧边缘图像中各个特征点的笔画匹配向量,将存在元素高于笔画匹配度阈值的笔画匹配向量对应的像素点作为字幕特征点,由于视频字幕中汉字显示的标准、规范的要求,本发明中,笔画匹配度阈值取经验值0.8。
至此,可以将视频中各帧图像中的字幕特征点提取出来。
特征聚集度计算模块,为避免出现广播灰度图中存在某些场景布局的边缘与笔画相似导致匹配错误的问题, 由于在乡村多媒体显示屏中所播放的新闻、宣传片等视频中的文字在视频中均为横向排列或纵向排列,且字幕中的字通常不会单独出现一个,故在字幕聚集窗口内,若字幕特征点实际为字幕像素点,则在字幕聚集窗口内各特征点的笔画匹配向量中,总有一个或若干个笔画匹配度较大;若字幕特征点/>实际是由于场景布局等巧合情况导致其形状特征与笔画较为相似,则在字幕聚集窗口内各特征点的笔画匹配向量中,可能没有或仅有少量几个特征点的笔画匹配向量中笔画匹配度较大,其余特征点的笔画匹配向量中各笔画匹配度均较低。
在显示边缘图中,以/>作为矩形中下边缘线的中心点构建大小为/>的检测窗口W,如图2所示,/>、/>的大小分别取经验值21、61。分别获取所述检测窗口内的不同方向字幕特征点的笔画匹配向量,基于所获不同方向上的字幕特征点的布局特点构建特征聚集度,用于对字幕特征点进行再次评估。计算显示边缘图/>中字幕特征点/>的特征聚集度/>:
式中,是显示边缘图中字幕特征点/>在d方向上的聚集指数,/>分别表示检测窗口W内第j个特征点的横纵坐标,/>表示在显示边缘图/>中d方向上特征点的笔画匹配向量中所有元素的最大值,/>是以自然常数e为底数的指数函数;
是显示边缘图/>中字幕特征点/>在d方向上的特征显著度,/>是所取检测窗口W内特征点的数量;
是显示边缘图/>中字幕特征点/>的特征聚集度,g是检测窗口内所取方向的集合,集合/>,max()函数为取最大值函数。
其中,显示边缘图中字幕特征点/>在d方向上存在其余字幕特征点的可能性越大,目标指数/>的值越大,显著值/>的值越大,聚集指数的值越大;显示边缘图/>中字幕特征点/>在d方向上存在的字幕笔画密度越高,特征显著度/>的值越大,/>的值越大。
至此,得到每帧显示边缘图中每个字幕特征点的特征聚集度,用于后续特征权重的计算。
特征权重计算模块,根据上述步骤得到第i帧图像中的每个字幕特征点的字幕特征点聚集度,重复上述步骤分别获取第i+1帧显示边缘图中每个字幕特征点的特征聚集度,在新闻、宣传片等视频中,为方便观众阅读,滚动字幕的滚动速度通常较慢,将显示边缘图中以字幕特征点/>为中心、大小为/>的窗口为像素点/>的特征窗口记为/>,本发明中m的大小取经验值31,将第i+1帧显示边缘图中同一位置字幕特征点所取的特征窗口记为/>,根据显示边缘图/>中字幕特征点/>的字幕特征点聚集度、笔画匹配向量与第i+1帧显示边缘图中字幕特征点(x,y)的特征窗口/>内各字幕特征点的字幕特征点聚集度、笔画匹配度构建显示边缘图/>中字幕特征点/>与特征窗口/>内各字幕特征点之间的决策距离。
计算显示边缘图中字幕特征点/>与特征窗口/>内第a个字幕特征点之间的决策距离/>:
式中,是字幕特征点/>与第a个字幕特征点之间的决策距离,/>是字幕特征点/>、第a个字幕特征点特征聚集度之间的差值,/>、/>分别是字幕特征点/>、第a个字幕特征点的笔画匹配向量,/>是向量/>、之间的DTW距离,DTW距离为公知技术,具体过程不再赘述。
其中,相邻帧显示边缘图上同一位置处字幕特征点的分布差异越大,第一乘积因子的值越大,相邻帧之间字幕滚动的越快,同一位置的笔画特征变化越大,第二乘积因子/>的值越大,决策距离/>的值越大。
分别获取显示边缘图中字幕特征点/>与特征窗口/>内每个字幕特征点之间的决策距离,将特征窗口/>内决策距离最小值对应的字幕特征点作为显示边缘图/>中字幕特征点/>的匹配特征点。进一步的,基于显示边缘图/>中字幕特征点/>的匹配特征点设置显示边缘图/>中字幕特征点/>的特征权重。
式中,为显示边缘图/>中字幕特征点/>的权重,Norm()为归一化函数,表示显示边缘图/>中字幕特征点/>的笔画匹配向量与其匹配特征点的笔画匹配向量之间的DTW距离,/>表示显示边缘图/>中字幕特征点/>的特征聚集度与其匹配特征点的特征聚集度之间的差值;
是第i+1帧显示边缘图中字幕特征点/>的特征权重。
显示边缘图中字幕特征点/>的笔画匹配向量与其匹配特征点的笔画匹配向量之间的差异越大,/>的值越大,显示边缘图/>中字幕特征点/>的特征聚集度与其匹配特征点的特征聚集度之间的差异越大,/>越大,则显示边缘图/>中像素点/>与其匹配点的匹配程度越低,表明在显示边缘图/>中出现过的字幕特征点/>在第i+1帧显示边缘图中越可能没有出现,即字幕特征点/>可能为上一句固定字幕的结束,且固定字幕即将发生变化,从上一句转换为下一句,此时为避免出现字幕残缺问题,在对两帧显示边缘图通过双线性插值法得到中间帧时,显示边缘图/>中字幕特征点/>的权重应当较小,第i+1帧显示边缘图中字幕特征点/>的权重应当较大。
至此,得到相邻两帧显示边缘图中同一位置字幕特征点的特征权重,用于后续插帧图像的构建。
广播视频插帧模块,通过上述步骤所得相邻两帧显示边缘图中各字幕特征点的特征权重,进一步的,本发明中使用加权的双线性插值法计算中间插帧图像中各字幕特征点的灰度值,其计算公式如下:
式中,表示第i帧显示边缘图与第i+1帧显示边缘图之间插帧图像上字幕特征点/>的插帧灰度值,/>表示第i帧显示边缘图中字幕特征点/>)的权重,表示第i+1帧显示边缘图中字幕特征点/>的灰度值。
遍历第i帧显示边缘图中字幕特征点,利用每个字幕特征点的插帧灰度值按照位置信息构建的边缘图作为第i帧与第i+1帧显示边缘图的特征灰度图。
对于第i帧广播灰度图中的非字幕特征点,则使用传统的LK光流插帧算法计算中间帧的灰度值,LK光流插帧算法的输入为视频的第i帧广播灰度图与第i+1帧广播灰度图,算法的输出为第i帧与第i+1帧广播灰度图之间的插帧图像,记为非特征灰度图。将相邻两帧显示边缘图之间的特征灰度图与非特征灰度图线性融合的结果作为相邻两帧广播灰度图之间的广播插帧图像。为使插帧后的图像与其前后帧广播灰度图过度更平滑,本发明对广播插帧图像使用形态学的腐蚀、膨胀操作进行处理,形态学的腐蚀、膨胀操作为公知技术,具体过程本发明不再赘述。
进一步的,获取待播放视频中任意相邻两帧广播灰度图之间的广播插帧图像,利用广播插帧图像对数字乡村多媒体显示屏中待播放视频进行插帧处理,得到帧率较高、文字清晰的插帧视频。
其次将插帧视频上传至广播系统中的内容管理系统中进行存储,管理员根据内容管理系统中存储插帧视频的种类和时长进行组织、分类、标记和排程,决定何时播放哪些内容,以及播放的顺序和频率,高质量的满足乡村居民的信息需求,促进乡村发展和文化交流。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种数字乡村多媒体显示屏广播系统,其特征在于,该系统包括以下模块:
视频数据采集模块,获取多媒体显示屏上的待播放视频;
字幕特征点提取模块,利用边缘检测算法获取待播放视频中每帧广播灰度图对应的显示边缘图,利用特征点匹配算法获取显示边缘图中每个特征点的笔画匹配向量;将存在元素大于预设阈值的笔画匹配向量对应的特征点作为字幕特征点;
特征聚集度计算模块,根据每个字幕特征点所取检测窗口内不同方向上特征点的笔画匹配向量中元素的显著程度获取每个字幕特征点的特征聚集度;
特征权重计算模块,根据当前帧中字幕特征点与当前帧下一帧中同一位置字幕特征点的笔画匹配向量以及特征点聚集度获取当前帧中字幕特征点的匹配特征点;根据当前帧中字幕特征点及其匹配特征点获取当前帧以及当前帧下一帧中字幕特征点的特征权重;
广播视频插帧模块,根据相邻两帧显示边缘图中的特征权重获取相邻两帧显示边缘图之间的特征灰度图;根据相邻两帧显示边缘图之间的特征灰度图获取相邻两帧之间的广播插帧图像;将所有广播插帧图像按照时间顺序插入待播放视频后传输到多媒体显示屏;
所述利用特征点匹配算法获取显示边缘图中每个特征点的笔画匹配向量的方法为:
利用Canny边缘检测技术分别提取永字八法,即点、横、竖、撇、捺、折、提、钩的边缘图像,将永字八法的边缘图像以及每帧显示边缘图作为尺度不变特征变换SIFT特征点匹配算法的输入,利用SIFT算法获取显示边缘图上每个特征点固定维度的特征向量,其次分别计算显示边缘图上每个特征点固定维度的特征向量与永字八法中每个笔画的边缘图像中每个特征点固定维度的特征向量之间的皮尔逊相关系数;
基于获取特征向量之间的皮尔逊相关系数构建每帧显示边界图中每个特征点的笔画匹配向量,将显示边缘图中位置坐标为/>的特征点的笔画匹配向量记为/>:
其中,分别是显示边缘图/>中位置坐标为/>的特征点对应的特征向量与永字八法的边缘图像中特征点之间皮尔逊相关系数的最大值;
所述根据每个字幕特征点所取检测窗口内不同方向上特征点的笔画匹配向量中元素的显著程度获取每个字幕特征点的特征聚集度的方法为:
根据每个字幕特征点所取检测窗口内不同方向上笔画匹配向量的分布特征获取每个字幕特征点的聚集指数;
将每个字幕特征点的聚集指数在其所取检测窗口内每个方向上所有特征点上的累加作为分子,将所述检测窗口内所有特征点的数量作为分母,将分子与分母的比值作为每个字幕特征点在每个方向上的特征显著度;
将每个字幕特征点所取检测窗口内不同方向上的特征显著度的最大值作为每个字幕特征点的特征聚集度;
所述根据每个字幕特征点所取检测窗口内不同方向上笔画匹配向量的分布特征获取每个字幕特征点的聚集指数的方法为:
将每个字幕特征点所取检测窗口内不同方向上每个特征点的笔画匹配向量中所有元素的最大值作为每个字幕特征点的目标指数,将以自然常数为底数,以所述目标指数为指数的计算结果作为每个字幕特征点的显著值;
将每个字幕特征点的显著值与预设参数之和的倒数作为每个字幕特征点的聚集指数。
2.根据权利要求1所述的一种数字乡村多媒体显示屏广播系统,其特征在于,所述根据当前帧中字幕特征点与当前帧下一帧中同一位置字幕特征点的笔画匹配向量以及特征点聚集度获取当前帧中字幕特征点的匹配特征点的方法为:
获取当前帧下一帧显示边缘图中与当前帧显示边缘图中字幕特征点位于同一位置的字幕特征点对应的特征窗口;
根据每个字幕特征点与所述特征窗口内字幕特征点之间的差异获取每个字幕特征点的决策距离;
将所述特征窗口内决策距离最小值对应的字幕特征点作为当前帧中字幕特征点的匹配特征点。
3.根据权利要求2所述的一种数字乡村多媒体显示屏广播系统,其特征在于,所述根据每个字幕特征点与所述特征窗口内字幕特征点之间的差异获取每个字幕特征点的决策距离的方法为:
将当前帧显示边缘图中字幕特征点与所述特征窗口内每个字幕特征点的特征聚集度之间差值的绝对值作为第一乘积因子;
将当前帧显示边缘图中字幕特征点与所述特征窗口内每个字幕特征点笔画匹配向量之间的度量距离作为第二乘积因子;
字幕特征点的决策距离由第一乘积因子、第二乘积因子两部分组成,其中,所述决策距离与第一乘积因子、第二乘积因子成正比关系。
4.根据权利要求1所述的一种数字乡村多媒体显示屏广播系统,其特征在于,所述根据当前帧中字幕特征点及其匹配特征点获取当前帧以及当前帧下一帧中字幕特征点的特征权重的方法为:
将当前帧显示边缘图中每个字幕特征点与其匹配特征点之间的决策距离的倒数的归一化结果作为当前帧显示边缘图中每个字幕特征点的特征权重;
将预设参数与当前帧显示边缘图中每个字幕特征点的特征权重之间的差值作为所述字幕特征点的匹配特征点的特征权重。
5.根据权利要求1所述的一种数字乡村多媒体显示屏广播系统,其特征在于,所述根据相邻两帧显示边缘图中的特征权重获取相邻两帧显示边缘图之间的特征灰度图的方法为:
根据相邻两帧显示边缘图中的特征权重获取相邻两帧显示边缘图之间插帧图像中特征点的插帧灰度值;
遍历当前帧显示边缘图上所有特征点,将利用所有特征点的插帧灰度值构成的图像作为相邻两帧显示边缘图之间的特征灰度图。
6.根据权利要求5所述的一种数字乡村多媒体显示屏广播系统,其特征在于,所述根据相邻两帧显示边缘图中的特征权重获取相邻两帧显示边缘图之间插帧图像中特征点的插帧灰度值的方法为:
将相邻两帧显示边缘图中的特征权重以及相邻显示边缘图中特征点的灰度值作为双线性插值算法的输入,利用双线性插值算法获取相邻两帧之间插帧图上特征点的插帧灰度值。
7.根据权利要求1所述的一种数字乡村多媒体显示屏广播系统,其特征在于,所述根据相邻两帧显示边缘图之间的特征灰度图获取相邻两帧之间的广播插帧图像的方法为:
利用光流插针算法获取相邻两帧广播灰度图之间插帧图像上非特征点的插帧灰度值,遍历当前帧广播灰度图上所有非特征点,将利用所有非特征点的插帧灰度值构成的图像作为相邻两帧广播灰度图之间的非特征灰度图;
将相邻两帧显示边缘图之间的特征灰度图与所述非特征灰度图线性加权结果作为相邻两帧广播灰度图之间的广播插帧图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311140360.7A CN116886996B (zh) | 2023-09-06 | 2023-09-06 | 一种数字乡村多媒体显示屏广播系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311140360.7A CN116886996B (zh) | 2023-09-06 | 2023-09-06 | 一种数字乡村多媒体显示屏广播系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116886996A CN116886996A (zh) | 2023-10-13 |
CN116886996B true CN116886996B (zh) | 2023-12-01 |
Family
ID=88271850
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311140360.7A Active CN116886996B (zh) | 2023-09-06 | 2023-09-06 | 一种数字乡村多媒体显示屏广播系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116886996B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000194845A (ja) * | 1998-12-25 | 2000-07-14 | Canon Inc | 画像処理装置及びその方法、及び画像処理システム |
US6275612B1 (en) * | 1997-06-09 | 2001-08-14 | International Business Machines Corporation | Character data input apparatus and method thereof |
CN101216948A (zh) * | 2008-01-14 | 2008-07-09 | 浙江大学 | 基于视频提取和重用的卡通动画制作方法 |
JP2011130133A (ja) * | 2009-12-16 | 2011-06-30 | Canon Inc | 立体映像処理装置及び立体映像処理装置の制御方法 |
JP2011135288A (ja) * | 2009-12-24 | 2011-07-07 | Canon Inc | 映像処理装置及び方法 |
CN103248797A (zh) * | 2013-05-30 | 2013-08-14 | 北京志光伯元科技有限公司 | 一种基于fpga的视频分辨率增强方法及模块 |
KR20140134906A (ko) * | 2013-05-15 | 2014-11-25 | 주식회사 칩스앤미디어 | 정지자막 영역의 움직임 보상 프레임 보간 장치 및 그 방법 |
CN111539427A (zh) * | 2020-04-29 | 2020-08-14 | 武汉译满天下科技有限公司 | 一种视频字幕的提取方法及系统 |
CN112184779A (zh) * | 2020-09-17 | 2021-01-05 | 无锡安科迪智能技术有限公司 | 插帧图像处理方法及装置 |
CN114007135A (zh) * | 2021-10-29 | 2022-02-01 | 广州华多网络科技有限公司 | 视频插帧方法及其装置、设备、介质、产品 |
WO2022037251A1 (zh) * | 2020-08-21 | 2022-02-24 | Oppo广东移动通信有限公司 | 视频数据处理方法及装置 |
CN115334335A (zh) * | 2022-07-13 | 2022-11-11 | 北京优酷科技有限公司 | 视频插帧方法及装置 |
CN116170650A (zh) * | 2022-12-21 | 2023-05-26 | 上海哔哩哔哩科技有限公司 | 视频插帧方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4412323B2 (ja) * | 2006-12-28 | 2010-02-10 | 株式会社日立製作所 | 映像処理装置及び映像表示装置 |
US9807339B2 (en) * | 2015-06-12 | 2017-10-31 | Sharp Laboratories Of America, Inc. | Frame rate conversion system |
-
2023
- 2023-09-06 CN CN202311140360.7A patent/CN116886996B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6275612B1 (en) * | 1997-06-09 | 2001-08-14 | International Business Machines Corporation | Character data input apparatus and method thereof |
JP2000194845A (ja) * | 1998-12-25 | 2000-07-14 | Canon Inc | 画像処理装置及びその方法、及び画像処理システム |
CN101216948A (zh) * | 2008-01-14 | 2008-07-09 | 浙江大学 | 基于视频提取和重用的卡通动画制作方法 |
JP2011130133A (ja) * | 2009-12-16 | 2011-06-30 | Canon Inc | 立体映像処理装置及び立体映像処理装置の制御方法 |
JP2011135288A (ja) * | 2009-12-24 | 2011-07-07 | Canon Inc | 映像処理装置及び方法 |
KR20140134906A (ko) * | 2013-05-15 | 2014-11-25 | 주식회사 칩스앤미디어 | 정지자막 영역의 움직임 보상 프레임 보간 장치 및 그 방법 |
CN103248797A (zh) * | 2013-05-30 | 2013-08-14 | 北京志光伯元科技有限公司 | 一种基于fpga的视频分辨率增强方法及模块 |
CN111539427A (zh) * | 2020-04-29 | 2020-08-14 | 武汉译满天下科技有限公司 | 一种视频字幕的提取方法及系统 |
WO2022037251A1 (zh) * | 2020-08-21 | 2022-02-24 | Oppo广东移动通信有限公司 | 视频数据处理方法及装置 |
CN112184779A (zh) * | 2020-09-17 | 2021-01-05 | 无锡安科迪智能技术有限公司 | 插帧图像处理方法及装置 |
CN114007135A (zh) * | 2021-10-29 | 2022-02-01 | 广州华多网络科技有限公司 | 视频插帧方法及其装置、设备、介质、产品 |
CN115334335A (zh) * | 2022-07-13 | 2022-11-11 | 北京优酷科技有限公司 | 视频插帧方法及装置 |
CN116170650A (zh) * | 2022-12-21 | 2023-05-26 | 上海哔哩哔哩科技有限公司 | 视频插帧方法及装置 |
Non-Patent Citations (4)
Title |
---|
A Shot Boundary Detection Method Based on Color Space;Feng Hong-cai;《2010 International Conference on E-Business and E-Government》;全文 * |
Feng Hong-cai.A Shot Boundary Detection Method Based on Color Space.《2010 International Conference on E-Business and E-Government》.2010,全文. * |
基于颜色分析的新闻视频字幕区提取方法研究;李琼;;安徽电子信息职业技术学院学报(03);全文 * |
新闻视频字幕的自动提取和识别;王刚;《 中国优秀硕士论文电子期刊网》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116886996A (zh) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112153483B (zh) | 信息植入区域的检测方法、装置及电子设备 | |
US10242265B2 (en) | Actor/person centric auto thumbnail | |
US11475666B2 (en) | Method of obtaining mask frame data, computing device, and readable storage medium | |
US6937766B1 (en) | Method of indexing and searching images of text in video | |
KR100746641B1 (ko) | 동영상 이미지 코드와 동영상 이미지 코드 생성/디코딩장치 및 그 방법 | |
US11871086B2 (en) | Method of displaying comment information, computing device, and readable storage medium | |
EP2034426A1 (en) | Moving image analyzing, method and system | |
CN112954450B (zh) | 视频处理方法、装置、电子设备和存储介质 | |
US20060238653A1 (en) | Image processing apparatus, image processing method, and computer program | |
US20070291134A1 (en) | Image editing method and apparatus | |
US10319095B2 (en) | Method, an apparatus and a computer program product for video object segmentation | |
CN105657514A (zh) | 一种在移动设备浏览器中视频播放关键信息的方法及装置 | |
CN103631786A (zh) | 一种视频文件的聚类方法和装置 | |
Jin et al. | Network video summarization based on key frame extraction via superpixel segmentation | |
CN111401368B (zh) | 一种基于深度学习的新闻视频标题提取方法 | |
CN112488072A (zh) | 一种人脸样本集获取方法、系统及设备 | |
CN112101344A (zh) | 一种视频文本跟踪方法及装置 | |
US9471990B1 (en) | Systems and methods for detection of burnt-in text in a video | |
CN116886996B (zh) | 一种数字乡村多媒体显示屏广播系统 | |
CN112995666B (zh) | 一种结合场景切换检测的视频横竖屏转换方法及装置 | |
Zhao et al. | Automatic generation of informative video thumbnail | |
CN112015936B (zh) | 用于生成物品展示图的方法、装置、电子设备和介质 | |
CN114387440A (zh) | 一种视频裁剪方法、装置及存储介质 | |
CN110414471B (zh) | 基于双模型的视频识别方法及系统 | |
CN112019923B (zh) | 视频剪切处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |