CN118381980B - 基于语义分割的智能视频编辑与摘要生成方法及设备 - Google Patents
基于语义分割的智能视频编辑与摘要生成方法及设备 Download PDFInfo
- Publication number
- CN118381980B CN118381980B CN202410807809.9A CN202410807809A CN118381980B CN 118381980 B CN118381980 B CN 118381980B CN 202410807809 A CN202410807809 A CN 202410807809A CN 118381980 B CN118381980 B CN 118381980B
- Authority
- CN
- China
- Prior art keywords
- video
- semantic
- information
- frequency control
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 230000011218 segmentation Effects 0.000 title claims abstract description 21
- 239000013598 vector Substances 0.000 claims abstract description 124
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000009826 distribution Methods 0.000 claims description 27
- 239000012634 fragment Substances 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 18
- 238000001514 detection method Methods 0.000 claims description 17
- 238000013507 mapping Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000013441 quality evaluation Methods 0.000 claims description 7
- 230000000875 corresponding effect Effects 0.000 description 55
- 238000012545 processing Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 17
- 238000004458 analytical method Methods 0.000 description 15
- 238000004422 calculation algorithm Methods 0.000 description 14
- 239000000284 extract Substances 0.000 description 13
- 238000003860 storage Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 7
- 238000010276 construction Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 101100261000 Caenorhabditis elegans top-3 gene Proteins 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000002360 explosive Substances 0.000 description 2
- 235000019580 granularity Nutrition 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000001303 quality assessment method Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
- H04N21/47205—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开一种基于语义分割的智能视频编辑与摘要生成方法及设备,方法通过对多个视频数据进行预处理,获取包括多个关键帧信息的视频数据集;对视频数据集进行连续迭代分解,获取包括多个迭代信号组的视频迭代信号组分集合,计算每个迭代信号组的信息量,以确定视频特征失真度;生成语义主题标签,根据视频特征失真度和语义主题标签确定视频频率控制平稳度指标和视频频率控制失真度指标;根据语义主题标签和关键帧信息完成对语义嵌入模型的训练,获取语义嵌入向量;根据视频频率控制平稳度指标、视频频率控制失真度指标和语义嵌入向量构建视频语义索引结构;在视频语义索引结构中获取视频编辑请求对应的目标摘要片段作为视频摘要进行输出。
Description
技术领域
本申请涉及深度学习技术领域,尤其涉及一种基于语义分割的智能视频编辑与摘要生成方法及设备。
背景技术
随着视频设备的不断普及和网络技术的快速发展,视频已经成为人们获取信息、记录生活、展示自我的重要媒介。然而,随着视频内容的爆炸式增长,如何从海量的视频数据中快速准确地提取关键信息,并生成简明扼要的视频摘要,成为一个亟待解决的问题。传统的视频编辑和摘要生成方式主要依赖于人工操作,不仅耗时耗力,而且很难全面把握视频的语义内容和结构脉络。
近年来,以深度学习为代表的人工智能技术取得了长足的进步,为视频内容的智能化分析和处理带来了新的契机。通过对视频画面进行像素级别的语义分割,深度学习模型能够自动识别出视频中的关键对象、人物和场景,从而对视频内容进行更加精细和全面的理解。基于语义分割的视频分析方法不仅能够提取视频的语义信息,还能够刻画视频内容的时空演化规律,为视频结构化和摘要生成提供重要的依据。
因此,亟需一种智能化的视频编辑与摘要生成方法,能够充分挖掘视频的语义信息,自动提取关键内容,生成简洁明了、结构有序的视频摘要,并支持灵活、高效的视频检索和个性化推荐。
发明内容
本申请实施例提供了一种基于语义分割的智能视频编辑与摘要生成方法及设备,可以充分挖掘视频的语义信息,自动提取关键内容,生成简洁明了、结构有序的视频摘要,并支持灵活、高效的视频检索和个性化推荐。
第一方面,本申请实施例提供了一种基于语义分割的智能视频编辑与摘要生成方法,所述方法包括:
获取多个视频采集设备采集的视频数据,对多个视频数据进行预处理,获取视频数据集,视频数据集包括多个关键帧信息;
对视频数据集进行连续迭代分解,获取视频迭代信号组分集合,视频迭代信号组分集合包括多个迭代信号组,计算每个迭代信号组的信息量,根据多个信息量确定视频数据集对应的视频特征失真度;
获取视频数据集对应的视频影响因子和候选主题标签,根据视频影响因子和候选主题标签生成语义主题标签,根据视频特征失真度和语义主题标签确定视频频率控制平稳度指标和视频频率控制失真度指标;
根据语义主题标签和每个关键帧信息完成对待训练的语义嵌入模型的训练,获取语义嵌入模型输出的视频数据集对应的语义嵌入向量;
根据视频频率控制平稳度指标、视频频率控制失真度指标和语义嵌入向量构建视频语义索引结构;
在接收到视频编辑请求时,在视频语义索引结构中获取视频编辑请求对应的目标摘要片段,将目标摘要片段作为视频编辑请求对应的视频摘要进行输出。
第二方面,本申请还提供一种智能视频编辑与摘要生成装置,包括:
数据获取模块,用于获取多个视频采集设备采集的视频数据,对多个视频数据进行预处理,获取视频数据集,视频数据集包括多个关键帧信息。
失真确定模块,用于对视频数据集进行连续迭代分解,获取视频迭代信号组分集合,视频迭代信号组分集合包括多个迭代信号组,计算每个迭代信号组的信息量,根据多个信息量确定视频数据集对应的视频特征失真度。
标签获取模块,用于获取视频数据集对应的视频影响因子和候选主题标签,根据视频影响因子和候选主题标签生成语义主题标签,根据视频特征失真度和语义主题标签确定视频频率控制平稳度指标和视频频率控制失真度指标。
向量获取模块,用于根据语义主题标签和每个关键帧信息完成对待训练的语义嵌入模型的训练,获取语义嵌入模型输出的视频数据集对应的语义嵌入向量。
索引构建模块,用于根据视频频率控制平稳度指标、视频频率控制失真度指标和语义嵌入向量构建视频语义索引结构。
摘要输出模块,用于在接收到视频编辑请求时,在视频语义索引结构中获取视频编辑请求对应的目标摘要片段,将目标摘要片段作为视频编辑请求对应的视频摘要进行输出。
第三方面,本申请还提供一种计算机设备,包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时实现如第一方面所述的基于语义分割的智能视频编辑与摘要生成方法。
第四方面,本申请还提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的基于语义分割的智能视频编辑与摘要生成方法。
与现有技术相比,本申请至少具备以下有益效果:
1.提高视频编辑和摘要生成的效率和准确性。本发明通过多层次的语义分割和关键帧提取技术,自动识别视频中的关键对象、人物和场景,并提取最具代表性的视频片段,生成简洁明了的视频摘要。同时,通过计算视频迭代信号组分的信息量和视频特征失真度,本发明能够在保证视频语义完整性的同时,控制摘要的信息冗余和失真程度,进一步提高摘要生成的质量和准确性。
2.实现多维度视频语义表示和灵活的视频检索。本发明引入视频语义嵌入模型,通过语义主题标签和关键帧信息的学习,将视频内容映射到低维语义空间,形成紧凑、高鉴别力的向量化表示。基于视频语义嵌入向量,本发明构建多层次的视频语义索引结构,支持用户以文本描述、示例片段等灵活的方式检索视频,快速定位相关镜头和片段,极大地提高了视频数据的可访问性和检索效率。
3.支持全局最优的视频摘要生成和在线调优。本发明通过构建候选摘要片段关系图,引入迭代边裁剪算法,在满足摘要时长、语义连贯性和主题多样性约束的前提下,实现候选摘要片段的全局最优选择和组合,生成内容丰富、结构合理、主题鲜明的视频摘要。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
图1为本申请实施例示出的基于语义分割的智能视频编辑与摘要生成方法的流程示意图;
图2为本申请实施例示出的智能视频编辑与摘要生成装置的结构示意图;
图3为本申请实施例示出的计算机设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当…时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
下面对本申请实施例的技术方案进行介绍。
随着视频设备的不断普及和网络技术的快速发展,视频已经成为人们获取信息、记录生活、展示自我的重要媒介。然而,随着视频内容的爆炸式增长,如何从海量的视频数据中快速准确地提取关键信息,并生成简明扼要的视频摘要,成为一个亟待解决的问题。传统的视频编辑和摘要生成方式主要依赖于人工操作,不仅耗时耗力,而且很难全面把握视频的语义内容和结构脉络。
近年来,以深度学习为代表的人工智能技术取得了长足的进步,为视频内容的智能化分析和处理带来了新的契机。通过对视频画面进行像素级别的语义分割,深度学习模型能够自动识别出视频中的关键对象、人物和场景,从而对视频内容进行更加精细和全面的理解。基于语义分割的视频分析方法不仅能够提取视频的语义信息,还能够刻画视频内容的时空演化规律,为视频结构化和摘要生成提供重要的依据。
同时,用户对视频内容的检索和推荐也提出了更高的要求。传统的基于关键词或标签的视频检索方式,难以准确刻画视频的语义内涵,检索结果的相关性和多样性也有待提高。用户期望能够以更加自然和灵活的方式,快速找到感兴趣的视频内容,并获得个性化的推荐和定制服务。这就要求视频分析和摘要技术不仅要准确理解视频内容,还要能够捕捉用户的搜索意图和偏好特征,实现智能化、个性化的视频检索和推荐。
因此,亟需一种智能化的视频编辑与摘要生成方法,能够充分挖掘视频的语义信息,自动提取关键内容,生成简洁明了、结构有序的视频摘要,并支持灵活、高效的视频检索和个性化推荐。
为解决上述问题,请参照图1,图1为本申请实施例提供的一种基于语义分割的智能视频编辑与摘要生成方法的流程示意图。本申请实施例的基于语义分割的智能视频编辑与摘要生成方法可应用于计算机设备,该计算机设备包括但不限于智能手机、笔记本电脑、平板电脑、桌上型计算机、物理服务器和云服务器等设备。如图1所示,本实施例的基于语义分割的智能视频编辑与摘要生成方法包括步骤S101至步骤S106,详述如下:
步骤S101,获取多个视频采集设备采集的视频数据,对多个视频数据进行预处理,获取视频数据集,视频数据集包括多个关键帧信息。
具体地,视频采集设备是本方案的主要数据来源,如采用摄像头作为视频采集设备。本申请通过采用多个功能不同的摄像头,如摄像头类型包括监控摄像头、网络摄像头、车载摄像头等。本申请需要对视频数据进行关键帧提取,以进一步减少数据量,提高后续处理的效率。关键帧是视频中最能代表视频内容的帧,提取关键帧可以显著减少视频数据量,同时保留视频的主要语义信息。
在一些实施例中,所述对多个所述视频数据进行预处理,获取视频数据集,包括:将每个所述视频数据的格式转换为预设格式;获取转换后的所述视频数据对应的质量评估信息,根据所述质量评估信息在多个所述视频数据中确定目标视频数据;对每个所述目标视频数据进行关键帧提取,获取每个所述目标视频数据对应的所述关键帧信息,多个所述关键帧信息组成所述视频数据集。
不同摄像头可能输出不同格式的视频数据,如AVI、MP4、WMV、MOV等。为了便于后续的处理和分析,本申请需要将这些异构的视频数据转换为统一的预设格式。在本方案中,本申请选择将所有视频转换为MPEG-4格式,这是一种广泛使用的视频编码标准,具有高压缩率、良好兼容性和较高质量等优点。转换过程可以使用FFmpeg等开源视频处理库来实现,例如使用命令
"ffmpeg -i input.avi -c:v libx264 -preset medium -b:v 1000k -c:a aac-b:a 128k output.mp4"
将AVI格式视频转换为MPEG-4格式,其中preset参数指定编码预设为medium(中等质量和编码速度的平衡),b:v参数指定视频比特率为1000k(即1Mbps),b:a参数指定音频比特率为128k。
视频格式转换后,本申请需要对视频数据进行质量评估,以剔除质量较差的视频,在多个所述视频数据中确定目标视频数据,确保后续分析和处理的可靠性和准确性。视频质量评估可以从多个维度进行,如分辨率、帧率、亮度、对比度、锐度、噪点等。在本方案中,本申请主要采用峰值信噪比(PSNR)和结构相似性(SSIM)两个指标来评估视频质量。PSNR衡量视频帧与参考帧之间的差异,即噪声水平,其计算公式为:
;
其中MAX为视频帧像素的最大取值(通常为255),MSE为视频帧与参考帧之间的均方误差。PSNR值越高,视频质量越好。SSIM用于衡量视频帧与参考帧之间的结构相似性,考虑了亮度、对比度和结构等因素,其计算公式为:
;
其中μx和μy分别为两帧图像的均值,σx和σy分别为两帧图像的标准差,σxy为两帧图像的协方差,C1和C2为常数,用于避免分母为零的情况。SSIM的取值范围为[0, 1],越接近1,视频质量越好。在质量评估时,本申请可以设定PSNR和SSIM的阈值,如PSNR小于30dB或SSIM小于0.8的视频帧,本申请认为质量较差,需要剔除或进行进一步处理。
在本方案中,本申请采用基于颜色直方图和运动向量分析的方法来提取关键帧。首先,将视频帧转换为HSV颜色空间,提取H(色调)和S(饱和度)通道,计算每一帧的HS直方图。HSV颜色空间能够更好地反映人眼对颜色的感知,H通道表示颜色的种类,S通道表示颜色的纯度,提取HS直方图可以描述帧的颜色分布特征。然后,计算相邻两帧之间的HS直方图差异,作为帧间内容变化的度量。直方图差异可以使用欧氏距离、χ²距离等度量方式,如果差异大于预设阈值(如0.6),则认为这两帧之间存在显著变化,将前一帧标记为关键帧候选。对于关键帧候选,本申请还需要进一步计算其与前后帧之间的运动向量,以反映视频帧之间的运动和变化。运动向量可以使用Lucas-Kanade光流法等经典算法来计算,如果运动向量幅值大于预设阈值(如10个像素),则将该帧确定为关键帧。为了避免关键帧过于稀疏或过于密集,本申请设置了一个关键帧间隔范围,如每隔50-100帧提取一个关键帧。同时,本申请还需要对提取出的关键帧进行进一步的质量评估和筛选,剔除低质量或冗余的关键帧,得到最终的关键帧集合。例如,对于一个时长为5分钟、帧率为30帧/秒的视频,共有9000帧,如果本申请设定关键帧间隔为75帧,那么可以提取出约120个关键帧,显著减少了数据量。最终,经过视频格式转换、视频质量评估和关键帧提取这三个预处理步骤,本申请可以将原始的视频摄像头数据转换为标准化、高质量、信息浓缩的视频数据集。
步骤S102,对视频数据集进行连续迭代分解,获取视频迭代信号组分集合,视频迭代信号组分集合包括多个迭代信号组,计算每个迭代信号组的信息量,根据多个信息量确定视频数据集对应的视频特征失真度。
具体地,连续迭代分解的基本思想是,将视频数据看作是由不同频率、幅度和相位的信号组分叠加而成的复合信号,通过迭代地对视频数据进行滤波、降采样和升采样等操作,逐步分解出不同尺度和抽象层次的信号组分。这一过程可以用数学公式表示为:
;
其中X(t)表示原始视频信号, 和分别表示第i次迭代分解得到的低频信号组分和高频信号组分,n为迭代分解的次数。
在具体实现时,本申请可以采用小波变换(Wavelet Transform)等经典的信号处理工具来进行视频数据的连续迭代分解。小波变换是一种时频分析工具,它通过对信号进行缩放和平移操作,能够在不同尺度上提取信号的局部特征。与传统的傅立叶变换相比,小波变换在处理非平稳信号和突变信号方面具有独特的优势。将小波变换应用于视频数据分析,本申请可以在时间和空间两个维度上对视频信号进行多尺度分解,提取不同时空粒度的信号组分。
例如,本申请可以使用Haar小波对视频帧进行二维小波分解,将每一帧分解为低频近似子带(LL)、水平高频子带(LH)、垂直高频子带(HL)和对角线高频子带(HH)四个子带,其中LL子带表示原始帧的低频近似,LH、HL和HH子带则表示原始帧在不同方向上的高频细节。通过对LL子带进行递归分解,本申请可以得到更低频的近似子带和更高频的细节子带,形成一个多尺度的小波系数金字塔。对小波系数金字塔中的不同子带和尺度进行分析和处理,本申请可以提取出视频数据在不同时空粒度上的关键信息和特征。
在连续迭代分解的过程中,本申请需要根据视频内容的复杂程度和应用需求,合理设置迭代分解的次数和参数。一般来说,迭代次数越多,分解得到的信号组分就越多,对视频内容的刻画就越精细,但同时也意味着计算复杂度的增加。在实际应用中,本申请可以通过实验和交叉验证等方法来确定最优的迭代次数。例如,对于一个时长为5分钟、分辨率为1920×1080的视频,本申请可以先对关键帧进行2-3次小波分解,然后对低频近似子带进行更多次的递归分解,直到满足预设的重构误差阈值或达到最大迭代次数(如5-6次)。
此外,本申请还可以结合视频的语义结构和内容特点,对不同的视频片段采用不同的迭代分解策略。例如,对于语义信息丰富、细节变化较快的片段,本申请可以增加迭代次数,提取更多的高频细节信息;而对于语义信息稀疏、内容变化缓慢的片段,本申请可以减少迭代次数,仅提取主要的低频趋势信息。这样,本申请就可以在不同的视频片段之间实现自适应的信号分解和特征提取,进一步提高视频语义分析和摘要生成的精度和效率。经过连续迭代分解,本申请最终得到了一个视频迭代信号组分集合,它包含了视频数据在不同时空尺度和语义层次上的多层次表示。
在一些实施例中,所述迭代信号组包括低频近似子带和高频细节子带;所述计算每个所述迭代信号组的信息量,包括:获取每个所述迭代信号组的低频近似子带的第一边缘概率分布信息;获取每个所述迭代信号组的高频近似子带的第二边缘概率分布信息;获取每个所述迭代信号组的所述低频近似子带和所述高频近似子带对应的联合概率分布信息;根据所述第一边缘概率分布信息、第二边缘概率分布信息和联合概率分布信息计算每个所述迭代信号组的信息量。
信息量是一个衡量信号组分复杂度和信息丰富程度的指标,它反映了信号组分在视频数据中所占的比重和所承载的语义信息。在本方案中,本申请采用信息论中的互信息(Mutual Information)来度量视频迭代信号组分的信息量。互信息是一种衡量两个随机变量之间相关性的非负对称度量,它表示了一个随机变量通过观测另一个随机变量而获得的平均信息量,其定义如下:
;
其中,X和Y表示两个离散随机变量,P(x)和P(y)分别表示X和Y的边缘概率分布,P(x,y)表示X和Y的联合概率分布。互信息I(X;Y)的值越大,表示X和Y之间的相关性越强,X通过观测Y所获得的信息量就越多。
在视频迭代信号组分集合中,本申请可以将每个信号组分看作是一个离散随机变量,其取值为该组分在不同视频帧或片段上的系数值。为了计算信号组分之间的互信息,本申请需要首先估计它们的边缘概率分布和联合概率分布。
具体而言,对于第i次迭代分解得到的低频近似子带LLi和高频细节子带LHi、HLi、HHi,本申请可以采用类似于计算信息熵的方法,对其系数值进行归一化和量化处理。例如,本申请可以将LLi子带的系数值范围划分为k个区间,统计每个区间内的系数值个数,并除以总的系数个数,得到LLi子带的边缘概率分布估计:
;
其中,nj表示第j个区间内的系数值个数,m表示LLi子带的总系数个数。类似地,本申请可以估计LHi、HLi、HHi子带的边缘概率分布:
;
;
;
接下来,本申请需要估计不同子带之间的联合概率分布。以LLi和LHi子带为例,本申请可以统计LLi和LHi子带在不同量化区间上的系数值对(j, k)出现的频次,并除以总的系数对数,得到它们的联合概率分布估计:
;
其中,njk表示LLi子带的系数值落在第j个区间、LHi子带的系数值落在第k个区间的频次,m表示LLi和LHi子带的总系数对数。利用上述边缘概率分布和联合概率分布的估计值,本申请可以计算LLi和LHi子带之间的互信息:
;
以上公式表示了LLi子带通过观测LHi子带所获得的平均信息量,反映了这两个子带之间的相关性和信息冗余度。I(LLi; LHi)的值越大,说明LLi和LHi子带之间的相关性越强,它们所包含的信息量就越大。
类似地,本申请可以计算LLi子带与HLi、HHi子带之间的互信息I(LLi; HLi)和I(LLi; HHi),以及LHi、HLi、HHi子带之间的互信息I(LHi; HLi)、I(LHi; HHi)、I(HLi;HHi)。这些互信息值刻画了不同尺度和方向上的子带之间的相关性和信息冗余度,为后续的视频语义分析和摘要生成提供了重要的参考。
通过计算视频迭代信号组分集合中各个组分的互信息,本申请可以定量评估不同组分之间的相关性和信息冗余度,深入理解视频数据的内在结构和信息分布模式。
示例性的,所述根据多个所述信息量确定所述视频数据集对应的视频特征失真度,包括:计算所述低频近似子带和所述视频数据集的第一均方根误差;计算所述高频近似子带和所述视频数据集的第二均方根误差;根据所述信息量、所述第一均方根误差和所述第二均方根误差确定所述视频数据集对应的视频特征失真度。
视频特征失真度衡量了视频数据在压缩、传输、存储等过程中引入的信息损失程度,它反映了视频质量的下降和关键特征的丢失情况。通过评估视频特征失真度,本申请可以判断视频处理的性能和效果,并指导相应的优化和改进措施。
为了确定视频特征失真度,本申请需要综合考虑视频迭代信号组分的信息量分布和视频质量评估指标。具体而言,本申请可以采用加权平均的方法,将不同组分的信息量与其对应的失真度加权求和,得到整个视频的特征失真度。
首先,对于第i次迭代分解得到的低频近似子带LLi和高频细节子带LHi、HLi、HHi,本申请分别计算它们的失真度。这里,本申请可以采用均方误差(Mean Squared Error,MSE)作为失真度的度量,它表示原始视频信号与经过处理后的视频信号之间的差异程度。MSE的计算公式如下:
;
其中,n表示视频信号的总样本数, 和分别表示原始视频信号和处理后视频信号的第i个样本值。MSE值越大,表示视频信号的失真度越高,质量下降越严重。
对于LLi子带,本申请可以将其与原始视频信号进行比较,计算MSE值:
;
其中, 表示LLi子带的第i个系数值。
类似地,对于LHi、HLi、HHi子带,本申请可以分别计算它们与原始视频信号的MSE值:
;
;
;
、和分别表示LHi、HLi、HHi子带的第i个系数值。得到各个子带的MSE值后,本申请可以将它们与对应的信息量进行加权平均,得到第i次迭代分解的总失真度:
;
其中,I(LLi)、I(LHi)、I(HLi)、I(HHi)分别表示LLi、LHi、HLi、HHi子带的信息量,表示第i次迭代分解的总失真度。这个加权平均的过程考虑了不同子带的信息量和失真度,使得信息量大、失真度高的子带在总失真度中占据更大的权重,反之则占据较小的权重。
最后,本申请可以将所有迭代分解的总失真度累加,得到整个视频的特征失真度:
;
其中,m表示迭代分解的总次数,D表示视频的特征失真度。D值越大,说明视频在处理过程中引入的信息损失越严重,质量下降越明显;D值越小,说明视频保留了更多的关键特征和细节信息,质量损失较小。
在实际应用中,本申请可以设定一个失真度阈值,将视频特征失真度D与进行比较,以判断视频处理的性能和效果。例如,当D小于等于时,本申请认为视频处理的结果是可接受的,关键特征和语义信息得到了较好的保留;当D大于时,本申请认为视频处理引入了较大的信息损失,需要进一步优化和改进处理算法。
通过调整迭代分解次数、量化区间、信息量计算方法等参数,本申请可以在不同的视频处理任务和应用场景中,灵活控制视频特征失真度的计算和评估过程。例如,在视频压缩和传输中,本申请可以适当增大的取值,以在保证视频质量的同时,尽可能降低数据率和传输开销;在视频语义分析和摘要生成中,本申请可以适当减小的取值,以确保关键特征和语义信息的完整性,提高分析和生成的准确性。
步骤S103,获取视频数据集对应的视频影响因子和候选主题标签,根据视频影响因子和候选主题标签生成语义主题标签,根据视频特征失真度和语义主题标签确定视频频率控制平稳度指标和视频频率控制失真度指标。
具体地,获取上述步骤所得到的预处理后的视频数据集对应的视频影响因子,通过对视频关键帧进行目标检测和场景识别,生成候选主题标签,结合视频影响因子和候选主题标签,生成视频的语义主题标签。通过上述步骤确定的视频特征失真度和上述步骤生成的视频语义主题标签,确定视频频率控制序列,进而根据所述视频频率控制序列确定视频频率控制平稳度指标和视频频率控制失真度指标。
在一些实施例中,所述视频影响因子包括多个影响因子参数;所述获取所述视频数据集对应的视频影响因子和候选主题标签,根据所述视频影响因子和所述候选主题标签生成语义主题标签,包括:获取所述视频数据集的多个所述影响因子参数,对多个所述影响因子参数进行归一化,根据归一化后的所述影响因子参数构成所述视频影响因子;对所述视频数据集的每个所述关键帧信息进行目标检测和场景识别,获取所述关键帧信息对应的语义信息;所述语义信息包括物体信息和场景类别;分别生成所述物体信息和所述场景类别对应的候选主题标签;根据多个所述候选主题标签和所述视频影响因子生成所述语义主题标签。
通过将低层次的视频影响因子与高层次的语义信息建立联系,为后续的视频摘要生成和语义检索提供支持。
首先,本申请需要获取上述步骤中得到的预处理后的视频数据集对应的视频影响因子。视频影响因子是一组反映视频内容重要性和影响力的属性,可以包括多个影响因子参数如视频的播放量、点赞数、评论数、分享数等用户交互数据,以及视频的时长、清晰度、拍摄设备等内在属性。这些影响因子从不同角度刻画了视频的受欢迎程度和质量水平,对于理解视频的语义主题和生成准确的标签具有重要作用。
本申请可以从视频数据集的元数据中提取这些影响因子,并对其进行归一化和加权处理。例如,对于第i个视频,本申请可以定义其影响因子向量IF_i为:
IF_i = [v_i, l_i, c_i, s_i, d_i, r_i, ...];
其中,v_i表示视频的播放量,l_i表示点赞数,c_i表示评论数,s_i表示分享数,d_i表示时长,r_i表示清晰度等。为了消除不同影响因子的量纲差异,本申请可以对每个影响因子进行最大-最小值归一化:
IF_i_norm = (IF_i - min(IF)) / (max(IF) - min(IF));
其中,min(IF)和max(IF)分别表示所有视频影响因子的最小值和最大值。归一化后,每个影响因子的取值范围都在[0, 1]之间,便于进行比较和加权。
接下来,本申请对预处理后的视频数据集进行语义分析,通过目标检测和场景识别等技术,提取视频关键帧中的语义信息。目标检测旨在识别出视频画面中出现的重要物体和人物,如人脸、车辆、动物等。场景识别则旨在判断视频画面所属的场景类别,如室内、室外、城市、乡村等。这些语义信息可以帮助本申请理解视频的内容主题和上下文环境。
对于目标检测,本申请可以采用基于深度学习的方法,如卷积神经网络(CNN)、区域建议网络(RPN)等,将视频关键帧输入到预训练的检测模型中,识别出其中的目标区域和类别。例如,使用YOLO (You Only Look Once)算法,本申请可以获得关键帧中目标的边界框坐标和类别标签:
[x1, y1, x2, y2, class_id, confidence];
其中,(x1, y1)和(x2, y2)表示目标边界框的左上角和右下角坐标,class_id表示目标的类别编号,confidence表示检测结果的置信度。本申请可以设定置信度阈值,过滤掉可能性较低的检测结果,并统计不同类别目标出现的频次和持续时间,生成候选主题标签。
对于场景识别,本申请可以采用基于图像分类的方法,如CNN、ResNet等,将视频关键帧输入到预训练的分类模型中,判断其所属的场景类别。例如,使用Places365数据集训练的ResNet50模型,本申请可以获得关键帧的场景类别和置信度:
[scene_id, confidence];
其中,scene_id表示场景的类别编号,confidence表示分类结果的置信度。本申请可以统计视频中不同场景类别的出现频次和持续时间,生成候选主题标签。
在得到目标检测和场景识别的结果后,本申请需要结合视频影响因子和候选主题标签,生成最终的视频语义主题标签。这一过程可以看作是一种多模态信息融合,需要综合考虑视觉内容、用户交互数据和视频属性等因素。
一种简单的融合方法是加权平均,即对不同来源的候选主题标签赋予不同的权重,然后进行线性组合。例如,本申请可以定义目标检测、场景识别和影响因子的权重分别为w_o、w_s和w_i,则第i个视频的语义主题标签可以表示为:
L_i = w_o * L_oi + w_s * L_si + w_i * L_ii;
其中,L_oi、L_si和L_ii分别表示目标检测、场景识别和影响因子得到的候选主题标签向量。这些标签向量可以是one-hot编码或词嵌入表示,反映了不同主题或语义概念的相关程度。权重w_o、w_s和w_i可以通过交叉验证或专家知识来确定,以平衡不同信息源的贡献。
下面是一个具体的例子,说明如何生成视频的语义主题标签。假设本申请有一个关于"足球比赛"的视频,其影响因子向量经过归一化后为:
IF_norm = [0.8, 0.6, 0.7, 0.5, 0.9, 0.8, ...];
通过目标检测,本申请在视频关键帧中识别出了"足球"、"运动员"、"球场"等对象,生成的候选主题标签向量为:
L_o = [0.9, 0.8, 0.7, 0.2, 0.1, ...];
通过场景识别,本申请判断视频主要发生在"体育场"、"草地"等场景,生成的候选主题标签向量为:
L_s = [0.8, 0.6, 0.3, 0.1, 0.2, ...];
根据影响因子,本申请发现该视频的播放量、点赞数和分享数都较高,说明其内容受到了用户的欢迎和关注,生成的候选主题标签向量为:
L_i = [0.7, 0.5, 0.4, 0.2, 0.1, ...];
假设本申请设定目标检测、场景识别和影响因子的权重分别为0.4、0.3和0.3,则最终生成的视频语义主题标签为:
L = 0.4 * L_o + 0.3 * L_s + 0.3 * L_i= 0.4 * [0.9, 0.8, 0.7, 0.2,0.1, ...] + 0.3 * [0.8, 0.6, 0.3, 0.1, 0.2, ...] + 0.3 * [0.7, 0.5, 0.4, 0.2,0.1, ...] = [0.82, 0.68, 0.54, 0.18, 0.13, ...];
从结果可以看出,该视频的语义主题标签中,"足球"、"运动员"、"球场"、"体育场"等概念的相关性得分较高,与视频的实际内容相符合。这些语义主题标签为后续的视频摘要生成和语义检索提供了重要的指导信息。
在一些实施例中,所述根据所述视频特征失真度和所述语义主题标签确定视频频率控制平稳度指标和视频频率控制失真度指标,包括:根据所述视频特征失真度和所述语义主题标签计算每个所述关键帧信息对应的视频片段的视频频率控制因子;根据多个所述视频频率控制因子生成视频频率控制序列;计算所述视频频率控制序列的一阶差分对应的均值和方差,根据所述均值和方差生成所述视频频率控制平稳度指标;获取所述视频频率控制序列的峰值和动态范围,根据所述峰值和动态范围生成所述视频频率控制失真度指标。
在上述步骤中,本申请通过分析视频内容和影响因子,生成了反映视频语义主题的标签。这些语义标签为理解视频的内容和主旨提供了高层次的概念化描述。然而,仅有语义标签还不足以完全刻画视频的动态特性和时间变化模式。在上述步骤中,本申请将结合视频特征失真度和语义主题标签,进一步分析视频在时间维度上的变化规律,并生成相应的视频频率控制序列。
首先,本申请需要根据视频特征失真度和语义主题标签,确定视频频率控制序列。视频特征失真度反映了视频在不同时间段内的信息损失程度,而语义主题标签则刻画了视频内容的语义变化。本申请可以将这两个指标结合起来,生成一个综合的视频频率控制因子。
具体而言,对于第i个视频片段,本申请可以定义其频率控制因子为:
FC_i = α * D_i + β * ΔL_i;
其中,D_i表示该片段的特征失真度,ΔL_i表示该片段与前一片段的语义主题标签差异,α和β为平衡因子,用于调节失真度和语义变化对频率控制的影响。ΔL_i可以通过计算两个片段的语义主题标签向量的欧氏距离或余弦相似度来度量。
得到每个视频片段的频率控制因子后,本申请可以生成视频频率控制序列:
FC = [FC_1, FC_2, ..., FC_n];
其中,n为视频片段的总数。频率控制序列FC反映了视频内容在时间维度上的变化模式,FC_i的值越大,表示第i个片段的内容变化越剧烈,需要更高的频率控制以保证视频质量和语义连贯性。
接下来,本申请根据频率控制序列FC,计算视频频率控制的平稳度指标和失真度指标。平稳度指标衡量了视频内容变化的平缓程度,而失真度指标则衡量了视频内容变化的剧烈程度。这两个指标从不同角度刻画了视频频率控制的效果和质量。
对于平稳度指标,本申请可以采用频率控制序列的一阶差分的均值和方差来度量。一阶差分反映了频率控制因子在相邻片段之间的变化幅度,其均值和方差分别表示了变化的平均水平和波动程度。
具体而言,频率控制序列FC的一阶差分为:
ΔFC = [ΔFC_1, ΔFC_2, ..., ΔFC_n-1];
其中,ΔFC_i = FC_i+1 - FC_i,表示第i个片段和第i+1个片段之间的频率控制因子差异。
一阶差分ΔFC的均值为μ_ΔFC,一阶差分ΔFC的方差为σ_ΔFC^2。均值μ_ΔFC反映了频率控制因子变化的平均水平,方差σ_ΔFC^2反映了频率控制因子变化的波动程度。均值越小,方差越小,说明视频频率控制的平稳度越高,视频内容变化越平缓。
对于失真度指标,本申请可以采用频率控制因子的峰值和动态范围来度量。峰值表示频率控制因子的最大值,反映了视频内容变化的最剧烈程度。动态范围表示频率控制因子的最大值和最小值之差,反映了视频内容变化的幅度范围。
具体而言,频率控制序列FC的峰值为:FC_max = max(FC);频率控制序列FC的动态范围为:FC_range = max(FC) - min(FC);峰值FC_max越大,动态范围FC_range越大,说明视频频率控制的失真度越高,视频内容变化越剧烈。
综合平稳度指标和失真度指标,本申请可以全面评估视频频率控制的效果和质量。理想情况下,本申请希望视频频率控制的平稳度指标较高,失真度指标较低,这意味着视频内容变化平缓,频率控制引入的失真较小。
步骤S104,根据语义主题标签和每个关键帧信息完成对待训练的语义嵌入模型的训练,获取语义嵌入模型输出的视频数据集对应的语义嵌入向量。
具体地,利用上述步骤生成的语义主题标签和上述步骤提取的关键帧信息,训练视频语义嵌入模型,得到视频内容的语义嵌入向量,实现视频内容的低维度、高鉴别力的向量化表示。
在一些实施例中,所述根据所述语义主题标签和每个所述关键帧信息完成对待训练的语义嵌入模型的训练,包括:将所述关键帧信息输入至待训练的所述语义嵌入模型,获取所述语义嵌入模型输出的预测语义嵌入向量;对所述语义主题标签进行编码,获取语义编码向量;计算所述预测语义嵌入向量和所述语义编码向量的交叉熵损失函数;根据所述交叉熵损失函数完成对所述语义嵌入模型的训练。
具体而言,本申请首先需要构建视频语义嵌入模型的训练数据集。训练数据集由两部分组成:视频关键帧和对应的语义主题标签。其中,视频关键帧是在上述步骤中通过关键帧提取算法得到的,它们能够代表视频的主要内容和场景变化。而语义主题标签则是在上述步骤中通过分析视频内容和影响因子生成的,它们以高层次的概念形式刻画了视频的语义主题和属性。
对于每个视频,本申请可以将其关键帧序列表示为:
F = [f_1, f_2, ..., f_m];其中,f_i表示第i个关键帧,m为关键帧的总数。同时,本申请可以将视频的语义主题标签表示为:L = [l_1, l_2, ..., l_n];其中,l_j表示第j个语义主题标签,n为语义主题标签的总数。
利用关键帧序列F和语义主题标签L,本申请可以构建视频语义嵌入模型的训练样本(F, L)。模型的目标是学习一个映射函数f:F->E,将关键帧序列F映射到低维语义嵌入空间E中,使得在E空间中,语义相似的视频具有相近的嵌入向量,而语义不同的视频具有相距较远的嵌入向量。
在实践中,本申请可以采用多种视频语义嵌入模型和训练算法,如基于深度学习的卷积神经网络(CNN)、循环神经网络(RNN)、注意力机制等。这些模型能够有效地学习视频的时空特征和语义信息,并生成紧凑、鲁棒的嵌入向量表示。
以基于CNN的视频语义嵌入模型为例,本申请可以设计如下的网络结构:
1.输入层:接收视频关键帧序列F,每个关键帧为固定大小的图像。
2.卷积层:通过多层卷积和池化操作,提取关键帧的局部特征和语义信息。卷积核的大小和数量可以根据具体任务进行调整。
3.全连接层:将卷积层提取的特征进行展平,并通过多层全连接网络进行特征变换和语义映射。全连接层的神经元数量可以控制嵌入向量的维度。
4.输出层:生成固定维度的视频语义嵌入向量,作为视频内容的向量化表示。
在训练过程中,本申请通过最小化嵌入向量与语义主题标签之间的损失函数,来优化模型参数。常用的损失函数包括交叉熵损失、对比损失、三元组损失等,它们能够度量嵌入向量与语义标签之间的相似性和差异性。
例如,使用交叉熵损失函数,本申请可以将语义主题标签L转化为one-hot编码形式,并将其与模型输出的嵌入向量进行比较:
L_onehot = [0, 0, ..., 1, ..., 0];
其中,在语义主题标签L对应的位置上,值为1,其余位置为0。然后,本申请通过Softmax函数将嵌入向量转化为概率分布形式:P = Softmax(E);其中,E为视频语义嵌入向量,P为Softmax函数输出的概率分布。交叉熵损失函数计算公式为:
;
其中,n为语义主题标签的总数,L_onehot_i和P_i分别表示第i个语义主题标签的one-hot编码值和概率值。通过最小化交叉熵损失,本申请可以使得模型生成的嵌入向量在语义主题标签对应的位置上具有更高的概率值,从而实现嵌入向量与语义标签的对齐和映射。
在模型训练完成后,本申请可以将视频关键帧序列输入到训练好的语义嵌入模型中,得到对应的语义嵌入向量。这些嵌入向量以低维度、高鉴别力的形式表示了视频的语义内容和主题属性,可以用于后续的视频分析、检索、推荐等任务。
步骤S105,根据视频频率控制平稳度指标、视频频率控制失真度指标和语义嵌入向量构建视频语义索引结构。
具体地,根据上述步骤确定的视频频率控制平稳度指标和视频频率控制失真度指标,结合上述步骤得到的视频内容语义嵌入向量,构建多层次的视频语义索引结构,支持根据语义相似度进行快速、准确的视频片段检索和定位。
步骤S106,在接收到视频编辑请求时,在视频语义索引结构中获取视频编辑请求对应的目标摘要片段,将目标摘要片段作为视频编辑请求对应的视频摘要进行输出。
具体地,根据用户的视频编辑请求,在上述步骤构建的视频语义索引结构中检索与请求相关的视频片段,通过语义相似度计算和时序优化,生成以主题为核心的目标摘要片段进行输出。
所述根据所述语义主题标签和每个所述关键帧信息完成对待训练的语义嵌入模型的训练,包括:
将所述关键帧信息输入至待训练的所述语义嵌入模型,获取所述语义嵌入模型输出的预测语义嵌入向量;
对所述语义主题标签进行编码,获取语义编码向量;
计算所述预测语义嵌入向量和所述语义编码向量的交叉熵损失函数;
根据所述交叉熵损失函数完成对所述语义嵌入模型的训练。
在一些实施例中,所述根据所述视频频率控制平稳度指标、视频频率控制失真度指标和所述语义嵌入向量构建视频语义索引结构,包括:对每个所述关键帧信息对应的视频片段的所述语义嵌入向量进行层次化聚类,获取语义簇层次结构,所述语义簇层次结构包括多个语义簇;获取每个所述语义簇对应的簇心向量和位于所述语义簇的所述视频片段;构建所述簇心向量和所述视频片段对应的映射关系;根据所述映射关系和所述语义簇层次结构构建所述视频语义索引结构。
具体而言,本申请采用一种基于层次化聚类和倒排索引的方法来构建视频语义索引。该方法首先对视频片段的语义嵌入向量进行层次化聚类,得到一个树状的语义簇层次结构,然后在每个语义簇内部构建局部的倒排索引,实现自上而下的分层检索和定位。
算法流程如下:
输入:视频片段集合V={v_1, v_2, ..., v_n},其中每个视频片段v_i包含语义嵌入向量E_i、频率控制平稳度指标μ_i和失真度指标max_i;输出:多层次视频语义索引结构I。
1.对视频片段集合V中的所有语义嵌入向量{E_1, E_2, ..., E_n}进行层次化聚类,得到一个树状的语义簇层次结构T。聚类过程可以采用自底向上的凝聚聚类算法,如AGNES(Agglomerative Nesting)算法,将语义相似的视频片段逐步合并,形成一个层次化的嵌套结构。聚类时,可以使用余弦相似度等距离度量方法来评估语义嵌入向量之间的相似性。
2.从树状结构T的根节点开始,递归地对每个语义簇进行处理。对于当前语义簇C_j,执行以下步骤: 2.1 如果C_j是叶子节点,即该簇内部只包含一个视频片段v_i,则直接将v_i添加到当前层的倒排索引I_j中,并记录其频率控制平稳度指标μ_i和失真度指标max_i。 2.2 如果C_j是非叶子节点,则对其子节点(子语义簇)递归执行上述步骤。 2.3 对于C_j内部的所有视频片段{v_1, v_2, ..., v_m},构建局部的倒排索引I_j。具体而言,对每个视频片段v_i,提取其语义嵌入向量E_i,并将其量化为一组离散的语义词{w_1, w_2,..., w_k}。然后,建立语义词到视频片段的倒排映射关系,即I_j(w_l) = {(v_i, μ_i,max_i) | w_l ∈ v_i}。 2.4 对C_j内部的视频片段进行排序和筛选,生成一个代表性的簇心向量E_j。可以选择簇内视频片段的语义嵌入向量的算术平均值或几何中心作为簇心向量。 2.5 将簇心向量E_j作为当前语义簇C_j的索引项,建立簇心到簇内视频片段的映射关系,即:
I(E_j) = {(v_i, μ_i, max_i) | v_i ∈ C_j}。
3.返回多层次视频语义索引结构I,其中包含了树状的语义簇层次结构T和每个语义簇内部的局部倒排索引I_j。
在检索和定位视频片段时,本申请可以利用多层次视频语义索引结构I,采用自顶向下的分层搜索策略:
1.给定一个查询语义向量Q,首先在索引结构I的顶层(根节点)进行搜索。计算Q与顶层索引项(簇心向量)的相似度,选择与Q最相似的若干个语义簇作为候选集。
2.对于每个候选语义簇C_j,递归地在其子树中进行搜索。如果C_j是叶子节点,则直接比较Q与簇内视频片段的相似度,选择最相似的片段作为候选结果。如果C_j是非叶子节点,则继续在其子节点中搜索,直到到达叶子节点。
3.在搜索过程中,可以利用视频片段的频率控制平稳度指标μ_i和失真度指标max_i进行排序和筛选。例如,可以优先选择平稳度指标较高、失真度指标较低的视频片段,以确保检索结果的稳定性和质量。
4.将所有候选视频片段按照与查询语义向量Q的相似度进行排序,选择最相似的Top-N个片段作为最终的检索结果。
5.返回Top-N个视频片段的元数据信息,包括其在原始视频中的起止时间戳、所属语义簇等,实现视频片段的精确定位和语义关联。
下面是一个简单的示例,说明如何利用多层次视频语义索引结构进行视频片段检索:
假设本申请有一个视频数据集V,其中包含100个视频片段{v_1, v_2, ..., v_100}。经过语义嵌入和聚类,本申请得到了一个三层的语义簇层次结构T:
第一层(根节点):C_0 = {v_1, v_2, ..., v_100};
第二层:C_1 = {v_1, v_2, ..., v_50}, C_2 = {v_51, v_52, ..., v_100};
第三层:
C_3 = {v_1, v_2, ..., v_20}, C_4 = {v_21, v_22, ..., v_50}, C_5 = {v_51, v_52, ..., v_80}, C_6 = {v_81, v_82, ..., v_100}。
在每个语义簇内部,本申请构建了局部的倒排索引。例如,对于语义簇C_3,其倒排索引I_3可能如下:
I_3(w_1) = {(v_2, 0.8, 0.1), (v_5, 0.7, 0.2), (v_10, 0.9, 0.05)}; I_3(w_2) = {(v_1, 0.6, 0.3), (v_8, 0.75, 0.15)}...。其中,w_1、w_2等表示语义词,每个语义词对应着一组视频片段及其平稳度指标和失真度指标。
现在,给定一个查询语义向量Q,本申请希望在视频数据集V中找到与Q最相似的Top-3个视频片段。
首先,在索引结构I的顶层(根节点C_0)进行搜索,计算Q与C_0的簇心向量E_0的相似度。假设Q与E_0的相似度较高,则选择C_0的两个子节点C_1和C_2作为候选语义簇。
接下来,在C_1和C_2的子树中递归搜索。假设在C_1的子节点C_3中发现了与Q高度相似的视频片段v_2和v_5,在C_2的子节点C_5中发现了与Q高度相似的视频片段v_55。
根据视频片段的相似度得分和频率控制指标,本申请可以得到一个排序后的候选结果列表:
1.v_2 (相似度: 0.95, 平稳度: 0.8, 失真度: 0.1);
2.v_55 (相似度: 0.90, 平稳度: 0.85, 失真度: 0.08);
3.v_5 (相似度: 0.88, 平稳度: 0.7, 失真度: 0.2);
最后,选择Top-3的视频片段v_2、v_55和v_5作为最终的检索结果,并返回它们的元数据信息,如在原始视频中的起止时间戳等。
示例性的,所述在所述视频语义索引结构中获取所述视频编辑请求对应的目标摘要片段,包括:对所述视频编辑请求进行编码,获取所述视频编辑请求对应的请求文本向量;获取所述请求文本向量与所述视频语义索引结构中多个所述簇心向量的相似度;根据多个所述相似度在多个所述簇心向量中确定至少一个目标簇心向量;根据所述目标簇心向量对应的所述映射关系在所述语义索引结构提取出所述目标簇心向量对应的目标视频片段,将所述目标视频片段作为所述目标摘要片段。
首先,将用户的视频编辑请求表示为一个请求文本向量。给定用户的请求文本Q,利用预训练的BERT模型对其进行编码。具体地,将请求文本Q对应的请求文本向量输入到BERT模型中,经过多层Transformer编码器的计算,得到请求文本的上下文向量表示。然后,取BERT模型最后一层的[CLS]标记对应的向量作为整个请求文本的语义嵌入向量E_Q。
请求文本向量可以表示为一个单词序列{w_1, w_2, ..., w_M},其中M为请求文本的长度。将该单词序列输入到BERT模型中,得到每个单词的上下文向量{h_1, h_2, ...,h_M},其中h_i是一个D维向量,表示第i个单词在请求文本中的上下文语义表示。接下来,取BERT模型最后一层的[CLS]标记对应的向量h_cls作为整个请求文本的语义嵌入向量E_Q,即:
E_Q = h_{cls};其中,E_Q是一个D维向量,表示用户请求文本Q的语义嵌入表示。
然后,在视频语义索引结构中检索。利用用户请求的语义嵌入向量E_Q,在视频语义索引结构I中检索与请求语义相关的视频片段。索引结构I采用树形结构,每个节点表示一个语义簇,叶子节点对应原始的视频片段。
检索过程采用广度优先搜索(BFS)的策略,从根节点开始,逐层遍历索引树的每一层。对于每一层的节点,计算请求向量E_Q与节点的簇心向量E_n之间的余弦相似度:
;
其中,分子表示两个向量的内积,分母表示两个向量的L2范数的乘积。余弦相似度的取值范围为[-1, 1],值越大表示两个向量的方向越接近,语义相似度越高。
在计算语义相似度时,设定一个相似度阈值ξ。对于每一层的节点,选取与请求向量E_Q的相似度大于等于阈值ξ的节点,加入到下一层待搜索的节点队列中。重复这一过程,直到到达叶子节点层。对于叶子节点层的每个节点,如果其与请求向量E_Q的相似度大于等于阈值ξ,则将该节点对应的视频片段作为目标摘要片段加入到候选片段集合S中。最终,得到一个与用户请求语义相关的候选片段集合S,其中的目标摘要片段来自不同的视频和时间段。
再然后,进行语义相似度计算和排序。对候选片段集合S中的每个目标摘要片段s_i,提取其语义嵌入向量E_i。计算E_i与请求向量E_Q之间的余弦相似度Sim(E_Q, E_i)。根据语义相似度得分对候选片段进行降序排序。排序后,候选集合S变为{s_1, s_2, ..., s_N},其中Sim(E_Q, E_1) ≥ Sim(E_Q, E_2) ≥ ... ≥ Sim(E_Q, E_N)。设定候选片段数量上限K,从排序后的候选集合S中选取前K个片段,形成初步的目标摘要片段集合S'。
进一步的,进行时序优化和主题划分。将目标摘要片段集合S'中的片段按照其在原始视频中的时间戳进行升序排序,得到时序片段列表{s'_1, s'_2, ..., s'_K}。计算每对相邻片段(s'i, s'{i+1})之间的语义相似度Sim(E'i, E'{i+1}),其中E'i和E'{i+1}分别表示片段s'i和s'{i+1}的语义嵌入向量。设定一个语义相似度阈值δ。遍历时序片段列表,对于每对相邻片段(s'i, s'{i+1}),如果它们的语义相似度Sim(E'i, E'{i+1})小于阈值δ,则在片段s'i和s'{i+1}之间插入一个主题边界,将它们划分到不同的子主题中。对每个主题段,计算其段落中心向量C_j,即对主题段内所有片段的语义嵌入向量进行平均pooling:
;
其中,T_j表示第j个主题段,|T_j|表示该主题段内片段的数量,E_i表示主题段内第i个片段的语义嵌入向量。对于每个主题段T_j,选取其中与段落中心向量C_j余弦相似度最大的片段作为该主题段的代表性片段s_j。最后,生成候选摘要片段集合将所有主题段的代表性的目标摘要片段{s_1, s_2, ..., s_L}按照其在原始视频中的时间戳顺序进行拼接,形成最终的候选摘要片段集合S'',其中L表示主题段的数量。至此,得到了一个结构化、主题鲜明的候选摘要片段集合S'',其中的片段不仅与用户请求高度相关,而且在时间上连续、在主题上一致。生成过程主要分为两个阶段:候选摘要片段关系图的构建和基于迭代边裁剪的全局最优摘要生成。
在候选摘要片段关系图的构建阶段,本申请将候选摘要片段集合S''表示为一个有向加权图G = (V, E),其中节点集V表示目标摘要片段,边集E表示片段之间的相关性。为了计算任意两个候选摘要片段s_i和s_j之间的边权重w(i, j),需要考虑以下四个因素:
1.语义相似度sim(s_i, s_j):使用目标摘要片段s_i和s_j的语义嵌入向量E_i和E_j计算它们之间的余弦相似度。余弦相似度公式为:
sim(s_i, s_j) = \frac{E_i \cdot E_j}{||E_i|| \cdot ||E_j||}
其中,E_i和E_j分别表示片段s_i和s_j的语义嵌入向量,||·||表示向量的二范数(欧几里得范数)。语义相似度的取值范围为[-1, 1],值越大表示两个片段在语义上越相似。
2.时序相邻性temp(s_i, s_j):使用目标摘要片段s_i和s_j在原始视频中的时间戳差异的倒数来衡量它们在时间上的相邻程度。时序相邻性公式为: temp(s_i, s_j) = \frac{1}{|t_i - t_j|} 其中,t_i和t_j分别表示片段s_i和s_j在原始视频中的起始时间戳。时序相邻性的取值范围为(0, +∞),值越大表示两个片段在时间上越接近。
3.主题相关性theme(s_i, s_j):使用片段s_i和s_j所属主题段落的中心向量C_i和C_j计算它们之间的余弦相似度。主题相关性公式为:
theme(s_i, s_j) = \frac{C_i \cdot C_j}{||C_i|| \cdot ||C_j||}
其中,C_i和C_j分别表示片段s_i和s_j所属主题段落的中心向量。主题相关性的取值范围为[-1, 1],值越大表示两个目标摘要片段在主题上越相关。
4.用户偏好匹配度pref(s_i, s_j):使用片段s_i和s_j与用户偏好向量P计算加权余弦相似度。其中,P表示根据用户历史行为数据学习得到的用户偏好向量。用户偏好匹配度的取值范围为[-1, 1],值越大表示两个片段与用户偏好越匹配。在完成候选摘要片段关系图G的构建后,本申请进入基于迭代边裁剪的全局最优摘要生成阶段。这一阶段的目标是从图G中选择一个节点子集V',使得V'中的节点所对应的候选摘要片段能够组成一个全局最优的视频摘要,同时满足以下三个约束条件:
1.摘要时长约束:V'中所有片段的总时长不超过预设的摘要时长上限L。
2.语义连贯性约束:V'中相邻片段之间的语义相似度大于预设的相似度阈值\beta。
3.主题多样性约束:V'中所包含的主题数量占原始视频主题总数的比例大于预设的主题覆盖率阈值\theta。
为了高效地求解这一全局最优问题,本申请设计了一种基于迭代边裁剪的近似算法。算法的核心思想是在满足约束条件的前提下,迭代地裁剪候选摘要片段关系图G中的边,直到无法再裁剪为止。此时,G的最大连通子图即为全局最优的视频摘要。
算法的具体流程如下:
1.初始化:令G' = G, V' = V, E' = E,其中G'表示迭代过程中的动态关系图,V'表示迭代过程中的动态节点集合,E'表示迭代过程中的动态边集合。
2.边裁剪:对于G'中的每条边e(i, j) ∈ E',计算裁剪该边后V'中所有片段的总时长L(V'),相邻片段之间的最小语义相似度\beta(V'),以及主题覆盖率\theta(V')。如果裁剪边e(i, j)后,L(V') ≤ L, \beta(V') ≥ \beta, \theta(V') ≥ \theta,则将边e(i, j)从E'中移除;否则,保留边e(i, j)。重复上述过程,直到无法再裁剪任何边为止。
3.连通子图提取:在裁剪后的图G'中,提取节点数最大的连通子图,记为G'' =(V'', E''),其中V''即为全局最优视频摘要对应的候选摘要片段集合。
4.摘要生成:将V''中的目标摘要片段按照在原始视频中的时间戳顺序排列,生成最终的视频摘要。
通过迭代边裁剪,该算法能够在保证约束条件满足的前提下,高效地生成全局最优的视频摘要。算法的时间复杂度为O(|E|log|E|),其中|E|为候选摘要片段关系图G的边数。这种基于图优化的方法充分考虑了候选摘要片段之间的多种相关性,并通过迭代边裁剪实现了全局最优解的高效近似,生成的视频摘要内容丰富、结构合理、语义连贯。
为了执行上述方法实施例对应的基于语义分割的智能视频编辑与摘要生成方法,以实现相应的功能和技术效果。参见图2,图2示出了本申请实施例提供的一种智能视频编辑与摘要生成装置200的结构框图。为了便于说明,仅示出了与本实施例相关的部分,本申请实施例提供的智能视频编辑与摘要生成装置200,包括:
数据获取模块201,用于获取多个视频采集设备采集的视频数据,对多个视频数据进行预处理,获取视频数据集,视频数据集包括多个关键帧信息。
失真确定模块202,用于对视频数据集进行连续迭代分解,获取视频迭代信号组分集合,视频迭代信号组分集合包括多个迭代信号组,计算每个迭代信号组的信息量,根据多个信息量确定视频数据集对应的视频特征失真度。
标签获取模块203,用于获取视频数据集对应的视频影响因子和候选主题标签,根据视频影响因子和候选主题标签生成语义主题标签,根据视频特征失真度和语义主题标签确定视频频率控制平稳度指标和视频频率控制失真度指标。
向量获取模块204,用于根据语义主题标签和每个关键帧信息完成对待训练的语义嵌入模型的训练,获取语义嵌入模型输出的视频数据集对应的语义嵌入向量。
索引构建模块205,用于根据视频频率控制平稳度指标、视频频率控制失真度指标和语义嵌入向量构建视频语义索引结构。
摘要输出模块206,用于在接收到视频编辑请求时,在视频语义索引结构中获取视频编辑请求对应的目标摘要片段,将目标摘要片段作为视频编辑请求对应的视频摘要进行输出。
上述的智能视频编辑与摘要生成装置200可实施上述方法实施例的基于语义分割的智能视频编辑与摘要生成方法。上述方法实施例中的可选项也适用于本实施例,这里不再详述。本申请实施例的其余内容可参照上述方法实施例的内容,在本实施例中,不再进行赘述。
图3为本申请一实施例提供的计算机设备的结构示意图。如图3所示,该实施例的计算机设备3包括:至少一个处理器30(图3中仅示出一个)、存储器31以及存储在所述存储器31中并可在所述至少一个处理器30上运行的计算机程序32,所述处理器30执行所述计算机程序32时实现上述任意方法实施例中的步骤。
所述计算机设备3可以是智能手机、平板电脑、桌上型计算机和云端服务器等计算设备。该计算机设备可包括但不仅限于处理器30、存储器31。本领域技术人员可以理解,图3仅仅是计算机设备3的举例,并不构成对计算机设备3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
所称处理器30可以是中央处理单元(Central Processing Unit,CPU),该处理器30还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路 (Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器31在一些实施例中可以是所述计算机设备3的内部存储单元,例如计算机设备3的硬盘或内存。所述存储器31在另一些实施例中也可以是所述计算机设备3的外部存储设备,例如所述计算机设备3上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器31还可以既包括所述计算机设备3的内部存储单元也包括外部存储设备。所述存储器31用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器31还可以用于暂时地存储已经输出或者将要输出的数据。
另外,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任意方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在计算机设备上运行时,使得计算机设备执行时实现上述各个方法实施例中的步骤。
在本申请所提供的几个实施例中,可以理解的是,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意的是,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述的具体实施例,对本申请的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本申请的具体实施例而已,并不用于限定本申请的保护范围。特别指出,对于本领域技术人员来说,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (6)
1.一种基于语义分割的智能视频编辑与摘要生成方法,其特征在于,所述方法包括:
获取多个视频采集设备采集的视频数据,对多个所述视频数据进行预处理,获取视频数据集,所述视频数据集包括多个关键帧信息;
对所述视频数据集进行连续迭代分解,获取视频迭代信号组分集合,所述视频迭代信号组分集合包括多个迭代信号组,计算每个所述迭代信号组的信息量,根据多个所述信息量确定所述视频数据集对应的视频特征失真度;
获取所述视频数据集对应的视频影响因子和候选主题标签,根据所述视频影响因子和所述候选主题标签生成语义主题标签,根据所述视频特征失真度和所述语义主题标签确定视频频率控制平稳度指标和视频频率控制失真度指标;
根据所述语义主题标签和每个所述关键帧信息完成对待训练的语义嵌入模型的训练,获取所述语义嵌入模型输出的所述视频数据集对应的语义嵌入向量;
根据所述视频频率控制平稳度指标、视频频率控制失真度指标和所述语义嵌入向量构建视频语义索引结构;
在接收到视频编辑请求时,在所述视频语义索引结构中获取所述视频编辑请求对应的目标摘要片段,将所述目标摘要片段作为所述视频编辑请求对应的视频摘要进行输出;
所述迭代信号组包括低频近似子带和高频细节子带;所述计算每个所述迭代信号组的信息量,包括:
获取每个所述迭代信号组的低频近似子带的第一边缘概率分布信息;
获取每个所述迭代信号组的高频细节子带的第二边缘概率分布信息;
获取每个所述迭代信号组的所述低频近似子带和所述高频细节子带对应的联合概率分布信息;
根据所述第一边缘概率分布信息、第二边缘概率分布信息和联合概率分布信息计算每个所述迭代信号组的信息量;
所述根据多个所述信息量确定所述视频数据集对应的视频特征失真度,包括:
计算所述低频近似子带和所述视频数据集的第一均方根误差;
计算所述高频细节子带和所述视频数据集的第二均方根误差;
根据所述信息量、所述第一均方根误差和所述第二均方根误差确定所述视频数据集对应的视频特征失真度;
所述根据所述视频特征失真度和所述语义主题标签确定视频频率控制平稳度指标和视频频率控制失真度指标,包括:
根据所述视频特征失真度和所述语义主题标签计算每个所述关键帧信息对应的视频片段的视频频率控制因子;
根据多个所述视频频率控制因子生成视频频率控制序列;
计算所述视频频率控制序列的一阶差分对应的均值和方差,根据所述均值和方差生成所述视频频率控制平稳度指标;
获取所述视频频率控制序列的峰值和动态范围,根据所述峰值和动态范围生成所述视频频率控制失真度指标;
所述根据所述视频频率控制平稳度指标、视频频率控制失真度指标和所述语义嵌入向量构建视频语义索引结构,包括:
对每个所述关键帧信息对应的视频片段的所述语义嵌入向量进行层次化聚类,获取语义簇层次结构,所述语义簇层次结构包括多个语义簇;
获取每个所述语义簇对应的簇心向量和位于所述语义簇的所述视频片段;
构建所述簇心向量和所述视频片段对应的映射关系;
根据所述映射关系和所述语义簇层次结构构建所述视频语义索引结构。
2.根据权利要求1所述的方法,其特征在于,所述对多个所述视频数据进行预处理,获取视频数据集,包括:
将每个所述视频数据的格式转换为预设格式;
获取转换后的所述视频数据对应的质量评估信息,根据所述质量评估信息在多个所述视频数据中确定目标视频数据;
对每个所述目标视频数据进行关键帧提取,获取每个所述目标视频数据对应的所述关键帧信息,多个所述关键帧信息组成所述视频数据集。
3.根据权利要求1所述的方法,其特征在于,所述视频影响因子包括多个影响因子参数;所述获取所述视频数据集对应的视频影响因子和候选主题标签,根据所述视频影响因子和所述候选主题标签生成语义主题标签,包括:
获取所述视频数据集的多个所述影响因子参数,对多个所述影响因子参数进行归一化,根据归一化后的所述影响因子参数构成所述视频影响因子;
对所述视频数据集的每个所述关键帧信息进行目标检测和场景识别,获取所述关键帧信息对应的语义信息;所述语义信息包括物体信息和场景类别;
分别生成所述物体信息和所述场景类别对应的候选主题标签;
根据多个所述候选主题标签和所述视频影响因子生成所述语义主题标签。
4.根据权利要求1所述的方法,其特征在于,所述根据所述语义主题标签和每个所述关键帧信息完成对待训练的语义嵌入模型的训练,包括:
将所述关键帧信息输入至待训练的所述语义嵌入模型,获取所述语义嵌入模型输出的预测语义嵌入向量;
对所述语义主题标签进行编码,获取语义编码向量;
计算所述预测语义嵌入向量和所述语义编码向量的交叉熵损失函数;
根据所述交叉熵损失函数完成对所述语义嵌入模型的训练。
5.根据权利要求1所述的方法,其特征在于,所述在所述视频语义索引结构中获取所述视频编辑请求对应的目标摘要片段,包括:
对所述视频编辑请求进行编码,获取所述视频编辑请求对应的请求文本向量;
获取所述请求文本向量与所述视频语义索引结构中多个所述簇心向量的相似度;
根据多个所述相似度在多个所述簇心向量中确定至少一个目标簇心向量;
根据所述目标簇心向量对应的所述映射关系在所述语义索引结构提取出所述目标簇心向量对应的目标视频片段,将所述目标视频片段作为所述目标摘要片段。
6.一种计算机设备,其特征在于,包括:处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的基于语义分割的智能视频编辑与摘要生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410807809.9A CN118381980B (zh) | 2024-06-21 | 2024-06-21 | 基于语义分割的智能视频编辑与摘要生成方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410807809.9A CN118381980B (zh) | 2024-06-21 | 2024-06-21 | 基于语义分割的智能视频编辑与摘要生成方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118381980A CN118381980A (zh) | 2024-07-23 |
CN118381980B true CN118381980B (zh) | 2024-08-27 |
Family
ID=91902207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410807809.9A Active CN118381980B (zh) | 2024-06-21 | 2024-06-21 | 基于语义分割的智能视频编辑与摘要生成方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118381980B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118518984B (zh) * | 2024-07-24 | 2024-09-27 | 新疆西部明珠工程建设有限公司 | 输配电线路的故障智能定位系统及方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298252A (zh) * | 2019-05-30 | 2019-10-01 | 平安科技(深圳)有限公司 | 会议纪要生成方法、装置、计算机设备及存储介质 |
CN114943921A (zh) * | 2022-05-31 | 2022-08-26 | 西安电子科技大学 | 一种融合多粒度视频语义信息的视频文本描述方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009035764A2 (en) * | 2007-07-16 | 2009-03-19 | Novafora, Inc. | Method and apparatus for video digest generation |
-
2024
- 2024-06-21 CN CN202410807809.9A patent/CN118381980B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298252A (zh) * | 2019-05-30 | 2019-10-01 | 平安科技(深圳)有限公司 | 会议纪要生成方法、装置、计算机设备及存储介质 |
CN114943921A (zh) * | 2022-05-31 | 2022-08-26 | 西安电子科技大学 | 一种融合多粒度视频语义信息的视频文本描述方法 |
Also Published As
Publication number | Publication date |
---|---|
CN118381980A (zh) | 2024-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2628192C2 (ru) | Устройство для семантической классификации и поиска в архивах оцифрованных киноматериалов | |
Patel et al. | Content based video retrieval systems | |
Mehrjardi et al. | A survey on deep learning-based image forgery detection | |
US9087242B2 (en) | Video synthesis using video volumes | |
CN113010703B (zh) | 一种信息推荐方法、装置、电子设备和存储介质 | |
CN110427517B (zh) | 一种基于场景词典树的图搜视频方法,装置及计算机可读存储介质 | |
CN110175249A (zh) | 一种相似图片的检索方法及系统 | |
US10489681B2 (en) | Method of clustering digital images, corresponding system, apparatus and computer program product | |
CN110378911B (zh) | 基于候选区域和邻域分类器的弱监督图像语义分割方法 | |
CN111783712A (zh) | 一种视频处理方法、装置、设备及介质 | |
CN118381980B (zh) | 基于语义分割的智能视频编辑与摘要生成方法及设备 | |
CN105389588B (zh) | 基于多语义码本图像特征表示方法 | |
Gunawardena et al. | Real-time automated video highlight generation with dual-stream hierarchical growing self-organizing maps | |
Kumar et al. | Content based video retrieval using deep learning feature extraction by modified VGG_16 | |
Sowmyayani et al. | Content based video retrieval system using two stream convolutional neural network | |
Kanagaraj et al. | Curvelet transform based feature extraction and selection for multimedia event classification | |
Aakur et al. | Action localization through continual predictive learning | |
EP1008064A1 (en) | Algorithms and system for object-oriented content-based video search | |
Gao et al. | Shot-based video retrieval with optical flow tensor and HMMs | |
Prathiba et al. | Eagle eye CBVR based on unique key frame extraction and deep belief neural network | |
Adamek | Using contour information and segmentation for object registration, modeling and retrieval | |
CN113407780B (zh) | 一种目标检索方法、装置及存储介质 | |
Dhanushree et al. | Static video summarization with multi-objective constrained optimization | |
Zumer et al. | Color-independent classification of animation video | |
Al-Jubouri | Multi Evidence Fusion Scheme for Content-Based Image Retrieval by Clustering Localised Colour and Texture |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |