CN111738173B - 视频片段检测方法、装置、电子设备及存储介质 - Google Patents
视频片段检测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111738173B CN111738173B CN202010592533.9A CN202010592533A CN111738173B CN 111738173 B CN111738173 B CN 111738173B CN 202010592533 A CN202010592533 A CN 202010592533A CN 111738173 B CN111738173 B CN 111738173B
- Authority
- CN
- China
- Prior art keywords
- video
- frame
- target sample
- video segment
- sample video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/71—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供了视频片段检测方法、装置、电子设备及存储介质,通过将侵权视频段的首帧的SIFT特征与目标样本视频段首帧的预设时间范围内的各视频帧的SIFT特征进行比对,对目标样本视频段的首帧位置进行校正;通过将侵权视频段的尾帧的SIFT特征与目标样本视频段尾帧的预设时间范围内的各视频帧的SIFT特征进行比对,对目标样本视频段的尾帧位置进行校正;从而实现了对目标样本视频段位置的校正,因为SIFT特征能够有效适用于不同尺度的图像之间的匹配,能够有效适用于视频帧裁剪和含有黑白边的情况,能够增加侵权判定过程中检测出的视频片段的准确性,增加视频侵权判定的准确度。
Description
技术领域
本申请涉及图像处理技术领域,特别是涉及视频片段检测方法、装置、电子设备及存储介质。
背景技术
随着互联网技术的发展,互联网视频行业迅速崛起,网络中每天都能够生产出海量的视频。与此同时,视频的侵权现象也日趋严重,给版权所有人带来了巨大的损失。因此,需要准确的检测到视频的侵权片段。
随着计算视觉技术的发展,特别是深度学习网络的出现,使得计算机自动进行视频侵权检测成为可能。相关技术中,利用预先训练的深度学习网络,将待检测视频与样本视频转化为深度学习特征,并通过比对二者的特征矩阵,检索出相似的视频片段,并输出这些相似的视频片段,以作为视频侵权判定的证据。然而,在一些场景下,侵权视频会进行裁剪、增加黑边等变换,从而导致检测出的视频片段不准确,影响视频侵权判定的准确度。
发明内容
本申请实施例的目的在于提供一种视频片段检测方法、装置、电子设备及存储介质,以实现在增加侵权判定过程中检测出的视频片段的准确性,从而增加视频侵权判定的准确度。具体技术方案如下:
第一方面,本申请实施例提供了一种视频片段检测方法,所述方法包括:
通过预先训练的深度学习网络提取待检测视频的深度学习特征,利用所述待检测视频的深度学习特征及样本视频的深度学习特征进行视频拷贝检测,确定所述待检测视频中的侵权视频段所侵权的目标样本视频段及目标样本视频,其中,所述目标样本视频段为所述目标样本视频中的视频段;
提取所述侵权视频段中首帧及尾帧的尺度不变特征变换SIFT特征,得到第一SIFT特征及第二SIFT特征;提取所述目标样本视频中时间在所述目标样本视频段首帧的预设时间范围内的各视频帧的SIFT特征,得到多个第三SIFT特征;提取所述目标样本视频中时间在所述目标样本视频段尾帧的预设时间范围内的各视频帧的SIFT特征,得到多个第四SIFT特征;
将所述第一SIFT特征与各所述第三SIFT特征进行比对,将所述第二SIFT特征与各所述第四SIFT特征进行比对,确定边界校正后的目标样本视频段的首帧及尾帧,得到边界校正后的目标样本视频段。
在一种可能的实施方式中,所述将所述第一SIFT特征与各所述第三SIFT特征进行比对,将所述第二SIFT特征与各所述第四SIFT特征进行比对,确定边界校正后的目标样本视频段的首帧及尾帧,得到边界校正后的目标样本视频段,包括:
将所述第一SIFT特征分别与各所述第三SIFT特征进行比对,得到多个第一比对结果;
当相似度最高的第一比对结果大于预设第一相似度阈值时,将所述相似度最高的第一比对结果对应的所述目标样本视频中的视频帧,作为边界校正后的目标样本视频段的首帧;
将所述第二SIFT特征分别与各所述第四SIFT特征进行比对,得到多个第二比对结果;
当相似度最高的第二比对结果大于预设第一相似度阈值时,将所述相似度最高的第二比对结果对应的所述目标样本视频中的视频帧,作为边界校正后的目标样本视频段的尾帧;
根据边界校正后的目标样本视频段的首帧及尾帧,得到边界校正后的目标样本视频段。
在一种可能的实施方式中,在所述将所述第一SIFT特征与各所述第三SIFT特征进行比对,将所述第二SIFT特征与各所述第四SIFT特征进行比对,确定边界校正后的目标样本视频段的首帧及尾帧,得到边界校正后的目标样本视频段之后,所述方法还包括:
以预设时长为单位步长,在所述目标样本视频中,提取边界校正后的目标样本视频段首帧之前的一个单位步长内的各视频帧的SIFT特征,并分别与所述第一SIFT特征进行比对,得到多个第三比对结果;
若各第三比对结果的相似度均不大于预设第二相似度阈值,将当前的目标样本视频段的首帧作为待输出视频段的首帧;
若至少一个第三比对结果的相似度大于预设第二相似度阈值,将一个单位步长内的视频帧的首帧作为边界校正后的目标样本视频段首帧,返回执行上述步骤:以预设时长为单位步长,在所述目标样本视频中,提取边界校正后的目标样本视频段首帧之前的一个单位步长内的各视频帧的SIFT特征,并与所述第一SIFT特征进行比对,得到多个第一比对结果,直至各第一比对结果的相似度均不大于预设相似度阈值,得到待输出视频段的首帧;
以预设时长为单位步长,在所述目标样本视频中,提取边界校正后的目标样本视频段尾帧之后的一个单位步长内的各视频帧的SIFT特征,并分别与所述第二SIFT特征进行比对,得到多个第四比对结果;
若各第四比对结果的相似度均不大于预设第二相似度阈值,将当前的目标样本视频段的尾帧作为待输出视频段的尾帧;
若至少一个第四比对结果的相似度大于预设第二相似度阈值,将所述一个单位步长内的视频帧的尾帧作为边界校正后的目标样本视频段尾帧,返回执行上述步骤:以预设时长为单位步长,在所述目标样本视频中,提取边界校正后的目标样本视频段尾帧之后的一个单位步长内的各视频帧的SIFT特征,并与所述第二SIFT特征进行比对,得到多个第二比对结果,直至各第二比对结果的相似度均不大于预设相似度阈值,得到待输出视频段的尾帧;
根据所述待输出视频段的首帧及所述待输出视频段的尾帧,输出所述待输出视频段,作为所述待检测视频的侵权视频检测结果。
在一种可能的实施方式中,所述通过预先训练的深度学习网络提取待检测视频的深度学习特征,利用所述待检测视频的深度学习特征及样本视频的深度学习特征进行视频拷贝检测,确定所述待检测视频中的侵权视频段所侵权的目标样本视频段及目标样本视频,包括:
通过预先训练的深度学习网络对待检测视频进行特征提取,得到所述待检测视频的二维待检测特征矩阵,其中,所述二维待检测特征矩阵为所述待检测视频中多帧待检测视频帧的特征矩阵的集合;
获取各样本视频的二维样本特征矩阵,将所述二维待检测特征矩阵与各所述二维样本特征矩阵进行匹配,得到所述待检测视频中的侵权视频段所侵权的目标样本视频段及目标样本视频。
在一种可能的实施方式中,所述获取各样本视频的二维样本特征矩阵,将所述二维待检测特征矩阵与各所述二维样本特征矩阵进行匹配,得到所述待检测视频中的侵权视频段所侵权的目标样本视频段及目标样本视频,包括:
通过预先训练的深度学习网络对样本视频进行特征提取,得到所述样本视频的二维样本特征矩阵,其中,所述二维样本特征矩阵为所述样本视频中多帧样本视频帧的特征矩阵的集合;
将所述样本特征矩阵进行聚类,得到多个类及各所述类的聚类中心;
针对每个所述类及每个所述类的聚类中心分别建立倒排索引,得到倒排索引矩阵数据;
针对所述待检测特征矩阵中的各待检测视频帧的特征矩阵,在各所述样本视频的倒排索引矩阵数据中进行检索,分别得到各所述待检测视频帧的相似度最高的K帧样本视频帧;
生成各所述待检测视频帧的相似度最高的K帧样本视频帧的有向无环图,其中,所述有向无环图仅有一个源点和一个汇点,所述有向无环图中样本视频帧的权重为该样本视频帧与其对应的待检测视频帧的相似度;
确定所述有向无环图中的置信度分数最高的路径对应的所述待检测视频中的视频段,作为侵权视频段;确定所述有向无环图中的置信度分数最高的路径对应的样本视频中的视频段,作为目标样本视频段,其中,所述目标样本视频段所属的样本视频为所述目标样本视频,针对任一路径,该路径的置信度分数与该路径上所有样本视频帧权重的和正相关。
第二方面,本申请实施例提供了一种视频片段检测装置,所述装置包括:
视频段确定模块,用于通过预先训练的深度学习网络提取待检测视频的深度学习特征,利用所述待检测视频的深度学习特征及样本视频的深度学习特征进行视频拷贝检测,确定所述待检测视频中的侵权视频段所侵权的目标样本视频段及目标样本视频,其中,所述目标样本视频段为所述目标样本视频中的视频段;
SIFT特征提取模块,用于提取所述侵权视频段中首帧及尾帧的尺度不变特征变换SIFT特征,得到第一SIFT特征及第二SIFT特征;提取所述目标样本视频中时间在所述目标样本视频段首帧的预设时间范围内的各视频帧的SIFT特征,得到多个第三SIFT特征;提取所述目标样本视频中时间在所述目标样本视频段尾帧的预设时间范围内的各视频帧的SIFT特征,得到多个第四SIFT特征;
第一边界校正模块,用于将所述第一SIFT特征与各所述第三SIFT特征进行比对,将所述第二SIFT特征与各所述第四SIFT特征进行比对,确定边界校正后的目标样本视频段的首帧及尾帧,得到边界校正后的目标样本视频段。
在一种可能的实施方式中,所述第一边界校正模块,具体用于:
将所述第一SIFT特征分别与各所述第三SIFT特征进行比对,得到多个第一比对结果;
当相似度最高的第一比对结果大于预设第一相似度阈值时,将所述相似度最高的第一比对结果对应的所述目标样本视频中的视频帧,作为边界校正后的目标样本视频段的首帧;
将所述第二SIFT特征分别与各所述第四SIFT特征进行比对,得到多个第二比对结果;
当相似度最高的第二比对结果大于预设第一相似度阈值时,将所述相似度最高的第二比对结果对应的所述目标样本视频中的视频帧,作为边界校正后的目标样本视频段的尾帧;
根据边界校正后的目标样本视频段的首帧及尾帧,得到边界校正后的目标样本视频段。
在一种可能的实施方式中,所述装置还包括第二边界校正模块,用于:
以预设时长为单位步长,在所述目标样本视频中,提取边界校正后的目标样本视频段首帧之前的一个单位步长内的各视频帧的SIFT特征,并分别与所述第一SIFT特征进行比对,得到多个第三比对结果;
若各第三比对结果的相似度均不大于预设第二相似度阈值,将当前的目标样本视频段的首帧作为待输出视频段的首帧;
若至少一个第三比对结果的相似度大于预设第二相似度阈值,将一个单位步长内的视频帧的首帧作为边界校正后的目标样本视频段首帧,返回执行上述步骤:以预设时长为单位步长,在所述目标样本视频中,提取边界校正后的目标样本视频段首帧之前的一个单位步长内的各视频帧的SIFT特征,并与所述第一SIFT特征进行比对,得到多个第一比对结果,直至各第一比对结果的相似度均不大于预设相似度阈值,得到待输出视频段的首帧;
以预设时长为单位步长,在所述目标样本视频中,提取边界校正后的目标样本视频段尾帧之后的一个单位步长内的各视频帧的SIFT特征,并分别与所述第二SIFT特征进行比对,得到多个第四比对结果;
若各第四比对结果的相似度均不大于预设第二相似度阈值,将当前的目标样本视频段的尾帧作为待输出视频段的尾帧;
若至少一个第四比对结果的相似度大于预设第二相似度阈值,将所述一个单位步长内的视频帧的尾帧作为边界校正后的目标样本视频段尾帧,返回执行上述步骤:以预设时长为单位步长,在所述目标样本视频中,提取边界校正后的目标样本视频段尾帧之后的一个单位步长内的各视频帧的SIFT特征,并与所述第二SIFT特征进行比对,得到多个第二比对结果,直至各第二比对结果的相似度均不大于预设相似度阈值,得到待输出视频段的尾帧;
根据所述待输出视频段的首帧及所述待输出视频段的尾帧,输出所述待输出视频段,作为所述待检测视频的侵权视频检测结果。
在一种可能的实施方式中,所述视频段确定模块,包括:
特征矩阵获取子模块,用于通过预先训练的深度学习网络对待检测视频进行特征提取,得到所述待检测视频的二维待检测特征矩阵,其中,所述二维待检测特征矩阵为所述待检测视频中多帧待检测视频帧的特征矩阵的集合;
视频段确定子模块,用于获取各样本视频的二维样本特征矩阵,将所述二维待检测特征矩阵与各所述二维样本特征矩阵进行匹配,得到所述待检测视频中的侵权视频段所侵权的目标样本视频段及目标样本视频。
在一种可能的实施方式中,所述视频段确定子模块,具体用于:通过预先训练的深度学习网络对样本视频进行特征提取,得到所述样本视频的二维样本特征矩阵,其中,所述二维样本特征矩阵为所述样本视频中多帧样本视频帧的特征矩阵的集合;将所述样本特征矩阵进行聚类,得到多个类及各所述类的聚类中心;针对每个所述类及每个所述类的聚类中心分别建立倒排索引,得到倒排索引矩阵数据;针对所述待检测特征矩阵中的各待检测视频帧的特征矩阵,在各所述样本视频的倒排索引矩阵数据中进行检索,分别得到各所述待检测视频帧的相似度最高的K帧样本视频帧;生成各所述待检测视频帧的相似度最高的K帧样本视频帧的有向无环图,其中,所述有向无环图仅有一个源点和一个汇点所述有向无环图中样本视频帧的权重为该样本视频帧与其对应的待检测视频帧的相似度;确定所述有向无环图中的置信度分数最高的路径对应的所述待检测视频中的视频段,作为侵权视频段;确定所述有向无环图中的置信度分数最高的路径对应的样本视频中的视频段,作为目标样本视频段,其中,所述目标样本视频段所属的样本视频为所述目标样本视频,针对任一路径,该路径的置信度分数与该路径上所有样本视频帧权重的和正相关。
本申请实施例还提供了一种电子设备,包括处理器及存储器;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现上述任一所述的视频片段检测方法。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的视频片段检测方法。
本申请实施例提供的视频片段检测方法、装置、电子设备及存储介质,通过将侵权视频段的首帧的SIFT特征与目标样本视频段首帧的预设时间范围内的各视频帧的SIFT特征进行比对,对目标样本视频段的首帧位置进行校正;通过将侵权视频段的尾帧的SIFT特征与目标样本视频段尾帧的预设时间范围内的各视频帧的SIFT特征进行比对,对目标样本视频段的尾帧位置进行校正;从而实现了对目标样本视频段位置的校正,因为SIFT特征能够有效适用于不同尺度的图像之间的匹配,能够有效适用于视频帧裁剪和含有黑白边的情况,能够提升召回率、减少边界不精确的情况、提升评测指标F1值,从而增加侵权判定过程中检测出的视频片段的准确性,增加视频侵权判定的准确度。当然,实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的视频片段检测方法的第一种示意图;
图2为本申请图1所示的实施例中S101的实施方式的一种示意图;
图3a为本申请图2所示的实施例中S1012的实施方式的第一种示意图;
图3b为本申请图2所示的实施例中S1012的实施方式的第二种示意图;
图4为本申图1所示的实施例中S105的实施方式的一种示意图;
图5为本申请实施例的视频片段检测方法的第二种示意图;
图6为本申请实施例的视频片段检测装置的第一种示意图;
图7为本申请实施例的视频片段检测装置执行流程的一种示意图;
图8为本申请实施例的视频片段检测装置执行流程的二种示意图;
图9为本申请实施例的视频片段检测装置的第二种示意图;
图10为本申请实施例的视频片段检测装置的第三种示意图;
图11为本申请实施例的电子设备的一种示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
相关技术中,在视频侵权检测时,基于深度学习特征的视频片段检测,会受到黑边、裁剪以及对比度变化的影响。总的来说,基于深度学习特征的视频片段检测存在以下几个问题:
1、对于裁剪过多和含有黑白边的视频帧检索效果不好。
2、在衡量相似度时,无法准确区分相邻帧和间隔一段时间的相似帧,导致边界不准确。
有鉴于此,本申请实施例提供了一种视频片段检测方法,该方法包括:
通过预先训练的深度学习网络提取待检测视频的深度学习特征,利用待检测视频的深度学习特征及样本视频的深度学习特征进行视频拷贝检测,确定待检测视频中的侵权视频段所侵权的目标样本视频段及目标样本视频,其中,上述目标样本视频段为上述目标样本视频中的视频段;
提取上述侵权视频段中首帧及尾帧的SIFT(Scale-invariant featuretransform,尺度不变特征变换)特征,得到第一SIFT特征及第二SIFT特征;提取上述目标样本视频中时间在上述目标样本视频段首帧的预设时间范围内的各视频帧的SIFT特征,得到多个第三SIFT特征;提取上述目标样本视频中时间在上述目标样本视频段尾帧的预设时间范围内的各视频帧的SIFT特征,得到多个第四SIFT特征;
将上述第一SIFT特征与各上述第三SIFT特征进行比对,将上述第二SIFT特征与各上述第四SIFT特征进行比对,确定边界校正后的目标样本视频段的首帧及尾帧,得到边界校正后的目标样本视频段。
在本申请实施例中,通过将侵权视频段的首帧的SIFT特征与目标样本视频段首帧的预设时间范围内的各视频帧的SIFT特征进行比对,对目标样本视频段的首帧位置进行校正;通过将侵权视频段的尾帧的SIFT特征与目标样本视频段尾帧的预设时间范围内的各视频帧的SIFT特征进行比对,对目标样本视频段的尾帧位置进行校正;从而实现了对目标样本视频段位置的校正,因为SIFT特征能够有效适用于不同尺度的图像之间的匹配,能够有效适用于视频帧裁剪和含有黑白边的情况,能够提升召回率、减少边界不精确的情况、提升评测指标F1值,从而增加侵权判定过程中检测出的视频片段的准确性,增加视频侵权判定的准确度。
下面进行具体说明,参见图1,图1为本申请实施例的视频片段检测方法的第一种示意图,该方法包括:
S101,通过预先训练的深度学习网络提取待检测视频的深度学习特征,利用待检测视频的深度学习特征及样本视频的深度学习特征进行视频拷贝检测,确定待检测视频中的侵权视频段所侵权的目标样本视频段及目标样本视频,其中,上述目标样本视频段为上述目标样本视频中的视频段。
本申请实施例的视频片段检测方法可以通过电子设备实现,具体的,该电子设备可以为服务器或移动终端等。电子设备的运行环境包括但不限于linux系统、Python(一种跨平台的计算机程序设计语言)2.7、Python3.5、PyTorch(一种机器学习库)1.0、Faiss(一种针对聚类和相似性搜索库)。
预先训练的深度学习网络用于对视频中各视频帧进行深度学习特征的提取,将视频帧的深度学习特征通过特征矩阵的形式进行表示,并通过特征矩阵的比对,确定待检测视频及样本视频中相似的片段。样本视频是指具有版权的、需要验证是否被侵权的视频,待检测视频是指需要验证是否构成侵权的视频。将待检测视频与各样本视频进行比对,从而确定待检测视频与样本视频中相似的视频段,也就是说待检测视频中的某段视频(侵权视频段)与某个样本视频(目标样本视频)中的某段视频(目标样本视频段)相似,可能会构成侵权。
S102,提取上述侵权视频段中首帧及尾帧的SIFT特征,得到第一SIFT特征及第二SIFT特征。
侵权视频段的首帧是指侵权视频段中的第一帧视频帧,侵权视频段的尾帧是指侵权视频段中的最后一帧视频帧。提取侵权视频段中首帧的SIFT特征,作为第一SIFT特征。提取侵权视频段中尾帧的SIFT特征,作为第二SIFT特征。
S103,提取上述目标样本视频中时间在上述目标样本视频段首帧的预设时间范围内的各视频帧的SIFT特征,得到多个第三SIFT特征。
目标样本视频段首帧是指目标样本视频段中的第一帧视频帧。获取目标样本视频段首帧在目标样本视频中的时间戳,作为第一时间戳。在目标样本视频中,确定第一时间戳的预设时间范围的各视频帧,具体可以为在第一时间戳上减去预设时间范围的时间得到第一起始时间,在第一时间戳上增加预设时间范围的时间得到第一结束时间,提取目标样本视频中从第一起始时间到第一结束时间内的各视频帧的SIFT特征,得到多个第三SIFT特征。
预设时间范围可以按照实际情况自定义设置,例如可以设置为3秒、5秒、10秒、15秒或30秒等。例如,目标样本视频段首帧的时间戳为第60秒,预设时间范围为5秒,则需要提取目标样本视频中时间戳在(60-5)秒至(60+5)秒之间的各视频帧的SIFT特征。本领域技术人员可以理解的是,此处的预设时间范围可以等效替换为预设帧数范围,其仍在本申请的保护范围内。
S104,提取上述目标样本视频中时间在上述目标样本视频段尾帧的预设时间范围内的各视频帧的SIFT特征,得到多个第四SIFT特征。
目标样本视频段尾帧是指目标样本视频段中的最后一帧视频帧。获取目标样本视频段尾帧在目标样本视频中的时间戳,作为第二时间戳。在目标样本视频中,确定第二时间戳的预设时间范围的各视频帧,具体可以为在第二时间戳上减去预设时间范围的时间得到第二起始时间,在第二时间戳上增加预设时间范围的时间得到第二结束时间,提取目标样本视频中从第二起始时间到第二结束时间内的各视频帧的SIFT特征,得到多个第四SIFT特征。
例如,目标样本视频段尾帧的时间戳为第360秒,预设时间范围为10秒,则需要提取目标样本视频中时间戳在(360-10)秒至(360+10)秒之间的各视频帧的SIFT特征。本领域技术人员可以理解的是,此处的预设时间范围可以等效替换为预设帧数范围,其仍在本申请的保护范围内。
在本申请实施例中,S102、S103及S104的执行顺序不做限定,三个步骤可以按照任意的顺序执行,也可同时执行,均在本申请的保护范围内。
S105,将上述第一SIFT特征与各上述第三SIFT特征进行比对,将上述第二SIFT特征与各上述第四SIFT特征进行比对,确定边界校正后的目标样本视频段的首帧及尾帧,得到边界校正后的目标样本视频段。
将第一SIFT特征分别与各第三SIFT特征进行比对,选取相似度最高的比对结果对应的视频帧,作为边界校正后的目标样本视频段的首帧。将第二SIFT特征分别与各第四SIFT特征进行比对,选取相似度最高的比对结果对应的视频帧,作为边界校正后的目标样本视频段的尾帧。根据边界校正后的目标样本视频段的首帧及尾帧,可以得边界校正后的目标样本视频段。
在本申请实施例中,利用SIFT特征对目标样本视频段的边界进行校正,因为SIFT特征能够有效适用于不同尺度的图像之间的匹配,所以能够有效适用于视频帧裁剪和含有黑白边的情况,能够提升召回率、减少边界不精确的情况、提升评测指标F1值,从而增加侵权判定过程中检测出的视频片段的准确性,增加视频侵权判定的准确度。
在一种可能的实施方式中,参见图2,上述通过预先训练的深度学习网络提取待检测视频的深度学习特征,利用待检测视频的深度学习特征及样本视频的深度学习特征进行视频拷贝检测,确定待检测视频中的侵权视频段所侵权的目标样本视频段及目标样本视频,包括:
S1011,通过预先训练的深度学习网络对待检测视频进行特征提取,得到上述待检测视频的二维待检测特征矩阵,其中,上述二维待检测特征矩阵为上述待检测视频中多帧待检测视频帧的特征矩阵的集合。
可以通过预先训练的深度学习网络对待检测视频的每帧视频均进行特征提取,但是这样计算量会很多,实际操作过程中,可以对待检测视频进行抽帧,仅对抽取的视频帧进行特征提取,从而可以节约计算资源。例如,可以对待检测视频进行每秒8帧的均匀抽帧。
具体的,可以通过预先训练的深度学习网络,提取待检测视频的SE-resnext网络Layer3的8192维特征并提取待检测视频的Densenet网络Layer3的5120维特征/>将同一帧视频帧的/>和/>特征拼接成13312维特征/>作为该帧视频帧的深度学习特征,则待检测视频的视频帧的深度学习特征可以表示为:/>其中,/>为待检测视频的第j帧视频的深度学习特征,具体为一个13312维的特征矩阵,L表示待检测视频的帧数。待检测视频的二维待检测特征矩阵为各帧视频的深度学习特征拼接成的二维M*L的特征矩阵Q,其中,M表示视频帧的特征维度。
S1012,获取各样本视频的二维样本特征矩阵,将上述二维待检测特征矩阵与各上述二维样本特征矩阵进行匹配,得到上述待检测视频中的侵权视频段所侵权的目标样本视频段及目标样本视频。
在本申请实施例中,样本视频的二维样本特征矩阵可以预先存储在数据库中,不用每次比对时实时计算,从而可以节约计算资源。
在一种可能的实施方式中,参见图3a,上述获取各样本视频的二维样本特征矩阵,将上述二维待检测特征矩阵与各上述二维样本特征矩阵进行匹配,得到上述待检测视频中的侵权视频段所侵权的目标样本视频段及目标样本视频,包括:
S10121,通过预先训练的深度学习网络对样本视频进行特征提取,得到上述样本视频的二维样本特征矩阵,其中,上述二维样本特征矩阵为上述样本视频中多帧样本视频帧的特征矩阵的集合。
可以通过预先训练的深度学习网络对样本视频的每帧视频均进行特征提取,但是这样计算量会很多,实际操作过程中,可以对样本视频进行抽帧,仅对抽取的视频帧进行特征提取,从而可以节约计算资源。具体的,可以对样本视频进行每秒8帧的均匀抽帧。样本视频的二维样本特征矩阵的生成方式可以参见上述待检测视频的二维待检测特征矩阵的生成方式,此处不再赘述。
S10122,将上述样本特征矩阵进行聚类,得到多个类及各上述类的聚类中心。
此处的聚类方法可以按照实际情况自定义选取,例如,可以对样本特征矩阵中各帧的特征矩阵进行K-Means聚类,获得n个Centriods(聚类中心)。
S10123,针对每个上述类及每个上述类的聚类中心分别建立倒排索引,得到倒排索引矩阵数据。
针对每一类建立倒排索引,并对每个聚类中心建立倒排索引,得到倒排索引矩阵数据。
在一种可能的实施方式中,倒排索引矩阵数据可以预先计算获得,并存储于数据库中,在实际执行的过程中直接从数据库中获取即可,不用每次使用时均进行计算,从而节省计算资源。例如图3b所示,上述S10121至S10123可以替换为:S10120,获取预先生成的倒排索引矩阵数据。
S10124,针对上述待检测特征矩阵中的各待检测视频帧的特征矩阵,在各上述样本视频的倒排索引矩阵数据中进行检索,分别得到各上述待检测视频帧的相似度最高的K帧样本视频帧。
对于待检测特征矩阵中的每一帧的特征矩阵,在倒排索引矩阵数据中检索得到与其相似度最高的K帧样本视频帧,从在待检测特征矩阵中的各视频均检索完毕后,得到待检测视频中每帧视频帧(如果有抽帧操作,则为待检测视频抽取的各视频帧)的相似度最高的K帧样本视频帧,例如,待检测特征矩阵对应L帧视频帧时,则得到的L帧×K个结果。
S10125,生成各上述待检测视频帧的相似度最高的K帧样本视频帧的有向无环图,其中,上述有向无环图仅有一个源点和一个汇点,上述有向无环图中样本视频帧的权重为该样本视频帧与其对应的待检测视频帧的相似度。
将查找到的L帧的K个结果连接成只有一个源点和一个汇点的有向无环图。具体的,设定一个源点和一个汇点,对于检测得到的L×K个样本视频帧(在有向无环图中也称为节点)来说,每个节点都对应有的待检测视频帧的时间戳t1和样本视频帧的时间戳t2,每个节点在与其他节点连接时,只能与t1大于自身t1、且t2大于自身t2的节点连接,节点的权重(或等效为连接线的权重)为该节点与其对应的待检测视频帧的相似度。
S10126,确定上述有向无环图中的置信度分数最高的路径对应的上述待检测视频中的视频段,作为侵权视频段;确定上述有向无环图中的置信度分数最高的路径对应的样本视频中的视频段,作为目标样本视频段,其中,上述目标样本视频段所属的样本视频为上述目标样本视频,针对任一路径,该路径的置信度分数与该路径上所有样本视频帧权重的和正相关。
有向无环图中路径的置信度分数与该路径上所有样本视频帧权重的和正相关,路径上所有样本视频帧权重的和越大,该路径的置信度分数越高。例如,针对任一路径,可以将该路径上所有样本视频帧权重的和作为其置信度分数。在一种可能的实施方式中,为了方便比较,还可以对路径上所有样本视频帧权重的和进行归一化,作为该路径的置信度分数。
例如,可以选取多个待检测视频的有向无环图中所有路径的集合P,分别选取每个有向无环图中节点权重的和最大的路径,作为各目标路径,令节点权重的和最大的目标路径的节点权重的和为Pmax,令节点权重的和最小的目标路径的节点权重的和为Pmin。则对于集合P中的任一路径i,其置信度分数为Si=(Pi-Pmin)/(Pmax-Pmin)。其中,Pi为路径i中所有节点权重的和。
在本申请实施例中,倒排索引矩阵数据进行特征检索,能够有效增加特征比对的效率,从而提高整体的速度。利用有向无环图来确定侵权视频段及目标样本视频段,能够有效增加比对的准确性,从而增加侵权判定过程中检测出的视频片段的准确性,增加视频侵权判定的准确度。
在一种可能的实施方式中,参见图4,上述将上述第一SIFT特征与各上述第三SIFT特征进行比对,将上述第二SIFT特征与各上述第四SIFT特征进行比对,确定边界校正后的目标样本视频段的首帧及尾帧,得到边界校正后的目标样本视频段,包括:
S1051,将上述第一SIFT特征分别与各上述第三SIFT特征进行比对,得到多个第一比对结果。
S1052,当相似度最高的第一比对结果大于预设第一相似度阈值时,将上述相似度最高的第一比对结果对应的上述目标样本视频中的视频帧,作为边界校正后的目标样本视频段的首帧。
预设第一相似度阈值可以根据实际情况自定义设置,例如,可以设置为60%,80%或90%等。在一种可能的实施方式中,若相似度最高的第一比对结果不大于预设第一相似度阈值,则仍保留目标样本视频段的首帧位置,即目标样本视频段的首帧不变。
S1053,将上述第二SIFT特征分别与各上述第四SIFT特征进行比对,得到多个第二比对结果。
S1054,当相似度最高的第二比对结果大于预设第一相似度阈值时,将上述相似度最高的第二比对结果对应的上述目标样本视频中的视频帧,作为边界校正后的目标样本视频段的尾帧。
在一种可能的实施方式中,若相似度最高的第二比对结果不大于预设第一相似度阈值,则仍保留目标样本视频段的尾帧位置,即目标样本视频段的尾帧不变。
在本申请实施例中,针对S1051及S1052对应的校正目标样本视频段首帧的过程,与S1053及S1054对应的校正目标样本视频段的尾帧的过程,两个过程的执行顺序不做限定,二者可以按照任意的顺序执行,也可同时执行,均在本申请的保护范围内。
S1055,根据边界校正后的目标样本视频段的首帧及尾帧,得到边界校正后的目标样本视频段。
在本申请实施例中,当相似度最高的第一/第二比对结果大于预设第一相似度阈值时,说明存在与侵权视频段的首帧/尾帧更为相似的视频帧,此时对目标样本视频段的首帧/尾帧进行校正,能够增加侵权判定过程中检测出的视频片段的准确性,从而增加视频侵权判定的准确度。反之相似度最高的第一/第二比对结果不大于预设第一相似度阈值时,说明不存在与侵权视频段的首帧/尾帧更为相似的视频帧,此时更改目标样本视频段的首帧/尾帧,减少校正之后目标样本视频段的首帧/尾帧不准确的情况。
在一种可能的实施方式中,参见图5,在上述将上述第一SIFT特征与各上述第三SIFT特征进行比对,将上述第二SIFT特征与各上述第四SIFT特征进行比对,确定边界校正后的目标样本视频段的首帧及尾帧,得到边界校正后的目标样本视频段之后,上述方法还包括:
S106,以预设时长为单位步长,在上述目标样本视频中,提取边界校正后的目标样本视频段首帧之前的一个单位步长内的各视频帧的SIFT特征,并分别与上述第一SIFT特征进行比对,得到多个第三比对结果。
预设时长可以根据实际情况自定义设置,例如可以设置为1秒、3秒或5秒等。本领域技术人员可以理解的是,此处的预设时长可以等效替换为预设帧数,均在本申请的保护范围内。在目标样本视频中,提取边界校正后的目标样本视频段首帧之前的一个单位步长内的各视频帧的SIFT特征,例如,边界校正后的目标样本视频段首帧的时间戳为第60秒,单位步长为2秒,则提取目标样本视频中第(60-2)秒至第60秒之间的各视频的SIFT特征。将此处提取的各视频帧的SIFT特征分别与第一SIFT特征进行比对,得到多个第三比对结果。
S107,若各第三比对结果的相似度均不大于预设第二相似度阈值,将当前的目标样本视频段的首帧作为待输出视频段的首帧。
S108,若至少一个第三比对结果的相似度大于预设第二相似度阈值,将一个单位步长内的视频帧的首帧作为边界校正后的目标样本视频段首帧,返回执行上述步骤:以预设时长为单位步长,在上述目标样本视频中,提取边界校正后的目标样本视频段首帧之前的一个单位步长内的各视频帧的SIFT特征,并与上述第一SIFT特征进行比对,得到多个第一比对结果,直至各第一比对结果的相似度均不大于预设相似度阈值,得到待输出视频段的首帧。
S109,以预设时长为单位步长,在上述目标样本视频中,提取边界校正后的目标样本视频段尾帧之后的一个单位步长内的各视频帧的SIFT特征,并分别与上述第二SIFT特征进行比对,得到多个第四比对结果。
本领域技术人员可以理解的是,此处的预设时长可以等效替换为预设帧数,均在本申请的保护范围内。在目标样本视频中,提取边界校正后的目标样本视频段尾帧之后的一个单位步长内的各视频帧的SIFT特征,例如,边界校正后的目标样本视频段尾帧的时间戳为第3000秒,单位步长为3秒,则提取目标样本视频中第3000秒至第(3000+3)秒之间的各视频的SIFT特征。将此处提取的各视频帧的SIFT特征分别与第二SIFT特征进行比对,得到多个第四比对结果。
S110,若各第四比对结果的相似度均不大于预设第二相似度阈值,将当前的目标样本视频段的尾帧作为待输出视频段的尾帧。
S111,若至少一个第四比对结果的相似度大于预设第二相似度阈值,将上述一个单位步长内的视频帧的尾帧作为边界校正后的目标样本视频段尾帧,返回执行上述步骤:以预设时长为单位步长,在上述目标样本视频中,提取边界校正后的目标样本视频段尾帧之后的一个单位步长内的各视频帧的SIFT特征,并与上述第二SIFT特征进行比对,得到多个第二比对结果,直至各第二比对结果的相似度均不大于预设相似度阈值,得到待输出视频段的尾帧。
在本申请实施例中,针对S106、S107及S108对应的得到待输出视频段首帧的过程,与S109、S110及S111对应的得到待输出视频段尾帧的过程,这两个过程的执行顺序不做限定,二者可以按照任意的顺序执行,也可同时执行,均在本申请的保护范围内。
S112,根据上述待输出视频段的首帧及上述待输出视频段的尾帧,输出上述待输出视频段,作为上述待检测视频的侵权视频检测结果。
现有技术中,导致错误的一种情况是:检索到的片段虽然命中了侵权视频段,但是却比真实值的范围要小。在本申请实施例中,逐步对目标样本视频段之前/之后的单位步长内的视频帧进行SIFT特征比对,从而能够增加待输出视频段的范围,能够有效减少现有技术中输出的视频段比真实值的范围要小的情况,能够提升召回率、减少边界不精确的情况、提升评测指标F1值,从而增加侵权判定过程中检测出的视频片段的准确性,增加视频侵权判定的准确度。
本申请实施例还提供了一种视频片段检测装置,参见图6,该装置包括:特征提取模块11,建立索引、特征查询和时间对齐模块12,基于sift特征的检索结果重匹配模块13。
特征提取模块11用于基于预先训练的深度学习网络对视频数据进行深度学习特征提取。
具体的,参见图7,特征提取模块11可以对待检测视频进行每秒8帧的均匀抽帧。通过预先训练的深度学习网络,提取待检测视频的SE-resnext网络Layer3的8192维特征并提取待检测视频的Densenet网络Layer3的5120维特征/>将同一帧视频帧的/>和/>特征拼接成13312维特征/>作为该帧视频帧的深度学习特征。样本视频的深度学习特征的获取方式可以参见上述待检测视频的深度学习的获取方式,此处不再赘述。
建立索引、特征查询和时间对齐模块12用于深度学习特征的检索。
待检测视频的视频帧的深度学习特征可以表示为:其中,/>为待检测视频的第j帧视频的深度学习特征,具体为一个13312维的特征矩阵,L表示待检测视频的帧数。待检测视频的二维待检测特征矩阵为各帧视频的深度学习特征拼接成的二维M*L的特征矩阵Q,其中,M表示视频帧的特征维度。
具体的,参见图8,样本视频的二维样本特征矩阵的生成方式可以参见上述待检测视频的二维待检测特征矩阵的生成方式,此处不再赘述。可以对样本特征矩阵中各帧的特征矩阵进行K-Means聚类,获得n个聚类中心。针对每一类建立倒排索引,并对每个聚类中心建立倒排索引,得到倒排索引矩阵数据。
在一种可能的实施方式中,倒排索引矩阵数据可以预先计算获得,并存储于数据库中,在实际执行的过程中直接从数据库中获取即可,不用每次使用时均进行计算,从而节省计算资源。
对于待检测特征矩阵中的每一帧的特征矩阵,在倒排索引矩阵数据中检索得到与其相似度最高的K帧样本视频帧,从在待检测特征矩阵中的各视频均检索完毕后,得到待检测视频中每帧视频帧(如果有抽帧操作,则为待检测视频抽取的各视频帧)的相似度最高的K帧样本视频帧,例如,待检测特征矩阵对应L帧视频帧时,则得到的L帧×K个结果。将查找到的L帧的K个结果连接成只有一个源点和一个汇点的有向无环图。有向无环图中置信度分数最高的路径对应的待检测视频中的视频段即为侵权视频段,置信度分数最高的路径对应的样本视频中的视频段即为目标样本视频段,标样本视频段所属的样本视频即为目标样本视频。
基于SIFT特征的检索结果重匹配模块13用于基于SIFT特征进行目标样本视频段的边界校正,得到待输出视频段。
针对侵权视频段对应的置信度分数最高的路径表示为[q_start,q_end],其中,q_start为侵权视频段的首帧,q_end为侵权视频段的尾帧。对于上述获得的与其对应的目标样本视频段的路径表示为[r_start,r_end],其中r_start为目标样本视频段的首帧,r_end为目标样本视频段的尾帧。以T作为时间失真的门限值(对应预设时间范围),对q_start所对应的视频帧提取SIFT特征关键点集合对[r_start-T,r_start+T]之间的视频帧提取SIFT特征关键点集合/>进行关键点匹配。若匹配上的关键点个数大于阈值B,则认为匹配成功,并记录匹配点数numNode。将所有匹配结果排序,匹配上最多的点对应的视频帧即认为是目标样本视频段的边界匹配结果。若所有帧匹配上的关键点数均小于B,则还保持原结果不变。当对q_start和r_start匹配结束后,按照同样的步骤匹配q_end和r_end即可。
经过基于SIFT特征的精修边界后可以使用滑动窗口匹配来提升边界精确度。针对侵权视频段对应的置信度分数最高的路径[q_start,q_end],对于上述获得的与其对应的目标样本视频段对应的置信度分数最高的路径[r_start,r_end],以C作为时间失真的门限值,对q_start-1所对应的视频帧提取SIFT特征关键点集合对[r_start-T,r_start-1]之间的视频帧提取SIFT特征关键点集合/>进行关键点匹配。若C帧中有一帧匹配上的关键点数大于阈值B,则认为匹配成功,滑动窗口向左继续滑动,直到在某个窗口k中无一帧与q_start-k帧匹配,停止滑动。当对q_start和r_start匹配结束后,按照同样的步骤匹配q_end和r_end即可。最后校正后的目标样本视频段即为待输出视频段,将待输出视频段作为检测结果进行输出,待输出视频段所述视频的ID为被侵权视频的ID。
本申请实施例还提供了一种视频片段检测装置,参见图9,该装置包括:
视频段确定模块21,用于通过预先训练的深度学习网络提取待检测视频的深度学习特征,利用待检测视频的深度学习特征及样本视频的深度学习特征进行视频拷贝检测,确定待检测视频中的侵权视频段所侵权的目标样本视频段及目标样本视频,其中,上述目标样本视频段为上述目标样本视频中的视频段;
SIFT特征提取模块22,用于提取上述侵权视频段中首帧及尾帧的尺度不变特征变换SIFT特征,得到第一SIFT特征及第二SIFT特征;提取上述目标样本视频中时间在上述目标样本视频段首帧的预设时间范围内的各视频帧的SIFT特征,得到多个第三SIFT特征;提取上述目标样本视频中时间在上述目标样本视频段尾帧的预设时间范围内的各视频帧的SIFT特征,得到多个第四SIFT特征;
第一边界校正模块23,用于将上述第一SIFT特征与各上述第三SIFT特征进行比对,将上述第二SIFT特征与各上述第四SIFT特征进行比对,确定边界校正后的目标样本视频段的首帧及尾帧,得到边界校正后的目标样本视频段。
在一种可能的实施方式中,上述第一边界校正模块23,具体用于:将上述第一SIFT特征分别与各上述第三SIFT特征进行比对,得到多个第一比对结果;当相似度最高的第一比对结果大于预设第一相似度阈值时,将上述相似度最高的第一比对结果对应的上述目标样本视频中的视频帧,作为边界校正后的目标样本视频段的首帧;将上述第二SIFT特征分别与各上述第四SIFT特征进行比对,得到多个第二比对结果;当相似度最高的第二比对结果大于预设第一相似度阈值时,将上述相似度最高的第二比对结果对应的上述目标样本视频中的视频帧,作为边界校正后的目标样本视频段的尾帧;根据边界校正后的目标样本视频段的首帧及尾帧,得到边界校正后的目标样本视频段。
在一种可能的实施方式中,参见图10,上述装置还包括:
第二边界校正模块24,用于:以预设时长为单位步长,在上述目标样本视频中,提取边界校正后的目标样本视频段首帧之前的一个单位步长内的各视频帧的SIFT特征,并分别与上述第一SIFT特征进行比对,得到多个第三比对结果;若各第三比对结果的相似度均不大于预设第二相似度阈值,将当前的目标样本视频段的首帧作为待输出视频段的首帧;若至少一个第三比对结果的相似度大于预设第二相似度阈值,将一个单位步长内的视频帧的首帧作为边界校正后的目标样本视频段首帧,返回执行上述步骤:以预设时长为单位步长,在上述目标样本视频中,提取边界校正后的目标样本视频段首帧之前的一个单位步长内的各视频帧的SIFT特征,并与上述第一SIFT特征进行比对,得到多个第一比对结果,直至各第一比对结果的相似度均不大于预设相似度阈值,得到待输出视频段的首帧;
以预设时长为单位步长,在上述目标样本视频中,提取边界校正后的目标样本视频段尾帧之后的一个单位步长内的各视频帧的SIFT特征,并分别与上述第二SIFT特征进行比对,得到多个第四比对结果;若各第四比对结果的相似度均不大于预设第二相似度阈值,将当前的目标样本视频段的尾帧作为待输出视频段的尾帧;若至少一个第四比对结果的相似度大于预设第二相似度阈值,将上述一个单位步长内的视频帧的尾帧作为边界校正后的目标样本视频段尾帧,返回执行上述步骤:以预设时长为单位步长,在上述目标样本视频中,提取边界校正后的目标样本视频段尾帧之后的一个单位步长内的各视频帧的SIFT特征,并与上述第二SIFT特征进行比对,得到多个第二比对结果,直至各第二比对结果的相似度均不大于预设相似度阈值,得到待输出视频段的尾帧;
根据上述待输出视频段的首帧及上述待输出视频段的尾帧,输出上述待输出视频段,作为上述待检测视频的侵权视频检测结果。
在一种可能的实施方式中,上述视频段确定模块21,包括:
特征矩阵获取子模块,用于通过预先训练的深度学习网络对待检测视频进行特征提取,得到上述待检测视频的二维待检测特征矩阵,其中,上述二维待检测特征矩阵为上述待检测视频中多帧待检测视频帧的特征矩阵的集合;
视频段确定子模块,用于获取各样本视频的二维样本特征矩阵,将上述二维待检测特征矩阵与各上述二维样本特征矩阵进行匹配,得到上述待检测视频中的侵权视频段所侵权的目标样本视频段及目标样本视频。
在一种可能的实施方式中,上述视频段确定子模块,具体用于:通过预先训练的深度学习网络对样本视频进行特征提取,得到上述样本视频的二维样本特征矩阵,其中,上述二维样本特征矩阵为上述样本视频中多帧样本视频帧的特征矩阵的集合;将上述样本特征矩阵进行聚类,得到多个类及各上述类的聚类中心;针对每个上述类及每个上述类的聚类中心分别建立倒排索引,得到倒排索引矩阵数据;针对上述待检测特征矩阵中的各待检测视频帧的特征矩阵,在各上述样本视频的倒排索引矩阵数据中进行检索,分别得到各上述待检测视频帧的相似度最高的K帧样本视频帧;生成各上述待检测视频帧的相似度最高的K帧样本视频帧的有向无环图,其中,上述有向无环图仅有一个源点和一个汇点上述有向无环图中样本视频帧的权重为该样本视频帧与其对应的待检测视频帧的相似度;确定上述有向无环图中的置信度分数最高的路径对应的上述待检测视频中的视频段,作为侵权视频段;确定上述有向无环图中的置信度分数最高的路径对应的样本视频中的视频段,作为目标样本视频段,其中,上述目标样本视频段所属的样本视频为上述目标样本视频,针对任一路径,该路径的置信度分数与该路径上所有样本视频帧权重的和正相关。
本申请实施例还提供了一种电子设备,包括:处理器及存储器;
上述存储器,用于存放计算机程序;
上述处理器用于执行上述存储器存放的计算机程序时,实现上述任一视频片段检测方法。
可选的,参见图11,本申请实施例的电子设备还包括通信接口902和通信总线904,其中,处理器901,通信接口902,存储器903通过通信总线904完成相互间的通信。
上述电子设备提到的通信总线可以是PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括RAM(Random Access Memory,随机存取存储器),也可以包括NVM(Non-Volatile Memory,非易失性存储器),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括CPU(Central Processing Unit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(Digital Signal Processing,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本申请实施例还提供了一种计算机可读存储介质,上述计算机可读存储介质内存储有计算机程序,上述计算机程序被处理器执行时实现上述任一视频片段检测方法。
需要说明的是,在本文中,各个可选方案中的技术特征只要不矛盾均可组合来形成方案,这些方案均在本申请公开的范围内。诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备及存储介质的实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。
Claims (10)
1.一种视频片段检测方法,其特征在于,所述方法包括:
通过预先训练的深度学习网络提取待检测视频的深度学习特征,利用所述待检测视频的深度学习特征及样本视频的深度学习特征进行视频拷贝检测,确定所述待检测视频中的侵权视频段所侵权的目标样本视频段及目标样本视频,其中,所述目标样本视频段为所述目标样本视频中的视频段;
提取所述侵权视频段中首帧及尾帧的尺度不变特征变换SIFT特征,得到第一SIFT特征及第二SIFT特征;提取所述目标样本视频中时间在所述目标样本视频段首帧的预设时间范围内的各视频帧的SIFT特征,得到多个第三SIFT特征;提取所述目标样本视频中时间在所述目标样本视频段尾帧的预设时间范围内的各视频帧的SIFT特征,得到多个第四SIFT特征;
将所述第一SIFT特征与各所述第三SIFT特征进行比对,将所述第二SIFT特征与各所述第四SIFT特征进行比对,确定边界校正后的目标样本视频段的首帧及尾帧,得到边界校正后的目标样本视频段。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一SIFT特征与各所述第三SIFT特征进行比对,将所述第二SIFT特征与各所述第四SIFT特征进行比对,确定边界校正后的目标样本视频段的首帧及尾帧,得到边界校正后的目标样本视频段,包括:
将所述第一SIFT特征分别与各所述第三SIFT特征进行比对,得到多个第一比对结果;
当相似度最高的第一比对结果大于预设第一相似度阈值时,将所述相似度最高的第一比对结果对应的所述目标样本视频中的视频帧,作为边界校正后的目标样本视频段的首帧;
将所述第二SIFT特征分别与各所述第四SIFT特征进行比对,得到多个第二比对结果;
当相似度最高的第二比对结果大于预设第一相似度阈值时,将所述相似度最高的第二比对结果对应的所述目标样本视频中的视频帧,作为边界校正后的目标样本视频段的尾帧;
根据边界校正后的目标样本视频段的首帧及尾帧,得到边界校正后的目标样本视频段。
3.根据权利要求1所述的方法,其特征在于,在所述将所述第一SIFT特征与各所述第三SIFT特征进行比对,将所述第二SIFT特征与各所述第四SIFT特征进行比对,确定边界校正后的目标样本视频段的首帧及尾帧,得到边界校正后的目标样本视频段之后,所述方法还包括:
以预设时长为单位步长,在所述目标样本视频中,提取边界校正后的目标样本视频段首帧之前的一个单位步长内的各视频帧的SIFT特征,并分别与所述第一SIFT特征进行比对,得到多个第三比对结果;
若各第三比对结果的相似度均不大于预设第二相似度阈值,将当前的目标样本视频段的首帧作为待输出视频段的首帧;
若至少一个第三比对结果的相似度大于预设第二相似度阈值,将一个单位步长内的视频帧的首帧作为边界校正后的目标样本视频段首帧,返回执行步骤:以预设时长为单位步长,在所述目标样本视频中,提取边界校正后的目标样本视频段首帧之前的一个单位步长内的各视频帧的SIFT特征,并与所述第一SIFT特征进行比对,得到多个第三比对结果,直至各第三比对结果的相似度均不大于预设相似度阈值,得到待输出视频段的首帧;
以预设时长为单位步长,在所述目标样本视频中,提取边界校正后的目标样本视频段尾帧之后的一个单位步长内的各视频帧的SIFT特征,并分别与所述第二SIFT特征进行比对,得到多个第四比对结果;
若各第四比对结果的相似度均不大于预设第二相似度阈值,将当前的目标样本视频段的尾帧作为待输出视频段的尾帧;
若至少一个第四比对结果的相似度大于预设第二相似度阈值,将所述一个单位步长内的视频帧的尾帧作为边界校正后的目标样本视频段尾帧,返回执行步骤:以预设时长为单位步长,在所述目标样本视频中,提取边界校正后的目标样本视频段尾帧之后的一个单位步长内的各视频帧的SIFT特征,并与所述第二SIFT特征进行比对,得到多个第四比对结果,直至各第四比对结果的相似度均不大于预设相似度阈值,得到待输出视频段的尾帧;
根据所述待输出视频段的首帧及所述待输出视频段的尾帧,输出所述待输出视频段,作为所述待检测视频的侵权视频检测结果。
4.根据权利要求1所述的方法,其特征在于,所述通过预先训练的深度学习网络提取待检测视频的深度学习特征,利用所述待检测视频的深度学习特征及样本视频的深度学习特征进行视频拷贝检测,确定所述待检测视频中的侵权视频段所侵权的目标样本视频段及目标样本视频,包括:
通过预先训练的深度学习网络对待检测视频进行特征提取,得到所述待检测视频的二维待检测特征矩阵,其中,所述二维待检测特征矩阵为所述待检测视频中多帧待检测视频帧的特征矩阵的集合;
获取各样本视频的二维样本特征矩阵,将所述二维待检测特征矩阵与各所述二维样本特征矩阵进行匹配,得到所述待检测视频中的侵权视频段所侵权的目标样本视频段及目标样本视频。
5.根据权利要求4所述的方法,其特征在于,所述获取各样本视频的二维样本特征矩阵,将所述二维待检测特征矩阵与各所述二维样本特征矩阵进行匹配,得到所述待检测视频中的侵权视频段所侵权的目标样本视频段及目标样本视频,包括:
通过预先训练的深度学习网络对样本视频进行特征提取,得到所述样本视频的二维样本特征矩阵,其中,所述二维样本特征矩阵为所述样本视频中多帧样本视频帧的特征矩阵的集合;
将所述样本特征矩阵进行聚类,得到多个类及各所述类的聚类中心;
针对每个所述类及每个所述类的聚类中心分别建立倒排索引,得到倒排索引矩阵数据;
针对所述待检测特征矩阵中的各待检测视频帧的特征矩阵,在各所述样本视频的倒排索引矩阵数据中进行检索,分别得到各所述待检测视频帧的相似度最高的K帧样本视频帧;
生成各所述待检测视频帧的相似度最高的K帧样本视频帧的有向无环图,其中,所述有向无环图仅有一个源点和一个汇点,所述有向无环图中样本视频帧的权重为该样本视频帧与其对应的待检测视频帧的相似度;
确定所述有向无环图中的置信度分数最高的路径对应的所述待检测视频中的视频段,作为侵权视频段;确定所述有向无环图中的置信度分数最高的路径对应的样本视频中的视频段,作为目标样本视频段,其中,所述目标样本视频段所属的样本视频为所述目标样本视频,针对任一路径,该路径的置信度分数与该路径上所有样本视频帧权重的和正相关。
6.一种视频片段检测装置,其特征在于,所述装置包括:
视频段确定模块,用于通过预先训练的深度学习网络提取待检测视频的深度学习特征,利用所述待检测视频的深度学习特征及样本视频的深度学习特征进行视频拷贝检测,确定所述待检测视频中的侵权视频段所侵权的目标样本视频段及目标样本视频,其中,所述目标样本视频段为所述目标样本视频中的视频段;
SIFT特征提取模块,用于提取所述侵权视频段中首帧及尾帧的尺度不变特征变换SIFT特征,得到第一SIFT特征及第二SIFT特征;提取所述目标样本视频中时间在所述目标样本视频段首帧的预设时间范围内的各视频帧的SIFT特征,得到多个第三SIFT特征;提取所述目标样本视频中时间在所述目标样本视频段尾帧的预设时间范围内的各视频帧的SIFT特征,得到多个第四SIFT特征;
第一边界校正模块,用于将所述第一SIFT特征与各所述第三SIFT特征进行比对,将所述第二SIFT特征与各所述第四SIFT特征进行比对,确定边界校正后的目标样本视频段的首帧及尾帧,得到边界校正后的目标样本视频段。
7.根据权利要求6所述的装置,其特征在于,所述第一边界校正模块,具体用于:
将所述第一SIFT特征分别与各所述第三SIFT特征进行比对,得到多个第一比对结果;
当相似度最高的第一比对结果大于预设第一相似度阈值时,将所述相似度最高的第一比对结果对应的所述目标样本视频中的视频帧,作为边界校正后的目标样本视频段的首帧;
将所述第二SIFT特征分别与各所述第四SIFT特征进行比对,得到多个第二比对结果;
当相似度最高的第二比对结果大于预设第一相似度阈值时,将所述相似度最高的第二比对结果对应的所述目标样本视频中的视频帧,作为边界校正后的目标样本视频段的尾帧;
根据边界校正后的目标样本视频段的首帧及尾帧,得到边界校正后的目标样本视频段。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括第二边界校正模块,用于:
以预设时长为单位步长,在所述目标样本视频中,提取边界校正后的目标样本视频段首帧之前的一个单位步长内的各视频帧的SIFT特征,并分别与所述第一SIFT特征进行比对,得到多个第三比对结果;
若各第三比对结果的相似度均不大于预设第二相似度阈值,将当前的目标样本视频段的首帧作为待输出视频段的首帧;
若至少一个第三比对结果的相似度大于预设第二相似度阈值,将一个单位步长内的视频帧的首帧作为边界校正后的目标样本视频段首帧,返回执行步骤:以预设时长为单位步长,在所述目标样本视频中,提取边界校正后的目标样本视频段首帧之前的一个单位步长内的各视频帧的SIFT特征,并与所述第一SIFT特征进行比对,得到多个第三比对结果,直至各第三比对结果的相似度均不大于预设相似度阈值,得到待输出视频段的首帧;
以预设时长为单位步长,在所述目标样本视频中,提取边界校正后的目标样本视频段尾帧之后的一个单位步长内的各视频帧的SIFT特征,并分别与所述第二SIFT特征进行比对,得到多个第四比对结果;
若各第四比对结果的相似度均不大于预设第二相似度阈值,将当前的目标样本视频段的尾帧作为待输出视频段的尾帧;
若至少一个第四比对结果的相似度大于预设第二相似度阈值,将所述一个单位步长内的视频帧的尾帧作为边界校正后的目标样本视频段尾帧,返回执行步骤:以预设时长为单位步长,在所述目标样本视频中,提取边界校正后的目标样本视频段尾帧之后的一个单位步长内的各视频帧的SIFT特征,并与所述第二SIFT特征进行比对,得到多个第四比对结果,直至各第四比对结果的相似度均不大于预设相似度阈值,得到待输出视频段的尾帧;
根据所述待输出视频段的首帧及所述待输出视频段的尾帧,输出所述待输出视频段,作为所述待检测视频的侵权视频检测结果。
9.一种电子设备,其特征在于,包括处理器及存储器;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现权利要求1-5任一所述的视频片段检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一所述的视频片段检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010592533.9A CN111738173B (zh) | 2020-06-24 | 2020-06-24 | 视频片段检测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010592533.9A CN111738173B (zh) | 2020-06-24 | 2020-06-24 | 视频片段检测方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111738173A CN111738173A (zh) | 2020-10-02 |
CN111738173B true CN111738173B (zh) | 2023-07-25 |
Family
ID=72651140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010592533.9A Active CN111738173B (zh) | 2020-06-24 | 2020-06-24 | 视频片段检测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111738173B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609316A (zh) * | 2021-07-27 | 2021-11-05 | 支付宝(杭州)信息技术有限公司 | 媒体内容相似度的检测方法和装置 |
CN113792600B (zh) * | 2021-08-10 | 2023-07-18 | 武汉光庭信息技术股份有限公司 | 一种基于深度学习的视频抽帧方法和系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010095796A1 (ko) * | 2009-02-19 | 2010-08-26 | 성균관대학교산학협력단 | 세그먼트 특징을 이용한 내용 기반 동영상 검출 방법 |
CN103390040A (zh) * | 2013-07-17 | 2013-11-13 | 南京邮电大学 | 一种视频拷贝检测方法 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100493195C (zh) * | 2007-05-24 | 2009-05-27 | 上海交通大学 | 结合节目内容元数据和内容分析的时移电视视频匹配方法 |
CN101324919A (zh) * | 2007-06-15 | 2008-12-17 | 上海银晨智能识别科技有限公司 | 一种照片视频比对方法 |
US8671109B2 (en) * | 2009-10-01 | 2014-03-11 | Crim (Centre De Recherche Informatique De Montreal) | Content-based video copy detection |
US8731292B2 (en) * | 2011-01-07 | 2014-05-20 | Alcatel Lucent | Method and apparatus for comparing videos |
JP5685324B2 (ja) * | 2011-01-07 | 2015-03-18 | アルカテル−ルーセント | 映像を比較する方法および装置 |
GB2501224B (en) * | 2012-01-10 | 2016-03-09 | Qatar Foundation | Detecting video copies |
US9607224B2 (en) * | 2015-05-14 | 2017-03-28 | Google Inc. | Entity based temporal segmentation of video streams |
CN107750015B (zh) * | 2017-11-02 | 2019-05-07 | 腾讯科技(深圳)有限公司 | 视频版权的检测方法、装置、存储介质及设备 |
US10474903B2 (en) * | 2018-01-25 | 2019-11-12 | Adobe Inc. | Video segmentation using predictive models trained to provide aesthetic scores |
US20190236371A1 (en) * | 2018-01-30 | 2019-08-01 | Deluxe Entertainment Services Group Inc. | Cognitive indexing of images in digital video content |
CN110324660B (zh) * | 2018-03-29 | 2021-01-19 | 北京字节跳动网络技术有限公司 | 一种重复视频的判断方法及装置 |
CN108664902B (zh) * | 2018-04-23 | 2020-08-25 | 中国科学院自动化研究所 | 基于深度学习的端到端的视频拷贝检测方法及装置 |
CN109064494B (zh) * | 2018-09-13 | 2021-09-21 | 北京字节跳动网络技术有限公司 | 视频漂浮纸片检测方法、装置和计算机可读存储介质 |
CN110853033B (zh) * | 2019-11-22 | 2022-02-22 | 腾讯科技(深圳)有限公司 | 基于帧间相似度的视频检测方法和装置 |
-
2020
- 2020-06-24 CN CN202010592533.9A patent/CN111738173B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010095796A1 (ko) * | 2009-02-19 | 2010-08-26 | 성균관대학교산학협력단 | 세그먼트 특징을 이용한 내용 기반 동영상 검출 방법 |
CN103390040A (zh) * | 2013-07-17 | 2013-11-13 | 南京邮电大学 | 一种视频拷贝检测方法 |
Non-Patent Citations (1)
Title |
---|
基于NMF和SURF的视频帧间复制粘贴伪造盲检测;李晓丽;杜振龙;;数据采集与处理(04);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111738173A (zh) | 2020-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111737522B (zh) | 视频匹配方法、基于区块链的侵权存证方法和装置 | |
US8868569B2 (en) | Methods for detecting and removing duplicates in video search results | |
CN107463605B (zh) | 低质新闻资源的识别方法及装置、计算机设备及可读介质 | |
US20230376527A1 (en) | Generating congruous metadata for multimedia | |
EP2657884B1 (en) | Identifying multimedia objects based on multimedia fingerprint | |
KR102048638B1 (ko) | 콘텐츠 인식 방법 및 시스템 | |
EP2742459B1 (en) | Methods and apparatus for comparing videos | |
CN107180056B (zh) | 视频中片段的匹配方法和装置 | |
EP2409250A1 (en) | Semantic event detection using cross-domain knowledge | |
CN107204183B (zh) | 一种音频文件检测方法及装置 | |
CN111708909B (zh) | 视频标签的添加方法及装置、电子设备、计算机可读存储介质 | |
CN111930983B (zh) | 一种图像检索方法、装置、电子设备及存储介质 | |
CN111460961A (zh) | 一种基于cdvs的相似图聚类的静态视频摘要方法 | |
CN111583180B (zh) | 一种图像的篡改识别方法、装置、计算机设备及存储介质 | |
CN111738173B (zh) | 视频片段检测方法、装置、电子设备及存储介质 | |
CN112954455B (zh) | 一种字幕跟踪方法、装置及电子设备 | |
CN111368143A (zh) | 一种视频相似度检索方法、装置、电子设备及存储介质 | |
CN111753735B (zh) | 视频片段检测方法、装置、电子设备及存储介质 | |
CN111428122A (zh) | 图片检索方法、装置及电子设备 | |
CN111222409A (zh) | 车辆品牌的标注方法、装置及系统 | |
CN113160800B (zh) | 语音数据标注方法及电子设备、存储装置 | |
CN109697240B (zh) | 一种基于特征的图像检索方法及装置 | |
CN110765291A (zh) | 检索方法、装置及电子设备 | |
CN113076961B (zh) | 一种图像特征库更新方法、图像检测方法和装置 | |
CN111178349A (zh) | 一种图像识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |