[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN114697761B - 一种处理方法、装置、终端设备及介质 - Google Patents

一种处理方法、装置、终端设备及介质 Download PDF

Info

Publication number
CN114697761B
CN114697761B CN202210365435.0A CN202210365435A CN114697761B CN 114697761 B CN114697761 B CN 114697761B CN 202210365435 A CN202210365435 A CN 202210365435A CN 114697761 B CN114697761 B CN 114697761B
Authority
CN
China
Prior art keywords
information
video
target video
target
description information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210365435.0A
Other languages
English (en)
Other versions
CN114697761A (zh
Inventor
袁野
王宇飞
文珑银
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lemon Inc Cayman Island
Original Assignee
Lemon Inc Cayman Island
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lemon Inc Cayman Island filed Critical Lemon Inc Cayman Island
Priority to CN202210365435.0A priority Critical patent/CN114697761B/zh
Publication of CN114697761A publication Critical patent/CN114697761A/zh
Priority to US17/816,990 priority patent/US11676385B1/en
Priority to PCT/SG2023/050175 priority patent/WO2023195912A2/zh
Application granted granted Critical
Publication of CN114697761B publication Critical patent/CN114697761B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Studio Circuits (AREA)

Abstract

本公开公开了一种处理方法、装置、终端设备及介质,所述方法包括:获取目标视频和所述目标视频对应的视频描述信息;确定所述目标视频的主体物体信息;确定所述视频描述信息的关键帧类别;将所述目标视频、所述视频描述信息、所述主体物体信息和所述关键帧类别输入至处理模型,得到所述目标视频中与所述视频描述信息对应的图片的时间戳。利用该方法,能够根据目标视频确定主体物体信息和关键帧类别,从而通过主体物体信息和关键帧类别来辅助处理视频进行处理,使得在将视频描述信息和目标视频输入处理模型后,所输出的时间戳的准确度得到了提高。

Description

一种处理方法、装置、终端设备及介质
技术领域
本公开实施例涉及计算机技术领域,尤其涉及一种处理方法、装置、终端设备及介质。
背景技术
视频结构化是指提取并呈现视频中有价值的信息,以提高视频信息获取效率的任务,如,视频高光提取与时刻定位为从视频中摘取一段短的精彩片段或视频帧,用以概括视频的重要信息。
目前视频高光提取和时刻定位的技术主要对视频内的视觉特征进行分析,从而确定出的高光帧准确度较差。
发明内容
本公开实施例提供了一种处理方法、装置、终端设备及介质,提高了高光帧确定的准确度。
第一方面,本公开实施例提供了一种处理方法,包括:
获取目标视频和所述目标视频对应的视频描述信息;
确定所述目标视频的主体物体信息;
确定所述视频描述信息的关键帧类别;
将所述目标视频、所述视频描述信息、所述主体物体信息和所述关键帧类别输入至处理模型,得到所述目标视频中与所述视频描述信息对应的图片的时间戳。
第二方面,本公开实施例还提供了一种处理装置,包括:
获取模块,用于获取目标视频和所述目标视频对应的视频描述信息;
第一确定模块,用于确定所述目标视频的主体物体信息;
第二确定模块,用于确定所述视频描述信息的关键帧类别;
输入模块,用于将所述目标视频、所述视频描述信息、所述主体物体信息和所述关键帧类别输入至处理模型,得到所述目标视频中与所述视频描述信息对应的图片的时间戳。
第三方面,本公开实施例还提供了一种终端设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实处理公开实施例提供的处理方法。
第四方面,本公开实施例还提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现本公开实施例提供的处理方法。
本公开实施例提供了一种处理方法、装置、终端设备及介质,所述方法包括:获取目标视频和所述目标视频对应的视频描述信息;确定所述目标视频的主体物体信息;确定所述视频描述信息的关键帧类别;将所述目标视频、所述视频描述信息、所述主体物体信息和所述关键帧类别输入至处理模型,得到所述目标视频中与所述视频描述信息对应的图片的时间戳。利用上述技术方案,能够根据目标视频确定主体物体信息和关键帧类别,从而通过主体物体信息和关键帧类别来辅助处理视频进行处理,使得在将视频描述信息和目标视频输入处理模型后,所输出的时间戳的准确度得到了提高。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
图1为本公开实施例一提供的一种处理方法的流程示意图;
图2为本公开实施例二提供的一种处理方法的流程示意图;
图3为本公开实施例二提供的一种处理方法的流程示意图;
图4为本公开实施例三提供的一种处理装置的结构示意图;
图5为本公开实施例四提供的一种终端设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
下述各实施例中,每个实施例中同时提供了可选特征和示例,实施例中记载的各个特征可进行组合,形成多个可选方案,不应将每个编号的实施例仅视为一个技术方案。此外,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
实施例一
图1为本公开实施例一提供的一种处理方法的流程示意图,该方法可适用于对视频进行处理的情况,该方法可以由处理装置来执行,其中该装置可由软件和/或硬件实现,并一般集成在终端设备上,在本实施例中终端设备包括但不限于:计算机、笔记本电脑、平板电脑和/或手机等设备。
如图1所示,本公开实施例一提供的一种处理方法,包括如下步骤:
S110、获取目标视频和所述目标视频对应的视频描述信息。
其中,目标视频可以是指待处理的视频,如待进行高光帧或高光片段分析的视频。高光帧可以认为是能够反映视频中重要信息的视频帧。高光片段可以认为是反映视频中重要信息的视频片段。目标视频可以为原始视频,也可以为原始视频中某个视频片段,原始视频可以为原始待处理的视频,如拍摄完且未经编辑的视频或拍摄后进行初步加工(如裁剪、添加标题、字幕等)后的视频等。视频片段可以为对原始视频进行章节划分后的片段,又称视频切片。视频描述信息可以理解为目标视频的简要描述,用于表征目标视频的主要内容。
在本实施例中,可以获取目标视频和目标视频对应的视频描述信息以进行后续的处理。本实施例不对获取目标视频和视频描述信息的方式进行限制,如该处理方法可以应用至视频展示类应用程序,目标视频可以为从服务端获取的原始视频,也可以为将包含多个视频片段的整个原始视频裁剪成某个视频片段的视频;视频描述信息可以基于目标视频中出现的文本和/或图像分析得到,本实施例对此不作限定。
S120、确定所述目标视频的主体物体信息。
主体物体信息可以认为是表征目标视频中主体物体的信息,主体物体可以为目标视频内的主体,例如主体信息可以包括人物、动植物和/或物品等。例如,目标视频为美食试吃的视频,主体物体信息可以为目标视频中出现的人和美食等。
具体的,获取目标视频后,可以确定目标视频的主体物体信息,此处不限定主体物体信息的确定方式,例如,可以通过对目标视频进行抽帧处理,然后对视频帧进行分析,来识别目标视频中的主体物体信息;也可以基于主体物体的类别确定目标视频的主体物体信息。主体物体的类别的确定方式不作限定,可以是基于目标视频的类别确定,也可以是预先设定的;还可以通过训练好的模型确定目标视频的主体物体信息。
S130、确定所述视频描述信息的关键帧类别。
关键帧类别可以理解为目标视频中关键帧的类型,可以通过目标视频对应的视频描述信息来进行确定,例如当视频描述信息为某博主在试吃酸菜五花肉,则关键帧类别可以为美食类或试吃类,具体属于哪个类别基于实际需求确定;当视频描述信息为某博主在试穿各种羽绒服,则关键帧类别可以为服装类或试穿类。具体确定关键帧类别的手段不限,例如可以将视频描述信息输入至关键帧类别预测模型中以确定视频描述信息的关键帧类别,本步骤不对关键帧类别预测模型进行展开,例如可以通过大量视频描述信息和对应的关键帧类别预先进行训练得到。
S140、将所述目标视频、所述视频描述信息、所述主体物体信息和所述关键帧类别输入至处理模型,得到所述目标视频中与所述视频描述信息对应的图片的时间戳。
处理模型可以认为是根据输入的信息来输出高光帧或高光片段的时间戳的模型,在本实施例中,输入的信息可以包括目标视频、视频描述信息、主体物体信息和关键帧类别等,处理模型可以预先训练得到,训练的过程可以为:首先将训练阶段的目标视频、视频描述信息、主体物体信息和关键帧类别输入至处理模型中,输出目标视频中各帧图片对应的匹配分数,然后将最高匹配分数对应的时间戳与预先人工标注的时间戳进行对比,以修正处理模型的参数,直至最高匹配分数对应的时间戳与预先人工标注的时间戳相同或相同的概率大于一定值为止,则可结束训练。
目标视频中与视频描述信息对应的图片可以理解为目标视频中与视频描述信息关联性最大的某图片(可认为是高光帧),图片的个数可以为一个或多个,可以理解的是,目标视频中与视频描述信息对应的图片可以为目标视频中的高光时刻或目标视频中的令浏览者感兴趣的图片等。目标视频中与视频描述信息对应的图片的时间戳则可以是指图片对应的时间数据,用于标识在目标视频的何时显示的图片,如目标视频时长5分钟,时间数据可以为1分钟,即1分钟时刻的图片。
在本步骤中,可以将目标视频、视频描述信息、主体物体信息和关键帧类别输入至处理模型,经过处理模型的处理来得到目标视频中与视频描述信息对应的图片的时间戳,其中,具体处理的过程不作限定,处理模型可以为一整体模型,能够直接根据输入的信息来输出图片的时间戳;处理模型也可以包括多个模块,各模块能够对输入的信息分别进行处理后,根据处理后的信息综合来得到目标视频中与视频描述信息对应的图片的时间戳。
示例性的,首先可以将目标视频输入至处理模型内的第一信息提取模块,来进行目标视频中图像信息和第一文本信息的提取;然后将视频描述信息输入至处理模型内的第二信息提取模块,来进行视频描述信息中第二文本信息的提取;最后可以根据主体物体信息、图像信息、第一文本信息、第二文本信息和关键帧类别,来综合确定目标视频中与视频描述信息对应的图片的时间戳。
本公开实施例一提供的一种处理方法,获取目标视频和所述目标视频对应的视频描述信息;确定所述目标视频的主体物体信息;确定所述视频描述信息的关键帧类别;将所述目标视频、所述视频描述信息、所述主体物体信息和所述关键帧类别输入至处理模型,得到所述目标视频中与所述视频描述信息对应的图片的时间戳。利用上述方法,能够根据目标视频确定主体物体信息和关键帧类别,从而通过主体物体信息和关键帧类别来辅助处理视频进行处理,使得在将视频描述信息和目标视频输入处理模型后,所输出的时间戳的准确度得到了提高。
在上述实施例的基础上,提出了上述实施例的变型实施例,在此需要说明的是,为了使描述简要,在变型实施例中仅描述与上述实施例的不同之处。
在一个实施例中,所述确定所述目标视频的主体物体信息,包括:
对所述目标视频进行稀疏抽帧处理,得到第二目标对象;
确定所述第二目标对象对应的主体物体信息。
其中,第二目标对象可以理解将目标视频进行稀疏抽帧处理后得到的对象,稀疏抽帧可以是指间隔一定帧来抽取至少一帧图像的处理方式,即第二目标对象可以为画面帧,也可以为画面帧连成的视频片段等,本实施例对此不作限定。
在一个实施例中,所述第二目标对象包括画面帧和/或视频片段。
画面帧可以认为是以帧为单位形成的图像画面,视频片段可以是指将多帧图像组成的片段,此处不对具体组成的方式作进一步展开。
在本实施例中,首先可以对目标视频进行稀疏抽帧处理,以得到第二目标对象,得到第二目标对象的步骤不限,例如可以将目标视频进行视频解码、帧色彩空间转换和落盘方式的JPEG编码来得到第二目标对象等。然后在得到第二目标对象后,可以确定第二目标对象中对应的主体物体信息。
在一个实施例中,确定第二目标对象的主体物体信息可以通过模型确定,如将第二目标对象输入至物体识别模型,确定第二目标物体的主体物体信息。
在一个实施例中,确定第二目标对象和主体物体信息均可以通过模型实现,如将目标对象输入模型,得到对应的主体物体信息。
在一个实施例中,所述确定所述视频描述信息的关键帧类别,包括:
将所述视频描述信息输入至关键帧类别预测模型,得到对应的关键帧类别。
关键帧类别预测模型可以为根据输入的信息来预测关键帧类别的模型,在本实施例中,关键帧类别预测模型可以由系统或相关人员预先训练来得到,训练的时机不限,可以在获取目标视频对应的视频描述信息之前,也可以在获取目标视频对应的视频描述信息之后,只要能得到视频描述信息的关键帧类别即可。
实施例二
图2为本公开实施例二提供的一种处理方法的流程示意图,本实施例二在上述各实施例中各个可选方案为基础进行具体化。在本实施例中,将将所述目标视频、所述视频描述信息、所述主体物体信息和所述关键帧类别输入至处理模型,得到所述目标视频中与所述视频描述信息对应的图片的时间戳,进一步具体化为:将所述目标视频输入至所述处理模型内的第一信息提取模块,得到对应的图像信息和第一文本信息;将所述视频描述信息输入至所述处理模型内的第二信息提取模块,得到对应的第二文本信息;将所述主体物体信息、所述图像信息、所述第一文本信息、所述第二文本信息和所述关键帧类别输入至所述处理模型内的检索模块,得到所述目标视频中与所述视频描述信息对应的图片的时间戳。
本实施例尚未详尽的内容请参考实施例一。
如图2所示,本公开实施例二提供的一种处理方法,包括如下步骤:
S210、获取目标视频和所述目标视频对应的视频描述信息。
S220、确定所述目标视频的主体物体信息。
S230、确定所述视频描述信息的关键帧类别。
S240、将所述目标视频输入至所述处理模型内的第一信息提取模块,得到对应的图像信息和第一文本信息。
第一信息提取模块可以包含于处理模型内,用于提取输入至处理模型内目标视频的图像信息和第一文本信息,其中,图像信息可以为目标视频中各帧图像的视觉特征,例如可以包括人物特征、颜色特征等;第一文本信息可以是指目标视频中添加的文字描述,例如可以为解说文字、对白、说明词和/或字幕等。
具体的,可以将目标视频输入至处理模型内的第一信息提取模块,以得到对应的图像信息和第一文本信息,具体得到图像信息和第一文本信息的手段不限,可以相同,也可以不同。
示例性的,可以直接根据第一信息提取模块来输出目标视频对应的图像信息和第一文本信息;也可以根据第一信息提取模块对目标视频内字幕信息进行文本提取来得到第一文本信息,根据第一信息提取模块对目标视频进行帧图像识别来得到图像信息,本步骤对此不作限定。
S250、将所述视频描述信息输入至处理模型内的第二信息提取模块,得到对应的第二文本信息。
第二信息提取模块可以包含于处理模型内,用于提取输入至处理模型内视频描述信息的第二文本信息,其中,第二文本信息可以是指视频描述信息的文本特征。需要说明的是,第一文本信息与第二文本信息仅用于区分不同的对象,本实施例对此不作限定。
在本实施例中,可以直接将视频描述信息输入至处理模型内的第二信息提取模块,来得到对应的第二文本信息,以用于后续步骤的处理。
S260、将所述主体物体信息、所述图像信息、所述第一文本信息、所述第二文本信息和所述关键帧类别输入至处理模型内的检索模块,得到所述目标视频中与所述视频描述信息对应的图片的时间戳。
检索模块可以理解为根据输入的信息进行检索的模块,用于进行图片的时刻定位。
在本步骤中,可以将上述步骤得到的主体物体信息、图像信息、第一文本信息、第二文本信息和关键帧类别一起输入至处理模型内的检索模块中进行信息的匹配与选取,来得到目标视频中与视频描述信息对应的图片的时间戳。例如可以将与视频相关的特征和与描述相关的特征进行匹配,从目标视频中选取与描述相关的特征匹配的画面帧或视频片段。与视频相关的特征包括:主体物体信息、图像信息和第一文本信息。与描述相关的特征包括:第二文本信息和关键帧类别,从目标视频中选取与描述相关的特征匹配的画面帧或视频片段时可以根据匹配结果选取匹配度最高或匹配度大于设定值的图片的时间戳作为目标视频中与视频描述信息对应的图片的时间戳。
本公开实施例二提供的一种处理方法,分别根据处理模型内的第一信息提取模块得到了目标视频对应的图像信息和第一文本信息,根据处理模型内的第二信息提取模块得到了视频描述信息对应的第二文本信息,并将与视频相关的特征和与描述相关的特征进行匹配,进一步提高了得到的图片时间戳的准确性。
在一个实施例中,所述将所述目标视频输入至所述处理模型内的第一信息提取模块,得到对应的图像信息和第一文本信息,包括:
将所述目标视频输入至所述处理模型内的第一信息提取模块后,通过稀疏抽帧得到所述目标视频的第一目标对象;
对所述第一目标对象进行图像信息提取,得到对应的图像信息;
提取所述目标视频的字幕信息;
对所述字幕信息进行文本信息提取,得到对应的第一文本信息。
在本实施例中,第一目标对象可以理解将目标视频进行稀疏抽帧处理后得到的对象,第一目标对象可以与第二目标对象相同,也可以不同,具体抽取的方式可以存在差异。第一目标对象包括画面帧或视频片段。字幕信息可以是指目标视频中添加的文字描述,可以位于目标视频的空白区域处,如底部,右侧区域等。
具体的,可以通过第一信息提取模块对第一目标对象进行图像信息提取,来得到对应的图像信息;然后通过第一信息提取模块提取目标视频的字幕信息并对字幕信息进行文本信息的提取,来得到对应的第一文本信息。其中,文本信息的提取可以通过对字幕信息进行文字识别得到,也可以结合对目标视频的语音识别,来互为校准以得到第一文本信息,本实施例对此不作限定。
在一个实施例中,所述将所述主体物体信息、所述图像信息、所述第一文本信息、所述第二文本信息和所述关键帧类别输入至所述处理模型内的检索模块,得到所述目标视频中与所述视频描述信息对应的图片的时间戳,包括:
将所述主体物体信息、所述图像信息、所述第一文本信息、所述第二文本信息和所述关键帧类别输入至所述处理模型内的检索模块,得到多个候选时间戳和对应的匹配度;
根据所述候选时间戳的匹配度确定所述目标视频中与所述视频描述信息对应的图片的时间戳。
其中,多个候选时间戳可以是指目标视频中与视频描述信息对应的多个候选图片的时间戳,对应的匹配度即为多个候选图片与视频描述信息的匹配值,用于表征图片与视频描述信息的匹配程度。
具体的,可以首先通过处理模型内的检索模块对多个候选图片进行初步的选取,选取的步骤可以由系统进行设置,如候选图片必须属于视频描述信息的关键帧类别,或者候选图片中出现主体物体信息所表征的主体物体,或者候选图片与第二文本信息关联等,然后输出每个候选图片对应的候选时间戳和匹配度,以确定最终目标视频中与视频描述信息对应的图片的时间戳。
最后可以根据各候选图片对应的匹配度来进行目标视频中与视频描述信息对应的图片的时间戳的确定,具体可以根据匹配度的大小来确定。示例性的,可以将各候选图片对应的匹配度进行排序,然后选取最高匹配度对应图片的时间戳作为目标视频中与视频描述信息对应的图片的时间戳,也可以通过阈值判断,将大于阈值的时间戳作为目标视频中与视频描述信息对应的图片的时间戳。
图3为本公开实施例二提供的一种处理方法的结构示意图,如图3所示,本实施例提供处理方法可以实现视频高光时刻的提取,主要包含两个模块:多模态信息提取(即图中虚线框部分,对应第一信息提取模块、第二信息提取模块)和多模态信息检索(即检索模块)。
其中,多模态信息提取部分的输入为章节视频片段(即目标视频)及章节文本描述(即视频描述信息)。章节视频片段经过稀疏抽帧、字幕提取等多种预处理算法后得到画面帧/视频片段(即帧/短片段,对应第一目标对象)和字幕(即字幕信息),后经过物体检测、视觉/文本信息提取等处理后,生成章节视频片段的多模态特征:主体物体、视频特征和文本特征(即主体物体信息、图像信息和第一文本信息);章节文本描述经过文本信息提取(即第二信息提取模块处理)和关键帧类别预测模块后,得到章节描述文本特征(即第二文本信息)及预测的关键帧类别。
多模态信息检索模块为信息检索模型(即检索模块),根据匹配多模态信息(即目标视频、视频描述信息、主体物体信息和关键帧类别)的输入,来得到每个章节视频片段的每一帧/短片段与章节文本描述的匹配度分数(即多个候选时间戳和对应的匹配度),后经排序后返回匹配度最高的帧/片段作为时刻检索的结果(即目标视频中与视频描述信息对应的图片的时间戳)。
通过上述描述可以发现,本实施例提供的处理方法可以从每个章节中选取一张或多张与章节描述信息对应的图片,来作为章节的总结。用到的主要方法为时刻定位算法,即输入一段目标视频及其对应的文字(即视频描述信息),能够返回视频中最具有代表性的片段的时间戳。
本实施例提供的处理方法是通过从目标视频中提取主体物体、视觉特征、文本特征等多种信息来用于时刻的定位,而现有的处理方法只根据视觉信息来进行时刻的定位,准确率较低。同时,本实施例提供的关键帧/时刻定义明确,处理模型能够基于视频类型及视频描述信息中预测关键帧/时刻的类别,来辅助定位高光区域,由此提高了最终得到的高光区域的可解释性。
实施例三
图4为本公开实施例三提供的一种处理装置的结构示意图,该装置可适用于对视频进行处理的情况,其中该装置可由软件和/或硬件实现,并一般集成在终端设备上。
如图4所示,该装置包括:
获取模块310,用于获取目标视频和所述目标视频对应的视频描述信息;
第一确定模块320,用于确定所述目标视频的主体物体信息;
第二确定模块330,用于确定所述视频描述信息的关键帧类别;
输入模块340,用于将所述目标视频、所述视频描述信息、所述主体物体信息和所述关键帧类别输入至处理模型,得到所述目标视频中与所述视频描述信息对应的图片的时间戳。
在本实施例中,该装置通过获取模块310获取目标视频和所述目标视频对应的视频描述信息;通过第一确定模块320确定所述目标视频的主体物体信息;通过第二确定模块330确定所述视频描述信息的关键帧类别;通过输入模块340将所述目标视频、所述视频描述信息、所述主体物体信息和所述关键帧类别输入至处理模型,得到所述目标视频中与所述视频描述信息对应的图片的时间戳。利用该装置,能够根据目标视频确定主体物体信息和关键帧类别,从而通过主体物体信息和关键帧类别来辅助处理视频进行处理,使得在将视频描述信息和目标视频输入处理模型后,所输出的时间戳的准确度得到了提高。
进一步的,所述输入模块340包括:
第一输入单元,用于将所述目标视频输入至所述处理模型内的第一信息提取模块,得到对应的图像信息和第一文本信息;
第二输入单元,用于将所述视频描述信息输入至所述处理模型内的第二信息提取模块,得到对应的第二文本信息;
第三输入单元,用于将所述主体物体信息、所述图像信息、所述第一文本信息、所述第二文本信息和所述关键帧类别输入至所述处理模型内的检索模块,得到所述目标视频中与所述视频描述信息对应的图片的时间戳。
进一步的,所述第一输入单元包括:
将所述目标视频输入至所述处理模型内的第一信息提取模块后,通过稀疏抽帧得到所述目标视频的第一目标对象;
对所述第一目标对象进行图像信息提取,得到对应的图像信息;
提取所述目标视频的字幕信息;
对所述字幕信息进行文本信息提取,得到对应的第一文本信息。
进一步的,所述第三输入单元包括:
将所述主体物体信息、所述图像信息、所述第一文本信息、所述第二文本信息和所述关键帧类别输入至所述处理模型内的检索模块,得到多个候选时间戳和对应的匹配度;
根据所述候选时间戳的匹配度确定所述目标视频中与所述视频描述信息对应的图片的时间戳。
进一步的,所述第一确定模块320包括:
对所述目标视频进行稀疏抽帧处理,得到第二目标对象;
确定所述第二目标对象对应的主体物体信息。
进一步的,所述第二目标对象包括画面帧和/或视频片段。
进一步的,所述第二确定模块320包括:
将所述视频描述信息输入至关键帧类别预测模型,得到对应的关键帧类别。
上述处理装置可执行本公开任意实施例所提供的处理方法,具备执行方法相应的功能模块和有益效果。
实施例四
图5为本公开实施例四提供的一种终端设备的结构示意图。图5示出了适于用来实现本公开实施例的终端设备400的结构示意图。本公开实施例中的终端设备400可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、个人数字助理(Personal DigitalAssistant,PDA)、平板电脑(Portable Android Device,PAD)、便携式多媒体播放器(Portable Media Player,PMP)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图5示出的终端设备400仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图5所示,终端设备400可以包括一个或多个处理器(例如中央处理器、图形处理器等)401,其可以根据存储在只读存储器(Read-Only Memory,ROM)402中的程序或者从存储装置408加载到随机访问存储器(Random Access Memory,RAM)403中的程序而执行各种适当的动作和处理。一个或多个处理器401实现如本公开提供的处理方法。在RAM403中,还存储有终端设备400操作所需的各种程序和数据。处理器401、ROM 402以及RAM403通过总线404彼此相连。输入/输出(Input/Output,I/O)接口405也连接至总线404。
通常,以下装置可以连接至I/O接口405:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置406;包括例如液晶显示器(Liquid CrystalDisplay,LCD)、扬声器、振动器等的输出装置407;包括例如磁带、硬盘等的存储装置408,存储装置408用于存储一个或多个程序;以及通信装置409。通信装置409可以允许终端设备400与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的终端设备400,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置409从网络上被下载和安装,或者从存储装置408被安装,或者从ROM402被安装。在该计算机程序被处理器401执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是,但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如超文本传输协议(Hyper TextTransfer Protocol,HTTP)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(LAN),广域网(WAN),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述终端设备400中所包含的;也可以是单独存在,而未装配入该终端设备400中。
上述计算机可读介质存储有一个或者多个计算机程序,当上述一个或者多个程序被处理器执行时实现如下方法:
获取目标视频和所述目标视频对应的视频描述信息;
确定所述目标视频的主体物体信息;
确定所述视频描述信息的关键帧类别;
将所述目标视频、所述视频描述信息、所述主体物体信息和所述关键帧类别输入至处理模型,得到所述目标视频中与所述视频描述信息对应的图片的时间戳。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该终端设备执行时,使得该终端设备400:可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FieldProgrammable Gate Array,FPGA)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、专用标准产品(Application Specific Standard Parts,ASSP)、片上系统(System on Chip,SOC)、复杂可编程逻辑设备(Complex Programming logic device,CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本公开的一个或多个实施例,示例1提供了一种处理方法,包括:
获取目标视频和所述目标视频对应的视频描述信息;
确定所述目标视频的主体物体信息;
确定所述视频描述信息的关键帧类别;
将所述目标视频、所述视频描述信息、所述主体物体信息和所述关键帧类别输入至处理模型,得到所述目标视频中与所述视频描述信息对应的图片的时间戳。
根据本公开的一个或多个实施例,示例2根据示例1所述的方法,
所述将所述目标视频、所述视频描述信息、所述主体物体信息和所述关键帧类别输入至处理模型,得到所述目标视频中与所述视频描述信息对应的图片的时间戳,包括:
将所述目标视频输入至所述处理模型内的第一信息提取模块,得到对应的图像信息和第一文本信息;
将所述视频描述信息输入至所述处理模型内的第二信息提取模块,得到对应的第二文本信息;
将所述主体物体信息、所述图像信息、所述第一文本信息、所述第二文本信息和所述关键帧类别输入至所述处理模型内的检索模块,得到所述目标视频中与所述视频描述信息对应的图片的时间戳。
根据本公开的一个或多个实施例,示例3根据示例2所述的方法,
所述将所述目标视频输入至所述处理模型内的第一信息提取模块,得到对应的图像信息和第一文本信息,包括:
将所述目标视频输入至所述处理模型内的第一信息提取模块后,通过稀疏抽帧得到所述目标视频的第一目标对象;
对所述第一目标对象进行图像信息提取,得到对应的图像信息;
提取所述目标视频的字幕信息;
对所述字幕信息进行文本信息提取,得到对应的第一文本信息。
根据本公开的一个或多个实施例,示例4根据示例2所述的方法,
所述将所述主体物体信息、所述图像信息、所述第一文本信息、所述第二文本信息和所述关键帧类别输入至所述处理模型内的检索模块,得到所述目标视频中与所述视频描述信息对应的图片的时间戳,包括:
将所述主体物体信息、所述图像信息、所述第一文本信息、所述第二文本信息和所述关键帧类别输入至所述处理模型内的检索模块,得到多个候选时间戳和对应的匹配度;
根据所述候选时间戳的匹配度确定所述目标视频中与所述视频描述信息对应的图片的时间戳。
根据本公开的一个或多个实施例,示例5根据示例1所述的方法,
所述确定所述目标视频的主体物体信息,包括:
对所述目标视频进行稀疏抽帧处理,得到第二目标对象;
确定所述第二目标对象对应的主体物体信息。
根据本公开的一个或多个实施例,示例6根据示例5所述的方法,
所述第二目标对象包括画面帧和/或视频片段。
根据本公开的一个或多个实施例,示例7根据示例1所述的方法,
所述确定所述视频描述信息的关键帧类别,包括:
将所述视频描述信息输入至关键帧类别预测模型,得到对应的关键帧类别。
根据本公开的一个或多个实施例,示例8提供了一种处理装置,包括:
获取模块,用于获取目标视频和所述目标视频对应的视频描述信息;
第一确定模块,用于确定所述目标视频的主体物体信息;
第二确定模块,用于确定所述视频描述信息的关键帧类别;
输入模块,用于将所述目标视频、所述视频描述信息、所述主体物体信息和所述关键帧类别输入至处理模型,得到所述目标视频中与所述视频描述信息对应的图片的时间戳。
根据本公开的一个或多个实施例,示例9提供了一种终端设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如示例1-7中任一所述的方法。
根据本公开的一个或多个实施例,示例10提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如示例1-7中任一所述的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (10)

1.一种处理方法,其特征在于,所述方法包括:
获取目标视频和所述目标视频对应的视频描述信息,所述视频描述信息为所述目标视频的简要描述;
确定所述目标视频的主体物体信息;
确定所述视频描述信息的关键帧类别,所述关键帧类别为所述目标视频中关键帧的类型,并通过所述视频描述信息来确定;
将所述目标视频、所述视频描述信息、所述主体物体信息和所述关键帧类别输入至处理模型,得到所述目标视频中与所述视频描述信息对应的图片的时间戳,其中,所述处理模型包括第一信息提取模块、第二信息提取模块和检索模块,所述第一信息提取模块用于提取所述目标视频的信息,所述第二信息提取模块用于提取所述视频描述信息的信息,所述检索模块用于根据输入的信息得到多个候选时间戳和对应的匹配度,所述候选时间戳的匹配度用于得到所述目标视频中与所述视频描述信息对应的图片的时间戳。
2.根据权利要求1所述的方法,其特征在于,所述将所述目标视频、所述视频描述信息、所述主体物体信息和所述关键帧类别输入至处理模型,得到所述目标视频中与所述视频描述信息对应的图片的时间戳,包括:
将所述目标视频输入至所述处理模型内的第一信息提取模块,得到对应的图像信息和第一文本信息;
将所述视频描述信息输入至所述处理模型内的第二信息提取模块,得到对应的第二文本信息;
将所述主体物体信息、所述图像信息、所述第一文本信息、所述第二文本信息和所述关键帧类别输入至所述处理模型内的检索模块,得到所述目标视频中与所述视频描述信息对应的图片的时间戳。
3.根据权利要求2所述的方法,其特征在于,所述将所述目标视频输入至所述处理模型内的第一信息提取模块,得到对应的图像信息和第一文本信息,包括:
将所述目标视频输入至所述处理模型内的第一信息提取模块后,通过稀疏抽帧得到所述目标视频的第一目标对象;
对所述第一目标对象进行图像信息提取,得到对应的图像信息;
提取所述目标视频的字幕信息;
对所述字幕信息进行文本信息提取,得到对应的第一文本信息。
4.根据权利要求2所述的方法,其特征在于,所述将所述主体物体信息、所述图像信息、所述第一文本信息、所述第二文本信息和所述关键帧类别输入至所述处理模型内的检索模块,得到所述目标视频中与所述视频描述信息对应的图片的时间戳,包括:
将所述主体物体信息、所述图像信息、所述第一文本信息、所述第二文本信息和所述关键帧类别输入至所述处理模型内的检索模块,得到多个候选时间戳和对应的匹配度;
根据所述候选时间戳的匹配度确定所述目标视频中与所述视频描述信息对应的图片的时间戳。
5.根据权利要求1所述的方法,其特征在于,所述确定所述目标视频的主体物体信息,包括:
对所述目标视频进行稀疏抽帧处理,得到第二目标对象;
确定所述第二目标对象对应的主体物体信息。
6.根据权利要求5所述的方法,其特征在于,所述第二目标对象包括画面帧和/或视频片段。
7.根据权利要求1所述的方法,其特征在于,所述确定所述视频描述信息的关键帧类别,包括:
将所述视频描述信息输入至关键帧类别预测模型,得到对应的关键帧类别。
8.一种处理装置,其特征在于,包括:
获取模块,用于获取目标视频和所述目标视频对应的视频描述信息,所述视频描述信息为所述目标视频的简要描述;
第一确定模块,用于确定所述目标视频的主体物体信息;
第二确定模块,用于确定所述视频描述信息的关键帧类别,所述关键帧类别为所述目标视频中关键帧的类型,并通过所述视频描述信息来确定;
输入模块,用于将所述目标视频、所述视频描述信息、所述主体物体信息和所述关键帧类别输入至处理模型,得到所述目标视频中与所述视频描述信息对应的图片的时间戳,其中,所述处理模型包括第一信息提取模块、第二信息提取模块和检索模块,所述第一信息提取模块用于提取所述目标视频的信息,所述第二信息提取模块用于提取所述视频描述信息的信息,所述检索模块用于根据输入的信息得到多个候选时间戳和对应的匹配度,所述候选时间戳的匹配度用于得到所述目标视频中与所述视频描述信息对应的图片的时间戳。
9.一种终端设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202210365435.0A 2022-04-07 2022-04-07 一种处理方法、装置、终端设备及介质 Active CN114697761B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202210365435.0A CN114697761B (zh) 2022-04-07 2022-04-07 一种处理方法、装置、终端设备及介质
US17/816,990 US11676385B1 (en) 2022-04-07 2022-08-02 Processing method and apparatus, terminal device and medium
PCT/SG2023/050175 WO2023195912A2 (zh) 2022-04-07 2023-03-17 处理方法、装置、终端设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210365435.0A CN114697761B (zh) 2022-04-07 2022-04-07 一种处理方法、装置、终端设备及介质

Publications (2)

Publication Number Publication Date
CN114697761A CN114697761A (zh) 2022-07-01
CN114697761B true CN114697761B (zh) 2024-02-13

Family

ID=82142567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210365435.0A Active CN114697761B (zh) 2022-04-07 2022-04-07 一种处理方法、装置、终端设备及介质

Country Status (3)

Country Link
US (1) US11676385B1 (zh)
CN (1) CN114697761B (zh)
WO (1) WO2023195912A2 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115376033A (zh) * 2021-05-20 2022-11-22 阿里巴巴新加坡控股有限公司 信息生成方法及装置

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002013067A2 (en) * 2000-08-05 2002-02-14 Hrl Laboratories, Llc System for online rule-based video classification
CN103150373A (zh) * 2013-03-08 2013-06-12 北京理工大学 一种高满意度视频摘要生成方法
CN103200463A (zh) * 2013-03-27 2013-07-10 天脉聚源(北京)传媒科技有限公司 一种视频摘要生成方法和装置
CN103870598A (zh) * 2014-04-02 2014-06-18 北京航空航天大学 一种无人机侦察视频信息提取与分层编目方法
CN104063883A (zh) * 2014-07-07 2014-09-24 杭州银江智慧医疗集团有限公司 一种基于对象和关键帧相结合的监控视频摘要生成方法
WO2016180308A1 (en) * 2015-05-13 2016-11-17 Beijing Zhigu Rui Tuo Tech Co., Ltd. Video retrieval methods and apparatuses
CN110119757A (zh) * 2019-03-28 2019-08-13 北京奇艺世纪科技有限公司 模型训练方法、视频类别检测方法、装置、电子设备和计算机可读介质
CN110213614A (zh) * 2019-05-08 2019-09-06 北京字节跳动网络技术有限公司 从视频文件中提取关键帧的方法和装置
CN110795595A (zh) * 2019-09-10 2020-02-14 安徽南瑞继远电网技术有限公司 基于边缘计算的视频结构化存储方法、装置、设备及介质
CN111368140A (zh) * 2020-02-19 2020-07-03 新华智云科技有限公司 一种视频标签生成方法及系统
CN111523566A (zh) * 2020-03-31 2020-08-11 易视腾科技股份有限公司 目标视频片段定位方法和装置
CN111652186A (zh) * 2020-06-23 2020-09-11 勇鸿(重庆)信息科技有限公司 一种视频类别识别的方法及相关装置
WO2020182078A1 (zh) * 2019-03-08 2020-09-17 腾讯科技(深圳)有限公司 影像分析方法、显微镜视频流处理方法和相关装置
CN112115299A (zh) * 2020-09-17 2020-12-22 北京百度网讯科技有限公司 视频搜索方法、装置、推荐方法、电子设备及存储介质
KR20210042284A (ko) * 2020-06-30 2021-04-19 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 비디오 타입 검출 방법, 장치, 전자기기 및 저장매체
CN112770116A (zh) * 2020-12-31 2021-05-07 西安邮电大学 用视频压缩编码信息提取视频关键帧的方法
CN113259780A (zh) * 2021-07-15 2021-08-13 中国传媒大学 全息多维音视频播放进度条生成、显示和控制播放方法
CN113784171A (zh) * 2021-01-18 2021-12-10 北京沃东天骏信息技术有限公司 视频数据处理方法、装置、计算机系统及可读存储介质
CN113779303A (zh) * 2021-11-12 2021-12-10 腾讯科技(深圳)有限公司 视频集合的索引方法、装置和存储介质及电子设备
CN113779308A (zh) * 2021-11-12 2021-12-10 冠传网络科技(南京)有限公司 一种短视频检测和多分类方法、装置及存储介质

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6990496B1 (en) * 2000-07-26 2006-01-24 Koninklijke Philips Electronics N.V. System and method for automated classification of text by time slicing
US20040263621A1 (en) * 2001-09-14 2004-12-30 Guo Chun Biao Customer service counter/checkpoint registration system with video/image capturing, indexing, retrieving and black list matching function
US7333712B2 (en) * 2002-02-14 2008-02-19 Koninklijke Philips Electronics N.V. Visual summary for scanning forwards and backwards in video content
US7334186B2 (en) * 2003-04-30 2008-02-19 Hewlett-Packard Development Company, L.P. System and method for creation of video annotations
KR100708337B1 (ko) * 2003-06-27 2007-04-17 주식회사 케이티 퍼지 기반 oc―svm을 이용한 동영상 자동 요약 장치및 방법
JP3987013B2 (ja) * 2003-09-01 2007-10-03 本田技研工業株式会社 車両周辺監視装置
CN101887439B (zh) * 2009-05-13 2014-04-02 富士通株式会社 生成视频摘要的方法、装置、包含该装置的图像处理系统
CN102547147A (zh) * 2011-12-28 2012-07-04 上海聚力传媒技术有限公司 用于对视频图像中的字幕文本进行增强处理的方法与装置
US9247225B2 (en) * 2012-09-25 2016-01-26 Intel Corporation Video indexing with viewer reaction estimation and visual cue detection
KR20150112535A (ko) * 2014-03-28 2015-10-07 한국전자통신연구원 비디오 대표 이미지 관리 장치 및 방법
KR102282465B1 (ko) * 2014-10-27 2021-07-27 한화테크윈 주식회사 로이터링 시각화 장치 및 방법
US9736349B2 (en) * 2014-12-24 2017-08-15 Intel Corporation Adaptive video end-to-end network with local abstraction
US10007848B2 (en) * 2015-06-02 2018-06-26 Hewlett-Packard Development Company, L.P. Keyframe annotation
US10242287B2 (en) * 2015-06-11 2019-03-26 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and recording medium
US9552520B1 (en) * 2015-07-07 2017-01-24 Disney Enterprises, Inc. Systems and methods for automatic key frame extraction and storyboard interface generation for video
US9620168B1 (en) * 2015-12-21 2017-04-11 Amazon Technologies, Inc. Cataloging video and creating video summaries
CN107193841B (zh) * 2016-03-15 2022-07-26 北京三星通信技术研究有限公司 媒体文件加速播放、传输及存储的方法和装置
US10643264B2 (en) * 2016-07-25 2020-05-05 Facebook, Inc. Method and computer readable medium for presentation of content items synchronized with media display
CN106254933B (zh) * 2016-08-08 2020-02-18 腾讯科技(深圳)有限公司 字幕提取方法及装置
CN107040795A (zh) * 2017-04-27 2017-08-11 北京奇虎科技有限公司 一种直播视频的监控方法和装置
EP3410353A1 (en) * 2017-06-01 2018-12-05 eyecandylab Corp. Method for estimating a timestamp in a video stream and method of augmenting a video stream with information
KR20190007816A (ko) * 2017-07-13 2019-01-23 삼성전자주식회사 동영상 분류를 위한 전자 장치 및 그의 동작 방법
JP2019092006A (ja) * 2017-11-13 2019-06-13 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US10650245B2 (en) * 2018-06-08 2020-05-12 Adobe Inc. Generating digital video summaries utilizing aesthetics, relevancy, and generative neural networks
CN108810620B (zh) * 2018-07-18 2021-08-17 腾讯科技(深圳)有限公司 识别视频中的关键时间点的方法、装置、设备及存储介质
CN110163050B (zh) * 2018-07-23 2022-09-27 腾讯科技(深圳)有限公司 一种视频处理方法及装置、终端设备、服务器及存储介质
WO2020029235A1 (en) * 2018-08-10 2020-02-13 Microsoft Technology Licensing, Llc Providing video recommendation
CN108897899A (zh) * 2018-08-23 2018-11-27 深圳码隆科技有限公司 一种对视频流的目标区域的定位方法及其装置
US20200117910A1 (en) * 2018-10-16 2020-04-16 Thomas WILLOMITZER Methods and apparatus for generating a video clip
CN109819338B (zh) * 2019-02-22 2021-09-14 影石创新科技股份有限公司 一种视频自动剪辑方法、装置及便携式终端
EP3989158A4 (en) * 2019-07-18 2022-06-29 Huawei Cloud Computing Technologies Co., Ltd. Method, apparatus and device for video similarity detection
CN110287949B (zh) * 2019-07-30 2021-04-06 腾讯音乐娱乐科技(深圳)有限公司 视频片段提取方法、装置、设备及存储介质
US11126855B2 (en) * 2019-08-08 2021-09-21 Robert Bosch Gmbh Artificial-intelligence powered ground truth generation for object detection and tracking on image sequences
US11106916B2 (en) * 2019-08-23 2021-08-31 International Business Machines Corporation Identifying segment starting locations in video compilations
US11178446B2 (en) * 2020-03-09 2021-11-16 Haworth, Inc. Synchronous video content collaboration across multiple clients in a distributed collaboration system
CN111556254B (zh) * 2020-04-10 2021-04-02 早安科技(广州)有限公司 利用视频内容进行视频切割的方法、系统、介质及智能设备
CN111581433B (zh) * 2020-05-18 2023-10-10 Oppo广东移动通信有限公司 视频处理方法、装置、电子设备及计算机可读介质
KR20210114059A (ko) * 2020-06-30 2021-09-17 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 비디오 처리 방법, 장치, 전자 기기 및 저장 매체
US12001513B2 (en) * 2020-11-30 2024-06-04 Nec Corporation Self-optimizing video analytics pipelines
JP7225194B2 (ja) * 2020-12-28 2023-02-20 楽天グループ株式会社 画像フレーム抽出装置、画像フレーム抽出方法およびプログラム
US20220291823A1 (en) * 2021-03-11 2022-09-15 GE Precision Healthcare LLC Enhanced Visualization And Playback Of Ultrasound Image Loops Using Identification Of Key Frames Within The Image Loops

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002013067A2 (en) * 2000-08-05 2002-02-14 Hrl Laboratories, Llc System for online rule-based video classification
CN103150373A (zh) * 2013-03-08 2013-06-12 北京理工大学 一种高满意度视频摘要生成方法
CN103200463A (zh) * 2013-03-27 2013-07-10 天脉聚源(北京)传媒科技有限公司 一种视频摘要生成方法和装置
CN103870598A (zh) * 2014-04-02 2014-06-18 北京航空航天大学 一种无人机侦察视频信息提取与分层编目方法
CN104063883A (zh) * 2014-07-07 2014-09-24 杭州银江智慧医疗集团有限公司 一种基于对象和关键帧相结合的监控视频摘要生成方法
WO2016180308A1 (en) * 2015-05-13 2016-11-17 Beijing Zhigu Rui Tuo Tech Co., Ltd. Video retrieval methods and apparatuses
WO2020182078A1 (zh) * 2019-03-08 2020-09-17 腾讯科技(深圳)有限公司 影像分析方法、显微镜视频流处理方法和相关装置
CN110119757A (zh) * 2019-03-28 2019-08-13 北京奇艺世纪科技有限公司 模型训练方法、视频类别检测方法、装置、电子设备和计算机可读介质
CN110213614A (zh) * 2019-05-08 2019-09-06 北京字节跳动网络技术有限公司 从视频文件中提取关键帧的方法和装置
CN110795595A (zh) * 2019-09-10 2020-02-14 安徽南瑞继远电网技术有限公司 基于边缘计算的视频结构化存储方法、装置、设备及介质
CN111368140A (zh) * 2020-02-19 2020-07-03 新华智云科技有限公司 一种视频标签生成方法及系统
CN111523566A (zh) * 2020-03-31 2020-08-11 易视腾科技股份有限公司 目标视频片段定位方法和装置
CN111652186A (zh) * 2020-06-23 2020-09-11 勇鸿(重庆)信息科技有限公司 一种视频类别识别的方法及相关装置
KR20210042284A (ko) * 2020-06-30 2021-04-19 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 비디오 타입 검출 방법, 장치, 전자기기 및 저장매체
CN112115299A (zh) * 2020-09-17 2020-12-22 北京百度网讯科技有限公司 视频搜索方法、装置、推荐方法、电子设备及存储介质
CN112770116A (zh) * 2020-12-31 2021-05-07 西安邮电大学 用视频压缩编码信息提取视频关键帧的方法
CN113784171A (zh) * 2021-01-18 2021-12-10 北京沃东天骏信息技术有限公司 视频数据处理方法、装置、计算机系统及可读存储介质
CN113259780A (zh) * 2021-07-15 2021-08-13 中国传媒大学 全息多维音视频播放进度条生成、显示和控制播放方法
CN113779303A (zh) * 2021-11-12 2021-12-10 腾讯科技(深圳)有限公司 视频集合的索引方法、装置和存储介质及电子设备
CN113779308A (zh) * 2021-11-12 2021-12-10 冠传网络科技(南京)有限公司 一种短视频检测和多分类方法、装置及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《An Efficient Umpire Key Frame Segmentation in Cricket Video using HOG and SVM》;Suvarna Nandyal;《2021 6th International Conference for Convergence in Technology》;全文 *
《基于标签分布学习的视频摘要算法》;刘玉杰;《计算机辅助设计与图形学学报》;20190320;第31卷(第1期);全文 *
《基于视频关键帧优化的人体行为识别》;赵洪;中国优秀硕士学位论文全文数据库;20190615;全文 *
《基于语义和兴趣的图像/视频检索与认证技术研究》;李静;《中国优秀博士学位论文全文数据库》;全文 *

Also Published As

Publication number Publication date
WO2023195912A3 (zh) 2023-11-30
US11676385B1 (en) 2023-06-13
CN114697761A (zh) 2022-07-01
WO2023195912A2 (zh) 2023-10-12

Similar Documents

Publication Publication Date Title
CN109688463B (zh) 一种剪辑视频生成方法、装置、终端设备及存储介质
CN111445902B (zh) 数据收集方法、装置、存储介质及电子设备
JP7394809B2 (ja) ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラム
CN112364829B (zh) 一种人脸识别方法、装置、设备及存储介质
CN110347866B (zh) 信息处理方法、装置、存储介质及电子设备
CN112380929B (zh) 一种高光片段的获取方法、装置、电子设备和存储介质
CN114445754A (zh) 视频处理方法、装置、可读介质及电子设备
CN118053123B (zh) 报警信息生成方法、装置、电子设备与计算机介质
CN113610034B (zh) 识别视频中人物实体的方法、装置、存储介质及电子设备
CN112766284A (zh) 图像识别方法和装置、存储介质和电子设备
CN115098729A (zh) 视频处理方法、样本生成方法、模型训练方法及装置
CN111259225A (zh) 新媒体信息展示方法、装置、电子设备及计算机可读介质
CN112949430A (zh) 视频处理方法和装置、存储介质和电子设备
CN115052188B (zh) 一种视频剪辑方法、装置、设备及介质
CN114697761B (zh) 一种处理方法、装置、终端设备及介质
CN109919220B (zh) 用于生成视频的特征向量的方法和装置
CN113033552B (zh) 文本识别方法、装置和电子设备
CN113076932B (zh) 训练音频语种识别模型的方法、视频检测方法及其装置
CN111797266B (zh) 图像处理方法和装置、存储介质和电子设备
CN111783632B (zh) 针对视频流的人脸检测方法、装置、电子设备及存储介质
EP4447469A2 (en) Processing method and apparatus, terminal device and medium
CN118445395A (zh) 一种问答方法、装置、设备及介质
CN114697763B (zh) 一种视频处理方法、装置、电子设备及介质
CN118410205A (zh) 视频搜索方法、装置、电子设备及存储介质
US20240276067A1 (en) Information processing method and apparatus, device, medium, and product

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant