CN116962787A - 一种基于视频信息的交互方法、装置、设备及存储介质 - Google Patents
一种基于视频信息的交互方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116962787A CN116962787A CN202310949052.2A CN202310949052A CN116962787A CN 116962787 A CN116962787 A CN 116962787A CN 202310949052 A CN202310949052 A CN 202310949052A CN 116962787 A CN116962787 A CN 116962787A
- Authority
- CN
- China
- Prior art keywords
- video
- text
- vectorized
- target
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 48
- 239000013598 vector Substances 0.000 claims abstract description 43
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000000926 separation method Methods 0.000 claims description 20
- 238000013518 transcription Methods 0.000 claims description 15
- 230000035897 transcription Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 14
- 238000005516 engineering process Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000012015 optical character recognition Methods 0.000 claims description 6
- 230000002452 interceptive effect Effects 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 238000004364 calculation method Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7834—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7844—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种基于视频信息的交互方法、装置、设备及存储介质,涉及自然语言处理领域,包括:对待处理视频文件进行分离,并对得到的音频数据以及视频画面数据进行预处理,以得到若干音频段落文本和若干视频画面文本;对若干音频段落文本和若干视频画面文本进行向量化,并将得到的向量化数据保存至预设向量数据库;对接收到的问题文本进行向量化,并基于向量化问题文本对向量化数据进行相似度匹配,以确定目标向量化数据;将目标向量化数据以及向量化问题文本输入至预设语言模型,以生成答案文本,并将答案文本呈现至待处理视频文件的视频播放窗口。这样一来,可以实现基于视频信息的问答交互,提升用户观看视频、获取信息的体验和效率。
Description
技术领域
本发明涉及自然语言处理领域,特别涉及一种基于视频信息的交互方法、装置、设备及存储介质。
背景技术
随着视频网站和自媒体的发展,各类课程学习视频、会议演讲汇报视频的数量正在飞速增长,大量用户通过这类视频学习专业课程知识、了解行业前沿技术。并且随着人工智能技术的发展,尤其是近期在语音识别、自然语言处理、大型语言模型技术等方面的突破性进展,基本可以实现对视频信息的结构化,从而加速视频信息的传递效率。但现有技术中,对视频信息的处理可能导致基于视频信息的问答交互中利用的视频知识密度较低、结构性差,进而造成信息传递的瓶颈。
发明内容
有鉴于此,本发明的目的在于提供一种基于视频信息的交互方法、装置、设备及存储介质,可以根据用户输入的问题文本对基于视频得到的文本数据进行匹配,以得到与所属问题文本对应的答案文本,并将答案文本呈现给用户,这样一来,可以实现基于视频信息的问答交互,提升用户观看视频、获取信息的体验和效率。其具体方案如下:
第一方面,本申请公开了一种基于视频信息的交互方法,应用于视频播放客户端,包括:
对待处理视频文件进行分离操作,并对通过分离操作得到的音频数据以及视频画面数据进行预处理,以得到与所述音频数据对应的若干音频段落文本,以及与所述视频画面数据对应的若干视频画面文本;
对所述若干音频段落文本以及所述若干视频画面文本进行向量化,并将得到的向量化数据保存至预设向量数据库;
对接收到的问题文本进行向量化,并基于得到的向量化问题文本对所述预设向量数据库中保存的所述向量化数据进行相似度匹配,以确定与所述向量化问题文本对应的目标向量化数据;
将所述目标向量化数据以及所述向量化问题文本输入至预设语言模型,以生成与所述问题文本对应的答案文本,并将所述答案文本呈现至所述待处理视频文件的视频播放窗口。
可选的,对所述音频数据进行预处理,包括:
对所述音频数据进行语音识别,以得到与所述音频数据对应的音频文本;
利用预设语言模型对所述音频文本进行段落划分,以得到若干音频段落文本,并确定与所述若干音频段落文本对应的若干段落摘要以及起止时间;所述起止时间为所述若干音频段落文本中每一个音频段落文本各自对应的起止时间。
可选的,对所述视频画面数据进行预处理,包括:
基于所述起止时间对所述视频画面数据进行视频分割,以得到与所述若干音频段落文本对应的若干视频画面数据;
基于预设时间间隔分别抽取所述若干视频画面数据中每一个视频画面数据中的相邻视频帧,并计算所述相邻视频帧的画面重复率;所述相邻视频帧为基于所述预设时间间隔的两帧视频画面;
若所述画面重复率大于预设重复率阈值,则从所述相邻视频帧中剔除一帧视频画面,以得到若干目标视频帧;
基于光学字符识别技术提取所述若干目标视频帧中的文本,以得到若干视频画面文本。
可选的,所述基于视频信息的交互方法,还包括:
基于所述若干段落摘要创建第一跳转接口,并判断是否通过所述第一跳转接口接收到与所述若干段落摘要中目标段落摘要对应的第一视频跳转指令;
若是,则基于所述目标段落摘要对应的第一目标起止时间将所述视频播放窗口中当前播放的视频画面数据切换为与所述第一目标起止时间对应的第一目标视频画面数据。
可选的,所述基于视频信息的交互方法,还包括:
判断是否接收到语言转录指令,若是,则基于所述语言转录指令中的语言类型分别将所述若干音频段落文本以及所述若干视频画面文本转换为与所述语言类型对应的若干目标音频段落文本以及若干目标视频画面文本;
将所述若干目标音频段落文本覆盖至所述视频播放窗口预设第一视频区域,并将所述若干目标视频画面文本覆盖至所述视频播放窗口预设第二视频区域。
可选的,所述对接收到的问题文本进行向量化,并基于得到的向量化问题文本对所述预设向量数据库中保存的所述向量化数据进行相似度匹配,以确定与所述向量化问题文本对应的目标向量化数据,包括:
判断是否接收到输入的问题文本,若是,则对所述问题文本进行向量化,以得到向量化问题文本;
计算所述向量化问题文本与所述预设向量数据库中保存的所述向量化数据之间的相似度,并将计算得到的数值最高的相似度确定为目标相似度;
将与所述目标相似度对应的向量化音频段落文本确定为目标向量化音频段落文本,并将与所述目标相似度对应的向量化视频画面文本确定为目标向量化视频画面文本。
可选的,所述将所述目标向量化数据以及所述向量化问题文本输入至预设语言模型,以生成与所述问题文本对应的答案文本,并将所述答案文本呈现至所述待处理视频文件的视频播放窗口之后,还包括:
确定与所述目标向量化音频段落文本以及与所述目标向量化视频画面文本对应的第二目标起止时间;
创建与所述答案文本对应的第二跳转接口,并判断是否基于所述第二跳转接口接收到与所述答案文本对应的第二视频跳转指令;
若是,则将所述视频播放窗口中当前播放的视频画面数据跳转至与所述第二目标起止时间对应的第二目标视频画面数据。
第二方面,本申请公开了一种基于视频信息的交互装置,应用于视频播放客户端,包括:
视频分离模块,用于对待处理视频文件进行分离操作,并对通过分离操作得到的音频数据以及视频画面数据进行预处理,以得到与所述音频数据对应的若干音频段落文本,以及与所述视频画面数据对应的若干视频画面文本;
数据向量化模块,用于对所述若干音频段落文本以及所述若干视频画面文本进行向量化,并将得到的向量化数据保存至预设向量数据库;
问题匹配模块,用于对接收到的问题文本进行向量化,并基于得到的向量化问题文本对所述预设向量数据库中保存的所述向量化数据进行相似度匹配,以确定与所述向量化问题文本对应的目标向量化数据;
答案呈现模块,用于将所述目标向量化数据以及所述向量化问题文本输入至预设语言模型,以生成与所述问题文本对应的答案文本,并将所述答案文本呈现至所述待处理视频文件的视频播放窗口。
第三方面,本申请公开了一种电子设备,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序以实现前述的基于视频信息的交互方法。
第四方面,本申请公开了一种计算机可读存储介质,用于保存计算机程序,所述计算机程序被处理器执行时实现前述的基于视频信息的交互方法。
本申请中,首先对待处理视频文件进行分离操作,并对通过分离操作得到的音频数据以及视频画面数据进行预处理,以得到与所述音频数据对应的若干音频段落文本,以及与所述视频画面数据对应的若干视频画面文本;然后对所述若干音频段落文本以及所述若干视频画面文本进行向量化,并将得到的向量化数据保存至预设向量数据库;并对接收到的问题文本进行向量化,并基于得到的向量化问题文本对所述预设向量数据库中保存的所述向量化数据进行相似度匹配,以确定与所述向量化问题文本对应的目标向量化数据;最后将所述目标向量化数据以及所述向量化问题文本输入至预设语言模型,以生成与所述问题文本对应的答案文本,并将所述答案文本呈现至所述待处理视频文件的视频播放窗口。由此可见,通过本申请所述基于视频信息的交互方法,可以将待处理视频文件分离为音频数据以及视频画面数据,然后对音频数据进行语音识别以将所述音频数据转换为若干音频段落文本,并识别视频画面数据中的文本,以得到若干视频画面文本,对所述若干音频段落文本以及若干视频画面文本进行向量化,并对接收到的问题文本进行向量化,以得到与问题文本对应的答案文本,并将所述答案文本呈现在待处理视频文件的视频播放窗口。这样一来,可以实现基于视频信息的问答交互,提升用户观看视频、获取信息的体验和效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的一种基于视频信息的交互方法流程图;
图2为本申请提供的一种具体的基于视频信息的交互方法流程图;
图3为本申请提供的一种基于视频信息的交互结构示意图;
图4为本申请提供的一种电子设备结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着人工智能技术的发展,尤其是近期在语音识别、自然语言处理、大型语言模型技术等方面的突破性进展,基本可以实现对视频信息的结构化,从而加速视频信息的传递效率。但现有技术中,对视频信息的处理可能导致基于视频信息的问答交互中利用的视频知识密度较低、结构性差,进而造成信息传递的瓶颈。
为了解决上述技术问题,本申请提供了一种基于视频信息的交互方法、装置、设备及存储介质,可以根据用户输入的问题文本对基于视频得到的文本数据进行匹配,以得到与所属问题文本对应的答案文本,并将答案文本呈现给用户,这样一来,可以实现基于视频信息的问答交互,提升用户观看视频、获取信息的体验和效率。
参见图1所示,本发明实施例公开了一种基于视频信息的交互方法,应用于视频播放客户端,包括:
步骤S11、对待处理视频文件进行分离操作,并对通过分离操作得到的音频数据以及视频画面数据进行预处理,以得到与所述音频数据对应的若干音频段落文本,以及与所述视频画面数据对应的若干视频画面文本。
本实施例中,对待处理视频文件进行分离操作,并对通过分离操作得到的音频数据以及视频画面数据进行预处理,以得到与所述音频数据对应的若干音频段落文本,以及与所述视频画面数据对应的若干视频画面文本。也即,为了提取一段待处理视频中完整的信息,可以将待处理视频分离为音频数据以及视频画面数据,例如一段教育视频,音频数据中包含了视频中讲解人的口述音频,视频画面中包括讲解人的板书信息,因此可以将教育视频分解为音频数据以及视频画面数据,对音频数据进行预处理,以将音频数据转化为文本数据,并对视频画面数据进行预处理,以提取视频画面数据中包含的文本信息。
需要进行说明的是,对所述音频数据进行预处理,包括:对所述音频数据进行语音识别,以得到与所述音频数据对应的音频文本;利用预设语言模型对所述音频文本进行段落划分,以得到若干音频段落文本,并确定与所述若干音频段落文本对应的若干段落摘要以及起止时间;所述起止时间为所述若干音频段落文本中每一个音频段落文本各自对应的起止时间。也即,在将待处理视频文件分离为音频数据以及视频画面数据后,需要对所述音频数据进行语言识别,以将所述音频数据转换为音频文本,也即待处理视频文件中视频讲解人的口述文本。在得到所述音频文本后,需要利用例如FCN(Fully ConvolutionalNetworks)模型、SegNet(实时语义分割)模型等语义分割模型中的任意一种语义分割模型对所述音频文本进行段落分割,以得到若干段音频段落文本。需要进行说明的是,在通过语义分割模型对音频文本进行段落时,每得到一段音频段落文本,会生成与音频段落文本相应的段落摘要,并且会对每段音频段落文本在待处理视频中的起止时间进行标记,也即对起始时间以及终止时间进行标记。在对音频文本分割完成,得到所有的音频段落文本后,会按照JSON(JavaScript Object Notation,JS对象简谱)格式输出包含音频段落文本、与所述音频段落文本对应的段落摘要以及与所述音频段落文本对应的起止时间的列表。
进一步需要进行说明的是,对所述视频画面数据进行预处理,包括:基于所述起止时间对所述视频画面数据进行视频分割,以得到与所述若干音频段落文本对应的若干视频画面数据;基于预设时间间隔分别抽取所述若干视频画面数据中每一个视频画面数据中的相邻视频帧,并计算所述相邻视频帧的画面重复率;所述相邻视频帧为基于所述预设时间间隔的两帧视频画面;若所述画面重复率大于预设重复率阈值,则从所述相邻视频帧中剔除一帧视频画面,以得到若干目标视频帧;基于光学字符识别技术提取所述若干目标视频帧中的文本,以得到若干视频画面文本。也即,在将待处理视频文件分离为音频数据以及视频画面数据后,得到的所述视频画面数据中可能存在包含板书的画面,所述板书可能为视频中讲解人用到的包含文字的PPT(PowerPoint幻灯片)页面或手写的文字。并且需要进行说明的是,由于视频文件播放时音频与视频画面是同步播放的,因此通过待处理视频得到的音频数据以及视频画面数据在时间轴上具有一致性,可以基于对音频数据进行分割时确定的时间节点,对视频画面数据进行分割,也即通过所述起止时间来对视频画面数据进行分割,以得到与所述若干音频段落文本对应的若干视频画面数据。在得到所述若干视频画面数据后,需要提取所述若干视频画面数据中显示的文本,需要基于预设的时间间隔分别抽取所述若干视频画面数据中的一帧视频帧,例如设定所述预设时间间隔为1秒,则可以对每个分割后的视频画面数据,每间隔1秒抽取一帧视频帧,并且在抽取完成后,由于时间间隔较短,相邻的两帧视频帧画面中的板书可能并没有改变,因此需要计算相邻两帧视频帧之间的重复率。计算相邻两帧视频帧之间的重复率之前,可以先确定板书所在区域,并选定板书所在区域为重复率计算区域,再确定了重复率计算区域之后,可以对相邻两帧视频帧进行重复率计算,并确定计算出的重复率是否大于预设重复率阈值,若大于,则表征相邻两帧视频帧之间的板书一致,可以剔除相邻两帧视频帧中的一帧视频帧,在对所有视频画面数据的视频帧计算完成,得到若干目标视频帧之后,可以通过OCR(optical characterrecognition,光学字符识别)技术提取所述若干目标视频帧中的板书数据,也即视频画面文本。
在一步需要进行说明的是所述的基于视频信息的交互方法,还包括:基于所述若干段落摘要创建第一跳转接口,并判断是否通过所述第一跳转接口接收到与所述若干段落摘要中目标段落摘要对应的第一视频跳转指令;若是,则基于所述目标段落摘要对应的第一目标起止时间将所述视频播放窗口中当前播放的视频画面数据切换为与所述第一目标起止时间对应的第一目标视频画面数据。也即,在得到与音频文本对应的若干段落摘要之后,可以在视频播放窗口对所述若干段落摘要进行显示,例如,在视频播放窗口新建一个依附于视频播放窗口的侧边栏,并在侧边栏显示所有段落摘要,并且由于对音频文本分割完成,得到所有的音频段落文本时,会同时得到包含音频段落文本、与所述音频段落文本对应的段落摘要以及与所述音频段落文本对应的起止时间,因此可以在侧边栏同时显示所有段落摘要以及与所述段落摘要对应的起止时间。并且可以对所述若干段落摘要创建第一跳转接口,并在通过第一跳转接口接收到与所述若干段落摘要中目标段落摘要对应的第一视频跳转指令时,直接将视频播放窗口的视频画面切换到与所述目标段落摘要对应的起止时间的视频画面。例如,当接收到用户点击到某条段落摘要,则可以将画面跳转至用户点击的摘要对应的视频片段。
步骤S12、对所述若干音频段落文本以及所述若干视频画面文本进行向量化,并将得到的向量化数据保存至预设向量数据库。
本实施例中,对所述若干音频段落文本以及所述若干视频画面文本进行向量化,并将得到的向量化数据保存至预设向量数据库。也即,在得到所有的音频段落文本以及视频画面文本后,需要对得到的所有音频段落文本以及视频画面文本进行向量化,可以通过词嵌入模型对所有音频段落文本以及视频画面文本进行处理,以将文本数据转换为数字向量,并且将得到的向量化数据保存至预设的向量数据库。这样一来,将文本数据转换为向量数据,可以便于计算机的分析与处理,提高本申请所述基于视频信息的交互方法的效率。
需要进行说明的是,所述基于视频信息的交互方法,还包括:判断是否接收到语言转录指令,若是,则基于所述语言转录指令中的语言类型分别将所述若干音频段落文本以及所述若干视频画面文本转换为与所述语言类型对应的若干目标音频段落文本以及若干目标视频画面文本;将所述若干目标音频段落文本覆盖至所述视频播放窗口预设第一视频区域,并将所述若干目标视频画面文本覆盖至所述视频播放窗口预设第二视频区域。也即,在视频播放窗口,可以提供语言转录接口,当接收到用户通过所述语言转录接口输入的语言转录指令后,可以根据接收到的语言转录指令对音频段落文本以及视频画面文本进行转录,以将音频段落文本以及视频画面文本转录为与所述语言转录指令对应语言的文本,例如,用户通过语言转录接口选择将文本转录为英文,则在接收到将文本转录为英文的语言转录指令后,可以将音频段落文本以及视频画面文本转录为英文文本,并确定音频段落文本的显示区域以及前述板书所在区域,并将转录后的目标音频段落文本覆盖至视频播放窗口的音频段落文本的显示区域,将转录后的目标视频画面文本覆盖至视频播放窗口的板书所在区域。
步骤S13、对接收到的问题文本进行向量化,并基于得到的向量化问题文本对所述预设向量数据库中保存的所述向量化数据进行相似度匹配,以确定与所述向量化问题文本对应的目标向量化数据。
本实施例中,对接收到的问题文本进行向量化,并基于得到的向量化问题文本对所述预设向量数据库中保存的所述向量化数据进行相似度匹配,以确定与所述向量化问题文本对应的目标向量化数据。也即,用户可以通过视频播放窗口输入问题文本,在接收到用户输入的问题文本之后,可以对驶入的问题文本进行向量化,并基于得到的向量化问题文本对预设向量数据库中保存的向量化数据进行相似度匹配,并将相似度最高的段落的向量化数据确定为与所述向量化问题文本对应的目标向量化数据。
步骤S14、将所述目标向量化数据以及所述向量化问题文本输入至预设语言模型,以生成与所述问题文本对应的答案文本,并将所述答案文本呈现至所述待处理视频文件的视频播放窗口。
本实施例中,将所述目标向量化数据以及所述向量化问题文本输入至预设语言模型,以生成与所述问题文本对应的答案文本,并将所述答案文本呈现至所述待处理视频文件的视频播放窗口。也即,将得到的目标向量化数据以及向量化问题文本输入至预设语言模型,也即词嵌入模型,以生成与问题文本对应的答案文本,并将答案文本呈现在视频播放窗口。例如,当生成答案文本后,可以将答案文本以滚动字体的形式,按照用户自行选择的滚动速度在视频播放窗口中滚动播放。
需要进行说明的是,所述将所述目标向量化数据以及所述向量化问题文本输入至预设语言模型,以生成与所述问题文本对应的答案文本,并将所述答案文本呈现至所述待处理视频文件的视频播放窗口之后,还包括:确定与所述目标向量化音频段落文本以及与所述目标向量化视频画面文本对应的第二目标起止时间;创建与所述答案文本对应的第二跳转接口,并判断是否基于所述第二跳转接口接收到与所述答案文本对应的第二视频跳转指令;若是,则将所述视频播放窗口中当前播放的视频画面数据跳转至与所述第二目标起止时间对应的第二目标视频画面数据。也即,生成的答案文本与目标向量化数据是对应的,并且目标向量化数据为目标向量化音频段落文本以及目标向量化视频画面文本,在确定了目标向量化音频段落文本以及目标向量化视频画面文本之后,可以确定与目标向量化音频段落文本以及目标向量化视频画面文本对应的起止时间,并将确定的所述与目标向量化音频段落文本以及目标向量化视频画面文本对应的起止时间确定为与所述答案文本对应的起止时间。在确定了与所述答案文本对应的起止时间之后,可以创建与答案文本对应的第二跳转接口,并通过第二跳转接口接收第二跳转指令,并基于第二跳转指令将视频播放窗口当前播放的视频画面跳转至与所述答案文本对应的起止时间的视频画面。例如,当答案文本在视频播放窗口滚动播放时,可以在视频播放页面答案文本滚动播放的区域创建跳转接口,当用户点击答案文本时,可以将画面跳转到与所述答案文本对应的起止时间的视频画面。
由此可见,本实施例中首先对待处理视频文件进行分离操作,并对通过分离操作得到的音频数据以及视频画面数据进行预处理,以得到与所述音频数据对应的若干音频段落文本,以及与所述视频画面数据对应的若干视频画面文本;然后对所述若干音频段落文本以及所述若干视频画面文本进行向量化,并将得到的向量化数据保存至预设向量数据库;并对接收到的问题文本进行向量化,并基于得到的向量化问题文本对所述预设向量数据库中保存的所述向量化数据进行相似度匹配,以确定与所述向量化问题文本对应的目标向量化数据;最后将所述目标向量化数据以及所述向量化问题文本输入至预设语言模型,以生成与所述问题文本对应的答案文本,并将所述答案文本呈现至所述待处理视频文件的视频播放窗口。由此可见,通过本申请所述基于视频信息的交互方法,可以将待处理视频文件分离为音频数据以及视频画面数据,然后对音频数据进行语音识别以将所述音频数据转换为若干音频段落文本,并识别视频画面数据中的文本,以得到若干视频画面文本,对所述若干音频段落文本以及若干视频画面文本进行向量化,并对接收到的问题文本进行向量化,以得到与问题文本对应的答案文本,并将所述答案文本呈现在待处理视频文件的视频播放窗口。这样一来,一方面,将文本数据转换为向量数据,可以便于计算机的分析与处理,提高本申请所述基于视频信息的交互方法的效率;另一方面,可以实现基于视频信息的问答交互,提升用户观看视频、获取信息的体验。
基于前述实施例可知,当接收到输入的问题文本后,需要对问题文本进行向量化,并在预设向量数据库对得到的向量化问题文本进行相似度匹配,以确定目标向量化数据。为此,本实施例对如何基于输入的问题文本进行相似度匹配进行了详细的描述。参见图2所示,本发明实施例公开了一种基于视频信息的交互方法,包括:
步骤S21、对待处理视频文件进行分离操作,并对通过分离操作得到的音频数据以及视频画面数据进行预处理,以得到与所述音频数据对应的若干音频段落文本,以及与所述视频画面数据对应的若干视频画面文本。
步骤S22、对所述若干音频段落文本以及所述若干视频画面文本进行向量化,并将得到的向量化数据保存至预设向量数据库。
步骤S23、判断是否接收到输入的问题文本,若是,则对所述问题文本进行向量化,以得到向量化问题文本。
本实施例中,判断是否接收到输入的问题文本,若是,则对所述问题文本进行向量化,以得到向量化问题文本。也即,需要判断是否接收到用户在视频播放窗口输入的问题文本,如果接收到用户输入的问题文本,则可以通过预设的词嵌入模型对问题文本进行向量化处理,以得到与输入的问题文本对应的向量化问题文本。
步骤S24、计算所述向量化问题文本与所述预设向量数据库中保存的所述向量化数据之间的相似度,并将计算得到的数值最高的相似度确定为目标相似度。
本实施例中,计算所述向量化问题文本与所述预设向量数据库中保存的所述向量化数据之间的相似度,并将计算得到的数值最高的相似度确定为目标相似度,也即,在得到向量化问题文本之后,需要基于向量化问题文本与预设向量数据库中保存的所述向量化数据进行相似度计算,并且,预设向量数据库中保存了待处理视频文件的每一段向量化音频段落文本以及每一段向量化视频画面文本,因此需要计算向量化问题文本与每一段向量化音频段落文本以及每一段向量化视频画面文本之间的相似度,并将计算得到的相似度数值最高的相似度确定为目标相似度。
步骤S25、将与所述目标相似度对应的向量化音频段落文本确定为目标向量化音频段落文本,并将与所述目标相似度对应的向量化视频画面文本确定为目标向量化视频画面文本。
本实施例中,将与所述目标相似度对应的向量化音频段落文本确定为目标向量化音频段落文本,并将与所述目标相似度对应的向量化视频画面文本确定为目标向量化视频画面文本。也即,在计算得到目标相似度后,可以将与所述目标相似度对应的预设向量数据库中的向量化音频段落文本确定为目标向量化音频段落文本,并将与所述目标相似度对应的预设向量数据库中的向量化视频画面文本确定为目标向量化视频画面文本,以通过所述目标向量化音频段落文本、所述目标向量化视频画面文本以及向量化问题文本得到答案文本。
步骤S26、将所述目标向量化音频段落文本、所述目标向量化视频画面文本以及所述向量化问题文本输入至预设语言模型,以生成与所述问题文本对应的答案文本,并将所述答案文本呈现至所述待处理视频文件的视频播放窗口。
由此可见,本实施例中,在将向量化数据保存至预设向量数据库之后,首先判断是否接收到输入的问题文本,若是,则对所述问题文本进行向量化,以得到向量化问题文本,然后计算所述向量化问题文本与所述预设向量数据库中保存的所述向量化数据之间的相似度,并将计算得到的数值最高的相似度确定为目标相似度,最后将与所述目标相似度对应的向量化音频段落文本确定为目标向量化音频段落文本,并将与所述目标相似度对应的向量化视频画面文本确定为目标向量化视频画面文本,并将所述目标向量化音频段落文本、所述目标向量化视频画面文本以及所述向量化问题文本输入至预设语言模型,以生成与所述问题文本对应的答案文本,并将所述答案文本呈现至所述待处理视频文件的视频播放窗口。由此一来,可以通过输入的问题文本确定出预设向量数据库中保存的与所述问题文本相似度最高的目标向量化数据,并将确定的目标向量化数据以及向量化问题文本输入至预设语言模型,以得到与用户输入的问题文本对应的答案文本,这样可以在视频播放时实现与用户的交互。
参见图3所示,本发明实施例公开了一种基于视频信息的交互装置,包括:
视频分离模块11,用于对待处理视频文件进行分离操作,并对通过分离操作得到的音频数据以及视频画面数据进行预处理,以得到与所述音频数据对应的若干音频段落文本,以及与所述视频画面数据对应的若干视频画面文本;
数据向量化模块12,用于对所述若干音频段落文本以及所述若干视频画面文本进行向量化,并将得到的向量化数据保存至预设向量数据库;
问题匹配模块13,用于对接收到的问题文本进行向量化,并基于得到的向量化问题文本对所述预设向量数据库中保存的所述向量化数据进行相似度匹配,以确定与所述向量化问题文本对应的目标向量化数据;
答案呈现模块14,用于将所述目标向量化数据以及所述向量化问题文本输入至预设语言模型,以生成与所述问题文本对应的答案文本,并将所述答案文本呈现至所述待处理视频文件的视频播放窗口。
由此可见,本实施例中首先对待处理视频文件进行分离操作,并对通过分离操作得到的音频数据以及视频画面数据进行预处理,以得到与所述音频数据对应的若干音频段落文本,以及与所述视频画面数据对应的若干视频画面文本;然后对所述若干音频段落文本以及所述若干视频画面文本进行向量化,并将得到的向量化数据保存至预设向量数据库;并对接收到的问题文本进行向量化,并基于得到的向量化问题文本对所述预设向量数据库中保存的所述向量化数据进行相似度匹配,以确定与所述向量化问题文本对应的目标向量化数据;最后将所述目标向量化数据以及所述向量化问题文本输入至预设语言模型,以生成与所述问题文本对应的答案文本,并将所述答案文本呈现至所述待处理视频文件的视频播放窗口。由此可见,通过本申请所述基于视频信息的交互方法,可以将待处理视频文件分离为音频数据以及视频画面数据,然后对音频数据进行语音识别以将所述音频数据转换为若干音频段落文本,并识别视频画面数据中的文本,以得到若干视频画面文本,对所述若干音频段落文本以及若干视频画面文本进行向量化,并对接收到的问题文本进行向量化,以得到与问题文本对应的答案文本,并将所述答案文本呈现在待处理视频文件的视频播放窗口。这样一来,一方面,将文本数据转换为向量数据,可以便于计算机的分析与处理,提高本申请所述基于视频信息的交互方法的效率;另一方面,可以实现基于视频信息的问答交互,提升用户观看视频、获取信息的体验。
在一些实施例中,所述视频分离模块11,具体可以包括:
语音转换单元,用于对所述音频数据进行语音识别,以得到与所述音频数据对应的音频文本;
数据确定单元,用于利用预设语言模型对所述音频文本进行段落划分,以得到若干音频段落文本,并确定与所述若干音频段落文本对应的若干段落摘要以及起止时间;所述起止时间为所述若干音频段落文本中每一个音频段落文本各自对应的起止时间。
在一些实施例中,所述视频分离模块11,具体可以包括:
视频分割单元,用于基于所述起止时间对所述视频画面数据进行视频分割,以得到与所述若干音频段落文本对应的若干视频画面数据;
重复率计算单元,用于基于预设时间间隔分别抽取所述若干视频画面数据中每一个视频画面数据中的相邻视频帧,并计算所述相邻视频帧的画面重复率;所述相邻视频帧为基于所述预设时间间隔的两帧视频画面;
视频帧剔除单元,用于如果所述画面重复率大于预设重复率阈值,则从所述相邻视频帧中剔除一帧视频画面,以得到若干目标视频帧;
文本提取单元,用于基于光学字符识别技术提取所述若干目标视频帧中的文本,以得到若干视频画面文本。
在一些实施例中,所述基于视频信息的交互装置,还可以包括:
第一指令接收单元,用于基于所述若干段落摘要创建第一跳转接口,并判断是否通过所述第一跳转接口接收到与所述若干段落摘要中目标段落摘要对应的第一视频跳转指令;
第一画面切换单元,用于如果是,则基于所述目标段落摘要对应的第一目标起止时间将所述视频播放窗口中当前播放的视频画面数据切换为与所述第一目标起止时间对应的第一目标视频画面数据。
在一些实施例中,所述基于视频信息的交互装置,还可以包括:
文本转换单元,用于判断是否接收到语言转录指令,若是,则基于所述语言转录指令中的语言类型分别将所述若干音频段落文本以及所述若干视频画面文本转换为与所述语言类型对应的若干目标音频段落文本以及若干目标视频画面文本;
文本覆盖单元,用于将所述若干目标音频段落文本覆盖至所述视频播放窗口预设第一视频区域,并将所述若干目标视频画面文本覆盖至所述视频播放窗口预设第二视频区域。
在一些实施例中,所述问题匹配模块13,具体可以包括:
文本向量化单元,用于判断是否接收到输入的问题文本,若是,则对所述问题文本进行向量化,以得到向量化问题文本;
相似度计算单元,用于计算所述向量化问题文本与所述预设向量数据库中保存的所述向量化数据之间的相似度,并将计算得到的数值最高的相似度确定为目标相似度;
文本确定单元,用于将与所述目标相似度对应的向量化音频段落文本确定为目标向量化音频段落文本,并将与所述目标相似度对应的向量化视频画面文本确定为目标向量化视频画面文本。
在一些实施例中,所述基于视频信息的交互装置,还可以包括:
起止时间确定单元,用于确定与所述目标向量化音频段落文本以及与所述目标向量化视频画面文本对应的第二目标起止时间;
第二指令接收单元,用于创建与所述答案文本对应的第二跳转接口,并判断是否基于所述第二跳转接口接收到与所述答案文本对应的第二视频跳转指令;
第二指令接收单元,用于如果是,则将所述视频播放窗口中当前播放的视频画面数据跳转至与所述第二目标起止时间对应的第二目标视频画面数据。
进一步的,本申请实施例还公开了一种电子设备,图4是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本申请的使用范围的任何限制。
图4为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的基于视频信息的交互方法中的相关步骤。另外,本实施例中的电子设备20具体可以为电子计算机。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的基于视频信息的交互方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
进一步的,本申请还公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的基于视频信息的交互方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的技术方案进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种基于视频信息的交互方法,其特征在于,应用于视频播放客户端,包括:
对待处理视频文件进行分离操作,并对通过分离操作得到的音频数据以及视频画面数据进行预处理,以得到与所述音频数据对应的若干音频段落文本,以及与所述视频画面数据对应的若干视频画面文本;
对所述若干音频段落文本以及所述若干视频画面文本进行向量化,并将得到的向量化数据保存至预设向量数据库;
对接收到的问题文本进行向量化,并基于得到的向量化问题文本对所述预设向量数据库中保存的所述向量化数据进行相似度匹配,以确定与所述向量化问题文本对应的目标向量化数据;
将所述目标向量化数据以及所述向量化问题文本输入至预设语言模型,以生成与所述问题文本对应的答案文本,并将所述答案文本呈现至所述待处理视频文件的视频播放窗口。
2.根据权利要求1所述的基于视频信息的交互方法,其特征在于,对所述音频数据进行预处理,包括:
对所述音频数据进行语音识别,以得到与所述音频数据对应的音频文本;
利用预设语言模型对所述音频文本进行段落划分,以得到若干音频段落文本,并确定与所述若干音频段落文本对应的若干段落摘要以及起止时间;所述起止时间为所述若干音频段落文本中每一个音频段落文本各自对应的起止时间。
3.根据权利要求2所述的基于视频信息的交互方法,其特征在于,对所述视频画面数据进行预处理,包括:
基于所述起止时间对所述视频画面数据进行视频分割,以得到与所述若干音频段落文本对应的若干视频画面数据;
基于预设时间间隔分别抽取所述若干视频画面数据中每一个视频画面数据中的相邻视频帧,并计算所述相邻视频帧的画面重复率;所述相邻视频帧为基于所述预设时间间隔的两帧视频画面;
若所述画面重复率大于预设重复率阈值,则从所述相邻视频帧中剔除一帧视频画面,以得到若干目标视频帧;
基于光学字符识别技术提取所述若干目标视频帧中的文本,以得到若干视频画面文本。
4.根据权利要求2所述的基于视频信息的交互方法,其特征在于,还包括:
基于所述若干段落摘要创建第一跳转接口,并判断是否通过所述第一跳转接口接收到与所述若干段落摘要中目标段落摘要对应的第一视频跳转指令;
若是,则基于所述目标段落摘要对应的第一目标起止时间将所述视频播放窗口中当前播放的视频画面数据切换为与所述第一目标起止时间对应的第一目标视频画面数据。
5.根据权利要求1所述的基于视频信息的交互方法,其特征在于,还包括:
判断是否接收到语言转录指令,若是,则基于所述语言转录指令中的语言类型分别将所述若干音频段落文本以及所述若干视频画面文本转换为与所述语言类型对应的若干目标音频段落文本以及若干目标视频画面文本;
将所述若干目标音频段落文本覆盖至所述视频播放窗口预设第一视频区域,并将所述若干目标视频画面文本覆盖至所述视频播放窗口预设第二视频区域。
6.根据权利要求1至5任一项所述的基于视频信息的交互方法,其特征在于,所述对接收到的问题文本进行向量化,并基于得到的向量化问题文本对所述预设向量数据库中保存的所述向量化数据进行相似度匹配,以确定与所述向量化问题文本对应的目标向量化数据,包括:
判断是否接收到输入的问题文本,若是,则对所述问题文本进行向量化,以得到向量化问题文本;
计算所述向量化问题文本与所述预设向量数据库中保存的所述向量化数据之间的相似度,并将计算得到的数值最高的相似度确定为目标相似度;
将与所述目标相似度对应的向量化音频段落文本确定为目标向量化音频段落文本,并将与所述目标相似度对应的向量化视频画面文本确定为目标向量化视频画面文本。
7.根据权利要求6所述的基于视频信息的交互方法,其特征在于,所述将所述目标向量化数据以及所述向量化问题文本输入至预设语言模型,以生成与所述问题文本对应的答案文本,并将所述答案文本呈现至所述待处理视频文件的视频播放窗口之后,还包括:
确定与所述目标向量化音频段落文本以及与所述目标向量化视频画面文本对应的第二目标起止时间;
创建与所述答案文本对应的第二跳转接口,并判断是否基于所述第二跳转接口接收到与所述答案文本对应的第二视频跳转指令;
若是,则将所述视频播放窗口中当前播放的视频画面数据跳转至与所述第二目标起止时间对应的第二目标视频画面数据。
8.一种基于视频信息的交互装置,其特征在于,应用于视频播放客户端,包括:
视频分离模块,用于对待处理视频文件进行分离操作,并对通过分离操作得到的音频数据以及视频画面数据进行预处理,以得到与所述音频数据对应的若干音频段落文本,以及与所述视频画面数据对应的若干视频画面文本;
数据向量化模块,用于对所述若干音频段落文本以及所述若干视频画面文本进行向量化,并将得到的向量化数据保存至预设向量数据库;
问题匹配模块,用于对接收到的问题文本进行向量化,并基于得到的向量化问题文本对所述预设向量数据库中保存的所述向量化数据进行相似度匹配,以确定与所述向量化问题文本对应的目标向量化数据;
答案呈现模块,用于将所述目标向量化数据以及所述向量化问题文本输入至预设语言模型,以生成与所述问题文本对应的答案文本,并将所述答案文本呈现至所述待处理视频文件的视频播放窗口。
9.一种电子设备,其特征在于,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至7任一项所述的基于视频信息的交互方法。
10.一种计算机可读存储介质,其特征在于,用于保存计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于视频信息的交互方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310949052.2A CN116962787A (zh) | 2023-07-31 | 2023-07-31 | 一种基于视频信息的交互方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310949052.2A CN116962787A (zh) | 2023-07-31 | 2023-07-31 | 一种基于视频信息的交互方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116962787A true CN116962787A (zh) | 2023-10-27 |
Family
ID=88461636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310949052.2A Pending CN116962787A (zh) | 2023-07-31 | 2023-07-31 | 一种基于视频信息的交互方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116962787A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117634431A (zh) * | 2024-01-26 | 2024-03-01 | 山东浪潮科学研究院有限公司 | 一种评估文本风格转换质量的方法及系统 |
CN118626673A (zh) * | 2024-08-15 | 2024-09-10 | 山东浪潮科学研究院有限公司 | 一种基于多模态大模型的视频检索问答方法及系统 |
-
2023
- 2023-07-31 CN CN202310949052.2A patent/CN116962787A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117634431A (zh) * | 2024-01-26 | 2024-03-01 | 山东浪潮科学研究院有限公司 | 一种评估文本风格转换质量的方法及系统 |
CN118626673A (zh) * | 2024-08-15 | 2024-09-10 | 山东浪潮科学研究院有限公司 | 一种基于多模态大模型的视频检索问答方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110033659B (zh) | 一种远程教学互动方法、服务器、终端以及系统 | |
CN106331893B (zh) | 实时字幕显示方法及系统 | |
CN107993665B (zh) | 多人会话场景中发言人角色确定方法、智能会议方法及系统 | |
US20180130496A1 (en) | Method and system for auto-generation of sketch notes-based visual summary of multimedia content | |
CN116962787A (zh) | 一种基于视频信息的交互方法、装置、设备及存储介质 | |
CN110929094B (zh) | 一种视频标题处理方法和装置 | |
CN109583443B (zh) | 一种基于文字识别的视频内容判断方法 | |
CN113035199B (zh) | 音频处理方法、装置、设备及可读存储介质 | |
CN111711834B (zh) | 录播互动课的生成方法、装置、存储介质以及终端 | |
CN109754783A (zh) | 用于确定音频语句的边界的方法和装置 | |
CN111522970A (zh) | 习题推荐方法、装置、设备及存储介质 | |
JP2012181358A (ja) | テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム | |
CN110880324A (zh) | 语音数据的处理方法、装置、存储介质及电子设备 | |
CN112329451B (zh) | 手语动作视频生成方法、装置、设备及存储介质 | |
CN111614986A (zh) | 基于在线教育的弹幕生成方法、系统、设备及存储介质 | |
CN112399269A (zh) | 视频分割方法、装置、设备及存储介质 | |
CN110059224B (zh) | 投影仪设备的视频检索方法、装置、设备及存储介质 | |
CN110867187B (zh) | 语音数据的处理方法、装置、存储介质及电子设备 | |
CN113411674A (zh) | 视频的播放控制方法、装置、电子设备及存储介质 | |
CN113393841A (zh) | 语音识别模型的训练方法、装置、设备及存储介质 | |
CN110647613A (zh) | 一种课件构建方法、装置、服务器和存储介质 | |
CN113779345B (zh) | 一种教学材料生成方法、装置、计算机设备和存储介质 | |
CN110570838B (zh) | 语音流处理方法和装置 | |
CN110297965B (zh) | 课件页面的显示及页面集的构造方法、装置、设备和介质 | |
CN113409791A (zh) | 语音识别处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |