CN117746344A

CN117746344A - 一种猪场监控视频的事件分析方法、装置以及设备

Info

Publication number: CN117746344A
Application number: CN202410190087.7A
Authority: CN
Inventors: 薛素金; 周怡安; 李梦炜
Original assignee: Xiamen Nongxin Digital Technology Co ltd
Current assignee: Xiamen Nongxin Digital Technology Co ltd
Priority date: 2024-02-21
Filing date: 2024-02-21
Publication date: 2024-03-22
Anticipated expiration: 2044-02-21
Also published as: CN117746344B

Abstract

本发明公开了一种猪场监控视频的事件分析方法、装置以及设备，其包括：预先对每一摄像头圈定一感兴趣区域，确定所述感兴趣区域中包含目标对象的第一图像；根据所述第一图像的时间戳从猪场视频中获取预设长度的第一视频，其中，所述猪场视频利用webrtc进行实时录制得到，所述第一视频包含所述第一图像；将所述第一视频输入预设的图文对话模型中，通过所述图文对话模型对所述第一视频进行抽帧以及对抽帧得到的关键任务帧基于思维链技术创建的提示语模板进行分析归纳，得到目标事件并上报至平台进行管理。能够实现对海量监控视频数据进行有效利用，能够有效的实现监控视频自动生成监控事件。

Description

一种猪场监控视频的事件分析方法、装置以及设备

技术领域

本发明涉及视频处理技术领域，尤其涉及一种猪场监控视频的事件分析方法、装置以及设备。

背景技术

在规模化猪场中通常安装有大量监控摄像头，强化猪场的生产管理水平。很多品牌的摄像头都有自动视频录制功能：摄像头根据厂家或用户设定的一些规则，自动录制视频保存在本地nvr（网络视频录像机）中，再自动上传到云端服务器留存。这种情况下，云端保存有海量监控视频，有些是人们关心的生产事件，有些是人们不关心的事件，然而一个规模化猪场可能就有数百个摄像头，无时无刻都在上传监控视频，从而导致无法对监控视频进行分析和管理。

发明内容

有鉴于此，本发明的目的在于提出一种猪场监控视频的事件分析方法、装置以及设备，旨在解决目前无法对海量监控视频数据进行有效利用，存在猪场生产事件不能及时预警等问题。

为实现上述目的，本发明提供一种猪场监控视频的事件分析方法，所述方法包括：

预先对每一摄像头圈定一感兴趣区域，确定所述感兴趣区域中包含目标对象的第一图像；

根据所述第一图像的时间戳从猪场视频中获取预设长度的第一视频，其中，所述猪场视频利用webrtc进行实时录制得到，所述第一视频包含所述第一图像；

将所述第一视频输入预设的图文对话模型中，通过所述图文对话模型对所述第一视频进行抽帧以及对抽帧得到的关键任务帧基于思维链技术创建的提示语模板进行分析归纳，得到目标事件并上报至平台进行管理。

优选的，所述确定所述感兴趣区域中包含目标对象的第一图像，包括：

通过轮询检测方式抓取所述感兴趣区域中的图像，并利用闭集检测器对抓取的图像进行目标检测，得到包含所述目标对象的所述第一图像。

优选的，所述根据所述第一图像的时间戳从猪场视频中获取预设长度的第一视频，包括：

根据所述第一图像的时间戳从webrtc录制的猪场视频中获取对应时间戳的前5秒以及后5秒的视频片段进行拼接，得到所述第一视频。

优选的，所述通过所述图文对话模型对所述第一视频进行抽帧，包括：

将所述第一视频按照预设比例划分为前段、中段以及后段，分别计算所述前段、所述中段以及所述后段中所包含每一视频帧的质量分数；

根据所述质量分数确定每一段中质量最高的一视频帧，得到对应所述前段、所述中段以及所述后段的3个所述关键任务帧。

优选的，所述分别计算前段、中段以及后段中所包含每一视频帧的质量分数，包括：

分别计算前段、中段以及后段中所包含每一视频帧的运动模糊检测分数、对比度评估分数以及清晰度评估分数；

对每一视频帧的所述运动模糊检测分数、所述对比度评估分数以及所述清晰度评估分数进行归一化处理，并将归一化处理后得到的分数进行相加，得到对应每一视频帧的所述质量分数。

优选的，所述分别计算前段、中段以及后段中所包含每一视频帧的运动模糊检测分数、对比度评估分数以及清晰度评估分数，包括：

利用Sobel算子对每一视频帧进行计算，得到Sobel算子结果，将所述Sobel算子结果的方差作为所述运动模糊检测分数；

将每一视频帧转化为灰度图，将所述灰度图的方差作为所述对比度评估分数；

利用Laplacian算子对所述灰度图进行计算，得到Laplacian算子结果，将所述Laplacian算子结果的方差作为所述清晰度评估分数。

优选的，所述基于思维链技术创建的提示语模板，包括：

基于思维链技术创建包括角色扮演提示、图像区域粒度、图像区域间的位置关系粒度以及录制的猪场视频的地点和时间粒度的所述提示语模板。

优选的，所述对抽帧得到的关键任务帧基于思维链技术创建的提示语模板进行分析归纳，得到目标事件，包括：

根据所述提示语模板对所述关键任务帧进行单帧事件的时序归纳，得到对应所述关键任务帧的中间描述结果；

将所有所述中间描述结果遵循时间顺序进行事件总结，得到所述目标事件。

为实现上述目的，本发明还提供一种猪场监控视频的事件分析装置，所述装置包括：

确定单元，用于预先对每一摄像头圈定一感兴趣区域，确定所述感兴趣区域中包含目标对象的第一图像；

获取单元，用于根据所述第一图像的时间戳从猪场视频中获取预设长度的第一视频，其中，所述猪场视频利用webrtc进行实时录制得到，所述第一视频包含所述第一图像；

分析单元，用于将所述第一视频输入预设的图文对话模型中，通过所述图文对话模型对所述第一视频进行抽帧以及对抽帧得到的关键任务帧基于思维链技术创建的提示语模板进行分析归纳，得到目标事件并上报至平台进行管理。

为了实现上述目的，本发明还提出一种猪场监控视频的事件分析设备，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序被所述处理器执行以实现如上述实施例所述的一种猪场监控视频的事件分析方法的步骤。

为了实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行以实现如上述实施例所述的一种猪场监控视频的事件分析方法的步骤。

有益效果：

以上方案，通过预先对每一摄像头圈定一感兴趣区域，确定所述感兴趣区域中包含目标对象的第一图像，根据所述第一图像的时间戳从猪场视频中获取预设长度的第一视频，其中，所述猪场视频利用webrtc进行实时录制得到，所述第一视频包含所述第一图像，将所述第一视频输入预设的图文对话模型中，通过所述图文对话模型对所述第一视频进行抽帧以及对抽帧得到的关键任务帧基于思维链技术创建的提示语模板进行分析归纳，得到目标事件并上报至平台进行管理，能够实现对海量监控视频数据进行有效利用，能够有效的实现监控视频自动生成监控事件等任务，便于及时对一些重要事件进行预警，提高猪场的管理效率。

以上方案，可根据用户所关注的区域和内容的具体需求设置摄像头的感兴趣区域（比如用户希望得到禁止吸烟区域内吸烟的预警，则可对相应区域的摄像头进行区域的圈定），以提高应用的灵活性和个性化。

以上方案，通过图文对话模型进行事件监控分析的实现过程能够降低系统的部署难度以及成本；并且，先通过目标检测可以有效过滤大部分用户不关心的场景，极大减少模型的推理频次，大大节约推理成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种猪场监控视频的事件分析方法的流程示意图。

图2为本发明一实施例提供的整体流程示意图。

图3为本发明一实施例提供的示例参考截图。

图4为本发明一实施例提供的一种猪场监控视频的事件分析装置的结构示意图。

发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

以下结合实施例详细阐述本发明的内容。

参照图1所示为本发明一实施例提供的一种猪场监控视频的事件分析方法的流程示意图。

本实施例中，该方法包括：

S11，预先对每一摄像头圈定一感兴趣区域，确定所述感兴趣区域中包含目标对象的第一图像。

进一步的，在步骤S11中，所述确定所述感兴趣区域中包含目标对象的第一图像，包括：

S12，根据所述第一图像的时间戳从猪场视频中获取预设长度的第一视频，其中，所述猪场视频利用webrtc进行实时录制得到，所述第一视频包含所述第一图像。

进一步的，在步骤S12中，所述根据所述第一图像的时间戳从猪场视频中获取预设长度的第一视频，包括：

参照图2所示。在本实施例中，通过运用webrtc技术，在云端实时录制猪场摄像头视频，保存一定时间，超时自动删除。进一步的，通过基于目标检测模块不间断轮询检测猪场摄像头以抓取图片进行推理，其中该处使用的是闭集检测器，检测的类别是猪场生产中最关心的包括人、猪、老鼠等。闭集检测器工作在摄像头配置的感兴趣区域（ROI，Region ofInterest）中，每个摄像头需要预先圈定一个ROI（比如猪舍场景，通常对猪圈内的猪活动不感兴趣，但是对猪出现在过道的异常行为感兴趣，这时需要圈定过道范围为有效区域/感兴趣区域），在目标检测模块和模型工作时，都会提前截取ROI外部矩形，由于ROI可以是一个不规则区域，需要再把矩形中不属于ROI的区域涂黑避免干扰，之后在这张处理过的图片上再做目标检测。如果该图片中出现检测目标，目标检测模块调用视频拼接模块，视频拼接模块会按照抓取图片的时间戳，从webrtc保存的视频中截取对应视频片段，在本实施例中，通过选择截取图片时间戳对应的前5秒和后5秒一共10秒视频，作为最终截取的视频片段。Webrtc的视频录制模块设置的自动删除超时时间，需要保证上述操作（包括轮询检测以及视频拼接）可以完成。

进一步的，由于每个摄像头关注的区域和内容是不同的，比如用户想得到禁止吸烟区域内吸烟的预警，那么通过有效区域设置可以让用户自行决定关注的区域，如把禁止吸烟区域进行圈定。再有，多模态模型可以让用户自定义关心的内容，在模型上报事件后，如果用户有自定义事件的需求，可以采取简单的处理方式（计算上报事件和用户自定义事件的文本相似度或文本聚类等手段），将模型上报事件对应到用户具体关心的自定义事件上（比如模型上报事件可能是“一个人在吸烟”，用户自定义事件为“吸烟”，则会计算“一个人在吸烟”和“吸烟”的文本相似度，如果超过设定阈值，则会把上报事件归类到自定义事件）。当然该过程不是必须的，属于可选的定制化服务。

S13，将所述第一视频输入预设的图文对话模型中，通过所述图文对话模型对所述第一视频进行抽帧以及对抽帧得到的关键任务帧基于思维链技术创建的提示语模板进行分析归纳，得到目标事件并上报至平台进行管理。

进一步的，在步骤S13中，所述通过所述图文对话模型对所述第一视频进行抽帧，包括：

S13-11，将所述第一视频按照预设比例划分为前段、中段以及后段，分别计算所述前段、所述中段以及所述后段中所包含每一视频帧的质量分数；

S13-12，根据所述质量分数确定每一段中质量最高的一视频帧，得到对应所述前段、所述中段以及所述后段的3个所述关键任务帧。

进一步的，在步骤S13-11中，所述分别计算前段、中段以及后段中所包含每一视频帧的质量分数，包括：

S13-11-1，分别计算前段、中段以及后段中所包含每一视频帧的运动模糊检测分数、对比度评估分数以及清晰度评估分数；

S13-11-2，对每一视频帧的所述运动模糊检测分数、所述对比度评估分数以及所述清晰度评估分数进行归一化处理，并将归一化处理后得到的分数进行相加，得到对应每一视频帧的所述质量分数。

进一步的，在步骤S13-11-1中，所述分别计算前段、中段以及后段中所包含每一视频帧的运动模糊检测分数、对比度评估分数以及清晰度评估分数，包括：

在本实施例中，由于所分析的对象是视频，而视频动作的时序关系无法建模，与此同时，由于模型的限制，没有办法把监控视频直接输入模型进行处理，因此，通过从视频中抽取一些图片（视频帧），分别把这些图片（视频帧）输入模型进行对话，通过提出应用于图文对话模型视频理解的抽帧方式，并应用大语言模型对抽取的图片做时序上的简易建模，从而让图文对话模型理解视频内容。因此，通过选择图片对话模型用“抽帧”的方法推理的成本远远低于使用视频对话模型直接分析视频。

将上述拼接得到的10秒的监控视频按照预设比例自动分为前、中、后三段，在本实施例中，视频时长划分的预设比例为3:4:3，即上述10秒的监控视频，前3秒是前段，中间4秒是中段，最后3秒是后段。由于监控视频保存下的视频很多是有物体在运动的，传统的关键帧尽管拥有最高的数据量，却不可避免地被运动物体影响图像质量，容易出现运动模糊的情况。因此，通过综合考虑运动模糊、对比度、清晰度的影响，设计了一计算视频帧质量的算法，从所划分的每段视频中抽取质量最高的一帧用于后续任务。通过计算每一段中所包含的各视频帧的运动模糊检测分数、对比度评估分数以及清晰度评估分数，以确定质量最高的其中一帧。具体的：

（1）运动模糊检测（motion blur detection）：使用Sobel算子逐帧对彩色图进行计算，得到Sobel算子结果，将Sobel算子结果的方差作为运动模糊检测分数（），该值越高越好。Sobel算子一般用于边缘检测，方差是衡量数据分布的统计量。边缘检测的结果如果具有较高方差，说明图像中有较多的边缘和细节，这时图像更加清晰；反之说明图像模糊，这种模糊可能是运动导致的。

（2）对比度评估（contrast assessment）：将各段逐帧转为灰度图，灰度图的方差为作为对比度评估分数（），该值越高越好。图像对比度和图像亮度差异有关，和图像的颜色无关，因此不需要彩色图。灰度图只有一个通道，表示亮度。较高的方差表示图像中亮度分布范围更广，通常意味着较高的对比度；相反，较低的方差表明亮度分布较为集中，对比度较低。

（3）清晰度评估（sharpness assessment）：应用Laplacian算子逐帧对灰度图像进行计算，得到Laplacian算子结果，将Laplacian算子结果的方差作为清晰度评估分数（）。Laplacian算子同样是一种边缘检测算子，但是它的应用和Sobel算子略有不同：Sobel是一阶导数算子，适合较粗的边缘，这种特性在运动模糊检测中非常合适；Laplacian算子是二阶导数算子，它的检测更细腻，对更细微的边缘敏感，用于检测图像整体的清晰度比较合适。

由于三种分数计算的尺度不同，不能直接相加。则将三种分数分别在整段视频所有帧（每帧都计算这三个分数）上做最大最小归一化（），通过对数据进行标准化，把每种分数都缩放到[0, 1]。最后，每一帧把标准化后的三个分数相加，得到每帧的最终分数：

基于上述过程在前段、中段、后段视频中，每段取分数最高的帧作为后续处理的关键任务帧。

进一步的，在步骤S13中，所述基于思维链技术创建的提示语模板，包括：

在本实施例中，使用的图文对话模型是大语言模型微调出来的，这种形式的模型的优势是天生具有大语言模型自带的能力。图文对话（image chat）技术在大语言模型流行后爆发性增长，这项技术底层依托于大语言模型对自然语言理解和生成的超强能力，上层应用多模态技术在图片和大语言模型间建立桥梁，让模型可以把图像这样的抽象数据和自然语言产生“连接”。使用时输入一张图片，用自然语言和模型对话，模型可以用自然语言回答图片中的相关信息。因此，本文的图文对话模型既有多模态能力、又有大语言模型能力，本文中提到的多模态和大语言模型是同一个模型，使用的都是llava-v1.5-13b（b表示billion百亿，在大模型领域表示模型参数数量，从而体现模型规模，本实施例使用的是一个130亿参数的大模型）的模型。使用图文对话模型分析视频的缺陷是无法从时序上获得有效的联系，毕竟图片不是视频，技术上这是没有办法的（除非直接用视频对话模型，但是这种模型应用领域太狭窄，模型部署成本高昂，图片对话模型应用范围更广）。因此本文应用大语言模型（LLaVA多模态大模型）中自带的“推理归纳”能力，从文本信息上让模型做一个时序归纳，从而弥补所选取技术获取不到视频时序关系的缺陷。

在多模态领域中，粒度指的是数据不同的层次。图片、文本、视频等属于不同模态的数据，粒度可以指同一模态，也可以指不同模态，在同一模态中，文本有词、句子、段落等不同粒度，跨模态中，文本的词、句子可能对应图像的区域或完整图像。思维链技术是大语言模型兴起后提出的一种针对大语言模型的提示语设计方法，简单来说也就是想办法让大语言模型像人类一样思考。人类可以自然的把复杂问题拆解成多个简单的小问题，逐一解决小问题从而达成最终目标：使用思维链技术构建的提示语一般是自顶向下、逐层推进式的，针对“最终问题”，先设计若干“中间问题”让模型解决，而不是直接把“最终问题”抛出，这样会大大提高模型回答的准确率。

由于到模型训练数据以英文为主，所有提示语都是以英文形式给出，然而本文中的中文提示语仅是翻译用于理解，不会实际输入模型。本实施例基于思维链技术创建的提示语模板（以下提供对应英文表述的中文翻译）包括：

作为一名AI助手，你在扮演一位养猪行业专家。你需要遵循以下顺序一步一步思考问题的解决方法：

1、图中出现哪些对象。

2、图中所有出现对象的位置。

3、图片拍摄的地点和时间是猪场{地点}，{时间}。

4、请根据上述全部信息推测可能发生的事件，用一段话描述这个事件。

特别地，如果是生成相关标签，提示语4可改为：

4、请根据上述全部信息，给出一些相关标签。

本实施例通过设计“多粒度“提示语，包括首先使用常见的“角色扮演”提示，即特定领域知识（养猪专家），帮助模型快速理解自己的工作范围，让模型快速进入角色，激活对应参数，提示“一步一步思考”是帮助模型自行激活思维链模式，让模型按照我们给出的顺序递进式回答，这种方式可以提升模型回答的准确率。设计的三个“中间问题”中，问题1表示图像区域粒度，让模型从图像区域（较大范围）的信息中找到对应的文本描述，比如找到人、猪等。问题2是同样表示图像区域粒度，不同的是更强调图像区域间的位置关系，问题2主要是对象定位提示，在模型训练中，不再是简单的一张图对应一个简单的文字描述，文字描述中还会加入目标的位置信息，比如把图片标注（检测框）信息用文字形式描述加入训练，因此模型具有对于对象位置的理解，这种理解在多模态实际工作中也非常重要，位置关系的理解有助于模型理解事件。问题1、2激发模型多模态能力，让模型关注图像上的信息。

问题3需要输入摄像头录制视频的地点和时间，这是摄像头配置时带的信息，这个问题主要激活大语言模型的能力，让大语言模型根据具体的地点和时间做出推测。问题3依赖于业务层，平台业务层配置摄像头时需要输入摄像头绑定的位置，构建提示语时把这个绑定位置拿来，再加入截取图片的时间戳，激发模型的时空推理能力，事件发生的地点和时间可以更有效准确的帮助模型推理出当前发生的事件。以上三个问题粒度各不相同，极大丰富提示语的作用范围，尽最大可能发挥模型多模态能力。最后第4点是激活模型潜在的总结能力。

进一步的，在步骤S13中，所述对抽帧得到的关键任务帧基于思维链技术创建的提示语模板进行分析归纳，得到目标事件，包括：

S13-21，根据所述提示语模板对所述关键任务帧进行单帧事件的时序归纳，得到对应所述关键任务帧的中间描述结果；

S13-22，将所有所述中间描述结果遵循时间顺序进行事件总结，得到所述目标事件。

在本实施例中，通过使用llava-v1.5-13b的大语言模型能力，对选取的三帧（关键任务帧）进行时序归纳，设计的归纳提示语（以下提供对应英文表述的中文翻译）：

作为一名AI助手，你在扮演一位养猪行业专家。我给出三个有序描述：

1、XXX；

2、XXX；

3、XXX；

以上三个描述是在短时间内分别根据视频帧产生的，描述的顺序严格遵守时间前、中、后的顺序。请你像在看视频一样，提供一个简洁的短语，抓住在这段时间内发生的主要事件，不需要任何额外的解释或思考过程。

在本实施例把大语言模型当成解码器，让它完成归纳输出的工作，最终把归纳的短语当作事件上报平台进行管理，进一步的，平台可根据事件的等级情况下发告警至相应人员，比如，对于一般事件，平台不会发出警告，系统会在平台留存记录，管理人员在日常生产中可随时查看；而对于安全事件，平台会发出高危警告（如给责任人发短信预警）。然而，生产区安全事件（高危）：如吸烟、未穿防护服，生产区一般事件：如工人赶猪，生活区安全事件（高危）：如着火，生活区一般事件：如吃饭、吸烟等等。本实施例用于猪场监控分析，考虑到普适性和拓展性，构建了完整的业务流程。在图文对话模型分析监控视频的任务上，基于业务流程提出一种独特的抽帧方式和一套完整有效的提示语模板的构建方式，对于猪场其他基于图片的任务，思维链结合多粒度提示语的思路可以进行迁移应用。另外，通过对上报事件的预警能够做到有据可查，以上过程并不是单纯分析摄像头的视频流，而是分析录制的视频文件，这样在分析完推送预警事件时，事件对应的视频也会推送给用户，做到有据可依。即通过“预警事件+对应视频”的模式能够真正方便用户对猪场做出及时监管。

以下通过一具体例子进行说明（主要是针对步骤S13的说明）：

先获取各段的三张图片的推理结果，三张图片的截图参考图3所示，使用如下提示词（以下提供对应英文表述的中文翻译）：

作为一名AI助手，你正在扮演一名养猪业专家。你需要遵循以下顺序一步一步思考问题的解决方法：

1、图中出现哪些对象。

2、图中所有出现对象的位置。

3、这张图片是在养猪场的育肥舍拍摄的，时间是02-01上午10:11。

得到三段描述，三段描述接到总结提示词的1、2、3中：

提供对应英文表述的中文翻译如下：

1、图片中的物体包括一名男子、一个袋子、一堆猪和一个金属笼子。男子站在猪堆旁边，手里拿着袋子。金属笼子位于猪堆附近。这张照片是在一个养猪场的育肥舍拍摄的，育肥舍是一个设施，用于养育并喂养猪以增加其上市体重。男子正在搬动袋子，袋子里可能装有饲料或其他猪只所需的物资。他的行为表明，他要么是在向猪只运送物资，要么是在将物资运往农场内的另一个地点。

2、图像中，有一名穿着连身衣的男子站在猪圈里，和猪在一起。猪们摆出各种姿势，有的站着，有的躺着。男子位于图像中心，猪们分布在猪圈内，有的离男子近，有的远。这张照片拍摄于猪场的育肥舍，这是猪场内的一个特定位置，用于养育并喂养猪，以增加它们的体重，然后出售。男子正在搬运袋子，可能是饲料袋或其他猪只护理和维护所需的物资。这表明男子积极参与猪场的日常运营，确保促进猪只的生长发育。

3、图像展示了一个带有育肥舍的猪场。场景中有几只猪，有的站着，有的躺着。这些猪分布在育肥舍的不同区域，包括围栏内的猪圈和走道。围栏围起了猪圈，走道是穿过育肥舍中间的小径。猪的大小不一，表明它们处于不同的成长和发育阶段。整体场景展示了猪场日常生活和管理情况的一瞥。这三个描述是基于视频帧在短时间内生成的，严格遵循之前、期间和之后的顺序。就像你在观看一段视频一样，请提供一个简洁的短语来捕捉这段时间内发生的主要事件，无需任何额外的解释或思考过程。

最后输出的结果（提供对应英文表述的中文翻译）：

一名穿着工装裤的男子在养猪场移动一个袋子。

参照图4所示为本发明一实施例提供的一种猪场监控视频的事件分析装置的结构示意图。

在本实施例中，该装置20包括：

确定单元21，用于预先对每一摄像头圈定一感兴趣区域，确定所述感兴趣区域中包含目标对象的第一图像；

获取单元22，用于根据所述第一图像的时间戳从猪场视频中获取预设长度的第一视频，其中，所述猪场视频利用webrtc进行实时录制得到，所述第一视频包含所述第一图像；

分析单元23，用于将所述第一视频输入预设的图文对话模型中，通过所述图文对话模型对所述第一视频进行抽帧以及对抽帧得到的关键任务帧基于思维链技术创建的提示语模板进行分析归纳，得到目标事件并上报至平台进行管理。

该装置20的各个单元模块可分别执行上述方法实施例中对应步骤，故在此不对各单元模块进行赘述，详细请参见以上对应步骤的说明。

本发明实施例还提供一种猪场监控视频的事件分析设备，该设备包括如上所述的猪场监控视频的事件分析装置，其中，猪场监控视频的事件分析装置可以采用图4实施例的结构，其对应地，可以执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，详细可以参见上述实施例中的相关记载，此处不再赘述。

所述设备包括：手机、数码相机或平板电脑等具有拍照功能的设备，或者具有图像处理功能的设备，或者具有图像显示功能的设备。所述设备可包括存储器、处理器、输入单元、显示单元、电源等部件。

其中，存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(例如图像播放功能等)等；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器和输入单元对存储器的访问。

输入单元可用于接收输入的数字或字符或图像信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，本实施例的输入单元除了包括摄像头，还可包括触敏表面（例如触摸显示屏）以及其他输入设备。

显示单元可用于显示由用户输入的信息或提供给用户的信息以及设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元可包括显示面板，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器以确定触摸事件的类型，随后处理器根据触摸事件的类型在显示面板上提供相应的视觉输出。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现图1所示的猪场监控视频的事件分析方法。所述计算机可读存储介质可以是只读存储器，磁盘或光盘等。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例、设备实施例及存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

并且，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种猪场监控视频的事件分析方法，其特征在于，所述方法包括：

将所述第一视频输入预设的图文对话模型中，通过所述图文对话模型对所述第一视频进行抽帧以及对抽帧得到的关键任务帧基于思维链技术创建的提示语模板进行分析归纳，得到目标事件并上报至平台进行管理；

所述基于思维链技术创建的提示语模板，包括：

基于思维链技术创建包括角色扮演提示、图像区域粒度、图像区域间的位置关系粒度以及录制的猪场视频的地点和时间粒度的所述提示语模板；

所述对抽帧得到的关键任务帧基于思维链技术创建的提示语模板进行分析归纳，得到目标事件，包括：

2.根据权利要求1所述的一种猪场监控视频的事件分析方法，其特征在于，所述确定所述感兴趣区域中包含目标对象的第一图像，包括：

3.根据权利要求1所述的一种猪场监控视频的事件分析方法，其特征在于，所述根据所述第一图像的时间戳从猪场视频中获取预设长度的第一视频，包括：

4.根据权利要求1或3所述的一种猪场监控视频的事件分析方法，其特征在于，所述通过所述图文对话模型对所述第一视频进行抽帧，包括：

5.根据权利要求4所述的一种猪场监控视频的事件分析方法，其特征在于，所述分别计算前段、中段以及后段中所包含每一视频帧的质量分数，包括：

6.根据权利要求5所述的一种猪场监控视频的事件分析方法，其特征在于，所述分别计算前段、中段以及后段中所包含每一视频帧的运动模糊检测分数、对比度评估分数以及清晰度评估分数，包括：

7.一种猪场监控视频的事件分析装置，其特征在于，所述装置包括：

分析单元，用于将所述第一视频输入预设的图文对话模型中，通过所述图文对话模型对所述第一视频进行抽帧以及对抽帧得到的关键任务帧基于思维链技术创建的提示语模板进行分析归纳，得到目标事件并上报至平台进行管理；

所述基于思维链技术创建的提示语模板，包括：

8.一种猪场监控视频的事件分析设备，其特征在于，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序被所述处理器执行以实现如权利要求1至6任意一项所述的一种猪场监控视频的事件分析方法的步骤。