CN118506429A

CN118506429A - 一种基于视觉的面向智能教室的学生行为智能分类系统

Info

Publication number: CN118506429A
Application number: CN202410946256.5A
Authority: CN
Inventors: 张森; 张志利; 王伟; 乔志峰; 葛为民
Original assignee: Tianjin University of Technology; Tianjin Sino German University of Applied Sciences
Current assignee: Tianjin University of Technology; Tianjin Sino German University of Applied Sciences
Priority date: 2024-07-16
Filing date: 2024-07-16
Publication date: 2024-08-16
Anticipated expiration: 2044-07-16
Also published as: CN118506429B

Abstract

本发明属于视觉分析领域，公开了一种基于视觉的面向智能教室的学生行为智能分类系统，包括智能教室监控装置和表情识别装置；智能教室监控装置用于对课室进行拍摄，获得待分析视频；表情识别装置包括视频帧获取模块、人脸检测模块和人脸识别模块；视频帧获取模块用于采用预设的规则对待分析视频中的视频帧进行选择，得到多张待识别图像；人脸检测模块用于分别获取每张待识别图像的人脸区域；人脸识别模块用于对人脸区域进行识别，分别确定每个人脸区域中的人脸的表情类型。本发明有效地提高了人脸区域检测的效率。在相同的硬件性能时，本发明相较于现有技术获得人脸区域的时间更短，能够更加及时地实现对学生的表情的分类。

Description

一种基于视觉的面向智能教室的学生行为智能分类系统

技术领域

本发明涉及视觉分析领域，尤其涉及一种基于视觉的面向智能教室的学生行为智能分类系统。

背景技术

当需要评估学生对老师讲课的内容的接受程度时，传统的方式为由老师来观察学生的表情，当学生觉得内容听不懂时，通常会表现出疑惑、不耐烦等表示消极的态度的表情。而当学生觉得老师讲课的内容很有趣时，则通常会表现出专注的表情。但是，这种观察方式仅限于学生人数较少的情况，当学生人数较多时，老师便不能够快速地判断所有学生对授课内容的理解情况。随着CV技术的发展，现有技术中出现了通过采用图像识别的方式来获取学生的表情的技术，这种技术能够快速地对大量的学生的表情进行分类，从而有利于老师更加及时且全面地了解学生对授课内容的理解情况。

但是，现有技术中，通过图像识别的方式获取学生的表情时，一种是采用基于特征（例如五官之间的位置关系特征）的方式来对整张包含学生的表情的图像进行人脸检测，以获得学生的脸部区域，然后对脸部区域进行识别，以确定学生的脸部表情。这种检测人脸的方式由于涉及到特征提取，因此时间复杂度比较高，当需要从课堂的视频中对学生的各种脸部表情的分布情况进行实时统计时，需要较高性能的处理设备才能够保证统计的实时性，实施成本较高。另一种则是采用肤色检测模型来识别出图像中属于皮肤的区域，由于背景中也可能存在与皮肤区域颜色相近的像素点，因此，需要进一步对数量较多的区域进行分析以判断是否为人脸区域，这种识别方式的时间复杂度相较于前面的方式而言低一些，但是，依然每次都需要对所有的像素点进行判断才能确定人脸区域的准确位置。

发明内容

本发明的目的在于公开一种基于视觉的面向智能教室的学生行为智能分类系统，解决在对课堂上的学生的表情进行分类时，如何在降低对硬件的性能要求的同时，缩短表情分类的时间，提高输出分类结果的及时性的问题。

为了达到上述目的，本发明提供如下技术方案：

本发明提供了一种基于视觉的面向智能教室的学生行为智能分类系统，包括智能教室监控装置和表情识别装置；

智能教室监控装置用于对课室进行拍摄，获得待分析视频；

表情识别装置包括视频帧获取模块、人脸检测模块和人脸识别模块；

视频帧获取模块用于采用预设的规则对待分析视频中的视频帧进行选择，得到多张待识别图像；

人脸检测模块用于分别获取每张待识别图像的人脸区域；

人脸识别模块用于对人脸区域进行识别，分别确定每个人脸区域中的人脸的表情类型；

其中，分别获取每张待识别图像中的人脸区域，包括：

根据拍摄时刻从早到晚的顺序对待识别图像进行编号；

采用预设的编号间隔对待识别图像进行分组，将待识别图像分为多个集合；

分别对每个集合的待识别图像进行识别，获取待识别图像中的人脸区域，包括：

按照拍摄时刻从早到晚的顺序对同一集合中的待识别图像进行编号；

对于前两张待识别图像，将前两张待识别图像分别输入到训练好的卷积神经网络模型中进行识别，获得每张待识别图像中的人脸区域；

从第张待识别图像开始，采用如下方式获取人脸区域：

分别用、和表示第张待识别图像、第张待识别图像和第张待识别图像；

基于和计算检测系数；

基于检测系数计算检测框的边长；

在中，分别以中的每个人脸区域的坐标为检测框的中心，画出多个检测框；

采用预设的肤色检测模型，分别在每个检测框中获取人脸区域。

优选地，还包括统计装置；

统计装置用于对所有待识别图像中的表情类型进行统计，获得各种类型的表情的百分比。

优选地，对课室进行拍摄，获得待分析视频，包括：

在课室的黑板的正上方朝向课桌所在的区域进行拍摄，获得待分析视频。

优选地，采用预设的规则对待分析视频中的视频帧进行选择，得到多张待识别图像，包括：

将待分析视频分为多张视频帧；

采用固定的选择间隔获取待识别图像，每隔张视频帧，便将一张视频帧作为待识别图像。

优选地，对人脸区域进行识别，分别确定每个人脸区域中的人脸的表情类型，包括：

分别将每个人脸区域所对应的图像输入到预先训练好的表情分类模型中进行识别，获得人脸区域中的人脸的表情类型。

优选地，采用预设的编号间隔对待识别图像进行分组，将待识别图像分为多个集合，包括：

用表示预设的编号间隔，则第一个集合的待识别图像的编号的区间为；

第个集合的待识别图像的编号的区间为，，，为待识别图像的总数；

判断是否为0，若否，则将编号的区间为的待识别图像存到同一个集合中。

优选地，训练好的卷积神经网络模型为Mask R-CNN模型。

优选地，基于和计算检测系数，包括：

第一步，分别计算中的每个人脸区域的偏移距离：

对于中的人脸区域，的中心的坐标为，和分别表示的中心的横坐标和纵坐标；

在中，获取以坐标为中心，半径为的圆形区域；

获取圆形区域中距离最近的人脸区域，将和之间的距离作为偏移距离；

第二步，使用如下公式计算检测系数：

表示检测系数，表示中的人脸区域的集合，表示中的人脸区域的总数，表示中的人脸区域的偏移距离。

优选地，基于检测系数计算检测框的边长，包括：

使用如下公式计算检测框的边长：

表示检测框的边长，表示预设的检测框的最大长度，表示中的人脸区域的偏移距离的最大值。

优选地，在中，分别以中的每个人脸区域的坐标为检测框的中心，画出多个检测框，包括：

在中，分别以中的每个人脸区域的坐标为检测框的中心，画出多个形状为正方形的检测框。

本发明的效果：

本发明在对学生的表情进行分类的过程中，并不是仅仅依据单一的人脸检测方法来进行人脸区域的获取，而是综合了基于特征进行人脸区域检测的方法和基于肤色检测模型的方法来获取人脸区域。这种计算方式的优点在于，本发明利用了基于特征进行人脸区域检测的方法检测结果准确的特点，在对同一个集合中的待识别图像进行人脸区域的获取时，先对拍摄时刻较早的部分待识别图像进行检测以获取学生的脸部大致的活动幅度，即检测系数，然后，基于检测系数来确定检测框的大小，之后在需要进行人脸检测的待识别图像中画出检测框，最后利用肤色检测模型来从检测框中获取人脸区域，这样，不仅能够有效降低肤色检测模型所需要进行检测的像素点的数量，而且还大幅度地降低了需要对肤色检测模型识别出的区域进行形状等特征分析的区域的数量，从而有效地提高了人脸区域检测的效率。在相同的硬件性能时，本发明相较于现有技术获得人脸区域的时间更短，能够更加及时地实现对学生的表情的分类。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种基于视觉的面向智能教室的学生行为智能分类系统的一种示意图。

图2为本发明的一种基于视觉的面向智能教室的学生行为智能分类系统的另一种示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围参数。

如图1所示的一种实施例，本发明提供了一种基于视觉的面向智能教室的学生行为智能分类系统，包括智能教室监控装置和表情识别装置；

智能教室监控装置用于对课室进行拍摄，获得待分析视频；

人脸检测模块用于分别获取每张待识别图像的人脸区域；

其中，分别获取每张待识别图像中的人脸区域，包括：

根据拍摄时刻从早到晚的顺序对待识别图像进行编号；

拍摄时刻越早，则编号越小；

从第张待识别图像开始，采用如下方式获取人脸区域：

基于和计算检测系数；

基于检测系数计算检测框的边长；

在对学生的表情进行分类的过程中，并不是仅仅依据单一的人脸检测方法来进行人脸区域的获取，而是综合了基于特征进行人脸区域检测的方法和基于肤色检测模型的方法来获取人脸区域。这种计算方式的优点在于，本发明利用了基于特征进行人脸区域检测的方法检测结果准确的特点，在对同一个集合中的待识别图像进行人脸区域的获取时，先对拍摄时刻较早的部分待识别图像进行检测以获取学生的脸部大致的活动幅度，即检测系数，然后，基于检测系数来确定检测框的大小，之后在需要进行人脸检测的待识别图像中画出检测框，最后利用肤色检测模型来从检测框中获取人脸区域，这样，不仅能够有效降低肤色检测模型所需要进行检测的像素点的数量，而且还大幅度地降低了需要对肤色检测模型识别出的区域进行形状等特征分析的区域的数量，从而有效地提高了人脸区域检测的效率。在相同的硬件性能时，本发明相较于现有技术获得人脸区域的时间更短，能够更加及时地实现对学生的表情的分类。

优选地，预设的编号间隔为10。这个编号间隔可以根据硬件性能进行设定，硬件性能越高，则编号间隔可以设置得越小，表示对同一段待分析视频中越多的视频帧进行表情的识别。硬件性能越低，则编号间隔可以设置得越大，表示对同一段待分析视频中越少的视频帧进行表情的识别。

优选地，如图2所示，还包括统计装置；

具体的，表情的类型包括专注、反感、困惑等。统计时，可以按照老师的设定进行统计，例如，统计最近的一分钟内的待分析视频中的各种类型的表情的百分比。

优选地，还包括显示装置；

显示装置用于显示各种类型的表情的百分比。

优选地，对课室进行拍摄，获得待分析视频，包括：

具体的，拍摄的开始和结束可以由老师进行控制。一般课堂上并不会一直在讲课，而是会有提问，做题等环节。老师可以在讲课的阶段控制智能教室监控装置用于对课室进行拍摄。

另外，老师还可以控制每次拍摄的时间长度。例如，每次拍摄1分钟长的待分析视频。

将待分析视频分为多张视频帧；

具体的，待分析视频中包含的多张的视频帧，由于待拍摄视频中，每秒同时存在数量较多的图像帧，若对所有的图像帧进行分析，显然是浪费硬件性能的，这是因为，在非常短的时间内，学生的表情是基本不变的。因此，本发明通过设置选择间隔，能够使得得到的待分析图像更加具有代表性。避免对短时间内内容相同的视频帧进行分析，从而能够在及时获得学生的表情的同时，实现对计算量的降低，为本发明后续的人脸检测方案的实现提供了有效的支持。

优选地，为10。

当为10时，则表示待分析视频中的第1张、第11张、第21张等视频帧被选为待识别图像。

具体的，预先训练好的表情分类模型可以是DCGAN模型、LSTM模型等。

由于待识别图像的总数可能不会刚好被除尽，因此，本发明还对是否为0进行了判断，当为0时，表示能够被除尽。当不能除尽时，本发明将最后剩余的待识别图像存入到一个集合中。

优选地，预设的编号间隔为30。这个编号间隔可以根据课堂上学生的活跃程度来进行自适应调整，越活跃的学生，编号间隔越小。

优选地，训练好的卷积神经网络模型为Mask R-CNN模型。

具体的，使用Mask R-CNN进行人脸区域识别为现有的技术，其过程大致如下：

输入图像：模型接收一个包含人脸的图像作为输入。

特征提取：使用卷积神经网络（CNN）从输入图像中提取特征。这些特征捕获了图像的视觉信息，如边缘、纹理和形状。

区域提议网络（RPN）：RPN负责在图像中快速高效地识别出可能包含人脸的区域。它生成一系列候选的边界框，即所谓的区域建议（Region Proposals）。

边界框分类和边界框回归：对于RPN生成的每个候选区域，模型使用额外的卷积层来分类这些区域是否包含人脸，并调整边界框的位置和尺寸以更准确地定位人脸。

掩码分支：对于分类为人脸的边界框，Mask R-CNN使用一个额外的全卷积网络（FCN）来预测每个边界框内人脸的像素掩码。这个掩码是一个二进制图像，其中包含人脸的像素被标记为1，不包含的为0。

损失函数：模型的训练涉及到最小化损失函数，该函数通常包括边界框分类损失、边界框回归损失和掩码预测损失。

后处理：在模型生成掩码之后，可能需要应用一些后处理步骤，如阈值处理，以去除低置信度的掩码区域。

输出：最终输出是一组精确的边界框和相应的像素掩码，这些掩码准确地表示了图像中人脸的位置和轮廓。

优选地，基于和计算检测系数，包括：

第一步，分别计算中的每个人脸区域的偏移距离：

在中，获取以坐标为中心，半径为的圆形区域；

第二步，使用如下公式计算检测系数：

具体的，检测系数能够对学生的脸部的移动幅度进行表示，检测系数越大，则表示在于和中，学生的脸部的移动幅度越大。检测系数在计算时并不是简单地基于平均数计算得到的，因为平均数可能会抵消掉移动幅度的变化。因此，本发明通过求取方差的方式来计算检测系数，从而能更加准确地表示脸部位置的总体移动幅度。

优选地，半径为30。

优选地，基于检测系数计算检测框的边长，包括：

使用如下公式计算检测框的边长：

在本发明中，检测框的边长与检测系数正相关，检测系数越大，则检测框的边长越长，从而能够在学生的脸部的移动幅度较大时，获取更大的人脸区域检测范围以保证正确地识别出学生的脸部区域。

优选地，预设的检测框的最大长度为30。这个最大长度可以根据待识别图像的分辨率来进行设定，分辨率越高，则最大长度越大。

这里检测框的边长为基于检测系数计算得到的边长。

优选地，采用预设的肤色检测模型，分别在每个检测框中获取人脸区域，包括：

采用椭圆肤色模型对检测框中的像素点进行识别，获取检测框中符合椭圆肤色模型的像素点；

获取检测框中符合椭圆肤色模型的像素点组成的所有连通域的集合LU；

若LU中的连通域只有一个，则将LU中的连通域作为人脸区域；

若LU中的连通域的数量大于等于2，则使用如下规则获取人脸区域：

基于LU计算连通域筛选系数；

若连通域筛选系数小于等于设定的连通域筛选系数阈值，则采用第一规则获取人脸区域；若连通域筛选系数大于设定的连通域筛选系数阈值，则采用第二规则获取人脸区域。

虽然已经大幅度的缩小了人脸区域的识别范围，但是，在脸部位置的总体移动幅度较大时，检测框中依然存在较多的背景部分的像素点，这些像素点也是可能符合椭圆肤色模型的。因此，本发明在获得由符合椭圆肤色模型的像素点组成的连通域的集合之后，并不是直接将面积最大的连通域来作为人脸的区域，因为这样容易存在误检测的情况，例如，当学生A穿着背心，将手臂伸向前时，这样便可能会导致检测框中出现两个面积大于人脸区域的连通域，因为手臂的皮肤与人脸的皮肤之间的颜色接近。

因此，本发明是基于连通域筛选系数来进行连通域的筛选的，能得到更加准确的人脸区域。

优选地，连通域筛选系数的计算公式为：

表示连通域筛选系数，表示LU中面积最大的连通域的面积；表示LU中面积第二大的连通域的面积。

连通域系数为面积最大的前两个连通域之间进行比较，因为一般来说，由于本发明已经限定了检测框的位置，人脸区域一般就是检测框中面积最大的区域，但是，由于学生可能存在后仰等改变自身与智能教室监控装置之间的距离的可能，因此，人脸区域可能并不是面积最大的区域，本发明通过计算筛选系数，当这两个区域之间的面积差异过大时，可以认为面积较小的连通域属于人脸区域的可能性非常小。

而现有技术中，采用肤色检测模型来进行检测时，由于并没有采用本发明的检测框的方案，其并不能直接根据连通域筛选系数来判断面积较小的连通域属于人脸区域的可能性。因为背景中可能会存在较多与人脸区域的大小相似，且面积也接近的区域。

优选地，连通域筛选系数阈值为0.2。

优选地，采用第一规则获取人脸区域，包括：

将LU中面积最大的连通域作为人脸区域。

具体的，当连通域筛选系数符合要求时，表示检测框内其它的连通域与人脸区域之间的面积差距过大，因此，可以直接根据面积来进行连通域的筛选。

优选地，采用第二规则获取人脸区域，包括：

当LU中的人脸区域的数量大于等于2且小于5时，计算LU中所有的连通域的判断值；

当LU中的人脸区域的数量大于等于5时，获取LU中面积最大的前5个连通域；

分别计算每个连通域的判断值；

将判断值最大的连通域作为人脸区域。

具体的，在计算判断值时，需要用到面积，因此，面积过小的连通域，其计算检测值的价值基本为0，因此，本发明仅对前5个连通域计算判断值，能够在准确地识别出人脸区域的同时，减少识别的时间。

优选地，判断值的计算公式为：

表示连通域的判断值，表示连通域的面积，表示LU中的连通域的面积的最大值，表示连通域的轮廓与预设的标准人脸轮廓之间的相似度，为设定的比例值。

具体的，判断值除了考虑面积之外，还考虑了连通域的轮廓特征，从而使得判断值能够更加准确地且综合地表示连通域属于人脸区域的可能性。判断值越大，则可能性越大。一般来说，人脸的轮廓接近椭圆形。因此通过与标准人脸轮廓进行对比，便能有效地判断出连通域属于人脸区域的可能性。

优选地，的值为0.4。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于视觉的面向智能教室的学生行为智能分类系统，其特征在于，包括智能教室监控装置和表情识别装置；

智能教室监控装置用于对课室进行拍摄，获得待分析视频；

人脸检测模块用于分别获取每张待识别图像的人脸区域；

其中，分别获取每张待识别图像中的人脸区域，包括：

根据拍摄时刻从早到晚的顺序对待识别图像进行编号；

从第张待识别图像开始，采用如下方式获取人脸区域：

分别用、和表示第张待识别图像、第张待识别图像和第张待识别图像；大于等于2；

基于和计算检测系数；

基于检测系数计算检测框的边长；

2.根据权利要求1所述的一种基于视觉的面向智能教室的学生行为智能分类系统，其特征在于，还包括统计装置；

3.根据权利要求1所述的一种基于视觉的面向智能教室的学生行为智能分类系统，其特征在于，对课室进行拍摄，获得待分析视频，包括：

4.根据权利要求1所述的一种基于视觉的面向智能教室的学生行为智能分类系统，其特征在于，采用预设的规则对待分析视频中的视频帧进行选择，得到多张待识别图像，包括：

将待分析视频分为多张视频帧；

5.根据权利要求1所述的一种基于视觉的面向智能教室的学生行为智能分类系统，其特征在于，对人脸区域进行识别，分别确定每个人脸区域中的人脸的表情类型，包括：

6.根据权利要求1所述的一种基于视觉的面向智能教室的学生行为智能分类系统，其特征在于，采用预设的编号间隔对待识别图像进行分组，将待识别图像分为多个集合，包括：

7.根据权利要求1所述的一种基于视觉的面向智能教室的学生行为智能分类系统，其特征在于，训练好的卷积神经网络模型为Mask R-CNN模型。

8.根据权利要求1所述的一种基于视觉的面向智能教室的学生行为智能分类系统，其特征在于，基于和计算检测系数，包括：

第一步，分别计算中的每个人脸区域的偏移距离：

在中，获取以坐标为中心，半径为的圆形区域；

第二步，使用如下公式计算检测系数：

，

9.根据权利要求8所述的一种基于视觉的面向智能教室的学生行为智能分类系统，其特征在于，基于检测系数计算检测框的边长，包括：

使用如下公式计算检测框的边长：

，

10.根据权利要求1所述的一种基于视觉的面向智能教室的学生行为智能分类系统，其特征在于，在中，分别以中的每个人脸区域的坐标为检测框的中心，画出多个检测框，包括：