CN115862124A - 视线估计方法、装置、可读存储介质及电子设备 - Google Patents
视线估计方法、装置、可读存储介质及电子设备 Download PDFInfo
- Publication number
- CN115862124A CN115862124A CN202310120571.8A CN202310120571A CN115862124A CN 115862124 A CN115862124 A CN 115862124A CN 202310120571 A CN202310120571 A CN 202310120571A CN 115862124 A CN115862124 A CN 115862124A
- Authority
- CN
- China
- Prior art keywords
- sight
- data
- graph
- sight line
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000010801 machine learning Methods 0.000 claims abstract description 56
- 238000010586 diagram Methods 0.000 claims abstract description 26
- 210000001508 eye Anatomy 0.000 claims description 119
- 210000003128 head Anatomy 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 230000000007 visual effect Effects 0.000 claims description 7
- 210000001747 pupil Anatomy 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 4
- 210000005252 bulbus oculi Anatomy 0.000 claims description 3
- 230000004424 eye movement Effects 0.000 claims description 3
- 210000000744 eyelid Anatomy 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000011478 gradient descent method Methods 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000036544 posture Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Ophthalmology & Optometry (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种视线估计方法、装置、可读存储介质及电子设备,该方法,包括:获取眼部数据,并基于所述眼部数据确定多个视线特征点的状态和位置信息;以各个所述视线特征点为节点,并建立节点间的关系,以得到图模型;根据各个所述视线特征点的状态和位置信息确定所述图模型的特征信息,并将所述特征信息赋予所述图模型,得到所述眼部数据对应的图表示;将所述图表示输入至图机器学习模型中,以通过所述图机器学习模型进行视线估计,并输出视线数据。本发明利用已预先训练的图机器学习模型,基于视线特征数据的图表示,计算出视线数据。该方法鲁棒性强,准确性更高,且无需校准环节。
Description
技术领域
本发明涉及计算机视觉领域,特别是涉及一种视线估计方法、装置、可读存储介质及电子设备。
背景技术
视线估计技术广泛应用于人机交互、虚拟现实、增强现实、医学分析等领域。视线追踪技术用于估计用户的视线方向,通常由视线估计装置来实现用户的视线估计。
现有的视线估计方法,在提供视线估计能力前,通常包含视线校准过程,影响了使用者的体验。并且,在使用过程中,一般要求视线估计装置与用户头部的相对位姿固定,但是用户很难长时间保持视线估计装置与头部相对位姿固定,因此很难提供准确的视线估计能力。
发明内容
鉴于上述状况,有必要针对现有技术中视线估计不准确的问题,提供一种视线估计方法、装置、可读存储介质及电子设备。
本发明公开了一种视线估计方法,包括:
获取眼部数据,并基于所述眼部数据确定多个视线特征点的状态和位置信息,所述视线特征点为包含有眼球运动信息可用于计算视线数据的点;
以各个所述视线特征点为节点,并建立节点间的关系,以得到图模型;
根据各个所述视线特征点的状态和位置信息确定所述图模型的特征信息,并将所述特征信息赋予所述图模型,得到所述眼部数据对应的图表示;
将所述图表示输入至图机器学习模型中,以通过所述图机器学习模型进行视线估计,并输出视线数据,所述图机器学习模型预先经过样本集训练过,所述样本集包括多个图表示样本和对应的视线数据样本。
进一步的,上述视线估计方法,其中,所述眼部数据为相机采集的眼部图像或传感器设备采集的数据;
当所述眼部数据为相机采集的眼部图像时,所述多个视线特征点包括至少两个必要特征点,或至少一个必要特征点和至少一个非必要特征点,所述必要特征点包括,瞳孔中心点、瞳孔椭圆焦点、瞳孔轮廓点、虹膜上特征和虹膜边缘轮廓点,所述非必要特征点包括光斑中心点和眼睑关键点;
当所述眼部数据为传感器设备采集的数据时,所述传感器设备包括多个空间分布稀疏的光电传感器,所述多个视线特征点为光电传感器的预设参考点。
进一步的,上述视线估计方法,其中,所述眼部数据为相机采集的眼部图像,所述多个视线特征点为通过特征提取网络对所述眼部图像进行特征提取所确定的多个特征点。
进一步的,上述视线估计方法,其中,所述特征信息包括节点特征和/或边特征,所述节点特征包括:
节点对应的视线特征点的状态和/或位置;
所述边特征包括:
边所连接的两节点对应的视线特征点间的距离和/或向量。
进一步的,上述视线估计方法,其中,所述建立节点间的关系的步骤包括:
根据各个所述节点的分布形式,按照预设规则将节点与节点之间用边连接。
进一步的,上述视线估计方法,其中,所述眼部数据为相机采集的眼部图像,所述多个视线特征点包括瞳孔中心点和所述瞳孔中心点周围的多个光斑中心点,所述根据各个所述节点的分布形式,按照预设规则将节点与节点之间用边连接的步骤包括:
将瞳孔中心点对应的节点与光斑中心点对应的节点之间用无方向的边连接。
进一步的,上述视线估计方法,其中,所述眼部数据为相机采集的眼部图像,所述多个视线特征点为通过特征提取网络对所述眼部图像进行特征提取所确定的特征点,所述根据各个所述节点的分布形式,按照预设规则将节点与节点之间用边连接的步骤包括:
将相邻的特征点之间用无方向的边连接。
进一步的,上述视线估计方法,其中,所述眼部数据为传感器设备采集的数据,所述传感器设备包括多个空间分布稀疏的光电传感器,所述多个视线特征点为光电传感器的预设参考点,所述根据各个所述节点的分布形式,按照预设规则将节点与节点之间用边连接的步骤包括:
将相邻的节点之间用无方向的边连接。
进一步的,上述视线估计方法,其中,所述图机器学习模型进行训练的过程包括:
采集{眼部数据样本,视线数据样本}样例,所述眼部数据样本包括眼部数据采集装置在相对于用户头部的多个姿态下,分别采集的眼部数据样本;
提取所述眼部数据样本中的各个视线特征点,得到视线特征点样本;
根据所述视线特征点样本生成图表示样本,并根据所述图表示样本与对应的视线数据样本,建立{图表示样本,视线数据样本}样例;
利用所述{图表示样本,视线数据样本}样例对所述图机器学习模型进行训练,其中,所述图机器学习模型的输入为图表示样本,输出为视线数据。
进一步的,上述视线估计方法,其中,所述眼部数据采集装置相对于用户头部的姿态包括:
所述眼部数据采集装置正戴于所述用户头部;
所述眼部数据采集装置相对于正戴于所述用户头部状态时,上移预设距离,或向上转动预设角度;
所述眼部数据采集装置相对于正戴于所述用户头部状态时,下移预设距离,或向下转动预设角度;
所述眼部数据采集装置相对于正戴于所述用户头部状态时,左移预设距离,或向左转动预设角度;
所述眼部数据采集装置相对于正戴于所述用户头部状态时,右移预设距离,或向右转动预设角度。
本发明还公开了一种视线估计装置,包括:
数据获取模块,用于获取眼部数据,并基于所述眼部数据确定多个视线特征点的状态和位置信息,所述视线特征点为包含有眼球运动信息可用于计算视线数据的点;
图模型建立模块,用于以各个所述视线特征点为节点,并建立节点间的关系,以得到图模型;
图表示建立模块,用于根据各个所述视线特征点的状态和位置信息确定所述图模型的特征信息,并将所述特征信息赋予所述图模型,得到所述眼部数据对应的图表示;
视线估计模块,用于将所述图表示输入至图机器学习模型中,以通过所述图机器学习模型进行视线估计,并输出视线数据,所述图机器学习模型预先经过样本集训练过,所述样本集包括多个图表示样本和对应的视线数据样本。
本发明还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述的视线估计方法。
本发明还公开了一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的视线估计方法。
本发明提出了一种基于图表示的视线估计方法,根据眼部数据确定视线特征点的状态和位置,并根据视线特征点以及视线特征点的状态和位置构建图表示,并利用已预先训练的图机器学习模型,基于视线特征数据的图表示,计算出视线数据。该方法鲁棒性强,准确性更高,且无需校准环节。
附图说明
图1为本发明实施例1中的视线估计方法的流程图;
图2为眼部图像中瞳孔中心点与6个光斑中心点的示意图;
图3为实施例2中的视线特征的图表示;
图4为空间分布稀疏的光电传感器装置示意图;
图5为实施例3中的视线特征的图表示;
图6为本发明实施例4中的视线估计装置的结构示意图;
图7为本发明实施例中电子设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
实施例1
请参阅图1,为本发明实施例1中的视线估计方法,包括步骤S11~S14。
步骤S11,获取眼部数据,并基于所述眼部数据确定多个视线特征点的状态和位置信息,所述视线特征点为包含有眼球运动信息可用于计算视线数据的点。
该眼部数据为相机采集的人眼部位的图像,例如可以是一个相机拍摄的一张图,也可以是单个相机拍摄的多张图(序列图像),或者是多个相机对同一对象拍摄的多张图,也或者是空间分布稀疏的光电传感器的位置及读数。本实施例中的相机指任何可以捕捉和记录影像的设备,通常,其元器件包括:成像元件、暗室、成像介质与成像控制结构,其成像介质为CCD或CMOS。空间分布稀疏的光电传感器,是指光电传感器是空间分布稀疏的。
通过该眼部数据可以确定多个视线特征点以及各个特征点的状态和位置信息。若该眼部数据为相机采集的眼部图像,该多个视线特征点包括至少两个必要特征点,或至少一个必要特征点和至少一个非必要特征点,该必要特征点包括,瞳孔中心点、瞳孔椭圆焦点、瞳孔轮廓点、虹膜上特征和虹膜边缘轮廓点,该非必要特征点包括光斑中心点和眼睑关键点。若该眼部数据为传感器设备(该传感器设备包括多个空间分布稀疏的光电传感器)采集的眼部数据,则该多个视线特征点为光电传感器的预设参考点。
进一步的,在本发明的其他实施例中,该眼部数据为相机采集的眼部图像时,该多个视线特征点还可以为通过特征提取网络对所述眼部图像进行特征提取所确定的多个特征点。该特征提取网络HS-ResNet首先通过传统的卷积生成特征图,该视线特征点即为该特征图中的特征点。该特征图中的特征点,可以为上述所提到的必要特征点和非必要特征点,也可以是必要特征点和非必要特征点之外的点。
视线特征点的状态,指该视线特征点的存在状态,如是否在图像中存在,或是否被特征提取模块提取成功,或视线特征点对应的光电传感器的读数。视线特征点的位置,指视线特征点在图像坐标系下的二维坐标或物理坐标系(如任一相机坐标系或任一光电传感器坐标系)下的三维坐标。
多个视线特征点形成视线特征点集。针对单个相机拍摄的一张图,视线特征点集的数据格式为{[x0,y0], [x1, y1], ..., [xm, ym]},其中[xm,ym]为编号m的视线特征点在图像坐标系下的坐标。
针对同一相机拍摄的同一对象的多张图(序列图像)或多个相机同时拍摄的同一对象的多张图,视线特征点集的数据格式为{[x00, y00], [x01, y01], ..., [x0n,y0n]},{[x10, y10], [x11, y11],..., [x1n, y1n]}, ..., {[xm0, ym0],[xm1, ym1], ..., [xmn,ymn]},或者{[x00,y00], [x10, y10], ..., [xm0, ym0]},{[x01, y01], [x11, y11], ...,[xm1,ym1]}, ..., {[x0n, y0n], [x1n, y1n],..., [xmn, ymn]}。其中m为特征点编号,n为图像编号,[xmn,ymn]表示编号m的视线特征点在编号n的图像坐标系下的二维坐标。
针对同一相机拍摄的同一对象的多张图(序列图像)或多个相机同时拍摄的同一对象的多张图,视线特征点集的数据格式也可以为{[x0,y0, z0], [x1, y1, z1],..., [xn,yn, zn]}。其中,[xn,yn, zn]为编号为n的特征点在物理坐标系下(例如任一相机坐标系)的三维坐标。
可以理解的,视线特征点在一张或多张图中的图像坐标系下的二维坐标可通过传统图像处理或基于深度学习的神经网络模型得到;视线特征点的三维坐标可依据其在多张图中的二维坐标,通过传统多视角几何计算或基于深度学习的神经网络模型计算得到,或依据单张图或多张图直接基于深度学习的神经网络模型计算得到。
若该眼部数据为光电传感器设备采集的眼部的数据,该视线特征点集的数据格式为{[x0,y0, z0, s0], [x1, y1, z1,s1], ..., [xn, yn, zn, sn]},其中[xn,yn, zn, sn]表示编号为n的光电传感器的位置及读数。
步骤S12,以各个所述视线特征点为节点,并建立节点间的关系,以得到图模型。
在离散数学中,图是用于表示物体与物体之间存在某种关系的结构。数学抽象后的“物体”称为节点或顶点,节点间的相关关系则称作为边。在描绘一张图时,通常用一组点或小圆圈表示节点,图中的边则使用直线或曲线,图的边可以是有方向或没有方向的。以各个视线特征点为节点,并建立节点间关系,得到图模型。其中,建立节点间的关系时可以根据各个节点的分布形式,按照预设规则将节点与节点之间用边连接。
步骤S13,根据各个所述视线特征点的状态和位置信息确定所述图模型的特征信息,并将所述特征信息赋予所述图模型,得到所述眼部数据对应的图表示。
该特征信息包括节点特征和/或边特征,该节点特征包括:节点对应的视线特征点的状态和/或位置;
该边特征包括:边所连接的两节点对应的视线特征点间的距离和/或向量。
步骤S14,将所述图表示输入至图机器学习模型中,以通过所述图机器学习模型进行视线估计,并输出视线数据,所述图机器学习模型预先经过样本集训练过,所述样本集包括多个图表示样本和对应的视线数据样本。
该图机器学习模型预先经过样本集训练,该样本集包括多个图表示样本和对应的视线数据样本。图机器学习模型的训练步骤如下:
a)采集{眼部数据样本,视线数据样本}样例,眼部数据样本为图像数据或光电传感器的位置及读数。该眼部数据样本包括眼部数据采集装置在相对于用户头部的多个姿态下,分别采集的眼部数据样本。该眼部数据样本是示例(关于相机或光电传感器记录的对应信息的描述),视线数据是标记(关于示例对应的视线结果信息)。
其中,所述眼部数据采集装置相对于用户头部的姿态包括:
所述眼部数据采集装置正戴于所述用户头部;
所述眼部数据采集装置相对于正戴于所述用户头部状态时,上移预设距离,或向上转动预设角度;
所述眼部数据采集装置相对于正戴于所述用户头部状态时,下移预设距离,或向下转动预设角度;
所述眼部数据采集装置相对于正戴于所述用户头部状态时,左移预设距离,或向左转动预设角度;
所述眼部数据采集装置相对于正戴于所述用户头部状态时,右移预设距离,或向右转动预设角度。
b)制作{视线特征点集样本,视线数据样本}样例。依据{眼部数据样本,视线数据样本}样例,基于眼部数据确定视线特征点,得到视线特征点集,并与对应的视线数据样本构成{视线特征点集样本,视线数据样本}样例。
c)制作{图表示样本,视线数据样本}样例。依据{视线特征点集样本,视线数据样本},基于视线特征点集样本和步骤S12、S13,得到视线特征点集样本对应的图表示样本,并将图表示样本与对应的视线数据样本,组成{图表示样本,视线数据样本}样例。
d)确定图机器学习模型结构。模型输入为图表示,模型输出为视线数据。模型结构由多层图神经网络与全连接网络等构成。
e)前向传播计算。从{图表示样本,视线数据样本}样例中,取一批数据,得到图表示样本A与视线数据标记D。图表示样本A输入图机器学习模型,先经过多层图神经网络得到图表示B,再经过全连接网络得到模型输出视线数据C。
f)前向传播计算结果视线数据C与视线数据标记D进行损失计算,得到损失值L。其中,损失函数可以为MAE或MSE。
g)基于损失值L,利用梯度下降法,更新图机器学习模型参数。
l)重复步骤e至g,迭代更新图机器学习模型参数,以使得损失值L降低。当满足预设训练条件时,结束训练。预设条件包括单不限于:损失值L收敛;训练次数达到预设次数;训练时长达到预设时长。
图机器学习模型训练好后,利用训练好的图机器学习模型可以对当前基于眼部数据得到的图表示进行视线估计。
本实施例中的视线估计方法,可融合多种视线特征的数据进行视线估计,其鲁棒性强,准确性更高。该方法可以无校准环节,用户的眼部数据分布规律包含于训练图机器学习模型的数据集中,图机器学习模型训练完成后,用户无需校准即可使用视线估计功能。并且,用于训练视线估计模型的数据集中还包含了视线估计装置与使用者头部的不同相对位姿下采集的眼部和视线数据,因此,该方法对视线估计装置与使用者头部的相对位姿变化不敏感,对于用户来说操作更灵活方便,且视线估计准确。
实施例2
本实施例以眼部数据为相机拍摄的图像数据为例来说明本发明中视线估计方法,包括如下步骤S21~S24。
S21,通过相机获取眼部数据得到眼部图像;然后从图像中提取视线特征点,得到视线特征点集{[x0,y0], [x1, y1], ..., [x6, y6]},其中[xm,ym]为编号m的视线特征点在图像坐标系下的坐标。本实例,选用瞳孔中心点与6个光斑中心点作为视线特征点,分别编号为0-6,如图2所示。
S22,以各个视线特征点为节点,并建立节点间关系,得到图模型,如图3所示。瞳孔中心点所对应节点与各个光斑中心点所对应节点之间用无向边连接。
S23,根据瞳孔中心点与光斑中心点状态和位置信息确定所述图模型的特征信息,并将所述特征信息赋予所述图模型,得到所述眼部数据对应的图表示。特征信息为瞳孔中心点与光斑中心点在图像坐标系下的归一化坐标。
S24,将所述图表示输入至图机器学习模型中,以通过机器学习模型进行视线估计,并输出视线数据。所述图机器学习模型预先经过样本集训练,所述样本集包括多个图表示样本和对应的视线数据样本。图机器学习模型的训练步骤如下。
a)采集{眼部数据样本,视线数据样本}样例,该眼部数据样本为图像数据。眼部数据是示例(关于相机记录的对应信息的描述),视线数据是标记(关于示例对应的视线结果信息)。用户多次佩戴视线估计装置,采集用户不同佩戴情况下的{眼部数据样本,视线数据样本}样例。用户正常佩戴视线估计装置,重复三次采集;将正常佩戴的视线估计装置相对头部上移一定距离或向上转一定角度,重复两次采集;将正常佩戴的视线估计装置相对头部下移一定距离或向下转一定角度,重复两次采集。将正常佩戴的视线估计装置相对头部左移一定距离或向左转一定角度,一次采集;将正常佩戴的视线估计装置相对头部右移一定距离或向右转一定角度,一次采集。
b)制作{视线特征点集样本,视线数据样本}样例。依据{眼部数据样本,视线数据样本}样例,基于眼部数据样本确定视线特征点集样本,并与对应的视线数据构成{视线特征点集样本,视线数据样本}样例。
c)制作{图表示样本,视线数据样本}样例。依据{视线特征点集样本,视线数据样本}和步骤S22、S23,得到视线特征点集样本对应的图表示样本,并将图表示样本与对应的视线数据样本,组成{图表示样本,视线数据样本}样例。
d)确定图机器学习模型结构。模型输入为图表示,模型输出为视线数据。模型结构由多层图神经网络与全连接网络等构成。
e)前向传播计算。从{图表示样本,视线数据样本}样例中,取一批数据,得到图表示样本A与视线数据标记D。图表示样本A输入图机器学习模型,先经过多层图神经网络得到图表示B,再经过全连接网络得到模型输出视线数据C。
f)前向传播计算结果视线数据C与视线数据标记D进行损失计算,得到损失值L。损失函数可以为MAE(均方误差)或MSE(平均绝对误差)。MAE的计算公式为:
MSE的计算公式为:
其中,xi为图表示(模型输入),f为图机器学习模型,yi为视线数据标记。
g)基于损失值L,利用梯度下降法,更新图机器学习模型参数。
l)重复步骤e-g,迭代更新图机器学习模型参数,以使得损失值L降低。当满足预设训练条件时,结束训练。预设条件包括单不限于:损失值L收敛;训练次数达到预设次数;训练时长达到预设时长。
实施例3
本实施例以眼部数据为空间分布离散的光电传感器采集的数据为例,说明本发明中的视线估计方法,方法步骤如下。
S31,通过光电传感器获取眼部数据。以光电传感器的预设参考点为视线特征点,得到视线特征点集{[x0,y0, z0, s0], [x1, y1, z1,s1], ..., [x6, y6, z6, s6]},其中[xn,yn, zn, sn]表示编号为n的光电传感器在物理坐标系下的归一化坐标及传感器读数。本实例中,各个视线特征点分别编号为0-6,如图4所示。
S32,以各个视线特征点为节点,并建立节点间关系,得到图模型,如图5所示。1至6号节点分别与0号节点用边连接,1-6号节点间的相邻节点用无向边连接。
S33,根据光电传感器的状态和位置信息确定所述图模型的特征信息,并将所述特征信息赋予所述图模型,得到所述眼部数据对应的图表示。
S34,将所述图表示输入至图机器学习模型中,以通过图机器学习模型进行视线估计,并输出视线。所述图机器学习模型预先经过样本集训练,所述样本集包括多个图表示样本和对应的视线数据样本。图机器学习模型的训练步骤如下:
a)采集{眼部数据样本,视线数据样本}样例,眼部数据为光电传感器的位置及读数。眼部数据样本是示例(关于光电传感器记录的对应信息的描述),视线数据是标记(关于示例对应的视线结果信息)。用户多次佩戴视线估计装置,采集用户不同佩戴情况下的{眼部数据样本,视线数据样本}样例。用户正常佩戴视线估计装置,重复三次采集;将正常佩戴的视线估计装置相对头部上移一定距离或向上转一定角度,重复两次采集;将正常佩戴的视线估计装置相对头部下移一定距离或向下转一定角度,重复两次采集。将正常佩戴的视线估计装置相对头部左移一定距离或向左转一定角度,一次采集;将正常佩戴的视线估计装置相对头部右移一定距离或向右转一定角度,一次采集。
b)制作{视线特征点集样本,视线数据样本}样例。依据{眼部数据样本,视线数据样本}样例,基于眼部数据样本确定视线特征点集样本,并与对应的视线数据样本构成{视线特征点集样本,视线数据样本}样例。
c)制作{图表示样本,视线数据样本}样例。依据{视线特征点集样本,视线数据样本}和步骤S32、S33,得到视线特征点集样本对应的图表示样本,并将图表示样本与对应的视线数据样本,组成{图表示样本,视线数据样本}样例。
d)确定图机器学习模型结构。模型输入为图表示,模型输出为视线数据。模型结构由多层图神经网络与全连接网络等构成。
e)前向传播计算。从{图表示样本,视线数据样本}样例中,取一批数据,得到图表示样本A与视线数据标记D。图表示样本A输入图机器学习模型,先经过多层图神经网络得到图表示B,再经过全连接网络得到模型输出视线数据C。
f)前向传播计算结果视线数据C与视线数据标记D进行损失计算,得到损失值L。损失函数可以为MAE(均方误差)或MSE(平均绝对误差)。MAE的计算公式为:
MSE的计算公式为:
其中,xi为图表示(模型输入),f为图机器学习模型,yi为视线数据标记。
g)基于损失值L,利用梯度下降法,更新图机器学习模型参数。
l)重复步骤e-g,迭代更新图机器学习模型参数,以使得损失值L降低。当满足预设训练条件时,结束训练。预设条件包括单不限于:损失值L收敛;训练次数达到预设次数;训练时长达到预设时长。
实施例4
请参阅图6,为本发明实施例4中的视线估计装置,包括:
数据获取模块41,用于获取眼部数据,并基于所述眼部数据确定多个视线特征点的状态和位置信息,所述视线特征点为包含有眼球运动信息可用于计算视线数据的点;
图模型建立模块42,用于以各个所述视线特征点为节点,并建立节点间的关系,以得到图模型;
图表示建立模块43,用于根据各个所述视线特征点的状态和位置信息确定所述图模型的特征信息,并将所述特征信息赋予所述图模型,得到所述眼部数据对应的图表示;
视线估计模块44,用于将所述图表示输入至图机器学习模型中,以通过所述图机器学习模型进行视线估计,并输出视线数据,所述图机器学习模型预先经过样本集训练过,所述样本集包括多个图表示样本和对应的视线数据样本。
本发明实施例所提供的视线估计装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
本发明另一方面还提出一种电子设备,请参阅图7,所示为本发明实施例当中的电子设备,包括处理器10、存储器20以及存储在存储器上并可在处理器上运行的计算机程序30,所述处理器10执行所述计算机程序30时实现如上述的视线估计方法。
其中,所述电子设备可以为但不限于视线估计装置、可穿戴设备等。处理器10在一些实施例中可以是中央处理器(CentralProcessing Unit, CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器20中存储的程序代码或处理数据等。
其中,存储器20至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器20在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的硬盘。存储器20在另一些实施例中也可以是电子设备的外部存储装置,例如电子设备上配备的插接式硬盘,智能存储卡,安全数字卡,闪存卡等。进一步地,存储器20还可以既包括电子设备的内部存储单元也包括外部存储装置。存储器20不仅可以用于存储安装于电子设备的应用软件及各类数据等,还可以用于暂时地存储已经输出或者将要输出的数据。
可选地,该电子设备还可以包括用户接口、网络接口、通信总线等,用户接口可以包括显示器、输入单元比如键盘,可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(OrganicLight-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置与其他电子装置之间建立通信连接。通信总线用于实现这些组件之间的连接通信。
需要指出的是,图7示出的结构并不构成对电子设备的限定,在其它实施例当中,该电子设备可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
本发明还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述的视线估计方法。
本领域技术人员可以理解,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置中获取指令并执行指令的系统)使用,或结合这些指令执行系统、装置而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或结合这些指令执行系统、装置而使用的设备。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或它们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (12)
1.一种视线估计方法,其特征在于,包括:
获取眼部数据,并基于所述眼部数据确定多个视线特征点的状态和位置信息,所述视线特征点为包含有眼球运动信息可用于计算视线数据的点;
以各个所述视线特征点为节点,并建立节点间的关系,以得到图模型;
根据各个所述视线特征点的状态和位置信息确定所述图模型的特征信息,并将所述特征信息赋予所述图模型,得到所述眼部数据对应的图表示;
将所述图表示输入至图机器学习模型中,以通过所述图机器学习模型进行视线估计,并输出视线数据,所述图机器学习模型预先经过样本集训练过,所述样本集包括多个图表示样本和对应的视线数据样本。
2.如权利要求1所述的视线估计方法,其特征在于,所述眼部数据为相机采集的眼部图像或传感器设备采集的数据;
当所述眼部数据为相机采集的眼部图像时,所述多个视线特征点包括至少两个必要特征点,或至少一个必要特征点和至少一个非必要特征点,所述必要特征点包括,瞳孔中心点、瞳孔椭圆焦点、瞳孔轮廓点、虹膜上特征和虹膜边缘轮廓点,所述非必要特征点包括光斑中心点和眼睑关键点;
当所述眼部数据为传感器设备采集的数据时,所述传感器设备包括多个空间分布稀疏的光电传感器,所述多个视线特征点为光电传感器的预设参考点。
3.如权利要求1所述的视线估计方法,其特征在于,所述眼部数据为相机采集的眼部图像,所述多个视线特征点为通过特征提取网络对所述眼部图像进行特征提取所确定的多个特征点。
4.如权利要求1所述的视线估计方法,其特征在于,所述特征信息包括节点特征和/或边特征,所述节点特征包括:
节点对应的视线特征点的状态和/或位置;
所述边特征包括:
边所连接的两节点对应的视线特征点间的距离和/或向量。
5.如权利要求1所述的视线估计方法,其特征在于,所述建立节点间的关系的步骤包括:
根据各个所述节点的分布形式,按照预设规则将节点与节点之间用边连接。
6.如权利要求5所述的视线估计方法,其特征在于,所述眼部数据为相机采集的眼部图像,所述多个视线特征点包括瞳孔中心点和所述瞳孔中心点周围的多个光斑中心点,所述根据各个所述节点的分布形式,按照预设规则将节点与节点之间用边连接的步骤包括:
将瞳孔中心点对应的节点与光斑中心点对应的节点之间用无方向的边连接。
7.如权利要求5所述的视线估计方法,其特征在于,所述眼部数据为相机采集的眼部图像,所述多个视线特征点为通过特征提取网络对所述眼部图像进行特征提取所确定的特征点,所述根据各个所述节点的分布形式,按照预设规则将节点与节点之间用边连接的步骤包括:
将相邻的特征点之间用无方向的边连接。
8.如权利要求5所述的视线估计方法,其特征在于,所述眼部数据为传感器设备采集的数据,所述传感器设备包括多个空间分布稀疏的光电传感器,所述多个视线特征点为光电传感器的预设参考点,所述根据各个所述节点的分布形式,按照预设规则将节点与节点之间用边连接的步骤包括:
将相邻的节点之间用无方向的边连接。
9.如权利要求1所述的视线估计方法,其特征在于,所述图机器学习模型进行训练的过程包括:
采集{眼部数据样本,视线数据样本}样例,所述眼部数据样本包括眼部数据采集装置在相对于用户头部的多个姿态下,分别采集的眼部数据样本;
提取所述眼部数据样本中的各个视线特征点,得到视线特征点样本;
根据所述视线特征点样本生成图表示样本,并根据所述图表示样本与对应的视线数据样本,建立{图表示样本,视线数据样本}样例;
利用所述{图表示样本,视线数据样本}样例对所述图机器学习模型进行训练,其中,所述图机器学习模型的输入为图表示样本,输出为视线数据。
10.一种视线估计装置,其特征在于,包括:
数据获取模块,用于获取眼部数据,并基于所述眼部数据确定多个视线特征点的状态和位置信息,所述视线特征点为包含有眼球运动信息可用于计算视线数据的点;
图模型建立模块,用于以各个所述视线特征点为节点,并建立节点间的关系,以得到图模型;
图表示建立模块,用于根据各个所述视线特征点的状态和位置信息确定所述图模型的特征信息,并将所述特征信息赋予所述图模型,得到所述眼部数据对应的图表示;
视线估计模块,用于将所述图表示输入至图机器学习模型中,以通过所述图机器学习模型进行视线估计,并输出视线数据,所述图机器学习模型预先经过样本集训练过,所述样本集包括多个图表示样本和对应的视线数据样本。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至9中任一项所述的视线估计方法。
12.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至9中任一项所述的视线估计方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310120571.8A CN115862124B (zh) | 2023-02-16 | 2023-02-16 | 视线估计方法、装置、可读存储介质及电子设备 |
PCT/CN2023/140005 WO2024169384A1 (zh) | 2023-02-16 | 2023-12-19 | 视线估计方法、装置、可读存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310120571.8A CN115862124B (zh) | 2023-02-16 | 2023-02-16 | 视线估计方法、装置、可读存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115862124A true CN115862124A (zh) | 2023-03-28 |
CN115862124B CN115862124B (zh) | 2023-05-09 |
Family
ID=85658145
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310120571.8A Active CN115862124B (zh) | 2023-02-16 | 2023-02-16 | 视线估计方法、装置、可读存储介质及电子设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115862124B (zh) |
WO (1) | WO2024169384A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116959086A (zh) * | 2023-09-18 | 2023-10-27 | 南昌虚拟现实研究院股份有限公司 | 一种视线估计方法、系统、设备及存储介质 |
WO2024169384A1 (zh) * | 2023-02-16 | 2024-08-22 | 南昌虚拟现实研究院股份有限公司 | 视线估计方法、装置、可读存储介质及电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102930278A (zh) * | 2012-10-16 | 2013-02-13 | 天津大学 | 一种人眼视线估计方法及其装置 |
US20200058136A1 (en) * | 2016-10-31 | 2020-02-20 | Nec Corporation | Line-of-sight estimation device, line-of-sight estimation method, and program recording medium |
US20200409455A1 (en) * | 2019-06-25 | 2020-12-31 | Microsoft Technology Licensing, Llc | Using eye tracking to hide virtual reality scene changes in plain sight |
CN113468971A (zh) * | 2021-06-04 | 2021-10-01 | 南昌大学 | 一种基于外观的变分注视估计方法 |
CN113743254A (zh) * | 2021-08-18 | 2021-12-03 | 北京格灵深瞳信息技术股份有限公司 | 视线估计方法、装置、电子设备及存储介质 |
CN115049819A (zh) * | 2021-02-26 | 2022-09-13 | 华为技术有限公司 | 注视区域识别方法及装置 |
CN115331281A (zh) * | 2022-07-08 | 2022-11-11 | 合肥工业大学 | 基于视线分布的焦虑抑郁检测方法和系统 |
CN115410242A (zh) * | 2021-05-28 | 2022-11-29 | 北京字跳网络技术有限公司 | 视线估计方法和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108171152A (zh) * | 2017-12-26 | 2018-06-15 | 深圳大学 | 深度学习人眼视线估计方法、设备、系统及可读存储介质 |
KR102157607B1 (ko) * | 2019-11-29 | 2020-09-18 | 세종대학교산학협력단 | 스머지 효과를 이용한 눈 움직임 및 시선 데이터 분포 시각화 방법 및 서버 |
CN115862124B (zh) * | 2023-02-16 | 2023-05-09 | 南昌虚拟现实研究院股份有限公司 | 视线估计方法、装置、可读存储介质及电子设备 |
-
2023
- 2023-02-16 CN CN202310120571.8A patent/CN115862124B/zh active Active
- 2023-12-19 WO PCT/CN2023/140005 patent/WO2024169384A1/zh unknown
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102930278A (zh) * | 2012-10-16 | 2013-02-13 | 天津大学 | 一种人眼视线估计方法及其装置 |
US20200058136A1 (en) * | 2016-10-31 | 2020-02-20 | Nec Corporation | Line-of-sight estimation device, line-of-sight estimation method, and program recording medium |
US20200409455A1 (en) * | 2019-06-25 | 2020-12-31 | Microsoft Technology Licensing, Llc | Using eye tracking to hide virtual reality scene changes in plain sight |
CN115049819A (zh) * | 2021-02-26 | 2022-09-13 | 华为技术有限公司 | 注视区域识别方法及装置 |
CN115410242A (zh) * | 2021-05-28 | 2022-11-29 | 北京字跳网络技术有限公司 | 视线估计方法和装置 |
CN113468971A (zh) * | 2021-06-04 | 2021-10-01 | 南昌大学 | 一种基于外观的变分注视估计方法 |
CN113743254A (zh) * | 2021-08-18 | 2021-12-03 | 北京格灵深瞳信息技术股份有限公司 | 视线估计方法、装置、电子设备及存储介质 |
CN115331281A (zh) * | 2022-07-08 | 2022-11-11 | 合肥工业大学 | 基于视线分布的焦虑抑郁检测方法和系统 |
Non-Patent Citations (4)
Title |
---|
JIANFENG LI等: "Gaze Estimation From Color Image Based on the Eye Model With Known Head Pose", 《IEEE TRANSACTIONS ON HUMAN-MACHINE SYSTEMS》 * |
YU YU等: "Deep Multitask Gaze Estimation with a Constrained Landmark-Gaze Model", 《ECCV 2018: COMPUTER VISION - ECCV 2018 WORKSHOPS》 * |
单兴华等: "基于改进随机森林的驾驶员视线估计的方法", 《传感器与微系统》 * |
徐昕: "头动眼动数据融合的视线方向算法研究与应用", 《信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024169384A1 (zh) * | 2023-02-16 | 2024-08-22 | 南昌虚拟现实研究院股份有限公司 | 视线估计方法、装置、可读存储介质及电子设备 |
CN116959086A (zh) * | 2023-09-18 | 2023-10-27 | 南昌虚拟现实研究院股份有限公司 | 一种视线估计方法、系统、设备及存储介质 |
CN116959086B (zh) * | 2023-09-18 | 2023-12-15 | 南昌虚拟现实研究院股份有限公司 | 一种视线估计方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2024169384A1 (zh) | 2024-08-22 |
CN115862124B (zh) | 2023-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9542745B2 (en) | Apparatus and method for estimating orientation of camera | |
US9058661B2 (en) | Method for the real-time-capable, computer-assisted analysis of an image sequence containing a variable pose | |
CN112652016B (zh) | 点云预测模型的生成方法、位姿估计方法及其装置 | |
JP2023082038A (ja) | 畳み込み画像変換を使用して同時位置特定およびマッピングを実施する方法およびシステム | |
CN108475439B (zh) | 三维模型生成系统、三维模型生成方法和记录介质 | |
JP6415066B2 (ja) | 情報処理装置、情報処理方法、位置姿勢推定装置、ロボットシステム | |
JP6723061B2 (ja) | 情報処理装置、情報処理装置の制御方法およびプログラム | |
CN109472828B (zh) | 一种定位方法、装置、电子设备及计算机可读存储介质 | |
US20150206003A1 (en) | Method for the Real-Time-Capable, Computer-Assisted Analysis of an Image Sequence Containing a Variable Pose | |
JP2012042396A (ja) | 位置姿勢計測装置、位置姿勢計測方法、およびプログラム | |
CN115862124B (zh) | 视线估计方法、装置、可读存储介质及电子设备 | |
JP2016091108A (ja) | 人体部位検出システムおよび人体部位検出方法 | |
JP7479324B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
KR20170113122A (ko) | 정보 처리장치 및 그 제어방법 | |
JP2018119833A (ja) | 情報処理装置、システム、推定方法、コンピュータプログラム、及び記憶媒体 | |
US20240013415A1 (en) | Methods and systems for representing a user | |
US20210042576A1 (en) | Image processing system | |
CN114722913A (zh) | 姿态检测方法、装置、电子设备及计算机可读存储介质 | |
JP5976089B2 (ja) | 位置姿勢計測装置、位置姿勢計測方法、およびプログラム | |
JP2018195070A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN113228117B (zh) | 创作装置、创作方法和记录有创作程序的记录介质 | |
CN106406507B (zh) | 图像处理方法以及电子设备 | |
JP2019045989A (ja) | 情報処理装置、情報処理方法およびコンピュータプログラム | |
KR20150069739A (ko) | 스테레오비전 기반의 어류 개체수 측정방법과 이를 적용한 패턴인식 시스템 | |
JP2010009236A (ja) | 平面領域推定装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |