[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111258409A - 一种用于人机交互的特征点识别方法及设备 - Google Patents

一种用于人机交互的特征点识别方法及设备 Download PDF

Info

Publication number
CN111258409A
CN111258409A CN202010369998.8A CN202010369998A CN111258409A CN 111258409 A CN111258409 A CN 111258409A CN 202010369998 A CN202010369998 A CN 202010369998A CN 111258409 A CN111258409 A CN 111258409A
Authority
CN
China
Prior art keywords
content
feature point
user
computing board
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010369998.8A
Other languages
English (en)
Other versions
CN111258409B (zh
Inventor
冯翀
马宇航
李国豪
罗观洲
郭嘉伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shenguang Technology Co Ltd
Original Assignee
Beijing Shenguang Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shenguang Technology Co Ltd filed Critical Beijing Shenguang Technology Co Ltd
Priority to CN202010369998.8A priority Critical patent/CN111258409B/zh
Publication of CN111258409A publication Critical patent/CN111258409A/zh
Application granted granted Critical
Publication of CN111258409B publication Critical patent/CN111258409B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/235Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on user input or interaction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种用于人机交互的特征点识别方法及设备,所述方法包括:计算板基于用户的输入获取用户需要的读物并通过投影单元将所述读物投影在用户操作界面上使用广角摄像头实时拍摄当前用户操作界面上的场景图像,并实时将所述场景图像传输至所述计算板,由计算板截取出相应读物处的子图片;所述计算板将截取的所述子图片发送至云端服务器,所述云端服务器对所述子图片进行识别得到特征点。其借助云端服务器进行特征点的识别,提高了识别精确度,并且将特征点在云端按照一定的次序构成特征点数据集进行存储,使得用户上传内容的实时更新,便于对内容的检索及获取,能够自动更新投影的标记内容,从而实现更智能的显示,更加智能的标记跟踪。

Description

一种用于人机交互的特征点识别方法及设备
技术领域
本发明涉及人机交互技术领域,特别是一种用于人机交互的特征点识别设备方法及设备。
背景技术
人机交互是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。
伴随着人机交互技术的发展,众多人机交互与现实技术相结合,尤其增强现实技术已经广泛应用于娱乐、工程等方面,让现实世界中的人们能够近距离的解决一些虚拟事物,其中涉及到的技术有多媒体、三维建模、实时跟踪、智能交互、传感等多种技术手段,且人工交互技术在现代教育中也有了广泛应用。
现有技术中,特别在是在人机交互的教学系统中,特征点的识别一直是一个难点,由于识别精度的不准确,导致获取的学习内容错误,影响了学生学习效率及积极性。且现有技术中,一般仅针对固定的特征点进行识别,用户无法自定义详细的特点,现有技术中,识别出来的特征点也是仅仅用于获取相应的内容,而没有把用户获取的一系列特征点进行记忆存储,便于后续使用。
发明内容
本发明针对上述现有技术中的缺陷,提出了如下技术方案。
一种用于人机交互的特征点识别方法,所述方法包括:
获取步骤,计算板基于用户的输入获取用户需要的读物并通过投影单元将所述读物投影在用户操作界面上;
截取步骤,使用广角摄像头实时拍摄当前用户操作界面上的场景图像,并实时将所述场景图像传输至所述计算板,由计算板截取出相应读物处的子图片;
特征点识别步骤,所述计算板将截取的所述子图片发送至云端服务器,所述云端服务器对所述子图片进行识别得到特征点。
更进一步地,所述特征点为页码、和/或用户选择的内容,其中,所述页码为基础特征点,所述用户选择的内容为扩展特征点。
更进一步地,所述获取步骤包括:
使用所述投影单元投影出一个输入表单,所述输入表单包括多个输入项,其中所述输入项为:读物的类型、读物名称、读物页数和/或文章标题;
所述用户通过虚拟键盘在所述输入项中进行填写后提交信息至所述计算板;
所述计算板接收到所述用户提交的信息后,将所述信息构建成一条基础数据记录存储在数据库中得到一个特征点识别记录及对应的ID;
所述计算板基于所述用户提交的信息获取读物的内容后发送至所述投影单元,所述投影单元将所述读物的内容投影处理以供用户阅读、标记和/或选择。
更进一步地,所述特征点识别步骤包括:
所述计算板将截取的所述子图片发送至云端服务器,所述云端服务器利用深度学习检测系统在所述子图片中预测分析出文字的位置,同时将图片裁剪后进行临时存储,所述云端服务器基于所述文字的位置对所述子图片使用ctc算法进行文字内容的识别,识别后将所述文字内容和对应的位置结合生成内容数据集;所述云端服务器将所述内容数据集传输至所述计算板,所述计算板对所述文字内容进行检测以判断是否存在基础特征点,如果不存在,则将无特征点的信息传输至所述投影单元,所述投影单元投影出警告信息,如果存在,所述计算板则存储识别出的基础特征点对应的页码值至特征点识别记录中。
更进一步地,在识别出基础特征点后,根据用户的操作判断是否处于内容记录状态,如果是,则基于页码值进行内容顺序的调整后将所述特征点识别记录存储至云端服务器。
更进一步地,所述基于页码值进行内容顺序的调整后将所述特征点识别记录存储至云端服务器的操作为:
所述计算板将识别出的页码值传输至所述投影单元进行显示,并提供输入框由用户进行更正;
所述计算板将更正后的页码值作为第一属性,并将当前页面中所有的标记内容以位置、轨迹的形式分别作为一个子元素在一个队列中进行存储作为第二属性,同时再将第一、二属性生成的时间作为第三属性;
所述计算板将得到的第一、二、三属性组合后作为一个特征点识别子单元存储至所述特征点识别记录,并按照第三属性排序;
所述计算板获取当前特征点识别记录的ID下所有的特征点识别子单元,并基于所述第一属性进行升序排序,然后为该特征点识别记录添加增加一个记录生成时间的第四属性,并将所述第四属性记录在该特征点识别记录中,所述计算板将具有第四属性的该特征点识别记录存储至所述云端服务器。
更进一步地,在识别出基础特征点后,根据用户的操作判断是否处于内容获取状态,如果是,则基于所述基础特征点获取相应的读物内容进行投影显示。
更进一步地,所述基于所述基础特征点获取相应的读物内容进行投影显示的操作为:
所述计算板使用所述基础特征点对读物内容进行检索,将检索到的读物内容传输至投影单元;所述投影单元实时获取读物内容上的标记,并同时获取当前投影的区域范围;所述投影单元根据所述区域范围对标记的读物内容进行的调整,使其与所述区域范围大小一致,将调整后的标记的读物内容投影至用户操作界面。
更进一步地,所述扩展特征点的识别操作为:所述计算板获取所述内容数据集,并将所述内容数据集中的页码值去除;所述计算板将去除页码值后的所述内容数据集中的可使用区域的位置信息传输至投影仪进行投影显示出文字内容的边界;所述用户从显示出的所述边界的区域中选择多个子内容作为当前页面的内容;所述计算板依次对选择的子内容利用深度神经网络进行识别出具体信息作为扩展特征点存储该特征点识别记录中。
本发明还提出了一种用于人机交互的特征点识别设备,所述设备包括:投影单元、广角摄像头和计算板,所述设备与云端服务器通过网络相连接;
所述计算板基于用户的输入获取用户需要的读物并通过投影单元将所述读物投影在用户操作界面上;
所述广角摄像头实时拍摄当前用户操作界面上的场景图像,并实时将所述场景图像传输至所述计算板,由计算板截取出相应读物处的子图片;
所述计算板将截取的所述子图片发送至云端服务器,所述云端服务器对所述子图片进行识别得到特征点。
更进一步地,所述特征点为页码、和/或用户选择的内容,其中,所述页码为基础特征点,所述用户选择的内容为扩展特征点。
更进一步地,所述计算板基于用户的输入获取用户需要的读物并通过投影单元将所述读物投影在用户操作界面上的操作包括:
使用所述投影单元投影出一个输入表单,所述输入表单包括多个输入项,其中所述输入项为:读物的类型、读物名称、读物页数和/或文章标题;
所述用户通过虚拟键盘在所述输入项中进行填写后提交信息至所述计算板;
所述计算板接收到所述用户提交的信息后,将所述信息构建成一条基础数据记录存储在数据库中得到一个特征点识别记录及对应的ID;
所述计算板基于所述用户提交的信息获取读物的内容后发送至所述投影单元,所述投影单元将所述读物的内容投影处理以供用户阅读、标记和/或选择。
更进一步地,所述计算板将截取的所述子图片发送至云端服务器,所述云端服务器对所述子图片进行识别得到特征点的操作包括:
所述计算板将截取的所述子图片发送至云端服务器,所述云端服务器利用深度学习检测系统在所述子图片中预测分析出文字的位置,同时将图片裁剪后进行临时存储,所述云端服务器基于所述文字的位置对所述子图片使用ctc算法进行文字内容的识别,识别后将所述文字内容和对应的位置结合生成内容数据集;所述云端服务器将所述内容数据集传输至所述计算板,所述计算板对所述文字内容进行检测以判断是否存在基础特征点,如果不存在,则将无特征点的信息传输至所述投影单元,所述投影单元投影出警告信息,如果存在,所述计算板则存储识别出的基础特征点对应的页码值至特征点识别记录中。
更进一步地,在识别出基础特征点后,根据用户的操作判断是否处于内容记录状态,如果是,则基于页码值进行内容顺序的调整后将所述特征点识别记录存储至云端服务器。
更进一步地,所述基于页码值进行内容顺序的调整后将所述特征点识别记录存储至云端服务器的操作为:
所述计算板将识别出的页码值传输至所述投影单元进行显示,并提供输入框由用户进行更正;
所述计算板将更正后的页码值作为第一属性,并将当前页面中所有的标记内容以位置、轨迹的形式分别作为一个子元素在一个队列中进行存储作为第二属性,同时再将第一、二属性生成的时间作为第三属性;
所述计算板将得到的第一、二、三属性组合后作为一个特征点识别子单元存储至所述特征点识别记录,并按照第三属性排序;
所述计算板获取当前特征点识别记录的ID下所有的特征点识别子单元,并基于所述第一属性进行升序排序,然后为该特征点识别记录添加增加一个记录生成时间的第四属性,并将所述第四属性记录在该特征点识别记录中,所述计算板将具有第四属性的该特征点识别记录存储至所述云端服务器。
更进一步地,在识别出基础特征点后,根据用户的操作判断是否处于内容获取状态,如果是,则基于所述基础特征点获取相应的读物内容进行投影显示。
更进一步地,所述基于所述基础特征点获取相应的读物内容进行投影显示的操作为:
所述计算板使用所述基础特征点对读物内容进行检索,将检索到的读物内容传输至投影单元;所述投影单元实时获取读物内容上的标记,并同时获取当前投影的区域范围;所述投影单元根据所述区域范围对标记的读物内容进行的调整,使其与所述区域范围大小一致,将调整后的标记的读物内容投影至用户操作界面。
更进一步地,所述扩展特征点的识别操作为:所述计算板获取所述内容数据集,并将所述内容数据集中的页码值去除;所述计算板将去除页码值后的所述内容数据集中的可使用区域的位置信息传输至投影仪进行投影显示出文字内容的边界;所述用户从显示出的所述边界的区域中选择多个子内容作为当前页面的内容;所述计算板依次对选择的子内容利用深度神经网络进行识别出具体信息作为扩展特征点存储该特征点识别记录中。
本发明的技术效果为:本发明的一种用于人机交互的特征点识别方法,所述方法包括:获取步骤,计算板基于用户的输入获取用户需要的读物并通过投影单元将所述读物投影在用户操作界面上;截取步骤,使用广角摄像头实时拍摄当前用户操作界面上的场景图像,并实时将所述场景图像传输至所述计算板,由计算板截取出相应读物处的子图片;特征点识别步骤,所述计算板将截取的所述子图片发送至云端服务器,所述云端服务器对所述子图片进行识别得到特征点。本发明的主要优点在于:借助云端服务器进行特征点的识别,提高了识别精确度,并且将特征点在云端按照一定的次序构成特征点数据集进行存储,使得用户上传内容的实时更新,便于对内容的检索及获取;且用户可根据对某页具体内容的识别需求,选择基本特征点识别:只针对页码识别内容,或者扩展特征点识别:增添其他的文字或图片作为特征点,实现某一页面内容更精确的标记定位;且识别特征点后能够自动更新投影的标记内容,从而实现更智能的显示;借助识别的扩展特征点便可对习题讲解时的标记信息进行精确的显示,从而可以实现用户对各种题目的讲解录制以及检索;基于特征点的标记跟踪显示,此时即使调整了投影显示,标记相对锚点的位置也不会改变,实现了更加智能的标记跟踪。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。
图1是根据本发明的实施例之一的一种用于人机交互的特征点识别方法的流程图。
图2是根据本发明的实施例之一的一种用于人机交互的特征点识别设备的示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了本发明的一种用于人机交互的特征点识别方法,所述方法包括:
获取步骤S101,计算板基于用户的输入获取用户需要的读物并通过投影单元将所述读物投影在用户操作界面上。
截取步骤S102,使用广角摄像头实时拍摄当前用户操作界面上的场景图像,并实时将所述场景图像传输至所述计算板,由计算板截取出相应读物处的子图片;具体地,广角摄像头将实时拍摄到的场景信息传输至计算板,计算板按照当前识别的读物边界位置,将接收到的图片进行相应的裁剪,得到一个页面大小的子图片,页面大小可以是用户自己定义。
特征点识别步骤S103,所述计算板将截取的所述子图片发送至云端服务器,所述云端服务器对所述子图片进行识别得到特征点。
本发明的方法可以应用在智能台灯上,台灯的上部或下部(如果是下部,则需要透镜组件进行光路转换)安装有投影单元,即投影仪、红外摄像头、深度摄像头,其内部具有计算板,计算板至少具有处理器和存储器,用于完成数据的处理等等,投影单元可以是投影仪。
在一个实施例,所述特征点为页码、和/或用户选择的内容,其中,所述页码为基础特征点,所述用户选择的内容为扩展特征点。
在一个实施例中,所述获取步骤S101包括:
使用所述投影单元投影出一个输入表单,所述输入表单包括多个输入项,其中所述输入项为:读物的类型、读物名称、读物页数和/或文章标题;比如,投影仪在当前投影区域内首先投影出一个简易表单,包含了书的类型、名称、页数等等基础信息等待用户填写。
所述用户通过虚拟键盘在所述输入项中进行填写后提交信息至所述计算板;用户分别点击相应的输入框,借助出现的虚拟键盘将信息填写完整后提交。
所述计算板接收到所述用户提交的信息后,将所述信息构建成一条基础数据记录存储在数据库中得到一个特征点识别记录及对应的ID;即构建了一个特征点识别点的记录,便于后续的查找使用。
所述计算板基于所述用户提交的信息获取读物的内容后发送至所述投影单元,所述投影单元将所述读物的内容投影处理以供用户阅读、标记和/或选择,此时,投影仪将输入表单(也可以称为问卷页面)清除,让用户随意添加标记。
通过上述操作,构建了一个特征点识别点的记录,便于后续的查找使用,这是本发明的基础,属于本发明的一个发明点。
在一个实施例中,所述特征点识别步骤S103包括:
所述计算板将截取的所述子图片发送至云端服务器,所述云端服务器利用深度学习检测系统在所述子图片中预测分析出文字的位置,同时将图片裁剪后进行临时存储,所述云端服务器基于所述文字的位置对所述子图片使用ctc算法进行文字内容的识别,识别后将所述文字内容和对应的位置结合生成内容数据集;所述云端服务器将所述内容数据集传输至所述计算板,所述计算板对所述文字内容进行检测以判断是否存在基础特征点,如果不存在,则将无特征点的信息传输至所述投影单元,所述投影单元投影出警告信息,如果存在,所述计算板则存储识别出的基础特征点对应的页码值至特征点识别记录中。
具体地,在识别出基础特征点后,根据用户的操作判断是否处于内容记录状态,如果是,则基于页码值进行内容顺序的调整后将所述特征点识别记录存储至云端服务器。
优选地,所述基于页码值进行内容顺序的调整后将所述特征点识别记录存储至云端服务器的操作为:
所述计算板将识别出的页码值传输至所述投影单元进行显示,并提供输入框由用户进行更正;
所述计算板将更正后的页码值作为第一属性,并将当前页面中所有的标记内容以位置、轨迹的形式分别作为一个子元素在一个队列中进行存储作为第二属性,同时再将第一、二属性生成的时间作为第三属性;
所述计算板将得到的第一、二、三属性组合后作为一个特征点识别子单元存储至所述特征点识别记录,并按照第三属性排序;
所述计算板获取当前特征点识别记录的ID下所有的特征点识别子单元,并基于所述第一属性进行升序排序,然后为该特征点识别记录添加增加一个记录生成时间的第四属性,并将所述第四属性记录在该特征点识别记录中,所述计算板将具有第四属性的该特征点识别记录存储至所述云端服务器。
通过上述操作,借助云端服务器进行特征点的识别,提高了识别精确度,并且将特征点在云端按照一定的次序构成特征点数据集进行存储,使得用户上传内容的实时更新,便于对内容的检索及获取,这是本发明的重要发明点之一。
在一个实施例中,在识别出基础特征点后,根据用户的操作判断是否处于内容获取状态,如果是,则基于所述基础特征点获取相应的读物内容进行投影显示。
优选地,所述基于所述基础特征点获取相应的读物内容进行投影显示的操作为:
所述计算板使用所述基础特征点对读物内容进行检索,将检索到的读物内容传输至投影单元;所述投影单元实时获取读物内容上的标记,并同时获取当前投影的区域范围;所述投影单元根据所述区域范围对标记的读物内容进行的调整,使其与所述区域范围大小一致,将调整后的标记的读物内容投影至用户操作界面。
通过上述操作,识别特征点后能够自动更新投影的标记内容,从而实现更智能的显示,基于特征点的标记跟踪显示,此时即使调整了投影显示,标记相对锚点的位置也不会改变,实现了更加智能的标记跟踪,这属于本发明的另一个重要发明点。
在一个实施例中,所述扩展特征点的识别操作为:所述计算板获取所述内容数据集,并将所述内容数据集中的页码值去除;所述计算板将去除页码值后的所述内容数据集中的可使用区域的位置信息传输至投影仪进行投影显示出文字内容的边界;所述用户从显示出的所述边界的区域中选择多个子内容作为当前页面的内容;所述计算板依次对选择的子内容利用深度神经网络进行识别出具体信息作为扩展特征点存储该特征点识别记录中。
通过上述操作,用户可根据对某页具体内容的识别需求,选择基本特征点识别:只针对页码识别内容,或者扩展特征点识别:增添其他的文字或图片作为特征点,实现某一页面内容更精确的标记定位,比如在学生学习时,借助识别的扩展特征点便可对习题讲解时的标记信息进行精确的显示,从而提高下学习效率,这属于本发明的另一个重要发明点。
图2示出了本发明的一种用于人机交互的特征点识别设备,所述设备至少包括:投影单元、广角摄像头和计算板,还可以包括红外摄像头和深度摄像头,所述设备与云端服务器通过网络相连接;还可以使用RGB高清摄像头替代深度摄像头,在选配RGB高清摄像头时,这一摄像头可以用于协助进行深度信息的判断,此外,还可以基于RGB摄像头高清能力,还会在对一定范围的文字内容识别时起到作用,即当确定具体识别区域后,会使用RGB高清摄像头替换广角摄像头去拍摄其中的内容并进行处理,以达到更好的识别效果。广角摄像头一般拍摄范围更广,如前面描述的一样,多用于场景的拍摄,大范围动作的拍摄等等。
所述计算板基于用户的输入获取用户需要的读物并通过投影单元将所述读物投影在用户操作界面上;所述广角摄像头实时拍摄当前用户操作界面上的场景图像,并实时将所述场景图像传输至所述计算板,由计算板截取出相应读物处的子图片;具体地,广角摄像头将实时拍摄到的场景信息传输至计算板,计算板按照当前识别的读物边界位置,将接收到的图片进行相应的裁剪,得到一个页面大小的子图片,页面大小可以是用户自己定义。所述计算板将截取的所述子图片发送至云端服务器,所述云端服务器对所述子图片进行识别得到特征点。
本发明的设备可以为智能台灯上,台灯的上部或下部(如果是下部,则需要透镜组件进行光路转换)安装有投影单元,即投影仪、红外摄像头、深度摄像头,其内部具有计算板,计算板至少具有处理器和存储器,用于完成数据的处理等等,投影单元可以是投影仪。
在一个实施例,所述特征点为页码、和/或用户选择的内容,其中,所述页码为基础特征点,所述用户选择的内容为扩展特征点。
在一个实施例中,所述计算板基于用户的输入获取用户需要的读物并通过投影单元将所述读物投影在用户操作界面上的操作包括:
使用所述投影单元投影出一个输入表单,所述输入表单包括多个输入项,其中所述输入项为:读物的类型、读物名称、读物页数和/或文章标题;比如,投影仪在当前投影区域内首先投影出一个简易表单,包含了书的类型、名称、页数等等基础信息等待用户填写。
所述用户通过虚拟键盘在所述输入项中进行填写后提交信息至所述计算板;用户分别点击相应的输入框,借助出现的虚拟键盘将信息填写完整后提交。
所述计算板接收到所述用户提交的信息后,将所述信息构建成一条基础数据记录存储在数据库中得到一个特征点识别记录及对应的ID;即构建了一个特征点识别点的记录,便于后续的查找使用。
所述计算板基于所述用户提交的信息获取读物的内容后发送至所述投影单元,所述投影单元将所述读物的内容投影处理以供用户阅读、标记和/或选择,此时,投影仪将输入表单(也可以称为问卷页面)清除,让用户随意添加标记。
通过上述操作,构建了一个特征点识别点的记录,便于后续的查找使用,这是本发明的基础,属于本发明的一个发明点。
在一个实施例中,所述计算板将截取的所述子图片发送至云端服务器,所述云端服务器对所述子图片进行识别得到特征点的操作包括:
所述计算板将截取的所述子图片发送至云端服务器,所述云端服务器利用深度学习检测系统在所述子图片中预测分析出文字的位置,同时将图片裁剪后进行临时存储,所述云端服务器基于所述文字的位置对所述子图片使用ctc算法进行文字内容的识别,识别后将所述文字内容和对应的位置结合生成内容数据集;所述云端服务器将所述内容数据集传输至所述计算板,所述计算板对所述文字内容进行检测以判断是否存在基础特征点,如果不存在,则将无特征点的信息传输至所述投影单元,所述投影单元投影出警告信息,如果存在,所述计算板则存储识别出的基础特征点对应的页码值至特征点识别记录中。
具体地,在识别出基础特征点后,根据用户的操作判断是否处于内容记录状态,如果是,则基于页码值进行内容顺序的调整后将所述特征点识别记录存储至云端服务器。
优选地,所述基于页码值进行内容顺序的调整后将所述特征点识别记录存储至云端服务器的操作为:
所述计算板将识别出的页码值传输至所述投影单元进行显示,并提供输入框由用户进行更正;
所述计算板将更正后的页码值作为第一属性,并将当前页面中所有的标记内容以位置、轨迹的形式分别作为一个子元素在一个队列中进行存储作为第二属性,同时再将第一、二属性生成的时间作为第三属性;
所述计算板将得到的第一、二、三属性组合后作为一个特征点识别子单元存储至所述特征点识别记录,并按照第三属性排序;
所述计算板获取当前特征点识别记录的ID下所有的特征点识别子单元,并基于所述第一属性进行升序排序,然后为该特征点识别记录添加增加一个记录生成时间的第四属性,并将所述第四属性记录在该特征点识别记录中,所述计算板将具有第四属性的该特征点识别记录存储至所述云端服务器。
通过上述操作,借助云端服务器进行特征点的识别,提高了识别精确度,并且将特征点在云端按照一定的次序构成特征点数据集进行存储,使得用户上传内容的实时更新,便于对内容的检索及获取,这是本发明的重要发明点之一。
在一个实施例中,在识别出基础特征点后,根据用户的操作判断是否处于内容获取状态,如果是,则基于所述基础特征点获取相应的读物内容进行投影显示。具体地,所述基于所述基础特征点获取相应的读物内容进行投影显示的操作为:
所述计算板使用所述基础特征点对读物内容进行检索,将检索到的读物内容传输至投影单元;所述投影单元实时获取读物内容上的标记,并同时获取当前投影的区域范围;所述投影单元根据所述区域范围对标记的读物内容进行的调整,使其与所述区域范围大小一致,将调整后的标记的读物内容投影至用户操作界面。
通过上述操作,识别特征点后能够自动更新投影的标记内容,从而实现更智能的显示,基于特征点的标记跟踪显示,此时即使调整了投影显示,标记相对锚点的位置也不会改变,实现了更加智能的标记跟踪,这属于本发明的另一个重要发明点。
在一个实施例中,所述扩展特征点的识别操作为:所述计算板获取所述内容数据集,并将所述内容数据集中的页码值去除;所述计算板将去除页码值后的所述内容数据集中的可使用区域的位置信息传输至投影仪进行投影显示出文字内容的边界;所述用户从显示出的所述边界的区域中选择多个子内容作为当前页面的内容;所述计算板依次对选择的子内容利用深度神经网络进行识别出具体信息作为扩展特征点存储该特征点识别记录中。
通过上述操作,用户可根据对某页具体内容的识别需求,选择基本特征点识别:只针对页码识别内容,或者扩展特征点识别:增添其他的文字或图片作为特征点,实现某一页面内容更精确的标记定位,比如在学生学习时,借助识别的扩展特征点便可对习题讲解时的标记信息进行精确的显示,从而提高下学习效率,这属于本发明的另一个重要发明点。
本发明的方法和设备可以使用在智能学习中,比如书籍互动视频录制,识别到特征点后自动更新投影的标记内容,从而实现更智能的显示;一些习题的详细讲解短视频,首先对题目信息进行提取作为检索标题,借助识别的扩展特征点便可对讲解时的标记信息进行精确的显示,从而可以实现用户对各种题目的讲解录制以及检索;基于特征点的标记跟踪显示,即不再以边界为锚点,而是将基础或者扩展特征点作为锚点,用户再次选择锚点后添加标记,此时即使调整了投影显示,标记相对锚点的位置也不会改变,实现了更加智能的标记跟踪。使得学习设备具有智能性、精确性,方便用户的使用。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然, 在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质 中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
最后所应说明的是:以上实施例仅以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种用于人机交互的特征点识别方法,其特征在于,所述方法包括:
获取步骤,计算板基于用户的输入获取用户需要的读物并通过投影单元将所述读物投影在用户操作界面上;
截取步骤,使用广角摄像头实时拍摄当前用户操作界面上的场景图像,并实时将所述场景图像传输至所述计算板,由计算板截取出相应读物处的子图片;
特征点识别步骤,所述计算板将截取的所述子图片发送至云端服务器,所述云端服务器对所述子图片进行识别得到特征点。
2.根据权利要求1所述的方法,其特征在于,所述特征点为页码、和/或用户选择的内容,其中,所述页码为基础特征点,所述用户选择的内容为扩展特征点。
3.根据权利要求2所述的方法,其特征在于,所述获取步骤包括:
使用所述投影单元投影出一个输入表单,所述输入表单包括多个输入项,其中所述输入项为:读物的类型、读物名称、读物页数和/或文章标题;
所述用户通过虚拟键盘在所述输入项中进行填写后提交信息至所述计算板;
所述计算板接收到所述用户提交的信息后,将所述信息构建成一条基础数据记录存储在数据库中得到一个特征点识别记录及对应的ID;
所述计算板基于所述用户提交的信息获取读物的内容后发送至所述投影单元,所述投影单元将所述读物的内容投影处理以供用户阅读、标记和/或选择。
4.根据权利要求3所述的方法,其特征在于,所述特征点识别步骤包括:
所述计算板将截取的所述子图片发送至云端服务器,所述云端服务器利用深度学习检测系统在所述子图片中预测分析出文字的位置,同时将图片裁剪后进行临时存储,所述云端服务器基于所述文字的位置对所述子图片使用ctc算法进行文字内容的识别,识别后将所述文字内容和对应的位置结合生成内容数据集;所述云端服务器将所述内容数据集传输至所述计算板,所述计算板对所述文字内容进行检测以判断是否存在基础特征点,如果不存在,则将无特征点的信息传输至所述投影单元,所述投影单元投影出警告信息,如果存在,所述计算板则存储识别出的基础特征点对应的页码值至特征点识别记录中。
5.根据权利要求4所述的方法,其特征在于,在识别出基础特征点后,根据用户的操作判断是否处于内容记录状态,如果是,则基于页码值进行内容顺序的调整后将所述特征点识别记录存储至云端服务器。
6.根据权利要求5所述的方法,其特征在于,所述基于页码值进行内容顺序的调整后将所述特征点识别记录存储至云端服务器的操作为:
所述计算板将识别出的页码值传输至所述投影单元进行显示,并提供输入框由用户进行更正;
所述计算板将更正后的页码值作为第一属性,并将当前页面中所有的标记内容以位置、轨迹的形式分别作为一个子元素在一个队列中进行存储作为第二属性,同时再将第一、二属性生成的时间作为第三属性;
所述计算板将得到的第一、二、三属性组合后作为一个特征点识别子单元存储至所述特征点识别记录,并按照第三属性排序;
所述计算板获取当前特征点识别记录的ID下所有的特征点识别子单元,并基于所述第一属性进行升序排序,然后为该特征点识别记录添加增加一个记录生成时间的第四属性,并将所述第四属性记录在该特征点识别记录中,所述计算板将具有第四属性的该特征点识别记录存储至所述云端服务器。
7.根据权利要求4所述的方法,其特征在于,在识别出基础特征点后,根据用户的操作判断是否处于内容获取状态,如果是,则基于所述基础特征点获取相应的读物内容进行投影显示。
8.根据权利要求7所述的方法,其特征在于,所述基于所述基础特征点获取相应的读物内容进行投影显示的操作为:
所述计算板使用所述基础特征点对读物内容进行检索,将检索到的读物内容传输至投影单元;所述投影单元实时获取读物内容上的标记,并同时获取当前投影的区域范围;所述投影单元根据所述区域范围对标记的读物内容进行的调整,使其与所述区域范围大小一致,将调整后的标记的读物内容投影至用户操作界面。
9.根据权利要求4所述的方法,其特征在于,所述扩展特征点的识别操作为:所述计算板获取所述内容数据集,并将所述内容数据集中的页码值去除;所述计算板将去除页码值后的所述内容数据集中的可使用区域的位置信息传输至投影仪进行投影显示出文字内容的边界;所述用户从显示出的所述边界的区域中选择多个子内容作为当前页面的内容;所述计算板依次对选择的子内容利用深度神经网络进行识别出具体信息作为扩展特征点存储该特征点识别记录中。
10.一种用于人机交互的特征点识别设备,其特征在于,所述设备包括:投影单元、广角摄像头和计算板,所述设备与云端服务器通过网络相连接;
所述计算板基于用户的输入获取用户需要的读物并通过投影单元将所述读物投影在用户操作界面上;
所述广角摄像头实时拍摄当前用户操作界面上的场景图像,并实时将所述场景图像传输至所述计算板,由计算板截取出相应读物处的子图片;
所述计算板将截取的所述子图片发送至云端服务器,所述云端服务器对所述子图片进行识别得到特征点。
CN202010369998.8A 2020-05-06 2020-05-06 一种用于人机交互的特征点识别方法及设备 Active CN111258409B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010369998.8A CN111258409B (zh) 2020-05-06 2020-05-06 一种用于人机交互的特征点识别方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010369998.8A CN111258409B (zh) 2020-05-06 2020-05-06 一种用于人机交互的特征点识别方法及设备

Publications (2)

Publication Number Publication Date
CN111258409A true CN111258409A (zh) 2020-06-09
CN111258409B CN111258409B (zh) 2020-08-04

Family

ID=70948200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010369998.8A Active CN111258409B (zh) 2020-05-06 2020-05-06 一种用于人机交互的特征点识别方法及设备

Country Status (1)

Country Link
CN (1) CN111258409B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113726794A (zh) * 2021-09-01 2021-11-30 湖南智领通信科技有限公司 一种保密投屏系统和方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008234085A (ja) * 2007-03-19 2008-10-02 Sega Corp 情報表示装置、情報表示方法、情報表示プログラム及び記録媒体
CN102831200A (zh) * 2012-08-07 2012-12-19 北京百度网讯科技有限公司 一种基于图像文字识别的商品推送方法和装置
CN104090968A (zh) * 2014-07-16 2014-10-08 广东小天才科技有限公司 一种智能信息推送的方法和装置
CN106023692A (zh) * 2016-05-13 2016-10-12 广东博士早教科技有限公司 一种基于娱乐交互的ar趣味学习系统及方法
CN110119733A (zh) * 2019-05-15 2019-08-13 广东小天才科技有限公司 书页识别方法及装置、终端设备、计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008234085A (ja) * 2007-03-19 2008-10-02 Sega Corp 情報表示装置、情報表示方法、情報表示プログラム及び記録媒体
CN102831200A (zh) * 2012-08-07 2012-12-19 北京百度网讯科技有限公司 一种基于图像文字识别的商品推送方法和装置
CN104090968A (zh) * 2014-07-16 2014-10-08 广东小天才科技有限公司 一种智能信息推送的方法和装置
CN106023692A (zh) * 2016-05-13 2016-10-12 广东博士早教科技有限公司 一种基于娱乐交互的ar趣味学习系统及方法
CN110119733A (zh) * 2019-05-15 2019-08-13 广东小天才科技有限公司 书页识别方法及装置、终端设备、计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113726794A (zh) * 2021-09-01 2021-11-30 湖南智领通信科技有限公司 一种保密投屏系统和方法
CN113726794B (zh) * 2021-09-01 2023-06-30 湖南智领通信科技有限公司 一种保密投屏系统和方法

Also Published As

Publication number Publication date
CN111258409B (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
CN110781347B (zh) 一种视频处理方法、装置、设备以及可读存储介质
CN113691836B (zh) 视频模板生成方法、视频生成方法、装置和电子设备
JP5510167B2 (ja) ビデオ検索システムおよびそのためのコンピュータプログラム
CN107633241B (zh) 一种全景视频自动标注和追踪物体的方法和装置
US20160110453A1 (en) System and method for searching choreography database based on motion inquiry
US20160050465A1 (en) Dynamically targeted ad augmentation in video
CN107633441A (zh) 追踪识别视频图像中的商品并展示商品信息的方法和装置
CN110516096A (zh) 合成感知数字图像搜索
CN111160134A (zh) 一种以人为主体的视频景别分析方法和装置
CN106649629B (zh) 一种关联书本与电子资源的系统
CN109215416A (zh) 一种基于增强现实技术的汉字辅助学习系统及方法
JP6366626B2 (ja) 生成装置、生成方法、及び生成プログラム
US11126856B2 (en) Contextualized video segment selection for video-filled text
JP4040046B2 (ja) ポインタ領域検出装置、方法及びプログラム、画像の対応付け装置、方法及びプログラム、並びにコンテンツ配信サーバ、コンテンツ配信方法
CN115933930A (zh) 教育元宇宙中学习对象的注意力分析方法、终端及装置
US20170103124A1 (en) Remote search engine using camera
CN114119171A (zh) 一种mr/ar/vr购物和检索场景控制方法、移动终端与可读存储介质
CN111258409B (zh) 一种用于人机交互的特征点识别方法及设备
CN110418148B (zh) 视频生成方法、视频生成设备及可读存储介质
CN111078982B (zh) 一种电子页面的检索方法、电子设备及存储介质
CN115209233B (zh) 视频播放方法以及相关装置、设备
Li et al. Global-scale location prediction for social images using geo-visual ranking
CN112506398B (zh) 图文显示方法及用于其的装置、计算机可读介质
CN114445744A (zh) 一种教育视频自动定位方法、装置及存储介质
Li et al. An empirical evaluation of labelling method in augmented reality

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant