[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN112230876A - 人工智能伴读方法和伴读机器人 - Google Patents

人工智能伴读方法和伴读机器人 Download PDF

Info

Publication number
CN112230876A
CN112230876A CN202011087542.9A CN202011087542A CN112230876A CN 112230876 A CN112230876 A CN 112230876A CN 202011087542 A CN202011087542 A CN 202011087542A CN 112230876 A CN112230876 A CN 112230876A
Authority
CN
China
Prior art keywords
instruction
image
text content
reading
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011087542.9A
Other languages
English (en)
Inventor
朱定局
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN202011087542.9A priority Critical patent/CN112230876A/zh
Publication of CN112230876A publication Critical patent/CN112230876A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/04Electrically-operated educational appliances with audible presentation of the material to be studied

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Robotics (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

人工智能伴读方法和伴读机器人,包括:指令获取步骤;阅读指令步骤;继续指令步骤;资料获取步骤;学习步骤。上述方法、系统和机器人,通过图像识别获取外部的文本内容作为阅读内容,通过指令控制阅读的文本范围和方式,通过智能推荐将外部获取得的文本内容与内部存储的学习资料关联起来,使得通过能够通过阅读来进行关联学习,进而能够取得更好的阅读效果和学习效果,使得阅读和学习相辅相成、相互促进。

Description

人工智能伴读方法和伴读机器人
技术领域
本发明涉及人工智能技术领域,特别是涉及一种人工智能伴读方法和伴读机器人。
背景技术
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:现有的伴读装置只能将事先存储在存储器上的内容例如诗词、英语等朗读出来,本质上是个播放器。存储器中的内容一旦确定,便无法播放存储器之外的内容,即使向存储器中增加内容,用户也只能手工地选择其中某一项内容进行播放。现有的伴读机器人中存储的内容都非常有限,即使向伴读机器人中存储海量的内容,由于需要用户手工选择,那也会使得用户难以从海量的内容中发现合适的内容进行播放。
因此,现有技术还有待于改进和发展。
发明内容
基于此,有必要针对现有技术的缺陷或不足,提供人工智能伴读方法和伴读机器人,以解决现有技术中伴读机器人仅仅依靠自身存储的内容进行播放的不足,能够从外部直接获取内容进行阅读,并能够根据阅读的内容自动地向用户推荐存储的合适内容。
第一方面,本发明实施例提供一种人工智能方法,所述方法包括:
指令获取步骤:获取用户的指令;若指令包括阅读含义,则执行阅读指令步骤;若所述指令包括继续含义,则执行继续指令步骤;若未获取到指令,且识别出图像中用户所指向的位置在待阅读的文本内容之外,则将前一次获取的指令作为用户的指令,然后执行阅读指令步骤;
阅读指令步骤:根据指令识别图像中用户所指向的位置所在指令所指示的范围中的文本内容,作为待阅读的文本内容;
继续指令步骤:获取待阅读的文本内容后续的所在预设范围中的文本内容作为待阅读的文本内容;
资料获取步骤:获取学习资料;
学习步骤:若所述指令为第一预设指令或第二预设指令,则从学习资料文本中搜索与最近的至少一个待阅读的文本内容匹配的文本内容,作为待阅读的文本内容;若所述指令为第三预设指令,则继续将所述匹配的文本内容的后续文本内容,作为待阅读的文本内容。
优选地,
指令获取步骤具体包括:获取用户的语音,识别语音中的指令;
阅读指令步骤具体包括:在训练和测试时,将未被遮挡的第一图像和所述第一图像对应的被指后的第二图像作为输入,将第二图像中的用户所指向的位置所在指令所指示的范围中的文本内容作为输出,对深度学习模型进行训练和测试,得到的所述深度学习模型,作为被指图像文本识别深度学习模型;在使用时,将未被遮挡的第一图像和所述第一图像对应的被指后的第二图像作为输入,通过被指图像文本识别深度学习模型计算得到的输出作为用户所指向的位置所在指令所指示的范围中的文本内容。
优选地,所述方法还包括:
获取图像步骤:获取未被遮挡的第一图像和所述第一图像对应的被指后的第二图像;将所述第二图像作为阅读指令步骤中的所述图像;
阅读步骤:将待阅读的文本内容转换为音频,然后按照从上到下、从左到右的顺序通过播放器播放待阅读的文本内容对应的音频。
优选地,所述方法还包括:
语言选择步骤:将指令的语言作为目标语言,将指令所指示的范围中的文本内容的语言作为源语言;若目标语言与源语言不同,则将所述文本内容翻译为目标语言后,作为待阅读的文本内容。
优选地,
阅读指令步骤还包括:所述指令所指示的范围包括字或词或句子或段落或页;若当前指令没有指示范围,则获取最近一次阅读指令步骤中的指令所指示的范围作为当前指令所指示的范围;
继续指令步骤还包括:所述预设范围包括最近一次阅读指令步骤中的指令所指示的范围。
优选地,所述方法还包括:
翻译步骤:若指令包括翻译的含义,则根据指令识别图像中用户所指向的位置所在指令所指示的范围中的文本内容,并将该范围中的文本内容翻译为指令中所要求的目标语言后,作为待阅读的文本内容。
优选地,所述方法还包括:
判断页面是否完整步骤:判断图像中的页面是否完整,若不完整,则提醒用户调整摄像头与页面的相对位置或自动调整摄像头的位置,并回到获取图像步骤重新执行;
判断页面是否清晰步骤:判断图像中的页面是否清晰,若不清晰,则提醒用户调整摄像头与页面的相对位置或自动调整摄像头的位置,并回到获取图像步骤重新执行。
第二方面,本发明实施例提供一种人工智能装置,所述装置包括:
指令获取模块:获取用户的指令;若指令包括阅读含义,则执行阅读指令模块;若所述指令包括继续含义,则执行继续指令模块;若未获取到指令,且识别出图像中用户所指向的位置在待阅读的文本内容之外,则将前一次获取的指令作为用户的指令,然后执行阅读指令步骤;
阅读指令模块:根据指令识别图像中用户所指向的位置所在指令所指示的范围中的文本内容,作为待阅读的文本内容;
继续指令模块:获取待阅读的文本内容后续的所在预设范围中的文本内容作为待阅读的文本内容;
资料获取模块:获取学习资料;
学习模块:若所述指令为第一预设指令或第二预设指令,则从学习资料文本中搜索与最近的至少一个待阅读的文本内容匹配的文本内容,作为待阅读的文本内容;若所述指令为第三预设指令,则继续将所述匹配的文本内容的后续文本内容,作为待阅读的文本内容。
优选地,其特征在于,
指令获取模块具体包括:获取用户的语音,识别语音中的指令;
阅读指令模块具体包括:在训练和测试时,将未被遮挡的第一图像和所述第一图像对应的被指后的第二图像作为输入,将第二图像中的用户所指向的位置所在指令所指示的范围中的文本内容作为输出,对深度学习模型进行训练和测试,得到的所述深度学习模型,作为被指图像文本识别深度学习模型;在使用时,将未被遮挡的第一图像和所述第一图像对应的被指后的第二图像作为输入,通过被指图像文本识别深度学习模型计算得到的输出作为用户所指向的位置所在指令所指示的范围中的文本内容。
优选地,所述装置还包括:
获取图像模块:获取未被遮挡的第一图像和所述第一图像对应的被指后的第二图像;将所述第二图像作为阅读指令模块中的所述图像;
阅读模块:将待阅读的文本内容转换为音频,然后按照从上到下、从左到右的顺序通过播放器播放待阅读的文本内容对应的音频。
优选地,所述装置还包括:
语言选择模块:将指令的语言作为目标语言,将指令所指示的范围中的文本内容的语言作为源语言;若目标语言与源语言不同,则将所述文本内容翻译为目标语言后,作为待阅读的文本内容。
优选地,
阅读指令模块还包括:所述指令所指示的范围包括字或词或句子或段落或页;若当前指令没有指示范围,则获取最近一次阅读指令步骤中的指令所指示的范围作为当前指令所指示的范围;
继续指令模块还包括:所述预设范围包括最近一次阅读指令模块中的指令所指示的范围。
优选地,所述装置还包括:
翻译模块:若指令包括翻译的含义,则根据指令识别图像中用户所指向的位置所在指令所指示的范围中的文本内容,并将该范围中的文本内容翻译为指令中所要求的目标语言后,作为待阅读的文本内容。
优选地,所述装置还包括:
判断页面是否完整模块:判断图像中的页面是否完整,若不完整,则提醒用户调整摄像头与页面的相对位置或自动调整摄像头的位置,并回到获取图像模块重新执行;
判断页面是否清晰模块:判断图像中的页面是否清晰,若不清晰,则提醒用户调整摄像头与页面的相对位置或自动调整摄像头的位置,并回到获取图像模块重新执行。
第三方面,本发明实施例提供一种人工智能伦理系统,所述系统包括第二方面实施例任意一项所述装置的模块。
第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现第一方面实施例任意一项所述方法的步骤。
第五方面,本发明实施例提供一种机器人,包括存储器、处理器及存储在存储器上并可在处理器上运行的人工智能机器人程序,所述机器人为第一方面实施例中的所述第一人工智能装置,所述处理器执行所述程序时实现第一方面实施例任意一项所述方法的步骤。
本实施例提供的人工智能伴读方法和伴读机器人,包括:指令获取步骤;阅读指令步骤;继续指令步骤;资料获取步骤;学习步骤。上述方法、系统和机器人,通过图像识别获取外部的文本内容作为阅读内容,通过指令控制阅读的文本范围和方式,通过智能推荐将外部获取得的文本内容与内部存储的学习资料关联起来,使得通过能够通过阅读来进行关联学习,进而能够取得更好的阅读效果和学习效果,使得阅读和学习相辅相成、相互促进。
附图说明
图1为本发明的一个实施例提供的人工智能方法的流程图;
图2为本发明的一个实施例提供的人工智能方法的流程图;
图3为本发明的一个实施例提供的人工智能方法的流程图;
图4为本发明的一个实施例提供的人工智能方法的流程图;
图5为本发明的一个实施例提供的机器人原理图;
图6为本发明的一个实施例提供的机器人原理图;
图7为本发明的一个实施例提供的机器人原理图。
具体实施方式
下面结合本发明实施方式,对本发明实施例中的技术方案进行详细地描述。
本发明的基本实施例
第一方面,本发明实施例提供一种人工智能方法,如图1所示,所述方法包括:指令获取步骤;阅读指令步骤;继续指令步骤;资料获取步骤;学习步骤。有益技术效果:通过指令获取步骤能够根据用户的指令采用不同的模式,为用户提供不同的伴读服务,从而使得伴读更贴近用户的需求,包括阅读模式、翻译模式、学习模式,而且还可以指定阅读的范围,例如字、词、句、段落、页面等不同的范围,甚至还可以自定义个性化的范围。通过指令获取步骤结合阅读指令步骤、继续指令步骤、资料获取步骤、学习步骤,就可以使得阅读和学习更为符合不同用户的各种需求,从而提高阅读和学习的效率。继续指令步骤使得用户无需重复地进行指令,只需要用继续这种指示,就能够默认地进行与之前同样模式同样范围(这里的范围指的是阅读的范围,例如句子、段落等)的阅读。学习步骤使得外部获取的文本内容与内部存储的学习资料(当然内部存储的学习资料也是通过外部上传和互联网获取得到的,只是存储在系统内部,或存储在系统云服务器中)能够进行匹配,并进行智能推荐,使得阅读的内容能与学习的内容进行有机地结合和融合,从而对用户的阅读和学习起到双促进作用。
优选地,指令获取步骤具体包括:获取用户的语音,识别语音中的指令;阅读指令步骤具体包括:被指图像文本识别深度学习模型的训练测试和使用。有益技术效果:通过语音识别,可以使得用户通过语音就可以进行伴读机器人的控制,从而使得使用更为便捷,而无需采用传统的按键操作,降低了用户使用的难度。
优选地,如图2所示,所述方法还包括:获取图像步骤;阅读步骤。有益技术效果:通过获取需要阅读的内容的图像,使得需要阅读的内容无需事先输入到存储中,而是可以通过机器人自主地从外部通过图像识别进行阅读内容的获取,使得阅读内容可以无限扩展,用户可以随意拿一本新的书或有字的纸张,那么就可以借助伴读机器人进行阅读,这对于不认识字或不完全认识字的孩子的阅读来说是非常有实用价值的,伴读机器人可以给孩子阅读孩子不认识的字和书本。
优选地,如图3所示,所述方法还包括:语言选择步骤。有益技术效果:不同的用户可能来自不同的国家,那么可能使用不同的语言,而书本的语言可能和用户的母语不同,那么必然是阅读成用户的母语,用户才能更容易听得懂,所以自己翻译成用户的母语再进行阅读,这样更加方便用户理解阅读的内容。
优选地,阅读指令步骤还包括:所述指令所指示的范围包括字或词或句子或段落或页;继续指令步骤还包括:所述预设范围包括最近一次阅读指令步骤中的指令所指示的范围。有益技术效果:通过在指令中包含阅读范围的指示,可以使得阅读能够定位到用户所想阅读的范围,而解放用户的手,使得用户需要一直用手或其他用品去指每一个需要阅读的字,这样减轻了用户的负担,提高了阅读的体验,增加了伴读机器人的人性化程度。通过将最近一次阅读指令步骤中的指令所指示的范围作为当前阅读范围,可以使得用户不需要每次都重新指示阅读的范围,这样可以减轻用户发布指令的负担,使得伴读机器人更加领会用户的意图,提高阅读的体验。
优选地,所述方法还包括:翻译步骤。有益技术效果:
优选地,如图4所示,所述方法还包括:判断页面是否完整步骤;判断页面是否清晰步骤。有益技术效果:用户可以在阅读的同时,将需要阅读的内容以任意想要翻译成的语言进行阅读,进一步提高用户的阅读体验。
第二方面,本发明实施例提供一种人工智能装置,所述装置用于第一方面实施例任意一项所述方法的步骤。
第三方面,本发明实施例提供一种人工智能伦理系统,所述系统包括第二方面实施例任意一项所述装置的模块。
第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现第一方面实施例任意一项所述方法的步骤。
第五方面,本发明实施例提供一种机器人,包括存储器、处理器及存储在存储器上并可在处理器上运行的人工智能机器人程序,所述处理器执行所述程序时实现第一方面实施例任意一项所述方法的步骤。
本实施例提供的人工智能伴读方法和伴读机器人,包括:风险类型获取步骤;事件场景获取步骤;风险存在判断步骤;风险大小计算步骤;事件场景变换步骤;行为预测步骤;行为执行步骤。上述方法、系统和机器人,首先通过深度学习模型检测出事件场景中的人工智能伦理风险,然后通过场景变换虚拟仿真得到人工智能伦理风险尽可能小的事件场景,并通过深度学习模型预测得到进行该场景变换所需的行为,从而能够在现实中进行人工智能伦理风险的防范,提高了事件场景下人工智能伦理风险的检测和防范能力。
本发明的优选实施例
1、(机器人)具有摄像头、显示器、拾音器、播放器。(这里的机器人也可以没有实体)
优选地,其中摄像头、显示器、拾音器、播放器既可以安装到机器人上或安装到笔上或安装到灯具上或安装在床头或眼镜或帽子等其他位置均可。
优选地,具有通信模块,通信模块将数据(若无数据也可以不发送)发送到云端或服务器进行计算后通过通信模块返回结果。例如通信模块将获取的图像发送到云端或服务器进行图像识别后通过通信模块返回识别出来的文本内容,又例如通信模块检索和匹配最新阅读的文本内容相关的学习资料后通过通信模块返回匹配到的学习资料内容。
2、摄像头(与机器人)通过可伸缩、可旋转的连接装置连接(例如可伸缩、可旋转的连接杆,其材质可以为金属等,也可以将机器人的手臂作为该连接装置,那么此时摄像头安装到机器人的手上,因为机器人的手臂也可以伸缩旋转)。(这里的机器人也可以没有实体,所以摄像头可以连接到其他物体上,例如桌子等)
3、通过摄像头获取图像,摄像头实时获取的图像通过机器人的显示器进行显示,如图5所示。
4、从所述图像中识别有字的页面图像,并保存该有字的页面图像。(如果有2个页面,则保存2个页面图像。)
优选地,所述识别有字的页面的步骤采用深度学习模型进行识别,在训练时,将第一图像作为输入,将第一图像中有字的页面图像作为预期输出,对深度学习模型进行训练和测试,得到页面识别深度学习模型;在使用时,将第一图像作为页面识别深度学习模型的输入,计算得到的页面识别深度学习模型的输出作为第一图像中有字的页面图像。
5、判断有字的页面图像是否完整,若不完整,则提醒用户调整摄像头与有字的物体的相对位置或自动调整摄像头的位置(使得摄像头可以对准有字的页面,调整摄像头的位置,可以通过连接装置调节,也可以通过焦距等摄像头参数进行调节,这个步骤也可以通过用户手工来实现,所以这个步骤作为进一步优选的步骤),并回到第3步重新执行。
优选地,所述判断有字的页面图像是否完整的步骤采用深度学习模型进行识别,在训练时,将完整的有字的页面图像作为输入,将代表完整的标签作为预期输出,将不完整的有字的页面图像作为输入,将代表不完整的标签作为预期输出,对深度学习模型进行训练和测试,得到页面完整性判断深度学习模型;在使用时,将有字的页面图像作为页面完整性判断深度学习模型的输入,计算得到的页面完整性判断深度学习模型的输出若是代表完整的标签,则有字的页面图像是完整的,所述输出如果是代表不完整的标签,则有字的页面图像是不完整的。
6、判断有字的页面图像是否清晰,若不清晰,则提醒用户调整摄像头与有字的物体的相对位置或自动调整摄像头的位置(使得摄像头可以对准有字的页面,调整摄像头的位置,可以通过连接装置调节,也可以通过焦距等摄像头参数进行调节,这个步骤也可以通过用户手工来实现,所以这个步骤作为进一步优选的步骤),并回到第3步重新执行。
优选地,所述判断有字的页面图像是否清晰的步骤采用深度学习模型进行识别,在训练时,将清晰的有字的页面图像作为输入,将代表清晰的标签作为预期输出,将不清晰的有字的页面图像作为输入,将代表不清晰的标签作为预期输出,对深度学习模型进行训练和测试,得到页面清晰性判断深度学习模型;在使用时,将有字的页面图像作为页面清晰性判断深度学习模型的输入,计算得到的页面清晰性判断深度学习模型的输出若是代表清晰的标签,则有字的页面图像是清晰的,所述输出如果是代表不清晰的标签,则有字的页面图像是不清晰的。
7、拾音器获取用户的语音,识别语音中的指令;
指令由模式(例如阅读或翻译或学习)、范围(这里的范围指的是长度单位,例如字或词或句子或段落或页或其他自定义的范围)等组成;
8、若指令为进行阅读方面的指示,则根据指令识别图像中用户所指向的位置所在指令所指示的范围中的文本内容,作为待阅读的文本内容,将待阅读的文本内容转换为音频,然后按照从上到下、从左到右的顺序通过播放器播放待阅读的文本内容对应的音频;
优选地,若未获取到指令,且识别出图像中用户所指向的位置在待阅读的文本内容之外,则将前一次获取的指令作为用户的指令;
例如,如果指令为“读这一句”,则用户所指向的位置所在指令所指示的范围中的文本内容为用户所指的字所在句子的文本内容;如果指令为“读这个字”,则用户所指向的位置所在指令所指示的范围中的文本内容为用户所指的字;如果指令为“读这个词”,则用户所指向的位置所在指令所指示的范围中的文本内容为用户所指的字所在词的文本内容;如果指令为“读这一段”,则用户所指向的位置所在指令所指示的范围中的文本内容为用户所指的字所在段的文本内容;如果指令为“读这一页”,则用户所指向的位置所在指令所指示的范围中的文本内容为用户所指的字所在页的文本内容;
优选地,用户所指向的位置包括用户手指所指向的位置或笔等其他物体所指向的位置,如图6所示。
优选地,根据指令识别图像中用户所指向的位置所在指令所指示的范围中的文本内容的步骤可以通过深度学习来实现;在训练和测试时,将图像和用户所指向的位置所在指令所指示的范围中的文本内容分别作为输入和输出,对深度学习模型进行训练和测试,得到的所述深度学习模型,作为用户所指向的位置所在所述范围的文本识别深度学习模型;在使用时,将图像作为输入,通过用户所指向的位置所在所述范围的文本识别深度学习模型计算得到的输出作为用户所指向的位置所在指令所指示的范围中的文本内容。
优选地,根据未遮挡的文本内容恢复出有遮挡的文本内容中的遮挡部分的文本内容;具体地:在训练和测试时,将未遮挡的图像和有遮挡的图像(未遮挡的图像和有遮挡的图像中的文本内容是一致的)作为输入,将有遮挡的图像中的用户所指向的位置所在指令所指示的范围中的文本内容作为输出,对深度学习模型进行训练和测试,得到的所述深度学习模型,作为有遮挡图像文本识别深度学习模型;在使用时,将未遮挡的图像和有遮挡的图像作为输入,通过有遮挡图像文本识别深度学习模型计算得到的输出作为用户所指向的位置所在指令所指示的范围中的文本内容。
优选地,将指令的语言作为目标语言,将指令所指示的范围中的文本内容的语言作为源语言;若目标语言与源语言不同,则将所述文本内容翻译为目标语言的文本内容,作为待阅读的文本内容,将待阅读的文本内容转换为音频,然后按照从上到下、从左到右的顺序通过播放器播放待阅读的文本内容对应的音频;
8.1、若所述指令为阅读当前页面的指令(例如“这页”),则从所述图像中识别手指所指向的位置所在的页面中的文本内容,作为待阅读的文本内容,将待阅读的文本内容转换为音频,然后按照从上到下、从左到右的顺序通过播放器播放待阅读的文本内容对应的音频;
优选地,从所述图像中识别手指所指向的位置所在的页面中的文本内容的步骤可以通过深度学习来实现;在训练和测试时,将图像和用户所指向的位置所在页面中的文本内容分别作为输入和输出,对深度学习模型进行训练和测试,得到的所述深度学习模型,作为用户所指向的位置所在页面的文本识别深度学习模型;在使用时,将图像作为输入,通过用户所指向的位置所在页面的文本识别深度学习模型计算得到的输出作为用户所指向的位置所在页面中的文本内容。
8.2、若所述指令为阅读当前段落的指令(例如“这段”),则从所述图像中识别手指所指向的位置所在的段落中的文本内容,作为待阅读的文本内容,将待阅读的文本内容转换为音频,然后按照从上到下、从左到右的顺序通过播放器播放待阅读的文本内容对应的音频;
优选地,从所述图像中识别手指所指向的位置所在的段落中的文本内容的步骤可以通过深度学习来实现;在训练和测试时,将图像和用户所指向的位置所在段落中的文本内容分别作为输入和输出,对深度学习模型进行训练和测试,得到的所述深度学习模型,作为用户所指向的位置所在段落的文本识别深度学习模型;在使用时,将图像作为输入,通过用户所指向的位置所在段落的文本识别深度学习模型计算得到的输出作为用户所指向的位置所在段落中的文本内容。
8.3、若所述指令为阅读当前句子的指令(例如“这个句子”),则从所述图像中识别手指所指向的位置所在的句子中的文本内容,作为待阅读的文本内容,将待阅读的文本内容转换为音频,然后按照从上到下、从左到右的顺序通过播放器播放待阅读的文本内容对应的音频;
优选地,-从所述图像中识别手指所指向的位置所在的段落中的句子内容的步骤可以通过深度学习来实现;在训练和测试时,将图像和用户所指向的位置所在段落中的句子内容分别作为输入和输出,对深度学习模型进行训练和测试,得到的所述深度学习模型,作为用户所指向的位置所在段落的句子识别深度学习模型;在使用时,将图像作为输入,通过用户所指向的位置所在段落的句子识别深度学习模型计算得到的输出作为用户所指向的位置所在段落中的句子内容。
8.4、若所述指令为阅读当前词语的指令(例如“这个词”),则从所述图像中识别手指所指向的位置所在的词语中的文本内容,作为待阅读的文本内容,将待阅读的文本内容转换为音频,然后按照从上到下、从左到右的顺序通过播放器播放待阅读的文本内容对应的音频;
优选地,从所述图像中识别手指所指向的位置所在的段落中的词语内容的步骤可以通过深度学习来实现;在训练和测试时,将图像和用户所指向的位置所在段落中的词语内容分别作为输入和输出,对深度学习模型进行训练和测试,得到的所述深度学习模型,作为用户所指向的位置所在段落的词语识别深度学习模型;在使用时,将图像作为输入,通过用户所指向的位置所在段落的词语识别深度学习模型计算得到的输出作为用户所指向的位置所在段落中的词语内容。
8.5、若所述指令为阅读当前字的指令(例如“这个字”),则从所述图像中识别手指所指向的位置所在的字中的文本内容,作为待阅读的文本内容,将待阅读的文本内容转换为音频,然后按照从上到下、从左到右的顺序通过播放器播放待阅读的文本内容对应的音频;
优选地,从所述图像中识别手指所指向的位置所在的段落中的字内容的步骤可以通过深度学习来实现;在训练和测试时,将图像和用户所指向的位置所在段落中的字内容分别作为输入和输出,对深度学习模型进行训练和测试,得到的所述深度学习模型,作为用户所指向的位置所在段落的字识别深度学习模型;在使用时,将图像作为输入,通过用户所指向的位置所在段落的字识别深度学习模型计算得到的输出作为用户所指向的位置所在段落中的字内容。
9、若所述指令为继续含义的指示(例如“继续”),则获取待阅读的文本内容后续的所在范围中的文本作为待阅读的文本内容,将待阅读的文本内容转换为音频,然后按照从上到下、从左到右的顺序通过播放器播放待阅读的文本内容对应的音频;
优选地,以最近一次阅读的范围作为所述范围;例如,上一次阅读的范围是句子(例如第1句),那么本次阅读的范围就是句子(例如第2句)。如果再继续,那么下一次阅读的范围还是句子(例如第3句)。
10、若指令为进行翻译方面的指示,则根据指令识别图像中用户所指向的位置所在指令所指示的范围中的文本内容,并将该范围中的文本内容翻译为指令中所要求的目标语言,作为待阅读的文本内容,将待阅读的文本内容转换为音频,然后按照从上到下、从左到右的顺序通过播放器播放待阅读的文本内容对应的音频;(这个功能是可选功能,和阅读不同,翻译功能是属于比阅读功能高级一点的功能,而阅读功能属于基本功能。)
10.1、根据指令识别图像中用户所指向的位置所在指令所指示的范围中的文本内容的步骤同上;
10.2、将识别出来的文本内容,调用翻译引擎接口进行翻译,例如百度翻译引擎或谷歌翻译引擎;或,将识别出来的文本内容,通过深度学习模型,进行文本内容的翻译。
11、获取学习资料;优选地,学习资料放在云端,可以是文本,也可以是音频等格式。具体包括获取用户输入的学习资料,获取用户通过互联网获取的学习资料;获取自动通过互联网获取的学习资料,获取从数据库或知识库中获取的学习资料。
11.1、获取用户上传的学习资料文本;
11.2、获取用户从预存的学习资料文本中选择的学习资料文本;
11.3、若用户没有对预存的学习资料文本进行选择,则获取所有预存的学习资料文本;
12、若所述指令为第一预设指令(包括聊天方面的指示或讲解方面的指示)或第二预设指令(包括换一个方面的指示),则从学习资料文本中搜索与最近的至少一个待阅读的文本内容匹配的文本内容;若所述指令为第三预设指令(包括继续含义的指令,例如继续),则继续阅读所述匹配的文本内容的后续文本内容,如图7所示;在进行搜索和推荐时还可以考虑用户的属性;例如通过摄像头获取用户的性别、年龄等,或者直接通过用户的注册信息获取用户的属性,从而获取与用户相关(例如属于用户年龄段的学习资料)的学习资料,然后从与用户相关的学习资料文本中搜索与最近的至少一个待阅读的文本内容匹配的文本内容
12.1、若所述指令为第一预设指令(包括聊天方面的指示或讲解方面的指示)或第二预设指令(包括换一个方面的指示),则执行12.2;若所述指令为继续含义的指示(例如继续),则执行12.3;
12.2从学习资料文本中搜索最近预设时长内未阅读过的(例如一天内)与最近的预设数个待阅读的文本内容匹配度最大的文本内容(优选地,选取一段文本),作为待阅读的文本内容,将待阅读的文本内容转换为音频,然后按照从上到下、从左到右的顺序通过播放器播放待阅读的文本内容对应的音频;
12.3获取待阅读的文本内容后续的文本(优选地,选取一段文本)作为待阅读的文本内容,将待阅读的文本内容转换为音频,然后按照从上到下、从左到右的顺序通过播放器播放待阅读的文本内容对应的音频;
13、显示待阅读的内容,并且标志正在阅读的字(例如以特殊颜色或亮度或形状等进行标志)。
本发明的其他实施例
采集用户的年级和地区,检索年级和地区对应的教材和考试知识点,形成教学知识库。
识别用户所指(可以用手也可以用其他物体,例如棒子,或特定标志的物体,例如用棒子的特征来表示某种类型的指示,例如用红色棒子表示读所指的字,用蓝色棒子表示读所指的词,用绿色棒子表示所指的句子,用黑色棒子表示所指的段落,用白色棒子表示所指的页)的内容(识别用户的语音来判断,所指的范围,例如用户说“读这个字”或其他含有“字”的语句,就朗读用户所指的字,例如用户说“读这个词”或其他含有“词”的语句,就朗读用户所指的词,例如用户说“读这个句子”或其他含有“句子”的语句,就朗读用户所指的句子,例如用户说“读这个段落”或其他含有“段”的语句,就朗读用户所指的段落,例如用户说“读这一页”或其他含有“页”的语句,就朗读用户所指的页),将用户所指的内容朗诵出来(在朗诵过程中,用户的手可以离开所指的内容),并且在显示器上显示出所读的内容,并且记录进用户阅读知识库中。
根据用户的阅读内容,从用户教学知识库中检索出相关的知识,在检索时,先检索当前学期的,然后再检索以前学过的,就是按照相关性和时间进行排序,同样相关性的按照时间进行排序。在阅读完后,播放所检索出的相关知识。在播放所检索出的相关知识之前,可以加个引导语“你刚才阅读的内容和你在学校过去的知识很相关,你想听听吗?”如果用户说想,那么就会开始播放。然后还可以与学生这学期将可能学习到的知识挂钩。可以加个引导语“你刚才阅读的内容还和你在这学期将学到的知识很相关,你想听听吗?”
这样在学生阅读时,可以巩固学生在学校学习的知识。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,则对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种人工智能方法,其特征在于,所述方法包括:
指令获取步骤:获取用户的指令;若指令包括阅读含义,则执行阅读指令步骤;若所述指令包括继续含义,则执行继续指令步骤;若未获取到指令,且识别出图像中用户所指向的位置在待阅读的文本内容之外,则将前一次获取的指令作为用户的指令,然后执行阅读指令步骤;
阅读指令步骤:根据指令识别图像中用户所指向的位置所在指令所指示的范围中的文本内容,作为待阅读的文本内容;
继续指令步骤:获取待阅读的文本内容后续的所在预设范围中的文本内容作为待阅读的文本内容;
资料获取步骤:获取学习资料;
学习步骤:若所述指令为第一预设指令或第二预设指令,则从学习资料文本中搜索与最近的至少一个待阅读的文本内容匹配的文本内容,作为待阅读的文本内容;若所述指令为第三预设指令,则继续将所述匹配的文本内容的后续文本内容,作为待阅读的文本内容。
2.根据权利要求1所述的人工智能方法,其特征在于,
指令获取步骤具体包括:获取用户的语音,识别语音中的指令;
阅读指令步骤具体包括:在训练和测试时,将未被遮挡的第一图像和所述第一图像对应的被指后的第二图像作为输入,将第二图像中的用户所指向的位置所在指令所指示的范围中的文本内容作为输出,对深度学习模型进行训练和测试,得到的所述深度学习模型,作为被指图像文本识别深度学习模型;在使用时,将未被遮挡的第一图像和所述第一图像对应的被指后的第二图像作为输入,通过被指图像文本识别深度学习模型计算得到的输出作为用户所指向的位置所在指令所指示的范围中的文本内容。
3.根据权利要求1所述的人工智能方法,其特征在于,所述方法还包括:
获取图像步骤:获取未被遮挡的第一图像和所述第一图像对应的被指后的第二图像;将所述第二图像作为阅读指令步骤中的所述图像;
阅读步骤:将待阅读的文本内容转换为音频,然后按照从上到下、从左到右的顺序通过播放器播放待阅读的文本内容对应的音频。
4.根据权利要求1所述的人工智能方法,其特征在于,所述方法还包括:
语言选择步骤:将指令的语言作为目标语言,将指令所指示的范围中的文本内容的语言作为源语言;若目标语言与源语言不同,则将所述文本内容翻译为目标语言后,作为待阅读的文本内容。
5.根据权利要求1所述的人工智能方法,其特征在于,
阅读指令步骤还包括:所述指令所指示的范围包括字或词或句子或段落或页;若当前指令没有指示范围,则获取最近一次阅读指令步骤中的指令所指示的范围作为当前指令所指示的范围;
继续指令步骤还包括:所述预设范围包括最近一次阅读指令步骤中的指令所指示的范围。
6.根据权利要求1所述的人工智能方法,其特征在于,所述方法还包括:
翻译步骤:若指令包括翻译的含义,则根据指令识别图像中用户所指向的位置所在指令所指示的范围中的文本内容,并将该范围中的文本内容翻译为指令中所要求的目标语言后,作为待阅读的文本内容。
7.根据权利要求1所述的人工智能方法,其特征在于,所述方法还包括:
判断页面是否完整步骤:判断图像中的页面是否完整,若不完整,则提醒用户调整摄像头与页面的相对位置或自动调整摄像头的位置,并回到获取图像步骤重新执行;
判断页面是否清晰步骤:判断图像中的页面是否清晰,若不清晰,则提醒用户调整摄像头与页面的相对位置或自动调整摄像头的位置,并回到获取图像步骤重新执行。
8.一种人工智能装置,其特征在于,所述装置用于实现权利要求1-7任意一项所述方法的步骤。
9.一种机器人,包括存储器、处理器及存储在存储器上并可在处理器上运行的人工智能机器人程序,其特征在于,所述处理器执行所述程序时实现权利要求1-7任意一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1-7任意一项所述方法的步骤。
CN202011087542.9A 2020-10-13 2020-10-13 人工智能伴读方法和伴读机器人 Pending CN112230876A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011087542.9A CN112230876A (zh) 2020-10-13 2020-10-13 人工智能伴读方法和伴读机器人

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011087542.9A CN112230876A (zh) 2020-10-13 2020-10-13 人工智能伴读方法和伴读机器人

Publications (1)

Publication Number Publication Date
CN112230876A true CN112230876A (zh) 2021-01-15

Family

ID=74112242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011087542.9A Pending CN112230876A (zh) 2020-10-13 2020-10-13 人工智能伴读方法和伴读机器人

Country Status (1)

Country Link
CN (1) CN112230876A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104253904A (zh) * 2014-09-04 2014-12-31 广东小天才科技有限公司 一种实现点读学习的方法及智能手机
CN109614552A (zh) * 2018-12-17 2019-04-12 广东小天才科技有限公司 一种引导式搜索方法及引导式搜索系统
CN110059694A (zh) * 2019-04-19 2019-07-26 山东大学 电力行业复杂场景下的文字数据的智能识别方法
CN110490182A (zh) * 2019-08-19 2019-11-22 广东小天才科技有限公司 一种点读数据的制作方法、系统、存储介质及电子设备
US20200013386A1 (en) * 2018-07-04 2020-01-09 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for outputting voice
CN111079494A (zh) * 2019-06-09 2020-04-28 广东小天才科技有限公司 一种学习内容推送方法及电子设备
CN111353501A (zh) * 2020-02-25 2020-06-30 暗物智能科技(广州)有限公司 一种基于深度学习的书本点读方法及系统
CN111428593A (zh) * 2020-03-12 2020-07-17 北京三快在线科技有限公司 一种文字识别方法、装置、电子设备及存储介质
CN111539405A (zh) * 2020-04-16 2020-08-14 安徽淘云科技有限公司 辅助阅读方法、装置、电子设备和存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104253904A (zh) * 2014-09-04 2014-12-31 广东小天才科技有限公司 一种实现点读学习的方法及智能手机
US20200013386A1 (en) * 2018-07-04 2020-01-09 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for outputting voice
CN109614552A (zh) * 2018-12-17 2019-04-12 广东小天才科技有限公司 一种引导式搜索方法及引导式搜索系统
CN110059694A (zh) * 2019-04-19 2019-07-26 山东大学 电力行业复杂场景下的文字数据的智能识别方法
CN111079494A (zh) * 2019-06-09 2020-04-28 广东小天才科技有限公司 一种学习内容推送方法及电子设备
CN110490182A (zh) * 2019-08-19 2019-11-22 广东小天才科技有限公司 一种点读数据的制作方法、系统、存储介质及电子设备
CN111353501A (zh) * 2020-02-25 2020-06-30 暗物智能科技(广州)有限公司 一种基于深度学习的书本点读方法及系统
CN111428593A (zh) * 2020-03-12 2020-07-17 北京三快在线科技有限公司 一种文字识别方法、装置、电子设备及存储介质
CN111539405A (zh) * 2020-04-16 2020-08-14 安徽淘云科技有限公司 辅助阅读方法、装置、电子设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
龙慧等: "深度学习在智能机器人中的应用研究综述", 《计算机科学》 *
龙慧等: "深度学习在智能机器人中的应用研究综述", 《计算机科学》, 15 November 2018 (2018-11-15) *

Similar Documents

Publication Publication Date Title
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN109940627B (zh) 一种面向绘本阅读机器人的人机交互方法和系统
CN111339246B (zh) 查询语句模板的生成方法、装置、设备及介质
US8793118B2 (en) Adaptive multimodal communication assist system
US11704501B2 (en) Providing a response in a session
CN108563780A (zh) 课程内容推荐方法和装置
CN113609103A (zh) 一种基于ai的交互式阅读支持数据库构建方法及系统
KR102101496B1 (ko) Ar 기반의 글씨 쓰기 연습 방법 및 프로그램
CN111610901B (zh) 一种基于ai视觉下的英语课文辅助教学方法及系统
US9525841B2 (en) Imaging device for associating image data with shooting condition information
CN110275987A (zh) 智能教学顾问生成方法、系统、设备及存储介质
CN113569112A (zh) 基于题目的辅导策略提供方法、系统、装置及介质
CN112883729B (zh) 文本创作的词汇推荐方法、装置及服务器
CN112230876A (zh) 人工智能伴读方法和伴读机器人
CN113963306B (zh) 基于人工智能的课件片头制作方法和装置
CN112230875B (zh) 人工智能跟读方法和跟读机器人
JP2002366018A (ja) 外国語学習システム
CN115617976B (zh) 问答方法、装置、电子设备和存储介质
CN112364700A (zh) 一种内容标记方法及终端设备
CN111931510A (zh) 一种基于神经网络的意图识别方法及装置、终端设备
CN112541651B (zh) 电子设备、发音学习方法、服务器装置、发音学习处理系统及记录介质
JP2019179485A (ja) 情報提供装置、情報提供方法、およびプログラム
JP7135358B2 (ja) 発音学習支援システム、発音学習支援装置、発音学習支援方法及び発音学習支援プログラム
CN114241175A (zh) 文本翻译方法、装置、扫描笔和存储介质
CN118245617A (zh) 外语作文的处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination