CN112230875B - 人工智能跟读方法和跟读机器人 - Google Patents
人工智能跟读方法和跟读机器人 Download PDFInfo
- Publication number
- CN112230875B CN112230875B CN202011087529.3A CN202011087529A CN112230875B CN 112230875 B CN112230875 B CN 112230875B CN 202011087529 A CN202011087529 A CN 202011087529A CN 112230875 B CN112230875 B CN 112230875B
- Authority
- CN
- China
- Prior art keywords
- instruction
- read
- audio
- text content
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 27
- 230000003993 interaction Effects 0.000 claims abstract description 23
- 238000013136 deep learning model Methods 0.000 claims description 72
- 238000012549 training Methods 0.000 claims description 31
- 238000012360 testing method Methods 0.000 claims description 28
- 239000000463 material Substances 0.000 claims description 25
- 238000013519 translation Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 3
- 230000006872 improvement Effects 0.000 abstract description 4
- 230000000295 complement effect Effects 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 9
- 230000009286 beneficial effect Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/008—Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/04—Electrically-operated educational appliances with audible presentation of the material to be studied
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Robotics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
人工智能跟读方法和跟读机器人,包括:指令获取步骤;指令模式步骤;指令交互步骤;资料获取步骤;学习步骤。上述方法、系统和机器人,通过图像识别获取外部的文本内容作为阅读内容,通过指令控制跟读的文本范围和方式,并且通过智能推荐将跟读错误的内容与内部存储的学习资料关联起来,使得通过阅读来进行关联学习,促进阅读能力的提高,也能促进对学习资料中知识的掌握,使得阅读和学习相辅相成、相互促进。
Description
技术领域
本发明涉及人工智能技术领域,特别是涉及一种人工智能跟读方法和跟读机器人。
背景技术
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:现有的跟读装置只能将事先存储在存储器上的内容例如诗词、英语等朗读出来,而且用户跟着读的时候,跟读装置也没有任何反馈,本质上是个播放器。存储器中的内容一旦确定,便无法播放存储器之外的内容,即使向存储器中增加内容,用户也只能手工地选择其中某一项内容进行播放。现有的跟读机器人中存储的内容都非常有限,即使向跟读机器人中存储海量的内容,由于需要用户手工选择,那也会使得用户难以从海量的内容中发现合适的内容进行播放。
因此,现有技术还有待于改进和发展。
发明内容
基于此,有必要针对现有技术的缺陷或不足,提供人工智能跟读方法和跟读机器人,以解决现有技术中跟读装置,只能机械地进行复读,无法发现用户阅读的错误,更无法帮助用户改正其阅读错误的缺陷。
第一方面,本发明实施例提供一种人工智能方法,所述方法包括:
指令获取步骤:获取用户的指令;指令包括模式、交互方式、范围的相关指示;
指令模式步骤:根据指令的模式和范围确定待阅读的文本内容和第一音频;
指令交互步骤:根据指令的交互方式确定第二音频和第三音频;
资料获取步骤:获取学习资料;
学习步骤:若所述指令为第一预设指令或第二预设指令,则从学习资料文本中搜索与最近的至少一个用户读错的文本内容或用户读错率高于预设比例的待阅读的文本内容匹配的文本内容,作为待阅读的文本内容;若所述指令为第三预设指令,则继续将所述匹配的文本内容的后续文本内容,作为待阅读的文本内容。
优选地,指令模式步骤包括:
模式选择步骤:若指令包括跟读含义,则执行跟读模式步骤;若未获取到指令,且识别出图像中用户所指向的位置在待阅读的文本内容之外,则执行缺省模式步骤;若所述指令包括继续含义,则执行继续模式步骤;
跟读模式步骤:根据指令识别图像中用户所指向的位置所在指令所指示的范围中的文本内容,作为待阅读的文本内容,将待阅读的文本内容转换为第一音频;
缺省模式步骤:将前一次指令作为当前的所述指令,然后转到指令模式步骤继续执行;
继续模式步骤:获取待阅读的文本内容后续的所在预设范围中的文本作为待阅读的文本内容,将待阅读的文本内容转换为第一音频。
优选地,指令交互步骤包括:
交互选择步骤:若指令为“我跟你读”方面的指示,则执行我跟你读步骤;若指令为“你跟我读”方面的指示,则执行你跟我读步骤;若指令为“我们一起读”方面的指示,则执行我们一起读模式步骤;
我跟你读步骤:播放第一音频;在第一音频播放结束后,获取用户跟读的音频,作为第二音频;根据第一音频和第二音频,得到用户读错的文本内容,作为待阅读的文本内容,将待阅读的文本内容转换为第三音频,播放第三音频;
你跟我读步骤:获取用户的音频,作为第二音频;第二音频获取完成后,播放第一音频;根据第一音频和第二音频,得到用户读错的文本内容,作为待阅读的文本内容,将待阅读的文本内容转换为第三音频,播放第三音频;
我们一起读模式步骤:获取音频的单位,实时获取用户的当前单位音频,作为第二音频的当前单位部分;获取第二音频的前一单位部分对应的待阅读的文本内容中的单位内容相邻的后一单位内容,作为第一内容,将第一内容转换为音频,作为第一音频的当前部分;在实时获取用户的第二音频的当前部分的同时,播放第一音频的当前部分;根据第一音频和第二音频,得到用户读错的文本内容,作为待阅读的文本内容,将待阅读的文本内容转换为第三音频,播放第三音频。
优选地,指令模式步骤还包括:
获取图像步骤:获取未被遮挡的第一图像和所述第一图像对应的被指后的第二图像;将所述第二图像作为指令模式步骤中的所述图像;
显示步骤:显示待阅读的文本内容;
文本识别步骤:在训练和测试时,将未被遮挡的第一图像和所述第一图像对应的被指后的第二图像作为输入,将第二图像中的用户所指向的位置所在指令所指示的范围中的文本内容作为输出,对深度学习模型进行训练和测试,得到的所述深度学习模型,作为有遮挡图像文本识别深度学习模型;在使用时,将未被遮挡的第一图像和所述第一图像对应的被指后的第二图像作为输入,通过有遮挡图像文本识别深度学习模型计算得到的输出作为第二图像中的用户所指向的位置所在指令所指示的范围中的文本内容。
优选地,所述方法还包括:
语言选择步骤:获取用户对预设选项的选择;预设选项包括根据指令选择语言步骤、根据用户选择语言步骤、根据文本内容选择语言步骤;
根据指令选择语言步骤:将指令的语言作为目标语言,将指令所指示的范围中的文本内容的语言作为源语言;若目标语言与源语言不同,则将指令所指示的范围中的文本内容翻译为目标语言的文本内容,作为待阅读的文本内容;
根据用户选择语言步骤:将第二音频的语言作为目标语言,将指令所指示的范围中的文本内容的语言作为源语言;若目标语言与源语言不同,则将所述文本内容翻译为目标语言的文本内容,作为待阅读的文本内容;
根据文本内容选择语言步骤:将指令所指示的范围中的文本内容,作为待阅读的文本内容。
优选地,
跟读模式步骤还包括:所述指令所指示的范围包括字或词或句子或段落或页;若当前指令没有所指示的范围,则获取最近一次跟读模式步骤中的指令所指示的范围作为当前指令所指示的范围;
继续模式步骤还包括:所述预设范围包括最近一次阅读指令步骤中的指令所指示的范围。
优选地,指令模式步骤还包括:
模式选择步骤还包括:若指令为进行翻译后跟读方面的指示,则执行翻译跟读模式步骤;
翻译跟读模式步骤:根据指令识别图像中用户所指向的位置所在指令所指示的范围中的文本内容,并将该范围中的文本内容翻译为指令中所要求的目标语言,作为待阅读的文本内容,将待阅读的文本内容转换为第一音频。
第二方面,本发明实施例提供一种人工智能装置,所述装置包括:
指令获取模块:获取用户的指令;指令包括模式、交互方式、范围的相关指示;
指令模式模块:根据指令的模式和范围确定待阅读的文本内容和第一音频;
指令交互模块:根据指令的交互方式确定第二音频和第三音频;
资料获取模块:获取学习资料;
学习模块:若所述指令为第一预设指令或第二预设指令,则从学习资料文本中搜索与最近的至少一个用户读错的文本内容或用户读错率高于预设比例的待阅读的文本内容匹配的文本内容,作为待阅读的文本内容;若所述指令为第三预设指令,则继续将所述匹配的文本内容的后续文本内容,作为待阅读的文本内容。
优选地,指令模式模块包括:
模式选择模块:若指令包括跟读含义,则执行跟读模式模块;若未获取到指令,且识别出图像中用户所指向的位置在待阅读的文本内容之外,则执行缺省模式模块;若所述指令包括继续含义,则执行继续模式模块;
跟读模式模块:根据指令识别图像中用户所指向的位置所在指令所指示的范围中的文本内容,作为待阅读的文本内容,将待阅读的文本内容转换为第一音频;
缺省模式模块:将前一次指令作为当前的所述指令,然后转到指令模式步骤继续执行;
继续模式模块:获取待阅读的文本内容后续的所在预设范围中的文本作为待阅读的文本内容,将待阅读的文本内容转换为第一音频。
优选地,指令交互模块包括:
交互选择模块:若指令为“我跟你读”方面的指示,则执行我跟你读模块;若指令为“你跟我读”方面的指示,则执行你跟我读模块;若指令为“我们一起读”方面的指示,则执行我们一起读模式模块;
我跟你读模块:播放第一音频;在第一音频播放结束后,获取用户跟读的音频,作为第二音频;根据第一音频和第二音频,得到用户读错的文本内容,作为待阅读的文本内容,将待阅读的文本内容转换为第三音频,播放第三音频;
你跟我读模块:获取用户的音频,作为第二音频;第二音频获取完成后,播放第一音频;根据第一音频和第二音频,得到用户读错的文本内容,作为待阅读的文本内容,将待阅读的文本内容转换为第三音频,播放第三音频;
我们一起读模式模块:获取音频的单位,实时获取用户的当前单位音频,作为第二音频的当前单位部分;获取第二音频的前一单位部分对应的待阅读的文本内容中的单位内容相邻的后一单位内容,作为第一内容,将第一内容转换为音频,作为第一音频的当前部分;在实时获取用户的第二音频的当前部分的同时,播放第一音频的当前部分;根据第一音频和第二音频,得到用户读错的文本内容,作为待阅读的文本内容,将待阅读的文本内容转换为第三音频,播放第三音频。
优选地,指令模式模块还包括:
获取图像模块:获取未被遮挡的第一图像和所述第一图像对应的被指后的第二图像;将所述第二图像作为指令模式模块中的所述图像;
显示模块:显示待阅读的文本内容;
文本识别模块:在训练和测试时,将未被遮挡的第一图像和所述第一图像对应的被指后的第二图像作为输入,将第二图像中的用户所指向的位置所在指令所指示的范围中的文本内容作为输出,对深度学习模型进行训练和测试,得到的所述深度学习模型,作为有遮挡图像文本识别深度学习模型;在使用时,将未被遮挡的第一图像和所述第一图像对应的被指后的第二图像作为输入,通过有遮挡图像文本识别深度学习模型计算得到的输出作为第二图像中的用户所指向的位置所在指令所指示的范围中的文本内容。
优选地,所述装置还包括:
语言选择模块:获取用户对预设选项的选择;预设选项包括根据指令选择语言模块、根据用户选择语言模块、根据文本内容选择语言模块;
根据指令选择语言模块:将指令的语言作为目标语言,将指令所指示的范围中的文本内容的语言作为源语言;若目标语言与源语言不同,则将指令所指示的范围中的文本内容翻译为目标语言的文本内容,作为待阅读的文本内容;
根据用户选择语言模块:将第二音频的语言作为目标语言,将指令所指示的范围中的文本内容的语言作为源语言;若目标语言与源语言不同,则将所述文本内容翻译为目标语言的文本内容,作为待阅读的文本内容;
根据文本内容选择语言模块:将指令所指示的范围中的文本内容,作为待阅读的文本内容。
优选地,
跟读模式模块还包括:所述指令所指示的范围包括字或词或句子或段落或页;若当前指令没有所指示的范围,则获取最近一次跟读模式模块中的指令所指示的范围作为当前指令所指示的范围;
继续模式模块还包括:所述预设范围包括最近一次阅读指令模块中的指令所指示的范围。
优选地,指令模式模块还包括:
模式选择模块还包括:若指令为进行翻译后跟读方面的指示,则执行翻译跟读模式模块;
翻译跟读模式模块:根据指令识别图像中用户所指向的位置所在指令所指示的范围中的文本内容,并将该范围中的文本内容翻译为指令中所要求的目标语言,作为待阅读的文本内容,将待阅读的文本内容转换为第一音频。
第三方面,本发明实施例提供一种人工智能伦理系统,所述系统包括第二方面实施例任意一项所述装置的模块。
第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现第一方面实施例任意一项所述方法的步骤。
第五方面,本发明实施例提供一种机器人,包括存储器、处理器及存储在存储器上并可在处理器上运行的人工智能机器人程序,所述机器人为第一方面实施例中的所述第一人工智能装置,所述处理器执行所述程序时实现第一方面实施例任意一项所述方法的步骤。
本实施例提供的人工智能跟读方法和跟读机器人,包括:指令获取步骤;指令模式步骤;指令交互步骤;资料获取步骤;学习步骤。上述方法、系统和机器人,通过图像识别获取外部的文本内容作为阅读内容,通过指令控制跟读的文本范围和方式,并且通过智能推荐将跟读错误的内容与内部存储的学习资料关联起来,使得通过阅读来进行关联学习,促进阅读能力的提高,也能促进对学习资料中知识的掌握,使得阅读和学习相辅相成、相互促进。
附图说明
图1为本发明的一个实施例提供的人工智能方法的流程图;
图2为本发明的一个实施例提供的人工智能方法的流程图;
图3为本发明的一个实施例提供的人工智能方法的流程图;
图4为本发明的一个实施例提供的人工智能方法的流程图;
图5为本发明的一个实施例提供的人工智能方法的流程图;
图6为本发明的一个实施例提供的人工智能方法的流程图;
图7为本发明的一个实施例提供的机器人原理图;
图8为本发明的一个实施例提供的机器人原理图;
图9为本发明的一个实施例提供的机器人原理图。
具体实施方式
下面结合本发明实施方式,对本发明实施例中的技术方案进行详细地描述。
本发明的基本实施例
第一方面,本发明实施例提供一种人工智能方法,如图1所示,所述方法包括:指令获取步骤;指令模式步骤;指令交互步骤;资料获取步骤;学习步骤。有益技术效果:能够通过指令模式步骤和指令交互步骤,使得用户可以采用不同的跟读方式,即可以用户跟着机器人读,也可以让机器人跟着用户读,还可以机器人与用户一起读,从而使得跟读充满了乐趣,与传统的单一的用户读一句然后复读机重新播放一次的复读模式比较起来具有极大的优势,能够提高用户的跟读体验;同时机器人不但可以跟读,还可以帮用户找出读时的错误内容,并且能够将错误内容通过显示标注过来,还可以将用户读错的内容重新读一遍,从而帮助用户提高阅读水平。更为重要的是,还能够通过学习步骤,根据读错的内容来搜出相关的学习资料,来帮助用户改进和提高阅读的水平,使得读错的地方能够通过学习资料的学习过程中进行改正,进而既提高了阅读的水平,又能促进学习资料中知识的学习。
在一个优选的实施例中,如图2所示,指令模式步骤包括:模式选择模块;跟读模式步骤;缺省模式步骤;继续模式步骤。有益技术效果:除了跟读模式,还有缺省模式和继续模式,可以极大地降低用户的指令复杂度,使得用户在下达第一次指令后,以后只需要简单地用继续指令就可以等同于下达了之前的复杂指令,从而可以让用户专注于跟读,而无需重复复杂的指令,甚至在后面的跟读时,无需发出指令,系统也会根据之前的指令来进行跟读的控制,从而极大提高了跟读的效率,降低了跟读的用户控制难度,使得跟读更方便更省事,用户的体验更好。
在一个优选的实施例中,如图3所示,指令交互步骤包括:交互选择步骤;我跟你读步骤;你跟我读步骤;我们一起读模式步骤。有益技术效果:和传统的复读机完全不同,本申请中的跟读,不仅仅是系统重新播放用户的音频,而是相互之间可以平等地交互,最为新颖的是用户和机器人可以同步地读,这样可以极大地帮助用户提高自己的阅读能力,达到真正的跟读效果,更快地提高用户的阅读水平。
在一个优选的实施例中,如图4所示,指令模式步骤还包括:获取图像步骤;显示步骤;文本识别步骤。有益技术效果:不但能够通过音频跟读,而且能够在显示屏中显示出所跟读的内容,更为关键的是还能够将读错的内容在待阅读的文本内容中标注出来,从而使得用户可以对照着显示出来的文本内容进行跟读,能够起到更好的跟读效果。
在一个优选的实施例中,如图5所示,所述方法还包括:语言选择步骤;根据指令选择语言步骤;根据用户选择语言步骤;根据文本内容选择语言步骤。有益技术效果:通过语言选择,可以使得用户以多种语言跟读,而不一定与所看的文本内容的语言完全一致,从而提高了跟读的灵活性,可以通用于各种语言,适用于各国用户使用,还能提高用户的外语水平,可谓一举多得。
在一个优选的实施例中,跟读模式步骤还包括:所述指令所指示的范围包括字或词或句子或段落或页;若当前指令没有所指示的范围,则获取最近一次跟读模式步骤中的指令所指示的范围作为当前指令所指示的范围;继续模式步骤还包括:所述预设范围包括最近一次阅读指令步骤中的指令所指示的范围。有益技术效果:通过指定跟读的范围,可以使得跟读更为个性化,跟读用户想跟读的部分;并且不需要每次都指定范围,因为在没有进行指定时,会直接延用之前的范围,从而降低用户与系统指令交互的复杂性。
在一个优选的实施例中,如图6所示,指令模式步骤还包括:翻译跟读模式步骤。有益技术效果:通过翻译跟读模式步骤,可以使得用户能够以任意的语言进行跟读,使得用户不但能够通过跟读提高阅读水平,还能够通过跟读提高外语水平和翻译水平,可谓一举三得。
第二方面,本发明实施例提供一种人工智能装置,所述装置用于第一方面实施例任意一项所述方法的步骤。
第三方面,本发明实施例提供一种人工智能伦理系统,所述系统包括第二方面实施例任意一项所述装置的模块。
第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现第一方面实施例任意一项所述方法的步骤。
第五方面,本发明实施例提供一种机器人,包括存储器、处理器及存储在存储器上并可在处理器上运行的人工智能机器人程序,所述处理器执行所述程序时实现第一方面实施例任意一项所述方法的步骤。
本实施例提供的人工智能跟读方法和跟读机器人,包括:风险类型获取步骤;事件场景获取步骤;风险存在判断步骤;风险大小计算步骤;事件场景变换步骤;行为预测步骤;行为执行步骤。上述方法、系统和机器人,首先通过深度学习模型检测出事件场景中的人工智能伦理风险,然后通过场景变换虚拟仿真得到人工智能伦理风险尽可能小的事件场景,并通过深度学习模型预测得到进行该场景变换所需的行为,从而能够在现实中进行人工智能伦理风险的防范,提高了事件场景下人工智能伦理风险的检测和防范能力。
本发明的优选实施例
1、(机器人)具有摄像头、显示器、拾音器、播放器。(这里的机器人也可以没有实体)
优选地,其中摄像头、显示器、拾音器、播放器既可以安装到机器人上或安装到笔上或安装到灯具上或安装在床头或眼镜或帽子等其他位置均可。
优选地,具有通信模块,通信模块将数据(若无数据也可以不发送)发送到云端或服务器进行计算后通过通信模块返回结果。例如通信模块将获取的图像发送到云端或服务器进行图像识别后通过通信模块返回识别出来的文本内容,又例如通信模块检索和匹配最新阅读的文本内容相关的学习资料后通过通信模块返回匹配到的学习资料内容。
2、摄像头(与机器人)通过可伸缩、可旋转的连接装置连接(例如可伸缩、可旋转的连接杆,其材质可以为金属等,也可以将机器人的手臂作为该连接装置,那么此时摄像头安装到机器人的手上,因为机器人的手臂也可以伸缩旋转)。(这里的机器人也可以没有实体,所以摄像头可以连接到其他物体上,例如桌子等)
3、通过摄像头获取图像,摄像头实时获取的图像通过机器人的显示器进行显示,如图7所示。
4、从所述图像中识别有字的页面图像,并保存该有字的页面图像。(如果有2个页面,则保存2个页面图像。)
优选地,所述识别有字的页面的步骤采用深度学习模型进行识别,在训练时,将第一图像作为输入,将第一图像中有字的页面图像作为预期输出,对深度学习模型进行训练和测试,得到页面识别深度学习模型;在使用时,将第一图像作为页面识别深度学习模型的输入,计算得到的页面识别深度学习模型的输出作为第一图像中有字的页面图像。
5、判断有字的页面图像是否完整,若不完整,则提醒用户调整摄像头与有字的物体的相对位置或自动调整摄像头的位置(使得摄像头可以对准有字的页面,调整摄像头的位置,可以通过连接装置调节,也可以通过焦距等摄像头参数进行调节,这个步骤也可以通过用户手工来实现,所以这个步骤作为进一步优选的步骤),并回到第3步重新执行。
优选地,所述判断有字的页面图像是否完整的步骤采用深度学习模型进行识别,在训练时,将完整的有字的页面图像作为输入,将代表完整的标签作为预期输出,将不完整的有字的页面图像作为输入,将代表不完整的标签作为预期输出,对深度学习模型进行训练和测试,得到页面完整性判断深度学习模型;在使用时,将有字的页面图像作为页面完整性判断深度学习模型的输入,计算得到的页面完整性判断深度学习模型的输出若是代表完整的标签,则有字的页面图像是完整的,所述输出如果是代表不完整的标签,则有字的页面图像是不完整的。
6、判断有字的页面图像是否清晰,若不清晰,则提醒用户调整摄像头与有字的物体的相对位置或自动调整摄像头的位置(使得摄像头可以对准有字的页面,调整摄像头的位置,可以通过连接装置调节,也可以通过焦距等摄像头参数进行调节,这个步骤也可以通过用户手工来实现,所以这个步骤作为进一步优选的步骤),并回到第3步重新执行。
优选地,所述判断有字的页面图像是否清晰的步骤采用深度学习模型进行识别,在训练时,将清晰的有字的页面图像作为输入,将代表清晰的标签作为预期输出,将不清晰的有字的页面图像作为输入,将代表不清晰的标签作为预期输出,对深度学习模型进行训练和测试,得到页面清晰性判断深度学习模型;在使用时,将有字的页面图像作为页面清晰性判断深度学习模型的输入,计算得到的页面清晰性判断深度学习模型的输出若是代表清晰的标签,则有字的页面图像是清晰的,所述输出如果是代表不清晰的标签,则有字的页面图像是不清晰的。
7、拾音器获取用户的语音,识别语音中的指令;
指令由模式(例如跟读或缺省或继续等)、交互方式、范围(这里的范围指的是长度单位,例如字或词或句子或段落或页或其他自定义的范围)等组成;
8、根据指令的模式确定待阅读的文本内容和第一音频;
8.1、若指令为跟读方面的指示(跟读方面的指示包括我跟你读、你跟我读、我们一起读等方面的指示),则根据指令识别图像中用户所指向的位置所在指令所指示的范围中的文本内容,作为待阅读的文本内容,将待阅读的文本内容转换为第一音频;
8.2、若未获取到指令,且识别出图像中用户所指向的位置在待阅读的文本内容之外,则将前一次指令作为当前的所述指令,然后转到第8步继续执行;需要说明的是:如果当前指令是继续,前一次指令是“我跟你读这句”,那么当前指令就会变为“我跟你读这句”,所以如果下次指令是继续,那么下次指令的上次指令就是“我跟你读这句”,所以下次指令也就会变为“我跟你读这句”。
8.3、若所述指令为继续含义的指示(例如“继续”),则获取待阅读的文本内容后续的所在范围中的文本作为待阅读的文本内容,将待阅读的文本内容转换为第一音频;优选地,以最近一次阅读的范围作为所述范围;例如,上一次阅读的范围是句子(例如第1句),那么本次阅读的范围就是句子(例如第2句)。如果再继续,那么下一次阅读的范围还是句子(例如第3句)。
9、根据指令的交互方式确定第二音频和第三音频;
9.1、若指令为“我跟你读”方面的指示,播放第一音频;优选地,在播放第一音频的同时将待阅读的文本内容,作为待显示的文本内容进行显示;在第一音频播放结束后,获取用户跟读的音频,作为第二音频。根据第一音频和第二音频,得到标志了错误位置的待阅读文本内容,作为待显示的文本内容进行显示;根据第一音频和第二音频,得到用户读错的文本内容,作为待阅读的文本内容,将待阅读的文本内容转换为第三音频,播放第三音频。
9.2、若指令为“你跟我读”方面的指示,获取用户的音频,作为第二音频。第二音频获取完成后,播放第一音频;优选地,在播放第一音频的同时将待阅读的文本内容,作为待显示的文本内容进行显示;根据第一音频和第二音频,得到标志了错误位置的待阅读文本内容,作为待显示的文本内容进行显示;根据第一音频和第二音频,得到用户读错的文本内容,作为待阅读的文本内容,将待阅读的文本内容转换为第三音频,播放第三音频。
9.3、若指令为“我们一起读”方面的指示,获取音频的单位,实时获取用户的当前单位音频(例如,单位为字时,单位音频为字的音频,单位为词时,单位音频为词的音频),作为第二音频的当前单位部分。获取第二音频的前一单位部分对应的待阅读的文本内容中的单位内容(例如,单位为字时,单位内容为字;单位为词时,单位内容为词)相邻的后一单位内容,作为第一内容,将第一内容转换为音频,作为第一音频的当前部分。在实时获取用户的第二音频的当前部分的同时,播放第一音频的当前部分;优选地,在播放第一音频的同时将待阅读的文本内容,作为待显示的文本内容进行显示;在用户阅读结束后,根据第一音频和第二音频,得到标志了错误位置的待阅读文本内容,作为待显示的文本内容进行显示;根据第一音频和第二音频,得到用户读错的文本内容,作为待阅读的文本内容,将待阅读的文本内容转换为第三音频,播放第三音频。
获取第二音频的前一单位部分对应的待阅读的文本内容中的单位内容相邻的后一单位内容的步骤可以通过深度学习来实现;在训练和测试时,将待阅读的文本内容、第二音频的当前单位部分之前的预设数个单位部分作为输入,第二音频的前一单位部分对应的待阅读的文本内容中的单位内容相邻的后一单位内容作为输出,对深度学习模型进行训练和测试,得到的所述深度学习模型,作为同步读深度学习模型;在使用时,将待阅读的文本内容、第二音频的当前单位部分之前的预设数个单位部分作为输入,通过同步读深度学习模型计算得到的输出作为第二音频的前一单位部分对应的待阅读的文本内容中的单位内容相邻的后一单位内容。
例如,如果指令为“我跟你读这一句”,则机器人读完用户所指的字所在句子的文本内容后,用户跟着读用户所指的字所在句子的文本内容;例如,如果指令为“我跟你读这一段”,则机器人读完用户所指的字所在段的文本内容后,用户跟着读用户所指的字所在段的文本内容;例如,如果指令为“你跟我读这一句”,则用户读完用户所指的字所在句子的文本内容后,机器人跟着读用户所指的字所在句子的文本内容;例如,如果指令为“你跟我读这一段”,则用户读完用户所指的字所在段的文本内容后,机器人跟着读用户所指的字所在段的文本内容;例如,如果指令为“我们一起读这一句”,则用户读完用户所指的字所在句子中每一个字时,机器人同步地读用户所指的字所在句子中每一个字;例如,如果指令为“我们一起读这一段”,则用户读完用户所指的字所在段中每一个字时,机器人同步地读用户所指的字所在段中每一个字;
“根据第一音频和第二音频,得到标志了错误位置的待阅读文本内容,作为待显示的文本内容进行显示;根据第一音频和第二音频,得到用户读错的文本内容,作为待阅读的文本内容,将待阅读的文本内容转换为第三音频,播放第三音频”的具体步骤包括:将第一音频与第二音频进行比对,找出用户读错的文本内容,在待阅读的文本内容中标示出来(以特殊颜色或下划线等方式),并进行显示(例如显示到机器人的显示屏中)。将用户读错的文本内容,作为待阅读的文本内容,将待阅读的文本内容转换为第三音频,然后按照从上到下、从左到右的顺序通过播放器播放待阅读的文本内容对应的音频。将标志了错误位置的待阅读文本内容,作为待显示的文本内容。显示待显示的文本内容,例如显示到显示屏中,或显示到用户的手机上,或显视到机器人的显示屏。将阅读的文本内容与显示的文本内容进行同步,阅读到的字所在预设范围(预设范围为字或词或句子,也可以将指令所指示的范围作为预设范围)在显示时进行预设标识(例如加亮、加粗等等)。默认情况下,预设范围为字,因为不管指令所指示的阅读范围是字或词或句或段落,其正在阅读的总是字;
例如,待阅读文本内容为“我是一个兵,来自老百姓”,第一音频为“wo shi yi gebing,lai zi lao bai xing”,第二音频为“wo shi yi ge bin,lai zi lao ba xin”,则标志了错误位置的待阅读文本内容为“我是一个'兵',来自老'百”姓'”,用户读错的文本内容为“我是一个'兵',来自老'百”姓'”;
例如,如果指令为“我跟你读这一句”,则用户所指向的位置所在指令所指示的范围中的文本内容为用户所指的字所在句子的文本内容;如果指令为“我跟你读这个字”,则用户所指向的位置所在指令所指示的范围中的文本内容为用户所指的字;如果指令为“我跟你读这个词”,则用户所指向的位置所在指令所指示的范围中的文本内容为用户所指的字所在词的文本内容;如果指令为“我跟你读这一段”,则用户所指向的位置所在指令所指示的范围中的文本内容为用户所指的字所在段的文本内容;如果指令为“我跟你读这一页”,则用户所指向的位置所在指令所指示的范围中的文本内容为用户所指的字所在页的文本内容;
优选地,将第一音频与第二音频进行比对,找出用户读错的文本内容的步骤可以通过深度学习来实现;在训练和测试时,将待阅读的文本内容、第一音频、第二音频作为输入,标志了错误位置的待阅读文本内容作为输出,对深度学习模型进行训练和测试,得到的所述深度学习模型,作为错误读音识别深度学习模型;在使用时,将待阅读的文本内容、第一音频、第二音频作为输入,通过错误读音识别深度学习模型计算得到的输出作为标志了错误位置的待阅读文本内容。从标志了错误位置的待阅读文本内容的中错误位置处提取用户读错的文本内容。
优选地,将第一音频和第二音频转化为第一音标文本和第二音标文本;比对第一音标文本和第二音标文本,根据第一音标文本和第二音标文本不同音标对应的待阅读文本内容中的位置作为错误位置,对待阅读文本进行标识,将标识后的待阅读文本作为标志了错误位置的待阅读文本内容;从标志了错误位置的待阅读文本内容的中错误位置处提取用户读错的文本内容。
优选地,将音频转化为音标文本,可以通过深度学习来进行实现。在训练和测试时,将音频作为输入,音标文本作为输出,对深度学习模型进行训练和测试,得到的所述深度学习模型,作为音频识别深度学习模型;在使用时,将音频作为输入,通过音频识别深度学习模型计算得到的输出作为音标文本。
优选地,比对第一音标文本和第二音标文本,根据第一音标文本和第二音标文本不同音标对应的待阅读文本内容中的位置作为错误位置,对待阅读文本进行标识,将标识后的待阅读文本作为标志了错误位置的待阅读文本内容,可以通过深度学习来进行实现。在训练和测试时,将第一音标文本、第二音标文本、待阅读文本作为输入,标志了错误位置的待阅读文本内容作为输出,对深度学习模型进行训练和测试,得到的所述深度学习模型,作为音标错误识别深度学习模型;在使用时,将第一音标文本、第二音标文本、待阅读文本作为输入,通过音频识别深度学习模型计算得到的输出作为标志了错误位置的待阅读文本内容。
优选地,用户所指向的位置包括用户手指所指向的位置或笔等其他物体所指向的位置,如图8所示。
优选地,根据指令识别图像中用户所指向的位置所在指令所指示的范围中的文本内容的步骤可以通过深度学习来实现;在训练和测试时,将图像和用户所指向的位置所在指令所指示的范围中的文本内容分别作为输入和输出,对深度学习模型进行训练和测试,得到的所述深度学习模型,作为用户所指向的位置所在所述范围的文本识别深度学习模型;在使用时,将图像作为输入,通过用户所指向的位置所在所述范围的文本识别深度学习模型计算得到的输出作为用户所指向的位置所在指令所指示的范围中的文本内容。
优选地,根据未遮挡的文本内容恢复出有遮挡的文本内容中的遮挡部分的文本内容;具体地:在训练和测试时,将未遮挡的图像和有遮挡的图像(未遮挡的图像和有遮挡的图像中的文本内容是一致的)作为输入,将有遮挡的图像中的用户所指向的位置所在指令所指示的范围中的文本内容作为输出,对深度学习模型进行训练和测试,得到的所述深度学习模型,作为有遮挡图像文本识别深度学习模型;在使用时,将未遮挡的图像和有遮挡的图像作为输入,通过有遮挡图像文本识别深度学习模型计算得到的输出作为用户所指向的位置所在指令所指示的范围中的文本内容。
优选地,将指令的语言作为目标语言,将指令所指示的范围中的文本内容的语言作为源语言;若目标语言与源语言不同,则将所述文本内容翻译为目标语言的文本内容,作为待阅读的文本内容,将待阅读的文本内容转换为第一音频,然后按照从上到下、从左到右的顺序通过播放器播放待阅读的文本内容对应的第一音频;
优选地,将第二音频的语言作为目标语言,将指令所指示的范围中的文本内容的语言作为源语言;若目标语言与源语言不同,则将所述文本内容翻译为目标语言的文本内容,作为待阅读的文本内容,将待阅读的文本内容转换为第一音频,然后按照从上到下、从左到右的顺序通过播放器播放待阅读的文本内容对应的第一音频;
优选地,若所述指令的范围为页(例如“我跟你读这页”),则从所述图像中识别手指所指向的位置所在的页面中的文本内容,作为待阅读的文本内容,将待阅读的文本内容转换为音频,然后按照从上到下、从左到右的顺序通过播放器播放待阅读的文本内容对应的音频;
优选地,从所述图像中识别手指所指向的位置所在的页面中的文本内容的步骤可以通过深度学习来实现;在训练和测试时,将图像和用户所指向的位置所在页面中的文本内容分别作为输入和输出,对深度学习模型进行训练和测试,得到的所述深度学习模型,作为用户所指向的位置所在页面的文本识别深度学习模型;在使用时,将图像作为输入,通过用户所指向的位置所在页面的文本识别深度学习模型计算得到的输出作为用户所指向的位置所在页面中的文本内容。
优选地,若所述指令的范围为段(例如“我跟你读这段”),则从所述图像中识别手指所指向的位置所在的段落中的文本内容,作为待阅读的文本内容,将待阅读的文本内容转换为音频,然后按照从上到下、从左到右的顺序通过播放器播放待阅读的文本内容对应的音频;
优选地,从所述图像中识别手指所指向的位置所在的段落中的文本内容的步骤可以通过深度学习来实现;在训练和测试时,将图像和用户所指向的位置所在段落中的文本内容分别作为输入和输出,对深度学习模型进行训练和测试,得到的所述深度学习模型,作为用户所指向的位置所在段落的文本识别深度学习模型;在使用时,将图像作为输入,通过用户所指向的位置所在段落的文本识别深度学习模型计算得到的输出作为用户所指向的位置所在段落中的文本内容。
优选地,若所述指令的范围为句子(例如“我跟你读这句”),则从所述图像中识别手指所指向的位置所在的句子中的文本内容,作为待阅读的文本内容,将待阅读的文本内容转换为音频,然后按照从上到下、从左到右的顺序通过播放器播放待阅读的文本内容对应的音频;
优选地,-从所述图像中识别手指所指向的位置所在的段落中的句子内容的步骤可以通过深度学习来实现;在训练和测试时,将图像和用户所指向的位置所在段落中的句子内容分别作为输入和输出,对深度学习模型进行训练和测试,得到的所述深度学习模型,作为用户所指向的位置所在段落的句子识别深度学习模型;在使用时,将图像作为输入,通过用户所指向的位置所在段落的句子识别深度学习模型计算得到的输出作为用户所指向的位置所在段落中的句子内容。
优选地,若所述指令的范围为词(例如“我跟你读这词”),则从所述图像中识别手指所指向的位置所在的词语中的文本内容,作为待阅读的文本内容,将待阅读的文本内容转换为音频,然后按照从上到下、从左到右的顺序通过播放器播放待阅读的文本内容对应的音频;
优选地,从所述图像中识别手指所指向的位置所在的段落中的词语内容的步骤可以通过深度学习来实现;在训练和测试时,将图像和用户所指向的位置所在段落中的词语内容分别作为输入和输出,对深度学习模型进行训练和测试,得到的所述深度学习模型,作为用户所指向的位置所在段落的词语识别深度学习模型;在使用时,将图像作为输入,通过用户所指向的位置所在段落的词语识别深度学习模型计算得到的输出作为用户所指向的位置所在段落中的词语内容。
优选地,若所述指令的范围为字(例如“我跟你读这字”),则从所述图像中识别手指所指向的位置所在的字中的文本内容,作为待阅读的文本内容,将待阅读的文本内容转换为音频,然后按照从上到下、从左到右的顺序通过播放器播放待阅读的文本内容对应的音频;
优选地,从所述图像中识别手指所指向的位置所在的段落中的字内容的步骤可以通过深度学习来实现;在训练和测试时,将图像和用户所指向的位置所在段落中的字内容分别作为输入和输出,对深度学习模型进行训练和测试,得到的所述深度学习模型,作为用户所指向的位置所在段落的字识别深度学习模型;在使用时,将图像作为输入,通过用户所指向的位置所在段落的字识别深度学习模型计算得到的输出作为用户所指向的位置所在段落中的字内容。
10、若指令为进行翻译后跟读方面的指示,则根据指令识别图像中用户所指向的位置所在指令所指示的范围中的文本内容,并将该范围中的文本内容翻译为指令中所要求的目标语言,作为待阅读的文本内容,将待阅读的文本内容转换为第一音频,然后按照从上到下、从左到右的顺序通过播放器播放待阅读的文本内容对应的第一音频;(这个功能是可选功能,和阅读不同,翻译功能是属于比阅读功能高级一点的功能,而阅读功能属于基本功能。)
10.1、根据指令识别图像中用户所指向的位置所在指令所指示的范围中的文本内容的步骤同上;
10.2、将识别出来的文本内容,调用翻译引擎接口进行翻译,例如百度翻译引擎或谷歌翻译引擎;或,将识别出来的文本内容,通过深度学习模型,进行文本内容的翻译。
11、获取学习资料;优选地,学习资料放在云端,可以是文本,也可以是音频等格式。具体包括获取用户输入的学习资料,获取用户通过互联网获取的学习资料;获取自动通过互联网获取的学习资料,获取从数据库或知识库中获取的学习资料。
11.1、获取用户上传的学习资料文本;
11.2、获取用户从预存的学习资料文本中选择的学习资料文本;
11.3、若用户没有对预存的学习资料文本进行选择,则获取所有预存的学习资料文本;
12、若所述指令为第一预设指令(包括聊天方面的指示或讲解方面的指示)或第二预设指令(包括换一个方面的指示),则从学习资料文本中搜索与最近的至少一个用户读错的文本内容或/和错误率高于预设比例的待阅读的文本内容匹配的文本内容;若所述指令为第三预设指令(包括继续含义的指令,例如继续),则继续阅读所述匹配的文本内容的后续文本内容,如图9所示;在进行搜索和推荐时还可以考虑用户的属性;例如通过摄像头获取用户的性别、年龄等,或者直接通过用户的注册信息获取用户的属性,从而获取与用户相关(例如属于用户年龄段的学习资料)的学习资料,然后从与用户相关的学习资料文本中搜索与最近的至少一个待阅读的文本内容匹配的文本内容。
12.1、若所述指令为第一预设指令(包括聊天方面的指示或讲解方面的指示)或第二预设指令(包括换一个方面的指示),则执行11.2;若所述指令为继续含义的指示(例如继续),则执行12.3;
12.2从学习资料文本中搜索最近预设时长内未阅读过的(例如一天内)与最近的预设数个用户读错的文本内容或/和用户读错率高于预设比例的待阅读的文本内容匹配度最大的文本内容(优选地,选取一段文本),作为待阅读的文本内容,将待阅读的文本内容转换为音频,然后按照从上到下、从左到右的顺序通过播放器播放待阅读的文本内容对应的音频;用户读错率为用户读错的文本内容占待阅读的文本内容的比例,其中用户读错的文本内容为待阅读的文本内容的一部分。
12.3获取待阅读的文本内容后续的文本(优选地,选取一段文本)作为待阅读的文本内容,将待阅读的文本内容转换为音频,然后按照从上到下、从左到右的顺序通过播放器播放待阅读的文本内容对应的音频;
13、显示待阅读的内容,并且标志正在阅读的字(例如以特殊颜色或亮度或形状等进行标志)。
本发明的其他实施例
采集用户的年级和地区,检索年级和地区对应的教材和考试知识点,形成教学知识库。
识别用户所指(可以用手也可以用其他物体,例如棒子,或特定标志的物体,例如用棒子的特征来表示某种类型的指示,例如用红色棒子表示读所指的字,用蓝色棒子表示读所指的词,用绿色棒子表示所指的句子,用黑色棒子表示所指的段落,用白色棒子表示所指的页)的内容(识别用户的语音来判断,所指的范围,例如用户说“跟读这个字”或其他含有“字”的语句,就跟读用户所指的字,例如用户说“跟读这个词”或其他含有“词”的语句,就跟读用户所指的词,例如用户说“跟读这个句子”或其他含有“句子”的语句,就跟读用户所指的句子,例如用户说“跟读这个段落”或其他含有“段”的语句,就跟读用户所指的段落,例如用户说“跟读这一页”或其他含有“页”的语句,就跟读用户所指的页),将用户所指的内容跟读出来(在跟读过程中,用户的手可以离开所指的内容),并且在显示器上显示出所跟读读的内容,并且记录进用户阅读知识库中。
根据用户的跟读内容,特别是跟读时有错误地内容,从用户教学知识库中检索出相关的知识,在检索时,先检索当前学期的,然后再检索以前学过的,就是按照相关性和时间进行排序,同样相关性的按照时间进行排序。在阅读完后,播放所检索出的相关知识。在播放所检索出的相关知识之前,可以加个引导语“你刚才跟读的内容和你在学校过去的知识很相关,你想听听吗?”如果用户说想,那么就会开始播放。然后还可以与学生这学期将可能学习到的知识挂钩。可以加个引导语“你刚才阅读的内容还和你在这学期将学到的知识很相关,你想听听吗?”
这样在学生阅读时,可以巩固学生在学校学习的知识。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,则对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (7)
1.一种人工智能方法,其特征在于,所述方法包括:
指令获取步骤:获取用户的指令;指令包括模式、交互方式、范围的相关指示;
指令模式步骤:根据指令的模式和范围确定待阅读的文本内容和第一音频;
指令交互步骤:根据指令的交互方式确定第二音频和第三音频;
资料获取步骤:获取学习资料;
学习步骤:若所述指令为第一预设指令或第二预设指令,则从学习资料文本中搜索与最近的至少一个用户读错的文本内容或用户读错率高于预设比例的待阅读的文本内容匹配的文本内容,作为待阅读的文本内容;若所述指令为第三预设指令,则继续将所述匹配的文本内容的后续文本内容,作为待阅读的文本内容;
指令模式步骤包括:
模式选择步骤:若指令包括跟读含义,则执行跟读模式步骤;若未获取到指令,且识别出图像中用户所指向的位置在待阅读的文本内容之外,则执行缺省模式步骤;若所述指令包括继续含义,则执行继续模式步骤;
跟读模式步骤:根据指令识别图像中用户所指向的位置所在指令所指示的范围中的文本内容,作为待阅读的文本内容,将待阅读的文本内容转换为第一音频;
缺省模式步骤:将前一次指令作为当前的所述指令,然后转到指令模式步骤继续执行;
继续模式步骤:获取待阅读的文本内容后续的所在预设范围中的文本作为待阅读的文本内容,将待阅读的文本内容转换为第一音频;以最近一次阅读的范围作为所述范围;
指令交互步骤包括:
交互选择步骤:若指令为“我跟你读”方面的指示,则执行我跟你读步骤;若指令为“你跟我读”方面的指示,则执行你跟我读步骤;若指令为“我们一起读”方面的指示,则执行我们一起读模式步骤;
我跟你读步骤:播放第一音频;在第一音频播放结束后,获取用户跟读的音频,作为第二音频;根据第一音频和第二音频,得到用户读错的文本内容,作为待阅读的文本内容,将待阅读的文本内容转换为第三音频,播放第三音频;
你跟我读步骤:获取用户的音频,作为第二音频;第二音频获取完成后,播放第一音频;根据第一音频和第二音频,得到用户读错的文本内容,作为待阅读的文本内容,将待阅读的文本内容转换为第三音频,播放第三音频;
我们一起读模式步骤:获取音频的单位,实时获取用户的当前单位音频,作为第二音频的当前单位部分;获取第二音频的前一单位部分对应的待阅读的文本内容中的单位内容相邻的后一单位内容,作为第一内容,将第一内容转换为音频,作为第一音频的当前部分;在实时获取用户的第二音频的当前部分的同时,播放第一音频的当前部分;根据第一音频和第二音频,得到用户读错的文本内容,作为待阅读的文本内容,将待阅读的文本内容转换为第三音频,播放第三音频;
指令模式步骤还包括:
获取图像步骤:获取未被遮挡的第一图像和所述第一图像对应的被指后的第二图像;将所述第二图像作为指令模式步骤中的所述图像;
显示步骤:显示待阅读的文本内容;
文本识别步骤:在训练和测试时,将未被遮挡的第一图像和所述第一图像对应的被指后的第二图像作为输入,将第二图像中的用户所指向的位置所在指令所指示的范围中的文本内容作为输出,对深度学习模型进行训练和测试,得到的所述深度学习模型,作为有遮挡图像文本识别深度学习模型;在使用时,将未被遮挡的第一图像和所述第一图像对应的被指后的第二图像作为输入,通过有遮挡图像文本识别深度学习模型计算得到的输出作为第二图像中的用户所指向的位置所在指令所指示的范围中的文本内容。
2.根据权利要求1所述的人工智能方法,其特征在于,所述方法还包括:
语言选择步骤:获取用户对预设选项的选择;预设选项包括根据指令选择语言步骤、根据用户选择语言步骤、根据文本内容选择语言步骤;
根据指令选择语言步骤:将指令的语言作为目标语言,将指令所指示的范围中的文本内容的语言作为源语言;若目标语言与源语言不同,则将指令所指示的范围中的文本内容翻译为目标语言的文本内容,作为待阅读的文本内容;
根据用户选择语言步骤:将第二音频的语言作为目标语言,将指令所指示的范围中的文本内容的语言作为源语言;若目标语言与源语言不同,则将所述文本内容翻译为目标语言的文本内容,作为待阅读的文本内容;
根据文本内容选择语言步骤:将指令所指示的范围中的文本内容,作为待阅读的文本内容。
3.根据权利要求1所述的人工智能方法,其特征在于,
跟读模式步骤还包括:所述指令所指示的范围包括字或词或句子或段落或页;若当前指令没有所指示的范围,则获取最近一次跟读模式步骤中的指令所指示的范围作为当前指令所指示的范围;
继续模式步骤还包括:所述预设范围包括最近一次阅读指令步骤中的指令所指示的范围。
4.根据权利要求1所述的人工智能方法,其特征在于,指令模式步骤还包括:
模式选择步骤还包括:若指令为进行翻译后跟读方面的指示,则执行翻译跟读模式步骤;
翻译跟读模式步骤:根据指令识别图像中用户所指向的位置所在指令所指示的范围中的文本内容,并将该范围中的文本内容翻译为指令中所要求的目标语言,作为待阅读的文本内容,将待阅读的文本内容转换为第一音频。
5.一种人工智能装置,其特征在于,所述装置用于实现权利要求1-4任意一项所述方法的步骤。
6.一种机器人,包括存储器、处理器及存储在存储器上并可在处理器上运行的人工智能机器人程序,其特征在于,所述处理器执行所述程序时实现权利要求1-4任意一项所述方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1-4任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011087529.3A CN112230875B (zh) | 2020-10-13 | 2020-10-13 | 人工智能跟读方法和跟读机器人 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011087529.3A CN112230875B (zh) | 2020-10-13 | 2020-10-13 | 人工智能跟读方法和跟读机器人 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112230875A CN112230875A (zh) | 2021-01-15 |
CN112230875B true CN112230875B (zh) | 2024-08-20 |
Family
ID=74112119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011087529.3A Active CN112230875B (zh) | 2020-10-13 | 2020-10-13 | 人工智能跟读方法和跟读机器人 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112230875B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106297841A (zh) * | 2016-07-29 | 2017-01-04 | 广东小天才科技有限公司 | 一种音频跟读引导方法及装置 |
CN108257615A (zh) * | 2018-01-15 | 2018-07-06 | 北京物灵智能科技有限公司 | 一种用户语言评估方法及系统 |
CN111079494A (zh) * | 2019-06-09 | 2020-04-28 | 广东小天才科技有限公司 | 一种学习内容推送方法及电子设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101551952A (zh) * | 2009-05-21 | 2009-10-07 | 无敌科技(西安)有限公司 | 发音评测装置及其方法 |
CN111524507A (zh) * | 2019-01-16 | 2020-08-11 | 北京字节跳动网络技术有限公司 | 语音信息的反馈方法、装置、设备、服务器及存储介质 |
CN110610627A (zh) * | 2019-09-29 | 2019-12-24 | 苏州思必驰信息科技有限公司 | 启发式诗词学习方法及装置 |
CN110890095A (zh) * | 2019-12-26 | 2020-03-17 | 北京大米未来科技有限公司 | 语音检测方法、推荐方法、装置、存储介质和电子设备 |
-
2020
- 2020-10-13 CN CN202011087529.3A patent/CN112230875B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106297841A (zh) * | 2016-07-29 | 2017-01-04 | 广东小天才科技有限公司 | 一种音频跟读引导方法及装置 |
CN108257615A (zh) * | 2018-01-15 | 2018-07-06 | 北京物灵智能科技有限公司 | 一种用户语言评估方法及系统 |
CN111079494A (zh) * | 2019-06-09 | 2020-04-28 | 广东小天才科技有限公司 | 一种学习内容推送方法及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112230875A (zh) | 2021-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110750959B (zh) | 文本信息处理的方法、模型训练的方法以及相关装置 | |
CN110362671B (zh) | 题目推荐方法、设备和存储介质 | |
US8793118B2 (en) | Adaptive multimodal communication assist system | |
CN104199834B (zh) | 从信息载体表面交互式获取远程资源并输出的方法及系统 | |
CN109817046B (zh) | 一种基于家教设备的学习辅助方法及家教设备 | |
CN110162164B (zh) | 一种基于增强现实的学习互动方法、装置及存储介质 | |
CN111610901B (zh) | 一种基于ai视觉下的英语课文辅助教学方法及系统 | |
CN105427696A (zh) | 一种对目标题目所作答案进行判别的方法 | |
US20240153395A1 (en) | Tracking concepts and presenting content in a learning system | |
KR102101496B1 (ko) | Ar 기반의 글씨 쓰기 연습 방법 및 프로그램 | |
CN112800177B (zh) | 基于复杂数据类型的faq知识库自动生成方法和装置 | |
CN113360608B (zh) | 人机结合的中文作文批改系统和方法 | |
CN110275987A (zh) | 智能教学顾问生成方法、系统、设备及存储介质 | |
CN111415537A (zh) | 一种基于符号标注的中小学生听词系统 | |
CN113569112A (zh) | 基于题目的辅导策略提供方法、系统、装置及介质 | |
CN113641837A (zh) | 一种展示方法及其相关设备 | |
CN114118052A (zh) | 一种文本标记方法、装置、计算机设备及存储介质 | |
KR101794547B1 (ko) | 단어장 자동 생성 및 학습훈련 시스템 및 방법 | |
CN112230875B (zh) | 人工智能跟读方法和跟读机器人 | |
CN113253838A (zh) | 基于ar的视频教学方法、电子设备 | |
CN118245617A (zh) | 外语作文的处理方法及装置 | |
CN110766997A (zh) | 一种临摹展示方法、装置及存储介质 | |
CN114092943B (zh) | 文字书写的展示和训练方法及装置 | |
CN116863767A (zh) | 一种语言教学的方法、装置、存储介质及电子设备 | |
CN111159433B (zh) | 一种内容定位方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |