CN110083690A - 一种基于智能问答的对外汉语口语训练方法及系统 - Google Patents
一种基于智能问答的对外汉语口语训练方法及系统 Download PDFInfo
- Publication number
- CN110083690A CN110083690A CN201910284601.2A CN201910284601A CN110083690A CN 110083690 A CN110083690 A CN 110083690A CN 201910284601 A CN201910284601 A CN 201910284601A CN 110083690 A CN110083690 A CN 110083690A
- Authority
- CN
- China
- Prior art keywords
- answer
- chinese characters
- spoken language
- entity
- external chinese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 41
- 239000013598 vector Substances 0.000 claims abstract description 33
- 238000013507 mapping Methods 0.000 claims abstract description 31
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 15
- 238000013135 deep learning Methods 0.000 claims abstract description 10
- 239000000463 material Substances 0.000 claims abstract description 10
- 238000013528 artificial neural network Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims abstract description 6
- 238000012098 association analyses Methods 0.000 claims abstract description 5
- 239000013604 expression vector Substances 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 14
- 230000013016 learning Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 230000006399 behavior Effects 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 238000007635 classification algorithm Methods 0.000 claims description 3
- 238000012790 confirmation Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000004321 preservation Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000010276 construction Methods 0.000 description 5
- 230000007812 deficiency Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000007654 immersion Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 235000011034 Rubus glaucus Nutrition 0.000 description 2
- 244000235659 Rubus idaeus Species 0.000 description 2
- 235000009122 Rubus idaeus Nutrition 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 241000239290 Araneae Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- Primary Health Care (AREA)
- Educational Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Animal Behavior & Ethology (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于智能问答的对外汉语口语训练方法及系统,方法包括:从对外汉语口语教材和互联网等数据源采集口语训练问答对;采用问题生成算法由机器生成训练问答对;汇总语料,并根据语料构建知识图谱;接收用户输入自然语言问题,通过神经网络深度学习对问题进行向量表达,与知识图谱的表达向量进行语义关联;通过关联分析选择合适的回答进行输出。本发明的基于智能问答的对外汉语口语训练方法及系统,实现了具有智能对话、知识库和技能服务等功能,可作为对外汉语口语教学的智能辅助工具。
Description
技术领域
本发明涉及深度学习与知识图谱领域,特别是涉及一种基于智能问答的对外汉语口语训练方法及系统。
背景技术
语言教学包括知识和技能两个方面。对外汉语口语教学是培养实际生活中运用汉语口语进行交际的单项技能训练课程。口语表达能力是对外汉语口语教学的最终目标,也是留学生日常工作和学习中运用最多的一项技能。但当前传统的对外汉语口语课堂教学存在着一些有待完善之处,主要表现在以下三方面:1)口语教材设计问题:课文所选的场景往往不能反映中国人日常生活和中国社会情况,脱离生活实际。许多口语课文及课堂活动无法激发学生的兴趣,学生感受不到所学内容与自己的关系。2)教学方式问题:教师往往把口语课上成了精读课和阅读课,没有突出口语课的特点。另外,教师往往会不自觉地成为课堂的“主角”,在启发学生的主动参与方面做得还不够。3)学生开口锻炼问题:口语作为一门最为重要的语言技能,课堂教学的课时量并不能同其重要性成正比,无法充分满足学生的日常交流的需要。个别学习者的心理障碍使其在课堂有限的时间里不能得到开口锻炼的机会。
由于对外汉语口语教学存在的上述问题以及对外汉语学习者人数的激增,对外汉语口语课程与信息技术的整合成了制高点和突破口。它指的是将信息技术与对外汉语口语教学课程结构,课程内容和课程资源结合在一起,建造一个适合学习者学习的环境,进而提高学习者的汉语实际运用能力。其整合模式一般采用网络教学模式,即利用计算机网络进行异地和创新教学。通过互联网学习已经成为了学习汉语的主要方式之一。国内外涌现了一大批对外汉语教学的网站。如ChinesePod(http://chinesepod.com/)、www.chinesegreat.com、中文泡泡 (http://popupchinese.com)、网络孔子学院(http:// www.chinese.cn/)等。这些网站提供移动学习设备和播客、网页等多媒体平台,并可以在线与老师进行生动的交流,网站课程中经典的场景对话模版给学习者们直接的生活样本,学员可在线组队对练,包含丰富的语言游戏,具有多语言翻译和融合等优点。但不难看出,这些网络口语教学平台还存在以下局限性:
1)缺少互动性:口语交际是师生共同完成的教学任务,缺一不可。但部分网站上的在线老师通常不在线,无法实现全天候的在线交流。
2)沉浸式程度不够:目前的汉语口语教学网站更多提供海量的文本和听力资料来学习口语,不仅使学习者感到学习过程枯燥乏味,而且无法形成身临其境的使用汉语进行交流的机会。
3)寓教于乐不足:目前对外汉语网站口语教学虽有一些趣味性教学内容,如中国著名演员、歌手,和一些脍炙人口的影视作品,但这些资源往往只是单纯用来欣赏而不是学习,学习效果将大打折扣。
4)专业口语训练平台缺失:对外汉语学习网站数量相对较少且涉及的教学内容略显单一,鲜见警务汉语,商务汉语,旅游汉语,医用汉语等专业领域汉语教学平台。
发明内容
本发明的主要目的在于克服现有技术中的上述缺陷,提出一种基于智能问答的对外汉语口语训练方法和系统。
本发明解决其技术问题所采用的技术方案是:
一方面,本发明一种基于智能问答的对外汉语口语训练方法,包括以下步骤:
S1,采集口语训练问答对,采用基于变分自编码器算法构建对外汉语口语训练问答对数据集;构建过程包括:通过选择话题建立话题库;通过词语分类建立话题词表;通过问题生成建立问答对数据集;
S2,汇总语料,并根据语料构建对外汉语口语知识图谱;构建过程包括语料收集、信息抽取和融合及知识加工和推理;
S3,接收用户输入的自然语言问题,通过神经网络深度学习对问题进行向量表达,与知识图谱的表达向量进行语义关联;通过关联分析选择合适的回答进行输出以实现自然语言问答,包括自然语言问题的向量化表示、自然语言问题的查询语言生成及答案生成与排序。
优选的,所述S1,具体包括:
S11,采集口语教材作为基础语料;
S12,爬取社区问答信息和百科知识;
S13,采用基于变分自编码器算法进行问题生成。
优选的,所述S12中的爬取过程包括定义爬虫内容CrawlerItem、数据保存CrawlerPipeline 和定义爬取规则Spiders_Ask三阶段。
优选的,所述S13,具体包括:
对于给定的文本数据通过一个隐含变量Z表示数据的一些分布特征,构建一个从隐含变量Z生成目标数据X的模型;
变分自编码器给编码网络增加一个损失项KLLoss,使所生成的潜在向量大体上服从于单位高斯分布,这一损失函数将鼓励所有编码在围绕隐藏层中心分布,同时惩罚不同类别被聚类到分离区域的行为;
通过重构损失的聚类行为与KL Loss损失项的紧密分布行为的平衡,以形成可供解码器解码的隐含空间分布。
优选的,所述S2,具体包括:
信息抽取,从无结构数据集抽取知识单元,从文本数据集中自动识别出命名实体,利用深度学习和NLTK工具,从相关语料中提取出实体之间的关联关系,形成实体-关系-实体三元组;
知识融合,对实体采用聚类算法和神经网络分类算法进行实体消歧,在确认知识库中对应正确实体对象之后,将该实体指称链接到知识库中对应实体;
知识推理,采用基于逻辑的推理,在命题的基础上建立一阶谓词逻辑,将命题分解为个体和谓词部分。
优选的,所述S3,具体包括:
S31,基于卷积神经网络的问题分类,将用户输入的问题分类以确定预期答案类型;
S32,基于表示学习的语义消歧,采用表示学习方法进行语义消歧,减小用户输入和知识图谱术语的差距,使其能够链接到知识图谱中的唯一实体,
S33,基于Ranking SVM的答案排序。
优选的,所述S31,具体包括:
使用卷积神经网络建立分类模型以充分提取问题特征,用一定数量标记语料训练出来的高维词向量作为每个词对应的特征,通过多尺度卷积滤波器,提取问题句子的向量矩阵表达;
利用有标注的词向量将所有句子都转换成大小相同的句子矩阵作为模型的输入;
使用多尺寸的滤波器,每种尺寸包含多个滤波器对输入矩阵进行操作,在对句子矩阵进行多尺寸的多个滤波器滤波后,每种尺寸的多个滤波器产生出多个特征图;
对得到的多个特征图进行组合,得到词特征,得到问题所对应的分类。
优选的,所述S32,具体包括:
将知识图谱中的实体与关系嵌入到一个低维的向量空间里,同时将两者转化为向量表示;
通过对问句中所有词向量直接相加的方式将用户输入的问句进行向量矩阵表示;
将知识图谱的实体和关系向量相加得到一个向量表示;
计算两个向量的相似度,根据相似度大小判定是否具有相同语义并对歧义词进行标注。
优选的,所述S33,具体包括:
基于排序学习算法Ranking SVM结合谓词相似度特征、谓词编辑距离特征、谓词词语共现特征和分类特征,通过训练数据训练模型的参数,用训练好的模型对待解答问句的候选答案集合排序;
将训练数据中的问句映射为“实体-谓词”形式,根据实体从知识图谱中抽取问句对应的三元组候选答案;
训练数据中的问句已知正确答案,根据正确答案对候选答案标记,同时提取训练数据的若干类特征作为特征集;
根据标记和特征来训练答案排序的Ranking SVM模型,使用模型对待解答问句的候选答案进行排序。
第二方面,本发明一种基于智能问答的对外汉语口语训练系统,包括:
数据集构建模块,用于采集口语训练问答对,采用基于变分自编码器算法构建对外汉语口语训练问答对数据集;构建过程包括:通过选择话题建立话题库;通过词语分类建立话题词表;通过问题生成建立问答对数据集;
知识图谱构建模块,用于汇总语料,并根据语料构建对外汉语口语知识图谱;构建过程包括语料收集、信息抽取和融合及知识加工和推理;
自然语言问答实现模块,用于接收用户输入的自然语言问题,通过神经网络深度学习对问题进行向量表达,与知识图谱的表达向量进行语义关联;通过关联分析选择合适的回答进行输出以实现自然语言问答,包括自然语言问题的向量化表示、自然语言问题的查询语言生成及答案生成与排序。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
(1)本发明基于深度学习和知识图谱,该方法能够解决现有教育平台缺少互动性,沉浸式程度不够,寓教于乐不足的问题,构建一个对外汉语口语训练系统;
(2)本发明采用知识图谱提高知识密度,解决目前基于数据的构建方法中网络文本数据的知识密度低,无法形成有效推理机制,对汉语口语这一垂直领域的分析存在很大不足,后期精准度的提升非常困难的问题;
(3)本发明结合深度学习的智能问答模型构建,解决基于知识推理的机制构建方法中对高质量的数据依赖太严重问题;
(4)本发明基于知识图谱的知识表示和可视化应用,形成了可理解、可交互的对外汉语口语训练系统,可为使用者提供良好的学习帮助。
附图说明
图1为本发明方法的流程图;
图2为本发明的总体架构图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
参见图1和图2所示,本发明的一种基于智能问答的对外汉语口语训练方法包括如下骤:
S1,构建对外汉语口语训练问答对数据集;
对步骤S1,包括选择话题,建立话题库;词语分类,建立话题词表;问题生成,建立问答对数据集。
所述步骤S1具体包括:
S11,根据国家图书馆口语教材库以及其它途径所检索到的口语教材目录,收集国内已正式出版的各类口语教材近400部口语教材作为基础语料;
S12,爬取社区问答信息和百科知识,用于解决语料不足问题;
S13,采用基于变分自编码器的问题生成算法。
步骤S12具体包括:
爬虫过程包括定义爬虫内容CrawlerItem(scrapy.Item)、数据保存CrawlerPipeline(object) 和定义爬取规则Spiders_Ask(scrapy.Spider)三阶段。
步骤S13具体包括:
对于给定的文本数据通过一个隐含变量Z表示数据的一些分布特征,构建一个从隐含变量Z生成目标数据X的模型;
变分自编码器给编码网络增加一个损失项(KLLoss),迫使它所生成的潜在向量大体上服从于单位高斯分布,这一损失函数将鼓励所有编码在围绕隐藏层中心分布,同时惩罚不同类别被聚类到分离区域的行为;
通过重构损失的聚类行为与KL Loss损失项的紧密分布行为的平衡,从而形成了可供解码器解码的隐含空间分布。
S2,构建对外汉语口语知识图谱。
对步骤S2,包括语料收集,信息抽取和融合,知识加工和推理。
具体的,包括:
信息抽取,从无结构数据集抽取知识单元,利用NLTK、Jieba等工具从文本数据集中自动识别出命名实体,利用深度学习和NLTK工具,从相关语料中提取出实体之间的关联关系,形成实体-关系-实体三元组;
知识融合,对实体采用聚类算法和神经网络分类算法进行实体消歧,在确认知识库中对应正确实体对象之后,将该实体指称链接到知识库中对应实体;
知识推理,采用基于逻辑的推理,在命题的基础上建立一阶谓词逻辑,将命题分解为个体和谓词部分。
S3,实现基于知识图谱的自然语言问答,包括自然语言问题的向量化表示,自然语言问题的查询语言生成,答案生成与排序。
具体的,所述S3包括:
S31,基于卷积神经网络的问题分类,将用户输入的问题分类以确定预期答案类型;
S32,基于表示学习的语义消歧,采用表示学习方法进行语义消歧,减小用户输入和知识图谱术语的差距,使其能够链接到知识图谱中的唯一实体,
S33,基于Ranking SVM的答案排序。
所述步骤S31,具体包括:
使用卷积神经网络建立分类模型以充分提取问题特征,用一定数量标记语料训练出来的高维词向量作为每个词对应的特征,通过多尺度卷积滤波器,提取问题句子的向量矩阵表达;
利用有标注的词向量将所有句子都转换成大小相同的句子矩阵作为模型的输入;
使用多尺寸的滤波器,每种尺寸包含多个滤波器对输入矩阵进行操作,在对句子矩阵进行多尺寸的多个滤波器滤波后,每种尺寸的多个滤波器产生出多个特征图;
对得到的多个特征图进行组合,得到词特征,得到问题所对应的分类。
所述步骤S32,具体包括:
将知识图谱中的实体与关系嵌入到一个低维的向量空间里,同时将两者转化为向量表示;
通过对问句中所有词向量直接相加的方式将用户输入的问句进行向量矩阵表示;
将知识图谱的实体和关系向量相加得到一个向量表示;
计算两个向量的相似度,根据相似度大小判定是否具有相同语义并对歧义词进行标注;
所述步骤S33,具体包括:
基于排序学习算法Ranking SVM结合谓词相似度特征、谓词编辑距离特征、谓词词语共现特征和分类特征,通过训练数据训练模型的参数,用训练好的模型对待解答问句的候选答案集合排序;
将训练数据中的问句映射为“实体-谓词”形式,根据实体从知识图谱中抽取问句对应的三元组候选答案;
训练数据中的问句已知正确答案,根据正确答案对候选答案标记,同时提取训练数据的若干类特征作为特征集;
根据标记和特征来训练答案排序的Ranking SVM模型,使用模型对待解答问句的候选答案进行排序。
根据上述一种基于智能问答的对外汉语口语训练方法,本发明另一方面在于实现一种基于智能问答的对外汉语口语训练系统,所述对外汉语口语训练系统具有软体APP和实体机器人两种形态,具有智能对话、知识库和技能服务等功能,可作为对外汉语口语教学的智能辅助工具。
具体的,根据软件开发流程,进行需求分析、系统架构设计、详细设计、系统实现、系统测试和系统维护等步骤进行智能口语训练系统的开发。
用户可通过手机APP与智能口语训练系统用汉语聊天进行口语问答训练,通过基础汉语学习和职业汉语学习等模块进行系统的汉语学习,同时了解中华文化。
所述App还具备社区功能,通过合作学习增加汉语学习乐趣,凝聚汉语学习者产生认同感,捕捉学习汉语的个体存在,通过数据深度分析为国家战略和文化传播提供参考。
此外,还能够制作实体机器人原型,将Python平台上开发的智能问答算法程序迁移到树莓派硬件设备,在不影响问答流畅度及准确度的情况下实现个性化定制服务。用户可对树莓派及其配套硬件进行封装,二次开发多样化智能问答机器人产品。
进一步的,可面向特定领域实现该口语训练系统的定制化开发,如海外版《中文》教材开发配套的虚拟人工智能口语训练系统,能聊天进行口语问答训练。
针对如旅游、贸易、科技、商务、医学、方言、观光、电话、网络、体育、经贸洽谈、流行语、公务员用语、口语习惯用语、议论口语、口语常用句等垂直领域开发相应系统。
此外,用户可通过软体机器人APP形式进行网络全天候互动对话,通过实体机器人实现沉浸式学习;通过问题生成技术可产生大量的、自然的、多样的口语训练问答对,实现口语训练内容的智能设计,通过行业知识图谱构建技术,提供特定领域的专业口语训练内容;克服口语不易保留的局限,将口语训练以文本的形式记录下来,对个体学生进行用户画像,帮助教师更有针对性地提升学生的口语技能。
本发明构建的对外汉语口语训练系统针对现有教育平台缺少互动性、沉浸式程度不够及寓教于乐不足的问题,采用知识图谱提高知识密度,解决目前基于数据的构建方法中网络文本数据的知识密度低,无法形成有效推理机制,对汉语口语这一垂直领域的分析存在很大不足,后期精准度的提升非常困难的问题。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。
Claims (10)
1.一种基于智能问答的对外汉语口语训练方法,其特征在于,包括以下步骤:
S1,采集口语训练问答对,采用基于变分自编码器算法构建对外汉语口语训练问答对数据集;构建过程包括:通过选择话题建立话题库;通过词语分类建立话题词表;通过问题生成建立问答对数据集;
S2,汇总语料,并根据语料构建对外汉语口语知识图谱;构建过程包括语料收集、信息抽取和融合及知识加工和推理;
S3,接收用户输入的自然语言问题,通过神经网络深度学习对问题进行向量表达,与知识图谱的表达向量进行语义关联;通过关联分析选择合适的回答进行输出以实现自然语言问答,包括自然语言问题的向量化表示、自然语言问题的查询语言生成及答案生成与排序。
2.根据权利要求1所述的基于智能问答的对外汉语口语训练方法,其特征在于,所述S1,具体包括:
S11,采集口语教材作为基础语料;
S12,爬取社区问答信息和百科知识;
S13,采用基于变分自编码器算法进行问题生成。
3.根据权利要求2所述的基于智能问答的对外汉语口语训练方法,其特征在于,所述S12中的爬取过程包括定义爬虫内容CrawlerItem、数据保存CrawlerPipeline和定义爬取规则Spiders_Ask三阶段。
4.根据权利要求2所述的基于智能问答的对外汉语口语训练方法,其特征在于,所述S13,具体包括:
对于给定的文本数据通过一个隐含变量Z表示数据的一些分布特征,构建一个从隐含变量Z生成目标数据X的模型;
变分自编码器给编码网络增加一个损失项KLLoss,使所生成的潜在向量大体上服从于单位高斯分布,这一损失函数将鼓励所有编码在围绕隐藏层中心分布,同时惩罚不同类别被聚类到分离区域的行为;
通过重构损失的聚类行为与KL Loss损失项的紧密分布行为的平衡,以形成可供解码器解码的隐含空间分布。
5.根据权利要求1所述的基于智能问答的对外汉语口语训练方法,其特征在于,所述S2,具体包括:
信息抽取,从无结构数据集抽取知识单元,从文本数据集中自动识别出命名实体,利用深度学习和NLTK工具,从相关语料中提取出实体之间的关联关系,形成实体-关系-实体三元组;
知识融合,对实体采用聚类算法和神经网络分类算法进行实体消歧,在确认知识库中对应正确实体对象之后,将该实体指称链接到知识库中对应实体;
知识推理,采用基于逻辑的推理,在命题的基础上建立一阶谓词逻辑,将命题分解为个体和谓词部分。
6.根据权利要求1所述的基于智能问答的对外汉语口语训练方法,其特征在于,所述S3,具体包括:
S31,基于卷积神经网络的问题分类,将用户输入的问题分类以确定预期答案类型;
S32,基于表示学习的语义消歧,采用表示学习方法进行语义消歧,减小用户输入和知识图谱术语的差距,使其能够链接到知识图谱中的唯一实体,
S33,基于Ranking SVM的答案排序。
7.根据权利要求6所述的基于智能问答的对外汉语口语训练方法,其特征在于,所述S31,具体包括:
使用卷积神经网络建立分类模型以充分提取问题特征,用一定数量标记语料训练出来的高维词向量作为每个词对应的特征,通过多尺度卷积滤波器,提取问题句子的向量矩阵表达;
利用有标注的词向量将所有句子都转换成大小相同的句子矩阵作为模型的输入;
使用多尺寸的滤波器,每种尺寸包含多个滤波器对输入矩阵进行操作,在对句子矩阵进行多尺寸的多个滤波器滤波后,每种尺寸的多个滤波器产生出多个特征图;
对得到的多个特征图进行组合,得到词特征,得到问题所对应的分类。
8.根据权利要求6所述的基于智能问答的对外汉语口语训练方法,其特征在于,所述S32,具体包括:
将知识图谱中的实体与关系嵌入到一个低维的向量空间里,同时将两者转化为向量表示;
通过对问句中所有词向量直接相加的方式将用户输入的问句进行向量矩阵表示;
将知识图谱的实体和关系向量相加得到一个向量表示;
计算两个向量的相似度,根据相似度大小判定是否具有相同语义并对歧义词进行标注。
9.根据权利要求6所述的基于智能问答的对外汉语口语训练方法,其特征在于,所述S33,具体包括:
基于排序学习算法Ranking SVM结合谓词相似度特征、谓词编辑距离特征、谓词词语共现特征和分类特征,通过训练数据训练模型的参数,用训练好的模型对待解答问句的候选答案集合排序;
将训练数据中的问句映射为“实体-谓词”形式,根据实体从知识图谱中抽取问句对应的三元组候选答案;
训练数据中的问句已知正确答案,根据正确答案对候选答案标记,同时提取训练数据的若干类特征作为特征集;
根据标记和特征来训练答案排序的Ranking SVM模型,使用模型对待解答问句的候选答案进行排序。
10.一种基于智能问答的对外汉语口语训练系统,其特征在于,包括:
数据集构建模块,用于采集口语训练问答对,采用基于变分自编码器算法构建对外汉语口语训练问答对数据集;构建过程包括:通过选择话题建立话题库;通过词语分类建立话题词表;通过问题生成建立问答对数据集;
知识图谱构建模块,用于汇总语料,并根据语料构建对外汉语口语知识图谱;构建过程包括语料收集、信息抽取和融合及知识加工和推理;
自然语言问答实现模块,用于接收用户输入的自然语言问题,通过神经网络深度学习对问题进行向量表达,与知识图谱的表达向量进行语义关联;通过关联分析选择合适的回答进行输出以实现自然语言问答,包括自然语言问题的向量化表示、自然语言问题的查询语言生成及答案生成与排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910284601.2A CN110083690B (zh) | 2019-04-10 | 2019-04-10 | 一种基于智能问答的对外汉语口语训练方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910284601.2A CN110083690B (zh) | 2019-04-10 | 2019-04-10 | 一种基于智能问答的对外汉语口语训练方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110083690A true CN110083690A (zh) | 2019-08-02 |
CN110083690B CN110083690B (zh) | 2022-05-03 |
Family
ID=67414718
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910284601.2A Active CN110083690B (zh) | 2019-04-10 | 2019-04-10 | 一种基于智能问答的对外汉语口语训练方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110083690B (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110727806A (zh) * | 2019-12-17 | 2020-01-24 | 北京百度网讯科技有限公司 | 基于自然语言和知识图谱的文本处理方法及装置 |
CN111143539A (zh) * | 2019-12-31 | 2020-05-12 | 重庆和贯科技有限公司 | 基于知识图谱的教学领域问答方法 |
CN111241306A (zh) * | 2020-01-21 | 2020-06-05 | 浙江大学 | 一种基于知识图谱和指针网络的路径规划方法 |
CN111259130A (zh) * | 2020-02-14 | 2020-06-09 | 支付宝(杭州)信息技术有限公司 | 用于在对话中提供答复语句的方法及装置 |
CN111326040A (zh) * | 2020-01-16 | 2020-06-23 | 深圳市芥菜种科技有限公司 | 语文阅读理解智能测试和智能辅导系统和方法 |
CN111368191A (zh) * | 2020-02-29 | 2020-07-03 | 重庆百事得大牛机器人有限公司 | 基于法律咨询交互过程的用户画像系统 |
CN111597347A (zh) * | 2020-04-24 | 2020-08-28 | 扬州大学 | 知识嵌入的缺陷报告重构方法及装置 |
CN111666374A (zh) * | 2020-05-15 | 2020-09-15 | 华东师范大学 | 一种在深度语言模型中融入额外知识信息的方法 |
CN111768869A (zh) * | 2020-09-03 | 2020-10-13 | 成都索贝数码科技股份有限公司 | 面向智能问答系统的医学指南图谱化构建搜索系统及方法 |
CN111831794A (zh) * | 2020-07-10 | 2020-10-27 | 杭州叙简科技股份有限公司 | 一种基于知识图谱的综合管廊行业知识问答系统构建方法 |
CN112015919A (zh) * | 2020-09-15 | 2020-12-01 | 重庆广播电视大学重庆工商职业学院 | 一种基于学习辅助知识图谱的对话管理方法 |
CN112015920A (zh) * | 2020-09-15 | 2020-12-01 | 重庆广播电视大学重庆工商职业学院 | 一种基于知识图谱和边缘计算智能辅助学习系统 |
CN112541059A (zh) * | 2020-11-05 | 2021-03-23 | 大连中河科技有限公司 | 一种应用在税务问答系统的多轮智能问答交互方法 |
WO2021051630A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于数据关系分析的知识融合方法、装置、计算机设备和存储介质 |
CN112800203A (zh) * | 2021-02-05 | 2021-05-14 | 江苏实达迪美数据处理有限公司 | 一种融合文本和知识表征的问答匹配方法及系统 |
CN113468304A (zh) * | 2021-06-28 | 2021-10-01 | 哈尔滨工程大学 | 一种基于知识图谱的船舶靠离泊知识问答查询系统的构建方法 |
CN113536798A (zh) * | 2021-07-16 | 2021-10-22 | 北京易道博识科技有限公司 | 一种多实例文档关键信息抽取方法和系统 |
US20210406467A1 (en) * | 2020-06-24 | 2021-12-30 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for generating triple sample, electronic device and computer storage medium |
WO2022127041A1 (zh) * | 2020-12-16 | 2022-06-23 | 平安科技(深圳)有限公司 | 相似句匹配方法、装置、计算机设备及存储介质 |
CN116383771A (zh) * | 2023-06-06 | 2023-07-04 | 云南电网有限责任公司信息中心 | 基于变分自编码模型的网络异常入侵检测方法和系统 |
CN116975206A (zh) * | 2023-09-25 | 2023-10-31 | 华云天下(南京)科技有限公司 | 一种基于aigc大模型的垂直领域训练方法、装置及电子设备 |
CN117828060A (zh) * | 2024-01-03 | 2024-04-05 | 国投人力资源服务有限公司 | 一种基于语义识别的在线问答方法、系统和存储介质 |
US12019990B2 (en) | 2019-12-17 | 2024-06-25 | Beijing Baidu Netcom Science Technology Co., Ltd. | Representation learning method and device based on natural language and knowledge graph |
CN118643904A (zh) * | 2024-08-16 | 2024-09-13 | 成都佳发安泰教育科技股份有限公司 | 训练方法、装置、听说练习方法、存储介质及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180011837A1 (en) * | 2016-07-07 | 2018-01-11 | International Business Machines Corporation | Type-Specific Rule-Based Generation of Semantic Variants of Natural Language Expression |
CN108182262A (zh) * | 2018-01-04 | 2018-06-19 | 华侨大学 | 基于深度学习和知识图谱的智能问答系统构建方法和系统 |
CN108804521A (zh) * | 2018-04-27 | 2018-11-13 | 南京柯基数据科技有限公司 | 一种基于知识图谱的问答方法及农业百科问答系统 |
CN109062939A (zh) * | 2018-06-20 | 2018-12-21 | 广东外语外贸大学 | 一种面向汉语国际教育的智能导学方法 |
-
2019
- 2019-04-10 CN CN201910284601.2A patent/CN110083690B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180011837A1 (en) * | 2016-07-07 | 2018-01-11 | International Business Machines Corporation | Type-Specific Rule-Based Generation of Semantic Variants of Natural Language Expression |
CN108182262A (zh) * | 2018-01-04 | 2018-06-19 | 华侨大学 | 基于深度学习和知识图谱的智能问答系统构建方法和系统 |
CN108804521A (zh) * | 2018-04-27 | 2018-11-13 | 南京柯基数据科技有限公司 | 一种基于知识图谱的问答方法及农业百科问答系统 |
CN109062939A (zh) * | 2018-06-20 | 2018-12-21 | 广东外语外贸大学 | 一种面向汉语国际教育的智能导学方法 |
Non-Patent Citations (1)
Title |
---|
陈叶旺等: "基于百度百科与文本分类的网络文本语义主题抽取方法", 《信息科技 计算机软件及计算机应用》 * |
Cited By (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021051630A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于数据关系分析的知识融合方法、装置、计算机设备和存储介质 |
CN110727806A (zh) * | 2019-12-17 | 2020-01-24 | 北京百度网讯科技有限公司 | 基于自然语言和知识图谱的文本处理方法及装置 |
US12019990B2 (en) | 2019-12-17 | 2024-06-25 | Beijing Baidu Netcom Science Technology Co., Ltd. | Representation learning method and device based on natural language and knowledge graph |
CN110727806B (zh) * | 2019-12-17 | 2020-08-11 | 北京百度网讯科技有限公司 | 基于自然语言和知识图谱的文本处理方法及装置 |
CN111143539B (zh) * | 2019-12-31 | 2023-06-23 | 重庆和贯科技有限公司 | 基于知识图谱的教学领域问答方法 |
CN111143539A (zh) * | 2019-12-31 | 2020-05-12 | 重庆和贯科技有限公司 | 基于知识图谱的教学领域问答方法 |
CN111326040A (zh) * | 2020-01-16 | 2020-06-23 | 深圳市芥菜种科技有限公司 | 语文阅读理解智能测试和智能辅导系统和方法 |
CN111326040B (zh) * | 2020-01-16 | 2020-12-22 | 深圳市芥菜种科技有限公司 | 语文阅读理解智能测试和智能辅导系统和方法 |
CN111241306B (zh) * | 2020-01-21 | 2022-04-29 | 浙江大学 | 一种基于知识图谱和指针网络的路径规划方法 |
CN111241306A (zh) * | 2020-01-21 | 2020-06-05 | 浙江大学 | 一种基于知识图谱和指针网络的路径规划方法 |
CN111259130A (zh) * | 2020-02-14 | 2020-06-09 | 支付宝(杭州)信息技术有限公司 | 用于在对话中提供答复语句的方法及装置 |
CN111259130B (zh) * | 2020-02-14 | 2023-04-07 | 支付宝(杭州)信息技术有限公司 | 用于在对话中提供答复语句的方法及装置 |
CN111368191B (zh) * | 2020-02-29 | 2021-04-02 | 重庆百事得大牛机器人有限公司 | 基于法律咨询交互过程的用户画像系统 |
CN111368191A (zh) * | 2020-02-29 | 2020-07-03 | 重庆百事得大牛机器人有限公司 | 基于法律咨询交互过程的用户画像系统 |
CN111597347A (zh) * | 2020-04-24 | 2020-08-28 | 扬州大学 | 知识嵌入的缺陷报告重构方法及装置 |
CN111597347B (zh) * | 2020-04-24 | 2023-11-10 | 扬州大学 | 知识嵌入的缺陷报告重构方法及装置 |
CN111666374A (zh) * | 2020-05-15 | 2020-09-15 | 华东师范大学 | 一种在深度语言模型中融入额外知识信息的方法 |
US20210406467A1 (en) * | 2020-06-24 | 2021-12-30 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for generating triple sample, electronic device and computer storage medium |
CN111831794A (zh) * | 2020-07-10 | 2020-10-27 | 杭州叙简科技股份有限公司 | 一种基于知识图谱的综合管廊行业知识问答系统构建方法 |
CN111768869B (zh) * | 2020-09-03 | 2020-12-11 | 成都索贝数码科技股份有限公司 | 面向智能问答系统的医学指南图谱化构建搜索系统及方法 |
CN111768869A (zh) * | 2020-09-03 | 2020-10-13 | 成都索贝数码科技股份有限公司 | 面向智能问答系统的医学指南图谱化构建搜索系统及方法 |
CN112015920A (zh) * | 2020-09-15 | 2020-12-01 | 重庆广播电视大学重庆工商职业学院 | 一种基于知识图谱和边缘计算智能辅助学习系统 |
CN112015919A (zh) * | 2020-09-15 | 2020-12-01 | 重庆广播电视大学重庆工商职业学院 | 一种基于学习辅助知识图谱的对话管理方法 |
CN112541059A (zh) * | 2020-11-05 | 2021-03-23 | 大连中河科技有限公司 | 一种应用在税务问答系统的多轮智能问答交互方法 |
WO2022127041A1 (zh) * | 2020-12-16 | 2022-06-23 | 平安科技(深圳)有限公司 | 相似句匹配方法、装置、计算机设备及存储介质 |
CN112800203A (zh) * | 2021-02-05 | 2021-05-14 | 江苏实达迪美数据处理有限公司 | 一种融合文本和知识表征的问答匹配方法及系统 |
CN113468304A (zh) * | 2021-06-28 | 2021-10-01 | 哈尔滨工程大学 | 一种基于知识图谱的船舶靠离泊知识问答查询系统的构建方法 |
CN113536798A (zh) * | 2021-07-16 | 2021-10-22 | 北京易道博识科技有限公司 | 一种多实例文档关键信息抽取方法和系统 |
CN113536798B (zh) * | 2021-07-16 | 2024-05-31 | 北京易道博识科技有限公司 | 一种多实例文档关键信息抽取方法和系统 |
CN116383771A (zh) * | 2023-06-06 | 2023-07-04 | 云南电网有限责任公司信息中心 | 基于变分自编码模型的网络异常入侵检测方法和系统 |
CN116383771B (zh) * | 2023-06-06 | 2023-10-27 | 云南电网有限责任公司信息中心 | 基于变分自编码模型的网络异常入侵检测方法和系统 |
CN116975206A (zh) * | 2023-09-25 | 2023-10-31 | 华云天下(南京)科技有限公司 | 一种基于aigc大模型的垂直领域训练方法、装置及电子设备 |
CN116975206B (zh) * | 2023-09-25 | 2023-12-08 | 华云天下(南京)科技有限公司 | 一种基于aigc大模型的垂直领域训练方法、装置及电子设备 |
CN117828060A (zh) * | 2024-01-03 | 2024-04-05 | 国投人力资源服务有限公司 | 一种基于语义识别的在线问答方法、系统和存储介质 |
CN117828060B (zh) * | 2024-01-03 | 2024-06-28 | 国投人力资源服务有限公司 | 一种基于语义识别的在线问答方法、系统和存储介质 |
CN118643904A (zh) * | 2024-08-16 | 2024-09-13 | 成都佳发安泰教育科技股份有限公司 | 训练方法、装置、听说练习方法、存储介质及电子设备 |
CN118643904B (zh) * | 2024-08-16 | 2024-11-05 | 成都佳发安泰教育科技股份有限公司 | 训练方法、装置、听说练习方法、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110083690B (zh) | 2022-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110083690A (zh) | 一种基于智能问答的对外汉语口语训练方法及系统 | |
Wang | Multilingualism and translanguaging in Chinese language classrooms | |
Mathew et al. | NLP-based personal learning assistant for school education | |
CN113610680A (zh) | 一种基于ai的交互式阅读材料个性化推荐方法及系统 | |
Munro | On the difficulty of defining “difficult” in second-language vowel acquisition | |
Tuo et al. | Construction and Application of a Human‐Computer Collaborative Multimodal Practice Teaching Model for Preschool Education | |
Xiaohong et al. | The application of artificial intelligence in modern foreign language learning | |
Devasena | Artificial Intelligence in Education: An Alternative to Traditional Learning | |
Amato et al. | Chat: a cultural heritage adaptive tutor | |
Li et al. | Analysis on the application of AI technology in online education under the public epidemic crisis | |
Żammit | Harnessing the power of ChatGPT for mastering the maltese language: A Journey of breaking barriers and charting new paths | |
Jhamb et al. | Understanding complexity in language learning through data visualization using Python | |
Shimichev et al. | Chatbot Technology as an Artificial Intelligence Tool in Foreign Language Education | |
Wang | The Impact of Animation and Film English Education Environment on Students' Psychological Health | |
Elsheikh et al. | Mada tawasol symbols & mobile app | |
Matsevich et al. | Conceptual metaphor as means of teaching English speech patterns in higher education | |
Nini et al. | Research on the application of children’s reading analysis based on artificial intelligence——take small “raccoon reading” and “jiao jiao reading” as examples | |
Peterson et al. | Digital Games and Language Learning | |
Turula | THE EFFECT OF COMPUTER-ASSISTED GAMIFIED LEARNING ON STUDENTS'ATTITUDES AND PROGRESS IN ADVANCED GRAMMAR CLASS | |
Hoogland et al. | Numeracy and mathematics education in vocational education: a literature review, preliminary results | |
Battenburg et al. | Teaching linguistics and lexicography with online resources | |
Yuan et al. | Faculty of Humanities and Basic Education, Xinjiang Vocational and Technical College of Communications, Urumqi Municipality, Xinjiang, China zhangzhang10171110@ 163. com | |
Prabjandee | Preparing English Teachers to Teach Global Englishes Language Teaching in Thailand: My Personal and Professional Journey | |
Chen et al. | Systematic Evaluation of Research Progress on Technology-Enhanced Language Learning: Content Analysis and Knowledge Mapping | |
Wang et al. | Research on the Design of Series Emoticons Based on the User Cognition Experiment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |