Downloads

知识图谱在教育信息化中的应用研究. (2024). 教育学刊, 2(4). https://doi.org/10.62836/jer.v2n4.0120
知识图谱在教育信息化中的应用研究

曾文颖,严灿,李志飞* ,张淼,张龑

湖北大学计算机与信息工程学院,湖北武汉

摘要:知识图谱具有强大的实体关联的刻画能力,近年来也引起了教育领域研究者的高度关注,是目前人工智能教育应用中的研究热点并得到了应用实践。文章旨在探讨知识图谱助力教育信息化的研究,从知识表示、推理到应用等方面展开论述。首先,通过对知识图谱的概念和特点进行介绍,阐述了知识图谱在教育领域中的重要性和应用前景。随后,重点探讨了知识表示学习的概念和方法,并进行总结和归纳。接着,讨论了知识图谱表示学习的相关技术,涵盖了基于平移距离的推理方法、基于语义匹配的推理方法以及基于神经网络的推理方法。最后,介绍了教育知识图谱在教学辅助、个性化学习、智能教育评估等方面的具体应用案例,并展望了未来研究的方向和挑战。文章旨在为教育领域的知识图谱研究提供参考和借鉴,促进教育信息化技术的发展与创新。

教育知识图谱 知识表示 知识推理 知识应用

1 引言

知识图谱成为新时代中国教育的主要研究方向。北师大郑永和教授提出应对教学内容、教学资源等要素进行全方位的智能感知与精准刻画,实现数据驱动的学科知识建模0。2021年7月,中国教育部等六个部门发布了《关于推进教育新型基础设施建设构建高质量教育支撑体系的指导意见》,其中详细阐述了学科知识图谱在提升数字化资源供给服务质量方面的积极促进作用[2]。由此可见,国家高度关注以知识图谱为代表的人工智能技术在教育领域的应用。

知识图谱是人工智能赋能教育领域的重要手段。基于已有知识,人类方能在物质世界不断变化的过程中,针对出现的问题进行深入的剖析、细致的对比以及逻辑的演绎,从而探索出有效的解决方案[3]。根据此逻辑,国内外企业和科研机构纷纷构建大型、开放共享的知识图谱,知识图谱在众多智能应用中发挥着重要作用[3]。在教育领域,通过建立教育知识图谱,深入挖掘和整理大量无序的信息资源,重新建立知识之间的内在联系,从而有效组织起各学科的框架。这一举措不仅极大地促进了知识的系统化和结构化,更为精准化教学、个性化学习等现代教育模式的发展带来了前所未有的可能性[4]。通过将多模态数据与教育知识图谱紧密融合,为教育知识图谱注入了更多维度的信息。同时这种多模态的集成满足了智能教育应用中日益增长的多元化需求[5]。近年来,愈来愈多学者开始深入研究大规模教育知识图谱的基础理论和方法,其中关于知识的构建、表示、推理与计算成为智能教育和人工智能的重要研究方向,文章从知识表示学习概念和方法、面向知识图谱的知识推理、教育知识图谱发展与应用三个方面进行综述。

2 知识表示学习概念和方法

在知识推理任务中,随着知识图谱的规模和复杂性不断增长,符号化表示方法在处理大规模数据时的局限性愈发明显。近年来,知识表示学习引起了广泛关注和研究兴趣,并在知识推理领域取得突破性进展,以下将从知识表示的基本概念和典型方法展开论述。

2.1 知识表示的基本概念

知识图谱通过离散的符号体系来表征和存储知识,最为常见的就是形如(h,r,t)此类的三元组形式其中h代表头实体,r代表关系,t代表尾实体,这种结构有效地捕捉并表达了实体之间的关联与事实。大规模知识图谱的离散符号表示形式在计算应用上遭遇了些许困难。首先,计算效率有待提升,尽管使用图结构进行表示直观明了,但对于不同的任务需求我们需要为之设定不同的图算法。然而,这些算法的计算复杂度往往偏高,难以满足当前大规模知识图谱的高效处理需求,且在不同应用场景之间的迁移性也较差。其次,数据稀疏性构成了另一个困难。在大规模知识图谱中,实体与关系往往呈现出长尾分布的特点,即许多实体仅与少数关系事实相关联。对于这些长尾实体和关系,由于缺乏足够的关联信息,理解和推理它们变得更加困难。

图1.面向教育知识图谱的知识表示

为解决计算效率与数据稀疏两个问题,近年来人们提出知识表示学习[6]的技术方案。知识表示学习基于分布式表示[7]的思想,如1所示,面向教育知识图谱的知识表示旨在将实体(或关系)的语义信息嵌入到低维的实数向量空间中,通过将不同领域的知识融合到统一的语义向量空间中,可以更好地实现知识的共享和交流,有助于提升计算效率,缓解数据稀疏,从而有效提升了推荐系统、智能问答、信息检索和知识推理等任务的性能。

2.2 知识表示的典型方法

近年来,与知识表示学习相关的大量的模型与算法不断涌现。国内研究中,张祎等[8]结合知识图谱构建语义联系的本质特征,以三元组为建模粒度,对头实体、关系和尾实体之间的交互作用进行了充分拟合并提出InterTris模型。陈云芳等[9]等预先计算了知识图谱中每个节点的子图表示,利用二维卷积和Transformer来获得节点的表示向量,提出了一种名为ConvPiece的模型。刘冬帅等[10]等提出了CompESAT的知识表示学习模型,其基于自注意力机制,能够有效地选择更重要更有价值的邻域信息。国外研究中Han等[11]提出一种基于流形空间的非对称知识表示学习模型,可为不同类型关系学习更丰富的语义特征;Wang等[12]为提高实体及关系语义特征的学习能力,建立对抗迁移网络ATransN模型,并可扩展到其它知识表示方法中。 Yu Zhao[13]等为了防止错过全局信息中的重要信息提出EIGTA模型将全局信息整合到局部关注中,进行知识表示学习。

整体看来,国内外对于知识表示学习均已有较多的研究,但相关工作多以知识图谱固有知识为基础建立新的模型或方法,忽略了多源信息的融合。知识驱动型任务应与多源信息(如文本、图像、属性等)进行交互,帮助构建更加准确的知识表示,知识表示学习能使得知识空间与其它多源信息空间的交互变得更为自然、便捷。综上所述,知识表示学习在提升计算效率和缓解数据稀疏方面具有显著优势,此外应利用多源信息来辅助构建更好的知识表示结果,从而提高知识推理任务的性能[3]。

3 面向知识图谱的知识推理

2所示,知识推理作为知识图谱补全和更新的重要手段,在知识表示学习研究背景下,逐步演变成基于平移距离、基于语义匹配和基于神经网络等三种类型的推理模型。

图2.基于知识推理对教育知识图谱进行补全和更新

3.1 基于平移距离的推理模型

平移距离模型将关系诠释为在向量空间中从头实体到尾实体的位移。其中,TransE[14]是平移距离推理模型中最为典型的代表。如3(a)所示,以知识三元组(锥形瓶,属于,玻璃仪器)为例,TransE模型将关系“属于”的语义r描述为在向量空间中由头实体“锥形瓶”的语义h向尾实体“玻璃仪器”的语义t进行的一种平移操作,满足。即“锥形瓶”的向量表示可以通过某种平移变换,与“玻璃仪器”的向量表示对齐或接近,从而准确反映它们之间的“属于”关系。但在处理一对多、多对一以及多对多等复杂关系时,该模型的建模能力存在一定的局限性,难以全面地捕捉这些复杂关系的特征。为提高关于复杂关系推理的性能,如3(b)所示,TransR[15]模型的核心思想是将实体和关系投影到不同的语义空间,然后在这些空间中执行平移操作。通过这种方式,TransR模型能够更灵活地捕捉实体在不同关系下的不同语义表示。然而,TransR模型在引入这种灵活性的同时,也带来了参数量和计算复杂度的显著增加。如3(c)所示,RotatE[16]模型采用复数空间中的旋转来定义关系,这种方式能够灵活地捕捉实体间的交互模式,尤其是在处理对称、反对称、传递等复杂关系时表现出色。然而,尽管RotatE模型在知识推理方面取得了显著成效,但此模型的旋转操作在某种程度上是一种线性变换,可能无法有效处理非线性关系。总体来讲,平移距离模型虽然能有效模拟实体间的相对位置关系,在知识推理领域已经取得了令人瞩目的成效,但在捕捉和表达更为复杂、细致的语义特征方面,仍有待提升。

图3.TransE、TransR及RotatE模型示意图

3.2 基于语义匹配的推理模型

在知识图谱的构建与推理中,语义匹配模型发挥着重要作用,它们通过比较实体和关系的语义相似性来衡量三元组的正确性。RESCAL模型[17]的核心思想是使用向量表示实体的语义,并通过关系矩阵建模实体间的交互。如4(a)所示,模型首先将实体和关系映射到同一向量空间,其中头实体用向量h表示,尾实体用向量t表示、关系用矩阵表示。通过矩阵与向量的运算,捕捉实体在不同关系下的语义变化,从而评估知识三元组的准确性。尽管RESCAL模型在语义匹配方面取得了显著成效,但其计算复杂度较高。为解决上述问题,如4(b)所示,DistMult[18]模型通过约束矩阵为对角矩阵(Diagonal Matrix)来简化RESCAL模型,实验结果表明该模型在参数量大幅减少的情况下仍能提高知识推理准确性。但可发现知识三元组(锥形瓶,属于,玻璃仪器)与(玻璃仪器,属于,锥形瓶)的计算结果在DistMult模型假设下完全相等并判断正确,但后者显然是错误的。HolE[19]模型引入全息向量和循环相关操作,为实体和关系的语义匹配提供了新的视角。HolE模型的核心思想是通过全息向量和循环相关操作来捕捉复杂的语义信息,而不仅仅依赖于像DistMult那样的点积操作。如4(c)所示。虽然HolE模型在解决DistMult非对称关系建模不足方面取得了显著成效,但其在可解释性方面仍面临挑战。通过观察当前的技术发展趋势,可以明显看出语义匹配推理模型正在探索减少参数量和降低计算复杂度的方法。然而,当这些模型处理庞大且复杂的知识图谱时,为了准确区分不同知识之间的细微差异,往往需要依赖高维度的语义向量,模型容易陷入过拟合的困境。

图4. RESCAL、DistMult及HolE模型示意图

3.3 基于神经网络的推理模型

神经网络推理模型通过组合和提取实体及关系的语义特征来进行知识图谱推理。其中,ConvE模型[20]模型通过卷积操作有效地捕获了实体和关系之间的局部特征,进而提高了推理的准确性。然而,ConvE模型在特征交互和信息提取方面仍存在局限性。研究者们提出了多种改进模型,如InteractE[21]和RCN[22]模型。InteractE模型通过引入更复杂的特征交互机制,进一步提升了模型在捕捉实体和关系之间复杂关系的能力。而RCN模型则通过引入循环神经网络结构,更好地处理了序列信息,从而提高了模型在推理任务中的性能。

综上所述,基于知识表示学习的知识推理方法已经成为当前研究的热点领域。在众多模型中,基于深度学习的神经网络方法因其卓越的性能,在知识推理准确性方面展现出了显著的优势。通过自动学习并提取实体和关系之间的深层语义特征,这些神经网络模型能够灵活、高效地执行知识推理任务,为人工智能技术的进一步发展提供了有力的支持。

4 教育知识图谱发展与应用

知识图谱已在多个领域,包括电商、金融、医疗和法律等,得到了成功应用,即便是教育这一最难以被技术变革的领域,也开始认识到知识图谱的重要作用0。现有相关研究主要包括教育知识图谱的构建和知识驱动的智能应用两方面。

表1.代表性大规模知识图谱简介

名称

机构

特点

应用

Freebase

谷歌公司

¨         实体、语义、属性、关系

¨         维基百科抽取+人工编辑

谷歌搜索

Wikidata

Wikimedia

Foundation

¨         实体、语义、属性、关系

¨         人工(协同编辑)

维基百科

Zhishi.me

上海交通大学

¨         互动百科、百度百科、维基百科抽取

zhishi.me

CN-DBpedia

复旦大学

¨         大规模通用领域知识图谱

¨         百度百科、互动百科、维基百科抽取

知识工场

基础教育

知识图谱

清华大学

¨         大规模基础教育领域的知识图谱

¨         教材、大百科全书、互联网抽取

edukg.cn

MOOC概念

知识图谱

清华大学

¨         课程及概念知识图谱

¨         百度百科、维基百科、学堂在线抽取

学堂小木

1) 教育知识图谱构建。随着人工智能技术的迅猛发展,传统知识获取的瓶颈正在被逐步突破。近年来,国内外纷纷投入大量资源,致力于构建大规模、开放共享的知识图谱。这些知识图谱汇聚了数以千万级甚至亿级规模的实体,涵盖了从基础常识到专业领域知识的广泛内容。如1所示,涵盖了Freebase ,Wikidata等国外知名知识图谱 ,以及国内的CN-DBpedia 、上海交通大学的me 等。这种大规模的知识图谱不仅提升了知识获取的效率和准确性,还为人工智能应用提供了坚实的基础。

教育领域也开始研究建立教学课程或学科领域的知识图谱[23-25]。一方面,科研院所从宏观层面建立大规模教育知识图谱,代表工作包括清华大学的基础教育与MOOC概念知识图谱,提供教育领域中海量的知识描述和概念关联信息;另一方面,研究学者针对课程或学科建立知识图谱以解决具体问题,例如郭宏伟[26]以《中国医学史》课程为例,对高校在线课程的知识图谱构建路径展开研究;杨文霞等[27]综合运用自然语言处理和机器学习等前沿技术,构建课程学科知识图谱平台,旨在促进学生的个性化学习;马宁等[28]针对教师培训中存在的知识结构混乱以及知识碎片化等问题,提出群体知识图谱构建策略并开发相关工具;刘超等[29]对国内外新型教材推广政策与实践进行了梳理,推动基于知识图谱的新型教材建设。可以发现,关于教育知识图谱的构建逐渐成为教育领域的研究热点。

2)知识驱动的智能应用。一方面,知识图谱通过将学习资源中的概念、实体以及它们之间的关系进行结构化表示,有效解决了传统的在线教育资源组织和检索方式面临着信息过载和语义缺失此类问题。它不仅能够将零散的学习资源有机整合起来,形成系统的知识网络[30, 31],还能够通过语义关系揭示知识点之间的内在联系,从而提高学习者在获取信息时的效率和准确性。

在个性化学习路径规划方面,知识图谱通过分析学习者的学习历史、兴趣偏好以及当前的知识水平,能够为其推荐符合其个性化需求的学习资源和学习路径[32, 33]。这种基于知识图谱的个性化学习推荐系统不仅能够提高学习者的学习效率和满意度,还能够促进教育资源的优化配置和高效利用。总体来讲,互联网中蕴含的大规模、开放共享的教育资源为构建大规模知识图谱提供了丰富的数据源。这些大规模的教育知识图谱不仅能够覆盖更广泛的知识领域,还能够通过不断的数据更新和扩展,保持知识的时效性和全面性。因此,探索如何有效利用这些资源,构建高质量的教育知识图谱,成为当前研究的重要方向之一。

5 总结与展望

文章围绕知识图谱助力教育信息化的研究进行了深入的探讨,从知识表示、推理到应用等多个层面进行了系统的论述。知识图谱作为人工智能领域的重要分支,以其强大的实体关联刻画能力,为各个领域的研究与应用提供了有力的支持。在教育领域,知识图谱的应用日益广泛,成为推动教育信息化发展的重要力量。

展望未来,教育知识图谱的研究仍面临诸多挑战和机遇。一方面,随着教育数据的不断积累和技术的不断进步,构建教育行业的大规模知识图谱成为近年来的研究热点。例如,基于在线学习资源构建教育领域知识图谱,不仅可以充分利用互联网上的教育资源,还可发现学科间的知识脉络与关联。同时,除了文章所阐述的基于知识图谱的知识应用之外,更多知识图谱在教育领域的应用场景还有待挖掘与发现。如何构建更加完善、准确的教育知识图谱,以及如何更好地将知识图谱与教育实践相结合,将是未来的重要研究方向。

致谢

本文由基金项目:国家自然科学基金青年项目:基于多源语义融合表示的非全及动态教育知识图谱推理研究(62207011);湖北大学2024年度教学改革研究项目:基于计算机学科知识图谱的个性化教学模式创新与实践(202414)赞助。

参考文献
[1] 郑永和, 王一岩. 教育与信息科技交叉研究:现状、问题与趋势[J]. 中国电化教育, 2021, (07): 97-106.
[2] 中华人民共和国教育部. 教育部等六部门关于推进教育新型基础设施建设构建高质量教育 支撑体系的指导意见[EB/OL].
http://www.moe.gov.cn/srcsite/A16/s3342/202107/t20210720_545783.html.
[3] 李志飞, 赵月, 张龑. 基于表示学习的知识图谱推理研究综述[J]. 计算机科学, 2023, 50(03): 94-113.
[4] 李振, 周东岱, 王勇. “人工智能+”视域下的教育知识图谱:内涵、技术框架与应用研究[J]. 远程教育杂志, 2019, 37(04): 42-53.
[5] 高茂, 张丽萍. 融合多模态资源的教育知识图谱的内涵、技术与应用研究[J]. 计算机应用研究, 2022, 39(08): 2257-2267.
[6] Wang Q, Mao Z, Wang B, et al. Knowledge Graph Embedding: A Survey of Approaches and Applications[J]. IEEE Transactions on Knowledge and Data Engineering, 2017, 29(12): 2724-2743.
[7] Paccanaro A, Hinton G E. Learning distributed representations of concepts using linear relational embedding[J]. IEEE Transactions on Knowledge and Data Engineering, 2001, 13(2): 232-244.
[8] 张祎, 孟小峰. InterTris:三元交互的领域知识图谱表示学习[J]. 计算机学报, 2021, 44(08): 1535-1548.
[9] 陈云芳, 茆昊天, 徐晓瑀等. ConvPiece:基于二维卷积和子图采样的大型知识图谱表示学习模型[J]. 南京邮电大学学报(自然科学版), 2023, 43(06): 60-69.
[10] 刘冬帅, 安敬民, 孟繁琛等. 多关系下图自注意机制增强的知识表示学习[J/OL]. 计算机工程与应用: 1-10 [2024-03-07].
[11] Han Y, Chen G, Li Z, et al. An asymmetric knowledge representation learning in manifold space[J]. Information Sciences, 2020, 531: 1-12.
[12] Wang H, Li S, Pan R. An Adversarial Transfer Network for Knowledge Representation Learning[C]. Proceedings of the International World Wide Web Conference, 2021: 1749–1760.
[13] Zhao Y, Feng H, Zhou H, et al. EIGAT: Incorporating global information in local attention for knowledge representation learning[J]. Knowledge-Based Systems, 2022, 237: 107909.
[14] Bordes A, Usunier N, Garcia-Duran A, et al. Translating Embeddings for Modeling Multi-relational Data[C]. Advances in Neural Information Processing Systems, 2013: 2787-2795.
[15] Lin Y, Liu Z, Luan H, et al. Modeling Relation Paths for Representation Learning of Knowledge Bases[C]. Proceedings of the Empirical Methods in Natural Language Processing, 2015: 705-714.
[16] Sun Z, Deng Z-H, Nie J-Y, et al. RotatE: Knowledge Graph Embedding by Relational Rotation in Complex Space[C]. Proceedings of the 7th International Conference on Learning Representations, 2019: 1-18.
[17] Nickel M, Tresp V, Kriegel H P. A three-way model for collective learning on multi-relational data[C]. Proceedings of the International Conference on Machine Learning, 2011: 809-816.
[18] Yang B, Yi W-T, He X, et al. Embedding Entities and Relations for Learning and Inference in Knowledge Bases[C]. Proceedings of the 3rd International Conference on Learning Representations, 2014: 1-12.
[19] Nickel M, Rosasco L, Poggio T A. Holographic Embeddings of Knowledge Graphs[C]. Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence, 2016: 1955-1961.
[20] Dettmers T, Minervini P, Stenetorp P, et al. Convolutional 2D Knowledge Graph Embeddings[C]. Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, 2018: 1811-1818.
[21] Vashishth S, Sanyal S, Nitin V, et al. InteractE: Improving Convolution-Based Knowledge Graph Embeddings by Increasing Feature Interactions[C]. Proceedings of the Thirty-Fourth AAAI Conference on Artificial Intelligence, 2020: 3009-3016.
[22] Li Z, Liu H, Zhang Z, et al. Recalibration Convolutional Networks for Learning Interaction Knowledge Graph Embedding[J]. Neurocomputing, 2021, 427: 118-130.
[23] 钟卓, 唐烨伟, 钟绍春, 等. 人工智能支持下教育知识图谱模型构建研究[J]. 电化教育研究, 2020, 41(04): 62-70.
[24] 周东岱, 董晓晓, 顾恒年. 教育领域知识图谱研究新趋向:学科教学图谱[J]. 电化教育研究, 2024, 45(02): 91-97+120.
[25] 罗江华, 张玉柳. 多模态大模型驱动的学科知识图谱进化及教育应用[J]. 现代教育技术, 2023, 33(12): 76-88.
[26] 郭宏伟. 基于智能教育的高校在线课程知识图谱构建研究——以中国医学史为例[J]. 中国电化教育, 2021, (02): 123-130.
[27] 杨文霞, 王卫华, 何朗等. 知识图谱赋能智慧教育的研究与实践——以武汉理工大学“线性代数”课程为例[J]. 高等工程教育研究, 2023(06): 111-117.
[28] 马宁, 杜蕾, 张燕玲, 等. 群体知识图谱建构对教师在线学习与交互的影响研究[J]. 电化教育研究, 2021, 42(02): 55-62.
[29] 刘超, 黄荣怀, 王宏宇. 基于知识图谱的新型教材建设与应用路径探索[J]. 中国大学教学, 2023(08): 10-16.
[30] Craig K, Danish J, Humburg M, et al. Net.Create: Network Visualization to Support Collaborative Historical Knowledge Building[J]. International Journal of Computer-Supported Collaborative Learning, 2021, 16(2): 185-223.
[31] Sun M, Wang M, Wegerif R, et al. How do students generate ideas together in scientific creativity tasks through computer-based mind mapping?[J]. Computers & Education, 2022, 176: 104359.
[32] 高嘉骐, 刘千慧, 黄文彬. 基于知识图谱的学习路径自动生成研究[J]. 现代教育技术, 2021, 243(07): 88-96.
[33] Wang X, He X, Cao Y, et al. KGAT: Knowledge Graph Attention Network for Recommendation[C]. Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2019: 950-95.