CN116050412B - 基于数学语义逻辑关系的高中数学题目的分割方法和系统 - Google Patents
基于数学语义逻辑关系的高中数学题目的分割方法和系统 Download PDFInfo
- Publication number
- CN116050412B CN116050412B CN202310206242.5A CN202310206242A CN116050412B CN 116050412 B CN116050412 B CN 116050412B CN 202310206242 A CN202310206242 A CN 202310206242A CN 116050412 B CN116050412 B CN 116050412B
- Authority
- CN
- China
- Prior art keywords
- question
- sentence
- text
- sentences
- mathematical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000011218 segmentation Effects 0.000 claims abstract description 91
- 238000004140 cleaning Methods 0.000 claims abstract description 15
- 230000000981 bystander Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 16
- 238000003058 natural language processing Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000005215 recombination Methods 0.000 description 5
- 230000006798 recombination Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000005457 optimization Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于数学语义逻辑关系的高中数学题目的分割方法和系统,包括获取数学题目文本,根据数学题目文本判断数学题目的题型;根据数学题目的题型的不同,选择对应文本清洗标准对数学题目文本中的分割符号进行格式化处理,得到至少一个短句;根据每个短句在数学题目文本中所处的位置以及所包含的特征关键词,判断出每个短句的属性类型,其中短句的属性类型至少包括:设问语句,设问语句为包含有设问特征关键词的短句;从至少一个短句中提取出至少一个单元结构,单元结构至少包含一条设问语句;对单元结构中包含的语句按照预设的规则进行组合,获得至少一条语句组合。本发明将题目分割为多个分问题题目,使文本语义理解更加精准。
Description
技术领域
本发明涉及一种电子技术领域,尤其涉及一种基于数学语义逻辑关系的高中数学题目的分割方法和系统。
背景技术
自然语言处理(NLP,NaturalLanguage Processing) 是研究人与计算机交互的语言问题的一门学科。在NLP语义理解的任务中,对文本进行句子分割是文本语义理解过程中重要的一环。在现有技术中,句子分割主要依据句子的标点符号以及句子向量的作用域实现的。主流的通用句子文本分割技术通常采用根据句子的固定分割符号进行句子分割的方式,或者利用深度学习训练句子分割模型,从而实现对通用的文本进行有效的句子分割。具体的分割方法有以下几种:(1)文本向量化。将文本库的文本进行分词,然后构建分词的词向量,获得词向量库。基于词向量库,将目标文本转化为词向量矩阵,进而进行句子分割模型训练,获得句子分割算法模型。(2)字节对编码(BytePair Encoding,BPE)。准备足够多的训练预料,并构建分词词表。在语料库中统计分词成对共现的频率,取频率高的共现的词对构建出新的词对,不断重复构建出更长的共现词对,从而训练出短句识别的算法模型。(3)固定的文本分割标记。采用固定分割标点符号或者文本结构进行分割。
但是,现有技术中通用的句子分割算法模型很难满足一些特殊领域的文本句子分割需求,例如,某些学科类文本句子分割(比如高中数学题目的文本句子分割),需要在语义层面上准确理解题目的语义作用区域和条件设问的作用区域。由于该领域的学科专业特点比较明显,因此需要有针对性的领域文本分割方法才能满足需求。此外,现有技术的句子分割方式直接利用句子分割标点符号进行分割,简单粗暴,不能实现语义层面上的准确分割。而利用算法模型训练句子分割的方式,缺乏可解释性,难以通过人为干预进行模型的优化迭代。
发明内容
本发明旨在解决上述问题之一。
本发明的主要目的在于提供一种基于数学语义逻辑关系的高中数学题目的分割方法。
本发明的另一目的在于提供一种基于数学语义逻辑关系的高中数学题目的分割系统。
为达到上述目的,本发明的技术方案具体是这样实现的:
本发明一方面提供了一种基于数学语义逻辑关系的高中数学题目的分割方法,包括:获取数学题目文本,并根据所述数学题目文本判断所述数学题目的题型;根据所述数学题目的题型的不同,选择对应的文本清洗标准对所述数学题目文本中的分割符号进行格式化处理,并得到至少一个短句;根据每个所述短句在所述数学题目文本中所处的位置以及所包含的特征关键词,判断出每个所述短句的属性类型,其中,所述短句的属性类型至少包括:设问语句,所述设问语句为包含有设问特征关键词的短句;从所述至少一个短句中提取出至少一个单元结构,所述单元结构至少包含一条所述设问语句;对所述单元结构中包含的语句按照预设的规则进行组合,获得至少一条语句组合。
本发明另一方面提供一种基于数学语义逻辑关系的高中数学题目的分割系统,包括:判断模块,用于获取数学题目文本,并根据所述数学题目文本判断所述数学题目的题型;文本清洗模块,用于根据所述数学题目的题型的不同,选择对应的文本清洗标准对所述数学题目文本中的分割符号进行格式化处理,并得到至少一个短句;分类模块,用于根据每个所述短句在所述数学题目文本中所处的位置以及所包含的特征关键词,判断出每个所述短句的属性类型,其中,所述短句的属性类型至少包括:设问语句,所述设问语句为包含有设问特征关键词的短句;单元结构提取模块,用于从所述至少一个短句中提取出至少一个单元结构,所述单元结构至少包含一条所述设问语句;组合模块,用于对所述单元结构中包含的语句按照预设的规则进行组合,获得至少一条语句组合。
由上述本发明提供的技术方案可以看出,本发明提供了一种基于数学语义逻辑关系的高中数学题目的分割方法和系统,能够充分挖掘了数学题目的语言逻辑关系,具有很强的可解释性。通过对数学题目的清洗和逻辑重构,可以将数学题目内在的逻辑关系清晰地展示出来,将题目从形式上转化为以“条件语句+设问语句”为单位,以分句为基本成分的组合体,这样就可以很容易地将题目进行形式分割,并为题目的语义理解提供了有效的支持。本发明提出了数学题目的精细分割形式,将题目分割为多个分问题题目,分题目中每一部分由条件和设问组成,利用题目分割算法模型从形式上实现了题目的逻辑分割和重组,最大程度保存并强化了题目的特征信息,从而使文本的语义理解更加精准。
此外,此种方式的分割模式具有很强的学科解释性,这使得题目分割的算法模型的构建和训练更加方便容易,并且可以在后期的实践过程中,根据结果反馈持续优化。本发明提供的准确有效的题目分割方法可以为后续的命名实体识别、指代消解和知识点识别提供有效的基础保障,为高中数学题目的多种NLP任务提供了可靠的基础支持。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例1提供的基于数学语义逻辑关系的高中数学题目的分割方法的流程图;
图2为本发明实施例1提供的基于数学语义逻辑关系的高中数学题目的分割系统结构示意图;
图3为本发明实施例1提供的基于数学语义逻辑关系的高中数学题目的分割方法的具体应用示例的流程图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或数量或位置。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
下面将结合附图对本发明实施例作进一步地详细描述。
实施例1
本实施例提供一种基于数学语义逻辑关系的高中数学题目的分割方法,如图1所示,包括:
步骤S101,获取数学题目文本,并根据数学题目文本判断数学题目的题型;具体来说,本发明可以使用数学题目的原始文本(即包含题干文本和原始数学公式的文本类型),也可以使用已经将公式文本化的文本(即包含题干文本和公式文本的文本类型),具体以实际应用场景而定。数学题目的题型可以包括选择题、解答题和填空题等基本的题型,不同的题型可能会包含不同的文本特征,例如选择题中经常出现A、B、C、D的选项,通过预先判断数学题目的题型,有利于后续对文本进行标准化处理。
步骤S102,根据数学题目的题型的不同,选择对应的文本清洗标准对数学题目文本中的分割符号进行格式化处理,并得到至少一个短句;具体来说,根据题型(选择题、填空题、解答题等)的不同,文本中包含的分隔符号也不同,例如选择题中经常出现A、B、C、D的选项分割符号,而解答题中经常出现(1)、(2)、(3)、(4)等断句分割符号。在判断出题目的题型后,针对不同的题型选择不同的标准对文本进行筛选过滤,可以快速识别出分割符号,对题目文本进行快速的断句。在本发明中,可以将选项A、B、C、D以及文本序号统一清洗为统一的标准格式,例如,可以将选项转化为解答题中的(1)、(2)、(3)、(4)分问句成分。如果题目文本中出现多处(1)、(2)、(3)、(4)等序号,还需要根据所出现的位置进行区分后统一编排。
步骤S103,根据每个短句在数学题目文本中所处的位置以及所包含的特征关键词,判断出每个短句的属性类型,其中,短句的属性类型至少包括:设问语句,设问语句为包含有设问特征关键词的短句;具体来说,数学题目文本中的短句一般具有不同的作用,按照短句在题目文本的位置及作用,可以将题目文本内容分为“旁白语句”、“条件语句”、“设问语句”、“冗余语句”,“一句式题目”等类别。在本实施例中,一个题目中最重要的是“设问语句”,因此“设问语句”是必不可少的。而在一些特殊的题目中甚至只有“设问语句”,例如“一句式题目”类型的题目。一句式题目判断方法是指:当整个题目为无法直接分割条件、设问的单语句时,该题目为“一句式题目”,一句式题目整体作为一个设问语句,比如“求函数f(x)=x^2+2*x的单调递增区间”。一般来说,设问语句判断方法是指:题干或者选项中最后三句的语句首字为“所以、则、即、故、右推、得、那么、求、证”等设问特征关键词的语句为设问语句。此外,填空题中出现“填空线”的语句也为设问语句。
在一个可选的实施方式中,至少一个短句包含多个短句;短句的属性类型还包括:条件语句,条件语句为包含有条件特征关键词的短句。具体来说,多个短句被分割符号分割而成,而条件语句判断方法是指:语句首字为“若、已知、设”等条件特征关键词的语句,以及非“旁白语句、设问语句、冗余语句、一句式题目”的语句为条件语句。条件语句是一个题目中的重要组成部分,通常需要根据条件语句来求得设问语句部分的答案。
在一个可选的实施方式中,短句的属性类型还包括:冗余语句,冗余语句为不包含任何特征关键词的短句;在判断出每个短句的属性类型之后,方法还包括:删除冗余语句。具体来说,冗余语句一般不包含关键信息,因此为避免题目文本冗余,可以删除冗余语句。冗余语句的具体判断方法是指:只有文本序号或者语句中为文本序号+判断词的语句为冗余语句。
在一个可选的实施方式中,短句的属性类型还包括:旁白语句,旁白语句为包含有旁白特征关键词的短句或者同时包含旁白特征关键词和设问特征关键词的短句。具体来说,旁白语句判断方法是指:出现“下列说法”、“下列命题”、“下列结论”、“下列判断”等旁白特征关键词的语句,或者选择题题干文本最后语句出现“是()、有()、为()”的语句为旁白语句。此外,设问特征关键词与旁白特征关键词同时存在一个语句中时可以判定语句为旁白语句。
步骤S104,从至少一个短句中提取出至少一个单元结构,单元结构至少包含一条设问语句;具体来说,本发明的一个单元结构代表数学题目的一个问题或分题目。因此,一般来说,设问语句是一个单元结构的基本语句,因为一个设问语句一般代表了一个提问。如前述可知,“一句式题目”由于无法分割条件和设问,该“一句式题目”单独组成一个单元结构,因此可以当作只有一个设问语句。当然,在除“一句式题目”外,针对其他数学题目,一般可以获得多个短句,这些短句中一般至少包括“条件语句”和“设为语句”,因此,一般的单元结构均以条件语句+设问语句的标准组合结构。即在一个可选的实施方式中,单元结构还包括至少一条条件语句。当然,在提取出的一个单元结构中,可以包含多条有效的条件语句和有效的设问语句,以便后面进行组合。
步骤S105,对单元结构中包含的语句按照预设的规则进行组合,获得至少一条语句组合。具体来说,本发明的最终目的是将题目文本从形式上转化为以“条件语句+设问语句”为单位的语句组合,每个语句组合可以视为一个分题目。因此,在经历上述的文本清洗步骤和转化步骤后,需要对题目文本进行进行重构和梳理,最终获得语句组合。首先按照清洗后的文本分割符号以及标点符号将语句进行初步分割,保留并标记语句顺序,然后结合上面步骤中对语句属性的判断结果,删除其中的冗余语句。在某些实施方式中,还根据需要对语句进行补充,例如,如果题型为选择题且题干中出现序号文本,根据前后文本是否出现旁白语句进行判断是条件文本还是选项文本;若是条件文本则不拆分,若是选项文本则根据序号进行拆分,序号文本与拆分后的选项文本分别组合成若干题。如果是解答题题干中出现序号文本判断为条件文本,如果是多问解答题出现小问分小问,则对小问先进行拆分补充文本,再和题干进行分别组合成若干题。
此外,针对选择题题目文本结构为题干+选项时,在去除冗余语句后,按以下几种情况分别进行处理:
情况1、题干文本为条件语句,选项文本为设问语句,形成“条件语句+设问语句”的分割组合结构;
情况2、题干文本为条件语句,选项文本为条件语句+设问语句,则选项文本的设问语句作为设问语句,其它作为条件语句,形成“条件语句+设问语句”的分割组合结构;
情况3、题干文本为条件语句+设问语句,选项文本为条件语句,则题干文本中的设问语句和选项文本中条件语句作为设问语句,形成“条件语句+设问语句”的分割组合结构;
情况4、题干文本为条件语句+旁白语句,选项文本为条件语句,则选项文本的条件语句作为设问语句,其它作为条件语句,形成“条件语句+设问语句”的分割组合结构;
情况5、题干文本为条件语句+旁白语句,选项文本为条件语句+设问语句,则选项文本的设问语句作为设问语句,其它作为条件语句,形成“条件语句+设问语句”的分割组合结构;
情况6、题干文本为旁白语句,选项文本为条件语句+设问语句,则选项文本的设问语句作为设问语句,其它作为条件语句,形成“条件语句+设问语句”的分割组合结构;
情况7、题干文本为旁白语句,选项文本为条件语句,则标记为一句式题目;
情况8、题干文本为条件语句+设问语句+旁白语句,选项文本为条件语句,则题干文本为条件语句作为条件语句,其它作为设问语句,形成“条件语句+设问语句”的分割组合结构。
本发明提供的基于数学语义逻辑关系的高中数学题目的分割方法,充分挖掘了数学题目的语言逻辑关系,具有很强的可解释性。通过对数学题目的清洗和逻辑重构,可以将数学题目内在的逻辑关系清晰地展示出来,将题目从形式上转化为以“条件语句+设问语句”为单位,以分句为基本成分的组合体,这样就可以很容易地将题目进行形式分割,并为题目的语义理解提供了有效的支持。本发明提出了数学题目的精细分割形式,将题目分割为多个分问题题目,分题目中每一部分由条件和设问组成,利用题目分割算法模型从形式上实现了题目的逻辑分割和重组,最大程度保存并强化了题目的特征信息,从而使文本的语义理解更加精准。
此外,此种方式的分割模式具有很强的学科解释性,这使得题目分割的算法模型的构建和训练更加方便容易,并且可以在后期的实践过程中,根据结果反馈持续优化。本发明提供的准确有效的题目分割方法可以为后续的命名实体识别、指代消解和知识点识别提供有效的基础保障,为高中数学题目的多种NLP任务提供了可靠的基础支持。
本实施例还提供一种基于数学语义逻辑关系的高中数学题目的分割系统,如图2所示,包括:
判断模块201,用于获取数学题目文本,并根据数学题目文本判断数学题目的题型;具体来说,本发明可以使用数学题目的原始文本(即包含题干文本和原始数学公式的文本类型),也可以使用已经将公式文本化的文本(即包含题干文本和公式文本的文本类型),具体以实际应用场景而定。数学题目的题型可以包括选择题、解答题和填空题等基本的题型,不同的题型可能会包含不同的文本特征,例如选择题中经常出现A、B、C、D的选项,通过预先判断数学题目的题型,有利于后续对文本进行标准化处理。
文本清洗模块202,用于根据数学题目的题型的不同,选择对应的文本清洗标准对数学题目文本中的分割符号进行格式化处理,并得到至少一个短句;具体来说,根据题型(选择题、填空题、解答题等)的不同,文本中包含的分隔符号也不同,例如选择题中经常出现A、B、C、D的选项分割符号,而解答题中经常出现(1)、(2)、(3)、(4)等断句分割符号。在判断出题目的题型后,针对不同的题型选择不同的标准对文本进行筛选过滤,可以快速识别出分割符号,对题目文本进行快速的断句。在本发明中,可以将选项A、B、C、D以及文本序号统一清洗为统一的标准格式,例如,可以将选项转化为解答题中的(1)、(2)、(3)、(4)分问句成分。如果题目文本中出现多处(1)、(2)、(3)、(4)等序号,还需要根据所出现的位置进行区分后统一编排。
分类模块203,用于根据每个短句在数学题目文本中所处的位置以及所包含的特征关键词,判断出每个短句的属性类型,其中,短句的属性类型至少包括:设问语句,设问语句为包含有设问特征关键词的短句;具体来说,数学题目文本中的短句一般具有不同的作用,按照短句在题目文本的位置及作用,可以将题目文本内容分为“旁白语句”、“条件语句”、“设问语句”、“冗余语句”,“一句式题目”等类别。在本实施例中,一个题目中最重要的是“设问语句”,因此“设问语句”是必不可少的。而在一些特殊的题目中甚至只有“设问语句”,例如“一句式题目”类型的题目。一句式题目判断方法是指:当整个题目为无法直接分割条件、设问的单语句时,该题目为“一句式题目”,一句式题目整体作为一个设问语句,比如“求函数f(x)=x^2+2*x的单调递增区间”。一般来说,设问语句判断方法是指:题干或者选项中最后三句的语句首字为“所以、则、即、故、右推、得、那么、求、证”等设问特征关键词的语句为设问语句。此外,填空题中出现“填空线”的语句也为设问语句。
在一个可选的实施方式中,至少一个短句包含多个短句;短句的属性类型还包括:条件语句,条件语句为包含有条件特征关键词的短句。具体来说,多个短句被分割符号分割而成,条件语句判断方法是指:语句首字为“若、已知、设”等条件特征关键词的语句,以及非“旁白语句、设问语句、冗余语句、一句式题目”的语句为条件语句。条件语句是一个题目中的重要组成部分,通常需要根据条件语句来求得设问语句部分的答案。
在一个可选的实施方式中,短句的属性类型还包括:冗余语句,冗余语句为不包含任何特征关键词的短句;分割系统还包括:删除模块,用于在分类模块判断出每个短句的属性类型之后,删除冗余语句。具体来说,冗余语句一般不包含关键信息,因此为避免题目文本冗余,可以删除冗余语句。冗余语句的具体判断方法是指:只有文本序号或者语句中为文本序号+判断词的语句为冗余语句。
在一个可选的实施方式中,短句的属性类型还包括:旁白语句,旁白语句为包含有旁白特征关键词的短句或者同时包含旁白特征关键词和设问特征关键词的短句。具体来说,旁白语句判断方法是指:出现“下列说法”、“下列命题”、“下列结论”、“下列判断”等旁白特征关键词的语句,或者选择题题干文本最后语句出现“是()、有()、为()”的语句为旁白语句。此外,设问特征关键词与旁白特征关键词同时存在一个语句中时可以判定语句为旁白语句。
单元结构提取模块204,用于从至少一个短句中提取出至少一个单元结构,单元结构至少包含一条设问语句;具体来说,本发明的一个单元结构代表数学题目的一个问题或分题目。因此,一般来说,设问语句是一个单元结构的基本语句,因为一个设问语句一般代表了一个提问。如前述可知,“一句式题目”由于无法分割条件和设问,该“一句式题目”单独组成一个单元结构,因此可以当作只有一个设问语句。当然,在除“一句式题目”外,针对其他数学题目,一般可以获得多个短句,这些短句中一般至少包括“条件语句”和“设为语句”,因此,一般的单元结构均以条件语句+设问语句的标准组合结构。即在一个可选的实施方式中,单元结构还包括至少一条条件语句。当然,在提取出的一个单元结构中,可以包含多条有效的条件语句和有效的设问语句,以便后面进行组合。
组合模块205,用于对单元结构中包含的语句按照预设的规则进行组合,获得至少一条语句组合。具体来说,本发明的最终目的是将题目文本从形式上转化为以“条件语句+设问语句”为单位的语句组合,每个语句组合可以视为一个分题目。因此,在经历上述的文本清洗步骤和转化步骤后,需要对题目文本进行进行重构和梳理,最终获得语句组合。首先按照清洗后的文本分割符号以及标点符号将语句进行初步分割,保留并标记语句顺序,然后结合上面步骤中对语句属性的判断结果,删除其中的冗余语句。在某些实施方式中,还根据需要对语句进行补充,例如,如果题型为选择题且题干中出现序号文本,根据前后文本是否出现旁白语句进行判断是条件文本还是选项文本;若是条件文本则不拆分,若是选项文本则根据序号进行拆分,序号文本与拆分后的选项文本分别组合成若干题。如果是解答题题干中出现序号文本判断为条件文本,如果是多问解答题出现小问分小问,则对小问先进行拆分补充文本,再和题干进行分别组合成若干题。
此外,针对选择题题目文本结构为题干+选项时,在去除冗余语句后,按以下几种情况分别进行处理:
情况1、题干文本为条件语句,选项文本为设问语句,形成“条件语句+设问语句”的分割组合结构;
情况2、题干文本为条件语句,选项文本为条件语句+设问语句,则选项文本的设问语句作为设问语句,其它作为条件语句,形成“条件语句+设问语句”的分割组合结构;
情况3、题干文本为条件语句+设问语句,选项文本为条件语句,则题干文本中的设问语句和选项文本中条件语句作为设问语句,形成“条件语句+设问语句”的分割组合结构;
情况4、题干文本为条件语句+旁白语句,选项文本为条件语句,则选项文本的条件语句作为设问语句,其它作为条件语句,形成“条件语句+设问语句”的分割组合结构;
情况5、题干文本为条件语句+旁白语句,选项文本为条件语句+设问语句,则选项文本的设问语句作为设问语句,其它作为条件语句,形成“条件语句+设问语句”的分割组合结构;
情况6、题干文本为旁白语句,选项文本为条件语句+设问语句,则选项文本的设问语句作为设问语句,其它作为条件语句,形成“条件语句+设问语句”的分割组合结构;
情况7、题干文本为旁白语句,选项文本为条件语句,则标记为一句式题目;
情况8、题干文本为条件语句+设问语句+旁白语句,选项文本为条件语句,则题干文本为条件语句作为条件语句,其它作为设问语句,形成“条件语句+设问语句”的分割组合结构。
本发明提供的基于数学语义逻辑关系的高中数学题目的分割系统,充分挖掘了数学题目的语言逻辑关系,具有很强的可解释性。通过对数学题目的清洗和逻辑重构,可以将数学题目内在的逻辑关系清晰地展示出来,将题目从形式上转化为以“条件语句+设问语句”为单位,以分句为基本成分的组合体,这样就可以很容易地将题目进行形式分割,并为题目的语义理解提供了有效的支持。本发明提出了数学题目的精细分割形式,将题目分割为多个分问题题目,分题目中每一部分由条件和设问组成,利用题目分割算法模型从形式上实现了题目的逻辑分割和重组,最大程度保存并强化了题目的特征信息,从而使文本的语义理解更加精准。
此外,此种方式的分割模式具有很强的学科解释性,这使得题目分割的算法模型的构建和训练更加方便容易,并且可以在后期的实践过程中,根据结果反馈持续优化。本发明提供的准确有效的题目分割方法可以为后续的命名实体识别、指代消解和知识点识别提供有效的基础保障,为高中数学题目的多种NLP任务提供了可靠的基础支持。
图3提供了一个本发明应用实例的具体流程图,用于展示针对数学题目进行分割的具体应用。
此外,本发明还提供一个数学题目的分割的示例,具体如下所述。
数学题目的文本如下(本示例中的数学公式已经转化为公式文本):
已知函数【函数_是一元二次_f】;(1)、求【抽象函数_y_f】在区间【区间】上的最大值和最小值;(2)、若【函数间相等关系_含一次_含一次式_含参_g_f】在【区间】上是单调函数;求【参数】的取值范围?
从题目文本可以看出,“已知函数【函数_是一元二次_f】”为题干的条件语句;形式上题干还包含“(1)、(2)”两个分问句,且“(2)”中含有局部的条件语句“若【函数间相等关系_含一次_含一次式_含参_g_f】在【区间】上是单调函数”。
按照本发明提出的分割逻辑,需要将该题目分成(1)、(2)两个分题目,且分别识别出每一部分的条件语句和设问语句并进行分割重组,重组之后的题目形式如下:
分句一:
条件:“已知函数【函数_是一元二次_f】”;
设问:“(1)、求【抽象函数_y_f】在区间【区间】上的最大值和最小值”;
分句二:
条件:“已知函数【函数_是一元二次_f】;(2)、若【函数间相等关系_含一次_含一次式_含参_g_f】在【区间】上是单调函数”;
设问:“求【参数】的取值范围?”
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。
Claims (8)
1.基于数学语义逻辑关系的高中数学题目的分割方法,其特征在于,包括:
获取数学题目文本,并根据所述数学题目文本判断所述数学题目的题型,通过预先判断数学题目的题型,有利于后续对文本进行标准化处理,所述数学题目文本包括原始文本和公式文本化文本;
根据所述数学题目的题型的不同,选择对应的文本清洗标准对所述数学题目文本中的分割符号进行格式化处理,并得到至少一个短句,根据题型的不同,文本中包含的分隔符号也不同,所述分割符号具体为选项分割符号、断句分割符号;
根据每个所述短句在所述数学题目文本中所处的位置以及所包含的特征关键词,判断出每个所述短句的属性类型,所述属性类型分为旁白语句、条件语句、设问语句、冗余语句、一句式题目,其中,所述短句的属性类型至少包括:设问语句,所述设问语句为包含有设问特征关键词的短句;
从所述至少一个短句中提取出至少一个单元结构,所述单元结构至少包含一条所述设问语句;
对所述单元结构中包含的语句按照预设的规则进行组合,获得至少一条语句组合,将题目文本从形式上转化为以“条件语句+设问语句”为单位的语句组合,每个语句组合视为一个分题目。
2.根据权利要求1所述的方法,其特征在于,所述至少一个短句包含多个短句;
所述短句的属性类型还包括:条件语句,所述条件语句为包含有条件特征关键词的短句;
所述单元结构还包括至少一条所述条件语句。
3.根据权利要求1所述的方法,其特征在于,所述短句的属性类型还包括:冗余语句,所述冗余语句为不包含任何特征关键词的短句;
在判断出每个所述短句的属性类型之后,所述方法还包括:删除所述冗余语句。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述短句的属性类型还包括:旁白语句,所述旁白语句为包含有旁白特征关键词的短句或者同时包含所述旁白特征关键词和所述设问特征关键词的短句。
5.基于数学语义逻辑关系的高中数学题目的分割系统,其特征在于,包括:
判断模块,用于获取数学题目文本,并根据所述数学题目文本判断所述数学题目的题型,通过预先判断数学题目的题型,有利于后续对文本进行标准化处理,所述数学题目文本包括原始文本和公式文本化文本;
文本清洗模块,用于根据所述数学题目的题型的不同,选择对应的文本清洗标准对所述数学题目文本中的分割符号进行格式化处理,并得到至少一个短句,根据题型的不同,文本中包含的分隔符号也不同,所述分割符号具体为选项分割符号、断句分割符号;
分类模块,用于根据每个所述短句在所述数学题目文本中所处的位置以及所包含的特征关键词,判断出每个所述短句的属性类型,所述属性类型分为旁白语句、条件语句、设问语句、冗余语句、一句式题目,其中,所述短句的属性类型至少包括:设问语句,所述设问语句为包含有设问特征关键词的短句;
单元结构提取模块,用于从所述至少一个短句中提取出至少一个单元结构,所述单元结构至少包含一条所述设问语句;
组合模块,用于对所述单元结构中包含的语句按照预设的规则进行组合,获得至少一条语句组合,将题目文本从形式上转化为以“条件语句+设问语句”为单位的语句组合,每个语句组合视为一个分题目。
6.根据权利要求5所述的分割系统,其特征在于,所述至少一个短句包含多个短句;
所述短句的属性类型还包括:条件语句,所述条件语句为包含有条件特征关键词的短句;
所述单元结构还包括至少一条所述条件语句。
7.根据权利要求5所述的分割系统,其特征在于,所述短句的属性类型还包括:冗余语句,所述冗余语句为不包含任何特征关键词的短句;
所述分割系统还包括:删除模块,用于在所述分类模块判断出每个所述短句的属性类型之后,删除所述冗余语句。
8.根据权利要求5至7任一项所述的分割系统,其特征在于,所述短句的属性类型还包括:旁白语句,所述旁白语句为包含有旁白特征关键词的短句或者同时包含所述旁白特征关键词和所述设问特征关键词的短句。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310206242.5A CN116050412B (zh) | 2023-03-07 | 2023-03-07 | 基于数学语义逻辑关系的高中数学题目的分割方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310206242.5A CN116050412B (zh) | 2023-03-07 | 2023-03-07 | 基于数学语义逻辑关系的高中数学题目的分割方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116050412A CN116050412A (zh) | 2023-05-02 |
CN116050412B true CN116050412B (zh) | 2024-01-26 |
Family
ID=86113549
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310206242.5A Active CN116050412B (zh) | 2023-03-07 | 2023-03-07 | 基于数学语义逻辑关系的高中数学题目的分割方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116050412B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117252202B (zh) * | 2023-11-20 | 2024-03-19 | 江西风向标智能科技有限公司 | 高中数学题目中命名实体的构建方法、识别方法和系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004272785A (ja) * | 2003-03-11 | 2004-09-30 | Nippon Hoso Kyokai <Nhk> | 質問応答装置及び質問応答プログラム |
KR20120063442A (ko) * | 2010-12-07 | 2012-06-15 | 에스케이 텔레콤주식회사 | 수학문장의 시맨틱거리 추출 및 시맨틱거리에 의한 수학문장의 분류방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체 |
CN109947923A (zh) * | 2019-03-21 | 2019-06-28 | 江西风向标教育科技有限公司 | 一种基于词向量的初等数学题型自动提取方法及系统 |
CN109992651A (zh) * | 2019-03-14 | 2019-07-09 | 广州智语信息科技有限公司 | 一种问题目标特征自动识别和抽取方法 |
CN111126610A (zh) * | 2019-12-12 | 2020-05-08 | 科大讯飞股份有限公司 | 题目分析方法、装置、电子设备和存储介质 |
WO2020114429A1 (zh) * | 2018-12-07 | 2020-06-11 | 腾讯科技(深圳)有限公司 | 关键词提取模型训练方法、关键词提取方法及计算机设备 |
CN111753553A (zh) * | 2020-07-06 | 2020-10-09 | 北京世纪好未来教育科技有限公司 | 语句类型识别方法、装置、电子设备和存储介质 |
WO2021237934A1 (zh) * | 2020-05-29 | 2021-12-02 | 深圳壹账通智能科技有限公司 | 答案选择方法、装置、计算机设备及计算机可读存储介质 |
CN113742461A (zh) * | 2020-05-28 | 2021-12-03 | 阿里巴巴集团控股有限公司 | 对话系统测试方法和装置、语句改写方法 |
CN115438624A (zh) * | 2022-11-07 | 2022-12-06 | 江西风向标智能科技有限公司 | 数学题目出题意图识别方法、系统、存储介质及设备 |
-
2023
- 2023-03-07 CN CN202310206242.5A patent/CN116050412B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004272785A (ja) * | 2003-03-11 | 2004-09-30 | Nippon Hoso Kyokai <Nhk> | 質問応答装置及び質問応答プログラム |
KR20120063442A (ko) * | 2010-12-07 | 2012-06-15 | 에스케이 텔레콤주식회사 | 수학문장의 시맨틱거리 추출 및 시맨틱거리에 의한 수학문장의 분류방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체 |
WO2020114429A1 (zh) * | 2018-12-07 | 2020-06-11 | 腾讯科技(深圳)有限公司 | 关键词提取模型训练方法、关键词提取方法及计算机设备 |
CN109992651A (zh) * | 2019-03-14 | 2019-07-09 | 广州智语信息科技有限公司 | 一种问题目标特征自动识别和抽取方法 |
CN109947923A (zh) * | 2019-03-21 | 2019-06-28 | 江西风向标教育科技有限公司 | 一种基于词向量的初等数学题型自动提取方法及系统 |
CN111126610A (zh) * | 2019-12-12 | 2020-05-08 | 科大讯飞股份有限公司 | 题目分析方法、装置、电子设备和存储介质 |
CN113742461A (zh) * | 2020-05-28 | 2021-12-03 | 阿里巴巴集团控股有限公司 | 对话系统测试方法和装置、语句改写方法 |
WO2021237934A1 (zh) * | 2020-05-29 | 2021-12-02 | 深圳壹账通智能科技有限公司 | 答案选择方法、装置、计算机设备及计算机可读存储介质 |
CN111753553A (zh) * | 2020-07-06 | 2020-10-09 | 北京世纪好未来教育科技有限公司 | 语句类型识别方法、装置、电子设备和存储介质 |
WO2022007723A1 (zh) * | 2020-07-06 | 2022-01-13 | 北京世纪好未来教育科技有限公司 | 语句类型识别方法、装置、电子设备和存储介质 |
CN115438624A (zh) * | 2022-11-07 | 2022-12-06 | 江西风向标智能科技有限公司 | 数学题目出题意图识别方法、系统、存储介质及设备 |
Non-Patent Citations (2)
Title |
---|
VQS: Linking Segmentations to Questions and Answers for Supervised Attention in VQA and Question-Focused Semantic Segmentation;Chuang Gan 等;《2017 IEEE International Conference on Computer Vision (ICCV)》;全文 * |
一种基于图文理解的电路题目自动解答方法;菅朋朋;何彬;王彦丽;夏盟;;通信技术(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116050412A (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109684448B (zh) | 一种智能问答方法 | |
JP6842167B2 (ja) | 要約生成装置、要約生成方法及びコンピュータプログラム | |
CN106649783B (zh) | 一种同义词挖掘方法和装置 | |
CN111090736B (zh) | 问答模型的训练方法、问答方法、装置及计算机存储介质 | |
US20050027664A1 (en) | Interactive machine learning system for automated annotation of information in text | |
CN113806550A (zh) | 个性化知识图谱的生成方法、装置及计算机设备 | |
CN117217315B (zh) | 一种利用大语言模型生成高质量问答数据的方法及装置 | |
CN114564912B (zh) | 一种文档格式智能检查校正方法及系统 | |
CN116050412B (zh) | 基于数学语义逻辑关系的高中数学题目的分割方法和系统 | |
Wadud et al. | Text coherence analysis based on misspelling oblivious word embeddings and deep neural network | |
CN100361124C (zh) | 用于词分析的系统和方法 | |
CN116881425A (zh) | 一种通用型文档问答实现方法、系统、设备及存储介质 | |
Glaser et al. | Sentence Boundary Detection in German Legal Documents. | |
Xiong et al. | Linguistically Motivated Statistical Machine Translation | |
CN117473054A (zh) | 基于知识图谱的通用智能问答方法及装置 | |
CN111813927A (zh) | 一种基于主题模型和lstm的句子相似度计算方法 | |
CN111930959B (zh) | 用于图谱知识生成文本的方法与装置 | |
CN110807316B (zh) | 一种汉语选词填空方法 | |
CN110853635B (zh) | 语音识别方法、音频标注方法、计算机设备、存储装置 | |
CN115759087B (zh) | 中文分词的方法、装置及电子设备 | |
Deforche et al. | A Hierarchical Orthographic Similarity Measure for Interconnected Texts Represented by Graphs | |
CN117332754A (zh) | 一种高中数学公式指代消解的方法和系统 | |
JP3783053B2 (ja) | 負の例予測処理方法、処理プログラムおよび処理装置、負の例予測処理を用いた日本語表記誤り検出処理プログラムおよび処理装置、ならびに負の例予測処理を用いた外の関係検出処理プログラムおよび処理装置 | |
CN116595192B (zh) | 科技前沿信息获取方法、装置、电子设备和可读存储介质 | |
CN112487160B (zh) | 技术文档溯源方法及装置、计算机设备、计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |