[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN114065745A - 文档标题树的生成方法、系统、设备及可读存储介质 - Google Patents

文档标题树的生成方法、系统、设备及可读存储介质 Download PDF

Info

Publication number
CN114065745A
CN114065745A CN202111432694.2A CN202111432694A CN114065745A CN 114065745 A CN114065745 A CN 114065745A CN 202111432694 A CN202111432694 A CN 202111432694A CN 114065745 A CN114065745 A CN 114065745A
Authority
CN
China
Prior art keywords
node
tree
vector
node vector
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111432694.2A
Other languages
English (en)
Inventor
王超
李果夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Asset Management Co Ltd
Original Assignee
Ping An Asset Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Asset Management Co Ltd filed Critical Ping An Asset Management Co Ltd
Priority to CN202111432694.2A priority Critical patent/CN114065745A/zh
Publication of CN114065745A publication Critical patent/CN114065745A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文档标题树的生成方法,包括:抽取待解析文档的标题数据,得到每个标题数据对应的节点集合;从节点集合任意选取第一节点,并对第一节点对应的标题数据进行向量化处理,得到第一节点向量;基于第一节点向量构建初始标题树;判断初始标题树是否需要加入新的节点向量;若需要,则从节点集合的剩余节点向量中获取第二节点,并对第二节点进行初始化处理,得到第二节点向量;基于第二节点向量确定是否对初始标题树进行添加边处理;若是,则根据第二节点向量及第一节点向量更新初始标题树,得到更新标题树;判断更新标题树是否需要加入新的节点向量;若不需要,将更新标题树作为目标标题树,以提高文档标题树生成的准确性。

Description

文档标题树的生成方法、系统、设备及可读存储介质
技术领域
本发明实施例涉及数据处理领域,尤其涉及一种文档标题树的生成方法、系统、设备及可读存储介质。
背景技术
自然语言生成(Natural Language Generation,NLG)是自然语言处理领域的重要组成部分,主要实现将语义信息按照一定的语法和语义规则生成人类可以理解的语言表达形式。根据文本的长短,NLG可以分为语句生成和文档生成。文档通常包含标题和段落等两部分。标题之间有一定的层级和归属关系,可以看成是一种树形结构。
和语句结构上不同,标题是一种具有多层级、上下级所属关系和同级关系(并列、递进、转折等)等特点的复杂树形结构,现有的语句解析通常是对语法结构和单词属性进行标注,但标题自身包含语言内容,其解析和标注还涉及语义嵌入等过程,从而导致对标题解析不准确。
发明内容
有鉴于此,本发明实施例的目的是提供一种文档标题树的生成方法、系统、设备及可读存储介质,用以解决现有文档标题树生成不准确的问题。
为实现上述目的,本发明实施例提供了一种文档标题树的生成方法,包括:
抽取待解析文档的标题数据,得到所述待解析文档对应的节点集合,所述节点集合包括多个节点,其中,每个节点对应一条标题数据;
从所述多个节点中选取一个节点作为第一节点,并对所述第一节点对应的标题数据进行向量化处理,得到第一节点向量;
基于所述第一节点向量构建初始标题树;
判断所述初始标题树是否需要加入新的节点向量;
若判断为需要加入新的节点向量,则从所述节点集合的剩余节点中获取第二节点,并对所述第二节点进行初始化处理,得到第二节点向量;
基于所述第二节点向量确定是否对所述初始标题树进行添加边处理;
若是,则根据所述第二节点向量以及所述第一节点向量更新所述初始标题树,得到更新标题树;
判断所述更新标题树是否需要加入新的节点向量;
若判断为不需要加入新的节点向量,则将所述更新标题树确定为目标标题树。
进一步地,所述判断所述更新标题树是否需要加入新的节点向量之后,包括:
若判断出所述更新标题树需要加入新的节点,则返回执行以下步骤:
从所述节点集合的剩余节点中获取第二节点,并对所述第二节点进行初始化处理,得到第二节点向量;
基于所述第二节点向量计算是否对所述初始标题树进行添加边处理;
若是,则根据所述第二节点向量以及所述第一节点向量更新所述初始标题树,得到更新标题树;
判断所述更新标题树是否需要加入新的节点向量。
进一步地,所述判断所述初始标题树是否需要加入新的节点向量包括:
通过预设的映射模型对所述初始标题树进行整合,以得到所述初始标题树的初始标题树向量;
通过所述映射模型的损失函数对映射后的所述初始标题树向量进行计算,得到所述初始标题树的第一概率值;
将所述第一概率值与第一预设阈值进行对比,以判断所述初始标题树是否需要加入新的节点向量。
进一步地,所述对所述第二节点向量进行初始化处理包括:
获取所述第二节点向量在所述待解析文档中的属性信息,并对所述属性信息进行向量化处理,得到属性向量;
基于所述属性向量以及所述初始标题树对所述第二节点向量进行初始化处理。
进一步地,所述基于所述第二节点向量确定是否对所述初始标题树进行添加边处理包括:
基于所述损失函数计算所述第二节点向量与所述初始标题树的第二概率值,所述第二概率值用于表示所述第二节点向量与所述初始标题树之间的关联关系;
将所述第二概率值与第二预设阈值进行对比,以确定是否对所述初始标题树进行添加边处理。
进一步地,所述根据所述第二节点向量以及所述第一节点向量更新所述初始标题树,得到更新标题树包括:
若确定是,则计算所述第一节点向量与所述第二节点向量的第三概率值;
基于所述第三概率值更新所述第一节点向量与所述第二节点向量,得到所述第一节点向量对应的第一更新节点向量与所述第二节点向量对应的第二更新节点向量;
基于所述第一更新节点向量与所述第二更新节点向量更新所述初始标题树,得到更新标题树。
进一步地,所述基于所述第一更新节点向量与所述第二更新节点向量更新所述初始标题树,得到更新标题树之前,包括:
根据所述第三概率值确定所述第一更新节点向量与所述第二更新节点向量之间的边的方向。
为实现上述目的,本发明实施例提供了一种文档标题树的生成系统,包括:
抽取模块,用于抽取待解析文档的标题数据,得到所述待解析文档对应的节点集合,所述节点集合包括多个节点,其中,每个节点对应一条标题数据;
选取模块,用于从所述节点集合选取一个节点作为第一节点,并对所述第一节点对应的标题数据进行向量化处理,得到第一节点向量;
构建模块,用于基于所述第一节点向量构建初始标题树;
第一判断模块,用于判断所述初始标题树是否需要加入新的节点向量;
获取模块,用于若判断为需要加入新的节点向量,则从所述节点集合的剩余节点向量中获取第二节点,并对所述第二节点进行初始化处理,得到第二节点向量;
确定模块,用于基于所述第二节点向量确定是否对所述初始标题树进行添加边处理;
更新模块,用于若是,则根据所述第二节点向量以及所述第一节点向量更新所述初始标题树,得到更新标题树;
第二判断模块,用于判断所述更新标题树是否需要加入新的节点向量;
映射模块,用于若判断为不需要加入新的节点向量,则将所述更新标题树确定为目标标题树。
为实现上述目的,本发明实施例提供了一种计算机设备,所述计算机设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述的文档标题树的生成方法的步骤。
为实现上述目的,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行上述的文档标题树的生成方法的步骤。
本发明实施例提供的文档标题树的生成方法、系统、设备及可读存储介质,通过对待解析文档的标题数据进行标题树的构建,在标题树的构建过程中,基于判断标题树是否需要加入新节点,以将所有节点进行关联计算,当不需要时,表示目标标题树生成完成,当需要时,获取第二节点,并对第二节点进行初始化,得到第二节点向量;进而再基于边的计算判断第二节点向量与第一节点向量是否存在关联关系,若是,则将两者进行关联,再更新第二节点向量与第一节点向量,进而更新标题树,直至将所有节点进行关联计算得到目标标题树。目标标题树生成过程充分整合标题自身信息以及标题之间的关联信息,选取节点向量进行解析时,可以根据需要按照自上而下或者自下而上或其他顺序逐步生成一篇文档所需标题,例如,第一节点向量为第一个层级的任一标题(一般为主标题)或者最后一个层级的任意一个标题(底层标题有多个时),相应的,第二节点向量根据第一节点向量得到,可以为第一节点向量的同级标题、子标题或者父标题,提高了目标标题树生成的准确度。
附图说明
图1为本发明文档标题树的生成方法实施例一的流程图。
图2为本发明文档标题树的生成系统实施例二的程序模块示意图。
图3为本发明计算机设备实施例三的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
参阅图1,示出了本发明实施例一之文档标题树的生成方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备2为执行主体进行示例性描述。具体如下。
步骤S100、抽取待解析文档的标题数据,得到所述待解析文档对应的节点集合,所述节点集合包括多个节点,其中,每个节点对应一条标题数据.
具体地,将待解析文档中的每条标题数据都抽取出来,组成节点集合,边集合根据节点集合计算得到。每个节点与一个标题数据相对应,可以以序列编号的形式将两者进行关联,标题数据在待解析文档中事先从头到尾(自上而下)或者从尾到头(自下而上)进行编号,也可随机进行编号,组成的节点集合的编号与标题数据的编号一致,以将节点与标题数据进行关联。
示例性地,本方案没有对标题内容、标题数目、节点数目等做出限制,因而可以适用于不同主题、不同结构的待解析文档的文档标题生成。
步骤S102、从所述节点集合选取一个节点作为第一节点,并对所述第一节点对应的标题数据进行向量化处理,得到第一节点向量。
具体地,第一节点可以随机进行选取,或者根据层级自上而下、自下而上进行选取,选取的方式不做限制,可以通过语义嵌入模型对第一节点对应的标题数据进行语义解析,得到第一节点向量。其中,语义嵌入模型为BERT模型(semantic embedding模型),可以理解为采用semantic embedding模型将每个标题文本信息转换为数值信息。
步骤S104、基于所述第一节点向量构建初始标题树。
具体地,预先定义标题树表达式为T=(V,E),其中V、E分别为节点集合和边集合。当前标题树中的节点i对应的节点向量为hi,其中i∈V。在获取每一个节点向量hi的基础上,结合一定的权重系数wv,可以得到整个当前标题树的向量表示hT
hT=∑i∈Vwv⊙hi
⊙是逻辑运算符,表示同或运算,即两个输入变量值相同时hT=1,不同时为0。
hT通过映射模型映射到输出空间,即为初始标题树,映射模型为神经网络模型或者其他适用模型。
步骤S106、判断所述初始标题树是否需要加入新的节点向量。
具体地,通过映射模型fa将当前状态下的初始标题树所包括的节点向量进行聚合以得到初始标题树的初始树向量,然后采用softmax函数将该初始标题树向量转换为0~1的第一概率值,根据此第一概率值判断是否添加节点,即添加新的节点向量。聚合过程是一种加权求和过程,即给初始标题树每一个节点乘以一个系数,然后相加,得到最终的初始标题树信息。当前的初始标题树包括第一节点向量,系数即为1。
第一概率值pnode的计算公式如下:
pnode(T)=softmax(fa(hT))
其中,fa为Multilayer Perceptron多层感知机模型,fa采用神经网络模型或者其他适用模型。
在示例性地实施例中,所述步骤S106包括:
步骤S106A、通过预设的映射模型对所述初始标题树进行整合,以得到所述初始标题树的初始标题树向量。步骤S106B、通过所述映射模型的损失函数对映射后的所述初始标题树向量进行计算,得到所述初始标题树的第一概率值。步骤S106C、将所述第一概率值与第一预设阈值进行对比,以判断所述初始标题树是否需要加入新的节点向量。
具体地,损失函数为softmax函数,当第一概率值为大于第一预设阈值的时候表示需要,当第一概率值小于第一预设阈值的时候表示不需要。其中,第一预设阈值可以根据实际情况进行灵活设定与调整。
步骤S108、若判断为需要加入新的节点向量,则从所述节点集合的剩余节点向量中获取第二节点,并对所述第二节点进行初始化处理,得到第二节点向量。
具体地,确定初始标题树需要加入新节点后,需要对新节点进行初始化,新节点为第二节点。初始化过程采用的信息包括第二节点对应的标题数据的向量Inode、初始标题树向量
Figure BDA0003380811350000071
以及第二节点的额外信息的额外向量Iother,其他额外信息可以为第二节点的级别、排序等。
Figure BDA0003380811350000072
其中,finit采用神经网络模型或者其他适用模型,
Figure BDA0003380811350000073
为第二节点向量。
进一步地,可以对上述finit模型的给定的输入信息进行扩展,以增加模型的精确度;输入信息不限于,标题的部分信息(级别、排序、约束条件等)。此时,finit模型转化为条件生成模型(conditional generative model)。
进一步地,若判断不需要加入新的节点,则将初始标题树作为目标标题树,结束步骤。
步骤S110、基于所述第二节点向量计算是否对所述初始标题树进行添加边处理。
具体地,通过映射模型fedge将初始标题树向量
Figure BDA0003380811350000081
和新加入的第二节点向量
Figure BDA0003380811350000082
映射到输出空间并经过softmax函数计算,得到是否添加边的第二概率值pedge。可以理解为,将初始标题树向量
Figure BDA0003380811350000083
和新加入的第二节点向量
Figure BDA0003380811350000084
进行整合,再将整合后的值通过softmax函数进行计算,得到第二概率值pedge
Figure BDA0003380811350000085
其中,fedge采用神经网络模型或者其他适用模型。
在示例性地实施例中,所述步骤S110包括:
步骤S110A,基于所述损失函数计算所述第二节点向量与所述初始标题树的第二概率值,所述第二概率值用于表示所述第二节点向量与所述初始标题树之间的关联关系。步骤S110B、将所述第二概率值与第二预设阈值进行对比,以确定是否对所述初始标题树进行添加边处理。
具体地,当第二概率值为大于第二预设阈值的时候表示需要,当第二概率值小于第二预设阈值的时候表示不需要。其中,第二预设阈值可以根据实际情况进行灵活设定与调整。
步骤S112、若是,则根据所述第二节点向量以及所述第一节点向量更新所述初始标题树,得到更新标题树。
具体地,基于第一更新节点向量与第二更新节点向量重新计算初始标题树hT,得到更新标题树h′T
在示例性地实施例中,所述步骤S112包括:
步骤S112A、若确定是,则计算所述第一节点向量与所述第二节点向量的第三概率值。步骤S112B、基于所述第三概率值更新所述第一节点向量与所述第二节点向量,得到所述第一节点向量对应的第一更新节点向量与所述第二节点向量对应的第二更新节点向量。步骤S112C、基于所述第一更新节点向量与所述第二更新节点向量更新所述初始标题树,得到更新标题树。
具体地,计算第二节点向量与第一节点向量之间的关联关系的第三概率值步骤为:
通过映射模型fconnect将现有节点
Figure BDA0003380811350000091
和新加入的第二节点向量
Figure BDA0003380811350000092
映射到输出空间并经过softmax函数得到是否添加边的第三概率值pconnect
Figure BDA0003380811350000093
其中,fconnect采用神经网络模型或者其他适用模型。
当第三概率值pconnect大于第三预设阈值时,将第二节点向量与初始节点向量进行关联。其中,第三预设阈值可以根据实际情况进行灵活设定与调整。
基于节点自身信息和其他节点信息进行迭代从而更新节点向量。节点向量初始值hi,可以采用语义嵌入模型(semantic embedding模型)向量化处理得到,并结合其余节点向量hj以及两节点之间的边i_j的特征向量hi_j,特征向量hi_j可以基于边相关信息得到,例如同级节点信息、子节点信息、父节点信息等。通过关系计算函数fprop计算得到节点之间关系,并通过更新函数fupdate更新节点向量,得到第一更新节点向量与第二更新节点向量,公式为:
Figure BDA0003380811350000094
Figure BDA0003380811350000095
其中,fprop和fupdate可采用神经网络模型或者其他适用模型,
Figure BDA0003380811350000096
可以表示第一更新节点向量或者第二更新节点向量。
再将,第一更新节点向量与第二更新节点向量进行关联,得到更新标题树。
在示例性地实施例中,所述步骤S112之前,包括:
根据所述第三概率值确定所述第一更新节点向量与所述第二更新节点向量之间的边的方向。
具体地,基于第三概率值pconnect的范围判断第二节点向量与初始节点向量之间边的方向。
步骤S114、判断所述更新标题树是否需要加入新的节点向量。
具体地,依据上述映射模型fnode重新计算第一概率值,以判断是否需要入新的节点。当第一概率值为大于第一预设阈值的时候表示需要,当第一概率值小于第一预设阈值的时候表示不需要。
步骤S116、若判断为不需要加入新的节点向量,则将所述更新标题树确定为目标标题树。
具体地,若判断出不需要加入新的节点,则表示节点集合中的节点都进行关联起来了,通过映射模型基于更新标题树的标题树向量表达式进行映射,得到目标标题树。模型充分整合标题自身信息以及标题之间的关联信息,可以根据需要按照自上而下或者自下而上或其他顺序逐步生成一篇文档所需标题。该模型没有对标题内容、标题数目、节点数目等做出限制,因而可以适用于不同主题、不同结构的文档标题生成。同时,该模型允许在标题树生成过程中灵活地加入额外信息以辅助生成流程。
在示例性地实施例中,所述步骤S114之后,包括:
步骤S120、若判断出所述更新标题树需要加入新的节点,则返回执行步骤S122~步骤S128。步骤S122、从所述节点集合的剩余节点中获取第二节点,并对所述第二节点进行初始化处理,得到第二节点向量。步骤S124、基于所述第二节点向量计算是否对所述初始标题树进行添加边处理。步骤S126、若是,则根据所述第二节点向量以及所述第一节点向量更新所述初始标题树,得到更新标题树。步骤S128、判断所述更新标题树是否需要加入新的节点向量。
具体地,若判断需要加入新的节点向量,则重复执行步骤S120~步骤S128,直至,判断出不需要加入节点向量。
通过对待解析文档的标题数据进行标题树的构建,在标题树的构建过程中,基于判断标题树是否需要加入新节点,以将所有节点进行关联计算,当不需要时,表示目标标题树生成完成,当需要时,获取第二节点向量,并对第二节点向量进行初始化;进而再基于边的计算判断第二节点向量与第一节点向量是否存在关联关系,若是,则将两者进行关联,再更新第二节点向量与第一节点向量,进而更新标题树,直至将所有节点进行关联计算得到目标标题树。目标标题树生成过程充分整合标题自身信息以及标题之间的关联信息,选取节点向量进行解析时,可以根据需要按照自上而下或者自下而上或其他顺序逐步生成一篇文档所需标题,例如,第一节点向量为第一个层级的任一标题(一般为主标题)或者最后一个层级的任意一个标题(底层标题有多个时),相应的,第二节点向量根据第一节点向量得到,可以为第一节点向量的同级标题、子标题或者父标题,提高了目标标题树生成的准确度。该方法没有对标题内容、标题数目、节点数目等做出限制,因而可以适用于不同主题、不同结构的文档标题生成。同时,该方法许在标题树生成过程中灵活地加入额外信息以辅助生成流程。
实施例二
请继续参阅图2,示出了本发明文档标题树的生成系统实施例二的程序模块示意图。在本实施例中,文档标题树的生成系统20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述文档标题树的生成方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述文档标题树的生成系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
抽取模块200,用于抽取待解析文档的标题数据,得到所述待解析文档对应的节点集合,所述节点集合包括多个节点,其中,每个节点对应一条标题数据。
选取模块202,用于从从所述节点集合选取一个节点作为第一节点,并对所述第一节点对应的标题数据进行向量化处理,得到第一节点向量。
构建模块,用于基于所述第一节点向量构建初始标题树。
第一判断模块206,用于判断所述初始标题树是否需要加入新的节点向量。
在示例性地实施例中,所述第一判断模块206还可以用于:
通过预设的映射模型对所述初始标题树进行整合,以得到所述初始标题树的初始标题树向量。通过所述映射模型的损失函数对映射后的所述初始标题树向量进行计算,得到所述初始标题树的第一概率值。将所述第一概率值与第一预设阈值进行对比,以判断所述初始标题树是否需要加入新的节点向量。
获取模块208,用于若判断为需要加入新的节点向量,则从所述节点集合的剩余节点向量中获取第二节点,并对所述第二节点进行初始化处理,得到第二节点向量。
第一确定模块210,用于基于所述第二节点向量确定是否对所述初始标题树进行添加边处理。
在示例性地实施例中,所述第一确定模块210还可以用于:
基于所述损失函数计算所述第二节点向量与所述初始标题树的第二概率值,所述第二概率值用于表示所述第二节点向量与所述初始标题树之间的关联关系;将所述第二概率值与第二预设阈值进行对比,以确定是否对所述初始标题树进行添加边处理。
更新模块212,用于若是,则根据所述第二节点向量以及所述第一节点向量更新所述初始标题树,得到更新标题树。
在示例性地实施例中,所述更新模块212还可以用于:
若确定是,则计算所述第一节点向量与所述第二节点向量的第三概率值;基于所述第三概率值更新所述第一节点向量与所述第二节点向量,得到所述第一节点向量对应的第一更新节点向量与所述第二节点向量对应的第二更新节点向量;基于所述第一更新节点向量与所述第二更新节点向量更新所述初始标题树,得到更新标题树。
第二判断模块214,用于判断所述更新标题树是否需要加入新的节点向量。
第二确定模块216,用于若判断为不需要加入新的节点向量,则将所述更新标题树确定为目标标题树。
在示例性地实施例中,所述文档标题树的生成系统还包括:
循环模块218(图中未示出),用于若判断出所述更新标题树需要加入新的节点,则返回执行:
从所述节点集合的剩余节点中获取第二节点,并对所述第二节点进行初始化处理,得到第二节点向量。基于所述第二节点向量计算是否对所述初始标题树进行添加边处理。若是,则根据所述第二节点向量以及所述第一节点向量更新所述初始标题树,得到更新标题树。判断所述更新标题树是否需要加入新的节点向量。
实施例三
参阅图3,是本发明实施例三之计算机设备的硬件架构示意图。本实施例中,所述计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图3所示,所述计算机设备2至少包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及文档标题树的生成系统20。其中:
本实施例中,存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如实施例二的文档标题树的生成系统20的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行文档标题树的生成系统20,以实现实施例一的文档标题树的生成方法。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述服务器2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述服务器2与外部终端相连,在所述服务器2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(Wideband CodeDivision Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。需要指出的是,图3仅示出了具有部件20-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器21中的所述文档标题树的生成系统20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。
例如,图2示出了所述实现文档标题树的生成系统20实施例二的程序模块示意图,该实施例中,所述文档标题树的生成系统20可以被划分为所述抽取模块200、所述选取模块202、所述构建模块204、所述第一判断模块206、所述获取模块208、所述第一确定模块210、所述更新模块212、所述第二判断模块214以及所述第二确定模块216。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述文档标题树的生成系统20在所述计算机设备2中的执行过程。所述程序模块200-216的具体功能在实施例二中已有详细描述,在此不再赘述。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于计算机程序,被处理器执行时实现实施例一的文档标题树的生成方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种文档标题树的生成方法,其特征在于,包括:
抽取待解析文档的标题数据,得到所述待解析文档对应的节点集合,所述节点集合包括多个节点,其中,每个节点对应一条标题数据;
从所述多个节点中选取一个节点作为第一节点,并对所述第一节点对应的标题数据进行向量化处理,得到第一节点向量;
基于所述第一节点向量构建初始标题树;
判断所述初始标题树是否需要加入新的节点向量;
若判断为需要加入新的节点向量,则从所述节点集合的剩余节点中获取第二节点,并对所述第二节点进行初始化处理,得到第二节点向量;
基于所述第二节点向量确定是否对所述初始标题树进行添加边处理;
若是,则根据所述第二节点向量以及所述第一节点向量更新所述初始标题树,得到更新标题树;
判断所述更新标题树是否需要加入新的节点向量;
若判断为不需要加入新的节点向量,则将所述更新标题树确定为目标标题树。
2.根据权利要求1所述的文档标题树的生成方法,其特征在于,所述判断所述更新标题树是否需要加入新的节点向量之后,包括:
若判断出所述更新标题树需要加入新的节点,则返回执行以下步骤:
从所述节点集合的剩余节点中获取第二节点,并对所述第二节点进行初始化处理,得到第二节点向量;
基于所述第二节点向量计算是否对所述初始标题树进行添加边处理;
若是,则根据所述第二节点向量以及所述第一节点向量更新所述初始标题树,得到更新标题树;
判断所述更新标题树是否需要加入新的节点向量。
3.根据权利要求1所述的文档标题树的生成方法,其特征在于,所述判断所述初始标题树是否需要加入新的节点向量包括:
通过预设的映射模型对所述初始标题树进行整合,以得到所述初始标题树的初始标题树向量;
通过所述映射模型的损失函数对映射后的所述初始标题树向量进行计算,得到所述初始标题树的第一概率值;
将所述第一概率值与第一预设阈值进行对比,以判断所述初始标题树是否需要加入新的节点向量。
4.根据权利要求3所述的文档标题树的生成方法,其特征在于,所述对所述第二节点向量进行初始化处理包括:
获取所述第二节点向量在所述待解析文档中的属性信息,并对所述属性信息进行向量化处理,得到属性向量;
基于所述属性向量以及所述初始标题树对所述第二节点向量进行初始化处理。
5.根据权利要求4所述的文档标题树的生成方法,其特征在于,所述基于所述第二节点向量确定是否对所述初始标题树进行添加边处理包括:
基于所述损失函数计算所述第二节点向量与所述初始标题树的第二概率值,所述第二概率值用于表示所述第二节点向量与所述初始标题树之间的关联关系;
将所述第二概率值与第二预设阈值进行对比,以确定是否对所述初始标题树进行添加边处理。
6.根据权利要求5所述的文档标题树的生成方法,其特征在于,所述根据所述第二节点向量以及所述第一节点向量更新所述初始标题树,得到更新标题树包括:
若确定是,则计算所述第一节点向量与所述第二节点向量的第三概率值;
基于所述第三概率值更新所述第一节点向量与所述第二节点向量,得到所述第一节点向量对应的第一更新节点向量与所述第二节点向量对应的第二更新节点向量;
基于所述第一更新节点向量与所述第二更新节点向量更新所述初始标题树,得到更新标题树。
7.根据权利要求6所述的文档标题树的生成方法,其特征在于,所述基于所述第一更新节点向量与所述第二更新节点向量更新所述初始标题树,得到更新标题树之前,包括:
根据所述第三概率值确定所述第一更新节点向量与所述第二更新节点向量之间的边的方向。
8.一种文档标题树的生成系统,其特征在于,包括:
抽取模块,用于抽取待解析文档的标题数据,得到所述待解析文档对应的节点集合,所述节点集合包括多个节点,其中,每个节点对应一条标题数据;
选取模块,用于从所述节点集合选取一个节点作为第一节点,并对所述第一节点对应的标题数据进行向量化处理,得到第一节点向量;
构建模块,用于基于所述第一节点向量构建初始标题树;
第一判断模块,用于判断所述初始标题树是否需要加入新的节点向量;
获取模块,用于若判断为需要加入新的节点向量,则从所述节点集合的剩余节点向量中获取第二节点,并对所述第二节点进行初始化处理,得到第二节点向量;
第一确定模块,用于基于所述第二节点向量确定是否对所述初始标题树进行添加边处理;
更新模块,用于若是,则根据所述第二节点向量以及所述第一节点向量更新所述初始标题树,得到更新标题树;
第二判断模块,用于判断所述更新标题树是否需要加入新的节点向量;
第二确定模块,用于若判断为不需要加入新的节点向量,则将所述更新标题树确定为目标标题树。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-7中任一项所述的文档标题树的生成方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如权利要求1-7中任一项所述的文档标题树的生成方法的步骤。
CN202111432694.2A 2021-11-29 2021-11-29 文档标题树的生成方法、系统、设备及可读存储介质 Pending CN114065745A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111432694.2A CN114065745A (zh) 2021-11-29 2021-11-29 文档标题树的生成方法、系统、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111432694.2A CN114065745A (zh) 2021-11-29 2021-11-29 文档标题树的生成方法、系统、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN114065745A true CN114065745A (zh) 2022-02-18

Family

ID=80277025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111432694.2A Pending CN114065745A (zh) 2021-11-29 2021-11-29 文档标题树的生成方法、系统、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN114065745A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909537A (zh) * 2017-02-07 2017-06-30 中山大学 一种基于主题模型和向量空间的一词多义分析方法
CN111460083A (zh) * 2020-03-31 2020-07-28 北京百度网讯科技有限公司 文档标题树的构建方法、装置、电子设备及存储介质
WO2021135469A1 (zh) * 2020-06-17 2021-07-08 平安科技(深圳)有限公司 基于机器学习的信息抽取方法、装置、计算机设备及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909537A (zh) * 2017-02-07 2017-06-30 中山大学 一种基于主题模型和向量空间的一词多义分析方法
CN111460083A (zh) * 2020-03-31 2020-07-28 北京百度网讯科技有限公司 文档标题树的构建方法、装置、电子设备及存储介质
WO2021135469A1 (zh) * 2020-06-17 2021-07-08 平安科技(深圳)有限公司 基于机器学习的信息抽取方法、装置、计算机设备及介质

Similar Documents

Publication Publication Date Title
CN110263152B (zh) 基于神经网络的文本分类方法、系统及计算机设备
US11328171B2 (en) Image retrieval method and apparatus
EP3796176A1 (en) Fault root cause analysis method and apparatus
CN110750965B (zh) 英文文本序列标注方法、系统及计算机设备
CN110704588A (zh) 基于长短期记忆网络的多轮对话语义分析方法和系统
US9875319B2 (en) Automated data parsing
CN110909160A (zh) 正则表达式生成方法、服务器及计算机可读存储介质
CN110659667A (zh) 图片分类模型训练方法、系统和计算机设备
KR101706300B1 (ko) 기술용어 개념계층도 생성 장치 및 방법
CN110609952B (zh) 数据采集方法、系统和计算机设备
CN114238575A (zh) 文档解析方法、系统、计算机设备及计算机可读存储介质
CN113254649A (zh) 敏感内容识别模型的训练方法、文本识别方法及相关装置
CN114021541A (zh) 演示文稿生成方法、装置、设备及存储介质
CN110442843B (zh) 字符替换方法、系统、计算机设备及计算机可读存储介质
CN110866007B (zh) 大数据应用和表的信息管理方法、系统和计算机设备
CN114860894A (zh) 知识库的查询方法、装置、计算机设备和存储介质
CN114065745A (zh) 文档标题树的生成方法、系统、设备及可读存储介质
CN110781404B (zh) 好友关系链匹配方法、系统、计算机设备及可读存储介质
CN112989066A (zh) 数据处理方法和装置、电子设备、计算机可读介质
WO2019041529A1 (zh) 新闻主体企业识别方法、电子设备及计算机可读存储介质
CN112685574B (zh) 领域术语层次关系的确定方法、装置
CN112307235B (zh) 前端页面元素的命名方法、装置及电子设备
CN111309854B (zh) 一种基于文章结构树的文章评价方法及系统
CN115270777A (zh) 一种合同文件信息抽取方法、装置、系统
CN114969349A (zh) 文本处理方法、装置、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination