CN109783787A

CN109783787A - 一种结构化文档的生成方法、装置及存储介质

Info

Publication number: CN109783787A
Application number: CN201811640368.9A
Authority: CN
Inventors: 张海勇
Original assignee: Yuanguang Software Co Ltd
Current assignee: Yuanguang Software Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-05-21

Abstract

本申请公开了一种结构化文档的生成方法、装置及存储介质，该方法包括获取预设格式的待处理财务制度文档，对待处理财务制度文档进行段落划分处理，将待处理财务制度文档划分为以段落为单元的段落文本；获取段落文本对应的关键词；将关键词作为指令信息、将关键词对应的段落文本作为知识信息输入至预设的文档模板，以生成结构化文档。通过上述方案，可实现快速将财务制度文档转换为结构文档，节省人力成本。

Description

一种结构化文档的生成方法、装置及存储介质

技术领域

本申请涉及文档处理领域，特别是涉及一种结构化文档的生成方法、装置及存储介质。

背景技术

在企业单位的日常管理中，会有各种各样的财务方面制度文件或决策文件产生，且会随着企业单位的发展修改或更新，如何快速将这些财务方面的制度文件快速有效有条理地导入至企业知识库是企业目前面临的困难。而在现有技术中，则多是采用人工进行抽取和编辑，然后输入至企业知识库中，由于这样会占用大量的人力，且由于人工处理过程中完全靠人工操作是会有较高出错风险，故需要一种可以解决上述技术问题的方案。

发明内容

本申请主要解决的技术问题是提供一种可快速生成结构化文档的方法。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种结构化文档的生成方法，所述方法包括：

获取预设格式的待处理财务制度文档；

对所述待处理财务制度文档进行段落划分处理，将所述待处理财务制度文档划分为以段落为单元的段落文本；

获取所述段落文本对应的关键词；

将所述关键词作为指令信息、将所述关键词对应的所述段落文本作为知识信息输入至预设的文档模板，以生成结构化文档。

为解决上述技术问题，本申请采用的另一个技术方案是，提供一种结构化文档的生成装置，所述装置包括相互连接的处理器和存储器；

其中，所述存储器用于存储程序数据；

所述处理器用于运行所述程序数据，以执行如上所述的结构化文档的生成方法。

为解决上述技术问题，本申请采用的又一个技术问题是，提供一种存储介质，所述存储介质存储有程序数据，所述程序数据被执行时实现如上所述的结构化文档的生成方法。

以上方案，通过对所获取的待处理财务制度文档进行段落划分处理，以将待处理财务制度文档划分为以段落为单元的段落文本，获取段落文本对应的关键词，将关键词作为指令信息、将关键词对应的段落文本作为知识信息输入至预设的文档模板，生成结构化文档，在此过程中无需人工操作，仅基于机器即可基于财务制度文档快速生成结构化文档，提高了结构化文档的生成效率。

附图说明

图1是本申请一种结构化文档的生成方法一实施例中的流程示意图；

图2是本申请一种结构化文档的生成方法另一实施例中的流程示意图；

图3是本申请一种结构化文档的生成方法又一实施例的流程示意图；

图4是本申请一种结构化文档的生成装置一实施例中的结构示意图；

图5是本申请一种存储介质一实施例中的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是，此处所描述的具体实施例仅用于解释本申请，而非对本申请的限定。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

随着企业财务领域的制度越来越规范，企业对财务制度越来越重视，如何快速地把非结构化的财务制度文档梳理成结构化文档，以导入企业知识库作为企业重要的知识共享服务是当前企业目前面临的困难。而现有技术则多是通过人工进行抽取、编辑、输入，实现将非结构化的财务制度文档转换为结构化文档，这就造成需要投入大量的人力成本。且完全依靠人工操作具有较高的出错风险，故需要一种可以实现快速将财务制度文档转换为结构化文档，也可以保证较高的准确率的方法。

请参见图1，图1为本申请一种结构化文档的生成方法一实施例中的流程示意图。其中，

S110：获取预设格式的待处理财务制度文档。

在当前实施例中，预设格式的待处理财务制度文档为可编辑格式的待处理财务制度文档。在其他实施例中，还可以是获取其他不可编辑格式的财务制度文档，如若获取的是不可编辑格式的财务制度文档时，则会进一步对该财务制度文档进行格式转换处理，以获得预设格式的待处理财务制度文档，具体步骤请参见下文相关实施例中的阐述。其中，待处理财务制度文档所包括的文档内容至少包括文本内容、图片内容、表格内容和数据内容等中的至少一个，可以理解的，在其他实施例中，待处理财务制度文档中还可以包括其他内容。

另外，在当前实施例中，待处理财务制度文档为中文文档，对应的，下文所提及的语料库中对应保存的也是中文财务类的语料内容。可以理解的，在其他实施例中，待处理财务制度文档还可以包括其他类型的语言。其中，语料库中至少会预存有对应当前待处理财务制度文档对应的语言的财务制度方面的语料信息。

S120：对待处理财务制度文档进行段落划分处理，将待处理财务制度文档划分为以段落为单元的段落文本。

在获取到待处理财务制度文档之后，会进一步对待处理财务制度文档进行段落划分处理。其中，对一篇文档进行段落划分处理是指基于设定的划分规则，调用预设的算法工具，对待处理财务制度文档进行划分段落处理，以将待处理财务制度文档划分为以段落为单元的段落文本。

在一实施例中，可基于待处理财务制度文档的原始段落布局，进行简单的段落划分。如一篇待处理财务制度文档包括5个段落，则会基于待处理财务制度文档的结构将每个段落划分为一个段落文本，则一共会得到5个段落文本。

在另一实施例中，则会基于待处理文本中的段落关系词进行段落的划分。如在常规的财务制度文档中，多会出现诸如“第一章”、“第二章”、“第三章”等词，则会将带有上述类型的词语所对应的对应段落划分为一个段落文本，如一包括6个段落的待处理财务制度文档中，还包括“第一章”、“第二章”、“第三章”，则会对应将当前待处理财务制度文档分别划分为三个段落文本，分别为第一章对应的段落文本、第二章对应的段落文本和第三章对应的段落文本。

进一步地，步骤S120包括：调用TexTiling算法，根据语义和/或词频对待处理财务制度文档进行段落划分处理。

其中，TexTiling算法是一种以词汇链为基础的文本分割方法，在当前实施例中以该算法为基础，实现对待处理财务制度文档进行文本分割。可以理解的在其他实施例中，还可以采用最大熵方法、基于词链方法、检查话题边界的方法对待处理财务制度文档进行文本划分。语义指的是一些词语或者组合词语在财务领域中的含义，词频是指的是某一词语在某部分或者是某段落中出现的频次，在当前实施例中对待处财务制度文档的段落划分中会进一步基于设定的规则，参考财务领域的语义以及词频对文档进行划分。如，在一待处理财务制度文档中，如第3至第5段中多次出现“薪资核算”，则可以将第3至第5段划分至同一段落文本中。

进一步地，在其他实施例中，还可以设定对待处理财务制度文档进行多次段落划分，以获取更准确的划分，其中，多次的段落划分中，可以是基于同一预设规则下对待处理财务制度文档进行划分。当然，在其他实施例中，还可以是基于不同的规则对待处理财务制度文档进行划分，然后对不同规则下划分所得的段落文本进行比较，选取划分结果中权重最高的划分结果最为最终的段落划分结果输出。

在又一实施例中，可设定在待处理财务制度文档中所包括的内容较多，划分所得的每个段落文本超出设定长度时，进一步对划分所得的段落文本再次基于语义和/或词频进行划分，以求取每个段落文本中的多个小段落文本。如经过一次段落划分处理后，得到5个段落文本，可以进一步对所得的每个段落文本进行再一次的段落划分，如某一段落文本经过二次的段落划分处理后获得3个小段落文本。

S130：获取段落文本对应的关键词。

在完成对待处理财务制度文本后，会进一步获取段落文本对应的关键词。其中，关键词是指可以代表某一段文本的特征的词语。

进一步地，步骤S130包括：利用TF-IDF算法获取段落文本对应的关键词。

其中，TF-IDF(term frequency–inverse document frequency)算法是一种用于信息检索与数据挖掘的常用加权技术，即是TF*IDF。TF意思是词频(Term Frequency)，表示是某个词语在文档中或者是某段文档中出现的频率，IDF意思是逆文本频率指数(InverseDocument Frequency)，是一个词语的普遍重要性的度量。TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的频率高(即某个词语的TF高)，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。具体地，如果其他文档或者是段落中包含某一词条t越少，也就是包含词条t的文档数n(所包含词条t的文档总数)越小，对应的IDF越大，则说明词条t具有很好的类别区分能力。如果某一文档C中包含词条t的文档数为m，而其它包含t的文档总数为k，显然所有包含t的文档数n＝m+k，当m大的时候，n也大，按照IDF公式得到的IDF的值会小，就说明该词条t类别区分能力不强。但是实际上，如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征，这样的词条应该给它们赋予较高的权重，并选来作为该类文本的特征词以区别与其它类文档。

其中，TF计算公式如下：

以上式子中分子是该词在文档中的出现次数，而分母则是在文档中所有字词的出现次数之和。

某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到，计算公式如下：

其中，|D|：语料库中的文件总数：包含词语的文件数目(即文件数目)如果该词语不在语料库中，就会导致分母为零，因此一般情况下采用1+|{d∈D:t_i∈d}|作为IDF公式的分母。

在基于对应的公式求取IDF和TF之后，然后再计算TF与IDF的乘积，具体地计算公式为(TF-IDF)_i,j＝TF_i,j×IDF_i。

某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语，故基于TF-IDF可以快速求取到重要的、且可以代表当前的段落关键词。

进一步地，在另一实施例中，在步骤S130之前，本申请所提供的方法还包括：利用分词技术和对应财务制度类型的语料库，对段落文本进行分词，以得到段落文本的分词集合。其中，分词技术就是通过对段落文本进行语义解析后，将较长的字符串分为以词为单位的字符串。语料库是预先通过对大量财务领域的文档进行训练、统计获得，当在结构化文档生成过程中，识别到基于当前的语料库无法解读的新词时，可通过人机交互设备显示以提示用户，供用户完善新词的完善。

S140：将关键词作为指令信息、将关键词对应的段落文本作为知识信息输入至预设的文档模板，以生成结构化文档。

其中，文档模版是由用户预先根据需要设定的、且保存指语料库或者其他可以快速访问调用的区域中的文档模版。在分别求得段落文本和关键词后，将关键词作为指令信息、段落文本作为指令信息对应的知识信息，输入指预设的文档模版后，即可生成结构化文档。

进一步地，在其他实施例中，步骤S140之后，本申请所提供的方法还包括：将所得的结构化文档与待处理财务制度文档关联保存，和/或将所得的结构化文档与待处理财务制度文档的历史结构化文档关联保存。其中，关联保存是指通过访问关联保存的其中一者，即可实现访问到关联保存的另外的内容。

在又一实施例中，当待处理财务制度文档存在历史结构化文档时，在获取到用户输入的对比指令后，进一步调取历史结构化文档，生成当前结构化文档和历史结构化文档的对比结构化文档。其中，由于结构化文档中包括关键词和/或关键词对应的段落文本，过可以通过比对两个版本的待处理财务制度文档的结构化文档，即可实现获取到两个不同时期的同一类的财务制度文档做了哪些调整和改动，便于用户可以快速获得的财务制度的变化。

其中，由于财务领域的制度文件较多，有一些财务制度文件是基于企业的发展，后续才颁布产生的，有些财务制度文件则可能是在企业创建之初或更早产生的，故需要通过获取当前待处理财务制度文档的名称，进一步基于待处理财务制度文档的名称判断该财务制度文档是否有对应的历史版本。具体地，是将待处理财务制度文档的名称与数据库中的所保存的财务制度文档进行比对，当存有可匹配的文档名称时，则可判断当前待处理财务制度文档有历史版本，并将判断结果输出以告知用户。

其中，随着企业管理的不断完善，或者是国家对于财务制度或者财务知识的不断完善，对于某些专业名词会不断进行调整更正。故在结构化文档生成的过程中，会基于关键词识别获取做了调整和改进的词语，并保存完善对应的词义和相关内容。

本实施例提供的技术方案，通过对所获取的待处理财务制度文档进行段落划分处理，以将待处理财务制度文档划分为以段落为单元的段落文本后，再获取段落文本对应的关键词，将关键词作为指令信息、将关键词对应的段落文本作为知识信息输入至预设的文档模板，生成结构化文档，相比于现有技术中完全依靠人工完成财务制度文档到结构化文档的转换，在此过程中无需人工操作，仅基于机器即可完成基于财务制度文档快速生成结构化文档，提高了结构化文档的生成效率。

请参见图2，图2为本申请一种结构化文档的生成方法另一实施例中的流程示意图。其中，

S210：获取初始财务制度文档。

具体地，初始财务制度文档是指非预设格式的财务制度文档，即是不可进行编辑的格式的财务类的文档，如可以是PDF格式的财务制度文档或扫描所得的JPG格式的财务制度文档。可以理解的，在其他实施例中，初始财务制度文档还可以包括其他格式的财务制度文档。

其中，在当前实施例中获取初始财务制度文档可以是由与结构化文档生成装置连接的获取设备获取，该获取设备用于获取初始财务制度文档，暂存初始财务制度文档。在当前实施例中，获取设备还用于判断初始财务制度文档是否是待处理的财务制度文档，并将判断结果反馈至结构化文档生成设备。

可以理解的，在其他实施例中，对于初始财务制度文档的判断操作是由结构化文档生成装置执行。获取设备在结构化文档生成装置的控制下，将初始财务制度文档的属性信息上传至结构化文档生成装置，以用于判断初始财务制度文档是否是待处理财务制度文档，并在判断当前初始财务制度文档是待处理财务制度文档后，在结构化文档生成装置的控制下，上传该文档至结构化生成装置。

进一步地，在其他实施例中，在步骤获取初始财务制度文档时，还会基于文档的名称，或者是摘要等初步判断该文档是否是财务类的文档。如，当一篇文档的名称为“关于节能减排的通知”，基于文档名称即可判断该文档不是财务类的文档，则会终止生成该文档的结构化文档，并输出提醒用户该文档为非财务类的文档。又或者是基于文档名称判断文档是否是可基于本案进行结构化处理的文档，如当一初始财务制度文档的文件名称为“xxx.mpg”基于文件名称的后缀名“mpg”可以判断当前文档为视频格式，故可以得知当前文档不是初始财务制度文档。

S220：基于初始财务制度文档的属性信息判断初始财务制度文档是否是待处理财务制度文档。

其中，属性信息包括文档的格式、文档的名称、文档的类型中至少一项。可以理解的，在其他实施例中，初始财务制度的属性信息还可以包括其他内容。

当判断初始财务制度文档是待处理财务制度文档时，则会执行步骤S230，以获取预设格式的待处理财务制度文档。当判断初始财务制度文档不是待处理财务制度文档时，则会终止对于当前初始财务制度文档的结构化处理，不再执行步骤S220之后的所有步骤，结束当前循环流程。

S230：获取预设格式的待处理财务制度文档。

进一步地，请参见图3，在当前实施例中步骤获取预设格式的待处理财务制度文档可包括步骤S301至步骤S303所述的步骤。

图3为本申请一种结构化文档的生成方法又一实施例的流程示意图。其中，

S301：接收初始财务制度文档。

在判断初始结构化文档为待处理财务制度文档之后，结构化文档生成装置进一步接收获取装置上传的初始财务制度文档。在当前实施例中，通过设置与结构化文档生成装置，可以较好地实现减少结构文档生成装置的数据处理压力。

S302：判断待处理财务制度文档内容类型。其中，文档内容类型包括：文本类型、图片类型和表格类型，可以理解的，在其他实施例中文档内容类型还可以包括其他类型。

判断待处理财务制度文档内容类型，其中，在步骤S302中是对财务制度文档中的主要内容类型进行判断。

S303：基于待处理财务制度文档的文档内容类型，提取初始财务制度文档中的文本信息和/或数据信息，并输出为预设格式的待处理财务制度文档。其中，如上所述预设格式待处理财务制度文档为字符串格式的财务制度文档。

在一实施例中，当判断待处理财务制度文档的文档内容类型为文本类型，则只需要提取待处理财务制度文档的文本内容即可，无需保留原有文本的格式，统一选用字符串格式。

在另一实施例中，当判断待处理财务制度文档的文档内容类型中包括图片内容或者是图片内容时，可选用标识图片。在其他实施例中，也可以采用OCR(Optical CharacterRecognition)识别技术提取图片中的文字，并输出为字符串格式的待处理财务制度文档。

在又一实施例中，当判断待处理财务制度文档为表格类型的文档或者是包括表格类型时，则可以提取表格中的数据信息，无需保留表格。当在其他实施例中表格包括的内容不是数据信息时，则提取的是表格中的内容，并不限定仅仅提取数据信息。

S240：调用TexTiling算法，根据语义和/或词频对待处理财务制度文档进行段落划分处理，以将待处理财务制度文档划分为以段落为单元的段落文本。

S250：获取段落文本对应的关键词。

S260：将关键词作为指令信息、将关键词对应的段落文本作为知识信息输入至预设的文档模板，以生成结构化文档。

在当前实施例中，步骤S240～步骤S260与图1所述实施例中的步骤S120至步骤S140步骤或S120至步骤S140对应的其他实施例中的步骤相同，具体请参见上文，在此不再赘述。

进一步地，在区别于图1和图2所述的实施例中，当所获取的待处理财务制度文档为中文时，可根据实际的需要，在结构化文档的生成之后，对照所得的中文结构化文档，生成预设外文的结构化文档，这样当对应该语言的用户需要了解当前财务制度文档时，则可以直接调用对应的外文结构化文档。其中，预设外文所包括的类别是由用户设定，具体设定规则参照当前企业及其分公司员工的常用语言。如一家企业下设有美国，德国的分公司时，对应的会在生成结构化文档时分别对应生成英语和德语结构化文档。

在又一实施例中，本申请所提供的方案还可对财务制度文档进行批次处理。如，一家企业下设多家分公司，同时对该多家分公司的财务制度进行调整，但是不同的分公司对应的财务制度文档不同，所以需要同时对各家分公司的财务制度文档进行结构化处理，以生成对应的结构化文档。此时可通过本申请提供的方案依次对多家分公司的财务制度文档进行结构化处理，然后在用户的输出的指令下，可对当前方案下的各个分公司的财务制度文档的结构化文档进行对比，以得到各个分公司的结构化文档的对比文档，可实现快速获取多家分公司财务制度上的区别。

请参见图4，图4为本申请一种结构化文档的生成装置一实施例中的结构示意图。在当前实施例中，本申请所提供的结构化文档的生成装置400包括相互连接的处理器401和存储器402。

其中，存储器402用于存储程序数据。

处理器401用于运行存储器402所存储的程序数据，以执行如图1至图3及其所对应的各个实施例所述的结构化文档的生成方法。

进一步地，请继续参见图4，在另一实施例中，本申请所提供的结构化文档的生成装置还包括人机交互电路403，人机交互电路403与处理器401连接。人机交互电路401用于获取用户的指令，并将用户输入的指令反馈至处理器401，为用户调整文档内容或者输入指令提供接口。人机交互电路403同时还用于在处理器401控制下，显示处理器401输出的内容，如：所获取的初始财务制度文档、待处理财务制度文档、结构化文档等。

参见图5，本申请还提供一种存储介质。图5为本申请一种存储介质一实施例中的结构示意图。该存储介质500存储有程序数据501，该程序数据501被执行时实现如上所述结构化文档的生成方法。具体地，上述具有存储功能的存储介质500可以是存储器、个人计算机、服务器、网络设备，或者U盘等其中的一种。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种结构化文档的生成方法，其特征在于，所述方法包括：

获取预设格式的待处理财务制度文档；

获取所述段落文本对应的关键词；

2.根据权利要求1所述的方法，其特征在于，

所述获取所述段落文本对应的关键词包括：

利用TF-IDF算法获取所述段落文本对应的关键词。

3.根据权利要求1所述的方法，其特征在于，

所述对所述待处理财务制度文档进行段落划分处理包括：

调用TexTiling算法，根据语义和/或词频对所述待处理财务制度文档进行段落划分处理。

4.根据权利要求1所述的方法，其特征在于，

所述获取所述段落文本对应的关键词之前，包括：

利用分词技术和对应财务制度类型的语料库，对所述段落文本进行分词，以得到所述段落文本的分词集合。

5.根据权利要求1所述的方法，其特征在于，所述获取预设格式的待处理财务制度文档之前，所述方法包括：

获取初始财务制度文档；

基于所述初始财务制度文档的属性信息判断所述初始财务制度文档是否是所述待处理财务制度文档；其中，所述属性信息包括文档的格式、文档的名称、文档的类型中至少一项。

6.根据权利要求5所述的方法，其特征在于，当判断所述初始制度文档为所述待处理财务制度文档后，所述获取预设格式的待处理财务制度文档包括：

接收所述初始财务制度文档；

判断所述待处理财务制度文档的文档内容类型，所述文档内容类型包括：文本类型、图片类型和表格类型；

基于所述待处理财务制度文档的文档内容类型，提取所述初始财务制度文档中的文本信息和/或数据信息，并输出为所述预设格式的所述待处理财务制度文档，其中，所述预设格式为字符串格式。

7.根据权利要求5所述的方法，其特征在于，所述获取预设格式的待处理财务制度文档之后，所述方法还包括：

基于所述文档的名称确定所述待处理财务制度文档的类型，和/或判断所述待处理财务制度文档是否有对应的历史结构化文档，其中，所述文档的类型为预设的文档所属领域中的一个。

8.根据权利要求7所述的方法，其特征在于，当判断所述待处理财务制度文档有对应的历史结构化文档时，在所述生成结构化文档步骤之后，所述方法还包括：

响应用户指令，调取所述历史结构化文档，生成所述结构化文档和所述历史结构化文档的对比结构化文档。

9.一种结构化文档的生成装置，其特征在于，所述装置包括相互连接的处理器和存储器；

其中，所述存储器用于存储程序数据；

所述处理器用于运行所述程序数据，以执行如权利要求1～8任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质存储有程序数据，所述程序数据被执行时实现如权利要求1～8任一项所述的方法。