CN111488741A - 一种税收知识数据语义标注方法及相关装置 - Google Patents
一种税收知识数据语义标注方法及相关装置 Download PDFInfo
- Publication number
- CN111488741A CN111488741A CN202010291485.XA CN202010291485A CN111488741A CN 111488741 A CN111488741 A CN 111488741A CN 202010291485 A CN202010291485 A CN 202010291485A CN 111488741 A CN111488741 A CN 111488741A
- Authority
- CN
- China
- Prior art keywords
- tax
- semantic
- labeling
- result
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000002372 labelling Methods 0.000 claims abstract description 90
- 238000013075 data extraction Methods 0.000 claims abstract description 5
- 238000004590 computer program Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 abstract description 8
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000008901 benefit Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种税收知识数据语义标注方法,包括:通过预设路径获取税收法规文件数据;根据文件结构对所述税收法规文件数据进行数据提取处理,得到税收规则信息;根据关系三元组结构对所述税收规则信息中的实体概念和关系进行语义标注,得到语义标注结果。通过预先设定的关系三元组结构对税收法规文件数据进行语义标注,避免对专家意见的依赖,提高了标注结果的准确性和规范性。本申请还公开了一种税收知识数据语义标注装置、服务器以及计算机可读存储介质,具有以上有益效果。
Description
技术领域
本申请涉及计算机技术领域,特别涉及一种税收知识数据语义标注方法、税收知识数据语义标注装置、服务器以及计算机可读存储介质。
背景技术
知识图谱是一个大规模的语义网络,语义网络包含的是实体、概念以及二者之间各种各样的语义关系。与某某百科这样的通用知识图谱不同,领域知识图谱针对某一个领域,涵盖的内容更深入。比如税收知识图谱,里面大都是和税收有关的实体和概念。我们常用三元组来表示领域知识图谱。知识表示定义了领域的基本认知框架,明确领域有哪些基本的概念,概念之间有哪些基本的语义关联。比如增值税小规模纳税人与增值税之间的关系可以是免征税款关系,这是税收优惠领域的基本知识之一。
现有技术中,由于领域内的知识专业性强,依靠计算机直接挖掘出信息的结果非常不准确,实现门槛较高。因此,目前比较常见的知识表示做法还是依赖大量人工,由领域专家提供一批领域专用名词的叙词表来进行领域实体挖掘;同时根据三元组的结构标注一部分知识内的关系,再根据启发式规则,将这部分关系扩展到其他可能有类似关系的数据里。可见,现有技术中不仅效率较低,在数据标注的过程中还容易出现人工加入的错误。
因此,如何降低知识标注过程中对专家的依赖,并提高知识标注结果的准确性和规范性是本领域技术人员关注的重点问题。
发明内容
本申请的目的是提供一种税收知识数据语义标注方法、税收知识数据语义标注装置、服务器以及计算机可读存储介质,通过预先设定的关系三元组结构对税收法规文件数据进行语义标注,避免对专家意见的依赖,提高了标注结果的准确性和规范性。
为解决上述技术问题,本申请提供一种税收知识数据语义标注方法,包括:
通过预设路径获取税收法规文件数据;
根据文件结构对所述税收法规文件数据进行数据提取处理,得到税收规则信息;
根据关系三元组结构对所述税收规则信息中的实体概念和关系进行语义标注,得到语义标注结果。
可选的,还包括:
根据属性三元组结构对所述税收规则信息中的实体概念和属性进行语义标注,得到属性标注结果;
将所述属性标注结果添加至所述语义标注结果中。
可选的,还包括:
根据所述税收法规文件数据对所述语义标注结果中的实体概念进行来源标注,得到知识源标注结果;
根据所述税收法规文件数据对所述语义标注结果中的实体概念进行期限标注,得到有效期标注结果;
将所述知识源标注结果和所述有效期标注结果添加至所述语义标注结果中。
可选的,根据关系三元组结构对所述税收规则信息中的实体概念和关系进行语义标注,得到语义标注结果,包括:
根据语义数据库对所述税收规则信息进行关键词提取处理,得到多个实体概念和多个关系;
根据所述关系三元组结构对所述多个实体概念和所述多个关系设置对应关系,得到所述语义标注结果。
本申请还提供一种税收知识数据语义标注装置,包括:
原始数据获取模块,用于通过预设路径获取税收法规文件数据;
有效信息获取模块,用于根据文件结构对所述税收法规文件数据进行数据提取处理,得到税收规则信息;
语义标注处理模块,用于根据关系三元组结构对所述税收规则信息中的实体概念和关系进行语义标注,得到语义标注结果。
可选的,还包括:
属性标注处理模块,用于根据属性三元组结构对所述税收规则信息中的实体概念和属性进行语义标注,得到属性标注结果;
属性标注添加模块,用于将所述属性标注结果添加至所述语义标注结果中。
可选的,还包括:
知识源标注模块,用于根据所述税收法规文件数据对所述语义标注结果中的实体概念进行来源标注,得到知识源标注结果;
有效期标注模块,用于根据所述税收法规文件数据对所述语义标注结果中的实体概念进行期限标注,得到有效期标注结果;
标注添加模块,用于将所述知识源标注结果和所述有效期标注结果添加至所述语义标注结果中。
可选的,所述语义标注处理模块,包括:
关键词提取模块,用于根据语义数据库对所述税收规则信息进行关键词提取处理,得到多个实体概念和多个关系;
关系标注模块,用于根据所述关系三元组结构对所述多个实体概念和所述多个关系设置对应关系,得到所述语义标注结果。
本申请还提供一种服务器,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上所述的税收知识数据语义标注方法的步骤。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的税收知识数据语义标注方法的步骤。
本申请所提供的一种税收知识数据语义标注方法,包括:通过预设路径获取税收法规文件数据;根据文件结构对所述税收法规文件数据进行数据提取处理,得到税收规则信息;根据关系三元组结构对所述税收规则信息中的实体概念和关系进行语义标注,得到语义标注结果。
通过预设路径获取到税收法规文件数据,然后再从该税收法规文件数据中提取到有效的税收规则信息,也就是从非结构数据中获取到用于判断税收知识中实体关系之间的关系,最后根据关系三元组结构对税收规则信息中的实体概念和关系进行语义标注得到最后的语义标注结果,实现了直接从税收法规文件中获取到标识关系之间的数据,而不是从专家经验中获取到实体概念之间的关系,提高了知识标注结果的准确性和规范性。
本申请还提供一种税收知识数据语义标注装置、服务器以及计算机可读存储介质,具有以上有益效果,在此不做赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的一种税收知识数据语义标注方法的流程图;
图2为本申请实施例所提供的一种税收知识数据语义标注装置的结构示意图。
具体实施方式
本申请的核心是提供一种税收知识数据语义标注方法、税收知识数据语义标注装置、服务器以及计算机可读存储介质,通过预先设定的关系三元组结构对税收法规文件数据进行语义标注,避免对专家意见的依赖,提高了标注结果的准确性和规范性。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
现有技术中,由于领域内的知识专业性强,依靠计算机直接挖掘出信息的结果非常不准确,实现门槛较高。因此,目前比较常见的知识表示做法还是依赖大量人工,由领域专家提供一批领域专用名词的叙词表来进行领域实体挖掘;同时根据三元组的结构标注一部分知识内的关系,再根据启发式规则,将这部分关系扩展到其他可能有类似关系的数据里。可见,现有技术中不仅效率较低,在数据标注的过程中还容易出现人工加入的错误。
因此,本申请提供了一种税收知识数据语义标注方法,通过预设路径获取到税收法规文件数据,然后再从该税收法规文件数据中提取到有效的税收规则信息,也就是从非结构数据中获取到用于判断税收知识中实体关系之间的关系,最后根据关系三元组结构对税收规则信息中的实体概念和关系进行语义标注得到最后的语义标注结果,实现了直接从税收法规文件中获取到标识关系之间的数据,而不是从专家经验中获取到实体概念之间的关系,提高了知识标注结果的准确性和规范性。
请参考图1,图1为本申请实施例所提供的一种税收知识数据语义标注方法的流程图。
本实施例中,该方法可以包括:
S101,通过预设路径获取税收法规文件数据;
本步骤旨在通过预设路径获取到税收法规文件数据。其中,预设路径可以是国家税务总局的网站,也可以是各地区税务局网站,还可以是税务信息发布源。获取到的就是税务相关的各种税收法规的公告文件。将公告文件内容获取后即为本步骤中的税收法规文件数据。
S102,根据文件结构对税收法规文件数据进行数据提取处理,得到税收规则信息;
在S101的基础上,本步骤旨在根据文件结构对税收法规文件数据进行数据提取处理,得到税收规则信息。本步骤主要作用是提出税收法规文件数据中的无用信息,只保留对语义标注有用的有效信息。由于税收法规文件数据的文章结构大部分为固定结构,例如,一般在开头和结尾处会加入本文件的生效期和可能废止的已有文件。基于此类规则,可以通过正则表达式将税收法规文件数据中有效的信息提取出来,得到税收规则信息。
S103,根据关系三元组结构对税收规则信息中的实体概念和关系进行语义标注,得到语义标注结果。
在S102的基础上,本步骤旨在根据提前设计好的关系三元组结构对税收规则信息中的实体概念和关系进行语义标书,得到语义标注结果。
知识标注需要能够标注出实体\概念和关系。概念一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。以“对月销售额10万元以下(含本数)的增值税小规模纳税人,免征增值税。”这个句子为例,‘增值税小规模纳税人’和‘增值税’都是概念。根据税务专家的经验,在税收优惠领域知识图谱中,概念可以选择的一定是某种纳税人或者某种税。
对于‘增值税小规模纳税人’和‘增值税’这两个概念,‘免征’即为二者之间的关系,也就是具体的税收优惠政策,可以归纳形成概念—>关系—>概念这样的关系三元组;税收优惠知识图谱中的关系一定是某个纳税人和某种税之间的税收优惠关系,税收优惠关系则总共分为两种:减征税款和免征税款,具体的实施场景和条件是不同的。
可选的,S103可以包括:
步骤1,根据语义数据库对税收规则信息进行关键词提取处理,得到多个实体概念和多个关系;
步骤2,根据关系三元组结构对多个实体概念和多个关系设置对应关系,得到语义标注结果。
可见,本可选方案主要是对如何获取到语义标注结果进行说明。具体来说,本可选方案中主要是先从税收规则信息中提取出关键词,也就是从税收规则信息信息中提取出多个概念还有多个关系。最后再根据预设的关系三元组结构将有关的实体概念以及关系之间设置对应关系,也就是得到关系三元组,即实体概念-关系-实体概念的关系,作为最后的与已标注结果。
可选的,本实施例还可以包括:
根据属性三元组结构对税收规则信息中的实体概念和属性进行语义标注,得到属性标注结果;
将属性标注结果添加至语义标注结果中。
同上一可选方案,本可选方案中主要是根据属性三元组结构进行语义标注,得到实体概念-属性-属性值的关系,作为属性标注结果。最后并添加至语义标注结果中。
可选的,本实施例还可以包括:
根据税收法规文件数据对语义标注结果中的实体概念进行来源标注,得到知识源标注结果;
根据税收法规文件数据对语义标注结果中的实体概念进行期限标注,得到有效期标注结果;
将知识源标注结果和有效期标注结果添加至语义标注结果中。
可见,通过本可选方案还可以标注出每个实体概念的知识源以及有效期。
综上,本实施例通过预设路径获取到税收法规文件数据,然后再从该税收法规文件数据中提取到有效的税收规则信息,也就是从非结构数据中获取到用于判断税收知识中实体关系之间的关系,最后根据关系三元组结构对税收规则信息中的实体概念和关系进行语义标注得到最后的语义标注结果,实现了直接从税收法规文件中获取到标识关系之间的数据,而不是从专家经验中获取到实体概念之间的关系,提高了知识标注结果的准确性和规范性。
以下通过另一具体的实施例,对本申请提供的一种税收知识数据语义标注方法做进一步说明。
本实施例中,该方法可以包括
步骤1:税收法规获取
在国家税务总局的网站上,提供了财务部、税务总局各种税收法规的公告文件。因此,可以通过网络爬虫将涉及到税收优惠的公告网页的内容复制下来,存储成word文档。
步骤2:基于规则的信息抽取
本步骤目的是减少人工需要阅读的文档量。
由于税收法规的文章结构大部分是有固定格式的,比如一般在开头和结尾处会描写本文件的生效期和可能废止的已有文件,以及分段描述不同纳税人的不同税种适应的优惠。基于这些规则,用正则表达式将信息抽取出来,并将文档提取成分段的文本,以供下一步处理。
步骤3:标注模版
对于税收优惠知识图谱,知识来源是国家的政策法规,没有从事税务行业经验的人很难直接解读。因此,结合知识图谱的三元组建设需求和税收优惠领域知识源的具体情况,制定了税收优惠的知识标注模版。
为便于理解,本实施例以财税【2019】13号文件,一个小型微利企业普惠性税收优惠政策为例。
知识标注需要能够标注出实体\概念和关系。概念一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。以“对月销售额10万元以下(含本数)的增值税小规模纳税人,免征增值税。”这个句子为例,‘增值税小规模纳税人’和‘增值税’都是概念。根据税务专家的经验,在税收优惠领域知识图谱中,概念可以选择的一定是某种纳税人或者某种税。
对于‘增值税小规模纳税人’和‘增值税’这两个概念,‘免征’即为二者之间的关系,也就是具体的税收优惠政策,可以归纳形成概念—>关系—>概念这样的关系三元组;税收优惠知识图谱中的关系一定是某个纳税人和某种税之间的税收优惠关系,税收优惠关系则总共分为两种:减征税款和免征税款,具体的实施场景和条件是不同的。
此外,“上述小型微利企业是指从事国家非限制和禁止行业,且同时符合年度应纳税所得额不超过300万元、从业人数不超过300人、资产总额不超过5000万元等三个条件的企业。”这句话中,‘是指’后面的描述是对小型微利企业的定义,这句话是一种“A的定义是B”的关系,可以归纳形成概念—>属性—>属性值这样的属性三元组。
最后,由于税务领域的特殊性,每个税收法规发布时,都会写明其有效日期,也可能会废止之前的某些政策法规,因而每个概念和关系的来源必须可以追溯,需要对知识源进行特殊管理,在模版中,我们也提出了知识源标注。
综上,我们构建的税收优惠知识图谱标注模版,分为属性三元组标注、关系三元组标注和知识源标注。
以财税【2019】13号文件为例。
步骤3.1:属性三元组标注
概念为某种纳税人或者某种税种,属性则是文档中涉及到的属性,属性值为这些属性应该有的值。同时,每个概念必须也标出这个概念的来源知识源。
表1属性三元组示意表
步骤3.2:关系三元组标注
税收优惠领域的关系一定是在纳税人概念和税种概念之间,关系只有两种:减征税款和免征税款,关系的具体场景和条件各不相同。此外,关系也必须标注出来源。
表2关系三元组示意表
步骤3.3:知识源标注
对于每个作为知识源的税收法规,其要么定义了一些实体\概念,要么定义了一些关系,同时,它还会包含有效期和废止了哪些别的税收法规文件,这些都将在模版中标注出来。
表3知识源标注示意表
表4有效期标注示意表
在完成模版的填写后,也就完成了税收法规的知识标注,可以进行后续的知识图谱建设工作。
可见,该实施例可以通过预设路径获取到税收法规文件数据,然后再从该税收法规文件数据中提取到有效的税收规则信息,也就是从非结构数据中获取到用于判断税收知识中实体关系之间的关系,最后根据关系三元组结构对税收规则信息中的实体概念和关系进行语义标注得到最后的语义标注结果,实现了直接从税收法规文件中获取到标识关系之间的数据,而不是从专家经验中获取到实体概念之间的关系,提高了知识标注结果的准确性和规范性。
下面对本申请实施例提供的税收知识数据语义标注装置进行介绍,下文描述的税收知识数据语义标注装置与上文描述的税收知识数据语义标注方法可相互对应参照。
请参考图2,图2为本申请实施例所提供的一种税收知识数据语义标注装置的结构示意图。
本实施例中,该装置可以包括:
原始数据获取模块100,用于通过预设路径获取税收法规文件数据;
有效信息获取模块200,用于根据文件结构对税收法规文件数据进行数据提取处理,得到税收规则信息;
语义标注处理模块300,用于根据关系三元组结构对税收规则信息中的实体概念和关系进行语义标注,得到语义标注结果。
可选的,该装置还可以包括:
属性标注处理模块,用于根据属性三元组结构对税收规则信息中的实体概念和属性进行语义标注,得到属性标注结果;
属性标注添加模块,用于将属性标注结果添加至语义标注结果中。
可选的,该装置还可以包括:
知识源标注模块,用于根据税收法规文件数据对语义标注结果中的实体概念进行来源标注,得到知识源标注结果;
有效期标注模块,用于根据税收法规文件数据对语义标注结果中的实体概念进行期限标注,得到有效期标注结果;
标注添加模块,用于将知识源标注结果和有效期标注结果添加至语义标注结果中。
可选的,该语义标注处理模块300,可以包括:
关键词提取模块,用于根据语义数据库对税收规则信息进行关键词提取处理,得到多个实体概念和多个关系;
关系标注模块,用于根据关系三元组结构对多个实体概念和多个关系设置对应关系,得到语义标注结果。
本申请实施例还提供一种服务器,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如以上实施例所述的税收知识数据语义标注方法的步骤。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如以上实施例所述的税收知识数据语义标注方法的步骤。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的一种税收知识数据语义标注方法、税收知识数据语义标注装置、服务器以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
Claims (10)
1.一种税收知识数据语义标注方法,其特征在于,包括:
通过预设路径获取税收法规文件数据;
根据文件结构对所述税收法规文件数据进行数据提取处理,得到税收规则信息;
根据关系三元组结构对所述税收规则信息中的实体概念和关系进行语义标注,得到语义标注结果。
2.根据权利要求1所述的税收知识数据语义标注方法,其特征在于,还包括:
根据属性三元组结构对所述税收规则信息中的实体概念和属性进行语义标注,得到属性标注结果;
将所述属性标注结果添加至所述语义标注结果中。
3.根据权利要求1所述的税收知识数据语义标注方法,其特征在于,还包括:
根据所述税收法规文件数据对所述语义标注结果中的实体概念进行来源标注,得到知识源标注结果;
根据所述税收法规文件数据对所述语义标注结果中的实体概念进行期限标注,得到有效期标注结果;
将所述知识源标注结果和所述有效期标注结果添加至所述语义标注结果中。
4.根据权利要求1所述的税收知识数据语义标注方法,其特征在于,根据关系三元组结构对所述税收规则信息中的实体概念和关系进行语义标注,得到语义标注结果,包括:
根据语义数据库对所述税收规则信息进行关键词提取处理,得到多个实体概念和多个关系;
根据所述关系三元组结构对所述多个实体概念和所述多个关系设置对应关系,得到所述语义标注结果。
5.一种税收知识数据语义标注装置,其特征在于,包括:
原始数据获取模块,用于通过预设路径获取税收法规文件数据;
有效信息获取模块,用于根据文件结构对所述税收法规文件数据进行数据提取处理,得到税收规则信息;
语义标注处理模块,用于根据关系三元组结构对所述税收规则信息中的实体概念和关系进行语义标注,得到语义标注结果。
6.根据权利要求5所述的税收知识数据语义标注装置,其特征在于,还包括:
属性标注处理模块,用于根据属性三元组结构对所述税收规则信息中的实体概念和属性进行语义标注,得到属性标注结果;
属性标注添加模块,用于将所述属性标注结果添加至所述语义标注结果中。
7.根据权利要求5所述的税收知识数据语义标注装置,其特征在于,还包括:
知识源标注模块,用于根据所述税收法规文件数据对所述语义标注结果中的实体概念进行来源标注,得到知识源标注结果;
有效期标注模块,用于根据所述税收法规文件数据对所述语义标注结果中的实体概念进行期限标注,得到有效期标注结果;
标注添加模块,用于将所述知识源标注结果和所述有效期标注结果添加至所述语义标注结果中。
8.根据权利要求5所述的税收知识数据语义标注装置,其特征在于,所述语义标注处理模块,包括:
关键词提取模块,用于根据语义数据库对所述税收规则信息进行关键词提取处理,得到多个实体概念和多个关系;
关系标注模块,用于根据所述关系三元组结构对所述多个实体概念和所述多个关系设置对应关系,得到所述语义标注结果。
9.一种服务器,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至4任一项所述的税收知识数据语义标注方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的税收知识数据语义标注方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010291485.XA CN111488741A (zh) | 2020-04-14 | 2020-04-14 | 一种税收知识数据语义标注方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010291485.XA CN111488741A (zh) | 2020-04-14 | 2020-04-14 | 一种税收知识数据语义标注方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111488741A true CN111488741A (zh) | 2020-08-04 |
Family
ID=71795003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010291485.XA Pending CN111488741A (zh) | 2020-04-14 | 2020-04-14 | 一种税收知识数据语义标注方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111488741A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114706993A (zh) * | 2022-02-23 | 2022-07-05 | 税友信息技术有限公司 | 一种文本实体链接方法、系统、电子设备及存储介质 |
CN115063216A (zh) * | 2022-06-23 | 2022-09-16 | 平安银行股份有限公司 | 基于规则引擎的智慧报税方法、计算机设备及存储介质 |
Citations (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101639840A (zh) * | 2008-07-29 | 2010-02-03 | 华天清 | 网络信息语义结构识别方法和装置 |
CN102023986A (zh) * | 2009-09-22 | 2011-04-20 | 日电(中国)有限公司 | 参考外部知识构建文本分类器的方法和设备 |
CN102799684A (zh) * | 2012-07-27 | 2012-11-28 | 成都索贝数码科技股份有限公司 | 一种视音频文件编目标引、元数据存储索引与搜索方法 |
CN103136360A (zh) * | 2013-03-07 | 2013-06-05 | 北京宽连十方数字技术有限公司 | 一种互联网行为标注引擎及对应该引擎的行为标注方法 |
CN104133916A (zh) * | 2014-08-14 | 2014-11-05 | 百度在线网络技术(北京)有限公司 | 搜索结果信息组织方法和装置 |
CN104809176A (zh) * | 2015-04-13 | 2015-07-29 | 中央民族大学 | 藏语实体关系抽取方法 |
CN105095195A (zh) * | 2015-07-03 | 2015-11-25 | 北京京东尚科信息技术有限公司 | 基于知识图谱的人机问答方法和系统 |
CN105677913A (zh) * | 2016-02-29 | 2016-06-15 | 哈尔滨工业大学 | 一种基于机器翻译的中文语义知识库的构建方法 |
CN105956052A (zh) * | 2016-04-27 | 2016-09-21 | 青岛海尔软件有限公司 | 一种基于垂直领域的知识图谱的构建方法 |
CN106294744A (zh) * | 2016-08-11 | 2017-01-04 | 上海动云信息科技有限公司 | 兴趣识别方法及系统 |
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
CN106815293A (zh) * | 2016-12-08 | 2017-06-09 | 中国电子科技集团公司第三十二研究所 | 一种面向情报分析的构建知识图谱的系统及方法 |
CN107038257A (zh) * | 2017-05-10 | 2017-08-11 | 浙江大学 | 一种基于知识图谱的城市物联网数据分析框架 |
CN107609052A (zh) * | 2017-08-23 | 2018-01-19 | 中国科学院软件研究所 | 一种基于语义三角的领域知识图谱的生成方法及装置 |
CN107679110A (zh) * | 2017-09-15 | 2018-02-09 | 广州唯品会研究院有限公司 | 结合文本分类与图片属性提取完善知识图谱的方法及装置 |
CN107748757A (zh) * | 2017-09-21 | 2018-03-02 | 北京航空航天大学 | 一种基于知识图谱的问答方法 |
CN107871144A (zh) * | 2017-11-24 | 2018-04-03 | 税友软件集团股份有限公司 | 发票商品名分类方法、系统、设备及计算机可读存储介质 |
CN108073711A (zh) * | 2017-12-21 | 2018-05-25 | 北京大学深圳研究生院 | 一种基于知识图谱的关系抽取方法和系统 |
CN108491472A (zh) * | 2018-03-07 | 2018-09-04 | 新博卓畅技术(北京)有限公司 | 一种基于crf++分词构建医疗特征库的方法和系统 |
CN109145123A (zh) * | 2018-09-30 | 2019-01-04 | 国信优易数据有限公司 | 知识图谱模型的构建方法、智能交互方法、系统及电子设备 |
CN109271528A (zh) * | 2018-09-30 | 2019-01-25 | 税友软件集团股份有限公司 | 一种基于税务语义的结果查询方法、装置和存储介质 |
CN109597894A (zh) * | 2018-09-30 | 2019-04-09 | 阿里巴巴集团控股有限公司 | 一种关联模型生成方法及装置、一种数据关联方法及装置 |
CN109684483A (zh) * | 2018-12-11 | 2019-04-26 | 平安科技(深圳)有限公司 | 知识图谱的构建方法、装置、计算机设备及存储介质 |
CN109684468A (zh) * | 2018-12-13 | 2019-04-26 | 四川大学 | 针对循证医学的文献筛选标注平台 |
CN110175240A (zh) * | 2019-05-16 | 2019-08-27 | 五竹科技(天津)有限公司 | 与外呼流程相关的知识图谱的构建方法、装置及存储介质 |
CN110197280A (zh) * | 2019-05-20 | 2019-09-03 | 中国银行股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN110209839A (zh) * | 2019-06-18 | 2019-09-06 | 卓尔智联(武汉)研究院有限公司 | 农业知识图谱构建装置、方法及计算机可读存储介质 |
CN110222201A (zh) * | 2019-06-26 | 2019-09-10 | 中国医学科学院医学信息研究所 | 一种专病知识图谱构建方法及装置 |
CN110334212A (zh) * | 2019-07-01 | 2019-10-15 | 南京审计大学 | 一种基于机器学习的领域性审计知识图谱构建方法 |
CN110390022A (zh) * | 2019-06-21 | 2019-10-29 | 厦门美域中央信息科技有限公司 | 一种自动化的专业知识图谱构建方法 |
-
2020
- 2020-04-14 CN CN202010291485.XA patent/CN111488741A/zh active Pending
Patent Citations (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101639840A (zh) * | 2008-07-29 | 2010-02-03 | 华天清 | 网络信息语义结构识别方法和装置 |
CN102023986A (zh) * | 2009-09-22 | 2011-04-20 | 日电(中国)有限公司 | 参考外部知识构建文本分类器的方法和设备 |
CN102799684A (zh) * | 2012-07-27 | 2012-11-28 | 成都索贝数码科技股份有限公司 | 一种视音频文件编目标引、元数据存储索引与搜索方法 |
CN103136360A (zh) * | 2013-03-07 | 2013-06-05 | 北京宽连十方数字技术有限公司 | 一种互联网行为标注引擎及对应该引擎的行为标注方法 |
CN104133916A (zh) * | 2014-08-14 | 2014-11-05 | 百度在线网络技术(北京)有限公司 | 搜索结果信息组织方法和装置 |
CN104809176A (zh) * | 2015-04-13 | 2015-07-29 | 中央民族大学 | 藏语实体关系抽取方法 |
CN105095195A (zh) * | 2015-07-03 | 2015-11-25 | 北京京东尚科信息技术有限公司 | 基于知识图谱的人机问答方法和系统 |
CN105677913A (zh) * | 2016-02-29 | 2016-06-15 | 哈尔滨工业大学 | 一种基于机器翻译的中文语义知识库的构建方法 |
CN105956052A (zh) * | 2016-04-27 | 2016-09-21 | 青岛海尔软件有限公司 | 一种基于垂直领域的知识图谱的构建方法 |
CN106294744A (zh) * | 2016-08-11 | 2017-01-04 | 上海动云信息科技有限公司 | 兴趣识别方法及系统 |
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
CN106815293A (zh) * | 2016-12-08 | 2017-06-09 | 中国电子科技集团公司第三十二研究所 | 一种面向情报分析的构建知识图谱的系统及方法 |
CN107038257A (zh) * | 2017-05-10 | 2017-08-11 | 浙江大学 | 一种基于知识图谱的城市物联网数据分析框架 |
CN107609052A (zh) * | 2017-08-23 | 2018-01-19 | 中国科学院软件研究所 | 一种基于语义三角的领域知识图谱的生成方法及装置 |
CN107679110A (zh) * | 2017-09-15 | 2018-02-09 | 广州唯品会研究院有限公司 | 结合文本分类与图片属性提取完善知识图谱的方法及装置 |
CN107748757A (zh) * | 2017-09-21 | 2018-03-02 | 北京航空航天大学 | 一种基于知识图谱的问答方法 |
CN107871144A (zh) * | 2017-11-24 | 2018-04-03 | 税友软件集团股份有限公司 | 发票商品名分类方法、系统、设备及计算机可读存储介质 |
CN108073711A (zh) * | 2017-12-21 | 2018-05-25 | 北京大学深圳研究生院 | 一种基于知识图谱的关系抽取方法和系统 |
CN108491472A (zh) * | 2018-03-07 | 2018-09-04 | 新博卓畅技术(北京)有限公司 | 一种基于crf++分词构建医疗特征库的方法和系统 |
CN109597894A (zh) * | 2018-09-30 | 2019-04-09 | 阿里巴巴集团控股有限公司 | 一种关联模型生成方法及装置、一种数据关联方法及装置 |
CN109271528A (zh) * | 2018-09-30 | 2019-01-25 | 税友软件集团股份有限公司 | 一种基于税务语义的结果查询方法、装置和存储介质 |
CN109145123A (zh) * | 2018-09-30 | 2019-01-04 | 国信优易数据有限公司 | 知识图谱模型的构建方法、智能交互方法、系统及电子设备 |
CN109684483A (zh) * | 2018-12-11 | 2019-04-26 | 平安科技(深圳)有限公司 | 知识图谱的构建方法、装置、计算机设备及存储介质 |
CN109684468A (zh) * | 2018-12-13 | 2019-04-26 | 四川大学 | 针对循证医学的文献筛选标注平台 |
CN110175240A (zh) * | 2019-05-16 | 2019-08-27 | 五竹科技(天津)有限公司 | 与外呼流程相关的知识图谱的构建方法、装置及存储介质 |
CN110197280A (zh) * | 2019-05-20 | 2019-09-03 | 中国银行股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN110209839A (zh) * | 2019-06-18 | 2019-09-06 | 卓尔智联(武汉)研究院有限公司 | 农业知识图谱构建装置、方法及计算机可读存储介质 |
CN110390022A (zh) * | 2019-06-21 | 2019-10-29 | 厦门美域中央信息科技有限公司 | 一种自动化的专业知识图谱构建方法 |
CN110222201A (zh) * | 2019-06-26 | 2019-09-10 | 中国医学科学院医学信息研究所 | 一种专病知识图谱构建方法及装置 |
CN110334212A (zh) * | 2019-07-01 | 2019-10-15 | 南京审计大学 | 一种基于机器学习的领域性审计知识图谱构建方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114706993A (zh) * | 2022-02-23 | 2022-07-05 | 税友信息技术有限公司 | 一种文本实体链接方法、系统、电子设备及存储介质 |
CN115063216A (zh) * | 2022-06-23 | 2022-09-16 | 平安银行股份有限公司 | 基于规则引擎的智慧报税方法、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8140468B2 (en) | Systems and methods to extract data automatically from a composite electronic document | |
US11550810B2 (en) | Systems and method for generating a structured report from unstructured data | |
CN113807098B (zh) | 模型训练方法和装置、电子设备以及存储介质 | |
US11188537B2 (en) | Data processing | |
CN109933796B (zh) | 一种公告文本关键信息提取方法及设备 | |
US20120297296A1 (en) | Contract authoring system and method | |
CN112231494B (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN111488741A (zh) | 一种税收知识数据语义标注方法及相关装置 | |
Antos et al. | Practical guide to artificial intelligence and contract review | |
US10755047B2 (en) | Automatic application of reviewer feedback in data files | |
JP6155409B1 (ja) | 決算分析システムおよび決算分析プログラム | |
US11468228B2 (en) | Content frames for productivity applications | |
Liang et al. | Knowledge representation framework of accounting event in corpus-based financial report text | |
CN109657010B (zh) | 文档处理方法、装置和存储介质 | |
CN114036266A (zh) | 一种基于自然语言处理的智能策略组卷方法、装置及设备 | |
CN112597761A (zh) | 临时报告语义信息挖掘方法、装置、存储介质和电子设备 | |
Sroison et al. | Resume parser with natural language processing | |
Goldin et al. | The Knesset Corpus: An Annotated Corpus of Hebrew Parliamentary Proceedings | |
US20240095466A1 (en) | Method and system for document structure based unsupervised long-form technical question generation | |
US20240202435A1 (en) | Automatic cross document consolidation and visualization of data tables | |
JP2018120567A (ja) | 決算分析システムおよび決算分析プログラム | |
Dagaci | Assessment of the Role of Social Media in Facilitating Female Participation in Political Matters in Niger State, Nigeria | |
Li | Paradigm Shift: International Taxation’s Move from Double Taxation Remedies to the Battle Against Aggressive Tax Planning | |
Zhang et al. | A semantics enabled intelligent semi-structured document processor | |
Harris | Embracing an Ever-Evolving World: The CPA’s Role in Advancing Change. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200804 |