CN113254643A - 文本分类方法、装置、电子设备和 - Google Patents
文本分类方法、装置、电子设备和 Download PDFInfo
- Publication number
- CN113254643A CN113254643A CN202110591719.7A CN202110591719A CN113254643A CN 113254643 A CN113254643 A CN 113254643A CN 202110591719 A CN202110591719 A CN 202110591719A CN 113254643 A CN113254643 A CN 113254643A
- Authority
- CN
- China
- Prior art keywords
- text
- weight
- classified
- classification
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 239000013598 vector Substances 0.000 claims description 112
- 238000001228 spectrum Methods 0.000 claims description 35
- 230000004927 fusion Effects 0.000 claims description 33
- 238000012545 processing Methods 0.000 claims description 31
- 238000010606 normalization Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 5
- 230000000875 corresponding effect Effects 0.000 description 85
- 230000011218 segmentation Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 7
- 230000002596 correlated effect Effects 0.000 description 5
- 238000012163 sequencing technique Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 241000220225 Malus Species 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 235000021016 apples Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种文本分类方法、装置和电子设备。其中,文本分类方法包括:提取待分类文本中的关键词组;在待分类文本中的关键词组中存在与预设知识图谱中的词汇节点的字符串匹配的N个关键词组的情况下,根据N个关键词组对应的置信度,确定M个文本分类对应的置信度,其中,M个文本分类在预设知识图谱中对应M个子图谱,M个子图谱中的词汇节点的字符串分别与N个关键词组中至少一个关键词组匹配,M和N均为正整数;在M个文本分类中的目标文本分类的置信度大于第一阈值的情况下,确定待分类文本属于目标文本分类,其中,目标文本分类为M个文本分类中置信度最大的文本分类。本申请实施例能够提升文本分类方法的效率。
Description
技术领域
本申请属于计算机技术领域,具体涉及一种文本分类方法、装置和电子设备。
背景技术
随着移动通信设备的普及,出现了越来越多的非结构化或半结构化的数据资源(例如,文本信息)。如何精确、高效地确定非结构化或半结构化文本信息的类别成为亟待解决的问题。
发明内容
本申请实施例的目的是提供一种文本分类方法、装置和电子设备,能够精确、高效地确定文本信息的类别。
为了解决上述技术问题,本申请是这样实现的:
第一方面,本申请实施例提供了一种文本分类方法,该方法包括:
提取待分类文本中的关键词组;
在所述待分类文本中的关键词组中存在与预设知识图谱中的词汇节点的字符串匹配的N个关键词组的情况下,根据所述N个关键词组对应的置信度,确定M个文本分类对应的置信度,其中,所述M个文本分类在所述预设知识图谱中对应M个子图谱,所述M个子图谱中的词汇节点的字符串分别与所述 N个关键词组中的至少一个关键词组匹配,M和N分别为大于或者等于1的整数;
在所述M个文本分类中的目标文本分类的置信度大于第一阈值的情况下,确定所述待分类文本属于所述目标文本分类,其中,所述目标文本分类为所述M个文本分类中置信度最大的文本分类。
第二方面,本申请实施例提供了一种文本分类装置,其特征在于,包括:
第一提取模块,用于提取待分类文本中的关键词组;
第一确定模块,用于在所述待分类文本中的关键词组中存在与预设知识图谱中的词汇节点的字符串匹配的N个关键词组的情况下,根据所述N个关键词组对应的置信度,确定M个文本分类对应的置信度,其中,所述M个文本分类在所述预设知识图谱中对应M个子图谱,所述M个子图谱中的词汇节点的字符串分别与所述N个关键词组中的至少一个关键词组匹配,M和N分别为大于或者等于1的整数;
第二确定模块,用于在所述M个文本分类中的目标文本分类的置信度大于第一阈值的情况下,确定所述待分类文本属于所述目标文本分类,其中,所述目标文本分类为所述M个文本分类中置信度最大的文本分类。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
在本申请实施例中,提取待分类文本中的关键词组;在所述待分类文本中的关键词组中存在与预设知识图谱中的词汇节点的字符串匹配的N个关键词组的情况下,根据所述N个关键词组对应的置信度,确定M个文本分类对应的置信度,其中,所述M个文本分类在所述预设知识图谱中对应M个子图谱,所述M个子图谱中的词汇节点的字符串分别与所述N个关键词组中至少一个关键词组匹配,M和N分别为大于或者等于1的整数;在所述M个文本分类中的目标文本分类的置信度大于第一阈值的情况下,确定所述待分类文本属于所述目标文本分类,其中,所述目标文本分类为所述M个文本分类中置信度最大的文本分类。这样,能够提升文本分类的效率。
附图说明
图1是本申请实施例提供的一种文本分类方法的流程图;
图2a是本申请实施例提供的一种文本分类方法的架构图;
图2b是本申请实施例提供的一种文本分类方法中从待分类文本中提取关键词组的流程图;
图2c是本申请实施例提供的一种文本分类方法中关键词的词向量与关键词组的词向量之间的关系示意图;
图2d是本申请实施例提供的一种文本分类方法中预设知识图谱的结构图;
图2e是本申请实施例提供的一种文本分类方法中从历史分类文本中提取键词组的流程图;
图2f是本申请实施例提供的一种文本分类方法中关键词与关键词组之间的关系示意图;
图3是本申请实施例提供的另一种文本分类方法的流程图;
图4是本申请实施例提供的一种文本分类装置的结构图;
图5是本申请实施例提供的一种电子设备的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
本申请实施例应用于文本分类,其中,待分类的文本可以是非结构化或者半结构化的文本信息,例如:短信、电话中的语音识别结果、微信消息以及邮件等。以在对文本进行分类后,便于工作人员或者电子设备有针对性的对文本进行与其分类结果对应的相关处理,从而有利于从该文本中技术、准确的获取有用信息。
相关技术中,可以对非结构化或半结构化的文本信息进行分类,以对分类后的文本信息进行有针对性的处理,例如:对于事件的分类大多依赖工作人员的经验分析。其一般的分类流程是:1)通过经验总结一些不同分类的高频词汇;2)通过在待分类文本中搜索高频词,以对该待分类文本进行粗筛选;3) 通过待分类文本与已分类文本中关键词比对,对粗筛选的待分类文本进行细分类,将不同待分类文本划分为具体的分类结果;4)根据细分类结果将待分类文本分流,以有针对性的对该分类结果对应的文本进行重点问题分析。
由此可见,相关技术中的文本分类方法的处理流程任务繁重且效率低下。
为了便于说明,本申请实施例中仅以所述待分类文本是事件中的文本为例,进行举例说明:
例如:随着移动通信设备的普及,越来越多的事件通过电话、短信、微信、邮件等信息形式以非结构化或半结构化的格式汇集到信息处理部门。这样,信息处理部门每天将收到大量的文本数据资源,且这些口语化的文本数据资源种可以包含许多有价值的事件信息,例如:人员姓名、车牌号码、地址等。但是,工作人员往往很难以从大量非结构化数据资源中获取精确的、有效的事件信息,所以对大量的文本数据资源进行分析、提取关键信息是非常有研究意义和应用价值的课题。
目前的事件分类,是基于工作人员的工作经验总结出各类事件中的高频词汇,以在待分类文本中查找到某一高频词汇时,确定该待分类文本的事件分类为该高频词汇对应的事件分类。
但是,通过经验总结的多个高频词,大都属于口语化用语,很难穷举该高频词的各种相似表达,且不能很好地表示事件信息,导致事件筛选不完整,例如:“电动三轮车被偷”和“电动车被盗“是相似的事件内容,但是口语表达方式却不同,则工作人员依据经验很难以穷举该事件内容的多种表达方式,从而会造成口语化的事件文本中的事件内容不容易被查找。
由上可知,针对每天产生的大量的具体事件,在相关技术中,工作人员难以及时的、准确的判断事件性质(事件类别),从而不利于工作人员采取与该事件类别向对应的措施。而本申请实施例能够应用于对文本信息的分类,这样,在将本申请实施例提供的文本分类方法应用于对事件的分类时,能够提升事件分类的效率和可靠性。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的文本分类方法、装置、电子设备以及可读存储介质进行详细地说明。
请参阅图1,是本申请实施例提供的一种文本分类方法的流程图,如图1 所示,该方法可以包括以下步骤:
步骤101、提取待分类文本中的关键词组。
在实施中,上述关键词组表示包括至少两个关键词的组合,且至少两个关键词在待分类文本中的间隔距离较短,例如:关键词组包括一个名词和一个动词,该名词在待分类文本中的第一位置位于动词在待分类文本中的第二位置之后的Z个字符之内。
其中,关键词组相较于关键词,能够表示更加准确和完整的语义。例如:假设仅对关键词的字符串进行匹配,则事件A:地铁上发现钱包被偷,和事件 B:自行车筐里的苹果被偷,都将与“被偷”这一关键词的字符串匹配,但是事件A是表示钱包被偷,而事件B是表示水果被偷,两者的性质完全不同。而本申请实施例中,可以通过关键词组:钱包/手提包/钱+被偷来表示事件A 的特征,并通关键词组:苹果/水果/果篮/食物+被偷来表示事件B的特征,这样,基于该关键词组进行字符串匹配后得出的匹配结果的准确性更高。
在实施中,上述关键词组可以通过以下过程确定:
对待分类文本进行分词处理和去停用词处理,以得到所述待分类文本中的多个分词汇,并通过词频统计确定每一分词汇在所述待分类文本中的出现频率;
将出现频率大于预设频率的分词汇确定为关键词;
对关键词按照其词性进行分组,例如:将关键词划分为:动词、名词;
将不同词性,且出现频率相近的关键词进行两两组合,以得到多个关键词组合;
在待分类文本中分别查找各个关键词组合,在确定关键词组合中的两个关键词的位置信息满足预设条件时,确定该关键词组合为关键词组;其中,两个关键词的位置信息满足预设条件,包括:两个关键词的先后顺序正确,例如:先名词再动词或者,先动词再名词,且两个关键词之间间隔的字符数较少(例如:间隔字符数少于5个、10个等)。
步骤102、在所述待分类文本中的关键词组中存在与预设知识图谱中的词汇节点的字符串匹配的N个关键词组的情况下,根据所述N个关键词组对应的置信度,确定M个文本分类对应的置信度,其中,所述M个文本分类在所述预设知识图谱中对应M个子图谱,所述M个子图谱中的词汇节点的字符串分别与所述N个关键词组中至少一个关键词组匹配,M和N分别为大于或者等于1的整数。
其中,M个文本分类与M个子图谱为一一对应关系,所述M个子图谱中任意一子图谱,其词汇节点的字符串与N个关键词组中至少一个关键词组匹配。
根据所述N个关键词组对应的置信度,确定M个文本分类对应的置信度,可以包括:针对M个子图谱中的每个子图谱,可以确定与其词汇节点的字符串匹配的至少一个关键词组,将该匹配的至少一个关键词组中的关键词组对应的最大置信度确定为该子图谱对应文本分类的置信度。
在相关技术中,知识图谱是基于关键词、高频词组(即关键词组)、关键词和高频词组的词向量三部分共同构建的,关键词分为中心词和关联词,中心词一般是事件中出现最多的词或词组,关联词一般是中心词的同义词或者近义词。高频词组一般是由两个有关联关系的中心词构成。中心词、关联词以及高频词组均以图节点形式存在,其各自以自身词向量为特征属性,以相关关系(词向量相似度)为相邻边连接权值。
本申请实施例中,上述预设知识图谱可以基于历史文本分类信息确定,具体的,上述预设知识图谱中的关键词、高频词组是从历史文本分类信息中提取的,且上述历史文本分类信息中包括文本信息和该文本信息的实际分类结果。另外,对于某些从历史文本分类信息中提取出的出现频率较低的分词汇,还可以通过设置的方式,将其添加至关键词组中。例如:如图2a所示,在基于对历史文本分类信息进行分词处理和取停用词处理,以得到历史文本分类信息中的分词汇之后,可以基于该分词汇在历史文本分类信息中的出现频率,确定知识图谱中的关键词和关键词组,在该过程中,可以在知识图谱中增加或者删减关键词组,以根据增加或者删减的关键词组更新知识图谱。当然,如图2a所示,在实施中,还可以将待分类文本中出现的关键词和关键词组,可以添加至知识图谱中,以更新该知识图谱。
本申请实施例中的预设知识图谱包括多个子图谱,且不同的子图谱以不同的文本分类(例如:事件分类)为根节点,依次连接关键词和高频词组,以构成当前文本分类的子图谱,并由全部文本分类的子图谱共同构成整个预设知识图谱。换而言之,步骤102中记载的M个文本分类在所述预设知识图谱中对应M个子图谱,可以表示为:M个子图谱的根节点分别与M个文本分类一一对应。
需要说明的是,步骤102中记载的待分类文本中的关键词组中存在与预设知识图谱中的词汇节点的字符串匹配的N个关键词组,可以理解为:N个关键词组中的每一个关键词组分别包括至少两个关键词,则该至少两个关键词分别与预设知识图谱中相连的至少两个词汇节点所关联的关键词分别相同。
另外,在实施中,待分类文本中可以提取出1个或者多个关键词组,在该关键词组的数量为多个的情况下,可以将各个关键词组分别与各个子图谱中的词汇节点进行匹配,这样,可能存在一个子图谱中的词汇节点分别与多个关键词组匹配的情况,也就是说,N可以大于M,此时,上述根据所述N个关键词组对应的置信度,确定M个文本分类对应的置信度,可以理解为:对于每一个子图谱,取与其匹配的多个关键词组中置信度最大的一个作为该子图谱的置信度,即作为该子图谱对应的文本分类的置信度。
当然,在实际应用中,还可能存在待分类文本中的同一关键词组分别与多个子图谱中的词汇节点匹配的情况,也就是说,N也可以小于M。
步骤103、在所述M个文本分类中的目标文本分类的置信度大于第一阈值的情况下,确定所述待分类文本属于所述目标文本分类,其中,所述目标文本分类为所述M个文本分类中置信度最大的文本分类。
其中,步骤102可以为一个递归过程,在实施中,可以确定每一个文本分类对应的置信度(可能存在某一子图谱中的全部词汇节点与待分类文本的关键词组都不匹配的情况,此时,该某一子图谱的置信度默认等于0),上述步骤 103可以确定预设知识图谱中的全部文本分类中置信度最大的一个为目标文本分类,并将该目标文本分类的置信度与第一阈值进行数值大小比较,并在其大于第一阈值的情况下,确定所述待分类文本属于所述目标文本分类。
在本申请实施例中,提取待分类文本中的关键词组;在所述待分类文本中的关键词组中存在与预设知识图谱中的词汇节点的字符串匹配的N个关键词组的情况下,根据所述N个关键词组对应的置信度,确定M个文本分类对应的置信度,其中,所述M个文本分类在所述预设知识图谱中对应M个子图谱,所述M个子图谱中的词汇节点的字符串分别与所述N个关键词组中至少一个关键词组匹配,M和N分别为大于或者等于1的整数;在所述M个文本分类中的目标文本分类的置信度大于第一阈值的情况下,确定所述待分类文本属于所述目标文本分类,其中,所述目标文本分类为所述M个文本分类中置信度最大的文本分类。这样,鉴于关键词组更加能够体现语义,通过将待分类文本中的关键词组与预设知识图谱中的词汇节点进行字符串匹配,可以使得出的匹配结果更能体现待待分类文本与词汇节点之间的语义相关性,进而通过依次递归的方式,确定待分类文本中每一个关键词组与预设知识图谱中各个词汇节点之间的匹配程度后,便能够确定哪一个子图谱中的词汇节点与待分类文本中的关键词组的匹配程度最高,并据此确定待分类文本属于该子图谱对应的文本分类,这样就无需使工作人员对待分类文本与各个文本分类进行人为的比对工作,从而提升了文本分类的效率。
作为一种可选的实施方式,在所述目标文本分类的置信度小于或者等于所述第一阈值的情况下,所述方法还包括:
基于第一权值、第二权值、第三权值以及所述目标文本分类的置信度,确定所述预设知识图谱中各个子图谱分别对应的融合权值;
在目标融合权值大于第二阈值的情况下,确定所述待分类文本属于所述目标融合权值对应的文本分类,其中,所述目标融合权值为所述预设知识图谱中各个子图谱分别对应的融合权值中的最大值;
其中,所述第一权值用于表示所述待分类文本中的关键词的词向量与所述预设知识图谱中的词汇节点的词向量的相似度,所述第二权值用于表示所述待分类文本中的关键词组的词向量与所述预设知识图谱中的词汇节点的词向量的相似度,所述第三权值用于表示所述待分类文本中的关键词与所述预设知识图谱中的词汇节点的字符串之间的相似度。
在具体实施中,上述第一权值用于表示所述待分类文本中的关键词的词向量与所述预设知识图谱中的词汇节点的词向量的相似度,可以理解为:第一权值与所述待分类文本中的关键词的词向量与所述预设知识图谱中的词汇节点的词向量的相似度正相关;第二权值用于表示所述待分类文本中的关键词组的词向量与所述预设知识图谱中的词汇节点的词向量的相似度,可以理解为:第二权值与所述待分类文本中的关键词组的词向量与所述预设知识图谱中的词汇节点的词向量的相似度正相关;所述第三权值用于表示所述待分类文本中的关键词与所述预设知识图谱中的词汇节点的字符串之间的相似度,可以理解为:第三权值与所述待分类文本中的关键词与所述预设知识图谱中的词汇节点的字符串之间的相似度正相关。
在实施中,上述关键词组可以是在待分类文本中的出现频率接近,且词性不相同的两个关键词的组合,例如:如图2b所示,在实施中,可以对待分类文本进行文本预处理,即进行中文分词处理和去停用词处理,以得到该待分类文本中的多个关键词,然后,对该多个关键词按照词性进行分类,例如:按照动词和名词划分为两类,并将分类后的每一种词性的关键词按照在待分类文本中出现的频率进行排序,即对分类后的每一种词性的关键词按照词频排序,并计算每一个关键词的置信度,然后将不同词性且词频接近的两个关键词进行组合,以得到关键词组合,在通过上述过程从待分类文本中正向筛选出关键词组合后,还可以在待分类文本中反向验证是否包括该该关键词组合,并在确定待分类文本中包括该该关键词组合的情况下,确定该关键词组合即为关键词组。其中,反向验证的过程具体可以是,在待分类文本中分别搜索关键词组合中的关键词的位置,在两者的前后顺序正确,且间隔字符较少时,确定待分类文本中包括该该关键词组合。
本实施方式中,基于第一权值、第二权值、第三权值以及所述目标文本分类的置信度确定出的融合权值能够综合反映其对应的子图谱与待分类文本之间的关键词的词向量的相似性、关键词组的词向量的相似性以及字符串的相似性,从而使基于目标融合权值确定出的文本分类结果更加可靠。
可选的,所述第一权值根据所述待分类文本中的关键词的词向量与所述预设知识图谱中的第二词汇节点的词向量的相似度,以及第一节点距离权值确定,且所述第一节点距离权值根据所述第二词汇节点到根节点之间的相关关系确定,所述第二词汇节点的词向量与所述待分类文本中的关键词的词向量匹配;
所述第二权值根据所述关键词组的词向量与所述预设知识图谱中的第三词汇节点的词向量的相似度,以及第二节点距离权值确定,所述第二节点距离权值根据所述第三词汇节点到根节点之间的相关关系确定,所述第三词汇节点的词向量与所述关键词组的词向量匹配;
所述第三权值根据所述关键词与所述预设知识图谱中的第四词汇节点的字符串之间的相似度,以及第三节点距离权值确定,所述第三节点距离权值根据所述第四词汇节点到根节点之间的相关关系确定,所述第四词汇节点字符串与所述关键词的字符串匹配。
在具体实施中,上述关键词组的词向量,可以根据其中包括的关键词的词向量和置信度确定,例如:如图2c所示,假设关键词a的置信度为C_a,关键词b的置信度为C_b,关键词a的词向量为V_a,关键词b的词向量为V_b,若关键词a和关键词b构成关键词组a-b,则该关键词组的置信度为:C_a (1+C_b),且该关键词组的词向量为:C_a×V_a+C_b×V_b。
另外,上述基于所述第二词汇节点到根节点之间的相关关系,确定第一节点距离权值,可以理解为:对第二词汇节点到根节点之间的相关系数进行连乘,以得到所述第一节点距离权值,例如:如图2d所示,假设第二词汇节点是关联词A,则该词汇节点到根节点A之间的相关系数为:关联词A到中心词B 之间的第一相关系数和中心词B到根节点A之间的第二相关系数的乘积。
另外,上述关键词的词向量与所述预设知识图谱中的第二词汇节点的词向量匹配,可以理解为:所述关键词的词向量与第二词汇节点的词向量之间的相似度最大,换而言之,需要分别确定待分类文本中每一个关键词的词向量分别与预设知识图谱中每一个词汇节点的词汇量之间的相似度,并选取相似度的最大值,以确定该取值最大的相似度对应的词汇节点为第二词汇节点。例如:可以通过以下公式计算第一权值:
G1_c=sigmoid(max{i∈(1,n),j∈(1,m)|f(Vi,Wcj)}) ×sigmoid(max_id)
其中,G1_c表示第一权值;sigmoid表示进行归一化处理,以使归一化处理后的值位于0~1之间;n为待分类文本中关键词的总数量;Vi表示待分类文本中第i个关键词的词向量;Wcj表示预设知识图谱中第c个子图谱中第j个词汇节点的词向量;f(Vi,Wcj)表示求Vi与Wcj之间的相似度的函数;m表示预设知识图谱中第c个子图谱中词汇节点的总数量;max_id表示:在待分类文本中第i个关键词的词向量与预设知识图谱中第c个子图谱中第j个词汇节点的词向量之间的相似度为各个关键词节点的词向量分别与预设知识图谱中各个词汇节点的词向量之间的相似度的最大值的情况下,确定该第j个词汇节点到第c个子图谱的根节点之间的相关系数的乘积为第一节点距离权值。
在实施中,上述f(Vi,Wcj)可以表示为f(Vi,Wcj)=cos(Vi,Wcj)。
同理,上述关键词组的词向量与所述预设知识图谱中的第三词汇节点的词向量匹配,可以理解为:获取待分类文本中每一个关键词组的词向量分别与预设知识图谱中每一个词汇节点的词向量之间的相似度,却选择相似度值最大时对应的词汇节点为第三词汇节点,并获取该第三词汇节点到对应根节点之间的相关系数的乘积,作为第二节点距离权值,以将该第二节点距离权值与取值最大的相似度值进行相乘,以得到第二权值。
另外,上述关键词与所述预设知识图谱中的第四词汇节点的字符串匹配,可以理解为:关键词的字符与第四词汇节点对应的节点词汇的字符相同,从而确定两者之间的字符串相似度大于0,此时,确定该第四词汇节点到对应根节点之间的相关系数的乘积为第三节点距离权值,并确定第三权值为该关键词与第四词汇节点之间的字符串相似度与第三节点距离权值的乘积。
例如:通过以下公式计算字符串匹配的相似度:
f(x,y)={1,if x=y;0,other}
其中,f(x,y)表示判断关键词x与词汇节点y的字符串是否相同,在相同的情况下,确定f(x,y)的取值等于1,否则,确定f(x,y)的取值等于0。
例如:可以通过以下公式分别对每一文本分类的上述第一权值、第二权值和第三权值进行融合,以得到类别置信度集合:
Class_max
=Max(max{c∈(1,C)|G1_c×X1+G2_c×X2+G3_c×X3})
其中,Class_max表示融合权值,C表示预设知识图谱中的子图谱的个数,即文本分类个数;G1_c表示预设知识图谱中第c个子图谱对应的第一权值; G2_c表示预设知识图谱中第c个子图谱对应的第二权值;G3_c表示预设知识图谱中第c个子图谱对应的第三权值;X1表示第一权值的权重值;X2表示第二权值的权重值;X3表示第三权值的权重值。
在实施中,X1、X2以及X3的取值可以根据待分类文本的应用场景进行预先设置或者调整,仅需使X1、X2以及X3的总和等于1即可,例如:X1=0.5; X2=0.3;X3=0.2。
在获取所述类别置信度集合之后,可以将关键词组字符串匹配过程中确定的各个文本分类的置信度的最大值与类别置信度集合中与该文本分类对应的元素相加,以得到所述融合权值。
例如:通过关键词组字符串匹配,在该关键词组与某一子图谱中的词汇节点的字符串匹配时,确定该子图谱对应的文本分类的置信度集和包括该关键词组的置信度,当待分类文本中有多个关键词组与同一子图谱中的不同词汇节点的字符串分别匹配时,则该子图谱对应的文本分类的置信度集和包括该多个关键词组分别对应的置信度,并选取其中取值最大的置信度作为该子图谱对应的文本分类的最终的置信度,这样,依次递归,以确定预设知识图谱中每一个子图谱分别对应的文本分类的最终置信度,并获取该最终置信度中的最大值,在该最终置信度中的最大值大于第二阈值的情况下,确定所述待分类文本属于该取值最大的最终置信度对应的文本分类。
当然,对于基于第一权值、第二权值、第三权值以及所述预设知识图谱中各个子图谱对应的文本分类的置信度的最大值,确定所述预设知识图谱中各个子图谱分别对应的融合权值的具体实现方式,可以包括多种,例如:将第一权值、第二权值、第三权值分别进行加权求和等。
作为一种可选的实施方式,所述基于第一权值、第二权值、第三权值以及所述目标文本分类的置信度,确定所述预设知识图谱中各个子图谱分别对应的融合权值,包括:
对第一权值、第二权值、第三权值进行归一化处理;
将归一化处理后的所述第一权值与所述第一节点距离权值的乘积,与所述目标文本分类的置信度的进行相加处理,以得到第一值;
将归一化处理后的所述第二权值与所述第二节点距离权值的乘积,与所述目标文本分类的置信度进行相加处理,以得到第二值;
将归一化处理后的所述第三权值与所述第三节点距离权值的乘积,与所述目标文本分类的置信度进行相加处理,以得到第三值;
分别基于与同一文本分类对应的所述第一值、所述第二值以及所述第三值中的最大值,确定与所述预设知识图谱中各个子图谱关联的融合权值。
在具体实施中,上述权值融合的过程可以包括以下具体步骤:
步骤一、对于每一个文本分类,分别根据该文本分类对应的子图谱中与关键词或关键词组的词向量,或者关键词的字符串匹配的节点到根节点之间的距离和相关系数,进行逐级权值相乘(将匹配节点到根节点之间的相关系数(即正负相关系数)进行连续相乘),以得到节点距离权值(即分别求取第一节点距离权值、第二节点距离权值和第三节点距离权值);
步骤二、分别对第一权值、第二权值和第三权值求sigmoid(进行归一化处理),然后,将归一化处理后的权值分别与对应的节点距离权值(第一权值与第一节点距离权值对应,第二权值与第二节点距离权值对应,第三权值与第三节点距离权值对应)相乘;
步骤三、结合C_max对应的文本分类加上其置信度,以得到该文本分类的融合权值。
本实施方式中,在目标文本分类的置信度小于或者等于所述第一阈值的情况下,即预设知识图谱中全部子图谱所对应的文本分类的置信度全部小于或者等于所述第一阈值,其表示待分类文本中提取的关键词组并不能够准确的描述该待分类文本的语义,或者预设知识图谱中不存在与待分类文本中提取的关键词组一致的词汇,从而需要通过本实施方式中对关键词和关键词组的词向量以及关键词的字符串分别与预设知识图谱中的词汇节点进行匹配。
其中,对关键词和关键词组的词向量以及关键词的字符串分别与预设知识图谱中的词汇节点的匹配结果进行融合,可以避免仅考虑关键词的字符串匹配结果时,因关键词并不能包括相同语义的其他字符串,例如:“自行车”,和“单车”、“脚踏车”等意思相近但是字符串不同,从而会造成字符串匹配的遗漏;另外,通过词向量匹配,能够弥补字符串匹配结果不能够表达同义词或相似词汇之间的相似度的缺陷,且单一的关键词匹配容易产生误匹配,这样,本申请实施例中以不同词性组成的关键词组及其词向量做相似度匹配,能够减少误匹配和漏匹配的发生。
由上可知,本实施方式中,是结合文本浅层语义信息(即关键词和关键词组)和深层语义关联信息(即词向量),以基于知识图谱中子图谱的关联特性,来根据匹配的词汇节点距离根节点的远近,实现各个权值的融合,进而实现对待分类文本的文本分类预测。从而能够更加全面的发现待分类文本与各个子图谱对应文本分类之间的相关性,以提升文本分类方法的可靠性和准确性。
作为一种可选的实施方式,所述方法还包括:
获取历史文本分类信息,其中,所述历史文本分类信息包括至少两个历史分类文本和所述至少两个历史分类文本对应的分类结果;
从所述至少两个历史分类文本中分别提取第一关键词和第一关键词组,并获取所述第一关键词和所述第一关键词组的词向量;
以目标分类结果为根节点,确定目标历史分类文本中提取的第一关键词的词向量和第一关键词组的词向量分别与所述根节点的词向量之间的相关系数,以生成所述目标分类结果对应的子图谱,其中,所述至少两个历史分类文本包括所述目标历史分类文本,且所述目标分类结果为所述目标历史分类文本的分类结果,所述预设知识图谱包括所述目标分类结果对应的子图谱。
在实施中,上述历史文本分类信息可以理解为:已经正确分类的文本信息,其具体可以包括文本分类所依据的历史分类文本,以及该历史分类文本通过分析得出的分类结果。
本实施方式中,上述文本分类方法可以分为两个过程,如图2a所示,首先是基于历史文本分类信息进行知识图谱构建,以获取所述预设知识图谱;然后是基于该预设知识图谱对待分类文本的语义内容进行知识推理,以根据知识推理结果确定该待分类文本的分类结果。
作为一种可选的实施方式,从目标历史分类文本中提取的第一关键词不包括共有关键词,其中,所述共有关键词表示分别在不同分类结果的历史分类文本中的出现频率大于或者等于预设频率的关键词。
其中,某一词汇在历史分类文本中的出现频率大于或者等于预设频率,可以表示:该历史分类文本中提取出的关键词包括该词汇,换而言之,对历史分类文本进行中文分词处理之后,若得出的分词汇在历史分类文本中出现频率很低,则不将该分词汇确定为关键词。
本实施方式中,上述共有关键词表示在各种分类结果的历史分类文本中都包括的关键词,因此,该共有关键词对于文本分类并没有参考价值,从而将该关键词从第一关键词中删除,以避免该没有参考价值的共有关键词对文本分类结果产生干扰,能够提升文本分类结果的准确性。
基于该历史文本分类信息确定预设知识图谱中的子图谱的过程,可以包括以下步骤:
步骤一、将历史分类文本划分为正样本、负样本和背景样本。
在实施中,可能存在部分历史分类文本的分类结果与该历史分类文本的初始分类结果不同,或者部分的历史分类文本的分类结果不属于目标分类的情况,此时,可以在对目标分类对应的子图谱进行构建的过程中,可以将历史分类文本划分为正样本、负样本和背景样本。
其中,正样本表示历史分类文本的分类结果与该历史分类文本的初始分类结果相同,且均为目标分类;负样本表示历史分类文本的分类结果与该历史分类文本的初始分类结果不相同,且该历史分类文本的初始分类结果为目标分类;背景样本表示历史分类文本的分类结果与该历史分类文本的初始分类结果都不是目标分类。
例如:对大量A类事件的事件进行归类,将处理完成的该类事件文本分为两部分,一部分是事件信息为A类事件,工作人员分析判断后确定是A类事件的,即为正样本;一部分是事件信息为A类事件,工作人员分析判断后确定为不是A类事件的,即负正样本。正样本和当前事件类别是正相关的关系,而负样本和当前事件类别是负相关的关系。最后,将其他所有类别的事件文本作为背景样本。
例如:如图2e所示,将大量已经正确分类的事件文本进行数据归类,以划分正样本、负样本和背景样本,该背景样本中可以包括多种不同的分类结果。
步骤二、对正样本、负样本和背景样本分别进行预处理。
其中,上述预处理可以理解为:中文分词处理和去停用词处理。具体的,该中文分词处理过程中,可以统计每一个分词汇在事件文本中出现的频率,以及词性等进行标注,例如:词汇A在事件文本中出现了30次,且其词性为动词,则对其形成的标注为“词汇A,30,v”,以分别对应词、词频和词性。然后,对标注数据进行训练或者微调,使得一句话中的“词汇A”、“词汇B”、“词汇C”、“词汇D”这些分词汇能够切分出来。在实施中,为提高中文分词的准确性和完整性可以人为的添加固定词组到分词字典内,如添加“词汇AB”到分词字典,上句话分词结果为:“词汇AB”、“词汇C”、“词汇D”。去停用词即为去除一句话中语气词、停顿词、连接词等,例如:“额”、“嗯”、“那个”等词,在实施中,还可以通过加载字典的形式不断添加停用词表。最终,去停用词之后得出关键词和关键词组。
当然,在未添固定词组的情况下,通过中文分词处理和去停用词处理后得出的词汇可以不包括关键词组。
步骤三、分别统计正负样本中的关键词个数、词性,然后根据关键词的词性进行分类,每类词性中的关键词按照词频排序。
步骤四、统计背景样本中各类别文本的关键词,并确定所有类别文本中共同出现且词频最高的共有关键词,并将该共有关键词从正负样本和负样本中分别统计出的关键词中删除。
本步骤中,鉴于各类别文本中都会出现的高频词不具备关键词的代表性,可以用于去除正负样本中干扰性强的高频词,以保证正负样本最终保留的高频关键词是真正能体现其事件类别特点的词语。
步骤五、根据正样本中关键词的词频排序,将前后顺序相近的不同词性的 y个进行交叉组合得到相近出现频率的高频词汇组合,然后将各高频词汇组合分别反向到历史分类文本中进行验证,出现在原文本的即确定为关键词组。
本步骤中,将不同词性,但是在历史分类文本中出现频率接近的词汇进行交叉组合,以得到高频词汇组合,并且通过在历史分类文本中反向验证该高频词汇组合中的关键词的顺序正确且间隔距离较短时,才确定该高频词汇组合是关键词组。
例如:如图2f所示,假设y等于5,则不同词性的关键词按照词频排序后,得到动词序列:v1、v2、v3、v4、v5,和名词序列:n1、n2、n3、n4、n5,则将该动词序列中的动词与名词序列中的名词进行交叉组合以后,得到的高频词汇组合包括:v1 n1、v1 n2、v1 n3等,最终通过反向验证,得出的关键词组包括:v1 n1、v3n4、v4n5等。
步骤六、获取关键词和关键词组的词向量,并将关键词组添加到分词字典,以便后续应用中直接将该字符串确定为关键词组。
本步骤中获取关键词的词向量的过程,与现有技术中获取某一词汇的词向量的过程相同,在此不再具体阐述,且上述关键词组的词向量与关键词的词向量相关,具体可以参照如图2c所示实施例中确定关键词组的词向量的过程。
步骤七、分别构建每一文本分类对应的子图谱。
其中,每一个子图谱以其对应的文本分类为根节点,按照词性的不同分别将频率最高的关键词(即为中心词)和关键词组作为第一级子节点,子图谱中每一个节点的属性包括:词性、词频和词向量。然后依次计算中心词和其他关键词的词向量的相似度,在相似度大于阈值0.9时,确定该其他关键词为关联词(近义词),从而在子图谱中将该关联词直接与中心词相连,且两者之间的连接关系以词向量的相似度作为属性。这样,依次递归,以确定第一级子节点与每一个关联词之间的连接关系,然后再以关联词作为第二级节点,计算其他关键词和该第二级节点关键词的词向量的相似度,并基于该相似度确定第二级节点与其他关键词之间的连接关系,直至确定每一个关键词的词向量的相似度之后,完成本文本分类对应的子图谱的构建。
在实施中,需要按照上述过程分别构建每一个文本分类对应的子图谱,以共同构成所述预设知识图谱。
在实施中,正样本中的关键词与当前文本类别对应的子图谱中的第一级节点之间为正相关关系,正相关系数α以词向量相似度表示(例如:α=cos(第一级节点1的词向量,正样本中的关键词的词向量))。负样本中的关键词和当前文本分类中第一级节点之间为负相关关系,负相关系数β以词向量相似度和 1的差值表示(β=cos(第一级节点1的词向量,负样本中的关键词的词向量)-1)。正负相关系数作为逐级连接的关系权值。例如:图2d所示的知识图谱中的子图谱。
下面以历史分类文本为事件文本为例,对本申请实施例提供的文本分类方法进行举例说明:
如图3所示,该文本分类方法包括以下步骤:
步骤301、从待分类事件文本中提取X个关键词组。
上述从待分类事件文本中提取关键词组的过程与从历史分类文本中提取关键词,并基于该关键词确定关键词组的过程相同,在此不再赘述。
步骤302、分别将预设知识图谱中的每个子图谱的词汇节点与各个关键词组A_i匹配。
其中,关键词组A_i,表示第i个关键词组,i的初始值等于X。
步骤303、在某一子图谱的词汇节点与关键词组A_i的字符串相同时,确定关键词组与该子图谱的词汇节点匹配。
步骤304、确定关键词组A_i的字符串与子图谱C_i的词汇节点匹配。
步骤305、确定子图谱C_i的置信度包括该关键词组A_i的置信度。
步骤306、将i的取值减去1,并判断该i的取值是否小于或者等于0。
在本步骤的判断结果为“是”的情况下,结束对子图谱C_i的置信度的更新过程,并执行步骤307;否则,重复执行步骤302,即将X个关键词组中的下一个关键词组与子图谱C_i中的词汇节点进行匹配。
步骤307、判断该子图谱C_i包括的最大的置信度是否大于第一阈值。
其中,子图谱C_i包括的最大的置信度可以表示为:C_Max;第一阈值可以表示为:thresh。
在本步骤的判断结果为“是”的情况下,将与该最大置信度对应的关键词组A_i匹配的词汇节点所在的子图谱的文本分类确定为待分类事件文本的分类结果;否则,分别执行步骤308至步骤311。
步骤308、在待分类事件文本中提取的关键词组的词向量与词汇节点的词向量匹配的情况下,确定第一权值。
上述确定第一权值的过程与如图1所示实施例中,确定第一权值的过程相同,在此不再赘述。
步骤309、在待分类事件文本中提取的关键词的词向量与词汇节点的词向量匹配的情况下,确定第二权值。
上述确定第二权值的过程与如图1所示实施例中,确定第二权值的过程相同,在此不再赘述。
步骤310、在待分类事件文本中提取的关键词与词汇节点的字符串匹配的情况下,确定第三权值。
上述确定第三权值的过程与如图1所示实施例中,确定第三权值的过程相同,在此不再赘述。
步骤311、融合上述第一权值、第二权值和第三权值。
本步骤与如图1所示实施例中,基于所述第一权值、所述第二权值、所述第三权值以及所述预设知识图谱中各个子图谱对应的文本分类的置信度的最大值,确定所述预设知识图谱中各个子图谱分别对应的融合权值的过程相同,在此不再赘述。
在步骤311之后,在目标融合权值大于第二阈值的情况下,确定所述待分类文本属于所述目标融合权值对应的文本分类,其中,所述目标融合权值为所述预设知识图谱中各个子图谱分别对应的融合权值中的最大值。
如图3所示文本分类方法中,先依次进行关键词组与预设知识图谱中词汇节点的字符串匹配,如果关键词组对应的词汇节点在某一文本分类对应的子图谱内,即关键词组属于子图谱,则以该关键词组的置信度作为该文本分类的置信度。循环计数器初始值i=X-1,以依次循环。首先,循环完成所有关键词组分别对应的文本分类的置信度计算,获取每一文本分类的置信度中的最大值 C_max,若该C_max大于第一阈值thresh,则直接输出该C_max对应的文本分类作为待分类文本的分类结果。另外,如果C_max不大于第一阈值thresh,则分别计算关键词匹配、关键词的词向量相似度匹配以及关键词组词向量相似度匹配的权值(即第一权值、第二权值和第三权值),即第一权值、第二权值和第三权值分别为一个集合,每一个集合中分别包括与每一文本分类对应的元素,最后,将三个集合中的各类权值进行加权融合,并结合C_max,以据此确定最终的文本分类。
其中,权值融合过程可以包括:
步骤一、对于每一个文本分类,分别根据该文本分类对应的子图谱中与关键词或关键词组的词向量,或者关键词的字符串匹配的节点到根节点之间的距离和相关系数,进行逐级权值相乘(将匹配节点到根节点之间的相关系数(即正负相关系数)进行连续相乘),以得到节点距离权值;
步骤二、分别对第一权值、第二权值和第三权值求sigmoid(进行归一化处理),然后,将归一化处理后的权值分别与对应的节点距离权值相乘;
步骤三、结合C_max对应的文本分类加上其置信度;
步骤四、对各文本分类的置信度按照大小排序,置信度最大的且大于阈值 thresh的类别即为待分类文本所属的文本分类。
本实施方式中,针对仅以字符串匹配为准的事件分类过程中存在的容易发生漏匹配或误匹配的不足,本申请实施例通过以关键词匹配为基础,以关键词组匹配为增强信息的文本匹配,并且结合关键词和关键词组对应词向量的匹配为主导,以使最终得出的文本分类结果更加准确。
需要说明的是,本申请实施例提供的文本分类方法,执行主体可以为文本分类装置,或者该文本分类装置中的用于执行文本分类方法的控制模块。本申请实施例中以文本分类装置执行加载文本分类方法为例,说明本申请实施例提供的文本分类装置。
请参阅图4,是本申请实施例提供的一种文本分类装置的结构图,如图4 所示,该文本分类装置400,包括:
第一提取模块401,用于提取待分类文本中的关键词组;
第一确定模块402,用于在所述待分类文本中的关键词组中存在与预设知识图谱中的词汇节点的字符串匹配的N个关键词组的情况下,根据所述N个关键词组对应的置信度,确定M个文本分类对应的置信度,其中,所述M个文本分类在所述预设知识图谱中对应M个子图谱,所述M个子图谱中的词汇节点的字符串分别与所述N个关键词组中的至少一个关键词组匹配,M和N 分别为大于或者等于1的整数;
第二确定模块403,用于在所述M个文本分类中的目标文本分类的置信度大于第一阈值的情况下,确定所述待分类文本属于所述目标文本分类,其中,所述目标文本分类为所述M个文本分类中置信度最大的文本分类。
可选的,第一确定模块402,具体用于
在所述待分类文本中的关键词组中存在与预设知识图谱中的词汇节点的字符串匹配的N个关键词组的情况下,针对所述M个子图谱中的每个子图谱,将所述子图谱中词汇节点的字符串匹配的至少一个关键词组对应的最大置信度确定为所述子图谱对应文本分类的置信度。
可选的,在所述目标文本分类的置信度小于或者等于所述第一阈值的情况下,文本分类装置400还包括:
第三确定模块,用于基于第一权值、第二权值、第三权值以及所述目标文本分类的置信度,确定所述预设知识图谱中各个子图谱分别对应的融合权值;
第四确定模块,用于在目标融合权值大于第二阈值的情况下,确定所述待分类文本属于所述目标融合权值对应的文本分类,其中,所述目标融合权值为所述预设知识图谱中各个子图谱分别对应的融合权值中的最大值;
其中,所述第一权值用于表示所述待分类文本中的关键词的词向量与所述预设知识图谱中的词汇节点的词向量的相似度,所述第二权值用于表示所述待分类文本中的关键词组的词向量与所述预设知识图谱中的词汇节点的词向量的相似度,所述第三权值用于表示所述待分类文本中的关键词与所述预设知识图谱中的词汇节点的字符串之间的相似度。
可选的,所述第一权值根据所述待分类文本中的关键词的词向量与所述预设知识图谱中的第二词汇节点的词向量的相似度,以及第一节点距离权值确定,且所述第一节点距离权值根据所述第二词汇节点到根节点之间的相关关系确定,所述第二词汇节点的词向量与所述待分类文本中的关键词的词向量匹配;
所述第二权值根据所述关键词组的词向量与所述预设知识图谱中的第三词汇节点的词向量的相似度,以及第二节点距离权值确定,所述第二节点距离权值根据所述第三词汇节点到根节点之间的相关关系确定,所述第三词汇节点的词向量与所述关键词组的词向量匹配;
所述第三权值根据所述关键词与所述预设知识图谱中的第四词汇节点的字符串之间的相似度,以及第三节点距离权值确定,所述第三节点距离权值根据所述第四词汇节点到根节点之间的相关关系确定,所述第四词汇节点字符串与所述关键词的字符串匹配。
可选的,所述第三确定模块,包括:
归一化处理单元,用于对第一权值、第二权值、第三权值进行归一化处理;
第一数据处理单元,用于将归一化处理后的所述第一权值与所述第一节点距离权值的乘积,与所述目标文本分类的置信度进行相加处理,以得到第一值;
第二数据处理单元,用于将归一化处理后的所述第二权值与所述第二节点距离权值的乘积,与所述目标文本分类的置信度进行相加处理,以得到第二值;
第三数据处理单元,用于将归一化处理后的所述第三权值与所述第三节点距离权值的乘积,与所述目标文本分类的置信度进行相加处理,以得到第三值;
确定单元,用于分别基于与同一文本分类对应的所述第一值、所述第二值以及所述第三值中的最大值,确定与所述预设知识图谱中各个子图谱关联的融合权值。
可选的,文本分类装置400,还包括:
获取模块,用于获取历史文本分类信息,其中,所述历史文本分类信息包括至少两个历史分类文本和所述至少两个历史分类文本对应的分类结果;
第二提取模块,用于从所述至少两个历史分类文本中分别提取第一关键词和第一关键词组,并获取所述第一关键词和所述第一关键词组的词向量;
生成模块,用于以目标分类结果为根节点,确定目标历史分类文本中提取的第一关键词的词向量和第一关键词组的词向量分别与所述根节点的词向量之间的相关系数,以生成所述目标分类结果对应的子图谱,其中,所述至少两个历史分类文本包括所述目标历史分类文本,且所述目标分类结果为所述目标历史分类文本的分类结果,所述预设知识图谱包括所述目标分类结果对应的子图谱。
可选的,从目标历史分类文本中提取的第一关键词不包括共有关键词,其中,所述共有关键词表示分别在不同分类结果的历史分类文本中的出现频率大于或者等于预设频率的关键词。
本申请实施例提供的文本分类装置,能够执行如图1或图3所示方法实施例中的各个过程,且能够取得相同的有益效果,为避免重复,在此不再赘述。
本申请实施例中的文本分类装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer, UMPC)、上网本或者个人数字助理(personaldigital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
可选的,如图5所示,本申请实施例还提供一种电子设备500,包括处理器501,存储器502,存储在存储器502上并可在所述处理器501上运行的程序或指令,该程序或指令被处理器501执行时实现上述文本分类方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要注意的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述文本分类方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述文本分类方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
Claims (10)
1.一种文本分类方法,其特征在于,包括:
提取待分类文本中的关键词组;
在所述待分类文本中的关键词组中存在与预设知识图谱中的词汇节点的字符串匹配的N个关键词组的情况下,根据所述N个关键词组对应的置信度,确定M个文本分类对应的置信度,其中,所述M个文本分类在所述预设知识图谱中对应M个子图谱,所述M个子图谱中的词汇节点的字符串分别与所述N个关键词组中的至少一个关键词组匹配,M和N分别为大于或者等于1的整数;
在所述M个文本分类中的目标文本分类的置信度大于第一阈值的情况下,确定所述待分类文本属于所述目标文本分类,其中,所述目标文本分类为所述M个文本分类中置信度最大的文本分类。
2.根据权利要求1所述的方法,其特征在于,所述根据所述N个关键词组对应的置信度,确定M个文本分类对应的置信度,包括:
针对所述M个子图谱中的每个子图谱,将所述子图谱中词汇节点的字符串匹配的至少一个关键词组对应的最大置信度确定为所述子图谱对应文本分类的置信度。
3.根据权利要求1所述的方法,其特征在于,在所述目标文本分类的置信度小于或者等于所述第一阈值的情况下,所述方法还包括:
基于第一权值、第二权值、第三权值以及所述目标文本分类的置信度,确定所述预设知识图谱中各个子图谱分别对应的融合权值;
在目标融合权值大于第二阈值的情况下,确定所述待分类文本属于所述目标融合权值对应的文本分类,其中,所述目标融合权值为所述预设知识图谱中各个子图谱分别对应的融合权值中的最大值;
其中,所述第一权值用于表示所述待分类文本中的关键词的词向量与所述预设知识图谱中的词汇节点的词向量的相似度,所述第二权值用于表示所述待分类文本中的关键词组的词向量与所述预设知识图谱中的词汇节点的词向量的相似度,所述第三权值用于表示所述待分类文本中的关键词与所述预设知识图谱中的词汇节点的字符串之间的相似度。
4.根据权利要求3所述的方法,其特征在于,所述第一权值根据所述待分类文本中的关键词的词向量与所述预设知识图谱中的第二词汇节点的词向量的相似度,以及第一节点距离权值确定,且所述第一节点距离权值根据所述第二词汇节点到根节点之间的相关关系确定,所述第二词汇节点的词向量与所述待分类文本中的关键词的词向量匹配;
所述第二权值根据所述关键词组的词向量与所述预设知识图谱中的第三词汇节点的词向量的相似度,以及第二节点距离权值确定,所述第二节点距离权值根据所述第三词汇节点到根节点之间的相关关系确定,所述第三词汇节点的词向量与所述关键词组的词向量匹配;
所述第三权值根据所述关键词与所述预设知识图谱中的第四词汇节点的字符串之间的相似度,以及第三节点距离权值确定,所述第三节点距离权值根据所述第四词汇节点到根节点之间的相关关系确定,所述第四词汇节点字符串与所述关键词的字符串匹配。
5.根据权利要求4所述的方法,其特征在于,所述基于第一权值、第二权值、第三权值以及所述目标文本分类的置信度,确定所述预设知识图谱中各个子图谱分别对应的融合权值,包括:
对第一权值、第二权值、第三权值进行归一化处理;
将归一化处理后的所述第一权值与所述第一节点距离权值的乘积,与所述目标文本分类的置信度进行相加处理,以得到第一值;
将归一化处理后的所述第二权值与所述第二节点距离权值的乘积,与所述目标文本分类的置信度进行相加处理,以得到第二值;
将归一化处理后的所述第三权值与所述第三节点距离权值的乘积,与所述目标文本分类的置信度进行相加处理,以得到第三值;
分别基于与同一文本分类对应的所述第一值、所述第二值以及所述第三值中的最大值,确定与所述预设知识图谱中各个子图谱关联的融合权值。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取历史文本分类信息,其中,所述历史文本分类信息包括至少两个历史分类文本和所述至少两个历史分类文本对应的分类结果;
从所述至少两个历史分类文本中分别提取第一关键词和第一关键词组,并获取所述第一关键词和所述第一关键词组的词向量;
以目标分类结果为根节点,确定目标历史分类文本中提取的第一关键词的词向量和第一关键词组的词向量分别与所述根节点的词向量之间的相关系数,以生成所述目标分类结果对应的子图谱,其中,所述至少两个历史分类文本包括所述目标历史分类文本,且所述目标分类结果为所述目标历史分类文本的分类结果,所述预设知识图谱包括所述目标分类结果对应的子图谱。
7.根据权利要求6所述的方法,其特征在于,从目标历史分类文本中提取的第一关键词不包括共有关键词,其中,所述共有关键词表示分别在不同分类结果的历史分类文本中的出现频率大于或者等于预设频率的关键词。
8.一种文本分类装置,其特征在于,包括:
第一提取模块,用于提取待分类文本中的关键词组;
第一确定模块,用于在所述待分类文本中的关键词组中存在与预设知识图谱中的词汇节点的字符串匹配的N个关键词组的情况下,根据所述N个关键词组对应的置信度,确定M个文本分类对应的置信度,其中,所述M个文本分类在所述预设知识图谱中对应M个子图谱,所述M个子图谱中的词汇节点的字符串分别与所述N个关键词组中的至少一个关键词组匹配,M和N分别为大于或者等于1的整数;
第二确定模块,用于在所述M个文本分类中的目标文本分类的置信度大于第一阈值的情况下,确定所述待分类文本属于所述目标文本分类,其中,所述目标文本分类为所述M个文本分类中置信度最大的文本分类。
9.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-7中任一项所述的文本分类方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-7中任一项所述的文本分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110591719.7A CN113254643B (zh) | 2021-05-28 | 2021-05-28 | 文本分类方法、装置、电子设备和 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110591719.7A CN113254643B (zh) | 2021-05-28 | 2021-05-28 | 文本分类方法、装置、电子设备和 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113254643A true CN113254643A (zh) | 2021-08-13 |
CN113254643B CN113254643B (zh) | 2023-10-27 |
Family
ID=77185173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110591719.7A Active CN113254643B (zh) | 2021-05-28 | 2021-05-28 | 文本分类方法、装置、电子设备和 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113254643B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779259A (zh) * | 2021-11-15 | 2021-12-10 | 太平金融科技服务(上海)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN114038542A (zh) * | 2021-10-12 | 2022-02-11 | 吉林医药学院 | 基于医疗大数据的医疗信息共享方法及系统 |
CN114049505A (zh) * | 2021-10-11 | 2022-02-15 | 数采小博科技发展有限公司 | 一种商品的匹配与识别方法、装置、设备和介质 |
CN114328976A (zh) * | 2022-01-25 | 2022-04-12 | 广汽埃安新能源汽车有限公司 | 一种评价分类方法、装置、电子设备及存储介质 |
CN117150046A (zh) * | 2023-09-12 | 2023-12-01 | 广东省华南技术转移中心有限公司 | 基于上下文语义的任务自动分解方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160063093A1 (en) * | 2014-08-27 | 2016-03-03 | Facebook, Inc. | Keyword Search Queries on Online Social Networks |
CN111428044A (zh) * | 2020-03-06 | 2020-07-17 | 中国平安人寿保险股份有限公司 | 多模态获取监管识别结果的方法、装置、设备及存储介质 |
WO2021042503A1 (zh) * | 2019-09-06 | 2021-03-11 | 平安科技(深圳)有限公司 | 信息分类抽取方法、装置、计算机设备和存储介质 |
CN112765357A (zh) * | 2021-02-05 | 2021-05-07 | 北京灵汐科技有限公司 | 文本分类方法、装置和电子设备 |
-
2021
- 2021-05-28 CN CN202110591719.7A patent/CN113254643B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160063093A1 (en) * | 2014-08-27 | 2016-03-03 | Facebook, Inc. | Keyword Search Queries on Online Social Networks |
WO2021042503A1 (zh) * | 2019-09-06 | 2021-03-11 | 平安科技(深圳)有限公司 | 信息分类抽取方法、装置、计算机设备和存储介质 |
CN111428044A (zh) * | 2020-03-06 | 2020-07-17 | 中国平安人寿保险股份有限公司 | 多模态获取监管识别结果的方法、装置、设备及存储介质 |
CN112765357A (zh) * | 2021-02-05 | 2021-05-07 | 北京灵汐科技有限公司 | 文本分类方法、装置和电子设备 |
Non-Patent Citations (2)
Title |
---|
刘羿;冯子恩;万晓娴;: "基于知识图谱的急诊问答系统", 电脑与电信, no. 04 * |
索红光;刘玉树;曹淑英;: "一种基于词汇链的关键词抽取方法", 中文信息学报, no. 06 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114049505A (zh) * | 2021-10-11 | 2022-02-15 | 数采小博科技发展有限公司 | 一种商品的匹配与识别方法、装置、设备和介质 |
CN114038542A (zh) * | 2021-10-12 | 2022-02-11 | 吉林医药学院 | 基于医疗大数据的医疗信息共享方法及系统 |
CN114038542B (zh) * | 2021-10-12 | 2022-06-21 | 吉林医药学院 | 基于医疗大数据的医疗信息共享方法及系统 |
CN113779259A (zh) * | 2021-11-15 | 2021-12-10 | 太平金融科技服务(上海)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN113779259B (zh) * | 2021-11-15 | 2022-03-18 | 太平金融科技服务(上海)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN114328976A (zh) * | 2022-01-25 | 2022-04-12 | 广汽埃安新能源汽车有限公司 | 一种评价分类方法、装置、电子设备及存储介质 |
CN117150046A (zh) * | 2023-09-12 | 2023-12-01 | 广东省华南技术转移中心有限公司 | 基于上下文语义的任务自动分解方法和系统 |
CN117150046B (zh) * | 2023-09-12 | 2024-03-15 | 广东省华南技术转移中心有限公司 | 基于上下文语义的任务自动分解方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113254643B (zh) | 2023-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113254643B (zh) | 文本分类方法、装置、电子设备和 | |
CN108073568B (zh) | 关键词提取方法和装置 | |
CN108304468B (zh) | 一种文本分类方法以及文本分类装置 | |
CN107515877B (zh) | 敏感主题词集的生成方法和装置 | |
CN101477544B (zh) | 一种识别垃圾文本的方法和系统 | |
CN109872162B (zh) | 一种处理用户投诉信息的风控分类识别方法及系统 | |
CN110825877A (zh) | 一种基于文本聚类的语义相似度分析方法 | |
CN107180084B (zh) | 词库更新方法及装置 | |
WO2021073116A1 (zh) | 生成法律文书的方法、装置、设备和存储介质 | |
Probierz et al. | Rapid detection of fake news based on machine learning methods | |
CN109710744B (zh) | 一种数据匹配方法、装置、设备及存储介质 | |
Al-Ash et al. | Fake news identification characteristics using named entity recognition and phrase detection | |
CN113505200B (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN111460820A (zh) | 一种基于预训练模型bert的网络空间安全领域命名实体识别方法和装置 | |
CN111428028A (zh) | 基于深度学习的信息分类方法及相关设备 | |
CN111191442A (zh) | 相似问题生成方法、装置、设备及介质 | |
WO2014022172A2 (en) | Information classification based on product recognition | |
Naik et al. | Extractive text summarization by feature-based sentence extraction using rule-based concept | |
CN114756675A (zh) | 文本分类方法、相关设备及可读存储介质 | |
CN111429184A (zh) | 一种基于文本信息的用户画像抽取方法 | |
CN108287848B (zh) | 用于语义解析的方法和系统 | |
Nguyen et al. | An ensemble of shallow and deep learning algorithms for Vietnamese sentiment analysis | |
CN112765357A (zh) | 文本分类方法、装置和电子设备 | |
US11636849B2 (en) | Voice data processing based on deep learning | |
Sharaff et al. | Towards classification of email through selection of informative features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Zhang Qikun Inventor after: Wu Zhenzhi Inventor before: Zhang Qikun Inventor before: Wu Zhenzhi |