CN111444712B - 一种关键词提取方法、终端、计算机可读存储介质 - Google Patents
一种关键词提取方法、终端、计算机可读存储介质 Download PDFInfo
- Publication number
- CN111444712B CN111444712B CN202010217695.4A CN202010217695A CN111444712B CN 111444712 B CN111444712 B CN 111444712B CN 202010217695 A CN202010217695 A CN 202010217695A CN 111444712 B CN111444712 B CN 111444712B
- Authority
- CN
- China
- Prior art keywords
- word
- keyword
- weight value
- words
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 87
- 238000004364 calculation method Methods 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 22
- 230000015654 memory Effects 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004891 communication Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 2
- 230000006403 short-term memory Effects 0.000 claims 1
- 238000004458 analytical method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 101000762967 Homo sapiens Lymphokine-activated killer T-cell-originated protein kinase Proteins 0.000 description 1
- 102100026753 Lymphokine-activated killer T-cell-originated protein kinase Human genes 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
- G06Q50/184—Intellectual property management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Technology Law (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种关键词提取方法、终端、计算机可读存储介质,其中方法包括:输入专利文本;根据第一预设模型对所述专利文本进行关键词抽取处理,得到关键词候选集;根据第二预设模型对所述专利文本进行专利要素抽取处理,得到所述专利文本的专利要素集;将所述关键词候选集与所述专利要素集进行权重值计算,根据权重值计算结果确定出所述专利文本的关键词集合。通过上述方法可以提高专利文本领域中关键词提取结果的准确性。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种关键词提取方法、终端、计算机可读存储介质。
背景技术
近年来,我国的专利数量不断增加,截止2018年底,不计港澳台发明专利数量,我国发明专利拥有量共计160.2万件,每万人口发明专利拥有量达到11.5件,可见,专利正在逐步成为国家和企业发展的战略性资源以及核心竞争力。专利文本呈现海量的特征,无论是在进行专利侵权诉讼,还是进行专利申请,专利数据挖掘等,对专利文本进行有效的分析处理已显得越来越重要。
专利作为一种特殊的文本形式,相较于其他文本具有技术性强、专业性高、数据结构复杂等特点,而且大部分专利的篇幅很长,专利关键词作为对文本内容的高度概括和归纳的短语,不仅可以帮助人们快速定位到专利文本以及了解一篇专利文本的主要内容,还可以对专利申请、专利侵权判断、专利权认定、专利聚类等进行引导和启发。考虑到专利关键词的重要性,专利文本的自动关键词抽取受到了很大的关注,如何提高专利文本关键词抽取的准确率成为了一个热门的研究方向。
发明内容
本发明实施例提供一种关键词提取方法、终端及计算机可存储介质,可提高专利文本领域中关键词提取结果的准确性。
第一方面,本发明实施例提供了一种关键词提取方法,该方法包括:
输入专利文本;
根据第一预设模型对所述专利文本进行关键词抽取处理,得到关键词候选集;
根据第二预设模型对所述专利文本进行专利要素抽取处理,得到所述专利文本的专利要素集;
将所述关键词候选集与所述专利要素集进行权重值计算,根据权重值计算结果确定出所述专利文本的关键词集合。
在一些可行的实施方式中,所述根据第二预设模型对所述专利文本进行专利要素抽取处理,得到所述专利文本的专利要素集之前,还包括:
定义所述专利文本的标签词以及所述标签词的抽取位置对应关系,所述标签词用于表征专利信息,所述标签词的抽取位置对应关系表示所述标签词所指向的词语抽取位置;
所述根据第二预设模型对所述专利文本进行专利要素抽取处理,得到所述专利文本的专利要素集,包括:
根据所述标签词以及所述标签词的抽取位置对应关系,利用第二预设模型抽取所述标签词所对应的抽取位置上的词语,所述抽取位置包括前向位置和/或后向位置;
将抽取到的词语作为所述专利文本的专利要素集。
在一些可行的实施方式中,所述第一预设模型为主题模型;所述根据第一预设模型对所述专利文本进行关键词抽取处理,得到关键词候选集,包括:
将所述专利文本进行文本预处理专利文本进行文本预处理专利文本进行文本预处理专利文本进行文本预处理专利文本进行文本预处理专利文本进行文本预处理,以建立半结构化词语集合,所述半结构化词语集合包括预设词性的词语;
通过所述主题模型抽取所述专利文本中的主题词集合,所述主题词集合包括至少一个主题词;
确定所述半结构化词语集合中每个词语的主题分布,所述主题分布是指给定词语W的条件下,所述词语W被分布到主题Z的概率;
根据所述每个词语的主题分布计算词语的信息熵,根据所述信息熵计算每个词语的权重值;
根据每个词语的权重值得到关键词候选集。
在一些可行的实施方式中,将所述关键词候选集与所述专利要素集进行权重值计算,根据权重值计算结果确定出所述专利文本的关键词集合,包括:
利用所述第一预设模型对所述关键词候选集与所述专利要素集中的各个词语进行第一权重值计算,并根据第一权重值计算结果确定所述关键词候选集与所述专利要素集中的各个词语的第一排列顺序;
用所述第二预设模型对所述关键词候选集与所述专利要素集中的各个词语进行第二权重值计算,并根据第二权重值计算结果确定所述关键词候选集与所述专利要素集中的各个词语的第二排列顺序;
根据波达计数法Borda投票机制、第一排列顺序以及第二排列顺序,选取前TopS的词语作为所述专利文本的关键词集合。在一些可行的实施方式中,所述第二预设模型包括双向长短期记忆网络条件随机场BILSTM-CRF模型。
第二方面,本发明实施例提供了一种终端,该终端包括用于执行上述第一方面的方法的模块。
第三方面,本发明实施例提供了另一种终端,包括处理器、通信接口、显示屏和存储器,所述处理器、通信接口、显示屏和存储器相互连接,其中,所述存储器用于存储支持终端执行上述方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
本发明实施例通过利用第一预设模型对专利文本进行关键词抽取,得到关键词候选集,然后通过第二预设模型对专利文本进行专利要素抽取,得到专利要素集,再将关键词候选集与专利要素集进行权重值计算,根据权重值计算结果确定出该专利文本的关键词集合,通过结合专利文本的专利要素对关键词候选集的结果进行优化,可以提高专利文本的关键词提取结果的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种用于专利文本的关键词提取的情景示意图;
图2是本发明实施例提供的一种关键词提取方法的流程示意图;
图3是本发明实施例提供的另一种关键词提取方法的流程示意图;
图4是本发明实施例提供的一种终端的示意性框图;
图5是本发明实施例提供的另一种终端的示意性框图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本发明实施例的执行主体可以为各种类型的终端,终端例如可以是计算机、服务器、平板电脑、个人数字助理(英文:Personal Digital Assistant,缩写:PDA)、移动互联网设备(英文:Mobile Internet Device,缩写:MID)等可进行文本处理的设备,本发明对此不作任何限制。
下面结合附图,对本申请的实施例进行描述。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
专利文本的关键词作为专利文本的核心要素和表达文章主题思想的短语或词语,可以帮助人们从大量的专利中快速精确地查找专利并了解其主要内容,在提升许多自然语言处理和信息检索任务(如文本摘要、文本翻译、文本分类聚类、观点挖掘、文本检索等)中有着显著的效果。因此,专利关键词提取(Patent Keywords Extraction)近年来受到越来越多的关注,同时在专利领域的应用也越来越广泛。
在关键词提取领域,传统关键词提取方法依靠领域专家理解文本,人工标注出与目标专利内容相关的关键词,这对于中文专利来说,采用传统手工关键词提取的方式已然不可行。利用计算机进行关键词提取的方法,如有监督的方法,需要对大量专利文本进行人为手动的语料库标注,这需要耗费大量的人力;无监督的方法,如基于统计特征的方法、基于图模型的方法等,可以无需人为标注语料库,但应用在专利文本的关键词抽取时,由于专利文本的专业性和结构性特征较强,抽取效果往往不尽人意。为了有效缓解上述问题,提高关键词提取的准确性,本申请提出了一种关键词提取方法、终端、计算机可存储介质。如图1所示,本申请提出的一种关键词提取方法的主要步骤包括:
101、输入专利文本。
102、利用第一预设模型抽取K个候选关键词。
该第一预设模型可以包括主题模型,例如线性判别分析(Linear DiscriminantAnalysis,LDA)模型、概率潜在语义分析(probabilitistic Latent Semantic Analysis,PLSA)模型、潜在语义分析(Latent SemanticAnalysis,LSA)模型等。在一些可行的实施方式中,当该第一预设模型为主题模型时,利用该第一预设模型抽取K个候选关键词的方式可以为1021-1025所示的步骤:
1021、将该专利文本进行文本预处理,主要包括停用词过滤以及单词词性划分,以建立半结构化词语集合,该半结构化词语集合中包括预设词性的词语,如名词、形容词等。
举例来说,可以使用基于Python第三方库“jieba”的精确模式来实现中文分词,精确模式可以将句子最精确地分开,通过第三方库“jieba”得到该篇专利文本的半结构化词语集合。
1022、通过主题模型抽取该专利文本中的主题词确定该半结构化词语集合中每个词语的主题分布,其中,主题分布是指在给定词语W的条件下,该词语W被分布到主题Z下的概率Pw。
1023、将Pw进行归一化处理,得到归一化主题概率分布矢量值,并利用归一化主题概率分布矢量值计算信息熵。
其中,信息熵是用来衡量随机变量出现的期望值,随机变量的信息熵越大,那么它出现的各种情况也就越多,表示该词语在不同主题下的分布越均匀,该词语不具备明显的主题倾向性,该词语是关键词的可能性就越小;反之,信息熵越小,该词语的主题倾向性就越明显,该词语是关键词的可能性就越大。
1024、根据所述信息熵计算每个词语的权重值。
在一些可行的实施方式中,可以计算该词语的逆文档频率idfi,然后利用该词语的信息熵和逆文档频率idfi,根据权重值计算公式计算该词语的权重值,重复以上过程,直到半结构化词语集合中所有词汇的权重值计算完成,得到权重值计算结果。其中,该权重值计算公式如下所示:
wi 2=1/enti*idfi
其中,wi词汇w的权重值,enti表示词汇w的信息熵,idfi表示词汇w的逆文档频率。
1025、根据每个词语的权重值得到关键词候选集。
具体的,可以是按照权重值从大到小的顺序进行排列,选取前TOPK的关键词组成关键词候选集。
103、利用第二预设模型抽取专利文本的M个专利要素词。
在一些可行的实施方式中,该第二预设模型可以是为BILSTM-CRF模型。
举例来说,利用第二预设模型抽取专利文本的M个专利要素词的方法,可以包括如1031-1033所示的步骤:
1031、定义该专利文本的标签词以及该标签词的抽取位置对应关系,该标签词用于表征专利信息,该标签词的抽取位置对应关系表示该标签词所指向的词语抽取位置。
1032、根据该标签词以及该标签词的抽取位置对应关系,利用第二预设模型抽取该标签词所对应的抽取位置上的词语,该抽取位置包括前向位置和/或后向位置。
1033、将抽取到的词语作为该专利文本的专利要素集。
需要说明的是,通过对大量专利文本分析,可以发现绝大部分的专利文本中都会出现对技术领域、技术效果、技术特征等专利信息的描述,专利作为某一技术方案的法律保护载体,其本质是用于描述了一个技术方案,因此,可以将“技术领域”、“技术效果”、“技术特征”、“解决了…的问题”、“提高了…”、“降低了…”等等作为专利的标签词来抽取重要的词汇,并定义每一个标签词所对应的词语抽取位置,举例来说,定义“技术领域”这一词语对应的词语抽取位置为前向位置,那么将抽取位于“技术领域”一词前面的X个词语作为专利要素。
104、根据K个候选关键词以及M个专利要素词,生成词语集合N。
在一个可行的实施方式中,可以首先将K个候选关键词以及M个专利要素词中重合的词提取出来,作为关键词集合的一部分,然后将剩下的所有词语组合成为词语集合N。
在一些可行的实施方式中,也可以首先将K个候选关键词以及M个专利要素词中重合的词提取出来,作为词语集合N中的一部分,然后将剩下的所有词语组合成为词语集合N。
105、分别利用第一预设模型和第二预设模型对词语集合N中的每个词语进行排序。
利用第一预设模型的权重值计算方式对词语集合N中的每个词语进行权重值计算,并按权重值从大到小的顺序进行排序;利用第二预设模型的权重值计算方式对词语集合N中的每个词语进行权重值计算,并按权重值从大到小的顺序进行排序。
106、利用Borda投票机制计算每个词语的得分,选取得分值前TopS的关键词。
举例来说,词语集合N中的词语w,按照第一预设模型的权重值计算方式,排在倒数第i位,按照第二预设模型的权重值计算方式,排在倒数第m位,那么,根据Borda投票机制可以得出该词语w的得分为:i*1+m*1。根据每个词语的得分结果,选取得分值前TopS的关键词。
在一些可行的实施方式中,如果词语集合N中不包括K个候选关键词以及M个专利要素词中重合的词,那么可以将该K个候选关键词以及M个专利要素词中重合的词提取出来,作为最终得到的关键词集合中的一部分,然后再利用Borda投票机制选取TopS的关键词作为关键词集合中的另一部分。如果词语集合N中包括K个候选关键词以及M个专利要素词中重合的词,那么可以利用Borda投票机制选取TopS的关键词作为关键词集合。
可以看出,本申请实施例通过利用第一预设模型抽取专利文本中的K个候选关键词,利用第二预设模型抽取专利文本的M个专利要素词,然后利用Borda投票机制对每个词语进行打分,根据分数在前TopS的词语生成关键词集合的方式,无需人工进行关键词抽取,并且结合了专利的结构和文本特征,通过引入专利要素对关键词提取方式进行了优化,使针对专利文本关键词提取结果与专利文本的主要内容更相关,提高了专利文本关键词提取的准确率。
下面将描述本申请的方法实施例。请参阅图2,为本申请提供的一种关键词提取方法的流程示意图,如图2所示的关键词提取方法可包括:
S201、输入专利文本。
需要说明的是,该专利文本的格式可以为txt,doc,pdf,acj等任意一种或多种形式,本申请对此不做任何限制。
S202、根据第一预设模型对所述专利文本进行关键词抽取处理,得到关键词候选集。
在一些可行的实施方式中,所述第一预设模型为主题模型,例如LDA模型、PLSA模型、LSA模型等。
所述根据第一预设模型对所述专利文本进行关键词抽取处理,得到关键词候选集,包括:
S2021、将所述专利文本进行文本预处理,以建立半结构化词语集合。
所述半结构化词语集合包括预设词性的词语,例如名词、形容词、名词+形容词组成的短语。
文本预处理可以包括对专利文本进行停用词过滤以及单词词性划分。举例来说,可以使用基于Python第三方库“jieba”的精确模式来实现中文分词,精确模式可以将句子最精确地分开,通过第三方库“jieba”得到该篇专利文本的半结构化词语集合。
S2022、通过所述主题模型确定所述半结构化词语集合中每个词语的主题分布。
所述主题分布是指给定词语W的条件下,所述词语W被分布到主题Z的概率。
S2023、根据所述每个词语的主题分布计算词语的信息熵,根据所述信息熵计算每个词语的权重值。
在一些可行的实施方式中,可以将该给定词语W的主题分布表示为Pw,Pw进行归一化处理,可以得到归一化主题概率分布矢量值,并利用归一化主题概率分布矢量值计算信息熵,然后可以根据信息熵计算出词语W的权重值。
其中,信息熵是用来衡量随机变量出现的期望值,随机变量的信息熵越大,那么它出现的各种情况也就越多,表示该词语在不同主题下的分布越均匀,该词语不具备明显的主题倾向性,该词语是关键词的可能性就越小;反之,信息熵越小,该词语的主题倾向性就越明显,该词语是关键词的可能性就越大。
举例来说,根据信息熵计算出词语W的权重值可以是计算该词语的逆文档频率idfi,然后利用该词语的信息熵和逆文档频率idfi,根据权重值计算公式计算该词语的权重值,重复以上过程,直到半结构化词语集合中所有词汇的权重值计算完成,得到权重值计算结果。其中,该权重值计算公式如下所示:
wi 2=1/enti*idfi
其中,wi词汇w的权重值,enti表示词汇w的信息熵,idfi表示词汇w的逆文档频率。
S2024、根据每个词语的权重值得到关键词候选集。
举例来说,可以是按照权重值从大到小的顺序进行排列,选取前TOPK的关键词组成关键词候选集。
S203、根据第二预设模型对所述专利文本进行专利要素抽取处理,得到所述专利文本的专利要素集。
在一些可行的实施方式中,请参阅图3,在根据第二预设模型对所述专利文本进行专利要素抽取处理,得到所述专利文本的专利要素集之前,还可以包括:
S301、定义所述专利文本的标签词以及所述标签词的抽取位置对应关系。
其中,所述标签词用于表征专利信息,所述标签词的抽取位置对应关系表示所述标签词所指向的词语抽取位置。
需要说明的是,通过对大量专利文本分析,可以发现绝大部分的专利文本中都会出现对技术领域、技术效果、技术特征等专利信息的描述,专利作为某一技术方案的法律保护载体,其本质是用于描述了一个技术方案,因此,可以将“技术领域”、“技术效果”、“技术特征”、“解决了…的问题”、“提高了…”、“降低了…”等等作为专利的标签词来抽取专利信息,同时,定义每一个标签词所对应的词语抽取位置,举例来说,定义“技术领域”这一词语对应的词语抽取位置为前向位置,那么将抽取位于“技术领域”一词前面的X个词语作为专利要素。
所述根据第二预设模型对所述专利文本进行专利要素抽取处理,得到所述专利文本的专利要素集,可以包括:
S302、根据所述标签词以及所述标签词的抽取位置对应关系,利用第二预设模型抽取所述标签词所对应的抽取位置上的词语。
所述抽取位置包括前向位置和/或后向位置。
S303、将抽取到的词语作为所述专利文本的专利要素集。
在一些可行的实施方式中,该第二预设模型包括BILSTM-CRF模型。举例来说,可以通过标签词的指导,利用BILSTM-CRF模型抽取该标签词对应抽取位置上的X个词语,并将抽取出的词语去重、组合形成该专利文本的专利要素集。
S204、将所述关键词候选集与所述专利要素集进行权重值计算,根据权重值计算结果确定出所述专利文本的关键词集合。
在一些可行的实施方式中,将所述关键词候选集与所述专利要素集进行权重值计算,根据权重值计算结果确定出所述专利文本的关键词集合,包括:利用所述第一预设模型对所述关键词候选集与所述专利要素集中的各个词语进行第一权重值计算,并根据第一权重值计算结果确定所述关键词候选集与所述专利要素集中的各个词语的第一排列顺序;用所述第二预设模型对所述关键词候选集与所述专利要素集中的各个词语进行第二权重值计算,并根据第二权重值计算结果确定所述关键词候选集与所述专利要素集中的各个词语的第二排列顺序;根据Borda投票机制、第一排列顺序以及第二排列顺序,选取前TopS的词语;根据所述前TopS的词语生成所述专利文本的关键词集合。
举例来说,在得到候选关键词集(假设包括K个候选关键词)以及专利要素集(假设包括M个专利要素词)之后,可以根据K个候选关键词以及M个专利要素词,生成词语集合N,然后分别利用第一预设模型和第二预设模型对词语集合N中的每个词语进行排序,得到各自的排序结果,然后利用Borda投票机制计算每个词语的得分,选取得分值前TopS的关键词。
举例来说,词语集合N中的词语w,按照第一预设模型的权重值计算方式,排在倒数第i位,按照第二预设模型的权重值计算方式,排在倒数第m位,那么,根据Borda投票机制可以得出该词语w的得分为:i*1+m*1。根据每个词语的得分结果,选取得分值前TopS的关键词。
在一些可行的实施方式中,词语集合N可以不包括K个候选关键词以及M个专利要素词中重合的词,那么可以将该K个候选关键词以及M个专利要素词中重合的词提取出来,作为最终得到的关键词集合中的一部分,然后再利用Borda投票机制选取TopS的关键词作为关键词集合中的另一部分。如果词语集合N中包括K个候选关键词以及M个专利要素词中重合的词,那么可以利用Borda投票机制选取TopS的关键词作为关键词集合。
可以看出,本申请实施例通过利用第一预设模型抽取专利文本的关键词候选集,利用第二预设模型抽取专利文本的专利要素集合,然后将所述关键词候选集与所述专利要素集进行权重值计算,根据权重值计算结果确定出所述专利文本的关键词集合,可以无需人工进行关键词抽取,并且结合了专利的结构和文本特征,通过引入专利要素对关键词提取方式进行了优化,使针对专利文本关键词提取结果与专利文本的主要内容更相关,提高了专利文本关键词提取的准确率。
下面为本发明装置实施例,本发明装置实施例用于执行本发明方法第一实施例和第二实施例实现的方法,为了便于说明,仅示出了本发明实施例相关的部分,具体未揭示的部分,请参照本发明第一实施例至第二实施例。
请参阅图5,为本发明实施例提供的一种终端的结构示意图。如图5所示的终端,可以包括:
输入模块401,用于输入专利文本;
处理模块402,用于根据第一预设模型对所述专利文本进行关键词抽取处理,得到关键词候选集,以及根据第二预设模型对所述专利文本进行专利要素抽取处理,得到所述专利文本的专利要素集;
确定模块403,用于将所述关键词候选集与所述专利要素集进行权重值计算,根据权重值计算结果确定出所述专利文本的关键词集合。
在一些可行的实施方式中,该终端还包括:定义模块(图4未示出),用于定义所述专利文本的标签词以及所述标签词的抽取位置对应关系,所述标签词用于表征专利信息,所述标签词的抽取位置对应关系表示所述标签词所指向的词语抽取位置。
所述处理模块402,具体用于根据所述标签词以及所述标签词的抽取位置对应关系,利用第二预设模型抽取所述标签词所对应的抽取位置上的词语,所述抽取位置包括前向位置和/或后向位置;将抽取到的词语作为所述专利文本的专利要素集。
在一些可行的实施方式中,所述第一预设模型为主题模型;所述处理模块402,具体用于将所述专利文本进行文本预处理,以建立半结构化词语集合,所述半结构化词语集合包括预设词性的词语;通过所述主题模型确定所述半结构化词语集合中每个词语的主题分布,所述主题分布是指给定词语W的条件下,所述词语W被分布到主题Z的概率;根据所述每个词语的主题分布计算词语的信息熵,根据所述信息熵计算每个词语的权重值;根据每个词语的权重值得到关键词候选集。
在一些可行的实施方式中,所述确定模块403,具体用于利用所述第一预设模型对所述关键词候选集与所述专利要素集中的各个词语进行第一权重值计算,并根据第一权重值计算结果确定所述关键词候选集与所述专利要素集中的各个词语的第一排列顺序;用所述第二预设模型对所述关键词候选集与所述专利要素集中的各个词语进行第二权重值计算,并根据第二权重值计算结果确定所述关键词候选集与所述专利要素集中的各个词语的第二排列顺序;根据Borda投票机制、第一排列顺序以及第二排列顺序,选取前TopS的词语;根据所述前TopS的词语生成所述专利文本的关键词集合。
在一些可行的实施方式中,所述第二预设模型包括BILSTM-CRF模型。
可以看出,本申请实施例通过利用第一预设模型抽取专利文本的关键词候选集,利用第二预设模型抽取专利文本的专利要素集合,然后将所述关键词候选集与所述专利要素集进行权重值计算,根据权重值计算结果确定出所述专利文本的关键词集合,可以无需人工进行关键词抽取,并且结合了专利的结构和文本特征,通过引入专利要素对关键词提取方式进行了优化,使针对专利文本关键词提取结果与专利文本的主要内容更相关,提高了专利文本关键词提取的准确率。
请参阅图5,为本发明实施例提供的一种终端的结构示意图。
如图5所示,本发明实施例中的话题获取装置包括:至少一个输入设备1000;至少一个处理器2000,例如CPU;至少一个存储器3000;至少一个输出设备4000,上述输入设备1000、处理器2000、存储器3000和输出设备4000通过总线连接。其中,总线用于实现这些组件之间的连接通信。其中,本发明实施例中装置的输入设备1000和输出设备4000可以是有线发送端口,也可以为无线设备,例如包括天线装置,用于与其他节点设备进行信令或数据的通信。
该处理器2000可以是中央处理器2000(central processing unit,CPU),网络处理器2000(network processor,NP)或者CPU和NP的组合。
该处理器2000还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit,ASIC),可编程逻辑器件(programmablelogic device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammable logic device,CPLD),现场可编程逻辑门阵列(field-programmable gatearray,FPGA),通用阵列逻辑(generic array logic,GAL)或其任意组合。
该存储器3000可以包括易失性存储器3000(volatile memory),例如随机存取存储器3000(random-access memory,RAM);存储器3000也可以包括非易失性存储器3000(non-volatile memory),例如快闪存储器3000(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);存储器3000703还可以包括上述种类的存储器3000的组合。
可选地,该存储器3000还用于存储程序指令。该处理器2000可以调用该存储器3000存储的程序指令,实现如本发明第一实施例、第二实施例所示的方法。
该总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
具体的,处理器2000,用于输入专利文本;根据第一预设模型对所述专利文本进行关键词抽取处理,得到关键词候选集;根据第二预设模型对所述专利文本进行专利要素抽取处理,得到所述专利文本的专利要素集;将所述关键词候选集与所述专利要素集进行权重值计算,根据权重值计算结果确定出所述专利文本的关键词集合。
前述图1~图3所示的实施例中,各步骤方法流程可以基于该终端的结构实现。
前述图4所示的实施例中,各模块的功能可以基于该终端的结构实现。
本发明实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任何一种关键词提取方法的部分或全部步骤。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种关键词提取方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述模块及单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
所述集成的模块如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本发明实施例进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (6)
1.一种关键词提取方法,其特征在于,所述关键词提取方法应用于专利文本,所述方法包括:
输入专利文本;
根据第一预设模型对所述专利文本进行关键词抽取处理,得到关键词候选集;包括:
将所述专利文本进行文本预处理,以建立半结构化词语集合,所述半结构化词语集合包括预设词性的词语;
通过主题模型确定所述半结构化词语集合中每个词语的主题分布,所述主题分布是指给定词语W的条件下,所述词语W被分布到主题Z的概率;
根据所述每个词语的主题分布计算词语的信息熵,根据所述信息熵计算每个词语的权重值;
根据每个词语的权重值得到关键词候选集;
根据第二预设模型对所述专利文本进行专利要素抽取处理,得到所述专利文本的专利要素集;包括:
定义该专利文本的标签词以及该标签词的抽取位置对应关系,该标签词用于表征专利信息,该标签词的抽取位置对应关系表示该标签词所指向的词语抽取位置;
根据该标签词以及该标签词的抽取位置对应关系,利用第二预设模型抽取该标签词所对应的抽取位置上的词语,该抽取位置包括前向位置和/或后向位置;
将抽取到的词语作为该专利文本的专利要素集;
将所述关键词候选集与所述专利要素集进行权重值计算,根据权重值计算结果确定出所述专利文本的关键词集合。
2.如权利要求1所述的方法,其特征在于,将所述关键词候选集与所述专利要素集进行权重值计算,根据权重值计算结果确定出所述专利文本的关键词集合,包括:
利用所述第一预设模型对所述关键词候选集与所述专利要素集中的各个词语进行第一权重值计算,并根据第一权重值计算结果确定所述关键词候选集与所述专利要素集中的各个词语的第一排列顺序;
用所述第二预设模型对所述关键词候选集与所述专利要素集中的各个词语进行第二权重值计算,并根据第二权重值计算结果确定所述关键词候选集与所述专利要素集中的各个词语的第二排列顺序;
根据波达计数法Borda投票机制、第一排列顺序以及第二排列顺序,选取前TopS的词语;
根据所述前TopS的词语生成所述专利文本的关键词集合。
3.如权利要求1所述的方法,其特征在于,所述第二预设模型包括双向长短期记忆网络条件随机场BILSTM-CRF模型。
4.一种终端,其特征在于,包括用于执行如权利要求1-3任一权利要求所述的方法的模块。
5.一种终端,其特征在于,包括处理器、通信接口、显示屏和存储器,所述处理器、通信接口、显示屏和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-3任一项所述的方法。
6.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-3任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010217695.4A CN111444712B (zh) | 2020-03-25 | 2020-03-25 | 一种关键词提取方法、终端、计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010217695.4A CN111444712B (zh) | 2020-03-25 | 2020-03-25 | 一种关键词提取方法、终端、计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111444712A CN111444712A (zh) | 2020-07-24 |
CN111444712B true CN111444712B (zh) | 2022-08-30 |
Family
ID=71652457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010217695.4A Active CN111444712B (zh) | 2020-03-25 | 2020-03-25 | 一种关键词提取方法、终端、计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111444712B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632217B (zh) * | 2020-12-10 | 2022-12-20 | 国网江苏省电力有限公司电力科学研究院 | 适用于电力行业的专利体系划分方法、设备及存储介质 |
CN112784009B (zh) * | 2020-12-28 | 2023-08-18 | 北京邮电大学 | 一种主题词挖掘方法、装置、电子设备及存储介质 |
CN114510937A (zh) * | 2021-12-31 | 2022-05-17 | 富联智能工坊(郑州)有限公司 | 关键词生成方法、存储介质、关键词生成装置及服务器 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156204A (zh) * | 2015-04-23 | 2016-11-23 | 深圳市腾讯计算机系统有限公司 | 文本标签的提取方法和装置 |
CN106372038A (zh) * | 2015-07-23 | 2017-02-01 | 北京国双科技有限公司 | 关键词的抽取方法及装置 |
CN109918510A (zh) * | 2019-03-26 | 2019-06-21 | 中国科学技术大学 | 跨领域关键词提取方法 |
CN109933804A (zh) * | 2019-03-27 | 2019-06-25 | 北京信息科技大学 | 融合主题信息与双向lstm的关键词抽取方法 |
CN110807084A (zh) * | 2019-05-15 | 2020-02-18 | 北京信息科技大学 | 一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法 |
-
2020
- 2020-03-25 CN CN202010217695.4A patent/CN111444712B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156204A (zh) * | 2015-04-23 | 2016-11-23 | 深圳市腾讯计算机系统有限公司 | 文本标签的提取方法和装置 |
CN106372038A (zh) * | 2015-07-23 | 2017-02-01 | 北京国双科技有限公司 | 关键词的抽取方法及装置 |
CN109918510A (zh) * | 2019-03-26 | 2019-06-21 | 中国科学技术大学 | 跨领域关键词提取方法 |
CN109933804A (zh) * | 2019-03-27 | 2019-06-25 | 北京信息科技大学 | 融合主题信息与双向lstm的关键词抽取方法 |
CN110807084A (zh) * | 2019-05-15 | 2020-02-18 | 北京信息科技大学 | 一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法 |
Non-Patent Citations (2)
Title |
---|
Automatic Keyword Extraction Method for 3GPP Technical Standard;Huan Li;《2017 International Conference on Computer Systems, Electronics and Control (ICCSEC)》;20180827;全文 * |
基于BiLSTM-CRF的关键词自动抽取;陈伟 等;《计算机科学》;20180630;第45卷(第6A期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111444712A (zh) | 2020-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11675977B2 (en) | Intelligent system that dynamically improves its knowledge and code-base for natural language understanding | |
CN109471933B (zh) | 一种文本摘要的生成方法、存储介质和服务器 | |
CN112347778B (zh) | 关键词抽取方法、装置、终端设备及存储介质 | |
CN110909122B (zh) | 一种信息处理方法及相关设备 | |
CN109783787A (zh) | 一种结构化文档的生成方法、装置及存储介质 | |
CN113836938B (zh) | 文本相似度的计算方法及装置、存储介质、电子装置 | |
CN111324771B (zh) | 视频标签的确定方法、装置、电子设备及存储介质 | |
CN111444712B (zh) | 一种关键词提取方法、终端、计算机可读存储介质 | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
CN111144120A (zh) | 一种训练语句的获取方法、装置、存储介质及电子设备 | |
EP4095738A1 (en) | Entity recognition method and apparatus, dictionary creation method, device, and medium | |
CN102043843A (zh) | 一种用于基于目标应用获取目标词条的方法与获取设备 | |
CN110134780B (zh) | 文档摘要的生成方法、装置、设备、计算机可读存储介质 | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN109472022B (zh) | 基于机器学习的新词识别方法及终端设备 | |
CN110110332B (zh) | 文本摘要生成方法及设备 | |
CN111159389A (zh) | 基于专利要素的关键词提取方法、终端、可读存储介质 | |
CN112597300A (zh) | 文本聚类方法、装置、终端设备及存储介质 | |
CN113204956B (zh) | 多模型训练方法、摘要分段方法、文本分段方法及装置 | |
CN115017870A (zh) | 一种闭环的话术扩写方法、装置、计算机设备及存储介质 | |
CN114722832A (zh) | 一种摘要提取方法、装置、设备以及存储介质 | |
CN114138936A (zh) | 一种文本摘要的生成方法、装置、电子设备和存储介质 | |
CN114255067A (zh) | 数据定价方法和装置、电子设备、存储介质 | |
Nasim et al. | Evaluation of clustering techniques on Urdu News head-lines: A case of short length text | |
CN108763258B (zh) | 文档主题参数提取方法、产品推荐方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240603 Address after: 401121 No. 9-1 Yunshan South Road, Liangjiang New Area, Yubei District, Chongqing Patentee after: Chongqing Leyong Technology (Group) Co.,Ltd. Country or region after: China Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS Country or region before: China |