[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN113743090A - 一种关键词提取方法及装置 - Google Patents

一种关键词提取方法及装置 Download PDF

Info

Publication number
CN113743090A
CN113743090A CN202111048659.0A CN202111048659A CN113743090A CN 113743090 A CN113743090 A CN 113743090A CN 202111048659 A CN202111048659 A CN 202111048659A CN 113743090 A CN113743090 A CN 113743090A
Authority
CN
China
Prior art keywords
word
sentence
words
processed
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111048659.0A
Other languages
English (en)
Other versions
CN113743090B (zh
Inventor
张雅琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Du Xiaoman Technology Beijing Co Ltd
Original Assignee
Du Xiaoman Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Du Xiaoman Technology Beijing Co Ltd filed Critical Du Xiaoman Technology Beijing Co Ltd
Priority to CN202111048659.0A priority Critical patent/CN113743090B/zh
Publication of CN113743090A publication Critical patent/CN113743090A/zh
Application granted granted Critical
Publication of CN113743090B publication Critical patent/CN113743090B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种关键词提取方法及装置,对待处理语句进行分词处理后,对分词结果进行碎词合并,然后,基于关键词字典获得每个词语的TF‑IDF值。对待处理语句进行分句,并对每个短句进行分词处理和碎词合并,得到每个短句包含的词语,进一步对每个短句包含的词语进行依存句法分析,得到该短句的核心词组;根据待处理语句所包含的每个词语及其对应的TF‑IDF值,以及该待处理语句包含的核心词组,确定出该待处理语句的关键词。该方案针对整个句子提取词语后,再将整个句子划分为短句,然后针对每个短句提取核心词组,以确保不会遗漏重要信息。而且,该方案进行分词后,又进行了碎词合并,不仅减少了词语数量,同时还使提取的关键词信息更加完整。

Description

一种关键词提取方法及装置
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种关键词提取方法及装置。
背景技术
关键词提取就是从文本里面自动提取出最能表达文本意义的词语。目前的关键词提取技术,如词频-逆向文件频率技术、textrank、主题模型提取关键词等,基本都是基于文档、文章等长文本语料,此类语料的特点是字数多、词数多、信息量大、主题明确,且上下文有很明确的关系。
在自动问答的应用场景中,用户输入一句话,自动问答系统需要提取出此句话的关键词,而自动问答系统中的语句通常具有如下特点:①内容简短、字数比较少;②目的明确;③一句话包含多个含义;④非常口语化,表达灵活、风格各异。可见,自动问答系统中的语料与长文本语料的特点完全不同,因此,上述的适用于长文本的关键词提取技术不适用于自动问答系统的短文本语料。
发明内容
有鉴于此,本发明的目的在于提供一种关键词提取方法及装置,以解决上述的技术问题,其公开的具体技术方案包括:
第一方面,本申请提供了一种关键词提取方法,包括:
对待处理语句进行分词处理得到分词结果,并对所述分词结果进行碎词合并,得到分词合并结果;
基于预先训练得到的关键词字典,获得所述分词合并结果中每个词语的词频-逆向文件频率,所述关键词字典包括每个关键词对应的词频-逆向文件频率;
对所述待处理语句进行分句,对于每个短句进行分词处理及碎词合并,得到所述短句包含的词语,以及对每个短句包含的词语进行依存句法分析,得到所述短句包含的核心词组;
基于所述待处理语句包含的词语、所述词语对应的词频-逆向文件频率,以及所述核心词组,获得所述待处理语句的关键词。
在第一方面一种可能的实现方式中,所述基于所述待处理语句包含的词语、所述词语对应的词频-逆向文件频率,以及所述核心词组,获得所述待处理语句的关键词,包括:
获取所述待处理语句包含的词语对应的权重系数,所述权重系数包括所述词语的位置对应的权重和核心词组对应的权重;
基于每个词语对应的权重系数及词频-逆向文本频率,获得所述词语对应的目标权重;
根据所述待处理语句中每个词语对应的目标权重由高到低的顺序,确定前预设数量个词语为所述待处理语句的关键词。
在第一方面另一种可能的实现方式中,所述权重系数包括词频-逆向文件频率对应的第一权重、所述核心词组对应的第二权重、所述短句在所述待处理语句中所处位置对应的第三权重、每个所述核心词组的词性对应的第四权重;
所述基于每个词语对应的权重系数及词频-逆向文本频率,获得所述词语对应的目标权重,包括:
计算所述词语对应的所述第一权重与所述词语的词频-逆向文本频率的乘积;
计算所述乘积与所述第二权重、所述第三权重及所述第四权重的总和,得到所述词语对应的目标权重。
在第一方面又一种可能的实现方式中,所述第一权重、所述第二权重、所述第三权重和所述第四权重的最大值总和等于1;
所述核心词组对应的第二权重为第二权重预设值,非核心词组的词语对应的第二权重为0;
处于所述待处理语句的句首或句尾的短句对应的第三权重的数值,高于所述待处理语句中其他位置的短句对应的第三权重;
不同词性的词语对应的所述第四权重不同。
在第一方面再一种可能的实现方式中,所述对所述待处理语句进行分句,对于每个短句进行分词处理及碎词合并,得到所述短句包含的词语,包括:
按照所述待处理语句包含的标点符合,将所述待处理语句划分为短句;
对所述短句进行分词处理得到分词结果,并对所述分词结果包含的共现频率大于预设阈值的词语进行合并,得到所述短句包含的词语。
在第一方面另一种可能的实现方式中,所述对每个短句包含的词语进行依存句法分析,得到所述短句包含的核心词组,包括:
利用依存句法分析方法,分析所述短句包含的词语之间的语义依存关系;
根据所述语义依存关系,确定出所述短句中的核心词组。
在第一方面又一种可能的实现方式中,所述根据所述语义依存关系,确定出所述短句包含的核心词组,包括:
根据所述语义依存关系,提取出所述短句的初始核心词语;
根据所述初始核心词语对应的语义依存关系,扩充所述初始核心词语,得到所述核心词组。
在第一方面再一种可能的实现方式中,获取关键词字典的过程,包括:
针对训练语句集合中的任一语句,进行分词处理和碎词合并,得到所述语句包含的词语;
对于每个词语,根据所述词语的词频和包含所述词语的语句数据量,计算得到所述词语的词频-逆向文件频率,获得所述训练语句集合所包含的每个词语的词频-逆向文件频率。
第二方面,本申请还提供了一种关键词提取装置,包括:
分词与碎词合并模块,用于对待处理语句进行分词处理得到分词结果,并对所述分词结果进行碎词合并,得到分词合并结果;
词频-逆向文件频率获取模块,用于基于预先训练得到的关键词字典,获得所述分词合并结果中每个词语的词频-逆向文件频率,所述关键词字典包括每个关键词对应的词频-逆向文件频率;
核心词组获取模块,用于对所述待处理语句进行分句,对于每个短句进行分词处理及碎词合并,得到所述短句包含的词语,以及对每个短句包含的词语进行依存句法分析,得到所述短句包含的核心词组;
关键词确定模块,用于基于所述待处理语句包含的词语、所述词语对应的词频-逆向文件频率,以及所述核心词组,获得所述待处理语句的关键词。
第三方面,本申请还提供了一种电子设备,包括:存储器和处理器;
所述存储器内存储有程序,所述处理器调用所述存储器内的程序以实现第一方面任一种可能的实现方式所述的关键词提取方法。
第四方面,本申请还提供了一种计算机可读存储介质,其特征在于,该存储介质中存储有程序,该程序由计算设备执行时实现第一方面或任一种可能的实现方式所述的关键词提取方法。
本申请提供的关键词提取方法,对待处理语句进行分词处理后,对分词结果进行合并,然后,基于关键词字典获得每个词语的TF-IDF值。进一步,对待处理语句进行分句,并对每个短句进行分词处理和碎词合并,得到每个短句包含的词语,进一步对每个短句包含的词语进行依存句法分析,得到该短句的核心词组;根据待处理语句所包含的每个词语及其对应的TF-IDF值,以及该待处理语句包含的核心词组,确定出该待处理语句的关键词。该方案针对整个句子提取词语后,再将整个句子划分为短句,然后针对每个短句提取核心词组,以确保不会遗漏重要信息。而且,该方案在对语句进行分词处理后,还进行了碎词合并,这样,不仅减少了词语数量,同时还使提取的关键词信息更加完整。综上,该方案适用于自动问答系统语料的关键词提取,即该方案针对自动问答系统的语料,提取的关键词更准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种关键词提取过程的具体流程示意图;
图2是本申请实施例提供的一种关键词提取方法的流程图;
图3是本申请实施例提供的利用语料训练得到关键词字典的过程的流程图;
图4是本申请实施例提供的获得待处理语句的关键词的过程的流程图;
图5是本申请实施例提供的一种关键词提取装置的框图。
具体实施方式
在详细介绍本申请提供的方法实施例之前,先将本申请涉及的技术术语进行说明。
词频-逆向文件频率:英文全拼为TermFrequency-inverse Document Frequency,英文缩写为TF-IDF,其中,TF是某个词语在文章中出现的次数,即词频;IDF是语料库中文档总数与包含该词语的文档数的比值,TF-IDF从统计学的角度计算词语的重要度。
中文分词技术:中文分词算法是指将一个汉字序列切分成一个个单独的词,中文字符在语义识别时,需要把数个中文字符组合成词,才能表达出真正的含义。
碎词合并:顾名思义就是将两个共现概率比较高的词语合并成一个词语。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1和图2,图1示出了本申请实施例提供的一种关键词提取过程的具体流程示意图,图2示出了本申请实施例提供的一种关键词提取方法的流程图。
本申请提供的关键词提取方法应用于电子设备,该电子设备可以是终端设备,如手机、电脑、平板电脑等,还可以是服务器。
如图1所示,对于一个待处理语句,先经过分词处理和碎词合并,并查询关键词字典获得该语句包含的每个词语对应的TF-IDF值(请详见图2所示的S110和S120);然后,对该待处理语句按照标点将整句话分成若干个短句,针对每个短句执行以下步骤:分词处理和碎词合并(请详见图2所示的S130),然后进行依存句法分析,并根据依存分析结果提取出核心词组(请详见图2所示的S140)。最后,对于待处理语句中的每个词语,根据TF-IDF值、每个词语对应的权重,获得每个词语对应的目标权重,并按目标权重由高到低的顺序取前n个词语确定为该待处理语句对应的关键词。
下面将结合图2介绍本申请提供的关键词提取方法的过程:
S110,对待处理语句进行分词处理得到分词结果,并对分词结果进行碎词合并,得到分词合并结果。
待处理语句是指需要提取关键词的任意一个语句,例如,在线客服自动问答应用场景中,待处理语句是用户输入的语句。
可以利用中文分词工具对待处理语句进行分词,得到相应的分词结果,例如,对原语句“麻烦你告诉我在哪里退货”,进行分词处理后得到的分词结果是“麻烦,你,告诉,我,在,哪里,退货”。
碎词合并的主要作用是:1)将口语化的词语进行合并;例如,“麻烦,你,告诉,我,在,哪里,退货”进行碎词合并后为“麻烦你,告诉我,在哪里,退货”,碎词合并技术能够极大地减少语句的分词数量。
2)将专有名词进行合并还原。例如,专有名词“水滴保险”会被分成“水滴,保险”,而这样分词后语义会被改变,因此需要将这两个词语合并成“水滴保险”。
碎词合并是统计相邻的左右两个词语一起出现的次数,如果共现次数超过某一阈值,则将这两个词语合并成一个词语,该技术不急能够极大地减少词语数量,还能使提取出的关键词更加完整地保留语义。
S120,基于预先训练得到的关键词字典,获得分词合并结果的每个词语对应的TF-IDF值。
所述关键词字典包括每个关键词对应的词频-逆向文件频率。
如图3所示,利用语料训练得到关键词字典的过程包括以下步骤:
S121,对输入语句集合中的每个语句进行分词处理和碎词合并,得到该语句包含的关键词。
训练时,将所有输入语句合并成一个数据集合,先对其中的每个语句进行分词与碎词合并。
S122,计算每个关键词的对应的TF-IDF值。
当获得完整的关键词集合后,对于集合中的每个关键词,先统计每个词语出现的词频(TF),然后统计语料库中出现此词语的文本数,计算得到这个词的TF-IDF值,最后将每个词以及它的TF-IDF值作为一个字典进行输出。
TF-IDF用以评估一个词语对于一个文件及或一个语料库中的一份文件的重要程度。词语的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。换言之,一个词语在一个文本中出现次数越多,同时在所有文档中出现次数越少,越能代表该文章。
TF即词频,是指一个给定的词语在某一文件中出现的次数,该数字通常会被归一化,例如,TF等于一词语在一文本中出现的次数除以该文本的总词语数的商。
IDF即逆向文件频率,如果包含该词语的文档越少,IDF越大。某一给定词语的IDF可以将语料库中的总文本数量除以包含该词语的文本数量,再将得到的商取对数得到,即IDF的计算公式如下:
IDF=log(语料库中的文本总数量/包含该词语的文本数量)
最后,根据上述计算得到的TF值和IDF值计算得到TF-IDF值,其中,TF-IDF值的计算公式为TF-IDF=TF*IDF。
S123,根据每个关键词及对应的TF-IDF值生成关键词字典。
计算得到语料库中每个词语的TF-IDF值后,将每个词语以及该词语的TF-IDF值作为关键词字典输出。例如,关键词字典{‘w1’:tfidf_1,‘w2’:tfidf_2,‘w3’:tfidf_3,…,‘wn’:tfidf_n},其中,‘w1’表示词语,tfidf_1表示“w1”这个词语对应的TF-IDF值,以此类推,‘wn’表示第n个词语,tfidf_n表示‘wn’这个词语对应的TF-IDF值。
后续可以直接使用该关键词字典查询词语对应的TF-IDF值,对于一个给定词语,可以直接从关键词字典中查询该词语对应的TF-IDF值。例如,直接查询关键词字典中是否包含与要查询的词语相同的关键词(如,通过中文词匹配算法确定关键词字典中是否包含与要查询的词语相同的词语),如果存在,则读取该词语对应的TF-IDF值确定为要查询的词语对应的TF-IDF值。
S130,对待处理语句进行分句,对于每个短句进行分词处理及碎词合并,得到每个短句包含的词语。
在自动问答系统中,用户输入的一句话可能会包含多个信息,这些信息通过标点符号区分开。为了提高该应用场景下的关键词提取的准确率,先将待处理语句按照标点符合进行分句,得到不同的短句。再针对每个短句提取关键词,这样不会丢掉重要信息。
对于每个短句而言,先进行分词处理和碎词合并,得到该短句包含的词语。
S140,对每个短句包含的词语进行依存句法分析,得到该短句包含的核心词组。
依存句法分析是根据给定的语法体系,自动推导出句子的句法结构,分析句子所包含的句法单位和这些句法单位之间的关系。
在一种可能的实现方式中,基于依存句法分析,分析短句包含的词语之间的语义依存关系,进一步根据该语义依存关系确定出该短句中的核心词组。
在另一种可能的实现方式中,基于依存句法分析方法分析短句包含的词语之间的语义依存关系,根据该语义依存关系,提取出短句的核心词语,作为该短句的初始核心词语,然后,根据初始核心词语的主谓结构、动宾结构与状中结构等进行核心词扩充,得到该短句的核心词组。
例如,某个短句为“现在是不是我的情况又符合投保要求了?”首先对该语句进行分词处理和碎词合并后为“现在|是不是|我的情况|又|符合|投保要求了”,利用依存句法分析,这个短句中的“符合”是动词,即整个短句的谓语,因此,该短句的核心词是“符合”。“符合”与“投保要求”是动宾结构,而且,“投保要求”有具体含义的词语,因此,将核心词组扩充为“符合投保要求”。
而“我的情况”与“符合”是主谓结构,但是“我的情况”并不是一个拥有具体含义的词语,将这类词语扩充到核心词组中不会起到关键词的作用,因此,不扩充该词语“我的情况”至核心词组。
S150,基于待处理语句包含的词语、词语对应的TF-IDF值,以及核心词组,获得待处理语句的关键词。
在本申请的一个实施例中,如图4所示,获得待处理语句的关键词的过程可以包括:
S151,获取待处理语句包含的词语及该词语对应的权重系数。
在一种可能的实现方式中,为每个词语设置相应的权重系数,例如,位置权重、核心词组对应的权重等。
S152,基于每个词语对应的权重系数及TF-IDF值,获得该词语对应的目标权重。
对于一个给定的词语,影响其是否是关键词语的因素包括多种,例如,词语的TF-IDF值、词语在语句中的位置、词语的词性、词语是否是核心词组等,本申请实施例将从上述的四个维度分别说明这四个维度对关键词的影响。因此,在本申请的一个实施例中,每个词语对应的权重系数包括如下四个权重:
1)对每个TF-IDF值设定一个权重tfidf_weight,即第一权重。
第一权重用于表征TF-IDF值这一维度对词语是关键词的影响程度,不同TF-IDF值对应的tfidf_weight数值相同,该tfidf_weight数值大小可以根据实际情况确定,数值越大表明TF-IDF值这一维度对关键词的影响程度越大,反之,数值越小表明TF-IDF值对关键词的影响程度越小。
2)为核心词组设定一个权重w_word_group,即第二权重。
对于语句所包含的词语,如果这个词语是核心词组,则该词语是关键词的概率大于不是核心词组的词语。因此,为属于核心词组的词语设定一权重。该权重表征核心词组这一维度对关键词的影响程度。第二权重可以是一个固定值,例如,对于一个给定的词语,如果该词语是核心词组则该第二权重取相应的设定值,如果该词语不是核心词组则该第二权重为0。
3)词语对应的位置权重location_weight,即第三权重。
在自动问答系统中,用户输入的话语的目的明确,这种目的性一般体现在第一句或最后一句,可见,词语所在位置的信息特别重要,因此,引入词语的位置权重,位置权重表征不同位置的词语对该词语是否是关键词的影响程度。
位置权重的数值可以根据实际情况确定,对于能够体现语句目的的位置对应的位置权重数值较大,语句中其他位置对应的位置权重的数值较小。
例如,一个语句中包括d个短句,为每个短句的位置设置一个位置权重,d个短句分别对应的位置权重为{1:location_weight_1,2:location_weight_2,…,d:location_weight_d},其中,location_weight_1表示语句中第1个短句对应的位置权重,以此类推,location_weight_d表示第d个短句对应的位置权重。
例如,location_weight_1和location_weight_d的数值较大,两者可以相等也可以不等,其它位置的短句对应的位置权重较小。
4)对于词性设定一个词性权重w4,即第四权重。
不同词性的词语在语句中起的作用不同,例如,动词通常是一个句子的中心成分,其他词性的词语通常受动词支配,因此,动词的权重最大,名词对应的权重次之,形容词对应的权重最小。当然,还可以设定其他词性对应的权重系数,此处不再详述。
例如,{‘verb’:verb_w,‘noun’:noun_w,‘adjective’:adj_w},verb_w表示动词对应的权重,noun_w表示名词对应的权重,adj_w表示形容词对应的权重。
当确定上述各个权重系数后,对于一个给定的词语c,按照如下公式计算得到该词语最终对应的目标权重Final_weight:
Final_weight=tfidf_weight*tfidf+w_word_group+location_weight+w4
例如,对于词语c,该词语位于整个句子的第一个短句,且词性为动词,则该处于c对应的目标权重为:
Final_weight_c=tfidf_weight*tfidf_c+w_word_group+location_weight_1+verb_w
上述四个权重对应的具体数值,可以根据实际情况确定,本申请对此不做限定。
S153,根据待处理语句中每个词语对应的目标权重由高到低的顺序,确定前预设数量个词语为该待处理语句的关键词。
按照上述公式计算出待处理语句中每个词语的目标权重后,按照该目标权重由高到低进行排序,并选取前n个词语作为该待处理语句的关键词。
本实施例提供的关键词提取方法,对待处理语句进行分词处理后,利用碎词合并方法对分词结果进行合并,然后,基于关键词字典获得分词合并结果包含的每个词语的TF-IDF值。对待处理语句进行分句,并对每个短句进行分词处理和碎词合并,得到每个短句包含的词语,进一步对每个短句包含的词语进行依存句法分析,得到该短句的核心词组;根据待处理语句所包含的每个词语及其对应的TF-IDF值,以及该待处理语句包含的核心词组,确定出该待处理语句的关键词。该方案针对整个句子提取词语后,再将整个句子划分为短句,然后针对每个短句提取核心词组,以确保不会遗漏重要信息。而且,该方案在对语句进行分词处理后,还进行了碎词合并不仅减少了词语数量,同时还使提取的关键词信息更加完整。综上,该方案适用于自动问答系统语料的关键词提取,即该方案针对自动问答系统的语料,提取的关键词更准确。
进一步地,该方案在提取关键词时,引入了词语在整个语句中的位置权重,从而确保包含重要信息的位置处的词语能够被提取出,最终提高了提取的关键词的准确性。此外,还设定了其他维度的权重,例如,TF-IDF对应的权重、核心词组对应的权重、词性对应的权重,从而实现从多个不同维度衡量一个词语是否是关键词,最终提高了提取的关键词的准确性,而且,这些衡量维度是针对自动问答系统中语料的自身特点确定的,因此,该方案更适用于自动问答系统。
相应于上述的关键词提取方法实施例,本申请还提供了关键词提取装置实施例。
请参见图5,示出了本申请实施例提供的一种关键词提取装置的框图,该装置应用于电子设备中,如图5所示,该装置可以包括:
分词与碎词合并模块110,用于对待处理语句进行分词处理得到分词结果,并对所述分词结果进行碎词合并,得到分词合并结果。
在一种可能的实现方式中,分词与碎词合并模块110包括:
短句划分子模块,用于按照所述待处理语句包含的标点符合,将所述待处理语句划分为短句。
分词与碎词合并子模块,用于对所述短句进行分词处理得到分词结果,并对所述分词结果包含的共现频率大于预设阈值的词语进行合并,得到所述短句包含的词语。
词频-逆向文件频率获取模块120,用于基于预先训练得到的关键词字典,获得所述分词合并结果中每个词语的TF-IDF值。
关键词字典包括每个关键词对应的TF-IDF值。
在本申请的一个实施例中,训练得到关键词字典过程包括:
针对训练语句集合中的任一语句,进行分词处理和碎词合并,得到所述语句包含的词语;
对于每个词语,根据所述词语的词频和包含所述词语的语句数据量,计算得到所述词语的词频-逆向文件频率,获得所述训练语句集合所包含的每个词语的词频-逆向文件频率。
核心词组获取模块130,用于对所述待处理语句进行分句,对于每个短句进行分词处理及碎词合并,得到所述短句包含的词语,以及对每个短句包含的词语进行依存句法分析,得到所述短句包含的核心词组。
在一种可能的实现方式中,依存句法分词过程包括:利用依存句法分析方法,分析所述短句包含的词语之间的语义依存关系;根据所述语义依存关系,确定出所述短句中的核心词组。
确定短句包含的核心词组的过程包括:根据所述语义依存关系,提取出所述短句的初始核心词语;根据所述初始核心词语对应的语义依存关系,扩充所述初始核心词语,得到所述核心词组。
关键词确定模块140,用于基于所述待处理语句包含的词语、所述词语对应的词频-逆向文件频率,以及所述核心词组,获得所述待处理语句的关键词。
在本申请的一个实施例中,关键词确定模块140可以包括:
权重获取子模块,用于获取所述待处理语句包含的词语对应的权重系数。
其中,权重系数包括所述词语的位置对应的权重和核心词组对应的权重。
目标权重计算子模块,用于基于每个词语对应的权重系数及词频-逆向文本频率,获得所述词语对应的目标权重。
在一种可能的实现方式中,所述权重系数包括TF-IDF对应的第一权重、所述核心词组对应的第二权重、所述短句在所述待处理语句中所处位置对应的第三权重、每个所述核心词组的词性对应的第四权重。
其中,TF-IDF值不同的词语对应的第一权重相同。
所述核心词组对应的第二权重为第二权重预设值,非核心词组的词语对应的第二权重为0。
处于所述待处理语句的句首或句尾的短句对应的第三权重的数值,高于所述待处理语句中其他位置的短句对应的第三权重。
不同词性的词语对应的所述第四权重不同。
目标权重计算子模块可以包括:第一权重计算子模块和第二权重计算子模块。
第一权重计算子模块,用于计算所述词语对应的所述第一权重与所述词语的词频-逆向文本频率的乘积。
第二权重计算子模块,用于计算所述乘积与所述第二权重、所述第三权重及所述第四权重的总和,得到所述词语对应的目标权重。
关键词选取子模块,用于根据所述待处理语句中每个词语对应的目标权重由高到低的顺序,确定前预设数量个词语为所述待处理语句的关键词。
本实施例提供的关键词提取装置,针对整个句子提取词语后,再将整个句子划分为短句,然后针对每个短句提取核心词组,以确保不会遗漏重要信息。而且,该方案在对语句进行分词处理后,还进行了碎词合并,即将共现频率比较高的词语合并,不仅减少了词语数量,同时还使提取的关键词信息更加完整。综上,该方案适用于自动问答系统语料的关键词提取,即该方案针对自动问答系统的语料,提取的关键词更准确。
进一步地,该方案在提取关键词时,引入了词语在整个语句中的位置权重,从而确保包含重要信息的位置处的词语能够被提取出,最终提高了提取的关键词的准确性。此外,还设定了其他维度的权重,例如,TF-IDF对应的权重、核心词组对应的权重、词性对应的权重,从而实现从多个不同维度衡量一个词语是否是关键词,最终提高了提取的关键词的准确性,而且,这些衡量维度是针对自动问答系统中语料的自身特点确定的,因此,该方案更适用于自动问答系统。
本申请提供了一种电子设备,该电子设备包括处理器和存储器,该存储器内存储有可在处理器上运行的程序。该处理器运行存储器内存储的该程序时实现上述的关键词提取方法实施例。
本申请还提供了一种计算设备可执行的存储介质,该存储介质中存储有程序,该程序由电子设备执行时实现上述的关键词提取方法。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
需要说明的是,本说明书中的各个实施例记载的技术特征可以相互替代或组合,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请各实施例中的装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
本申请所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,模块或子模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个子模块或模块可以结合或者可以集成到另一个模块,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的,作为模块或子模块的部件可以是或者也可以不是物理模块或子模块,即可以位于一个地方,或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中,也可以是各个模块或子模块单独物理存在,也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现,也可以采用软件功能模块或子模块的形式实现。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种关键词提取方法,其特征在于,包括:
对待处理语句进行分词处理得到分词结果,并对所述分词结果进行碎词合并,得到分词合并结果;
基于预先训练得到的关键词字典,获得所述分词合并结果中每个词语的词频-逆向文件频率,所述关键词字典包括每个关键词对应的词频-逆向文件频率;
对所述待处理语句进行分句,对于每个短句进行分词处理及碎词合并,得到所述短句包含的词语,以及对每个短句包含的词语进行依存句法分析,得到所述短句包含的核心词组;
基于所述待处理语句包含的词语、所述词语对应的词频-逆向文件频率,以及所述核心词组,获得所述待处理语句的关键词。
2.根据权利要求1所述的方法,其特征在于,所述基于所述待处理语句包含的词语、所述词语对应的词频-逆向文件频率,以及所述核心词组,获得所述待处理语句的关键词,包括:
获取所述待处理语句包含的词语对应的权重系数,所述权重系数包括所述词语的位置对应的权重和核心词组对应的权重;
基于每个词语对应的权重系数及词频-逆向文本频率,获得所述词语对应的目标权重;
根据所述待处理语句中每个词语对应的目标权重由高到低的顺序,确定前预设数量个词语为所述待处理语句的关键词。
3.根据权利要求2所述的方法,其特征在于,所述权重系数包括词频-逆向文件频率对应的第一权重、所述核心词组对应的第二权重、所述短句在所述待处理语句中所处位置对应的第三权重、每个所述核心词组的词性对应的第四权重;
所述基于每个词语对应的权重系数及词频-逆向文本频率,获得所述词语对应的目标权重,包括:
计算所述词语对应的所述第一权重与所述词语的词频-逆向文本频率的乘积;
计算所述乘积与所述第二权重、所述第三权重及所述第四权重的总和,得到所述词语对应的目标权重。
4.根据权利要求3所述的方法,其特征在于,所述第一权重、所述第二权重、所述第三权重和所述第四权重的最大值总和等于1;
所述核心词组对应的第二权重为第二权重预设值,非核心词组的词语对应的第二权重为0;
处于所述待处理语句的句首或句尾的短句对应的第三权重的数值,高于所述待处理语句中其他位置的短句对应的第三权重;
不同词性的词语对应的所述第四权重不同。
5.根据权利要求1所述的方法,其特征在于,所述对所述待处理语句进行分句,对于每个短句进行分词处理及碎词合并,得到所述短句包含的词语,包括:
按照所述待处理语句包含的标点符合,将所述待处理语句划分为短句;
对所述短句进行分词处理得到分词结果,并对所述分词结果包含的共现频率大于预设阈值的词语进行合并,得到所述短句包含的词语。
6.根据权利要求1所述的方法,其特征在于,所述对每个短句包含的词语进行依存句法分析,得到所述短句包含的核心词组,包括:
利用依存句法分析方法,分析所述短句包含的词语之间的语义依存关系;
根据所述语义依存关系,确定出所述短句中的核心词组。
7.根据权利要求6所述的方法,其特征在于,所述根据所述语义依存关系,确定出所述短句包含的核心词组,包括:
根据所述语义依存关系,提取出所述短句的初始核心词语;
根据所述初始核心词语对应的语义依存关系,扩充所述初始核心词语,得到所述核心词组。
8.根据权利要求1所述的方法,其特征在于,获取关键词字典的过程,包括:
针对训练语句集合中的任一语句,进行分词处理和碎词合并,得到所述语句包含的词语;
对于每个词语,根据所述词语的词频和包含所述词语的语句数据量,计算得到所述词语的词频-逆向文件频率,获得所述训练语句集合所包含的每个词语的词频-逆向文件频率。
9.一种关键词提取装置,其特征在于,包括:
分词与碎词合并模块,用于对待处理语句进行分词处理得到分词结果,并对所述分词结果进行碎词合并,得到分词合并结果;
词频-逆向文件频率获取模块,用于基于预先训练得到的关键词字典,获得所述分词合并结果中每个词语的词频-逆向文件频率,所述关键词字典包括每个关键词对应的词频-逆向文件频率;
核心词组获取模块,用于对所述待处理语句进行分句,对于每个短句进行分词处理及碎词合并,得到所述短句包含的词语,以及对每个短句包含的词语进行依存句法分析,得到所述短句包含的核心词组;
关键词确定模块,用于基于所述待处理语句包含的词语、所述词语对应的词频-逆向文件频率,以及所述核心词组,获得所述待处理语句的关键词。
10.一种计算机可读存储介质,其特征在于,该存储介质中存储有程序,该程序由计算设备执行时实现权利要求1-8任一项所述的关键词提取方法。
CN202111048659.0A 2021-09-08 2021-09-08 一种关键词提取方法及装置 Active CN113743090B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111048659.0A CN113743090B (zh) 2021-09-08 2021-09-08 一种关键词提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111048659.0A CN113743090B (zh) 2021-09-08 2021-09-08 一种关键词提取方法及装置

Publications (2)

Publication Number Publication Date
CN113743090A true CN113743090A (zh) 2021-12-03
CN113743090B CN113743090B (zh) 2024-04-12

Family

ID=78736930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111048659.0A Active CN113743090B (zh) 2021-09-08 2021-09-08 一种关键词提取方法及装置

Country Status (1)

Country Link
CN (1) CN113743090B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582968A (zh) * 2018-12-04 2019-04-05 北京容联易通信息技术有限公司 一种语料中的关键信息的提取方法及装置
CN114492446A (zh) * 2022-02-16 2022-05-13 平安科技(深圳)有限公司 法律文书处理方法、装置、电子设备及存储介质

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090228468A1 (en) * 2008-03-04 2009-09-10 Microsoft Corporation Using core words to extract key phrases from documents
CN106557508A (zh) * 2015-09-28 2017-04-05 北京神州泰岳软件股份有限公司 一种文本关键词提取方法和装置
CN106598940A (zh) * 2016-11-01 2017-04-26 四川用联信息技术有限公司 基于全局优化关键词质量的文本相似度求解算法
CN106997344A (zh) * 2017-03-31 2017-08-01 成都数联铭品科技有限公司 关键词抽取系统
CN107092595A (zh) * 2017-04-23 2017-08-25 四川用联信息技术有限公司 新的关键词提取技术
CN107145476A (zh) * 2017-05-23 2017-09-08 福建师范大学 一种基于改进tf‑idf关键词提取算法
CN108197109A (zh) * 2017-12-29 2018-06-22 北京百分点信息科技有限公司 一种基于自然语言处理的多语言分析方法和装置
CN108334490A (zh) * 2017-04-07 2018-07-27 腾讯科技(深圳)有限公司 关键词提取方法以及关键词提取装置
CN108920456A (zh) * 2018-06-13 2018-11-30 北京信息科技大学 一种关键词自动抽取方法
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法
CN109960724A (zh) * 2019-03-13 2019-07-02 北京工业大学 一种基于tf-idf的文本摘要方法
CN110188344A (zh) * 2019-04-23 2019-08-30 浙江工业大学 一种多特征融合的关键词提取方法
CN110874531A (zh) * 2020-01-20 2020-03-10 湖南蚁坊软件股份有限公司 一种话题分析方法、装置和存储介质
CN112347778A (zh) * 2020-11-06 2021-02-09 平安科技(深圳)有限公司 关键词抽取方法、装置、终端设备及存储介质
CN112364628A (zh) * 2020-11-20 2021-02-12 创优数字科技(广东)有限公司 一种新词识别方法、装置、电子设备及存储介质
US20210125605A1 (en) * 2019-10-29 2021-04-29 Lg Electronics Inc. Speech processing method and apparatus therefor
CN112818661A (zh) * 2021-01-28 2021-05-18 中国科学院科技战略咨询研究院 一种专利技术关键词非监督提取方法

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090228468A1 (en) * 2008-03-04 2009-09-10 Microsoft Corporation Using core words to extract key phrases from documents
CN106557508A (zh) * 2015-09-28 2017-04-05 北京神州泰岳软件股份有限公司 一种文本关键词提取方法和装置
CN106598940A (zh) * 2016-11-01 2017-04-26 四川用联信息技术有限公司 基于全局优化关键词质量的文本相似度求解算法
CN106997344A (zh) * 2017-03-31 2017-08-01 成都数联铭品科技有限公司 关键词抽取系统
CN108334490A (zh) * 2017-04-07 2018-07-27 腾讯科技(深圳)有限公司 关键词提取方法以及关键词提取装置
CN107092595A (zh) * 2017-04-23 2017-08-25 四川用联信息技术有限公司 新的关键词提取技术
CN107145476A (zh) * 2017-05-23 2017-09-08 福建师范大学 一种基于改进tf‑idf关键词提取算法
CN108197109A (zh) * 2017-12-29 2018-06-22 北京百分点信息科技有限公司 一种基于自然语言处理的多语言分析方法和装置
CN108920456A (zh) * 2018-06-13 2018-11-30 北京信息科技大学 一种关键词自动抽取方法
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法
CN109960724A (zh) * 2019-03-13 2019-07-02 北京工业大学 一种基于tf-idf的文本摘要方法
CN110188344A (zh) * 2019-04-23 2019-08-30 浙江工业大学 一种多特征融合的关键词提取方法
US20210125605A1 (en) * 2019-10-29 2021-04-29 Lg Electronics Inc. Speech processing method and apparatus therefor
CN110874531A (zh) * 2020-01-20 2020-03-10 湖南蚁坊软件股份有限公司 一种话题分析方法、装置和存储介质
CN112347778A (zh) * 2020-11-06 2021-02-09 平安科技(深圳)有限公司 关键词抽取方法、装置、终端设备及存储介质
CN112364628A (zh) * 2020-11-20 2021-02-12 创优数字科技(广东)有限公司 一种新词识别方法、装置、电子设备及存储介质
CN112818661A (zh) * 2021-01-28 2021-05-18 中国科学院科技战略咨询研究院 一种专利技术关键词非监督提取方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
XIONG AO等: "News keywords extraction algorithm based on TextRank and classified TF-IDF", 2020 INTERNATIONAL WIRELESS COMMUNICATIONS AND MOBILE COMPUTING, 27 July 2020 (2020-07-27), pages 1364 *
刘啸剑等: "结合主题分布与统计特征的关键词抽取方法", 计算机工程, vol. 43, no. 7, 15 July 2017 (2017-07-15), pages 217 *
王庆等: "基于词共现矩阵的项目关键词词库和关键词语义网络", 计算机应用, vol. 35, no. 6, 10 June 2015 (2015-06-10), pages 1649 *
黄洪;陈德锐;: "基于语义依存的汉语句子相似度改进算法", 浙江工业大学学报, vol. 45, no. 01, 25 February 2017 (2017-02-25), pages 6 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582968A (zh) * 2018-12-04 2019-04-05 北京容联易通信息技术有限公司 一种语料中的关键信息的提取方法及装置
CN114492446A (zh) * 2022-02-16 2022-05-13 平安科技(深圳)有限公司 法律文书处理方法、装置、电子设备及存储介质
CN114492446B (zh) * 2022-02-16 2023-06-16 平安科技(深圳)有限公司 法律文书处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113743090B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
US10496928B2 (en) Non-factoid question-answering system and method
US9519634B2 (en) Systems and methods for determining lexical associations among words in a corpus
US9245015B2 (en) Entity disambiguation in natural language text
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
JP5379138B2 (ja) 領域辞書の作成
CN112417846B (zh) 文本自动化生成方法、装置、电子设备及存储介质
US20150154173A1 (en) Method of detecting grammatical error, error detecting apparatus for the method, and computer-readable recording medium storing the method
CN112380244B (zh) 一种分词搜索方法、装置、电子设备及可读存储介质
Gupta et al. Text summarization of Hindi documents using rule based approach
CN110991181B (zh) 用于增强已标注样本的方法和设备
JP2011118689A (ja) 検索方法及びシステム
KR100481580B1 (ko) 문서에서 이벤트 문장을 추출하는 장치 및 그 방법
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
Weerasinghe et al. Feature Vector Difference based Authorship Verification for Open-World Settings.
CN113743090B (zh) 一种关键词提取方法及装置
CN115080718A (zh) 一种文本关键短语的抽取方法、系统、设备及存储介质
CN113177402B (zh) 词语替换方法、装置、电子设备和存储介质
CN110427626B (zh) 关键词的提取方法及装置
KR20020036059A (ko) 사전 뜻풀이말에서 추출된 의미정보를 기반으로하는 의미중의성 해결 방법
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
CN107168950B (zh) 一种基于双语语义映射的事件短语学习方法及装置
JP4934115B2 (ja) キーワード抽出装置、方法及びプログラム
KR20200073524A (ko) 특허 문서의 키프레이즈 추출 장치 및 방법
KR20190050180A (ko) 과학문서의 핵심어구 추출방법 및 장치
Xu et al. A parse-and-trim approach with information significance for Chinese sentence compression

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant