CN116644148A - 关键词识别方法、装置、电子设备及存储介质 - Google Patents
关键词识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116644148A CN116644148A CN202310258655.8A CN202310258655A CN116644148A CN 116644148 A CN116644148 A CN 116644148A CN 202310258655 A CN202310258655 A CN 202310258655A CN 116644148 A CN116644148 A CN 116644148A
- Authority
- CN
- China
- Prior art keywords
- word
- text data
- topic
- segment
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 239000013598 vector Substances 0.000 claims abstract description 209
- 230000011218 segmentation Effects 0.000 claims abstract description 110
- 238000009826 distribution Methods 0.000 claims abstract description 84
- 238000013145 classification model Methods 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 31
- 230000006870 function Effects 0.000 claims description 25
- 238000006243 chemical reaction Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 14
- 238000012163 sequencing technique Methods 0.000 claims 1
- 238000003058 natural language processing Methods 0.000 abstract description 5
- 238000004458 analytical method Methods 0.000 description 14
- 239000011159 matrix material Substances 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000009466 transformation Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例涉及自然语言处理技术领域,公开了一种关键词识别方法、装置、电子设备及存储介质,该方法包括:获取文本数据;对所述文本数据进行分词处理,得到多个分词;基于所述多个分词和词向量模型,提取所述多个分词中各分词的词向量,并根据各所述分词的词向量,计算各所述分词与所述文本数据的相似度;基于所述多个分词和主题分类模型,确定各所述分词的主题分布概率,并根据各所述分词的主题分布概率,计算各所述分词的主题关联度;基于各所述分词与所述文本数据的相似度和各所述分词的主题关联度,确定各所述分词的重要度;基于各所述分词的重要度,在所述多个分词中确定关键词。应用本发明的技术方案,能够提高关键词的识别准确率。
Description
技术领域
本发明实施例涉及自然语言处理技术领域,具体涉及一种关键词识别方法、装置、电子设备及存储介质。
背景技术
自然语言处理作为人工智能的核心技术,推动了语言智能的发展,并且越来越多地应用于各个行业,为人们的生活和工作提供了极大的便利。具体而言,自然语言处理的分支领域可以包括文本分类、文本生成、信息抽取、智能问答、话题推荐、语音识别与合成等。
在这些分支领域中,文本数据的关键词提取是非常重要的一个环节。按照文本数据的长度,文本数据可以划分为短文本和长文本,长文本由于数据量的优势,可以通过计算字和词的频次来识别关键词,而短文本由于数据量不足,通过频次来识别关键词存在准确率不高的问题。
发明内容
鉴于上述问题,本发明实施例提供了一种关键词识别方法、装置、电子设备及存储介质,用于解决现有技术中存在的短文本中的关键词识别准确率不高的问题。
根据本发明实施例的一个方面,提供了一种关键词识别方法,所述方法包括:获取文本数据;对所述文本数据进行分词处理,得到多个分词;基于所述多个分词和词向量模型,提取所述多个分词中各分词的词向量,并根据各所述分词的词向量,计算各所述分词与所述文本数据的相似度;基于所述多个分词和主题分类模型,确定各所述分词的主题分布概率,并根据各所述分词的主题分布概率,计算各所述分词的主题关联度;基于各所述分词与所述文本数据的相似度和各所述分词的主题关联度,确定各所述分词的重要度;基于各所述分词的重要度,在所述多个分词中确定关键词。
在一种可选的方式中,所述基于各所述分词与所述文本数据的相似度和各所述分词的主题关联度,确定各所述分词的重要度,包括:将每个分词与所述文本数据的相似度分别和所述每个分词的主题关联度相乘,得到各所述分词的重要度。
在一种可选的方式中,所述根据各所述分词的词向量,计算各所述分词与所述文本数据的相似度,包括:根据各所述分词的词向量,计算表征所述文本数据的语句信息的句向量;根据各所述分词的词向量和所述句向量,确定各所述分词与所述文本数据的相似度。
在一种可选的方式中,所述根据各所述分词的词向量和所述句向量,确定各所述分词与所述文本数据的相似度,包括:分别计算各所述分词的词向量与所述句向量的内积,得到各所述分词的转换向量;采用激活函数对各所述分词的转换向量进行处理,得到各所述分词与所述文本数据的相似度,所述激活函数包括Softmax函数。
在一种可选的方式中,所述根据各所述分词的主题分布概率,计算各所述分词的主题关联度,包括:通过如下公式计算各所述分词的主题关联度:
Ni=-[log(pi1)+log(pi2)+……log(pik)]
其中,Ni表示第i个分词的主题关联度,Pik表示第i个分词分布在所述多个主题中第k个主题的主题分布概率,所述i和k均为正整数。
在一种可选的方式中,所述基于各所述分词的重要度,在所述多个分词中确定关键词,包括:根据各所述分词的重要度,将重要度大于预设阈值的分词确定为所述关键词;或者,根据各所述分词的重要度,对所述多个分词按照重要度从大到小的顺序进行排序,将前N个分词确定为所述关键词,其中,N为正整数。
在一种可选的方式中,所述词向量模型包括Word2Vec模型,所述主题分类模型包括LDA模型。
根据本发明实施例的另一方面,提供了一种关键词识别装置,所述装置包括:获取模块,用于获取文本数据;分词处理模块,用于对所述文本数据进行分词处理,得到多个分词;第一计算模块,用于基于所述多个分词和词向量模型,提取所述多个分词中各分词的词向量,并根据各所述分词的词向量,计算各所述分词与所述文本数据的相似度;第二计算模块,用于基于所述多个分词和主题分类模型,确定各所述分词的主题分布概率,并根据各所述分词的主题分布概率,计算各所述分词的主题关联度;重要度确定模块,用于基于各所述分词与所述文本数据的相似度和各所述分词的主题关联度,确定各所述分词的重要度;关键词确定模块,用于基于各所述分词的重要度,在所述多个分词中确定关键词。
在一种可选的方式中,所述重要度确定模块用于基于各所述分词与所述文本数据的相似度和各所述分词的主题关联度,确定各所述分词的重要度,包括:将每个分词与所述文本数据的相似度分别和所述每个分词的主题关联度相乘,得到各所述分词的重要度。
在一种可选的方式中,所述第一计算模块用于根据各所述分词的词向量,计算表征所述文本数据的语句信息的句向量;根据各所述分词的词向量和所述句向量,确定各所述分词与所述文本数据的相似度。
在一种可选的方式中,所述第一计算模块用于分别计算各所述分词的词向量与所述句向量的内积,得到各所述分词的转换向量;采用激活函数对各所述分词的转换向量进行处理,得到各所述分词与所述文本数据的相似度,所述激活函数包括Softmax函数。
在一种可选的方式中,所述第二计算模块,用于通过如下公式计算各所述分词的主题关联度:
Ni=-[log(pi1)+log(pi2)+……log(pik)]
其中,Ni表示第i个分词的主题关联度,Pik表示第i个分词分布在所述多个主题中第k个主题的主题分布概率,所述i和k均为正整数。
在一种可选的方式中,所述关键词确定模块用于根据各所述分词的重要度,将重要度大于预设阈值的分词确定为所述关键词;或者,根据各所述分词的重要度,对所述多个分词按照重要度从大到小的顺序进行排序,将前N个分词确定为所述关键词,其中,N为正整数。
在一种可选的方式中,所述词向量模型包括Word2Vec模型,所述主题分类模型包括LDA模型。
根据本发明实施例的另一方面,提供了一种电子设备,包括:处理器;存储器,用于存放至少一可执行指令;所述可执行指令使所述处理器执行如上任一项所述的关键词识别方法的操作。
根据本发明实施例的又一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令在电子设备上运行时,使得电子设备执行如上任一项所述的关键词识别方法的操作。
根据本发明实施例提供的关键词识别方法、装置、电子设备及存储介质,可以对获取的文本数据进行分词处理,得到多个分词,然后基于多个分词和词向量模型,提取多个分词中各分词的词向量,并根据各分词的词向量,计算各分词与文本数据相似度,基于多个分词和主题分类模型,确定各分词的主题分布概率,并根据各分词的主题分布概率,计算各分词的主题关联度,从而基于各分词与文本数据的相似度和各分词的主题关联度,确定各分词的重要度,最后基于各分词的重要度,在多个分词中确定关键词。
一方面,本发明通过根据各分词与文本数据的相似度和各分词的主题关联度确定各分词的重要度,并确定关键词,可以提高计算分词重要度的准确性,从而提高识别关键词的准确率。另一方面,通过采用词向量模型提取各分词的词向量,并根据各分词的词向量,计算各分词与文本数据的相似度,以及通过主题分类模型确定各分词的主题分布概率,并根据各分词的主题分布概率,计算各分词的主题关联度,解决了在文本数据中词语分布不均衡而产生的词语重要度无法准确评估的问题,能够应用于长文本和短文本的关键词识别。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
附图仅用于示出实施方式,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本实施例提供的一种关键词识别方法的流程图;
图2示出了本实施例提供的另一种关键词识别方法的流程图;
图3示出了本实施例提供的一种Word2Vec模型的示意图;
图4示出了本实施例提供的又一种关键词识别方法的流程图;
图5示出了本实施例提供的又一种关键词识别方法的流程图;
图6示出了本实施例提供的又一种关键词识别方法的流程图;
图7示出了本实施例提供的又一种关键词识别方法的流程图;
图8示出了本实施例提供的又一种关键词识别方法的流程图;
图9示出了本实施例提供的又一种关键词识别方法的流程图;
图10示出了本实施例提供的一种关键词识别装置的结构示意图;
图11示出了本实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。
本实施例中,为了识别关键词,可以通过词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)方法评估一个字词对文本数据的重要程度。
具体而言,TF是指词频,表示词在文本数据,如文章中出现的概率,即TF=某个词在文章中出现的总数/文章中的总的词数;IDF是语句中出现特定词语的语句数量除以总的语句数量得到的值的对数,可以表示一个词语所携带的信息量的大小,即IDF=log(文档总数/包含该词的文章数)。然后,将TF与IDF相乘,可以得到词语的重要程度。按照各个词语的重要程度,可以将文本数据中重要程度较高的字词确定为关键词。
TF-IDF方法在长文本的关键词识别中能够取得较好的效果。但是,在识别短文本中的关键词时,会出现无法区分关键词的情况。示例性的,如果文本数据的词语分布不均衡,则计算IDF的时候会出现一些词语的值偏高,以100份文本中90份文本的主题是金融,剩余10份文本的主题是人工智能为例,主题属于人工智能的“机器学习”这个词语的IDF=log(100/10)=log(10)=1,主题属于金融的“股票”这个词语的IDF=log(100/90)=log(10/9)≈0.046。
可见,当文本数据中一种主题的文本数量过多时,计算得到的这种文本的IDF偏低,所以文本分布的不均衡问题对于IDF的计算结果影响较大。在计算TF时,由于短文本中的词语数量无法体现差异。例如,一句话有n个词语,在短文本中词语几乎没有重复的词,所以不同词语的词频结果都是TF=1/n。也就是说,针对短文本,TF-IDF方法计算得到的TF值和IDF值都不准确,所以无法准确识别其中的关键词。
鉴于前述的一种或多种问题,本发明的研究人员经分析发现,在短文本数据中,虽然词语之间的频率信息相差无异,但是词语包含的语义信息的多少能够体现词语在短文本数据中的重要程度。同时,考虑到文本数据的主题能够体现文本数据的主要思想,而文本数据是由多个词语构成的,通过分析文本数据中每个词语所属的主题的概率,也可以体现词语与文本数据的主题的关联程度,得到词语对文本数据的重要程度。
因此,为了分析文本数据中的词语所包含的语义信息量和词语与文本数据的主题的关联程度,本发明实施例提供了一种关键词识别方法,该方法可以由电子设备执行,使其可以获取文本数据,对文本数据进行分词处理,并通过分析文本数据中各个词语所包含的语义信息和各个词语的主题关联信息,从而识别出文本数据中的关键词。其中,电子设备可以是具备文本数据处理功能的终端设备,或者也可以是业务提供方的后台服务器或服务集群。
示例性的,在在线客服或智能聊天机器人等应用场景中,电子设备可以是业务提供方配置的提供消息应答服务的后台服务器或服务集群。在具备语音控制功能的终端设备中,用户可以通过语音唤醒和指示终端设备执行相应的操作,如通过输入语音指令控制智能手机拨号,因此,电子设备也可以是终端设备。
在分析文本数据中各个词语所包含的语义信息时,可以利用词向量模型将文本数据中的每个词语转换为词向量,并通过词向量分析得到各个词语所包含的语义信息量,同时,为了避免单一模型所产生的语义信息量的评估误差,可以通过主题分类模型分析文本数据中各个词语的主题关联性,来分析词语对文本数据的主题的影响程度。结合这两种分析模型得到的词语的价值评估信息,可以综合评估各个词语在文本数据中的重要程度,从而提高关键词识别的准确率。
图1示出了本发明实施例提供的关键词识别方法的流程图,如图1所示,该方法可以包括以下步骤:
步骤110:获取文本数据。
文本数据是待识别出关键词的字符型数据。按照应用场景的不同,文本数据可以是用户输入的文本内容,也可以是通过其他方式,如通过爬虫方式拉取的文本内容,或者也可以是预先收集的文本内容,如用户参与线上业务产生的搜索数据、发布的公开文本数据等,本实施例对此不做特殊限定。
在获取文本数据时,电子设备可以接收用户输入的文本数据,也可以响应于获取文本数据的请求,主动获取文本数据。例如,在在线客服应用场景中,电子设备可以接收用户输入的文本数据;在购物类应用中,电子设备可以响应于获取用户在一段时间内的搜索数据的请求,从本地数据库或云端数据库中获取对应时间段的搜索数据。
另外,本实施例中,文本数据可以是短文本数据,也可以是长文本数据。
步骤120:对文本数据进行分词处理,得到多个分词。
文本数据是由文字和符号等组成的文本语言。由于个人表达习惯的差异和语言表达形式的多样性,文本数据的表达形式往往存在一些区别。因此,为了分析文本数据的语言信息,需要将文本数据划分为以词为单位的文本,实现通过机器语言识别和处理文本的目的。也就是说,在获取文本数据之后,需要将文本数据中的句子或段落分解成若干个相互独立、完整、正确的词,即对文本数据进行分词处理,得到多个分词。
具体的,在一种可选的方式中,在对文本数据进行分词处理时,需要在文本数据中去除标点符号、特殊标记和连接词、指示词以及其他指定的停用词,如“啊”、“的”、“和”等。例如,对于文本数据“我和小李今天去溜冰了”,根据相应的停用词库去掉停用词之后,得到的分词结果为我、小李、今天、溜冰。
由于字是中文最基本的书写单位,词语之间没有明显的区分标记。因此,为了得到文本数据对应的多个分词,在一种可选的方式中,可以通过预先配置的词典数据来匹配文本数据中的字和词,当一个字或者词在词典数据中查询到相同的字或词时,说明该字或者词为一个分词。
其中,词典数据可以根据文本数据所涉及的领域进行设置。例如,对于特定的技术领域,可以根据该技术领域中的专用字或专用词,以及使用的频次等设置专用词典数据,或者也可以直接根据多个领域的字、词的使用情况设置通用的词典数据。
对于英文文本数据,可以按照空格对其进行分词,同时,对于一些特殊词,如“NewYork”这类固定词,可以利用特殊词库进行识别。
为了提高分词效率,在一种可选的方式中,也可以使用一些分词工具进行分词。其中,分词工具可以包括jieba分词(一个中文自然语言处理工具)、CoreNLP(斯坦福大学团队开发的分词工具包,支持中文)、LTP(哈尔滨工业大学团队开发的语言分析工具)等。
通过上述方法,可以对文本数据进行分词处理,得到文本数据划分出的多个分词,为后续分析文本数据的特征提供数据支持。
步骤130:基于上述多个分词和词向量模型,提取多个分词中各分词的词向量,并根据各分词的词向量,计算各分词与文本数据的相似度。
其中,词向量模型是一种表示文本内容的方法,可以将文本内容映射到数学空间中的词的向量模型。具体的,词向量模型可以将每个分词映射到一个固定维度的实数向量,该实数向量可以用来描述分词的意义和语义关系。
分词与文本数据的相似度可以表示分词与文本数据所包含的语义信息的相似度,如果分词与文本数据的相似度越高,说明分词的语义信息与文本数据的语义信息越相近,越能够表达文本数据的语义,反之,如果分词与文本数据的相似度越低,说明分词的语义信息与文本数据的语义信息差异越大,越不能表达文本数据的语义。
实际上,由于各分词与文本数据的相似度是体现分词能否表达文本数据的语义的度量,所以该相似度越高,则表明分词在文本数据中的重要度越高。
在得到文本数据的多个分词后,可以将这些分词转换为输入向量,输入至词向量模型中,计算各输入向量对应的词向量,然后根据各分词对应的词向量计算得到各分词与文本数据的相似度。
在一种可选的方式中,词向量模型可以是Word2Vec模型(Word to Vector一种词向量模型)。该Word2Vec模型为双层的神经网络,可以根据上下文关系预测当前词的前后位置的词。本实施例中,使用Word2Vec模型可以得到各个分词的低维词向量,也就是各分词的词向量。
Word2Vec模型可以包括Skip-Gram模型和连续词袋(Continuous Bag of Words,CBOW)模型。其中,Skip-Gram模型的作用是给定中心词来预测上下文中其余各词出现的概率,取概率最大的词作为预测值,CBOW模型的作用是给定上下文(周围的词)来预测中心词出现的概率。
在利用词向量模型得到各分词的词向量之后,可以提取各分词的词向量,并根据各分词的词向量,计算各分词与文本数据的相似度,该相似度可以用来评估每个分词对于文本数据的重要程度。因此,通过上述方法,可以完成各分词对文本数据的初步的价值判断。
步骤140:基于多个分词和主题分类模型,确定各分词的主题分布概率,并根据各分词的主题分布概率,计算各分词的主题关联度。
其中,主题分类模型是通过学习一系列的文档发现抽象主题的一种统计模型。其基本理念是如果一篇文章包含某个主题,那么一定存在一些特定的词语会频繁出现。通常来说,一篇文章中包含多个主题,而且每个主题所占的比例各不相同。
以“今年春节假期,各地旅客出游热情高涨,旅游市场呈现出稳开缓升的复苏迹象,这对于提振旅游业发展、拉动经济复苏的意义不言而喻。”为例,这句话的主题可以归为社会,也可以归为经济。社会主题和经济主题所占的比例可以根据各主题所包含的词语比例得到。
换句话说,主题分类模型是对文本中隐含主题的一种建模方法,即一篇文章中每个词都是通过“以一定概率选择某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到的。
分词的主题分布概率是指分词被划分为多个主题中各个主题的概率,可以用来评估分词属于每个主题的可能,即分词的主题分布概率是表示分词属于某个主题的概率。通过评估分词的主题分布概率,可以确定分词属于多个主题中每个主题的概率,由于文本数据的主题实际上是文本数据的语义信息的集中体现,所以根据分词属于每个主题的概率,可以确定分词是否能够表示文本数据的主题语义,得到分词的重要度。
各分词的主题关联度是对文本数据中各个分词与各主题的关联程度的评估,能够体现各个分词与文本数据的主题的关联程度,关联程度越高,分词越能够体现文本数据的主题,反之,关联程度越低,分词与文本数据的主题的相关性越差。为了确定各分词的主题关联度,可以利用主题分类模型,对多个分词进行分析,来确定各分词的主题分布概率,然后根据各分词的主题分布概率,综合评估各分词对于文本数据的主题的影响程度,得到各分词的主题关联度。
具体而言,可以利用文章数据和主题数据训练主题分类模型,使得主题生成模型具有较好的性能。其中,文章数据可以是与文本数据属于相同领域的文章语料数据,主题数据也可以是与文本数据属于相同领域的主题数据库中的数据,或者也可以是通用的主题数据库中的数据。然后,利用训练好的主题分类模型对通过步骤120获得的多个分词进行分类处理,计算得到各分词的主题分布概率。每个分词的主题分布概率为该分词属于多个主题中各个主题的概率。
在一种可选的方式中,主题分类模型可以是隐含狄利克雷分布(LatentDirichlet Allocation,LDA)模型。该LDA模型是一种文档主题生成模型,其可以将文档集中的每篇文档的主题以概率分布的形式给出,通过分析一些文档的主题分布,可以根据主题分布进行主题聚类或文本分类。通过LDA模型可以得到文本数据中每一个词语的主题分布概率,从而可以判断每一个词语的重要程度。
LDA模型实际上是一个三层贝叶斯概率模型,包含词、主题和文档三层结构。按照一篇文章中每个词都是通过“以一定概率选择某个主题,并从这个主题中以一定概率选择某个词语”的过程得到的基本思想,LDA模型中文档到主题服从多项式分布,主题到词也服从多项式分布。
通过主题分类模型对多个分词进行分析,确定各分词的主题分布概率,并根据各分词的主题分布概率,计算得到各分词的主题关联度,可以进一步评估各分词对文本数据的主题的重要程度,即完成各分词对文本数据的进一步的价值判断。
步骤150:基于各分词与文本数据的相似度和各分词的主题关联度,确定各分词的重要度。
在文本数据中,关键词是能够体现文本数据的中心概念的字或词语。为了确定文本数据中的关键词,可以在得到各分词与文本数据的相似度和各分词的主题关联度之后,结合各分词与文本数据的相似度和各分词的主题关联度,计算得到综合评估各分词重要性的重要度。
在一种可选的方式中,可以根据各分词与文本数据的相似度和各分词的主题关联度,将各分词与文本数据的相似度和各分词的主题关联度以一定权重相加,来确定各个分词的重要度。例如,可以将分词与文本数据与分词的主题关联度以0.5的权重相加,得到该分词的重要度=0.5*该分词与文本数据的相似度+0.5*该分词的主题关联度。
应当理解的是,上述各分词与文本数据的相似度的权重与对应分词的主题关联度的权重仅为示例性说明,根据文本数据和分析的实际需要,各分词与文本数据的相似度的权重和对应分词的主题关联度的权重可以设置为不同的值,本实施例对此不做具体限定。
通过上述方法,可以结合各分词与文本数据的相似度和各分词的主题关联度,计算各分词的重要度,能够综合评估各分词对分析文本数据的语义信息的重要性,提高确定关键词的准确性。
步骤160:基于各分词的重要度,在上述多个分词中确定关键词。
根据各分词的重要度,可以在多个分词中确定文本数据对应的关键词。例如,可以按照各分词的重要度,从中选择重要度较大的分词作为文本数据的关键词。
为了增加关键词的数量,提高文本数据的分析准确率,在一种可选的方式中,可以根据各分词的重要度,从各个分词中选择重要度较大的分词,然后在预设的词库中选择这些分词的相似词语,将这些分词和其对应的相似词语一起作为文本数据的关键词。
通过这种方式,可以识别出文本数据的关键词,利用关键词分析文本数据,而不需要对文本数据对应的所有分词进行分析,能够提高文本分析的分析效率,也能够避免因非关键词的加入而对文本分析准确率造成的影响,提高文本分析的准确率。
根据本实施例提供的关键词识别方法,可以对获取的文本数据进行分词处理,得到多个分词,然后基于多个分词和词向量模型,提取多个分词中各分词的词向量,并根据各分词的词向量,计算各分词与文本数据相似度,基于多个分词和主题分类模型,确定各分词的主题分布概率,并根据各分词的主题分布概率,计算各分词的主题关联度,从而基于各分词与文本数据的相似度和各分词的主题关联度,确定各分词的重要度,最后基于各分词的重要度,在多个分词中确定关键词。
一方面,本实施例通过根据各分词与文本数据的相似度和各分词的主题关联度确定各分词的重要度,并确定关键词,可以提高计算分词重要度的准确性,从而提高识别关键词的准确率。另一方面,通过采用词向量模型提取各分词的词向量,并根据各分词的词向量,计算各分词与文本数据的相似度,以及通过主题分类模型确定各分词的主题分布概率,并根据各分词的主题分布概率,计算各分词的主题关联度,解决了在文本数据中词语分布不均衡而产生的词语重要度无法准确评估的问题,能够应用于长文本和短文本的关键词识别。
图2示出了本实施例提供的另一种关键词识别方法的流程图,如图2所示,可以包括以下步骤210~280:
步骤210:获取文本数据。
步骤220:对文本数据进行分词处理,得到多个分词。
步骤230:基于多个分词和词向量模型,提取多个分词中各分词的词向量。
如前所述,词向量模型可以将每个词映射到一个固定维度的实数向量。所以,采用词向量模型对多个分词进行处理,可以将各个分词映射为实数向量,即得到各分词的词向量。
以Word2Vec模型为例,图3示出了本实施例提供的一种Word2Vec模型的示意图,如图3所示,可以通过以下方法提取各分词的词向量:
(1)将上述各分词用one-hot(one-hot code,独热编码)编码表示,该编码方式是指仅通过设置1位为“1”,其余均为“0”的向量表示一个特定的分词,将编码后得到的分词向量作为输入层的输入向量。如图3所示,输入层的输入向量x是one-hot编码形式的输入,输出层的输出向量y是在词汇表中v个词上输出的概率,输入向量和输出向量的维数均为V。h为隐藏层的神经单元。
(2)在隐藏层,通过词向量模型的权重矩阵对输入向量进行线性变换,得到分词向量对应的低维向量,即词向量。
如图3所示,将各分词经过编码后得到的输入向量作为输入,利用输入层到隐藏层的权重矩阵1,即WV×N对输入向量进行线性变换,得到隐藏层的1*N个输出向量,也就是各分词的词向量。其中,V表示每个分词对应的输入向量的维度,N表示神经单元的数量。
然后,利用隐藏层到输出层的权重矩阵2,即W’N×V对经过权重矩阵1处理后得到的向量进行线性变换,得到输出向量,然后利用激活函数可以将每个输出向量转换为预测词的概率。
也就是说,经过隐藏层的权重矩阵WV×N对输入向量进行线性变换,便可以得到各个分词的词向量。这样便可以将原本维数为V的输入向量转换为维数为N的词向量(N远小于V),并且输入向量与词向量之间保留了一定的相关关系。
在一种可选的实施方式中,Word2Vec模型可以包括多个参数,例如:输入层到隐藏层的权重矩阵、隐藏层到输出层的权重矩阵、各层神经元数量、模型学习率等,Word2Vec模型的各个参数构成了一个确定的Word2Vec模型。因此,为了确定Word2Vec模型的各个参数,可以利用历史时刻获取的历史文本数据对Word2Vec模型进行训练,直到Word2Vec模型的损失函数达到收敛。
步骤240:根据各分词的词向量,计算表征文本数据的语句信息的句向量。
句向量是能够表征文本数据的语句信息的向量,其可以通过各分词的词向量计算得到。例如,句向量可以是将各分词的词向量求和之后除以分词数量得到的实数向量。
步骤250:根据各分词的词向量和句向量,确定各分词与文本数据的相似度。
在得到各分词的词向量和句向量之后,可以分析各分词的词向量与句向量之间的相似度,来确定各分词与文本数据的相似度。
例如,可以计算每个分词的词向量与句向量之间的欧式距离或者余弦相似度等,来确定各个分词的词频信息。
需要说明的是,每个分词的词向量与句向量的相似度还可以通过其他的向量间相似度计算方式得到,上述计算欧式距离和余弦相似度的方法仅作为示例性说明,不应造成本发明实施例的范围限定。
步骤260:基于多个分词和主题分类模型,确定各分词的主题分布概率,并根据各分词的主题分布概率,计算各分词的主题关联度。
步骤270:基于各分词与文本数据的相似度和各分词的主题关联度,确定各分词的重要度。
步骤280:基于各分词的重要度,在上述多个分词中确定关键词。
通过上述步骤210~280,可以利用词向量模型提取各分词的词向量,并根据各分词的词向量和句向量确定各分词与文本数据的相似度,避免了采用TF-IDF方法简单计算词频产生的词频信息不准确的问题,提高了关键词识别的准确率;同时,由于词向量模型用低维的表示方式体现词语的语义关系,所以词向量模型可以减少特征数量,消除不重要的特征,提升文本分析的效率。
需要说明的是,上述步骤210-220、步骤260-280的具体实现方式可以参见前述实施例中步骤110-120、步骤140-160的具体实现方式,此处不再赘述。
在各分词的词向量和句向量之后,为了计算各分词与文本数据的相似度,图4示出了本实施例提供的又一种关键词识别方法的流程图,如图4所示,可以包括以下步骤410~490:
步骤410:获取文本数据。
步骤420:对文本数据进行分词处理,得到多个分词。
步骤430:基于多个分词和词向量模型,提取多个分词中各分词的词向量。
步骤440:根据各分词的词向量,计算表征文本数据的语句信息的句向量。
步骤450:分别计算各分词的词向量与句向量的内积,得到各分词的转换向量。
向量之间的内积也叫向量的数量积、点积。以任意一个分词的词向量为a=[a1,a2…an],句向量为b=[b1,b2…bn]为例,则该任意一个分词的转换向量为a·b=a1b1+a2b2+……+anbn。
步骤460:采用激活函数对各分词的转换向量进行处理,得到各分词与文本数据的相似度。
激活函数可以包括Softmax函数。Softmax函数一般称为归一化指数函数,它能将一个含任意实数的k维向量压缩到另一个k维实向量,使得每个元素的范围都在(0,1)之间,并且所有元素的和为1。
示例性的,在得到各分词的转换向量之后,可以利用Softmax函数对每个分词对应的转换向量进行处理,转换后的值为该分词与文本数据的相似度。
步骤470:基于多个分词和主题分类模型,确定各分词的主题分布概率,并根据各分词的主题分布概率,计算各分词的主题关联度。
步骤480:基于各分词与文本数据的相似度和各分词的主题关联度,确定各分词的重要度。
步骤490:基于各分词的重要度,在上述多个分词中确定关键词。
通过上述方法,可以通过计算各分词的词向量与句向量的内积,得到各分词的转换向量,然后采用激活函数对转换向量进行处理,得到各分词与文本数据的相似度。
需要说明的是,上述步骤410-440、步骤470-490的具体实现方式可以参见前述实施例中步骤210-240、步骤260-280的具体实现方式,此处不再赘述。
如前所述,可以利用主题分类模型对多个分词进行处理,确定各分词的主题分布概率,并根据各分词的主题分布概率,计算各分词的主题关联度。具体的,图5示出了本实施例提供的又一种关键词识别方法的流程图,如图5所示,可以包括以下步骤510~570:
步骤510:获取文本数据。
步骤520:对文本数据进行分词处理,得到多个分词。
步骤530:基于上述多个分词和词向量模型,提取多个分词中各分词的词向量,并根据各分词的词向量,计算各分词与文本数据的相似度。
步骤540:基于多个分词和主题分类模型,确定各分词的主题分布概率。
以LDA模型为例,可以通过以下方法计算各分词的主题分布概率:
假设文档集合D中每个文档d看作一个词语序列<w1,w2,...,wn>,wi表示文档d中的第i个词语,d中有n个词语。主题集合为T。D中涉及的所有不同的字词组成一个词汇表。
对文档集合D中的每个文档d,对应到不同主题的概率θd<pt1,...,ptk>,其中,pti表示d对应主题集合T中第i个主题的概率,pti=nti/n,其中nti表示d中对应第i个主题的词的数量,n是d中所有词的总数量。
对每个主题集合T中的主题t,生成不同词语的概率φt<pw1,...,pwm>,其中,pwi表示t生成词汇表中第i个词语的概率,pwi=Nwi/N,其中Nwi表示对应到主题t的词汇表中第i个词语的数目,N表示所有对应到主题t的词语总数。
LDA算法开始时,先随机的给对文档集合D中的每个文档d的θd和φt赋值,这一过程不断重复,最终收敛到的结果就是模型输出。具体迭代过程为:
(1)针对任意一个文档ds中的第i个词语,假设其对应的主题为tj,可以表示为ds:wi(tj)。
例如,d1:w1(t1),w2(t1),w3(t2)表示文档d1中第一个词语w1对应的主题为t1,第二个词语w2对应的主题为t1,第三个词语w3对应的主题为t2;d2:w2(t2),w3(t3),w4(t1)表示文档d2中第二个词语w2对应的主题为t2,第三个词语w3对应的主题为t3,第四个词语w4对应的主题为t1;d3:w3(t2),w4(t3),w5(t2)表示文档d3中第三个词语w3对应的主题为t2,第四个词语w4对应的主题为t3,第五个词语w5对应的主题为t2。
(2)利用统计计算可以得到主题的词分布p(w|t),文章的主题分布p(t|d),文章的词分布p(w|d)。
具体的,可以首先求解ti的主题下wi的概率:p(wi|ti)=(wi属于主题ti的个数)/(ti主题的总数)。例如,对于上述文档的主题分布d1:w1(t1),w2(t1),w3(t2),可以统计所有词语的主题分布频次,得到各个主题下各词语的概率。即:
主题t1主题下w1的概率:p(w1|t1)=1/3。
主题t1主题下w2的概率:p(w2|t1)=1/3。
主题t2主题下w2的概率:p(w2|t2)=1/4。
……
同理可以计算文档的主题分布p(t|d),即p(ti|di)=(di属于主题ti的词的个数)/(di词的总数)。
文章d1的主题t1概率:p(t1|d1)=2/3。
文章d1的主题t2概率:p(t2|d1)=1/3。
……
通过以上步骤,可以得到主题的词分布p(w|t)、文章的主题分布p(t|d)和文章的词分布p(w|d)。
根据贝叶斯公式:p(d,t,w)=p(d)*p(t|d)*p(w|d,t)=p(d)*p(t|d)*p(w|t),可以得到文档中词语的主题分布概率p(t|w,d)=p(d,t,w)/p(d,w)=p(d)*p(t|d)*p(w|t)/p(d,w)=p(t|d)*p(w|t)/p(w|d)。
步骤550:根据各分词的主题分布概率,计算各分词的主题关联度。
各分词的主题关联度是各分词对文本数据的主题的影响程度的度量。在得到各分词的主题分布概率之后,可以进一步根据相应的主题关联度的计算方式,计算各分词的主题关联度。
例如,可以根据各分词的主题分布概率,将每个分词的主题分布概率中的最大概率确定为对应分词的主题关联度。
步骤560:基于各分词与文本数据的相似度和各分词的主题关联度,确定各分词的重要度。
步骤570:基于各分词的重要度,在上述多个分词中确定关键词。
通过上述方法,可以通过主题分类模型计算各个分词的主题分布概率,并通过主题分布概率计算得到各分词的主题关联度,实现基于主题分布分析的分词主题关联度的计算,提高了计算分词对文本数据的影响度的可靠性。
需要说明的是,上述步骤510-530、步骤560-570的具体实现方式可以参见前述实施例中步骤110-130、步骤150-160的具体实现方式,此处不再赘述。
按照信息量的计算方式,图6示出了本实施例提供的又一种关键词识别方法的流程图,如图6所示,可以包括以下步骤:
步骤610:获取文本数据。
步骤620:对文本数据进行分词处理,得到多个分词。
步骤630:基于上述多个分词和词向量模型,提取多个分词中各分词的词向量,并根据各分词的词向量,计算各分词与文本数据的相似度。
步骤640:基于多个分词和主题分类模型,确定各分词的主题分布概率。
步骤650:通过公式(1)计算各分词的主题关联度。
Ni = -[log(pi1)+log(pi2)+……log(pik)] (1)
其中,Ni表示第i个分词的主题关联度,Pik表示第i个分词在第k个主题上的主题分布概率,i和k均为正整数。
步骤660:基于各分词与文本数据的相似度和各分词的主题关联度,确定各分词的重要度。
步骤670:基于各分词的重要度,在上述多个分词中确定关键词。
通过上述方法,可以依据公式(1)确定各分词的主题关联度,利用各分词的主题关联度和各分词与文本数据的相似度识别出文本数据中的关键词。
需要说明的是,上述步骤610-640、步骤660-670的具体实现方式可以参见前述实施例中步骤510-540、步骤560-570的具体实现方式,此处不再赘述。
在得到各分词与文本数据的相似度和各分词的主题关联度之后,可以根据这两个参数综合评估各分词在文本数据中的重要度。图7示出了本实施例提供的又一种关键词识别方法的流程图,如图7所示,可以包括以下步骤:
步骤710:获取文本数据。
步骤720:对文本数据进行分词处理,得到多个分词。
步骤730:基于多个分词和词向量模型,提取多个分词中各分词的词向量,并根据各分词的词向量,计算各分词与文本数据的相似度。
步骤740:基于多个分词和主题分类模型,确定各分词的主题分布概率,并根据各分词的主题分布概率,计算各分词的主题关联度。
步骤750:将每个分词与文本数据的相似度分别和该每个分词的主题关联度相乘,得到各分词的重要度。
即,对于第i个分词,其与文本数据的相似度和主题关联度分别为mi和ni,所以第i个分词的重要度=mi*ni。
通过这种方式,可以根据每个分词与文本数据的相似度和对应分词的主题关联度,计算得到评估分词关键程度的分词的重要度。
步骤760:基于各分词的重要度,在多个分词中确定关键词。
通过上述方法,可以根据各分词与文本数据的相似度和各分词的主题关联度,确定各分词的重要度。由于分词与文本数据的相似度和分词的主题关联度分别是利用词向量模型和主题分类模型得到的,相比简单的统计词频的方式,能够综合分析各分词的语义信息和主题信息,提高识别关键词的准确率。
需要说明的是,上述步骤710-740、步骤760的具体实现方式可以参见前述实施例中步骤110-140、步骤160的具体实现方式,此处不再赘述。
图8示出了本实施例提供的又一种关键词识别方法的流程图,如图7所示,可以包括以下步骤:
步骤810:获取文本数据。
步骤820:对文本数据进行分词处理,得到多个分词。
步骤830:基于多个分词和词向量模型,提取多个分词中各分词的词向量,并根据各分词的词向量,计算各分词与文本数据的相似度。
步骤840:基于多个分词和主题分类模型,确定各分词的主题分布概率,并根据各分词的主题分布概率,计算各分词的主题关联度。
步骤850:基于各分词与文本数据的相似度和各分词的主题关联度,确定各分词的重要度。
步骤860:根据各分词的重要度,将重要度大于预设阈值的分词确定为关键词;或者,根据各分词的重要度,对多个分词按照重要度从大到小的顺序进行排序,将前N个分词确定为关键词。
其中,N为正整数;预设阈值可以根据文本数据中分词的数量等进行设置,如可以设置为文本数据中分词数量的1/2或1/3等。
按照各分词的重要度,可以将重要度大于预设阈值的分词作为关键词,也可以按照重要度从大到小的顺序,将前N个分词确定为关键词。
需要说明的是,上述步骤810-850的具体实现方式可以参见前述实施例中步骤110-150的具体实现方式,此处不再赘述。
在一种可选的方式中,在识别出文本数据中的关键词之后,可以利用关键词确定文本数据的分析结果。例如,在在线客服的应用场景中,可以利用关键词在答案库中匹配出文本数据的相似文本,将相似文本对应的答案作为回复用户的答案数据。
以在线客服或智能问答机器人的应用场景为例,图9示出了本实施例提供的又一种关键词识别方法的流程图,如图9所示,可以包括以下步骤:
步骤910:获取文本数据。
步骤920:对文本数据进行分词处理,得到多个分词。
为了获得分析文本数据的最小单元,可以在文本数据中去除标点符号、特殊标记和连接词、指示词以及其他指定的停用词,将文本数据划分为多个分词。
步骤930:基于多个分词和词向量模型,提取多个分词中各分词的词向量,并根据各分词的词向量,计算表征文本数据的语句信息的句向量,分别计算各分词的词向量与句向量的内积,得到各分词的转换向量,采用激活函数对各分词的转换向量进行处理,得到各分词与文本数据的相似度。
以Word2Vec模型为例,可以将各分词用one-hot编码方式转换为输入向量,利用输入层到隐藏层的权重矩阵对输入向量进行线性变换,得到各分词的词向量。
在得到各分词的词向量后,可以将各分词的词向量求和之后除以分词数量得到文本数据的句向量,然后计算各分词的词向量与句向量的内积,得到各分词的转换向量,采用Softmax激活函数对各分词的转换向量进行处理,得到各分词与文本数据的相似度。
步骤940:基于多个分词和主题分类模型,确定各分词的主题分布概率,并根据各分词的主题分布概率,计算各分词的主题关联度。
例如,可以采用LDA模型计算各分词的主题分布概率,然后根据每个分词的主题分布概率,计算每个分词的主题关联度。
步骤950:根据各分词与文本数据的相似度和各分词的主题关联度,针对每个分词,将分词与文本数据的相似度和该分词的主题关联度相乘,得到各分词的重要度。
步骤960:基于各分词的重要度,在多个分词中确定关键词。
示例性的,可以根据各分词的重要度,将重要度大于预设阈值的分词确定为关键词,也可以根据各分词的重要度,对多个分词按照重要度从大到小的顺序进行排序,将前N个分词确定为关键词。N为正整数。
步骤970:根据关键词确定文本数据对应的相似文本的答案数据。
例如,可以根据文本中包含的相同关键词的数量,确定文本数据对应的相似文本,进而将相似文本的答案数据作为给用户的答复文本。
通过确定文本数据中的关键词,并根据关键词确定答案数据,能够提高用户的问答准确率,避免返回用户不想要的答案的可能,所以能够提高用户体验,为用户带来更加优质的服务。
综上,根据本实施例中的关键词识别方法,可以根据各分词与文本数据的相似度和各分词的主题关联度确定各分词的重要度,识别出文本数据中的关键词,能够提高识别关键词的准确率,也可以解决词语分布不均衡而产生的词语重要度无法准确评估的问题,并且可以应用于长文本和短文本的关键词识别。
图10示出了本发明实施例提供的一种关键词识别装置的结构示意图。如图10所示,该关键词识别装置1000可以包括:获取模块1010,可以用于获取文本数据;分词处理模块1020,可以用于对文本数据进行分词处理,得到多个分词;第一计算模块1030,可以用于基于多个分词和词向量模型,提取多个分词中各分词的词向量,并根据各分词的词向量,计算各分词与文本数据的相似度;第二计算模块1040,可以用于基于多个分词和主题分类模型,确定各分词的主题分布概率,并根据各分词的主题分布概率,计算各分词的主题关联度;重要度确定模块1050,可以用于基于各分词与文本数据的相似度和各分词的主题关联度,确定各分词的重要度;关键词确定模块1060,可以用于基于各分词的重要度,在多个分词中确定关键词。
在一种可选的方式中,重要度确定模块1050可以用于基于各分词与文本数据的相似度和各分词的主题关联度,确定各分词的重要度,包括:将每个分词与文本数据的相似度分别和每个分词的主题关联度相乘,得到各分词的重要度。
在一种可选的方式中,第一计算模块1030可以用于根据各分词的词向量,计算表征文本数据的语句信息的句向量;根据各分词的词向量和句向量,确定各分词与文本数据的相似度。
在一种可选的方式中,第一计算模块1030可以用于分别计算各分词的词向量与句向量的内积,得到各分词的转换向量;采用激活函数对各分词的转换向量进行处理,得到各分词与文本数据的相似度,激活函数包括Softmax函数。
在一种可选的方式中,第二计算模块1040,可以用于通过如下公式计算各分词的主题关联度:
Ni=-[log(pi1)+log(pi2)+……log(pik)]
其中,Ni表示第i个分词的主题关联度,Pik表示第i个分词分布在多个主题中第k个主题的主题分布概率,i和k均为正整数。
在一种可选的方式中,关键词确定模块1060可以用于根据各分词的重要度,将重要度大于预设阈值的分词确定为关键词;或者,根据各分词的重要度,对多个分词按照重要度从大到小的顺序进行排序,将前N个分词确定为关键词,其中,N为正整数。
在一种可选的方式中,词向量模型可以包括Word2Vec模型,主题分类模型可以包括LDA模型。
上述装置中各模块的具体细节在方法部分实施方式中已经详细说明,未披露的方案细节内容可以参见方法部分的实施方式内容,因而不再赘述。
图11示出了本发明实施例提供的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图11所示,该电子设备可以包括:处理器(processor)1102、通信接口(Communications Interface)1104、存储器(memory)1106、以及通信总线1108。
其中:处理器1102、通信接口1104、以及存储器1106通过通信总线1108完成相互间的通信。通信接口1104,用于与其它设备比如客户端或其它服务器等的网元通信。处理器1102,用于执行程序1110,具体可以执行上述用于关键词识别方法实施例中的相关步骤。
具体地,程序1110可以包括程序代码,该程序代码包括计算机可执行指令。
处理器1102可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器1106,用于存放程序1110。存储器1106可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序1110具体可以被处理器1102调用使电子设备执行上述关键词识别方法的操作步骤。
本发明实施例提供了一种计算机可读存储介质,所述存储介质存储有至少一可执行指令,该可执行指令在电子设备上运行时,使得所述电子设备执行上述任意方法实施例中的关键词识别方法。
可执行指令具体可以用于使得电子设备执行上述关键词识别方法的操作步骤。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。此外,本发明实施例也不针对任何特定编程语言。
在此处所提供的说明书中,说明了大量具体细节。然而能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。类似地,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。其中,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
Claims (10)
1.一种关键词识别方法,其特征在于,所述方法包括:
获取文本数据;
对所述文本数据进行分词处理,得到多个分词;
基于所述多个分词和词向量模型,提取所述多个分词中各分词的词向量,并根据各所述分词的词向量,计算各所述分词与所述文本数据的相似度;
基于所述多个分词和主题分类模型,确定各所述分词的主题分布概率,并根据各所述分词的主题分布概率,计算各所述分词的主题关联度;
基于各所述分词与所述文本数据的相似度和各所述分词的主题关联度,确定各所述分词的重要度;
基于各所述分词的重要度,在所述多个分词中确定关键词。
2.根据权利要求1所述的方法,其特征在于,所述基于各所述分词与所述文本数据的相似度和各所述分词的主题关联度,确定各所述分词的重要度,包括:
将每个分词与所述文本数据的相似度分别和所述每个分词的主题关联度相乘,得到各所述分词的重要度。
3.根据权利要求1所述的方法,其特征在于,所述根据各所述分词的词向量,计算各所述分词与所述文本数据的相似度,包括:
根据各所述分词的词向量,计算表征所述文本数据的语句信息的句向量;
根据各所述分词的词向量和所述句向量,确定各所述分词与所述文本数据的相似度。
4.根据权利要求3所述的方法,其特征在于,所述根据各所述分词的词向量和所述句向量,确定各所述分词与所述文本数据的相似度,包括:
分别计算各所述分词的词向量与所述句向量的内积,得到各所述分词的转换向量;
采用激活函数对各所述分词的转换向量进行处理,得到各所述分词与所述文本数据的相似度,所述激活函数包括Softmax函数。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述根据各所述分词的主题分布概率,计算各所述分词的主题关联度,包括:
通过如下公式计算各所述分词的主题关联度:
Ni=-[log(pi1)+log(pi2)+……log(pik)]
其中,Ni表示第i个分词的主题关联度,Pik表示第i个分词分布在所述多个主题中第k个主题的主题分布概率,所述i和k均为正整数。
6.根据权利要求1-4中任一项所述的方法,其特征在于,所述基于各所述分词的重要度,在所述多个分词中确定关键词,包括:
根据各所述分词的重要度,将重要度大于预设阈值的分词确定为所述关键词;或者,
根据各所述分词的重要度,对所述多个分词按照重要度从大到小的顺序进行排序,将前N个分词确定为所述关键词,其中,N为正整数。
7.根据权利要求1-4中任一项所述的方法,其特征在于,所述词向量模型包括Word2Vec模型,所述主题分类模型包括LDA模型。
8.一种关键词识别装置,其特征在于,所述装置包括:
获取模块,用于获取文本数据;
分词处理模块,用于对所述文本数据进行分词处理,得到多个分词;
第一计算模块,用于基于所述多个分词和词向量模型,提取所述多个分词中各分词的词向量,并根据各所述分词的词向量,计算各所述分词与所述文本数据的相似度;
第二计算模块,用于基于所述多个分词和主题分类模型,确定各所述分词的主题分布概率,并根据各所述分词的主题分布概率,计算各所述分词的主题关联度;
重要度确定模块,用于基于各所述分词与所述文本数据的相似度和各所述分词的主题关联度,确定各所述分词的重要度;
关键词确定模块,用于基于各所述分词的重要度,在所述多个分词中确定关键词。
9.一种电子设备,其特征在于,包括:处理器;
存储器,用于存放至少一可执行指令;
所述可执行指令使所述处理器执行如权利要求1-7任意一项所述的关键词识别方法的操作。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一可执行指令,所述可执行指令在电子设备上运行时,使得电子设备执行如权利要求1-7任意一项所述的关键词识别方法的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310258655.8A CN116644148A (zh) | 2023-03-16 | 2023-03-16 | 关键词识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310258655.8A CN116644148A (zh) | 2023-03-16 | 2023-03-16 | 关键词识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116644148A true CN116644148A (zh) | 2023-08-25 |
Family
ID=87623529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310258655.8A Pending CN116644148A (zh) | 2023-03-16 | 2023-03-16 | 关键词识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116644148A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117690550A (zh) * | 2024-02-04 | 2024-03-12 | 西南医科大学附属医院 | 内分泌病人长期用药跟踪系统及管理方法 |
CN118037397A (zh) * | 2024-02-29 | 2024-05-14 | 北京鑫创数字科技股份有限公司 | 一种肉类产品数字化整合营销服务平台 |
CN118675500A (zh) * | 2024-08-21 | 2024-09-20 | 成都职业技术学院 | 一种应急语言自动生成方法 |
-
2023
- 2023-03-16 CN CN202310258655.8A patent/CN116644148A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117690550A (zh) * | 2024-02-04 | 2024-03-12 | 西南医科大学附属医院 | 内分泌病人长期用药跟踪系统及管理方法 |
CN117690550B (zh) * | 2024-02-04 | 2024-05-03 | 西南医科大学附属医院 | 内分泌病人长期用药跟踪系统及管理方法 |
CN118037397A (zh) * | 2024-02-29 | 2024-05-14 | 北京鑫创数字科技股份有限公司 | 一种肉类产品数字化整合营销服务平台 |
CN118675500A (zh) * | 2024-08-21 | 2024-09-20 | 成都职业技术学院 | 一种应急语言自动生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
US8862521B2 (en) | Systems and methods for determining whether to publish an advertisement on a web page associated with a web page article or to exclude advertisements from publication on the web page associated with the web page article based on the comparison of a first numeric likelihood to a first set of threshold values | |
CN108255813B (zh) | 一种基于词频-逆文档与crf的文本匹配方法 | |
CN111325029B (zh) | 一种基于深度学习集成模型的文本相似度计算方法 | |
CN109902159A (zh) | 一种基于自然语言处理的智能运维语句相似度匹配方法 | |
CN116644148A (zh) | 关键词识别方法、装置、电子设备及存储介质 | |
CN110147421B (zh) | 一种目标实体链接方法、装置、设备及存储介质 | |
CN110162630A (zh) | 一种文本去重的方法、装置及设备 | |
CN113011689B (zh) | 软件开发工作量的评估方法、装置及计算设备 | |
CN110222192A (zh) | 语料库建立方法及装置 | |
CN111274822A (zh) | 语义匹配方法、装置、设备及存储介质 | |
CN113569578B (zh) | 一种用户意图识别方法、装置和计算机设备 | |
CN116756347B (zh) | 一种基于大数据的语义信息检索方法 | |
CN112818091A (zh) | 基于关键词提取的对象查询方法、装置、介质与设备 | |
CN111368066B (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
CN111400340A (zh) | 一种自然语言处理方法、装置、计算机设备和存储介质 | |
CN111241410A (zh) | 一种行业新闻推荐方法及终端 | |
CN112925912A (zh) | 文本处理方法、同义文本召回方法及装置 | |
CN107797981B (zh) | 一种目标文本识别方法及装置 | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
JP2012146263A (ja) | 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム | |
Thaiprayoon et al. | Graph and centroid-based word clustering | |
CN114139537A (zh) | 词向量的生成方法及装置 | |
Chen et al. | Using latent Dirichlet allocation to improve text classification performance of support vector machine | |
CN113656429A (zh) | 一种关键词提取方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |