CN114676346A - 新闻事件处理方法、装置、计算机设备和存储介质 - Google Patents
新闻事件处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN114676346A CN114676346A CN202210262081.7A CN202210262081A CN114676346A CN 114676346 A CN114676346 A CN 114676346A CN 202210262081 A CN202210262081 A CN 202210262081A CN 114676346 A CN114676346 A CN 114676346A
- Authority
- CN
- China
- Prior art keywords
- news
- news event
- target
- event
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 21
- 239000013598 vector Substances 0.000 claims abstract description 143
- 238000012216 screening Methods 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims description 54
- 238000000605 extraction Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 7
- 238000012512 characterization method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 241000157593 Milvus Species 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种新闻事件处理方法方法、装置、计算机设备和存储介质,该方法包括:获取目标新闻事件,提取目标新闻事件的属性;将目标新闻事件的摘要作为预训练好的向量生成模型的输入,得到目标第一向量表示;基于预设的相似筛选规则,在预配置的新闻数据库中进行搜索,确定新闻数据库中是否存满足相似筛选规则的历史新闻事件;当新闻数据库中存在满足相似筛选规则的历史新闻事件,则确定历史新闻事件的摘要的向量表示;确定目标第一向量表示与历史新闻事件的摘要的向量表示的相似度,并根据比对结果确定目标新闻事件的相关新闻事件。上述方法可以提高相似新闻确定的处理效率。
Description
技术领域
本发明涉及大数据分析技术领域,特别是涉及新闻事件处理方法、装置、计算机设备和存储介质。
背景技术
随着互联网技术的迅速发展和普及,越来越多的用户通过网络获取最新的咨询信息,新闻频道就是其中网站提供的一种供用户浏览和订阅新闻的比较方便的方式,通过新闻频道用户希望全面地了解新闻所报导的事件,甚至订阅该事件的后续事件报导。
新闻通常报道最近发生的事件,而对于持续一段时间的科技金融类事件比如上市,起诉等持续时间比较长的事件,只浏览单次报道不能更好的了解事件背景,发展过程等。为了更好的报道当前的事件,需要整理事件发展的历史;传统的做法通过人工搜索,过滤整理相关事件的新闻并按照时间顺序追踪整个过程。这种做法需要耗费较多的人力资源,也导致新闻发布不及时。
发明内容
本申请提供了一种新闻事件处理方法、装置、计算机设备和存储介质。
第一方面提供了一种新闻事件处理方法,包括:
获取目标新闻事件,提取所述目标新闻事件的属性,其中,所述属性包括所述目标新闻事件的摘要、命名实体和类型;
将所述目标新闻事件的摘要作为预训练好的向量生成模型的输入,得到所述目标新闻事件第一向量表示;
基于预设的相似筛选规则,在预配置的新闻数据库中进行搜索,确定所述新闻数据库中是否存满足所述相似筛选规则的历史新闻事件;
若是,则确定所述历史新闻事件的摘要的第二向量表示;
确定所述第一向量表示与所述第二向量表示的相似度,并根据比对结果确定所述目标新闻事件的所有相关新闻事件;
将所述目标新闻事件和所有所述相关新闻事件按照新闻事件发生时间排列。
在一些实施例中,所述提取所述目标新闻事件的属性中提取所述目标新闻事件的摘要,包括:
将所述目标新闻事件进行切句得到句子列表;
将所述句子列表输入摘要提取模型,得到所述目标新闻事件的摘要;其中,所述摘要提取模型是在Bert模型中的前馈反向层后,添加奇偶句编码层,得到编码器;从transformer模型中提取解码器,组合所述编码器和所述解码器,得到所述摘要提取模型。
在一些实施例中,所述提取所述目标新闻事件的属性中提取所述目标新闻事件的命名实体,包括:
所述目标新闻事件的摘要输入预配置的BERT-BiLSTM-CRF模型中,得到所述目标新闻事件的摘要中的命名实体;其中,所述BERT-BiLSTM-CRF模型包括:BERT预训练模型层、BiLSTM网络层以及CRF推理层,所述BERT预训练模型层用于将每个字符进行编码得到对应字符的字向量;所述BiLSTM网络层用于将所述字向量组成的序列双向编码获取新的特征向量;所述CRF推理层用于基于所述新的特征向量输出概率最大的命名实体。
在一些实施例中,所述提取所述目标新闻事件的属性中提取所述目标新闻事件的类型,包括:
采用LDA模型对训练新闻事件进行聚类,对各类训练新闻进行类别标注;
将所述训练新闻事件和所述新闻事件的类别标注作为作为Bert模型的训练数据,对所Bert模型进行训练,得到类型分析模型;
将所述目标新闻事件的摘要输入所述类型分析模型,得到所述目标新闻事件的类型。
在一些实施例中,所述基于预设的相似筛选规则,在预配置的新闻数据库中进行搜索,包括:
在所述新闻数据库中搜索与所述目标新闻事件的类型相同的历史新闻事件;
根据所述目标新闻事件的类型,确定所述历史新闻事件的关键命名实体;
从与所述目标新闻事件的类型相同的历史新闻事件中筛选出与所述目标新闻事件有相同关键命名实体的历史新闻事件。
在一些实施例中,所述确定所述第一向量表示与所述历史新闻事件的摘要的向量表示的相似度,包括:
根据所述第二向量表示,在预配置的向量数据库中进行相似搜索,确定所述向量数据库中是否存在所述第二向量表示的相似向量表征信息;所述向量数据库存储有进行历史新闻事件处理时对所述历史新闻事件处理得到的向量表示;
根据所述第一向量表示与所述向量数据库中的向量表示之间的余弦相似度确定所述向量数据库中是否存在所述第一向量表示的相似向量表示。
在一些实施例中,所述将所述目标新闻事件的摘要作为预训练好的向量生成模型的输入中,所述向量生成模型的训练方法包括:
获取多篇相同训练新闻和多篇相似训练新闻;
对所述目标新闻事件进行基础信息分析,提取所述训练新闻的摘要;
将相同的训练新闻的摘要作为正样例输入向量生成模型,将相似训练新闻的摘要作为负样例输入向量生成模型,向量生成模型利用Bert模型,将摘要转换为一个向量,并经过平均池化层,输出的2个向量进行相似度计算,得到两个训练新闻的相似度;
根据所述两个训练新闻的相似度对所述向量生成模型进行训练。
第二方面提供了一种新闻事件处理装置,包括:
属性提取单元,用于获取目标新闻事件,提取所述目标新闻事件的属性,其中,所述属性包括所述目标新闻事件的摘要、命名实体和类型;
向量表示单元,用于将所述目标新闻事件的摘要作为预训练好的向量生成模型的输入,得到所述目标新闻事件的第一向量表示;
筛选单元,用于基于预设的相似筛选规则,在预配置的新闻数据库中进行搜索,确定所述新闻数据库中是否存满足所述相似筛选规则的历史新闻事件;若是,则确定所述历史新闻事件的摘要的第二向量表示;
相似度判断单元,用于确定所述第一向量表示与所述历史新闻事件的摘要的向量表示的相似度,并根据比对结果确定所述目标新闻事件的相关新闻事件;
排序单元,用于将所述目标新闻事件和所述相关新闻事件按照新闻事件发生时间排列。
第三方面提供了一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述目标新闻事件处理方法的步骤。
第四方面提供了一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述目标新闻事件处理方法的步骤。
上述新闻事件处理方法、装置、计算机设备和存储介质,首先获取目标新闻事件,提取所述目标新闻事件的属性,其中,所述属性包括所述目标新闻事件的摘要、命名实体和类型;其次将所述目标新闻事件的摘要作为预训练好的向量生成模型的输入,得到所述最近新闻事其次件的向量表示;再次基于预设的相似筛选规则,在预配置的新闻数据库中进行搜索,确定所述新闻数据库中是否存满足所述相似筛选规则的历史新闻事件;若是,则确定所述历史新闻事件的摘要的向量表示;最后确定所述目标新闻事件的第一向量表示与所述历史新闻事件的摘要的向量表示的相似度,并根据比对结果确定所述目标新闻事件的相关新闻事件;将所述目标新闻事件和所述相关新闻事件按照新闻事件发生时间排列。因此,本申请通过sBert模型,相同新闻的文本比较转为向量的相似度比较问题,同时依托于预配置的向量数据库,预先得到所有历史新闻的向量表征信息,使得语义级相同新闻的判断具备在亿级新闻数量级中,仍然可以在100毫秒内(典型值)完成结果的输出,即相较于现有技术,能够很好地提高匹配结果精度以及匹配效率。
附图说明
图1为一个实施例中提供的新闻事件处理方法的实施环境图;
图2为一个实施例中新闻事件处理方法的流程图;
图3为一个实施例中新闻事件处理方法的孪生网络模型的结构示意图;
图4为一个实施例中新闻事件处理装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于理解,首先对本发明实施例涉及的技术术语进行解释:
孪生神经网络(Siamese neural network),又名双生神经网络,是基于两个人工神经网络建立的耦合构架。孪生神经网络以两个样本为输入,输出其嵌入高维度空间的表征,以比较两个样本的相似程度。狭义的孪生神经网络由两个结构相同,且权重共享的神经网络拼接而成。广义的孪生神经网络,或“伪孪生神经网络(pseudo-siamese network)”,可由任意两个神经网拼接而成。孪生神经网络通常具有深度结构,可由卷积神经网络、循环神经网络等组成。在监督学习范式下,孪生神经网络会最大化不同标签的表征,并最小化相同标签的表征。在自监督或非监督学习范式下,孪生神经网络可以最小化原输入和干扰输入(例如原始图像和该图像的裁减)间的表征。孪生神经网络可以进行小样本/单样本学习(one-shot learning),且不容易被错误样本干扰,因此可用于对容错率要求严格的模式识别问题,例如人像识别、指纹识别、目标追踪等。
Bert(Bidirectional Encoder Representations from Transformers)是一个预训练的模型,Bert的新语言表示模型,它代表Transformer的双向编码器表示。与最近的其他语言表示模型不同,Bert旨在通过联合调节所有层中的上下文来预先训练深度双向表示。因此,预训练的Bert表示可以通过一个额外的输出层进行微调,适用于广泛任务的最先进模型的构建,比如问答任务和语言推理,无需针对具体任务做大幅架构修改。
simhash是常用的文本去重hash算法之一,类似于md5、crc32等。原理是通过对文本数据提取的关键词做权重计算,最终将一篇大段的文本映射为仅8字节的hash值。其本身并不支持直接对文本进行相似性分析计算,但其产生的hash结果值可通过海明距离算法进行比对,从而计算出文本间的相似度。因为海明距离的计算所针对的是simhash的结果,并不是原有的文本数据,其计算量非常小,而且simhash结果可在取得文本数据后就提前计算取得。
如图2所示,在一个实施例中,提出了一种新闻事件处理方法,具体可以包括以下步骤:
步骤201、获取目标新闻事件,提取目标新闻事件的属性,其中,属性包括目标新闻事件的摘要、命名实体和类型。目标新闻事件可理解为在当前时刻之前较短时间段内发生的任意新闻事件,本实施例对该较短时间段不做具体限定,本领域技术人员可根据所要查找的目标新闻事件发生的时间进行设定。
在一些实施例中,提取历史新闻事件的标题和摘要,包括:
步骤2011、将历史新闻事件进行切句得到句子列表;
其中,采用[CLS]分割历史新闻事件。
步骤2012、将句子列表输入摘要提取模型,得到历史新闻事件的标题和摘要;其中,摘要提取模型是在Bert模型中的前馈反向层后,添加奇偶句编码层,得到编码器;从transformer模型中提取解码器,组合编码器和解码器,得到摘要提取模型。
其中,可从Bert模型所在的程序管理库中直接接收Bert模型。Bert模型(Bidirectional Encoder Representations from Transformers)是一种当前已公开的通用自然语言处理框架,内部结构包括嵌入层、多头注意力机制层及前馈反向层,其中嵌入层的作用是将文本用矩阵进行表示,多头注意力机制层的作用是从矩阵文本中提取得到文本特征,前馈反向层的作用是根据文本特征调解Bert模型的内部参数,达到优化Bert模型的目的。
奇偶句编码层的主要目的是识别句子中词语数量是奇数还是偶数,从而对奇数句和偶数句执行分开编码。其中,奇偶句编码层包括结巴分词程序,利用结巴分词程序拆分句子得到多组词语,并遍历多组词语的数量,从而完成对句子中词语数量的识别。
transformer模型是一种开源的自然语言处理模型,包括解码器,本实施例中,从数据库中接收transformer模型,并提取出解码器。
在一些实施例中,提取目标新闻事件的属性中提取目标新闻事件的命名实体,包括:
目标新闻事件的摘要输入预配置的BERT-BiLSTM-CRF模型中,得到目标新闻事件的摘要中的命名实体;其中,BERT-BiLSTM-CRF模型包括:BERT预训练模型层、BiLSTM网络层以及CRF推理层,BERT预训练模型层用于将每个字符进行编码得到对应字符的字向量;BiLSTM网络层用于将字向量组成的序列双向编码获取新的特征向量;CRF推理层用于基于新的特征向量输出概率最大的命名实体。
本实施例基于Bert模型构建的命名实体识别模型,很好的解决了标注数据不足以及实体边界模糊时实体识别困难,精度不高的问题,提高实体识别模型的性能和识别准确率。
在一些实施例中,提取目标新闻事件的属性中提取目标新闻事件的类型,包括:
采用LDA模型对训练新闻事件进行聚类,对各类训练新闻进行类别标注;
将训练新闻事件和新闻事件的类别标注作为作为Bert模型的训练数据,对所Bert模型进行训练,得到类型分析模型;
将目标新闻事件的摘要输入类型分析模型,得到目标新闻事件的类型。
可以理解的是,进行Bert模型训练。分别从每个新闻类别下的所有新闻文本中筛选出与预设阈值相同数量的新闻文本作为训练数据输入Bert模型中进行训练。之所以选用Bert模型进行训练,是因为Bert模型引入了自注意力机制,将文本表征为特征向量,该特征向量是一种基于词的特征提取,是一种通用的特征,因此打乱句子中词的顺序,并不会影响到Bert模型的特征向量,因此能够用于本方法中来面对训练数据不平衡的问题。经过本步骤筛选之后,各类新闻类别下的作为训练数据的新闻文本数量达到了平衡,训练后的Bert模型的精度较高。
具体地,本实施方式中的Bert模型是基于transformer架构(基于自注意力机制的全新神经网络架构)实现,将训练数据输入Bert模型中进行训练包括;基于Masked LM任务以及下一句预测任务对Bert模型进行预训练;将训练数据输入Bert模型中,对Bert模型进行微调从而使得Bert模型与训练数据相匹配。将待分类的目标新闻事件输入训练后的Bert模型中进行分类。因为本实施方式的Bert模型的精度比较高,所以分类效果非常好,准确率非常高。
步骤202、将目标新闻事件的摘要作为预训练好的向量生成模型的输入,得到目标第一向量表示;
可以理解的是,向量生成模型是孪生网络,由于孪生网络由两个并行的Bert模型组成,每次输入的数据是一组句子对,因此需要对数据做一些加工处理完成训练。需要构造相似句子和相同的句子,在该实施例中相同是指语义级别意义上的相同。训练过程是将上述两个问题输入到孪生网络的Bert模型中,两个Bert模型共享参数,分别取最后一层的输出,采用平均池化策略,对所有token的每一维度输出取平均值作为Embedding向量。假设第一个句子的输出向量为u,第二个句子的输出向量为v,采用cos相似度作为优化的目标函数。使用这个新的网络进行训练,对BERT网络进行Fine Turning。
如图3所示,孪生网络利用Bert预训练模型,从文本中得到句子(sentence)的向量,并经过池化(pooling),和全连接层(dense),得到2个输出(u,v),并对输出值进行余弦相似度的计算,得到最终相似的概率值。
步骤203、基于预设的相似筛选规则,在预配置的新闻数据库中进行搜索,确定新闻数据库中是否存满足相似筛选规则的历史新闻事件;
可以理解的是,历史新闻事件处理时,对历史新闻事件的标题和摘要进行分词以及事件分类的结果写入elasticsearch。ElasticSearch是一个基于Lucene的搜索服务器,该步骤也就是将历史新闻写入搜索服务器,建立一个能够根据事件分类搜索到新闻的数据库。具体地,包括:
(1)提取历史新闻事件的摘要
(2)提取提取摘要中的命名实体;
(3)根据摘要,确定历史新闻事件的分类;
(4)对历史新闻事件进行唯一ID的标注;
(5)建立历史新闻事件与摘要、命名实体、关键词历史新闻事件分类以及唯一ID的链接关系;
(6)将历史新闻事件和链接关系存储至历史新闻数据库中。
在一些实施例中,基于预设的相似筛选规则,在预配置的新闻数据库中进行搜索,包括:
步骤2031、在新闻数据库中搜索与目标新闻事件的类型相同的历史新闻事件;
步骤2032、根据目标新闻事件的类型,确定历史新闻事件的关键命名实体;
其中,根据目标新闻事件的类型确定关键命名实体,例如,事件分类为上市,提取公司作为二次确定的命名实体,组成一个事件+命名实体;事件分类为诉讼,提取公司+公司为关键实体,组成公司A+诉讼+公司B。该步骤也就是,利用关键词(命名实体)对召回的历史新闻过滤,保留相同实体和相同事件的历史新闻。
步骤2033、从与目标新闻事件的类型相同的历史新闻事件中筛选出与目标新闻事件有相同关键命名实体的历史新闻事件。
可以理解的是,历史新闻事件的摘要、命名实体和类型都是预先存储在新闻数据库中的,进行相似搜索即可,能够很好地提高匹配效率。
步骤204、若新闻数据库中存在满足相似筛选规则的历史新闻事件,则确定历史新闻事件的摘要的向量表示;
在一些实施例中,确定第一向量表示与历史新闻事件的摘要的第二向量表示的相似度,包括:
步骤2041、根据第二向量表示,在预配置的向量数据库中进行相似搜索,确定向量数据库中是否存在第二向量表示的相似向量表征信息;向量数据库存储有进行历史新闻事件处理时对历史新闻事件处理得到的向量表示;
可以理解的是,历史新闻事件的摘要通过sBert模型再平均池化后得到的向量,插入milvus向量数据库中(milvus支持近实时搜索,插入落盘即可检索)。对该历史新闻事件向量在milvus或faiss等向量数据库中进行检索。
步骤2042、根据第一向量表示与向量数据库中的向量表示之间的余弦相似度确定向量数据库中是否存在第一向量表示的相似向量表示。
步骤205、确定第一向量表示与历史新闻事件的摘要的向量表示的相似度,并根据比对结果确定目标新闻事件的相关新闻事件;将目标新闻事件和相关新闻事件按照新闻事件发生时间排列。
如图4所示,在一个实施例中,提供了一种新闻事件处理装置,该新闻事件处理装置可以集成于上述的计算机设备110中,具体可以包括:
属性提取单元411,用于获取目标新闻事件,提取目标新闻事件的属性,其中,属性包括目标新闻事件的摘要、命名实体和类型;
第一向量表示单元412,用于将目标新闻事件的摘要作为预训练好的向量生成模型的输入,得到目标新闻事件的第一向量表示;
筛选单元413,用于基于预设的相似筛选规则,在预配置的新闻数据库中进行搜索,确定新闻数据库中是否存满足相似筛选规则的历史新闻事件;
第二向量表示单元414,用于当若新闻数据库中存在满足相似筛选规则的历史新闻事件,则确定历史新闻事件的摘要的第二向量表示;
相似度判断单元415,用于确定第一向量表示与第二向量表示的相似度,并根据比对结果确定目标新闻事件的相关新闻事件;将目标新闻事件和相关新闻事件按照新闻事件发生时间排列。
在一个实施例中,提出了一种计算机设备,计算机设备可以包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取目标新闻事件,提取目标新闻事件的属性,其中,属性包括目标新闻事件的摘要、命名实体和类型;将目标新闻事件的摘要作为预训练好的向量生成模型的输入,得到目标新闻事件的第一向量表示;基于预设的相似筛选规则,在预配置的新闻数据库中进行搜索,确定新闻数据库中是否存满足相似筛选规则的历史新闻事件;若是,则确定历史新闻事件的摘要的第二向量表示;确定第一向量表示与历第二向量表示的相似度,并根据比对结果确定目标新闻事件的相关新闻事件;将目标新闻事件和相关新闻事件按照新闻事件发生时间排列。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:接收理赔请求,并根据理赔请求确定理赔数据,理赔数据可以包括:获取目标新闻事件,提取目标新闻事件的属性,其中,属性包括目标新闻事件的摘要、命名实体和类型;将目标新闻事件的摘要作为预训练好的向量生成模型的输入,得到目标新闻事件的第一向量表示;基于预设的相似筛选规则,在预配置的新闻数据库中进行搜索,确定新闻数据库中是否存满足相似筛选规则的历史新闻事件;若是,则确定历史新闻事件的摘要的第二向量表示;确定目标第一向量表示与第二向量表示的相似度,并根据比对结果确定目标新闻事件的相关新闻事件;将目标新闻事件和相关新闻事件按照新闻事件发生时间排列。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种新闻事件处理方法,其特征在于,所述方法包括:
获取目标新闻事件,提取所述目标新闻事件的属性,其中,所述属性包括所述目标新闻事件的摘要、命名实体和类型;
将所述目标新闻事件的摘要作为预训练好的向量生成模型的输入,得到所述目标新闻事件的第一向量表示;
基于预设的相似筛选规则,在预配置的新闻数据库中进行搜索,确定所述新闻数据库中是否存在满足所述相似筛选规则的历史新闻事件;
若是,则确定所述历史新闻事件的摘要的第二向量表示;
确定所述第一向量表示和所述第二向量表示的相似度,并根据比对结果确定所述目标新闻事件的所有相关新闻事件;将所述目标新闻事件和所有所述相关新闻事件按照新闻事件发生时间排列。
2.根据权利要求1所述的新闻事件处理方法,其特征在于,所述提取所述目标新闻事件的属性中提取所述目标新闻事件的摘要,包括:
将所述目标新闻事件进行切句得到句子列表;
将所述句子列表输入摘要提取模型,得到所述目标新闻事件的摘要;其中,所述摘要提取模型是在Bert模型中的前馈反向层后,添加奇偶句编码层,得到编码器;从transformer模型中提取解码器,组合所述编码器和所述解码器,得到所述摘要提取模型。
3.根据权利要求1所述的新闻事件处理方法,其特征在于,所述提取所述目标新闻事件的属性中提取所述目标新闻事件的命名实体,包括:
所述目标新闻事件的摘要输入预配置的BERT-BiLSTM-CRF模型中,得到所述目标新闻事件的摘要中的命名实体;其中,所述BERT-BiLSTM-CRF模型包括:BERT预训练模型层、BiLSTM网络层以及CRF推理层,所述BERT预训练模型层用于将每个字符进行编码得到对应字符的字向量;所述BiLSTM网络层用于将所述字向量组成的序列双向编码获取新的特征向量;所述CRF推理层用于基于所述新的特征向量输出概率最大的命名实体。
4.根据权利要求2所述的新闻事件处理方法,其特征在于,所述提取所述目标新闻事件的属性中提取所述目标新闻事件的类型,包括:
采用LDA模型对训练新闻事件进行聚类,对各类训练新闻进行类别标注;
将所述训练新闻事件和所述新闻事件的类别标注作为所述Bert模型的训练数据,对所Bert模型进行训练,得到类型分析模型;
将所述目标新闻事件的摘要输入所述类型分析模型,得到所述目标新闻事件的类型。
5.根据权利要求1所述的新闻事件处理方法,其特征在于,所述基于预设的相似筛选规则,在预配置的新闻数据库中进行搜索,包括:
在所述新闻数据库中搜索与所述目标新闻事件的类型相同的历史新闻事件;
根据所述目标新闻事件的类型,确定所述历史新闻事件的关键命名实体;
从与所述目标新闻事件的类型相同的历史新闻事件中筛选出与所述目标新闻事件有相同关键命名实体的历史新闻事件。
6.根据权利要求1所述的新闻事件处理方法,其特征在于,所述确定所述目标第一向量表示与所述历史新闻事件的摘要的向量表示的相似度,包括:
根据所述第二向量表示,在预配置的向量数据库中进行相似搜索,确定所述向量数据库中是否存在所述第二向量表示的相似向量表征信息;所述向量数据库存储有进行历史新闻事件处理时对所述历史新闻事件处理得到的向量表示;
根据所述第一向量表示与所述向量数据库中的向量表示之间的余弦相似度,确定所述向量数据库中是否存在所述第一向量表示的相似向量表示。
7.根据权利要求1所述的新闻事件处理方法,其特征在于,所述将所述目标新闻事件的摘要作为预训练好的向量生成模型的输入中,所述向量生成模型的训练方法包括:
获取多篇相同训练新闻和多篇相似训练新闻;
对所述目标新闻事件进行基础信息分析,提取所述训练新闻的摘要;
将相同的训练新闻的摘要作为正样例输入向量生成模型,将相似训练新闻的摘要作为负样例输入向量生成模型,向量生成模型利用Bert模型,将摘要转换为一个向量,并经过平均池化层,输出的2个向量进行相似度计算,得到两个训练新闻的相似度;
根据所述两个训练新闻的相似度对所述向量生成模型进行训练。
8.一种新闻事件处理装置,其特征在于,包括:
属性提取单元,用于获取目标新闻事件,提取所述目标新闻事件的属性,其中,所述属性包括所述目标新闻事件的摘要、命名实体和类型;
第一向量表示单元,用于将所述目标新闻事件的摘要作为预训练好的向量生成模型的输入,得到所述目标新闻事件的第一向量表示;
筛选单元,用于基于预设的相似筛选规则,在预配置的新闻数据库中进行搜索,确定所述新闻数据库中是否存满足所述相似筛选规则的历史新闻事件;
第二向量表示单元,用于当所述新闻数据库中存在满足筛选规则的历史新闻事件,则确定所述历史新闻事件的摘要的第二向量表示;
相似度判断单元,用于确定所述第一向量表示与所述历史新闻事件的摘要的向量表示的相似度,并根据比对结果确定所述目标新闻事件的相关新闻事件;将所述目标新闻事件和所述相关新闻事件按照新闻事件发生时间排列。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述目标新闻事件处理方法的步骤。
10.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述目标新闻事件处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210262081.7A CN114676346A (zh) | 2022-03-17 | 2022-03-17 | 新闻事件处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210262081.7A CN114676346A (zh) | 2022-03-17 | 2022-03-17 | 新闻事件处理方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114676346A true CN114676346A (zh) | 2022-06-28 |
Family
ID=82074912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210262081.7A Pending CN114676346A (zh) | 2022-03-17 | 2022-03-17 | 新闻事件处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114676346A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115544214A (zh) * | 2022-12-02 | 2022-12-30 | 广州数说故事信息科技有限公司 | 一种事件处理方法、设备及计算机可读存储介质 |
CN117272995A (zh) * | 2023-11-21 | 2023-12-22 | 长威信息科技发展股份有限公司 | 一种重复工单推荐方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112328748A (zh) * | 2020-11-11 | 2021-02-05 | 上海昌投网络科技有限公司 | 一种用于保险配置意图识别的方法 |
CN112528013A (zh) * | 2020-12-10 | 2021-03-19 | 平安科技(深圳)有限公司 | 文本摘要提取方法、装置、电子设备及存储介质 |
CN112579773A (zh) * | 2020-12-16 | 2021-03-30 | 中国建设银行股份有限公司 | 风险事件分级方法及装置 |
CN112883734A (zh) * | 2021-01-15 | 2021-06-01 | 成都链安科技有限公司 | 区块链安全事件舆情监测方法及系统 |
CN113722478A (zh) * | 2021-08-09 | 2021-11-30 | 北京智慧星光信息技术有限公司 | 多维度特征融合相似事件计算方法、系统及电子设备 |
-
2022
- 2022-03-17 CN CN202210262081.7A patent/CN114676346A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112328748A (zh) * | 2020-11-11 | 2021-02-05 | 上海昌投网络科技有限公司 | 一种用于保险配置意图识别的方法 |
CN112528013A (zh) * | 2020-12-10 | 2021-03-19 | 平安科技(深圳)有限公司 | 文本摘要提取方法、装置、电子设备及存储介质 |
CN112579773A (zh) * | 2020-12-16 | 2021-03-30 | 中国建设银行股份有限公司 | 风险事件分级方法及装置 |
CN112883734A (zh) * | 2021-01-15 | 2021-06-01 | 成都链安科技有限公司 | 区块链安全事件舆情监测方法及系统 |
CN113722478A (zh) * | 2021-08-09 | 2021-11-30 | 北京智慧星光信息技术有限公司 | 多维度特征融合相似事件计算方法、系统及电子设备 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115544214A (zh) * | 2022-12-02 | 2022-12-30 | 广州数说故事信息科技有限公司 | 一种事件处理方法、设备及计算机可读存储介质 |
CN117272995A (zh) * | 2023-11-21 | 2023-12-22 | 长威信息科技发展股份有限公司 | 一种重复工单推荐方法及装置 |
CN117272995B (zh) * | 2023-11-21 | 2024-01-30 | 长威信息科技发展股份有限公司 | 一种重复工单推荐方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112084337B (zh) | 文本分类模型的训练方法、文本分类方法及设备 | |
CN117453921B (zh) | 一种大语言模型的数据信息标签处理方法 | |
US20200279105A1 (en) | Deep learning engine and methods for content and context aware data classification | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN111386524B (zh) | 促进特定于域和客户端的应用程序接口推荐 | |
CN111344695B (zh) | 促进特定于域和客户端的应用程序接口推荐 | |
CN110807324A (zh) | 一种基于IDCNN-crf与知识图谱的影视实体识别方法 | |
CN114386421A (zh) | 相似新闻检测方法、装置、计算机设备和存储介质 | |
CN111985228A (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
CN114661872A (zh) | 一种面向初学者的api自适应推荐方法与系统 | |
CN114676346A (zh) | 新闻事件处理方法、装置、计算机设备和存储介质 | |
CN115952292A (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN116975271A (zh) | 文本相关性的确定方法、装置、计算机设备和存储介质 | |
CN113051886B (zh) | 一种试题查重方法、装置、存储介质及设备 | |
Zhang et al. | Combining the attention network and semantic representation for Chinese verb metaphor identification | |
CN113157892B (zh) | 用户意图处理方法、装置、计算机设备及存储介质 | |
Fan et al. | Research and application of automated search engine based on machine learning | |
CN115934936A (zh) | 一种基于自然语言处理的智能交通文本分析方法 | |
CN115827871A (zh) | 互联网企业分类的方法、装置和系统 | |
CN117151089A (zh) | 新词发现方法、装置、设备和介质 | |
CN114610882A (zh) | 一种基于电力短文本分类的异常设备编码检测方法和系统 | |
Zhang et al. | A dynamic window split-based approach for extracting professional terms from Chinese courses | |
Gao | A combined rule-based and machine learning approach for blackout analysis using natural language processing | |
Li et al. | An Efficient Minimal Text Segmentation Method for URL Domain Names | |
CN117573956B (zh) | 元数据管理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |