WO2019047849A1

WO2019047849A1 - 新闻处理方法、装置、存储介质及计算机设备

Info

Publication number: WO2019047849A1
Application number: PCT/CN2018/104156
Authority: WO
Inventors: 殷乐; 花贵春; 王丹丹; 郎兵; 赵林; 胡博
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2017-09-05
Filing date: 2018-09-05
Publication date: 2019-03-14
Also published as: CN110020104B; CN110020104A

Abstract

一种新闻处理方法、装置、存储介质及计算机设备，其中方法包括：获取待识别新闻的词向量（101）；获取事件的词向量、以及所述事件的时间节点（103）；基于所述待识别新闻的词向量与所述事件的词向量的相似度，确定所述待识别新闻的关联事件，以及确定所述待识别新闻在所述关联事件中所对应的时间节点（105），根据所述时间节点确定所述新闻是否有效（106）。

Description

新闻处理方法、装置、存储介质及计算机设备

本申请要求于2017年9月5日提交中国专利局、申请号为201710791715.7、申请名称为“新闻处理方法、装置、存储介质及计算机设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及互联网应用技术领域，特别涉及新闻处理方法、装置、计算机可读存储介质及计算机设备。

背景技术

随着互联网技术的发展，上网浏览新闻已经成为越来越多用户的习惯，纵多新闻网站或者新闻应用都具有主动向用户推荐新闻的功能。推荐的新闻可以是近期的热点新闻，也可以是根据不同用户有针对性的推荐对应领域内的新闻。

通常，新闻需要设置新闻失效时间，将失效新闻及时下架处理，以确保不会将失效新闻推荐给用户，向用户所推荐的新闻符合新闻事件的发展动态，从而满足用户的阅读需求。相关技术中，对于上述问题，尚无有效解决方案。

技术内容

本申请实施例提供一种可提高推荐新闻时效性的新闻处理方法、装置、计算机可读存储介质及计算机设备。

本申请实施例的技术方案是这样实现的：

一种新闻处理方法，由服务器执行，包括：

获取待识别新闻的词向量；获取事件的词向量、以及所述事件的时间节点；

基于所述待识别新闻的词向量与所述事件的词向量的相似度，确定所述待识别新闻的关联事件，以及，确定所述待识别新闻在所述关联事件中所对应的时间节点；

根据所述时间节点确定所述新闻是否有效。

一种新闻处理装置，包括：第一获取模块，用于获取待识别新闻的词向量；第二获取模块，用于获取事件对应的词向量、以及所述事件的时间节点；确定模块，用于基于所述待识别新闻的词向量与所述事件的词向量的相似度，确定所述待识别新闻的关联事件，以及，确定所述待识别新闻在所述关联事件中所对应的时间节点，根据所述时间节点确定所述新闻是否有效。

一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现一种新闻处理方法。该新闻处理方法，包括：获取待识别新闻的词向量；获取事件的词向量、以及所述事件的时间节点；基于所述待识别新闻的词向量与所述事件的词向量的相似度，确定所述待识别新闻的关联事件，以及，确定所述待识别新闻在所述关联事件中所对应的时间节点，根据所述时间节点确定所述新闻是否有效。

一种计算机设备，包括存储器、处理器及存储在所述存储器上运行的计算机程序，所述处理器执行所述程序时实现一种新闻处理方法。该新闻处理方法，包括：获取待识别新闻的词向量；获取事件的词向量、以及所述事件的时间节点；基于所述待识别新闻的词向量与所述事件的词向量的相似度，确定所述待识别新闻的关联事件，以及，确定所述待识别新闻在所述关联事件中所对应的时间节点，根据所述时间节点确定所述新闻是否有效。

附图说明

图1为本申请一个实施例中新闻处理方法的应用环境图。

图2为本申请一个实施例中新闻处理方法的流程图。

图3为本申请另一个实施例中新闻处理方法的流程图。

图4为本申请又一个实施例中新闻处理方法的流程图。

图5为本申请再一个实施例中新闻处理方法的流程图。

图6为本申请又一个实施例中新闻处理方法的流程图。

图7为本申请一个实施例提供的新闻阅读应用在新闻推送业务时在服务器进行新闻处理的一个应用场景示意图。

图8为本申请一个实施例提供的新闻阅读应用在新闻推送业务时在终端显示的一个应用场景示意图。

图9为本申请以比赛事件A、待识别新闻B为例的新闻处理方法的主要步骤的流程图。

图10为本申请一个实施例中的新闻处理装置的结构示意图。

图11为本申请另一个实施例中的新闻处理装置的结构示意图。

图12为本申请又一个实施例中的新闻处理装置的结构示意图。

图13为本申请一个实施例中计算机设备的内部结构示意图。

具体实施方式

以下结合说明书附图及具体实施例对本申请技术方案做进一步的详细阐述。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

通过网络浏览新闻已经成为越来越多用户的习惯，众多的新闻网站或者新闻应用也都具有主动向用户推荐新闻的功能。而为了能够让用户所接收到的新闻是符合事件的发展动态又满足用户阅读需求的，需要提供能够有效识别新闻与事件的关系并设置合理的失效时间的新闻处理方法。

在一个具体的实施例中，新闻的失效时长的确定包括两种方式：

第一，基于新闻标题中包含的关键词，针对包含相应关键词的新闻预先设置相应的失效时长；

第二，基于新闻的类别，针对该类别的新闻预先设置相应的失效时长。

通过基于上面两种方式确定新闻的失效时长，再基于新闻的发布时间加上新闻的失效时长来设置新闻的失效时间，然而，该种方式仅能针对包含特定关键词或同类别的新闻设置失效时长，而对于包含大量明确事件、事件周期性并不明确的新闻领域，如体育比赛新闻、电影新闻等领域，根据新闻关键词或者类别设定失效时长的方式均不适用，例如在体育比赛后推荐赛前或赛中新闻是不合理的，在电影上映后推荐上映前的预告新闻是不合适的，出现将新闻推荐给用户后用户再获取该新闻已经没有意义的现象，从而导致推荐新闻的时效性差。

为解决以上技术问题，本申请提出了新闻处理方法、装置、存储介质及计算机设备。图1所示为本申请一实施例提供的新闻处理方法的应用环境图，包括终端100和服务器200，服务器200通过网络与终端100连接。其中，用户通过终端100下载新闻应用或者登陆新闻网站进行浏览。其中，新闻应用是指专门供用户获取阅读新闻信息的应用软件或包含有专门供用户获取阅读新闻信息的功能模块的应用软件，如目前常用的包含有新闻推荐功能的新闻阅读专区的各种APP(Application)软件。该终端100可以是智能手机、平板电脑、个人数字助理(PDA)以及个人计算机等。服务器200通过网络向对应的终端100发送推荐的新闻，以供用户通过终端显示查看。服务器200可以为独立的物理服务器或者物理服务器集群。

请参阅图2，为本申请一实施例提供的新闻处理方法，该方法可以由服务器200执行，该方法包括如下步骤。

步骤101，获取待识别新闻的词向量。

新闻通常是指用概括的叙述方式，以文字、图像、视频等手段及时报道比较重大、有价值的事件，使得一定人群了解。广义上的新闻是指消息，包含所有通过媒体或网络途径记录事件、传播信息的文字、图像、视频、音频数据的称谓，如，广义上的新闻不仅包括通过通常意义上的新闻网站、新闻应用等投放的文字、图像、视频、音频数据，也包括通常意义上社交应用中以文章形式投放的与事件相关的消息。本实施例中，新闻是指广义上的新闻。待识别新闻是指本本申请实施例所提供的新闻处理方法中的待处理对象。

在一个具体的实施例中，步骤101，获取待识别新闻的词向量包括：基于待识别新闻提取关键词；将所述提取的关键词映射到词向量空间，得到关键词对应的词向量。其中，基于待识别新闻提取关键词即提取所述待识别新闻对应的关键词；所述将所述提取的关键词映射到词向量空间，得到关键词对应的词向量包括：通过将所述提取的关键词输入词向量模型，得到所述词向量模型输出的所述关键词对应的词向量来实现。

这里，关键词通常是指描述事件过程中必然会提到的且能够体现事件独特的特征的信息，如，事件的描述信息通常包括时间、地点、人物、事情经过四个要素相关的信息，从而关键词至少可以从与该四个要素相关的信息的角度进行确定和提取。基于待识别新闻提取关键词的步骤可以是通过从新闻的垂直网站或其它相关新闻网页中抓取结构化信息的方式获得，抓取结构化信息可以采用目前互联网技术中已知的抓取方式，例如爬虫技术。其中，垂直网站是指注意力集中在某些特定的领域或某种特定的需求的网站，提供有关这个领域或需求的全部深度信息和相关服务的网站。而结构化信息是指信息经过分析后可分解成多个互相关联的组成部分，各组成部分间有明确的层次结构，其使用和维护通过数据库进行管理，并有一定的操作规范。关键词的提取可以来源于新闻的标题、报道内容、新闻对应的评论中等。

在一个具体的实施例中，基于待识别新闻提取关键词包括：从以下至少之一提取待识别新闻对应的关键词：第一，待识别新闻本身的内容中包含的信息；第二，待识别新闻的特定关联信息。其中，待识别新闻是指新闻报道本身的内容中包含的信息，如新闻标题、新闻正文，其中，针对视频或者音频数据的新闻，除从新闻标题中可以提取关键词之外，还可以通过语音识别将其转换成文本的方式进行关键词的提取。待识别新闻的特定关联信息主要是指新闻报道相关的内容中包含的信息，如新闻对应的评论，针对视频或者音频数据的新闻，除从新闻标题中可以提取关键词之外，还可以从对应的评论中提取关键词。本实施例中，基于待识别新闻提取关键词不限于新闻发布时的原始出处的框架形式，可以借助于新闻报道本身的内容及评论等相关信息全面提取关键词，从而可以更正确和精准地识别出新闻的关键词，也充分考虑到新闻中丰富的报道内容对于提高时效性的帮助。

词向量是指将语言中的字、词、短语等转换为数字化的方式。词向量的表达形式包括：用一个特定长度的向量来表示一个词，向量的长度为词典的大小，向量的分量只有一个1，其它全为0，1的位置对应词在词典中的位置。或者通过训练将语言中的每一个词映射成一个相对所述特定长度较短的固定长度的短向量，将所有这些向量放在一起形成一个词向量空间，而每一向量为该空间中的一个点，在空间中引入距离参数，根据词所对应的短向量之间的距离来判断词之间在词法、语义上的相似性。词向量的训练可以通过语言模型的方式实现，通过该语言模型将提取的关键词映射到词向量空间得到对应的词向量。在一个具体的实施例中，通过样本，例如，词及对应的词向量来训练词向量模型，例如，word2vec，得到词向量模型的参数。将提取的关键词映射到词向量空间可以通过将提取的关键词输入到词向量模型，得到关键词对应的词向量。

步骤103，获取事件的词向量、以及所述事件的时间节点。其中，所述事件可以为一个，也可以为多个，当事件为多个时，获取该多个事件的词向量。其中，事件的时间节点为多个，可以通过获取事件的时间节点序列来获取事件的时间节点。

事件是指比较重大，能够对一定人群产生影响的事情。事件的描述信息通常包括时间、地点、人物、事情经过四个要素相关的信息，其中，事情经过包括事件从产生到结束的发展过程中的内容描述。事件的时间节点是指将事情的发展过程根据不同时间段所具有的某种共同特性而将事情区分为多个发展阶段的具体时间点。以体育比赛事件为例，根据体育比赛这一事情的发展过程，可分别以比赛开始时间和比赛结束时间这两个时间节点将比赛区分为赛前、赛中及赛后三个阶段。又以电影播放事件为例，根据电影从宣传到放映这一事情的发展过程可分别以点映时间、首映时间、公映开始时间和公映结束时间为时间节点将其区分为上映前、上映中及上映后三个阶段。

在一个具体的实施例中，获取事件对应的词向量包括：基于事件提取关键词；将提取的关键词映射到词向量空间，得到关键词对应的词向量。具体地，将提取的事件的关键词输入词向量模型，将词向量模型输出的向量作为关键词对应的词向量。这里，关键词通常是指描述事件过程中必然会提到的且能够体现事件独特的特征的信息，如，事件的描述信息通常包括时间、地点、人物、事情经过四个要素相关的信息。此外，事件本身还有所处行业、或领域类别的属性信息，事件所属类别是事件另一个要素相关的信息，从而事件的关键词至少可以根据与该五个要素相关的信息来确定或进行提取。以“XX电影于XX日在北京进行首映，该影片中的主演人员XX参加了首映”这一事件为例，事件的关键词可以从时间要素角度提取“XX”日，从地点要素角度提取“北京”，从人物要素角度提取主演人员“XX”，从事件类别要素角度提取“娱乐”类分别作为事件的关键词。新闻是呈现事件的一种具体表达形式，基于事件提取关键词还可以是基于事件已知的多个关联新闻提取关键词。具体地，获取一个或多个与事件关联的新闻，根据该一个或多个新闻本身所包含的内容的信息以及特定关联信息，确定事件的关键词。

步骤105，基于待识别新闻的词向量与事件的词向量的相似度，确定待识别新闻的关联事件，以及确定待识别新闻在关联事件中所对应的时间节点。其中，当事件为多个时，确定待识别新闻与各事件的相似度，根据待识别新闻与各事件的相似度，在多个事件中选取一个事件作为所述待识别新闻的关联事件。进而在关联事件的时间节点序列中确定待识别新闻对应的时间节点。

相似度是指表示两个事物之间的关联程度。基于待识别新闻的词向量与事件的词向量确定待识别新闻与事件的相似度的方式主要包括：通过待识别新闻的词向量与事件的词向量之间进行匹配，根据匹配的结果确定；或者待识别新闻的词向量与事件的词向量之间计算相似度值，根据相似度值的大小确定。通过待识别新闻与事件之间的相似度自动识别待识别新闻所对应的关联事件，即识别待识别新闻是否为特定事件的关联新闻。通过待识别新闻与事件之间的相似度自动识别待识别新闻所对应关联事件的时间节点，即识别待识别新闻所对应关联事件所处的发展阶段。

上述实施例所提供的新闻处理方法中，通过设置事件的时间节点，提取待识别新闻的相关信息，自动识别出与事件相关的关联新闻，以及根据新闻的时间信息确定新闻所对应事件的时间节点，通过引入事件的时间节点对新闻设置合理的生命周期，从而可基于新闻对应该事件的时间节点判断该新闻所处事件的发展阶段，对于待识别新闻所对应的事件，以及待识别新闻是否与事件当前发展阶段对应能够准确识别，有利于提高待识别新闻的时效性。

步骤106：根据所述时间节点确定所述新闻是否有效。

通过确定待识别新闻在关联事件中所对应的时间节点，可以基于该时间节点设置待识别新闻的失效时间。请参阅图3，在一个实施例中，所述根据所述时间节点确定所述新闻是否有效，新闻处理方法还包括：

步骤107，当对应的时间节点为与失效关联的特定的时间节点时，确定待识别新闻失效。

事件的时间节点通常为包括以时间先后顺序进行排列的多个时间节点构成的序列。每一个时间节点代表该事件的一个发展阶段的开始时间或者表示该事件的另一个发展阶段的结束时间，任意相邻的两个时间节点即对应该事件的一个发展阶段。因此，当确定该待识别新闻对应的时间节点后，即确定了该待识别新闻所处事件的发展阶段，从而可以根据对应的时间节点确定是否是与失效关联的特定的时间节点。对于与失效关联的特定的时间节点，可以将待识别的新闻对应的时间节点的下一时间节点，即该待识别新闻所处事件发展阶段的结束时间或该待识别新闻所处事件发展阶段的下一发展阶段的开始时间作为与失效关联的特定的时间节点，同时可以将失效关联的特定的时间节点确定为待识别新闻的失效时间。作为另一实施例，当确定该待识别新闻对应的时间节点后，还可以将对应的时间节点的后续的具有预设间隔的时间节点，即该待识别新闻所处事件发展阶段的后续发展阶段中的时间节点作为与失效关联的特定的时间节点，将该特定的时间节点确定为待识别新闻的失效时间。作为又一实施例，当确认该待识别新闻对应的时间节点后，还可以将对应的时间节点加上一个预设的时长作为失效关联的特定的时间节点，将该失效关联的特定的时间节点确定为待识别新闻的失效时间。

其中，与失效关联的特定的时间节点可以是时刻，也可以是时间段，当与失效关联的特定的时间节点是用时间段表示时，则可以根据实际应用需要而设置该时间段内的任意时刻确定为待识别新闻的失效时间。在其中一个具体的实施例中，是将该事件的下一发展阶段的开始时间设置为该待识别新闻的失效时间，与失效关联的特定的时间节点即指待识别新闻所处事件的发展阶段的下一个发展阶段的开始时间。通过时间节点将事件发展区分为多个发展阶段，并在识别新闻所处事件的不同发展阶段后，将新闻的失效时间设置为下一个发展阶段或者后续的特定发展阶段的开始时间，具体选取哪个发展阶段根据实际应用需求而定。通过新闻对应的时间节点确定与失效关联的特定的时间节点，从而只将属于事件的当前发展阶段的新闻推荐给用户，并将不属于事件的当前的发展阶段的新闻及时下架处理，以确保推荐给用户的新闻的时效性。请参阅图4，在另一个实施例中，所述根据所述时间节点确定所述新闻是否有效，新闻处理方法还包括：

步骤108，当对应的时间节点的类型为结束时间节点，且相较于结束时间节点的预设失效时长到达时，确定待识别新闻失效。

事件的时间节点的设置中，每一个时间节点可用于表示事件的一个发展阶段的开始时间或者表示该事件的另一个发展阶段的结束时间。位于节点序列最前端的时间节点为起始时间节点，位于节点序列最末端的时间节点为结束时间节点，位于最前端和最末端之间的时间节点均为中间时间节点。其中，当结束时间节点设置为表示事件最后一个发展阶段的开始时间时，也就是说，当结束时间节点是用于表示事件的最后一个发展阶段的开始时间时，相当于是最后一个发展阶段没有设置时间节点来限定其结束时间，根据待识别新闻包含的时间信息确定其所对应的事件的时间节点时可能是该结束时间节点。因此，针对将每一时间节点用于表示事件的一个发展阶段的开始时间的情况，当确认该待识别新闻对应事件的时间节点为起始时间节点或中间时间节点时，均可将对应的时间节点的下一时间节点、或者后续的具有预设间隔的时间节点、或者对应事件的时间节点加上预设的时长所确定的时间节点，确定为待识别新闻的失效时间。而当确认该待识别新闻对应事件的时间节点为结束时间节点时，则通过设置预设失效时长来确定属于该事件最后一个发展阶段的相关新闻的失效时间。

预设失效时长是指预设的新闻有效的时间范围，对于新闻发布后保持为有效状态的时间超出该有效的时间范围的即作失效处理。当结束时间节点设置为表示事件最后一个发展阶段的开始时间时，且根据待识别新闻包含的时间信息确定其所对应的事件的时间节点为结束时间节点时，针对属于事件最后一个发展阶段的新闻则可以通过设置将对应的时间节点加上预设失效时长的方式来确定新闻的失效时间。通过该种时间节点的设置方式，将事件通过多个时间节点区分为多个不同的发展阶段，只需考虑每个发展阶段开始的时间，再针对不同领域的事件的最后发展阶段统一设置预设失效时长即可，从而可以降低对事件的时间节点的设置的难度。

在本申请实施例所提供的新闻处理方法中，通过事件的时间节点将事件的发展根据不同发展阶段所具有的某种共同特性而将事件区分为多个阶段，通过确定待识别新闻对应的事件的时间节点，从而可以获知待识别新闻所处事件的发展阶段，确定该新闻是否属于事件当前发展阶段的新闻，将不属于事件当前发展阶段的新闻确定为失效新闻。基于事件的时间节点对新闻设置合理的生命周期，及时将不属于事件当前发展阶段的新闻确定为失效新闻，以避免将不符合事件当前发展阶段的新闻性低的新闻推荐到用户，以提高向用户推荐的新闻的时效性。

进一步的，在一实施例中，在步骤103中，获取事件的时间节点包括：

获取事件的预先定义的时间节点。

事件的时间节点的设置可以通过预先定义的方式形成。如，通过分析不同领域类别的事件的共同发展特性将其分割为几个发展阶段，并确定几个发展阶段的分割时间点，将这些分割时间点作为对应类别的事件的预先定义的时间节点。又如，通过分析不同热议程度的事件的共同发展特性将其分割为几个热议阶段，并确定几个热议阶段的分割时间点，将这些分割时间点作为对应热议程度的事件预先定义的时间节点。其中，分割时间点可以为时刻，也可以是时间段，相应的，以分割时间点确定时间节点时，则时间节点也可以是时刻或者是时间段，当分割时间点为时间段时，则可根据实际需求而选择将该时间段内的任意时刻设置为属于与其相邻的两个发展阶段所共同包括的时间或者属于其中之一所包括的时间。

在另一实施例中，在步骤103中，获取事件的时间节点包括：

获取事件的相关新闻并进行聚类处理，根据不同类别的相关新闻包含的时间信息确定事件的时间节点。

事件的时间节点的设置可以通过对事件的相关新闻进行聚类分析的方式确定。聚类是指将数据分类到不同的类或者簇的过程，同一类或者簇中的对象有很大的相似性，而不同类或者簇间的对象有很大的相异性。相关新闻包含的时间信息包括相关新闻的发布时间、新闻中涉及到的时间的发生时间等。本实施例中，相关新闻包含的时间信息是指新闻的发布时间，在进行聚类时，根据相关新闻的关键词将相关新闻分为不同的类别，具体地，可以将相关新闻的关键词对应的向量输入分类模型，通过分类模型将相关新闻分为不同的类别，其中，分类模型是预先训练好的。对于同属于一个类别的相关新闻，根据该类别中的各相关新闻的发布时间确定该类别对应的分割时间节点。例如，可以根据聚类结果中不同类别所包含的相关新闻中的最早发布时间和最晚发布时间来确定该对应类的分割时间点。将不同类别对应的分割时间点作为事件的时间节点。通过对事件的相关新闻进行聚类处理，不需要事先人为去分析来获知该事件的发展特性来划分发展阶段，而且聚类处理的结果通常还可以反映出该事件的不同发展阶段的新闻量等随机性特征，从而可行性高。

进一步的，在另一个实施例中，获取事件的相关新闻并进行聚类处理，根据不同类别的相关新闻包含的时间信息确定事件的时间节点，包括：

获取事件的相关新闻并进行聚类处理，根据不同类别的相关新闻的时间信息确定事件的初始时间节点；

根据初始时间节点确定该事件的时间节点。

相关新闻包含的时间信息包括相关新闻的发布时间、新闻中涉及到的事件的发生时间等。以相关新闻包含的时间信息是指新闻的发布时间为例，首先通过聚类处理得到的不同类别的相关新闻中的最早发布时间和最晚发布时间作为该对应类别的分割时间点，将这些分割时间点作为对应事件的初始时间节点。根据初始时间节点确定该事件的时间节点的过程中，可以以初始时间节点为基础，根据一些个性化需求制定调节规则，根据调节规则对初始时间节点进行调整而获得事件的时间节点；或者以初始时间节点为基础，通过用户根据经验或者其它情况以自定义方式进行调整获得事件的时间节点。

在一个实施例中，请参阅图5，步骤105，基于待识别新闻的词向量与事件的词向量的相似度，确定待识别新闻的关联事件，以及确定待识别新闻在关联事件中所对应的时间节点，包括：

步骤1051，基于待识别新闻的词向量与事件的词向量的相似度，构建待识别新闻对应的第一特征。

其中，待识别新闻的词向量与事件的词向量的相似度的确定方式包括：通过新闻的词向量与事件的词向量之间的匹配概率值进行确定；或，通过计算新闻的词向量与事件的词向量之间的相似度值确定。相应的，第一特征是指与待识别新闻的词向量与事件的词向量的匹配概率值或者相似度值所表征的相似度。作为一种示意性的实施例，新闻的词向量与事件的词向量之间的相似度值的计算方式如下：

在公式1中，f _e表示事件的关键词，a _i表示f _e中第i个事件的关键词的词向量；f _n表示待识别新闻的关键词，b _j表示f _n中第j个新闻的关键词的词向量，n表示新闻的关键词的个数，K表示事件的关键词的个数。其中事件关键词的词向量和新闻的关键词的词向量均是采用数字化的方式表达相应的信息，如何确定事件的关键词的词向量和新闻的关键词的词向量可以通过已知方式实现，如通过word2vec语言模型实现。

基于待识别新闻的词向量与事件的词向量的相似度，构建待识别新闻对应的第一特征的具体表示如下：

fea＝[Similar] (公式2)

在公式2中，fea表示待识别新闻对应的第一特征。其中，fea表征待识别新闻相对于某一个事件的特征，当存在N个事件时，则存在N个所述fea。

步骤1052，将第一特征作为样本特征输入第一分类模型，得到不同事件是待识别新闻的关联事件的置信度。

第一分类模型可以为softmax回归模型或者支持向量机(SVM，Support Vector Machine)模型。将样本特征用x表示，将第一特征作为样本特征输入第一分类模型得到不同事件是待识别新闻的关联事件的置信度的具体表示如下：

在公式3中，h _θ(x)表示置信度，θ表示训练得到的模型参数，x表示样本特征。

步骤1053，确定置信度满足条件的事件为待识别新闻的关联事件。

置信度满足条件的具体表示如下：

公式4中，J(θ)表示代价函数，x ⁽ⁱ⁾表示输入，y ⁽ⁱ⁾表示输出，m表示样本特征的数量。通过采用迭代的优化算法如梯度下降法，求解最小化代价函数，从而确定置信度需满足条件，实现一个可用的分类模型，即确定分类模型的模型参数。进而将待识别新闻对应的第一特征输入第一分类模型，确定待识别新闻属于一个事件的关联新闻的概率(置信度)，也即事件为待识别新闻的关联事件的概率。根据所述置信度确定所述待识别新闻的关联事件，进而确定待识别新闻在关联事件中所对应的时间节点。

在一个实施例中，步骤1051，基于待识别新闻的词向量与事件的词向量的相似度，构建待识别新闻对应的第一特征，包括：

将以下的特征分量组合，得到待识别新闻对应的第一特征：待识别新闻的词向量与事件的词向量的相似度；待识别新闻的时间与事件的时间节点的关系。其中，所述待识别新闻的时间指待识别新闻的发布时间，待识别新闻的时间与事件的时间节点的关系指待识别新闻的发布时间与事件的各时间节点之间的关系。

待识别新闻的时间包括待识别新闻的发布时间、待识别新闻中涉及到的事件内容的发生时间等。以待识别新闻的时间为待识别新闻的发布时间为例，待识别新闻的时间与事件的时间节点的关系可以是待识别新闻的发布时间与事件的发生时间的差值。基于待识别新闻的词向量与事件的词向量的相似度，构建待识别新闻对应的第一特征具体如下：

fea＝[Similar,|newtime-eventime|] (公式5)

在公式5中，fea表示待识别新闻对应的第一特征，Similar表示新闻的关键词与事件的关键词的相似度，newtime表示待识别新闻的发布时间，eventime表示事件的时间节点，在该实例中，eventime可以为事件的发生时间，事件的发生时间可以是事件的第一个时间节点对应的时间。在构建第一特征时，还可以增加一维特征分量：待识别新闻的词向量的均值。即将待识别新闻的词向量的均值、待识别新闻的词向量与事件的词向量的相似度；待识别新闻的时间与事件的时间节点的关系构建上述第一特征。在另一个实施例中，在步骤105中，确定待识别新闻在关联事件中所对应的时间节点，包括：

步骤1054，基于待识别新闻的时间与事件的时间节点的关系，构建待识别新闻对应的第二特征。其中，所述待识别新闻的时间指待识别新闻的发布时间，待识别新闻的时间与事件的时间节点的关系指待识别新闻的发布时间与事件的各时间节点之间的关系。

待识别新闻的时间主要包括待识别新闻的发布时间、待识别新闻中涉及到的事情内容的发生时间等。待识别新闻的时间与事件的时间节点的关系可以是待识别新闻的时间与事件的时间节点的差值、或者是根据差值的大小而赋予的数值等。本实施例中，待识别新闻中的时间是指新闻发布时间，待识别新闻中的时间与事件的时间节点的关系为差值，构建待识别新闻的时间向量如下所示：

timefea＝[newtime-e_time ₀,....,newtime-e_time _i,...,newtime-e_time _n] (公式6)

公式6中，timefea表示待识别新闻的时间向量，e_time _i表示事件的第i个时间节点，newtime表示待识别新闻的新闻发布时间。

可以将上述timefea作为第二特征，此外，也可以将

timefea]作为第二特征，其中，W _i为待识别新闻第i个关键词的词向量，M为待识别新闻中关键词的数量。

步骤1055，输入第二特征至第二分类模型，得到待识别新闻对应关联事件不同时间节点的置信度。

第二分类模型可以为softmax回归模型或者SVM模型。输出第二特征至第二分类模型是指将第二特征作为第二样本特征输入至第二分类模型，将样本特征用x表示，输出所述第二特征至第二分类模型，得到所述待识别新闻对应所述关联事件不同时间节点的置信度的具体表示如下：

在公式7中，h _θ(x)表示置信度，θ表示训练模型参数，x表示样本特征。

步骤1056，确定置信度满足条件的时间节点为待识别新闻所对应的时间节点。

公式8中，J(θ)表示代价函数，x ⁽ⁱ⁾表示输入，y ⁽ⁱ⁾表示输出，m表示样本特征的数量。通过采用迭代的优化算法如梯度下降法，求解最小化代价函数，实现一个可用的分类模型，即确定第二分类模型的模型参数。进而将第二特征输入第二分类模型，计算待识别新闻对应事件的各时间节点的概率，即通过待识别新闻对应事件的各时间节点的概率而确定待识别新闻所对应的时间节点，其中，所述代价函数用以确定模型的参数，模型的参数通过训练得到，在训练时，将一些样本输入公式(7)得到样本的置信度，其中，样本的置信度是模型参数表示的置信度，将样本的置信度输入公式(8)，求解代价函数，确定模型的参数。

在一个实施例中，步骤1054，基于待识别新闻的时间与事件的时间节点的关系，构建待识别新闻对应的第二特征，包括：

将以下的特征分量组合，得到待识别新闻对应的所述第二特征：待识别新闻的词向量的均值；待识别新闻的时间与关联事件的不同时间节点的关系。

待识别新闻的词向量的均值是指待识别新闻所关联事件的时间节点对应的词向量的均值。待识别新闻的时间与事件的时间节点的关系可以是待识别新闻的时间与事件的时间节点的差值、或者是根据差值的大小而赋予的数值等。本实施例中，待识别新闻中的时间与事件的时间节点的关系为差值，构建待识别新闻的第二特征如下所示：

在公式9中，fea表示第二特征，M表示关联事件的时间节点的数量，Wi表示待识别新闻第i个词的词向量，timefea表示基于待识别新闻中的时间与事件的时间节点的关系表征的待识别新闻的时间向量，如公式6所示的基于待识别新闻中的时间与事件的时间节点的差值表征的待识别新闻的时间向量。

在又一实施例中，如图6所示，在步骤105中，基于待识别新闻的词向量与事件的词向量的相似度，确定待识别新闻的关联事件，以及，确定待识别新闻在关联时间中所对应的时间节点还可以通过另外一种实现方式来实现，根据第三分类模型直接确定待识别新闻对应的时间节点。其中，多个事件对应多个时间节点，第三分类模型用以确定待识别新闻对应所述多个时间节点中的哪一个时间节点，进而将确定的时间节点对应的事件作为待识别新闻的关联事件，具体包括以下步骤：

步骤1057，基于待识别新闻的词向量与事件的词向量的相似度、以及待识别新闻的时间与事件的时间节点的关系，构建待识别新闻对应的第三特征。

在一个具体的实施例中，步骤1057，基于待识别新闻的词向量与事件的词向量的相似度、以及待识别新闻的时间与事件的时间节点的关系，构建待识别新闻对应的第三特征，包括将以下特征分量组合得到第三特征：待识别新闻的词向量与事件的词向量的相似度；待识别新闻的时间与事件的发生时间节点的关系；待识别新闻的词向量的均值；待识别新闻的时间与关联事件的不同时间节点的关系。所述特征分量与前述实施例中的相应特征分量的表征方式可以相同，如待识别新闻的词向量与事件的词向量的相似度如公式(2)所示，待识别新闻的词向量与事件的词向量的相似度、和待识别新闻的时间与事件的发生时间节点的关系的组合如公式(5)所示；待识别新闻的时间与事件的时间节点的关系如公式(6)所示，待识别新闻的时间与事件的时间节点的关系、和待识别新闻的词向量的均值的组合如公式(9)所示，从而第三特征可以由公式(2)和公式(5)其中之一所表征的特征分量与公式(6)和公式(9)其中之一所表征的特征分量组合形成。

步骤1058，输入第三特征至第三分类模型，得到待识别新闻的时间对应不同事件的不同时间节点的置信度。

第三分类模型可以为softmax回归模型或者SVM(Support Vector Machine)模型。输出第三特征至第三分类模型是指将第三特征作为第三样本特征输入至第三分类模型，将样本特征用x表示，输出所述第三特征至第三分类模型，得到待识别新闻的时间对应不同事件的不同时间节点的置信度的具体表示如下：

在公式10中，h _θ(x)表示置信度，θ表示训练模型参数，x表示由第三特征形成的样本特征。在训练第三模型时，将新闻样本的第三特征以及新闻对应的时间节点分别作为第三模型的输入及输出进行训练。多个新闻的时间节点构成时间节点集合，各时间节点携带对应的事件的标识，第三分类模型用以确定待识别新闻对应时间节点集合中的哪一个时间节点，进而将确定的时间节点对应的事件作为待识别新闻的关联事件。

步骤1059，确定置信度满足条件的时间节点为所待识别新闻对应的时间节点，以及，将所述确定的时间节点对应的事件作为待识别新闻的关联事件。

公式11中，J(θ)表示代价函数，x ⁽ⁱ⁾表示输入，y ⁽ⁱ⁾表示输出，m表示样本特征的数量。采用迭代的优化算法如梯度下降法，求解最小化代价函数，从而确定第三分类模型的模型参数，实现一个可用的分类模型，将待识别新闻的第三特征输入第三分类模型，确定第三分类模型输出的待识别新闻对应各时间节点的概率，，确定置信度满足条件的时间节点为所待识别新闻对应的时间节点，进一步将确定的时间节点对应的事件作为待识别新闻的关联事件。

本申请实施例所提供的新闻处理方法中，通过事件的时间节点将事件的发展阶段进行划分，将与事件相关的关联新闻的生命周期与事件的发展阶段进行对应，从而对于识别新闻与事件是否关联以及新闻的时间对应于事件当前所处发展阶段的判断更加科学、精确，进一步通过该方式确定新闻的失效时间的计算上可以达到较好的效果。

该新闻处理方法可应用于任意可供用户获取阅读新闻信息的新闻阅读应用软件，如天天快报、腾讯新闻等。以图1所示新闻处理系统的应用场景中终端100为安装的新闻阅读应用为天天快报的客户端为例，请参阅图7，为本申请实施例提供的新闻阅读应用在新闻推送业务时在服务器进行新闻处理的一个应用场景示意图，其中，服务器200通过运行本申请实施例所提供的新闻处理方法，识别属于关联事件的新闻并将处于事件对应的当前发展阶段的新闻推送给终端100，请参阅图8，为本申请实施例提供的新闻阅读应用在新闻推送业务时在终端显示的一个应用场景示意图，用户通过在终端中安装新闻阅读应用客户端可以阅读服务器通过新闻处理方法确定待识别新闻的关联事件以及对应事件的时间节点后，推送的与事件当前发展阶段对应的新闻，用户通过终端100上的新闻阅读应用的软件界面进行查看。请参阅图9，具体以体育比赛事件A、待识别新闻B为例，对本申请实施例所提供的新闻处理方法确定新闻的失效时间的一种具体应用方式如下，包括：

S1，通过对事件的相关新闻进行聚类处理获取事件A的时间节点，具体包括：对体育比赛事件A的相关新闻进行聚类处理，获取体育比赛事件A的四个时间节点A1、A2、A3、A4将该事件划分为比赛事件A比赛前(时间节点A1～A2)、比赛事件A比赛中(时间节点A2～A3)、比赛事件A比赛后(时间节点A3～A4)。

S2，获取待识别新闻B的关键词和事件A的关键词，根据新闻B的关键词与事件A的关键词之间的相似度确定待识别新闻B是否为事件A的关联新闻，具体包括：从待识别新闻B的标题、报道内容和评论中分别去提取结构化信息作为新闻B的关键词，将新闻B的关键词与预定义或者预抽取的事件A的关键词进行相似度计算，并根据相似度构建样本特征，通过分类模型进行分类以判断该待识别新闻B是否为比赛事件A的关联新闻。由于对待识别新闻是否为关联新闻的识别中，待识别新闻B的关键词的提取可以考虑到新闻的全文甚至是评论所包含的内容，且相似度包括多个新闻的关键词分别与事件的关键词之间的相似度计算，可以得到更加准确的判断结果，如针对待识别新闻中提到部分比赛内容而实际并非与记录体育比赛事件相关的新闻可以有效的识别出并召回，从而对新闻和事件的相关性判断准确性更高，在对体育类比赛事件的相关新闻时效性计算中，新闻和比赛的相关性判断召回率可以达到85％，而正确率可以达到98％。

S3，当待识别新闻B为事件A的关联新闻时，即确定待识别新闻B的关联事件为事件A，根据待识别新闻B的发布时间确认待识别新闻B对应事件A的时间节点A _n，具体包括：根据待识别新闻的发布时间与事件的时间节点构建样本特征，通过分类模型进行分类以判断该待识别新闻B对应比赛事件A的哪个时间节点，如，确定待识别新闻B对应为比赛前的阶段，即对应关联事件中的时间节点为A1；如待识别新闻B对应为比赛中的阶段，即对应关联事件中的时间节点为A2；如待识别新闻B对应为比赛后的接段，即对应关联事件中的时间节点为A3。

S4，根据对应的时间节点A _n，确定待识别新闻B与失效关联的特定时间节点为对应的失效时间节点，于该待识别新闻B对应的失效时间节点到来之前将该待识别新闻B推送给终端100，于该待识别新闻B对应的失效时间节点到来时召回。在一个具体的实施例中，待识别新闻B对应的失效时间节点为对应的时间节点A _n的下一时间节点A _n+1。根据对应的时间节点A _n，将下一时间节点A _n+1确定为待识别新闻B的失效时间。任意相邻两个时间节点(A _n、A _n+1)分别表示事件A的一个发展阶段的开始和结束的时间，通过确定待识别新闻所处事件的发展阶段，从而可以在当前发展阶段开始时即将属于上一发展阶段的关联新闻做失效处理，确保新闻的时效性。具体包括，将属于比赛前的关联新闻于比赛事件A的比赛中阶段未到来之前推送给用户，而于比赛事件A的时间节点A2到来时即召回；将属于比赛中的关联新闻于比赛后阶段未到来之前保持推送给用户，而于比赛事件A的时间节点A3到来时即召回；将属于比赛后的关联新闻于比赛事件A的时间节点A4即召回。通过本实施例提供的新闻处理方法，对于比赛前新闻识别的正确率可以达到95％，比赛中新闻识别正确率可以达到90％，比赛后新闻识别正确率可以达到97％。

以上新闻处理方法通过对新闻设置合理的生命周期，提高新闻推荐的时效性，从而可提高新闻阅读应用软件的竞争力。

请参阅图10，在一个实施例中，提供一种新闻处理装置，包括第一获取模块11、第二获取模块13及确定模块15。第一获取模块11用于获取待识别新闻的词向量。第二获取模块13用于获取事件对应的词向量、以及事件的时间节点。确定模块15用于基于待识别新闻的词向量与事件的词向量的相似度，确定待识别新闻的关联事件，以及，确定待识别新闻在关联事件中所对应的时间节点，根据所述时间节点确定所述新闻是否有效。

请参阅图10，其中第一获取模块11包括关键词提取单元111和词向量单元113。关键词提取单元用于基于待识别新闻提取关键词。词向量单元用于将提取的关键词映射到词向量空间，得到关键词对应的词向量。关键词提取单元具体用于从以下至少之一提取对应所述待识别新闻的关键词：所述待识别新闻；所述待识别新闻的特定关联信息。

第二获取模块13包括预定义单元131或者聚类单元133。预定义单元131用于获取事件的预先定义的时间节点。聚类单元133用于获取事件的相关新闻并进行聚类处理，根据不同类别的相关新闻包含的时间信息确定事件的时间节点。

其中，还包括失效确定模块17，用于当对应的时间节点的类型为结束时间节点，且相较于结束时间节点的预设失效时长到达时，确定待识别新闻失效。

在另一个实施例中，失效确定模块17用于当对应的时间节点为与失效关联的特定时间节点时，确定待识别新闻失效。

确定模块15包括第一特征单元151、第一分类单元152及事件确定单元153。第一特征单元151用于基于待识别新闻的词向量与事件的词向量的相似度，构建待识别新闻对应的第一特征。第一分类单元152用于将第一特征作为样本特征输入第一分类模型，得到不同事件是待识别新闻的关联事件的置信度。事件确定单元153用于确定置信度满足条件的事件为待识别新闻的关联事件。第一特征单元151具体用于将以下的特征分量组合，得到待识别新闻对应的第一特征：待识别新闻的词向量与事件的词向量的相似度；待识别新闻的时间与事件的时间节点的关系。

进一步的，确定模块还包括第二特征单元154、第二分类单元155及时间确定单元156。第二特征单元154用于基于待识别新闻的时间与事件的时间节点的关系，构建待识别新闻对应的第二特征。第二分类单元155用于输入第二特征至第二分类模型，得到待识别新闻对应关联事件不同时间节点的置信度。时间确定单元156用于确定置信度满足条件的时间节点为待识别新闻所对应的时间节点。第二特征单元154具体用于将以下的特征分量组合，得到待识别新闻对应的第二特征：待识别新闻的词向量的均值；待识别新闻的时间与关联事件的不同时间节点的关系。

在另一个实施例中，请参阅图11，确定单元15包括第三特征单元157、第三分类单元158以及确定单元159。第三特征单元157用于基于待识别新闻的词向量与事件的词向量的相似度、以及待识别新闻的时间与事件的时间节点的关系，构建待识别新闻对应的第三特征。第三分类单元158用于输入第三特征至第三分类模型，得到待识别新闻的时间对应不同事件的不同时间节点的置信度。确定单元159用于确定置信度满足条件的时间节点为待识别新闻对应的时间节点，以及，将确定的时间节点对应的事件作为待识别新闻的关联事件。

本申请实施例所提供的新闻处理装置，通过事件的时间节点将事件的发展根据不同时间段所具有的某种共同特性而将事情区分为多个发展阶段，通过确定待识别新闻对应的事件的时间节点，从而可以获知待识别新闻所处事件的发展阶段，确定该新闻是否属于事件当前发展阶段的新闻，将不属于事件当前发展阶段的新闻确定为失效新闻。基于事件的时间节点对新闻设置合理的生命周期，及时将不属于事件当前发展阶段的新闻确定为失效新闻，以避免将不符合事件当前发展阶段的新闻性低的新闻推荐到用户，以提高向用户推荐的新闻的时效性。

需要说明的是：上述实施例提供的新闻处理装置在进行信息提醒时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的新闻处理装置与新闻处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例还提供了一种计算机设备，该计算机设备包括处理器及用于存储能够在处理器上运行的计算机程序的存储器，其中，所述处理器用于运行所述计算机程序时，执行：一种新闻处理方法，包括：获取待识别新闻的词向量；获取事件的词向量、以及所述事件的时间节点；基于所述待识别新闻的词向量与所述事件的词向量的相似度，确定所述待识别新闻的关联事件，以及，确定所述待识别新闻在所述关联事件中所对应的时间节点,根据所述时间节点确定所述新闻是否有效。

所述处理器还用于运行所述计算机程序时，执行：所述获取待识别新闻的词向量，包括：基于待识别新闻提取关键词；将所述提取的关键词映射到词向量空间，得到所述关键词对应的词向量。

所述处理器还用于运行所述计算机程序时，执行：所述基于待识别新闻提取关键词，包括：从以下至少之一提取对应所述待识别新闻的关键词：所述待识别新闻；所述待识别新闻的特定关联信息。

所述处理器还用于运行所述计算机程序时，执行：所述获取所述事件的时间节点，包括：获取所述事件的预先定义的时间节点；或，获取所述事件的相关新闻并进行聚类处理，根据不同类别的相关新闻包含的时间信息确定所述事件的时间节点。

所述处理器还用于运行所述计算机程序时，执行：所述基于所述待识别新闻的词向量与所述事件的词向量的相似度，确定所述待识别新闻的关联事件，包括：基于所述待识别新闻的词向量与所述事件的词向量的相似度，构建所述待识别新闻对应的第一特征；将所述第一特征作为样本特征输入第一分类模型，得到不同所述事件是所述待识别新闻的关联事件的置信度；确定置信度满足条件的事件为所述待识别新闻的关联事件。

所述处理器还用于运行所述计算机程序时，执行：所述基于所述待识别新闻的词向量与所述事件的词向量的相似度，构建所述待识别新闻对应的第一特征，包括：将以下的特征分量组合，得到所述待识别新闻对应的所述第一特征：所述待识别新闻的词向量与所述事件的词向量的相似度；所述待识别新闻的时间与所述事件的时间节点的关系。

所述处理器还用于运行所述计算机程序时，执行：所述确定所述待识别新闻在所述关联时间中所对应的时间节点，包括：基于所述待识别新闻的时间与所述事件的时间节点的关系，构建所述待识别新闻对应的第二特征；以及，输入所述第二特征至第二分类模型，得到所述待识别新闻对应所述关联事件不同时间节点的置信度；确定置信度满足条件的时间节点为所述待识别新闻所对应的时间节点。

所述处理器还用于运行所述计算机程序时，执行：所述基于所述待识别新闻的时间与所述事件的时间节点的关系，构建所述待识别新闻对应的第二特征，包括：将以下的特征分量组合，得到所述待识别新闻对应的所述第二特征：所述待识别新闻的词向量的均值；所述待识别新闻的时间与所述关联事件的不同时间节点的关系。

所述处理器还用于运行所述计算机程序时，执行：所述基于所述待识别新闻的词向量与所述事件的词向量的相似度，确定所述待识别新闻的关联事件，以及，确定所述待识别新闻在所述关联时间中所对应的时间节点，包括：基于所述待识别新闻的词向量与所述事件的词向量的相似度、以及所述待识别新闻的时间与所述事件的时间节点的关系，构建所述待识别新闻对应的第三特征；输入所述第三特征至第三分类模型，得到所述待识别新闻的时间对应不同事件的不同时间节点的置信度；确定置信度满足条件的时间节点为所述待识别新闻对应的时间节点，以及，将所述确定的时间节点对应的事件作为所述待识别新闻的关联事件。

所述处理器还用于运行所述计算机程序时，执行：所述新闻处理方法还包括：当所述对应的时间节点的类型为结束时间节点，且相较于所述结束时间节点的预设失效时长到达时，确定所述待识别新闻失效。

所述处理器还用于运行所述计算机程序时，执行：所述新闻处理方法还包括：当所述对应的时间节点为与失效关联的特定时间节点时，确定所述待识别新闻失效。

如图12所示，为一计算机设备的内部结构示意图，该计算机设备可以为图1中所示的服务器200，包括通过系统总线连接的处理器、内存储器、网络接口和非易失性存储介质。其中，处理器用于实现计算功能和控制服务器工作的功能，该处理器被配置为执行本申请实施例提供的新闻处理方法。非易失性存储介质存储有操作系统、数据库和用于实现本申请实施例提供的新闻处理方法的新闻处理装置。网络接口用于连接终端。

其中，存储器可以由任何类型的易失性或非易失性存储设备、或者它们的组合来实现。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，Ferromagnetic Random Access Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random Access Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，Synchronous Dynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本申请实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

存储器用于存储各种类型的数据以支持新闻处理装置的操作。这些数据的示例包括：用于在新闻处理装置上操作的任何计算机程序，如操作系统和应用程序；待识别新闻、待识别新闻的词向量、事件的时间节点、时间的词向量等等。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序，例如新闻应用、媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本申请实施例方法的程序可以包含在应用程序中。

网络接口用于新闻处理装置与其他设备之间有线或无线方式的通信。新闻处理装置可以接入基于通信标准的无线网络，如WiFi、2G或3G、或它们的组合。在一个示例性实施例中，网络接口经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述网络接口还包括近场通信(NFC，Near Field Communication)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID，Radio Frequency IDentification)技术、红外数据组织(IrDA，Infrared Data Association)技术、超宽带(UWB，Ultra WideBand)技术、蓝牙(BT，BlueTooth)技术或其他技术来实现。

上述本申请实施例揭示的新闻处理方法可以应用于处理器中，或者由处理器实现。处理器的数量可以是一个或者多个，以完成上述方法的全部或者部分步骤。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成前述方法的步骤。

在示例性实施例中，新闻处理装置可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU，Micro Controller Unit)、微处理器(Microprocessor)、或其他电子元件实现，用于执行前述方法。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种新闻处理方法，由服务器执行，其中，所述方法包括：

获取待识别新闻的词向量；

获取事件的词向量、以及所述事件的时间节点；

基于所述待识别新闻的词向量与所述事件的词向量的相似度，确定所述待识别新闻的关联事件，以及，

确定所述待识别新闻在所述关联事件中所对应的时间节点；

根据所述时间节点确定所述新闻是否有效。
如权利要求1所述的新闻处理方法，其中，所述获取待识别新闻的词向量，包括：

基于待识别新闻提取关键词；

将所述提取的关键词映射到词向量空间，得到所述关键词对应的词向量。
如权利要求2所述的新闻处理方法，其中，所述基于待识别新闻提取关键词，包括：

从以下至少之一提取对应所述待识别新闻的关键词：

所述待识别新闻；所述待识别新闻的特定关联信息。
如权利要求1所述的新闻处理方法，其中，所述获取所述事件的时间节点，包括：

获取所述事件的预先定义的时间节点。
如权利要求1所述的新闻处理方法，其中，所述获取所述事件的时间节点包括：获取所述事件的相关新闻并进行聚类处理，根据不同类别的相关新闻包含的时间信息确定所述事件的时间节点。
如权利要求1所述的新闻处理方法，其中，所述基于所述待识别新闻的词向量与所述事件的词向量的相似度，确定所述待识别新闻的关联事件，包括：

基于所述待识别新闻的词向量与所述事件的词向量的相似度，构建所述待识别新闻对应的第一特征；

将所述第一特征作为样本特征输入第一分类模型，得到不同所述事件是所述待识别新闻的关联事件的置信度；

确定置信度满足条件的事件为所述待识别新闻的关联事件。
如权利要求6所述的新闻处理方法，其中，所述基于所述待识别新闻的词向量与所述事件的词向量的相似度，构建所述待识别新闻对应的第一特征，包括：

将以下的特征分量组合，得到所述待识别新闻对应的所述第一特征：

所述待识别新闻的词向量与所述事件的词向量的相似度；

所述待识别新闻的时间与所述事件的时间节点的关系。
如权利要求1所述的新闻处理方法，其中，所述确定所述待识别新闻在所述关联时间中所对应的时间节点，包括：

基于所述待识别新闻的时间与所述事件的时间节点的关系，构建所述待识别新闻对应的第二特征；以及

输入所述第二特征至第二分类模型，得到所述待识别新闻对应所述关联事件不同时间节点的置信度；

确定置信度满足条件的时间节点为所述待识别新闻所对应的时间节点。
如权利要求8所述的新闻处理方法，其中，所述基于所述待识别新闻的时间与所述事件的时间节点的关系，构建所述待识别新闻对应的第二特征，包括：

将以下的特征分量组合，得到所述待识别新闻对应的所述第二特征：

所述待识别新闻的词向量的均值；

所述待识别新闻的时间与所述关联事件的不同时间节点的关系。
如权利要求1所述的新闻处理方法，其中，所述基于所述待识别新闻的词向量与所述事件的词向量的相似度，确定所述待识别新闻的关联事件，以及，确定所述待识别新闻在所述关联事件中所对应的时间节点，包括：

基于所述待识别新闻的词向量与所述事件的词向量的相似度、以及所述待识别新闻的时间与所述事件的时间节点的关系，构建所述待识别新闻对应的第三特征；

输入所述第三特征至第三分类模型，得到所述待识别新闻的时间对应不同事件的不同时间节点的置信度；

确定置信度满足条件的时间节点为所述待识别新闻对应的时间节点，以及，将所述确定的时间节点对应的事件作为所述待识别新闻的关联事件。
如权利要求1所述的新闻处理方法，其中，所述根据所述时间节点确定所述新闻是否有效包括：

当所述对应的时间节点的类型为结束时间节点，且相较于所述结束时间节点的预设失效时长到达时，确定所述待识别新闻失效。
如权利要求1所述的新闻处理方法，其中，所述根据所述时间节点确定所述新闻是否有效包括：

当所述对应的时间节点为与失效关联的特定时间节点时，确定所述待识别新闻失效。
一种新闻处理装置，其中，所述装置包括：

第一获取模块，用于获取待识别新闻的词向量；

第二获取模块，用于获取事件对应的词向量、以及所述事件的时间节点；

确定模块，用于基于所述待识别新闻的词向量与所述事件的词向量的相似度，确定所述待识别新闻的关联事件，以及，

确定所述待识别新闻在所述关联事件中所对应的时间节点，根据所述时间节点确定所述新闻是否有效。
如权利要求13所述的新闻处理装置，其中，所述确定模块包括：

第一特征单元，用于基于所述待识别新闻的词向量与所述事件的词向量的相似度，构建所述待识别新闻对应的第一特征；

第一分类单元，用于将所述第一特征作为样本特征输入第一分类模型，得到不同所述事件是所述待识别新闻的关联事件的置信度；

事件确定单元，用于确定置信度满足条件的事件为所述待识别新闻的关联事件；

第二特征单元，用于基于所述待识别新闻的时间与所述事件的时间节点的关系，构建所述待识别新闻对应的第二特征；以及

第二分类单元，用于输入所述第二特征至第二分类模型，得到所述待识别新闻对应所述关联事件不同时间节点的置信度；

时间确定单元，用于确定置信度满足条件的时间节点为所述待识别新闻所对应的时间节点。
一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现如权利要求1-12中任意一项所述新闻处理方法。
一种计算机设备，包括存储器、处理器及存储在所述存储器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1-12中任意一项所述的新闻处理方法。