CN107622333A - 一种事件预测方法、装置及系统 - Google Patents
一种事件预测方法、装置及系统 Download PDFInfo
- Publication number
- CN107622333A CN107622333A CN201711064205.6A CN201711064205A CN107622333A CN 107622333 A CN107622333 A CN 107622333A CN 201711064205 A CN201711064205 A CN 201711064205A CN 107622333 A CN107622333 A CN 107622333A
- Authority
- CN
- China
- Prior art keywords
- data
- text data
- text
- characteristic vector
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种事件预测方法、装置及系统。方法包括:获取社交网络数据中的文本数据;对所述文本数据进行向量化处理,获取所述文本数据对应的特征向量;将所述特征向量输入至预建立的分类模型,所述分类模型用于以所述文本数据的特征向量为特征确定所述文本数据对应于可疑事件的概率。本申请通过抓取海量的社交网络数据,并对其中的文本数据进行自然语言处理,以从中找到作为关键影响因素的特征向量,并基于影响特征对文本数据进行预测,以达到准确预测可疑事件的目的。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种事件预测方法、装置及系统。
背景技术
随着互联网技术的发展,犯罪和恐怖袭击手段也越来越智能化。许多恐怖 组织活跃于互联网,以组织策划恐怖袭击。
现有技术一般是在犯罪和恐怖袭击等事件发生后依据对网民情感的分析 进行后续安抚工作。例如:在某个事件发生后,有关部门研究了以该事件为主 题的舆情数据,并基于舆情数据分析国民情感。但是,这种“事件发生后再做 安排”的方式是无法预防事件发生的。
因此,需要提供能预防相关事件发生的方案。
发明内容
本申请实施例提供一种事件预测方法、装置及系统用于解决现有技术无法 预测事件发生的问题。
本申请实施例还提供一种事件预测方法,包括:
获取社交网络数据中的文本数据;
对所述文本数据进行向量化处理,获取所述文本数据对应的特征向量;
将所述特征向量输入至预建立的分类模型,所述分类模型用于以所述文本 数据的特征向量为特征确定所述文本数据对应于可疑事件的概率。
可选的,在获取社交网络数据中的文本数据之前,还包括:
从社交网络中获取社交网络数据;
将所述社交网络数据中的非结构化数据中的非文本数据转化为文本数据。
可选的,所述对所述文本数据进行向量化处理,获取所述文本数据对应的 特征向量包括:
对所述文本数据中的词进行向量化处理,获取所述词对应的词向量;
根据所述文本数据中的词对应的词向量,确定所述文本数据对应的特征向 量。
可选的,对所述文本数据中的词进行向量化处理,获取所述词对应的词向 量包括:
基于文本深度表示模型训练所述文本数据中的词,获取文本深度表示模型 输出的词向量。
可选的,所述根据所述文本数据中的词对应的词向量获取所述文本数据对 应的特征向量包括:
对所述文本数据中的词对应的词向量进行求平均值的计算,并将计算结果 作为所述文本数据对应的特征向量。
可选的,在将所述特征向量作为特征输入至预建立的分类模型之前,还包 括:
获取所述社交网络数据中与所述文本数据关联的用户行为数据;
对所述用户行为数据进行特征选择处理,获取对应的特征变量;
其中,将所述特征向量作为特征输入至预建立的分类模型包括:
将所述特征向量和所述特征变量作为特征输入至预建立的分类模型。
可选的,所述对所述用户行为数据进行特征选择处理,获取相关变量包括:
确定所述用户行为数据中的变量;
基于预定的特征选择法对所述变量进行评分,以确定所述变量对所述文本 数据对应的事件的影响度;
从所述用户行为数据中的变量中选取影响度满足预定条件的变量,作为特 征变量。
可选的,所述预定的特征选择法为过滤式特征选择法、包裹式特征选择法、 集成式特征选择法中的至少一个。
可选的,所述用户行为数据包括:实体数据和/或标签数据,所述实体数据 用于表示与文本数据相关的数据的集合,所述标签数据用于表示文本数据或者 文本数据中词对应的标签以及标签对应的数据。
可选的,在获取所述分类模型输出的预测结果之后,还包括:
根据所述预测结果确定与所述文本数据相关的实体的可疑概率。
可选的,在将所述特征向量作为特征输入至预建立的分类模型之前,还包 括:
获取样本数据,所述样本数据包括:样本事件,以及所述样本事件对应的 文本数据和/或用户行为数据;
对所述文本数据进行向量化处理,获取所述文本数据对应的特征向量;和 /或,对所述用户行为数据进行特征选择处理,获取与所述用户行为数据对应的 特征变量;
以样本事件对应的特征向量和/或特征变量为特征,建立分类模型。
可选的,所述分类模型为基于贝叶斯的分类模型、基于支持向量机的分类 模型、基于卷积神经网络的分类模型、基于循环神经网络的分类模型中的至少 一个。
本申请实施例还提供一种事件预测装置,包括:
第一获取单元,用于获取社交网络数据中的文本数据;
第一处理单元,用于对所述文本数据进行向量化处理,获取所述文本数据 对应的特征向量;
第二处理单元,用于将所述特征向量输入至预建立的分类模型,所述分类 模型用于以所述文本数据的特征向量为特征确定所述文本数据对应于可疑事 件的概率。
可选的,还包括:
第二获取单元,用于获取所述社交网络数据中与所述文本数据关联的用户 行为数据;
其中,第一处理单元,还用于对所述用户行为数据进行特征选择处理,获 取对应的特征变量;
所述第二处理单元,还用于将所述特征向量和所述特征变量作为特征输入 至预建立的分类模型。
本申请实施例还提供一种事件预测系统,包括:数据仓库、kafka集群和 storm集群,其中:
所述数据仓库,用于存储社交网络数据,并为所述kafka集群的生产者提 供社交网络数据;
所述kafka集群,用于对所述社交网络数据进行预处理,以提取所述社交 网络数据中的文本数据和/或用户行为数据;
所述storm集群,用于调用权利要求13或14所述的事件预测装置,以消 费所述kafka集群中的文本数据和/或用户行为数据,输出对应于可疑事件的概 率。
本申请实施例还提供一种事件预测装置,包括:存储器和处理器,其中:
存储器,用于存放程序;
处理器,用于执行所述存储器存放的程序,并具体执行:
获取社交网络数据中的文本数据;
对所述文本数据进行向量化处理,获取所述文本数据对应的特征向量;
将所述特征向量输入至预建立的分类模型,所述分类模型用于以所述文本 数据的特征向量为特征确定所述文本数据对应于可疑事件的概率。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质 存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备 执行时,使得所述电子设备执行以下方法:
获取社交网络数据中的文本数据;
对所述文本数据进行向量化处理,获取所述文本数据对应的特征向量;
将所述特征向量输入至预建立的分类模型,所述分类模型用于以所述文本 数据的特征向量为特征确定所述文本数据对应于可疑事件的概率。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
通过抓取海量的社交网络数据,并对其中的文本数据进行自然语言处理, 以从中找到作为关键影响因素的特征向量,并将特征向量作为分类模型的输 入,以对文本数据进行预测,达到准确预测可疑事件的目的。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部 分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不 当限定。在附图中:
图1为本申请实施例1提供的一种事件预测方法的流程示意图;
图2为本申请实施例2提供的一种事件预测方法的流程示意图;
图3为本申请实施例3提供的一种事件预测方法的流程示意图;
图4为本申请实施例3提供的文本深度表示模型word2vec的示意图;
图5为本申请实施例3提供的循环神经网络RNN的示意图;
图6为本申请实施例4提供的事件预测装置的结构示意图;
图7为本申请实施例5提供的事件预测装置的结构示意图;
图8为本申请实施例6提供的事件预测系统的结构示意图;
图9为本申请实施例7提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实 施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的 实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施 例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施 例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
实施例1
图1为本申请实施例1提供的一种事件预测方法的流程示意图,参见图1, 该方法具体可以包括如下步骤:
步骤120、获取社交网络数据中的文本数据;
需要说明的是,步骤120的一种实现方式可以为:
首先,从社交平台上抓取社交网络数据,然后,对抓取的社交网络数据进 行转化、清洗、解析、分类等预处理,区分出其中的结构化数据和非结构化数 据,以及非结构化数据中的文本数据。在进行事件预测时,从中获取对应的文 本数据。
步骤120的另一种实现方式可以为:
首先,从社交平台上抓取社交网络数据,然后,对抓取的数据进行转化、 清洗、解析、分类等预处理,区分出其中的结构化数据和非结构化数据,以及 非结构化数据中的文本数据和非文本数据,然后,将非结构化数据中的诸如图 片、音频、视频等非文本数据转化为文本数据。在进行事件预测时,从中获取 对应的文本数据。其中,将非文本数据转化为文本数据所使用的技术包括现有 的将微信音频识别为文字的相关技术,或者,将视频的字幕文件转化为文本数 据等。
另外,对于上述两种实现方式中提及的社交平台可以为微信、qq、推特、 脸书等等;抓取社交网络数据的工具可以为网络爬虫等;文本数据可以具体为 一段对话、一篇文档、一条通知等等,相应地,文本数据对应有事件,例如。
步骤140、对所述文本数据进行向量化处理,获取所述文本数据对应的特 征向量;
需要说明的是,由于特征向量是分类模型的输入,因此,确定出的特征向 量能否代表文本数据直接影响到模型输出的预测结果。基于此,步骤140的一 种实现方式可以为:
首先,对所述文本数据中的词进行向量化处理,获取所述词对应的词向量; 然后,根据所述文本数据中的词对应的词向量获取所述文本数据对应的特征向 量。
本实现方式中,向量化处理可以为采用文本深度表示模型-word2vec工具 训练所述文本数据中的词,获取文本深度表示模型输出的词向量。然后,对所 述文本数据中的词对应的词向量进行求平均值,并将获得的向量作为所述文本 数据对应的特征向量。其中,文本深度表示模型的核心思想是:通过训练,把 对文本数据的处理简化为K维向量空间中的向量运算,而向量空间上的相似度 可以用来表示文本语义上的相似度。
步骤160、将所述特征向量输入至预建立的分类模型,所述分类模型用于 以所述文本数据的特征向量为特征确定所述文本数据对应于可疑事件的概率。
需要说明的是,在执行上述步骤120-步骤160之前,还需要执行建立模型 的步骤,具体可以包括如下步骤:
首先,获取样本数据,所述样本数据包括:样本事件,以及所述样本事件 对应的文本数据;对所述文本数据进行向量化处理,获取所述文本数据对应的 特征向量;以样本事件对应的特征向量为特征,建立分类模型。基于建立的分 类模型,对新的文本数据进行预测。
不难理解的是,样本事件包括正样本和负样本,正样本为与可疑事件相关 的事件,例如:恐怖事件等,相应地,其对应的文本数据可以为恐怖分子的对 话内容、行动策划信息、作案路线等等。
为了提高建立的模型的精度,本申请实施例以文本数据对应的特征向量为 特征,实例性地建立了4种分类模型,包括:基于贝叶斯的分类模型、基于支 持向量机的分类模型、基于卷积神经网络的分类模型、基于循环神经网络的分 类模型。
可见,本申请实施例通过抓取海量的社交网络数据,并基于深度文本表示 模型对其中的文本数据进行自然语言处理,以从中找到作为关键影响因素的特 征向量,并将特征向量作为基于深度学习建立的模型的输入,以对文本数据进 行预测,达到准确预测可疑事件的目的。
实施例2
图2为本申请实施例2提供的一种事件预测方法的流程示意图,参见图2, 该方法具体可以包括如下步骤:
步骤220、获取社交网络数据中的文本数据和与所述文本数据关联的用户 行为数据;
需要说明的是,社交网络数据包括结构化数据和非结构化数据。其中,用 户行为数据属于结构化数据,包括:实体数据和/或标签数据,所述实体数据用 于表示与文本数据相关的数据的集合,所述标签数据用于表示文本数据或者文 本数据中词对应的标签以及标签对应的数据。以一段对话为文本数据,其对应 的实体数据举例为:对话的参与实体、对话的发生地点和时间等等,以及参与 实体人物A进行的网页浏览、搜索、点击等行为数据。标签数据举例为:对话 中出现的词对应的物品B,该物品B所属的类别以及该类别对应的性质,例如: 是否属于为违禁品等等。
步骤240、对所述文本数据进行向量化处理,获取所述文本数据对应的特 征向量;
需要说明的是,步骤240与实施例1中的步骤140相似,故,此处不再对 步骤240展开说明。
步骤260、对所述用户行为数据进行特征选择处理,获取对应的特征变量;
需要说明的是,步骤260的一种实现方式可以为:
首先,确定所述用户行为数据中的变量,变量可以为:参与主体、时间、 地点、其中涉及的物品等等;然后,基于预定的特征选择法对所述变量进行评 分,以确定所述变量对所述文本数据对应的事件的影响度;从所述用户行为数 据中的变量中选取影响度满足预定条件的变量,作为特征变量。
本实现方式中,变量的影响度越小则认为其对用户行为数据的影响越小, 例如:对于数据中出现的物品“水”,其一般不被认为与可疑事件有什么关系, 故,其对用户行为数据的影响较小;而对于“手枪”、“手雷”、“枪械型号”等 则反之。
为了提高选择的特征变量的精度,本申请实施例提出的特征选择法可以具 体为过滤式filter特征选择法、包裹式Wrapper特征选择法、集成式Embedded 特征选择法中的至少一个。其选择远离包括:(1)用filter法对通过计算相关 系数和卡方值得出变量得分。(2)采用递归的向前选择法基于决策树算法给各 变量打分。(3)通过lasso回归加决策树进行变量选择,引入惩罚项,将部分 变量的系数压缩为0。合理利用上述三种方法选取的结果中的一个或多个,得 出最终模型需要采纳的特征变量。例如,一条文本数据中的变量包括:性别, 年龄,地理位置,上网设备,上网时长,消息转发次数等,经过上述特征选择 方法,可以从中选择出显著影响文本数据可疑概率的因素,作为特征变量。
其中,各个特征选择法的原理如下:
Filter法:对于连续型变量,可采用方差选择法选择方差大于某阈值的变 量,也可计算特征变量和目标变量的相关系数。对于特征变量和目标变量都是 定性变量的情况,可采用卡方检验或者互信息刻画变量之间的相关性。
Wrapper法:利用学习算法的性能来评价特征子集的优劣。Wrapper法需 要训练一个学习器,根据学习器的性能来选择特征子集,可选用的算法包括决 策树,神经网络,KNN等。
Embedded法:集成法是指将特征选择算法和学习算法集成到一起,如基 于lasso进行变量选择和基于树模型进行变量选择。
步骤280、所述特征向量和所述特征变量作为特征输入至预建立的分类模 型,并获取所述分类模型输出的预测结果,所述预测结果用于表示所述文本数 据对应于可疑事件的概率。
需要说明的是,与实施例1中对步骤160的相关描述相似,在进行步骤280 之前,同样需要进行建立分类模型的步骤,具体可以为:
获取样本数据,所述样本数据包括:样本事件,以及所述样本事件对应的 文本数据和/或用户行为数据;对所述文本数据进行向量化处理,获取所述文本 数据对应的特征向量;和/或,对所述用户行为数据进行特征选择处理,获取与 所述用户行为数据对应的特征变量;以样本事件对应的特征向量和/或特征变量 为特征,建立分类模型。
另外,在完成可疑事件的预测之后,本申请还可以进一步地对可疑事件对 应的可疑实体进行预测。具体可以为:
在确定文本数据对应于可疑事件的概率后,若概率满足预定的标准,则对 该文本数据涉及的实体(人物)的相关数据进行预测,以进一步地挖掘出作案 团伙等,达到进一步提高预防事件发生的效果。其中,实体的相关数据可以为: 基本信息、与其相关的社交数据、其境内外的事迹等。对于可疑实体的分析, 可在对其社交数据的预测的基础上,进一步分析其事迹、行踪等等,以从多个 维度预测实体的可疑程度。
可见,本申请实施例综合考虑文本消息的特征向量和对应的用户行为数据 的特征变量两个角度的特征,进行可疑事件的预测,以在实施例1的基础上, 进一步地提高预测的精度。
实施例3
图3为本申请实施例3提供的一种事件预测方法的流程示意图,参见图3, 下面从实例的角度对本申请进行详细说明:
步骤320、从社交平台中抓取社交网络数据
对社交网络数据进行预处理,获取训练数据,训练数据包括:消息文本(文 本数据)、实体数据和标签数据。其中,预处理的过程以在实施例1和2中进 行了描述,故,此处不再赘述。
步骤340、消息文本的向量化表示
贯穿自然语言处理最重要的任务是词向量的表示,为了能更好的完成大多 数自然语言处理任务,需要定义词和词之间的相似度和区别。本实施例采用 word2vec训练词向量,word2vec有两个基本模型,分别是CBOW词向量模型 和Skip-gram词向量模型,下面参见图4,以Skip-gram为例说明计算词向量的 过程:
Skip-gram模型是一个三层神经网络,单个词w(t)作为模型的输入,经 过隐藏层最终到softmax层得出该词上下文的词w(t-2)、w(t-1)、w(t+1)、 w(t+2)的概率和对应的隐藏层的权重值,作为求得词w(t)的词向量。
基于word2vec和恐怖主义相关语料库,训练语料库中的词向量。但由于 每条消息文本的词语个数不相同,如:I have a book.这句话有4个词,这4个 词分别由词向量代表,因此,有4个词向量。为使这句话能由一个词向量表示, 可以采取4个词向量的简单平均来代表。以这样的方式,每个消息文本都用一 个向量代表,便于之后做分类模型。
步骤360、实体数据和标签数据的变量选择
由于实体数据和标签数据维度较高,因此,需要用特征工程的方法选取对 事件是否可疑有显著影响的变量,从而使模型效果达到最优。实体数据和标签 数据为需要输入的特征矩阵,事件是否可疑为需要输入的目标向量。对于连续 型变量,需要做标准化及归一化处理,对于分类型变量,需要进行哑变量编码, 一些缺失值需要用插补进行处理。特征选择常用的方法包括Filter法,Wrapper 法,Embedded和降维方法。本专利中因为涉及大量社交及用户行为数据,因 此需要进行特征选择。
另外,变量选择的过程与实施例2中关于步骤260的描述相对应,因此, 此处不再赘述。
步骤380、建立分类模型
得到消息文本向量和选择好的特征后,可以建立二分类模型。由于目标变 量正负类存在极度不平衡问题,因此,需要对不平衡数据进行处理,常用的方 法包括过抽样,SMOTE等。接下来尝试Random forest,Logistc regression,SVM 等模型,首先将数据集分为训练集和测试集,使用sklearn训练模型,对不同 模型下得到的精确度进行比较,模型评估的方法包括hold-out,交叉验证,TPR, TNR等。
除传统机器学习分类模型外,本专利也尝试了用深度学习模型对文本进行 分类,不同于传统的前向反馈神经网络,RNN引入了定向循环,可以处理输 入之间前后关联的问题。
参见图5,RNN用来处理序列数据,传统神经网络中,每层之间的节点是 无连接的,但在自然语言处理中,句子中前后单词并不是独立的,RNN会对 前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无 连接而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻 隐藏层的输出。基于RNN得出消息文本是否可疑。
使用建立好的模型对新的消息文本进行预测,帮助情报分析人员做决策以 便及时防范恐怖袭击。
步骤3100、模型效果分析
首先,利用前面提到的特征选择方法选出对事件是否可疑有显著影响的变 量,主要包括:主要为结构化数据,包括事发地点,武器类型,袭击目标,该 事发地点历史事件数量等。词向量通过word2vec训练,用训练好的词向量进 行文本分类。
模型训练样本共60000例,其中恐怖事件120例,因此属于类别高度不平 衡数据。在建模过程中,采用SMOTE算法调整类别不平衡问题。分别尝试两 个场景:1.仅利用词向量作为模型特征变量对消息文本进行分类。2.额外纳 入一些结构化数据变量,与词向量一并作为特征输入模型。对上述两个场景分 别尝试建立机器学习和深度学习模型,用交叉验证方法进行模型选择,分别计 算模型总精度,准确率,召回率,结果如下:
只利用词向量作为特征输入模型:
首先尝试只将词向量作为特征变量,对短消息进行分类。主要尝试了两种 机器学习模型(朴素贝叶斯Bayes+支持向量机SVM)和两种深度学习模 型(卷积神经网络CNN+循环神经网络RNN),分别对正类和负类样本随机抽 取1/3作为测试集用于模型评估,正类/负类样本与恐怖事件及其相关的消息文 本数据/非恐怖事件及其相关的消息文本数据相对应。分别计算了模型精度 accuracy、真正率TPR、TNR真负率,由于数据正负类高度不平衡,因此这里 综合考虑了TPR和TNR,计算了G-means作为最终的评判标准。
表1利用词向量作为特征的模型精度
从上述结果可以看出,在综合考虑正类和负类的分类精度的情况下,除 SVM的精度较差外,其他三个模型效果不错。
结合特征变量作为特征输入模型:
其次,结合一些结构化数据,如事发地点、武器类型、袭击目标等,对短 文本进行分类,以对模型精度进一步提升。结果如下表:
表2加入事件特征后的模型精度
从以上结果来看,加入描述事件特征的变量之后,模型效果有了小幅度提 升,通过综合比较,最终选取了纳入事件特征变量的RNN模型作为最终的分 类模型。
步骤3120、基于分类模型对新事件进行预测
对新事件进行的预测与实施例1和2中的描述相似,故,此处不再赘述。
需要说明的是,实施例1-3所提供方法的各步骤的执行主体均可以是同一 设备,或者,该方法也由不同设备作为执行主体。比如,步骤120和步骤140 的执行主体可以为设备1,步骤160的执行主体可以为设备2;又比如,步骤 120的执行主体可以为设备1,步骤140和步骤160的执行主体可以为设备2; 等等。
另外,对于上述方法实施方式,为了简单描述,故将其都表述为一系列的 动作组合,但是本领域技术人员应该知悉,本发明实施方式并不受所描述的动 作顺序的限制,因为依据本发明实施方式,某些步骤可以采用其他顺序或者同 时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施方式均属 于优选实施方式,所涉及的动作并不一定是本发明实施方式所必须的。
实施例4
图6为本申请实施例4提供的事件预测装置的结构示意图,参见图6,该 装置包括:第一获取单元61、第一处理单元62和第二处理单元63,其中:
第一获取单元61,用于获取社交网络数据中的文本数据;
第一处理单元62,用于对所述文本数据进行向量化处理,获取所述文本数 据对应的特征向量;
第二处理单元63,用于将所述特征向量输入至预建立的分类模型,所述分 类模型用于以所述文本数据的特征向量为特征确定所述文本数据对应于可疑 事件的概率。
其中,第一处理单元62的工作原理进行简单说明:
第一处理单元62用于对所述文本数据中的词进行向量化处理,获取所述 词对应的词向量;根据所述文本数据中的词对应的词向量获取所述文本数据对 应的特征向量。具体的:基于文本深度表示模型训练所述文本数据中的词,获 取文本深度表示模型输出的词向量。对所述文本数据中的词对应的词向量进行 求平均值,并将获得的向量作为所述文本数据对应的特征向量。
可见,本申请实施例通过抓取海量的社交网络数据,并基于深度文本表示 模型对其中的文本数据进行自然语言处理,以从中找到作为关键影响因素的特 征向量,并将特征向量作为基于深度学习建立的模型的输入,以对文本数据进 行预测,达到准确预测可疑事件的目的。
实施例5
图7为本申请实施例5提供的事件预测装置的结构示意图,参见图6,该 装置包括:第一获取单元71、第二获取单元72、第一处理单元73和第二处理 单元74,其中:
第一获取单元71,用于获取社交网络数据中的文本数据;
第二获取单元72,用于获取所述社交网络数据中与所述文本数据关联的用 户行为数据;
第一处理单元73,用于对所述文本数据进行向量化处理,获取所述文本数 据对应的特征向量;对所述用户行为数据进行特征选择处理,获取对应的特征 变量;
第二处理单元74,用于将所述特征向量和所述特征变量作为特征输入至预 建立的分类模型。
其中,第一处理单元73用于确定所述用户行为数据中的变量;基于预定 的特征选择法对所述变量进行评分,以确定所述变量对所述文本数据对应的事 件的影响度;从所述用户行为数据中的变量中选取影响度满足预定条件的变 量,作为特征变量。
可见,本申请实施例综合考虑文本消息的特征向量和对应的用户行为数据 的特征变量两个角度的特征,进行可疑事件的预测,能进一步地提高预测的精 度。
实施例6
图8为本申请实施例6提供的事件预测系统的结构示意图,参见图8,该 系统包括:数据仓库81、kafka集群82和storm集群83,其中:
所述数据仓库81,用于存储社交网络数据,并为所述kafka集群的生产者 提供社交网络数据;
所述kafka集群82,用于对所述社交网络数据进行预处理,以提取所述社 交网络数据中的文本数据和/或用户行为数据;
所述storm集群83,用于调用实施例5或6对应的事件预测装置,以消费 所述kafka集群中的文本数据和/或用户行为数据,输出对应于可疑事件的概率。
需要说明的是,系统的工作原理如下:
抓取全量社交网络数据(twitter和facebook)进行ETL处理,并将处理后 的数据按照预定义好的数据仓库模块加载到数据仓库中。通过kafka集群对新 增消息进行处理。基于消息内容获得相应的实体和标签数据。将消息文本转换 为结构化的词向量与实体和标签数据一起进行特征选择找出影响事件可疑的 关键因素。建立机器学习和深度学习模型,对未知情报的可疑进行预测。
其中,外部数据(社交媒体数据)进入数据仓库进行解析和清洗,再从数 据仓库进入Kafka,消费者从Broker中拉取实时增加的消息数据,结合hive(基 于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库 表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行 运行)中的实体数据和标签数据,调用封装好的算法包进行计算得出事件可疑 概率,由于消息数据为实时新增数据,消息的可疑概率采用Storm框架进行流 式计算,外部数据以Tuple的形式由Kafka经Spout流入Storm实时计算集群, 交给集群内的Topology处理,Topology中每个节点的bolt做为一个特定的task, 均可并行调用封装好的算法包进行事件可疑概率的计算,最终由最后一个bolt 将计算结果存入mysql。
本实施例采用的Kafka是一种高吞吐量的分布式发布订阅消息系统,它可 以处理消费者规模的网站中的所有动作流数据。这种动作(网页浏览,搜索 和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数 据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop 的一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行 的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线 的消息处理,也是为了通过集群来提供实时的消费。
另外,本系统采用Storm实时计算框架,具有低延迟、高性能、分布式计 算的特点,因此可以及时提供情报识别结果供情报人员进行分析。此外,本专 利利用了大规模社交网络数据和上网行为数据分析恐怖分子袭击特点,结合自 然语言处理技术,可以达到自动识别可疑事件的目的。
对于上述装置实施方式而言,由于其与方法实施方式基本相似,所以描述 的比较简单,相关之处参见方法实施方式的部分说明即可。应当注意的是,在 本发明的装置的各个部件中,根据其要实现的功能而对其中的部件进行了逻辑 划分,但是,本发明不受限于此,可以根据需要对各个部件进行重新划分或者 组合。
实施例7
图9为本申请实施例7提供的一种电子设备的结构示意图,参见图9,该 电子设备包括:处理器、内部总线、网络接口、内存以及非易失性存储器,当 然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的 计算机程序到内存中然后运行,在逻辑层面上形成事件预测装置。当然,除了 软件实现方式之外,本申请并不排除其他实现方式,比如逻辑器件抑或软硬件 结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单 元,也可以是硬件或逻辑器件。
网络接口、处理器和存储器可以通过总线系统相互连接。总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总 线、数据总线、控制总线等。为便于表示,图9中仅用一个双向箭头表示,但 并不表示仅有一根总线或一种类型的总线。
存储器用于存放程序。具体地,程序可以包括程序代码,所述程序代码包 括计算机操作指令。存储器可以包括只读存储器和随机存取存储器,并向处理 器提供指令和数据。存储器可能包含高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如 至少1个磁盘存储器。
处理器,用于执行所述存储器存放的程序,并具体执行:
获取社交网络数据中的文本数据;
对所述文本数据进行向量化处理,获取所述文本数据对应的特征向量;
将所述特征向量输入至预建立的分类模型,所述分类模型用于以所述文本 数据的特征向量为特征确定所述文本数据对应于可疑事件的概率。
上述如本申请图1-2和图6所示实施例揭示的事件预测装置装置或管理者(Master)节点执行的方法可以应用于处理器中,或者由处理器实现。处理器 可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的 各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上 述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit, CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以 实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器 可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施 例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码 处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪 存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本 领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息, 结合其硬件完成上述方法的步骤。
事件预测装置装置还可执行图1的方法,并实现管理者节点执行的方法。
基于相同的发明创造,本申请实施例还提供一种计算机可读存储介质,计 算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应 用程序的电子设备执行时,使得所述电子设备执行以下方法:
获取社交网络数据中的文本数据;
对所述文本数据进行向量化处理,获取所述文本数据对应的特征向量;
将所述特征向量输入至预建立的分类模型,所述分类模型用于以所述文本 数据的特征向量为特征确定所述文本数据对应于可疑事件的概率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计 算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结 合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包 含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产 品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入 式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算 机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一 个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设 备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中 的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个 流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使 得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处 理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输 出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。 内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任 何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序 的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其 他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读 存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁 磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算 设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒 体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非 排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包 括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、 方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括 一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设 备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程 序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和 硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算 机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、 光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技 术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所 作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (11)
1.一种事件预测方法,其特征在于,包括:
获取社交网络数据中的文本数据;
对所述文本数据进行向量化处理,获取所述文本数据对应的特征向量;
将所述特征向量输入至预建立的分类模型,所述分类模型用于以所述文本数据的特征向量为特征确定所述文本数据对应于可疑事件的概率。
2.根据权利要求1所述的方法,其特征在于,在获取社交网络数据中的文本数据之前,还包括:
从社交网络中获取社交网络数据;
将所述社交网络数据中的非结构化数据中的非文本数据转化为文本数据。
3.根据权利要求1所述的方法,其特征在于,所述对所述文本数据进行向量化处理,获取所述文本数据对应的特征向量包括:
基于文本深度表示模型训练所述文本数据中的词,获取文本深度表示模型输出的词向量。
对所述文本数据中的词对应的词向量进行求平均值的计算,并将计算结果作为所述文本数据对应的特征向量。
4.根据权利要求1所述的方法,其特征在于,在将所述特征向量作为特征输入至预建立的分类模型之前,还包括:
获取所述社交网络数据中与所述文本数据关联的用户行为数据;
对所述用户行为数据进行特征选择处理,获取对应的特征变量;
其中,将所述特征向量作为特征输入至预建立的分类模型包括:
将所述特征向量和所述特征变量作为特征输入至预建立的分类模型。
5.根据权利要求4所述的方法,其特征在于,所述对所述用户行为数据进行特征选择处理,获取相关变量包括:
确定所述用户行为数据中的变量;
基于预定的特征选择法对所述变量进行评分,以确定所述变量对所述文本数据对应的事件的影响度;
从所述用户行为数据中的变量中选取影响度满足预定条件的变量,作为特征变量。
6.根据权利要求5所述的方法,其特征在于,所述预定的特征选择法为过滤式特征选择法、包裹式特征选择法、集成式特征选择法中的至少一个。
7.根据权利要求6所述的方法,其特征在于,所述用户行为数据包括:实体数据和/或标签数据,所述实体数据用于表示与文本数据相关的数据的集合,所述标签数据用于表示文本数据或者文本数据中词对应的标签以及标签对应的数据。
8.根据权利要求1所述的方法,其特征在于,在获取所述分类模型输出的预测结果之后,还包括:
根据所述预测结果确定与所述文本数据相关的实体的可疑概率。
9.根据权利要求1-8任一项所述的方法,其特征在于,在将所述特征向量作为特征输入至预建立的分类模型之前,还包括:
获取样本数据,所述样本数据包括:样本事件,以及所述样本事件对应的文本数据和/或用户行为数据;
对所述文本数据进行向量化处理,获取所述文本数据对应的特征向量;和/或,对所述用户行为数据进行特征选择处理,获取与所述用户行为数据对应的特征变量;
以样本事件对应的特征向量和/或特征变量为特征,建立分类模型。
10.一种事件预测装置,其特征在于,包括:
第一获取单元,用于获取社交网络数据中的文本数据;
第一处理单元,用于对所述文本数据进行向量化处理,获取所述文本数据对应的特征向量;
第二处理单元,用于将所述特征向量输入至预建立的分类模型,所述分类模型用于以所述文本数据的特征向量为特征确定所述文本数据对应于可疑事件的概率。
11.一种事件预测系统,其特征在于,包括:数据仓库、kafka集群和storm集群,其中:
所述数据仓库,用于存储社交网络数据,并为所述kafka集群的生产者提供社交网络数据;
所述kafka集群,用于对所述社交网络数据进行预处理,以提取所述社交网络数据中的文本数据和/或用户行为数据;
所述storm集群,用于调用权利要求10所述的事件预测装置,以消费所述kafka集群中的文本数据和/或用户行为数据,输出对应于可疑事件的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711064205.6A CN107622333B (zh) | 2017-11-02 | 2017-11-02 | 一种事件预测方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711064205.6A CN107622333B (zh) | 2017-11-02 | 2017-11-02 | 一种事件预测方法、装置及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107622333A true CN107622333A (zh) | 2018-01-23 |
CN107622333B CN107622333B (zh) | 2020-08-18 |
Family
ID=61092921
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711064205.6A Active CN107622333B (zh) | 2017-11-02 | 2017-11-02 | 一种事件预测方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107622333B (zh) |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108182279A (zh) * | 2018-01-26 | 2018-06-19 | 有米科技股份有限公司 | 基于文本特征的对象分类方法、装置和计算机设备 |
CN108932530A (zh) * | 2018-06-29 | 2018-12-04 | 新华三大数据技术有限公司 | 标签体系的构建方法及装置 |
CN108960291A (zh) * | 2018-06-08 | 2018-12-07 | 武汉科技大学 | 一种基于并行化Softmax分类的图像处理方法和系统 |
CN109409529A (zh) * | 2018-09-13 | 2019-03-01 | 北京中科闻歌科技股份有限公司 | 一种事件认知分析方法、系统及存储介质 |
CN109543153A (zh) * | 2018-11-13 | 2019-03-29 | 成都数联铭品科技有限公司 | 一种序列标注系统及方法 |
CN109614541A (zh) * | 2018-12-04 | 2019-04-12 | 北京艾漫数据科技股份有限公司 | 一种事件识别方法、介质、装置以及计算设备 |
CN109766429A (zh) * | 2019-02-19 | 2019-05-17 | 北京奇艺世纪科技有限公司 | 一种语句检索方法及装置 |
CN109815415A (zh) * | 2019-01-23 | 2019-05-28 | 四川易诚智讯科技有限公司 | 基于卡方词频分析的社交媒体用户兴趣识别方法 |
CN109871889A (zh) * | 2019-01-31 | 2019-06-11 | 内蒙古工业大学 | 突发事件下大众心理评估方法 |
CN110162558A (zh) * | 2019-04-01 | 2019-08-23 | 阿里巴巴集团控股有限公司 | 结构化数据处理方法及装置 |
CN110210559A (zh) * | 2019-05-31 | 2019-09-06 | 北京小米移动软件有限公司 | 对象筛选方法及装置、存储介质 |
CN110491145A (zh) * | 2018-10-29 | 2019-11-22 | 魏天舒 | 一种交通信号优化控制方法及装置 |
WO2020063071A1 (zh) * | 2018-09-27 | 2020-04-02 | 厦门快商通信息技术有限公司 | 基于卡方检验的句向量计算方法、文本分类方法及系统 |
CN111046179A (zh) * | 2019-12-03 | 2020-04-21 | 哈尔滨工程大学 | 一种面向特定领域开放网络问句的文本分类方法 |
CN111159166A (zh) * | 2019-12-27 | 2020-05-15 | 沃民高新科技(北京)股份有限公司 | 事件的预测方法及装置、存储介质及处理器 |
WO2020124026A1 (en) * | 2018-12-13 | 2020-06-18 | SparkCognition, Inc. | Security systems and methods |
CN111459959A (zh) * | 2020-03-31 | 2020-07-28 | 北京百度网讯科技有限公司 | 用于更新事件集合的方法和装置 |
CN111477328A (zh) * | 2020-03-31 | 2020-07-31 | 北京智能工场科技有限公司 | 一种非接触式的心理状态预测方法 |
CN111626783A (zh) * | 2020-04-30 | 2020-09-04 | 贝壳技术有限公司 | 用于实现事件转化概率预测的离线信息设置方法和装置 |
CN111770097A (zh) * | 2020-06-29 | 2020-10-13 | 中国科学院计算技术研究所 | 一种基于白名单的内容锁防火墙方法及系统 |
CN112101950A (zh) * | 2020-09-27 | 2020-12-18 | 中国建设银行股份有限公司 | 可疑交易监测模型特征提取方法及装置 |
CN112233381A (zh) * | 2020-10-14 | 2021-01-15 | 中国科学院、水利部成都山地灾害与环境研究所 | 一种基于机理和机器学习耦合的泥石流预警方法与系统 |
CN112487406A (zh) * | 2020-12-02 | 2021-03-12 | 中国电子科技集团公司第三十研究所 | 一种基于机器学习的网络行为分析方法 |
CN113190682A (zh) * | 2021-06-30 | 2021-07-30 | 平安科技(深圳)有限公司 | 基于树模型的事件影响度获取方法、装置及计算机设备 |
CN114169325A (zh) * | 2021-11-30 | 2022-03-11 | 西安理工大学 | 基于词向量表征的网页新词发现和解析方法 |
CN114707685A (zh) * | 2021-12-17 | 2022-07-05 | 武汉烽火众智智慧之星科技有限公司 | 一种基于大数据建模分析的事件预测方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103116605A (zh) * | 2013-01-17 | 2013-05-22 | 上海交通大学 | 一种基于监测子网的微博热点事件实时检测方法及系统 |
CN103853841A (zh) * | 2014-03-19 | 2014-06-11 | 北京邮电大学 | 一种社交网用户异常行为的分析方法 |
CN104281607A (zh) * | 2013-07-08 | 2015-01-14 | 上海锐英软件技术有限公司 | 微博热点话题分析方法 |
CN107169629A (zh) * | 2017-04-17 | 2017-09-15 | 四川九洲电器集团有限责任公司 | 一种电信诈骗识别方法及数据处理设备 |
-
2017
- 2017-11-02 CN CN201711064205.6A patent/CN107622333B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103116605A (zh) * | 2013-01-17 | 2013-05-22 | 上海交通大学 | 一种基于监测子网的微博热点事件实时检测方法及系统 |
CN104281607A (zh) * | 2013-07-08 | 2015-01-14 | 上海锐英软件技术有限公司 | 微博热点话题分析方法 |
CN103853841A (zh) * | 2014-03-19 | 2014-06-11 | 北京邮电大学 | 一种社交网用户异常行为的分析方法 |
CN107169629A (zh) * | 2017-04-17 | 2017-09-15 | 四川九洲电器集团有限责任公司 | 一种电信诈骗识别方法及数据处理设备 |
Non-Patent Citations (1)
Title |
---|
董坚峰: ""面向公共危机预警的网络舆情分析研究"", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108182279A (zh) * | 2018-01-26 | 2018-06-19 | 有米科技股份有限公司 | 基于文本特征的对象分类方法、装置和计算机设备 |
CN108960291A (zh) * | 2018-06-08 | 2018-12-07 | 武汉科技大学 | 一种基于并行化Softmax分类的图像处理方法和系统 |
CN108932530A (zh) * | 2018-06-29 | 2018-12-04 | 新华三大数据技术有限公司 | 标签体系的构建方法及装置 |
CN109409529A (zh) * | 2018-09-13 | 2019-03-01 | 北京中科闻歌科技股份有限公司 | 一种事件认知分析方法、系统及存储介质 |
CN109409529B (zh) * | 2018-09-13 | 2020-12-08 | 北京中科闻歌科技股份有限公司 | 一种事件认知分析方法、系统及存储介质 |
WO2020063071A1 (zh) * | 2018-09-27 | 2020-04-02 | 厦门快商通信息技术有限公司 | 基于卡方检验的句向量计算方法、文本分类方法及系统 |
CN110491145A (zh) * | 2018-10-29 | 2019-11-22 | 魏天舒 | 一种交通信号优化控制方法及装置 |
CN109543153A (zh) * | 2018-11-13 | 2019-03-29 | 成都数联铭品科技有限公司 | 一种序列标注系统及方法 |
CN109543153B (zh) * | 2018-11-13 | 2023-08-18 | 成都数联铭品科技有限公司 | 一种序列标注系统及方法 |
CN109614541A (zh) * | 2018-12-04 | 2019-04-12 | 北京艾漫数据科技股份有限公司 | 一种事件识别方法、介质、装置以及计算设备 |
WO2020124026A1 (en) * | 2018-12-13 | 2020-06-18 | SparkCognition, Inc. | Security systems and methods |
GB2595088A (en) * | 2018-12-13 | 2021-11-17 | Sparkcognition Inc | Security systems and methods |
CN109815415A (zh) * | 2019-01-23 | 2019-05-28 | 四川易诚智讯科技有限公司 | 基于卡方词频分析的社交媒体用户兴趣识别方法 |
CN109871889A (zh) * | 2019-01-31 | 2019-06-11 | 内蒙古工业大学 | 突发事件下大众心理评估方法 |
CN109871889B (zh) * | 2019-01-31 | 2019-12-24 | 内蒙古工业大学 | 突发事件下大众心理评估方法 |
CN109766429A (zh) * | 2019-02-19 | 2019-05-17 | 北京奇艺世纪科技有限公司 | 一种语句检索方法及装置 |
CN110162558A (zh) * | 2019-04-01 | 2019-08-23 | 阿里巴巴集团控股有限公司 | 结构化数据处理方法及装置 |
CN110210559A (zh) * | 2019-05-31 | 2019-09-06 | 北京小米移动软件有限公司 | 对象筛选方法及装置、存储介质 |
CN110210559B (zh) * | 2019-05-31 | 2021-10-08 | 北京小米移动软件有限公司 | 对象筛选方法及装置、存储介质 |
CN111046179B (zh) * | 2019-12-03 | 2022-07-15 | 哈尔滨工程大学 | 一种面向特定领域开放网络问句的文本分类方法 |
CN111046179A (zh) * | 2019-12-03 | 2020-04-21 | 哈尔滨工程大学 | 一种面向特定领域开放网络问句的文本分类方法 |
CN111159166A (zh) * | 2019-12-27 | 2020-05-15 | 沃民高新科技(北京)股份有限公司 | 事件的预测方法及装置、存储介质及处理器 |
CN111477328A (zh) * | 2020-03-31 | 2020-07-31 | 北京智能工场科技有限公司 | 一种非接触式的心理状态预测方法 |
CN111459959A (zh) * | 2020-03-31 | 2020-07-28 | 北京百度网讯科技有限公司 | 用于更新事件集合的方法和装置 |
CN111626783B (zh) * | 2020-04-30 | 2021-08-31 | 贝壳找房(北京)科技有限公司 | 用于实现事件转化概率预测的离线信息设置方法和装置 |
CN111626783A (zh) * | 2020-04-30 | 2020-09-04 | 贝壳技术有限公司 | 用于实现事件转化概率预测的离线信息设置方法和装置 |
CN111770097A (zh) * | 2020-06-29 | 2020-10-13 | 中国科学院计算技术研究所 | 一种基于白名单的内容锁防火墙方法及系统 |
CN111770097B (zh) * | 2020-06-29 | 2021-04-23 | 中国科学院计算技术研究所 | 一种基于白名单的内容锁防火墙方法及系统 |
CN112101950A (zh) * | 2020-09-27 | 2020-12-18 | 中国建设银行股份有限公司 | 可疑交易监测模型特征提取方法及装置 |
CN112101950B (zh) * | 2020-09-27 | 2024-05-10 | 中国建设银行股份有限公司 | 可疑交易监测模型特征提取方法及装置 |
CN112233381A (zh) * | 2020-10-14 | 2021-01-15 | 中国科学院、水利部成都山地灾害与环境研究所 | 一种基于机理和机器学习耦合的泥石流预警方法与系统 |
CN112487406A (zh) * | 2020-12-02 | 2021-03-12 | 中国电子科技集团公司第三十研究所 | 一种基于机器学习的网络行为分析方法 |
CN113190682A (zh) * | 2021-06-30 | 2021-07-30 | 平安科技(深圳)有限公司 | 基于树模型的事件影响度获取方法、装置及计算机设备 |
CN114169325A (zh) * | 2021-11-30 | 2022-03-11 | 西安理工大学 | 基于词向量表征的网页新词发现和解析方法 |
CN114169325B (zh) * | 2021-11-30 | 2024-09-27 | 西安理工大学 | 基于词向量表征的网页新词发现和解析方法 |
CN114707685A (zh) * | 2021-12-17 | 2022-07-05 | 武汉烽火众智智慧之星科技有限公司 | 一种基于大数据建模分析的事件预测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107622333B (zh) | 2020-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107622333A (zh) | 一种事件预测方法、装置及系统 | |
Banerjee et al. | Detection of cyberbullying using deep neural network | |
CN108920654A (zh) | 一种问答文本语义匹配的方法和装置 | |
US11200381B2 (en) | Social content risk identification | |
CN108961032A (zh) | 借贷处理方法、装置以及服务器 | |
CN113139052B (zh) | 基于图神经网络特征聚合的谣言检测方法及装置 | |
CN113761359B (zh) | 数据包推荐方法、装置、电子设备和存储介质 | |
Hossain et al. | A study towards Bangla fake news detection using machine learning and deep learning | |
Ge et al. | A scalable framework for multilevel streaming data analytics using deep learning | |
Kumar et al. | Content based bot detection using bot language model and bert embeddings | |
CN107392311A (zh) | 序列切分的方法和装置 | |
Zhu et al. | Leveraging enterprise knowledge graph to infer web events’ influences via self-supervised learning | |
Lin et al. | Social rumor detection based on multilayer transformer encoding blocks | |
Rama et al. | Deep learning to address candidate generation and cold start challenges in recommender systems: A research survey | |
CN111611409B (zh) | 一种融入场景知识的事例分析方法及相关设备 | |
CN116484105B (zh) | 业务处理方法、装置及计算机设备、存储介质、程序产品 | |
Abu Talha et al. | Scrutinize artificial intelligence algorithms for Pakistani and Indian parody tweets detection | |
AlSulaim et al. | Prediction of Anime Series' Success using Sentiment Analysis and Deep Learning | |
CN116723005A (zh) | 多态隐藏下的恶意代码隐式情报追踪方法及系统 | |
Ali et al. | Identifying and Profiling User Interest over time using Social Data | |
Xu et al. | Rumor detection on microblogs using dual-grained feature via graph neural networks | |
Lan et al. | Mining semantic variation in time series for rumor detection via recurrent neural networks | |
Siddiqui et al. | An ensemble approach for the identification and classification of crime tweets in the English language | |
Dong et al. | Rumor Detection with Adversarial Training and Supervised Contrastive Learning | |
Goldani et al. | X-CapsNet For Fake News Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: 100081 101 / F, building 14, 27 Jiancai Middle Road, Haidian District, Beijing Patentee after: Beijing PERCENT Technology Group Co.,Ltd. Address before: 100081 16 / F, block a, Beichen Century Center, building 2, courtyard 8, Beichen West Road, Chaoyang District, Beijing Patentee before: BEIJING BAIFENDIAN INFORMATION SCIENCE & TECHNOLOGY Co.,Ltd. |