CN111898038A

CN111898038A - 一种基于人机协作的社交媒体假新闻检测方法

Info

Publication number: CN111898038A
Application number: CN202010635103.0A
Authority: CN
Inventors: 於志文; 高博文; 郭斌; 王柱
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-07-04
Filing date: 2020-07-04
Publication date: 2020-11-06
Anticipated expiration: 2040-07-04
Also published as: CN111898038B

Abstract

本发明公开了一种基于人机协作的社交媒体假新闻检测方法，首先提取微博的文本内容特征、发表微博的用户属性特征和对微博进行评论和转发的特征，融合这三部分特征，采用异常检测算法构建随机空间划分森林模型；再将待检测微博样本输入模型，判定样本的真假；然后将异常微博提交给专家，由专家进行判断真假，根据判断的结果对模型进行更新。本发明解决了自动检测算法不能完全理解语言特征且需要大量标记数据，而只依赖专家检测费时且成本高的问题。

Description

一种基于人机协作的社交媒体假新闻检测方法

技术领域

本发明属于机器学习领域，具体涉及一种假新闻检测方法。

背景技术

随着互联网的发展，社交媒体已经成为人们发布和获取新闻消息的主要来源，用户可以通过社交媒体实时地发表言论，分享信息。然而，社交媒体为人们的生活带来便利的同时，也引起了虚假新闻的泛滥。因为社交媒体的即时性、便捷性、开放性会使虚假新闻被迅速发布和传播，而普通用户缺乏足够的时间和专业知识来分辨其真实性，这将引起社会秩序的混乱，甚至会对社会产生严重的负面影响。

针对这种问题，社交媒体采取的措施大部分取决于专家和用户，需要耗费大量人力、时间，成本较高，例如新浪微博的社区管理中心通过聘请大量专家来判断用户举报微博的真实性。采用机器自动检测的方法则通过不同角度构建模型，利用带有标签的数据集学习特征，然后输入到算法中，对新闻的真实性进行判断。但是出于特定目的散布的假新闻为了骗取大众的信任而故意模仿真实新闻的写作手法，目前研究的自动检测方法尚不能完全理解语言特征，并且训练过程需要大量手工标记的数据，获得此类数据既昂贵又耗时，这就导致机器学习算法在现实应用中受限。

发明内容

为了克服现有技术的不足，本发明提供了一种基于人机协作的社交媒体假新闻检测方法，首先提取微博的文本内容特征、发表微博的用户属性特征和对微博进行评论和转发的特征，融合这三部分特征，采用异常检测算法构建随机空间划分森林模型；再将待检测微博样本输入模型，判定样本的真假；然后将异常微博提交给专家，由专家进行判断真假，根据判断的结果对模型进行更新。本发明解决了自动检测算法不能完全理解语言特征且需要大量标记数据，而只依赖专家检测费时且成本高的问题。

为了达到以上目的，本发明提供了一种基于人机协作的社交媒体假新闻检测方法，包括以下步骤：

步骤1：对微博数据集进行预处理，包括但不限于分词、去标点符号、去停用词、文本向量化表示；

步骤2：提取微博数据集中微博的文本内容特征；

步骤3：提取微博数据集中发表微博的用户属性特征；

步骤4：提取微博数据集中对微博进行评论和转发的特征；

步骤5；融合步骤2、3、4提取的三部分特征，进行归一化处理，构建二维特征空间X∈R^d，X的行表示微博数据集中的微博，X的列表示特征，X中的数据元素表示微博的特征值；

步骤6：采用异常检测算法构建随机空间划分森林模型，随机空间划分森林模型由若干棵随机空间划分树组成，一棵随机空间划分树的根节点代表二维特征空间X，随机空间划分树的构建过程如下：

步骤6-1：随机选择X的一列，再随机确定一个阈值；将这一列的每一个特征值和阈值进行比较，大于等于阈值的特征值对应的微博放置在一个子区域，小于阈值的特征值对应的微博放置在另一个子区域，所有特征值与阈值比较完成后，将特征空间划分为两个不重叠的子区域，将每个子区域作为一个树节点；

步骤6-2：在每个子区域中重复执行步骤6-1，将每个子区域不断划分为两个范围更小的子区域，直至随机空间划分树达到预设的最大深度，即生成一棵随机空间划分树；

步骤6-3：重复执行步骤6-1和6-2，生成M棵随机空间划分树；

步骤7：将待检测微博样本u输入随机空间划分森林模型，待检测微博样本在每棵随机空间划分树中进行遍历，最终到达一个末端节点，计算末端节点的样本质量m_i：

式中，i＝1,2，……,M,表示第i棵树，v_i表示第i棵随机空间划分树中待检测微博样本到达的末端节点包含的微博数量，包括节点中原有微博和新到达的微博样本；h_i表示第i棵随机空间划分树中待检测微博样本到达的末端节点的节点深度；

计算待检测微博样本在第i棵树的区域异常分数y_i：

y_i＝1-s(m_i) (2)

式中，μ表示m_i的均值，σ表示m_i的方差；

步骤8：计算待检测微博样本在M棵树上的区域异常分数平均值：

如果y大于等于设定的异常分数阈值，则判定为异常，即假新闻；如果y小于设定的异常分数阈值，则判定为正常，即真新闻；

步骤8：如果y大于等于设定的异常分数确定性度量阈值，将该条待检测微博样本提交给专家；如果y小于等于设定的异常分数确定性度量阈值，则不提交给专家；

步骤9：计算待检测微博样本的信息熵：

H(u)＝-∑_j＝0,1p(j|u)logp(j|u) (5)

式中p(j|u)表示样本u的类别为j的概率，j表示真新闻1或假新闻0；p(0|u)＝y，p(1|u)＝1-y；

如果H(u)大于等于设定的信息熵阈值，将该条待检测微博样本提交给专家；如果H(u)小于设定的信息熵阈值，将不提交给专家；

步骤10：专家对步骤8和步骤9提交的所有待检测微博样本进行人为判断，重新给出每条待检测微博样本是真新闻或假新闻的标签；

如果待检测微博样本为真新闻或假新闻的判定发生改变，则称为为异常反馈；若待检测微博样本为真新闻或假新闻的判定未发生改变，则称为正常反馈；

步骤11：根据步骤10专家给出的标签，对随机空间划分森林模型进行更新：

步骤11-1：构造节点似然函数和样本似然函数

式中，Like_r为节点似然函数，Like_c为样本似然函数；a_i和n_i分别表示该节点中的异常反馈和正常反馈样本的数量，P(t_z＝1；m_i)＝y_i，P(t_z＝0；m_i)＝1-y_i，t_expert＝0,1为专家反馈结果，t_z＝0,1为第z个样本的随机空间划分森林模型判断结果；

步骤11-2：对式(6)和(7)分别取对数，分别得到L_r以及L_c：

L_r＝a_i ln[1-s_i(m_i)]+n_iln s_i(m_i) (8)

L_c＝t_expertln y+(1-t_expert)ln(1-y) (9)

步骤11-3：根据最大似然原则，分别求取L_r和L_c对m_i的导数r_i和c；如果若r_i和c均为正数，并且该节点的兄弟节点内没有异常反馈样本，则将该节点与兄弟节点合并；如果r_i和c均为负数或异号，并且当前树的深度未达到最大深度，则将该节点随机划分为两个范围更小的子区域；

步骤12：采用步骤11更新后的模型，继续对新的待检测微博样本进行检测，重复执行步骤7到步骤11，不断迭代中使模型具有更好的判断新样本的能力，直至没有新的待检测微博。

优选地，步骤2中所述的微博的文本内容特征，包括的内容见表1：

表1微博的文本内容特征

优选地，步骤3中所述的发表微博的用户属性特征，包括的内容见表2：

表2发表微博的用户属性特征

优选地，步骤4中所述的对微博进行评论和转发的特征，包括的内容见表3：

表3对微博进行评论和转发的特征

由于采用了本发明提出了一种基于人机协作的社交媒体假新闻检测方法，带来了以下有益效果：

1、在机器算法中融入用户的群体智慧和专家的专业知识，使人和机器优势互补。一方面解决了仅依赖专家判别假新闻的速度慢、成本高的问题，另一方面由专家知识指导模型优化更新，使模型具有更好的判别假新闻的能力。

2、借鉴主动学习设计的反馈请求策略能够高效的选择出需要专家判断的样本，尽可能的减少专家的工作量。

3、现有的假新闻检测方法通常是在训练数据比例相近的前提下进行的二分类，也就是假新闻与非假新闻样本数量比例为1：1或接近1：1。但在现实场景中，非假新闻的数量远远多于假新闻的样本数量，即训练数据类别是不平衡的。传统的模型面对这种情况就会在训练过程中向样本数量多的一类倾斜。本发明采用异常检测模型随机空间划分森林很好的解决了这一问题。

附图说明

图1是本发明方法的流程图。

图2是随机空间划分树与对应的空间划分示意图。

图3是随机空间划分森林模型更新示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

如图1所示，本发明提供了一种基于人机协作的社交媒体假新闻检测方法，包括以下步骤：

步骤2：提取微博数据集中微博的文本内容特征；

步骤3：提取微博数据集中发表微博的用户属性特征；

步骤4：提取微博数据集中对微博进行评论和转发的特征；

步骤6-3：重复执行步骤6-1和6-2，生成M棵随机空间划分树；

计算待检测微博样本在第i棵树的区域异常分数y_i：

y_i＝1-s(m_i) (2)

式中，μ表示m_i的均值，σ表示m_i的方差；

步骤9：计算待检测微博样本的信息熵：

H(u)＝-∑_j＝0,1p(j|u)logp(j|u) (5)

步骤11-1：构造节点似然函数和样本似然函数

步骤11-2：对式(6)和(7)分别取对数，分别得到L_r以及L_c：

L_r＝a_i ln[1-s_i(m_i)]+n_i lns_i(m_i) (8)

L_c＝t_expertln y+(1-t_expert)ln(1-y) (9)

表1微博的文本内容特征

表2发表微博的用户属性特征

表3对微博进行评论和转发的特征

实施例：

人具有抽象思维，可以通过思考和调查发现隐蔽的假新闻，但速度较慢。而机器具有强大的存储计算能力，二者可以优势互补。基于此，本发明提出一种人机协作的社交媒体假新闻检测方法，人包括用户和专家两部分，一方面用户可以提供对新闻的客观评价，是一种群体智慧，另一方面可以在机器的自动检测过程中结合专家知识，系统通过与专家的交互而不断得到优化。

首先对微博数据集进行预处理，包括分词、去标点符号、去停用词，文本向量化表示等。

接下来提取原始微博的文本内容特征，如表1中的特征，其中，情感得分通过如下计算得到，首先使用BosonNLP的情感词典和知乎情感分析词语集，统计每条文本中的情感词、否定词、程度词，两情感词之间的所有否定词和程度副词与后一个情感词构成情感词组，每个词对应一个分数，最终得分由词组分数相加得到。

提取发表原始微博的用户属性特征，如表2中的特征；提取评论和转发微博的特征，如表3中的特征，其中评论转发数量、评论情感立场等特征是随时间变化的，将其按时间分段后计算相邻时间段的斜率，用来表示变化趋势，表4为时间相关特征。

表4时间相关特征

融合上面三种特征，并进行归一化处理，得到二维特征空间X∈R^d。

接下来构建随机空间划分森林模型，因为现实场景中假新闻远远少于真新闻，两个类别不平衡，所以采用异常检测算法随机空间划分森林。如图2所示，随机选择X的一列ω，再随机确定一个阈值θ，按照步骤6划分森林，得到随机空间划分森林模型。

再将待检测微博样本输入模型，由步骤7到步骤8判断样本的真假。

再根据步骤9和步骤10的判断，将异常样本提交给专家进行再次判断，之后根据专家判断结果更新随机空间划分森林模型，如图3所示。

由专家对选择出来的样本进行分析给出正确的标签，然后根据反馈标签来指导模型进行更新，模型更新策略主要是改变树的结构，包括生长、剪枝。

具体来说，如果两个相邻子区域a和b内都只有正常的专家反馈，同时区域内样本点都是密集的，那么这两个区域都为正常区域，将二者合并。相应地，去掉树中代表a和b这两个子区域的终端节点，使它们的父节点成为新的终端节点，即对树进行剪枝。如果一个子区域c中既有正常反馈又有异常反馈，就对c再进行一次划分将两种反馈分到不同的子区域d和e中。对于树模型来说区域c对应的终端节点被扩展到两个子节点，两个子节点成为新的终端节点，也就是树的生长。

具体实施按照步骤11的方法进行，模型更新后，继续对微博样本进行检测，重复执行步骤7到步骤11，不断迭代中使模型具有更好的判断新样本的能力。

综上，本发明将人类智慧和机器智能结合起来进行假新闻检测，一方面减少人的工作量，降低成本，另一方面在人的指导下提高机器模型性能，达到了二者的优势互补。