[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111898038A - 一种基于人机协作的社交媒体假新闻检测方法 - Google Patents

一种基于人机协作的社交媒体假新闻检测方法 Download PDF

Info

Publication number
CN111898038A
CN111898038A CN202010635103.0A CN202010635103A CN111898038A CN 111898038 A CN111898038 A CN 111898038A CN 202010635103 A CN202010635103 A CN 202010635103A CN 111898038 A CN111898038 A CN 111898038A
Authority
CN
China
Prior art keywords
microblog
sample
detected
node
space division
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010635103.0A
Other languages
English (en)
Other versions
CN111898038B (zh
Inventor
於志文
高博文
郭斌
王柱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202010635103.0A priority Critical patent/CN111898038B/zh
Publication of CN111898038A publication Critical patent/CN111898038A/zh
Application granted granted Critical
Publication of CN111898038B publication Critical patent/CN111898038B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于人机协作的社交媒体假新闻检测方法,首先提取微博的文本内容特征、发表微博的用户属性特征和对微博进行评论和转发的特征,融合这三部分特征,采用异常检测算法构建随机空间划分森林模型;再将待检测微博样本输入模型,判定样本的真假;然后将异常微博提交给专家,由专家进行判断真假,根据判断的结果对模型进行更新。本发明解决了自动检测算法不能完全理解语言特征且需要大量标记数据,而只依赖专家检测费时且成本高的问题。

Description

一种基于人机协作的社交媒体假新闻检测方法
技术领域
本发明属于机器学习领域,具体涉及一种假新闻检测方法。
背景技术
随着互联网的发展,社交媒体已经成为人们发布和获取新闻消息的主要来源,用户可以通过社交媒体实时地发表言论,分享信息。然而,社交媒体为人们的生活带来便利的同时,也引起了虚假新闻的泛滥。因为社交媒体的即时性、便捷性、开放性会使虚假新闻被迅速发布和传播,而普通用户缺乏足够的时间和专业知识来分辨其真实性,这将引起社会秩序的混乱,甚至会对社会产生严重的负面影响。
针对这种问题,社交媒体采取的措施大部分取决于专家和用户,需要耗费大量人力、时间,成本较高,例如新浪微博的社区管理中心通过聘请大量专家来判断用户举报微博的真实性。采用机器自动检测的方法则通过不同角度构建模型,利用带有标签的数据集学习特征,然后输入到算法中,对新闻的真实性进行判断。但是出于特定目的散布的假新闻为了骗取大众的信任而故意模仿真实新闻的写作手法,目前研究的自动检测方法尚不能完全理解语言特征,并且训练过程需要大量手工标记的数据,获得此类数据既昂贵又耗时,这就导致机器学习算法在现实应用中受限。
发明内容
为了克服现有技术的不足,本发明提供了一种基于人机协作的社交媒体假新闻检测方法,首先提取微博的文本内容特征、发表微博的用户属性特征和对微博进行评论和转发的特征,融合这三部分特征,采用异常检测算法构建随机空间划分森林模型;再将待检测微博样本输入模型,判定样本的真假;然后将异常微博提交给专家,由专家进行判断真假,根据判断的结果对模型进行更新。本发明解决了自动检测算法不能完全理解语言特征且需要大量标记数据,而只依赖专家检测费时且成本高的问题。
为了达到以上目的,本发明提供了一种基于人机协作的社交媒体假新闻检测方法,包括以下步骤:
步骤1:对微博数据集进行预处理,包括但不限于分词、去标点符号、去停用词、文本向量化表示;
步骤2:提取微博数据集中微博的文本内容特征;
步骤3:提取微博数据集中发表微博的用户属性特征;
步骤4:提取微博数据集中对微博进行评论和转发的特征;
步骤5;融合步骤2、3、4提取的三部分特征,进行归一化处理,构建二维特征空间X∈Rd,X的行表示微博数据集中的微博,X的列表示特征,X中的数据元素表示微博的特征值;
步骤6:采用异常检测算法构建随机空间划分森林模型,随机空间划分森林模型由若干棵随机空间划分树组成,一棵随机空间划分树的根节点代表二维特征空间X,随机空间划分树的构建过程如下:
步骤6-1:随机选择X的一列,再随机确定一个阈值;将这一列的每一个特征值和阈值进行比较,大于等于阈值的特征值对应的微博放置在一个子区域,小于阈值的特征值对应的微博放置在另一个子区域,所有特征值与阈值比较完成后,将特征空间划分为两个不重叠的子区域,将每个子区域作为一个树节点;
步骤6-2:在每个子区域中重复执行步骤6-1,将每个子区域不断划分为两个范围更小的子区域,直至随机空间划分树达到预设的最大深度,即生成一棵随机空间划分树;
步骤6-3:重复执行步骤6-1和6-2,生成M棵随机空间划分树;
步骤7:将待检测微博样本u输入随机空间划分森林模型,待检测微博样本在每棵随机空间划分树中进行遍历,最终到达一个末端节点,计算末端节点的样本质量mi
Figure BDA0002569649620000021
式中,i=1,2,……,M,表示第i棵树,vi表示第i棵随机空间划分树中待检测微博样本到达的末端节点包含的微博数量,包括节点中原有微博和新到达的微博样本;hi表示第i棵随机空间划分树中待检测微博样本到达的末端节点的节点深度;
计算待检测微博样本在第i棵树的区域异常分数yi
yi=1-s(mi) (2)
Figure BDA0002569649620000022
式中,μ表示mi的均值,σ表示mi的方差;
步骤8:计算待检测微博样本在M棵树上的区域异常分数平均值:
Figure BDA0002569649620000023
如果y大于等于设定的异常分数阈值,则判定为异常,即假新闻;如果y小于设定的异常分数阈值,则判定为正常,即真新闻;
步骤8:如果y大于等于设定的异常分数确定性度量阈值,将该条待检测微博样本提交给专家;如果y小于等于设定的异常分数确定性度量阈值,则不提交给专家;
步骤9:计算待检测微博样本的信息熵:
H(u)=-∑j=0,1p(j|u)logp(j|u) (5)
式中p(j|u)表示样本u的类别为j的概率,j表示真新闻1或假新闻0;p(0|u)=y,p(1|u)=1-y;
如果H(u)大于等于设定的信息熵阈值,将该条待检测微博样本提交给专家;如果H(u)小于设定的信息熵阈值,将不提交给专家;
步骤10:专家对步骤8和步骤9提交的所有待检测微博样本进行人为判断,重新给出每条待检测微博样本是真新闻或假新闻的标签;
如果待检测微博样本为真新闻或假新闻的判定发生改变,则称为为异常反馈;若待检测微博样本为真新闻或假新闻的判定未发生改变,则称为正常反馈;
步骤11:根据步骤10专家给出的标签,对随机空间划分森林模型进行更新:
步骤11-1:构造节点似然函数和样本似然函数
Figure BDA0002569649620000031
Figure BDA0002569649620000032
式中,Liker为节点似然函数,Likec为样本似然函数;ai和ni分别表示该节点中的异常反馈和正常反馈样本的数量,P(tz=1;mi)=yi,P(tz=0;mi)=1-yi,texpert=0,1为专家反馈结果,tz=0,1为第z个样本的随机空间划分森林模型判断结果;
步骤11-2:对式(6)和(7)分别取对数,分别得到Lr以及Lc
Lr=ai ln[1-si(mi)]+niln si(mi) (8)
Lc=texpertln y+(1-texpert)ln(1-y) (9)
步骤11-3:根据最大似然原则,分别求取Lr和Lc对mi的导数ri和c;如果若ri和c均为正数,并且该节点的兄弟节点内没有异常反馈样本,则将该节点与兄弟节点合并;如果ri和c均为负数或异号,并且当前树的深度未达到最大深度,则将该节点随机划分为两个范围更小的子区域;
步骤12:采用步骤11更新后的模型,继续对新的待检测微博样本进行检测,重复执行步骤7到步骤11,不断迭代中使模型具有更好的判断新样本的能力,直至没有新的待检测微博。
优选地,步骤2中所述的微博的文本内容特征,包括的内容见表1:
表1微博的文本内容特征
Figure BDA0002569649620000041
优选地,步骤3中所述的发表微博的用户属性特征,包括的内容见表2:
表2发表微博的用户属性特征
Figure BDA0002569649620000042
优选地,步骤4中所述的对微博进行评论和转发的特征,包括的内容见表3:
表3对微博进行评论和转发的特征
Figure BDA0002569649620000043
由于采用了本发明提出了一种基于人机协作的社交媒体假新闻检测方法,带来了以下有益效果:
1、在机器算法中融入用户的群体智慧和专家的专业知识,使人和机器优势互补。一方面解决了仅依赖专家判别假新闻的速度慢、成本高的问题,另一方面由专家知识指导模型优化更新,使模型具有更好的判别假新闻的能力。
2、借鉴主动学习设计的反馈请求策略能够高效的选择出需要专家判断的样本,尽可能的减少专家的工作量。
3、现有的假新闻检测方法通常是在训练数据比例相近的前提下进行的二分类,也就是假新闻与非假新闻样本数量比例为1:1或接近1:1。但在现实场景中,非假新闻的数量远远多于假新闻的样本数量,即训练数据类别是不平衡的。传统的模型面对这种情况就会在训练过程中向样本数量多的一类倾斜。本发明采用异常检测模型随机空间划分森林很好的解决了这一问题。
附图说明
图1是本发明方法的流程图。
图2是随机空间划分树与对应的空间划分示意图。
图3是随机空间划分森林模型更新示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1所示,本发明提供了一种基于人机协作的社交媒体假新闻检测方法,包括以下步骤:
步骤1:对微博数据集进行预处理,包括但不限于分词、去标点符号、去停用词、文本向量化表示;
步骤2:提取微博数据集中微博的文本内容特征;
步骤3:提取微博数据集中发表微博的用户属性特征;
步骤4:提取微博数据集中对微博进行评论和转发的特征;
步骤5;融合步骤2、3、4提取的三部分特征,进行归一化处理,构建二维特征空间X∈Rd,X的行表示微博数据集中的微博,X的列表示特征,X中的数据元素表示微博的特征值;
步骤6:采用异常检测算法构建随机空间划分森林模型,随机空间划分森林模型由若干棵随机空间划分树组成,一棵随机空间划分树的根节点代表二维特征空间X,随机空间划分树的构建过程如下:
步骤6-1:随机选择X的一列,再随机确定一个阈值;将这一列的每一个特征值和阈值进行比较,大于等于阈值的特征值对应的微博放置在一个子区域,小于阈值的特征值对应的微博放置在另一个子区域,所有特征值与阈值比较完成后,将特征空间划分为两个不重叠的子区域,将每个子区域作为一个树节点;
步骤6-2:在每个子区域中重复执行步骤6-1,将每个子区域不断划分为两个范围更小的子区域,直至随机空间划分树达到预设的最大深度,即生成一棵随机空间划分树;
步骤6-3:重复执行步骤6-1和6-2,生成M棵随机空间划分树;
步骤7:将待检测微博样本u输入随机空间划分森林模型,待检测微博样本在每棵随机空间划分树中进行遍历,最终到达一个末端节点,计算末端节点的样本质量mi
Figure BDA0002569649620000061
式中,i=1,2,……,M,表示第i棵树,vi表示第i棵随机空间划分树中待检测微博样本到达的末端节点包含的微博数量,包括节点中原有微博和新到达的微博样本;hi表示第i棵随机空间划分树中待检测微博样本到达的末端节点的节点深度;
计算待检测微博样本在第i棵树的区域异常分数yi
yi=1-s(mi) (2)
Figure BDA0002569649620000062
式中,μ表示mi的均值,σ表示mi的方差;
步骤8:计算待检测微博样本在M棵树上的区域异常分数平均值:
Figure BDA0002569649620000063
如果y大于等于设定的异常分数阈值,则判定为异常,即假新闻;如果y小于设定的异常分数阈值,则判定为正常,即真新闻;
步骤8:如果y大于等于设定的异常分数确定性度量阈值,将该条待检测微博样本提交给专家;如果y小于等于设定的异常分数确定性度量阈值,则不提交给专家;
步骤9:计算待检测微博样本的信息熵:
H(u)=-∑j=0,1p(j|u)logp(j|u) (5)
式中p(j|u)表示样本u的类别为j的概率,j表示真新闻1或假新闻0;p(0|u)=y,p(1|u)=1-y;
如果H(u)大于等于设定的信息熵阈值,将该条待检测微博样本提交给专家;如果H(u)小于设定的信息熵阈值,将不提交给专家;
步骤10:专家对步骤8和步骤9提交的所有待检测微博样本进行人为判断,重新给出每条待检测微博样本是真新闻或假新闻的标签;
如果待检测微博样本为真新闻或假新闻的判定发生改变,则称为为异常反馈;若待检测微博样本为真新闻或假新闻的判定未发生改变,则称为正常反馈;
步骤11:根据步骤10专家给出的标签,对随机空间划分森林模型进行更新:
步骤11-1:构造节点似然函数和样本似然函数
Figure BDA0002569649620000071
Figure BDA0002569649620000072
式中,Liker为节点似然函数,Likec为样本似然函数;ai和ni分别表示该节点中的异常反馈和正常反馈样本的数量,P(tz=1;mi)=yi,P(tz=0;mi)=1-yi,texpert=0,1为专家反馈结果,tz=0,1为第z个样本的随机空间划分森林模型判断结果;
步骤11-2:对式(6)和(7)分别取对数,分别得到Lr以及Lc
Lr=ai ln[1-si(mi)]+ni lnsi(mi) (8)
Lc=texpertln y+(1-texpert)ln(1-y) (9)
步骤11-3:根据最大似然原则,分别求取Lr和Lc对mi的导数ri和c;如果若ri和c均为正数,并且该节点的兄弟节点内没有异常反馈样本,则将该节点与兄弟节点合并;如果ri和c均为负数或异号,并且当前树的深度未达到最大深度,则将该节点随机划分为两个范围更小的子区域;
步骤12:采用步骤11更新后的模型,继续对新的待检测微博样本进行检测,重复执行步骤7到步骤11,不断迭代中使模型具有更好的判断新样本的能力,直至没有新的待检测微博。
优选地,步骤2中所述的微博的文本内容特征,包括的内容见表1:
表1微博的文本内容特征
Figure BDA0002569649620000081
优选地,步骤3中所述的发表微博的用户属性特征,包括的内容见表2:
表2发表微博的用户属性特征
Figure BDA0002569649620000082
优选地,步骤4中所述的对微博进行评论和转发的特征,包括的内容见表3:
表3对微博进行评论和转发的特征
Figure BDA0002569649620000083
实施例:
人具有抽象思维,可以通过思考和调查发现隐蔽的假新闻,但速度较慢。而机器具有强大的存储计算能力,二者可以优势互补。基于此,本发明提出一种人机协作的社交媒体假新闻检测方法,人包括用户和专家两部分,一方面用户可以提供对新闻的客观评价,是一种群体智慧,另一方面可以在机器的自动检测过程中结合专家知识,系统通过与专家的交互而不断得到优化。
首先对微博数据集进行预处理,包括分词、去标点符号、去停用词,文本向量化表示等。
接下来提取原始微博的文本内容特征,如表1中的特征,其中,情感得分通过如下计算得到,首先使用BosonNLP的情感词典和知乎情感分析词语集,统计每条文本中的情感词、否定词、程度词,两情感词之间的所有否定词和程度副词与后一个情感词构成情感词组,每个词对应一个分数,最终得分由词组分数相加得到。
提取发表原始微博的用户属性特征,如表2中的特征;提取评论和转发微博的特征,如表3中的特征,其中评论转发数量、评论情感立场等特征是随时间变化的,将其按时间分段后计算相邻时间段的斜率,用来表示变化趋势,表4为时间相关特征。
表4时间相关特征
Figure BDA0002569649620000091
融合上面三种特征,并进行归一化处理,得到二维特征空间X∈Rd
接下来构建随机空间划分森林模型,因为现实场景中假新闻远远少于真新闻,两个类别不平衡,所以采用异常检测算法随机空间划分森林。如图2所示,随机选择X的一列ω,再随机确定一个阈值θ,按照步骤6划分森林,得到随机空间划分森林模型。
再将待检测微博样本输入模型,由步骤7到步骤8判断样本的真假。
再根据步骤9和步骤10的判断,将异常样本提交给专家进行再次判断,之后根据专家判断结果更新随机空间划分森林模型,如图3所示。
由专家对选择出来的样本进行分析给出正确的标签,然后根据反馈标签来指导模型进行更新,模型更新策略主要是改变树的结构,包括生长、剪枝。
具体来说,如果两个相邻子区域a和b内都只有正常的专家反馈,同时区域内样本点都是密集的,那么这两个区域都为正常区域,将二者合并。相应地,去掉树中代表a和b这两个子区域的终端节点,使它们的父节点成为新的终端节点,即对树进行剪枝。如果一个子区域c中既有正常反馈又有异常反馈,就对c再进行一次划分将两种反馈分到不同的子区域d和e中。对于树模型来说区域c对应的终端节点被扩展到两个子节点,两个子节点成为新的终端节点,也就是树的生长。
具体实施按照步骤11的方法进行,模型更新后,继续对微博样本进行检测,重复执行步骤7到步骤11,不断迭代中使模型具有更好的判断新样本的能力。
综上,本发明将人类智慧和机器智能结合起来进行假新闻检测,一方面减少人的工作量,降低成本,另一方面在人的指导下提高机器模型性能,达到了二者的优势互补。

Claims (4)

1.一种基于人机协作的社交媒体假新闻检测方法,其特征在于,包括以下步骤:
步骤1:对微博数据集进行预处理,包括但不限于分词、去标点符号、去停用词、文本向量化表示;
步骤2:提取微博数据集中微博的文本内容特征;
步骤3:提取微博数据集中发表微博的用户属性特征;
步骤4:提取微博数据集中对微博进行评论和转发的特征;
步骤5;融合步骤2、3、4提取的三部分特征,进行归一化处理,构建二维特征空间X∈Rd,X的行表示微博数据集中的微博,X的列表示特征,X中的数据元素表示微博的特征值;
步骤6:采用异常检测算法构建随机空间划分森林模型,随机空间划分森林模型由若干棵随机空间划分树组成,一棵随机空间划分树的根节点代表二维特征空间X,随机空间划分树的构建过程如下:
步骤6-1:随机选择X的一列,再随机确定一个阈值;将这一列的每一个特征值和阈值进行比较,大于等于阈值的特征值对应的微博放置在一个子区域,小于阈值的特征值对应的微博放置在另一个子区域,所有特征值与阈值比较完成后,将特征空间划分为两个不重叠的子区域,将每个子区域作为一个树节点;
步骤6-2:在每个子区域中重复执行步骤6-1,将每个子区域不断划分为两个范围更小的子区域,直至随机空间划分树达到预设的最大深度,即生成一棵随机空间划分树;
步骤6-3:重复执行步骤6-1和6-2,生成M棵随机空间划分树;
步骤7:将待检测微博样本u输入随机空间划分森林模型,待检测微博样本在每棵随机空间划分树中进行遍历,最终到达一个末端节点,计算末端节点的样本质量mi
Figure FDA0002569649610000011
式中,i=1,2,……,M,表示第i棵树,vi表示第i棵随机空间划分树中待检测微博样本到达的末端节点包含的微博数量,包括节点中原有微博和新到达的微博样本;hi表示第i棵随机空间划分树中待检测微博样本到达的末端节点的节点深度;
计算待检测微博样本在第i棵树的区域异常分数yi
yi=1-s(mi) (2)
Figure FDA0002569649610000021
式中,μ表示mi的均值,σ表示mi的方差;
步骤8:计算待检测微博样本在M棵树上的区域异常分数平均值:
Figure FDA0002569649610000022
如果y大于等于设定的异常分数阈值,则判定为异常,即假新闻;如果y小于设定的异常分数阈值,则判定为正常,即真新闻;
步骤8:如果y大于等于设定的异常分数确定性度量阈值,将该条待检测微博样本提交给专家;如果y小于等于设定的异常分数确定性度量阈值,则不提交给专家;
步骤9:计算待检测微博样本的信息熵:
H(u)=-∑j=0,1p(j|u)logp(j|u) (5)
式中p(j|u)表示样本u的类别为j的概率,j表示真新闻1或假新闻0;p(0|u)=y,p(1|u)=1-y;
如果H(u)大于等于设定的信息熵阈值,将该条待检测微博样本提交给专家;如果H(u)小于设定的信息熵阈值,将不提交给专家;
步骤10:专家对步骤8和步骤9提交的所有待检测微博样本进行人为判断,重新给出每条待检测微博样本是真新闻或假新闻的标签;
如果待检测微博样本为真新闻或假新闻的判定发生改变,则称为为异常反馈;若待检测微博样本为真新闻或假新闻的判定未发生改变,则称为正常反馈;
步骤11:根据步骤10专家给出的标签,对随机空间划分森林模型进行更新:
步骤11-1:构造节点似然函数和样本似然函数
Figure FDA0002569649610000023
Figure FDA0002569649610000024
式中,Liker为节点似然函数,Likec为样本似然函数;ai和ni分别表示该节点中的异常反馈和正常反馈样本的数量,P(tz=1;mi)=yi,P(tz=0;mi)=1-yi,texpert=0,1为专家反馈结果,tz=0,1为第z个样本的随机空间划分森林模型判断结果;
步骤11-2:对式(6)和(7)分别取对数,分别得到Lr以及Lc
Lr=ailn[1-si(mi)]+nilnsi(mi) (8)
Lc=texpertlny+(1-texpert)ln(1-y) (9)
步骤11-3:根据最大似然原则,分别求取Lr和Lc对mi的导数ri和c;如果若ri和c均为正数,并且该节点的兄弟节点内没有异常反馈样本,则将该节点与兄弟节点合并;如果ri和c均为负数或异号,并且当前树的深度未达到最大深度,则将该节点随机划分为两个范围更小的子区域;
步骤12:采用步骤11更新后的模型,继续对新的待检测微博样本进行检测,重复执行步骤7到步骤11,不断迭代中使模型具有更好的判断新样本的能力,直至没有新的待检测微博。
2.如权利要求1所述的一种基于人机协作的社交媒体假新闻检测方法,其特征在于,步骤2中所述的微博的文本内容特征,包括的内容见表1:
表1 微博的文本内容特征
Figure FDA0002569649610000031
3.如权利要求1所述的一种基于人机协作的社交媒体假新闻检测方法,其特征在于,步骤3中所述的发表微博的用户属性特征,包括的内容见表2:
表2 发表微博的用户属性特征
Figure FDA0002569649610000032
4.如权利要求1所述的一种基于人机协作的社交媒体假新闻检测方法,其特征在于,步骤4中所述的对微博进行评论和转发的特征,包括的内容见表3:
表3 对微博进行评论和转发的特征
Figure FDA0002569649610000041
CN202010635103.0A 2020-07-04 2020-07-04 一种基于人机协作的社交媒体假新闻检测方法 Active CN111898038B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010635103.0A CN111898038B (zh) 2020-07-04 2020-07-04 一种基于人机协作的社交媒体假新闻检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010635103.0A CN111898038B (zh) 2020-07-04 2020-07-04 一种基于人机协作的社交媒体假新闻检测方法

Publications (2)

Publication Number Publication Date
CN111898038A true CN111898038A (zh) 2020-11-06
CN111898038B CN111898038B (zh) 2023-03-14

Family

ID=73192974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010635103.0A Active CN111898038B (zh) 2020-07-04 2020-07-04 一种基于人机协作的社交媒体假新闻检测方法

Country Status (1)

Country Link
CN (1) CN111898038B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113158082A (zh) * 2021-05-13 2021-07-23 聂佼颖 一种基于人工智能的媒体内容真实度分析方法
CN114492423A (zh) * 2021-12-28 2022-05-13 广州大学 基于特征融合及筛选的虚假评论检测方法、系统及介质
CN114793170A (zh) * 2022-03-28 2022-07-26 西安电子科技大学 基于开集识别dns隧道检测方法、系统、设备及终端

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682208A (zh) * 2016-12-30 2017-05-17 桂林电子科技大学 基于融合特征筛选与随机森林的微博转发行为预测方法
CN108228853A (zh) * 2018-01-11 2018-06-29 北京信息科技大学 一种微博谣言识别方法及系统
US20190379628A1 (en) * 2018-06-07 2019-12-12 Arizona Board Of Regents On Behalf Of Arizona State University Method and apparatus for detecting fake news in a social media network
CN110990683A (zh) * 2019-11-29 2020-04-10 重庆邮电大学 一种基于地域与情感特征的微博谣言集成识别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682208A (zh) * 2016-12-30 2017-05-17 桂林电子科技大学 基于融合特征筛选与随机森林的微博转发行为预测方法
CN108228853A (zh) * 2018-01-11 2018-06-29 北京信息科技大学 一种微博谣言识别方法及系统
US20190379628A1 (en) * 2018-06-07 2019-12-12 Arizona Board Of Regents On Behalf Of Arizona State University Method and apparatus for detecting fake news in a social media network
CN110990683A (zh) * 2019-11-29 2020-04-10 重庆邮电大学 一种基于地域与情感特征的微博谣言集成识别方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BIN GUO等: "The Future of Misinformation Detection:New Perspectives and Trends", 《ARXIV:1909.03654》 *
QI HUANG等: "Deep Structure Learning for Rumor Detection on Twitter", 《2019 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS(IJCNN)》 *
任伟建等: "基于神经网络和专家系统的故障诊断技术", 《电气应用》 *
王征等: "微博谣言识别与预警算法研究", 《情报杂志》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113158082A (zh) * 2021-05-13 2021-07-23 聂佼颖 一种基于人工智能的媒体内容真实度分析方法
CN113158082B (zh) * 2021-05-13 2023-01-17 和鸿广科技(上海)有限公司 一种基于人工智能的媒体内容真实度分析方法
CN114492423A (zh) * 2021-12-28 2022-05-13 广州大学 基于特征融合及筛选的虚假评论检测方法、系统及介质
CN114492423B (zh) * 2021-12-28 2022-10-18 广州大学 基于特征融合及筛选的虚假评论检测方法、系统及介质
CN114793170A (zh) * 2022-03-28 2022-07-26 西安电子科技大学 基于开集识别dns隧道检测方法、系统、设备及终端
CN114793170B (zh) * 2022-03-28 2024-03-19 西安电子科技大学 基于开集识别dns隧道检测方法、系统、设备及终端

Also Published As

Publication number Publication date
CN111898038B (zh) 2023-03-14

Similar Documents

Publication Publication Date Title
CN109829166B (zh) 基于字符级卷积神经网络的民宿顾客意见挖掘方法
CN108874878A (zh) 一种知识图谱的构建系统及方法
CN111898038B (zh) 一种基于人机协作的社交媒体假新闻检测方法
CN102929861B (zh) 一种文本情感指数计算方法和系统
CN106649742A (zh) 数据库维护方法和装置
CN108268600A (zh) 基于ai的非结构化数据管理方法及装置
Mehndiratta et al. Identification of sarcasm using word embeddings and hyperparameters tuning
CN111079029A (zh) 敏感账号的检测方法、存储介质和计算机设备
CN114707516A (zh) 一种基于对比学习的长文本语义相似度计算方法
CN106599824B (zh) 一种基于情感对的gif动画情感识别方法
Teo et al. Integrating Large Language Models and Machine Learning for Fake News Detection
CN111428151A (zh) 一种基于网络增速的虚假消息识别方法及其装置
CN109299463B (zh) 一种情感得分的计算方法以及相关设备
CN118504586B (zh) 一种基于大语言模型的用户风险行为感知方法及相关设备
CN118013045B (zh) 基于人工智能的语句情感检测方法及装置
Sevastjanova et al. Mixed-initiative active learning for generating linguistic insights in question classification
CN116522013B (zh) 基于社交网络平台的舆情分析方法及系统
CN117217801A (zh) 基于游客真实评价的景区优化方案智能生成方法及系统
CN112711944A (zh) 一种分词方法、系统、分词器生成方法及系统
CN117852523A (zh) 一种学习鉴别性语义和多视角上下文的跨域小样本关系抽取方法和装置
CN108197295B (zh) 基于多粒度属性树的属性约简在文本分类中的应用方法
CN115630357B (zh) 一种应用程序越界收集个人信息行为的判定方法
CN110309285B (zh) 自动问答方法、装置、电子设备和存储介质
CN110472140B (zh) 对象词推荐方法、装置及电子设备
CN114708114A (zh) 一种基于特征评价及改进算法的社交机器人账号检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant