CN110222297A

CN110222297A - 一种标签用户的识别方法以及相关设备

Info

Publication number: CN110222297A
Application number: CN201910531099.0A
Authority: CN
Inventors: 王璐
Original assignee: Wuhan Douyu Network Technology Co Ltd
Current assignee: Wuhan Douyu Network Technology Co Ltd
Priority date: 2019-06-19
Filing date: 2019-06-19
Publication date: 2019-09-10
Anticipated expiration: 2039-06-19
Also published as: CN110222297B

Abstract

本发明实施例提供了一种标签用户的识别方法及相关设备，用于快速识别直播平台中的标签用户，净化网络环境，提供平台中用户的体验。该方法包括：构建目标有向图，所述目标有向图指示直播平台中任意两个用户之间的信息交互关系；计算所述目标有向图中与目标用户对应的顶点相连的边的权重，所述目标用户为待识别标签的用户；确定所述目标有向图中各顶点对应的用户的初始标签分数；根据所述初始标签分数以及与所述目标用户对应的顶点相连的边的权重迭代计算所述目标用户的标签分数；判断达到预置的迭代终止条件时所述目标用户的标签分数是否大于预设阈值；若是，则确定所述目标用户为标签用户。

Description

一种标签用户的识别方法以及相关设备

技术领域

本发明涉及大数据风控领域，尤其涉及一种标签用户的识别方法以及相关设备。

背景技术

随着网络通信技术的进步和宽带网络的提速，视频直播技术得到了越来越多的发展和应用。

在直播平台上，有一种社交功能是直播平台中的用户之间可以相互发送站内信。然而，一些黑色产业利用站内信发一些色情以及带有广告内容的垃圾站内信给直播平台中的用户，极大地损害了平台中用户的体验。因此，需要有一种有效的方法能够快速识别这些发垃圾站内信的恶意用户。

现有的一般是直接使用统计的方法，统计直播平台中每个私信用户发站内信的数量、回复的比例等，一个恶意的私信用户可能发站内信的数量非常多，但是收到回复的比例却非常低，这样就导致通过回复的比例识别恶意用户较为困难。或者是对站内信的内容进行识别，发现那些含有广告和色情内容的，但对于那些使用url等在内容上不具有明显异常的情况，难发挥作用。

发明内容

本发明实施例提供了一种标签用户的识别方法及相关设备，用于快速识别直播平台中的标签用户，净化网络环境，提供平台中用户的体验。

本发明实施例的第一方面提供了一种标签用户的识别方法，包括：

构建目标有向图，所述目标有向图指示直播平台中任意两个用户之间的信息交互关系；

计算所述目标有向图中与目标用户对应的顶点相连的边的权重，所述目标用户为待识别标签的用户；

确定所述目标有向图中各顶点对应的用户的初始标签分数；

根据所述初始标签分数以及与所述目标用户对应的顶点相连的边的权重迭代计算所述目标用户的标签分数；

判断达到预置的迭代终止条件时所述目标用户的标签分数是否大于预设阈值；

若是，则确定所述目标用户为标签用户。

可选地，所述计算所述目标有向图中与目标用户对应的顶点相连的边的权重包括：

通过如下公式计算所述目标有向图中与所述目标用户对应的顶点相连的边的权重：

其中，w_i→j是所述目标有向图中所述目标用户i对应的顶点与用户j对应的顶点之间相连的边的权重，所述用户j为所述目标用户i所有发送过信息的用户的一个用户，s_i→j为所述目标用户i向所述用户j发送的信息的数量，r_j→i为所述目标用户i从所述用户j接收到的信息的数量，s_i→k为所述目标用户i向用户k发送的信息的数量，r_k→i为所述用户k从所述目标用户i接收到的信息的数量，S_i为所述目标用户i所有发送信息的用户集合，所述用户k为所述用户集合中的任意一个用户。

可选地，所述根据所述初始标签分数以及与所述目标用户对应的顶点相连的边的权重迭代计算所述目标用户的标签分数包括：

通过迭代执行如下公式计算所述目标用户的标签分数：

其中，S_k(i)为所述目标用户i在第k轮迭代时的标签分数，α和β为权重系数，取值在0到1之间，且α+β≤1，w_j→i为所述目标有向图中用户j对应的顶点指向所述目标用户i对应的顶点之间的边的权重，in-deg ree(i)为所述目标用户i对应的顶点的入度顶点集合，|out-deg ree(i)|为所述目标用户i对应的顶点的出度顶点的数量。

可选地，所述方法还包括：

判断迭代次数是否达到预置数值，若是，则确定满足所述预置的迭代终止条件；

或，

判断所述目标用户的标签分数是否收敛，若是，则确定满足所述预置的迭代终止条件。

可选地，所述方法还包括：

当所述目标用户的标签分数不大于所述预设阈值时，确定所述目标用户不为标签用户。

本发明实施例第二方面提供了一种标签用户的识别装置，包括：

构建单元，用于构建目标有向图，所述目标有向图指示直播平台中任意两个用户之间的信息交互关系；

计算单元，用于计算所述目标有向图中与目标用户对应的顶点相连的边的权重，所述目标用户为待识别标签的用户；

第一确定单元，用于确定所述目标有向图中各顶点对应的用户的初始标签分数；

处理单元，用于根据所述初始标签分数以及与所述目标用户对应的顶点相连的边的权重迭代计算所述目标用户的标签分数；

判断单元，用于判断达到预置的迭代终止条件时所述目标用户的标签分数是否大于预设阈值；

第二确定单元，用于当所述目标用户的标签分数大于所述预设阈值时，确定所述目标用户为标签用户。

可选地，所述计算单元具体用于：

可选地，所述处理单元具体用于：

通过迭代执行如下公式计算所述目标用户的标签分数：

可选地，所述判断单元还用于：

或，

可选地，所述第二确定单元还用于：

本发明第三方面提供了一种电子设备，包括存储器、处理器，其特征在于，所述处理器用于执行存储器中存储的计算机管理类程序时实现如上述任意一项所述的标签用户的识别方法的步骤。

本发明第四方面提供了一种计算机可读存储介质，其上存储有计算机管理类程序，其特征在于：所述计算机管理类程序被处理器执行时实现如上述任意一项所述的标签用户的识别方法的步骤。

综上所述，可以看出，本发明提供的实施例中，可以通过构建有向图，并计算有向图中与目标用户相连的边的权重，并基于边的权重以及目标有向图中各顶点对应的用户的初始标签分数迭代计算目标用户的标签分数，当标签分数大于预设阈值时，确定目标用户为标签用户。由此可以看出，本申请中，并不需要设置接收和发送的比例，也不需要关注信息的内容，相对于现有技术来说，可以达到快速识别直播平台中标签用户、净化网络环境以及提高用户的体验等效果。

附图说明

图1为本发明实施例提供的一种标签用户的识别方法的流程示意图；

图2为本发明实施例提供的一种标签用户的识别装置的实施例示意图；

图3为本发明实施例提供的一种标签用户的识别装置的硬件结构示意图；

图4为本发明实施例提供的一种电子设备的实施例示意图；

图5为本发明实施例提供的一种计算机可读存储介质的实施例示意图。

具体实施方式

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

下面从标签用户的识别装置的角度对标签用户的识别方法进行说明，该标签用户的识别装置可以为服务器，也可以为服务器中的服务单元，具体不做限定。

请参阅图1，图1为本发明实施例提供的标签用户的识别方法的流程示意图，该方法包括：

101、构建目标有向图。

本实施例中，标签用户的识别装置可以构建目标有向图，该目标有向图指示直播平台中的任意两个用户之间的信息交互关系。可以理解的是，这里的信息交互指的是直播平台中用户之间的站内信交互，当然也还可以是其他形式的交互，具体不做限定。标签用户的识别装置可以将直播平台中发送过站内信或者接收过站内信的用户看作顶点，如果用户A给用户B发过私信，那么形成用户A对应的顶点指向用户B对应的顶点的边，按照该方法可以形成一个直播平台中用户与用户之间站内信交互的有向图，即目标有向图。

102、计算目标有向图中与目标用户对应的顶点相连的边的权重。

本实施例中，标签用户的识别装置可以计算目标有向图中与目标用户对应的顶点相连的边的权重，其中，该目标用户为待识别标签的用户。具体的，标签用户的识别装置可以通过如下公式计算目标有向图中与目标顶点相连的边的权重：

其中，w_i→j是目标有向图中目标用户i对应的顶点与用户j对应的顶点之间的边的权重用户j为标用户i所有发送过信息的用户的一个，s_i→j为目标用户i向用户j发送的信息的数量，r_j→i为目标用户i从用户j接收到的信息的数量，s_i→k为目标用户i向用户k发送的信息的数量，r_k→i为用户k从目标用户i接收到的信息的数量，S_i为目标用户i所有发送信息的用户集合，用户k为用户集合中的任意一个用户。

需要说明的是，在得到目标有向图中与目标顶点相连的边的权重之后，还可以对该权重进行了归一化处理，使得权重在0到1之间，方便后续的计算使用。

103、确定目标有向图中各顶点对应的用户的初始标签分数。

本实施例中，标签用户的识别装置可以确定目标有线图中各顶点的初始标签分数。具体的，对于直播平台中已知的恶意用户，在最初的时候将初始标签分数设为1，而将其他用户的初始标签分数设为0。其中，已知的恶意用户可以是采用一些特定规则或者是被举报的用户，此处具体不做限定。

需要说明的是，通过步骤102可以计算目标有向图中与目标用户对应的顶点相连的边的权重，通过步骤103可以确定目标有向图中各顶点对应的用户的初始标签分数，然而，这两个步骤之间并没有先后执行顺序的限制，可以先执行步骤102，也可以先执行步骤103，或者同时执行，具体不做限定。

104、根据初始标签分数以及与目标用户对应的顶点相连的边的权重迭代计算所述目标用户的标签分数。

本实施例中，标签用户的识别装置可以根据初始标签分数以及与目标用户对应的顶点相连的边的权重迭代计算目标用户的标签分数，具体的：

可以通过迭代执行如下公式计算目标用户的标签分数：

其中，S_k(i)为所述目标用户i在第k轮迭代时的标签分数，α和β为权重系数，取值在0到1之间，且α+β≤1，w_j→i为目标有向图中用户j对应的顶点指向目标用户i对应的顶点之间的边的权重，in-deg ree(i)为目标用户i对应的顶点的入度顶点集合，|out-deg ree(i)|为目标用户i对应的顶点的出度顶点的数量。

需要说明的是，在每次迭代完成之后，还可以判断迭代次数是否达到预置数值，若是，则确定满足所述预置的迭代终止条件，终止迭代计算，若否，则确定不满足预置的迭代终止条件，继续进行迭代计算直至迭代次数达到预置数值；或，判断目标用户的标签分数是否收敛，若是，则确定满足预置的迭代终止条件，终止迭代计算，若否，则确定不满足预置的迭代终止条件，继续进行迭代计算直至目标用户的标签分数收敛。

105、判断达到预置的迭代终止条件时目标用户的标签分数是否大于预设阈值，若是，则执行步骤106，若否，则执行步骤107。

本实施例中，标签用户的识别装置在根据初始标签分数以及与目标用户对应的顶点相连的边的权重迭代计算目标用户的标签分数，且达到预置的迭代终止条件时，判断目标用户的标签分数是否大于预设阈值，若是，则执行步骤106，若否，则执行步骤107。

106、确定目标用户为标签用户。

本实施例中，当目标用户的标签分数大于预设阈值时，确定目标用户为标签用户。

107、执行其他操作。

本实施例中，当目标用户的标签分数不大于预设阈值时，确定目标用户不为标签用户。

下面结合一个具体的例子进行说明：

假设直播平台对应的目标有向图中有5个用户节点，分别用A、B、C、D、E，此时想要知道B是否为标签用户，则首先需要通过如下公式计算目标有向图中与B相连的边的权重：

假设得到目标有向图中与B相连的边的权重分别为：

w(A->B)＝0.1；

w(C->B)＝0.9；

w(B->D)＝0.4；

w(B->E)＝0.3；

已知A是一个恶意用户，初始标签分数为1，C是一个正常用户，初始标签分数为0，其他用户是否是标签的不知道，则将目标有向图中与B相连的边之间的边的权重通过如下公式迭代计算B的标签分数：

公式中的α＝0.7，β＝0.2；

在第一轮计算中：

S1(B)＝(1-0.7-0.2)+0.7*(0.1*1+0.9*0)/(0.1+0.9)+0.2*0＝0.17；

在第二轮：

S2(B)＝(1-0.7-0.2)+0.7*(0.1*1+0.9*0)/(0.1+0.9)+0.2*0.17＝0.2034。

设定标签分数的预设阈值0.8，进行两轮后(此处以预置数值为2进行说明)S2(B)＝0.2034低于阈值，因此用户B不是一个发垃圾站内信的恶意用户。

上面对本发明实施例中标签用户的识别方法进行了描述，下面对本发明实施例中的标签用户的识别装置进行描述。

请参阅图2，本发明实施例中标签用户的识别装置的一个实施例，该标签用户的识别装置包括：

构建单元201，用于构建目标有向图，所述目标有向图指示直播平台中任意两个用户之间的信息交互关系；

计算单元202，用于计算所述目标有向图中与目标用户对应的顶点相连的边的权重，所述目标用户为待识别标签的用户；

第一确定单元203，用于确定所述目标有向图中各顶点对应的用户的初始标签分数；

处理单元204，用于根据所述初始标签分数以及与所述目标用户对应的顶点相连的边的权重迭代计算所述目标用户的标签分数；

判断单元205，用于判断达到预置的迭代终止条件时所述目标用户的标签分数是否大于预设阈值；

第二确定单元206，用于当所述目标用户的标签分数大于所述预设阈值时，确定所述目标用户为标签用户。

可选地，所述计算单元202具体用于：

可选地，所述处理单元204具体用于：

通过迭代执行如下公式计算所述目标用户的标签分数：

可选地，所述判断单元205还用于：

或，

可选地，所述第二确定单元206还用于：

上面图2从模块化功能实体的角度对本发明实施例中的标签用户的识别装置进行了描述，下面从硬件处理的角度对本发明实施例中的标签用户的识别装置进行详细描述，请参阅图3，本发明实施例中的标签用户的识别装置300一个实施例，包括：

输入装置301、输出装置302、处理器303和存储器304(其中处理器303的数量可以一个或多个，图3中以一个处理器303为例)。在本发明的一些实施例中，输入装置301、输出装置302、处理器303和存储器304可通过总线或其它方式连接，其中，图3中以通过总线连接为例。

其中，通过调用存储器304存储的操作指令，处理器303，用于执行如下步骤：

确定所述目标有向图中各顶点对应的用户的初始标签分数；

若是，则确定所述目标用户为标签用户。

在具体实施过程中，处理器320执行计算机程序311时，可以实现图1对应的实施例中任一实施方式。

如图4所示，本发明实施例提供了一种电子设备，包括存储器410、处理器420及存储在存储器420上并可在处理器420上运行的计算机程序411，处理器420执行计算机程序411时实现以下步骤：

确定所述目标有向图中各顶点对应的用户的初始标签分数；

若是，则确定所述目标用户为标签用户。

在具体实施过程中，处理器420执行计算机程序411时，可以实现图1对应的实施例中任一实施方式。

由于本实施例所介绍的电子设备为实施本发明实施例中一种标签用户的识别装置所采用的设备，故而基于本发明实施例中所介绍的方法，本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式，所以在此对于该电子设备如何实现本发明实施例中的方法不再详细介绍，只要本领域所属技术人员实施本发明实施例中的方法所采用的设备，都属于本发明所欲保护的范围。

请参阅图5，图5为本发明实施例提供的一种计算机可读存储介质的实施例示意图。

如图5所示，本实施例提供了一种计算机可读存储介质500，其上存储有计算机程序511，该计算机程序511被处理器执行时实现如下步骤：

确定所述目标有向图中各顶点对应的用户的初始标签分数；

若是，则确定所述目标用户为标签用户。

在具体实施过程中，该计算机程序511被处理器执行时可以实现图1对应的实施例中任一实施方式。

需要说明的是，在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程标签用户的识别设备的处理器以产生一个机器，使得通过计算机或其他可编程标签用户的识别设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程标签用户的识别设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程标签用户的识别设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机软件指令，当计算机软件指令在处理设备上运行时，使得处理设备执行如图1对应实施例中的风电场数字化平台设计的方法中的流程。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修该，或者对其中部分技术特征进行等同替换；而这些修该或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种标签用户的识别方法，其特征在于，包括：

确定所述目标有向图中各顶点对应的用户的初始标签分数；

若是，则确定所述目标用户为标签用户。

2.根据权利要求1所述的方法，其特征在于，所述计算所述目标有向图中与目标用户对应的顶点相连的边的权重包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述初始标签分数以及与所述目标用户对应的顶点相连的边的权重迭代计算所述目标用户的标签分数包括：

通过迭代执行如下公式计算所述目标用户的标签分数：

其中，S_k(i)为所述目标用户i在第k轮迭代时的标签分数，α和β为权重系数，取值在0到1之间，且α+β≤1，w_j→i为所述目标有向图中用户j对应的顶点指向所述目标用户i对应的顶点之间的边的权重，in-degree(i)为所述目标用户i对应的顶点的入度顶点集合，|out-degree(i)|为所述目标用户i对应的顶点的出度顶点的数量。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述方法还包括：

或，

5.根据权利要求1至3中任一项所述的方法，其特征在于，所述方法还包括：

6.一种标签用户的识别装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述计算单元具体用于：

8.根据权利要求6所述的装置，其特征在于，所述处理单元具体用于：

通过迭代执行如下公式计算所述目标用户的标签分数：

9.一种电子设备，包括存储器、处理器，其特征在于，所述处理器用于执行存储器中存储的计算机管理类程序时实现如权利要求1至5中任意一项所述的标签用户的识别方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机管理类程序，其特征在于：所述计算机管理类程序被处理器执行时实现如权利要求1至5中任意一项所述的标签用户的识别方法的步骤。