CN115563082A

CN115563082A - 一种基于实时话单大数据的诈骗号码识别方法和装置

Info

Publication number: CN115563082A
Application number: CN202211188929.2A
Authority: CN
Inventors: 王德良; 温若辉; 陈云; 曾超; 黄雅如; 刘明洪; 姚政勇; 李婉婷; 林成斌; 吴僖子; 汤增荣; 王泽�; 纪艺能
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2022-09-27
Filing date: 2022-09-27
Publication date: 2023-01-03

Abstract

本申请涉及一种基于实时话单大数据的诈骗号码识别方法，其通过对话单数据按时间段T进行切割，符合样本抽取，缩短计算范围，减少计算资源投入；通过增加各类可疑、可信知识库的计算，提高指标的全面性，减少正常推广号码的干扰；通过使用指标项在诈骗号码的概率分布/在所有号码的概率分布，更能量化的分析各指标的权重和总的可疑度。从而提高了诈骗号码的识别效率和实时性，以较小的计算资源达到及时预警的目的。能够降低发案率，避免更多的人被诈骗。

Description

一种基于实时话单大数据的诈骗号码识别方法和装置

技术领域

本申请涉及网络通信的技术领域，尤其是涉及一种基于实时话单大数据的诈骗号码识别方法和装置。

背景技术

在电信网络诈骗中，通过大量的打电话推广某种诱人的产品、服务，如：信用贷款、购物退款等等，初步确定受害人目标，然后再进一步进行诱导以达到其诈骗目的。电话推广是一种常见的方式或者是电信诈骗犯罪的重要一环。打击诈骗推广号码，是遏制依赖于此的一系列诈骗的有效措施。最常见的做法是通过话单分析，挖掘发现可疑号码，再进一步研判确认，线下根据位置进行蹲点抓人。经过全国各级执法部门长期的打击，这些从业人员变得更加狡猾，转移到国外逃避打击，或者隐藏在深山老林中加大反打击难度。所以当下最直接有效的做法是快速发现号码，马上予以限制通话，停止其对外通联。而如何更快发现这些号码就是最为紧要的工作。现有的话单数据分析技术一般通过分析一段时间内的数据，分析某类通信号码的规律。这部分虽然是离线计算，但每天亿级的数据量需要按不同维度不断统计，耗费的资源非常大。

现实中为了避免被发现，诈骗推广人员基本上一两天就会换号码。那么即使以天为单位的分析，时效性就已经明显滞后。待分析出结果，有可能诈骗已经得手，或者为了规避打击主动放弃使用号码。另外，这种诈骗号码和正常广告推销号码的特征极为相似，如何排除这部分的干扰也是一项困难的工作。

发明内容

针对上述技术问题,本申请提出了一种基于实时话单大数据的诈骗号码识别方法和装置，以争取更快发现诈骗号码，并保证提高识别效率，从而达到降低发案率，避免更多的人被诈骗。

第一方面，本申请提出了一种基于实时话单大数据的诈骗号码识别方法，包括以下步骤：

S1：建立话单大数据知识库；

S2：接入话单数据，利用话单大数据知识库对接入的话单数据进行判断是否为白名单，若是则执行S8，否则执行S3；

S3：对话单数据进行时段分割预统计；

S4：过滤超过边界的数据；

S5：计算出当前接入号码各行为指标的可疑权重值：Q(x)＝P(x)/G(x)；

对于常量化的指标：

P(x)＝(Mp/Np)；

G(x)＝(Ma/Na)；

其中，Mp代表满足条件诈骗号码人数，Np代表诈骗号码数，Ma代表满足条件所有号码人数，Na代表所有号码数；

对于非常量指标：

其中，x1代表指标项值-1，x2代表指标项值+1，μ₁代表诈骗号码中指标项的数学期望值，σ₁代表诈骗号码中指标项的方差,μ₂代表全部号码中指标项的数学期望值，σ₂代表全部号码中指标项的方差；

S6：累加各指标权重得到总的可疑度：

S7：利用总的可疑度对可疑号码进行识别验证，并根据识别验证结果对大数据知识库进行数据迭代更新；

S8：结束识别。

通过采用上述技术方案，本申请一种基于实时话单大数据的诈骗号码识别方法，通过对话单数据按时间段T进行切割，符合样本抽取，缩短计算范围，减少计算资源投入；通过增加各类可疑、可信知识库的计算，提高指标的全面性，减少正常推广号码的干扰；通过使用指标项在诈骗号码的概率分布/在所有号码的概率分布，更能量化的分析各指标的权重和总的可疑度。从而提高了诈骗号码的识别效率和实时性，以较小的计算资源达到及时预警的目的。能够降低发案率，避免更多的人被诈骗。

优选的，所述S1中的话单大数据知识库包括：

历史诈骗号码库，存储已确定的诈骗号码集合S；

可疑基站库，存储已确定诈骗号码出现过的基站集合为ST；

可疑IMEI库，存储已确定诈骗号码关联的IMEI集合R；

正常营销推广号码库，存储已确定的正常营销推广号码，汇总形成可信号码集合为W；

正常营销推广基站库，存储已确定的正常营销推广号码出现过的基站，

汇总形成可信基站集合为WT。

优选的，所述S3具体包括：

存储每个号码每天首次通话时间T0，利用T0计算该号码的T时段记录：

Ts＝(Math.floor(Tx–T0)/T)*T+T0；

Te＝Ts+T；

其中，Ts代表T时段开始时间，Te代表T时段结束时间。

优选的，所述S4中的超过边界的数据具体包括：

通话次数<MIN(已知诈骗号码通话次数)/2；

被叫次数>MAX(已知诈骗号码被叫次数)*2。

优选的，所述S5中的常量化的指标包括共用IMEI、位于可疑基站以及位于可信基站。

优选的，所述S5中的非常量指标包括通联总数、主叫频繁、呼叫对象分散度、呼叫号码归属地分散度、基站位置不变以及近期活跃度。

优选的，所述S7具体包括：通过总的可疑度从高到低进行排序，对可疑号码拨打电话，以验证可疑号码是否为诈骗号码，若确认为诈骗号码，则对历史诈骗号码库、可疑基站库以及可疑IMEI库的数据进行迭代更新，若确认为正常推广号码，则对正常营销推广号码库和正常营销推广基站库的数据进行迭代更新。

第二方面，本申请还提出了一种基于实时话单大数据的诈骗号码识别装置，其特征在于：所述装置包括：

话单大数据知识库模块，配置用于建立话单大数据知识库；

话单数据数据接入模块，配置用于接入话单数据，利用话单大数据知识库对接入的话单数据进行判断是否为白名单；

时段分割预统计模块，配置用于对话单数据进行时段分割预统计；

边界数据过滤模块，配置用于过滤超过边界的数据；

可疑度计算模块，配置用于计算出当前接入号码各行为指标的可疑权重值：Q(x)＝P(x)/G(x)；

对于常量化的指标：

P(x)＝(Mp/Np)；

G(x)＝(Ma/Na)；

对于非常量指标：

可疑度计算模块还用于累加各指标权重得到总的可疑度：

识别验证模块，配置用于利用总的可疑度对可疑号码进行识别验证，并根据识别验证结果对大数据知识库进行数据迭代更新。

第三方面，本申请还提出了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的方法。。

第四方面，本申请还提出了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如第一方面所述的方法。

综上所述，本申请至少包括以下有益技术效果：

1.对话单数据按时间段T进行切割，符合样本抽取，缩短计算范围，减少计算资源投入；

2.增加各类可疑、可信知识库的计算，提高指标的全面性，减少正常推广号码的干扰；

3.使用指标项在诈骗号码的概率分布/在所有号码的概率分布，更能量化的分析各指标的权重和总的可疑度；

4.提高了诈骗号码识别效率和实时性，以较小的计算资源达到及时预警的目的，能够降低发案率，避免更多的人被诈骗。

附图说明

包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本申请的原理。将容易认识到其它实施例和实施例的很多预期优点，因为通过引用以下详细描述，它们变得被更好地理解。附图的元件不一定是相互按照比例的。同样的附图标记指代对应的类似部件。

图1是本申请一种基于实时话单大数据的诈骗号码识别方法的流程图。

图2是可以应用于本申请的基于实时话单大数据的诈骗号码识别方法的一个具体实施例的示意图。

图3是本申请一个实施例中基于实时话单大数据的诈骗号码识别装置的模块结构示意图。

图4是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了本申请一种基于实时话单大数据的诈骗号码识别方法的流程图，图2示出了可以应用于本申请的基于实时话单大数据的诈骗号码识别方法的一个具体实施例的示意图，结合参考图1和图2，该方法具体包括以下步骤：

S1：建立话单大数据知识库；

所述S1中的话单大数据知识库包括：

历史诈骗号码库，存储已确定的诈骗号码集合S；

可疑基站库，存储已确定诈骗号码出现过的基站集合为ST；

可疑IMEI库，存储已确定诈骗号码关联的IMEI集合R；

正常营销推广基站库，存储已确定的正常营销推广号码出现过的基站，汇总形成可信基站集合为WT。

S3：对话单数据进行时段分割预统计；

所述S3具体包括：

Ts＝(Math.floor(Tx–T0)/T)*T+T0；

Te＝Ts+T；

其中，Ts代表T时段开始时间，Te代表T时段结束时间。

S4：过滤超过边界的数据；

所述S4中的超过边界的数据具体包括：

通话次数<MIN(已知诈骗号码通话次数)/2；

被叫次数>MAX(已知诈骗号码被叫次数)*2。

对于常量化的指标：

P(x)＝(Mp/Np)；

G(x)＝(Ma/Na)；

对于非常量指标：

所述S5中的常量化的指标包括共用IMEI、位于可疑基站以及位于可信基站。所述S5中的非常量指标包括通联总数、主叫频繁、呼叫对象分散度、呼叫号码归属地分散度、基站位置不变以及近期活跃度。

S6：累加各指标权重得到总的可疑度：

所述S7具体包括：通过总的可疑度从高到低进行排序，对可疑号码拨打电话，以验证可疑号码是否为诈骗号码，若确认为诈骗号码，则对历史诈骗号码库、可疑基站库以及可疑IMEI库的数据进行迭代更新，若确认为正常推广号码，则对正常营销推广号码库和正常营销推广基站库的数据进行迭代更新

S8：结束识别。

在具体的实施例中，以下将对本申请公开的一种大车行驶记录仪数据深度恢复方法进行具体描述：

本实施例的实施流程可以按照如下：

1)建立话单大数据知识库。利用大数据计算历史可疑号码的行为特征概率分布，排除正常的营销推广号码的干扰，提高识别效率。话单大数据知识库具体包括：

历史诈骗号码库：存储已确定的诈骗号码集合S。

可疑基站库：存储已确定诈骗号码出现过的基站集合为ST。

可疑IMEI库:存储已确定诈骗号码关联的IMEI集合R。

正常营销推广号码库：存储已确定的正常营销推广号码，汇总形成可信号码集合为W。

正常营销推广基站库：存储已确定的正常营销推广号码出现过的基站，汇总形成可信基站集合为WT。

2)汇聚并治理数据。接入实时数据，记录每个号码首次进来的通话时间开始，按固定时段(如1小时)对数据汇总存储其行为特征。

本实施例中治理的数据主要是实时手机数据，在过滤正常营销推广号码库W的号码后，根据诈骗行为特征汇聚治理成话单T时段统计信息资源库。

话单T时段统计信息。在数据治理过程中，按时间段对主叫号码进行预统计，如表1所示。

时间段T是固定的，即开始时间和结束时间始终相差T(如1小时)。预统计行为特征通话次数，主被叫次数，首次出现时间，末次出现时间等。

每天的数据开始汇聚时，需要在缓存中存储每个号码每天首次通话时间T0，用于计算接下来该号码的T时段记录。同时，为第一条记录生成1条T时段统计记录。开始时间Ts＝T0，结束时间Te＝T0+T(如1小时)。那么在接下来后续话单数据通话时间Tx，可通过公式计算其所属时段开始时间Ts和结束时间Te：

Ts＝(Math.floor(Tx–T0)/T)*T+T0；

Te＝Ts+T＝(Math.floor(Tx–T0)/T)*T+T0+T；

当前记录通话时间先和每天首次通话时间T0计算差值，整除取整确定所属时段的跨度，加T0确定所属时段的开始时间Ts。如某天早上8:40是某号码首次通话时间，时段T＝1小时,则T0＝8:40，那么第一条T时段统计记录的开始时间Ts＝8:40，该记录的结束时间Te＝9:40，当天该号码在8:40～9:40这段时间的通话记录通过公式计算通话时段都会预统计到第一条记录上。从9:40～10:40的通话记录预统计到该号码的第二条T时段统计记录上。以此类推后续话单记录所属T时段。

确定好每条话单所在T时段后，那么各指标项就可以进行预统计，比如主叫次数、被叫次数、通话总次数可以不断累加，对方号码、对方归属地、通话基站、关联IMEI也可以排重合并到对应字段。

这样分割预统计的好处是，在固定时段T刚结束时，就能进行分析统计，比如某号码第一条记录结束时间为9:40，那么定时任务在9:40后就能马上对这条记录进行后续统计，时效性高。另外达到了完整的T时段，有足够的样本分析，防止时间段太短导致误差。可以达到“一冒头就发现”的目的。

3)综合分析。定时处理每个完成的固定时段数据，基于历史可疑号码的行为特征概率分布，计算出当前接入号码各行为特征的可疑权重值，确定可疑度。

模型行为规律定义:

N_imei:诈骗人员手机号码共用imei次数。

N_calling:时间段T内累计主叫次数。

N_called:时间段T内累计被叫次数。

N_call:时间段T内累计通话次数。

N_st:累计活跃基站个数。

N_fac:对方号码归属地个数。

N_fd：对方号码数。

F_st：是否出现在可疑基站附近。

F_imei:是否共用可疑号码的IMEI。

在实时的话单接入过程中，我们以号码首次进来的通话时间开始，接着以固定时段T为切割点，预统计话单T时段信息。

过滤超过边界太多的数据，减小运算量，满足以下条件不分析：

通话次数<MIN(已知诈骗号码通话次数)/2；

被叫次数>MAX(已知诈骗号码被叫次数)*2；

通过计算模型行为规律，计算各个条件比例值，指标项如下表格所示：

为了便于计算各个非常量指标，如：通联总数、主叫频繁、呼叫对方分散度等。在样本有限的情况下，防止某个数值区间缺少足够数据量，影响到结果计算。通过将数据拟合成一个数学期望为μ，方差为σ2的正态分布函数f(x)，记曲线密度函数公式为：

拟合已有数据得到诈骗号码各指标的正态分布和所有号码各指标的正态分布。计算指标项x在诈骗号码分布概率P(x)和在所有号码中的分布概率G(x)，可以计算出权重：Q(x)＝P(x)/G(x)。

对于非常量指标：

其中，x1代表指标项值-1，x2代表指标项值+1，μ₁代表诈骗号码中指标项的数学期望值，σ₁代表诈骗号码中指标项的方差,μ₂代表全部号码中指标项的数学期望值，σ₂代表全部号码中指标项的方差。

正态分布是计算区间概率，为了方便计算，我们计算某个值的概率分布时计算该值前后加减1的区间概率，比如，T时段某号码的总通联次数30次，那么计算该指标在诈骗号码中的概率可以为P(29<x<31)。

如T时段通话次数30在诈骗号码中的概率为20％，在所有号码中的分布概率为4％。权重Q＝20％÷4％＝5，那么这个号码更倾向于是诈骗号码。

而对于常量化的指标项有共用IMEI、位于可疑基站、位于可信基站，计算权重：

Q(x)＝P(x)/G(x)＝(Mp/Np)/(Ma/Na)；

Mp：满足条件诈骗号码人数；

Np：诈骗号码数；

Ma：满足条件所有号码人数；

Na：所有号码数；

累加各指标权重得到总的可疑度：

实际应用中，通过可疑度从高到低给可疑号码的对方号码拨打电话，就能验证可疑号码是否为诈骗号码。若确认为诈骗号码则反哺完善历史诈骗号码库、可疑基站库及可信基站库，若确认为正常推广号码则完善正常营销推广号码库和正常营销推广基站库。通过不断迭代计算模型行为特征，计算出更为准确的指标项在诈骗号码分布概率P(x)和在所有号码中的分布概率G(x)，形成闭环。

本申请应用知识库、规则提取、大数据等技术，以一整套完整的分析模型详细的分析出诈骗号码。其中的规则计算、阈值设置、迭代计算在分析模型中起到良好的分析效果，提高了执法效率。本申请不仅能针对单个诈骗号码做分析，对于沉淀的知识库，还能发挥其他更大的作用，如重点区域的管理等等。另外该发明所依赖的数据只要实时话单即可，投入的计算资源比较少。适合不同用户推广使用。

综上所述，本申请至少包括以下有益技术效果：1.对话单数据按时间段T进行切割，符合样本抽取，缩短计算范围，减少计算资源投入；2.增加各类可疑、可信知识库的计算，提高指标的全面性，减少正常推广号码的干扰；3.使用指标项在诈骗号码的概率分布/在所有号码的概率分布，更能量化的分析各指标的权重和总的可疑度；4.提高了诈骗号码识别效率和实时性，以较小的计算资源达到及时预警的目的，能够降低发案率，避免更多的人被诈骗。

进一步参考图3，作为对上述所述方法的实现，本申请提供了一种基于实时话单大数据的诈骗号码识别装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

参考图3，一种基于实时话单大数据的诈骗号码识别装置，包括：

话单大数据知识库模块101，配置用于建立话单大数据知识库；

话单数据数据接入模块102，配置用于接入话单数据，利用话单大数据知识库对接入的话单数据进行判断是否为白名单；

时段分割预统计模块103，配置用于对话单数据进行时段分割预统计；

边界数据过滤模块104，配置用于过滤超过边界的数据；

可疑度计算模块105，配置用于计算出当前接入号码各行为指标的可疑权重值：Q(x)＝P(x)/G(x)；

对于常量化的指标：

P(x)＝(Mp/Np)；

G(x)＝(Ma/Na)；

对于非常量指标：

所述可疑度计算模块105还用于累加各指标权重得到总的可疑度：

识别验证模块106，配置用于利用总的可疑度对可疑号码进行识别验证，并根据识别验证结果对大数据知识库进行数据迭代更新。

下面参考图4，其示出了适于用来实现本申请实施例的电子设备的计算机系统200的结构示意图。图4示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图4所示，计算机系统200包括中央处理单元(CPU)201，其可以根据存储在只读存储器(ROM)202中的程序或者从存储部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中，还存储有系统200操作所需的各种程序和数据。CPU 201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。

以下部件连接至I/O接口205：包括键盘、鼠标等的输入部分206；包括诸如液晶显示器(LCD)等以及扬声器等的输出部分207；包括硬盘等的存储部分208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器220也根据需要连接至I/O接口205。可拆卸介质211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器220上，以便于从其上读出的计算机程序根据需要被安装入存储部分208。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分209从网络上被下载和安装，和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时，执行本申请的方法中限定的上述功能。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行时实现如图1中所示的方法。

需要说明的是，本申请所述的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质，该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上描述了本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

在本申请的描述中，需要理解的是，术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。措词‘包括’并不排除在权利要求未列出的元件或步骤的存在。元件前面的措词‘一’或‘一个’并不排除多个这样的元件的存在。在相互不同从属权利要求中记载某些措施的简单事实不表明这些措施的组合不能被用于改进。在权利要求中的任何参考符号不应当被解释为限制范围。

Claims

1.一种基于实时话单大数据的诈骗号码识别方法，其特征在于：所述方法包括以下步骤：

S1：建立话单大数据知识库；

S3：对话单数据进行时段分割预统计；

S4：过滤超过边界的数据；

对于常量化的指标：

P(x)＝(Mp/Np)；

G(x)＝(Ma/Na)；

对于非常量指标：

S6：累加各指标权重得到总的可疑度：

S8：结束识别。

2.根据权利要求1所述的一种基于实时话单大数据的诈骗号码识别方法，其特征在于：所述S1中的话单大数据知识库包括：

历史诈骗号码库，存储已确定的诈骗号码集合S；

可疑基站库，存储已确定诈骗号码出现过的基站集合为ST；

可疑IMEI库，存储已确定诈骗号码关联的IMEI集合R；

3.根据权利要求1所述的一种基于实时话单大数据的诈骗号码识别方法，其特征在于：所述S3具体包括：

Ts＝(Math.floor(Tx–T0)/T)*T+T0；

Te＝Ts+T；

其中，Ts代表T时段开始时间，Te代表T时段结束时间。

4.根据权利要求3所述的一种基于实时话单大数据的诈骗号码识别方法，其特征在于：所述S4中的超过边界的数据具体包括：

通话次数<MIN(已知诈骗号码通话次数)/2；

被叫次数>MAX(已知诈骗号码被叫次数)*2。

5.根据权利要求1所述的一种基于实时话单大数据的诈骗号码识别方法，其特征在于：所述S5中的常量化的指标包括共用IMEI、位于可疑基站以及位于可信基站。

6.根据权利要求5所述的一种基于实时话单大数据的诈骗号码识别方法，其特征在于：所述S5中的非常量指标包括通联总数、主叫频繁、呼叫对象分散度、呼叫号码归属地分散度、基站位置不变以及近期活跃度。

7.根据权利要求1所述的一种基于实时话单大数据的诈骗号码识别方法，其特征在于：所述S7具体包括：通过总的可疑度从高到低进行排序，对可疑号码拨打电话，以验证可疑号码是否为诈骗号码，若确认为诈骗号码，则对历史诈骗号码库、可疑基站库以及可疑IMEI库的数据进行迭代更新，若确认为正常推广号码，则对正常营销推广号码库和正常营销推广基站库的数据进行迭代更新。

8.一种基于实时话单大数据的诈骗号码识别装置，其特征在于：所述装置包括：

话单大数据知识库模块，配置用于建立话单大数据知识库；

边界数据过滤模块，配置用于过滤超过边界的数据；

对于常量化的指标：

P(x)＝(Mp/Np)；

G(x)＝(Ma/Na)；

对于非常量指标：

所述可疑度计算模块还用于累加各指标权重得到总的可疑度：

9.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。