CN114205462A

CN114205462A - 一种诈骗电话识别方法、装置、系统及计算机存储介质

Info

Publication number: CN114205462A
Application number: CN202111526088.7A
Authority: CN
Inventors: 王晨; 包森成; 余娜; 徐强; 王健; 葛胜利
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2022-03-18

Abstract

本发明公开一种诈骗电话识别方法、装置、系统及计算机存储介质。其中，该方法包括：获取当前场景下的训练样本数据集和测试样本数据集；将训练样本数据集进行多维度特征提取得到的多个第一特征通过随机森林算法进行模型训练，得到检测模型；将测试样本数据集输入到检测模型中并对检测模型进行参数优化，以得到更新的检测模型以及模型预测结果；根据多个评价指标对模型预测结果进行评估，判断检测模型是否可行；当检测模型可行时，将待预测号码进行多维度特征提取得到的多个第二特征输入到更新的检测模型中进行预测，得到待预测号码为异常的概率P；将概率P与预设阈值进行比较，根据比较结果判断待预测号码是否为异常。该方法时效性长，准确率高。

Description

一种诈骗电话识别方法、装置、系统及计算机存储介质

技术领域

本发明涉及网络安全技术领域，具体而言，涉及一种诈骗电话识别方法、装置、系统及计算机存储介质。

背景技术

现有技术中，针对电信诈骗的号卡治理主要是基于名单库和业务规则两种方式进行研判。第一种通过黑白名单机制进行号卡过滤的方法，其有效性主要依赖于名单库的实效，该名单库通常是在事后再进入系统，研判的实效性和涉诈号卡捕获的全面性都有明显的短板。另一种是基于历史黑名单进行业务数据分析，提炼出地域属性、频次属性等的强业务规则，这类业务规则的研判方式则充分依赖于专家经验，存在着维护困难、拦截准确率不可预估等问题。

针对现有技术中通过黑名单机制进行号卡过滤的方法所存在的时效性短、不全面以及通过依赖专家经验进行研判存在的准确率低、维护困难的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例中提供一种诈骗电话识别方法、装置、系统及计算机存储介质，以解决现有技术中通过黑名单机制进行号卡过滤的方法所存在的时效性短、不全面以及通过依赖专家经验进行研判存在的准确率低、维护困难的问题。

为达到上述目的，一方面，本发明提供了一种诈骗电话识别方法，该方法包括：获取当前场景下的训练样本数据集和测试样本数据集；对所述训练样本数据集进行多维度特征提取，得到多个第一特征；将所述多个第一特征通过随机森林算法进行模型训练，得到检测模型；将所述测试样本数据集输入到所述检测模型中并对所述检测模型进行参数优化，以得到更新的检测模型以及模型预测结果；根据多个评价指标对所述模型预测结果进行评估，根据评估结果判断所述检测模型是否可行；当所述检测模型可行时，将待预测号码进行多维度特征提取，并将提取到的多个第二特征输入到所述更新的检测模型中进行预测，得到所述待预测的电话号码为异常的概率P；将所述概率P与预设阈值进行比较，根据比较结果判断所述待预测的电话号码是否为异常。

可选的，所述根据多个评价指标对所述模型预测结果进行评估，根据评估结果判断所述检测模型是否可行包括：当每个所述评价指标对所述模型预测结果的评估值均大于90分时，则判定所述检测模型可行。

可选的，所述多维度特征至少包括：通话特征、短信特征和流量特征。

可选的，所述对所述训练样本数据集进行多维度特征提取，得到多个第一特征包括：对所述训练样本数据集进行筛选，筛选出所述训练样本数据集中负样本占比更高的训练样本数据子集；对所述训练样本数据子集进行多维度特征提取，得到所述多个第一特征。

可选的，所述场景至少包括：沉默卡复活场景、异常漫游涉诈场景、新开卡涉诈场景。

另一方面，本发明提供了一种诈骗电话识别装置，该装置包括：

获取单元，用于获取当前场景下的训练样本数据集和测试样本数据集；训练单元，用于对所述训练样本数据集进行多维度特征提取，得到多个第一特征；将所述多个第一特征通过随机森林算法进行模型训练，得到检测模型；更新单元，用于将所述测试样本数据集输入到所述检测模型中并对所述检测模型进行参数优化，以得到更新的检测模型以及模型预测结果；评估单元，用于根据多个评价指标对所述模型预测结果进行评估，根据评估结果判断所述检测模型是否可行；预测单元，用于当所述检测模型可行时，将待预测号码进行多维度特征提取，并将提取到的多个第二特征输入到所述更新的检测模型中进行预测，得到所述待预测的电话号码为异常的概率P；判断单元，用于将所述概率P与预设阈值进行比较，根据比较结果判断所述待预测的电话号码是否为异常。

可选的，所述评估单元包括：评估子单元，用于当每个所述评价指标对所述模型预测结果的评估值均大于90分时，则判定所述检测模型可行。

可选的，所述训练单元包括：筛选子单元，用于对所述训练样本数据集进行筛选，筛选出所述训练样本数据集中负样本占比更高的训练样本数据子集；提取子单元，用于对所述训练样本数据子集进行多维度特征提取，得到所述多个第一特征。

另一方面，本发明还提供了一种诈骗电话识别系统，包括上述的诈骗电话识别装置。

另一方面，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述的诈骗电话识别方法。

本发明的有益效果：

本发明提供了一种诈骗电话识别方法，该方法包括：获取当前场景下的训练样本数据集和测试样本数据集；对所述训练样本数据集进行多维度特征提取，得到多个第一特征；将所述多个第一特征通过随机森林算法进行模型训练，得到检测模型；将所述测试样本数据集输入到所述检测模型中并对所述检测模型进行参数优化，以得到更新的检测模型以及模型预测结果；根据多个评价指标对所述模型预测结果进行评估，根据评估结果判断所述检测模型是否可行；当所述检测模型可行时，将待预测号码进行多维度特征提取，并将提取到的多个第二特征输入到所述更新的检测模型中进行预测，得到所述待预测的电话号码为异常的概率P；将所述概率P与预设阈值进行比较，根据比较结果判断所述待预测的电话号码是否为异常。

上述方法中，通过进行多维度特征提取，可以提高检测的准确率；将训练样本数据集通过随机森林算法进行模型训练得到检测模型，实时将待预测的号码输入到检测模型中进行预测，可以保证检测的全面性，以及通过该方法保证时效性长、后续维护方便。

附图说明

图1是本发明实施例提供的一种诈骗电话识别方法的流程图；

图2是本发明实施例提供的获取多个第一特征的流程图；

图3是本发明实施例提供的一种诈骗电话识别装置的结构示意图；

图4是本发明实施例提供的训练单元的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

因而，本发明提供了一种诈骗电话识别方法，图1是本发明实施例提供的一种诈骗电话识别方法的流程图，如图1所示，该方法包括：

S101.获取当前场景下的训练样本数据集和测试样本数据集；

在一个可选的实施方式中，所述场景至少包括：沉默卡复活场景、异常漫游涉诈场景、新开卡涉诈场景。

以下通过异步漫游涉诈场景进行说明：

获取该场景下的训练样本数据集和测试样本数据集。

S102.对所述训练样本数据集进行多维度特征提取，得到多个第一特征；将所述多个第一特征通过随机森林算法进行模型训练，得到检测模型；

所述对所述训练样本数据集进行多维度特征提取，得到多个第一特征包括：

S1021.对所述训练样本数据集进行筛选，筛选出所述训练样本数据集中负样本占比更高的训练样本数据子集；

例如：通话和流量活动的沉默周期、活跃周期在正常用户和涉诈用户之间的分布差异较大，正样本要远高于负样本占比。通话沉默周期为一个月到两个月之间，涉诈用户的占比是正常用户占比的1.98倍。类似的，流量沉默周期为14天到1个月之间，涉诈用户的占比是正常用户占比的1.2倍。

按照连续活跃天数来定义活跃周期，即按照诈骗电话号码从进入活跃状态，到暂时停止连续活跃之间的天数计算活跃周期。涉诈用户的活跃周期明显小于正常用户。94.0％的涉诈用户最长连续活跃天数不超过30天；而仅7.25％的正常用户最长连续活跃天数不超过7天，有 62.88％的正常用户最长连续活跃天数都超过了30天。

由此可得，对训练样本数据集筛选时，采用通话沉默30天或流量沉默14天或连续活跃天数不超过7天来筛选出训练样本数据子集。筛选掉的均为正样本，因而，负样本占比更高，样本不均衡性明显减少。

S1022.对所述训练样本数据子集进行多维度特征提取，得到所述多个第一特征。

具体的，所述多维度特征至少包括：通话特征、短信特征和流量特征。

所述通话特征至少包括：主叫/被叫次数占比；仅被叫无主叫/被叫多于主叫；持续时间；主叫/被叫的基站离散度；呼入/拨出号码离散度；通话频率峰值/波动率；通话活跃度；本地/漫游通话主叫/被叫频次；漫游城市离散度；通话时段/通话时长偏好。

所述短信特征包括：除收发短信外其他短信操作频次；发送短信次数占比；本地发送短信频次；短信发送的对端号码离散度；所有短信操作的对端号码离散度；除收发短信外其他短信操作的对端号码离散度。

所述流量特征包括：跨省漫游流量活跃小时数；省内漫游流量活跃小时数；流量地省份离散度；流量基站离散度；上行流量占比；下行流量占比，流量行为活跃度；上行流量波动离散度；下行流量波动离散度。

将得到的所述多个第一特征通过随机森林算法进行模型训练，得到检测模型；本发明中，由于筛选后的训练样本数据子集相较于训练样本数据集减少，在后续对所述训练样本数据子集进行多维度特征提取时，第一特征减少，从而减少了数据处理难度，加快了后续模型训练过程。

随机森林是将多个决策树的结果进行集成，每棵树都随机选取部分数量的第一特征以及部分数量的第一特征属性进行决策，最终结果是由多个决策树投票产生。

S103.将所述测试样本数据集输入到所述检测模型中并对所述检测模型进行参数优化，以得到更新的检测模型以及模型预测结果；

在一个可选的实施方式中，将测试样本数据集输入到所述检测模型中做预测，得到模型预测结果；同时使用网格搜索、随机搜索等方法对检测模型进行参数优化，以得到更新的检测模型。

S104.根据多个评价指标对所述模型预测结果进行评估，根据评估结果判断所述检测模型是否可行；

具体的，所述评价指标至少包括：precision(准确率)评价指标， recall(召回率)评价指标，F1-score(精确率和召回率的调和平均数) 评价指标。当每个所述评价指标对所述模型预测结果的评估值均大于 90分时，则判定所述检测模型可行。

S105.当所述检测模型可行时，将待预测的电话号码进行多维度特征提取，并将提取到的多个第二特征输入到所述更新的检测模型中进行预测，得到所述待预测的电话号码为异常的概率P；

S106.将所述概率P与预设阈值进行比较，根据比较结果判断所述待预测的电话号码是否为异常。

在一个可选的实施方式中，本发明中采用Eli5算法对待预测的电话号码的预测结果进行解释。由于第二特征维度多，不同的第二特征其贡献度(即异常表现)不同，将第二特征贡献度进行倒序排列，前几个贡献度对应的第二特征为影响待预测的电话号码预测结果的主要特征。

图3是本发明实施例提供的一种诈骗电话识别装置的结构示意图，如图3所示，该装置包括：

获取单元201，用于获取当前场景下的训练样本数据集和测试样本数据集；

以下通过异步漫游涉诈场景进行说明：

获取该场景下的训练样本数据集和测试样本数据集。

训练单元202，用于对所述训练样本数据集进行多维度特征提取，得到多个第一特征；将所述多个第一特征通过随机森林算法进行模型训练，得到检测模型；

在一个可选的实施方式中，图4是本发明实施例提供的训练单元的结构示意图，如图4所示，所述训练单元202包括：

筛选子单元2021，用于对所述训练样本数据集进行筛选，筛选出所述训练样本数据集中负样本占比更高的训练样本数据子集；

提取子单元2022，用于对所述训练样本数据子集进行多维度特征提取，得到所述多个第一特征。

更新单元203，用于将所述测试样本数据集输入到所述检测模型中并对所述检测模型进行参数优化，以得到更新的检测模型以及模型预测结果；

评估单元204，用于根据多个评价指标对所述模型预测结果进行评估，根据评估结果判断所述检测模型是否可行；

预测单元205，用于当所述检测模型可行时，将待预测的电话号码进行多维度特征提取，并将提取到的多个第二特征输入到所述更新的检测模型中进行预测，得到所述待预测的电话号码为异常的概率P；

判断单元206，用于将所述概率P与预设阈值进行比较，根据比较结果判断所述待预测的电话号码是否为异常。

本发明还提供了一种诈骗电话识别系统，包括上述的诈骗电话识别装置。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述的诈骗电话识别方法。

上述存储介质中存储有上述软件，该存储介质包括但不限于：光盘、软盘、硬盘、可擦写存储器等。

本发明的有益效果：

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种诈骗电话识别方法，其特征在于，包括：

获取当前场景下的训练样本数据集和测试样本数据集；

对所述训练样本数据集进行多维度特征提取，得到多个第一特征；将所述多个第一特征通过随机森林算法进行模型训练，得到检测模型；

将所述测试样本数据集输入到所述检测模型中并对所述检测模型进行参数优化，以得到更新的检测模型以及模型预测结果；

根据多个评价指标对所述模型预测结果进行评估，根据评估结果判断所述检测模型是否可行；

当所述检测模型可行时，将待预测的电话号码进行多维度特征提取，并将提取到的多个第二特征输入到所述更新的检测模型中进行预测，得到所述待预测的电话号码为异常的概率P；

将所述概率P与预设阈值进行比较，根据比较结果判断所述待预测的电话号码是否为异常。

2.根据权利要求1所述的方法，其特征在于，所述根据多个评价指标对所述模型预测结果进行评估，根据评估结果判断所述检测模型是否可行包括：

当每个所述评价指标对所述模型预测结果的评估值均大于90分时，则判定所述检测模型可行。

3.根据权利要求1所述的方法，其特征在于：

所述多维度特征至少包括：通话特征、短信特征和流量特征。

4.根据权利要求1所述的方法，其特征在于，所述对所述训练样本数据集进行多维度特征提取，得到多个第一特征包括：

对所述训练样本数据集进行筛选，筛选出所述训练样本数据集中负样本占比更高的训练样本数据子集；

对所述训练样本数据子集进行多维度特征提取，得到所述多个第一特征。

5.根据权利要求1所述的方法，其特征在于：

所述场景至少包括：沉默卡复活场景、异常漫游涉诈场景、新开卡涉诈场景。

6.一种诈骗电话识别装置，其特征在于，包括：

获取单元，用于获取当前场景下的训练样本数据集和测试样本数据集；

训练单元，用于对所述训练样本数据集进行多维度特征提取，得到多个第一特征；将所述多个第一特征通过随机森林算法进行模型训练，得到检测模型；

更新单元，用于将所述测试样本数据集输入到所述检测模型中并对所述检测模型进行参数优化，以得到更新的检测模型以及模型预测结果；

评估单元，用于根据多个评价指标对所述模型预测结果进行评估，根据评估结果判断所述检测模型是否可行；

预测单元，用于当所述检测模型可行时，将待预测的电话号码进行多维度特征提取，并将提取到的多个第二特征输入到所述更新的检测模型中进行预测，得到所述待预测的电话号码为异常的概率P；

判断单元，用于将所述概率P与预设阈值进行比较，根据比较结果判断所述待预测的电话号码是否为异常。

7.根据权利要求6所述的装置，其特征在于，所述评估单元包括：

评估子单元，用于当每个所述评价指标对所述模型预测结果的评估值均大于90分时，则判定所述检测模型可行。

8.根据权利要求6所述的装置，其特征在于，所述训练单元包括：

筛选子单元，用于对所述训练样本数据集进行筛选，筛选出所述训练样本数据集中负样本占比更高的训练样本数据子集；

提取子单元，用于对所述训练样本数据子集进行多维度特征提取，得到所述多个第一特征。

9.一种诈骗电话识别系统，其特征在于，包括：权利要求6-8任一项所述的诈骗电话识别装置。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至5中任一项所述的诈骗电话识别方法。