CN114205462A - 一种诈骗电话识别方法、装置、系统及计算机存储介质 - Google Patents
一种诈骗电话识别方法、装置、系统及计算机存储介质 Download PDFInfo
- Publication number
- CN114205462A CN114205462A CN202111526088.7A CN202111526088A CN114205462A CN 114205462 A CN114205462 A CN 114205462A CN 202111526088 A CN202111526088 A CN 202111526088A CN 114205462 A CN114205462 A CN 114205462A
- Authority
- CN
- China
- Prior art keywords
- sample data
- detection model
- data set
- model
- training sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000001514 detection method Methods 0.000 claims abstract description 87
- 238000012549 training Methods 0.000 claims abstract description 82
- 238000011156 evaluation Methods 0.000 claims abstract description 48
- 238000000605 extraction Methods 0.000 claims abstract description 26
- 230000002159 abnormal effect Effects 0.000 claims abstract description 24
- 238000012360 testing method Methods 0.000 claims abstract description 22
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 15
- 238000007637 random forest analysis Methods 0.000 claims abstract description 15
- 238000005457 optimization Methods 0.000 claims abstract description 11
- 238000012216 screening Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 3
- 239000006185 dispersion Substances 0.000 description 16
- 230000000694 effects Effects 0.000 description 14
- 238000012423 maintenance Methods 0.000 description 6
- 238000003066 decision tree Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000030279 gene silencing Effects 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
- H04M3/2281—Call monitoring, e.g. for law enforcement purposes; Call tracing; Detection or prevention of malicious calls
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Security & Cryptography (AREA)
- Technology Law (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开一种诈骗电话识别方法、装置、系统及计算机存储介质。其中,该方法包括:获取当前场景下的训练样本数据集和测试样本数据集;将训练样本数据集进行多维度特征提取得到的多个第一特征通过随机森林算法进行模型训练,得到检测模型;将测试样本数据集输入到检测模型中并对检测模型进行参数优化,以得到更新的检测模型以及模型预测结果;根据多个评价指标对模型预测结果进行评估,判断检测模型是否可行;当检测模型可行时,将待预测号码进行多维度特征提取得到的多个第二特征输入到更新的检测模型中进行预测,得到待预测号码为异常的概率P;将概率P与预设阈值进行比较,根据比较结果判断待预测号码是否为异常。该方法时效性长,准确率高。
Description
技术领域
本发明涉及网络安全技术领域,具体而言,涉及一种诈骗电话识 别方法、装置、系统及计算机存储介质。
背景技术
现有技术中,针对电信诈骗的号卡治理主要是基于名单库和业务 规则两种方式进行研判。第一种通过黑白名单机制进行号卡过滤的方 法,其有效性主要依赖于名单库的实效,该名单库通常是在事后再进 入系统,研判的实效性和涉诈号卡捕获的全面性都有明显的短板。另 一种是基于历史黑名单进行业务数据分析,提炼出地域属性、频次属 性等的强业务规则,这类业务规则的研判方式则充分依赖于专家经验, 存在着维护困难、拦截准确率不可预估等问题。
针对现有技术中通过黑名单机制进行号卡过滤的方法所存在的时 效性短、不全面以及通过依赖专家经验进行研判存在的准确率低、维 护困难的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例中提供一种诈骗电话识别方法、装置、系统及计算 机存储介质,以解决现有技术中通过黑名单机制进行号卡过滤的方法 所存在的时效性短、不全面以及通过依赖专家经验进行研判存在的准 确率低、维护困难的问题。
为达到上述目的,一方面,本发明提供了一种诈骗电话识别方法, 该方法包括:获取当前场景下的训练样本数据集和测试样本数据集; 对所述训练样本数据集进行多维度特征提取,得到多个第一特征;将 所述多个第一特征通过随机森林算法进行模型训练,得到检测模型; 将所述测试样本数据集输入到所述检测模型中并对所述检测模型进行 参数优化,以得到更新的检测模型以及模型预测结果;根据多个评价 指标对所述模型预测结果进行评估,根据评估结果判断所述检测模型 是否可行;当所述检测模型可行时,将待预测号码进行多维度特征提 取,并将提取到的多个第二特征输入到所述更新的检测模型中进行预 测,得到所述待预测的电话号码为异常的概率P;将所述概率P与预 设阈值进行比较,根据比较结果判断所述待预测的电话号码是否为异 常。
可选的,所述根据多个评价指标对所述模型预测结果进行评估, 根据评估结果判断所述检测模型是否可行包括:当每个所述评价指标 对所述模型预测结果的评估值均大于90分时,则判定所述检测模型可 行。
可选的,所述多维度特征至少包括:通话特征、短信特征和流量 特征。
可选的,所述对所述训练样本数据集进行多维度特征提取,得到 多个第一特征包括:对所述训练样本数据集进行筛选,筛选出所述训 练样本数据集中负样本占比更高的训练样本数据子集;对所述训练样 本数据子集进行多维度特征提取,得到所述多个第一特征。
可选的,所述场景至少包括:沉默卡复活场景、异常漫游涉诈场 景、新开卡涉诈场景。
另一方面,本发明提供了一种诈骗电话识别装置,该装置包括:
获取单元,用于获取当前场景下的训练样本数据集和测试样本数 据集;训练单元,用于对所述训练样本数据集进行多维度特征提取, 得到多个第一特征;将所述多个第一特征通过随机森林算法进行模型 训练,得到检测模型;更新单元,用于将所述测试样本数据集输入到 所述检测模型中并对所述检测模型进行参数优化,以得到更新的检测 模型以及模型预测结果;评估单元,用于根据多个评价指标对所述模 型预测结果进行评估,根据评估结果判断所述检测模型是否可行;预 测单元,用于当所述检测模型可行时,将待预测号码进行多维度特征 提取,并将提取到的多个第二特征输入到所述更新的检测模型中进行 预测,得到所述待预测的电话号码为异常的概率P;判断单元,用于将 所述概率P与预设阈值进行比较,根据比较结果判断所述待预测的电话 号码是否为异常。
可选的,所述评估单元包括:评估子单元,用于当每个所述评价 指标对所述模型预测结果的评估值均大于90分时,则判定所述检测模 型可行。
可选的,所述训练单元包括:筛选子单元,用于对所述训练样本 数据集进行筛选,筛选出所述训练样本数据集中负样本占比更高的训 练样本数据子集;提取子单元,用于对所述训练样本数据子集进行多 维度特征提取,得到所述多个第一特征。
另一方面,本发明还提供了一种诈骗电话识别系统,包括上述的 诈骗电话识别装置。
另一方面,本发明还提供了一种计算机可读存储介质,其上存储 有计算机程序,所述程序被处理器执行时实现上述的诈骗电话识别方 法。
本发明的有益效果:
本发明提供了一种诈骗电话识别方法,该方法包括:获取当前场 景下的训练样本数据集和测试样本数据集;对所述训练样本数据集进 行多维度特征提取,得到多个第一特征;将所述多个第一特征通过随 机森林算法进行模型训练,得到检测模型;将所述测试样本数据集输 入到所述检测模型中并对所述检测模型进行参数优化,以得到更新的 检测模型以及模型预测结果;根据多个评价指标对所述模型预测结果 进行评估,根据评估结果判断所述检测模型是否可行;当所述检测模 型可行时,将待预测号码进行多维度特征提取,并将提取到的多个第 二特征输入到所述更新的检测模型中进行预测,得到所述待预测的电 话号码为异常的概率P;将所述概率P与预设阈值进行比较,根据比较 结果判断所述待预测的电话号码是否为异常。
上述方法中,通过进行多维度特征提取,可以提高检测的准确率; 将训练样本数据集通过随机森林算法进行模型训练得到检测模型,实 时将待预测的号码输入到检测模型中进行预测,可以保证检测的全面 性,以及通过该方法保证时效性长、后续维护方便。
附图说明
图1是本发明实施例提供的一种诈骗电话识别方法的流程图;
图2是本发明实施例提供的获取多个第一特征的流程图;
图3是本发明实施例提供的一种诈骗电话识别装置的结构示意图;
图4是本发明实施例提供的训练单元的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附 图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发 明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本 领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实 施例,都属于本发明保护的范围。
现有技术中,针对电信诈骗的号卡治理主要是基于名单库和业务 规则两种方式进行研判。第一种通过黑白名单机制进行号卡过滤的方 法,其有效性主要依赖于名单库的实效,该名单库通常是在事后再进 入系统,研判的实效性和涉诈号卡捕获的全面性都有明显的短板。另 一种是基于历史黑名单进行业务数据分析,提炼出地域属性、频次属 性等的强业务规则,这类业务规则的研判方式则充分依赖于专家经验, 存在着维护困难、拦截准确率不可预估等问题。
因而,本发明提供了一种诈骗电话识别方法,图1是本发明实施 例提供的一种诈骗电话识别方法的流程图,如图1所示,该方法包括:
S101.获取当前场景下的训练样本数据集和测试样本数据集;
在一个可选的实施方式中,所述场景至少包括:沉默卡复活场景、 异常漫游涉诈场景、新开卡涉诈场景。
以下通过异步漫游涉诈场景进行说明:
获取该场景下的训练样本数据集和测试样本数据集。
S102.对所述训练样本数据集进行多维度特征提取,得到多个第一 特征;将所述多个第一特征通过随机森林算法进行模型训练,得到检 测模型;
所述对所述训练样本数据集进行多维度特征提取,得到多个第一 特征包括:
S1021.对所述训练样本数据集进行筛选,筛选出所述训练样本数据 集中负样本占比更高的训练样本数据子集;
例如:通话和流量活动的沉默周期、活跃周期在正常用户和涉诈 用户之间的分布差异较大,正样本要远高于负样本占比。通话沉默周 期为一个月到两个月之间,涉诈用户的占比是正常用户占比的1.98倍。 类似的,流量沉默周期为14天到1个月之间,涉诈用户的占比是正常用 户占比的1.2倍。
按照连续活跃天数来定义活跃周期,即按照诈骗电话号码从进入 活跃状态,到暂时停止连续活跃之间的天数计算活跃周期。涉诈用户 的活跃周期明显小于正常用户。94.0%的涉诈用户最长连续活跃天数不 超过30天;而仅7.25%的正常用户最长连续活跃天数不超过7天,有 62.88%的正常用户最长连续活跃天数都超过了30天。
由此可得,对训练样本数据集筛选时,采用通话沉默30天或流量 沉默14天或连续活跃天数不超过7天来筛选出训练样本数据子集。筛选 掉的均为正样本,因而,负样本占比更高,样本不均衡性明显减少。
S1022.对所述训练样本数据子集进行多维度特征提取,得到所述多 个第一特征。
具体的,所述多维度特征至少包括:通话特征、短信特征和流量 特征。
所述通话特征至少包括:主叫/被叫次数占比;仅被叫无主叫/被 叫多于主叫;持续时间;主叫/被叫的基站离散度;呼入/拨出号码离 散度;通话频率峰值/波动率;通话活跃度;本地/漫游通话主叫/被叫 频次;漫游城市离散度;通话时段/通话时长偏好。
所述短信特征包括:除收发短信外其他短信操作频次;发送短信 次数占比;本地发送短信频次;短信发送的对端号码离散度;所有短 信操作的对端号码离散度;除收发短信外其他短信操作的对端号码离 散度。
所述流量特征包括:跨省漫游流量活跃小时数;省内漫游流量活 跃小时数;流量地省份离散度;流量基站离散度;上行流量占比;下 行流量占比,流量行为活跃度;上行流量波动离散度;下行流量波动 离散度。
将得到的所述多个第一特征通过随机森林算法进行模型训练,得 到检测模型;本发明中,由于筛选后的训练样本数据子集相较于训练 样本数据集减少,在后续对所述训练样本数据子集进行多维度特征提 取时,第一特征减少,从而减少了数据处理难度,加快了后续模型训 练过程。
随机森林是将多个决策树的结果进行集成,每棵树都随机选取部 分数量的第一特征以及部分数量的第一特征属性进行决策,最终结果 是由多个决策树投票产生。
S103.将所述测试样本数据集输入到所述检测模型中并对所述检测 模型进行参数优化,以得到更新的检测模型以及模型预测结果;
在一个可选的实施方式中,将测试样本数据集输入到所述检测模 型中做预测,得到模型预测结果;同时使用网格搜索、随机搜索等方 法对检测模型进行参数优化,以得到更新的检测模型。
S104.根据多个评价指标对所述模型预测结果进行评估,根据评估 结果判断所述检测模型是否可行;
具体的,所述评价指标至少包括:precision(准确率)评价指标, recall(召回率)评价指标,F1-score(精确率和召回率的调和平均数) 评价指标。当每个所述评价指标对所述模型预测结果的评估值均大于 90分时,则判定所述检测模型可行。
S105.当所述检测模型可行时,将待预测的电话号码进行多维度特 征提取,并将提取到的多个第二特征输入到所述更新的检测模型中进 行预测,得到所述待预测的电话号码为异常的概率P;
S106.将所述概率P与预设阈值进行比较,根据比较结果判断所述待 预测的电话号码是否为异常。
在一个可选的实施方式中,本发明中采用Eli5算法对待预测的电 话号码的预测结果进行解释。由于第二特征维度多,不同的第二特征 其贡献度(即异常表现)不同,将第二特征贡献度进行倒序排列,前 几个贡献度对应的第二特征为影响待预测的电话号码预测结果的主要 特征。
图3是本发明实施例提供的一种诈骗电话识别装置的结构示意图, 如图3所示,该装置包括:
获取单元201,用于获取当前场景下的训练样本数据集和测试样本 数据集;
在一个可选的实施方式中,所述场景至少包括:沉默卡复活场景、 异常漫游涉诈场景、新开卡涉诈场景。
以下通过异步漫游涉诈场景进行说明:
获取该场景下的训练样本数据集和测试样本数据集。
训练单元202,用于对所述训练样本数据集进行多维度特征提取, 得到多个第一特征;将所述多个第一特征通过随机森林算法进行模型 训练,得到检测模型;
在一个可选的实施方式中,图4是本发明实施例提供的训练单元 的结构示意图,如图4所示,所述训练单元202包括:
筛选子单元2021,用于对所述训练样本数据集进行筛选,筛选出 所述训练样本数据集中负样本占比更高的训练样本数据子集;
例如:通话和流量活动的沉默周期、活跃周期在正常用户和涉诈 用户之间的分布差异较大,正样本要远高于负样本占比。通话沉默周 期为一个月到两个月之间,涉诈用户的占比是正常用户占比的1.98倍。 类似的,流量沉默周期为14天到1个月之间,涉诈用户的占比是正常用 户占比的1.2倍。
按照连续活跃天数来定义活跃周期,即按照诈骗电话号码从进入 活跃状态,到暂时停止连续活跃之间的天数计算活跃周期。涉诈用户 的活跃周期明显小于正常用户。94.0%的涉诈用户最长连续活跃天数不 超过30天;而仅7.25%的正常用户最长连续活跃天数不超过7天,有 62.88%的正常用户最长连续活跃天数都超过了30天。
由此可得,对训练样本数据集筛选时,采用通话沉默30天或流量 沉默14天或连续活跃天数不超过7天来筛选出训练样本数据子集。筛选 掉的均为正样本,因而,负样本占比更高,样本不均衡性明显减少。
提取子单元2022,用于对所述训练样本数据子集进行多维度特征 提取,得到所述多个第一特征。
具体的,所述多维度特征至少包括:通话特征、短信特征和流量 特征。
所述通话特征至少包括:主叫/被叫次数占比;仅被叫无主叫/被 叫多于主叫;持续时间;主叫/被叫的基站离散度;呼入/拨出号码离 散度;通话频率峰值/波动率;通话活跃度;本地/漫游通话主叫/被叫 频次;漫游城市离散度;通话时段/通话时长偏好。
所述短信特征包括:除收发短信外其他短信操作频次;发送短信 次数占比;本地发送短信频次;短信发送的对端号码离散度;所有短 信操作的对端号码离散度;除收发短信外其他短信操作的对端号码离 散度。
所述流量特征包括:跨省漫游流量活跃小时数;省内漫游流量活 跃小时数;流量地省份离散度;流量基站离散度;上行流量占比;下 行流量占比,流量行为活跃度;上行流量波动离散度;下行流量波动 离散度。
将得到的所述多个第一特征通过随机森林算法进行模型训练,得 到检测模型;本发明中,由于筛选后的训练样本数据子集相较于训练 样本数据集减少,在后续对所述训练样本数据子集进行多维度特征提 取时,第一特征减少,从而减少了数据处理难度,加快了后续模型训 练过程。
随机森林是将多个决策树的结果进行集成,每棵树都随机选取部 分数量的第一特征以及部分数量的第一特征属性进行决策,最终结果 是由多个决策树投票产生。
更新单元203,用于将所述测试样本数据集输入到所述检测模型中 并对所述检测模型进行参数优化,以得到更新的检测模型以及模型预 测结果;
在一个可选的实施方式中,将测试样本数据集输入到所述检测模 型中做预测,得到模型预测结果;同时使用网格搜索、随机搜索等方 法对检测模型进行参数优化,以得到更新的检测模型。
评估单元204,用于根据多个评价指标对所述模型预测结果进行评 估,根据评估结果判断所述检测模型是否可行;
具体的,所述评价指标至少包括:precision(准确率)评价指标, recall(召回率)评价指标,F1-score(精确率和召回率的调和平均数) 评价指标。当每个所述评价指标对所述模型预测结果的评估值均大于 90分时,则判定所述检测模型可行。
预测单元205,用于当所述检测模型可行时,将待预测的电话号码 进行多维度特征提取,并将提取到的多个第二特征输入到所述更新的 检测模型中进行预测,得到所述待预测的电话号码为异常的概率P;
判断单元206,用于将所述概率P与预设阈值进行比较,根据比较 结果判断所述待预测的电话号码是否为异常。
在一个可选的实施方式中,本发明中采用Eli5算法对待预测的电 话号码的预测结果进行解释。由于第二特征维度多,不同的第二特征 其贡献度(即异常表现)不同,将第二特征贡献度进行倒序排列,前 几个贡献度对应的第二特征为影响待预测的电话号码预测结果的主要 特征。
本发明还提供了一种诈骗电话识别系统,包括上述的诈骗电话识 别装置。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程 序,所述程序被处理器执行时实现上述的诈骗电话识别方法。
上述存储介质中存储有上述软件,该存储介质包括但不限于:光 盘、软盘、硬盘、可擦写存储器等。
本发明的有益效果:
本发明提供了一种诈骗电话识别方法,该方法包括:获取当前场 景下的训练样本数据集和测试样本数据集;对所述训练样本数据集进 行多维度特征提取,得到多个第一特征;将所述多个第一特征通过随 机森林算法进行模型训练,得到检测模型;将所述测试样本数据集输 入到所述检测模型中并对所述检测模型进行参数优化,以得到更新的 检测模型以及模型预测结果;根据多个评价指标对所述模型预测结果 进行评估,根据评估结果判断所述检测模型是否可行;当所述检测模 型可行时,将待预测号码进行多维度特征提取,并将提取到的多个第 二特征输入到所述更新的检测模型中进行预测,得到所述待预测的电 话号码为异常的概率P;将所述概率P与预设阈值进行比较,根据比较 结果判断所述待预测的电话号码是否为异常。
上述方法中,通过进行多维度特征提取,可以提高检测的准确率; 将训练样本数据集通过随机森林算法进行模型训练得到检测模型,实 时将待预测的号码输入到检测模型中进行预测,可以保证检测的全面 性,以及通过该方法保证时效性长、后续维护方便。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而 非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领 域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技 术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修 改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方 案的精神和范围。
Claims (10)
1.一种诈骗电话识别方法,其特征在于,包括:
获取当前场景下的训练样本数据集和测试样本数据集;
对所述训练样本数据集进行多维度特征提取,得到多个第一特征;将所述多个第一特征通过随机森林算法进行模型训练,得到检测模型;
将所述测试样本数据集输入到所述检测模型中并对所述检测模型进行参数优化,以得到更新的检测模型以及模型预测结果;
根据多个评价指标对所述模型预测结果进行评估,根据评估结果判断所述检测模型是否可行;
当所述检测模型可行时,将待预测的电话号码进行多维度特征提取,并将提取到的多个第二特征输入到所述更新的检测模型中进行预测,得到所述待预测的电话号码为异常的概率P;
将所述概率P与预设阈值进行比较,根据比较结果判断所述待预测的电话号码是否为异常。
2.根据权利要求1所述的方法,其特征在于,所述根据多个评价指标对所述模型预测结果进行评估,根据评估结果判断所述检测模型是否可行包括:
当每个所述评价指标对所述模型预测结果的评估值均大于90分时,则判定所述检测模型可行。
3.根据权利要求1所述的方法,其特征在于:
所述多维度特征至少包括:通话特征、短信特征和流量特征。
4.根据权利要求1所述的方法,其特征在于,所述对所述训练样本数据集进行多维度特征提取,得到多个第一特征包括:
对所述训练样本数据集进行筛选,筛选出所述训练样本数据集中负样本占比更高的训练样本数据子集;
对所述训练样本数据子集进行多维度特征提取,得到所述多个第一特征。
5.根据权利要求1所述的方法,其特征在于:
所述场景至少包括:沉默卡复活场景、异常漫游涉诈场景、新开卡涉诈场景。
6.一种诈骗电话识别装置,其特征在于,包括:
获取单元,用于获取当前场景下的训练样本数据集和测试样本数据集;
训练单元,用于对所述训练样本数据集进行多维度特征提取,得到多个第一特征;将所述多个第一特征通过随机森林算法进行模型训练,得到检测模型;
更新单元,用于将所述测试样本数据集输入到所述检测模型中并对所述检测模型进行参数优化,以得到更新的检测模型以及模型预测结果;
评估单元,用于根据多个评价指标对所述模型预测结果进行评估,根据评估结果判断所述检测模型是否可行;
预测单元,用于当所述检测模型可行时,将待预测的电话号码进行多维度特征提取,并将提取到的多个第二特征输入到所述更新的检测模型中进行预测,得到所述待预测的电话号码为异常的概率P;
判断单元,用于将所述概率P与预设阈值进行比较,根据比较结果判断所述待预测的电话号码是否为异常。
7.根据权利要求6所述的装置,其特征在于,所述评估单元包括:
评估子单元,用于当每个所述评价指标对所述模型预测结果的评估值均大于90分时,则判定所述检测模型可行。
8.根据权利要求6所述的装置,其特征在于,所述训练单元包括:
筛选子单元,用于对所述训练样本数据集进行筛选,筛选出所述训练样本数据集中负样本占比更高的训练样本数据子集;
提取子单元,用于对所述训练样本数据子集进行多维度特征提取,得到所述多个第一特征。
9.一种诈骗电话识别系统,其特征在于,包括:权利要求6-8任一项所述的诈骗电话识别装置。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至5中任一项所述的诈骗电话识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111526088.7A CN114205462A (zh) | 2021-12-14 | 2021-12-14 | 一种诈骗电话识别方法、装置、系统及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111526088.7A CN114205462A (zh) | 2021-12-14 | 2021-12-14 | 一种诈骗电话识别方法、装置、系统及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114205462A true CN114205462A (zh) | 2022-03-18 |
Family
ID=80653469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111526088.7A Pending CN114205462A (zh) | 2021-12-14 | 2021-12-14 | 一种诈骗电话识别方法、装置、系统及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114205462A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114549026A (zh) * | 2022-04-26 | 2022-05-27 | 浙江鹏信信息科技股份有限公司 | 基于算法组件库分析的未知诈骗的识别方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107506776A (zh) * | 2017-01-16 | 2017-12-22 | 恒安嘉新(北京)科技股份公司 | 一种诈骗电话号码的分析方法 |
CN110113757A (zh) * | 2019-05-07 | 2019-08-09 | 中国联合网络通信集团有限公司 | 欺诈用户识别方法及系统 |
KR20200081950A (ko) * | 2018-12-28 | 2020-07-08 | 서울여자대학교 산학협력단 | 보이스피싱 탐지 방법, 보이스피싱 탐지 장치 및 기록 매체 |
CN111654866A (zh) * | 2020-05-29 | 2020-09-11 | 北京合力思腾科技股份有限公司 | 移动通讯防诈骗的方法、装置及计算机存储介质 |
CN112291424A (zh) * | 2020-10-29 | 2021-01-29 | 上海观安信息技术股份有限公司 | 一种诈骗号码识别方法、装置、计算机设备及存储介质 |
CN113435664A (zh) * | 2021-07-15 | 2021-09-24 | 广东电网有限责任公司 | 一种电费异常数据分析方法、装置、终端设备及介质 |
CN113556422A (zh) * | 2020-04-21 | 2021-10-26 | 亚信科技(南京)有限公司 | 电信欺诈的识别方法、装置、设备及计算机存储介质 |
-
2021
- 2021-12-14 CN CN202111526088.7A patent/CN114205462A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107506776A (zh) * | 2017-01-16 | 2017-12-22 | 恒安嘉新(北京)科技股份公司 | 一种诈骗电话号码的分析方法 |
KR20200081950A (ko) * | 2018-12-28 | 2020-07-08 | 서울여자대학교 산학협력단 | 보이스피싱 탐지 방법, 보이스피싱 탐지 장치 및 기록 매체 |
CN110113757A (zh) * | 2019-05-07 | 2019-08-09 | 中国联合网络通信集团有限公司 | 欺诈用户识别方法及系统 |
CN113556422A (zh) * | 2020-04-21 | 2021-10-26 | 亚信科技(南京)有限公司 | 电信欺诈的识别方法、装置、设备及计算机存储介质 |
CN111654866A (zh) * | 2020-05-29 | 2020-09-11 | 北京合力思腾科技股份有限公司 | 移动通讯防诈骗的方法、装置及计算机存储介质 |
CN112291424A (zh) * | 2020-10-29 | 2021-01-29 | 上海观安信息技术股份有限公司 | 一种诈骗号码识别方法、装置、计算机设备及存储介质 |
CN113435664A (zh) * | 2021-07-15 | 2021-09-24 | 广东电网有限责任公司 | 一种电费异常数据分析方法、装置、终端设备及介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114549026A (zh) * | 2022-04-26 | 2022-05-27 | 浙江鹏信信息科技股份有限公司 | 基于算法组件库分析的未知诈骗的识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109600752B (zh) | 一种深度聚类诈骗检测的方法和装置 | |
WO2016197675A1 (zh) | 骚扰电话的识别方法及装置 | |
CN108462785B (zh) | 一种恶意呼叫电话的处理方法及装置 | |
CN109168168B (zh) | 一种检测国际盗打的方法 | |
CN101715192B (zh) | 滤除垃圾电话的方法、装置和系统 | |
CN101686444A (zh) | 垃圾短信发送号码实时检测系统及方法 | |
CN104735272A (zh) | 一种骚扰电话的拦截方法及系统 | |
CN110611929A (zh) | 异常用户识别方法及装置 | |
CN101389085B (zh) | 基于发送行为的垃圾短消息识别系统及方法 | |
CN107092651B (zh) | 一种基于通信网络数据分析的关键人物挖掘方法及系统 | |
CN104853357A (zh) | 一种自动识别和触发诈骗号码的方法及系统 | |
CN114205462A (zh) | 一种诈骗电话识别方法、装置、系统及计算机存储介质 | |
CN111930808B (zh) | 一种利用键值匹配模型提高黑名单准确率的方法及系统 | |
CN114168423A (zh) | 异常号码的呼叫监控方法、装置、设备及存储介质 | |
CN112351429B (zh) | 基于深度学习的有害信息检测方法及系统 | |
CN109819125A (zh) | 一种限制电信诈骗的方法及装置 | |
CN114449106B (zh) | 一种异常电话号码的识别方法、装置、设备和存储介质 | |
CN116320159A (zh) | 骚扰诈骗号码识别处理方法、装置、电子设备及介质 | |
CN115659217A (zh) | 诈骗识别模型训练方法、装置、电子设备及存储介质 | |
CN116170537A (zh) | 一种信息处理方法、设备及存储介质 | |
CN112153220B (zh) | 一种基于社交评价动态更新的通信行为识别方法 | |
CN111131626B (zh) | 基于流数据图谱的群组有害呼叫检测方法、装置及可读介质 | |
CN113596260B (zh) | 异常电话号码检测方法和电子设备 | |
CN113517990B (zh) | 一种网络净推荐值nps的预测方法及装置 | |
CN112307075B (zh) | 用户关系识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |