CN109672678B

CN109672678B - 一种钓鱼网站识别方法及装置

Info

Publication number: CN109672678B
Application number: CN201811581089.XA
Authority: CN
Inventors: 余疆
Original assignee: Asiainfo Technologies China Inc
Current assignee: Chongqing Airui Intelligence Technology Co.,Ltd.
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2021-05-14
Anticipated expiration: 2038-12-24
Also published as: CN109672678A

Abstract

本申请公开钓鱼网站识别方法及装置，基于预先构建的钓鱼网站信息表对待识别网站进行钓鱼识别时，所采用的钓鱼网站信息表具体包括利用预定变换规则对至少一个模板网站地址进行变换后所得的具有潜在钓鱼风险的第一钓鱼网站地址以及已验证所对应的网站为钓鱼网站的第二钓鱼网站地址。由此可见，本申请在传统的生成钓鱼网站黑名单技术的基础上，还提出了利用预定变换规则对至少一个模板网站地址进行变换来得到各个可能的钓鱼网站地址，并将其扩展至所述钓鱼网站信息表中，该方式可实现前瞻性地对各个具有潜在钓鱼风险的可疑网站地址进行预测，能够有效改善现有技术中黑名单信息滞后性高的问题，同时可有效改善钓鱼网站的检测效果。

Description

一种钓鱼网站识别方法及装置

技术领域

本发明属于网络安全与信息安全技术领域，尤其涉及一种钓鱼网站识别方法及装置。

背景技术

网络钓鱼是一种企图从电子通信中，通过伪装成信誉卓著的法人媒体以获得如用户名、密码或信用卡明细等个人敏感信息的犯罪诈骗过程。一个典型的网络钓鱼攻击是发送声称来自于某银行的欺骗性垃圾邮件，引诱收信人点击到一个伪装成这个银行的网站(即钓鱼网站phishing site)，让用户输入如用户名、口令、银行账号或信用卡密码等个人信息。

自从钓鱼攻击出现以来，近年来钓鱼攻击的数量持续增加，范围不断增广，种类层出不穷，相应地引起了危害的迅速扩大，因此，钓鱼网站已经成为威胁互联网安全和窃取用户隐私信息的重要因素，相应地钓鱼网站的检测问题引起了越来越高的重视，成为了一个越来越迫切的问题。

基于黑/白名单手动验证的钓鱼检测技术是目前钓鱼检测的主要技术之一，也是应用时间较长的一种技术。该技术主要是维护一个已经出现过的钓鱼网站的黑名单和确定出属于正常网站的白名单，并在每次要访问某个网站时，通过将该待访问网站的地址与所维护名单中的地址信息进行比对，来获知该待访问网站的可疑情况。以黑名单检测技术为例，其中，黑名单列表中的信息都是经过手动验证确认为钓鱼网站的地址信息，对于一个给定的待访问网站，可将其地址与黑名单中的各个地址信息进行比对，若黑名单中存在与其相同的地址信息，则表示该待访问网站是钓鱼网站；而白名单检测方法则与黑名单检测方法相反，白名单中的地址信息都是经过验证的合法网站地址，如果待访问网站的地址在白名单中，则判定该待访问网站不是钓鱼网站。

由于在实际的网络环境中每天可能会产生成千上万的钓鱼网站，钓鱼网站产生速度较快，这就导致上述技术中基于手动验证方式所生成的黑名单中的信息具有很高的滞后性；且在上述的检测技术中，钓鱼网站的检测完全依赖于黑/白名单的手动验证，黑名单的质量将直接影响检测效果，但由于黑名单信息具有较高的滞后性，从而会导致钓鱼检测的检测效果受到影响。

发明内容

有鉴于此，本发明的目的在于提供一种钓鱼网站识别方法及装置，以用于克服现有基于黑/白名单的钓鱼检测技术所存在的黑名单信息滞后性高、进而影响钓鱼检测的检测效果等问题。

为此，本发明公开如下技术方案：

一种钓鱼网站识别方法，包括：

获取待识别网站对应的目标地址信息；

将所述待识别网站的目标地址信息与预先构建的钓鱼网站信息表中的网站地址信息进行匹配，得到匹配结果；其中，所述钓鱼网站信息表至少包括多个钓鱼网站地址，所述钓鱼网站地址包括：利用预定变换规则对至少一个模板网站地址进行变换后所得的具有潜在钓鱼风险的第一钓鱼网站地址以及已验证所对应网站为钓鱼网站的第二钓鱼网站地址，所述模板网站地址为正常网站地址和/或已验证所对应网站为钓鱼网站的网站地址；

基于匹配结果，确定所述待识别网站是否为钓鱼网站。

上述方法，优选的，在所述获取待识别网站对应的目标地址信息之前，还包括以下的预处理：

获取预定的至少一个重点领域中的品牌网站地址和/或已验证所对应网站为钓鱼网站的网站地址作为模板网站地址；

利用预定变换规则对所获取的各个模板网站地址进行变换处理，得到各个第一钓鱼网站地址；

计算每个第一钓鱼网站地址与所对应的模板网站地址间的相似度；

统计在预定的历史时段内每个第一钓鱼网站地址对应的访问次数；

确定每个第一钓鱼网站地址所属的行业，第一钓鱼网站地址所属的行业为第一钓鱼网站地址所对应的模板网站地址所属的行业；

基于每个第一钓鱼网站地址与所对应的模板网站地址间的相似度、在所述历史时段内的访问次数，所属的行业确定每个第一钓鱼网站地址的危险等级；

建立钓鱼网站信息表，所述钓鱼网站信息表包括：各个所述第一钓鱼网站地址和各个所述第一钓鱼网站地址的属性信息，以及各个已验证所对应的网站为钓鱼网站的第二钓鱼网站地址和各个所述第二钓鱼网站地址的属性信息；所述属性信息包括以下属性中的一项或多项：在预定的历史时段内所对应的访问次数、所述历史时段对应的时间信息、所属领域以及危险等级。

上述方法，优选的，所述钓鱼网站信息表还包括正常网站地址及正常网站地址对应的属性信息；

所述将所述待识别网站的目标地址信息与预先构建的钓鱼网站信息表中的网站地址信息进行匹配，得到匹配结果，包括：

将所述目标地址信息与所述钓鱼网站信息表中的钓鱼网站地址和/或正常网站地址进行匹配，得到以下匹配结果的其中之一：

与某一钓鱼网站地址匹配一致的第一匹配结果；

与某一正常网站地址匹配一致的第二匹配结果；

未匹配成功的第三匹配结果。

上述方法，优选的，所述基于匹配结果，确定所述待识别网站是否为钓鱼网站，包括：

若所述匹配结果为所述第一匹配结果，且与所述目标地址信息相匹配的钓鱼网站地址为第一钓鱼网站地址，则所述待识别网站为可疑网站，获取所述待识别网站在最近预定时段内对应的访问次数，根据所述待识别网站在最近预定时段内对应的访问次数以及在所述钓鱼网站信息表中所对应的属性信息综合评估所述待识别网站的危险等级；若与所述目标地址信息相匹配的钓鱼网站地址为第二钓鱼网站地址，则所述待识别网站为钓鱼网站；

若所述匹配结果为所述第二匹配结果，则所述待识别网站为安全网站；

若所述匹配结果为所述第三匹配结果，则所述待识别网站为未备案网站。

上述方法，优选的，所述待识别网站为用户当前待访问的网站，所述方法在基于匹配结果确定所述待识别网站是否为钓鱼网站之后还包括：

基于所述待识别网站的识别结果，对用户进行相应的信息提示处理。

上述方法，优选的，还包括：

在所述匹配结果为所述第三匹配结果的情况下，验证所述待识别网站是否为钓鱼网站，并基于所述待识别网站的验证结果，向所述钓鱼网站信息表中添加所述待识别网站的目标地址信息以及相对应的属性信息。

一种钓鱼网站识别装置，包括：

获取单元，用于获取待识别网站对应的目标地址信息；

匹配单元，用于将所述待识别网站的目标地址信息与预先构建的钓鱼网站信息表中的网站地址信息进行匹配，得到匹配结果；其中，所述钓鱼网站信息表至少包括多个钓鱼网站地址，所述钓鱼网站地址包括：利用预定变换规则对至少一个模板网站地址进行变换后所得的具有潜在钓鱼风险的第一钓鱼网站地址以及已验证所对应网站为钓鱼网站的第二钓鱼网站地址，所述模板网站地址为正常网站地址和/或已验证所对应网站为钓鱼网站的网站地址；

识别单元，用于基于匹配结果，确定所述待识别网站是否为钓鱼网站。

上述装置，优选的，还包括：

预处理单元，用于在获取待识别网站对应的目标地址信息之前，执行以下操作：

计算每个第一钓鱼网站地址与对应的模板网站地址间的相似度；

建立钓鱼网站信息表，所述钓鱼网站信息表包括各个所述第一钓鱼网站地址和各个所述第一钓鱼网站地址的属性信息，以及各个已验证所对应的网站为钓鱼网站的第二钓鱼网站地址和各个所述第二钓鱼网站地址的属性信息；所述属性信息包括以下属性中的一项或多项：在预定的历史时段内所对应的访问次数、所述历史时段对应的时间信息、所属领域以及危险等级。

上述装置，优选的，所述钓鱼网站信息表还包括正常网站地址及正常网站地址对应的属性信息；

所述匹配单元，具体用于：

与某一钓鱼网站地址匹配一致的第一匹配结果；

与某一正常网站地址匹配一致的第二匹配结果；

未匹配成功的第三匹配结果。

上述装置，优选的，所述识别单元，具体用于：

由以上方案可知，本申请提供的钓鱼网站识别方法及装置，在基于预先构建的钓鱼网站信息表对待识别网站进行钓鱼识别时，所采用的钓鱼网站信息表具体包括利用预定变换规则对至少一个模板网站地址进行变换后所得的具有潜在钓鱼风险的第一钓鱼网站地址以及已验证所对应的网站为钓鱼网站的第二钓鱼网站地址。由此可见，本申请在传统的生成钓鱼网站黑名单技术的基础上，还提出了利用预定变换规则对至少一个模板网站地址进行变换来得到各个可能的钓鱼网站地址(即所述第一钓鱼网站地址)，并将其扩展至所述钓鱼网站信息表中，该方式可实现前瞻性地对各个具有潜在钓鱼风险的可疑网站地址进行预测，能够有效改善现有技术中黑名单信息滞后性高的问题，同时可有效改善钓鱼网站的检测效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本申请实施例一提供的钓鱼网站识别方法的流程示意图；

图2是本申请实施例二提供的钓鱼网站识别方法的流程示意图；

图3是本申请实施例三提供的钓鱼网站识别方法的流程示意图；

图4-图7是本申请实施例四提供的钓鱼网站识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了克服现有的基于黑/白名单的钓鱼检测技术所存在的黑名单信息滞后性高、进而影响钓鱼检测的检测效果等问题，本申请提供了一种钓鱼网站识别方法及装置，以下将通过具体实施例对本申请的钓鱼网站识别方法及装置进行说明。

实施例一

参考图1，是本申请实施例一提供的钓鱼网站识别方法的流程示意图，本实施例中，所述钓鱼网站识别方法包括以下步骤：

步骤101、获取待识别网站对应的目标地址信息。

所述待识别网站可以是但不限于处于互联网络、移动网络等网络环境中的用户当前待访问的网站，当用户待访问某一网站时，为了避免用户对钓鱼网站的访问、保障用户信息安全，可在用户客户端向服务器请求该网站的信息内容时拦截用户客户端向服务器发送的该待访问网站的URL(Uniform Resource Locator，统一资源定位符)，并将其作为待检测的目标地址信息对其进行钓鱼检测。

步骤102、将所述待识别网站的目标地址信息与预先构建的钓鱼网站信息表中的网站地址信息进行匹配，得到匹配结果。

在获取待识别网站所对应的目标地址信息后，如获取待识别网站的URL后，本申请将预先构建的钓鱼网站信息表作为钓鱼检测的依据，通过将待识别网站的目标地址信息与该预先构建的钓鱼网站信息表中的各个网站地址信息进行匹配，来检测待识别网站是否为钓鱼网站。其中，该预先构建钓鱼网站信息表至少包括多个钓鱼网站地址。

发明人经研究发现，攻击者可能通过构造网页内容相同，但是却是新的不在黑名单中的网址来绕过检测，例如，攻击者通过将已包含在黑名单中的钓鱼网站地址的一个/几个字符进行变换/位置调整等，即可得到一个新的具有相同钓鱼内容的网站地址，且该新的网站地址可绕过黑名单的验证；除此之外，支付、购物、阅读、社交、新闻等重点领域中的一些品牌网站一般具有较高的经济价值或社会价值，其往往是攻击者攻击的重点对象，攻击者通过构建与这些重点领域中品牌网站的网站地址相类似的地址，如将某一品牌支付网站的网站地址中的某一个/几个字符替换成其他字符、或更改某一个/几个字符的大小写等，即可利用所构造的相类似的网站地址实现对该支付网站的访问用户进行引流式钓鱼。

鉴于此，与现有技术中采用手动验证方式预先构建黑名单，且黑名单中的所有网站地址均为已手动验证过并确认所对应的网站为钓鱼网站的地址相区别，本申请中，预先构建的用于作为钓鱼检测依据的钓鱼网站信息表包括：利用预定变换规则对至少一个模板网站地址进行变换后所得的具有潜在钓鱼风险的第一钓鱼网站地址以及已验证所对应的网站为钓鱼网站的第二钓鱼网站地址，所述模板网站地址为正常网站地址和/或已验证所对应的网站为钓鱼网站的网站地址。也就是说，本申请中，所述钓鱼网站信息表除了包括已验证过所对应的网站为钓鱼网站的真正钓鱼网站地址，还包括通过对模板网站地址进行变换后所得的各个具有潜在钓鱼风险的网站地址。所述模板网站地址(用于作为网址变换的基础模板)则可以是针对上述各重点领域所搜集的一系列品牌网站地址，或者还可以是已验证过所对应的网站为钓鱼网站的真正钓鱼网站地址，或者还可以是这两者的综合。

以下首先对构建上述钓鱼网站信息表的过程进行说明，该构建钓鱼网站信息表的过程可作为本申请方法的预处理过程，具体包括以下步骤：

1)获取预定的至少一个重点领域中的品牌网站地址和/或已验证所对应网站为钓鱼网站的网站地址作为模板网站地址；

具体地，可预先搜集支付、购物、阅读、社交、新闻等重点领域中的一系列品牌网站地址，如个人微博、支付类网站、购物类网站、读书网站，新闻网站等的品牌网站地址，形成一品牌模板库，该品牌模板库中所包括的每个品牌网站地址均用于作为模板网站地址，为后续的网址变换提供基础模板。

除此之外，还可以获得已验证过并确认所对应的网站为钓鱼网站的一系列真正钓鱼网站地址，如现有技术的原有黑名单中的一系列钓鱼网站地址等，同样将其作为模板网站地址，为后续的网址变换提供基础模板。

2)利用预定变换规则对所获取的各个模板网站地址进行变换处理，得到各个第一钓鱼网站地址；

所述预定变换规则，用于通过对所述模板网站地址的URL字符串进行相应变换来得到新的地址字符串，具体包括但不限于以下几种规则中的任意一种或多种：

a)修改模板网站地址的原始URL字符串的其中一个字符：

依次修改原始URL一个字母或数字得到新的URL列表；

依次增加原始URL一个字母或数字得到新的URL列表；

依次删除原始URL一个字母或数字得到新的URL列表。

以下通过具体示例对该规则进行说明，假设有正常的网站网址为：www.aliboba.com，将其作为模板网站地址，则在按该第a)条规则对其进行网址变换后，可以得到以下的网址列表：

www.bliboba.com；

www.aniboba.com；

www.alyboba.com；

www.alipoba.com；

www.alibqba.com；

www.aaliboba.com；

www.alliboba.com；

www.aliiboba.com；

www.alibboba.com；

www.liboba.com；

www.aiboba.com；

www.alboba.com；

www.alioba.com；

www.alibba.com；

www.aliboa.com；

www.alibob.com。

b)将模板网站地址的原始URL中的0、大小写字母O、o替换；替换个数逐次增加，依总数而定。

按该规则b)对上述的模板网站地址www.aliboba.com进行变换后，可以得到以下的网址列表：

www.alibOba.com；

www.alib0ba.com。

c)将模板网站地址的原始URL中的数字1、大小写字母L、l替换；替换个数逐次增加，依总数而定。

按该规则c)对上述的模板网站地址www.aliboba.com进行变换后，可以得到以下的网址列表：

www.al1boba.com；

www.alIboba.com；

www.a1iboba.com；

www.aLiboba.com。

d)将模板网站地址的原始URL中的m、M、n、N互相替换组合；替换个数逐次增加，依总数而定。

对于上述的模板网站地址www.aliboba.com，由于其不存在m、M、n、N这些字符，从而该模板网站地址无需针对规则d)进行地址变换，相对应地，不存在对应于该规则d)的变换后的地址列表。

e)将模板网站地址的原始URL中的Y、y、T、t互相替换组合；替换个数逐次增加，依总数而定。

对于上述的模板网站地址www.aliboba.com，由于其同样不存在Y、y、T、t这些字符，从而同样无需针对该规则e)进行地址变换，相对应地，也不存在对应于该规则e)的变换后的地址列表。

在对模板网站地址基于上述规则a)-e)中任意一种或多种进行变换后，得到一系列新URL地址的地址列表，之后，可通过对得到的新URL地址列表中的所有新URL地址进行汇总、去重，来得到该模板网站地址所对应的具有潜在钓鱼风险的钓鱼网站组合列表。

对于所搜集的每个模板网站地址(如品牌网站地址或已验证的钓鱼网站地址等)，均可按上述的规则变换过程对其URL地址进行变换来得到其所对应的具有潜在钓鱼风险的钓鱼网站地址列表，最终汇总各个模板网站地址所对应的各个钓鱼网站地址列表，可得到构成钓鱼网站信息表所需的各个所述第一钓鱼网站地址，所述第一钓鱼网站地址本质上为前瞻性预测出的具有潜在钓鱼风险的网站地址。

3)计算每个第一钓鱼网站地址与其所对应的模板网站地址间的相似度。

可通过爬虫抓取将2)中网页列表的地址依次与模板网站地址列表中的相对应地址进行相似度计算。

本实施例中，具体通过确定第一钓鱼网站地址与其所对应的模板网站地址间的编辑距离来获知两者间的相似度。

其中，编辑距离，又称Levenshtein距离，是指两个字符串之间，由一个转换成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。

例如，将字符串“kitten”转成字符串“sitting”，最少需经过以下的3次编辑操作：

sitten(k→s)

sittin(e→i)

sitting(→g)；

则这两个字符串间的编辑距离为3。

从而，对于第一钓鱼网站地址与其对应的模板网站地址，可通过确定将模板网站地址转为第一钓鱼网站地址所需的最少编辑操作次数，来获知两者间的编辑距离，在此基础上，可进一步基于两者间的编辑距离来确定出两者间的相似度，其中，第一钓鱼网站地址与其对应的模板网站地址间的编辑距离越小，则两者间的相似度越高，反之，编辑距离越大，则两者间的相似度越低。

4)统计在预定的历史时段内每个第一钓鱼网站地址对应的访问次数。

所述预定的历史时段，例如可以是但不限于最近一年的时间段等。

5)确定每个第一钓鱼网站地址所属的行业，第一钓鱼网站地址所属的行业为第一钓鱼网站地址对应的模板网站地址所属的行业。

网站地址所属的行业例如可以是但不限于支付行业、购物行业，新闻行业、公安安全行业等等。

6)基于每个第一钓鱼网站地址与对应的模板网站地址间的相似度、在所述历史时段内的访问次数，所属的行业确定每个第一钓鱼网站地址的危险等级。

在获得每个第一钓鱼网站地址与其对应的模板网站地址间的相似度、在所述历史时段内的访问次数及其所属的行业之后，可对所获得的各项信息进行归一化处理(如映射到0-1之间)，进而可通过对各项信息的归一化处理结果进行加权平均来实现对每个第一钓鱼网站地址的威胁程度值进行预估，在此基础上可进一步预测每个第一钓鱼网站地址的危险等级。

所述危险等级可以包括但不限于属于钓鱼网站、属于高风险网站、属于安全网站等等。

7)建立钓鱼网站信息表。

所述钓鱼网站信息表包括：各个所述第一钓鱼网站地址和各个所述第一钓鱼网站地址的属性信息，以及各个已验证所对应的网站为钓鱼网站的第二钓鱼网站地址和各个所述第二钓鱼网站地址的属性信息；所述属性信息包括以下属性中的一项或多项：在预定的历史时段内所对应的访问次数、所述历史时段对应的时间信息、所属领域以及危险等级。

也即，除了包括具有潜在钓鱼风险的上述第一钓鱼网站地址及其属性信息，本申请中，所述钓鱼网站信息表还可以包括各个已验证所对应的网站为钓鱼网站的第二钓鱼网站地址及其属性信息；除此之外，所述钓鱼网站信息表还可以包括一系列正常网站地址及其对应的属性信息，所构建的钓鱼网站信息表的表结构具体可参阅以下的表1所提供的示例：

表1

在预先构建出上述的钓鱼网站信息表的基础上，可将所构建的该钓鱼网站信息表作为钓鱼检测依据，来对待识别网站所对应的目标网站地址如URL进行检测。

具体地，在获得待识别网站的目标网站地址后，如获得待识别网站的URL后，可将其URL与所述钓鱼网站信息表中的各个网站地址(钓鱼网站地址和/或正常网站地址)进行比对、匹配，确定所述钓鱼网站信息表中是否存在与该待识别网站的目标网站地址相匹配一致的网站地址，从而得到该待识别网站的匹配结果，该匹配结果具体是以下匹配结果中的其中之一：

与钓鱼网站信息表中的某一钓鱼网站地址匹配一致的第一匹配结果；

与钓鱼网站信息表中的某一正常网站地址匹配一致的第二匹配结果；

未匹配成功的第三匹配结果。

步骤103、基于匹配结果，确定所述待识别网站是否为钓鱼网站。

在将待识别网站的URL与所述钓鱼网站信息表中的各个网站地址进行比对、匹配后，可进一步根据匹配结果来确定该待识别网站是否为钓鱼网站。

其中，若所述匹配结果为所述第一匹配结果，且与所述目标地址信息相匹配的钓鱼网站地址为第一钓鱼网站地址，则该待识别网站为具有潜在钓鱼风险的可疑网站，此种情况下，可进一步获取所述待识别网站在最近预定时段内对应的访问次数，并结合所述待识别网站在最近预定时段内对应的访问次数以及在所述钓鱼网站信息表中所对应的属性信息来综合评估所述待识别网站的危险等级；若与所述目标地址信息相匹配的钓鱼网站地址为第二钓鱼网站地址，则由于第二钓鱼网站地址为已经验证过并确认所对应的网站为钓鱼网站的网站地址，从而，此种情况下，可确认所述待识别网站为钓鱼网站。

具体地，在所述目标地址信息与钓鱼网站信息表中的某一第一钓鱼网站地址相匹配一致的情况下，可初步确定出待识别网站为具有潜在钓鱼风险的可疑网站，即，其所对应的网站有可能为钓鱼网站，针对该情况，本申请进一步获取所述待识别网站在最近预定时段内对应的访问次数，例如具体获取其在最近1天或2天或1周内对应的访问次数等，并将获取的该次数信息结合其在钓鱼网站信息表中对应的属性信息，来综合评估出该待识别网站的风险级别。示例性地，可将所获取的访问次数与所述钓鱼网站信息表所统计的访问次数(如最近一年的总访问次数)进行比对，若所获取的该访问次数与钓鱼网站信息表所统计的访问次数并不对应，例如，假设所述钓鱼网站信息表中所统计的某品牌网站地址的变换网站地址，在最近一年内的总访问次数为0次(或其他较小数值，如1次等)，而在最近1天内的访问次数为1万，则表示该变换网站地址为最新推出的网站地址，其目的很可能是为了对与其相似的所述品牌网站地址进行引流(引流式钓鱼)，同时结合其在钓鱼网站信息表中所对应的其他属性，例如，若其所属行业为支付、购物等重点行业，在钓鱼网站信息表中的危险等级也为高风险(与根据访问次数推测的结果较为一致)，则可确定出该待识别网站为一高风险网站。反之，若所获取的该访问次数与钓鱼网站信息表所统计的访问次数相对应，如统计的最近一年的总访问次数1亿，所获取的最近一天的访问量30万，则从访问角度来说其并无异常，可确定出其风险等级为安全。

若所述匹配结果为所述第二匹配结果，也即待识别网站的目标网站地址与钓鱼网站信息表中的某一正常网站地址匹配一致，则可确定出所述待识别网站为安全网站。

若所述匹配结果为所述第三匹配结果，则表示待识别网站的目标地址信息未备案在所述钓鱼网站信息表中，从而可确定出所述待识别网站为未备案网站。

由以上方案可知，本实施例提供的钓鱼网站识别方法，在基于预先构建的钓鱼网站信息表对待识别网站进行钓鱼识别时，所采用的钓鱼网站信息表具体包括利用预定变换规则对至少一个模板网站地址进行变换后所得的具有潜在钓鱼风险的第一钓鱼网站地址以及已验证所对应的网站为钓鱼网站的第二钓鱼网站地址。由此可见，本申请在传统的生成钓鱼网站黑名单技术的基础上，还提出了利用预定变换规则对至少一个模板网站地址进行变换来得到各个可能的钓鱼网站地址(即所述第一钓鱼网站地址)，并将其扩展至所述钓鱼网站信息表中，该方式可实现前瞻性地对各个具有潜在钓鱼风险的可疑网站地址进行预测，能够有效改善现有技术中黑名单信息滞后性高的问题，同时可有效改善钓鱼网站的检测效果。

实施例二

参考图2，为本申请实施例二提供的钓鱼网站识别方法的流程示意图，本实施例二中，所述钓鱼网站识别方法还可以包括以下步骤：

步骤104、基于所述待识别网站的识别结果，对用户进行相对应的信息提示处理。

具体地，在对待识别网站进行钓鱼识别之后，可基于识别结果，对用户进行相对应的信息提示处理，其中，若识别出所述待识别网站为钓鱼网站，则可在用户客户端从服务器调取该网站的网站内容之前，提示用户其所访问的该网站为钓鱼网站，以避免用户对其网站内容的进一步访问。

若识别出所述待识别网站为可疑网站，且其风险等级为高风险，则可在客户端从服务器调取该网站的网站内容之前，提示用户其所访问的该网站为高风险网站。

若识别出所述待识别网站为安全网站，则不必对用户进行提示，直接由客户端正常向服务器请求并调取该网站的网站内容供用户访问即可。

若识别出所述待识别网站为未备案网站，则可在客户端从服务器调取该网站的网站内容之前，提示用户该网站未备案，存在潜在风险，由用户确定是否需进一步访问。

基于本申请的钓鱼网站信息表可识别出钓鱼网站、安全网站以及具有潜在钓鱼风险的高风险网站，同时基于识别结果向用户提示其待访问的网站的安全等级，如钓鱼网站、高风险网站、未备案网站(存在潜在风险)或安全网站等各个等级，可较高程度地避免用户对钓鱼网站、高风险网站及存在潜在风险的未备案网站的访问，进一步保障了用户信息安全。

实施例三

参考图3，为本申请实施例三提供的钓鱼网站识别方法的流程示意图，本实施例三中，所述钓鱼网站识别方法还可以包括以下步骤：

步骤105、在所述匹配结果为所述第三匹配结果的情况下，验证所述待识别网站是否为钓鱼网站，并基于所述待识别网站的验证结果，向所述钓鱼网站信息表中添加所述待识别网站的目标地址信息以及相对应的属性信息。

具体地，如果待识别网站的目标地址信息未能与钓鱼网站信息表中的地址信息匹配成功，则表示待识别网站的目标地址信息未备案在钓鱼网站信息表中，针对此种情况，具体可触发人工验证流程对其所对应的网站是否为钓鱼网站进行手动验证，通过手动验证来确定出其具体是属于钓鱼网站还是安全网站。

且在通过手动验证确定出其具体属于钓鱼网站或安全网站的基础上，可进一步基于其验证结果，将该待识别网站的目标地址信息及其对应的相应属性信息(如风险级别为钓鱼网站或为安全网站等)添加在构建的所述钓鱼网站信息表中，以此实现对钓鱼网站信息表的不断扩充及完善。

实施例四

对应于上述各实施例的钓鱼网站识别方法，本申请实施例四公开一种钓鱼网站识别装置，参考图4示出的该钓鱼网站识别装置的结构示意图，该装置包括：

获取单元401，用于获取待识别网站对应的目标地址信息；

匹配单元402，用于将所述待识别网站的目标地址信息与预先构建的钓鱼网站信息表中的网站地址信息进行匹配，得到匹配结果；其中，所述钓鱼网站信息表至少包括多个钓鱼网站地址，所述钓鱼网站地址包括：利用预定变换规则对至少一个模板网站地址进行变换后所得的具有潜在钓鱼风险的第一钓鱼网站地址以及已验证所对应网站为钓鱼网站的第二钓鱼网站地址，所述模板网站地址为正常网站地址和/或已验证所对应网站为钓鱼网站的网站地址；

识别单元403，用于基于匹配结果，确定所述待识别网站是否为钓鱼网站。

在本申请实施例的一实施方式中，参考图5示出的钓鱼网站识别装置的结构示意图，所述钓鱼网站识别装置还可以包括预处理单元404，该预处理单元404用于在获取待识别网站对应的目标地址信息之前，执行以下操作：

在本申请实施例的一实施方式中，所述匹配单元403，具体用于：将所述目标地址信息与所述钓鱼网站信息表中的钓鱼网站地址和/或正常网站地址进行匹配，得到以下匹配结果的其中之一：

与某一钓鱼网站地址匹配一致的第一匹配结果；

与某一正常网站地址匹配一致的第二匹配结果；

未匹配成功的第三匹配结果。

在本申请实施例的一实施方式中，所述识别单元403，具体用于：

在本申请实施例的一实施方式中，参考图6示出的钓鱼网站识别装置的结构示意图，所述钓鱼网站识别装置还可以包括提示处理单元405，用于基于所述待识别网站的识别结果，对用户进行相应的信息提示处理。

在本申请实施例的一实施方式中，参考图7示出的钓鱼网站识别装置的结构示意图，所述钓鱼网站识别装置还可以包括钓鱼网站信息表更新单元406，用于在所述匹配结果为所述第三匹配结果的情况下，验证所述待识别网站是否为钓鱼网站，并基于所述待识别网站的验证结果，向所述钓鱼网站信息表中添加所述待识别网站的目标地址信息以及相对应的属性信息。

对于本发明实施例四公开的钓鱼网站识别装置而言，由于其与实施例一至实施例三公开的钓鱼网站识别方法相对应，所以描述的比较简单，相关相似之处请参见实施例一至实施例三中钓鱼网站识别方法部分的说明即可，此处不再详述。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

为了描述的方便，描述以上系统或装置时以功能分为各种模块或单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

最后，还需要说明的是，在本文中，诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种钓鱼网站识别方法，其特征在于，包括：

建立钓鱼网站信息表，所述钓鱼网站信息表包括：各个所述第一钓鱼网站地址和各个所述第一钓鱼网站地址的属性信息，以及各个已验证所对应的网站为钓鱼网站的第二钓鱼网站地址和各个所述第二钓鱼网站地址的属性信息；所述属性信息包括以下属性中的一项或多项：在预定的历史时段内所对应的访问次数、所述历史时段对应的时间信息、所属领域以及危险等级；

获取待识别网站对应的目标地址信息；

基于匹配结果，确定所述待识别网站是否为钓鱼网站。

2.根据权利要求1所述的方法，其特征在于，所述钓鱼网站信息表还包括正常网站地址及正常网站地址对应的属性信息；

与某一钓鱼网站地址匹配一致的第一匹配结果；

与某一正常网站地址匹配一致的第二匹配结果；

未匹配成功的第三匹配结果。

3.根据权利要求2所述的方法，其特征在于，所述基于匹配结果，确定所述待识别网站是否为钓鱼网站，包括：

4.根据权利要求3所述的方法，其特征在于，所述待识别网站为用户当前待访问的网站，所述方法在基于匹配结果确定所述待识别网站是否为钓鱼网站之后还包括：

5.根据权利要求3或4所述的方法，其特征在于，还包括：

6.一种钓鱼网站识别装置，其特征在于，包括：

建立钓鱼网站信息表，所述钓鱼网站信息表包括各个所述第一钓鱼网站地址和各个所述第一钓鱼网站地址的属性信息，以及各个已验证所对应的网站为钓鱼网站的第二钓鱼网站地址和各个所述第二钓鱼网站地址的属性信息；所述属性信息包括以下属性中的一项或多项：在预定的历史时段内所对应的访问次数、所述历史时段对应的时间信息、所属领域以及危险等级；

获取单元，用于获取待识别网站对应的目标地址信息；

7.根据权利要求6所述的装置，其特征在于，所述钓鱼网站信息表还包括正常网站地址及正常网站地址对应的属性信息；

所述匹配单元，具体用于：

与某一钓鱼网站地址匹配一致的第一匹配结果；

与某一正常网站地址匹配一致的第二匹配结果；

未匹配成功的第三匹配结果。

8.根据权利要求7所述的装置，其特征在于，所述识别单元，具体用于：