CN116366338B

CN116366338B - 一种风险网站识别方法、装置、计算机设备及存储介质

Info

Publication number: CN116366338B
Application number: CN202310334071.4A
Authority: CN
Inventors: 郎宸; 鲁玮克; 樊兴华; 童兆丰; 薛锋
Original assignee: Beijing ThreatBook Technology Co Ltd
Current assignee: Beijing ThreatBook Technology Co Ltd
Priority date: 2023-03-30
Filing date: 2023-03-30
Publication date: 2024-02-06
Anticipated expiration: 2043-03-30
Also published as: CN116366338A

Abstract

本公开提供了一种风险网站识别方法、装置、计算机设备及存储介质，其中，该方法包括：获取目标网站的页面截图，并对所述页面截图进行商标匹配，确定所述页面截图匹配的目标商标；在所述页面截图未匹配到所述目标商标的情况下，从所述目标网站中包含的图像元素中识别出待检测文本；基于所述待检测文本，确定所述目标网站的风险等级；在所述风险等级为第一风险等级情况下，基于所述目标网站的域名信息以及预设的域名信息库，确定所述目标网站是否为伪装成可信网站的风险网站。

Description

一种风险网站识别方法、装置、计算机设备及存储介质

技术领域

本公开涉及计算机技术领域，具体而言，涉及一种风险网站识别方法、装置、计算机设备及存储介质。

背景技术

在众多类型的风险网站中，存在一种伪装成可信网站、骗取用户关键信息的虚假网站，这类网站又被称为“钓鱼网站”，钓鱼网站的页面从视觉上与真实的可信网站十分相似，用户可能将其误认为可信网站，并在网站中提交账户、密码等关键信息，导致用户隐私被窃取，因此，在网络安全场景中，对钓鱼网站进行精确识别十分重要。

对钓鱼网站进行识别检测时，通常对网站的页面截图进行商标识别，将识别到匹配商标的网站确定为钓鱼网站，但这种方式并不能对不包含商标的钓鱼页面进行识别，存在漏洞。

发明内容

本公开实施例至少提供一种风险网站识别方法、装置、计算机设备及存储介质。

第一方面，本公开实施例提供了一种风险网站识别方法，包括：

获取目标网站的页面截图，并对所述页面截图进行商标匹配，确定所述页面截图匹配的目标商标；

在所述页面截图未匹配到所述目标商标的情况下，从所述目标网站中包含的图像元素中识别出待检测文本；

基于所述待检测文本，确定所述目标网站的风险等级；

在所述风险等级为第一风险等级情况下，基于所述目标网站的域名信息以及预设的域名信息库，确定所述目标网站是否为伪装成可信网站的风险网站。

一种可选的实施方式中，所述基于所述待检测文本，确定所述目标网站的风险等级，包括：

基于多个第一风险关键词，对所述待检测文本进行风险关键词检测；

在检测到与所述待检测文本匹配的第一风险关键词的情况下，确定所述目标网站的风险等级为第一风险等级。

一种可选的实施方式中，所述基于所述目标网站的域名信息以及预设的域名信息库，确定所述目标网站是否为伪装成可信网站的风险网站，包括：

基于预设的黑名单域名信息库，对所述目标网站的域名信息进行黑名单匹配；

在所述域名信息成功匹配到黑名单域名信息的情况下，基于预设的白名单域名信息库，对所述目标网站的域名信息进行白名单匹配；

在所述域名信息成功匹配到所述白名单域名信息库中的任一白名单域名信息的情况下，确定所述目标网站为伪装成可信网站的风险网站。

一种可选的实施方式中，所述基于预设的黑名单域名信息库，对所述目标网站的域名信息进行黑名单匹配，包括：

从所述黑名单域名信息库中的域名后缀库中，查找与所述域名信息匹配的目标域名后缀；

从所述黑名单域名信息库中的网络协议IP地址库中，查找与所述域名信息对应的IP地址匹配的目标IP地址；

在查找到所述目标域名后缀或所述目标IP地址的情况下，确定所述域名信息成功匹配到黑名单域名信息。

一种可选的实施方式中，所述方法还包括：

在未查找到所述目标域名后缀或所述目标IP地址的情况下，获取所述域名信息对应的数字证书；

从白名单签发机构库中，查找与所述数字证书的签发机构匹配的目标签发机构；

在未查找到所述目标签发机构的情况下，确定所述域名信息成功匹配到黑名单域名信息。

一种可选的实施方式中，所述基于预设的白名单域名信息库，对所述目标网站的域名信息进行白名单匹配，包括：

确定所述域名信息与所述白名单域名信息库中的各个白名单域名信息之间的相似度；

确定相似度高于预设阈值的白名单域名信息与所述域名信息匹配。

一种可选的实施方式中，所述方法还包括：

在所述页面截图匹配到所述目标商标的情况下，确定所述目标网站的风险等级为第二风险等级；其中，所述第二风险等级高于所述第一风险等级；

在所述风险等级为所述第二风险等级的情况下，基于预设的黑名单域名信息库，对所述目标网站的域名信息进行黑名单匹配；

在所述域名信息成功匹配到黑名单域名信息的情况下，确定所述目标网站为伪装成可信网站的风险网站。

一种可选的实施方式中，对所述页面截图进行商标识别之前，所述方法还包括：

获取待检测网站的源代码；

在所述源代码中识别到第二风险关键词和/或表单输入功能代码的情况下，将所述待检测网站作为所述目标网站。

第二方面，本公开实施例还提供一种风险网站识别装置，包括：

获取模块，用于获取目标网站的页面截图，并对所述页面截图进行商标匹配，确定所述页面截图匹配的目标商标；

识别模块，用于在所述页面截图未匹配到所述目标商标的情况下，从所述目标网站中包含的图像元素中识别出待检测文本；

第一确定模块，用于基于所述待检测文本，确定所述目标网站的风险等级；

第二确定模块，用于在所述风险等级为第一风险等级情况下，基于所述目标网站的域名信息以及预设的域名信息库，确定所述目标网站是否为伪装成可信网站的风险网站。

一种可选的实施方式中，所述第一确定模块具体用于：

一种可选的实施方式中，所述第二确定模块在基于所述目标网站的域名信息以及预设的域名信息库，确定所述目标网站是否为伪装成可信网站的风险网站时，用于：

一种可选的实施方式中，所述第二确定模块在基于预设的黑名单域名信息库，对所述目标网站的域名信息进行黑名单匹配时，用于：

一种可选的实施方式中，所述第二确定模块还用于：

一种可选的实施方式中，所述第二确定模块在基于预设的白名单域名信息库，对所述目标网站的域名信息进行白名单匹配时，用于：

一种可选的实施方式中，所述第二确定模块还用于：

一种可选的实施方式中，对所述页面截图进行商标识别之前，所述获取模块还用于：

获取待检测网站的源代码；

第三方面，本公开可选实现方式还提供一种计算机设备，处理器、存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述处理器用于执行所述存储器中存储的机器可读指令，所述机器可读指令被所述处理器执行时，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第四方面，本公开可选实现方式还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

关于上述风险网站识别装置、计算机设备、及计算机可读存储介质的效果描述参见上述风险网站识别方法的说明，这里不再赘述。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开的技术方案。

本公开实施例提供的风险网站识别方法、装置、计算机设备及存储介质，先对目标网站的页面截图进行商标匹配，在页面截图未匹配到目标商标的情况下，从目标网站中包含的图像元素中识别出待检测文本，并基于待检测文本确定目标网站的风险等级，在风险等级为第一风险等级的情况下，基于目标网站的域名信息及预设的域名信息库，确定目标网站是否为伪装成可信网站的风险网站。本公开实施例通过从未匹配到目标商标的目标网站的图像元素中提取出待检测文本，从而基于图像元素中的待检测文本，对目标网站进行风险等级的评级，并在风险等级为第一风险等级时，基于所述目标网站的域名信息以及预设的域名信息库对目标网站进行进一步的风险网站识别，能够检测到不包含商标的风险网站，有效提高风险网站的检出率。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开一些实施例所提供的风险网站识别方法的流程图；

图2示出了本公开一些实施例所提供的另一种风险网站识别方法的流程图；

图3示出了本公开一些实施例所提供的风险网站识别装置的示意图；

图4示出了本公开一些实施例所提供的计算机设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

经研究发现，目前针对伪装成可信网站的风险网站(也即钓鱼网站)的识别方法中，通常仅对网站的页面截图进行商标匹配，判断网站中是否含有商标，对于识别到商标的网站，则可以直接确定其为伪装成商标对应的可信网站的风险网站，若没有识别到商标，则不将其作为钓鱼网站。然而，一些钓鱼网站中可能没有使用商标，而是通过文字、象形图标来迷惑访问者，这种情况下则无法识别出钓鱼网站，导致用户面临数据泄漏的危险。

基于上述研究，本公开提供了一种风险网站识别方法，通过从未匹配到目标商标的目标网站的图像元素中提取出待检测文本，从而基于图像元素中的待检测文本，对目标网站进行风险等级的评级，并在风险等级为第一风险等级时，基于所述目标网站的域名信息以及预设的域名信息库对目标网站进行进一步的风险网站识别，能够检测到不包含商标的风险网站，有效提高风险网站的检出率。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案，都应该是发明人在本公开过程中对本公开做出的贡献。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种风险网站识别方法进行详细介绍，本公开实施例所提供的风险网站识别方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备或服务器或其它处理设备。在一些可能的实现方式中，该风险网站识别方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

下面以执行主体为终端设备为例对本公开实施例提供的风险网站识别方法加以说明。

参见图1所示，为本公开实施例提供的风险网站识别方法的流程图，所述方法包括步骤S101～S104，其中：

S101、获取目标网站的页面截图，并对所述页面截图进行商标匹配，确定所述页面截图匹配的目标商标。

该步骤中，目标网站可以是经过预筛选的网站，在需要对一个网站进行风险检测时，可以先对该网站进行一些简单的测试，比如，可以对该网站的域名进行检测，确定该网站的域名是否是在白名单中的域名，若在白名单中查找到该网站的域名，则可以认为该网站是可信网站，若未能在白名单中查找到该域名，则可以对其进行进一步的检测。

针对钓鱼网站的识别，可以进行一些特殊化的检测，比如，钓鱼网站通常伪装成可信网站，来骗取用户账号、密码等关键信息，为了收集这些关键信息，钓鱼网站通常会提供有表单输入功能，并搭配一些引导文字，使用户通过表单输入功能将账号、密码等关键信息输入并提交，对此，可以检测网站是否提供表单输入功能，以及是否有与关键信息匹配的关键词。

示例性的，在需要进行风险网站识别时，可以先获取待检测网站的源代码，并对源代码进行检测，确定源代码中是否存在预设的关键词和/或表单输入功能的代码，在源代码中识别到第二风险关键词或表单输入功能代码的情况下，可以将所述待检测网站作为疑似钓鱼网站的目标网站。

为了提高初步筛选的精确度，可以在同时识别到第二风险关键词以及表单输入功能代码的情况下，将该待检测网站作为疑似钓鱼网站的目标网站。

上述第二风险关键词可以包括密码、登录、支付、账号等与骗取关键信息相关的关键词。

上述页面截图可以为目标网站的首屏页面的截图，在对页面截图进行商标匹配时，可以从页面截图中查找关键点，并计算出关键点的特征，根据关键点的特征进行商标匹配。为了在图片进行缩放、位置旋转等操作后仍能够匹配到商标，可以使用尺度不变特征变换(Scale-Invariant Feature Transform，SIFT)等方式提取关键点的特征，提取的关键点的特征可以是关键点的方向。在提取关键点的特征之后，可以利用关键点的特征与白名单商标库中的商标图片逐一进行关键点的匹配，若匹配度达到一定的阈值，则可以确定页面截图匹配到该商标图片，将匹配到的商标图片作为目标商标。

上述商标可以为预先收集的可信对象的标志、标识或徽标，也可以被称为logo。

S102、在所述页面截图未匹配到所述目标商标的情况下，从所述目标网站中包含的图像元素中识别出待检测文本。

通常，在页面截图未匹配到目标商标的情况下，可以直接将该目标网站作为可信网站，但一些钓鱼网站可能不会使用到目标商标，而是通过文字、象形图表等方式伪装成可信网站，这种情况下会导致风险网站的漏检，因此，需要对未匹配到目标商标的目标网站进行进一步的检测。

该步骤中，可以获取目标网站中的图像元素，并识别出图像元素中包含的文本，作为待检测文本，识别出待检测文本的方式可以使用任一从图像中识别出文本的方式，如光学字符识别(Optical Character Recognition，OCR)等。在对图像元素进行待检测文本的识别过程中，可以直接利用网站图像的页面截图进行识别，也可以从目标网站的源代码或资源文件中提取出图像资产，对图像资产进行识别。

S103、基于所述待检测文本，确定所述目标网站的风险等级。

在得到待检测文本后，可以对待检测文本进行风险关键词检测，判断待检测文本中是否包含第一风险关键词。

上述第一风险关键词的范围可以大于第二风险关键词的范围，可以包括“金融”、“证券”、“社保”、“身份证”、“账号”、“密码”以及知名品牌名称等钓鱼网站相关的关键词。

在检测到与所述待检测文本匹配的第一风险关键词的情况下，可以确定目标网站的风险等级为第一风险等级。示例性的，第一风险等级可以为中风险等级，在第一风险等级之上，可以包括第二风险等级，第二风险等级可以为高风险等级，在第二风险等级之下，还可以包括第三风险等级，第三风险等级可以为低风险等级，或无风险。

S104、在所述风险等级为第一风险等级情况下，基于所述目标网站的域名信息以及预设的域名信息库，确定所述目标网站是否为伪装成可信网站的风险网站。

在检测到目标网站的风险等级为第一风险等级时，可以初步判断目标网站具有一定程度的风险，可能为钓鱼网站，为了确定目标网站是否为钓鱼网站，可以对其进行进一步的检测。

具体的，可以针对目标网站的域名信息，进行进一步的风险检测，确定目标网站的域名信息是否与域名信息库中的信息匹配。

域名信息库可以分为白名单域名信息库和黑名单域名信息库，若域名信息与黑名单域名信息库中的数据匹配，则可以直接将目标网站作为风险网站；若黑名单域名信息库与域名信息匹配失败，则可以进行白名单域名信息库的匹配，若域名信息与白名单域名信息库中的域名信息相似度较高，则说明目标网站的域名信息是模仿白名单域名信息库中的域名信息，目标网站是钓鱼网站的概率较高，可以输入目标网站是钓鱼网站的结果。

示例性的，可以基于预设的黑名单域名信息库，对目标网站的域名信息进行黑名单匹配，若域名信息成功匹配到黑名单域名信息，可以再基于预设的白名单域名信息库，对所述目标网站的域名信息进行白名单匹配，在域名信息成功匹配到所述白名单域名信息库中的任一白名单域名信息的情况下，确定目标网站为伪装成可信网站的风险网站。

在一种可能的实施方式中，黑名单域名信息库可以包括域名后缀库和网络协议(Internet Protocol，IP)地址库。域名后缀库中可以包括一些钓鱼网站常用的域名后缀，如.xyz、.tk、.GA、.ML等。与常见的可信域名后缀，如.com、.cn等不同，域名后缀库中的域名后缀往往更容易获取使用。IP地址库中则包含一些已经确认的风险IP地址，该类型的IP地址与某个域名相关联。在访问一个网站时，通常通过域名系统(Domain Name System，DNS)查询网站域名对应的IP地址，并利用该IP地址进行访问。

具体的，可以从域名信息中提取出目标网站的顶级域，也即域名后缀，然后从所述黑名单域名信息库中的域名后缀库中，查找与所述域名信息匹配的目标域名后缀；从DNS数据库中，查找目标网站域名对应的IP地址，并从黑名单域名信息库中的IP地址库中，查找与域名信息对应的IP地址匹配的目标IP地址。

进一步的，还可以对目标网站的数字证书进行认证，数字证书中携带有签发机构的数字签名，可以通过验证该数字签名，判断签发机构是否是可信机构。

具体的，可以从白名单签发机构库中，查找与数字证书的签发机构匹配的目标签发机构，若未查找到所述目标签发机构，则说明目标网站存在风险，也可以确定上述域名信息成功匹配到黑名单域名信息。

对数字证书的签发机构进行的匹配可以与匹配域名后缀、IP地址的步骤同时进行，也可以在匹配域名后缀、IP地址之后进行，只要目标网站满足上述三种情况的一种，即可确定域名信息成功匹配到黑名单域名信息，从而进行白名单域名信息的匹配。

一种可能的实施方式中，可以在未查找到目标域名后缀或目标IP地址的情况下，再获取域名信息对应的数字证书，进行数字证书的匹配。这样，在先行匹配到目标域名后缀或目标IP地址时，可以不对数字签名的签发机构进行匹配。

在对目标网站的域名信息进行白名单匹配时，可以确定域名信息与白名单域名信息库中的各个白名单域名信息之间的相似度；确定相似度高于预设阈值的白名单域名信息与上述域名信息匹配。

这样，通过第一关键词、黑名单域名信息以及白名单域名信息的匹配，即可对中等风险的目标网站进行精确的风险识别，确定目标网站是否为伪装成可信网站的风险网站。

对于页面截图成功匹配到目标商标的情况，可以确定目标网站的风险等级为第二风险等级，如高风险等级，在该种情况下，目标网站是钓鱼网站的置信度比较高，可以直接利用黑名单域名信息库，对目标网站的域名信息进行黑名单匹配，在域名信息成功匹配到黑名单域名信息的情况下，直接确定目标网站为伪装成可信网站的风险网站，从而降低风险识别的计算量。

参见图2所示，为本公开实施例所提供的另一种风险网站识别方法的流程图。该方法首先对待检测网站进行网页源码检测，在识别到表单功能和第二关键词的情况下，利用白名单logo库对待检测网站的页面截图进行商标logo图像检测，在检测到匹配的logo时，进行网页图像识别，识别出网页中的文字，并利用相关的第二关键词进行匹配，并在匹配到第二关键词时进行域名的风险检测，根据域名的风险检测结果，判断待检测网站是否为钓鱼网站。

本公开实施例提供的风险网站识别方法，先对目标网站的页面截图进行商标匹配，在页面截图未匹配到目标商标的情况下，从目标网站中包含的图像元素中识别出待检测文本，并基于待检测文本确定目标网站的风险等级，在风险等级为第一风险等级的情况下，基于目标网站的域名信息及预设的域名信息库，确定目标网站是否为伪装成可信网站的风险网站。

本公开实施例通过从未匹配到目标商标的目标网站的图像元素中提取出待检测文本，从而基于图像元素中的待检测文本，对目标网站进行风险等级的评级，并在风险等级为第一风险等级时，基于所述目标网站的域名信息以及预设的域名信息库对目标网站进行进一步的风险网站识别，能够检测到不包含商标的风险网站，有效提高风险网站的检出率。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与风险网站识别方法对应的风险网站识别装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上风险网站识别方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图3所示，为本公开实施例提供的一种风险网站识别装置的示意图，所述装置包括：

获取模块310，用于获取目标网站的页面截图，并对所述页面截图进行商标匹配，确定所述页面截图匹配的目标商标；

识别模块320，用于在所述页面截图未匹配到所述目标商标的情况下，从所述目标网站中包含的图像元素中识别出待检测文本；

第一确定模块330，用于基于所述待检测文本，确定所述目标网站的风险等级；

第二确定模块340，用于在所述风险等级为第一风险等级情况下，基于所述目标网站的域名信息以及预设的域名信息库，确定所述目标网站是否为伪装成可信网站的风险网站。

一种可选的实施方式中，所述第一确定模块330具体用于：

一种可选的实施方式中，所述第二确定模块340在基于所述目标网站的域名信息以及预设的域名信息库，确定所述目标网站是否为伪装成可信网站的风险网站时，用于：

一种可选的实施方式中，所述第二确定模块340在基于预设的黑名单域名信息库，对所述目标网站的域名信息进行黑名单匹配时，用于：

一种可选的实施方式中，所述第二确定模块340还用于：

一种可选的实施方式中，所述第二确定模块340在基于预设的白名单域名信息库，对所述目标网站的域名信息进行白名单匹配时，用于：

一种可选的实施方式中，所述第二确定模块340还用于：

一种可选的实施方式中，对所述页面截图进行商标识别之前，所述获取模块310还用于：

获取待检测网站的源代码；

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

本公开实施例还提供了一种计算机设备，如图4所示，为本公开实施例提供的计算机设备结构示意图，包括：

处理器41和存储器42；所述存储器42存储有处理器41可执行的机器可读指令，处理器41用于执行存储器42中存储的机器可读指令，所述机器可读指令被处理器41执行时，处理器41执行下述步骤：

基于所述待检测文本，确定所述目标网站的风险等级；

一种可选的实施方式中，处理器41执行的步骤中，所述基于所述待检测文本，确定所述目标网站的风险等级，包括：

一种可选的实施方式中，处理器41执行的步骤中，所述基于所述目标网站的域名信息以及预设的域名信息库，确定所述目标网站是否为伪装成可信网站的风险网站，包括：

一种可选的实施方式中，处理器41执行的步骤中，所述基于预设的黑名单域名信息库，对所述目标网站的域名信息进行黑名单匹配，包括：

一种可选的实施方式中，处理器41执行的步骤中，还包括：

一种可选的实施方式中，处理器41执行的步骤中，所述基于预设的白名单域名信息库，对所述目标网站的域名信息进行白名单匹配，包括：

一种可选的实施方式中，处理器41执行的步骤中，还包括：

一种可选的实施方式中，对所述页面截图进行商标识别之前，处理器41执行的步骤中，还包括：

获取待检测网站的源代码；

上述存储器42包括内存421和外部存储器422；这里的内存421也称内存储器，用于暂时存放处理器41中的运算数据，以及与硬盘等外部存储器422交换的数据，处理器41通过内存421与外部存储器422进行数据交换。

上述指令的具体执行过程可以参考本公开实施例中所述的风险网站识别方法的步骤，此处不再赘述。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的风险网站识别方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的风险网站识别方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种风险网站识别方法，其特征在于，包括：

在所述页面截图未匹配到所述目标商标的情况下，从所述目标网站中包含的图像元素中识别出待检测文本；其中，对所述图像元素进行待检测文本的识别时，利用所述页面截图进行识别，或者从所述目标网站的源代码或资源文件中提取出的图像资产，对所述图像资产进行识别；

在检测到与所述待检测文本匹配的第一风险关键词的情况下，确定所述目标网站的风险等级为第一风险等级；

在所述风险等级为第一风险等级情况下，基于所述目标网站的域名信息以及预设的域名信息库，确定所述目标网站是否为伪装成可信网站的风险网站；

对所述页面截图进行商标识别之前，所述方法还包括：

获取待检测网站的源代码；

在所述源代码中识别到第二风险关键词和/或表单输入功能代码的情况下，利用白名单logo库对待检测网站的页面截图进行商标logo图像检测；

在检测到匹配的logo时，进行网页图像识别，识别出网页中的文字，并利用相关的第二关键词进行匹配，并在匹配到第二关键词时进行域名的风险检测，根据域名的风险检测结果，判断待检测网站是否为目标网站；

所述基于所述目标网站的域名信息以及预设的域名信息库，确定所述目标网站是否为伪装成可信网站的风险网站，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于预设的黑名单域名信息库，对所述目标网站的域名信息进行黑名单匹配，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述基于预设的白名单域名信息库，对所述目标网站的域名信息进行白名单匹配，包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.一种风险网站识别装置，其特征在于，包括：

识别模块，用于在所述页面截图未匹配到所述目标商标的情况下，从所述目标网站中包含的图像元素中识别出待检测文本；其中，对所述图像元素进行待检测文本的识别时，利用所述页面截图进行识别，或者从所述目标网站的源代码或资源文件中提取出的图像资产，对所述图像资产进行识别；

第一确定模块，用于基于多个第一风险关键词，对所述待检测文本进行风险关键词检测；在检测到与所述待检测文本匹配的第一风险关键词的情况下，确定所述目标网站的风险等级为第一风险等级；

第二确定模块，用于在所述风险等级为第一风险等级情况下，基于所述目标网站的域名信息以及预设的域名信息库，确定所述目标网站是否为伪装成可信网站的风险网站；

对所述页面截图进行商标识别之前，所述获取模块还用于：

获取待检测网站的源代码；

所述第二确定模块具体用于：

7.一种计算机设备，其特征在于，包括：处理器、存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述处理器用于执行所述存储器中存储的机器可读指令，所述机器可读指令被所述处理器执行时，所述处理器执行如权利要求1至5任一项所述的风险网站识别方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被计算机设备运行时，所述计算机设备执行如权利要求1至5任意一项所述的风险网站识别方法的步骤。