网站页面的检测方法、装置、电子设备及介质
技术领域
本发明涉及通信技术领域,尤其涉及一种网站页面的检测方法、装置、电子设备及介质。
背景技术
伴随着互联网技术的不断发展,网站为用户提供了丰富多彩的内容,如:新闻、公告、论坛等。但同样是由于技术的发展,网站也容易受到黑客入侵,从而导致经常发生网站页面被篡改的事件。
其中,非法页面包括被劫持的页面。具体地,当页面被劫持时,用户使用HTTP请求该页面的时候,会出现有不属于网站范畴的广告,或者是跳转到某个不属于网站范畴的页面。
针对于该非法页面,常见的检测方法有外部检测。但是由于网站中被劫持的页面往往是几个月前甚至几年前的页面,或黑客添加的页面在该网站中搜索不到等原因,从而会提高工作难度,导致工作人员的负担加重。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种网站页面的检测方法,具有的减轻工作人员负担优点。
本发明的目的之一采用如下技术方案实现:
一种网站页面的检测方法,包括以下步骤:
获取待检测页面;
基于所述待检测页面得到对应的真实URL,并记为true-url;
对所述true-url配置Referer的请求头,并得到r-url;
通过模拟浏览器访问所述r-url,得到跳转后的URL并记为A-url;
访问所述true-url,得到跳转后的URL并记为B-url;
判断所述A-url和所述B-url是否匹配,若匹配失败,则标记所述待检测页面,若匹配成功,则执行补集贝叶斯模型检测;
所述补集贝叶斯模型检测包括以下步骤:
获取所述待检测页面的源码信息;
获取分词库,所述分词库包括基础词和非法词;
基于所述分词库提取代表所述源码信息的源码关键词、与所述源码关键词的对应的权重;
基于补集贝叶斯模型、源码关键词及对应的权重得到所述待检测页面为非法页面
的非法概率,判断所述非法概率是否大于预设值,若是,则标记所述待检测页面,其中所述
补集贝叶斯公式为
,
,j表示每个样本,i表示特
征,
就是特征值;
表示一个特征i下,所有标签类别不等于c值的样本的特征取值
之和;
表示所有特征下,所有标签类别不等于c值的样本的特征取值之和;
表
示平滑系数。
进一步地,获取待检测页面,包括以下步骤:
获取待检测域名和关键词;
基于所述待检测域名和所述关键词进行搜索引擎搜索,并得到所述待检测页面。
进一步地,基于所述待检测页面得到对应的真实URL,包括以下步骤:
获取与所述待检测页面对应的搜索引擎;
基于所述搜索引擎得到与所述待检测页面对应的加密URL;
对所述加密URL进行解密,并得到真实URL。
进一步地,还包括以下步骤:当所述A-url和所述B-url匹配成功,则判断所述A-url是否关联有基于脚本生成的URL链接,若是,则标记所述待检测页面。
进一步地,还包括以下步骤:
当所述A-url和所述B-url匹配成功,则获取非法URL特征库;
判断所述A-url是否与所述非法URL特征库匹配,若是,则标记所述待检测页面。
进一步地,若所述A-url与所述非法URL特征库匹配失败,则执行以下步骤:
获取非法关键词库;
提取所述A-url的关键词;
判断所述A-url的关键词是否与所述非法关键词库匹配,若是,则标记所述待检测页面。
本发明的目的之二在于提供一种网站页面的检测装置,具有的减轻工作人员负担优点。本发明的目的之二采用如下技术方案实现:一种网站页面的检测装置,包括:
获取模块:用于获取待检测页面;
处理模块:用于基于所述待检测页面得到对应的真实URL,并记为true-url;
配置模块:用于对所述true-url配置Referer的请求头,并得到r-url;
模拟浏览器处理模块:用于通过模拟浏览器访问所述r-url,得到跳转后的URL并记为A-url;
程序处理模块:访问所述true-url,得到跳转后的URL并记为B-url;
匹配模块:用于判断所述A-url和所述B-url是否匹配,若匹配失败,则标记所述待检测页面,若匹配成功,则执行补集贝叶斯模型检测,
补集贝叶斯模型检测模块,用于获取所述待检测页面的源码信息;获取分词库,所
述分词库包括基础词和非法词;基于所述分词库提取代表所述源码信息的源码关键词、与
所述源码关键词的对应的权重;基于补集贝叶斯模型、源码关键词及对应的权重得到所述
待检测页面为非法页面的非法概率,判断所述非法概率是否大于预设值,若是,则标记所述
待检测页面,其中所述补集贝叶斯公式为
,
,j表
示每个样本,i表示特征,
就是特征值;
表示一个特征i下,所有标签类别不等于
c值的样本的特征取值之和;
表示所有特征下,所有标签类别不等于c值的样本
的特征取值之和;
表示平滑系数。
本发明的目的之三在于提供执行发明目的之一的电子设备,其包括处理器、存储介质以及计算机程序,所述计算机程序存储于存储介质中,所述计算机程序被处理器执行时实现上述的网站页面的检测方法。
本发明的目的之四在于提供存储发明目的之一的计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的网站页面的检测方法。
相比现有技术,本发明的有益效果在于:该方法是基于执行设备自动执行,在一定程度上代替了人工检测,从而减轻了工作人员的负担;当页面被劫持时,A-url和B-url不匹配的概率较大,从而通过该方法可以识别大部分被劫持网页;由于部分劫持方式是基于Referer的请求头实施的,从而在通过对true-url配置Referer的请求头并记为r-url,通过模拟浏览器访问r-url,以提高被劫持网页被识别的概率;通过该补集贝叶斯模型检测,以提高检测的精确度。
附图说明
图1为实施例一所示检测方法的流程图;
图2为图1中步骤S110的流程图;
图3为实施例二所示检测方法的局部流程图;
图4为实施例三所示检测方法的局部流程图;
图5为实施例四所示检测装置的结构框图;
图6为实施例五电子设备的结构框图。
图中:1、获取模块;2、处理模块;3、配置模块;4、模拟浏览器处理模块;5、程序处理模块;6、匹配模块;7、电子设备;71、处理器;72、存储器;73、输入装置;74、输出装置;8、补集贝叶斯模型检测模块。
具体实施方式
以下将结合附图,对本发明进行更为详细的描述,需要说明的是,以下参照附图对本发明进行的描述仅是示意性的,而非限制性的。各个不同实施例之间可以进行相互组合,以构成未在以下描述中示出的其他实施例。
实施例一
本实施例提供了一种网站页面的检测方法,旨在解决由于非法网页的检测难度大而导致工作人员负担重的问题。具体地,参照图1和图2所示,该检测方法具体包括以下步骤。
步骤S10、获取待检测页面。具体地,该待检测页面关联有搜索引擎。由于国内的网站以百度搜索、搜狗搜索、360搜索为主,从而搜索引擎可以包括百度搜索引擎、搜狗搜索引擎、360搜索引擎,但该搜索引擎不限于上述类型。
步骤S20、基于待检测页面得到对应的真实URL,并记为true-url。值得说明的是,当通过浏览器直接访问true-url,则可以跳转相应的页面,该页面即为待检测页面。
步骤S30、对true-url配置Referer的请求头,并得到r-url。具体地,由于r-url带有Referer的请求头,从而可以根据该Referer的请求头判定网页从哪里来的。
步骤S40、通过模拟浏览器访问r-url,得到跳转后的URL并记为A-url。具体地,由于部分劫持方式是基于Referer的请求头进行选择劫持的,从而在模拟浏览器请求时,应当访问r-url而不是true-url;通过模拟浏览器访问r-url,网页可以执行相应的脚本。该脚本通常为js脚本,以检测黑客使用js脚本用于加载或跳转到非法网页。
步骤S50、访问true-url,得到跳转后的URL并记为B-url。具体地,该true-url可以通过模拟浏览器访问,也可以通过程序访问。该步骤优选为通过程序访问,从而减轻模拟浏览器的压力。值得说明的是,通过访问true-url得到的B-url与待检测页面对应。
步骤S60、判断A-url和B-url是否匹配,若匹配失败,则执行步骤S70、标记待检测页面;若匹配成功,则执行步骤S110、补集贝叶斯模型检测。由于B-url与待检测页面对应,当A-url和B-url匹配成功时,则该待检测页面可能被劫持,需要进一步处理;当A-url和B-url匹配失败时,则表示通过模拟浏览器访问得到的A-url不是待检测网页,从而说明该待检测网页被劫持,继而标记待检测页面。该标记方式可以为保存待检测页面的相关信息,但标记方式不限于上述方式。
该步骤S110具体包括步骤S1101至步骤S1105。
步骤S1101、获取待检测页面的源码信息。具体地,该源码信息经过了剔除网页标签、数据清洗等处理,该源码信息包括待检测页面的文本内容。
步骤S1102、获取分词库,分词库包括基础词和非法词。值得说明的是,工作人员可以根据实际情况增删分词库内的非法词或基础词。
步骤S1103、基于分词库提取代表源码信息的源码关键词、与源码关键词的对应的权重。
步骤S1104、基于补集贝叶斯模型、源码关键词及对应的权重得到待检测页面为非
法页面的非法概率。值得说明的是,该补集贝叶斯公式为
,
其中j表示每个样本,i表示特征,
就是特征值;
表示一个
特征i下,所有标签类别不等于c值的样本的特征取值之和;
表示所有特征下,所
有标签类别不等于c值的样本的特征取值之和;
表示平滑系数,可自定义;在计算时,i的
取值为1~n,则
为
与n的乘积。通过输入源码关键词、与源码关键词的对应的权重,从
而得到非法概率。
步骤S1105、判断非法概率是否大于预设值,若是,则执行步骤S70。值得说明的是,预设值为自定义,可以设置为0.5-0.7之间,优选为0.6。
值得说明的是,该方法中的步骤是基于执行设备完成的。具体地,该执行设备可以为服务器、用户端、处理器等,但该执行设备不限于上述设备。
综上,该方法是基于执行设备自动执行,在一定程度上代替了人工检测,从而减轻了工作人员的负担;当页面被劫持时,A-url和B-url不匹配的概率较大,从而通过该方法可以识别大部分被劫持网页;通过该补集贝叶斯模型检测,以提高检测的精确度。
实施例二
本实施例提供了一种网站页面的检测方法,参照图1、图2以及图3所示,本实施例在实施例一的基础上进行的。
具体地,获取待检测页面还包括步骤S101至步骤S102。
步骤S101、获取待检测域名和关键词。具体地,由于网站页面劫持会为了躲避搜索引擎打击,需要进行造词,而这些词可以通过人工测试发现并进行保存,从而在该关键词可以由程序和/或人工筛取。
步骤S102、基于待检测域名和关键词进行搜索引擎搜索,并得到待检测页面。例如在检索式为“site:hangzhou.gov.cn 西湖”中,“hangzhou.gov.cn”为域名,“西湖”为关键词。
值得说明的是,该待检测域名可以由API获取,且一个待检测域名可以对应一个以上的待检测页面,执行设备可以选取预设数量的待检测页面然后执行相应的操作。通过基于域名和关键词进行搜索,可以得到若干待检测页面,该待检测页面以项目的形式显示,通过点击该项目,以跳转至对应的待检测页面。
综上,通过待检测域名和关键词的结合,以得到预设数量的待检测页面,从而避免工作人员进行逐一选取,以降低工作人员的负担并提高工作效率。
作为优选的技术的方案,基于待检测页面得到对应的真实URL,其具体包括步骤S201至步骤S203。
步骤S201、获取与待检测页面对应的搜索引擎。具体地,通过点击相应的项目以跳转至相应的待检测页面,此时该页面对应有搜索引擎,该搜索引擎可以参照实施例一所述。
步骤S202、基于搜索引擎得到与待检测页面对应的加密URL。具体地,步骤S201中的待检测页面对应的URL即为经由搜索引擎加密的加密URL。
步骤S203、对加密URL进行解密,并得到真实URL。值得说明的是,该加密URL是经由搜索引擎加密,从而可以通过搜索引擎的加密规则能够快速得到真实URL。
实施例三
本实施例提供了一种网站页面的检测方法,参照图1至图4所示,本实施例在实施例一和/或实施二的基础上进行的。
具体地,该检测方法还包括以下步骤。当在步骤S1105中非法概率小于预设值时,则执行步骤S80,该步骤S80具体为:判断A-url是否存在基于脚本生成的URL链接,若有,执行步骤S70。
值得说明的是,常见的网站页面的劫持还包括以下方式:通过预设脚本,从而使待检测页面携带相应的URL连接。基于上述劫持方式,通过模拟浏览器访问r-url并得到A-url时,若待检测页面被劫持,则待检测页面会携带基于脚本生成的URL链接。通过该技术方案,实现对待检测页面的双重检测,提高了检测的准确率。
作为优选的方案,该检测方法还包括步骤S90、非法URL特征库检测。步骤S90可以在步骤S60中判断A-url与B-url匹配后执行,也可以在在步骤S1105中非法概率小于预设值时,也可以在步骤S80中判定A-url没有存在基于脚本生成的URL链接时执行。步骤S90优选为在步骤S80之后执行,该步骤S90具体包括步骤S901至步骤S902。
步骤S901、获取非法URL特征库。该非法URL特征库可以为由百度收集的非法URL组成,但该非法URL特征库不限于上述收集方式。
步骤S902、将非法URL特征库一一与A-url进行匹配,若匹配成功,则执行步骤S70。通过该技术方案,实现了对待检测页面的多重检测,提高了检测的准确率。
作为优选的方案,该检测方法还包括步骤S100。具体得,当在步骤S902中判定A-url与非法URL特征库不匹配,则执行步骤S100,该步骤S100为:非法关键词库检测。步骤S100具体包括步骤S1001至步骤S1003。
步骤S1001、获取非法关键词库。该非法关键词库可以保存于数据库内,且该非法关键词库内的关键词可以由工作人员进行添加。
步骤S1002、提取A-url的关键词。
步骤S1003、判断A-url的关键词是否与非法关键词库匹配,若匹配成功,则执行步骤S70。通过上述技术方案,实现了对A-url的进步一检测,以提高检测精度。
作为优选的方案,该检测方法还可以包括步骤S120、外链检测,该步骤S120可以在步骤S1003中A-url的关键词与非法关键词库不匹配时执行。具体的步骤S120具体包括以下步骤:获取待检测页面的外部链接;依次通过搜索引擎搜索各个外部链接相应的域名;提取搜索引擎返回的文字信息,基于非法关键词库判断文字信息是否合法,若否,则执行步骤S70;若是,则进行步骤S130、人工检测。通过上述技术方案检测外链时,能够加快检测速度。
在对该检测页面进行检测时,还对相应的外部链接进行检测,从而避免存在相应的非法外部链接;在系统检测完成后进行人工检测,从而弥补系统的缺陷,以提高检测的精确度。
实施例四
本实施例提供了一种网站页面的检测装置,旨在解决由于被劫持网页的检测难度大而导致工作人员负担重的问题。具体地,参照图5所示,该检测装置具体包括获取模块1、处理模块2、配置模块3、模拟浏览器处理模块4、程序处理模块5、匹配模块6及补集贝叶斯模型检测模块8。
获取模块1用于获取待检测页面;处理模块2用于基于待检测页面得到对应的真实
URL,并记为true-url;配置模块3用于对true-url配置Referer的请求头,并得到r-url;模
拟浏览器处理模块4用于通过模拟浏览器访问r-url,得到跳转后的URL并记为A-url;程序
处理模块5用于访问true-url,得到跳转后的URL并记为B-url;匹配模块6用于判断A-url和
B-url是否匹配,若匹配失败,则标记待检测页面,若匹配成功,则执行补集贝叶斯模型检
测;补集贝叶斯模型检测模块8:用于获取所述待检测页面的源码信息;获取分词库,所述分
词库包括基础词和非法词;基于所述分词库提取代表所述源码信息的源码关键词、与所述
源码关键词的对应的权重;基于补集贝叶斯模型、源码关键词及对应的权重得到待检测页
面为非法页面的非法概率,判断非法概率是否大于预设值,若是,则标记待检测页面。值得
说明的是,该补集贝叶斯公式为
,
其中j表示
每个样本,i表示特征,
就是特征值;
表示一个特征i下,所有标签类别不等于c值
的样本的特征取值之和;
表示所有特征下,所有标签类别不等于c值的样本的
特征取值之和;
表示平滑系数,可自定义;在计算时,i的取值为1~n,则
为
与n的乘
积。
优选地,在获取模块1中,获取待检测页面包括以下步骤:获取待检测域名和关键词;基于待检测域名和关键词进行搜索引擎搜索,并得到待检测页面。
优选地,处理模块2中,基于待检测页面得到对应的真实URL包括以下步骤:获取与待检测页面对应的搜索引擎;基于搜索引擎得到与待检测页面对应的加密URL;对加密URL进行解密,并得到真实URL。
优选地,该检测装置还包括二次检测模块,二次检测模块用于当所述A-url和所述B-url匹配成功,则判断所述A-url是否关联有基于脚本生成的URL链接,若是,则标记所述待检测页面。
实施例五
电子设备7可以是台式计算机、笔记本电脑、服务器(实体服务器或云服务器)等,甚至也可以是手机或平板电脑等,
图6为本发明实施例五提供的一种电子设备的结构示意图,如图5和图6所示,该电子设备7包括处理器71、存储器72、输入装置73和输出装置74;计算机设备中处理器71的数量可以是一个或多个,图6中以一个处理器71为例;电子设备7中的处理器71、存储器72、输入装置73和输出装置74可以通过总线或其他方式连接,图6中以通过总线连接为例。
存储器72作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的网站页面的检测方法对应的程序指令/模块,该程序指令/模块为网站页面的检测装置中的获取模块1、处理模块2、配置模块3、模拟浏览器处理模块4、程序处理模块5、匹配模块6及补集贝叶斯模型检测模块8。处理器71通过运行存储在存储器72中的软件程序、指令/模块,从而执行电子设备7的各种功能应用以及数据处理,即实现上述实施例一至实施例三的任意实施例或实施例组合的网站页面的检测方法。
存储器72可主要包括存储程序区和存储数据区,其中存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器72可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。存储器72还可以进一步设置为包括相对于处理器71远程设置的存储器,这些远程存储器可以通过网络连接至电子设备7。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
值得说明的是,输入装置73可以用于接待检测页面的数据。输出装置74可以包括文档或显示屏等显示设备。具体地,当输出装置为文档时,可以将对应信息按照特定的格式记录于文档内,在实现数据保存的同时,还实现了数据的整合;当输出装置为显示屏等显示设备时,直接对应信息投放于显示屏等设备上,以便于用户实时查看。
实施例六
本发明实施例六还提供一种计算机可读存储介质,其包含计算机可执行指令,计算机可执行指令在由计算机处理器执行时用于执行上述的网站页面的检测方法,该方法包括:
获取待检测页面;
基于待检测页面得到对应的真实URL,并记为true-url;
对true-url配置Referer的请求头,并得到r-url;
通过模拟浏览器访问r-url,得到跳转后的URL并记为A-url;
访问true-url,得到跳转后的URL并记为B-url;
判断A-url和B-url是否匹配,若匹配失败,则标记待检测页面,若匹配成功,则执行补集贝叶斯模型检测;
补集贝叶斯模型检测包括以下步骤:获取待检测页面的源码信息;获取分词库,分
词库包括基础词和非法词;基于分词库提取代表源码信息的源码关键词、与源码关键词的
对应的权重;基于补集贝叶斯模型、源码关键词及对应的权重得到待检测页面为非法页面
的非法概率,判断非法概率是否大于预设值,若是,则标记待检测页面,其中补集贝叶斯公
式为
,
,j表示每个样本,i表示特征,
就是特
征值;
表示一个特征i下,所有标签类别不等于c值的样本的特征取值之和;
表示所有特征下,所有标签类别不等于c值的样本的特征取值之和;
表示
平滑系数。
当然,本发明实施例所提供的一种计算机可读存储介质,其计算机可执行指令不限于如上的方法操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FlASH)、硬盘或光盘等,包括若干指令用以使得一台电子设备(可以是手机,个人计算机,服务器,或者网络设备等)执行本发明中实施例一至实施例三任意实施例或实施例组合的网站页面的检测方法。
值得注意的是,上述网站页面的检测装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可。另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。