CN112511525A - 一种网站恶意第三方内容检测方法及系统 - Google Patents
一种网站恶意第三方内容检测方法及系统 Download PDFInfo
- Publication number
- CN112511525A CN112511525A CN202011332352.9A CN202011332352A CN112511525A CN 112511525 A CN112511525 A CN 112511525A CN 202011332352 A CN202011332352 A CN 202011332352A CN 112511525 A CN112511525 A CN 112511525A
- Authority
- CN
- China
- Prior art keywords
- malicious
- sequence
- content
- model
- legal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1433—Vulnerability analysis
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Probability & Statistics with Applications (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明属于网站内容检测技术领域,特别涉及一种网站恶意第三方内容检测方法及系统,包括下列步骤:网页资源首先经过内容安全策略CSP的检查,若资源无法通过内容安全策略CSP则直接被判定为恶意内容;内容安全策略CSP未检测出的内容进入包含序列构建模块,进行包含序列构建;特征提取;针对包含序列构建中构建出的序列提取相应的特征,用作训练分类;通过包含序列分类器对包含序列进行分类。本发明通过对DOM树细粒度解析出的页面资源包含序列进行第三方恶意内容检测,相对于基于传统安全策略的方法,本发明更加易于部署,同时使得第三方无法寻找安全漏洞绕过本发明,进一步增加了网页的安全性。本发明用于对网站恶意第三方内容的检测。
Description
技术领域
本发明属于网站内容检测技术领域,特别涉及一种网站恶意第三方内容检测方法及系统。
背景技术
受同源策略的影响,来自不同源的代码和数据之间强制进行了隔离,目前用于保护网站不受恶意第三方影响的安全机制包括内容安全策略(CSP)、跨源资源共享(CORS)和基于POST消息的跨域通信,但是由于这些策略很难在实践中安全应用,并且无法解决在动态网络上的信任问题,同时第三方还可以利用它们的能力绕过这些安全机制。
现有技术存在的问题或缺陷:现有的安全策略难于在实践中部署应用,无法解决动态网络上的信任问题,第三方还可以利用它们的能力绕过这些安全机制。
发明内容
针对上述现有的安全策略无法解决动态网络上的信任问题的技术问题,本发明提供了一种易于部署、安全性强、效率高的网站恶意第三方内容检测方法及系统。
为了解决上述技术问题,本发明采用的技术方案为:
一种网站恶意第三方内容检测方法,包括下列步骤:
S1、网页资源首先经过内容安全策略CSP的检查,若资源无法通过内容安全策略CSP则直接被判定为恶意内容;
S2、内容安全策略CSP未检测出的内容进入包含序列构建模块,进行包含序列构建;
S3、特征提取;针对包含序列构建中构建出的序列提取相应的特征,用作训练分类;
S4、通过包含序列分类器对包含序列进行分类。
所述S1中的内容安全策略CSP通过使用META标签将http-equiv设置为Content-Security-Policy,若资源无法通过内容安全策略CSP则直接被判定为恶意内容。
所述S2中构建包含序列的方法为:通过HTML解释器、JavaScript引擎实现DOM树的构建和页面渲染,同时加入浏览器拓展引擎来构建出页面资源的包含关系,形成一个包含序列。
所述S4中的包含序列分类器包括恶意模型、合法模型,所述恶意模型根据目前已有的公开黑名单和检测工具得到恶意样本列表,训练出恶意模型,所述合法模型通过离线收集大量合法数据得到合法样本列表,训练出合法模型,使用机器学习算法对包含序列进行分类。
一种网站恶意第三方内容检测系统,包括内容安全策略CSP模块、包含序列构建模块、特征提取模块、包含序列分类器模块,所述内容安全策略CSP模块依次与包含序列构建模块、特征提取模块、包含序列分类器模块连接,所述内容安全策略CSP模块用于对网页资源进行判定;所述包含序列构建模块通过HTML解释器、JavaScript引擎、浏览器拓展引擎构建页面资源包含序列;所述特征提取模块针对包含序列构建模块中构建出的序列提取相应的特征,用作训练分类;所述包含序列分类器模块使用机器学习对包含序列进行分类。
所述包含序列分类器模块包括恶意模型、合法模型,所述特征提取模块与恶意模型、合法模型并列连接,所述恶意模型根据目前已有的公开黑名单和检测工具得到恶意样本列表,训练出恶意模型,所述合法模型通过离线收集大量合法数据得到合法样本列表,训练出合法模型。
本发明与现有技术相比,具有的有益效果是:
本发明通过对DOM树细粒度解析出的页面资源包含序列进行第三方恶意内容检测,相对于基于传统安全策略的方法,本发明更加易于部署,同时使得第三方无法寻找安全漏洞绕过本发明,进一步增加了网页的安全性。
附图说明
图1为本发明的主要步骤框图;
图2为本发明的包含序列构建图;
图3为本发明的包含序列分类器模型图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种网站恶意第三方内容检测方法,如图1所示,包括下列步骤:
步骤1、网页资源首先经过内容安全策略CSP的检查,若资源无法通过内容安全策略CSP则直接被判定为恶意内容;
步骤2、内容安全策略CSP未检测出的内容进入包含序列构建模块,进行包含序列构建;
步骤3、特征提取;针对包含序列构建中构建出的序列提取相应的特征,用作训练分类;
步骤4、通过包含序列分类器对包含序列进行分类。
进一步,步骤1中的内容安全策略CSP通过使用META标签将http-equiv设置为Content-Security-Policy,若资源无法通过内容安全策略CSP则直接被判定为恶意内容。
进一步,步骤2中构建包含序列的方法为:通过HTML解释器、JavaScript引擎实现DOM树的构建和页面渲染,同时加入浏览器拓展引擎来构建出页面资源的包含关系,形成一个包含序列。
进一步,步骤4中的包含序列分类器包括恶意模型、合法模型,恶意模型根据目前已有的公开黑名单和检测工具得到恶意样本列表,训练出恶意模型,合法模型通过离线收集大量合法数据得到合法样本列表,训练出合法模型,使用机器学习算法对包含序列进行分类。
一种网站恶意第三方内容检测系统,包括内容安全策略CSP模块、包含序列构建模块、特征提取模块、包含序列分类器模块,内容安全策略CSP模块依次与包含序列构建模块、特征提取模块、包含序列分类器模块连接,内容安全策略CSP模块用于对网页资源进行判定;包含序列构建模块通过HTML解释器、JavaScript引擎、浏览器拓展引擎构建页面资源包含序列;特征提取模块针对包含序列构建模块中构建出的序列提取相应的特征,用作训练分类;包含序列分类器模块使用机器学习对包含序列进行分类。
进一步,包含序列分类器模块包括恶意模型、合法模型,特征提取模块与恶意模型、合法模型并列连接,恶意模型根据目前已有的公开黑名单和检测工具得到恶意样本列表,训练出恶意模型,合法模型通过离线收集大量合法数据得到合法样本列表,训练出合法模型。
如图1所示,在页面渲染之前,浏览器会向远程服务器请求HTML文档,浏览器在接收到HTML文档后首先通过HTML解释器将文档解析为DOM树,然后使用CSS解释器对DOM树计算响应的样式信息和页面布局,如果在过程中遇到JS脚本则调用JavaScript引擎执行JS脚本,最后在浏览器上绘制出整个页面。
本发明在浏览器得到页面资源后,首先使用内容安全策略CSP对资源进行检测,通过调用Helmet模块中ContentSecuriPolicy(options)方法,设定CSP指令规则,如果CSP认为资源来自恶意第三方,则直接检出,然后剩余资源进入包含序列分类环节,本发明在DOM树的构建过程中,通过增强Chromium内核Blink,跟踪内容脚本的注入和执行,构建出DOM树无法记录的页面包含关系,构建出的包含序列如图2所示。
包含序列进入特征提取模块提取特征,例如DNS特征包括顶级域、主机类型、等级、Alexa排名等,字符串特征包括非字符所占比例、唯一字符所占比例、域名中每个字符的频率、域名长度、域名的熵等,资源所在序列中所担任的角色特征例如广告网络、CDN、URL缩短服务等。
包含序列分类器使用隐马尔可夫模型,如图3所示,使用Baum-Welch算法估计参数,使用前向后向算法对给定序列的好坏进行检测。
本发明中的模块、单元或流程的划分仅仅是一种逻辑功能的划分,在实际实现时可以有其他的划分方式,例如多个模块和/或单元可以结合或集成于另一个系统中,作为分离部件说明的模块、单元在形式上可以是分开的,也可以是不分开的,因此可以根据实际需要选择其中的部分或全部的单元来实现实施例的方案。
上面仅对本发明的较佳实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化,各种变化均应包含在本发明的保护范围之内。
Claims (6)
1.一种网站恶意第三方内容检测方法,其特征在于:包括下列步骤:
S1、网页资源首先经过内容安全策略CSP的检查,若资源无法通过内容安全策略CSP则直接被判定为恶意内容;
S2、内容安全策略CSP未检测出的内容进入包含序列构建模块,进行包含序列构建;
S3、特征提取;针对包含序列构建中构建出的序列提取相应的特征,用作训练分类;
S4、通过包含序列分类器对包含序列进行分类。
2.根据权利要求1所述的一种网站恶意第三方内容检测方法,其特征在于:所述S1中的内容安全策略CSP通过使用META标签将http-equiv设置为Content-Security-Policy,若资源无法通过内容安全策略CSP则直接被判定为恶意内容。
3.根据权利要求1所述的一种网站恶意第三方内容检测方法,其特征在于:所述S2中构建包含序列的方法为:通过HTML解释器、JavaScript引擎实现DOM树的构建和页面渲染,同时加入浏览器拓展引擎来构建出页面资源的包含关系,形成一个包含序列。
4.根据权利要求1所述的一种网站恶意第三方内容检测方法,其特征在于:所述S4中的包含序列分类器包括恶意模型、合法模型,所述恶意模型根据目前已有的公开黑名单和检测工具得到恶意样本列表,训练出恶意模型,所述合法模型通过离线收集大量合法数据得到合法样本列表,训练出合法模型,使用机器学习算法对包含序列进行分类。
5.一种网站恶意第三方内容检测系统,其特征在于:包括内容安全策略CSP模块、包含序列构建模块、特征提取模块、包含序列分类器模块,所述内容安全策略CSP模块依次与包含序列构建模块、特征提取模块、包含序列分类器模块连接,所述内容安全策略CSP模块用于对网页资源进行判定;所述包含序列构建模块通过HTML解释器、JavaScript引擎、浏览器拓展引擎构建页面资源包含序列;所述特征提取模块针对包含序列构建模块中构建出的序列提取相应的特征,用作训练分类;所述包含序列分类器模块使用机器学习对包含序列进行分类。
6.根据权利要求5所述的一种网站恶意第三方内容检测系统,其特征在于:所述包含序列分类器模块包括恶意模型、合法模型,所述特征提取模块与恶意模型、合法模型并列连接,所述恶意模型根据目前已有的公开黑名单和检测工具得到恶意样本列表,训练出恶意模型,所述合法模型通过离线收集大量合法数据得到合法样本列表,训练出合法模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011332352.9A CN112511525B (zh) | 2020-11-24 | 2020-11-24 | 一种网站恶意第三方内容检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011332352.9A CN112511525B (zh) | 2020-11-24 | 2020-11-24 | 一种网站恶意第三方内容检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112511525A true CN112511525A (zh) | 2021-03-16 |
CN112511525B CN112511525B (zh) | 2022-07-22 |
Family
ID=74958316
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011332352.9A Active CN112511525B (zh) | 2020-11-24 | 2020-11-24 | 一种网站恶意第三方内容检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112511525B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104468546A (zh) * | 2014-11-27 | 2015-03-25 | 微梦创科网络科技(中国)有限公司 | 一种网络信息处理方法及防火墙装置、系统 |
US20160323309A1 (en) * | 2015-04-30 | 2016-11-03 | Yahoo! Inc. | Method and system for blocking malicious third party site tagging |
US9521162B1 (en) * | 2014-11-21 | 2016-12-13 | Narus, Inc. | Application-level DDoS detection using service profiling |
CN107679403A (zh) * | 2017-10-11 | 2018-02-09 | 北京理工大学 | 一种基于序列比对算法的勒索软件变种检测方法 |
CN107948168A (zh) * | 2017-11-29 | 2018-04-20 | 四川无声信息技术有限公司 | 网页检测方法及装置 |
US20180124109A1 (en) * | 2016-11-02 | 2018-05-03 | RiskIQ, Inc. | Techniques for classifying a web page based upon functions used to render the web page |
CN108509794A (zh) * | 2018-03-09 | 2018-09-07 | 中山大学 | 一种基于分类学习算法的恶意网页防御检测方法 |
CN109218296A (zh) * | 2018-08-29 | 2019-01-15 | 天津大学 | 基于改进csp策略的xss防御系统和方法 |
CN110022311A (zh) * | 2019-03-18 | 2019-07-16 | 北京工业大学 | 一种基于攻击图的云外包服务数据泄露安全测试用例自动化生成方法 |
US10397255B1 (en) * | 2015-09-23 | 2019-08-27 | StackRox, Inc. | System and method for providing security in a distributed computation system utilizing containers |
CN110336812A (zh) * | 2019-07-03 | 2019-10-15 | 深圳市珍爱捷云信息技术有限公司 | 资源拦截处理方法、装置、计算机设备和存储介质 |
US10521583B1 (en) * | 2018-10-25 | 2019-12-31 | BitSight Technologies, Inc. | Systems and methods for remote detection of software through browser webinjects |
US20200092333A1 (en) * | 2018-09-16 | 2020-03-19 | Microsoft Technology Licensing, Llc | Content policy based notification of application users about malicious browser plugins |
US10599834B1 (en) * | 2019-05-10 | 2020-03-24 | Clean.io, Inc. | Detecting malicious code existing in internet advertisements |
CN111259440A (zh) * | 2020-01-14 | 2020-06-09 | 中国人民解放军国防科技大学 | 一种针对云外包数据的隐私保护决策树分类方法 |
CN111368297A (zh) * | 2020-02-02 | 2020-07-03 | 西安电子科技大学 | 隐私保护移动恶意软件检测方法、系统、存储介质及应用 |
-
2020
- 2020-11-24 CN CN202011332352.9A patent/CN112511525B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9521162B1 (en) * | 2014-11-21 | 2016-12-13 | Narus, Inc. | Application-level DDoS detection using service profiling |
CN104468546A (zh) * | 2014-11-27 | 2015-03-25 | 微梦创科网络科技(中国)有限公司 | 一种网络信息处理方法及防火墙装置、系统 |
US20160323309A1 (en) * | 2015-04-30 | 2016-11-03 | Yahoo! Inc. | Method and system for blocking malicious third party site tagging |
US10397255B1 (en) * | 2015-09-23 | 2019-08-27 | StackRox, Inc. | System and method for providing security in a distributed computation system utilizing containers |
US20180124109A1 (en) * | 2016-11-02 | 2018-05-03 | RiskIQ, Inc. | Techniques for classifying a web page based upon functions used to render the web page |
CN107679403A (zh) * | 2017-10-11 | 2018-02-09 | 北京理工大学 | 一种基于序列比对算法的勒索软件变种检测方法 |
CN107948168A (zh) * | 2017-11-29 | 2018-04-20 | 四川无声信息技术有限公司 | 网页检测方法及装置 |
CN108509794A (zh) * | 2018-03-09 | 2018-09-07 | 中山大学 | 一种基于分类学习算法的恶意网页防御检测方法 |
CN109218296A (zh) * | 2018-08-29 | 2019-01-15 | 天津大学 | 基于改进csp策略的xss防御系统和方法 |
US20200092333A1 (en) * | 2018-09-16 | 2020-03-19 | Microsoft Technology Licensing, Llc | Content policy based notification of application users about malicious browser plugins |
US10521583B1 (en) * | 2018-10-25 | 2019-12-31 | BitSight Technologies, Inc. | Systems and methods for remote detection of software through browser webinjects |
CN110022311A (zh) * | 2019-03-18 | 2019-07-16 | 北京工业大学 | 一种基于攻击图的云外包服务数据泄露安全测试用例自动化生成方法 |
US10599834B1 (en) * | 2019-05-10 | 2020-03-24 | Clean.io, Inc. | Detecting malicious code existing in internet advertisements |
CN110336812A (zh) * | 2019-07-03 | 2019-10-15 | 深圳市珍爱捷云信息技术有限公司 | 资源拦截处理方法、装置、计算机设备和存储介质 |
CN111259440A (zh) * | 2020-01-14 | 2020-06-09 | 中国人民解放军国防科技大学 | 一种针对云外包数据的隐私保护决策树分类方法 |
CN111368297A (zh) * | 2020-02-02 | 2020-07-03 | 西安电子科技大学 | 隐私保护移动恶意软件检测方法、系统、存储介质及应用 |
Non-Patent Citations (2)
Title |
---|
FU JIANMING等: ""An Empirical Study of Unsolicited Content Injection into a Website"", 《2017 INTERNATIONAL CONFERENCE ON NETWORKING AND NETWORK APPLICATIONS (NANA)》 * |
谷家腾: ""基于动态分析的XSS漏洞检测方法研究"", 《中国优秀硕士学位论文全文数据库》 * |
Also Published As
Publication number | Publication date |
---|---|
CN112511525B (zh) | 2022-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Blum et al. | Lexical feature based phishing URL detection using online learning | |
CN103559235B (zh) | 一种在线社交网络恶意网页检测识别方法 | |
CN104766014B (zh) | 用于检测恶意网址的方法和系统 | |
CN104954372B (zh) | 一种钓鱼网站的取证与验证方法及系统 | |
CN109274632B (zh) | 一种网站的识别方法及装置 | |
KR100848319B1 (ko) | 웹 구조정보를 이용한 유해 사이트 차단 방법 및 장치 | |
CN101964025A (zh) | Xss检测方法和设备 | |
CN104504335B (zh) | 基于页面特征和url特征的钓鱼app检测方法及系统 | |
CN112989348B (zh) | 攻击检测方法、模型训练方法、装置、服务器及存储介质 | |
CN110035075A (zh) | 钓鱼网站的检测方法、装置、计算机设备及存储介质 | |
CN107800686B (zh) | 一种钓鱼网站识别方法和装置 | |
CN111865925A (zh) | 基于网络流量的诈骗团伙识别方法、控制器和介质 | |
Li et al. | Detection method of phishing email based on persuasion principle | |
CN109756467B (zh) | 一种钓鱼网站的识别方法及装置 | |
CN108768921A (zh) | 一种基于特征检测的恶意网页发现方法及系统 | |
CN114422211A (zh) | 基于图注意力网络的http恶意流量检测方法及装置 | |
Zaimi et al. | Survey paper: Taxonomy of website anti-phishing solutions | |
CN102364897A (zh) | 一种网关级在线网络报文检测过滤方法及装置 | |
Tanaka et al. | Phishing site detection using similarity of website structure | |
Geng et al. | RRPhish: Anti-phishing via mining brand resources request | |
CN114244564A (zh) | 攻击防御方法、装置、设备及可读存储介质 | |
CN114422271B (zh) | 数据处理方法、装置、设备及可读存储介质 | |
CN112511525B (zh) | 一种网站恶意第三方内容检测方法及系统 | |
Dudykevych et al. | Detecting third-party user trackers with cookie files | |
CN114169432B (zh) | 一种基于深度学习的跨站脚本攻击识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |