[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN113612639B - 基于网站访问记录分析预测文件下载行为的方法和装置 - Google Patents

基于网站访问记录分析预测文件下载行为的方法和装置 Download PDF

Info

Publication number
CN113612639B
CN113612639B CN202110871515.9A CN202110871515A CN113612639B CN 113612639 B CN113612639 B CN 113612639B CN 202110871515 A CN202110871515 A CN 202110871515A CN 113612639 B CN113612639 B CN 113612639B
Authority
CN
China
Prior art keywords
access
file downloading
behavior
website
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110871515.9A
Other languages
English (en)
Other versions
CN113612639A (zh
Inventor
翟欣虎
秦益飞
杨正权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Yianlian Network Technology Co ltd
Original Assignee
Jiangsu Yianlian Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Yianlian Network Technology Co ltd filed Critical Jiangsu Yianlian Network Technology Co ltd
Priority to CN202110871515.9A priority Critical patent/CN113612639B/zh
Publication of CN113612639A publication Critical patent/CN113612639A/zh
Application granted granted Critical
Publication of CN113612639B publication Critical patent/CN113612639B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请提出一种基于访问记录分析预测文件下载行为的方法,包括:获取至少一用户访问目标网站的网站访问记录;将所述目标网站访问记录按用户分组得到对应每个用户的个人访问记录,并提取文件下载前特征序列;将所述个人访问记录按时段分组得到对应每个时段的时段访问记录,并提取非文件下载特征序列;将所述文件下载前特征序列和所述非文件下载特征序列输入已训练的第一神经网络模型,预测所述目标网站用户文件下载行为发生概率。该方法通过分析目标网站中用户的网站访问记录,从中提取文件下载前特征序列和非文件下载特征序列,让神经网络模型学习用户的文件下载行为模式,训练神经网络模型预测目标网站中用户文件下载行为发生概率。

Description

基于网站访问记录分析预测文件下载行为的方法和装置
技术领域
本申请涉及网络安全审计技术领域,尤其涉及一种基于网站访问记录分析预测文件下载行为的方法和装置。
背景技术
随着网络的日益普及,利用网络实施犯罪的新型网络违法与范围行为也随之日渐增多,网络安全审计是为了加强和规范互联网安全技术的防范工作,保障互联网网络安全和信息安全,出金互联网健康、有序发展,维护国家安全、社会秩序和公共利益。
检测、分析、管控用户的下载行为以及用户下载的文件在网络安全审计中是比较重要的部分,通常情况下记录下载行为最准确的数据是用户使用的终端设备上的下载记录,但运营商是无法通过简单方法拿到用户使用的终端设备上的数据,所以最实际可行的方法是用户接入运营商服务器后,分析服务器所产生的用户网站访问记录获得用户的下载行为数据。
但现有的TCP/IP协议中并没有对下载行为这种操作有明确的定义,并且各个应用网站对于下载行为的记录方式没有统一规范,导致运营商在做用户下载审计时难以判断用户是否存在下载行为。
另外,目前通过网站访问记录识别用户的文件下载行为是根据网站访问记录中请求资源的名称做出的判断,例如在请求资源的名称中文件后缀名为doc、pdf、zip、rar、jpg等关键字时即可认为该请求是文件下载行为,但这种统计方法误报率很高,检测出的文件下载数量远大于用户实际的文件下载数量。
针对上述情况,又进一步叠加筛选规则,例如固定请求资源大小要超过一定阈值才认为是文件下载行为,但依然存在误报率较高的问题。因为判断请求资源大小的阈值是没有标准的,即使请求一个很小的资源也有可能是文件下载行为,请求一个超过阈值的资源也依然可能不是下载行为。
发明内容
第一方面,本申请实施例提供了一种基于网站访问记录分析预测文件下载行为的方法,该方法通过分析网站中用户的网站访问记录,从中提取文件下载前特征序列和非文件下载特征序列,让神经网络模型学习用户的文件下载行为模式,训练神经网络以预测该网站中用户文件下载行为发生概率。
具体的,该方法包括:
获取至少一用户访问目标网站的网站访问记录,所述网络访问记录记录用户的访问行为,其中所述网络访问记录包括URL地址,所述访问行为包括文件下载行为以及非文件下载行为;
将所述目标网站访问记录按用户分组得到对应每个用户的个人访问记录,将所述个人访问记录按时间正序排列,并提取所述文件下载行为前连续多条所述网站访问记录作为文件下载前特征序列;
将所述个人访问记录按时段分组得到对应每个时段的时段访问记录,从不包含所述文件下载行为的所述时段访问记录中提取连续多条所述访问记录作为非文件下载特征序列;
将所述文件下载前特征序列和所述非文件下载特征序列输入已训练的第一神经网络模型,预测所述目标网站用户文件下载行为发生概率。
其中,所述第一神经网络模型中包括循环神经网络,所述文件下载前特征序列和所述非文件下载特征序列输入所述循环神经网络,记录两者中每个节点的特征信息和顺序信息,并将所述特征信息和所述顺序信息转换成信息矩阵。
一个用户在下载文件之前可能会有一系列相关联的访问动作,因此需要对所有文件下载行为的网站访问记录前多条连续的网站访问记录进行分析。但仅仅根据文件下载前特征序列和非文件下载前特征序列来预测文件下载行为是单一的,所以需要再加入更多维度的特征去提高最终预测的准确率。
因此,该方法还包括:
根据所述个人访问记录提取对应所述访问行为的附加特征向量,所述附加特征向量包括全天分布特征向量、周期特征向量、类型分布特征向量、相邻特征向量,并生成文件下载附加特征向量和非文件下载附加特征向量;
将所述文件下载前特征序列、所述非文件下载特征序列、所述文件下载附加特征向量和所述非文件下载附加特征向量输入已训练的第二神经网络模型,预测所述目标网站用户文件下载行为发生概率。
其中,所述全天分布特征向量为所述访问行为在全天内各时间段中占行为总数的比例;所述周期特征向量为所述访问行为周期性发生的最大时间间隔;所述类型分布特征向量为所述访问行为在行为总数中的比例;所述相邻特征向量为所述访问行为的数量。
另外,为了快速对网站访问记录进行访问行为标记,该方法还包括:对所述网站访问记录进行访问行为标记,所述访问行为标记至少包括文件下载行为;建立所述访问行为与URL地址的对应关系,其中一所述访问行为对应一个或多个URL地址。具体的,根据所述网站访问记录中URL地址与所述对应关系中URL地址的字符串相似度最大的访问行为,对所述网站访问记录进行访问行为标记。
其中,所述第二神经网络模型包括所述循环神经网络、卷积神经网络、连接于所述循环神经网络和所述卷积神经网络的密度层;
所述文件下载行为附加特征和所述非文件下载行为附加特征输入所述卷积神经网络,进行特征提取,所述密度层融合所述循环神经网络和所述卷积神经网络的输出结果并预测所述目标网站用户下次文件下载行为发生概率。
第二方面,本申请实施例基于相同构思,还提供了一种基于网站访问记录分析预测文件下载行为的装置,该装置实现上述基于网站访问记录分析预测文件下载行为的方法,该装置包括:
获取模块:用于获取至少一用户访问目标网站的网站访问记录,所述网络访问记录记录用户的访问行为,其中所述网络访问记录包括URL地址,所述访问行为包括文件下载行为以及非文件下载行为;
第一提取模块:用于将所述目标网站访问记录按用户分组得到对应每个用户的个人访问记录,将所述个人访问记录按时间正序排列,并提取所述文件下载行为前连续多条所述网站访问记录作为文件下载前特征序列;
第二提取模块:用于将所述个人访问记录按时段分组得到对应每个时段的时段访问记录,从不包含所述文件下载行为的所述时段访问记录中提取连续多条所述访问记录作为非文件下载特征序列;
预测模块:用于将所述文件下载前特征序列和所述非文件下载特征序列输入已训练的第一神经网络模型,预测所述目标网站用户文件下载行为发生概率。
第三方面,本申请实施例提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以如上所述的基于网站访问记录分析预测文件下载行为的方法。
第四方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括:程序或指令,当所述程序或指令在计算机上运行时,使得所述计算机执行如上所述的基于网站访问记录分析预测文件下载行为的方法。
第五方面,本申请实施例提供了一种所述可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据如上任一实施例中所述的基于网站访问记录分析预测文件下载行为的方法。
本申请实施例提出的一种的基于网站访问记录分析预测文件下载行为的方法,该方法通过分析目标网站中用户产生的网站访问记录,从中提取文件下载前特征序列和非文件下载特征序列,让神经网络学习用户的文件下载行为模式,训练出第一神经网络模型目标网站中用户下次的文件下载行为发生概率。其中特别的是,由于在文件下载前,用户可能会有一系列相关联的访问行为,因此本申请实施例中采用循环神经网络对文件下载前特征序列和非文件下载特征序列进行学习,基于循环神经网络具有记忆性和参数共享,对特征序列的非线性特征进行学习时具有更大优势。
值得一提的是,该方法不是简单通过资源名称以及资源大小来预测是否会发生下载行为,并且也不是单纯依据网站访问记录的文件下载前行为特征序列来预测,而是根据目标网站中用户产生的网站访问记录提取全天分布特征向量、周期特征向量、类型分布特征向量、相邻特征向量作为附加特征向量,将行为特征序列和附加特征向量结合训练第二神经网络模型,以提高该预测目标网站中用户下次文件下载行为发生的准确率。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的基于网站访问记录分析预测文件下载行为的方法流程图;
图2是根据本申请实施例的第二神经网络模型的结构示意图;
图3是根据本申请实施例的基于网站访问记录分析预测文件下载行为的装置的结构框图;
图4是根据本申请实施例的电子装置的硬件结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
实施利一
本实施例提供了一种基于网站访问记录分析预测文件下载行为的方法,该方法通过分析网站中用户的网站访问记录,从中提取文件下载前特征序列和非文件下载特征序列,让神经网络模型学习用户的文件下载行为模式,训练神经网络模型预测该网站中用户下次的文件下载行为发生概率。
参考图1,图1是根据本申请实施例的基于网站访问记录分析预测文件下载行为的方法流程图。
如图1所示,该方法包括步骤S1-S4:
步骤S1:获取至少一用户访问目标网站的网站访问记录,所述网络访问记录记录用户的访问行为,其中所述网络访问记录包括URL地址,所述访问行为包括文件下载行为以及非文件下载行为。
通常根据网络安全审计人员的需要,将某一网站或者某一类网站作为目标网站,收集目标网站中较长一段时间内所有用户产生的网站访问记录。
在收集到网站访问记录后,可以先对网站访问记录进行过滤,去除目标网站中用户访问网站页面时产生的附加记录得到目标网站中用户实际的网站访问记录。具体的过滤方式为:过滤掉网站访问记录中请求例如jpeg、png、ico、js、css等类型的条目,去除一些公知没用的网站访问记录。
在该步骤中,为了快速对网站访问记录进行访问行为标记,可以通过建立URL与行为类型的对应关系,实现对网站访问记录的预处理。因此该方法还包括:对所述网站访问记录进行访问行为标记,所述访问行为标记至少包括文件下载行为;建立所述访问行为与URL地址的对应关系,其中一所述访问行为对应一个或多个URL地址。例如,将过滤后的网站访问记录分别标记为登录系统行为、访问概要页面行为、访问详情页面行为、搜索行为、文件下载行为,其中登录系统行为对应两个不同的URL地址,访问概要页面行为对应另外三个不同的URL地址等等,每个行为都对应一个或多个相关联的URL地址。行为标记定性的细粒程度决定了识别的准确性以及泛化能力:当定性较粗时,识别的准确性会相对降低,但泛化能力会提高;反之当定性的粒度较细时,识别的准确性会提高,但泛化能力会降低。所谓泛化能力指该方法用于没有预先被标记的访问记录时的识别能力。细粒程度根据实际需要决定,并没有统一标准。
具体的,根据所述网站访问记录中URL地址与所述对应关系中URL地址的字符串相似度最大的访问行为,对所述网站访问记录进行访问行为标记。也就是说,将网站访问记录的URL字符串与每个访问行为类型对应的URL地址做字符串相似度计算,并将每个访问行为类型中所有计算结果取均值从小到大排序,选取均值最高的行为类型作为该网站访问记录的行为标记。
另外,如果每一种访问行为类型对应的URL地址数量过大,可以采用按照比例抽样的方式,抽取一定比例,例如10%的URL地址作为参与计算的样本,再按照上述方法对网站访问记录按照内容进行行为标记。
步骤S2:将所述目标网站访问记录按用户分组得到对应每个用户的个人访问记录,将所述个人访问记录按时间正序排列,并提取所述文件下载行为前连续多条所述网站访问记录作为文件下载前特征序列。
在该步骤中,将该网站的网站访问记录按照用户的唯一标识进行分组,例如按照用户ID将网站访问记录分组得到对应每个用户的个人访问记录,然后将每个用户的个人访问记录都按照时间正序排列,筛选出其中标记有文件下载行为的网站访问记录,提取该标记有文件下载行为的网站访问记录前连续多条网站访问记录作为文件下载前特征序列,根据用户的文件下载行为次数可以提取出相对应个数的文件下载前特征序列。
步骤S3:将所述个人访问记录按时段分组得到对应每个时段的时段访问记录,从不包含所述文件下载行为的所述时段访问记录中提取连续多条所述访问记录作为非文件下载特征序列。
将步骤S2中得到的个人访问记录中的网站访问记录再按照时段分组得到时段访问记录,例如按照每天分组得到时段访问记录后,从不包含文件下载行为的时段访问记录中提取连续多条所述网站访问记录作为非文件下载特征序列。
步骤S4:将所述文件下载前特征序列和所述非文件下载特征序列输入已训练的第一神经网络模型,预测所述目标网站用户文件下载行为发生概率。
其中第一神经网络模型中包括循环神经网络,循环神经网络是一类以序列数据为输入,在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络。且循环神经网络具有记忆性、参数共享并且图灵完备,因此在对序列的非线性特征进行学习时具有更大优势。将所述文件下载前特征序列和所述非文件下载特征序列输入循环神经网络,循环神经网络记录两者中每个节点的特征信息和顺序信息,并将特征信息和顺序信息转换成信息矩阵以用于第一神经网络模型下游的进一步计算,最后得到预测目标网站用户文件下载行为发生概率。神经网络的内部计算过程并不存在常识上的可描述行,因此这里对计算过程不作具体描述。
一个用户在下载文件之前可能会有一系列相关联的访问动作,因此需要使用循环神经网络对所有文件下载行为的网站访问记录前多条连续的网站访问记录进行学习分析。但仅仅根据文件下载前特征序列和非文件下载前特征序列来预测文件下载行为是单一的,所以需要再加入更多维度的特征去提高最终预测的准确率。
在另一些实施例中,还可以根据所述个人访问记录提取对应所述访问行为的附加特征向量,所述附加特征向量包括全天分布特征向量、周期特征向量、类型分布特征向量、相邻特征向量,并生成文件下载附加特征向量和非文件下载附加特征向量;
将所述文件下载前特征序列、所述非文件下载特征序列、所述文件下载附加特征向量和所述非文件下载附加特征向量输入已训练的第二神经网络模型,预测所述目标网站用户文件下载行为发生概率。
其中,所述全天分布特征向量为所述访问行为在全天内各时间段中占行为总数的比例;所述周期特征向量为所述访问行为周期性发生的最大时间间隔;所述类型分布特征向量为所述访问行为在行为总数中的比例;所述相邻特征向量为所述访问行为的数量。具体的,全天分布特征向量为将各种访问行为按全天时间段离散化,统计每个时间段中某行为占全天行为总次数的比例生成的特征向量;周期特征向量为某行为周期性发生的最大时间间隔;类型分布特征向量为统计每种访问行为在全部行为中出现的比例,生成以不重复访问行为类型为长度的特征向量;相邻特征向量为统计相邻访问行为之间的转移概率,生成以访问行为类型数量全排列的数量为长度的特征向量。
上述第二神经网络模型的具体结构参照图2,图2是根据本申请实施例的第二神经网络模型的结构示意图。如图2所示,该模型包括循环神经网络、卷积神经网络和密度层,密度层连接于循环神经网络和卷积神经网络后。文件下载特征前特征序列和非文件下载特征序列输入到循环神经网络中进行特征提取,其中循环神经网络提取到特征序列先后顺序的抽象特征;文件下载附加特征向量和非文件下载附加特征向量输入到卷积神经网络中进行特征提取,其中卷积神经网络可以更好地提取到不需要记录输入数据先后顺序的特征;然后密度层融合循环神经网络和卷积神经网络的输出结果,并预测该网站用户文件下载行为发生概率。
最后,将文件下载行为发生概率与设定的发生阈值进行对比,当该文件下载行为发生概率大于发生阈值时,表示目标网站中有用户即将进行文件下载行为。
上述基于网站访问记录分析预测文件下载行为的方法可以针对某一网站、也可以为同一个类型的网站构建第一神经网络模型和第二神经网络模型,并且根据该方法的思路可以替换特征序列和特征向量,提取需要的行为特征序列和行为特征向量训练出对应的神经网络模型。
实施例二
基于相同构思,参考图3,本实施例还提供了一种基于网站访问记录分析预测文件下载行为的装置,该装置实现上述基于网站访问记录分析预测文件下载行为的方法,该装置包括:
获取模块:用于获取至少一用户访问目标网站的网站访问记录,所述网络访问记录记录用户的访问行为,其中所述网络访问记录包括URL地址,所述访问行为包括文件下载行为以及非文件下载行为;
第一提取模块:用于将所述目标网站访问记录按用户分组得到对应每个用户的个人访问记录,将所述个人访问记录按时间正序排列,并提取所述文件下载行为前连续多条所述网站访问记录作为文件下载前特征序列;
第二提取模块:用于将所述个人访问记录按时段分组得到对应每个时段的时段访问记录,从不包含所述文件下载行为的所述时段访问记录中提取连续多条所述访问记录作为非文件下载特征序列;
预测模块:用于将所述文件下载前特征序列和所述非文件下载特征序列输入已训练的第一神经网络模型,预测所述目标网站用户文件下载行为发生概率。
实施例三
本实施例还提供了一种电子装置,具体参考图4,包括存储器304和处理器302,该存储器304中存储有计算机程序,该处理器302被设置为运行计算机程序以执行上述实施例中任意一种基于网站访问记录分析预测文件下载行为的方法的步骤。
具体地,上述处理器302可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器304可以包括用于数据或指令的大容量存储器304。举例来说而非限制,存储器304可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(Solid State Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerial Bus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器304可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器304可在数据处理装置的内部或外部。在特定实施例中,存储器304是非易失性(Non-Volatile)存储器。在特定实施例中,存储器304包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(Random Access Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(ErasableProgrammable Read-Only Memory,简称为EPROM)、电可擦除PROM(Electrically ErasableProgrammable Read-Only Memory,简称为EEPROM)、电可改写ROM(ElectricallyAlterable Read-Only Memory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-AccessMemory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器304(Fast Page Mode DynamicRandom Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDate Out Dynamic Random Access Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器304可以用来存储或者缓存需要处理和/或通信使用的各种初始化数据文件,以及处理器302所执行的可能的计算机程序指令。
处理器302通过读取并执行存储器304中存储的计算机程序指令,以实现上述实施例中的基于网站访问记录分析预测文件下载行为的方法。
可选地,上述电子装置还可以包括传输设备306以及输入输出设备308,其中,该传输设备306和上述处理器302连接,该输入输出设备308和上述处理器302连接。
传输设备306可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中,传输设备包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备306可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
输入输出设备308用于输入或输出信息。例如,上述输入输出设备可以是显示屏、鼠标、键盘或其他设备。在本实施例中,输入设备用于输入采集得到的信息,输入的信息可以是数据、表格、图像、实时视频,输出的信息可以是通过业务系统展示的文本、图表以及告警信息等等。
可选地,在本实施例中,上述处理器302可以被设置为通过计算机程序执行以下步骤:
获取至少一用户访问目标网站的网站访问记录,所述网络访问记录记录用户的访问行为,其中所述网络访问记录包括URL地址,所述访问行为包括文件下载行为以及非文件下载行为;
将所述目标网站访问记录按用户分组得到对应每个用户的个人访问记录,将所述个人访问记录按时间正序排列,并提取所述文件下载行为前连续多条所述网站访问记录作为文件下载前特征序列;
将所述个人访问记录按时段分组得到对应每个时段的时段访问记录,从不包含所述文件下载行为的所述时段访问记录中提取连续多条所述访问记录作为非文件下载特征序列;
将所述文件下载前特征序列和所述非文件下载特征序列输入已训练的第一神经网络模型,预测所述目标网站用户文件下载行为发生概率。
另外,结合上述实施例中的一种基于网站访问记录分析预测文件下载行为的方法,本申请实施例可一种计算机程序产品来实现。该计算机程序产品包括:程序或指令,当所述程序或指令在计算机上运行时,使得所述计算机执行实现上述实施例中的任意一种基于网站访问记录分析预测文件下载行为的方法。
并且,结合上述实施例中的一种基于网站访问记录分析预测文件下载行为的方法,本申请实施例可提供一种可读存储介质来实现。该可读存储介质上存储有计算机程序;该计算机程序包括用于控制过程以执行过程的程序代码,该过程包括上述实施例中的任意一种基于网站访问记录分析预测文件下载行为的方法。
通常,各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现,而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现,但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示,但是应当理解,作为非限制性示例,本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。
本发明的实施例可以由计算机软件来实现,该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行,或者由硬件来实现,或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中,并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外,在这一点上,应当注意,如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。
本领域的技术人员应该明白,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (7)

1.基于网站访问记录分析预测文件下载行为的方法,包括:
获取至少一用户访问目标网站的网站访问记录,所述网络访问记录记录用户的访问行为,其中所述网络访问记录包括URL地址,所述访问行为包括文件下载行为以及非文件下载行为;
将所述网站访问记录按用户分组得到对应每个用户的个人访问记录,将所述个人访问记录按时间正序排列,并提取所述文件下载行为前连续多条所述网站访问记录作为文件下载前特征序列;
将所述个人访问记录按时段分组得到对应每个时段的时段访问记录, 从不包含所述文件下载行为的所述时段访问记录中提取连续多条所述时段访问记录作为非文件下载特征序列;
根据所述个人访问记录提取对应所述访问行为的附加特征向量,所述附加特征向量包括全天分布特征向量、周期特征向量、类型分布特征向量、相邻特征向量,并生成文件下载附加特征向量和非文件下载附加特征向量;将所述文件下载前特征序列、所述非文件下载特征序列、所述文件下载附加特征向量和所述非文件下载附加特征向量输入已训练的第二神经网络模型,预测所述目标网站用户文件下载行为发生概率;
所述第二神经网络模型包括所述循环神经网络、卷积神经网络、连接于所述循环神经网络和所述卷积神经网络的密度层;文件下载特征前特征序列和非文件下载特征序列输入到循环神经网络中进行特征提取,其中循环神经网络提取到特征序列先后顺序的抽象特征;文件下载附加特征向量和非文件下载附加特征向量输入到卷积神经网络中进行特征提取,然后密度层融合循环神经网络和卷积神经网络的输出结果,并预测该网站用户文件下载行为发生概率。
2.根据权利要求1所述的基于网站访问记录分析预测文件下载行为的方法,其特征在于,所述全天分布特征向量为所述访问行为在全天内各时间段中占行为总数的比例;所述周期特征向量为所述访问行为周期性发生的最大时间间隔;所述类型分布特征向量为所述访问行为在行为总数中的比例;所述相邻特征向量为所述访问行为的数量。
3.根据权利要求1所述的基于网站访问记录分析预测文件下载行为的方法,其特征在于,该方法还包括:对所述网站访问记录进行访问行为标记,所述访问行为标记至少包括文件下载行为;建立所述访问行为与URL地址的对应关系,其中所述访问行为对应一个或多个URL地址。
4.根据权利要求3所述的基于网站访问记录分析预测文件下载行为的方法,其特征在于,根据所述网站访问记录中URL地址与所述对应关系中URL地址的字符串相似度最大的访问行为,对所述网站访问记录进行访问行为标记。
5.基于网站访问记录分析预测文件下载行为的装置,其特征在于,包括:
获取模块:用于获取至少一用户访问目标网站的网站访问记录,所述网络访问记录记录用户的访问行为,其中所述网络访问记录包括URL地址,所述访问行为包括文件下载行为以及非文件下载行为;
第一提取模块:用于将所述网站访问记录按用户分组得到对应每个用户的个人访问记录,将所述个人访问记录按时间正序排列,并提取所述文件下载行为前连续多条所述网站访问记录作为文件下载前特征序列;
第二提取模块:用于将所述个人访问记录按时段分组得到对应每个时段的时段访问记录,从不包含所述文件下载行为的所述时段访问记录中提取连续多条所述时段访问记录作为非文件下载特征序列;根据所述个人访问记录提取对应所述访问行为的附加特征向量,所述附加特征向量包括全天分布特征向量、周期特征向量、类型分布特征向量、相邻特征向量,并生成文件下载附加特征向量和非文件下载附加特征向量;
预测模块:将所述文件下载前特征序列、所述非文件下载特征序列、所述文件下载附加特征向量和所述非文件下载附加特征向量输入已训练的第二神经网络模型,预测所述目标网站用户文件下载行为发生概率;
所述第二神经网络模型包括所述循环神经网络、卷积神经网络、连接于所述循环神经网络和所述卷积神经网络的密度层;文件下载特征前特征序列和非文件下载特征序列输入到循环神经网络中进行特征提取,其中循环神经网络提取到特征序列先后顺序的抽象特征;文件下载附加特征向量和非文件下载附加特征向量输入到卷积神经网络中进行特征提取,然后密度层融合循环神经网络和卷积神经网络的输出结果,并预测该网站用户文件下载行为发生概率。
6.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1-4任一项所述的基于网站访问记录分析预测文件下载行为的方法。
7.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据权利要求1至4任一项所述的基于网站访问记录分析预测文件下载行为的方法。
CN202110871515.9A 2021-07-30 2021-07-30 基于网站访问记录分析预测文件下载行为的方法和装置 Active CN113612639B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110871515.9A CN113612639B (zh) 2021-07-30 2021-07-30 基于网站访问记录分析预测文件下载行为的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110871515.9A CN113612639B (zh) 2021-07-30 2021-07-30 基于网站访问记录分析预测文件下载行为的方法和装置

Publications (2)

Publication Number Publication Date
CN113612639A CN113612639A (zh) 2021-11-05
CN113612639B true CN113612639B (zh) 2022-11-11

Family

ID=78306247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110871515.9A Active CN113612639B (zh) 2021-07-30 2021-07-30 基于网站访问记录分析预测文件下载行为的方法和装置

Country Status (1)

Country Link
CN (1) CN113612639B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423442B (zh) * 2017-08-07 2020-09-25 火烈鸟网络(广州)股份有限公司 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备
CN109902849B (zh) * 2018-06-20 2021-11-30 华为技术有限公司 用户行为预测方法及装置、行为预测模型训练方法及装置
CN111798259A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 应用推荐方法、装置、存储介质及电子设备
CN111797978A (zh) * 2020-07-08 2020-10-20 北京天融信网络安全技术有限公司 一种内部威胁检测方法、装置、电子设备及存储介质
CN112801719A (zh) * 2021-03-01 2021-05-14 深圳市欢太科技有限公司 用户行为预测方法、用户行为预测装置、存储介质及设备

Also Published As

Publication number Publication date
CN113612639A (zh) 2021-11-05

Similar Documents

Publication Publication Date Title
TWI706273B (zh) 統一資源定位符(url)攻擊檢測方法、裝置及電子設備
Ali Alheeti et al. Intelligent intrusion detection in external communication systems for autonomous vehicles
CN111291264B (zh) 基于机器学习的访问对象预测方法、装置和计算机设备
CN107862022B (zh) 文化资源推荐系统
CN107797894B (zh) App用户行为分析方法和装置
CN112434208A (zh) 一种孤立森林的训练及其网络爬虫的识别方法与相关装置
CN107305611B (zh) 恶意账号对应的模型建立方法和装置、恶意账号识别的方法和装置
CN103918222A (zh) 用于检测拒绝服务攻击的系统和方法
CN105183873A (zh) 恶意点击行为检测方法及装置
CN110516173B (zh) 一种非法网站识别方法、装置、设备及介质
CN103631787A (zh) 网页类型识别方法以及网页类型识别装置
CN108366012B (zh) 一种社交关系建立方法、装置及电子设备
CN109525551A (zh) 一种基于统计机器学习的cc攻击防护的方法
US10346856B1 (en) Personality aggregation and web browsing
EP3705974A1 (en) Classification device, classification method, and classification program
CN104731937B (zh) 用户行为数据的处理方法及装置
CN113205134A (zh) 一种网络安全态势预测方法及系统
JP7304223B2 (ja) ハイブリッド学習技法を生成するための方法およびシステム
Liu et al. Enhancing fine-grained intra-urban dengue forecasting by integrating spatial interactions of human movements between urban regions
CN117593096B (zh) 产品信息智能推送方法、装置、电子设备和计算机介质
CN113612639B (zh) 基于网站访问记录分析预测文件下载行为的方法和装置
CN117294873A (zh) 异常媒体资源的检测方法和装置、存储介质及电子设备
Domingues et al. On the Analysis of Users' Behavior Based on Mobile Phone Apps
CN116738369A (zh) 一种流量数据的分类方法、装置、设备及存储介质
CN113254672B (zh) 异常账号的识别方法、系统、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant