[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN112130944A - 页面异常的检测方法、装置、设备及存储介质 - Google Patents

页面异常的检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112130944A
CN112130944A CN202010972715.9A CN202010972715A CN112130944A CN 112130944 A CN112130944 A CN 112130944A CN 202010972715 A CN202010972715 A CN 202010972715A CN 112130944 A CN112130944 A CN 112130944A
Authority
CN
China
Prior art keywords
page
current page
current
information
statistical result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010972715.9A
Other languages
English (en)
Inventor
胡文俊
刘亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN202010972715.9A priority Critical patent/CN112130944A/zh
Publication of CN112130944A publication Critical patent/CN112130944A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本身申请实施例提供了一种页面异常的检测方法、装置、设备及存储介质,涉及计算机技术领域。所述方法包括:获取当前页面的页面信息,以及与当前页面对应的基准页面的页面信息;根据当前页面的页面信息以及基准页面的页面信息,统计当前页面中显示的元素以及基准页面中包括的基准元素,得到当前页面的统计结果和基准页面的统计结果;根据当前页面的统计结果和基准页面的统计结果,得到当前页面和基准页面之间的相似度;响应于相似度小于相似度阈值,确定当前页面显示异常。本身申请实施例提供的技术方案,能够提高页面异常的检测准确率。

Description

页面异常的检测方法、装置、设备及存储介质
技术领域
本申请实施例涉及计算机技术领域,特别涉及一种页面异常的检测方法、装置、设备及存储介质。
背景技术
在人机交互场景中,有时需要将信息显示在显示页面中,但常常会出现显示页面中的部分模块不显示的情况。
在相关技术中,通过检测显示页面的各个模块对应的接口是否出现异常,若模块对应的接口出现异常,则认为显示页面中的该模块丢失;若模块对应的接口无异常,则认为该模块在显示页面中正常显示。
发明内容
本申请实施例提供了一种页面异常的检测方法、装置、设备及存储介质,能够提高页面异常的检测准确率。所述技术方案如下:
一方面,本申请实施例提供了一种页面异常的检测方法,所述方法包括:
获取当前页面的页面信息,以及与所述当前页面对应的基准页面的页面信息;
根据所述当前页面的页面信息以及所述基准页面的页面信息,统计所述当前页面中显示的元素以及所述基准页面中包括的基准元素,得到所述当前页面的统计结果和所述基准页面的统计结果;
根据所述当前页面的统计结果和所述基准页面的统计结果,得到所述当前页面和所述基准页面之间的相似度;
响应于所述相似度小于相似度阈值,确定所述当前页面显示异常。
另一方面,本申请实施例提供了一种页面异常的检测装置,所述装置包括:
信息获取模块,用于获取当前页面的页面信息,以及与所述当前页面对应的基准页面的页面信息;
结果统计模块,用于根据所述当前页面的页面信息以及所述基准页面的页面信息,统计所述当前页面中显示的元素以及所述基准页面中包括的基准元素,得到所述当前页面的统计结果和所述基准页面的统计结果;
相似度确定模块,用于根据所述当前页面的统计结果和所述基准页面的统计结果,得到所述当前页面和所述基准页面之间的相似度;
异常确定模块,用于响应于所述相似度小于相似度阈值,确定所述当前页面显示异常。
再一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如上述页面异常的检测方法。
还一方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品被处理器执行以实现上述页面异常的检测方法。
本申请实施例提供的技术方案可以包括如下有益效果:
通过对当前页面的页面信息和对应的基准页面的页面信息进行处理并进行比较运算,得到当前页面和基准页面之间的相似度,根据该相似度确定当前页面是否显示异常,由于页面信息能够直接反应对应页面的显示情况,本申请通过直接分析当前页面的页面信息,对当前页面是否显示异常进行检测,提高了页面异常的检测准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的页面异常的检测系统的示意图;
图2是本申请一个实施例提供的页面异常的检测方法的流程图;
图3是本申请另一个实施例提供的页面异常的检测方法的流程图;
图4是本申请一个实施例提供的页面异常的检测系统的网络架构图;
图5是本申请另一个实施例提供的页面异常的检测方法的流程图;
图6是本申请一个实施例提供的页面异常的检测装置的框图;
图7是本申请另一个实施例提供的页面异常的检测装置的框图;
图8是本申请一个实施例提供的计算机设备的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的方法的例子。
请参考图1,其示出了本申请一个实施例提供的实施环境的示意图,该实施环境可以实现为页面异常的检测系统。在一些实施例中,如图1所示,该系统10包括:计算机设备11和终端12。计算机设备11可以是诸如PC(Personal Computer,个人计算机)、智能手机、平板电脑、可穿戴设备、智能机器人等终端,也可以是服务器。服务器是具备数据计算、处理和存储能力的电子设备。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。服务器集群是一种通过一组松散继承的计算机软件或硬件连接起来高度紧密协作完成计算工作的服务器系统。计算机设备11具有检测当前页面是否显示异常的功能。
终端12可以是PC、智能手机、平板电脑、可穿戴设备、智能机器人等电子设备。可选地,终端12和计算机设备11之间建立有通信连接(如网络连接),计算机设备11能够向终端12发送信令以使得终端12发出告警信息。可选地,计算机设备11和终端12为同一设备。在一些实施例中,本申请实施例各步骤的执行主体为计算机设备11。在另一些实施例中,本申请实施例提供的方法由计算机设备11和终端12共同实现。
在上述相关技术中,有时会出现模块对应的接口无异常,但是该模块无法在显示页面中正常显示的情况,导致页面异常的检测准确率较低。下面,通过几个实施例对本申请技术方案进行介绍说明。
请参考图2,其示出了本申请一个实施例提供的页面异常的检测方法的流程图。在本实施例中,以该方法应用于上文介绍的计算机设备中来举例说明。该方法可以包括如下几个步骤(201~204):
步骤201,获取当前页面的页面信息,以及与当前页面对应的基准页面的页面信息。
在一些实施例中,当前页面为网页页面,如门户网站的显示的页面。页面信息包括对应页面的HTML(Hyper Text Markup Language,超级文本标记语言)代码和/或XML(Extensible Markup Language,可扩展标记语言)代码。可选地,门户网站包括生活服务类网站、支付类网站、社交类网站、购物类网站、视频类网站、音乐类网站、新闻类网站、游戏类网站等任何具备页面显示功能的网站。在实际显示过程中,当前页面可能会显示不完全。预先存储的基准页面的页面信息,是当前页面正常显示时对应的页面信息。在一些实施例中,根据当前页面的标识信息(如当前页面的URL(Uniform Resource Locator,统一资源定位符)),能够从存储单元中确定对应的基准页面,并获取基准页面的页面信息。
步骤202,根据当前页面的页面信息以及基准页面的页面信息,统计当前页面中显示的元素以及基准页面中包括的基准元素,得到当前页面的统计结果和基准页面的统计结果。
在一些实施例中,当前页面的统计结果包括当前页面中成功显示的元素,基准页面的统计结果包括基准页面中包括的元素。页面中的元素包括样式模块、文字内容、图片等等。可选地,页面信息包括对应页面中用于表示样式模块的代码,通过解析页面信息中的代码,能够得到页面中包括的元素。例如,通过解析当前页面的页面信息中的代码,得到当前页面的统计结果,当前页面的统计结果包括当前页面中显示的元素;又例如,通过解析基准页面的页面信息中的代码,得到基准页面的统计结果,基准页面的统计结果包括基准页面中包括的元素(即基准元素)。在一些实施例中,基准页面的统计结果可以预先存储在存储单元中,当需要检测当前页面是否显示异常时,直接从存储单元中获取预先统计得到的基准页面的统计结果。
步骤203,根据当前页面的统计结果和基准页面的统计结果,得到当前页面和基准页面之间的相似度。
将通过上述步骤得到的当前页面的统计结果和基准页面的统计结果进行比对分析,能够确定当前页面和基准页面之间的相似度,相似度用于指示当前页面和基准页面之间的相似程度。
步骤204,响应于相似度小于相似度阈值,确定当前页面显示异常。
在一些实施例中,当相似度小于预先设定的相似度阈值时,表示当前页面和基准页面之间的相似程度较低,则确定当前页面显示异常。当相似度大于相似度阈值时,表示当前页面和基准页面之间的相似程度较高,则确定认为当前页面显示正常。在另一些实施例中,当相似度大于或等于相似度阈值时,确定当前页面显示异常。
综上所述,本申请实施例提供的技术方案中,通过对当前页面的页面信息和对应的基准页面的页面信息进行处理并进行比较运算,得到当前页面和基准页面之间的相似度,根据该相似度确定当前页面是否显示异常,由于页面信息能够直接反应对应页面的显示情况,本申请通过直接分析当前页面的页面信息,对当前页面是否显示异常进行检测,提高了页面异常的检测准确率。
请参考图3,其示出了本申请另一个实施例提供的页面异常的检测方法的流程图。在本实施例中,以该方法应用于上文介绍的计算机设备中来举例说明。该方法可以包括如下几个步骤(301~309):
步骤301,获取当前页面的定位信息。
在一些实施例中,定位信息包括当前页面的网络地址。在一些可选的实施例中,当前页面是网站的页面,其对应的URL即为当前页面的定位信息,URL用于表示互联网上标准资源的地址,也称为网络地址。
步骤302,根据定位信息,获取当前页面的页面信息和基准页面的页面信息。
通过当前页面的定位信息,能够直接定位并访问到当前页面的网络地址,从而获取当前页面的页面信息,并通过当前页面对应的标识信息,从存储单元中确定当前页面对应的基准页面,并获取基准页面的页面信息。
步骤303,解析当前页面的页面信息以及基准页面的页面信息,得到当前页面的第一文档对象模型DOM文本和基准页面的第二DOM文本。
DOM是一种树状结构的API(Application Programming Interface,应用程序编程接口)文本,可以包括多层结构和多个结点。根据HTML代码中的标签在刻画页面特征时的语义功能,DOM树的结点可以包括:标题类、正文类、视觉类、分块类、超链类和其他类。可选地,不同类型的结点对应的页面中显示的元素的重要度不同。在一些实施例中,通过HTML解析器对当前页面的HTML代码进行处理,得到树状的第一DOM文本;通过HTML解析器对基准页面的HTML进行处理,得到树状的第二DOM文本。
步骤304,基于第一DOM文本和第二DOM文本,得到当前页面的词频统计结果和基准页面的词频统计结果。
可选地,词频统计结果包括DOM文本中用于指示页面显示元素的词段(如用于表示样式模块的词段)。当获取到第一DOM文本和第二DOM文本之后,通过对第一DOM文本和第二DOM文本中的词段进行提取,能够得到当前页面的词频统计结果和基准页面的词频统计结果。
在一些实施例中,本步骤304包括如下子步骤:
1、分别对第一DOM文本和第二DOM文本进行处理,得到处理后的第一DOM文本和处理后的第二DOM文本,处理包括以下至少一项:文本分层处理、词段去重处理、词段加权处理;
2、根据处理后的第一DOM文本和处理后的第二DOM文本,得到当前页面的词频统计结果和基准页面的词频统计结果。
通过对第一DOM文本和第二DOM文本分别进行文本分层、词段去重、词段加权等处理,提取DOM文本中的关键的词段并通过加权处理对各个词段赋予不同的权重,以区分不同层级的词段的重要程度。
在一些实施例中,对DOM文本进行加权处理,是指对DOM文本中包括的词段按照其所处的DOM文本的层级赋予相应的权重。例如,DOM文本是倒树形结构,对于位于第一层(即树形结构的根部)的词段赋予第一权重,对位于第二层的词段赋予第二权重……对于位于第n层的词段赋予第n权重。其中,第一权重>第二权重>……>第n权重,n为正整数。其中,词段被赋予的权重可以通过运算体现在对应词频中。例如,当某个词段对应的权重为2,且DOM文本包括该词段,则该词段对应的加权之后的词频为2。
步骤305,根据当前页面的统计结果和基准页面的统计结果,得到当前页面对应的第一词频向量和基准页面对应的第二词频向量。
在一些实施例中,统计结果为词频统计结果,根据当前页面的词频统计结果和基准页面的词频统计结果,将当前页面的词频统计结果中包括的各个词段的词频,作为对应的第一词频向量中的向量元素,将基准页面的词频统计结果中包括的各个词段的词频,作为对应的第二词频向量中的向量元素,从而得到第一词频向量和第二词频向量。
在一个示例中,当前页面的词频统计结果为:class1,id1,class2,id2,class;对应的基准页面的词频统计结果为:class1,id1,class2,id2,class4,则所有的词段集合为:[class1,class2,class3,class4,id1,id2]。可见,当前页面对应的词频为:class1:1,class2:1,class3:1,class4:0,id1:1,id2:1;基准页面对应的词频为:class1:1,class2:1,class3:0,class4:1,id1:1,id2:1。因而,第一词频向量为:[1,1,1,0,1,1],第二词频向量为:[1,1,0,1,1,1]。
步骤306,计算第一词频向量和第二词频向量之间的相似度,得到当前页面和基准页面之间的相似度。
在一些实施例中,采用公式计算第一词频向量和第二词频向量之间的相似度,并将第一词频向量和第二词频向量之间的相似度,作为当前页面和基准页面之间的相似度。可选地,采用余弦相似度表示第一词频向量和第二词频向量之间的相似度,参考公式如下述公式一:
Figure BDA0002684684050000071
其中,cosθ表示第一词频向量和第二词频向量之间的余弦相似度,cosθ的取值范围为[0,1],Ai表示第一词频向量中的第i个向量元素,Bi表示第二词频向量中的第i个向量元素,A表示第一词频向量,B表示第二词频向量。
在一些实施例中,采用第一词频向量和第二词频向量之间的欧几里得距离(也称为欧式距离或欧几里得度量),表示上述相似度。由于欧几里得距离是欧几里得空间中两点之间的距离,因而相似度与欧几里得距离负相关,即,欧几里得距离越小,相似度越大;欧几里得距离越大,相似度越小。
相似度还可以表示为其他形式,本申请实施例对此不作具体限定。
步骤307,响应于相似度小于相似度阈值,确定当前页面显示异常。
本步骤307的具体内容可以参考上述图2实施例中的步骤204,此处不再赘述。
步骤308,根据第一DOM文本和第二DOM文本,确定当前页面中显示异常的元素。
在一些实施例中,若确定当前页面显示异常,则表示第一DOM文本和第二DOM文本差异较大。将第一DOM文本和第二DOM文本进行比对,确定第一DOM文本和第二DOM文本中不同的词段,其对应的元素即为当前页面中显示异常的元素。例如,当第二DOM文本中存在节点A,而对应的第一DOM文本中不存在节点A,则节点A对应的元素在当前页面中未能正常显示。
步骤309,发出告警信息。
在一些实施例中,告警信息用于提示当前页面中显示异常的元素,当确定当前页面中显示异常的元素之后,发出告警信息对当前页面中显示异常的元素进行提示,以便于相关工作人员查找当前页面显示异常的原因。可选地,告警信息包括音频、文字、警示图片、灯光等形式。
综上所述,本申请实施例提供的技术方案中,采用处理后的DOM文本得到对应的词频统计结果,并对不同类型的词段根据其在页面中的重要性赋予相应的权重,使得重要性较高的词段对应的词频在参与相似度计算时,能够对相似度的计算结果产生较大的影响,从而确保当前页面中较为重要的元素显示异常时能第一时间被检测出来,进一步提升页面异常的检测准确率。
请参考图4,其示出了本申请一个实施例提供的页面异常的检测系统的网络架构图。如图4所示,页面异常的检测系统40包括:前端41、网络层42、服务层43和数据层44。其中,前端41用于提供页面信息以及接受告警信息;网络层42用于运营后台并调用任务;服务层43用于提供页面配置服务、页面爬取服务、页面比对服务和页面面告警服务;数据层44用于为上述各个服务存储数据。
请参考图5,其示出了本申请另一个实施例提供的页面异常的检测方法的流程图。如图5所示,该方法包括如下几个步骤(501~509):
步骤501,获取当前页面的URL;
步骤502,根据当前页面的URL,获取并保存当前页面的第一DOM文本和对应的基准页面的第二DOM文本;
步骤503,解析第一DOM文本和第二DOM文本,得到处理有的第一DOM文本和处理后的第二DOM文本;
步骤504,根据第一DOM文本和第二DOM文本,得到当前页面的词频统计结果和基准页面的词频统计结果;
步骤505,根据当前页面的词频统计结果和基准页面的词频统计结果,得到当前页面和基准页面之间的余弦相似度;
步骤506,判断上述余弦相似度是否小于相似度阈值,若是,则执行下述步骤507;若否,则继续执行上述步骤502;
步骤507,发出告警信息;
步骤508,判断告警信息是否误报,若是,则继续执行上述步骤502;若否,则执行下述步骤509;
步骤509,针对告警信息对当前页面的显示异常进行处理。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图6,其示出了本申请一个实施例提供的页面异常的检测装置的框图。该装置具有实现上述页面异常的检测的方法示例的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是上文介绍的计算机设备,也可以设置在计算机设备上。该装置600可以包括:信息获取模块610、结果统计模块620、相似度确定模块630和异常确定模块640。
所述信息获取模块610,用于获取当前页面的页面信息,以及与所述当前页面对应的基准页面的页面信息。
所述结果统计模块620,用于根据所述当前页面的页面信息以及所述基准页面的页面信息,统计所述当前页面中显示的元素以及所述基准页面中包括的基准元素,得到所述当前页面的统计结果和所述基准页面的统计结果。
所述相似度确定模块630,用于根据所述当前页面的统计结果和所述基准页面的统计结果,得到所述当前页面和所述基准页面之间的相似度。
所述异常确定模块640,用于响应于所述相似度小于相似度阈值,确定所述当前页面显示异常。
综上所述,本申请实施例提供的技术方案中,通过对当前页面的页面信息和对应的基准页面的页面信息进行处理并进行比较运算,得到当前页面和基准页面之间的相似度,根据该相似度确定当前页面是否显示异常,由于页面信息能够直接反应对应页面的显示情况,本申请通过直接分析当前页面的页面信息,对当前页面是否显示异常进行检测,提高了页面异常的检测准确率。
在一些实施例中,如图7所示,所述结果统计模块620包括:页面解析子模块621和结果获取子模块622。
所述页面解析子模块621,用于解析所述当前页面的页面信息以及所述基准页面的页面信息,得到所述当前页面的第一文档对象模型DOM文本和所述基准页面的第二DOM文本。
所述结果获取子模块622,用于基于所述第一DOM文本和所述第二DOM文本,得到所述当前页面的词频统计结果和所述基准页面的词频统计结果,所述词频统计结果包括DOM文本中用于指示页面显示元素的词段。
在一些实施例中,如图7所示,所述结果获取子模块622用于:
分别对所述第一DOM文本和所述第二DOM文本进行处理,得到处理后的第一DOM文本和处理后的第二DOM文本,所述处理包括以下至少一项:文本分层处理、词段去重处理、词段加权处理;
根据所述处理后的第一DOM文本和所述处理后的第二DOM文本,得到所述当前页面的词频统计结果和所述基准页面的词频统计结果。
在一些实施例中,所述相似度确定模块630用于:
根据所述当前页面的统计结果和所述基准页面的统计结果,得到所述当前页面对应的第一词频向量和所述基准页面对应的第二词频向量;
计算所述第一词频向量和所述第二词频向量之间的相似度,得到所述当前页面和所述基准页面之间的相似度。
在一些实施例中,所述信息获取模块610用于:
获取所述当前页面的定位信息,所述定位信息包括所述当前页面的网络地址;
根据所述定位信息,获取所述当前页面的页面信息和所述基准页面的页面信息。
在一些实施例中,如图7所示,所述装置600还包括:元素确定模块650和信息发送模块660。
所述元素确定模块650,用于根据所述第一DOM文本和所述第二DOM文本,确定所述当前页面中显示异常的元素。
所述信息发送模块660,用于发出告警信息,所述告警信息用于提示所述当前页面中显示异常的元素。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图8,其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备用于实施上述实施例中提供的页面异常的检测方法。具体来讲:
所述计算机设备800包括CPU(Central Processing Unit,中央处理单元)801、包括RAM(Random Access Memory,随机存取存储器)802和ROM(Read-Only Memory,只读存储器)803的系统存储器804,以及连接系统存储器804和中央处理单元801的系统总线805。所述计算机设备800还包括帮助计算机内的各个器件之间传输信息的基本I/O(Input/Output,输入/输出)系统806,和用于存储操作系统813、应用程序814和其他程序模块815的大容量存储设备807。
所述基本输入/输出系统806包括有用于显示信息的显示器808和用于用户输入信息的诸如鼠标、键盘之类的输入设备809。其中所述显示器808和输入设备809都通过连接到系统总线805的输入输出控制器810连接到中央处理单元801。所述基本输入/输出系统806还可以包括输入输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备807通过连接到系统总线805的大容量存储控制器(未示出)连接到中央处理单元801。所述大容量存储设备807及其相关联的计算机可读介质为计算机设备800提供非易失性存储。也就是说,所述大容量存储设备807可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory,只读光盘)驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory,可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory,可擦除可编程只读存储器)、闪存或其他固态存储其技术,CD-ROM、DVD(Digital Video Disc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器804和大容量存储设备807可以统称为存储器。
根据本申请的各种实施例,所述计算机设备800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备800可以通过连接在所述系统总线805上的网络接口单元811连接到网络812,或者说,也可以使用网络接口单元811来连接到其他类型的网络或远程计算机系统(未示出)。
在示例性实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序在被处理器执行时以实现上述页面异常的检测方法。
可选地,该计算机可读存储介质可以包括:ROM(Read-Only Memory,只读存储器)、RAM(Random-Access Memory,随机存储器)、SSD(Solid State Drives,固态硬盘)或光盘等。其中,随机存取记忆体可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory,动态随机存取存储器)。
在示例性实施例中,还提供了一种计算机程序产品,当该计算机程序产品被处理器执行时,其用于实现上述页面异常的检测方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种页面异常的检测方法,其特征在于,所述方法包括:
获取当前页面的页面信息,以及与所述当前页面对应的基准页面的页面信息;
根据所述当前页面的页面信息以及所述基准页面的页面信息,统计所述当前页面中显示的元素以及所述基准页面中包括的基准元素,得到所述当前页面的统计结果和所述基准页面的统计结果;
根据所述当前页面的统计结果和所述基准页面的统计结果,得到所述当前页面和所述基准页面之间的相似度;
响应于所述相似度小于相似度阈值,确定所述当前页面显示异常。
2.根据权利要求1所述的方法,其特征在于,所述根据所述当前页面的页面信息以及所述基准页面的页面信息,统计所述当前页面中显示的元素以及所述基准页面中包括的基准元素,得到所述当前页面的统计结果和所述基准页面的统计结果,包括:
解析所述当前页面的页面信息以及所述基准页面的页面信息,得到所述当前页面的第一文档对象模型DOM文本和所述基准页面的第二DOM文本;
基于所述第一DOM文本和所述第二DOM文本,得到所述当前页面的词频统计结果和所述基准页面的词频统计结果,所述词频统计结果包括DOM文本中用于指示页面显示元素的词段。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一DOM文本和所述第二DOM文本,得到所述当前页面的词频统计结果和所述基准页面的词频统计结果,包括:
分别对所述第一DOM文本和所述第二DOM文本进行处理,得到处理后的第一DOM文本和处理后的第二DOM文本,所述处理包括以下至少一项:文本分层处理、词段去重处理、词段加权处理;
根据所述处理后的第一DOM文本和所述处理后的第二DOM文本,得到所述当前页面的词频统计结果和所述基准页面的词频统计结果。
4.根据权利要求1所述的方法,其特征在于,所述根据所述当前页面的统计结果和所述基准页面的统计结果,得到所述当前页面和所述基准页面之间的相似度,包括:
根据所述当前页面的统计结果和所述基准页面的统计结果,得到所述当前页面对应的第一词频向量和所述基准页面对应的第二词频向量;
计算所述第一词频向量和所述第二词频向量之间的相似度,得到所述当前页面和所述基准页面之间的相似度。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述获取当前页面的页面信息,以及与所述当前页面对应的基准页面的页面信息,包括:
获取所述当前页面的定位信息,所述定位信息包括所述当前页面的网络地址;
根据所述定位信息,获取所述当前页面的页面信息和所述基准页面的页面信息。
6.根据权利要求1至4任一项所述的方法,其特征在于,所述确定所述当前页面显示异常之后,还包括:
根据所述第一DOM文本和所述第二DOM文本,确定所述当前页面中显示异常的元素;
发出告警信息,所述告警信息用于提示所述当前页面中显示异常的元素。
7.一种页面异常的检测装置,其特征在于,所述装置包括:
信息获取模块,用于获取当前页面的页面信息,以及与所述当前页面对应的基准页面的页面信息;
结果统计模块,用于根据所述当前页面的页面信息以及所述基准页面的页面信息,统计所述当前页面中显示的元素以及所述基准页面中包括的基准元素,得到所述当前页面的统计结果和所述基准页面的统计结果;
相似度确定模块,用于根据所述当前页面的统计结果和所述基准页面的统计结果,得到所述当前页面和所述基准页面之间的相似度;
异常确定模块,用于响应于所述相似度小于相似度阈值,确定所述当前页面显示异常。
8.根据权利要求7所述的装置,其特征在于,所述结果统计模块包括:
页面解析子模块,用于解析所述当前页面的页面信息以及所述基准页面的页面信息,得到所述当前页面的第一文档对象模型DOM文本和所述基准页面的第二DOM文本;
结果获取子模块,用于基于所述第一DOM文本和所述第二DOM文本,得到所述当前页面的词频统计结果和所述基准页面的词频统计结果,所述词频统计结果包括DOM文本中用于指示页面显示元素的词段。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如上述权利要求1至6任一项所述的页面异常的检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如上述权利要求1至6任一项所述的页面异常的检测方法。
CN202010972715.9A 2020-09-16 2020-09-16 页面异常的检测方法、装置、设备及存储介质 Withdrawn CN112130944A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010972715.9A CN112130944A (zh) 2020-09-16 2020-09-16 页面异常的检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010972715.9A CN112130944A (zh) 2020-09-16 2020-09-16 页面异常的检测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112130944A true CN112130944A (zh) 2020-12-25

Family

ID=73846848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010972715.9A Withdrawn CN112130944A (zh) 2020-09-16 2020-09-16 页面异常的检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112130944A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112965911A (zh) * 2021-03-23 2021-06-15 北京三快在线科技有限公司 界面异常检测方法、装置、计算机设备及存储介质
CN114925309A (zh) * 2022-05-09 2022-08-19 广州博冠信息科技有限公司 页面异常信息获取方法、装置、计算机设备及存储介质
CN115297042A (zh) * 2022-08-01 2022-11-04 明阳产业技术研究院(沈阳)有限公司 检测不同网络下网页一致性的方法及相关设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544213A (zh) * 2013-09-16 2014-01-29 青岛英网资讯股份有限公司 网站内容更新检测评价方法及系统
CN107562600A (zh) * 2017-08-23 2018-01-09 广州阿里巴巴文学信息技术有限公司 页面检测方法、装置、计算设备以及存储介质
CN109446061A (zh) * 2018-09-17 2019-03-08 平安科技(深圳)有限公司 一种页面检测方法、计算机可读存储介质及终端设备
CN110866212A (zh) * 2019-11-14 2020-03-06 北京无限光场科技有限公司 页面异常定位的方法、装置、电子设备及计算机可读介质
CN110879780A (zh) * 2019-10-25 2020-03-13 北京奇艺世纪科技有限公司 页面异常检测方法、装置、电子设备及可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544213A (zh) * 2013-09-16 2014-01-29 青岛英网资讯股份有限公司 网站内容更新检测评价方法及系统
CN107562600A (zh) * 2017-08-23 2018-01-09 广州阿里巴巴文学信息技术有限公司 页面检测方法、装置、计算设备以及存储介质
CN109446061A (zh) * 2018-09-17 2019-03-08 平安科技(深圳)有限公司 一种页面检测方法、计算机可读存储介质及终端设备
CN110879780A (zh) * 2019-10-25 2020-03-13 北京奇艺世纪科技有限公司 页面异常检测方法、装置、电子设备及可读存储介质
CN110866212A (zh) * 2019-11-14 2020-03-06 北京无限光场科技有限公司 页面异常定位的方法、装置、电子设备及计算机可读介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112965911A (zh) * 2021-03-23 2021-06-15 北京三快在线科技有限公司 界面异常检测方法、装置、计算机设备及存储介质
CN114925309A (zh) * 2022-05-09 2022-08-19 广州博冠信息科技有限公司 页面异常信息获取方法、装置、计算机设备及存储介质
CN115297042A (zh) * 2022-08-01 2022-11-04 明阳产业技术研究院(沈阳)有限公司 检测不同网络下网页一致性的方法及相关设备

Similar Documents

Publication Publication Date Title
US20240111818A1 (en) Method for training isolation forest, and method for recognizing web crawler
US11775501B2 (en) Trace and span sampling and analysis for instrumented software
CN110377569B (zh) 日志监控方法、装置、计算机设备和存储介质
CN112491602B (zh) 行为数据的监控方法、装置、计算机设备及介质
US20210092160A1 (en) Data set creation with crowd-based reinforcement
CN112130944A (zh) 页面异常的检测方法、装置、设备及存储介质
US10187264B1 (en) Gateway path variable detection for metric collection
CN109933502B (zh) 电子装置、用户操作记录的处理方法和存储介质
CN109635210B (zh) 行为数据的上报方法、装置、设备及存储介质
CN115033876A (zh) 日志处理方法、日志处理装置、计算机设备及存储介质
CN116015842A (zh) 一种基于用户访问行为的网络攻击检测方法
CN110443058A (zh) 一种xml文档脱敏的方法及装置
CN113419738A (zh) 接口文档的生成方法、装置及接口管理设备
CN112003833A (zh) 异常行为检测方法和装置
CN108664550B (zh) 一种对用户行为数据进行漏斗分析方法及装置
CN111414519A (zh) 一种信息处理方法、装置、计算机系统及可读存储介质
CN115051863B (zh) 异常流量检测的方法、装置、电子设备及可读存储介质
CN116192462A (zh) 一种基于pe文件格式的恶意软件分析方法及装置
CN112528189B (zh) 基于数据的组件封装方法、装置、计算机设备及存储介质
CN116155628A (zh) 网络安全检测方法、训练方法、装置、电子设备和介质
CN113590372A (zh) 基于日志的链路追踪方法、装置、计算机设备及存储介质
CN111723259A (zh) 网页数据的监控方法、装置、终端设备及存储介质
US11960560B1 (en) Methods for analyzing recurring accessibility issues with dynamic web site behavior and devices thereof
WO2024197728A1 (zh) 确定网页相似度及网络资产识别方法、装置、设备及介质
CN115529250B (zh) 流量回放方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20201225