[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN110275998A - 网页属性数据的确定方法及装置 - Google Patents

网页属性数据的确定方法及装置 Download PDF

Info

Publication number
CN110275998A
CN110275998A CN201810219804.9A CN201810219804A CN110275998A CN 110275998 A CN110275998 A CN 110275998A CN 201810219804 A CN201810219804 A CN 201810219804A CN 110275998 A CN110275998 A CN 110275998A
Authority
CN
China
Prior art keywords
data
webpage
result
target webpage
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810219804.9A
Other languages
English (en)
Other versions
CN110275998B (zh
Inventor
王蒙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201810219804.9A priority Critical patent/CN110275998B/zh
Publication of CN110275998A publication Critical patent/CN110275998A/zh
Application granted granted Critical
Publication of CN110275998B publication Critical patent/CN110275998B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网页属性数据的确定方法及装置。其中,该方法包括:确定多个目标网页;对多个目标网页中的每个目标网页进行数据爬取,得到数据爬取结果;根据数据爬取结果,获取每个目标网页上的多个标注数据,其中,每个标注数据中包括目标网页中各项元素出现的次数;根据目标网页中各项元素出现的次数,确定目标元素的属性数据。本发明解决了相关技术中由于沟通过程出现的偏差,导致爬取网页数据偏差大的技术问题。

Description

网页属性数据的确定方法及装置
技术领域
本发明涉及互联网技术领域,具体而言,涉及一种网页属性数据的确定方法及装置。
背景技术
相关技术中,在业务人员或者客户需要得到网页中的某些字段和元素属性数据时,需要业务人员和技术人员之间进行不断的沟通,即业务人员需要告知技术人员想要得到的网页字段或者属性数据,技术人员根据自己的理解进行爬取,但是在这个过程中,需要技术人员有较强的理解能力,能及时知道业务人员或者客户提出的需求内容,这样才能爬取到业务人员或者客户想要的网页内容,而在工作过程中,会存在业务人员或者客户表述不清楚,或者技术人员理解偏差,导致爬取得到的网页属性数据或者网页的元素与客户(或业务人员)的预期得到的内容偏差很大,需要重新进行爬取。
针对上述的相关技术中由于沟通过程出现的偏差,导致爬取网页元素偏差大的技术问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种网页属性数据的确定方法及装置,以至少解决相关技术中由于沟通过程出现的偏差,导致爬取网页数据偏差大的技术问题。
根据本发明实施例的一个方面,提供了一种网页属性数据的确定方法,包括:确定多个目标网页;对所述多个目标网页中的每个目标网页进行数据爬取,得到数据爬取结果;根据所述数据爬取结果,获取每个目标网页上的多个标注数据,其中,每个标注数据中包括目标网页中各项元素出现的次数;根据所述目标网页中各项元素出现的次数,确定目标元素的属性数据。
进一步地,对所述多个目标网页中的每个目标网页进行数据爬取,得到数据爬取结果之后,所述方法包括:对每个所述目标网页注入捕捉元素代码,其中,所述捕捉元素代码用于捕捉被标注的目标网页和每个目标网页上被标注的各项元素。
进一步地,在所述多个目标网页被标注后,根据所述数据爬取结果,获取每个目标网页上的多个标注数据包括:根据所述数据爬取结果,获取捕捉元素代码;通过所述捕捉元素代码,捕捉每个目标网页上的被标注的各项元素和元素属性数据,得到捕捉结果;利用所述捕捉结果,确定所述多个标注数据。
进一步地,根据所述目标网页中各项元素出现的次数,确定目标元素的属性数据包括:统计多个目标网页中的各项网页元素在所述多个目标网页中出现的总次数,得到统计结果;根据所述统计结果,确定被标注的网页元素的次数大于等于预设阈值的目标元素;根据所述目标元素,获取每项所述目标元素所对应的多个属性,以确定所述目标元素的属性数据。
进一步地,统计多个目标网页中的各项网页元素在所述多个目标网页中出现的总次数,得到统计结果包括:统计网页访问会话出现的总次数,其中,所述网页访问会话为每次访问网页时对应的会话;滤除网页访问会话过程中出现重复的网页的元素,得到第一滤除结果;根据所述第一滤除结果,确定每项所述网页元素出现的总次数,以得到所述统计结果。
进一步地,统计多个目标网页中的各项网页元素在所述多个目标网页中出现的总次数,得到统计结果包括:统计网页访问过程中点击每项网页元素定位器的用户对应的用户数据;根据所述用户数据,滤除点击所述网页元素定位器过程中出现重复点击网页的元素的数据,得到第二滤除结果;根据所述第二滤除结果,确定每个所述网页元素出现的总次数,以得到所述统计结果。
进一步地,在确定多个目标网页之前,所述方法还包括:接收业务需求参数;根据所述业务需求参数,获取所述多个目标网页,其中,在获取目标网页过程中对每个所述目标网页中的各项元素嵌入标记代码,所述标记代码用于记录用户在所述目标网页上进行标注操作的数据。
根据本发明实施例的另一方面,还提供了一种网页属性数据的确定装置,包括:第一确定单元,用于确定多个目标网页;爬取单元,用于对所述多个目标网页中的每个目标网页进行数据爬取,得到数据爬取结果;获取单元,用于根据所述数据爬取结果,获取每个目标网页上的多个标注数据,其中,每个标注数据中包括目标网页中各项元素出现的次数;第二确定单元,用于根据所述目标网页中各项元素出现的次数,确定目标元素的属性数据。
进一步地,所述装置还包括:注入单元,用于在对所述多个目标网页中的每个目标网页进行数据爬取,得到数据爬取结果之后,对每个所述目标网页注入捕捉元素代码,其中,所述捕捉元素代码用于捕捉被标注的目标网页和每个目标网页上被标注的各项元素。
进一步地,所述获取单元包括:第一获取模块,用于在所述多个目标网页被标注后,根据所述数据爬取结果,获取捕捉元素代码,其中,所述捕捉元素代码用于捕捉被标注的目标网页和每个目标网页上被标注的各项元素;捕捉模块,用于通过所述捕捉元素代码,捕捉每个目标网页上的被标注的各项元素和元素属性数据,得到捕捉结果;第一确定模块,用于利用所述捕捉结果,确定所述多个标注数据。
进一步地,所述第二确定单元包括:统计模块,用于统计多个目标网页中的各项网页元素在所述多个目标网页中出现的总次数,得到统计结果;第二确定模块,用于根据所述统计结果,确定被标注的网页元素的次数大于等于预设阈值的目标元素;第二获取模块,用于根据所述目标元素,获取每项所述目标元素所对应的多个属性,以确定所述目标元素的属性数据。
进一步地,所述统计模块包括:第一统计子模块,用于统计网页访问会话出现的总次数,其中,所述网页访问会话为每次访问网页时对应的会话;第一滤除子模块,用于滤除网页访问会话过程中出现重复的网页的元素,得到第一滤除结果;第一确定子模块,用于根据所述第一滤除结果,确定每项所述网页元素出现的总次数,以得到所述统计结果。
进一步地,所述统计模块还包括:第二统计子模块,用于统计网页访问过程中点击每项网页元素定位器的用户对应的用户数据;第二滤除子模块,用于根据所述用户数据,滤除点击所述网页元素定位器过程中出现重复点击网页的元素的数据,得到第二滤除结果;第二确定子模块,用于根据所述第二滤除结果,确定每个所述网页元素出现的总次数,以得到所述统计结果。
进一步地,所述装置还包括:接收模块,用于在确定多个目标网页之前,接收业务需求参数;获取模块,用于根据所述业务需求参数,获取所述多个目标网页,其中,在获取目标网页过程中对每个所述目标网页中的各项元素嵌入标记代码,所述标记代码用于记录用户在所述目标网页上进行标注操作的数据。
根据本发明实施例的另一方面,还提供了一种存储介质,所述存储介质用于存储程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述任意一项所述的网页属性数据的确定方法。
根据本发明实施例的另一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一项所述的网页属性数据的确定方法。
在本发明中,可以通过确定出选取出的多个目标网页,并对每个目标网页进行数据爬取,然后可以利用该数据爬取结果,获取到每个目标网页上的多个标注数据,该标注数据可以对应有网页的各项元素的信息,也包括了网页中各项元素出现的次数,从而可以根据各项元素出现的次数,确定目标元素和目标元素对应的属性的数据。即在该实施方式中,可以对选取出的目标网页进行数据爬取,并获取到网页上的元素的信息,即可以得到目标元素的属性数据,无需业务沟通,即可以得到预期得到的数据,进而解决相关技术中由于沟通过程出现的偏差,导致爬取网页数据偏差大的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的网页属性数据的确定方法的流程图;
图2是根据本发明实施例的网页属性数据的确定装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种网页属性数据的确定的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本发明可以应用于各种网页字段解析、网页元素提取和网页元素的属性解析等环境中,具体的,可以是在各种互联网中,尤其是对于互联网中的不同网页,由于相关客户或者业务人员,在工作中,需要得到相关技术的网页字段或者属性支持,本发明中,业务人员或者客户可以对选取的网页进行内容标注,后台可以直接根据标注内容直接进行标注内容解析,从而得到自己想要的网页内容。
下述实施例是根据本发明一种优选的方法实施例,图1是根据本发明实施例的网页属性数据的确定方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,确定多个目标网页。
可选的,本发明中的目标网页可以终端根据业务需求选取得到的网页,对于网页的具体类型,可以包括但不限于:购物网页(例如,淘宝网或者京东网中的各项购物网页)、旅游网页(例如,携程旅游网页、去哪儿旅游网页)、电器网页(例如,格力电器等网页)、技术网页(例如,百度百科网页)等。在确定多个目标网页之前,可以通过接收业务需求参数;根据业务需求参数,以获取多个目标网页,其中,在获取目标网页过程中对每个目标网页中的各项元素嵌入标记代码(可以用于对捕捉元素代码进行引导,使得捕捉元素代码更容易记录标注的数据),标记代码用于记录用户在目标网页上进行标注操作的数据。即可以根据业务需求参数,从互联网的全部网页中选取自己想要得到的网页,并对选取出的网页进行标记代码嵌入,通过该标记代码可以收集数据使用者(如上述的客户或者业务人员)点击网页的JavaScript代码,从而通过收集得到数据,确定数据使用者所感兴趣的网页、网页元素和网页元素属性。
在确定目标网页后,数据使用者可以对选取的网页进行标注,点击其感兴趣的数据,在数据使用者点击网页的相关位置后,后台会自行记录数据使用者点击的网页、点击的网页的元素等信息。
步骤S104,对多个目标网页中的每个目标网页进行数据爬取,得到数据爬取结果。
其中,本发明实施例中的数据爬取过程,可以是指对被标注的网页和网页内容进行爬取,以得到被标注的内容,即可以收集数据使用者的标注的数据,这里,可以通过捕捉元素代码来确定标注内容,即可以收集数据使用者每次点击后触发的捕捉元素代码,通过该代码来捕获网页被标注的内容。
步骤S106,根据数据爬取结果,获取每个目标网页上的多个标注数据,其中,每个标注数据中包括目标网页中各项元素出现的次数。
通过上述步骤,可以得到每个网页上的多个标注数据,在获取每个目标网页上的标注数据时,可以利用数据爬取结果,获取到该捕捉元素代码。本发明实施例中可以让业务人员对目标网页进行标注,在标注后,可以将标注结果返回给数据处理人员,数据处理人员通过捕捉元素代码和捕捉日志记录,确定出被标注的各项数据。通过捕捉元素代码,捕捉每个目标网页上的被标注的各项元素和元素属性数据,得到捕捉结果;利用捕捉结果,确定多个标注数据。对于该捕捉元素代码,可以是捕捉被标注的网页的元素和元素属性数据。可选的,本发明中对于具体捕获到的网页不做限定,则对于网页中点击的网页的元素也不会做限定,例如,该网页元素可以是网页中的某一项说明文件,也可以是网页中的购物元素等,其中,本发明实施例中的元素的属性数据可以不做具体限定,例如,捕捉到网页的元素为一个微博,则其对应的元素属性数据可以包括:微博头像、微博名称、个人性别等。
另外,可以通过捕捉元素代码来获取到被点击的网页的元素的位置,确定位置信息,其中,该位置信息可以用网页文本或者网页URL(统一资源定位符)来表示,并将捕获得到的位置信息和相关访问信息发送到服务器,通过服务器来确定目标元素和目标元素的属性数据。对于相关访问信息,可以包括但不限于:点击网页时间点、访问网页的会话时长、访问网页的会话ID、访问网页的用户信息(包括用户账户和/或密码)。
即可以对各项元素在不同网页中出现的总次数进行统计,得到相应的统计结果。
步骤S108,根据目标网页中各项元素出现的次数,确定目标元素的属性数据。
通过上述实施方式,可以先确定出选取出的多个目标网页,并对每个目标网页进行数据爬取,从而利用数据爬取结果,获取到每个目标网页上的多个标注数据,该标注数据包括目标网页中各项元素出现的次数,通过网页中各项元素出现的次数,确定出目标元素和目标元素对应的属性数据。即在该实施方式中,可以对选取出的目标网页进行数据爬取,并获取到网页上的元素的信息,通过分析网页中各项元素的内容,就可以得到目标元素的属性数据,无需业务沟通,即可以得到预期得到的数据,进而解决相关技术中由于沟通过程出现的偏差,导致爬取网页数据偏差大的技术问题。
对于上述实施例,在根据目标网页中各项元素出现的次数,确定目标元素的属性数据时,可以通过统计多个目标网页中的各项网页元素在多个目标网页中出现的总次数,得到统计结果;根据统计结果,确定被标注的网页元素的次数大于等于预设阈值的目标元素;根据目标元素,获取每项目标元素所对应的多个属性,以确定目标元素的属性数据。对于统计结果,可以包括但不限于被标注的各项目标网页的次数和各项网页元素的次数。
即可以在得到网页的元素信息和元素属性数据时,通过对元素在选取的过程中出现的次数,来确定目标元素,本发明中的目标元素可以是一个和/或多个元素。对于预设阈值,可以是根据用户在使用过程中的实际使用情况自行确定的,例如,可以设置预设阈值为3或者5,在确定元素出现的总次数超出该预设阈值后,可以得到目标元素,并对每个目标元素的链接信息进行采集,以得到与目标元素对应的属性数据。
下面通过对数据使用者点击网页的各项元素的频次进行统计,从而确定目标元素和元素属性数据,其中,在统计时,可以根据会话数或者用户数来确定元素出现频次。
其中,在统计多个目标网页中的各项网页元素在多个目标网页中出现的总次数,得到统计结果时,可以通过统计网页访问会话出现的总次数,其中,网页访问会话为每次访问网页时对应的会话;滤除网页访问会话过程中出现重复的网页的元素,得到第一滤除结果;根据第一滤除结果,确定每项网页元素出现的总次数,以得到统计结果。
上述的网页访问会话可以是为了避免个人操作对统计结果产生过大影响,从而统计访问网页的会话数,对于网页访问会话可以是在一次访问过程中,进入网页到关闭网页的过程,例如,数据使用者进入淘宝网到关闭淘宝网过程中设定为一次网页访问会话。滤除网页访问会话过程中出现重复点击网页的元素,从而避免不重要的网页元素对整体统计结果产生影响。
另外,在统计多个目标网页中的各项网页元素在多个目标网页中出现的总次数,得到统计结果时,还可以统计网页访问过程中点击每项网页元素定位器的用户对应的用户数据;根据用户数据,滤除点击网页元素定位器过程中出现重复点击网页的元素的数据,得到第二滤除结果;根据第二滤除结果,确定每个网页元素出现的总次数,以得到统计结果。
即可以对访问的用户点击网页元素定位器的用户数据进行统计,一个用户对于网页的元素的多次点击被计算为一次,这样就可以避免点击不重要的元素。
本发明上述实施例中,可以根据统计出的网页的元素进行统计,解析获取到的网页页面的元素定位所对应的元素,并将元素所对应的属性数据保存。
下面是根据本发明实施例的一种网页字段解析的方法,其中,该方法包括:
11、下载要爬取的网页,随机选取一部分,来标注(点击页面中重要的数据)。对于随机选择出来的这一部分网页,会嵌入收集用户点击的JavaScr ipt代码。
12、数据的使用者,在要标注的网页上,点击他们关注的数据。
13、收集标注人员(即上述的数据使用者)标注的数据(标注人员的每次点击会触发相关代码(类似于浏览器的审查元素的功能),代码捕获点击元素的css selector(即css元素选择器,实现对网页页面的元素的控制,是一种定位DOM树中元素位置的方法),并把这个css selecotor连同其它和点击有关的信息(比如点击时间,session id(网页会话地址),cookie(指示用户数)等)发送到服务器)。
14、在服务器端,统计每个css selector出现的频次,选择出最重要的几个cssselector。
15、统计频次,设定被点击频次最高的三个元素为重要的元素。
其中,在统计时,为了避免个人的异常操作对于结果产生过大影响,可以针对网页会话sess ion进行统计,即统计sess ion数量。对于每个css selector,可以统计有多少个sess ion,在该sess ion中用户点击了该css selector。这样在一个sess ion中的多次点击将只被计数一次。避免了用户多次点击某个不重要的元素对整体结果产生影响。
另外,上述统计频次时,还可以统计访问用户数cookie,对于每个css selector可以统计有多少个用户点击了该css selector,这样,一个用户对于元素的多次点击将被算成一次,避免了用户多次点击某个不重要的元素,对整体结果产生影响。
16、根据上一步统计出来的css selector,解析所有下载到的页面中cssselector对应的元素(对应上述的目标元素),同时,在保存网页的目标元素时,还可以把所有元素的属性值保存起来存进数据库,以完成网页标注数据的解析工作。
对于上述实施例,以网页为电商商品进行说明,技术人员可以下载所有电商商品的页面。然后抽出几百个页面让业务人员标注(点击重要的元素,对应于目标网页),业务人员可能会对商品的标题感兴趣,所以商品的标题会被大量的点击。这样,本发明中,可以根据用户点击的网页和网页中元素的位置信息,得到表示标题的css selector,然后,可以利用得到的表示标题的css selector对所有下载到的电商商品页面做解析,把商品的标题存进了数据库中。到这里,业务人员已经可以在数据库中查看商品的标题。
根据本发明实施例的另一方面,还提供了一种存储介质,存储介质用于存储程序,其中,在程序运行时控制存储介质所在设备执行上述任意一项的网页属性数据的确定方法。
根据本发明实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述任意一项的网页属性数据的确定方法。
图2是根据本发明实施例的网页属性数据的确定装置的示意图,如图2所示,该装置可以包括:第一确定单元21,用于确定多个目标网页;爬取单元23,用于对多个目标网页中的每个目标网页进行数据爬取,得到数据爬取结果;获取单元25,用于根据数据爬取结果,获取每个目标网页上的多个标注数据,其中,每个标注数据中包括目标网页中各项元素出现的次数;第二确定单元27,用于根据目标网页中各项元素出现的次数,确定目标元素的属性数据。
利用上述装置,可以通过第一确定单元21来确定出选取出的多个目标网页,并通过爬取单元23对每个目标网页进行数据爬取,从而利用数据爬取结果,通过获取单元25获取到每个目标网页上的多个标注数据,该标注数据包括了网页中各项元素出现的次数,最后可以通过第二确定单元27根据目标网页中各项元素出现的次数,确定目标元素的属性数据。即在该实施方式中,可以对选取出的目标网页进行数据爬取,并获取到网页上的元素的信息,得到标注数据,通过标注数据来确定目标元素的属性数据。在本发明实施方式中,只需要根据网页上标注的元素对应的标注数据和元素信息,就可以得到目标元素的属性数据,无需业务沟通,即可以得到预期得到的数据,进而解决相关技术中由于沟通过程出现的偏差,导致爬取网页数据偏差大的技术问题。
可选的,上述的装置还包括:标注单元,用于在对多个目标网页中的每个目标网页进行数据爬取,得到数据爬取结果之后,对每个目标网页注入捕捉元素代码,其中,捕捉元素代码用于捕捉被标注的目标网页和每个目标网页上被标注的各项元素。
可选的,上述的获取单元25包括:第一获取模块,用于在多个目标网页被标注后,根据数据爬取结果,获取捕捉元素代码,获取捕捉元素代码;捕捉模块,用于通过捕捉元素代码,捕捉每个目标网页上的被标注的各项元素和元素属性数据,得到捕捉结果;第一确定模块,用于利用捕捉结果,确定多个标注数据。
另外,第二确定单元27包括:统计模块,用于统计多个目标网页中的各项网页元素在所述多个目标网页中出现的总次数,得到统计结果;第二确定模块,用于根据统计结果,确定被标注的网页元素的次数大于等于预设阈值的目标元素;第二获取模块,用于根据目标元素,获取每项目标元素所对应的多个属性,以确定目标元素的属性数据。
对于上述的统计模块,可以包括:第一统计子模块,用于统计网页访问会话出现的总次数,其中,网页访问会话为每次访问网页时对应的会话;第一滤除子模块,用于滤除网页访问会话过程中出现重复的网页的元素,得到第一滤除结果;第一确定子模块,用于根据第一滤除结果,确定每项网页元素出现的总次数,以得到统计结果。
另外,对于上述的统计模块还包括:第二统计子模块,用于统计网页访问过程中点击每项网页元素定位器的用户对应的用户数据;第二滤除子模块,用于根据用户数据,滤除点击网页元素定位器过程中出现重复点击网页的元素的数据,得到第二滤除结果;第二确定子模块,用于根据第二滤除结果,确定每个网页元素出现的总次数,以得到统计结果。
可选的,该装置还包括:接收模块,用于在确定多个目标网页之前,接收业务需求参数;获取模块,用于根据业务需求参数,获取多个目标网页,其中,在获取目标网页过程中对每个目标网页中的各项元素嵌入标记代码,标记代码用于记录用户在目标网页上进行标注操作的数据。
上述的网页属性数据的确定装置还可以包括处理器和存储器,上述第一确定单元21、爬取单元23、获取单元25、第二确定单元27等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来根据网页上标注的元素对应的标注数据和元素信息得到目标元素的属性数据。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:确定多个目标网页;对多个目标网页中的每个目标网页进行数据爬取,得到数据爬取结果;根据数据爬取结果,获取每个目标网页上的多个标注数据,其中,每个标注数据中包括目标网页中各项元素出现的次数;根据目标网页中各项元素出现的次数,确定目标元素的属性数据。
可选的,上述处理器在执行程序时,还可以根据数据爬取结果,获取捕捉元素代码,其中,捕捉元素代码用于捕捉被标注的目标网页和每个目标网页上被标注的各项元素;通过捕捉元素代码,捕捉每个目标网页上的被标注的各项元素和元素属性数据,得到捕捉结果;利用捕捉结果,确定多个标注数据。
可选的,上述处理器在执行程序时,还可以统计多个目标网页中的各项网页元素在多个目标网页中出现的总次数,得到统计结果;根据统计结果,确定被标注的网页元素的次数大于等于预设阈值的目标元素;根据目标元素,获取每项目标元素所对应的多个属性,以确定目标元素的属性数据。
可选的,上述处理器在执行程序时,还可以统计网页访问会话出现的总次数,其中,网页访问会话为每次访问网页时对应的会话;滤除网页访问会话过程中出现重复的网页的元素,得到第一滤除结果;根据第一滤除结果,确定每项网页元素出现的总次数,以得到统计结果。
可选的,上述处理器在执行程序时,还可以统计网页访问过程中点击每项网页元素定位器的用户对应的用户数据;根据用户数据,滤除点击网页元素定位器过程中出现重复点击网页的元素的数据,得到第二滤除结果;根据第二滤除结果,确定每个网页元素出现的总次数,以得到统计结果。
可选的,上述处理器在执行程序时,还可以接收业务需求参数;根据业务需求参数,获取多个目标网页,其中,在获取目标网页过程中对每个目标网页中的各项元素嵌入标记代码,标记代码用于记录用户在目标网页上进行标注操作的数据。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种网页属性数据的确定方法,其特征在于,包括:
确定多个目标网页;
对所述多个目标网页中的每个目标网页进行数据爬取,得到数据爬取结果;
根据所述数据爬取结果,获取每个目标网页上的多个标注数据,其中,每个标注数据中包括目标网页中各项元素出现的次数;
根据所述目标网页中各项元素出现的次数,确定目标元素的属性数据。
2.根据权利要求1所述的方法,其特征在于,在对所述多个目标网页中的每个目标网页进行数据爬取,得到数据爬取结果之后,所述方法包括:
对每个所述目标网页注入捕捉元素代码,其中,所述捕捉元素代码用于捕捉被标注的目标网页和每个目标网页上被标注的各项元素。
3.根据权利要求2所述的方法,其特征在于,在所述多个目标网页被标注后,根据所述数据爬取结果,获取每个目标网页上的多个标注数据包括:
根据所述数据爬取结果,获取所述捕捉元素代码;
通过所述捕捉元素代码,捕捉每个目标网页上的被标注的各项元素和元素属性数据,得到捕捉结果;
利用所述捕捉结果,确定所述多个标注数据。
4.根据权利要求1所述的方法,其特征在于,根据所述目标网页中各项元素出现的次数,确定目标元素的属性数据包括:
统计多个目标网页中的各项网页元素在所述多个目标网页中出现的总次数,得到统计结果;
根据所述统计结果,确定被标注的网页元素的次数大于等于预设阈值的目标元素;
根据所述目标元素,获取每项所述目标元素所对应的多个属性,以确定所述目标元素的属性数据。
5.根据权利要求4所述的方法,其特征在于,统计多个目标网页中的各项网页元素在所述多个目标网页中出现的总次数,得到统计结果包括:
统计网页访问会话出现的总次数,其中,所述网页访问会话为每次访问网页时对应的会话;
滤除网页访问会话过程中出现重复的网页的元素,得到第一滤除结果;
根据所述第一滤除结果,确定每项所述网页元素出现的总次数,以得到所述统计结果。
6.根据权利要求4所述的方法,其特征在于,统计多个目标网页中的各项网页元素在所述多个目标网页中出现的总次数,得到统计结果包括:
统计网页访问过程中点击每项网页元素定位器的用户对应的用户数据;
根据所述用户数据,滤除点击所述网页元素定位器过程中出现重复点击网页的元素的数据,得到第二滤除结果;
根据所述第二滤除结果,确定每个所述网页元素出现的总次数,以得到所述统计结果。
7.根据权利要求1所述的方法,其特征在于,在确定多个目标网页之前,所述方法还包括:
接收业务需求参数;
根据所述业务需求参数,获取所述多个目标网页,其中,在获取目标网页过程中对每个所述目标网页中的各项元素嵌入标记代码,所述标记代码用于记录用户在所述目标网页上进行标注操作的数据。
8.一种网页属性数据的确定装置,其特征在于,包括:
第一确定单元,用于确定多个目标网页;
爬取单元,用于对所述多个目标网页中的每个目标网页进行数据爬取,得到数据爬取结果;
获取单元,用于根据所述数据爬取结果,获取每个目标网页上的多个标注数据,其中,每个标注数据中包括目标网页中各项元素出现的次数;
第二确定单元,用于根据所述目标网页中各项元素出现的次数,确定目标元素的属性数据。
9.一种存储介质,其特征在于,所述存储介质用于存储程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至7中任意一项所述的网页属性数据的确定方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述的网页属性数据的确定方法。
CN201810219804.9A 2018-03-16 2018-03-16 网页属性数据的确定方法及装置 Active CN110275998B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810219804.9A CN110275998B (zh) 2018-03-16 2018-03-16 网页属性数据的确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810219804.9A CN110275998B (zh) 2018-03-16 2018-03-16 网页属性数据的确定方法及装置

Publications (2)

Publication Number Publication Date
CN110275998A true CN110275998A (zh) 2019-09-24
CN110275998B CN110275998B (zh) 2021-07-30

Family

ID=67957841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810219804.9A Active CN110275998B (zh) 2018-03-16 2018-03-16 网页属性数据的确定方法及装置

Country Status (1)

Country Link
CN (1) CN110275998B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836316A (zh) * 2021-09-23 2021-12-24 北京百度网讯科技有限公司 三元组数据的处理方法、训练方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007041800A1 (en) * 2005-10-14 2007-04-19 Panscient Inc Information extraction system
CN103294711A (zh) * 2012-02-28 2013-09-11 阿里巴巴集团控股有限公司 一种确定网页中的页面元素的方法以及装置
CN103916293A (zh) * 2014-04-15 2014-07-09 浪潮软件股份有限公司 一种监控分析网站用户行为的方法
CN104021185A (zh) * 2014-06-11 2014-09-03 北京奇虎科技有限公司 对网页中数据的信息属性进行识别的方法和装置
CN105447139A (zh) * 2015-11-20 2016-03-30 广州华多网络科技有限公司 一种数据采集统计方法及其系统、终端、服务设备
CN107562620A (zh) * 2017-08-24 2018-01-09 阿里巴巴集团控股有限公司 一种埋点自动设置方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007041800A1 (en) * 2005-10-14 2007-04-19 Panscient Inc Information extraction system
CN103294711A (zh) * 2012-02-28 2013-09-11 阿里巴巴集团控股有限公司 一种确定网页中的页面元素的方法以及装置
CN103916293A (zh) * 2014-04-15 2014-07-09 浪潮软件股份有限公司 一种监控分析网站用户行为的方法
CN104021185A (zh) * 2014-06-11 2014-09-03 北京奇虎科技有限公司 对网页中数据的信息属性进行识别的方法和装置
CN105447139A (zh) * 2015-11-20 2016-03-30 广州华多网络科技有限公司 一种数据采集统计方法及其系统、终端、服务设备
CN107562620A (zh) * 2017-08-24 2018-01-09 阿里巴巴集团控股有限公司 一种埋点自动设置方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836316A (zh) * 2021-09-23 2021-12-24 北京百度网讯科技有限公司 三元组数据的处理方法、训练方法、装置、设备及介质

Also Published As

Publication number Publication date
CN110275998B (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
CN104077402B (zh) 数据处理方法和数据处理系统
CN104602042B (zh) 基于用户行为的标签设置方法
CN103530365B (zh) 获取资源的下载链接的方法及系统
CN109242553A (zh) 一种用户行为数据推荐方法、服务器及计算机可读介质
CN103631957B (zh) 访客行为数据统计方法及装置
CN108304410A (zh) 一种异常访问页面的检测方法、装置及数据分析方法
CN103617213B (zh) 识别新闻网页属性特征的方法和系统
CN106570013A (zh) 页面访问数据的处理方法和装置
CN102970348B (zh) 网络应用推送方法、系统和网络应用服务器
CN105260414B (zh) 用户行为相似性计算方法及装置
CN103186670A (zh) 一种完整采集网页信息的方法和系统
CN103678509B (zh) 生成网页模板的方法及装置
CN104899306B (zh) 信息处理方法、信息显示方法及装置
CN107103062A (zh) 一种网页推荐方法及系统
CN106897196B (zh) 网站页面间访问路径的确定方法及装置
CN105302815B (zh) 网页的统一资源定位符url的过滤方法和装置
CN104298782B (zh) 互联网用户主动访问行为轨迹的分析方法
CN104391953B (zh) 检测网页更新的方法及装置
CN107832333A (zh) 基于分布式处理和dpi数据构建用户网络数据指纹的方法和系统
CN103838728B (zh) 网页信息的处理方法及浏览器
CN110222253A (zh) 一种数据采集方法、设备及计算机可读存储介质
JP6286559B2 (ja) 対話式アプリケーションにおいて標識アイコンを追加するための方法およびデバイス
CN104462242B (zh) 网页回流量统计方法及装置
CN109145194A (zh) 用户行为数据的采集方法及装置
CN110275998A (zh) 网页属性数据的确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant