发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种网页快照的生成方法和相应的网页快照的生成装置。
依据本发明的一个方面,本发明实施例提供了一种网页快照的生成方法,包括:
确认需要执行快照的网页在浏览器中加载完成;接收到快照生成命令,遍历网页中的所有网页内容元素,分别获得各网页内容元素对应的网页快照元素;将获得的网页快照元素上传至搜索引擎服务器侧,以使在搜索引擎服务器侧利用网页快照元素合成得到网页的网页快照文件。
可选的,上述方法还包括:当在浏览器侧接收到网页快照访问请求时,从搜索引擎服务器侧获取请求的网页快照文件,并在浏览器侧展示该网页快照文件。
可选的,上述将获得的网页快照元素上传至搜索引擎服务器侧包括:为网页快照元素生成元素标识,并按照网页快照元素归属的网页将元素标识上传至搜索引擎服务器侧,以使该搜索引擎服务器侧根据已存储的元素标识验证是否存储有网页快照元素;当验证出搜索引擎服务器侧存储有网页快照元素时,仅将该网页快照元素的元素标识按照网页快照元素归属的网页上传至搜索引擎服务器侧;当验证出搜索引擎服务器侧未存储有网页快照元素时,将该网页快照元素和对应的元素标识按照网页快照元素归属的网页上传至搜索引擎服务器侧。
可选的,上述为网页快照元素生成元素标识,并按照网页快照元素归属的网页将元素标识上传至搜索引擎服务器包括:将网页的统一资源定位符URL上传至搜索引擎服务器侧;接收搜索引擎服务器侧根据网页的URL返回的该网页对应的网页快照文件标识ID;计算网页快照元素的信息摘要算法MD5值,将该MD5值作为网页快照元素的元素标识;对每个网页快照元素,将网页快照元素所在网页的网页快照文件ID和网页快照元素的MD5值按照预定次序组合后上传至搜索引擎服务器侧。
可选的,上述方法还包括:获取发起快照生成命令的浏览器用户的用户ID;对每个网页快照元素,将网页快照元素所在网页的网页快照文件ID、浏览器用户的用户ID和网页快照元素的MD5值按照预定次序组合后上传至搜索引擎服务器侧,以使搜索引擎服务器侧对浏览器用户的历史快照数据进行记录;和/或,将网页快照元素所在网页的网页快照文件ID和浏览器用户的用户ID按照预定次序组合后上传至搜索引擎服务器侧,以使搜索引擎服务器侧对浏览器用户的历史快照数据进行记录。
可选的,上述方法还包括:当验证出搜索引擎服务器侧存储有网页的所有网页快照元素时,生成指示网页的网页快照已分享的提示信息,在浏览器上显示该提示信息,并不再执行网页的网页快照元素的上传操作;以及,将发起快照生成命令的浏览器用户的用户ID添加至分享者列表中。
可选的,在遍历网页中的所有网页内容元素之前,上述方法还包括:判断网页的网址是否位于预先设置的白名单中,是则,继续执行遍历网页中的所有网页内容元素的操作,否则,判断网页是否属于限制规则中的网页;当网页不属于限制规则中的网页时,继续执行遍历网页中的所有网页内容元素的操作,当网页属于限制规则中的网页时,不执行对该网页的网页快照生成操作。
可选的,上述限制规则中的网页包括下述的至少一种网页:
不具有URL地址的浏览器网页或本地磁盘网页;
采用安全超文本传输协议HTTPS加密的网页;
网址中的主机HOST被用户修改的网页;
网址中的IP地址为内网IP地址的网页;
由网页快照聚合而成或由网页快照的详细信息形成的网页;
URL地址在预先设置的黑名单中的网页。
可选的,在确认需要执行快照的网页在浏览器中加载完成之前,上述方法还包括:在浏览器中加载网页时,利用广告过滤规则过滤出网页中的广告内容,不将该广告内容加载至浏览器中。
可选的,上述遍历网页中的所有网页内容元素,分别获得各网页内容元素对应的网页快照元素包括:利用广告过滤规则过滤出网页中的广告内容,不执行为该广告内容生成网页快照元素的操作。
可选的,上述遍历网页中的所有网页内容元素,分别获得各网页内容元素对应的网页快照元素包括:当分析得出网页中包含用户相关的敏感信息时,生成分享警告提示信息,并在浏览器中显示该分享警告提示信息。
可选的,在将获得的网页快照元素上传至搜索引擎服务器侧之前,上述方法还包括:在网页上的预定位置弹出提示框,该提示框中设置有快照标签、验证码接口和上传控制接口,其中,快照标签是根据网页内容动态生成的和/或是浏览器侧预先设置的;将接受到浏览器用户鼠标点击的快照标签确定为网页的快照标签;验证码接口接收到正确的验证码且上传控制接口接收到上传指令时,将网页的快照标签和获得的网页快照元素上传至搜索引擎服务器侧。
本发明实施例通过确认网页在浏览器中加载完成,获取网页中所有网页内容元素的网页快照元素的技术手段,能够得到包括网页中文本内容和非文本内容在内的所有网页信息;通过将获得的网页快照元素上传至搜索引擎服务器侧的技术手段,能够从服务器侧获取由合成后网页快照元素构成的网页快照,从而解决了现有网页快照由于仅包含文本内容而造成用户访问的历史快照不完整的问题,保证了浏览器侧能够获取到包含网页全部信息的网页快照,完整重现原始网页的内容。
依据本发明的另一个方面,本发明实施例还提供了一种网页快照的生成方法,包括:
接收浏览器侧上传的需要执行快照的网页的各网页快照元素,其中,该网页快照元素是遍历网页中的所有网页内容元素,根据各网页内容元素分别得到的;将网页快照元素存储在搜索引擎服务器侧;利用网页快照元素合成得到网页的网页快照文件,以使在浏览器侧显示网页快照文件。
可选的,上述将网页快照元素存储在搜索引擎服务器侧包括:网页快照元素包括网页的超文本标记语言HTML源码对应的第一元素和网页中的资源对应的至少一个第二元素,在搜索引擎服务器侧将第一元素中记录的第二元素的存放路径更新为该第二元素在搜索引擎服务器侧的存放路径。
可选的,上述方法还包括:接收浏览器侧上传的网页的URL;根据网页的URL生成该网页对应的网页快照文件标识ID;将网页快照文件ID返回浏览器侧。
可选的,上述接收浏览器侧上传的需要执行快照的网页的各网页快照元素包括:接收浏览器侧上传的按照预定次序组合后的网页快照元素所在网页的网页快照文件ID和网页快照元素的MD5值;和/或,接收浏览器侧上传的按照预定次序组合后的网页快照元素所在网页的网页快照文件ID、浏览器用户的用户ID和网页快照元素的MD5值;和/或,接收浏览器侧上传的按照预定次序组合后的网页快照元素所在网页的网页快照文件ID和浏览器用户的用户ID。
本发明实施例通过接收浏览器侧上传的包含网页中所有信息的网页快照元素的技术手段,能够得到包括网页中文本内容和非文本内容在内的所有网页信息;通过将存储的网页快照元素合成的技术手段,能够得到包括所有网页信息的网页快照,从而解决了现有网页快照由于仅包含文本内容而造成用户访问的历史快照不完整的问题,保证了浏览器侧能够获取到包含网页全部信息的网页快照,完整重现原始网页的内容。
依据本发明的又一个方面,本发明实施例还提供了一种网页快照的生成装置,包括:
网页加载确认单元,适于确认需要执行快照的网页在浏览器中加载完成;
快照元素获得单元,适于接收到快照生成命令,遍历网页中的所有网页内容元素,分别获得各网页内容元素对应的网页快照元素;
快照元素上传单元,适于将获得的网页快照元素上传至搜索引擎服务器侧,以使在搜索引擎服务器侧利用网页快照元素合成得到网页的网页快照文件。
可选的,上述装置还包括:网页快照访问单元,适于当在浏览器侧接收到网页快照访问请求时,从搜索引擎服务器侧获取请求的网页快照文件,并在浏览器侧展示该网页快照文件。
可选的,快照元素上传单元,适于为网页快照元素生成元素标识,并按照网页快照元素归属的网页将元素标识上传至搜索引擎服务器侧,以使该搜索引擎服务器侧根据已存储的元素标识验证是否存储有网页快照元素;当验证出搜索引擎服务器侧存储有网页快照元素时,仅将该网页快照元素的元素标识按照网页快照元素归属的网页上传至搜索引擎服务器侧;当验证出搜索引擎服务器侧未存储有网页快照元素时,将该网页快照元素和对应的元素标识按照网页快照元素归属的网页上传至搜索引擎服务器侧。
可选的,快照元素上传单元,适于将网页的URL上传至搜索引擎服务器侧;接收搜索引擎服务器侧根据网页的URL返回的该网页对应的网页快照文件标识ID;计算网页快照元素的信息摘要算法MD5值,将该MD5值作为网页快照元素的元素标识;对每个网页快照元素,将网页快照元素所在网页的网页快照文件ID和网页快照元素的MD5值按照预定次序组合后上传至搜索引擎服务器侧。
可选的,快照元素上传单元,适于获取发起快照生成命令的浏览器用户的用户ID;对每个网页快照元素,将网页快照元素所在网页的网页快照文件ID、浏览器用户的用户ID和网页快照元素的MD5值按照预定次序组合后上传至搜索引擎服务器侧,以使搜索引擎服务器侧对浏览器用户的历史快照数据进行记录;和/或,将网页快照元素所在网页的网页快照文件ID和浏览器用户的用户ID按照预定次序组合后上传至搜索引擎服务器侧,以使搜索引擎服务器侧对浏览器用户的历史快照数据进行记录。
可选的,上述装置还包括重复上传控制单元,适于当验证出搜索引擎服务器侧存储有网页的所有网页快照元素时,生成指示网页的网页快照已分享的提示信息,在浏览器上显示该提示信息,并不再执行网页的网页快照元素的上传操作;以及,将发起快照生成命令的浏览器用户的用户ID添加至分享者列表中。
可选的,上述装置还包括网页分享限制单元,适于在快照元素获得单元遍历网页中的所有网页内容元素之前,判断网页的网址是否位于预先设置的白名单中,是则,继续执行遍历网页中的所有网页内容元素的操作,否则,判断网页是否属于限制规则中的网页;当网页不属于限制规则中的网页时,继续执行遍历网页中的所有网页内容元素的操作,当网页属于限制规则中的网页时,不执行对该网页的网页快照生成操作。
可选的,网页分享限制单元的限制规则中的网页包括下述的至少一种网页:
不具有URL地址的浏览器网页或本地磁盘网页;
采用安全超文本传输协议HTTPS加密的网页;
网址中的主机HOST被用户修改的网页;
网址中的IP地址为内网IP地址的网页;
由网页快照聚合而成或由网页快照的详细信息形成的网页;
URL地址在预先设置的黑名单中的网页。
可选的,上述装置还包括第一广告过滤单元,适于在浏览器中加载网页时,利用广告过滤规则过滤出网页中的广告内容,不将该广告内容加载至浏览器中。
可选的,快照元素获得单元包括第二广告过滤单元,适于利用广告过滤规则过滤出网页中的广告内容,不执行为该广告内容生成网页快照元素的操作。
可选的,快照元素获得单元,还适于当分析得出网页中包含用户相关的敏感信息时,生成分享警告提示信息,并在浏览器中显示该分享警告提示信息。
可选的,快照元素上传单元,适于在将获得的网页快照元素上传至搜索引擎服务器侧之前,在网页上的预定位置弹出提示框,该提示框中设置有快照标签、验证码接口和上传控制接口,其中,快照标签是根据网页内容动态生成的和/或是浏览器侧预先设置的;将接受到浏览器用户鼠标点击的快照标签确定为网页的快照标签;验证码接口接收到正确的验证码且上传控制接口接收到上传指令时,将网页的快照标签和获得的网页快照元素上传至搜索引擎服务器侧。
本发明实施例通过确认网页在浏览器中加载完成,获取网页中所有网页内容元素的网页快照元素的技术手段,能够得到包括网页中文本内容和非文本内容在内的所有网页信息的网页快照;通过将获得的网页快照元素上传至搜索引擎服务器侧的技术手段,能够从服务器侧获取由合成后网页快照元素构成的网页快照,从而解决了现有网页快照由于仅包含文本内容而造成用户访问的历史快照不完整的问题,从而保证了浏览器侧能够获取到包含网页全部信息的网页快照,完整重现原始网页的内容。
依据本发明的又一个方面,本发明实施例还提供了一种网页快照的生成装置,包括:
快照元素接收单元,适于接收浏览器侧上传的需要执行快照的网页的各网页快照元素,其中,该网页快照元素是遍历网页中的所有网页内容元素,根据各网页内容元素分别得到的;
存储单元,适于将网页快照元素存储在搜索引擎服务器侧;
快照文件合成单元,适于利用网页快照元素合成得到网页的网页快照文件,以使在浏览器侧显示网页快照文件。
可选的,网页快照元素包括网页的超文本标记语言HTML源码对应的第一元素和网页中的资源对应的至少一个第二元素,存储单元,适于在搜索引擎服务器侧将第一元素中记录的第二元素的存放路径更新为该第二元素在搜索引擎服务器侧的存放路径。
可选的,快照元素接收单元,还适于接收浏览器侧上传的网页的统一资源定位符URL;根据网页的URL生成该网页对应的网页快照文件标识ID;将网页快照文件ID返回浏览器侧。
可选的,快照元素接收单元,还适于接收浏览器侧上传的按照预定次序组合后的网页快照元素所在网页的网页快照文件ID和网页快照元素的MD5值;和/或,接收浏览器侧上传的按照预定次序组合后的网页快照元素所在网页的网页快照文件ID、浏览器用户的用户ID和网页快照元素的MD5值;和/或,接收浏览器侧上传的按照预定次序组合后的网页快照元素所在网页的网页快照文件ID和浏览器用户的用户ID。
本发明实施例通过接收浏览器侧上传的包含网页中所有信息的网页快照元素的技术手段,能够得到包括网页中文本内容和非文本内容在内的所有网页信息;通过将存储的网页快照元素合成的技术手段,能够得到包括所有网页信息的网页快照,从而解决了现有网页快照由于仅包含文本内容而造成用户访问的历史快照不完整的问题,保证了浏览器侧能够获取到包含网页全部信息的网页快照,完整重现原始网页的内容。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明一个实施例提供了一种网页快照的生成方法,参见图2,该方法包括如下步骤:
S200:确认需要执行快照的网页在浏览器中加载完成。
S202:接收到快照生成命令,遍历网页中的所有网页内容元素,分别获得各网页内容元素对应的网页快照元素。
接收用户通过点击浏览器上的相应按键(button)发送的快照生成命令,获取所有网页内容元素的网页快照元素,这些网络内容元素包括文本内容,如网页中的HTML(超文本标记语言,Hyper Text Mark-up Language)元素、以及非文本内容,如JS(Javascript)元素、CSS(Cascading Style Sheet,层叠样式表)元素、图片、文字、音频、动画和视频等,为每一个网页内容元素生成一个网页快照元素。
S204:将获得的网页快照元素上传至搜索引擎服务器侧,以使在搜索引擎服务器侧利用网页快照元素合成得到网页的网页快照文件。
将网页的包含文本内容和非文本内容的所有网页快照元素都上传至搜索引擎服务器侧。可选的,本步骤中可以在接收到用户通过点击浏览器上的相应按键发送的上传命令时,执行网页快照元素的上传操作,也可以获取到网页的网页快照元素后自行执行网页快照元素的上传操作。
可选的,上述方法还包括:当在浏览器侧接收到网页快照访问请求时,从搜索引擎服务器侧获取请求的网页快照文件,并在浏览器侧展示该网页快照文件。
本发明实施例通过确认网页在浏览器中加载完成,获取网页中所有网页内容元素的网页快照元素的技术手段,能够得到包括网页中文本内容和非文本内容在内的所有网页信息;通过将获得的网页快照元素上传至搜索引擎服务器侧的技术手段,能够从服务器侧获取由合成后网页快照元素构成的网页快照,从而解决了现有网页快照由于仅包含文本内容而造成用户访问的历史快照不完整的问题,保证了浏览器侧能够获取到包含网页全部信息的网页快照,完整重现原始网页的内容。
本发明另一个实施例提供的一种网页快照的生成方法,参见图3,包括如下步骤:
S300:打开某网页。在浏览器中打开某需要执行网页快照的网页。
S302:判断网页是否加载完成。
监测网页是否在浏览器中加载完成,若是,进入S304,若否,继续对网页进行监测,直至网页在浏览器中加载成功,然后进入S304。
S304:接收快照生成命令。如接收用户点击浏览器上的按钮发送的快照生成命令
S306:分析网页中的网页内容元素,包括网页的网址URL(Uniform ResourceLocator,统一资源定位符),以及网页中HTML源码、文字、图片、音频、动画、视频、CSS和JS等
S308:根据网页内容元素得到各网页快照元素。如网页快照元素1、网页快照元素2和网页快照元素N等。
S310:服务器验证网页快照元素是否存在,若是,进入S312,若否,进入S314。
服务器验证上报的每个网页快照元素是否已经存储在服务器侧,即验证是否已经上报过该网页快照元素。
S312:仅将该网页快照元素的标识上传至服务器端,不再重复上传该网页快照元素。当验证出搜索引擎服务器侧存储有网页快照元素时,仅将该网页快照元素的元素标识按照网页快照元素归属的网页上传至搜索引擎服务器侧
本方案为网页快照元素生成元素标识,并按照网页快照元素归属的网页将元素标识上传至搜索引擎服务器侧,以使该搜索引擎服务器侧根据已存储的元素标识验证是否存储有网页快照元素。其中,为网页快照元素设置元素标识的具体方式参见本发明的其他实施例。
可选的,上述方法还包括:当验证出搜索引擎服务器侧存储有网页的所有网页快照元素时,生成指示网页的网页快照已分享的提示信息,在浏览器上显示该提示信息,并不再执行网页的网页快照元素的上传操作;以及,将发起快照生成命令的浏览器用户的用户ID添加至分享者列表中。
S314:将该网页快照元素的标识和该网页快照元素一并上传至服务器端。当验证出搜索引擎服务器侧未存储有网页快照元素时,将该网页快照元素和对应的元素标识按照网页快照元素归属的网页上传至搜索引擎服务器侧。
S316:合成为原来的网页。
服务器根据接收到的一个网页的网页快照元素合成为执行快照时刻的原始网页。在浏览器侧发起快照获取请求时,将合成后的历史网页快照发送给浏览器。
本发明又一个实施例对网页快照的生成方法中的快照上传流程进行说明,对网页快照的生成方法中的其他内容参见本发明的其他实施例。参见图4,该流程包括如下步骤:
S400:将网页的URL上传至搜索引擎服务器侧。
S402:接收搜索引擎服务器侧根据网页的URL返回的该网页对应的网页快照文件标识(ID)。
根据网页的URL为每个网页设置一个ID,如网页1的网页快照文件ID可以为ID1。一个网页的网页快照文件ID可以对应于该网页中的多个网页快照元素。例如,参见图5,示出了一个包含多个网页内容元素的网页的示意图。网页1中包括网页内容元素1、网页内容元素2和网页内容元素3,网页内容元素1为HTML源码,网页内容元素2为名称为“pig.jpg”的图片,网页内容元素3为名称为“dog.jpg”的图片。
S404:计算网页快照元素的MD5(Message Digest Algorithm5,信息摘要算法第五版)值,将该MD5值作为网页快照元素的元素标识。文件的MD5值是一个16位或32位的字符串,可以完全一对一的标识各个文件。
S406:对每个网页快照元素,将网页快照元素所在网页的网页快照文件ID和网页快照元素的MD5值按照预定次序组合后上传至搜索引擎服务器侧。
上述预定次序可以为网页快照文件ID在前、网页快照元素的MD5值在后的顺序。参见图6,示出了为如图5中所示网页生成的多个网页快照元素的示意图。网页1的网页快照文件标识为ID1,则在上传网页快照元素时将网页1中的三个网页快照元素(网页快照元素1、网页快照元素2和网页快照元素3)的MD5值与ID1一起上报至服务器侧。可选的,由ID1结合网页快照元素1的MD5值得到ID1-1后,将ID1-1和网页快照元素1一起上报至服务器侧,同样的,得到ID1-2和ID1-3之后,将ID1-2、ID1-3分别随着网页快照元素2、网页快照元素3上报至服务器侧。
可选的,本实施例还提供了一种将网页快照和浏览器用户相绑定的方案,这时,在进行快照上传时可以至少包括如下两种处理方式中的一种:
第一种方式:获取发起快照生成命令的浏览器用户的用户ID;对每个网页快照元素,将网页快照元素所在网页的网页快照文件ID、浏览器用户的用户ID和网页快照元素的MD5值按照预定次序组合后上传至搜索引擎服务器侧,以使搜索引擎服务器侧对浏览器用户的历史快照数据进行记录。这种方式下,将用户ID、网页快照文件ID和网页快照元素的MD5相关联,以实现网页快照和浏览器用户的绑定。
第二种方式:将网页快照元素所在网页的网页快照文件ID和浏览器用户的用户ID按照预定次序组合后上传至搜索引擎服务器侧,以使搜索引擎服务器侧对浏览器用户的历史快照数据进行记录。这种方式下,将用户ID和网页快照文件ID相关联,以实现网页快照和浏览器用户的绑定。
本发明又一实施例对网页快照的生成方法中的网络安全保护机制进行说明,利用该安全保护机制避免一些含有病毒信息或用户隐私信息的快照上传至服务器,网页快照的生成方法中的其他内容参见本发明的其他实施例。
在使用浏览器(如极速浏览器)打开某个网页时,通过浏览器用户点击浏览器状态栏上的“分享当前网页”按键,从当前网页的预定位置(如顶部)弹出提示框,参见图7,该提示框可如图7中示出的“历史快照”的网页浮层,该提示框中设置有快照标签、验证码接口和上传控制接口。该验证码接口接收用户输入的验证码,该上传控制接口接口用户点击发送的上传命令。
其中,快照标签是根据网页内容动态生成的和/或是浏览器侧预先设置的。即一种方式下,根据网页当前的内容动态生成快照标签,为不同网页生成的快照标签不同,另一种方式下,在浏览器侧预置一些快照标签供所有网页使用,快照标签的例子可以如“立帖为证”、“1024”等等。
将接受到浏览器用户鼠标点击的快照标签确定为网页的快照标签;验证码接口接收到正确的验证码且上传控制接口接收到上传指令时,将网页的快照标签和获得的网页快照元素上传至搜索引擎服务器侧。参见图8,在上传成功后,可以在网页中显示指示上传成功的信息,并提供使用户查看上传后快照的入口。若该网页快照已经被其他用户分享过了,则在网页中还可以提示该快照已有其他人分享的信息,避免该快照的重复上传。如因为网络问题或其他问题导致上传失败,向用户提示重新上传。
通过上述操作,当用户访问网页(网址URL)时发现该网页内容值得保存分享时,可以将该网页内容以快照形式保存并分享,当其他网友访问同一个URL时将发现存在多张快照(过去的网页内容),通过此这些网友也可以获取当时的网页信息。
在分享网址时,部分网址不可以分享,是否可以分享由浏览器侧来判断。一方面,在用户点击“分享当前网页”按键时可以向用户显示相应的分享警告提示,例如“请勿上传分享包含您个人信息的页面。如个人资料、身份证信息等页面。”另一方面,设置白名单和黑名单以及限制规则,黑名单中为不能分享的网址URL或禁止分享的某些IP或IP段,限制规则为包含黑名单中URL在内的不能分享的网页,白名单中记录了允许分享的网页。当某一网页属于限制规则中不能分享的情况时,只要该网页被记录在白名单中,就可以将该网页的网页快照上传进行分享。判断网页是否能够分享的具体方法可以如下:
判断网页的网址是否位于预先设置的白名单中,是则,继续执行遍历网页中的所有网页内容元素的操作,否则,判断网页是否属于限制规则中的网页;当网页不属于限制规则中的网页时,继续执行遍历网页中的所有网页内容元素的操作,当网页属于限制规则中的网页时,不执行对该网页的网页快照生成操作。
可选的,上述限制规则中的网页包括下述的至少一种网页:
1:不具有URL地址的浏览器网页或本地磁盘网页。无URL地址的网页如新标签页,包括九宫格页面、分类导航页面和应用程序页面;以及“Chrome://”开头的页面,如下载,收藏,设置等页面。本地磁盘的页面,如“c:\download”,“file://C:/Users/”等页面;
2:采用HTTPS(安全超文本传输协议)加密的网页。
3:网址中的主机(HOST)被用户(或其他人员手动)修改的网页。
4:网址中的IP地址为内网IP地址的网页,如192.168.0.1等。
5:由网页快照聚合而成或由网页快照的详细信息形成的网页;
6:URL地址在预先设置的黑名单中的网页。
可选的,本实施例还可以对网页中的广告进行过滤,一种过滤方式下,在浏览器中加载网页时,利用广告过滤规则过滤出网页中的广告内容,不将该广告内容加载至浏览器中。即在浏览器中加载网页时,就将广告过滤出来,加载完成后的网页中不包括广告。另一种过滤方式下,当网页在浏览器中加载成功之后,再剔除掉网页中的广告内容,例如,在执行遍历网页中的所有网页内容元素,分别获得各网页内容元素对应的网页快照元素的操作时,利用广告过滤规则过滤出网页中的广告内容,不执行为该广告内容生成网页快照元素的操作。
另外,对于包括用户隐私数据或其他的敏感信息的网页,如网银支付界面或包含身份证信息的网页,当分析得出网页中包含用户相关的敏感信息时,在分享页面上会生成相应的分享警告提示,并在浏览器中显示该分享警告提示信息。根据浏览器用户的指令确定是否上传该网页的网页快照元素。
本发明实施例可以在用户的启动下进行网页快照的上传并保证非网页内容被上传,对其中的隐私数据根据客户端的选择进行上传,突破了现有快照仅仅上传文本的局限,并且能够将当前的网页快照元素按照ID进行分类后全部上传,在服务器进行保存。
本发明又一个实施例还提供了一种网页快照的生成方法,该方法可以在服务器侧执行,参见图9,包括如下步骤:
S900:接收浏览器侧上传的需要执行快照的网页的各网页快照元素,其中,该网页快照元素是遍历网页中的所有网页内容元素,根据各网页内容元素分别得到的;将网页快照元素存储在搜索引擎服务器侧。
可选的,本步骤中还可以包括:接收浏览器侧上传的网页的URL;根据网页的URL生成该网页对应的网页快照文件ID;将网页快照文件ID返回浏览器侧,以使浏览器侧根据该网页快照文件ID,将网页快照元素按照网页分类后上传至服务器侧,便于后续服务器侧对历史快照的合并操作。
在实现将网页快照元素按照网页分类后上传至服务器侧时,服务器侧接收浏览器侧上传的按照预定次序组合后的网页快照元素所在网页的网页快照文件ID和网页快照元素的MD5值。
另外,服务器侧还可以接收浏览器侧上传的按照预定次序组合后的网页快照元素所在网页的网页快照文件ID、浏览器用户的用户ID和网页快照元素的MD5值;和/或,接收浏览器侧上传的按照预定次序组合后的网页快照元素所在网页的网页快照文件ID和浏览器用户的用户ID,从而达到将历史快照和浏览器用户相绑定的效果。
S902:利用网页快照元素合成得到网页的网页快照文件,以使在浏览器侧显示网页快照文件。
可选的,上述将网页快照元素存储在搜索引擎服务器侧包括:网页快照元素包括网页的HTML(Hyper Text Mark-up Language,超文本标记语言)源码对应的第一元素和网页中的资源对应的至少一个第二元素,在搜索引擎服务器侧将第一元素中记录的第二元素的存放路径更新为该第二元素在搜索引擎服务器侧的存放路径。
例如,原始网页的源码的一个示例可以如下:
<html>
<body>
<img src="/i/pig.GIF"/><!--假设为网页中pig图片的原始路径-->
<img src="/i/dog.GIF"/><!--假设为网页中dog图片的原始路径-->
</body>
</html>
搜索引擎服务器在存储网页快照元素时,将网页源码中包括资源的存放路径更新为各资源在搜索引擎服务器的存放路径,则在搜索引擎服务器侧对上述源码重新生成快照源码,具体如下:
<html>
<body>
<img src="../k/0ca175b9c0f726a831d895e269332461.GIF"/><!—更新后pig图片的存放路径-->
<img src="../k/0da06de9c0fdd4dd31d895e26efa4811.GIF"/><!—更新后dog图片的存放路径-->
</body>
</html>
当用户通过浏览器访问该网页快照时,则搜索引擎服务器(如360服务器)根据网页快照文件ID、网页快照元素的MD5值和网页快照元素的存储地址等,将属于同一历史网页的网页快照元素提取出来进行合并,完整复现当时的网页信息,然后将该历史快照下发至浏览器侧。
本发明实施例通过接收浏览器侧上传的包含网页中所有信息的网页快照元素的技术手段,能够得到包括网页中文本内容和非文本内容在内的所有网页信息;通过将存储的网页快照元素合成的技术手段,能够得到包括所有网页信息的网页快照,从而解决了现有网页快照由于仅包含文本内容而造成用户访问的历史快照不完整的问题,保证了浏览器侧能够获取到包含网页全部信息的网页快照,完整重现原始网页的内容。
本发明又一个实施例还提供了一种网页快照的生成装置,该装置可以设置在浏览器侧,参见图10,该装置包括:
网页加载确认单元1000,适于确认需要执行快照的网页在浏览器中加载完成。
快照元素获得单元1002,适于接收到快照生成命令,遍历网页中的所有网页内容元素,分别获得各网页内容元素对应的网页快照元素。这些网络内容元素包括文本内容,如网页中的HTML(元素、以及非文本内容,如JS(Javascript)元素、CSS(元素、图片、文字、音频、动画和视频等,为每一个网页内容元素生成一个网页快照元素。
快照元素上传单元1004,适于将获得的网页快照元素上传至搜索引擎服务器侧,以使在搜索引擎服务器侧利用网页快照元素合成得到网页的网页快照文件。
可选的,上述装置还包括:网页快照访问单元1006,适于当在浏览器侧接收到网页快照访问请求时,从搜索引擎服务器侧获取请求的网页快照文件,并在浏览器侧展示该网页快照文件。
可选的,快照元素上传单元1004,适于为网页快照元素生成元素标识,并按照网页快照元素归属的网页将元素标识上传至搜索引擎服务器侧,以使该搜索引擎服务器侧根据已存储的元素标识验证是否存储有网页快照元素;当验证出搜索引擎服务器侧存储有网页快照元素时,仅将该网页快照元素的元素标识按照网页快照元素归属的网页上传至搜索引擎服务器侧;当验证出搜索引擎服务器侧未存储有网页快照元素时,将该网页快照元素和对应的元素标识按照网页快照元素归属的网页上传至搜索引擎服务器侧。
可选的,快照元素上传单元1004,适于将网页的URL上传至搜索引擎服务器侧;接收搜索引擎服务器侧根据网页的URL返回的该网页对应的网页快照文件标识ID;计算网页快照元素的MD5值,将该MD5值作为网页快照元素的元素标识;对每个网页快照元素,将网页快照元素所在网页的网页快照文件ID和网页快照元素的MD5值按照预定次序组合后上传至搜索引擎服务器侧。该预定次序可以为网页快照文件ID在前、网页快照元素的MD5值在后的顺序。例如,网页1的网页快照文件标识为ID1,则在上传网页快照元素时将网页1中的三个网页快照元素(网页快照元素1、网页快照元素2和网页快照元素3)的MD5值与ID1一起上报至服务器侧。可选的,由ID1结合网页快照元素1的MD5值得到ID1-1后,将ID1-1和网页快照元素1一起上报至服务器侧,同样的,得到ID1-2和ID1-3之后,将ID1-2、ID1-3分别随着网页快照元素2、网页快照元素3上报至服务器侧。
可选的,快照元素上传单元1004,适于获取发起快照生成命令的浏览器用户的用户ID;对每个网页快照元素,将网页快照元素所在网页的网页快照文件ID、浏览器用户的用户ID和网页快照元素的MD5值按照预定次序组合后上传至搜索引擎服务器侧,以使搜索引擎服务器侧对浏览器用户的历史快照数据进行记录;和/或,将网页快照元素所在网页的网页快照文件ID和浏览器用户的用户ID按照预定次序组合后上传至搜索引擎服务器侧,以使搜索引擎服务器侧对浏览器用户的历史快照数据进行记录。
可选的,上述装置还包括重复上传控制单元1008,适于当验证出搜索引擎服务器侧存储有网页的所有网页快照元素时,生成指示网页的网页快照已分享的提示信息,在浏览器上显示该提示信息,并不再执行网页的网页快照元素的上传操作;以及,将发起快照生成命令的浏览器用户的用户ID添加至分享者列表中。
可选的,上述装置还包括网页分享限制单元1010,适于在快照元素获得单元遍历网页中的所有网页内容元素之前,判断网页的网址是否位于预先设置的白名单中,是则,继续执行遍历网页中的所有网页内容元素的操作,否则,判断网页是否属于限制规则中的网页;当网页不属于限制规则中的网页时,继续执行遍历网页中的所有网页内容元素的操作,当网页属于限制规则中的网页时,不执行对该网页的网页快照生成操作。
可选的,网页分享限制单元1010的限制规则中的网页包括下述的至少一种网页:
不具有URL地址的浏览器网页或本地磁盘网页;
采用安全超文本传输协议HTTPS加密的网页;
网址中的主机HOST被用户修改的网页;
网址中的IP地址为内网IP地址的网页;
由网页快照聚合而成或由网页快照的详细信息形成的网页;
URL地址在预先设置的黑名单中的网页。
可选的,上述装置还包括第一广告过滤单元1012,适于在浏览器中加载网页时,利用广告过滤规则过滤出网页中的广告内容,不将该广告内容加载至浏览器中。
可选的,快照元素获得单元包括第二广告过滤单元1014,适于利用广告过滤规则过滤出网页中的广告内容,不执行为该广告内容生成网页快照元素的操作。
可选的,快照元素获得单元1002,还适于当分析得出网页中包含用户相关的敏感信息时,生成分享警告提示信息,并在浏览器中显示该分享警告提示信息。
可选的,快照元素上传单元1004,适于在将获得的网页快照元素上传至搜索引擎服务器侧之前,在网页上的预定位置弹出提示框,该提示框中设置有快照标签、验证码接口和上传控制接口,其中,快照标签是根据网页内容动态生成的和/或是浏览器侧预先设置的;将接受到浏览器用户鼠标点击的快照标签确定为网页的快照标签;验证码接口接收到正确的验证码且上传控制接口接收到上传指令时,将网页的快照标签和获得的网页快照元素上传至搜索引擎服务器侧。
本发明装置实施例中各单元的具体工作方式可以参见本发明的方法实施例在此不再赘述。
本发明实施例通过确认网页在浏览器中加载完成,获取网页中所有网页内容元素的网页快照元素的技术手段,能够得到包括网页中文本内容和非文本内容在内的所有网页信息的网页快照;通过将获得的网页快照元素上传至搜索引擎服务器侧的技术手段,能够从服务器侧获取由合成后网页快照元素构成的网页快照,从而解决了现有网页快照由于仅包含文本内容而造成用户访问的历史快照不完整的问题,从而保证了浏览器侧能够获取到包含网页全部信息的网页快照,完整重现原始网页的内容。
本发明又一个实施例还提供了一种网页快照的生成装置,该装置可以设置在服务器侧,参见图11,该装置包括:
快照元素接收单元110,适于接收浏览器侧上传的需要执行快照的网页的各网页快照元素,其中,该网页快照元素是遍历网页中的所有网页内容元素,根据各网页内容元素分别得到的。
存储单元112,适于将网页快照元素存储在搜索引擎服务器侧。
快照文件合成单元114,适于利用网页快照元素合成得到网页的网页快照文件,以使在浏览器侧显示网页快照文件。快照文件合成单元114根据网页快照文件ID、网页快照元素的MD5值和网页快照元素的存储地址等,将属于同一历史网页的网页快照元素提取出来进行合并,完整复现当时的网页信息,然后将该历史快照下发至浏览器侧。
可选的,网页快照元素包括网页的HTML源码对应的第一元素和网页中的资源对应的至少一个第二元素,存储单元112适于在搜索引擎服务器侧将第一元素中记录的第二元素的存放路径更新为该第二元素在搜索引擎服务器侧的存放路径。
可选的,快照元素接收单元110还适于接收浏览器侧上传的网页的URL;根据网页的URL生成该网页对应的网页快照文件标识ID;将网页快照文件ID返回浏览器侧,从而浏览器侧根据该网页快照文件ID,将网页快照元素按照网页分类后上传至服务器侧,便于后续服务器侧对历史快照的合并操作。
可选的,快照元素接收单元110还适于接收浏览器侧上传的按照预定次序组合后的网页快照元素所在网页的网页快照文件ID和网页快照元素的MD5值;和/或,接收浏览器侧上传的按照预定次序组合后的网页快照元素所在网页的网页快照文件ID、浏览器用户的用户ID和网页快照元素的MD5值;和/或,接收浏览器侧上传的按照预定次序组合后的网页快照元素所在网页的网页快照文件ID和浏览器用户的用户ID,从而达到将历史快照和浏览器用户相绑定的效果。
本发明装置实施例中各单元的具体工作方式可以参见本发明的方法实施例在此不再赘述。
本发明实施例通过接收浏览器侧上传的包含网页中所有信息的网页快照元素的技术手段,能够得到包括网页中文本内容和非文本内容在内的所有网页信息;通过将存储的网页快照元素合成的技术手段,能够得到包括所有网页信息的网页快照,从而解决了现有网页快照由于仅包含文本内容而造成用户访问的历史快照不完整的问题,保证了浏览器侧能够获取到包含网页全部信息的网页快照,完整重现原始网页的内容。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网页快照的生成装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明实施例公开了A1、一种网页快照的生成方法,包括:
确认需要执行快照的网页在浏览器中加载完成;
接收到快照生成命令,遍历所述网页中的所有网页内容元素,分别获得各网页内容元素对应的网页快照元素;
将获得的所述网页快照元素上传至搜索引擎服务器侧,以使在所述搜索引擎服务器侧利用所述网页快照元素合成得到所述网页的网页快照文件。
A2、根据A1所述的方法,其中,所述方法还包括:
当在浏览器侧接收到网页快照访问请求时,从搜索引擎服务器侧获取请求的网页快照文件,并在浏览器侧展示该网页快照文件。
A3、根据A1所述的方法,其中,所述将获得的所述网页快照元素上传至搜索引擎服务器侧包括:
为所述网页快照元素生成元素标识,并按照所述网页快照元素归属的网页将所述元素标识上传至搜索引擎服务器侧,以使该搜索引擎服务器侧根据已存储的元素标识验证是否存储有所述网页快照元素;
当验证出搜索引擎服务器侧存储有所述网页快照元素时,仅将该网页快照元素的元素标识按照所述网页快照元素归属的网页上传至搜索引擎服务器侧;
当验证出搜索引擎服务器侧未存储有所述网页快照元素时,将该网页快照元素和对应的元素标识按照所述网页快照元素归属的网页上传至搜索引擎服务器侧。
A4、根据A3所述的方法,其中,所述为所述网页快照元素生成元素标识,并按照所述网页快照元素归属的网页将所述元素标识上传至搜索引擎服务器包括:
将所述网页的统一资源定位符URL上传至搜索引擎服务器侧;
接收搜索引擎服务器侧根据所述网页的URL返回的该网页对应的网页快照文件标识ID;
计算所述网页快照元素的信息摘要算法MD5值,将该MD5值作为所述网页快照元素的元素标识;
对每个所述网页快照元素,将所述网页快照元素所在网页的网页快照文件ID和所述网页快照元素的MD5值按照预定次序组合后上传至搜索引擎服务器侧。
A5、根据A4所述的方法,其中,所述方法还包括:
获取发起所述快照生成命令的浏览器用户的用户ID;
对每个所述网页快照元素,将所述网页快照元素所在网页的网页快照文件ID、所述浏览器用户的用户ID和所述网页快照元素的MD5值按照预定次序组合后上传至搜索引擎服务器侧,以使搜索引擎服务器侧对浏览器用户的历史快照数据进行记录;和/或,
将所述网页快照元素所在网页的网页快照文件ID和所述浏览器用户的用户ID按照预定次序组合后上传至搜索引擎服务器侧,以使搜索引擎服务器侧对浏览器用户的历史快照数据进行记录。
A6、根据A3所述的方法,其中,所述方法还包括:
当验证出搜索引擎服务器侧存储有所述网页的所有网页快照元素时,生成指示所述网页的网页快照已分享的提示信息,在浏览器上显示该提示信息,并不再执行所述网页的网页快照元素的上传操作;以及,
将发起所述快照生成命令的浏览器用户的用户ID添加至分享者列表中。
A7、根据A1所述的方法,其中,在所述遍历所述网页中的所有网页内容元素之前,所述方法还包括:
判断所述网页的网址是否位于预先设置的白名单中,是则,继续执行遍历所述网页中的所有网页内容元素的操作,否则,判断所述网页是否属于限制规则中的网页;
当所述网页不属于限制规则中的网页时,继续执行遍历所述网页中的所有网页内容元素的操作,当所述网页属于限制规则中的网页时,不执行对该网页的网页快照生成操作。
A8、根据A7所述的方法,其中,所述限制规则中的网页包括下述的至少一种网页:
不具有URL地址的浏览器网页或本地磁盘网页;
采用安全超文本传输协议HTTPS加密的网页;
网址中的主机HOST被用户修改的网页;
网址中的IP地址为内网IP地址的网页;
由网页快照聚合而成或由网页快照的详细信息形成的网页;
URL地址在预先设置的黑名单中的网页。
A9、根据A1所述的方法,其中,在所述确认需要执行快照的网页在浏览器中加载完成之前,所述方法还包括:
在浏览器中加载所述网页时,利用广告过滤规则过滤出所述网页中的广告内容,不将该广告内容加载至浏览器中。
A10、根据A1所述的方法,其中,所述遍历所述网页中的所有网页内容元素,分别获得各网页内容元素对应的网页快照元素包括:
利用广告过滤规则过滤出所述网页中的广告内容,不执行为该广告内容生成网页快照元素的操作。
A11、根据A1所述的方法,其中,所述遍历所述网页中的所有网页内容元素,分别获得各网页内容元素对应的网页快照元素包括:
当分析得出所述网页中包含用户相关的敏感信息时,生成分享警告提示信息,并在浏览器中显示该分享警告提示信息。
A12、根据A1所述的方法,其中,在所述将获得的所述网页快照元素上传至搜索引擎服务器侧之前,所述方法还包括:
在所述网页上的预定位置弹出提示框,所述提示框中设置有快照标签、验证码接口和上传控制接口,其中,所述快照标签是根据网页内容动态生成的和/或是浏览器侧预先设置的;
将接受到浏览器用户鼠标点击的快照标签确定为所述网页的快照标签;
验证码接口接收到正确的验证码且上传控制接口接收到上传指令时,将所述网页的快照标签和获得的所述网页快照元素上传至搜索引擎服务器侧。
本发明实施例还公开了B13、一种网页快照的生成方法,包括:
接收浏览器侧上传的需要执行快照的网页的各网页快照元素,其中,所述网页快照元素是遍历所述网页中的所有网页内容元素,根据各网页内容元素分别得到的;
将所述网页快照元素存储在搜索引擎服务器侧;
利用所述网页快照元素合成得到所述网页的网页快照文件,以使在浏览器侧显示所述网页快照文件。
B14、根据B13所述的方法,其中,所述将所述网页快照元素存储在搜索引擎服务器侧包括:
所述网页快照元素包括网页的超文本标记语言HTML源码对应的第一元素和网页中的资源对应的至少一个第二元素,
在搜索引擎服务器侧将第一元素中记录的第二元素的存放路径更新为该第二元素在搜索引擎服务器侧的存放路径。
B15、根据B13所述的方法,其中,所述方法还包括:
接收浏览器侧上传的所述网页的统一资源定位符URL;
根据所述网页的URL生成该网页对应的网页快照文件标识ID;
将所述网页快照文件ID返回浏览器侧。
B16、根据B15所述的方法,其中,所述接收浏览器侧上传的需要执行快照的网页的各网页快照元素包括:
接收浏览器侧上传的按照预定次序组合后的所述网页快照元素所在网页的网页快照文件ID和所述网页快照元素的MD5值;和/或,接收浏览器侧上传的按照预定次序组合后的所述网页快照元素所在网页的网页快照文件ID、所述浏览器用户的用户ID和所述网页快照元素的MD5值;和/或,接收浏览器侧上传的按照预定次序组合后的所述网页快照元素所在网页的网页快照文件ID和所述浏览器用户的用户ID。
本发明实施例还公开了C17、一种网页快照的生成装置,包括:
网页加载确认单元,适于确认需要执行快照的网页在浏览器中加载完成;
快照元素获得单元,适于接收到快照生成命令,遍历所述网页中的所有网页内容元素,分别获得各网页内容元素对应的网页快照元素;
快照元素上传单元,适于将获得的所述网页快照元素上传至搜索引擎服务器侧,以使在所述搜索引擎服务器侧利用所述网页快照元素合成得到所述网页的网页快照文件。
C18、根据C17所述的装置,其中,所述装置还包括:
网页快照访问单元,适于当在浏览器侧接收到网页快照访问请求时,从搜索引擎服务器侧获取请求的网页快照文件,并在浏览器侧展示该网页快照文件。
C19、根据C17所述的装置,其中,所述快照元素上传单元,适于为所述网页快照元素生成元素标识,并按照所述网页快照元素归属的网页将所述元素标识上传至搜索引擎服务器侧,以使该搜索引擎服务器侧根据已存储的元素标识验证是否存储有所述网页快照元素;当验证出搜索引擎服务器侧存储有所述网页快照元素时,仅将该网页快照元素的元素标识按照所述网页快照元素归属的网页上传至搜索引擎服务器侧;当验证出搜索引擎服务器侧未存储有所述网页快照元素时,将该网页快照元素和对应的元素标识按照所述网页快照元素归属的网页上传至搜索引擎服务器侧。
C20、根据C19所述的装置,其中,所述快照元素上传单元,适于将所述网页的统一资源定位符URL上传至搜索引擎服务器侧;接收搜索引擎服务器侧根据所述网页的URL返回的该网页对应的网页快照文件标识ID;计算所述网页快照元素的信息摘要算法MD5值,将该MD5值作为所述网页快照元素的元素标识;对每个所述网页快照元素,将所述网页快照元素所在网页的网页快照文件ID和所述网页快照元素的MD5值按照预定次序组合后上传至搜索引擎服务器侧。
C21、根据C20所述的装置,其中,所述快照元素上传单元,适于获取发起所述快照生成命令的浏览器用户的用户ID;对每个所述网页快照元素,将所述网页快照元素所在网页的网页快照文件ID、所述浏览器用户的用户ID和所述网页快照元素的MD5值按照预定次序组合后上传至搜索引擎服务器侧,以使搜索引擎服务器侧对浏览器用户的历史快照数据进行记录;
和/或,将所述网页快照元素所在网页的网页快照文件ID和所述浏览器用户的用户ID按照预定次序组合后上传至搜索引擎服务器侧,以使搜索引擎服务器侧对浏览器用户的历史快照数据进行记录。
C22、根据C19所述的装置,其中,所述装置还包括重复上传控制单元,适于当验证出搜索引擎服务器侧存储有所述网页的所有网页快照元素时,生成指示所述网页的网页快照已分享的提示信息,在浏览器上显示该提示信息,并不再执行所述网页的网页快照元素的上传操作;以及,将发起所述快照生成命令的浏览器用户的用户ID添加至分享者列表中。
C23、根据C17所述的装置,其中,所述装置还包括网页分享限制单元,适于在所述快照元素获得单元遍历所述网页中的所有网页内容元素之前,判断所述网页的网址是否位于预先设置的白名单中,是则,继续执行遍历所述网页中的所有网页内容元素的操作,否则,判断所述网页是否属于限制规则中的网页;当所述网页不属于限制规则中的网页时,继续执行遍历所述网页中的所有网页内容元素的操作,当所述网页属于限制规则中的网页时,不执行对该网页的网页快照生成操作。
C24、根据C23所述的装置,其中,所述网页分享限制单元的限制规则中的网页包括下述的至少一种网页:
不具有URL地址的浏览器网页或本地磁盘网页;
采用安全超文本传输协议HTTPS加密的网页;
网址中的主机HOST被用户修改的网页;
网址中的IP地址为内网IP地址的网页;
由网页快照聚合而成或由网页快照的详细信息形成的网页;
URL地址在预先设置的黑名单中的网页。
C25、根据C17所述的装置,其中,所述装置还包括第一广告过滤单元,适于在浏览器中加载所述网页时,利用广告过滤规则过滤出所述网页中的广告内容,不将该广告内容加载至浏览器中。
C26、根据C17所述的装置,其中,所述快照元素获得单元包括第二广告过滤单元,适于利用广告过滤规则过滤出所述网页中的广告内容,不执行为该广告内容生成网页快照元素的操作。
C27、根据C17所述的装置,其中,所述快照元素获得单元,还适于当分析得出所述网页中包含用户相关的敏感信息时,生成分享警告提示信息,并在浏览器中显示该分享警告提示信息。
C28、根据C17所述的装置,其中,所述快照元素上传单元,适于在将获得的所述网页快照元素上传至搜索引擎服务器侧之前,在所述网页上的预定位置弹出提示框,所述提示框中设置有快照标签、验证码接口和上传控制接口,其中,所述快照标签是根据网页内容动态生成的和/或是浏览器侧预先设置的;将接受到浏览器用户鼠标点击的快照标签确定为所述网页的快照标签;验证码接口接收到正确的验证码且上传控制接口接收到上传指令时,将所述网页的快照标签和获得的所述网页快照元素上传至搜索引擎服务器侧。
本发明实施例还公开了D29、一种网页快照的生成装置,包括:
快照元素接收单元,适于接收浏览器侧上传的需要执行快照的网页的各网页快照元素,其中,所述网页快照元素是遍历所述网页中的所有网页内容元素,根据各网页内容元素分别得到的;
存储单元,适于将所述网页快照元素存储在搜索引擎服务器侧;
快照文件合成单元,适于利用所述网页快照元素合成得到所述网页的网页快照文件,以使在浏览器侧显示所述网页快照文件。
D30、根据D29所述的装置,其中,所述网页快照元素包括网页的超文本标记语言HTML源码对应的第一元素和网页中的资源对应的至少一个第二元素,所述存储单元,适于在搜索引擎服务器侧将第一元素中记录的第二元素的存放路径更新为该第二元素在搜索引擎服务器侧的存放路径。
D31、根据D29所述的装置,其中,所述快照元素接收单元,还适于接收浏览器侧上传的所述网页的统一资源定位符URL;根据所述网页的URL生成该网页对应的网页快照文件标识ID;将所述网页快照文件ID返回浏览器侧。
D32、根据D29所述的装置,其中,所述快照元素接收单元,还适于接收浏览器侧上传的按照预定次序组合后的所述网页快照元素所在网页的网页快照文件ID和所述网页快照元素的MD5值;和/或,
接收浏览器侧上传的按照预定次序组合后的所述网页快照元素所在网页的网页快照文件ID、所述浏览器用户的用户ID和所述网页快照元素的MD5值;和/或,
接收浏览器侧上传的按照预定次序组合后的所述网页快照元素所在网页的网页快照文件ID和所述浏览器用户的用户ID。