[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN110851746B - 爬虫种子生成方法及装置 - Google Patents

爬虫种子生成方法及装置 Download PDF

Info

Publication number
CN110851746B
CN110851746B CN201810842673.XA CN201810842673A CN110851746B CN 110851746 B CN110851746 B CN 110851746B CN 201810842673 A CN201810842673 A CN 201810842673A CN 110851746 B CN110851746 B CN 110851746B
Authority
CN
China
Prior art keywords
crawler
seed
seeds
configuration template
added
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810842673.XA
Other languages
English (en)
Other versions
CN110851746A (zh
Inventor
陈发发
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201810842673.XA priority Critical patent/CN110851746B/zh
Publication of CN110851746A publication Critical patent/CN110851746A/zh
Application granted granted Critical
Publication of CN110851746B publication Critical patent/CN110851746B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种爬虫种子生成方法及装置,该方法预先针对爬虫种子对应的页面结构配置相应的种子配置模板,该模板中预先配置有爬虫种子的技术参数。使用爬虫的普通用户可以利用种子配置模板中的技术参数自行添加爬虫种子,减少了添加爬虫种子所需的时间,提高了爬虫种子的添加速度。开发人员针对某一网站只需进行一次种子模板开发过程,后续用户可以重复利用该模板添加该网页内的不同爬虫种子,不需要开发人员对用户针对该网站的每一个爬虫种子添加过程都进行参数配置,减少了开发人员重复性操作所耗费的时间,大大降低了开发人员的工作强度。

Description

爬虫种子生成方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及爬虫种子生成方法及装置。
背景技术
爬虫即网络爬虫,是一种按照一定的规则自动抓取万维网信息的程序或者脚本,可以根据既定的目标,选择性地访问万维网上的网页和相关的链接,获取所需要的信息。网络爬虫抓取信息时需要一个入口统一资源定位符(UniformResource Locator,URL),在信源系统中,该入口URL称为爬虫种子,一个URL就是一个种子。
信源系统就是管理和维护爬虫种子的系统,爬虫从信源系统中获取爬虫种子然后进行抓取。在信源系统中添加爬虫种子时,由于用户不清楚如何配置爬虫种子的技术参数,而且,不同网页对应爬虫种子的技术参数配置不一样,因此,需要由爬虫相关开发人员配置爬虫种子的技术参数,如果需要增加的爬虫种子数量很多,则开发人员逐个添加爬虫种子的技术参数会花费大量时间,导致添加爬虫种子的时间成本非常高、添加速度慢。
发明内容
鉴于上述问题,本发明提供了爬虫种子生成方法及装置,以解决现有的添加爬虫种子的方式需要开发人员逐个添加爬虫种子的技术参数导致的时间成本高的技术问题。为解决该技术问题,本申请提供的技术方案如下:
第一方面,本申请提供了一种爬虫种子生成方法,包括:
确定与待添加爬虫种子相匹配的目标种子配置模板,所述目标种子配置模板中预先配置有所述待添加爬虫种子的技术参数;
获取所述待添加爬虫种子的基本信息;
根据所述待添加爬虫种子对应的基本信息及所述目标种子配置模板中的技术参数生成所述待添加爬虫种子。
在本申请一种可能的实现方式中,所述基本信息包括所述待添加爬虫种子的URL;
所述根据所述待添加爬虫种子对应的基本信息及所述目标种子配置模板中的技术参数生成所述待添加爬虫种子,包括:
从所述目标种子配置模板中提取所述待添加爬虫种子对应的技术参数;
结合所述待添加爬虫种子对应的技术参数及URL,生成所述待添加爬虫种子。
在本申请一种可能的实现方式中,所述基本信息包括所述待添加爬虫种子对应的搜索关键词,所述目标种子配置模板包括非完整URL,所述非完整URL中包含用于表示搜索关键词的占位符;
根据所述待添加爬虫种子对应的基本信息及所述技术参数生成待添加爬虫种子,包括:
获取所述目标种子配置模板中的非完整URL,并将所述非完整URL中的占位符替换为目标搜索关键词,得到目标URL;
根据所述目标种子配置模板中的技术参数及所述目标URL,生成与所述目标搜索关键词对应的待添加爬虫种子。
在本申请一种可能的实现方式中,所述获取所述待添加爬虫种子的基本信息,包括:
接收输入的所述待添加爬虫种子的基本信息;
或者,
从目标文件中导入所述待添加爬虫种子的基本信息。
在本申请一种可能的实现方式中,还包括:
将生成的所述待添加爬虫种子添加至信源系统中。
在本申请一种可能的实现方式中,所述确定与待添加爬虫种子对应的目标种子配置模板,包括:
确定所述待添加爬虫种子对应网页的网页结构;
确定所述网页结构对应的技术参数;
确定与所述网页结构的技术参数相匹配的种子配置模板为所述目标种子配置模板。
在本申请一种可能的实现方式中,所述方法还包括:
当检测到更新目标种子配置模板的更新指令后,利用接收到的更新后的种子配置模板覆盖所述目标种子配置模板,所述更新后的种子配置模板根据更新后的网页结构对应的技术参数生成。
第二方面,本申请还提供一种爬虫种子生成装置,包括:
确定模块,用于确定与待添加爬虫种子相匹配的目标种子配置模板,所述目标种子配置模板中预先配置有所述待添加爬虫种子的技术参数;
获取模块,用于获取所述待添加爬虫种子的基本信息;
生成模块,用于根据所述待添加爬虫种子对应的基本信息及所述目标种子配置模板中的技术参数生成所述待添加爬虫种子。
第三方面,本申请还提供了一种存储介质,其上存储有程序,所述程序被处理器执行时实现第一方面任意一种可能的实现方式所述的爬虫种子生成方法。
第四方面,本申请还提供了一种处理器,所述处理器用于运行程序,所述程序运行时执行第一方面任意一种可能的实现方式所述的爬虫种子生成方法。
本申请提供的爬虫种子生成方法,针对爬虫种子对应的页面结构配置相应的种子配置模板,该模板中的参数字段与爬虫种子的技术参数相同,即模板中配置好的技术参数能够替换到爬虫种子的配置参数中。这样,当用户需要在信源系统中添加爬虫种子时,可以选用与待添加爬虫种子相匹配的目标种子配置模板,并从该目标种子配置模板中提取技术参数。以及,获取待添加爬虫种子的基本信息。根据爬虫种子的技术参数以及爬虫种子的基本信息生成爬虫种子。利用该方法,用户可以利用种子配置模板中的技术参数自行添加爬虫种子,不需要爬虫开发人员技术参数,提高了爬虫种子的添加速度。同时,减少了开发人员重复性配置相同参数所耗费的时间,大大降低了开发人员的工作强度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请实施例一种爬虫种子生成方法的流程图;
图2示出了本申请实施例一种爬虫种子生成方法实例的流程图;
图3示出了本申请实施例另一种爬虫种子生成方法实例的流程图;
图4示出了本申请实施例一种爬虫种子生成装置的框图;
图5示出了本申请实施例另一种爬虫种子生成装置的框图。
具体实施方式
一个爬虫种子通常包括网页基本信息和技术参数信息,其中,网页基本信息通常包括name(名称),url,type(类型),tags(标签)等,技术参数信息通常包括body(表示网页主体部分),headers,cookies等参数信息。
由于爬虫的用户不清楚如何配置爬虫种子的技术参数,而且,不同网页对应爬虫种子的技术参数配置不一样。因此,利用传统的添加爬虫种子的方法,用户添加爬虫种子的网页基本信息之后,需要由爬虫相关开发人员配置爬虫种子的技术参数。如果需要添加的爬虫种子数量很多,那么开发人员逐个添加爬虫种子的技术参数会花费大量时间,添加速度慢。本申请提供了一种爬虫种子生成方法,根据爬虫种子对应的不同页面结构配置相应的种子配置模板,模板中的技术参数能够替换到爬虫种子的配置参数中。当用户需要添加爬虫种子时,选用相匹配的种子配置模板,并从该种子配置模板中提取技术参数,然后,根据该技术参数及获得的爬虫种子的基本信息生成爬虫种子。利用该方法,用户可以利用种子配置模板中的技术参数自行添加爬虫种子,不需要爬虫开发人员去配置用户要添加的爬虫种子的技术参数。从而实现快速添加爬虫种子,减少了爬虫种子添加过程所需的时间,因此,提高了爬虫种子的添加速度。
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
请参见图1,示出了本申请实施例一种爬虫种子生成方法的流程图,该方法应用于服务器中。如图1所示,该方法可以包括以下步骤:
S110,确定与待添加爬虫种子相匹配的目标种子配置模板。
种子配置模板由爬虫相关开发人员根据目标网站的不同页面结构(不同网页的网页参数),预先定制化配置特定的技术参数,然后,以模板的形式保存在信源系统中。例如,针对网站A开发种子配置模板a,针对网站B开发种子配置模板b。
种子配置模板中的技术参数字段与爬虫种子需要配置技术参数相同,即,种子配置模板中技术参数能够替换到爬虫种子的配置参数中。该目标种子配置模板包含该待添加爬虫种子的技术参数,例如,网页的body(表示网页主体部分)、headers(是服务器以HTTP协议传HTML资料到浏览器前所送出的字串)、cookies(储存在用户本地终端上的数据),以及爬虫特有的某些技术参数。
在本申请一种可能的实现方式中,针对非搜索类网站开发第一类种子配置模板,该配置模板中包含开发人员针对非搜索类目标网站的网页技术参数定制化配置的爬虫技术参数,例如包括网页的body、headers、cookies、爬取页数等技术参数;
在本申请的另一种可能的实现方式中,针对搜索类网站开发第二类种子配置模板,该第二类配置模板中包含开发人员针对搜索类目标网站的网页技术参数定制化配置的爬虫技术参数;该配置模板中配置的参数中除包括上述的技术参数外,还包括URL。搜索类网站基于关键词进行搜索,在同一搜索网站内不同的关键词对应的网页URL具有一定的规律,因此,可以将有规律的URL配置到种子配置模板中。
当需要添加爬虫种子时,需要选取与待添加爬虫种子的页面结构相匹配的种子配置模板。
S120,获取待添加爬虫种子的基本信息。
针对第一类种子配置模板,该基本信息包括爬虫种子的URL、名称name和标签tags。
针对第二类种子配置模板,该基本信息包括搜索关键词。
S130,根据待添加爬虫种子对应的基本信息及技术参数生成爬虫种子。
将种子配置模板中的技术参数应用到待添加爬虫种子中,并补充该爬虫种子的基本信息,从而生成相应的爬虫种子。
可选地,将生成的爬虫种子添加至信源系统中,完成爬虫种子添加过程。
可选地,当检测到更新种子配置模板的更新指令后,利用接收到的更新后的种子配置模板覆盖所述目标种子配置模板。其中,该更新后的种子配置模板由开发人员根据更新后的网页结构对应的技术参数生成。从而提高了种子配置模板的准确率。
本实施例提供的爬虫种子生成方法,针对爬虫种子对应的页面结构配置相应的种子配置模板,该模板中的参数字段与爬虫种子的技术参数相同,即模板中配置好的技术参数能够替换到爬虫种子的配置参数中。这样,当用户需要在信源系统中添加爬虫种子时,可以选用与待添加爬虫种子相匹配的目标种子配置模板,并从该目标种子配置模板中提取技术参数。以及,获取待添加爬虫种子的基本信息。根据爬虫种子的技术参数以及爬虫种子的基本信息生成爬虫种子。利用该方法,使用爬虫的普通用户可以利用种子配置模板中的技术参数自行添加爬虫种子,减少了添加爬虫种子所需的时间,提高了爬虫种子的添加速度。开发人员针对某一网站只需进行一次种子模板开发过程,后续用户可以重复利用该模板添加该网页内的不同爬虫种子,不需要开发人员对用户针对该网站的每一个种子添加过程都进行参数配置,减少了开发人员重复性操作所耗费的时间,大大降低了开发人员的工作强度。
为方便理解本申请提供的爬虫种子生成方法的实现过程,下面将以两个具体的实例对添加爬虫种子的过程进行说明。
请参见图2,示出了本申请实施例一种爬虫种子生成方法实例的流程图,本实施例中,以上述的第一类种子配置模板为例进行说明。
如图2所示,利用第一类种子配置模板添加爬虫种子的过程如下:
S210,获取第一类种子配置模板。
第一类种子配置模板可以是针对非搜索类网站开发的种子配置模板,其中,非搜索类网站可以指包含商品、服务、新闻、或评价等信息,主要供用户进行信息浏览、阅读的网站。
S220,获取用户输入的待添加爬虫种子的基本信息。
本实施例中,爬虫种子的基本信息至少包括URL;由于非搜索类网站中同一网页中针对不同内容的URL没有直观的规律性,因此,不能直接将URL统一配置到模板中,需要用户根据实际需求填写URL。
在本申请一种可能的实现方式中,该基本信息还可以包括名称(name)和标签(tags)等基础信息。其中,名称和标签在生成爬虫种子时并非必要信息,它们主要用于爬虫种子的后期维护。
在本申请一种可能的实现方式中,用户可以在信源系统的页面上直接输入爬虫种子的URL、name、tags等基本信息。
在本申请另一种可能的实现方式中,用户可以将要添加的爬虫种子的基本信息整理到一个目标文件中,然后,将该目标文件上传至服务器中,服务器从该目标文件中读取爬虫种子的对应信息。目标文件中可以录入多个爬虫种子的信息,因此,利用这种方式能够添加多个爬虫种子。
在上传目标文件的应用场景下,目标文件中通常会明确界定URL、name、tags的位置,例如,目标文件可以是excel表,excel表中的第1列-第3列分别存储爬虫种子的name、URL、tags这三个信息。通过在目标文件中存储多个爬虫种子的信息,也能实现一次添加多个爬虫种子。
S230,根据第一类种子配置模板中的技术参数,以及该待添加爬虫种子的基本信息,生成爬虫种子。
从第一类种子配置模板中提取爬虫种子的技术参数,依据爬虫种子的技术参数和基本信息得到该待添加爬虫种子的配置参数,然后,将这些配置参数保存在信源系统中,即该待添加爬虫种子添加成功。
如果在导入爬虫种子的基本信息这一步骤,通过文件同时导入多个爬虫种子的信息,则可以根据导入的多个爬虫种子的信息及模板中爬虫种子的技术参数分别生成多个爬虫种子,并添加到信源系统中。
本实施例提供的爬虫种子生成方法,针对非搜索类网站配置一类种子配置模板,应用该类种子配置模板后,直接根据模板中的技术参数以及用户填入的基本信息生成爬虫种子,不需要爬虫开发人员配置用户要添加的爬虫种子的技术参数。从而减少了添加爬虫种子所需的时间,提高了爬虫种子的添加速度。同时,减少了开发人员重复性配置相同参数所耗费的时间,大大降低了开发人员的工作强度。
请参见图3,示出了本申请实施例另一种爬虫种子生成方法实例的流程图,本实施例中,以上述的第二类种子配置模板为例进行说明,第二类种子配置模板针对搜索类网站分别开发相应的种子配置模板,即一个搜索类网站对应一个第二类种子配置模板。
其中,搜索类网站主要用于用户搜索信息的网站,例如:Google、百度、搜狗、360等搜索类网站。
如图3所示,利用第二类种子配置模板添加爬虫种子的过程如下:
S310,获取与待添加爬虫种子相匹配的第二类种子配置模板。
第二类种子配置模板中配置有该搜索类网站对应的非完整URL及爬虫的技术参数,其中,该非完整URL中包含用于表示搜索关键词的占位符,占位符用于指示该位置对应的内容是对应的搜索关键词。
例如,百度新闻搜索关键词“可口可乐”,对应的URL是http://news.baidu.com/ns?word=可口可乐,可见URL中包含word=可口可乐的后缀,其中“可口可乐”就是要查找的关键词,因此,在种子配置模板中使用占位符{0}或{*}等,代替具体的关键词,得到百度新闻搜索网站对应的第二类种子配置模板中爬虫种子的URL为http://news.baidu.com/ns?word={0};种子名称name为“百度新闻_{0}”,其它技术参数根据百度新闻搜索网页的技术参数配置。
可选地,用户可以根据需求选择多个第二类种子配置模板,例如,百度新闻网页对应的种子配置模板、360资讯网页对应的种子配置模板等。
S320,获取搜索关键词。
在本申请的一个实施例中,当用户选择应用第二类种子配置模板时,添加爬虫种子的页面会响应为填写搜索关键词的页面,用户在该页面可以选择手动输入搜索关键词,或者上传本地目标文件,然后从目标文件中获取搜索关键词;
在用户手动输入搜索关键词的应用场景下,用户可以在需要输入搜索关键词的页面上分别输入多个搜索关键词。
在上传目标文件的应用场景下,目标文件中必须明确界定搜索关键词的位置,例如,采用excel表格存储要填入的搜索关键词,excel表中第一列的数据即要导入的搜索关键词,excel表格中可以存储多个搜索关键词,即一次导入多个搜索关键词。
S330,将目标种子配置模块中的非完整URL中的占位符替换为所述搜索关键词,得到目标URL。
S340,根据目标种子配置模板中的技术参数及该目标URL,生成与该搜索关键词对应的爬虫种子。
每一个搜索关键词和技术参数对应生成一个爬虫种子,如果用户输入10个搜索关键词,则对应生成10个爬虫种子。
例如,用户输入的搜索关键词是A、B和C,而且,选择百度新闻网站对应的第二类种子配置模板;该步骤生成以下三个爬虫种子:在百度新闻网站搜索A对应的爬虫种子、在百度新闻网站搜索B对应的爬虫种子、在百度新闻网站搜索C对应的爬虫种子。即,应用依次第二类种子配置模板能够同时生成多个爬虫种子。
在本申请的另一个实施例中,如果用户选择了M个搜索网页对应的种子配置模板,而且,填入N个搜索关键词,则生成N*M个爬虫种子。
例如,选择百度新闻和360资讯这两个网页对应的种子配置模板,而且,在S320中输入的关键词是“可口可乐”,则在该步骤中,生成百度新闻搜索可口可乐的爬虫种子,以及360资讯搜索可口可乐的爬虫种子。
本实施例提供的爬虫种子生成方法,用户可以选择至少一个搜索类网页对应的种子配置模板,并输入至少一个搜索关键词;根据获得的搜索关键词及种子配置模板中的信息生成对应的爬虫种子。利用该方法,一次能够添加多个爬虫种子,大大提高了爬虫种子的添加速度。
相应于上述的爬虫种子生成方法实施例,本申请还提供了爬虫种子生成装置实施例。
请参见图4,示出了本申请实施例一种爬虫种子生成装置的框图,如图4所示,该装置包括:确定模块110、获取模块120和生成模块130。
确定模块110,用于确定与待添加爬虫种子相匹配的目标种子配置模板。
该目标种子配置模板中预先配置有所述待添加爬虫种子的技术参数。
在本申请一种可能的实现方式中,确定待添加爬虫种子对应网页的网页结构;然后,确定所述网页结构对应的技术参数;最后,确定与所述网页结构的技术参数相匹配的种子配置模板为所述目标种子配置模板。
获取模块120,用于获取待添加爬虫种子的基本信息。
基本信息可以是添加爬虫种子的用户直接手动输入至信源系统的相应页面中,或者,还可以将基本信息存储在文件中,将文件上传至信源系统中。
针对非搜索类网站开发的第一类种子配置模板,其基本信息至少包括爬虫种子的URL,优选地还可以包括name、tags等信息。
针对搜索类网站开发的第二类种子配置模板,其基本信息包括搜索关键词。
生成模块130,用于根据待添加爬虫种子对应的基本信息及目标种子配置模板中的技术参数生成待添加爬虫种子。
在本申请的一个实施例中,针对非搜索类网站开发第一类种子配置模板,该模板中包含开发人员针对非搜索类目标网站的网页技术参数定制化配置的爬虫技术参数,例如包括网页的body、headers、cookies、爬取页数等技术参数;
此种应用场景下,该生成模块130具体用于:从目标种子配置模板中提取待添加爬虫种子对应的技术参数;然后,依据待添加爬虫种子对应的技术参数及URL,生成待添加爬虫种子。
在本申请的另一个实施例中,针对搜索类网站开发第二类种子配置模板,该第二类配置模板中包含开发人员针对搜索类目标网站的网页技术参数定制化配置的爬虫技术参数;该配置模板中配置的参数中除包括上述的技术参数外,还包括URL。搜索类网站基于关键词进行搜索,在同一搜索网站内不同的关键词对应的网页URL具有一定的规律,因此,可以将有规律的URL配置到种子配置模板中。
此种应用场景下,生成模块具体用于:获取目标种子配置模板中的非完整URL,并将非完整URL中的占位符替换为目标搜索关键词,得到目标URL;然后,根据目标种子配置模板中的技术参数及目标URL,生成与目标搜索关键词对应的待添加爬虫种子。
本实施例提供的爬虫种子生成装置,预先针对爬虫种子对应的页面结构配置相应的种子配置模板,该模板中预先配置有爬虫种子的技术参数。使用爬虫的普通用户可以利用种子配置模板中的技术参数自行添加爬虫种子,减少了添加爬虫种子所需的时间,提高了爬虫种子的添加速度。开发人员针对某一网站只需进行一次种子模板开发过程,后续用户可以重复利用该模板添加该网页内的不同爬虫种子,不需要开发人员对用户针对该网站的每一个爬虫种子添加过程都进行参数配置,减少了开发人员重复性操作所耗费的时间,大大降低了开发人员的工作强度。
请参见图5,示出了本申请实施例另一种爬虫种子生成装置的框图,该装置还包括模板更新模块210。
该模板更新模块210,用于当检测到更新目标种子配置模板的更新指令后,利用接收到的更新后的种子配置模板覆盖所述目标种子配置模板。
目标种子配置模板可以是信源系统中存储的任意一个种子配置模板。
其中,更新后的种子配置模板由开发人员根据更新后的网页结构对应的技术参数生成。
本实施例提供的爬虫种子生成装置,在检测到更新种子配置模板的更新指令后,利用更新后的中西配置模板覆盖原种子配置模板,从而实现种子配置模板能够依据网站页面结构的变化而更新。
所述爬虫种子生成装置包括处理器和存储器,上述确定模块、获取模块、生成模块和更新模块等均作为程序模块存储在存储器中,由处理器执行存储在存储器中的上述程序模块来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现添加爬虫种子的普通用户利用种子配置模板自行添加爬虫种子,提高了爬虫种子的添加速度。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述爬虫种子生成方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述爬虫种子生成方法。
本发明实施例提供了一种设备,该设备可以是服务器、PC、PAD、手机等;该设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
确定与待添加爬虫种子相匹配的目标种子配置模板,所述目标种子配置模板中预先配置有所述待添加爬虫种子的技术参数;
获取所述待添加爬虫种子的基本信息;
根据所述待添加爬虫种子对应的基本信息及所述目标种子配置模板中的技术参数生成所述待添加爬虫种子。
在本申请一种可能的实现方式中,所述基本信息包括所述待添加爬虫种子的URL;
所述根据所述待添加爬虫种子对应的基本信息及所述目标种子配置模板中的技术参数生成所述待添加爬虫种子,包括:
从所述目标种子配置模板中提取所述待添加爬虫种子对应的技术参数;
结合所述待添加爬虫种子对应的技术参数及URL,生成所述待添加爬虫种子。
在本申请一种可能的实现方式中,所述基本信息包括所述待添加爬虫种子对应的搜索关键词,所述目标种子配置模板中包括非完整URL,所述非完整URL中包含用于表示搜索关键词的占位符;
根据所述待添加爬虫种子对应的基本信息及所述技术参数生成待添加爬虫种子,包括:
获取所述目标种子配置模板中的非完整URL,并将所述非完整URL中的占位符替换为目标搜索关键词,得到目标URL;
根据所述目标种子配置模板中的技术参数及所述目标URL,生成与所述目标搜索关键词对应的待添加爬虫种子。
在本申请一种可能的实现方式中,所述获取所述待添加爬虫种子的基本信息,包括:
接收输入的所述待添加爬虫种子的基本信息;
或者,
从目标文件中导入所述待添加爬虫种子的基本信息。
在本申请一种可能的实现方式中,还包括:
将生成的所述待添加爬虫种子添加至信源系统中。
在本申请一种可能的实现方式中,所述确定与待添加爬虫种子对应的目标种子配置模板,包括:
确定所述待添加爬虫种子对应网页的网页结构;
确定所述网页结构对应的技术参数;
确定与所述网页结构的技术参数相匹配的种子配置模板为所述目标种子配置模板。
在本申请一种可能的实现方式中,所述方法还包括:
当检测到更新目标种子配置模板的更新指令后,利用接收到的更新后的种子配置模板覆盖所述目标种子配置模板,所述更新后的种子配置模板根据更新后的网页结构对应的技术参数生成。
本实施例提供的设备,预先针对爬虫种子对应的页面结构配置相应的种子配置模板,该模板中预先配置有爬虫种子的技术参数。使用爬虫的普通用户可以利用种子配置模板中的技术参数自行添加爬虫种子,减少了添加爬虫种子所需的时间,提高了爬虫种子的添加速度。开发人员针对某一网站只需进行一次种子模板开发过程,后续用户可以重复利用该模板添加该网页内的不同爬虫种子,不需要开发人员对用户针对该网站的每一个爬虫种子添加过程都进行参数配置,减少了开发人员重复性操作所耗费的时间,大大降低了开发人员的工作强度。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
确定与待添加爬虫种子相匹配的目标种子配置模板,所述目标种子配置模板中预先配置有所述待添加爬虫种子的技术参数;
获取所述待添加爬虫种子的基本信息;
根据所述待添加爬虫种子对应的基本信息及所述目标种子配置模板中的技术参数生成所述待添加爬虫种子。
在本申请一种可能的实现方式中,所述基本信息包括所述待添加爬虫种子的URL;
所述根据所述待添加爬虫种子对应的基本信息及所述目标种子配置模板中的技术参数生成所述待添加爬虫种子,包括:
从所述目标种子配置模板中提取所述待添加爬虫种子对应的技术参数;
结合所述待添加爬虫种子对应的技术参数及URL,生成所述待添加爬虫种子。
在本申请一种可能的实现方式中,所述基本信息包括所述待添加爬虫种子对应的搜索关键词,所述目标种子配置模板中包括非完整URL,所述非完整URL中包含用于表示搜索关键词的占位符;
根据所述待添加爬虫种子对应的基本信息及所述技术参数生成待添加爬虫种子,包括:
获取所述目标种子配置模板中的非完整URL,并将所述非完整URL中的占位符替换为目标搜索关键词,得到目标URL;
根据所述目标种子配置模板中的技术参数及所述目标URL,生成与所述目标搜索关键词对应的待添加爬虫种子。
在本申请一种可能的实现方式中,所述获取所述待添加爬虫种子的基本信息,包括:
接收输入的所述待添加爬虫种子的基本信息;
或者,
从目标文件中导入所述待添加爬虫种子的基本信息。
在本申请一种可能的实现方式中,还包括:
将生成的所述待添加爬虫种子添加至信源系统中。
在本申请一种可能的实现方式中,所述确定与待添加爬虫种子对应的目标种子配置模板,包括:
确定所述待添加爬虫种子对应网页的网页结构;
确定所述网页结构对应的技术参数;
确定与所述网页结构的技术参数相匹配的种子配置模板为所述目标种子配置模板。
在本申请一种可能的实现方式中,所述方法还包括:
当检测到更新目标种子配置模板的更新指令后,利用接收到的更新后的种子配置模板覆盖所述目标种子配置模板,所述更新后的种子配置模板根据更新后的网页结构对应的技术参数生成。
本实施例提供的计算机程序产品,预先针对爬虫种子对应的页面结构配置相应的种子配置模板,该模板中预先配置有爬虫种子的技术参数。使用爬虫的普通用户可以利用种子配置模板中的技术参数自行添加爬虫种子,减少了添加爬虫种子所需的时间,提高了爬虫种子的添加速度。开发人员针对某一网站只需进行一次种子模板开发过程,后续用户可以重复利用该模板添加该网页内的不同爬虫种子,不需要开发人员对用户针对该网站的每一个爬虫种子添加过程都进行参数配置,减少了开发人员重复性操作所耗费的时间,大大降低了开发人员的工作强度。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (8)

1.一种爬虫种子生成方法,其特征在于,包括:
确定与待添加爬虫种子相匹配的目标种子配置模板,所述目标种子配置模板中预先配置有所述待添加爬虫种子的技术参数;所述种子配置模板包括针对非搜索类网站开发的第一类种子配置模板和针对搜索类网站开发第二类种子配置模板,所述第一类种子配置模板中包含针对非搜索类目标网站的网页技术参数定制化配置的爬虫技术参数,所述第二类种子配置模板中包含针对搜索类目标网站的网页技术参数定制化配置的爬虫技术参数;
获取所述待添加爬虫种子的基本信息;
根据所述待添加爬虫种子对应的基本信息及所述目标种子配置模板中的技术参数生成所述待添加爬虫种子;
在目标种子配置模板为第一类种子配置模板的情况下,所述基本信息包括所述待添加爬虫种子的URL;
所述根据所述待添加爬虫种子对应的基本信息及所述目标种子配置模板中的技术参数生成所述待添加爬虫种子,包括:
从所述目标种子配置模板中提取所述待添加爬虫种子对应的技术参数;
结合所述待添加爬虫种子对应的技术参数及URL,生成所述待添加爬虫种子;
在目标种子配置模板为第二类种子配置模板的情况下,所述基本信息包括所述待添加爬虫种子对应的搜索关键词,所述目标种子配置模板中包括非完整URL,所述非完整URL中包含用于表示搜索关键词的占位符;
根据所述待添加爬虫种子对应的基本信息及所述技术参数生成待添加爬虫种子,包括:
获取所述目标种子配置模板中的非完整URL,并将所述非完整URL中的占位符替换为目标搜索关键词,得到目标URL;
根据所述目标种子配置模板中的技术参数及所述目标URL,生成与所述目标搜索关键词对应的待添加爬虫种子。
2.根据权利要求1所述的方法,其特征在于,所述获取所述待添加爬虫种子的基本信息,包括:
接收输入的所述待添加爬虫种子的基本信息;
或者,
从目标文件中导入所述待添加爬虫种子的基本信息。
3.根据权利要求1-2任一项所述的方法,其特征在于,还包括:
将生成的所述待添加爬虫种子添加至信源系统中。
4.根据权利要求1-2任一项所述的方法,其特征在于,所述确定与待添加爬虫种子对应的目标种子配置模板,包括:
确定所述待添加爬虫种子对应网页的网页结构;
确定所述网页结构对应的技术参数;
确定与所述网页结构的技术参数相匹配的种子配置模板为所述目标种子配置模板。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
当检测到更新目标种子配置模板的更新指令后,利用接收到的更新后的种子配置模板覆盖所述目标种子配置模板,所述更新后的种子配置模板根据更新后的网页结构对应的技术参数生成。
6.一种爬虫种子生成装置,其特征在于,包括:
确定模块,用于确定与待添加爬虫种子相匹配的目标种子配置模板,所述目标种子配置模板中预先配置有所述待添加爬虫种子的技术参数;所述种子配置模板包括针对非搜索类网站开发的第一类种子配置模板和针对搜索类网站开发第二类种子配置模板,所述第一类种子配置模板中包含针对非搜索类目标网站的网页技术参数定制化配置的爬虫技术参数,所述第二类种子配置模板中包含针对搜索类目标网站的网页技术参数定制化配置的爬虫技术参数;
获取模块,用于获取所述待添加爬虫种子的基本信息;
生成模块,用于根据所述待添加爬虫种子对应的基本信息及所述目标种子配置模板中的技术参数生成所述待添加爬虫种子;
在目标种子配置模板为第一类种子配置模板的情况下,所述基本信息包括所述待添加爬虫种子的URL;
所述生成模块根据所述待添加爬虫种子对应的基本信息及所述目标种子配置模板中的技术参数生成所述待添加爬虫种子,包括:
从所述目标种子配置模板中提取所述待添加爬虫种子对应的技术参数;
结合所述待添加爬虫种子对应的技术参数及URL,生成所述待添加爬虫种子;
在目标种子配置模板为第二类种子配置模板的情况下,所述基本信息包括所述待添加爬虫种子对应的搜索关键词,所述目标种子配置模板中包括非完整URL,所述非完整URL中包含用于表示搜索关键词的占位符;
所述生成模块根据所述待添加爬虫种子对应的基本信息及所述技术参数生成待添加爬虫种子,包括:
获取所述目标种子配置模板中的非完整URL,并将所述非完整URL中的占位符替换为目标搜索关键词,得到目标URL;
根据所述目标种子配置模板中的技术参数及所述目标URL,生成与所述目标搜索关键词对应的待添加爬虫种子。
7.一种存储介质,其上存储有程序,其特征在于,所述程序被处理器执行时实现权利要求1至5任一项所述的爬虫种子生成方法。
8.一种处理器,所述处理器用于运行程序,其特征在于,所述程序运行时执行权利要求1至5任一项所述的爬虫种子生成方法。
CN201810842673.XA 2018-07-27 2018-07-27 爬虫种子生成方法及装置 Active CN110851746B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810842673.XA CN110851746B (zh) 2018-07-27 2018-07-27 爬虫种子生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810842673.XA CN110851746B (zh) 2018-07-27 2018-07-27 爬虫种子生成方法及装置

Publications (2)

Publication Number Publication Date
CN110851746A CN110851746A (zh) 2020-02-28
CN110851746B true CN110851746B (zh) 2022-08-12

Family

ID=69594755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810842673.XA Active CN110851746B (zh) 2018-07-27 2018-07-27 爬虫种子生成方法及装置

Country Status (1)

Country Link
CN (1) CN110851746B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112015963A (zh) * 2020-08-21 2020-12-01 北京金和网络股份有限公司 基于大数据的网络爬虫系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452463A (zh) * 2007-12-05 2009-06-10 浙江大学 定向抓取页面资源的方法和装置
CN102930059A (zh) * 2012-11-26 2013-02-13 电子科技大学 一种聚焦爬虫的设计方法
CN103279507A (zh) * 2013-05-16 2013-09-04 北京尚友通达信息技术有限公司 网页爬虫操作方法和系统
CN103984749A (zh) * 2014-05-27 2014-08-13 电子科技大学 一种基于链接分析的聚焦爬虫方法
CN104572931A (zh) * 2014-12-29 2015-04-29 北京奇虎科技有限公司 一种确定pc网页与移动网页自适应关系的系统及方法
CN107679168A (zh) * 2017-09-29 2018-02-09 南威软件股份有限公司 一种基于java平台的目标网站内容获取方法
CN107766237A (zh) * 2017-09-22 2018-03-06 北京锐安科技有限公司 网络爬虫的测试方法、装置、服务器和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8005816B2 (en) * 2006-03-01 2011-08-23 Oracle International Corporation Auto generation of suggested links in a search system
CN103399933B (zh) * 2013-08-08 2017-01-18 人民搜索网络股份公司 一种抓取网络平面媒体的网页内容的方法及系统
CN107025235A (zh) * 2016-02-01 2017-08-08 北京国双科技有限公司 爬取网页的方法及装置
CN108228623B (zh) * 2016-12-14 2021-12-24 北京国双科技有限公司 一种数据处理方法和客户端设备
CN107291824A (zh) * 2017-05-25 2017-10-24 北京小度信息科技有限公司 数据抓取方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452463A (zh) * 2007-12-05 2009-06-10 浙江大学 定向抓取页面资源的方法和装置
CN102930059A (zh) * 2012-11-26 2013-02-13 电子科技大学 一种聚焦爬虫的设计方法
CN103279507A (zh) * 2013-05-16 2013-09-04 北京尚友通达信息技术有限公司 网页爬虫操作方法和系统
CN103984749A (zh) * 2014-05-27 2014-08-13 电子科技大学 一种基于链接分析的聚焦爬虫方法
CN104572931A (zh) * 2014-12-29 2015-04-29 北京奇虎科技有限公司 一种确定pc网页与移动网页自适应关系的系统及方法
CN107766237A (zh) * 2017-09-22 2018-03-06 北京锐安科技有限公司 网络爬虫的测试方法、装置、服务器和存储介质
CN107679168A (zh) * 2017-09-29 2018-02-09 南威软件股份有限公司 一种基于java平台的目标网站内容获取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于Lucene的新闻垂直搜索引擎设计与实现;许翰林 等;《电脑编程技巧与维护》;20180218(第02期);50-52 *
基于模板化的Web页面爬取系统的设计与实现;邓智颖;《数字通信世界》;20170401(第04期);216,218 *
基于模板化网络爬虫技术的Web网页信息抽取;乔峰;《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》;20130115(第01期);I139-246 *

Also Published As

Publication number Publication date
CN110851746A (zh) 2020-02-28

Similar Documents

Publication Publication Date Title
CN110968824B (zh) 页面数据处理方法和装置
CN106598972B (zh) 一种信息显示方法、装置及智能终端
CN110069683B (zh) 一种基于浏览器爬取数据的方法及装置
CN108717435B (zh) 网页加载方法、信息处理方法、计算机设备及存储介质
CN105607895A (zh) 一种基于应用程序编程接口的应用程序的运行方法和装置
CN107807937B (zh) 一种网站seo处理方法、装置及系统
CN104424199A (zh) 搜索方法和装置
CN112131504B (zh) 一种网页编辑、展示方法、装置、设备以及存储介质
CN108279903A (zh) 页面展示的方法及装置
CN110222251B (zh) 一种基于网页分割和搜索算法的服务包装方法
CN106126693A (zh) 一种网页的相关数据的发送方法及装置
CN110020236B (zh) 网页解析方法、装置、存储介质、处理器和设备
CN109460546A (zh) 表单生成方法、装置及电子设备
CN106201562A (zh) 一种页面切换方法及装置
CN110968314B (zh) 一种页面生成方法及装置
CN106202368B (zh) 预加载方法和装置
CN107391528A (zh) 前端组件依赖信息搜索方法及设备
CN112947900B (zh) web应用开发方法、装置、服务器及开发终端
CN112346761A (zh) 前端资源上线方法、设备、系统及存储介质
CN109308338B (zh) 一种搜索应用程序内信息、显示的方法及设备
US10983996B2 (en) Asynchronous predictive caching of content listed in search results
CN104899217A (zh) 一种自定义功能的实现方法及装置
CN110851746B (zh) 爬虫种子生成方法及装置
CN114329281A (zh) 渲染服务器、网页渲染方法及装置
CN111125087B (zh) 数据的存储方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant