8000 GitHub - tylhappy/GuShiWen: Scrapy练习项目,利用Scrapy抓取古诗(唐诗三百首,宋词三百首等),并保存为json格式
[go: up one dir, main page]
More Web Proxy on the site http://driver.im/
Skip to content

Scrapy练习项目,利用Scrapy抓取古诗(唐诗三百首,宋词三百首等),并保存为json格式

Notifications You must be signed in to change notification settings

tylhappy/GuShiWen

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

15 Commits
 
 
 
 
 
 

Repository files navigation

GuShiWen

Scrapy练习项目,利用Scrapy抓取古诗(唐诗三百首,宋词三百首等),并保存为json格式(不断完善ing)

采用的技术

  • Scrapy爬取网站的基本技术
  • xpath提取网页中的内容
  • dict list str 的相关操作
  • re配合xpath提取网页
  • requests提取网页源码
  • HtmlResponse 转换源码为Scrapy响应对象,从而可以利用Selector

##遇到的问题

转换成json数据的时候多了很多无用的空格

  • 在利用xpath提取数据的时候添加[normalize-space()]避免提取空格
  • 将提取到的列表转换成字符串,再strip()

提取一首诗题目之后根据题目进入到下一个页面提取相对应的内容,使用yield request发现内容不对应

  • Scrapy默认抓取为多线程,使用第三方requests提取网站源码,并用Scrapy的HtmlResponse转换成 Scrapy响应格式,即可正常使用xpath抓取

网站赏析部分有文字图片,提取时自动忽略

  • 利用xpath提取整段源码,然后使用re去除不相关p和a标签,把文字图片的img标签替换成alt属性中的内容

About

Scrapy练习项目,利用Scrapy抓取古诗(唐诗三百首,宋词三百首等),并保存为json格式

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%
0