8000 GitHub - niumeng07/lianjia-scrawler: 链家二手房租房在线数据,存量房交易服务平台数据,详细数据分析教程
[go: up one dir, main page]
More Web Proxy on the site http://driver.im/
Skip to content

niumeng07/lianjia-scrawler

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

lianjia-scrawler

Licenses 添加了并行逻辑

使用说明

  • 下载源码并安装依赖包

  • 设置数据库信息以及爬取城市行政区信息(支持三种数据库格式)

DBENGINE = 'mysql' #ENGINE OPTIONS: mysql, sqlite3, postgresql
DBNAME = 'test'
DBUSER = 'root'
DBPASSWORD = ''
DBHOST = '127.0.0.1'
DBPORT = 3306
CITY = 'bj' # only one, shanghai=sh shenzhen=sh......
REGIONLIST = [u'chaoyang', u'xicheng'] # 只支持拼音

相关爬虫函数介绍

行政区列表:
regionlist = ['chaoyang', 'haidian'] 目前仅支持拼音
小区列表,可通过GetCommunityByRegionlist爬虫得到
communitylist = [u'万科星园', u'上地东里']

#table_name: community
根据行政区来爬虫小区信息, 返回regionlist里面所有小区信息。
core.GetCommunityByRegionlist(city, regionlist)

#table_name: houseinfo
根据行政区来爬虫在售房源信息, 返回regionlist里面所有在售房源信息。
由于链家限制,仅支持爬前100页数据,可使用GetHouseByCommunitylist。
core.GetHouseByRegionlist(city, regionlist)

#table_name: houseinfo
根据小区来爬虫在售房源房源信息,返回communitylist里面所有在售房源信息。
core.GetHouseByCommunitylist(city, communitylist)

#table_name: rentinfo
根据行政区来爬虫出租房源信息,返回regionlist里面所有出租房源信息。
由于链家限制,仅支持爬前100页数据,可使用GetRentByCommunitylist。
core.GetRentByRegionlist(city, regionlist)

#table_name: rentinfo
根据小区来爬虫出租房源信息,返回communitylist里面所有出租房源信息。
core.GetRentByCommunitylist(city, communitylist)

##table_name: sellinfo
根据小区来爬虫成交房源信息,返回communitylist里面所有成交房源信息。
部分数据无法显示因为这些数据仅在链家app显示
core.GetSellByCommunitylist(city, communitylist) 


新增北京建委存放量房源信息爬虫:

About

链家二手房租房在线数据,存量房交易服务平台数据,详细数据分析教程

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 96.6%
  • Shell 3.4%
0