scrapy 爬取麦田二手房信息

科技2022-08-28 127

用scrapy写了个爬虫，爬取麦田北京二手房信息，一共爬取了11718条，也遇到了一些问题

页数限制比如访问北京市二手房只显示100页的数据，后面的数据访问不到，只能通过每个地区来爬取。在前端发现地区的信息使用json的格式写在前端，直接拿来用了。 ip限制被网址识别出来是爬虫就会被禁止访问一段时间，用ip代理可以解决。我是在网上找的免费的ip代理，不稳定，还是挺折腾的。

爬取过程访问每个二级地区，看看多少页，把每一页的链接保存到数据库。然后就从数据库获取待链接爬取数据，查重，保存数据，被禁止访问，过一段时间再来，哈哈。

保存的数据 Cycle url zufang

各地区售房数量

index_iddistrictcount1朝阳61392海淀18223丰台8284东城7275大兴6726昌平6247西城4458石景山1689通州15010顺义14011门头沟3

Processed: 0.009, SQL: 10