scrapy 爬取麦田二手房信息

    科技2022-08-28  127

    用scrapy写了个爬虫,爬取麦田北京二手房信息,一共爬取了11718条,也遇到了一些问题

    页数限制 比如访问北京市二手房只显示100页的数据,后面的数据访问不到,只能通过每个地区来爬取。在前端发现地区的信息使用json的格式写在前端,直接拿来用了。 ip限制 被网址识别出来是爬虫就会被禁止访问一段时间,用ip代理可以解决。我是在网上找的免费的ip代理,不稳定,还是挺折腾的。

    爬取过程 访问每个二级地区,看看多少页,把每一页的链接保存到数据库。然后就从数据库获取待链接爬取数据,查重,保存数据,被禁止访问,过一段时间再来,哈哈。

    保存的数据 Cycle url zufang

    各地区售房数量

    index_iddistrictcount1朝阳61392海淀18223丰台8284东城7275大兴6726昌平6247西城4458石景山1689通州15010顺义14011门头沟3

    每平方售价

    房子售价

    房子面积

    Processed: 0.009, SQL: 10