豆瓣电影top250爬虫概况

    科技2024-07-17  74

    豆瓣爬虫概况总结

    目的

    爬取豆瓣top250电影的详细信息:

    电影名称电影外文名称电影详情电影评分电影评价数目导演/主演概述(其中的一句话描述)

    项目代码

    工具

    python3.6.6

    urllib库(python内置的http请求库)

    re库(正则表达式,进行网页信息的筛选)

    bs4库(BeautifulSoup,将获取的网页内容转化成document树,方便遍历取数据)

    xlwt库(操作Excel表格,爬取数据进行持久化存储)

    sqllit3库(sqllit数据库,对数据持久化存储的第二种方式)

    import re import urllib.request import urllib.parse from bs4 import BeautifulSoup import xlwt import sqlite3

    项目整体设计

    抓取网页网页数据解析存储数据

    爬取网页

    #抓取网页 def getData(baseurl): #创建一个request Header,伪装成浏览器 header = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36" } req = urllib.request.Request(baseurl,headers=header) #爬取当前网页内容 response = urllib.request.urlopen(req) #返回抓取的网页内容 return response.read().decode("utf-8")

    ==注:==因为豆瓣有防爬处理,所以需要伪装成浏览器进行访问,所以加上了head然后进行访问,并获取到baseurl地址对应的网页内容。

    网页数据解析

    数据的解析大致分为两步

    定义正则模式对象根据正则进行数据的匹配

    以下是具体实现代码:

    网页analysePage()方法

    存储数据

    Excel式存储数据

    关键:了解xlwt库的操作,然后设计好存储位置即可实现对应操作

    代码如下:

    网页saveData()方法

    sql式存储数据

    本项目使用sqllite进行存储,目的为了熟悉sqllit(注:sqllite和mysql还是有些不同,希望读者注意区分)

    关键:也是需要熟悉sqllite库的使用,如果不熟悉的话,可以看看对应库的博客,或者教学视频,内容不多,很快能够掌握。

    这里分为两步:

    初始化数据库,在这里主要就是体现为建表(哭笑)对数据进行插入

    详细代码如下:

    sqllite存储电影数据

    Processed: 0.011, SQL: 8