爬⾍数据-Beautiful Souppython的whl下载

    科技2022-08-19  109

    爬⾍数据-Beautiful Soup

    Beautiful Soup是python的⼀个库,最主要的功能是从⽹⻚抓取数据,官⽅解释如下: Beautiful Soup提供⼀些简单的、python式的函数⽤来处理导航、搜索、修改分析树等功能。它是⼀个⼯具箱,通过解析⽂档为⽤户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出⼀个完整的应⽤程序。 Beautiful Soup⾃动将输⼊⽂档转换为Unicode编码,输出⽂档转换为utf-8编码。你不需要考虑编码⽅式,除⾮⽂档没有指定⼀个编码⽅式,这时,Beautiful Soup就不能⾃动识别编码⽅式了。然后,你仅仅需要说明⼀下原始编码⽅式就可以了。 Beautiful Soup已成为和lxml⼀样出⾊的python解释器,为⽤户灵活地提供不同的解析策略或强劲的速度。

    GitHub地址:https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/

    和lxml⼀样,BeautifulSoup也是⼀个HTML/XML的解析器,主要功能也是如何解析和提取HTML/XML数据。

    Beautiful Soup的简介 lxml只会局部遍历,⽽BeautifulSoup是基于HTML DOM的,会载⼊整个⽂档,解析整个DOM树,因此时间和内存开销都会很⼤,所以性能要低于lxml 。 BeautifulSoup⽤来解析HTML⽐较简单,⽀持CSS选择器,Python标准库中的HTML解析器,也⽀持lxml的XML解析器。

    BeautifulSoup安装 pip install bs4

    python的whl下载 https://www.lfd.uci.edu/~gohlke/pythonlibs/

    Processed: 0.018, SQL: 9