XPath是一门在XML文档中查找信息的语言。XPath可用来在XML文档中对元素和属性进行遍历。XPath是W3C XSLT标准的主要元素,并且XQuery和XPointer都构建于XPath表达之上。XPath在Python的爬虫学习中,起着举足轻重的作用,对比正则表达式re,两者可以完成同样的工作,实现的功能也类似,但XPath明显比re具有优势,在网页分析上使re退居二线。
XPath的全称为XML Path Language,是一种小型的查询语言,其有如下优点。 (1)可在XML中查找信息。 (2)支持HTML的查找。 (3)可通过元素和属性进行导航。
Python使用XPath需要安装lxml库。
下面介绍一下XPath的基本语法知识,常见的使用方法主要有一下几种。 选取节点
/ / // //(双斜杠)定位根节点,会对全文进行扫描,在文档中选取所有符合条件的内容,以列表的形式返回。 / / /(单斜杠)寻找当前标签路径的下一层路径标签或当前路径标签内容进行操作。 / t e x t ( ) /text() /text()获取当前路径下的文本内容。 / @ /@ /@提取当前路径下的标签属性。|(可选符)使用“|”可选取若干个路径,如//p|//div,即在当前路径下选取所有符合条件的p标签和div标签。 . . .(点)用来选取当前节点。 . . .. ..(双点)选取当前节点的父节点。谓语 谓语用来查找某个特定节点或者包含某个指定值的节点。 谓语被镶嵌在中括号中。
路径表达式结果 / b o o k s t o r e / b o o k [ 1 ] /bookstore/book[1] /bookstore/book[1]选取属于 bookstore 子元素的第一个 book 元素。 / b o o k s t o r e / b o o k [ l a s t ( ) ] /bookstore/book[last()] /bookstore/book[last()]选取属于 bookstore 子元素的最后一个 book 元素。 / b o o k s t o r e / b o o k [ l a s t ( ) − 1 ] /bookstore/book[last()-1] /bookstore/book[last()−1]选取属于 bookstore 子元素的倒数第二个 book 元素。 / b o o k s t o r e / b o o k [ p o s i t i o n ( ) < 3 ] /bookstore/book[position()< 3] /bookstore/book[position()<3]选取最前面的两个属于 bookstore 元素的子元素的 book 元素。 / / t i t l e [ @ l a n g ] //title[@lang] //title[@lang]选取所有拥有名为 lang 的属性的 title 元素。 / / t i t l e [ @ l a n g = ′ e n g ′ ] //title[@lang='eng'] //title[@lang=′eng′]选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性。 / b o o k s t o r e / b o o k [ p r i c e > 35.00 ] /bookstore/book[price>35.00] /bookstore/book[price>35.00]选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00。 / b o o k s t o r e / b o o k [ p r i c e > 35.00 ] / t i t l e /bookstore/book[price>35.00]/title /bookstore/book[price>35.00]/title选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00。通配符
通配符描述 ∗ * ∗匹配任何元素节点。 @ ∗ @* @∗匹配任何属性节点。XPath是lxml库中的一个函数,处理对象是<class ‘lxml.etree._Element’>,对于requests.get()函数得到的<class ‘requests.models.Response’>类型需要取其源码使用etree.HTML()函数转换。
url='http://www.baidu.com' html=requests.get(url) #html.encoding='utf-8'#避免中文乱码 ht=lxml.etree.HTML(html.text) url='http://www.baidu.com' html=requests.get(url) ht=lxml.etree.HTML(html.content)注意:text调用的类型是str,其中的中文会乱码,可以在解码前转码为“utf-8”,content调用的类型是bytes即二进制码,其没有进行text中的转码所以不会乱码。
