（2）通过XPath地址定位标签

科技2026-03-16 19

XPath

序言

XPath是一门在XML文档中查找信息的语言。XPath可用来在XML文档中对元素和属性进行遍历。XPath是W3C XSLT标准的主要元素，并且XQuery和XPointer都构建于XPath表达之上。XPath在Python的爬虫学习中，起着举足轻重的作用，对比正则表达式re，两者可以完成同样的工作，实现的功能也类似，但XPath明显比re具有优势，在网页分析上使re退居二线。

XPath的全称为XML Path Language，是一种小型的查询语言，其有如下优点。（1）可在XML中查找信息。（2）支持HTML的查找。（3）可通过元素和属性进行导航。

Python使用XPath需要安装lxml库。

XPath的使用方法

下面介绍一下XPath的基本语法知识，常见的使用方法主要有一下几种。选取节点

/ /

（双斜杠）定位根节点，会对全文进行扫描，在文档中选取所有符合条件的内容，以列表的形式返回。

/

（单斜杠）寻找当前标签路径的下一层路径标签或当前路径标签内容进行操作。

/ t e x t ()

获取当前路径下的文本内容。

/ @

提取当前路径下的标签属性。|（可选符）使用“|”可选取若干个路径，如//p|//div，即在当前路径下选取所有符合条件的p标签和div标签。

.

（点）用来选取当前节点。

. .

（双点）选取当前节点的父节点。

谓语谓语用来查找某个特定节点或者包含某个指定值的节点。谓语被镶嵌在中括号中。

路径表达式结果

/ b o o k s t o r e / b o o k [1]

选取属于 bookstore 子元素的第一个 book 元素。

/ b o o k s t o r e / b o o k [l a s t ()]

选取属于 bookstore 子元素的最后一个 book 元素。

/ b o o k s t o r e / b o o k [l a s t () - 1]

选取属于 bookstore 子元素的倒数第二个 book 元素。

/ b o o k s t o r e / b o o k [p o s i t i o n () < 3]

选取最前面的两个属于 bookstore 元素的子元素的 book 元素。

/ / t i t l e [@ l a n g]

选取所有拥有名为 lang 的属性的 title 元素。

/ / t i t l e [@ l a n g =^{'} e n g^{'}]

选取所有 title 元素，且这些元素拥有值为 eng 的 lang 属性。

/ b o o k s t o r e / b o o k [p r i c e > 35.00]

选取 bookstore 元素的所有 book 元素，且其中的 price 元素的值须大于 35.00。

/ b o o k s t o r e / b o o k [p r i c e > 35.00] / t i t l e

选取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值须大于 35.00。

通配符

通配符描述

*

匹配任何元素节点。

@ *

匹配任何属性节点。

XPah的使用

XPath是lxml库中的一个函数，处理对象是<class ‘lxml.etree._Element’>，对于requests.get（）函数得到的<class ‘requests.models.Response’>类型需要取其源码使用etree.HTML（）函数转换。

url='http://www.baidu.com' html=requests.get(url) #html.encoding='utf-8'#避免中文乱码 ht=lxml.etree.HTML(html.text) url='http://www.baidu.com' html=requests.get(url) ht=lxml.etree.HTML(html.content)

注意：text调用的类型是str，其中的中文会乱码，可以在解码前转码为“utf-8”，content调用的类型是bytes即二进制码，其没有进行text中的转码所以不会乱码。

Processed: 0.009, SQL: 9