使用 Xpath 进行爬虫开发-知识专区-汉码未来

当前位置： Python > 使用 Xpath 进行爬虫开发

admin · 更新于 2021-08-06

1. 开发前的准备

前面我们介绍的 XPath 基本的语法和基本操作，下面我们通过 lxml 库，来熟悉一下 XPath 的使用。

首先，我们需要一个测试文件，文件如下，文件名为 xpath_test.xml：

<!---  这是一个测试数据，方便我们后面进行解析--><div><ul><li class='item-0'><a href='a.html'>python item</a></li><li class='item-1'><a href='b.html'>Java item</a></li><li class='item-inactive'><a href='c.html'><span class='bold'>C item</span></a></li><li class='item-1'><a href='d.html'>Java item</a></li><li class='item-0'><a href='b.html'>Java item</a></li><li class='item-0'><a href='b.html'>Java item</a></li></ul></div>代码块
1
2
3
4
5
6
7
8
9
10
11
12

2. 基本语法

2.1 节点之间的关系

父节点：每个元素都有一个父亲节点；
子节点：每个元素节点可以有零个，一个或者多个父亲节点；
兄弟节点：相同父亲节点的节点；
先辈节点：一个元素的父亲节点的父亲节点；
后辈节点：一个元素的子节点的子节点。

表达式基本语法

表达式	功能简介
node	选取node下面的所有的节点
/node	斜杠是代表绝对路径，这个表达式语法的意思就是选择根上的node
//node	选择所有的node的节点，与XML的位置无关
.	选择当前节点
…	选择当前节点的父亲节点
node/child	选取node子节点的所有的child元素
node//child	选取所有后备节点的chiid信息
//@href	选取所有的href的属性

2.2 谓语与通配符

表达式	功能简介
/books/python[1]	选取books子元素中的第一个python元素
/books/python[last()]	选取books子元素中的最后一个元素
/books/python[position()<10]	选取books子元素的前9个元素
.	选择当前节点
…	选择当前节点的父亲节点
node/child	选取node子节点的所有的child元素
node//child	选取所有后备节点的chiid信息
//@href	选取所有的href的属性

3. 开发案例

开发案例一：

从xml中查找出所有的’li’标签

from lxml import etree
emt = etree.parse('text.xml')rst = emt.xpath('//li')代码块
1
2
3

运行结果如下图所示：

开发案例二：

从xml中查找出所有的’li’标签的所有class

from lxml import etree
emt = etree.parse('text.xml')rst = emt.xpath('//li/@class')代码块
1
2
3

开发案例三：

从xml中查找出所有的’li’标签下面的href为a.html的标签

from lxml import etree
emt = etree.parse('text.xml')rst = emt.xpath('//li/a[@href="a.html"]')代码块
1
2
3

4. 小结

XPath 是一种查询语言，它是通过路径来寻找相应的信息，正如它的英文名称 path 一样，通过不同种X路径，最终找到自己需要的信息。通过 XPath,我们不但可以搜索 XML，也可以搜索 HTML。

通过案例，我们基本熟悉了 XPath 的基本使用，这也为我们后面学习 BeautifulSoup 打下了良好的基础，XPath 为我们从复杂的文档中，快速定位信息提供了良好的支持，也为我们后面处理和整理爬虫爬下来的信息奠定了根基。

汉码未来

Python 原生爬虫教程

1. 开发前的准备

2. 基本语法

2.1 节点之间的关系

2.2 谓语与通配符

3. 开发案例

4. 小结

为什么选择汉码未来

线下面授

五人小班

技术强大

内推就业