牛客492812512号

2023-08-19 20:06

关注

Python 网页解析中级篇：深入理解BeautifulSo

在Python的网络爬虫中，BeautifulSoup库是一个重要的网页解析工具。在初级教程中，我们已经了解了BeautifulSoup库的基本使用方法。在本篇文章中，我们将深入学习BeautifulSoup库的进阶使用。

一、复杂的查找条件

在使用find和find_all方法查找元素时，我们可以使用复杂的查找条件，例如我们可以查找所有class为"story"的p标签：

from bs4 import BeautifulSoup

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were</p>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

story_p_tags = soup.find_all('p', class_='story')

for p in story_p_tags:
    print(p.string)

二、遍历DOM树

在BeautifulSoup中，我们可以方便的遍历DOM树，以下是一些常用的遍历方法：

from bs4 import BeautifulSoup

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were</p>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# 获取直接子节点
for child in soup.body.children:
    print(child)

# 获取所有子孙节点
for descendant in soup.body.descendants:
    print(descendant)

# 获取兄弟节点
for sibling in soup.p.next_siblings:
    print(sibling)

# 获取父节点
print(soup.p.parent)

三、修改DOM树

除了遍历DOM树，我们还可以修改DOM树，例如我们可以修改tag的内容和属性：

from bs4 import BeautifulSoup

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were</p>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

soup.p.string = 'New story'
soup.p['class'] = 'new_title'

print(soup.p)

四、解析XML

除了解析HTML外，BeautifulSoup还可以解析XML，我们只需要在创建BeautifulSoup对象时指定解析器为"lxml-xml"即可：

from bs4 import BeautifulSoup

xml_doc = """
<bookstore>
<book category="COOKING">
  <title lang="en">Everyday Italian</title>
  <author>Giada De Laurentiis</author>
  <year>2005</year>
</book>
</bookstore>
"""

soup = BeautifulSoup(xml_doc, 'lxml-xml')

print(soup.prettify())

以上就是BeautifulSoup库的进阶使用方法，通过本篇文章，我们可以更好地使用BeautifulSoup库进行网页解析，以便更有效地进行网络爬虫。

全部评论

推荐最新楼层

11-25 14:57

中金所技术公司_业务

offer比较的一些建议：互联网、银行、金融科技、国企、央企

【专栏介绍】银行、证券等金融科技岗一直是很火热的校招求职方向，但有很多应届生由于对这个方向认知不足而没有留意机会，也有很多同学擅长互联网、但却不知道如何准备金融科技岗的笔面试，特别是对金融科技岗的工作性质、行业形势、就业前景等也不太清晰。因此，作为混迹多年金融科技行业的打工人，哨哥决定整理专栏《银行等金融科技行业校招求职攻略》，通过职场真实经验分享减少金融科技岗的校招求职“信息差”，帮助牛友们摆脱学生思维，摆脱误导信息，拿到满意offer！【作者介绍】作为创作者，哨哥已经持续多年为在校生们提供求职辅导和职业规划，也持续多年和金融科技职场人士交流，覆盖银行、保险、证券、期货、公募基金、私募、信托...

牛客吹哨人：25届需要银行等金融科技、国企央企组织的话，留言哦~

投递阿里巴巴等公司10个岗位 > 银行等金融科技行业校招求...

点赞评论收藏

分享

昨天 11:51

未填写教育信息算法工程师

手撕没做出来

手撕没做出来是不是一定挂

Chrispp3：不会，写出来也不一定过

点赞评论收藏

分享

11-08 00:11

复旦大学深度学习

华为这样是一定会发offer吗？

1145定律 这样代表一定会发offer吗？

喜欢走神的孤勇者练习时长两年半：池是池，发是发，我曾池，我现黑

点赞评论收藏

分享

11-20 11:50

门头沟学院项目经理

狠狠地出了一口恶气

拒面补档 #拒绝面试# #面试题刺客退退退# #哪些公司面试官让你印象深刻？# #总结:哪家公司面试体验感最差#

newN个offer：我嘞个豆，学长666

面试题刺客退退退哪些公司面试官让你印象深刻？

点赞评论收藏

分享

今天 00:17

四川职业技术学院 golang

虾皮Go秋招面经

TimeLine：9.21一面 -> 10.12二面 -> 10.21HR面 -> 11.30oc虾皮一面 9.21 45min20min实习+15min项目八股：MySQL和Redis如何选型使用两者持久化的使用和区别MySQL的事务隔离级别，MVCC实现手撕：lc21.合并两个有序链表虾皮二面 10.12 1h15min实习Redis使用场景Redis可以当数据库吗Redis如何持久化Redis单进程如何处理大量请求Redis大量key有相同前缀，如何批量查找SQL题：查询2门以上课程成绩大于80的学生MySQL事务ACID默认隔离级别，具体如何实现RR级别下delete...

投递虾皮信息等公司10个岗位 > 虾皮求职进展汇总

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

正在热议

# 拼多多求职进展汇总 #

237445次浏览 2039人参与

# 机械求职避坑tips #

23657次浏览 249人参与

# 阿里云管培生offer #

62643次浏览 1760人参与

# 25届秋招总结 #

411379次浏览 4128人参与

# 25届机械人为了秋招做了哪些准备？ #

26299次浏览 363人参与

# 地方国企笔面经互助 #

6980次浏览 17人参与

# 北方华创开奖 #

67117次浏览 553人参与

# ai智能作图 #

29148次浏览 351人参与

# 虾皮求职进展汇总 #

91822次浏览 750人参与

# 实习，投递多份简历没人回复怎么办 #

2440958次浏览 34746人参与

# 软件开发投递记录 #

1481723次浏览 23947人参与

# 我的实习求职记录 #

6133894次浏览 84021人参与

# 我在牛爱网找对象 #

74901次浏览 555人参与

# 发工资后，你做的第一件事是什么 #

9169次浏览 43人参与

# 985本硕1个中小厂offer，摆烂or继续努力 #

83317次浏览 602人参与

# 机械人怎么评价今年的华为 #

157975次浏览 1352人参与

# 京东求职进展汇总 #

513121次浏览 4680人参与

# 如果可以，你希望哪个公司来捞你 #

33984次浏览 196人参与

# 你觉得通信/硬件有必要实习吗？ #

54800次浏览 698人参与

# 歌尔求职进展汇总 #

42915次浏览 294人参与

# 在职场上，你最讨厌什么样的同事 #

6092次浏览 91人参与

# 如果再来一次，你还会选择这个工作吗？ #

115927次浏览 1145人参与

牛客网
牛客企业服务