牛客492812512号

2023-08-19 20:06

关注

Python 网页解析中级篇：深入理解BeautifulSo

在Python的网络爬虫中，BeautifulSoup库是一个重要的网页解析工具。在初级教程中，我们已经了解了BeautifulSoup库的基本使用方法。在本篇文章中，我们将深入学习BeautifulSoup库的进阶使用。

一、复杂的查找条件

在使用find和find_all方法查找元素时，我们可以使用复杂的查找条件，例如我们可以查找所有class为"story"的p标签：

from bs4 import BeautifulSoup

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were</p>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

story_p_tags = soup.find_all('p', class_='story')

for p in story_p_tags:
    print(p.string)

二、遍历DOM树

在BeautifulSoup中，我们可以方便的遍历DOM树，以下是一些常用的遍历方法：

from bs4 import BeautifulSoup

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were</p>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# 获取直接子节点
for child in soup.body.children:
    print(child)

# 获取所有子孙节点
for descendant in soup.body.descendants:
    print(descendant)

# 获取兄弟节点
for sibling in soup.p.next_siblings:
    print(sibling)

# 获取父节点
print(soup.p.parent)

三、修改DOM树

除了遍历DOM树，我们还可以修改DOM树，例如我们可以修改tag的内容和属性：

from bs4 import BeautifulSoup

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were</p>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

soup.p.string = 'New story'
soup.p['class'] = 'new_title'

print(soup.p)

四、解析XML

除了解析HTML外，BeautifulSoup还可以解析XML，我们只需要在创建BeautifulSoup对象时指定解析器为"lxml-xml"即可：

from bs4 import BeautifulSoup

xml_doc = """
<bookstore>
<book category="COOKING">
  <title lang="en">Everyday Italian</title>
  <author>Giada De Laurentiis</author>
  <year>2005</year>
</book>
</bookstore>
"""

soup = BeautifulSoup(xml_doc, 'lxml-xml')

print(soup.prettify())

以上就是BeautifulSoup库的进阶使用方法，通过本篇文章，我们可以更好地使用BeautifulSoup库进行网页解析，以便更有效地进行网络爬虫。

全部评论

推荐最新楼层

03-30 15:13

西安电子科技大学 Java

前端面试常见的 10 个场景题

大家好，我是双越。本文介绍前端面试常见的场景题。需要面试的同学欢迎可先点赞、收藏，以后慢慢学习。如何设计实现一个准确的前端倒计时这个问题的核心是：单纯用 setInterval 倒计时是不准时不可靠的。setInterval(fn, 1000) 并不保证每 1000ms 准时执行一次。JS 是单线程的，当遇到大量计算、页面渲染、长任务等，setInterval 会被延迟执行。页面切到后台，定时器会被浏览器降频。本该 1 秒减一次，结果 1.2 秒甚至 2 秒才执行一次 → 倒计时变慢。设计要点：计时要以时间戳为基准（使用 Date.now 计时），而不是递减秒数setInterval 只作为刷...

软件开发投递记录

点赞评论收藏

分享

昨天 23:22

东华大学 Python

唯品会测开面经

一面——电话面1、自我介绍，介绍负责业务2、介绍目前业务节奏，发版节奏和当前团队测试开发比例3、介绍商业ai项目4、介绍开发的agent项目，问的比较细致5、场景类问题，针对某一个场景如何设计用例，如何推进需求6、ai在实际开发中的应用举例子7、正好来了个会议来不及反问二面——视频面试1、自我介绍，业务介绍2、发版节奏，举场景例子说了一个发版本需要完成的事情，面试官随找了一个我没负责过的业务场景，然后让我直接基于场景说发版节和要完成的事情，还具体解释了实际测试业务环境3、接口自动化拷打，当前自动化流程，面试官惊讶于我们目前大部分功能测试还是手动，感觉唯品会目前业务接口自动化程度很高4、ai业务...

点赞评论收藏

分享

03-17 20:30

郑州师范学院前端工程师

大三女自己做的简历是不是太长了

27届双非本科，软件工程专业，想找前端开发和全栈开发，投简历才发现找工作有多难，正在备考系统架构师，准备考公试一下吧。有没有人可以帮忙看看我的简历，有哪些需要修改的地方。感谢

The_Fault_...：项目底下的所有东西删掉，然后其实项目经历也不用这么多，看得出来这几个都是那种很水的项目

点赞评论收藏

分享

03-30 20:02

朝阳社区学院 Java

大三，双非一本JAVA，找到个上海日常实习，一天两张，害，感觉好少，还要我转go，还好有cursor，几下就搞定，现在也是接触到了ai agent的工作内容了

java_xiaoj...：两张是两百块吗

点赞评论收藏

分享

03-29 20:16

厦门大学搜索算法

soul搜推算法面经

上一段小厂实习经历不太相关直接被忽略项目部分挑两个其中你觉得优化效果最好的方法说明一下数据分布这块做过什么处理吗？学习过第一名的方案吗，他用了哪些方法？围绕语义ID讨论一点八股你生成语义ID后自己查看过生成的数据效果如何吗，怎么看这个效果如何？你加入的语义ID和多模态embedding哪个提升效果更好，你觉得是为什么？手撕部分：随便开一个本地IDE写在一个二叉搜索树中找到小于m的最大值

查看6道真题和解析

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 面试被问到不会的问题，你怎么应对？ #

18979次浏览 448人参与

# 设计人的面试记录 #

204868次浏览 1629人参与

# 招商银行数字金融训练营 #

105884次浏览 915人参与

# 你见过哪些招聘隐形歧视？ #

20432次浏览 176人参与

# 学历VS实习，哪个更重要？ #

547次浏览 23人参与

# 你觉得大几开始实习最合适？ #

22606次浏览 230人参与

# 厦门银行科技岗值不值得投 #

15086次浏览 352人参与

# uu们，春招你还来吗？ #

58442次浏览 572人参与

# 影石Insta360求职进展汇总 #

183822次浏览 1376人参与

# 面试中，你被问过哪些奇葩问题？ #

94163次浏览 1117人参与

# 你都用vibe coding做过什么？ #

16504次浏览 665人参与

# 虹软科技求职进展汇总 #

16590次浏览 138人参与

# 供应链/物流校招攻略 #

12332次浏览 218人参与

# AI Coding实战技巧 #

11229次浏览 255人参与

# 做完笔试后你收到面试了吗？ #

22659次浏览 207人参与

# 机械人还在等华为开奖吗？ #

325038次浏览 1599人参与

# 恒生电子笔试 #

19683次浏览 154人参与

# Vibe Coding 会干掉初级岗位吗？ #

18141次浏览 206人参与

# 你现在一天AI几次？ #

9239次浏览 112人参与

# 面试吐槽bot #

186562次浏览 914人参与

# 如果人生可以debug你会改哪一行? #

8366次浏览 134人参与

# 大厂实习和小厂实习最大的区别是什么？ #

36434次浏览 254人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务