牛客492812512号

2023-08-18 21:08

关注

Python 网页解析初级篇：BeautifulSoup库的

在Python的网络爬虫中，网页解析是一项重要的技术。而在众多的网页解析库中，BeautifulSoup库凭借其简单易用而广受欢迎。在本篇文章中，我们将学习BeautifulSoup库的基本用法。

一、BeautifulSoup的安装与基本使用

首先，我们需要使用pip命令来安装BeautifulSoup库，命令如下：

pip install beautifulsoup4

安装完成后，我们就可以开始使用BeautifulSoup来解析网页了。首先，我们需要导入BeautifulSoup类，然后使用BeautifulSoup类的构造方法创建一个BeautifulSoup对象，代码如下：

from bs4 import BeautifulSoup

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

print(soup.prettify())

二、网页元素的提取

BeautifulSoup提供了一系列方法，让我们可以轻松的提取出网页中的元素。例如，我们可以使用tag.name属性获取标签的名字，tag.string属性获取标签内的字符串，使用tag['attr']获取标签的属性，代码如下：

from bs4 import BeautifulSoup

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

title_tag = soup.title

print(title_tag.name)  # 输出：title
print(title_tag.string)  # 输出：The Dormouse's story

三、网页元素的查找

BeautifulSoup提供了find和find_all方法，让我们可以轻松的查找到网页中的元素。例如，我们可以查找到所有的p标签，代码如下：

from bs4 import BeautifulSoup

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were</p>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

p_tags = soup.find_all('p')

for p in p_tags:
    print(p.string)

四、CSS选择器的使用

BeautifulSoup还支持CSS选择器，我们可以使用select方法来使用CSS选择器选择元素，例如：

from bs4 import BeautifulSoup

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were</p>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

title_tag = soup.select('p.title')

for title in title_tag:
    print(title.string)

以上就是BeautifulSoup库的基本用法，通过BeautifulSoup，我们可以轻松地解析出网页中的元素，为网络爬虫提供强大的支持。

全部评论

推荐最新楼层

04-23 18:24

湖南农业大学产品经理

昨天面腾讯挂了的兄弟，进来挨骂

你的简历根本没命中JD里的隐藏考点【纯干货，无废话，建议先收藏再看，免得想用的时候找不到了】兄弟们，我是真的急了。刚才帮一个学弟看面经，我真的想顺着网线过去摇醒他。他面的是某大厂的商业化运营，简历上写得花里胡哨什么“负责社群活跃”、“策划线上活动”结果面试官上来就问：“如果给你一个ROI为负的新品，你第一周会怎么拆解归因？”学弟直接懵逼，支支吾吾说了半天，最后挂了。其实这道题，JD里早就写了！JD里明明写着“对数据敏感，能通过数据分析优化投放策略”。但他没看出来面试官就是在考他“数据归因”和“策略优化”。这就是典型的“无效准备”。你背了一堆八股文，结果人家问的是业务场景题。今天我不整虚的，直接...

简历被挂麻了，求建议

点赞评论收藏

分享

04-26 10:22

南开大学 Java

27届后端转测开

目前投递了一些后端暑期实习岗位，但是都在一面就挂了，自己学的确实不怎么好，大学四年也没怎么好好学习计算机这些内容，感觉都只是会一点皮毛，问了面试官一般就是说感觉学的太浅了，或者就是说练手项目没有经验那种，所以想转测开去投实习，之后想知道测开都需要在java开发的基础上在学一些什么呢？如果最终也没找到是实习，想在秋招的时候直接投侧开，能去一些中大厂么？bg的话是9本海外一年水硕。

点赞评论收藏

分享

04-01 11:03

商丘工学院 Java

27届想找个实习

大佬们，你们投简历在boss上投简历是直接打招呼还是附带简历啊，我打招呼都不回我，怎么办啊😭😭😭下面是我的简历

点赞评论收藏

分享

04-23 13:28

上海海洋大学数据分析师

26应届生0offer

至今一个可转正被割了剩下的5点面试都挂了求收留，数据分析，数据开发，测试！

点赞评论收藏

分享

04-26 21:07

杭州电子科技大学大数据开发工程师

实习最怕的一句话：“来我办公室一趟”

比删错库更让人心梗的，绝对是导师突然发来一句：“你现在来我办公室一趟。”看到消息那一刻，脑子瞬间开启走马灯模式！疯狂回想是不是自己写的Kafka同步逻辑把节点搞崩了？还是TRP系统里的电池老化评估模块引发了严重的线上事故？走向办公室的那几十步路，心里七上八下，连离职感言都快在脑海里打好腹稿了。结果推开门，导师可能只是想跟你讨论一下下阶段的开发计划，或者确认个小需求。这种被未知恐惧支配又瞬间落地的感觉，真的是每个实习生都会经历的心理过山车！

实习时最怕听到的一句话

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 这个offer值得去吗？ #

3711次浏览 68人参与

# 你实习是赚钱了还是亏钱了？ #

119491次浏览 661人参与

# 联宝杯大学生创新大赛，你的技术值得产业级答案 #

43535次浏览 498人参与

# 你会因为行情，降低找工作标准吗？ #

13527次浏览 150人参与

# 机械人晒出你的简历 #

191540次浏览 1104人参与

# 如果春招能重来，我会___ #

6571次浏览 75人参与

# 实习想申请秋招offer，能不能argue薪资 #

256088次浏览 1333人参与

# 刚入职的你踩过哪些坑 #

60117次浏览 417人参与

# 腾讯云智研发工作体验 #

43440次浏览 177人参与

# 招银网络求职进展汇总 #

250005次浏览 1121人参与

# 面试官拷打AI项目都会问什么？ #

2772次浏览 148人参与

# 想做Agent可以做哪些岗位？ #

3315次浏览 44人参与

# 你觉得最好用的AI编程工具是_ #

1372次浏览 35人参与

# 除了线上，还能去哪些地方投简历 #

4291次浏览 47人参与

# 求职你最看重什么？ #

166384次浏览 907人参与

# 你的秋招白月光和意难平公司 #

98294次浏览 350人参与

# 实习第一天，你在干什么 #

4746次浏览 41人参与

# 暑假倒计时，你都干了些啥？ #

58949次浏览 314人参与

# 如何一边实习一边秋招 #

2235787次浏览 19228人参与

# 如何排解工作中的焦虑 #

330503次浏览 2832人参与

# 你和你的mentor相处模式是__ #

6861次浏览 62人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务