整顿职场的他很认真

2020-05-06 21:50 已编辑重庆大学算法工程师

关注

python爬虫(三、四)—获取相应内容+保存数据

python爬虫(三、四)———获取相应内容+保存数据

前情回顾：

#发起请求
import requests
import re
headers = {
    'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Mobile Safari/537.36'
}
reponses = requests.get('https://www.doutula.com/article/detail/1472031',headers = headers)
html = reponses.text
#解析网站
urls = re.findall('<img referrerpolicy="no-referrer" data-cfsrc="(.*?)" alt=".*?" οnerrοr=".*?" style=".*?">',html)
print(urls)

本期内容：

获取相应内容+保存文件

上面我们已经将文件的 url 获取到了，接下来就是很简单的了，将其内容转化为二进制形式再加以保存就好
首先我们需要创建一个文件夹来放这些图片，这时，我们不需要从文件夹里新建，这样是不高级的，我们这样：

import os
dir_name = re.findall('<h1><a href=".*?">(.*?)</a></h1>',html)[-1]
print(dir_name)
if not os.path.exists(dir_name):
    os.mkdir(dir_name)

我们这里用到了 os模块（os模块包含普遍的操作系统功能，用来建文件是非常简单的），而 re.findall 里的内容是在网页源代码上找到的
这样我们就可以用这个网页页面的标题来做为文件名
然后就到了保存文件

for url in urls:
    file_name = url.split('/')[-1]
    response = requests.get(url, headers=headers)
    with open(dir_name + '/' + file_name , 'wb') as f:
        f.write(response.content)

在这里，我们的文件名就用了本身的地址（其实可以用表情包名字的，自己探索吧），再一次的获取网站信息，用到了requests.get()，open()函数，由于是用二进制写入，所以用到了‘wb’，这样的话，这些文件就保存了下来
以下为整个过程的代码：

import requests
import re
import os

#请求网站
headers = {
    'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Mobile Safari/537.36'
}
reponses = requests.get('https://www.doutula.com/article/detail/1472031',headers = headers)
html = reponses.text
#print(html)
#print(reponses.status_code)

#解析网站
urls = re.findall('<img referrerpolicy="no-referrer" data-cfsrc="(.*?)" alt=".*?" οnerrοr=".*?" style=".*?">',html)
#print(urls)
dir_name = re.findall('<h1><a href=".*?">(.*?)</a></h1>',html)[-1]
#print(dir_name)
if not os.path.exists(dir_name):
    os.mkdir(dir_name)

#保存图片
for url in urls:
    file_name = url.split('/')[-1]
    response = requests.get(url, headers=headers)
    with open(dir_name + '/' + file_name , 'wb') as f:
        f.write(response.content)

最基础，最简单的爬虫爬图片的小案例结束了，只需要20行左右，就可以将一个网站上的图片保存到你的文件夹中，但是总会有人问，我Ctrl+c就好了啊，事实上，确实如此（卑微），但是，不觉得这样有逼格一点吗？

小编也是个小白，在学习过程中，如果你们有什么好的学习网站或者项目推荐给小编呗。

全部评论

推荐最新楼层

不愿透露姓名的神秘牛友

07-11 11:22

作为hr,我要崩溃了

怎么这么多逆天求职者，救救我救救我救救我😭

flmz_Kk：哈哈哈哈哈哈，这么多求职者，肯定有那一两个逆天的

点赞评论收藏

分享

07-14 12:16

哔哩哔哩_游戏算法工程师(准入职员工)

哔哩哔哩内推

入职第一天，就感受到了满满的诚意。HR小姐姐全程陪着，讲解各种重要内容，什么六险一金啊（有商业保险），感觉自己被宠上天了。而且入职当天还送了免费大会员和会员购，哈利波特、蝙蝠侠、人生一串放肆看，看完还可以买周边，这福利也太香了吧！ 办公环境：超有爱 B站的办公环境真的是太棒了！每层楼都有猫猫狗狗，上班累了还能逗逗它们，解解压。而且办公椅和办公桌很协调，办公起来非常舒服。关键是，这里没有那种压抑的氛围，大家都很年轻，交流起来特别方便，氛围特别好。 工作氛围：轻松又自由 B站的工作氛围真的太棒了，拒绝奋斗逼文化和996，崇尚有效率的工作。弹性工作制，每月还有一天带薪休假，只要直属leader批准就...

哔哩哔哩公司福利 739人发布

点赞评论收藏

分享

06-03 11:39

山东科技大学机械工程师

这样一份简历怎么找实习？

双非硕士，找实习全石沉大海，快疯了

今年形式下双非本找得到工...

点赞评论收藏

分享

05-26 11:54

湖北师范大学人工智能

应届生现状

头一次见说话这么直白的，终究是我太菜了😂😂😂

流浪的神仙：无恶意，算法一般好像都得9硕才能干

算法太卷啦

点赞评论收藏

分享

昨天 11:41

门头沟学院 Java

秋招第一挂

点赞评论收藏

分享

评论

点赞

1

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 大厂面试初体验 #

6057次浏览 44人参与

# 如果可以，你希望哪个公司来捞你 #

101156次浏览 463人参与

# 如何提高实习转正率？ #

2476次浏览 30人参与

# leader认为你工作不认真怎么办 #

31000次浏览 143人参与

# 你遇到过哪些神仙同事 #

100393次浏览 724人参与

# 我的国央企投递进展 #

46717次浏览 293人参与

# 国企是理工四大天坑的最好选择吗 #

13732次浏览 95人参与

# 五一之后，实习真的很难找吗？ #

78578次浏览 515人参与

# 机械人，你被简历秒挂的企业有哪些？ #

43056次浏览 281人参与

# 招聘要求与实际实习内容不符怎么办 #

113062次浏览 770人参与

# 如果公司给你放一天假，你会怎么度过？ #

17152次浏览 129人参与

# 找工作时的取与舍 #

80519次浏览 568人参与

# 投递几十家公司，到现在0offer，大家都一样吗 #

246398次浏览 1792人参与

# 三一重工求职进展汇总 #

15136次浏览 68人参与

# OPPO求职进展汇总 #

663004次浏览 5041人参与

# 你的秋招第一场笔试是哪家 #

142895次浏览 1455人参与

# 总结:哪家公司面试体验感最差 #

61142次浏览 276人参与

# 如果重来一次你还会读研吗 #

176979次浏览 1786人参与

# 机械人，说说你的烦心事 #

69777次浏览 839人参与

# 面试时被问的最奇葩的问题 #

23032次浏览 130人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务