2022-10-13 21:11 已编辑江西科技职业学院设计发布于江西

关注

爬虫练习题（五）

题目：利用 referer 防盗链参数反爬数据，以梨视屏为例
1.爬取携带 referer 参数视频
2.把视频下载保存到本地

打开视频，抓他的包，要求要有 referer 防盗链的视频

防盗链式记录从哪个地址跳转过来的？有些会携带，有些会不携带，服务器会根据这个检查，一旦核验，同样也会视为爬虫自动化程序，所以我们要携带这个参数

headers = {
	'referer':'https://www.pearvideo.com/video_1766981'
	'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.114 Safari/537.36 Edg/103.0.1264.49'

复制代码

只向 request url 发起请求，只会返回源代码，就是 HTML 文件，不是视频数据，一般音视频都在媒体，也就是 media 里，好看视频可以在，数据包里显示视频信息，她的 request url 对应的就是视频，点开就能打开，其实梨视频也是一样的

用字符串切片，并且可以以符号'_'分割，split 是分割，rsplit，也是分割方向是从右向左，这样可以把链接最后的数字拿下来，因为唯一变得一串数字是指定视频的位置，不同的数字串指定的是不同的视频，所以是个变量以上海人的吃瓜自由奋斗史为例 www.pearvideo.com/video_17632…

import requests
work = input('视频url：')
# work = 'https://www.pearvideo.com/video_1763204'
# print(work.split('_')[-1])     导出最后一串数字
z_f = work.split('_')[-1]
复制代码

我们第一步，首先找链接相同的部分，看看不同的部分有没有什么规律？但很显然，貌似并没有什么规律

我们先复制链接，粘贴到py charm上，复制1到2个链接，查看一下有没有什么规律？我们发现中间有一部分是有区别的，但是并不能看出它有什么规律

我们可以在元素里定位视频，也会有一个src参数能拿到链接，可以把这个链接与第二个链接进行对比，发现是一模一样的，在元素面板中就可以看到URL，那么直接对URL发起请求，能不能得到这个URL？我们可以在网页源码中用快捷键ctrl+c,ctrl+f,ctrl+v,查找一下这个链接，我们发现没有搜索结果，也就是说，没有数据，因为这个数据是动态数据，所以我们直接在手页面发起请求是无法获得MP4文件的

如果在主页面响应内容里没有找到数据，但我们能在哪里查看呢？可以在XHR里面筛选

这是通过两种方法获得的URL

所以接下来就要满足用户输入这个网址

在XHR里复制的链接是不完整的，在源码中找到并与XHR链接比较，补全缺失

发现有部分不一致，我们更改不一致的地方

比较两个视频，我们可以发现都是cont开头，那么接下来就是找数字的规律了

搜索数字在搜索栏中也可以看到

所以我们要在其他视频上找到缺失的部分

XHR：video.pearvideo.com/mp4/adshort…

视频：video.pearvideo.com/head/202205…

能够得到这个网址

video.pearvideo.com/mp4/adshort…

video.pearvideo.com/mp4/adshort…

根据上面得到的数字串，拼接新的url，就是把1763204改为z_f

url = f'www.pearvideo.com/videoStatus…'

打印验证

URL是一模一样的，但是为什么会出现上面的问题呢？手动复制URL就没有网页，可能是referer反爬

import requests
work = input('视频url：')
# work = 'https://www.pearvideo.com/video_1763204'
# print(work.split('_')[-1])     导出最后一串数字
z_f = work.split('_')[-1]

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.114 Safari/537.36 Edg/103.0.1264.49',
    'Referer': 'https://www.pearvideo.com/video_1763204'
}
url = f'https://www.pearvideo.com/videoStatus.jsp?contId={z_f}&mrd=0.23732164285745694'
print(url)



解释数据：
E:\01_python\venv\Scripts\python.exe E:/01_python/反爬.py
视频url：https://www.pearvideo.com/video_1763204
https://www.pearvideo.com/videoStatus.jsp?contId=1763204&mrd=0.23732164285745694

进程已结束,退出代码0
复制代码

接下来就是获取数据

import requests
work = input('视频url：')
z_f = work.split('_')[-1]
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.114 Safari/537.36 Edg/103.0.1264.49',
    'Referer': f'https://www.pearvideo.com/video_{z_f}'
}
url = f'https://www.pearvideo.com/videoStatus.jsp?contId={z_f}&mrd=0.23732164285745694'
print(url)
response = requests.get(url,headers=headers)
print(response.text)



解释数据：
E:\01_python\venv\Scripts\python.exe E:/01_python/反爬.py
视频url：https://www.pearvideo.com/video_1765616
https://www.pearvideo.com/videoStatus.jsp?contId=1765616&mrd=0.23732164285745694

{
	"resultCode":"1",
	"resultMsg":"success", "reqId":"b1c73e26-99f2-4393-9f7e-6d6c12aeaef1",
	"systemTime": "1657550407682",
	"videoInfo":{"playSta":"1","video_image":"https://image.pearvideo.com/cont/20220617/cont-1765616-12687510.jpeg","videos":{"hdUrl":"","hdflvUrl":"","sdUrl":"","sdflvUrl":"","srcUrl":"https://video.pearvideo.com/mp4/adshort/20220617/1657550407682-15897269_adpkg-ad_hd.mp4"}}
}


进程已结束,退出代码0
复制代码

json可以转为字典格式

li_fan = response.json()['videoInfo']['videos']['srcUrl']
li_fan = li_fan.replace(li_fan.rsplit('/',1)[-1].split('-',1)[0],f'cont-{z_f}')
with open('视屏.mp4','wb')as f:
    f.write(requests.get(li_fan).content)
复制代码

所以这题整体代码为

import requests
work = input('视频url：')
z_f = work.split('_')[-1]
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.114 Safari/537.36 Edg/103.0.1264.49',
    'Referer': f'https://www.pearvideo.com/video_{z_f}'
}
url = f'https://www.pearvideo.com/videoStatus.jsp?contId={z_f}&mrd=0.23732164285745694'
print(url)
response = requests.get(url,headers=headers)
print(response.text)
li_fan = response.json()['videoInfo']['videos']['srcUrl']
li_fan = li_fan.replace(li_fan.rsplit('/',1)[-1].split('-',1)[0],f'cont-{z_f}')
with open('视屏.mp4','wb')as f:
    f.write(requests.get(li_fan).content)
复制代码

解析结果：

E:\01_python\venv\Scripts\python.exe E:/01_python/反爬.py
视频url：https://www.pearvideo.com/video_1765616
https://www.pearvideo.com/videoStatus.jsp?contId=1765616&mrd=0.23732164285745694

{
	"resultCode":"1",
	"resultMsg":"success", "reqId":"d52fda1d-ad5b-46c5-a151-d062b789e371",
	"systemTime": "1657554157561",
	"videoInfo":{"playSta":"1","video_image":"https://image.pearvideo.com/cont/20220617/cont-1765616-12687510.jpeg","videos":{"hdUrl":"","hdflvUrl":"","sdUrl":"","sdflvUrl":"","srcUrl":"https://video.pearvideo.com/mp4/adshort/20220617/1657554157561-15897269_adpkg-ad_hd.mp4"}}
}


进程已结束,退出代码0
复制代码

这样一个视屏就爬到手了，此题代码可使用于梨视屏，其他网站需要进一步分析重新搭建

切记referer参数可以用于反爬

全部评论

推荐最新楼层

肖味小企鹅

西安邮电大学营销

好像比较有趣

点赞回复分享

发布于 2022-10-15 21:33 陕西

11-20 22:27

已编辑

门头沟学院前端工程师

三天速通B站（已oc）

timeline：11.18约面11.19一面 （半小时约二面）11.20二面（两小时后oc）一面：1.个人介绍2.讲一下history路由和hash路由3.讲一下ts？ts和js的区别4.开发时候埋点流程（实习时候的）5.lottie web怎么封装的 和普通动画的区别6.开发时候做过哪些优化7.刮卡效果怎么做的（canvas）8.开发时候有没有遇到过性能问题9.React做过哪些优化10.HTML怎么做优化11.事件循环机制12.防抖节流以及应用场景13.前端模块化14.http和https 它们的区别？15.http2.0有哪些新特性16.http常用状态码17.强缓存和协商缓存18.移...

查看45道真题和解析

点赞评论收藏

分享

10-31 19:24

门头沟学院硬件开发

太丑陋了。

我也曾抱有希望：说的好直白

点赞评论收藏

分享

11-22 18:29

北京理工大学算法工程师

预计下个星期就能开奖吧，哪位老哥来给个准信

华孝子爱信等：对接人上周说的是这周

点赞评论收藏

分享

2 3 评论

全站热榜

正在热议

# 25届秋招总结 #

345229次浏览 3335人参与

# 我的实习求职记录 #

6080224次浏览 83628人参与

# 百度开奖 #

195217次浏览 1258人参与

# 地方国企笔面经互助 #

4955次浏览 13人参与

# 职场吐槽大会 #

89932次浏览 740人参与

# 选完offer后，你后悔学本专业吗 #

22653次浏览 162人参与

# 北方华创开奖 #

39556次浏览 417人参与

# ai智能作图 #

1733次浏览 40人参与

# 运营商笔面经互助 #

92186次浏览 1330人参与

# 实习中的菜狗时刻 #

278370次浏览 2736人参与

# 如果有时光机，你最想去到哪个年纪？ #

23830次浏览 481人参与

# 海康威视求职进展汇总 #

401890次浏览 3414人参与

# 风评不好的公司，你会去吗？ #

20586次浏览 94人参与

# 国企还是互联网，你怎么选？ #

89930次浏览 698人参与

# 软件开发2024笔面经 #

2324630次浏览 48210人参与

# 如何一边实习一边秋招 #

999174次浏览 12693人参与

# 腾讯求职进展汇总 #

197952次浏览 1650人参与

# 银行笔面经互助 #

84483次浏览 893人参与

# 第一份工作应该选择高薪还是大平台 #

88820次浏览 590人参与

# bilibili求职进展汇总 #

33804次浏览 361人参与

# 上班苦还是上学苦呢？ #

79333次浏览 737人参与

215365次浏览 2536人参与

牛客网
牛客企业服务