2022-08-16 23:37 江西科技职业学院设计发布于安徽

关注

爬虫练习题（二）

题目：利用referer防盗链参数反爬数据，以梨视屏为例

1.携带referer参数

2.把视屏下载保存到本地

打开视屏，抓他的包，要求要有referer防盗链的视屏

防盗链式记录从哪个地址跳转过来的？有些会携带，有些会不携带，服务器会根据这个检查，一旦核验，同样也会视为爬虫自动化程序，所以我们要携带这个参数

headers = {
	'referer':'https://www.pearvideo.com/video_1766981'
	'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.114 Safari/537.36 Edg/103.0.1264.49'
}

只向request url发起请求，只会返回源代码，就是HTML文件，不是视频数据，一般音视频都在媒体，也就是media里，好看视频可以在，数据包里显示视频信息，她的request url对应的就是视频，点开就能打开，其实梨视频也是一样的

用字符串切片，并且可以以符号'_'分割，split是分割，rsplit，也是分割方向是从右向左，这样可以把链接最后的数字拿下来，因为唯一变得一串数字是指定视频的位置，不同的数字串指定的是不同的视频，所以是个变量

以上海人的吃瓜自由奋斗史为例

https://www.pearvideo.com/video_1763204

import requests
work = input('视频url：')
# work = 'https://www.pearvideo.com/video_1763204'
# print(work.split('_')[-1])     导出最后一串数字
z_f = work.split('_')[-1]

我们第一步，首先找链接相同的部分，看看不同的部分有没有什么规律？但很显然，貌似并没有什么规律

我们先复制链接，粘贴到py charm上，复制1到2个链接，查看一下有没有什么规律？我们发现中间有一部分是有区别的，但是并不能看出它有什么规律

我们可以在元素里定位视频，也会有一个src参数能拿到链接，可以把这个链接与第二个链接进行对比，发现是一模一样的，在元素面板中就可以看到URL，那么直接对URL发起请求，能不能得到这个URL？我们可以在网页源码中用快捷键ctrl+c,ctrl+f,ctrl+v,查找一下这个链接，我们发现没有搜索结果，也就是说，没有数据，因为这个数据是动态数据，所以我们直接在手页面发起请求是无法获得MP4文件的

如果在主页面响应内容里没有找到数据，但我们能在哪里查看呢？可以在XHR里面筛选

这是通过两种方法获得的URL

所以接下来就要满足用户输入这个网址

在XHR里复制的链接是不完整的，在源码中找到并与XHR链接比较，补全缺失

发现有部分不一致，我们更改不一致的地方

比较两个视频，我们可以发现都是cont开头，那么接下来就是找数字的规律了

搜索数字在搜索栏中也可以看到

所以我们要在其他视频上找到缺失的部分

XHR：https://video.pearvideo.com/mp4/adshort/20220524/1657541705071-15884803_adpkg-ad_hd.mp4

视频：https://video.pearvideo.com/head/20220524/cont-1763204-15884893.mp4

能够得到这个网址

https://video.pearvideo.com/mp4/adshort/20220531/cont-1763997-15888808_adpkg-ad_hd.mp4

https://video.pearvideo.com/mp4/adshort/20220524/cont-1763204-15884803_adpkg-ad_hd.mp4

根据上面得到的数字串，拼接新的url，就是把1763204改为z_f

url = f'https://www.pearvideo.com/videoStatus.jsp?contId={z_f}&mrd=0.23732164****45694'

URL是一模一样的，但是为什么会出现上面的问题呢？手动复制URL就没有网页，可能是referer反爬

import requests
work = input('视频url：')
# work = 'https://www.pearvideo.com/video_1763204'
# print(work.split('_')[-1])     导出最后一串数字
z_f = work.split('_')[-1]

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.114 Safari/537.36 Edg/103.0.1264.49',
    'Referer': 'https://www.pearvideo.com/video_1763204'
}
url = f'https://www.pearvideo.com/videoStatus.jsp?contId={z_f}&mrd=0.23732164****45694'
print(url)



解释数据：
E:\01_python\venv\Scripts\python.exe E:/01_python/反爬.py
视频url：https://www.pearvideo.com/video_1763204
https://www.pearvideo.com/videoStatus.jsp?contId=1763204&mrd=0.23732164****45694

进程已结束,退出代码0

接下来就是获取数据

import requests
work = input('视频url：')
z_f = work.split('_')[-1]
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.114 Safari/537.36 Edg/103.0.1264.49',
    'Referer': f'https://www.pearvideo.com/video_{z_f}'
}
url = f'https://www.pearvideo.com/videoStatus.jsp?contId={z_f}&mrd=0.23732164****45694'
print(url)
response = requests.get(url,headers=headers)
print(response.text)



解释数据：
E:\01_python\venv\Scripts\python.exe E:/01_python/反爬.py
视频url：https://www.pearvideo.com/video_1765616
https://www.pearvideo.com/videoStatus.jsp?contId=1765616&mrd=0.23732164****45694

{
	"resultCode":"1",
	"resultMsg":"success", "reqId":"b1c73e26-99f2-4393-9f7e-6d6c12aeaef1",
	"systemTime": "165****407682",
	"videoInfo":{"playSta":"1","video_image":"https://image.pearvideo.com/cont/20220617/cont-1765616-12687510.jpeg","videos":{"hdUrl":"","hdflvUrl":"","sdUrl":"","sdflvUrl":"","srcUrl":"https://video.pearvideo.com/mp4/adshort/20220617/1657550407682-15897269_adpkg-ad_hd.mp4"}}
}


进程已结束,退出代码0

json可以转为字典格式

li_fan = response.json()['videoInfo']['videos']['srcUrl']
li_fan = li_fan.replace(li_fan.rsplit('/',1)[-1].split('-',1)[0],f'cont-{z_f}')
with open('视屏.mp4','wb')as f:
    f.write(requests.get(li_fan).content)

所以这题整体代码为

import requests
work = input('视频url：')
z_f = work.split('_')[-1]
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.114 Safari/537.36 Edg/103.0.1264.49',
    'Referer': f'https://www.pearvideo.com/video_{z_f}'
}
url = f'https://www.pearvideo.com/videoStatus.jsp?contId={z_f}&mrd=0.23732164****45694'
print(url)
response = requests.get(url,headers=headers)
print(response.text)
li_fan = response.json()['videoInfo']['videos']['srcUrl']
li_fan = li_fan.replace(li_fan.rsplit('/',1)[-1].split('-',1)[0],f'cont-{z_f}')
with open('视屏.mp4','wb')as f:
    f.write(requests.get(li_fan).content)

解析结果：

E:\01_python\venv\Scripts\python.exe E:/01_python/反爬.py
视频url：https://www.pearvideo.com/video_1765616
https://www.pearvideo.com/videoStatus.jsp?contId=1765616&mrd=0.23732164****45694

{  他网站需要进一步分析重新搭建

这样一个视屏就爬到手了，此题代码可使用于梨视屏，其他网站需要进一步分析重新搭建

切记referer参数可以用于反爬

全部评论

推荐最新楼层

闻风起雨落

西安邮电大学 FPGA工程师

已学习，感谢分享

1 回复分享

发布于 2022-08-17 19:36 陕西

02-12 16:46

门头沟学院 golang

百度Go后台开发 - 一面 - base深圳面经

1. 自我介绍2. 问 ACM 情况，什么奖，还熟悉吗，熟悉的话打开vjudge来一道（婉拒了哈）3. 之前有实习过吗，如果你有机会转正会考虑百度转正吗4. 我们在深圳，你能实习多久5. 好的，我们现在根据简历去问一下，我看你做过的东西还挺多的，一个开源的分布式事务框架，一个开源的数据库项目，还有一个分布式kv项目对吧，这三个你觉得哪个有意思，想讲哪一个？（选了自己的分布式kv项目）6. 好的，你先跟我讲一下你这里要解决什么样的问题，主要的难点痛点是什么？7. 打断一下，你这里为什么要使用布隆过滤器？8. 好的，我看你这里有用到raft是吧，那我问一下你存储的基本单元是什么？9. 好的，你可以...

spiritecs：牛的，问这么深

查看30道真题和解析

点赞评论收藏

分享

02-12 20:26

沈阳化工大学 Java

中科软日常实习一面

这个面试时硬着求来滴，问的很奇怪就问了一点八股文，那个hr一直问我其他问题，就像最后hr一样学校是一本还是二本（原来还有这个那我二本我说一本你也不会知道叭）自我介绍介绍一下集合都有什么（单列集合和双列集合）map都有什么类型呢concurrenthashmap底层实现jdk用的是什么版本的创建线程的方式垃圾回收算法mysql怎么去优化对应的性能呢前端了解多少呢反问

查看9道真题和解析

点赞评论收藏

分享

02-15 11:51

河海大学 Java

这算是过了一面吗……

是完成一面就自动这样还是一面通过了呀#腾讯#

点赞评论收藏

分享

02-13 20:23

已编辑

高德_打车_前端工程师

大厂外号大揭秘！你知道几个？

互联网江湖，风云变幻，各大厂明争暗斗，也少不了吃瓜群众起外号凑热闹。今天就来盘点一下中国互联网大厂的那些“江湖绰号”，看看你知道几个？1. 鹅厂——腾讯这个外号由来已久，因为腾讯的Logo是一只企鹅，企鹅嘛，白白胖胖，可可爱爱，所以大家亲切地称呼腾讯为“鹅厂”。不过，别看企鹅外表呆萌，鹅厂在互联网界的实力可是不容小觑，社交、游戏、金融等领域都有它的身影，妥妥的“企鹅帝国”！2. 猫厂、福报厂——阿里巴巴阿里巴巴的外号可就多了，最广为人知的当属“猫厂”，因为淘宝的Logo是一只猫，而且马云还说过“阿里巴巴要活102年，就像猫有九条命一样”，所以“猫厂”这个外号就流传开来了。至于“福报厂”，则是因...

投递网易等公司10个岗位 >

点赞评论收藏

分享

评论

3

1

招聘动态

26届实习生双选会报名开启

26届实习软件笔试必刷题单

京东 TET管培生

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 读研or工作，哪个性价比更高？ #

24653次浏览 333人参与

# 如果重来一次你还会读研吗 #

154720次浏览 1701人参与

# 科大讯飞求职进展汇总 #

258965次浏览 2595人参与

# 秋招感动瞬间 #

11021次浏览 103人参与

# 阿里巴巴创始人马云回国 #

14266次浏览 87人参与

# 职场新人生存指南 #

195885次浏览 5398人参与

# 你最满意的offer薪资是哪家公司？ #

11967次浏览 109人参与

# 长光卫星求职进展汇总 #

27606次浏览 184人参与

# 文科生还参加今年的春招吗 #

3436次浏览 29人参与

# 追觅科技求职进展汇总 #

8551次浏览 58人参与

# 选择和努力，哪个更重要？ #

42374次浏览 472人参与

# 招聘要求与实际实习内容不符怎么办 #

41634次浏览 469人参与

# 打工人的工作餐日常 #

24756次浏览 221人参与

# 机械制造岗投递时间线 #

19332次浏览 324人参与

# 小红书求职进展汇总 #

40471次浏览 346人参与

# 影石Insta360求职进展汇总 #

107732次浏览 969人参与

# 如果再来一次，你还会学硬件吗 #

102857次浏览 1236人参与

# 机械人选offer，最看重什么？ #

68633次浏览 433人参与

# 机械人怎么评价今年的华为 #

180373次浏览 1485人参与

# 滴！实习打卡 #

554965次浏览 6010人参与

牛客网
牛客企业服务