2019-07-24 17:51 已编辑华中科技大学 C++

关注

【Python】爬虫抓取必应壁纸

一直想把必应上的壁纸批量下载下来，可惜一直没找到源网站，今天发现在天堂图片网上有必应的壁纸，所以写了一个小爬虫来爬取一下图片看看
网址在此：
http://www.ivsky.com/bizhi/bing_v1704/
首先我们需要一个函数来打开网页，获得网页源码内容，这个函数可以这样写

def getHtml(url):
    #url open打开网页
    page = request.urlopen(url)  
    html = page.read() #read()方法用于读取URL上的数据
    html = str(html)
    return html

打开网页来分析一下，右击网页，检查

可以看到，我们需要的第一张图片包含在”/bizhi/bing_v48967/pic_771940.html” 这个页面中，要抓取需要的图片，必须先提取出图片对应的页面地址(注意，后面有一个”img src=”http://img.ivsky.com/img/bizhi/t/201805/09/bing.jp***开看一下就知道这个只是图片的缩略图，并不是我们想要的图片。第一张图片对应的网页找到了，其他的图片也一样找到对应的页面。因此我们需要一个函数，从原始的页面源代码中提取出所需要的图片对应的页面。这个函数可以这样写

#获取页面列表
def getHtmlList(html):
    #根据页面的命名构造正则表达式
    reg = r'<a href="(/bizhi/bing_v48967/pic_.+?\.html)"'
    imgre = re.compile(reg)
    #找出所有符合正则表达式的字符串，
    htmllist = re.findall(imgre,html)
    l = set()
    for i in range(len(htmllist)):
        #网页地址是相对路径，需要添加域名
        htmllist[i] = 'http://www.ivsky.com' + htmllist[i]
        #利用set来避免重复添加
        if htmllist[i] not in l:
            l.add(htmllist[i])
    #最后得到的集合l就是图片对应的页面列表 
    return l

再来打开任意一张图片对应的页面

找到图片对应的路径(途中红框所示),下载图片即可。同样的我们需要一个函数来找到这个路径，并下载图片，这个函数可以这样写

def getImg(html,id):
    #分析网页，提取图片地址对应的正则表达式
    reg = r'<img id="imgis" src=\\\'(http://.+?\.jpg)'
    imgre = re.compile(reg)     #re.compile() 可以把正则表达式编译成一个正则表达式对象.
    imglist = re.findall(imgre,html)   
    #对于这个程序，每个页面只包含一张高清大图，图片地址保存在imglist[0]里面
    #图片可能因为某些原因，下载不成功，执行urlretrieve函数会报错，我们使用try except来增强程序健壮性
    try:
        request.urlretrieve(imglist[0],'.\spider\data\\bing\%d.jpg'%id, showProcessBar)
        #print("%s download success"%x)
        return 0
    except :
        return -1
    #下载成功，返回0，失败返回-1

同时，我们定义一个回调函数，显示每张图片的下载进度

def showProcessBar(a,b,c):  
    '''''回调函数 a:已经下载的数据块 b:数据块的大小 c:远程文件的大小 '''  
    percent=100.0*a*b/c  
    if percent > 100:  
        percent = 100  
    #显示下载进度
    print ('[downloading:] %.2f%%' % percent)

再定义一个函数，调用getImg，下载得到的列表当中的每一张图片

def getImage(htmllist):
    i = 0
    for key in htmllist:
        html = getHtml(key)
        html = str(html)
        if (getImg(html, i) == 0):
            print("%s download success"%i)
        else: 
            print("%s download failed" %i)
        i+=1

所需要的函数全部完成，调用即可下载图片

url = "http://www.ivsky.com/bizhi/bing_t2824/"
h = getHtml(url)
l= getImgList(h)
getImage(l)

程序执行结果
控制台输出如下

对应的文件夹下面也有了我们要的图片

程序源码可以在这里下载
https://github.com/zkangHUST/Spider/blob/master/1.py

这个程序还有很多不完美的地方，比如提取网址的正则表达式写的不好，还可以改进，或者使用beautiful soup 来提取，效果更高，另外程序是单进程的，可以多开几个进程加快下载速度。等等诸如此类的缺点还有很多，下一版本再改进吧。

全部评论

推荐最新楼层

11-19 16:31

哈尔滨理工大学算法工程师

练习16，G题，新函数定义

题目如下：乎优塔病好了，他又开始研究定义一个新函数，该函数的声明形式为： long long fun(int n); ，其作用为：分解出n的每一位，并计算每一位的阶乘，然后将计算后的结果相加后返回，请编程实现（要求必须使用函数实现，否则不计入成绩）。输入描述:一个整数n(1≤n≤1000000)。输出描述:一个整数，计算后的结果。此题目如果要以函数声明形式，那么这个题需要分为两个函数，一个是计算阶乘的函数，另外一个是计算加和的函数，此题数据可能会太大，所以我们要使用longlong类型来定义函数，计算阶乘的函数代码如下： long long fun1(int n) { long lon...

点赞评论收藏

11-22 22:26

门头沟学院前端工程师

糕手的秋招总结

没人规定0offer就不能写秋招总结吧？😡写出我的经历，让你们看看我至今还是0offer糕手，都做对了些什么🤡🤡🤡糕手思维比较发散，所以写帖子一般废话多了点我尽量来点干货（话说今天恰华莱士给我干窜了。。。）前排提醒，小白向的，您都拿大厂offer或者就是前端大师，糕手可不敢在您面前造次啊🤡🤡🤡1.运气非常重要，如果你做到了这一条，剩下的都是狗屁，没啥要看的了2.简历还是简点好，缩成一页已经是老生常谈了，除非你四五段实习吧。就拿前端举例子，不太建议写TS。刚开始的小白思维都这样，我新学会个技术栈，那一定要写上，证明我的牛x都这么过来的，都懂我从始至终都不太喜欢TS，你可以...

剑与她皆失：当初实习离职的时候想一段实习加上我是java后端转测试，那大厂测试测开offer不得框框拿🤡🤡🤡🤡

点赞评论收藏

11-11 19:29

华中科技大学嵌入式软件工程师

以前真的是被华子打包带走啊 形势变太快了

joe2333：怀念以前大家拿华为当保底的日子

点赞评论收藏

11-19 18:05

哈尔滨工业大学铸造/锻造工程师

24届上班上了几个月，疯狂想辞职

如上，已经工作3个月了，但是还是不喜欢上班，真的非常想辞职，但是家里人都不同意离职，工资又低。每个月根本就攒不到什么钱。 而且之前入职之前会有人说要带我，结果带了几天那个人离职了，我现在什么都要自己摸索，真的非常崩溃，而且晚上也要加班，没有自己的时间。 最重要的是自己总是达不到考核标准，天天焦虑内耗总担心自己被开了，所以想自己提，但是周围人都不同意，因为这份工作是双休而且交五险一金，真的很烦。 离职又担心找不到更好的工作，在这里呆着又天天内耗，而且这个公司不稳定，你业绩达不到标准，随时可能被开，心累。

如果再来一次，你还会选择这个工作吗？

点赞评论收藏

点赞收藏评论

全站热榜

正在热议

# 25届秋招总结 #

280150次浏览 2433人参与

# 如果实习可以转正，你会不会放弃秋招 #

# 选完offer后，你后悔学本专业吗 #

# 你觉得专业和学校哪个对薪资影响最大 #