2021-03-27 10:16 已编辑门头沟学院 Java

关注

爬虫第13节

爬取中国大学排名实例

import requests
from bs4 import BeautifulSoup
import bs4

import re


def getHTMLText(url):
    try:
        kv = {"user-agent":"Mozilla/5.0"}
        r = requests.get(url,headers=kv,timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""


def fillUnivList(ulist,html):
    soup = BeautifulSoup(html,'html.parser')
    tbody = soup.find('tbody')
    for tr in soup.find('tbody').children:
        if isinstance(tr, bs4.element.Tag):
            tds = tr.find_all('td')
            #print(tds)


            # st0 = getTagText(str(tds[0]))

            st0 = re.sub(r"<!--.*-->", "", str(tds[0]))
            st0 = re.sub(r"</td>","",st0)
            st0 = re.sub(r"<.*>","",st0)
            st0 = re.sub(r" ","",st0)
            st0 = re.sub("\n","",st0)


            #st1 = getTagText(str(tds[1]))

            aas =tds[1].find_all('a')
            st1 = aas[0].string
            st1 = re.sub(r" ","",st1)
            st1 = re.sub("\n","",st1)

            #st4 = getTagText(str(tds[4]))
            st4 = re.sub(r"<!--.*-->", "", str(tds[4]))
            st4 = re.sub(r"</td>","",st4)
            st4 = re.sub(r"<.*>","",st4)
            st4 = re.sub(r" ","",st4)
            st4 = re.sub("\n","",st4)

            #print(st0,end = ",")
            #print(st1,end = ",")
            #print(st4,end = ",")
            #print(tds[1])
            #st0 = re.sub(r"<.*>","",str(tds[0]))
            #st1 = re.sub(r"<.*>","",str(tds[1]))
            #st4 = re.sub(r"<.*>","",str(tds[4]))
            #print(st0)
            #print(st1)
            #print(st4)


            ulist.append([st0 , st1 , st4 ] ) ###!!!!!!!!出错

def printUnivList(ulist,num):
    tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}" #详情去看.format的用法
    print(tplt.format("排名","学校名称","总分",chr(12288)))
    for i in range(num):
        u=ulist[i]
        print(tplt.format(u[0],u[1],u[2],chr(12288)))

def main():
    uinfo = []
    url = "https://www.shanghairanking.cn/rankings/bcur/2020"    
    html = getHTMLText(url)
    fillUnivList(uinfo,html) 
    printUnivList(uinfo, 20)
main()

其中与慕课上稍有变动，由于在td标签中加入了，因此不能直接用.string获得标签中的信息，所以将标签转化为字符串类型，然后运用re.sub()将字符串进行处理，最后得到所需要的结果。

全部评论

推荐最新楼层

02-24 15:49

vivo26届实习内推

不得不说今年实习开的真早， 这才刚开学暑期实习和日常实习就开了，26届的同学估计还没做好准备，可以先mark这篇帖子，后面有空来这里取内推码投递 看一一下实习岗位还是蛮多，hc算中等设计类 研发类 供应链类 产品运营类 市场类都覆盖了。 工作地点广东江苏等地都有，有能力的一定要投一下实习，直接转正就不用操心秋招了，真的挺爽，至少心里能踏实的再找其他工作入职vivo有一段时间了，强度是有一些，但是平时总有一些时候比如一些活动，聚会之类的能让人感觉到放松，上班的心态和学生区别还是很大的，大家现在投简历虽然累，之后还有一个暑假可以好好享受呢 ，别怕今年校招生住工业园C区，环境如图，环境尚可...

投递vivo等公司10个岗位 >

点赞评论收藏

分享

昨天 18:45

已编辑

成都信息工程大学前端工程师

小红书前端二面怎么感觉比一面简单 0实习双非真能进大厂吗

问项目： 大文件上传怎么做的 请求响应拦截器做了什么 服务器返回的md或者html格式文章，为什么 提到了XSS注入，这个的原理是什么 说一下redux，项目中用redux做了什么 为什么token要在redux中和localStorage中存总共两份 redux和localStorage生命周期有什么不同的 做小程序项目碰到过哪些难点 小程序响应式怎么做的 react批量渲染，为什么要有属性值key 如果用一个数组的index作为key可能会出什么问题 了解useMemo吗 react新...

简历中的项目经历要怎么写我的求职思考

点赞评论收藏

分享

02-05 21:35

河南推拿职业学院 Java

强度可见一斑！

居然还没招满，可见强度。传说公积金50%呢。

菜鸡29号：根据已有信息能初步得出以下几点： 1、硕士排了大本和大专 2、要求会多语言要么是招人很挑剔要么就是干的活杂 3、给出校招薪资范围过于巨大，说明里面的薪资制度(包括涨薪)可能有大坑

点赞评论收藏

分享

01-15 10:19

中华女子学院 Java

福报又又又来了

已经打算旷工处理了。#中关村科金

kl_我是东山啊：《相关公司：阿里巴巴》

投递阿里巴巴等公司10个岗位

点赞评论收藏

分享

昨天 21:46

百度网盘一面(50min八股,5min算法)

百度网盘一面(50min八股,5min算法)拷打项目HttpSession跟WebSocket的Session介绍一下socket有没有了解过别的数据库Mysql的索引类型有哪些避免回表怎么做mysql的锁mysql在索引跟二级索引跟非索引在间隙锁中分别会怎么样Mysql5跟8版本的改变Innodb跟MyIsym引擎的区别Innodb底层数据结构,介绍B+树用过Nginx吗,Nginx是怎么工作的介绍一下OSI五层架构HTTP跟HTTPS是属于哪个层的ping使用的协议是什么,是哪一层的分库分表怎么办Redis的数据结构Redis为什么快(答了单线程模型,跟基于内存,他不满意)Redis 的 ...

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 如何KTV领导 #

31669次浏览 258人参与

# 你投递的公司有几家约面了？ #

39158次浏览 228人参与

# 掌阅春招 #

88903次浏览 516人参与

# 研究所笔面经互助 #

55095次浏览 395人参与

# 软开人，秋招你打算投哪些公司呢 #

66963次浏览 716人参与

# 生物制药/化工校招攻略 #

33774次浏览 265人参与

# 硬件/芯片公司工作体验 #

58479次浏览 560人参与

# 当下环境，你会继续卷互联网，还是看其他行业机会 #

72675次浏览 539人参与

# 你遇到过哪些神仙同事 #

45263次浏览 432人参与

# 如何缓解入职前的焦虑 #

141758次浏览 1129人参与

# 你最近一次加班是什么时候？ #

31912次浏览 250人参与

# 软件开发春招备战日记 #

57665次浏览 495人参与

# Tplink求职进展汇总 #

102345次浏览 570人参与

# vivo求职进展汇总 #

167870次浏览 1020人参与

# 考研人，我有话说 #

15168次浏览 285人参与

# 在职场上，你最讨厌什么样的同事 #

10626次浏览 125人参与

# 产品每日一题 #

29067次浏览 404人参与

# 你今年的平均薪资是多少？ #

94288次浏览 462人参与

# 过年最难忘的一件事 #

10774次浏览 155人参与

# 秋招白月光 #

52767次浏览 776人参与

# TP-LINK工作体验 #

38510次浏览 787人参与

牛客网
牛客企业服务