2020-06-05 00:03 门头沟学院算法工程师

关注

练习-爬取豆瓣电影TOP250信息

数新的同学提问，刚好回忆一下大一小学期学习的爬虫（水一篇博客）。
与网上众多豆瓣250不同的是，此次需要爬取更多的内容（更麻烦一些）。
首先豆瓣是有反爬虫措施的（形同没有），之后用requests库和xpath轻轻松松爬到所有的信息，之后就是数据清洗。注意由于内容涉及到中文字符，全文需以utf-8格式处理，同时空白分隔符会被识别为\xa0（事儿多，直接去掉），其余就是无聊的字符串处理了。
很久没有写python了，基本语法记得还可以，水水这些简单的任务还是可行的。

#!/usr/bin/env python
# -*- coding: utf-8 -*-
from lxml import etree
import requests
import json
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
}

movie_list = []


def getRequests():
    urls = [
        "https://movie.douban.com/top250?start={}".format(str(i)) for i in range(0, 250, 25)]
    for url in urls:
        data = requests.get(url, headers=headers)
        html = etree.HTML(data.text)
        count = html.xpath("//div[@class='item']")  # 这里是共有的xpath
        for info in count:
            titles = info.xpath("div[2]/div[1]/a/span/text()")  # 电影名称
            directors = info.xpath("div[2]/div[2]/p[1]/text()[1]")  # 导演
            year_country_classify = info.xpath(
                "div[2]/div[2]/p[1]/text()[2]")  # 信息
            stars = info.xpath("div[2]/div[2]/div/span[2]/text()")  # 电影星评
            starpeople = info.xpath("div[2]/div[2]/div/span[4]/text()")  # 电影人数
            details = info.xpath("div[2]/div[2]/p[2]/span/text()")  # 电影的简介
            # print(titles)
            # 标题
            other_title = ""
            for i in range(len(titles)):
                if i == 0:
                    continue
                else:
                    other_title += titles[i].replace("\xa0",
                                                     "").replace("/", "").strip()+" "

            # 导演
            director = temp = ""
            flag = 0
            temp = directors[0].replace("/", " ").replace("\n", "").strip()
            for i in temp:
                if i == ':':
                    flag = (flag+1) % 2
                elif i == "主":
                    break
                elif flag == 1:
                    director += i
            director = director.strip()

            year_country_classify = year_country_classify[0].replace(
                "\xa0", " ").replace("\n", "").strip()
            temp = year_country_classify.split("/")
            people = starpeople[0].replace("人评价", "")
            if not details:
                details.append("")

            movie_list.append({
                "title": {
                    "chinese": titles[0],
                    "others": other_title
                },
                "director": director,
                "year": temp[0].strip(),
                "country": temp[1].strip(),
                "classify": temp[2].strip(),
                "rating": {
                    "num": stars[0],
                    "people": people
                },
                "quote": details[0]
            })

    # for i in movie_list:
    #     print(i)


def output():
    with open("豆瓣TOP250电影.json", "w+", encoding="UTF-8") as file:
        file.write(json.dumps({"data": movie_list}, ensure_ascii=False))
    print("end")


if __name__ == '__main__':
    getRequests()
    output()

全部评论

推荐最新楼层

昨天 17:27

已编辑

门头沟学院 Java

招银云创秋招一面、二面、HR面

云创真的问的超级简单，应该没几个这么简单的公司了吧一面 9月22日 29min在**实习的时候，接口的瓶颈是什么、采用了什么样的优化策略，最终实现了这个性能的优化Java重载、重写的区别Bean的生命周期synchronied和Lock的区别AQS的实现SpringBoot用过哪些注解用过什么线程安全的组件AOP有没有使用过有没有做过什么SQL优化假如说SQL执行慢，如何去优化【反问】是面试官直接招到组里吗？统招多少轮面试？两轮技术面二面 9月25日 19min简单做个自我介绍。线程池那边你应该有用过哈，那在多线程的场景下，可能会出现一些什么问题？你刚才提到第一个例子，多线程去改同一个值的时候...

发面经攒人品

点赞评论收藏

分享

11-18 14:53

门头沟学院 Java

第一次线下面试

自我介绍先问了我最擅长的是什么，我sb了回答一个数据结构，然后就问我会什么数据结构，我说只会简单的排序然后就问我排序你会什么，然后好像问了一下他们的应用？忘记了，紧张的什么也不会，虽然不紧张也不会然后应该是看我什么也不会，就开始问我最基础的1.时间复杂度最坏最好平均 分别怎么算的2.基本数据类型 几种 8种，数值型字符型布尔型 int的范围 2的-31到2的31-1int是几个字节 4个 一个字节是8个bytestring是基本数据类型吗 不是，他是字符串数据类型3.拦截器拦截器拦的是 DispatcherServlet 即将调用的 Controller 方法，以及它返回的 ModelAndV...

查看14道真题和解析

点赞评论收藏

分享

09-25 14:35

已编辑

门头沟学院 Java

谈薪果然是勇敢者的游戏

美团hr面上来就说今天的的面试有三种结果：被挂；被加面；通过。压迫感拉满到被询问期望薪资，脑子一抽就说“肯定是期望ssp”。hr没有继续追问下一个问题了，当时也忘记找补一下说“其实要根据秋招的行情来看，巴拉巴拉一下”，暗示一下hr，不给ssp也行。事后，想了几天，很后悔当时舔得不够好，不知道会不会因为我要得多直接给我挂了。幸运的是，煎熬了几天还是收到意向了，秋招的第二个意向。谈薪果然是勇敢者的游戏，哥们只是介于勇敢者和懦夫之间，谈薪时尝试勇敢出击，事后有懦弱起来了。下次谈薪整二两小酒，酒壮怂人胆。

mata川152：面试不就这三种结果吗还有啥选项

我的秋招日记

点赞评论收藏

分享

10-29 00:17

门头沟学院 Java

双非师范本上岸大厂后端

还好我一直相信会有这一天的接下来就是狠狠写文档卖课了

牧羊人_xmy：遇到朋友了

苦尽甘来时，再讲来时路

点赞评论收藏

分享

今天 12:27

睿琪软件_产品经理(准入职员工)

滴滴内推，滴滴内推码

滴滴后端一二面面经一面40min纯技术面，面试官很友好，时不时会对你微笑，然后点头表示肯定，答对了还会说说得对。挑选一个你最想介绍的项目介绍一下，没有深挖。八股盛宴：C++、C、数据结构、数据库。总结就是不是简单的问你什么是虚函数，然后你说个虚指针，虚函数表就完事了。还会问你空指针可以调用类的方法吗？调用虚函数或者非静态成员变量的非虚函数为什么会崩溃？在什么阶段？大概就是这个意思，所以需要对每个方向的知识点有很深的理解，或者说实际开发中切实的应用过才能答得出来。二面25min个人感觉是目前为止碰到的最让人不解的面试官，全程皱着眉头，问的问题我没理解清楚也不会过多解释，直接默认我不会，然后说那我...

投递滴滴等公司10个岗位

点赞评论收藏

分享

评论

1

1

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 那些年，我收到的‘奇葩’回复 #

19452次浏览 149人参与

# 实习需要主动找活干吗？ #

54231次浏览 291人参与

# 百度秋招 #

49708次浏览 383人参与

186783次浏览 1313人参与

# 蚂蚁求职进展汇总 #

130694次浏览 1202人参与

# 职场中那些令人叹为观止的八卦 #

28527次浏览 239人参与

# 腾讯音乐秋招 #

429977次浏览 4774人参与

# 秋招你经历过哪些无语的事 #

19912次浏览 230人参与

# 秋招吐槽大会 #

85603次浏览 751人参与

# 校招薪资来揭秘 #

75615次浏览 488人参与

# 实习教会我的事 #

41334次浏览 340人参与

# 你找工作想离家近 or 离家远？ #

15839次浏览 235人参与

# 2022毕业即失业取暖地 #

119636次浏览 709人参与

# 我的职场社死时刻 #

20941次浏览 166人参与

# 材料人，你最希望上岸的是？ #

10948次浏览 56人参与

# 你秋招最后悔的选择 #

16358次浏览 122人参与

# 租房前辈的忠告 #

289845次浏览 7267人参与

# 哪些公司开始补录了 #

20457次浏览 162人参与

# 扒一扒那些奇葩实习经历 #

131155次浏览 1123人参与

# AI时代，哪些岗位最容易被淘汰 #

10729次浏览 87人参与

# XX请雇我工作 #

15066次浏览 113人参与

# 小马智行求职进展汇总 #

17147次浏览 54人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务