猫眼电影你好像被盯上了

python爬取猫眼电影top_100

初学者专用，超基础

import re
import requests
from urllib3.exceptions import RequestError
import csv
import pandas as pd


def get_one_page(url):
    try:
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36'
        }
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            #print(response.text)
            return response.text
        return None
    except RequestError:
        return None


def parse_one_page(html):
    pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'
                         + '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
                         + '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)
    items = re.findall(pattern, html)
    #print(items)
    index = []
    image = []
    title = []
    actor = []
    time = []
    score = []
    for item in items:
        index.append(item[0])
        image.append(item[1])
        title.append(item[2])
        actor.append(item[3].strip()[3:])
        time.append(item[4].strip()[5:])
        score.append(item[5] + item[6])
    #print(index,image,title,actor,time,score)
    return index,image,title,actor,time,score

def write_to_file(index,image,title,actor,time,score):
    test = pd.DataFrame({"index": index, 'image': image, 'title': title, 'actor': actor, 'time': time, 'score':score})
    test.to_csv('MaoY_top10_movie.csv', sep=',', mode='a', encoding='utf-8-sig', index=False, header=0)

def add_file_head():
    with open('MaoY_top10_movie.csv','w',newline='',encoding='utf-8-sig') as f:
        writer = csv.writer(f)
        writer.writerow(["index", "image","title","actor","time","score"])

def main(offset):
    url = "http://maoyan.com/board/4?offset=" + str(offset)
    html = get_one_page(url)
    parse_one_page(html)
    write_to_file(parse_one_page(html)[0],
                  parse_one_page(html)[1],
                  parse_one_page(html)[2],
                  parse_one_page(html)[3],
                  parse_one_page(html)[4],
                  parse_one_page(html)[5])

if __name__ == '__main__':
    add_file_head()
    for i in range(10):
        main(i*10)

全部评论

推荐最新楼层

昨天 19:14

南京航空航天大学 Java

现在到底该怎么自救

面对这种情况，我总结了几种应对策略。首先，如果我没有全力以赴地投简历，那就得继续努力，确保投递量超过200家。其次，若简历总是被挂，那就得考虑增加实习经历，或者优化简历内容，确保相关性和逻辑性。再者，面试总是失败，可能是表达技巧不够好，我得多练习自我介绍，吸引面试官的注意。最后，如果现在没有简历可投，也没面试机会，那就利用这段时间提升自己，争取在春招时能有更好的表现。希望大家都能找到满意的offer！

牛客创作赏金赛

点赞评论收藏

不愿透露姓名的神秘牛友

11-30 18:44

为什么有些人工作十年还不如一个职场新人？

最近感触很深，身边有很多同事已经工作近十年了，但是通过日常对接，可以非常明显的感受出工作能力上的差距，有时候甚至还不如一个刚来一年的校招生！ 先说一个最显著的特征，就一个字：乱。 1️⃣做事方面： 1、极度混乱，没有主见，被分配任务之后手忙脚乱，完全不知道从哪下手何为主次，进入执行状态缓慢，有时候还要反复请示才敢走出第一步。 2、即便知道了如何去做，在做事的时候又是一片混乱，对很多事情没有掌控力，感觉需要费很大的力气才能达到一个至少不坏的结果。 3、 逻辑思维混乱是本质，上升到行为就是语言组织也很乱，说话前后没有因果关系，经常没头没脑的冒出一个结论，缺乏依据。 4、有的人总喜欢说一些重复的...

牛客328431349号：转人工

点赞评论收藏

10-09 00:50

已编辑

长江大学算法工程师

全村唯一的指望了，怎么就偏偏是你。

成也华子，败也华子，如今竟然只能指望着华子了，害。投的是计算产品线，因为研究方向是ai-infra，只有这个最对口了。因为祖上传下来的xcpc金所以免机考+一次面试，实际在南研所只面了两轮。---------分割线---------但是我不想去，因为逆反。华子是家里唯一承认的私企。去这里等价于又一次屈服于他们。（想啥呢，人家还没给你发offer呢）

不期而遇的夏天：1.同学你面试评价不错，概率很大，请耐心等待；2.你的排名比较靠前，不要担心，耐心等待；3.问题不大，正在审批，不要着急签其他公司，等等我们！4.预计9月中下旬，安心过节；5.下周会有结果，请耐心等待下；6.可能国庆节前后，一有结果我马上通知你；7.预计10月中旬，再坚持一下；8.正在走流程，就这两天了；9.同学，结果我也不知道，你如果查到了也告诉我一声；10.同学你出线不明朗，建议签其他公司保底！11.同学你找了哪些公司，我也在找工作。

点赞评论收藏