【Python】Crawler简单实习

'''Implement a crawler program, grab the novel, save the novel content to a file'''
import requests
import bs4  
import re
import time
# ButifulSoul4的缩写

# 1. 先构造一个 HTTP请求，把这个请求发送出去获取到响应
# 既能打开内容页，也能打开菜单页
def open_page(url):
    #headers={
    #    'User-Agent':
    #}
    response = requests.get(url)#,headers=headers)
    # 手动将程序的解析的编码方式设定为 Gbk
    response.ecncoding = 'gbk'
    if response.status_code != 200:
        print(f"requests get {url}")
        return
    return response.text
def test1():
    print(open_page('http://book.zongheng.com/chapter/841970/56888216.html'))


# 2. 根据内容进行解析
# 解析出每个章节的URL （a 标签中的解析）

def parse_main_page(html):
    # a) 创建一个 soup 对象
    soup = bs4.BeautifulSoup(html,"html.parser")
    #找到所有 href 属性由6个连续的数字构成的url
    charts = soup.find_all(href=re.compile(r'\d{6}.html'))
    # c) 根据上一步的结果生成所有章节的 url 的列表
    url_list = ['http://book.zongheng.com/chapter/841970/' + item['href'] for item in charts]
    return url_list

def test2():
    html = open_page('http://book.zongheng.com/chapter/841970/56888216.html')
    print(parse_main_page(html))


# 要解析的详情页
def parse_detail_page(html):
    '''解析出当前章节的标题和正文'''
    soup = bs4.BeautifulSoup(html,'html.parser')
    soup.find_all(class_='bookname')[0].h1.get.text()
    content = soup.find(id_='content')[0].get.text()
    return title,content

def test4():
    html = open_page('http://book.zongheng.com/chapter/841970/56888216.html')
    title,content = parse_detail_page(html)
    print("title: ",title)
    print("content: ",content)

def write_file(title,content):
    with open("tmp.txt",'a',encoding='gbk',errors='ignore') as f:
        f.write(title + '\n' + content + '\n\n\n\n')

def run():
    url = "http://book.zongheng.com/chapter/841970/"
    # 打开入口页面，并分析其中的所有详情页的 url
    html = open_page(url)
    url_list = parse_main_page(html)
    # 2.遍历详情页的 url，依次分析每个详细内容页
    for url in url_list:
        print("crawler url: ",url)
        detail_html = open_page(url)
        title,content = parse_detail_page(detail_html)
        write_file(title,content)
        time.sleep(1)

全部评论

推荐最新楼层

02-17 15:16

卓越里程_中台运营(准入职员工)

头部教育企业内推

国内头部教培25届秋招信息集合23-25届同学均可投递！目前大部分企业的秋招进入尾声，而教培行业仍有大量需求。教培老师的薪资待遇可观，offer率较高！在今年秋招难度上升的背景下，现阶段还未收获理想offer的同学们，欢迎投递，教培不失为性价比之选！学而思教育 综合年收入10~30万；每年2-6次涨薪，入职2~3年平均涨幅40%~50%全科类，素养类，竞赛类教师内推链接：https://app.mokahr.com/m/campus-recruitment/tal/148080?recommendCode=DS74UTFd&hash=%23%2Fjobs#/jobs内推码：DS74UT...

投递卓越教育等公司10个岗位 >

点赞评论收藏

02-12 01:35

门头沟学院算法工程师

新年碰到个因为春节请假被开的公司

rt，楼主23届985本，十二月份入职了一家上海的半导体公司，叫上海芯无双仿真科技有限公司，入职前HR就给我画饼，说我们是965的，不过最近赶项目，实行的976，我还真有那么一丝信了（事实上后面才知道她给每个人都是这么说的，然后实际情况懂的都懂）。来之前只知道这是个创业公司，做仿真软件的，老板是清华本海博，团队不大，不过好几个清华的以及中科大的，其他的基本也都是985出身，整体团队氛围还不错，尤其是我的mt很好，以至于我觉得这个公司人在这，前景应该不错。然后说一下我进公司干了啥，首先每个周六都给他免费加班（劳动合同和工资条上都是双休），刚来公司一周，我就被安排去出差去了，为此还占据了我的整个周...

纸鹰：之前拿过实习offer，如今一看，幸亏没去。

祝你早日找到心仪工作。

中国科学技术大学公司氛围 6人发布职场吐槽大会

点赞评论收藏

2024-12-29 19:48

河北科技大学 Java

24无工作，求改简历

没事就爱看简历：问题不在于简历：1、大学主修课程学那么多应用语言，作为计算机专业是很难理解的。 2、技能部分，每一个技能点的后半句话，说明对熟练，熟悉的标准有明显误会。 3、项目应该是校企合作的练习吧，这个项目你负责什么，取得了哪些成果都没有提及，只是列举了你认为有技术含量的点，而这些都有成熟的实现。

Java求职圈

点赞评论收藏