胖十斤换网名的阿琛

2019-07-24 17:51 已编辑百度_移动研发部_安卓开发

关注

【Python】Crawler简单实习

'''Implement a crawler program, grab the novel, save the novel content to a file'''
import requests
import bs4  
import re
import time
# ButifulSoul4的缩写

# 1. 先构造一个 HTTP请求，把这个请求发送出去获取到响应
# 既能打开内容页，也能打开菜单页
def open_page(url):
    #headers={
    #    'User-Agent':
    #}
    response = requests.get(url)#,headers=headers)
    # 手动将程序的解析的编码方式设定为 Gbk
    response.ecncoding = 'gbk'
    if response.status_code != 200:
        print(f"requests get {url}")
        return
    return response.text
def test1():
    print(open_page('http://book.zongheng.com/chapter/841970/56888216.html'))


# 2. 根据内容进行解析
# 解析出每个章节的URL （a 标签中的解析）

def parse_main_page(html):
    # a) 创建一个 soup 对象
    soup = bs4.BeautifulSoup(html,"html.parser")
    #找到所有 href 属性由6个连续的数字构成的url
    charts = soup.find_all(href=re.compile(r'\d{6}.html'))
    # c) 根据上一步的结果生成所有章节的 url 的列表
    url_list = ['http://book.zongheng.com/chapter/841970/' + item['href'] for item in charts]
    return url_list

def test2():
    html = open_page('http://book.zongheng.com/chapter/841970/56888216.html')
    print(parse_main_page(html))


# 要解析的详情页
def parse_detail_page(html):
    '''解析出当前章节的标题和正文'''
    soup = bs4.BeautifulSoup(html,'html.parser')
    soup.find_all(class_='bookname')[0].h1.get.text()
    content = soup.find(id_='content')[0].get.text()
    return title,content

def test4():
    html = open_page('http://book.zongheng.com/chapter/841970/56888216.html')
    title,content = parse_detail_page(html)
    print("title: ",title)
    print("content: ",content)

def write_file(title,content):
    with open("tmp.txt",'a',encoding='gbk',errors='ignore') as f:
        f.write(title + '\n' + content + '\n\n\n\n')

def run():
    url = "http://book.zongheng.com/chapter/841970/"
    # 打开入口页面，并分析其中的所有详情页的 url
    html = open_page(url)
    url_list = parse_main_page(html)
    # 2.遍历详情页的 url，依次分析每个详细内容页
    for url in url_list:
        print("crawler url: ",url)
        detail_html = open_page(url)
        title,content = parse_detail_page(detail_html)
        write_file(title,content)
        time.sleep(1)

全部评论

推荐最新楼层

02-16 22:57

四川大学 Java

26届末211本中9硕电子信息，无党员无实习

刚开始学java还有戏吗，不知道找什么工作了，谁能指导一下

点赞评论收藏

分享

02-12 15:54

腾讯_大数据高性能开发(准入职员工)

腾讯内推腾讯面经

腾讯 微信后端 一二三面面经由于一二三面都是同一周进行的（具体业务部门暂不和牛友说啦），所以当时也没时间进行回顾，现在进行简要的回顾，不一定详细但尽可能把大致方向说一下一面：写题＋八股写题为一个给个文档，用IDE写完了粘贴进去。（题量不少2-3题左右，限时半小时，但无难题）八股：以计算机网络和操作系统为主，穿插问问一些实际的问题主要是：TCP 握手挥手，网络IO模型之类的，CPP的部分简单问题等，大家在牛客上都见过，都是常规的问题，实际的问题就是问Linux的一些命令和实际场景下怎么组合使用二面：写题＋项目同样起手一个文档，写题（都不是难题）项目深入的聊，整体流程，为什么这么设计，为什么不使用...

点赞评论收藏

分享

2024-12-23 10:55

已编辑

大连理工大学 Java

华为越（n)办（m)越（s)好（l）🌹

牛客930504082号：华子综测不好好填会挂的，而且填的时候要偏向牛马选项

点赞评论收藏

分享

02-12 16:10

顺丰集团_大数据挖掘与分析工程师(准入职员工)

顺丰内推顺丰面经

9.26 线下一二三面10.16录用意向书一面：1. 介绍实习2. voliatile和 synchiozed的区别3. 线程池  核心线程数 和 最大线程数4. 有没有遇到抢占线程的情况   具体多少合适  有没有测过qps5. spring里的事务  @Tractional 有没有遇到过事务失效6. @Autoriwed  @Recourse7. nacos服务下线后多久之后 控制台这个服务会消失 （答得心跳机制，可能会等没有别的服务调用后，应该不会立即消失 ）    主动下线：调用注销接口 会立刻从控制台移除   被动下线：心跳机制 在最多十秒内（默认）检测到该实例未发送心跳 将其标记为...

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 读研or工作，哪个性价比更高？ #

24645次浏览 333人参与

# 如果重来一次你还会读研吗 #

154708次浏览 1701人参与

# 科大讯飞求职进展汇总 #

258964次浏览 2595人参与

# 秋招感动瞬间 #

11010次浏览 103人参与

# 阿里巴巴创始人马云回国 #

14265次浏览 87人参与

# 职场新人生存指南 #

195871次浏览 5398人参与

# 你最满意的offer薪资是哪家公司？ #

11967次浏览 109人参与

# 长光卫星求职进展汇总 #

27606次浏览 184人参与

# 文科生还参加今年的春招吗 #

3433次浏览 29人参与

# 追觅科技求职进展汇总 #

8548次浏览 58人参与

# 选择和努力，哪个更重要？ #

42358次浏览 472人参与

# 招聘要求与实际实习内容不符怎么办 #

41614次浏览 469人参与

# 打工人的工作餐日常 #

24751次浏览 221人参与

# 机械制造岗投递时间线 #

19332次浏览 324人参与

# 小红书求职进展汇总 #

40466次浏览 346人参与

# 影石Insta360求职进展汇总 #

107726次浏览 969人参与

# 如果再来一次，你还会学硬件吗 #

102856次浏览 1236人参与

# 机械人选offer，最看重什么？ #

68631次浏览 433人参与

# 机械人怎么评价今年的华为 #

180369次浏览 1485人参与

# 滴！实习打卡 #

554946次浏览 6009人参与

牛客网
牛客企业服务