Python3网络爬虫——(1)利用urllib进行简单的网页抓取

利用urllib进行简单的网页抓取

 

urllib是Python提供的用于操作URL的模块

l、快速使用urllib爬取网页

# -*- coding: UTF-8 -*-
from urllib import request
if __name__ == "__main__":
      file = request.urlopen("https://blog.csdn.net/asialee_bird")#使用request.urlopen()打开和读取url信息
      html = file.read() #读取文件的全部内容,read会把读取到的内容赋给一个字符串变量
      #html=file.readlines() #读取文件的全部内容,readlines会把读取到的内容赋给一个列表变量
      #html=file.readline()  #读取文件的一行内容
      html = html.decode("utf-8")  #decode()命令将网页的信息进行解码
      print(html)

2、获取网页的编码方式

# -*- coding: UTF-8 -*-
from urllib import request
import chardet               #通过第三方模块获得网页的编码方式(需要pip3安装)
if __name__ == "__main__":
    file = request.urlopen("https://blog.csdn.net/asialee_bird")
    html = file.read() 
    charset=chardet.detect(html)  #获取该网页的编码方式
    print(charset) 

结果:

 

3、将爬取到的网页以网页的形式保存到本地

方法一:

# -*- coding: UTF-8 -*-
from urllib import request
if __name__ == "__main__":
       file = request.urlopen("https://blog.csdn.net/asialee_bird")
       html = file.read() 
       file_html=open('test.html','wb')
       file_html.write(html)
       file_html.close()

结果:

 

方法二:

# -*- coding: UTF-8 -*-
from urllib import request
if __name__ == "__main__":    
   file=request.urlretrieve('https://blog.csdn.net/asialee_bird',filename='test2.html')
   request.urlcleanup()  #清除缓存信息

 

4、urlopen的url参数信息

# -*- coding: UTF-8 -*-
from urllib import request
if __name__ == "__main__":
    # url可以是一个字符串,也可以是一个Request对象
    req = request.Request("https://blog.csdn.net/asialee_bird")
    response = request.urlopen(req)
    get_url=response.geturl()   #geturl()返回的是一个url的字符串
    in_fo=response.info() #info()返回的是一些meta标记的元信息,包括一些服务器的信息
    get_code=response.getcode() #getcode()返回的是HTTP的状态码,如果返回200表示请求成功
    #分别对获取的信息进行打印
    print("geturl打印信息:%s"%get_url)
    print('**********************************************')
    print("info打印信息:%s"%in_fo)
    print('**********************************************')
    print("getcode打印信息:%s"%get_code)

输出结果:

 

 

 

 

 

 

 

 

全部评论

相关推荐

11-29 11:21
门头沟学院 Java
点赞 评论 收藏
分享
kyw_:接好运
点赞 评论 收藏
分享
勤奋努力的椰子这就开摆:美团骑手在美团工作没毛病
投递美团等公司10个岗位
点赞 评论 收藏
分享
评论
点赞
收藏
分享
牛客网
牛客企业服务