鱼C论坛

 找回密码
 立即注册

Python爬虫urllib.request的学习

已有 274 次阅读2018-6-15 22:37 |个人分类:python爬虫

1 urllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadefault=False,context=None)
打开网址URL,它可以是一个字符串或一个Request对象
response =  urllib.request.urlopen('www.fishc.com')相当于req = url.request.Request('www.fishc.com')  response =  urllib.request.urlopen(req)

timeout是请求超时时间 ; 
data当要以POST方式使用时就要传入,用GET方式使用时是None;
context(环境,上下文) 与HTTPSConnettion有关?;
cafile需要指定一组CA证书的文件夹,capath指定一个散列证书的目录More information can be found in ssl.SSLContext.load_verify_locations().;
这个response = urllib.request.urlopen()的对象response有以下的方法:
response.geturl()    返回网址url   通常用于是否确定要循环定向
response.info()   返回一些信息例如headers
response.getcode()  返回响应的HTTP状态码

urllib.request.urlopen() 相当于旧版的  urllib2.urlopen

2 urllib.request.build_opener([handler,...]) 返回一个OpenerDirector实例 用给定的顺序处理程序 什么是OpenrDirector呢
2.1 class   urllib.request.OpenerDirector  这个类通过链接在一起的BaseHandler打开URL,它管理处理程序的链接,并从错误中恢复。什么是BaseHandler呢
2.2 class  urllib,request.BaseHandler   这是所有注册处理程序的基类 - 并且只处理简单的注册机制。到底要怎么用啊???



3 class urllib.requestt.Request(url,data=None,headers={},origin_req_host=None,unverifiable=False,mathod=None)
data 支持bytes,file_like object,iterables
headers 是个字典 通常用来欺骗User-Agent header value(用户代理的数据头值)

4 class urllib.request.HTTPCookieProcessor(cookiejar=None) 一个处理HTTP Cookies 的类 什么是HTTP Cookies呢
















评论 (0 个评论)

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-3-29 18:11

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

返回顶部