|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
16 Urllib基础
一、使用方法
二、urlretrieve()的用法
功能:直接下载网页到本地。
- import urllib.request
- urllib.request.urlretrieve("http://www.baidu.com","f:/1.html")
复制代码 执行之后,可在对应路径看到一个html文件。打开它,发现它正是百度的首页,只不过有些东西下载不下来。
三、urlcleanup()的用法
功能:清除爬虫产生的缓存,提升爬取速度。
- import urllib.request
- urllib.request.urlretrieve("http://www.baidu.com","f:/1.html")
- #清除缓存
- urllib.request.urlcleanup()
复制代码
四、info()方法
功能:反映返回数据的简介信息
- import urllib.request
- data = urllib.request.urlopen("http://www.baidu.com")
- #清除缓存
- urllib.request.urlcleanup()
- print(data.info())
复制代码 结果:
- Date: Wed, 21 Jun 2017 09:27:20 GMT
- Content-Type: text/html; charset=utf-8
- Transfer-Encoding: chunked
- Connection: Close
- Vary: Accept-Encoding
- Set-Cookie: BAIDUID=705C801A9C8DFCE5656223E32639F569:FG=1; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com
- Set-Cookie: BIDUPSID=705C801A9C8DFCE5656223E32639F569; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com
- Set-Cookie: PSTM=1498037240; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com
- Set-Cookie: BDSVRTM=0; path=/
- Set-Cookie: BD_HOME=0; path=/
- Set-Cookie: H_PS_PSSID=1447_21102_20928; path=/; domain=.baidu.com
- P3P: CP=" OTI DSP COR IVA OUR IND COM "
- Cache-Control: private
- Cxy_all: baidu+5768a336a4da42b88867bc3b97f6c279
- Expires: Wed, 21 Jun 2017 09:27:03 GMT
- X-Powered-By: HPHP
- Server: BWS/1.1
- X-UA-Compatible: IE=Edge,chrome=1
- BDPAGETYPE: 1
- BDQID: 0x96e4306f0001c66c
- BDUSERID: 0
复制代码
五、getcode()方法的使用
功能:输出访问网页的状态码。200是正常状态码。常见状态码:- 200 OK
- 301 Moved Permanently
- 302 Found
- 304 Not Modified
- 307 Temporary Redirect
- 400 Bad Request
- 401 Unauthorized
- 403 Forbidden
- 404 Not Found
- 410 Gone
- 500 Internal Server Error
- 501 Not Implemented
- import urllib.request
- data = urllib.request.urlopen("http://www.baidu.com")
- #清除缓存
- urllib.request.urlcleanup()
- print(data.getcode())
复制代码 结果:
六、geturl()方法的使用
功能:获取当前爬取页面的URL。
- import urllib.request
- data = urllib.request.urlopen("http://www.baidu.com")
- #清除缓存
- urllib.request.urlcleanup()
- print(data.getcode())
- print(data.geturl())
复制代码 结果:
|
评分
-
查看全部评分
|