16 Urllib基础

和vvv · 发表于 2017-6-21 17:42:57

您需要登录才可以下载或查看，没有账号？立即注册

x

16 Urllib基础
一、使用方法

复制代码

二、urlretrieve()的用法

功能：直接下载网页到本地。

复制代码

复制代码

执行之后，可在对应路径看到一个html文件。打开它，发现它正是百度的首页,只不过有些东西下载不下来。

三、urlcleanup()的用法

功能：清除爬虫产生的缓存，提升爬取速度。

复制代码

四、info()方法

功能：反映返回数据的简介信息

复制代码

结果：

Date: Wed, 21 Jun 2017 09:27:20 GMT
Content-Type: text/html; charset=utf-8
Transfer-Encoding: chunked
Connection: Close
Vary: Accept-Encoding
Set-Cookie: BAIDUID=705C801A9C8DFCE5656223E32639F569:FG=1; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com
Set-Cookie: BIDUPSID=705C801A9C8DFCE5656223E32639F569; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com
Set-Cookie: PSTM=1498037240; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com
Set-Cookie: BDSVRTM=0; path=/
Set-Cookie: BD_HOME=0; path=/
Set-Cookie: H_PS_PSSID=1447_21102_20928; path=/; domain=.baidu.com
P3P: CP=" OTI DSP COR IVA OUR IND COM "
Cache-Control: private
Cxy_all: baidu+5768a336a4da42b88867bc3b97f6c279
Expires: Wed, 21 Jun 2017 09:27:03 GMT
X-Powered-By: HPHP
Server: BWS/1.1
X-UA-Compatible: IE=Edge,chrome=1
BDPAGETYPE: 1
BDQID: 0x96e4306f0001c66c
BDUSERID: 0

复制代码

五、getcode()方法的使用

功能：输出访问网页的状态码。200是正常状态码。常见状态码：

复制代码

结果：

复制代码

六、geturl()方法的使用

功能：获取当前爬取页面的URL。

复制代码

结果：

复制代码

大黑蟒 · 发表于 2018-1-18 01:18:06

支持

账号		自动登录	找回密码
密码			立即注册

[技术交流] 16 Urllib基础