鱼C论坛

 找回密码
 立即注册
查看: 3474|回复: 4

requests的get和urllib.request的urlopen 请求百度首页,得到内容不一样,为什么?

[复制链接]
发表于 2017-1-22 15:44:09 | 显示全部楼层 |阅读模式
50鱼币
requests的get和urllib.request的urlopen 请求百度首页,得到内容不一样
都不添加cookie和headers
貌似用urlopen打开的内容里有,js和ccs代码?而requests.get缺没有(不确定,求解)

代码

代码

request_get

request_get
urlopen.jpg

最佳答案

查看完整内容

这个可能和百度的反爬虫策略有关吧。 如果你请求的信息中,不包含你的浏览器的信息,百度就会把你当成爬虫或者其他简易的手机浏览器来处理,给你的反馈信息中去除了javascript代码。 如果你在请求的头部信息中加入浏览器信息,比如: 这样返回的就是完整的包含javascript的执行代码。 至于urllib的urlopen函数是不是默认包含访问的头部信息的倒是没有具体研究过,不过原因的就是这样。 哪怕你用selenium访问也是一样的,sel ...
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-1-22 15:44:10 | 显示全部楼层
这个可能和百度的反爬虫策略有关吧。
如果你请求的信息中,不包含你的浏览器的信息,百度就会把你当成爬虫或者其他简易的手机浏览器来处理,给你的反馈信息中去除了javascript代码。
如果你在请求的头部信息中加入浏览器信息,比如:
  1. import requests
  2. header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.100 YaBrowser/16.11.1.673 Yowser/2.5 Safari/537.36'}
  3. res = requests.get('http://www.baidu.com',headers=header)
  4. print(res.text)
复制代码

这样返回的就是完整的包含javascript的执行代码。
至于urllib的urlopen函数是不是默认包含访问的头部信息的倒是没有具体研究过,不过原因的就是这样。
哪怕你用selenium访问也是一样的,selenium是模拟浏览器操作,所以是默认带浏览器的头部信息的。

评分

参与人数 2荣誉 +25 鱼币 +25 贡献 +13 收起 理由
哭吧叫吧 + 5 + 5 + 3 nb啊
hldh214 + 20 + 20 + 10 热爱鱼C^_^

查看全部评分

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2017-1-23 08:44:42 | 显示全部楼层
求助啊
@版主 @斑竹
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2017-1-24 08:21:47 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2017-1-24 16:05:43 | 显示全部楼层
@小甲鱼
快来人啊,救命啊
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-3-29 18:53

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表