|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
前段时间想参与鱼C的python挑战赛,正好这期是关于爬虫的。
点我鱼Cpython挑战赛 第四季第四期
结果使用如下代码趴下来的网页,报错gbk codec errors
- # -*- coding: utf-8 -*-
- import requests
- user_agent= 'ozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11'
- headers = {
- 'user-agent': user_agent,
- 'accept': '* / *',
- 'accept - encoding': 'gzip, deflate, br',
- 'accept - language': 'zh - CN, zh;q = 0.9',
- }
- url = "https://daily.zhihu.com"
- r = requests.get(url, headers=headers)
- print(r.text)
复制代码
首先查看了下系统的编码
- import sys
- sys.getdefaultencoding()
复制代码
结果为 utf-8
我又查看了爬下来的代码的编码格式:
- # -*- coding: utf-8 -*-
- import requests
- user_agent= 'ozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11'
- headers = {
- 'user-agent': user_agent,
- 'accept': '* / *',
- 'accept - encoding': 'gzip, deflate, br',
- 'accept - language': 'zh - CN, zh;q = 0.9',
- }
- url = "https://daily.zhihu.com"
- r = requests.get(url, headers=headers)
- import chardet
- print(chardet.detect(r.content))
复制代码
结果也是utf-8,
蒙蔽的我发现哪哪都是utf-8,完全没毛病好么。。
然后我就猜测是不是文件格式问题,特意使用notepad++更改了文件格式为
utf-8
随后依然报错。。
希望可以帮助到同样出现这种问题的童鞋
|
|