[已解决]如何爬取豆瓣读书的图书信息

lyjlyj · 发表于 2018-3-14 17:33:11

本帖最后由 lyjlyj 于 2018-3-14 18:30 编辑

爬取豆瓣图书信息，直接异常了，使用代理也会异常

#-*- coding:utf-8 -*-
import requests
import random
proxies = ["115.223.232.2:9000","60.16.214.254:9000","115.223.207.122:9000","122.114.31.177:808","125.121.116.163:808"]
headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400"}
url = "https://book.douban.com/tag/小说?start=0&type=T"
response = requests.get(url,headers=headers,proxies={"http":"http://"+random.choice(proxies)})
print(response.status_code)
print(response.text)

复制代码

最佳答案

月排行榜 / 总排行榜

Charles未晞

2018-3-14 17:33:12

本帖最后由 Charles未晞于 2018-3-14 19:57 编辑

浏览器无痕模式打开豆瓣，把cookie值取下来，多取几个，每爬一页随机用一个cookie。
没有登录信息的cookie很容易导致你ip被封，一般被封半天。
加上了登录信息的cookie一般你爬取几千条数据没什么问题。
几个被封的姿势我差不多都经历到了。。。
谨慎使用。我豆瓣账号被封了三天过。
最后：https://mp.weixin.qq.com/s/eFW4IIH2YejdzopwgEmBJQ

跳转到最佳答案楼层

Charles未晞 · 发表于 2018-3-14 17:33:12

这个最佳答案由 Charles未晞给出，感谢 Charles未晞的回答。

单击隐藏图章

本帖最后由 Charles未晞于 2018-3-14 19:57 编辑

浏览器无痕模式打开豆瓣，把cookie值取下来，多取几个，每爬一页随机用一个cookie。
没有登录信息的cookie很容易导致你ip被封，一般被封半天。
加上了登录信息的cookie一般你爬取几千条数据没什么问题。
几个被封的姿势我差不多都经历到了。。。
谨慎使用。我豆瓣账号被封了三天过。
最后：https://mp.weixin.qq.com/s/eFW4IIH2YejdzopwgEmBJQ

hankongguying · 发表于 2018-3-14 17:43:45

没有把问题说清楚，无法提供帮组

°蓝鲤歌蓝 · 发表于 2018-3-14 17:52:57

直接贴网址和目标信息吧。

ba21 · 发表于 2018-3-14 18:01:00

上代码

gopythoner · 发表于 2018-3-14 18:01:36

你要爬什么信息都不说，谁知道你要干嘛

lyjlyj · 发表于 2018-3-14 18:27:16

本帖最后由 lyjlyj 于 2018-3-14 18:28 编辑

°蓝鲤歌蓝发表于 2018-3-14 17:52
直接贴网址和目标信息吧。

这是部分代码，之前写的太乱了，没使用代理之前被检测到了，使用代理之后，为什么还会检测到

lyjlyj · 发表于 2018-3-14 18:29:14

°蓝鲤歌蓝发表于 2018-3-14 17:52
直接贴网址和目标信息吧。

重新用代理试了一下，结果成这样了

°蓝鲤歌蓝 · 发表于 2018-3-14 19:53:24

lyjlyj 发表于 2018-3-14 18:29
重新用代理试了一下，结果成这样了

import requests
import random
import time
url = 'https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=0&type=T'
headers = {'Host':'book.douban.com',
'Upgrade-Insecure-Requests':'1',
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) \
Chrome/64.0.3282.119 Safari/537.36',
}
response = requests.get(url, headers=headers)
print(response.text)

复制代码

亲测可用

Charles未晞 · 发表于 2018-3-14 19:57:24

关于代理问题的评价：我做过西刺代理的代理池代码，说白了那玩意就是骗小孩子的。
爬大型网站基本没有任何用处，搞事情一般都需要购买一些代理。

lyjlyj · 发表于 2018-3-14 20:40:55

本帖最后由 lyjlyj 于 2018-3-14 20:42 编辑

Charles未晞发表于 2018-3-14 19:55
浏览器无痕模式打开豆瓣，把cookie值取下来，多取几个，每爬一页随机用一个cookie。
没有登录信息的cookie ...

为什么我使用使用模拟登录后，每次返回的代码都是一样的，我用的session.get发送，就得到了这样的结果

lyjlyj · 发表于 2018-3-14 20:52:42

°蓝鲤歌蓝发表于 2018-3-14 19:53
亲测可用

少数是可以，但是请求多了就不行了

°蓝鲤歌蓝 · 发表于 2018-3-14 20:55:52

lyjlyj 发表于 2018-3-14 20:52
少数是可以，但是请求多了就不行了

那就设置代理，时间间隔等等反爬措施。

lyjlyj · 发表于 2018-3-14 21:26:23

°蓝鲤歌蓝发表于 2018-3-14 20:55
那就设置代理，时间间隔等等反爬措施。

那些免费代理经常不响应的，时间间隔我已经设置了

°蓝鲤歌蓝 · 发表于 2018-3-14 21:28:19

lyjlyj 发表于 2018-3-14 21:26
那些免费代理经常不响应的，时间间隔我已经设置了

免费的我感觉没什么用。

jfmlj · 发表于 2018-3-14 21:37:14

豆瓣有API的吧，好像是普通用户一分钟不超过40次请求还是多少来着

lyjlyj · 发表于 2018-3-14 21:48:41

jfmlj 发表于 2018-3-14 21:37
豆瓣有API的吧，好像是普通用户一分钟不超过40次请求还是多少来着

我都是3到5秒发一次的

Charles未晞 · 发表于 2018-3-14 22:18:02

lyjlyj 发表于 2018-3-14 20:40
为什么我使用使用模拟登录后，每次返回的代码都是一样的，我用的session.get发送，就得到了这样的结果

有些日子了。我有点忘了。。。。。
当时我这部分代码是这样的（不太好的版本，不能爬所有，会被封）：

# 书籍信息爬虫
def book_spider(book_tag, cookies):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3298.4 Safari/537.36'
}
books_list = []
page_num = 0
url = 'https://book.douban.com/tag/' + urllib.parse.quote(book_tag) + '?start=' + str(page_num*20) + '&type=T'
res = requests.get(url, cookies=cookies, headers=headers)
soup = bs4.BeautifulSoup(res.text, 'html.parser')
# 找到一共有多少页
page_num_max = soup.find('div', attrs={'class': 'paginator'})
page_num_max = page_num_max.findAll('a')
page_num_max = page_num_max[-2].string.strip()
page_num_max = int(page_num_max)
while True:
url = 'https://book.douban.com/tag/' + urllib.parse.quote(book_tag) + '?start=' + str(page_num*20) + '&type=T'
res = requests.get(url, cookies=cookies, headers=headers)
soup = bs4.BeautifulSoup(res.text, 'html.parser')
# 找到该页所有书
soup_list = soup.findAll('li', attrs={'class': 'subject-item'})
for book_info in soup_list:
# 书名
title = book_info.find('a', attrs={'title': True})
book_url = title.attrs['href']
title = title.attrs['title']
# 基本信息
basic_info = book_info.find('div', attrs={'class': 'pub'}).string.strip()
basic_info_list = basic_info.split('/')
try:
author_info = '/'.join(basic_info_list[0: -3])
except:
author_info = '暂无'
try:
pub_info = '/'.join(basic_info_list[-3: ])
except:
pub_info = '暂无'
# 评价方面的数据
evaluate_info = book_info.find('div', attrs={'class': 'star clearfix'})
# 星级
try:
allstar = evaluate_info.find('span', attrs={'class': True})
if (allstar.attrs['class'])[0][-1] == '1':
allstar = (allstar.attrs['class'])[0][-1]
else:
allstar = (allstar.attrs['class'])[0][-2] + '.' + (allstar.attrs['class'])[0][-1]
except:
allstar = '0.0'
# 评分
try:
rating_nums = evaluate_info.find('span', attrs={'class': 'rating_nums'}).string.strip()
except:
rating_nums = '0.0'
# 评价人数
try:
people_num = evaluate_info.find('span', attrs={'class': 'pl'}).string.strip()
people_num = people_num[1: -4]
except:
people_num = '0'
# 内容描述
try:
description = book_info.find('p').string.strip()
except:
description = '暂无'
# 信息整理
books_list.append([title, author_info, pub_info, allstar, rating_nums, people_num, description, book_url])
print('第%d页信息采集完毕，共%d页' % (page_num+1, page_num_max))
time.sleep(0.5)
page_num += 1
if page_num == page_num_max:
break
return books_list

复制代码

lyjlyj · 发表于 2018-3-14 22:41:09

本帖最后由 lyjlyj 于 2018-3-14 22:43 编辑

Charles未晞发表于 2018-3-14 22:18
有些日子了。我有点忘了。。。。。
当时我这部分代码是这样的（不太好的版本，不能爬所有，会被封）： ...

你的cookies那里来的，是登录后，在浏览器中复制吗

Charles未晞 · 发表于 2018-3-14 22:42:54

lyjlyj 发表于 2018-3-14 22:41
你的cookies那里来的，是登录后，在浏览器中复制吗

是的。。。。。。
无痕模式登录。。。
多弄几个cookie
每次用不同的cookie

账号		自动登录	找回密码
密码			立即注册