[已解决]求助：爬取百度新闻列表，由于最后一页不足20条，无法爬取出来，怎么办

李冬阳 · 发表于 2017-11-30 19:45:02

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由李冬阳于 2017-11-30 19:56 编辑

请各位大神帮帮忙！
写一个python爬虫按关键词抓取百度新闻列表，每页20条，但是最后一页通常不足20条，结果导致我写的程序无法对最后一页进行爬取。
程序如下：

import requests
from bs4 import BeautifulSoup
from datetime import datetime
import pandas
import re
data=[]
for k in range(1,36):
date=[]
media=[]
title=[]
link=[]
more_link=[]
newsurl='http://news.baidu.com/ns?word=%28天山股份%2C新疆天山水泥股份有限公司%29&pn='+str((k-1)*20)+'&cl=2&ct=1&tn=newsdy&rn=20&ie=utf-8&bt=1262275200&et=1451577599'
kv={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36"}
res=requests.get(newsurl,headers=kv)
res.encoding='utf-8'
soup=BeautifulSoup(res.text,'html.parser')
for i in range(20):
news=soup.find_all('div',{ 'class', 'result'})[i]
h3=news.find( name= "a", attrs={ "target": re.compile( "_blank")})#取出每则新闻的标题
title.append(h3.text)
m=news.find( name= "p", attrs={ "class": re.compile( "c-author")})#取出每则新闻的发布媒体
m1=m.text.split()[0]
media.append(m1)
t=m.text.split()[1]#取出每则新闻的发布时间
dt=datetime.strptime(t,'%Y年%m月%d日')
d=dt.strftime('%Y-%m-%d')
date.append(d)
href=news.h3.a['href']
link.append(href)
more=news.find( name= "a", attrs={ "class": re.compile( "c-more_link")})#取出更多相关新闻链接
if more != None:
more0=more['href']
more1="http://news.baidu.com"+more0
more_link.append(more1)
else:
more_link.append("None")
data.append((date[i], title[i], media[i],more_link[i],link[i]))
print("第" + str(k) + "页完成")
df=pandas.DataFrame(data)
df.to_excel('000877天山股份.xlsx')

复制代码

提示的错误是：IndexError: list index out of range

最后一页的URL是：
http://news.baidu.com/ns?word=%28天山股份%2C新疆天山水泥股份有限公司%29&pn=680&cl=2&ct=1&tn=newsdy&rn=20&ie=utf-8&bt=1262275200&et=1451577599
最后一页只有10条新闻

请大神们帮帮我，看看怎么解决这个问题，不胜感激！

最佳答案

月排行榜 / 总排行榜

chakyam

2017-11-30 22:37:41

最后一页不足20条的问题我上次答过了呀

news1=soup.find_all( 'div', class_='result')
for i in news1:
提取标题
提取媒体
提取时间

复制代码

for k in range(1,36):
newsurl='http://news.baidu.com/ns?word=%28天山股份%2C新疆天山水泥股份有限公司%29&pn='+str((k-1)*20)+'&cl=2&ct=1&tn=newsdy&rn=20&ie=utf-8&bt=1262275200&et=1451577599'
kv={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36"}
res=requests.get(newsurl,headers=kv)
res.encoding='utf-8'
soup=BeautifulSoup(res.text,'html.parser')
news1=soup.find_all( 'div', class_='result')
for i in news1:
h3=i.find( name= "a", attrs={ "target": re.compile( "_blank")})#取出每则新闻的标题
#title.append(h3.text)
m=i.find( name= "p", attrs={ "class": re.compile( "c-author")})#取出每则新闻的发布媒体
m1=m.text.split()[0]
#media.append(m1)
t=m.text.split()[1]#取出每则新闻的发布时间
dt=datetime.strptime(t,'%Y年%m月%d日')
d=dt.strftime('%Y-%m-%d')
#date.append(d)
href=i.h3.a['href']
#link.append(href)
more=i.find( name= "a", attrs={ "class": re.compile( "c-more_link")})#取出更多相关新闻链接
if more != None:
more0=more['href']
more1="http://news.baidu.com"+more0
#more_link.append(more1)
else:
more1='None'
#more_link.append("None")
data.append((d, h3.txt, more1,href))
print("第" + str(k) + "页完成")

复制代码

跳转到最佳答案楼层

chakyam · 发表于 2017-11-30 22:37:41

这个最佳答案由 chakyam 给出，感谢 chakyam 的回答。

单击隐藏图章

最后一页不足20条的问题我上次答过了呀

news1=soup.find_all( 'div', class_='result')
for i in news1:
提取标题
提取媒体
提取时间

复制代码

for k in range(1,36):
newsurl='http://news.baidu.com/ns?word=%28天山股份%2C新疆天山水泥股份有限公司%29&pn='+str((k-1)*20)+'&cl=2&ct=1&tn=newsdy&rn=20&ie=utf-8&bt=1262275200&et=1451577599'
kv={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36"}
res=requests.get(newsurl,headers=kv)
res.encoding='utf-8'
soup=BeautifulSoup(res.text,'html.parser')
news1=soup.find_all( 'div', class_='result')
for i in news1:
h3=i.find( name= "a", attrs={ "target": re.compile( "_blank")})#取出每则新闻的标题
#title.append(h3.text)
m=i.find( name= "p", attrs={ "class": re.compile( "c-author")})#取出每则新闻的发布媒体
m1=m.text.split()[0]
#media.append(m1)
t=m.text.split()[1]#取出每则新闻的发布时间
dt=datetime.strptime(t,'%Y年%m月%d日')
d=dt.strftime('%Y-%m-%d')
#date.append(d)
href=i.h3.a['href']
#link.append(href)
more=i.find( name= "a", attrs={ "class": re.compile( "c-more_link")})#取出更多相关新闻链接
if more != None:
more0=more['href']
more1="http://news.baidu.com"+more0
#more_link.append(more1)
else:
more1='None'
#more_link.append("None")
data.append((d, h3.txt, more1,href))
print("第" + str(k) + "页完成")

复制代码

李冬阳 · 发表于 2017-11-30 23:46:39

chakyam 发表于 2017-11-30 22:37
最后一页不足20条的问题我上次答过了呀

我会用两段代码去做，先用一个py文件去抓取前面每页20条的新闻，然后用另外一个py文件抓取最后一页，就是感觉好麻烦，要添加两次URL，而且要去数最后一页有几条新闻。
可不可以用一个py文件搞定!

chakyam · 发表于 2017-12-1 00:06:50

我上面那个就可以了。。

32269100 · 发表于 2017-12-1 08:19:46

建议你学xpath定位

SylarPu · 发表于 2017-12-1 10:34:41

css,xpath,re,lxml,bs4都可以帮助你

李冬阳 · 发表于 2017-12-1 12:26:03

chakyam 发表于 2017-12-1 00:06
我上面那个就可以了。。

之前粗心了，没认真看。

谢谢你，帮了我这么多！

李冬阳 · 发表于 2017-12-5 21:30:00

本帖最后由李冬阳于 2017-12-5 23:38 编辑

chakyam 发表于 2017-11-30 22:37
最后一页不足20条的问题我上次答过了呀

老师，你好。

我在用之前你指导我的代码进行网络新闻抓取时，出现了一个问题，就是没办法全部抓取。比如下面的例子，网页上有277条新闻（13*20+17），最后只抓取了154条。

import requests
from bs4 import BeautifulSoup
from datetime import datetime
import pandas
import re
data=[]
for k in range(1,15):
newsurl="http://news.baidu.com/ns?word=%28云海金属%2C南京云海特种金属股份有限公司%29&pn="+str((k-1)*20)+"&cl=2&ct=1&tn=newsdy&rn=20&ie=utf-8&bt=1136044800&et=1451577599"
kv={"User-Agent":"Mozilla/5.0"}
res=requests.get(newsurl,headers=kv)
res.encoding='utf-8'
soup=BeautifulSoup(res.text,'html.parser')
news1=soup.find_all('div', class_='result')
for i in news1:
h3=i.find( name= "a", attrs={ "target": re.compile( "_blank")})#取出每则新闻的标题
m=i.find( name= "p", attrs={ "class": re.compile( "c-author")})#取出每则新闻的发布媒体
media=m.text.split()[0]
t=m.text.split()[1]#取出每则新闻的发布时间
dt=datetime.strptime(t,'%Y年%m月%d日')
d=dt.strftime('%Y-%m-%d')
href=i.h3.a['href']
more=i.find( name= "a", attrs={"class":re.compile("c-more_link")})#取出更多相关新闻链接
if more != None:
more0=more['href']
more1="http://news.baidu.com"+more0
else:
more1='None'
data.append((d, h3.text,media, more1,href))
print("第" + str(k) + "页完成")
df=pandas.DataFrame(data)
df.to_excel('002182云海金属.xlsx')

复制代码

最后一页的URL为：http://news.baidu.com/ns?word=%28云海金属%2C南京云海特种金属股份有限公司%29&pn=260&cl=2&ct=1&tn=newsdy&rn=20&ie=utf-8&bt=1136044800&et=1451577599

请老师帮我看看，我也百思不得其解。

而且对于不能完整抓取的情况，程序也不会报错。

chakyam · 发表于 2017-12-6 12:26:58

for k in range(1,15):

chakyam · 发表于 2017-12-6 13:00:59

改进的话可以试试找到每一页新闻下一页这个按钮所指向的链接，最后一页没有下一页按钮，用try except捕捉AttributeError然后结束爬虫

账号		自动登录	找回密码
密码			立即注册

[已解决]求助：爬取百度新闻列表，由于最后一页不足20条，无法爬取出来，怎么办

马上注册，结交更多好友，享用更多功能^_^

爬虫好像在下午4点爬取出问题，夜里11点又正常了。