鱼C论坛

 找回密码
 立即注册
查看: 1816|回复: 2

关于爬虫给了10个url 但只爬出了7个

[复制链接]
发表于 2017-9-17 17:51:29 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
爬取搜狗微信公众号的项目
爬取到了10个url
10个url再去爬  结构都是一样的 为什么只爬出来了7个 剩下的三个url我都看过了 结构是一样的

  1. def get_content(list_url):
  2.     for i in range(0,len(list_url),1):
  3.         try:
  4.             data = use_proxy(list_url[i])
  5.             soup = BeautifulSoup(data,'lxml')

  6.             titles = soup.select('#js_article > div.rich_media_inner > div > div > h2')
  7.             times = soup.select('#js_article > div.rich_media_inner > div > div > div > em')
  8.             texts = soup.select('#js_content > section ')

  9.             for title,time,text in zip(titles,times,texts):
  10.                 data = {
  11.                     'title' : title.get_text(),
  12.                     'time' : time.get_text(),
  13.                     'text' : text.get_text()
  14.                     }
  15.                 print(data)
复制代码


伤心 这是代码主函数  
有大大解释下吗  
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-9-18 10:05:51 | 显示全部楼层
是不是你的titles、times、texts里面有一个只有7项,如:
  1. >>>a=[1,2]
  2. >>>b=["a","b","c"]
  3. >>>c=[3,4,5,6]
  4. >>>for i,j,k in zip(a,b,c):
  5. ...        print(i,j,k)
  6. 1,a,3
  7. 2,b,4
复制代码

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-9-18 11:26:57 | 显示全部楼层
Teagle 发表于 2017-9-18 10:05
是不是你的titles、times、texts里面有一个只有7项,如:

我分开写试试
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-3-29 00:33

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表