鱼C论坛

 找回密码
 立即注册
查看: 3058|回复: 12

056轮一只爬虫的自我修养4:OOXX 程序运行正常,但是文件夹里未下载到图片

[复制链接]
发表于 2017-12-29 16:54:26 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
程序运行正常,但是文件夹里没有下载图片,求大神看看

程序

程序
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-12-29 17:32:09 | 显示全部楼层
图片地址已加密。再说了,你都是按部就班,没有查看源代码分析。换个网站测试
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-12-31 02:29:43 | 显示全部楼层
换个网站
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-1-15 20:03:51 | 显示全部楼层
ba21 发表于 2017-12-29 17:32
图片地址已加密。再说了,你都是按部就班,没有查看源代码分析。换个网站测试

请问,像这种网站加密处理后,这种情况就无法爬取了吗?或者说有什么别的方法?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-1-15 21:35:05 | 显示全部楼层
zjd_9 发表于 2018-1-15 20:03
请问,像这种网站加密处理后,这种情况就无法爬取了吗?或者说有什么别的方法?

办法肯定是有的,不过你换个网站吧,那都是以后的事了。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-1-15 21:36:50 | 显示全部楼层
°蓝鲤歌蓝 发表于 2018-1-15 21:35
办法肯定是有的,不过你换个网站吧,那都是以后的事了。

http://www.meizitu.com/ 提供一个网址
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-1-15 22:44:21 | 显示全部楼层
zjd_9 发表于 2018-1-15 20:03
请问,像这种网站加密处理后,这种情况就无法爬取了吗?或者说有什么别的方法?

别的方法当然有。不过建议你换个能正常爬的网站
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-1-16 08:17:07 | 显示全部楼层
网站不是访问不了吗?楼主还可以程序正常运行?没出错吗?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-1-18 12:46:34 | 显示全部楼层
图片地址格式变了,你还用原来的是find_img是找不到的,改一下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-4-21 23:09:00 | 显示全部楼层
cbs 发表于 2018-1-18 12:46
图片地址格式变了,你还用原来的是find_img是找不到的,改一下

<img src="http://wx3.sinaimg.cn/mw600/0076BSS5ly1fqjjkv6w6rj30p00go0u3.jpg" style="max-width: 480px; max-height: 750px;">

  1. import os
  2. import urllib2
  3. import random

  4. def url_open(url):
  5.         request=urllib2.Request(url)
  6.         request.add_header('User-Agent','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36')
  7.        
  8.         '''
  9.         如果使用代理的话,下载的不是妹子图,而是乱七八糟的图片
  10.         proxies=['60.190.199.68:808','183.159.82.206:18118','222.186.45.127:55336']
  11.         proxy=random.choice(proxies)
  12.         proxy_support=urllib2.ProxyHandler({'https':proxy})
  13.         opener=urllib2.build_opener(proxy_support)
  14.         urllib2.install_opener(opener)
  15.         '''

  16.         response=urllib2.urlopen(request)
  17.         html=response.read()
  18.         print url
  19.         return html

  20. def get_pagenumber(url):
  21.         html=url_open(url).decode('utf-8')

  22.         a=html.find('current-comment-page')+23
  23.         b=html.find(']',a)

  24.         return html[a:b]

  25. def find_image(url):
  26.         html=url_open(url).decode('utf-8')
  27.         image_address=[]

  28.         a=html.find('img src=')
  29.         while a!=-1:
  30.                 b=html.find('.jpg',a,a+255)
  31.                 if b != -1:
  32.                         image_address.append(html[a+9:b+4])
  33.                 else:
  34.                         b=a+9

  35.                 a=html.find('img src=',b)

  36.         return image_address

  37. def save_image(folder,image_address):
  38.         for each in image_address:
  39.                 filename=each.split('/')[-1]
  40.                 with open(filename,'wb') as f:
  41.                         image=url_open(each)
  42.                         f.write(image)
  43.        

  44. def download_mm(folder='OOXX',pages=10):
  45.         os.mkdir(folder)
  46.         os.chdir(folder)

  47.         url='http://jandan.net/ooxx'
  48.         page_num=int(get_pagenumber(url))

  49.         for i in range(pages):
  50.                 page_num-=1
  51.                 page_url=url+'/page-'+str(page_num)+'#comments'
  52.                 image_address=find_image(page_url)
  53.                 save_image(folder,image_address)

  54. if __name__=='__main__':
  55.         download_mm()
复制代码


和楼主的问题一样,代码正常执行,但OOXX文件为空。图片地址的格式还是一样的,没有变啊,感觉问题出现在find_image()方法上,image_address这个列表没有成功存放进图片的地址。但不知道为什么?还是说find_image()方法也是对的,原因是图片地址加密了?求大神解答~~~~
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-4-24 00:04:14 | 显示全部楼层
相同的问题
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-10-9 13:48:10 | 显示全部楼层
相同的问题 应该是加密了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-10-9 13:48:57 | 显示全部楼层
teribsandy 发表于 2018-4-21 23:09
和楼主的问题一样,代码正常执行,但OOXX文件为空。图片地址的格式还是一样的,没有变啊,感觉问 ...

请问你解决了吗  是图片加密了的原因吗
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-26 00:38

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表