设为首页收藏本站

切换到窄版

鱼C论坛»论坛 › 技术交流 › Python交流 › 这个爬虫总是报错，请大神帮帮忙

发新帖

查看: 1620|回复: 4

[已解决]这个爬虫总是报错，请大神帮帮忙

猥琐不是错

发表于 2017-3-12 12:58:55 | 显示全部楼层 |阅读模式

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import urllib
import re,os

url = 'http://jandan.net/ooxx'
page = urllib.urlopen(url)
html = page.read()
req = r'src="(.*?.jpg)"'
reg = re.compile(req)
img_addrs = re.findall(reg,html)

for each in img_addrs:
filename = each.split('/')[-1]
with open(filename, 'wb') as f:
img = urllib.urlopen(each).read()
f.write(img)

最佳答案

月排行榜 / 总排行榜

文明的读书人

2017-3-12 20:46:34

#coding=utf-8
import re
import requests
url = 'http://jandan.net/ooxx'
html = requests.get(url).text
pic_url = re.findall(r'<img src="//(.*?)" />',html,re.S)
print pic_url #测试正则表达式是否成功
for i in xrange(0,len(pic_url)):
pic_url[i] = "http://"+pic_url[i]
print pic_url #测试是否获取到图片链接
t = len(pic_url)
print t #图片的数量
i = 0
for each in pic_url:
try:
pic= requests.get(each, timeout=10)
except requests.exceptions.ConnectionError:
print '当前图片无法下载'
continue
string = '%s.jpg' %i
fp = open(string,'wb')
fp.write(pic._content)
fp.close()
i += 1
print '下载完成'

复制代码

跳转到最佳答案楼层

QQ截图20170312125817.png

想知道小甲鱼最近在做啥？请访问 -> ilovefishc.com

回复

使用道具举报

发表于 2017-3-12 13:06:02 | 显示全部楼层

代码不全
撤退

想知道小甲鱼最近在做啥？请访问 -> ilovefishc.com

回复支持反对

使用道具举报

发表于 2017-3-12 19:47:09 | 显示全部楼层

jandan 爬到的图片要加 http: 前缀

想知道小甲鱼最近在做啥？请访问 -> ilovefishc.com

回复支持反对

使用道具举报

文明的读书人

发表于 2017-3-12 20:01:08 | 显示全部楼层

#coding=utf-8
import urllib
import re
url = 'http://jandan.net/ooxx'
page = urllib.urlopen(url)
html = page.read()
#print html
req = r'<img src="//(.*?)" />'
reg = re.compile(req)
img_addrs = re.findall(reg,html)
print img_addrs
for i in xrange(0,len(img_addrs)):
img_addrs[i] = "http://"+img_addrs[i]
print img_addrs
t = len(img_addrs)
print t
x = 1
for img_url in img_addrs:
try:
urllib.urlretrieve(img_url,'%s.jpg' %x)
x+=1
print "下载完成第%d张图片:%s" %(x,img_url)
except Exception, e:
print "下载图片失败:%s" %(img_url)
print '报告:下载完成!'

复制代码

为嘛我改进了，但是有时候能下载图片成功，但有时候下载图片的大小为1KB。。。

想知道小甲鱼最近在做啥？请访问 -> ilovefishc.com

回复支持反对

使用道具举报

文明的读书人

发表于 2017-3-12 20:46:34 | 显示全部楼层本楼为最佳答案

这个最佳答案由文明的读书人给出，感谢文明的读书人的回答。

单击隐藏图章

#coding=utf-8
import re
import requests
url = 'http://jandan.net/ooxx'
html = requests.get(url).text
pic_url = re.findall(r'<img src="//(.*?)" />',html,re.S)
print pic_url #测试正则表达式是否成功
for i in xrange(0,len(pic_url)):
pic_url[i] = "http://"+pic_url[i]
print pic_url #测试是否获取到图片链接
t = len(pic_url)
print t #图片的数量
i = 0
for each in pic_url:
try:
pic= requests.get(each, timeout=10)
except requests.exceptions.ConnectionError:
print '当前图片无法下载'
continue
string = '%s.jpg' %i
fp = open(string,'wb')
fp.write(pic._content)
fp.close()
i += 1
print '下载完成'

复制代码

想知道小甲鱼最近在做啥？请访问 -> ilovefishc.com

回复支持 1 反对 0

使用道具举报

发新帖

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-4 05:54

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表