爬取百思不得姐图片--请大家帮忙指正

mongoole · 发表于 2018-4-2 13:54:24

您需要登录才可以下载或查看，没有账号？立即注册

x

#coding:utf-8
import urllib.request
import re
import os
num = int(input('请输入您需要爬的页数：\n'))
for page_num in range(0,num):
url = 'http://www.budejie.com/pic/' + str(page_num)
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}
req = urllib.request.Request(url,headers=headers)
response = urllib.request.urlopen(req)
html = response.read().decode('utf-8')
# print(html)
target_url = re.findall(r'data-original="(.+?)" title=*',html)
file_path = '存放图片的path'
os.chdir(file_path)
os.mkdir(str(page_num))
os.chdir(str(page_num))
# print(os.getcwd())
for img_url in target_url:
img_name = img_url.split('.')[-2].split('/')[-1]
img_type = img_url.split('.')[-1]
img_finall = img_name + '.' + img_type
urllib.request.urlretrieve(img_url,img_finall)
print('%s\t已下载完成'%img_url)

复制代码

账号		自动登录	找回密码
密码			立即注册

[技术交流] 爬取百思不得姐图片--请大家帮忙指正