鱼C论坛

 找回密码
 立即注册
查看: 1111|回复: 0

[技术交流] 爬取百思不得姐图片--请大家帮忙指正

[复制链接]
发表于 2018-4-2 13:54:24 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
  1. #coding:utf-8
  2. import urllib.request
  3. import re
  4. import os

  5. num = int(input('请输入您需要爬的页数:\n'))

  6. for page_num in range(0,num):
  7.   
  8.     url = 'http://www.budejie.com/pic/' + str(page_num)
  9.     headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}
  10.     req = urllib.request.Request(url,headers=headers)
  11.     response = urllib.request.urlopen(req)
  12.     html = response.read().decode('utf-8')
  13.     # print(html)

  14.     target_url = re.findall(r'data-original="(.+?)" title=*',html)

  15.     file_path = '存放图片的path'

  16.     os.chdir(file_path)
  17.     os.mkdir(str(page_num))
  18.     os.chdir(str(page_num))
  19.     # print(os.getcwd())
  20.     for img_url in target_url:
  21.         img_name = img_url.split('.')[-2].split('/')[-1]
  22.         img_type = img_url.split('.')[-1]
  23.         img_finall = img_name + '.' + img_type
  24.         urllib.request.urlretrieve(img_url,img_finall)
  25.         print('%s\t已下载完成'%img_url)
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-27 00:05

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表