鱼C论坛

 找回密码
 立即注册
查看: 1763|回复: 1

[作品展示] 分享爬妹子图网站 [滑稽]

[复制链接]
发表于 2018-4-16 16:36:53 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
程序的功能是爬妹子图,可以手动设置想爬页数,系统内要有d盘哦。
搞了一天终于搞出来了 ~

#auther: Lian2014051414
#date : 2018.4.16

import requests
from bs4 import BeautifulSoup
import os



def gethtml(url,code = 'utf-8'):
                try:
                        head = {"user-agent":"Mozilla/5.0"}
                        r = requests.get(url,headers = head)
                        r.raise_for_status()
                        r.encoding = code
                        print('获取页面完成,请等待...')
                        return r.text
                except:
                        print('获取页面失败!')


def getphotolist(lst,html):

        head = 'src='
        tail = '.jpg'
        a = html.find(head)

        while a != -1:
                b = html.find(tail,a,a+255)
                if b != -1:
                        lst.append(html[a+5:b+4])
                else:
                        b = a + 5
                a = html.find(head,b)



def savephoto(lst,fpath):
        if not os.path.exists(fpath):
                os.mkdir(fpath)       
        for i in lst:
                name = i.split('/')[-1]
                path = fpath + name
                r = requests.get(i,headers = {"user-agent":"Mozilla/5.0"})
                with open(path,'wb') as f:
                        f.write(r.content)
                        f.close()



def main():
        num1 = int(input('请输入你想从第几页开始~:'))
        num2 = int(input('请输入你想到第几页结束~:'))
        print('爬取开始~[手动滑稽]')
        os.mkdir('d://photo')
        for i in range(num1,num2):
                root = 'd://photo//'+ str(i) + '//'
                #for i in range(5545,5548):
                url = 'http://www.meizitu.com/a/'+ str(i) +'.html'
                lst = []
                html = gethtml(url)
                getphotolist(lst,html)
                savephoto(lst,root)
                print('第%d页爬取完成!' % i)



if __name__ == '__main__':



        main()
        print('全部爬取完成!')
        input()
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-6-19 14:58:47 | 显示全部楼层
远程主机强制关闭了一个现有连接
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-21 00:03

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表