和vvv 发表于 2017-6-25 09:53:12

27 淘宝商品图片爬虫实战2

本帖最后由 和vvv 于 2017-6-26 19:40 编辑

27 淘宝商品图片爬虫实战2

在上一笔记中,已经解决了对不同商品的搜索,以及爬取1页的图片并保存到本地。本文主要是实现翻页爬取功能,以及整个项目的完整实现。

一、实现翻页功能

打开商品图书搜索结果首页(https://s.taobao.com/search?q=%E5%9B%BE%E4%B9%A6),点击下一页。观察地址栏url:https://s.taobao.com/search?q=%E5%9B%BE%E4%B9%A6&bcoffset=4&ntoffset=4&p4ppushleft=1%2C48&s=44精简之后:https://s.taobao.com/search?q=%E5%9B%BE%E4%B9%A6&s=44再点击第3页:https://s.taobao.com/search?q=%E5%9B%BE%E4%B9%A6&bcoffset=0&ntoffset=0&s=88精简之后:https://s.taobao.com/search?q=%E5%9B%BE%E4%B9%A6&s=88于是,我们就很容易的总结出规律:https://s.taobao.com/search?q=关键词&s=(页数-1)*44因此,我们可以构造出每页的url:for i in range(1,page):
    url = "https://s.taobao.com/search?q="+key+"&s="+str((i-1)*44)到这个地方,翻页功能就实现了。

二、项目的完整实现

总结一下思路:首先从单页面着手,爬取图片并下载到本地。然后实现不同商品的搜索,接下来实现翻页功能。最后是把整个项目整合起来,形成一个比较完整的程序。

完整代码:
**** Hidden Message *****结果:



本项目还有许多值得优化的地方,希望大家多多思考、交流。

如果大家觉得还可以的话,可以到我的淘专辑(http://bbs.fishc.com/forum.php?mod=collection&action=view&ctid=742&fromop=my)看看更多相关的笔记。

tiangolden 发表于 2017-6-25 18:44:04

很精彩,值得一看,多谢分享

18700073832 发表于 2017-7-13 15:03:47

6666

hzswh557 发表于 2017-9-4 11:09:24

学习了哈哈哈

hzswh557 发表于 2017-9-4 11:18:22

{:10_269:}{:10_266:}{:10_244:}{:10_247:}

天下无套 发表于 2017-9-6 17:00:38

原创代码,必须支持一下

木木的青 发表于 2017-9-11 20:55:10

很棒

ChrisYang 发表于 2017-9-12 00:26:20

卡一下

cuzz_py 发表于 2017-9-12 08:44:23

kk

带三个表 发表于 2017-9-12 18:50:16

6666666666666

Brance 发表于 2017-9-20 13:37:52

学习学习。

tuxiaoqing 发表于 2017-9-27 11:01:46

感谢老铁

天使骑魔鬼 发表于 2017-10-13 16:41:24

{:10_254:}

lLYPYTH 发表于 2017-10-20 13:34:39

66

570873084 发表于 2017-10-25 11:21:18

学习一下

先知233 发表于 2017-10-25 11:28:01

感谢分享

ledehui 发表于 2017-11-10 13:11:20

666

来钓鱼 发表于 2017-11-27 23:05:26

{:10_277:}

apyaguang 发表于 2017-11-27 23:18:54

不错不错

li1615882553 发表于 2017-11-29 16:33:38

回复,哈哈!
页: [1] 2 3
查看完整版本: 27 淘宝商品图片爬虫实战2