鱼C论坛

 找回密码
 立即注册
查看: 1193|回复: 10

几个网址几个数字不一样,该如何都打开

[复制链接]
发表于 2018-4-23 20:36:48 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
http://comment.kuwo.cn/com.s?typ ... amp;_=1524483716367
http://comment.kuwo.cn/com.s?typ ... amp;_=1524484065083
http://comment.kuwo.cn/com.s?typ ... amp;_=1524484784853
这是我找到前三页的网址(总共几十页),里面有我需要的内容,我想问的是该怎么才能把这些网址都包含进来,我想着用正则表达式,但是正则表达式需要一个文本,然后根据要求从文本里找
符合要求的内容,但是这个没有文本,这些网站就是最后几个数字不一样,其他都一样。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2018-4-23 20:38:37 | 显示全部楼层
@顺秒爆加速@各位大佬
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-4-23 22:12:27 | 显示全部楼层
自顶
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-4-23 23:00:02 | 显示全部楼层
1.观察数字分布是否有规律,比如id=1, id=2, id=3……,这样就可以用一个变量指代这些id值:每次迭代var += 相应的值,但是通常为了反爬虫的都会把它弄的不均匀分布;2.是在不行就一个个的去爬 (呵呵
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-4-23 23:04:41 | 显示全部楼层
ABC23 发表于 2018-4-23 23:00
1.观察数字分布是否有规律,比如id=1, id=2, id=3……,这样就可以用一个变量指代这些id值:每次迭代var += ...

就是没有规律,你看我那三个网址,我看不出什么规律,有些规律,比如每页有25个内容,它可能就是s=25,s=50那个好办,这个确实没有规律,这个有一二十页,那是不是得弄个列表,然后对这个列表进行遍历循环,requests.get(这个循环),看到就好麻烦,感觉是半自动了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-4-23 23:22:13 | 显示全部楼层
其实这就是为了提高爬虫门槛,防止爬虫的一种(比较)有效策略(哈哈。
关键是『如何获取网页的url地址』。
这里我提供一个思路:网页不可能只有一个链接,它的原始链接通常会包含别的链接,这些链接之间是有关系的(需要自己摸索)。
自己研究网页(网站)源码,看看能不能从别的url定向到你要的这个url。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-4-23 23:27:31 | 显示全部楼层
ABC23 发表于 2018-4-23 23:22
其实这就是为了提高爬虫门槛,防止爬虫的一种(比较)有效策略(哈哈。
关键是『如何获取网页的url地址』 ...

哦,那该怎么下手呢,一个一个的去摸索如同大海捞针,你有没有什么经验,比如我这个几个网址,有什么经验吗?应该找到原始网址应该会是有规律的吧
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-4-23 23:34:34 | 显示全部楼层
http://comment.kuwo.cn/com.s?type=get_comment&uid=0&prod=newWeb&digest=15&sid=5899379&page=2&rows=20&f=web&gid=46fff5dd-5782-4eed-bc64-ddc5ed74d485&jpcallback=getCommentListFn&_=1524484065083

1524484065083应该是当前时间戳*1000,再四舍五入或者直接舍去小数点
其实去掉红字部分也能打开,红字部分应该是用来验证链接有效性的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-4-23 23:44:11 | 显示全部楼层
chakyam 发表于 2018-4-23 23:34
http://comment.kuwo.cn/com.s?type=get_comment&uid=0&prod=newWeb&digest=15&sid=5899379&page=2&rows=20 ...

时间戳是什么意思?哦,那你能不能告诉我如何爬取这些网址所有的汉字内容,我是想把酷我音乐全部的评论都弄下来,但是我输入的网址只能爬取第一页
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-4-24 00:01:33 | 显示全部楼层
fan1993423 发表于 2018-4-23 23:44
时间戳是什么意思?哦,那你能不能告诉我如何爬取这些网址所有的汉字内容,我是想把酷我音乐全部的评论都 ...

看链接,以&分开,有个page参数,后面的数字就可以指定哪一页
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-4-24 14:06:10 | 显示全部楼层
chakyam 发表于 2018-4-23 23:34
http://comment.kuwo.cn/com.s?type=get_comment&uid=0&prod=newWeb&digest=15&sid=5899379&page=2&rows=20 ...

谢谢,我懂了,但是我想问个问题,你是怎么看出红色的部分可以不要,是试出来的还是有什么技巧
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-23 18:46

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表