最新煎蛋网爬虫，xxoo妹子图，解密反爬虫机制，带源码

gopythoner · 发表于 2018-3-17 19:27:56

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 gopythoner 于 2018-5-2 10:27 编辑

前两天写了一个有道翻译的的爬虫http://bbs.fishc.com/thread-106892-1-1.html，解密的了有道翻译的反爬虫机制

主要是因为群里面经常有人会遇到{"errorCode":50}所以去写的

今天又写了另一个论坛经常会问到的爬虫，是关于煎蛋网的妹子图爬虫

很多爬虫煎蛋网妹子图的都知道，现在妹子图的链接加密了，请求的网页根本没有图片链接，所以无法下载图片

当然，可以通过selenium模拟浏览器去爬

不过，我这篇不是用的这个，而是解密了煎蛋网的加密方式，直接获取图片链接了

爬虫思路：

登录/注册后可看大图

直接贴源代码吧

# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup
import hashlib
import re
import base64
def _md5(value):
'''md5加密'''
m = hashlib.md5()
m.update(value.encode('utf-8'))
return m.hexdigest()
def _base64_decode(data):
'''bash64解码，要注意原字符串长度报错问题'''
missing_padding = 4 - len(data) % 4
if missing_padding:
data += '=' * missing_padding
return base64.b64decode(data)
def get_imgurl(m, r='', d=0):
'''解密获取图片链接'''
e = "DECODE"
q = 4
r = _md5(r)
o = _md5(r[0:0 + 16])
n = _md5(r[16:16 + 16])
l = m[0:q]
c = o + _md5(o + l)
m = m[q:]
k = _base64_decode(m)
h = list(range(256))
b = [ord(c[g % len(c)]) for g in range(256)]
f = 0
for g in range(0, 256):
f = (f + h[g] + b[g]) % 256
tmp = h[g]
h[g] = h[f]
h[f] = tmp
t = ""
p, f = 0, 0
for g in range(0, len(k)):
p = (p + 1) % 256
f = (f + h[p]) % 256
tmp = h[p]
h[p] = h[f]
h[f] = tmp
t += chr(k[g] ^ (h[(h[p] + h[f]) % 256]))
t = t[26:]
return t
def get_r(js_url):
'''获取关键字符串'''
js = requests.get(js_url).text
# _r = re.findall('c=f_[\w\d]+\(e,"(.*?)"\)', js)[0] 这个已经改了
_r = re.findall('c=[\w\d]+\(e,"(.*?)"\)', js)[0]
return _r
def get_urls(url):
'''获取一个页面的所有图片的链接'''
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:47.0) Gecko/20100101 Firefox/47.0',
'Host': 'jandan.net'
}
html = requests.get(url, headers=headers).text
js_url = 'http:' + re.findall('<script src="(//cdn.jandan.net/static/min/[\w\d]+\.\d+\.js)"></script>', html)[-1]
_r = get_r(js_url)
soup = BeautifulSoup(html, 'lxml')
tags = soup.select('.img-hash')
for tag in tags:
img_hash = tag.text
img_url = get_imgurl(img_hash,_r)
print(img_url)
if __name__ == '__main__':
get_urls('http://jandan.net/ooxx/page-44')

复制代码

上面的代码运行的部分结果：

//ww3.sinaimg.cn/mw600/0073ob6Pgy1fpet9wku7dj30hs0qljuz.jpg
//ww3.sinaimg.cn/mw600/0073tLPGgy1fpet9mszjwj30hs0g1jsv.jpg
//ww3.sinaimg.cn/mw600/0073ob6Pgy1fpesskkgobj31jk1jkk5b.jpg
//wx3.sinaimg.cn/mw600/006XfbArly1fpesq2jn1vj30j60svaz3.jpg
//wx3.sinaimg.cn/mw600/6967abd2gy1fpenoyobrcj20u03d0b2d.jpg
//wx3.sinaimg.cn/mw600/6967abd2gy1fpenp38v9uj20u03zkhdy.jpg

复制代码

这里我打印了一个页面的全部图片链接，没有下载，下载的事情你们自己去写吧
具体的分析过程可以看我博客文章解析，论坛不支持markdown，贴过来是真的麻烦
http://www.tendcode.com/article/jiandan-meizi-spider/

gopythoner · 发表于 2018-3-19 08:43:29

毛永乐发表于 2018-3-19 04:11
:victory::dizzy::o

你这是emoji表情吗

gopythoner · 发表于 2018-3-20 15:18:04

捞一下妹子图爬虫。只有人看，没人评论，快要沉了

18133942901 · 发表于 2018-3-20 16:00:02

狂拽酷炫吊炸天

payton24 · 发表于 2018-3-21 23:32:36

厉害，加密的都破了

gopythoner · 发表于 2018-3-22 08:56:19

payton24 发表于 2018-3-21 23:32
厉害，加密的都破了

希望鱼油不要再乱爬，免得又被煎蛋换了加密方式

ghjghj2012 · 发表于 2018-3-23 21:55:14

报错了，楼主

Traceback (most recent call last):
  File "C:/Users/wxy/Desktop/python/jiandanmeizi_jiami.py", line 83, in <module>
get_urls('http://jandan.net/ooxx/page-44')
  File "C:/Users/wxy/Desktop/python/jiandanmeizi_jiami.py", line 73, in get_urls
_r = get_r(js_url)
  File "C:/Users/wxy/Desktop/python/jiandanmeizi_jiami.py", line 61, in get_r
_r = re.findall('c=f_[\w\d]+\(e,"(.*?)"\)', js)[0]
IndexError: list index out of range

gopythoner · 发表于 2018-3-23 22:02:31

ghjghj2012 发表于 2018-3-23 21:55
报错了，楼主

Traceback (most recent call last):

煎蛋改了js了，我擦，改的也太快了吧，才过了几天啊

你把报错这句改成这样

_r = re.findall('c=[\w\d]+\(e,"(.*?)"\)', js)[0]

复制代码

ghjghj2012 · 发表于 2018-3-23 22:47:37

gopythoner 发表于 2018-3-23 22:02
煎蛋改了js了，我擦，改的也太快了吧，才过了几天啊

你把报错这句改成这样

果然理解才是王道，随便一改就不会弄了，强

fan1993423 · 发表于 2018-3-28 11:30:23

gopythoner 发表于 2018-3-23 22:02
煎蛋改了js了，我擦，改的也太快了吧，才过了几天啊

你把报错这句改成这样

楼主，你能说一下这个爬虫的思路吧，萌新表示看不懂是什么思路

gopythoner · 发表于 2018-3-28 11:31:39

fan1993423 发表于 2018-3-28 11:30
楼主，你能说一下这个爬虫的思路吧，萌新表示看不懂是什么思路

看流程图啊，还有，你去看我博客的分析

fan1993423 · 发表于 2018-3-28 18:19:03

我看你用的是import requests我用说没有这个模块，我知道个urllib.request这个是干嘛用的，import requests
from bs4 import BeautifulSoup
import hashlib
import re
import base64
除了re我都没学过，这些模块是干嘛用的？

gopythoner · 发表于 2018-3-29 08:36:58

BeautifulSoup是用来提取信息的，hashlib和base64都是用来加密解密的

PY荣 · 发表于 2018-3-29 22:05:58

我也是煎蛋用户，还是不要乱爬了吧。

abcygq456 · 发表于 2018-6-5 15:38:31

楼楼现在打印出来是乱码了。。先告诉楼楼一声。。。

abcygq456 · 发表于 2018-6-5 16:00:52

abcygq456 发表于 2018-6-5 15:38
楼楼现在打印出来是乱码了。。先告诉楼楼一声。。。

我把部分代码改了直接返回图片地址
t = ""
p, f = 0, 0

p = (p + 1) % 256
f = (f + h[p]) % 256
tmp = h[p]
h[p] = h[f]
h[f] = tmp

t = 'http://w' + str(k)[2:len(str(k))-1]

return t

这样做功能实现了，但是感觉还会有问题希望楼楼有时间看下

13072190030 · 发表于 2018-8-9 09:45:27

abcygq456 发表于 2018-6-5 16:00
我把部分代码改了直接返回图片地址
t = ""
p, f = 0, 0

2018-8-9表示乱码已恢复

账号		自动登录	找回密码
密码			立即注册

[作品展示] 最新煎蛋网爬虫，xxoo妹子图，解密反爬虫机制，带源码

马上注册，结交更多好友，享用更多功能^_^

评分