鱼C论坛

 找回密码
 立即注册
查看: 2367|回复: 19

你们代理ip地址都是哪里找的

[复制链接]
发表于 2017-4-15 15:52:36 | 显示全部楼层 |阅读模式
5鱼币

有没有什么网站,贡献一下,找了一个一天既然只找到一个

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-4-15 16:07:40 | 显示全部楼层
你最好...最好...买吧
免费的真真不靠谱...
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-4-15 16:09:42 | 显示全部楼层
http://www.xicidaili.com/
http://www.kuaidaili.com/
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2017-4-15 16:09:53 | 显示全部楼层
新手·ing 发表于 2017-4-15 16:07
你最好...最好...买吧
免费的真真不靠谱...

付费的也不一定靠谱,据说很多付费的也不能用
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-4-15 16:10:29 | 显示全部楼层
我自己写了个程序,可以获取一些免费的代理IP,要不楼主看看?
  1. from urllib.request import *

  2. #url = 'http://www.xicidaili.com'

  3. def get(url='http://www.xicidaili.com'):

  4.     '返回一个叫做 ip_dict 的字典\n,格式:\nip_dict[ip] = [port,place,anonymity,form,live_time,update_time]'
  5.    
  6.     url = Request(url)
  7.     url.add_header("User-Agent",'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36')

  8.     html = urlopen(url)
  9.     response = html.read().decode('utf-8')

  10.     ip_dict = {}

  11.     #the_num 为 '<img src="http://fs.xicidaili.com/images/flag/cn.png" alt="Cn" /></td>' 的位置
  12.     the_num = response.find('<img src="http://fs.xicidaili.com/images/flag/cn.png" alt="Cn" /></td>')

  13.     count = 0
  14.    
  15.     while the_num != -1:
  16.         #查找IP地址
  17.         a = response.find('<td>',the_num) + 4
  18.         b = response.find('</td>',a)
  19.         ip = response[a:b]

  20.         #查找端口号
  21.         a = response.find('<td>',b) + 4
  22.         b = response.find('</td>',a)
  23.         port = response[a:b]


  24.         #查找服务器地址
  25.         a = response.find('<td>',b) + 4
  26.         b = response.find('</td>',a)
  27.         place = response[a:b]

  28.         #查找是否匿名
  29.         a = response.find('<td class="country">',b) + 20
  30.         b = response.find('</td>',a)
  31.         anonymity = response[a:b]

  32.         #查找代理类型
  33.         a = response.find('<td>',b) + 4
  34.         b = response.find('</td>',a)
  35.         form = response[a:b]
  36.         
  37.         #查找存活时间
  38.         a = response.find('<td>',b) + 4
  39.         b = response.find('</td>',a)
  40.         live_time = response[a:b]
  41.         
  42.         #查找更新时间
  43.         a = response.find('<td>',b) + 4
  44.         b = response.find('</td>',a)
  45.         update_time = response[a:b]

  46.         #将查找结果加入 ip_dict
  47.         ip_dict[ip] = [port,place,anonymity,form,live_time,update_time]

  48.         #为下一次查找初始化
  49.         the_num = response.find('<img src="http://fs.xicidaili.com/images/flag/cn.png" alt="Cn" /></td>',b)

  50.         #计数器
  51.         count += 1

  52.     print('一共找到%d个' % count)
  53.     return ip_dict





  54. if __name__ == '__main__':
  55.     ip_dict = get()
  56.    
复制代码

点评

我很赞同!: 5.0
我很赞同!: 5
这个就是爬出免费网站的ip...  发表于 2017-4-15 16:13
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2017-4-15 16:37:13 | 显示全部楼层
MSK 发表于 2017-4-15 16:10
我自己写了个程序,可以获取一些免费的代理IP,要不楼主看看?

首先,你这个代码返回的值只是爬到的数量,并没有把ip,端口列出来。
而且,一旦爬的数量多,你在访问时肯定也需要代理ip,但你里面也没有。
当然最关键的还是,没有进行测试,网站上百分90以上的代理都是不能用的。
总结来说,用你代码,还不如去网站一个一个的去试。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2017-4-15 16:40:52 | 显示全部楼层
新手·ing 发表于 2017-4-15 16:09
http://www.xicidaili.com/
http://www.kuaidaili.com/

这两个我都去试了,十个个里面没有一个可以用的,成功率估计只有百分之几
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-4-15 16:43:38 | 显示全部楼层
怎么会没有啊,你需要用一个变量来存发get()的返回值啊,
像这样就可以查看所有爬到的代理:
  1. cc = get()
  2. for each in cc.items():
  3.     print(each)
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-4-15 16:45:16 | 显示全部楼层
get()返回的是一个字典,我为了其他程序方便调用故意这么写的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-4-15 17:00:45 | 显示全部楼层
光宇 发表于 2017-4-15 16:40
这两个我都去试了,十个个里面没有一个可以用的,成功率估计只有百分之几

是啊,不收费基本没有好的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2017-4-15 17:01:52 | 显示全部楼层
MSK 发表于 2017-4-15 16:45
get()返回的是一个字典,我为了其他程序方便调用故意这么写的

我说了,你这个代码最关键不是这个,而是没有进行测试,该代理ip地址是否可用,所以,用你这个代码得到ip我还得一个一个去试,和去网站试没区别。而且你这个代码没有代理,一旦量大,分分钟被屏蔽。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-4-15 17:07:44 | 显示全部楼层
IP可不可用道是个问题,不过我只对网站发起一次访问,怎么会屏蔽啊
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-4-15 17:10:58 | 显示全部楼层
我其他程序使用这个模块的时候我加了几句代码:
  1. #使用代理
  2. def proxy_open(url):
  3.     no_error = True#检测是否存在异常
  4.    
  5.     while no_error:
  6.         a = random.choice(ip_list)#ip_list是一个字典,存放代理IP
  7.         ip = a[0]
  8.         port = a[0][1]
  9.         
  10.         proxy = ProxyHandler({ip:port})
  11.         opener = build_opener(proxy)
  12.         opener.addheaders = [("User-Agent",'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36')]
  13.         try:
  14.             html = opener.open(url)
  15.         except:
  16.             print('代理IP%s,端口%s异常' % (ip,port))
  17.             print('正在切换代理')
  18.             ip_list.remove(a)
  19.         else:
  20.             no_error = False
  21.             
  22.         return html.read()
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2017-4-15 17:12:12 | 显示全部楼层
MSK 发表于 2017-4-15 17:07
IP可不可用道是个问题,不过我只对网站发起一次访问,怎么会屏蔽啊


我说了,是数量多的时候,你能先看清楚我的话在说吗。正常情况下,一页里面不见得就有一个能有ip,你肯定要去第二页访问,第三页访问,是不是?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-4-15 17:13:50 | 显示全部楼层
光宇 发表于 2017-4-15 17:12
我说了,是数量多的时候,你能先看清楚我的话在说吗。正常情况下,一页里面不见得就有一个能有ip,你肯 ...

嗯,我改改
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-4-16 08:27:18 | 显示全部楼层
我在家爬http://www.xicidaili.com/的免费代理IP,结果直接被拉黑名单了。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-4-16 08:38:59 | 显示全部楼层
Aifrincoo 发表于 2017-4-16 08:27
我在家爬http://www.xicidaili.com/的免费代理IP,结果直接被拉黑名单了。

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2017-4-17 08:53:00 | 显示全部楼层
Aifrincoo 发表于 2017-4-16 08:27
我在家爬http://www.xicidaili.com/的免费代理IP,结果直接被拉黑名单了。

在爬代理也要加代理ip,你不知道?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-4-17 16:49:32 | 显示全部楼层
光宇 发表于 2017-4-17 08:53
在爬代理也要加代理ip,你不知道?

被拉黑了才知道
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-24 13:25

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表