鱼C论坛

 找回密码
 立即注册
查看: 2961|回复: 0

[技术交流] 29 抓包分析实战准备

[复制链接]
发表于 2017-6-25 21:25:26 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 和vvv 于 2017-6-26 19:38 编辑
29 抓包分析准备

一、抓包分析的必要性和重要性
      我们以前编写的爬虫程序,都是在网页源码中提取我们需要的东西。如果离开了网页中的源码,我们的程序就一筹莫展了。但是呢,实际情况就是如此。网站管理员或者其他人当然知道有爬虫的存在。对于爬虫,他们是不欢迎的。于是,他们就想出了各种办法来防止爬虫。最简单的就是直接把爬虫拦截在国门之外,但魔啊,始终高一丈,爬虫中总是有各种办法破解。因此,采取了把网站的数据隐藏起来,不直接显示在源码中。这种办法的确有点高深,极大程度上的保护了网站。但我们的爬虫不高兴了,于是出现了抓包分析这门技术。
      如今,绝大部分稍微高级一点的网站都使用了动态生成数据的技术。因此,掌握了抓包技术,才算爬虫入了门。利用一些工具,抓包技术能够获取一切的网站数据和行为。(只是有些加了密,无法知道是什么意思)。


二、抓包分析实战


1、工欲善其事必先利其器
(1)如果要使用抓包分析,首先需要一款软件(fiddler),它是抓包分析的神器。大家可以从官网(http://www.telerik.com/fiddler)或者其他地方下载。我分享一个百度云链接,算是比较新的版本。
  1. 链接:http://pan.baidu.com/s/1nvjww1z 密码:5o4w
复制代码
(2)安装好软件后,你应该会看到这个界面:

无标题.png



关于fiddler的详细情况,大家可以看这里(http://zhinan.sogou.com/guide/detail/?id=1610005587)或者上网搜索。我们要是用的会在实战中讲解。
(3)fiddler为何能够抓取数据
1.png

从图中可以看出,fiddler处于用户和服务器之间,所有的信息都会通过它。当然内购抓取所有信息。fiddler起了一个代理服务器的作用。其地址是127.0.0.1,即本机地址。端口是8888.
无标题.png



图中的三块区域使我们主要使用的。左下方还有一个命令行工具,一般中输入指令:clear,清空所有。
3.png

大家首先先熟悉这个软件(看网上的教程),图中的三块区域是重点。
(4)如何抓包呢?
首先你得有一款专用的浏览器(注意:不是你常用的),专门来进行抓包处理。推荐是火狐浏览器,比较好用。在你没有任何设置之前,访问网页在fiddler中是没有相应的数据的。因此首先进行正确的配置。
打开火狐浏览器,点击“选项”,点击“高级”,点击“网络”,然后点击“设置”。将会弹出一个窗口,按照下图将之配置好:
无标题.png



设置好了之后,访问任何的网站都会在fiddler中看到大量的信息。比如访问CSDN博客首页(为了更好地观察,刷新网页之前,先到fiddler左下角的命令行出输入clear清空信息)。在fiddler中找到csdn的网址(其他也行),在Response区域选择TextView,然后点击提示信息(编码提示),可以在下面看到网站的源码(即返回的内容)。
无标题.png



你可以切换选项来查看,观察效果。也可以选择其他的会话链接。


这就是简单的抓包过程。接下来会讲解更好的东西。一定要先把这个软件熟悉,后面的一切它是基础。

如果大家觉得还可以的话,可以到我的淘专辑(http://bbs.fishc.com/forum.php?mod=collection&action=view&ctid=742&fromop=my)看看更多相关的笔记。

评分

参与人数 1鱼币 +10 收起 理由
小甲鱼 + 10 支持楼主!

查看全部评分

本帖被以下淘专辑推荐:

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-23 22:30

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表