鱼C论坛

 找回密码
 立即注册
查看: 2616|回复: 10

[技术交流] 32 腾讯视频《楚乔传》最新短评爬取(使用浏览器自带工具分析)

[复制链接]
发表于 2017-6-27 09:23:37 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 和vvv 于 2017-11-18 15:33 编辑
32 腾讯视频《楚乔传》最新短评爬取(使用浏览器自带工具分析)

由于fiddler软件配置的复杂性,本文利用单纯的浏览器进行抓包分析。不过,还是最好把fiddler软件配置好。本文中,利用搜狗浏览器(其他也可以)的开发者工具(F12键)来实现对腾讯视频《楚乔传》最新短评的爬取。

用到的工具:1、搜狗浏览器(用来抓包分析)。
                      2、新建一个Word文件,用来保存相关的数据,进行分析。

抓取网站:https://v.qq.com/tv/p/topic/cqzzt/index.html。

实现目标:爬取最新短评下的所有评论。

关于具体的抓包分析思路和方法,请看上一笔记(http://bbs.fishc.com/thread-89708-1-1.html)。


                               
登录/注册后可看大图

                               
登录/注册后可看大图


一、分析

(1)打开页面,按“F12”,再对网页进行刷新。便能够发现许多加载出的页面,选择JS(动态成的页面),进行查找。有了上一次的经验,找不了多久,应该就会发现。
1.png


我们再点开序号为0的那个:
2.png

(2)再把其他的点开查看,刚好是最新评论下的内容。而且,数一下条数,刚好与最新评论下显示出来的相同。于是再结合上一笔记已经发现的规律,可以发现很多问题了。把这个链接保存到文档中,并做好标记。
  1. https://coral.qq.com/article/1966037100/comment?commentid=0&reqnum=10&tag=&callback=jQuery112409468861236485373_1498521559355&_=1498521559356
复制代码
精简之后:
  1. https://coral.qq.com/article/1966037100/comment?commentid=0&reqnum=10&callback=jQuery
复制代码
是不是有看到“reqnum”了,对的,就是代表显示的评论总数。当我们修改它时,会返回不同的评论。(具体请看上一笔记:
http://bbs.fishc.com/thread-89708-1-1.html)。但是,最终发现,“reqnum”最多只能返回50条,在增大也是返回50条。那么多评论,显然不可能只有50条。于是,点击“加载更多”观察情况。


(3)最终我们发现:
3.png

把链接复制下来:
  1. https://coral.qq.com/article/1966037100/comment?commentid=6285142538073027582&reqnum=20&tag=&callback=jQuery112409468861236485373_1498521559355&_=1498521559357
复制代码
精简之后:

  1. https://coral.qq.com/article/1966037100/comment?commentid=6285142538073027582&reqnum=20&callback=jQuery
复制代码
我们改变“reqnum”字段的值,发现也最多只有50条。



(4)再来“加载更多”试试:


  1. https://coral.qq.com/article/1966037100/comment?commentid=6284720078337035557&reqnum=20&tag=&callback=jQuery112409468861236485373_1498521559355&_=1498521559358
复制代码
精简之后:
  1. https://coral.qq.com/article/1966037100/commentco?cmmentid=6284720078337035557&reqnum=20&callback=jQuery
复制代码
再次变“reqnum”字段的值,发现也最多只有50条。但是,我们发现一个问题:commentid字段的值发生了改变,于是,我们猜测:是不是一个commentid对应50条评论。于是,我们去找,发现正是如此。
4.png
(5)于是,到了这个地方,就大功告成了。提取评论的内容只需简单的正则表达式即可。关键在于提取commentid。于是,我们打算这样做:

爬取第一条评论链接,获取commentid的值,再依次爬取这些页面,获得评论和commentid的值,依次爬取。这样的话,几乎可以爬取所有的最新评论。
来试试吧。




二、实践才是王道


我们从第一个评论页面开始爬取,即这个链接:
  1. https://coral.qq.com/article/1966037100/comment?commentid=0&reqnum=10&callback=jQuery
复制代码
为了尽可能多的爬取,我们将reqnum设置为50(最大为50条)。在我编写爬虫时时这个结果,以后的话就按分析结果来做。于是,爬取链接可以为:
  1. https://coral.qq.com/article/1966037100/comment?commentid=评论ID号&reqnum=50&callback=jQuery
复制代码
提取评论内容的正则:
  1. pat1 = '"content":"(.*?)",'
复制代码
提取id号的正则:
  1. pat2 = '{"id":"(.*?)",'
复制代码


完整代码:

在附件里。






结果(自我感觉还不错),前面打印的是每次调用的代理IP(也可以不打印):
  1. 61.191.41.130
  2. 115.231.175.68
  3. 61.191.41.130
  4. 122.226.168.180
  5. 61.191.41.130
  6. 115.231.175.68
  7. 122.226.168.180
  8. 61.191.41.130
  9. 115.231.175.68
  10. 61.191.41.130
  11. 115.231.175.68
  12. 115.231.175.68
  13. 122.226.168.180
  14. 61.191.41.130
  15. 61.191.41.130
  16. 115.231.175.68
  17. 122.226.168.180
  18. 61.191.41.130
  19. 115.231.175.68
  20. 122.226.168.180
  21. 122.226.168.180
  22. 115.231.175.68
  23. 115.231.175.68
  24. 61.191.41.130
  25. 122.226.168.180
  26. 61.191.41.130
  27. 61.191.41.130
  28. 122.226.168.180
  29. 115.231.175.68
  30. 122.226.168.180
  31. 115.231.175.68
  32. 61.191.41.130
  33. 115.231.175.68
  34. 115.231.175.68
  35. 122.226.168.180
  36. 61.191.41.130
  37. 61.191.41.130
  38. 61.191.41.130
  39. 122.226.168.180
  40. 115.231.175.68
  41. 61.191.41.130
  42. 115.231.175.68
  43. 61.191.41.130
  44. 115.231.175.68
  45. 115.231.175.68
  46. 122.226.168.180
  47. 122.226.168.180
  48. 122.226.168.180
  49. 61.191.41.130
  50. 61.191.41.130
  51. 115.231.175.68
  52. 已爬取评论总数:2550
  53. 演得好墨迹
  54. 剧情越来越拖沓了,是为了强行凑时间嘛?一场戏演了三集。
  55. 怎么感觉燕洵是男主 复仇的之路 月公子的很平淡 戏份很少啊 女主也和男二跑了
  56. 太后去哪了,白笙不是太后最喜欢的女儿吗,怎么没有出来救燕家
  57. 宇文钥一定是天平座的,既然现在担心烟熏了,那当初别放最后一箭啊!亏他还是谍纸天眼的继承人,这皇帝要斩尽杀绝的道理会不知道? 这货到底是怎么想的?
  58. 老铁,最后一箭不是宇文玥放的,好好看看剧情
  59. 从红高粱到楚乔传 ,力挺燕询
  60. 燕洵母亲演技当真好
  61. 这电视剧真的是越往后越没意思了,除了看看赵丽颖真的没任何看透了!
  62. 燕洵这样都不死也是醉了
  63. 闹剧,他妈的宇文月竟然不帮忙,看热闹的sb
  64. 更新的太慢了
  65. 我从来不追星,欣赏的名人也不多。熟知李沁,是从《如果我爱你》开始
  66. 怎么越拍越假了 不想要主角死可以不要拍受这么多下重要伤啊 主角自带无敌不死之身?
  67. 剧情太拖沓了
  68. 不是剧情拖沓,一部作品必须有一个完整的故事脉络,丰满的人物形象,每个相关角色对事件的反应,以此来推动故事的发展。而你觉得拖沓,只是因为你想看自己喜欢的角色,自己觉得过瘾的场面,而那些有必要的过渡,铺垫,却懒得看。你这样让那些辛苦努力的演员们情何以堪,就连抓楚乔的士兵都很努力在完成自己的角色,你看不见吗?
  69. 最坏的其实是皇帝
  70. 给湖南卫视一个真诚的建议,这剧时间太短,内容重复! 只是个建议,不要把客户心中的怒火点燃了
  71. 不好看了我只想看宇文玉和星儿其他不想看要是只拍第1部和第3部好
  72. 上古情歌也更新的太慢了 这也更新的慢
  73. 没上古情歌好看 、
  74. 这么拖,垃圾剧
  75. 看完23和24 窦骁的演技杠杠的呀~期待他的更多作品
  76. 男主还不如换成燕洵,宇文玥形象太套路了,无聊的角色
  77. 好不容易等到星期一,纸巾已经准备好了,好心疼我的楚乔 @赵丽颖 和柿子[二哈]今晚继续,演技炸裂,楚乔传虐哭[感冒]
  78. 好不容易等到星期一,纸巾已经准备好了,好心疼我的楚乔 @赵丽颖 和柿子[二哈]今晚继续,演技炸裂,楚乔传虐哭[感冒]
  79. 不错
  80. 喜欢赵丽颖,演技也是蛮棒的,话说剧组能适当大气一点嘛,米饭要大碗,红烧肉多几块,青菜多一些,在搭配一些汤,才是完美的标配嘛....嘿嘿
  81. 我们家萧策萧策策怎么还不出场啊啊啊啊
  82. 恕我直言 看到女一跟男二的戏 就想跳过 玥玥太可怜了
  83. 这是要洒狗粮啊
  84. 不太喜欢淳儿公主和宇文怀他俩说话的嘴型。
  85. 好多动作戏 才是最好看的
  86. 楚乔大大,你快上线吧,我已经重复看好几遍了
  87. 今晚十点,坐等楚乔大大上线杀敌
  88. 挺好看的就是奔着新哥来的,赵丽颖也很好。
  89. 你妹,你那么小的时候就懂事呢?太假了吧!
  90. 竹蜻蜓我靠
  91. 我TM看到了皮筋 是我的幻觉吗
  92. 剧情有点拖踏,女主一会儿又被抓。
  93. 萧玉是燕洵一家被灭门的始作俑者 为什么最后燕洵会和她成亲呢??
  94. 不要说什么,我是看看我的李沁
  95. 世界第一苍蝇,这只苍蝇回头一定要大吹一场:老子是世界上第一个上电视剧的苍蝇!
  96. 什么鬼!!!
  97. 呵呵呵,昨天就没更新,今天还不更新,整天干什么吃的?
  98. 宇文怀演的太烂了 ,
  99. 我注意的是金立手机的薛之谦啊哈哈哈
  100. 柿子的笑,还有他的白牙根本抗拒不了好吗
  101. 更新好慢呀总是不跟新
  102. 好多人都喜欢燕洵啊!我从未播到现在,一直都只喜欢宇文玥!从开始宇文玥就是喜欢楚乔的,楚乔也是喜欢他的,这点就够了,其他人再好,不爱就是不爱!我从始至终也没有喜欢过燕洵,小说里的倒还是可以的,哈哈。。
  103. 演得好墨迹
  104. 剧情越来越拖沓了,是为了强行凑时间嘛?一场戏演了三集。
  105. 怎么感觉燕洵是男主 复仇的之路 月公子的很平淡 戏份很少啊 女主也和男二跑了
  106. 太后去哪了,白笙不是太后最喜欢的女儿吗,怎么没有出来救燕家
  107. 宇文钥一定是天平座的,既然现在担心烟熏了,那当初别放最后一箭啊!亏他还是谍纸天眼的继承人,这皇帝要斩尽杀绝的道理会不知道? 这货到底是怎么想的?
  108. 老铁,最后一箭不是宇文玥放的,好好看看剧情
  109. 从红高粱到楚乔传 ,力挺燕询
  110. 燕洵母亲演技当真好
  111. 这电视剧真的是越往后越没意思了,除了看看赵丽颖真的没任何看透了!
  112. 燕洵这样都不死也是醉了
  113. 闹剧,他妈的宇文月竟然不帮忙,看热闹的sb
  114. 更新的太慢了
  115. 我从来不追星,欣赏的名人也不多。熟知李沁,是从《如果我爱你》开始
  116. 怎么越拍越假了 不想要主角死可以不要拍受这么多下重要伤啊 主角自带无敌不死之身?
  117. 剧情太拖沓了
  118. 不是剧情拖沓,一部作品必须有一个完整的故事脉络,丰满的人物形象,每个相关角色对事件的反应,以此来推动故事的发展。而你觉得拖沓,只是因为你想看自己喜欢的角色,自己觉得过瘾的场面,而那些有必要的过渡,铺垫,却懒得看。你这样让那些辛苦努力的演员们情何以堪,就连抓楚乔的士兵都很努力在完成自己的角色,你看不见吗?
  119. 最坏的其实是皇帝
  120. 给湖南卫视一个真诚的建议,这剧时间太短,内容重复! 只是个建议,不要把客户心中的怒火点燃了
  121. 不好看了我只想看宇文玉和星儿其他不想看要是只拍第1部和第3部好
  122. 上古情歌也更新的太慢了 这也更新的慢
  123. 没上古情歌好看 、
  124. 这么拖,垃圾剧
复制代码
我只是爬取了第一个链接里包含的所有ID的评论(包括第一个链接的),就已经有了这么多(2550条)。如果还想爬取更多,递归爬,最好是用数据库保存,毕竟数据量还是有点大的。




总结一下:对网站的分析还是很重要,对某些标志性的东西要敏感。多找网站练习练习,就会变得很轻松有趣了。


如果大家觉得还可以的话,可以到我的淘专辑(http://bbs.fishc.com/forum.php?mod=collection&action=view&ctid=742&fromop=my)看看更多相关的笔记。




楚乔传最新短评爬取.zip

1.4 KB, 下载次数: 5

售价: 3 鱼币  [记录]

评分

参与人数 1鱼币 +8 收起 理由
小甲鱼 + 8 支持楼主!

查看全部评分

本帖被以下淘专辑推荐:

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-6-27 17:20:11 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2017-6-27 17:36:58 | 显示全部楼层
多谢了,
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-9-27 11:14:50 | 显示全部楼层
感谢
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-9-30 20:05:44 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-10-12 16:34:38 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-10-17 22:51:38 | 显示全部楼层
看看
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-10-20 13:09:21 | 显示全部楼层
膜拜
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-10-20 15:18:28 | 显示全部楼层
为什么图片看不了了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-10-20 15:29:41 | 显示全部楼层
嘀嘀嘀
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-11-10 13:13:53 | 显示全部楼层
666666
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-19 22:36

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表