鱼C论坛

 找回密码
 立即注册
查看: 6973|回复: 40

[技术交流] python小练习(092):基于keras快速搭建神经网络(实战篇)之豆瓣电影评分系统(一)

[复制链接]
发表于 2017-4-16 09:33:33 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
python小练习系列即将接近100期了,我准备在最后的几期里面做几个大一点的项目(估计几百行代码),把之前学习的知识都串起来,也算是作为一个阶段的学习总结。我会详细地把这个项目是如何一步一步实现的,完整得记录下来,方便大家学习。

今天就开始做这样一个项目:豆瓣电影评分系统 -- 程序的目的是让机器学会分析不同电影的评论,然后根据评论,对所评论的电影进行打分(5分制)。

我们先来分析这个项目,首先,要让机器学会分析不同电影的评论,我们就需要先收集不同电影的评论文章,然后对这些评论文章进行评分,作为训练数据。当然,作为训练数据之前,还必须对这些评论进行数据清洗以及词向量转化。然后用搭载tensorflow的keras进行基于神经网络的机器学习。最后,用其他电影评论进行实际测试。

那么,第一步就是先要爬取豆瓣的电影评论。

第一篇:豆瓣电影评论爬虫
我们打开任意一个豆瓣电影的介绍:https://movie.douban.com/subject/25815034/comments?status=P
可以看到每个评论下,用户其实都用星数进行了评分,但是这个评分不是以数值形式显示可以直接抓取的。

那么,我们打开网页源代码查看的时候,发现豆瓣其实是用了js解析的动态网页,这样就不能直接使用requests进行抓取了,而必须通过模拟浏览器+selenium进行爬去,我使用的是phantomjs+splinter(用得比较顺手而已)。

当用模拟浏览器解析js以后就可以发现这个星级的评分在标签中是以“allstar10”~“allstar50”这样的形式表示的,这样我们只要直接抓取这个评分就可以了。

那么先从主板块开始,我按照“动作 喜剧 爱情 科幻 悬疑 恐怖 治愈”这7个分类的电影,每个分类选取20部影片,每部影片选取20条评论+评分。这样理论上就有2800条训练数据可以使用了,应该是足够了。

第一步,我先是把要爬的电影的序号,电影名称以及主版上的电影评分爬下来,爬下来的内容保存为txt文件留着后面使用。

爬下来的数据,基本上是这样的形式:
  1. 25815034 湄公河行动 8.0
  2. 26577541 终极斗士4 7.2
  3. 10727641 疯狂的麦克斯4:狂暴之路 7.7
  4. 25919910 碟中谍5:神秘国度 8.1
  5. 6982558 师父 5.0
  6. 3718279 长城 7.5
  7. 26266072 死侍 7.3
  8. 3230115 谍影重重5 5.8
  9. 23788440 极限特工3:终极回归 7.3
  10. 3077412 杀破狼2 7.6
  11. 26309788 寻龙诀 6.8
  12. 25986180 金刚:骷髅岛 8.2
  13. 20505982 釜山行 6.9
  14. 11620560 寒战2 6.2
  15. 25825412 007:幽灵党 5.6
  16. 3569910 机械师2:复活 6.1
  17. 2131940 自杀小队 7.8
  18. 25662337 魔兽 6.5
  19. 25823132 惊天魔盗团2 8.0
复制代码


爬主版的爬虫主要是用了phantomjs+splinter+BeautifulSoup,源代码:
游客,如果您要查看本帖隐藏内容请回复

本帖被以下淘专辑推荐:

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-4-16 10:01:21 | 显示全部楼层
支持!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-4-18 00:43:41 | 显示全部楼层
豆瓣影评系统
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-4-20 10:59:04 | 显示全部楼层
赞啊,好例子。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-4-20 11:10:32 | 显示全部楼层
学习一下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-4-20 11:19:06 | 显示全部楼层
本帖最后由 gopythoner 于 2017-4-20 11:21 编辑

思路很清晰,不过我有个小问题
我认为在这2句之间应该增加一个sleep()等待时间,因为动态网页你不等待直接提取网页到BS中的话,可能网页还没有加载完全,你要的信息还没有加载出来你就提取了网页,这样信息根本不全
x.visit(url)
bs = BS(x.html, 'lxml')
还有你在提取了信息之后等待10秒,那个地方我感觉没必要吧,这个等待时间好像没意义啊,因为你一个网页的信息已经提取完了,直接开始下一个就行,为什么要等待呢?
我一般使用selenium,所以是从selenium的使用来理解的,不知道是不是你用的这个跟selenium不一样
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-4-20 17:12:07 From FishC Mobile | 显示全部楼层
gopythoner 发表于 2017-4-20 11:19
思路很清晰,不过我有个小问题
我认为在这2句之间应该增加一个sleep()等待时间,因为动态网页你不等待直接 ...

嗯,你说的是正确的。
其实这里设置延时的参数,我是根据不同的地方而调整的。比如我在家里网速很快就几乎不用延时,但是在公司由于服务器在美国,访问国内就很慢。
另外一个延时10秒的是我做测试时候用的,可能贴上来的时候没有注释掉。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-4-21 10:00:36 | 显示全部楼层
kai
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-5-19 07:46:36 | 显示全部楼层
谢谢分享
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-5-21 22:40:20 | 显示全部楼层
厉害
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-5-22 22:21:56 | 显示全部楼层
啊啊啊啊啊啊啊啊
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-6-13 11:05:09 | 显示全部楼层
学习
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-6-26 10:52:26 | 显示全部楼层
go
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-12-12 10:13:02 | 显示全部楼层
学习了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-3-27 16:49:28 | 显示全部楼层
5555555555555
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-5-29 15:48:48 | 显示全部楼层
呵呵,学习学习
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-7-18 22:39:40 | 显示全部楼层
特意过来学习python, 同时学习神经网络, 最近要用到
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-7-25 19:45:58 | 显示全部楼层
学习
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-7-25 20:38:18 | 显示全部楼层
得到
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-7-26 14:48:14 From FishC Mobile | 显示全部楼层
学习一下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-3-28 18:37

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表