QQ登录

只需一步,快速开始

登录 | 立即注册 | 找回密码

主题

帖子

荣誉

鱼友Ⅰ

Rank: 2Rank: 2

积分
177
查看: 251|回复: 5

[学习笔记] [爬虫]记第二次爬虫------词霸翻译

[复制链接]
最佳答案
2 
累计签到:122 天
连续签到:55 天
孤独的嫖客 发表于 2018-1-13 17:20:44 2515 | 显示全部楼层 |阅读模式

马上注册加入鱼C,享用更多服务吧^_^

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
终于开启了爬虫路,然后大致方向是全栈,最后希望能走到机器学习

之前本来打算爬百度翻译的,结果一直报错  不能正常爬取,听ZLOE 大佬启发, 换了一个翻译网站练手,

流程.png


爬取目标:查询到目标词性,翻译,音标
目标网址:http://www.iciba.com/index.php

1.gif

成品图


爬虫重要的还是爬之前的网页分析,分析到位了,爬虫写起来才舒服,关于分析网页,我也是个菜鸟,还是用浏览器的开发工具 找找get啊 post啊  还遇到过xhr和doc  只能说爬的越多,越熟能生巧吧

这次关于程序的写法上,用到了这些:
json数据字典化:

字典化.png
通常json字典化都是这样的:
data3 = json.loads(json_str)
但是这样需要import json模块,按照上图方式,不引入json模块也可以直接字典化

Python join()方法:
Python join() 方法用于将序列中的元素以指定的字符连接生成一个新的字符串。
字符串拼接.png

异常处理:
try......except Exception
异常处理.png

这个处理是为了防止有些不存在的单词引发的报错......emmmmm我的原意是这个意思.
上一期链接:http://bbs.fishc.com/thread-103008-1-1.html
同上次,附源码,谢谢赏脸
游客,如果您要查看本帖隐藏内容请回复

签名档.png
楼层
跳转到指定楼层
最佳答案
24 
累计签到:130 天
连续签到:1 天
像番茄加两个蛋 发表于 2018-1-13 19:05:33 | 显示全部楼层
好强的样子!如果能把发音也爬下来就好了~
最佳答案
0 
累计签到:6 天
连续签到:3 天
mas黑子 发表于 2018-1-13 20:16:30 | 显示全部楼层
陆陆陆
最佳答案
0 
累计签到:60 天
连续签到:1 天
陌生の你 发表于 2018-1-13 21:57:18 | 显示全部楼层
楼主666啊 感谢楼主
最佳答案
2 
累计签到:122 天
连续签到:55 天
孤独的嫖客  楼主| 发表于 2018-1-13 22:22:15 | 显示全部楼层
像番茄加两个蛋 发表于 2018-1-13 19:05
好强的样子!如果能把发音也爬下来就好了~

音频也可以爬,  其实找到了音标,发音就在旁边 只是我没有想好这个音标怎么和发音放一起 所以就没有爬音标
TIM截图20180113222149.png
最佳答案
0 

尚未签到

hong9424 发表于 2018-1-15 10:53:39 | 显示全部楼层
谢谢谢大佬

发表回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

小甲鱼强烈推荐 上一条 /1 下一条

    移动客户端下载(未启用)
    微信公众号

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备11014136号

Copyright 2018 鱼C论坛 版权所有 All Rights Reserved.

Powered by Discuz! X3.1 Copyright
© 2001-2018 Comsenz Inc.    All Rights Reserved.

小黑屋|手机版|Archiver|鱼C工作室 ( 粤公网安备 44051102000370号 | 粤ICP备11014136号

GMT+8, 2018-4-21 19:31

快速回复 返回顶部 返回列表