鱼C论坛

 找回密码
 立即注册
查看: 1327|回复: 0

[技术交流] 关于网络爬虫抓取URL的思考

[复制链接]
发表于 2017-6-23 11:08:48 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
大家好:
最近因为在用python学网络爬虫,遇到了困惑。无法得到正确的应答。

于是在坛子里找这个问题的解决办法。方法也有很多,有些能成功,有些仍旧无法运行。但刚才找到了一个大神非常简单的修改,再经过自己的试验,得出了最简单的修改。但我不知道为什么要这样改,而通过网络抓取获得的URL却无法得到正确应答?

以下为代码:
  1. import urllib.parse

  2. import urllib.request

  3. import json


  4. content = input('请输入需要翻译的内容:')


  5. #url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=fanyi.logo'    #论坛某大神给出的可执行的代码

  6. url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&sessionFrom=null"                         #根据可执行的代码进行修改后的代码

  7. #url = "http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule&sessionFrom=null"                        #通过网站自行抓取的URL

  8. data = {}

  9. data['type'] = 'AUTO'

  10. data['i'] = content

  11. data['doctype'] = 'json'

  12. #data['xmlVersion'] = '1.8'
  13. data['version'] = '1.8'

  14. data['keyfrom'] = 'fanyi.web'

  15. data['ue'] = 'UTF-8'

  16. #data['action'] = 'FY_BY_CLICK_BUTTON'

  17. data['typoResult'] = 'true'

  18. data = urllib.parse.urlencode(data).encode('utf-8')


  19. response = urllib.request.urlopen(url,data)

  20. html = response.read().decode('utf-8')


  21. target = json.loads(html)


  22. print('翻译结果:%s' % (target['translateResult'][0][0]['tgt']))

复制代码


顺便贴上自己抓取的信息。

抓取的URL

抓取的URL

form data

form data
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-19 17:02

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表