[已解决]Python爬虫爬取JS问题

wenhuan0421 · 发表于 2017-1-11 14:17:19

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

最近在学习用Python写爬虫，发现一个问题：
用所学的urllib,requests等库爬取网页，然后用beautifulsoup和正则表达式解析网页，都只限于解析网页的源码，所以这些爬虫只适用于静态网页。而许多网页的数据是通过JS渲染的动态数据，异步加载出来的，这些数据并不存在于网页的源代码中，那么单纯用BeauifulSoup解析后,什么数据都得不到，请问各位大神是如何解决的？

最近我发现用request访问url得到的response对象里好像有渲染后的包含目标数据的网页代码，不知道有没有可以解析response对象网页代码而非像beautifulsoup一样解析网页源码的工具或者方法呢？

最佳答案

月排行榜 / 总排行榜

H.B.F

2017-1-22 15:16:32

selenium 可以执行js

跳转到最佳答案楼层

玄夜Python之路 · 发表于 2017-1-11 14:52:51

异步加载需要用到 json 库

H.B.F · 发表于 2017-1-22 15:16:32

selenium 可以执行js

账号		自动登录	找回密码
密码			立即注册

[已解决]Python爬虫爬取JS问题

马上注册，结交更多好友，享用更多功能^_^

回帖奖励 +5 鱼币

评分