[爬虫]记第一次爬虫------百度音乐
本帖最后由 孤独的嫖客 于 2018-1-11 15:30 编辑终于开启了爬虫路,然后大致方向是全栈,最后希望能走到机器学习
记个人第一次爬虫,先整理一下爬虫思路:
首先,我们写出主函数流程:
- 输入查询资料
- 根据资料获取歌曲ID
- 根据歌曲ID采集歌曲地址
- 根据歌曲地址采集歌曲
大致代码如图所示:
然后,按照步骤写出各个函数的实现:
根据资料获取歌曲ID实现:
根据歌曲ID采集歌曲地址:
根据歌曲地址采集歌曲:
目前发现已有BUG:
因为采集到的歌曲采取的是歌名自动保存,则如果歌名重复,下载的文件会被新的重名文件覆盖,解决思路,歌名命名加入时间戳或者序号,避免文件被重名覆盖.
那么本次爬虫全部代码如上所示,因个人账户用户组只能上传10张图片,网页分析图片与解释则不能完全详细说明,后期有空会录制本次爬虫过程分析与心得
目前已发现自己不足之处:
1.没有学正则表达式,为了匹配希望得到的文本,话费了巨大的时间
2.文件创建 读写 还需加强学习
以上!
源代码如下:
**** Hidden Message *****
谢谢大家赏脸 {:5_92:}
谢谢
围观 哇,我就想问下,能不能分享一下pycharm的配置。。 看看,学习学习 谢谢楼主的分享
xiexie 学习一一下 学习了 小白还在前进中 这个 百度 API 是怎么找到的 mintaka 发表于 2018-1-13 16:23
这个 百度 API 是怎么找到的
获取歌曲ID的API
通过网页调试得知
得到地址 再传参就行
获取歌曲下载地址的API同理
嗨呀还有一张图用户组限制 传不了啊 好气啊
总之 网页分析比写爬虫重要多练吧 孤独的嫖客 发表于 2018-1-13 17:47
获取歌曲ID的API
通过网页调试得知
get√新姿势 抱歉再打扰一下,我能找到下载的,可这个。。。http://musicapi.qianqian.com/v1/restserver/tingmethod=baidu.ting.song.play&format=jsonp&callback=jQuery17207018626721275554_1515574223379&_=1515574224279
{:10_266:}(无能狂怒)
mintaka 发表于 2018-1-13 19:35
抱歉再打扰一下,我能找到下载的,可这个。。。http://musicapi.qianqian.com/v1/restserver/tingmethod=ba ...
这个不能直接访问,需要携带data里面的参数 就是songid 两个并在一起才能访问,我今天传不了图了
源码上应该有备注 孤独的嫖客 发表于 2018-1-13 22:26
这个不能直接访问,需要携带data里面的参数 就是songid 两个并在一起才能访问,我今天传不了图了
源码上 ...
我知道加上参数,我的意思是这个api在哪找到的,我找了好久也没看到{:10_285:} 来学习啦 感谢,受教了
{:10_249:} 能让我看看你的pytharm是怎么配置模块的吗?我不知道你的模块不好弄
kk