QQ登录

只需一步,快速开始

搜索
鱼C论坛笔记大赛成绩公示
查看: 63|回复: 2

[已解决]关于beautifulsoup的问题

[复制链接]
最佳答案
205 
累计签到:205 天
连续签到:42 天
发表于 2017-9-8 21:16:17 | 显示全部楼层 |阅读模式

马上注册加入鱼C,享用更多服务吧^_^

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 新手·ing 于 2017-9-8 21:19 编辑

网址:http://www.tfls.cn/html/students/union/

我想爬取
(~TI4VS9{LFV@X0D(QR`6CH.png
图片中的链接

因为新手比较渣,,所以失败了
  1. import requests
  2. from bs4 import BeautifulSoup

  3. doc = requests.get('http://www.tfls.cn/html/students/union/').content
  4. soup = BeautifulSoup(doc, 'html.parser')
  5. for link in soup.find_all('a'):
  6.     print(link.get('href'))
复制代码

这样爬出来的会有多余的,我不想要的,,
求改正
最佳答案
2017-9-8 23:37:43
本帖最后由 ButcherRabbit 于 2017-9-9 00:06 编辑
  1. import requests
  2. from bs4 import BeautifulSoup

  3. doc = requests.get('http://www.tfls.cn/html/students/union/').content
  4. soup = BeautifulSoup(doc,'html.parser')
  5. for link in soup.find_all(valign="middle"):
  6.     for link1 in link.find_all('a'):
  7.         print('http://www.tfls.cn' + link1.get('href'))
复制代码


http://cuiqingcai.com/1319.html
先用keyword 参数筛选一遍。
1. 如果您的提问得到满意的答案,请务必选择【最佳答案】;2. 如果想鼓励一下楼主或帮助到您的朋友,可以给他们【评分】作为奖励;
3. 善用【论坛搜索】功能,那里可能有您想要的答案;4. 粘贴代码请点击编辑框上的 <> 按钮,否则您的代码可能会被“吃掉”!
最佳答案
54 
累计签到:54 天
连续签到:2 天
发表于 2017-9-8 23:37:43 | 显示全部楼层    本楼为最佳答案   
本帖最后由 ButcherRabbit 于 2017-9-9 00:06 编辑
  1. import requests
  2. from bs4 import BeautifulSoup

  3. doc = requests.get('http://www.tfls.cn/html/students/union/').content
  4. soup = BeautifulSoup(doc,'html.parser')
  5. for link in soup.find_all(valign="middle"):
  6.     for link1 in link.find_all('a'):
  7.         print('http://www.tfls.cn' + link1.get('href'))
复制代码


http://cuiqingcai.com/1319.html
先用keyword 参数筛选一遍。
1. 如果您的提问得到满意的答案,请务必选择【最佳答案】;2. 如果想鼓励一下楼主或帮助到您的朋友,可以给他们【评分】作为奖励;
3. 善用【论坛搜索】功能,那里可能有您想要的答案;4. 粘贴代码请点击编辑框上的 <> 按钮,否则您的代码可能会被“吃掉”!
最佳答案
205 
累计签到:205 天
连续签到:42 天
 楼主| 发表于 2017-9-9 07:42:07 | 显示全部楼层

  1. import requests, re
  2. from bs4 import BeautifulSoup

  3. doc = requests.get('http://www.tfls.cn/html/students/union/').content
  4. soup = BeautifulSoup(doc, 'html.parser')
  5. for link in soup.find_all('a', href = re.compile('/html/students/union/[0-9]{4}.html')):
  6.     url = 'http://www.tfls.cn' + link.get('href')
  7.     print(url)
复制代码

效率更高哎
1. 如果您的提问得到满意的答案,请务必选择【最佳答案】;2. 如果想鼓励一下楼主或帮助到您的朋友,可以给他们【评分】作为奖励;
3. 善用【论坛搜索】功能,那里可能有您想要的答案;4. 粘贴代码请点击编辑框上的 <> 按钮,否则您的代码可能会被“吃掉”!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

小甲鱼强烈推荐上一条 /1 下一条

小黑屋手机版Archiver( 粤公网安备 44051102000370号 | 粤ICP备11014136号

© 2010-2017 FishC.com GMT+8, 2017-9-25 10:36 Powered by Discuz! X2.5 Theme by dreambred

快速回复 返回顶部 返回列表