QQ登录

只需一步,快速开始

登录 | 立即注册 | 找回密码

主题

帖子

荣誉

资深鱼友Ⅲ

Rank: 10Rank: 10

积分
3379
查看: 132|回复: 2

[已解决]关于beautifulsoup的问题

[复制链接]
最佳答案
277 
累计签到:277 天
连续签到:2 天
新手·ing 发表于 2017-9-8 21:16:17 1322 | 显示全部楼层 |阅读模式

马上注册加入鱼C,享用更多服务吧^_^

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 新手·ing 于 2017-9-8 21:19 编辑

网址:http://www.tfls.cn/html/students/union/

我想爬取
(~TI4VS9{LFV@X0D(QR`6CH.png
图片中的链接

因为新手比较渣,,所以失败了
  1. import requests
  2. from bs4 import BeautifulSoup

  3. doc = requests.get('http://www.tfls.cn/html/students/union/').content
  4. soup = BeautifulSoup(doc, 'html.parser')
  5. for link in soup.find_all('a'):
  6.     print(link.get('href'))
复制代码

这样爬出来的会有多余的,我不想要的,,
求改正
最佳答案
2017-9-8 23:37:43
本帖最后由 ButcherRabbit 于 2017-9-9 00:06 编辑
  1. import requests
  2. from bs4 import BeautifulSoup

  3. doc = requests.get('http://www.tfls.cn/html/students/union/').content
  4. soup = BeautifulSoup(doc,'html.parser')
  5. for link in soup.find_all(valign="middle"):
  6.     for link1 in link.find_all('a'):
  7.         print('http://www.tfls.cn' + link1.get('href'))
复制代码


http://cuiqingcai.com/1319.html
先用keyword 参数筛选一遍。
楼层
跳转到指定楼层
最佳答案
55 
累计签到:54 天
连续签到:2 天
ButcherRabbit 发表于 2017-9-8 23:37:43 | 显示全部楼层    本楼为最佳答案   
本帖最后由 ButcherRabbit 于 2017-9-9 00:06 编辑
  1. import requests
  2. from bs4 import BeautifulSoup

  3. doc = requests.get('http://www.tfls.cn/html/students/union/').content
  4. soup = BeautifulSoup(doc,'html.parser')
  5. for link in soup.find_all(valign="middle"):
  6.     for link1 in link.find_all('a'):
  7.         print('http://www.tfls.cn' + link1.get('href'))
复制代码


http://cuiqingcai.com/1319.html
先用keyword 参数筛选一遍。
最佳答案
277 
累计签到:277 天
连续签到:2 天
新手·ing  楼主| 发表于 2017-9-9 07:42:07 | 显示全部楼层

  1. import requests, re
  2. from bs4 import BeautifulSoup

  3. doc = requests.get('http://www.tfls.cn/html/students/union/').content
  4. soup = BeautifulSoup(doc, 'html.parser')
  5. for link in soup.find_all('a', href = re.compile('/html/students/union/[0-9]{4}.html')):
  6.     url = 'http://www.tfls.cn' + link.get('href')
  7.     print(url)
复制代码

效率更高哎

发表回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

小甲鱼强烈推荐 上一条 /2 下一条

    移动客户端下载(未启用)
    微信公众号

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备11014136号

Copyright 2018 鱼C论坛 版权所有 All Rights Reserved.

Powered by Discuz! X3.1 Copyright
© 2001-2018 Comsenz Inc.    All Rights Reserved.

小黑屋|手机版|Archiver|鱼C工作室 ( 粤公网安备 44051102000370号 | 粤ICP备11014136号

GMT+8, 2017-12-18 03:18

快速回复 返回顶部 返回列表