鱼C论坛

 找回密码
 立即注册
查看: 2869|回复: 6

爬虫过程中的换行问题

[复制链接]
发表于 2016-4-23 14:23:16 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
比如说要爬这么一段代码

<dd class="mar-b8"><i class="time-icon"></i><em>3课时
                                                        36分钟</em>


想要获取它的时长,采用  re.search('<em>(.*?)</em>',x,r.S)
其中 x 为 上面的class代码,然后打印,会显示  
3课时
                                                        36分钟


该如何编写代码,使他显示   3课时36分钟

代码如下
  1. # -*- coding: utf-8 -*-
  2. import re
  3. x = '''<dd class="mar-b8"><i class="time-icon"></i><em>3课时
  4.                                                         36分钟</em>'''
  5. a = re.search('<em>(.*?)</em>',x,re.S).group(1)
  6. print a
复制代码


是Python2 版本的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2016-4-23 16:59:01 | 显示全部楼层

回帖奖励 +3 鱼币

自定义函数来对匹配结果进行迭代去掉空白符
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2016-4-23 18:08:04 | 显示全部楼层
hldh214 发表于 2016-4-23 16:59
自定义函数来对匹配结果进行迭代去掉空白符

谢谢.
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2016-4-23 19:05:28 | 显示全部楼层
  1. # -*- coding: utf-8 -*-
  2. import re
  3. x = '''<dd class="mar-b8"><i class="time-icon"></i><em>3课时
  4.                                                         36分钟</em>'''
  5. a = re.search('<em>(.*?)</em>',x,re.S).group(1).replace('\n','').replace(' ','')
  6. print a
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2016-7-4 08:58:09 | 显示全部楼层
谢谢分享
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2016-7-18 22:13:40 | 显示全部楼层
sfgsda
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2016-7-19 08:30:04 | 显示全部楼层

回帖奖励 +3 鱼币

  1. re.sub('\s','',re.search('<em>(.*?)</em>',x,re.S).group(1))
复制代码

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-3-29 17:09

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表