|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
网页源文件中有
这样一段代码
<a href="https://www.douban.com/doumail/xxxxxxxx/" class="url">
1
2
3
4
5
6
7
8
9
10
11
12
...
</a>
<a href="https://www.douban.com/doumail/xxxxxxx/" class="url">
亲爱的 xxxx 你好,
这是...
</a>
这两段的正则表达式 我不太会写
测试了好久没办法匹配
有空格 /s+
有回车 /n
求问这段怎么写呢
本帖最后由 SixPy 于 2016-7-17 16:13 编辑
- import re
- html='''
- <a class="url">
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- ...
- </a>
- <a class="url">
- 亲爱的 xxxx 你好,
- 这是...
- </a>
- '''
- ptn=re.compile(r'<a[^>]*>([\S\s]*?)</a>')
- s=ptn.findall(html)
- print(s)
- input('暂停')
复制代码
。。。。。。。。。。。
|
|