[已解决]BS4+正则表达式提取页面信息

一鱼 · 发表于 2018-5-27 11:05:52

请问我怎么才能将里面的年月日提取出来？
$XD]5W8~FX2@FC9W][DN(]L.png

我这样写没反应

该怎样写表达式？

最佳答案

月排行榜 / 总排行榜

Python小当家

2018-5-27 11:05:53

本帖最后由 Python小当家于 2018-5-27 11:48 编辑

#注：
#1.之所以用年月日的字符作为索引是因为更具特殊性，另外我这里不是很确定网页上的“：”是英文的还是中文的，如果有错你可以修改(我先猜测是中文的)
#2.index-15表示从刚才那个点回退足够多来寻找，“-15”既不会多查也不会少查（具体值可以随测量调整）
#3.html是指你从网页解码后直接获得的整个字符串
index=html.find('年')
year=re.search(r"\d+",html[index-15:]).group()
index=html.find('月')
month=re.search(r"\d+",html[index-15:]).group()
index=html.find('日')
day=re.search(r"\d+",html[index-15:]).group()
index=html.find('：')
hour=re.search(r"\d+",html[index-15:]).group()
minute=re.search(r"\d+",html[index:]).group()
print(year,"年",month,"月",day,"日",hour,"：",minute)

跳转到最佳答案楼层

Python小当家 · 发表于 2018-5-27 11:05:53

这个最佳答案由 Python小当家给出，感谢 Python小当家的回答。

单击隐藏图章

本帖最后由 Python小当家于 2018-5-27 11:48 编辑

#注：
#1.之所以用年月日的字符作为索引是因为更具特殊性，另外我这里不是很确定网页上的“：”是英文的还是中文的，如果有错你可以修改(我先猜测是中文的)
#2.index-15表示从刚才那个点回退足够多来寻找，“-15”既不会多查也不会少查（具体值可以随测量调整）
#3.html是指你从网页解码后直接获得的整个字符串
index=html.find('年')
year=re.search(r"\d+",html[index-15:]).group()
index=html.find('月')
month=re.search(r"\d+",html[index-15:]).group()
index=html.find('日')
day=re.search(r"\d+",html[index-15:]).group()
index=html.find('：')
hour=re.search(r"\d+",html[index-15:]).group()
minute=re.search(r"\d+",html[index:]).group()
print(year,"年",month,"月",day,"日",hour,"：",minute)

一鱼 · 发表于 2018-5-27 11:49:32

Python小当家发表于 2018-5-27 11:40
#注：
#1.之所以用年月日的字符作为索引是因为更具特殊性，另外我这里不是很确定网页上的“：”是英文的还 ...

html = html.decode('utf-8')
index=html.find('年')
year=re.search(r"\d+",html[index-15:]).group()
index=html.find('月')
month=re.search(r"\d+",html[index-15:]).group()
index=html.find('日')
day=re.search(r"\d+",html[index-15:]).group()
print(year,"年",month,"月",day,"日")

复制代码

是这样吗？
报错：
year=re.search(r"\d+",html[index-15:]).group()
AttributeError: 'NoneType' object has no attribute 'group'

新手·ing · 发表于 2018-5-27 11:53:06

网址？

一鱼 · 发表于 2018-5-27 11:56:12

新手·ing 发表于 2018-5-27 11:53
网址？

http://job.guet.edu.cn/Home/ArticleDetails/b26043f4-ad0a-49dc-b2e4-25fd4bc5ec41

一鱼 · 发表于 2018-5-27 13:00:23

Python小当家发表于 2018-5-27 11:40
#注：
#1.之所以用年月日的字符作为索引是因为更具特殊性，另外我这里不是很确定网页上的“：”是英文的还 ...

虽然没有直接解决问题，但是通过也给了我启发，最终还是解决了感谢

新手·ing · 发表于 2018-5-27 13:00:29

import urllib, re
content = urllib.request.urlopen('http://job.guet.edu.cn/Home/ArticleDetails/b26043f4-ad0a-49dc-b2e4-25fd4bc5ec41').read().decode('utf-8')
pat = '(\w*?：)(\d+)(.)(\d)(.)(\d)(.)(\d)(：)(\d+)'
rst = re.compile(pat, re.M).findall(content)
print(''.join(rst[0]))

复制代码

新手·ing · 发表于 2018-5-27 13:01:33

我的正则学的不是太好

一鱼 · 发表于 2018-5-27 14:40:13

新手·ing 发表于 2018-5-27 13:01
我的正则学的不是太好

哈谢谢不过已经解决啦抱歉不能给你最佳了

新手·ing · 发表于 2018-5-27 14:44:42

一鱼发表于 2018-5-27 14:40
哈谢谢不过已经解决啦抱歉不能给你最佳了

没事

Python小当家 · 发表于 2018-5-27 14:57:07

感谢你将我选为最佳答案，不过我还是有些困惑，为何会出错。
我随便设一字符串做了下实验，按道理应该没错才是

一鱼 · 发表于 2018-5-27 15:10:10

Python小当家发表于 2018-5-27 14:57
感谢你将我选为最佳答案，不过我还是有些困惑，为何会出错。
我随便设一字符串做了下实验，按道理应该没错 ...

主要是我爬的页面不止一个有些页面很坑爹的不一样所以re的返回值为None，就没有group了

Python小当家 · 发表于 2018-5-27 15:38:04

一鱼发表于 2018-5-27 15:10
主要是我爬的页面不止一个有些页面很坑爹的不一样所以re的返回值为None，就没有group了

原来如此

账号		自动登录	找回密码
密码			立即注册