[已解决]看下这个正则表达式

小木船 · 发表于 2018-5-16 11:46:47

本帖最后由小木船于 2018-5-16 12:40 编辑

python3.6.3 运行在jupyter notebook，不能得到结果，也没有错误提示；
目标是要爬豆瓣book首页的新书速递的部分信息

import re
import requests
url = 'https://book.douban.com/'
headers = {"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"}
content = requests.get(url, headers = headers).text
pattern = re.compile(r'<li.*?cover.*?href="(.*?)".*?title="(.*?)".*?more-meta.*?"author">(.*?).*?"year">(.*?).*?"publisher">(.*?).*?</li>', re.S)
results = re.findall(pattern, content)
print(results)

复制代码

最佳答案

久疤K

2018-5-16 11:46:48

本帖最后由久疤K 于 2018-5-16 16:26 编辑

可能你的表达式效率不高，编写太复杂了，因为我运行它并没有死掉，而是一直在运行，但就是没有结果。
我这里是一层一层地解析，能够比较快速地得到答案：

import re
import requests
url = 'https://book.douban.com/'
headers = {"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"}
content = requests.get(url, headers = headers).text
#pattern = re.compile(r'<li.*?cover.*?href="(.*?)".*?title="(.*?)".*?more-meta.*?"author">(.*?).*?"year">(.*?).*?"publisher">(.*?).*?</li>', re.S)
p_ul = re.compile(r'<ul class="list-col list-col5 list-express slide-item">(.*?)</ul>', re.S)
p_li = re.compile(r'<li.*?>(.*?)</li>',re.S)
p_info = re.compile(r'href="(.*?)".*?title="(.*?)".*?more-meta.*?"author">(.*?).*?"year">(.*?).*?"publisher">(.*?)',re.S)
infos = []
uls = re.findall(p_ul, content)
for ul in uls:
lis = re.findall( p_li, ul)
for li in lis:
info = re.findall( p_info, li)[0]
info = [ x.strip() for x in info ]
infos.append(info)
print( len(infos) )

复制代码

久疤K · 发表于 2018-5-16 11:46:48

本帖最后由久疤K 于 2018-5-16 16:26 编辑

可能你的表达式效率不高，编写太复杂了，因为我运行它并没有死掉，而是一直在运行，但就是没有结果。
我这里是一层一层地解析，能够比较快速地得到答案：

import re
import requests
url = 'https://book.douban.com/'
headers = {"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"}
content = requests.get(url, headers = headers).text
#pattern = re.compile(r'<li.*?cover.*?href="(.*?)".*?title="(.*?)".*?more-meta.*?"author">(.*?).*?"year">(.*?).*?"publisher">(.*?).*?</li>', re.S)
p_ul = re.compile(r'<ul class="list-col list-col5 list-express slide-item">(.*?)</ul>', re.S)
p_li = re.compile(r'<li.*?>(.*?)</li>',re.S)
p_info = re.compile(r'href="(.*?)".*?title="(.*?)".*?more-meta.*?"author">(.*?).*?"year">(.*?).*?"publisher">(.*?)',re.S)
infos = []
uls = re.findall(p_ul, content)
for ul in uls:
lis = re.findall( p_li, ul)
for li in lis:
info = re.findall( p_info, li)[0]
info = [ x.strip() for x in info ]
infos.append(info)
print( len(infos) )

复制代码

小木船 · 发表于 2018-5-16 17:21:20

谢谢你的回复！用你的方法可以出结果，我想只得到新书速递的10本书信息，能调整一下正则表达式吗？你的结果现在出来的好像是整个页面的书籍信息

久疤K · 发表于 2018-5-16 18:12:50

本帖最后由久疤K 于 2018-5-16 18:29 编辑

小木船发表于 2018-5-16 17:21
谢谢你的回复！用你的方法可以出结果，我想只得到新书速递的10本书信息，能调整一下正则表达式吗？你的结果 ...

额，本来就是40本啊，一共4页，每页10本。。

如果你要只获取前10本的话，那
最后加上

复制代码

即可，但是每次得到的结果可能不一致，因为你刷新原网页，展示也是不一致的。
总的来说，这40本书不会变，只是顺序变了。

小木船 · 发表于 2018-5-16 18:26:36

是的，你说的对。谢谢

账号		自动登录	找回密码
密码			立即注册