正则表达式匹配网页中图片地址问题

ddtufoer · 发表于 2016-8-9 22:05:44

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 ddtufoer 于 2016-8-10 12:02 编辑

想抓取网页中jpg或png格式的图片，突击学习了一晚上正则表达式，还是搞不出来。求高手指点
python3,win7系统
代码是这样的：

import re
c='<table align="center"><tbody><tr><td><img class="imgResizeDesc" src="http://gi.esmplus.com/ardium1220/detail/1293_ArdiumColourLetter_Set_detail.jpg" /><br /></td></tr></tbody></table>'
re1=r'https?://.*\.[jpg|png]'
b=re.findall(re1,c)
print(b)

复制代码

结果是这样的：

['http://gi.esmplus.com/ardium1220/detail/1293_ArdiumColourLetter_Set_detail.j']

复制代码

为什么后面少了pg两个字母？

SixPy · 发表于 2016-8-9 22:52:39

re1=r'https?://.*\.(?:jpg|png)'

ddtufoer · 发表于 2016-8-9 23:28:04

SixPy 发表于 2016-8-9 22:52
re1=r'https?://.*\.(?:jpg|png)'

感谢大侠，又来救俺了！！！！！

ddtufoer · 发表于 2016-8-10 00:16:18

SixPy大侠帮解决了图片地址的正则表达式的问题。但是以下的代码会抓取到两个以上图片代码很近连在一起的链接。所以想请教一下以下的代码怎样改可以让http://只出现一次。盼望大侠出没~
python3 win7

re1=r'https?://.*\.(?:jpg|png)'

复制代码

SixPy · 发表于 2016-8-10 06:52:07

http://bbs.fishc.com/thread-74052-1-1.html

SixPy · 发表于 2016-8-10 07:52:59

ddtufoer 发表于 2016-8-10 00:16
SixPy大侠帮解决了图片地址的正则表达式的问题。但是以下的代码会抓取到两个以上图片代码很近连在一起的链 ...

re1='<img[^>]*src="([^"]*)"'

复制代码

ddtufoer · 发表于 2016-8-10 10:39:24

SixPy 发表于 2016-8-10 07:52

再问下大侠把匹配的字符串长度控制在90以内怎么写？

re1=r'src="(https?://.*\.(?:jpg|png)){0,90}"'

复制代码

这样没效果呀，该怎么写呢

SixPy · 发表于 2016-8-10 10:44:46

ddtufoer 发表于 2016-8-10 10:39
再问下大侠把匹配的字符串长度控制在90以内怎么写？

这样没效果呀，该怎么写呢

你应该认真学习正则的基础知识

ddtufoer · 发表于 2016-8-10 10:48:33

SixPy 发表于 2016-8-10 10:44
你应该认真学习正则的基础知识

你说的特别对，我特别惭愧

ddtufoer · 发表于 2016-8-10 10:54:51

SixPy 发表于 2016-8-10 10:44
你应该认真学习正则的基础知识

我现在给我媳妇做一个自动下截图片，自动切图的程序。自动切图部分已经弄出来了，下载图片功能也实现了，就卡在了正则搜索图片上。我昨天研究了一晚上，今天又弄了一上午搞不定。时间又很少，心情很痛苦。大侠你能再送我一趟到西天吗？我有时间的时候肯定会好好学习的！

SixPy · 发表于 2016-8-10 10:59:22

ddtufoer 发表于 2016-8-10 10:54
我现在给我媳妇做一个自动下截图片，自动切图的程序。自动切图部分已经弄出来了，下载图片功能也实现了， ...

你把程序贴出来

ddtufoer · 发表于 2016-8-10 11:01:52

SixPy 发表于 2016-8-10 10:59
你把程序贴出来

import urllib.request
import os
import re
import time
from selenium import webdriver
def url_open(url1):
req=urllib.request.Request(url1,headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36'})
response=urllib.request.urlopen(req)
a=response.read()
return a
#url='http://www.10x10.co.kr/shopping/category_prd.asp?itemid=1517740&disp=103103103&pRtr=fulldesign'
url='http://www.1300k.com/shop/goodsDetail.html?f_sp=&f_goodsno=215023298934'
#url='http://www.fishc.com'
a=webdriver.Chrome()
a.get(url)
#time.sleep(30)
c=a.page_source
#re1=r'src="([https?://.*\.jpg|https?://.*\.png]{0,85})"'
re1=r'src="(https?://.*\.(?:jpg|png)){0,85}"'
imglist=re.findall(re1,c)
print(imglist)
os.mkdir('E:/test\\pic')
os.chdir('E:/test\\pic')
for n in imglist:
filename=n.split('/')[-1]
try:
with open(filename,'wb') as f:
img=url_open(n)
f.write(img)
except Exception:
pass

复制代码

ddtufoer · 发表于 2016-8-10 11:03:15

SixPy 发表于 2016-8-10 10:59
你把程序贴出来

我现在的问题是会匹配到

'http://img.1300k.com/common/2015/bullet_fmenu.png" width="1" height="8" alt="" /> <a href="http://www.1300k.com/company/main/main.html" target="_blank">사업장안내</a> <img src="http://img.1300k.com/common/2015/bullet_fmenu.png'

复制代码

这种东西，我想做一个长度限制在90个字符之内

SixPy · 发表于 2016-8-10 11:32:31

ddtufoer 发表于 2016-8-10 11:03
我现在的问题是会匹配到这种东西，我想做一个长度限制在90个字符之内

没明白你想干嘛~
解释一下你的目的

ddtufoer · 发表于 2016-8-10 11:48:41

SixPy 发表于 2016-8-10 11:32
没明白你想干嘛~
解释一下你的目的

特别简单，我就想把一个网页里面全部的图片抓出来保存在电脑里。
但是

re1=r'src="(https?://.*\.(?:jpg|png)){0,85}"'

复制代码

这个正则不仅会匹配到真正的图片，还会匹配到

'http://img.1300k.com/common/2015/bullet_fmenu.png" width="1" height="8" alt="" /> <a href="http://www.1300k.com/company/main/main.html" target="_blank">사업장안내</a> <img src="http://img.1300k.com/common/2015/bullet_fmenu.png'

复制代码

，我就想把这个正则表达式完善一下，让它能把图片抓出来。像上边抓出的字符串保存成图片大小就是0，而里面真正的两个图片却保存不下来了。

SixPy · 发表于 2016-8-10 11:52:04

ddtufoer 发表于 2016-8-10 11:48
特别简单，我就想把一个网页里面全部的图片抓出来保存在电脑里。
但是这个正则不仅会匹配到真正的图片 ...

6楼
http://bbs.fishc.com/forum.php?mod=redirect&goto=findpost&ptid=74739&pid=2631299

ddtufoer · 发表于 2016-8-10 12:02:37

SixPy 发表于 2016-8-10 11:52
6楼
http://bbs.fishc.com/forum.php?mod=redirect&goto=findpost&ptid=74739&pid=2631299

这个真是太神奇了，我看不懂，一试真好用。~~~~~~~大侠你真强！

SixPy · 发表于 2016-8-10 12:04:02

ddtufoer 发表于 2016-8-10 12:02
这个真是太神奇了，我看不懂，一试真好用。~~~~~~~大侠你真强！

看 8 楼~

账号		自动登录	找回密码
密码			立即注册

正则表达式匹配网页中图片地址问题

马上注册，结交更多好友，享用更多功能^_^

回帖奖励 +5 鱼币

正则表达式怎样写不出现两次http