为什么我程序里的 ( ? P<name> ) 无法用group（‘name’）调用呢？

宝贝归来 · 发表于 2016-5-15 13:08:49

本帖最后由宝贝归来于 2016-5-15 13:11 编辑

在Python 正则表达式的视频里，可以用（？P：<name>）给组命名，
而且还可以用 m. group('name') 来查看组
但是我这个程序就是报错，无法调用！

这个程序是用来获取 ip 和端口号的，我想把正则表达式里面获取 ip 的组命名为 <ip>, 把获取端口号的组命名为 <kou> ,并在后面使用 group（'ip','kou'）来查看获取到的内容。

程序代码（获取ip 端口号 kou）

import urllib.request
import re # 正则表达式模块
def open_url(url): # 网页打开读取
W1 = urllib.request.Request(url)
W1.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.154 Safari/537.36 LBBROWSER')
W2 = urllib.request.urlopen(W1)
W3 = W2.read().decode('utf-8')
return W3
def get_ip(W3): # 在网页找ip
p = re.compile(r'''(?P<ip>((\d?\d?\d)[.]){3}(\d?\d?\d)) # 匹配ip
([^"]*)
(?P<kou>\d?\d?\d?\d) # 匹配端口号 kou
''',re.X)
m = p.findall(W3)
print(m.group('ip','kou'))
if __name__ == '__main__':
url = 'http://www.xicidaili.com/'
get_ip(open_url(url))

复制代码

报错内容

>>>
Traceback (most recent call last):
File "C:\Users\Administrator\Desktop\060-3-(下载IP列表-高匿).py", line 28, in <module>
get_img(open_url(url))
File "C:\Users\Administrator\Desktop\060-3-(下载IP列表-高匿).py", line 19, in get_img
print(m.group('ip','kou'))
AttributeError: 'list' object has no attribute 'group'
>>>

复制代码

卡在这里好久了，始终研究不出来。

希望大神能帮忙修改一下程序！

小剑剑 · 发表于 2016-5-15 13:08:50

本帖最后由小剑剑于 2016-5-15 23:07 编辑

宝贝归来发表于 2016-5-15 21:36
又有了一个新问题：我只想要“高匿”的ip

目前的正则表达式是这样的

import urllib.request
import re
def open_url(url):
W1 = urllib.request.Request(url)
W1.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.154 Safari/537.36 LBBROWSER')
W2 = urllib.request.urlopen(W1)
W3 = W2.read().decode('utf-8')
return W3
a=open_url("http://www.xicidaili.com/")
b=re.findall(r'''<td class="country"><img src="http://fs\.xicidaili\.com/images/flag/cn\.png" alt="Cn" /></td>\n.+?\n.+?\n.+?\n.+?高匿''',a)
c=[]
for i in b:
d=re.findall(r"\d+",i)
e=d[0]+'.'+d[1]+'.'+d[2]+'.'+d[3]+' '+d[4]
c.append(e)

复制代码

撸主把问题想复杂了，没必要一次就找出所有要的信息，
先找出高匿的
至于2位数字与4位数字用 \d+ 就可以默认是贪婪模式
我不是大神

小剑剑 · 发表于 2016-5-15 17:11:19

佷明显啊，他说列表没有ground方法啊，这个ground好像是用re.search得到的匹配对象的方法吧
findall就返回一个列表，拿来ground方法呢

小剑剑 · 发表于 2016-5-15 17:12:10

佷明显啊，他说列表没有ground方法啊，这个ground好像是用re.search得到的匹配对象的方法吧
findall就返回一个列表，拿来ground方法呢

宝贝归来 · 发表于 2016-5-15 19:24:56

小剑剑发表于 2016-5-15 17:12
佷明显啊，他说列表没有ground方法啊，这个ground好像是用re.search得到的匹配对象的方法吧
findall就返回 ...

那 findall 就没有办法使用命名组了么？
另外我刚刚发现，端口号有的是 8888，有的是 80
我用（\d?\d?\d?\d）遇到 8888 的时候只能匹配到一个 "8"
用（\d?\d?\d\d）的时候却又只能匹配到 “88”
该如何解决呢？

宝贝归来 · 发表于 2016-5-15 21:36:28

又有了一个新问题：我只想要“高匿”的ip

目前的正则表达式是这样的

p = re.compile(r'''(?P<ip>(?:(?:\d?\d?\d)[.]){3}(?:\d?\d?\d)) # 匹配ip
(?:[^"]*)
(?P<kou>(?:\d\d\d\d)) # 匹配端口号 kou
# 只匹配含有“高匿”项的ip
''',re.X|re.S)

复制代码

网页审查代码

<tr class="odd">
<td class="country"><img src="http://fs.xicidaili.com/images/flag/cn.png" alt="Cn"></td>
<td>218.59.114.164</td>
<td>8118</td>
<td>山东烟台</td>
<td class="country">高匿</td> # 不同类型的ip （有“高匿”的，也有“透明”的）
<td>HTTP</td>

复制代码

网址
http://www.xicidaili.com/

问大神：如何修改上面的那个正则表达式，让它只匹配含有“高匿”项的 ip 呢？

爱，不解释 · 发表于 2016-5-16 08:54:04

加油

Raizel · 发表于 2016-5-16 10:25:04

我也刚刚开始学习，加油！

宝贝归来 · 发表于 2016-5-16 10:35:58

小剑剑发表于 2016-5-15 23:05
撸主把问题想复杂了，没必要一次就找出所有要的信息，
先找出高匿的
至于2位数字与4位数字用 \ ...

谢谢大神、一下子又学会了好多知识，
另外还有最后一个问题！
刚刚我自己调试的时候，发现这里：

alt="Cn" /></td> # 这里“Cn”的后面为什么要加上“空格和除号”呢？“ /”

复制代码

而且如果不加这个的话，程序无法实现，这里是怎么回事，好深奥？

小剑剑 · 发表于 2016-5-16 13:05:28

宝贝归来发表于 2016-5-16 10:35
谢谢大神、一下子又学会了好多知识，
另外还有最后一个问题！
刚刚我自己调试的时候，发现这里：

额，你想多了，不是我要加空格而是他本身就有，你把 W3用记事本保存下来看看
我不是大神

宝贝归来 · 发表于 2016-5-16 19:44:42

小剑剑发表于 2016-5-16 13:05
额，你想多了，不是我要加空格而是他本身就有，你把 W3用记事本保存下来看看
我不是大神

谢谢你啦，另外我知道为什么“审查元素”和用Python 读取的“W3”不一样了！
因为，审查元素和查看网页源码还是有一点区别的，这个区别可以说是源代码和DOM的区别，我们审查元素，实际上是查看DOM，DOM渲染过了，查看网页源码看到的才是未解析的源代码，也就是我们用Python读取到的代码~。
所以，以后用爬虫的时候还是要看网页源代码才行~

账号		自动登录	找回密码
密码			立即注册

为什么我程序里的 ( ? P<name> ) 无法用group（‘name’）调用呢？

最佳答案

评分