本帖最后由 jerryxjr1220 于 2016-11-4 11:36 编辑
打开zip文件,看到有几千个文本文档,然后找到readme,要求我们从90052.txt开始往下找线索,原理还是和之前爬网页的原理一样,只不过这里要运用zipfile的模块+正则。
- #!/usr/bin/python
- # -*- coding: UTF-8 -*-
- import zipfile
- import re
- channel = zipfile.ZipFile('channel.zip','r')
- name = '90052'
- try:
- while True:
- filename = name+'.txt'
- f = channel.open(filename,'r')
- string = f.read()
- f.close()
- name = re.findall('\d{2,},string)[0]
- print name
- except:
- print string
复制代码
最后输出:
Collect the comments.
好吧,原理这些文本文件中还包含有comments
继续收集comments
- import zipfile
- import re
- channel = zipfile.ZipFile('channel.zip','r')
- comments = []
- name = '90052'
- try:
- while True:
- filename = name+'.txt'
- f = channel.open(filename,'r')
- string = f.read()
- comments.append(channel.getinfo(filename).comment)
- f.close()
- name = re.findall('\d{2,},string)[0]
- print name
- except:
- print string
- print comments
复制代码
输出:
['*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '\n', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '\n', '*', '*', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', '*', '*', '\n', '*', '*', ' ', ' ', ' ', 'O', 'O', ' ', ' ', ' ', ' ', 'O', 'O', ' ', ' ', ' ', ' ', 'X', 'X', ' ', ' ', ' ', ' ', ' ', ' ', 'Y', 'Y', 'Y', 'Y', ' ', ' ', ' ', ' ', 'G', 'G', ' ', ' ', ' ', ' ', 'G', 'G', ' ', ' ', 'E', 'E', 'E', 'E', 'E', 'E', ' ', 'N', 'N', ' ', ' ', ' ', ' ', ' ', ' ', 'N', 'N', ' ', ' ', '*', '*', '\n', '*', '*', ' ', ' ', ' ', 'O', 'O', ' ', ' ', ' ', ' ', 'O', 'O', ' ', ' ', 'X', 'X', 'X', 'X', 'X', 'X', ' ', ' ', ' ', 'Y', 'Y', 'Y', 'Y', 'Y', 'Y', ' ', ' ', ' ', 'G', 'G', ' ', ' ', ' ', 'G', 'G', ' ', ' ', ' ', 'E', 'E', 'E', 'E', 'E', 'E', ' ', ' ', 'N', 'N', ' ', ' ', ' ', ' ', 'N', 'N', ' ', ' ', ' ', '*', '*', '\n', '*', '*', ' ', ' ', ' ', 'O', 'O', ' ', ' ', ' ', ' ', 'O', 'O', ' ', 'X', 'X', 'X', ' ', ' ', 'X', 'X', 'X', ' ', 'Y', 'Y', 'Y', ' ', ' ', ' ', 'Y', 'Y', ' ', ' ', 'G', 'G', ' ', 'G', 'G', ' ', ' ', ' ', ' ', ' ', 'E', 'E', ' ', ' ', ' ', ' ', ' ', ' ', ' ', 'N', 'N', ' ', ' ', 'N', 'N', ' ', ' ', ' ', ' ', '*', '*', '\n', '*', '*', ' ', ' ', ' ', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', ' ', 'X', 'X', ' ', ' ', ' ', ' ', 'X', 'X', ' ', 'Y', 'Y', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', 'G', 'G', 'G', ' ', ' ', ' ', ' ', ' ', ' ', ' ', 'E', 'E', 'E', 'E', 'E', ' ', ' ', ' ', ' ', ' ', 'N', 'N', 'N', 'N', ' ', ' ', ' ', ' ', ' ', '*', '*', '\n', '*', '*', ' ', ' ', ' ', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', ' ', 'X', 'X', ' ', ' ', ' ', ' ', 'X', 'X', ' ', 'Y', 'Y', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', 'G', 'G', 'G', ' ', ' ', ' ', ' ', ' ', ' ', ' ', 'E', 'E', 'E', 'E', 'E', ' ', ' ', ' ', ' ', ' ', ' ', 'N', 'N', ' ', ' ', ' ', ' ', ' ', ' ', '*', '*', '\n', '*', '*', ' ', ' ', ' ', 'O', 'O', ' ', ' ', ' ', ' ', 'O', 'O', ' ', 'X', 'X', 'X', ' ', ' ', 'X', 'X', 'X', ' ', 'Y', 'Y', 'Y', ' ', ' ', ' ', 'Y', 'Y', ' ', ' ', 'G', 'G', ' ', 'G', 'G', ' ', ' ', ' ', ' ', ' ', 'E', 'E', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', 'N', 'N', ' ', ' ', ' ', ' ', ' ', ' ', '*', '*', '\n', '*', '*', ' ', ' ', ' ', 'O', 'O', ' ', ' ', ' ', ' ', 'O', 'O', ' ', ' ', 'X', 'X', 'X', 'X', 'X', 'X', ' ', ' ', ' ', 'Y', 'Y', 'Y', 'Y', 'Y', 'Y', ' ', ' ', ' ', 'G', 'G', ' ', ' ', ' ', 'G', 'G', ' ', ' ', ' ', 'E', 'E', 'E', 'E', 'E', 'E', ' ', ' ', ' ', ' ', ' ', 'N', 'N', ' ', ' ', ' ', ' ', ' ', ' ', '*', '*', '\n', '*', '*', ' ', ' ', ' ', 'O', 'O', ' ', ' ', ' ', ' ', 'O', 'O', ' ', ' ', ' ', ' ', 'X', 'X', ' ', ' ', ' ', ' ', ' ', ' ', 'Y', 'Y', 'Y', 'Y', ' ', ' ', ' ', ' ', 'G', 'G', ' ', ' ', ' ', ' ', 'G', 'G', ' ', ' ', 'E', 'E', 'E', 'E', 'E', 'E', ' ', ' ', ' ', ' ', ' ', 'N', 'N', ' ', ' ', ' ', ' ', ' ', ' ', '*', '*', '\n', '*', '*', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', '*', '*', '\n', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '\n', ' ', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '*', '\n']
估计又是一副字符画了。。。
再来:
把最后一句改成:
然后就看到:
- ****************************************************************
- ****************************************************************
- ** **
- ** OO OO XX YYYY GG GG EEEEEE NN NN **
- ** OO OO XXXXXX YYYYYY GG GG EEEEEE NN NN **
- ** OO OO XXX XXX YYY YY GG GG EE NN NN **
- ** OOOOOOOO XX XX YY GGG EEEEE NNNN **
- ** OOOOOOOO XX XX YY GGG EEEEE NN **
- ** OO OO XXX XXX YYY YY GG GG EE NN **
- ** OO OO XXXXXX YYYYYY GG GG EEEEEE NN **
- ** OO OO XX YYYY GG GG EEEEEE NN **
- ** **
- ****************************************************************
- **************************************************************
复制代码
|