爬虫~51VOA常速英语,求加精.学英语同学的福利，2012-2016年的全集哦

wu8113 · 发表于 2016-12-25 15:08:25

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

下午花了1个多小时，去51voa踩点。发现常速英语有合集，爬虫比较简单，先做了这一个2012-2016的合集。
后续计划做①常速英语2005-2011的所有合集，②慢速英语的合集
想学英语，可以关注我后续的更新。我就不出新帖了，在这个帖子里继续更新吧。
废话不说，放代码了。
ps：其实我也是刚学的爬虫，文件名的设定还不是很好，目前只是做到了名字+年份+月份，那个小伙伴知道怎么设定具体的年+月+日的，请指教下。

#51VOA下载爬虫,目前只有106页,2012-2016的更新
import urllib.request
import re
import os
import urllib.error
def open_url(url):#打开地址用的
req=urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.22 Safari/537.36 SE 2.X MetaSr 1.0')
page=urllib.request.urlopen(req)
html=page.read()
return html
def get_mainadd(url):#主网页返回网址列表
html =open_url(url).decode('utf-8')
p = r'<a href="/VOA_Standard_English/([^"]+\.html)"'
page_addrs = re.findall(p, html)
return page_addrs
def get_mp3add(url):
html=open_url(url).decode('utf-8')
p=r'<a id="mp3" href="([^"]+\.mp3)"'
mp3_addrs=re.findall(p,html)
return mp3_addrs
def save_mp3(mp3_name,mp3_adds):
with open(mp3_name,'wb') as f:
f.write(mp3_adds)
x=1
if __name__=='__main__':
os.mkdir('51VOA_Standard')
os.chdir('51VOA_Standard')
num=input('请输入需要下载的总页面:')
a='http://www.51voa.com/VOA_Standard_'
global x
for i in range(int(num)):
try:
url=a+str(i+1)+'.html' #总网页，可分页
page_url=get_mainadd(url) #返回的列表还是有问题的,网址缺少了头部.
print('正在爬取第%d页,共有%d个文章'%(i+1,len(page_url)))
for j in page_url:
new_url='http://www.51voa.com/VOA_Standard_English/'+j #分网页
print(new_url)
print('正在爬取第%d个网页'%x)
x+=1
mp3_addrs=get_mp3add(new_url) #mp3所在的网址
for k in mp3_addrs:
b=k.split('/')[-2]+'-'+k.split('/')[-1]
mp3_open=open_url(k) #打开网址
mp3_save=save_mp3(b,mp3_open) #保存mp3,这里的程序名不能有特殊符号的,如/?等
except urllib.error.URLError as e:
if hasattr(e, 'code'):
print(e.code)
continue
elif hasattr(e, 'reason'):
print(e.reason)
continue
print('恭喜,下载结束.后面开始努力学习英语吧')
print(' (-*-)努力吧(-*-) ')

复制代码

忘忧草456789 · 发表于 2016-12-25 17:23:01

不过

wu8113 · 发表于 2016-12-25 19:00:53

忘忧草456789 发表于 2016-12-25 17:23
不过

什么意思啊?

wu8113 · 发表于 2016-12-25 19:31:57

升级版,增加了字幕和文本

#51VOA下载爬虫,目前只有106页,2012-2016的更新
import urllib.request
import re
import os
import urllib.error
def open_url(url):#打开地址用的
req=urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.22 Safari/537.36 SE 2.X MetaSr 1.0')
page=urllib.request.urlopen(req)
html=page.read()
return html
def get_mainadd(url):#主网页返回网址列表
html =open_url(url).decode('utf-8')
p = r'<a href="/VOA_Standard_English/([^"]+\.html)"'
page_addrs = re.findall(p, html)
return page_addrs
def get_mp3add(url):
html=open_url(url).decode('utf-8')
p=r'<a id="mp3" href="([^"]+\.mp3)"'
mp3_addrs=re.findall(p,html)
return mp3_addrs
def get_irc(html):
p=r'<a id="lrc" href="(.+).lrc"'
irc_addrs=re.findall(p,html)
return irc_addrs
def save_mp3(mp3_name,mp3_adds):
with open(mp3_name,'wb') as f:
f.write(mp3_adds)
def save_txt(txt_name,txt_adds):
with open(txt_name,'a') as f:
f.write(txt_adds+'\n')
f.write('-------我是可耻的换行符-------\n')
def save_irc(irc_name,irc_adds):
with open(irc_name,'wb') as f:
f.write(irc_adds)
x=1
if __name__=='__main__':
os.mkdir('51VOA_Standard')
os.chdir('51VOA_Standard')
num=input('请输入需要下载的总页面:')
a='http://www.51voa.com/VOA_Standard_'
global x
for i in range(int(num)):
try:
url=a+str(i+1)+'.html' #总网页，可分页
page_url=get_mainadd(url) #返回的列表还是有问题的,网址缺少了头部.
for j in page_url:
new_url='http://www.51voa.com/VOA_Standard_English/'+j #分网页
print(new_url)
print('正在爬取第%d页,第%d个网页'%(i+1,x))
x+=1
#mp3的处理
mp3_addrs=get_mp3add(new_url) #mp3所在的网址
for k in mp3_addrs:
b=k.split('/')[-2]+'-'+k.split('/')[-1]
mp3_open=open_url(k) #打开网址
mp3_save=save_mp3(b,mp3_open) #保存mp3,这里的程序名不能有特殊符号的,如/?等
#txt的处理(不知道为什么一用函数,正则返回的就是空列表,不用就好了)
txt_1=open_url(new_url)
html=txt_1.decode('utf-8')
q=r'<P>(.+)</P>'
txt_2=re.findall(q,html)
c=b.replace('mp3','txt') #保存后的文件名
print('文本爬取中......')
for m in txt_2:
aa=save_txt(c,m)
#irc文件的处理
open_irc=open_url(new_url)
open_irc1=open_irc.decode('utf-8')
irc_addrs=get_irc(open_irc1)
for n in irc_addrs:
if n!=[]:
new_irc='http://www.51voa.com'+n+'.lrc'
new_ircopen=open_url(new_irc)
d=b.replace('mp3','lrc') #保存后的文件名
irc_save=save_irc(d,new_ircopen)
print('字幕爬取中...')
else:
print('bbc很懒,没有字幕')
except urllib.error.URLError as e:
if hasattr(e, 'code'):
print(e.code)
continue
elif hasattr(e, 'reason'):
print(e.reason)
continue
print('恭喜,下载结束.后面开始努力学习英语吧')
print(' (-*-)努力吧(-*-) ')

复制代码

忘忧草Allen · 发表于 2016-12-25 22:35:05

群主有爱心

wanllk · 发表于 2016-12-26 16:56:49

厉害，支持

wu8113 · 发表于 2016-12-26 20:52:13

我的思路又变了,再爬取文本的过程中,我发现太慢了,而且爬了20页以后的,原来的正则表达式不适合当前的文本了,我绝对把程序切成3部分,lrc,mp3,和txt.
下面是更新的mp3:
MP3下载的更新内容如下:
1)增加了从第几页爬到第几页的功能
2)mp3文件的命名问题被我搞定了,现在的名字能体现具体的年月日了,哈哈哈哈哈哈===>(16-11-8) assisting-agriculture-in-kyrgyzstan-72473.mp3
3)文件创建文件是否重名检查,以便一次下载不完,可以多次来下载的.
4)增加一个记录的txt文件,记录当前下载的情况,防止自己忘记了,哈哈=====>2016-12-26 19:30 PM 从第61页下载到62页
5)最后我再笑几下,哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈

#51VOA下载爬虫,目前只有106页,2012-2016的更新
import urllib.request
import re
import os
import urllib.error
import time
def open_url(url):#打开地址用的
req=urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.22 Safari/537.36 SE 2.X MetaSr 1.0')
page=urllib.request.urlopen(req)
html=page.read()
return html
def get_mainadd(url):#主网页返回网址列表
html =open_url(url).decode('utf-8')
p = r'<a href="/VOA_Standard_English/([^"]+\.html)"'
page_addrs = re.findall(p, html)
return page_addrs
def get_pagedate(url):
html =open_url(url).decode('utf-8')
p = r'</a> ([^"]+)</li>'
page_date = re.findall(p, html)
return page_date
def get_mp3add(url):
html=open_url(url).decode('utf-8')
p=r'<a id="mp3" href="([^"]+\.mp3)"'
mp3_addrs=re.findall(p,html)
return mp3_addrs
def save_mp3(mp3_name,mp3_adds):
with open(mp3_name,'wb') as f:
f.write(mp3_adds)
def save_ac(txt_name,txt_adds):
with open(txt_name,'a') as f:
f.write(txt_adds+'\n')
f.write('-------我是可耻的换行符-------\n')
x=1
if __name__=='__main__':
#工作目录
get_cwd=os.getcwd()
new_cwd=get_cwd+'\\51VOA_Standard'
if os.path.exists(new_cwd) == True:
os.chdir(new_cwd)
else:
os.mkdir(new_cwd)
os.chdir(new_cwd)
#页面输入
num1=input('请输入开始页面:')
num2=input('请输入结束页面:')
a='http://www.51voa.com/VOA_Standard_'
global x
for i in range(int(num1),int(num2)+1):
try:
y=0 #爬取名字列表用的
url=a+str(i)+'.html' #总网页，可分页
page_url=get_mainadd(url) #返回的列表还是有问题的,网址缺少了头部.
page_date=get_pagedate(url) #返回主页面各个时间的列表
for j in page_url:
new_url='http://www.51voa.com/VOA_Standard_English/'+j #分网页
print(new_url)
print('正在爬取第%d页,第%d个网页'%(i,x))
x+=1
mp3_addrs=get_mp3add(new_url) #mp3所在的网址
for k in mp3_addrs:
#b=k.split('/')[-2]+'-'+k.split('/')[-1]
mp3_open=open_url(k) #打开网址
b=page_date[y]+' '+j #命名用
b=b.replace('html','mp3')
y+=1
mp3_save=save_mp3(b,mp3_open) #保存mp3,这里的程序名不能有特殊符号的,如/?等
except urllib.error.URLError as e:
if hasattr(e, 'code'):
print(e.code)
continue
elif hasattr(e, 'reason'):
print(e.reason)
continue
print('恭喜,下载结束.本次从%d页下载到%d页'%(int(num1),int(num2)))
print(' (-*-)努力学习吧(-*-) ')
tt=time.strftime("%Y-%m-%d %H:%M %p", time.localtime())
yy=tt+' '+'mp3从第'+num1+'页下载到'+num2+'页'
aa=save_ac('下载记录.txt',yy)

复制代码

忘忧草002 · 发表于 2016-12-26 21:29:20

提示: 作者被禁止或删除内容自动屏蔽

wu8113 · 发表于 2016-12-27 22:25:42

修复了:如果网页打不开,爬虫直接从第一主网页调到第二主网页的问题(中间可能漏了50个小网页

#51VOA下载爬虫,目前只有106页,2012-2016的更新
import urllib.request
import re
import os
import urllib.error
import time
def open_url(url):#打开地址用的
req=urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.22 Safari/537.36 SE 2.X MetaSr 1.0')
page=urllib.request.urlopen(req)
html=page.read()
return html
def get_mainadd(url):#主网页返回网址列表
html =open_url(url).decode('utf-8')
p = r'<a href="/VOA_Standard_English/([^"]+\.html)"'
page_addrs = re.findall(p, html)
return page_addrs
def get_pagedate(url):
html =open_url(url).decode('utf-8')
p = r'</a> ([^"]+)</li>'
page_date = re.findall(p, html)
return page_date
def get_mp3add(url):
html=open_url(url).decode('utf-8')
p=r'<a id="mp3" href="([^"]+\.mp3)"'
mp3_addrs=re.findall(p,html)
return mp3_addrs
def save_mp3(mp3_name,mp3_adds):
with open(mp3_name,'wb') as f:
f.write(mp3_adds)
def save_ac(txt_name,txt_adds):
with open(txt_name,'a') as f:
f.write(txt_adds+'\n')
f.write('-------我是可耻的换行符-------\n')
x=1
if __name__=='__main__':
#工作目录
get_cwd=os.getcwd()
new_cwd=get_cwd+'\\51VOA_Standard'
if os.path.exists(new_cwd) == True:
os.chdir(new_cwd)
else:
os.mkdir(new_cwd)
os.chdir(new_cwd)
#页面输入
num1=input('请输入开始页面:')
num2=input('请输入结束页面:')
a='http://www.51voa.com/VOA_Standard_'
global x
for i in range(int(num1),int(num2)+1):
try:
y=0 #爬取日期时间列表用的
url=a+str(i)+'.html' #总网页，可分页
page_url=get_mainadd(url) #返回的列表还是有问题的,网址缺少了头部.
page_date=get_pagedate(url) #返回主页面各个时间的列表
for j in page_url:
try:
new_url='http://www.51voa.com/VOA_Standard_English/'+j #分网页
print(new_url)
print('正在爬取第%d页,第%d个网页'%(i,x))
x+=1
mp3_addrs=get_mp3add(new_url) #mp3所在的网址
for k in mp3_addrs:
#b=k.split('/')[-2]+'-'+k.split('/')[-1]
mp3_open=open_url(k) #打开网址
b=page_date[y]+' '+j #命名用
b=b.replace('html','mp3')
y+=1
mp3_save=save_mp3(b,mp3_open) #保存mp3,这里的程序名不能有特殊符号的,如/?等
except urllib.error.URLError as e:
if hasattr(e, 'code'):
print(e.code)
continue
elif hasattr(e, 'reason'):
print(e.reason)
continue
except urllib.error.URLError as e:
if hasattr(e, 'code'):
print(e.code)
continue
elif hasattr(e, 'reason'):
print(e.reason)
continue
print('恭喜,下载结束.本次从%d页下载到%d页'%(int(num1),int(num2)))
print(' (-*-)努力学习吧(-*-) ')
tt=time.strftime("%Y-%m-%d %H:%M %p", time.localtime())
yy=tt+' '+'mp3从第'+num1+'页下载到'+num2+'页'
aa=save_ac('下载记录.txt',yy)

复制代码

)

账号		自动登录	找回密码
密码			立即注册

忘忧草002 忘忧草002 当前离线 UID 405153 日志相册贡献荣誉积分 20 狗仔卡头像被屏蔽	发表于 2016-12-26 21:29:20 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽
	想知道小甲鱼最近在做啥？请访问 -> ilovefishc.com
	回复使用道具举报显身卡

[技术交流] 爬虫~51VOA常速英语,求加精.学英语同学的福利，2012-2016年的全集哦

马上注册，结交更多好友，享用更多功能^_^

评分