|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
为什么我的百度爬出来只有两行内容??
但是其他的爬出来就是有内容的
我的代码:
#一次访问文件中的指定的站点,并将站点返回的内容存放到不同的文件中
import urllib.request as ur
import chardet as det
def readfile(urlfile):
with open(urlfile,'r') as urlcon:
for eachline in urlcon:
eachline=eachline.strip('\n')
spider(eachline)
def spider(urls):
global num
num+=1
contxt=ur.urlopen(urls)
cthtml=contxt.read()
encode=det.detect(cthtml)['encoding']
if encode=='GB2312':
encode='GBK'
cthtml=cthtml.decode(encode,'ignore')
filename='url_'+str(num)+'.txt'
with open(filename,'w',encoding=encode) as spdcontxt:
spdcontxt.write(cthtml)
if __name__=='__main__':
num=0
urlfile="urls.txt"
readfile(urlfile)
|
|