鱼C论坛

 找回密码
 立即注册
查看: 1219|回复: 4

[技术交流] 爬取百度新闻的文字

[复制链接]
发表于 2017-1-20 15:58:53 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
  1. import re
  2. import urllib.request as a
  3. url = 'http://news.baidu.com/'
  4. onePiece = a.urlopen(url)
  5. a1 = onePiece.read().decode('GBK')
  6. index = re.findall(r'[^a-z,>,<,//,=,&,",),(,A-Z,},{,+,.,/., ,]',str(a1))#取出除了所有英文字母外的东西,存成列表
  7. index1 = (''.join(index)).strip(' ')#将列表转成字符串
  8. with open('g:\\a.txt','w') as article:#写文件
  9.     article.write(index1)
复制代码

评分

参与人数 1荣誉 +3 鱼币 +5 收起 理由
零度非安全 + 3 + 5 可以,不错,加油,么么哒!

查看全部评分

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-1-20 17:24:01 | 显示全部楼层
沙发,很强势
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-1-21 06:36:15 | 显示全部楼层
我又给改进了下,封装成函数然后加了个目录
  1. import os

  2. import re
  3. import urllib.request as a
  4. def searchArticle(url):
  5.     onePiece = a.urlopen(url)
  6.     a1 = onePiece.read().decode('GBK')
  7.     index = re.findall(r'[^a-z,0-9,>,<,//,=,&,",),(,A-Z,},{,+,.,/., ,/s]',str(a1))#取出除了所有英文字母外的东西,存成列表
  8.     index1 = (''.join(index)).strip(' ')#将列表转成字符串
  9.     if not os.path.exists('G:\\article'):
  10.         os.mkdir('G:\\article')
  11.     with open('g:\\article\\a.txt','w') as article:#写文件
  12.         article.write(index1)
  13. if __name__=='__main__':
  14.     searchArticle('http://news.baidu.com/')
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-7-4 17:04:43 | 显示全部楼层
我用的是python3.6.1,报错了啊

——————————————————————————

  1. Traceback (most recent call last):
  2.   File "H:/00JIMIN/练习/爬取百度文字.py", line 15, in <module>
  3.     searchArticle('http://news.baidu.com/')
  4.   File "H:/00JIMIN/练习/爬取百度文字.py", line 7, in searchArticle
  5.     a1 = onePiece.read().decode('GBK')
  6. UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 272: illegal multibyte sequence
  7. >>>
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-7-4 17:11:13 From FishC Mobile | 显示全部楼层
jmllljgs 发表于 2017-7-4 17:04
我用的是python3.6.1,报错了啊
——————————————————————————

解码的问题,那个网站可能改版了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-23 15:57

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表