鱼C论坛

 找回密码
 立即注册
查看: 3337|回复: 2

[原创] python 爬取淘宝 并 分析词频

[复制链接]
发表于 2017-9-23 15:38:10 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
  1. from urllib import request
  2. import urllib
  3. import re
  4. from jieba import analyse
  5. search=urllib.parse.quote('哲♂学')
  6. f=open('1.txt','a')
  7. for i in range(10):
  8.    
  9.     print('正在读取第'+str(i+1)+'页数据...')
  10.     response=request.urlopen('https://s.taobao.com/search?q='+search+'&s='+str(i*44)).read().decode('utf-8')

  11.     title=re.findall(r'"raw_title":"([^"]+)"',response)
  12.    
  13.     for each in title:
  14.         
  15.         
  16.         f.write(each+'\n')

  17. f.close()

  18. content=open('1.txt','rb').read()

  19. tags = analyse.extract_tags(content, topK=100, withWeight=False)
  20. print(tags)
  21. text =" ".join(tags)
复制代码


123.JPG

评分

参与人数 1荣誉 +3 鱼币 +3 贡献 +3 收起 理由
康小泡 + 3 + 3 + 3

查看全部评分

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-11-5 20:47:09 | 显示全部楼层
不错
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-11-24 18:14:40 From FishC Mobile | 显示全部楼层
不错啊
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-3-29 04:55

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表