QQ登录

只需一步,快速开始

登录 | 立即注册 | 找回密码

主题

帖子

荣誉

VIP至尊会员

Rank: 15Rank: 15Rank: 15

积分
1519
查看: 623|回复: 1

[原创] python 爬取淘宝 并 分析词频

[复制链接]
最佳答案
6 
累计签到:632 天
连续签到:2 天
小人 发表于 2017-9-23 15:38:10 6231 | 显示全部楼层 |阅读模式

马上注册加入鱼C,享用更多服务吧^_^

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
  1. from urllib import request
  2. import urllib
  3. import re
  4. from jieba import analyse
  5. search=urllib.parse.quote('哲♂学')
  6. f=open('1.txt','a')
  7. for i in range(10):
  8.    
  9.     print('正在读取第'+str(i+1)+'页数据...')
  10.     response=request.urlopen('https://s.taobao.com/search?q='+search+'&s='+str(i*44)).read().decode('utf-8')

  11.     title=re.findall(r'"raw_title":"([^"]+)"',response)
  12.    
  13.     for each in title:
  14.         
  15.         
  16.         f.write(each+'\n')

  17. f.close()

  18. content=open('1.txt','rb').read()

  19. tags = analyse.extract_tags(content, topK=100, withWeight=False)
  20. print(tags)
  21. text =" ".join(tags)
复制代码


123.JPG

评分

参与人数 1荣誉 +3 鱼币 +3 贡献 +3 收起 理由
康小泡 + 3 + 3 + 3

查看全部评分

本帖被以下淘专辑推荐:

楼层
跳转到指定楼层
最佳答案
0 
累计签到:8 天
连续签到:1 天
BlackMan 发表于 2017-11-5 20:47:09 | 显示全部楼层
不错

发表回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

小甲鱼强烈推荐 上一条 /1 下一条

    移动客户端下载(未启用)
    微信公众号

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备11014136号

Copyright 2018 鱼C论坛 版权所有 All Rights Reserved.

Powered by Discuz! X3.1 Copyright
© 2001-2018 Comsenz Inc.    All Rights Reserved.

小黑屋|手机版|Archiver|鱼C工作室 ( 粤公网安备 44051102000370号 | 粤ICP备11014136号

GMT+8, 2017-12-19 04:08

快速回复 返回顶部 返回列表