Python：每日一题 117

jerryxjr1220 · 发表于 2017-10-26 15:07:55

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

首先我们的玩法做了一下改变：
1. 楼主不再提供答案。
2. 请大家先独立思考，再参考各位大神的答案，这样才有助于提高自己的编程水平。
3. 鼓励大家积极答题，奖励的期限为出题后24小时内。
4. 根据答案的质量给予1~3鱼币的奖励。

题目：用Python解读十九大报告
最近的十九大报告出台，报告中例举了非常多关乎我们民生的重要议题。
那么请你用Python来解读一下，究竟报告中有哪些关键词，整体报告传达了怎样的意思？

提示：分词、词频统计

如果会画词云图，有加分！

十九大报告原文下载：

report.zip (29.8 KB, 下载次数: 36)

colinshi · 发表于 2017-10-26 16:36:20

偷个懒直接用了jieba的分词引擎。。。。。
结果就是去掉无意义的词那么出现次数最多(超过100次)的就是:
('党', 107), ('坚持', 132) ('社会主义',146), ('建设', 151), ('人民', 157), ('中国', 168), ('发展', 212)

import jieba
with open(r'D:\report.txt','r',encoding='utf-8') as f:
jb=jieba.cut(f.read(), cut_all=False, HMM=True)
tf={}
for i in jb:
#print seg
i = ''.join(i.split())
if (i != '' and i != "\n" and i != "\n\n") :
if i in tf :
tf[i] += 1
else :
tf[i] = 1
print(sorted(tf.items(),key=lambda item:item[1]))

复制代码

bush牛 · 发表于 2017-10-26 20:40:47

先上一下本题的，用了结巴

import jieba.analyse
def func():
path = r'C:\py\doc\prom\report.txt'
with open(path) as f:
data = f.read()
tags = jieba.analyse.extract_tags(data,20)
text_split = jieba.cut(data, cut_all=False)
text_list = list(text_split)
d =dict()
for i in range(20):
d[tags[i]] = text_list.count(tags[i])
print(d)
func()

复制代码

下面是做了个英文的【i have a dream】的演讲稿。想不用包来弄。

path = r'C:\py\doc\prom\oxo.txt'
words_list = []
with open(path) as f:
text = f.read()
# 拆分剔除标点，存放所有单词，这儿有个问题，就是英文中的双引号，去不掉。
text = text.split('\n')
for i in text:
for j in i.split(' '):
if j[-1] in {':', ',', '"', '?', '!'}:
j = j[:-1]
elif j[0] == '"':
j = j[1:]
words_list.append(j)
# 单词和个数对应存入字典
words_dict = dict()
for i in set(words_list):
words_dict[i] = words_list.count(i)
top_word = list()
# 只取前20多的单词
top_word = sorted(zip(words_dict.values(),words_dict.keys()), reverse=True)
for i in range(20):
print(top_word[i])

复制代码

运行后得出的结果，只能说是单词的统计，算不上统计。

solomonxian · 发表于 2017-10-30 18:52:05

楼主你出的题目都很有特地哈

这个难点在分词吧，还没接触过相应的工具库，

手动的话，我想将文本连续2个字、3个字、4个字取，应该就包含单词了
然后统计个数，最后肯定会有“我们的”、“，”、“。”这些用得多但是不关键的
只能人工分辨了

path = "report.txt"
nums = (2, 3, 4)
counter = {}
with open(path) as file:
for row in file:
for num in nums:
for i in range(len(row)):
try: # 每行最后两个字会多统计几次，不过都是标点符号，算了
counter[row[i: i+num]] += 1
except KeyError:
counter[row[i: i+num]] = 1
file.close()
result = sorted(counter.items(), key=lambda x:x[1], reverse=True)
print(result[:20]) # 给出前20

复制代码

结果是这样的

[('社会', 262), ('发展', 232), ('人民', 206), ('中国', 194), ('主义', 189), ('建设', 168), ('会主', 152), ('社会主', 152), ('会主义', 146), ('社会主义', 146), ('。 ', 140), ('坚持', 133), ('国家', 115), ('制度', 101), ('全面', 95), ('政治', 94), ('党的', 91), ('实现', 88), ('民族', 81), ('推进', 81)]

复制代码

jerryxjr1220 · 发表于 2017-10-31 06:19:12

solomonxian 发表于 2017-10-30 18:52
楼主你出的题目都很有特地哈
这个难点在分词吧，还没接触过相应的工具库，
手动的话 ...

你这是用英语分词的方法进行中文分词啊
一般中文分词库的做法是根据常用词语进行分词，所以词语库的好坏就决定了分词的质量。

ooxx7788 · 发表于 2017-10-31 09:45:05

因为我之前有做过现成的东西，也就是换个文本的事情。代码里面因为还有停用词库这种东西，就不放了，百度随便搜搜很多的那种。

bush牛 · 发表于 2017-11-1 14:03:39

今天看到了Counter。感觉英文单词统计用这个真的简单的不要不要。。。我之前手写的完全就是渣渣。

solomonxian · 发表于 2017-11-1 18:40:49

去瞄了一下，发现如果工具包还挺简单的，补上个小示范

import jieba.analyse
from wordcloud import WordCloud
path = "report.txt"
topK = 20 # 出现频率排前20的热词
with open(path) as f:
text = jieba.analyse.extract_tags(f.read(), topK=topK) # 这货是个生成器
word_cloud = WordCloud(font_path='simsun.ttc', background_color='white',width=600,
height=480).generate(" ".join(text)) # 这个text参数要字符串
word_cloud.to_file("report.png")
f.close()
print("done!")

复制代码

solomonxian · 发表于 2017-11-1 20:07:22

ooxx7788 发表于 2017-10-31 09:45
因为我之前有做过现成的东西，也就是换个文本的事情。代码里面因为还有停用词库这种东西，就不放了，百 ...

好像很久没看到你，啥方法别藏着掖着，拿出来大伙参考参考

ooxx7788 · 发表于 2017-11-1 22:41:37

solomonxian 发表于 2017-11-1 20:07
好像很久没看到你，啥方法别藏着掖着，拿出来大伙参考参考

就是很简单啊，把你这个代码封装一下，就变成只要给个文本就可以出图的了。代码满大街都是，也就懒得上了。

PYTHON90小菜鸟 · 发表于 2018-1-1 10:41:28

import jieba.analyse

content=open('report.txt').read()

tags=jieba.analyse.extract_tags(content,20)

text_list=jieba.lcut(content,cut_all=False)

dict1={}

for i in range(20):
dict1[tags[i]]=text_list.count(tags[i])

print(dict1)

永恒的蓝色梦想 · 发表于 2019-8-18 13:08:47

不是很明白要做什么……

账号		自动登录	找回密码
密码			立即注册

[技术交流] Python：每日一题 117

马上注册，结交更多好友，享用更多功能^_^

本帖被以下淘专辑推荐:

评分

评分