python小练习（025）：用python分析并预测四档热门综艺节目

jerryxjr1220 · 发表于 2016-11-27 21:56:50

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 jerryxjr1220 于 2016-11-27 23:37 编辑

python小练习（024）给大家分享了自制的小游戏2048，传送门

今天的小练习会和大家分享如何利用python丰富的而且功能强大的第三方库来分析数据并进行简单预测。

数据源我就简单爬取了近1个月来我比较喜欢的4档热门综艺节目的收视率，它们分别是：蒙面唱将、今夜百乐门、喜剧总动员、快乐大本营。

数据源：

日期	节目	频道	收视率	市场份额
11/14-11/20	蒙面唱将	江苏卫视	2.010%	6.826%
11/14-11/20	今夜百乐门	东方卫视	1.377%	3.934%
11/14-11/20	喜剧总动员	浙江卫视	1.987%	5.728%
11/14-11/20	快乐大本营	湖南卫视	1.299%	3.735%
11/07-11/13	蒙面唱将	江苏卫视	1.840%	6.294%
11/07-11/13	今夜百乐门	东方卫视	1.336%	4.012%
11/07-11/13	喜剧总动员	浙江卫视	2.049%	6.013%
11/07-11/13	快乐大本营	湖南卫视	1.606%	4.710%
10/31-11/06	蒙面唱将	江苏卫视	1.388%	5.334%
10/31-11/06	今夜百乐门	东方卫视	1.246%	3.759%
10/31-11/06	喜剧总动员	浙江卫视	1.972%	5.905%
10/31-11/06	快乐大本营	湖南卫视	1.489%	4.426%
10/24-10/30	蒙面唱将	江苏卫视	1.830%	6.271%
10/24-10/30	今夜百乐门	东方卫视	0.868%	2.573%
10/24-10/30	喜剧总动员	浙江卫视	1.860%	5.504%
10/24-10/30	快乐大本营	湖南卫视	1.464%	4.315%

jerryxjr1220 · 发表于 2016-11-27 21:59:17

本帖最后由 jerryxjr1220 于 2016-11-28 20:07 编辑

提示：会用到的库有：numpy , sklearn，matplotlib

其实只是利用了线性回归拟合了近1个月的数据，由于样本量比较少，多半预测的数据是不准确的。

这里只是提供一个思路，对于大量样本的话，预测是有一定可信度的。

代码：

# -*- coding: utf-8 -*-
"""
Created on Sun Nov 27 22:01:32 2016
@author: Administrator
"""
import numpy as np
import matplotlib.pyplot as plt
from sklearn import linear_model as ln
viewer = [['11/14-11/20','蒙面唱将','江苏卫视',2.010,6.826],\
['11/14-11/20','今夜百乐门','东方卫视',1.377,3.934],\
['11/14-11/20','喜剧总动员','浙江卫视',1.987,5.728],\
['11/14-11/20','快乐大本营','湖南卫视',1.299,3.735],\
['11/07-11/13','蒙面唱将','江苏卫视',1.840,6.294],\
['11/07-11/13','今夜百乐门','东方卫视',1.336,4.012],\
['11/07-11/13','喜剧总动员','浙江卫视',2.049,6.013],\
['11/07-11/13','快乐大本营','湖南卫视',1.606,4.710],\
['10/31-11/06','蒙面唱将','江苏卫视',1.388,5.334],\
['10/31-11/06','今夜百乐门','东方卫视',1.246,3.759],\
['10/31-11/06','喜剧总动员','浙江卫视',1.972,5.905],\
['10/31-11/06','快乐大本营','湖南卫视',1.489,4.426],\
['10/24-10/30','蒙面唱将','江苏卫视',1.830,6.271],\
['10/24-10/30','今夜百乐门','东方卫视',0.868,2.573],\
['10/24-10/30','喜剧总动员','浙江卫视',1.860,5.504],\
['10/24-10/30','快乐大本营','湖南卫视',1.464,4.315]]
for i in range(len(viewer)):
viewer[i].append(viewer[i][-1]*viewer[i][-2])
plt.scatter([5,4,3,2],[e[-1] for e in viewer if e[1] == '蒙面唱将'],color='blue')
plt.scatter([5,4,3,2],[e[-1] for e in viewer if e[1] == '今夜百乐门'],color='red')
plt.scatter([5,4,3,2],[e[-1] for e in viewer if e[1] == '喜剧总动员'],color='green')
plt.scatter([5,4,3,2],[e[-1] for e in viewer if e[1] == '快乐大本营'],color='black')
X = np.array([5,4,3,2]).reshape(-1,1)
px = np.array([6,5,4,3,2]).reshape(-1,1)
regm = ln.LinearRegression()
regm.fit(X,[e[-1] for e in viewer if e[1] == '蒙面唱将'])
plt.plot(px,regm.predict(px),color='blue',label="mask")
print ('预测《蒙面唱将》将在11/21-11/28的收视率达到%.3f percent' % (regm.predict(6)/sum([e[-2] for e in viewer if e[1] == '蒙面唱将'])*4))
regj = ln.LinearRegression()
regj.fit(X,[e[-1] for e in viewer if e[1] == '今夜百乐门'])
plt.plot(px,regj.predict(px),color='red',label="tonight")
print ('预测《今夜百乐门》将在11/21-11/28的收视率达到%.3f percent' % (regm.predict(6)/sum([e[-2] for e in viewer if e[1] == '今夜百乐门'])*4))
regx = ln.LinearRegression()
regx.fit(X,[e[-1] for e in viewer if e[1] == '喜剧总动员'])
plt.plot(px,regx.predict(px),color='green',label="comedy")
print ('预测《喜剧总动员》将在11/21-11/28的收视率达到%.3f percent' % (regm.predict(6)/sum([e[-2] for e in viewer if e[1] == '喜剧总动员'])*4))
regk = ln.LinearRegression()
regk.fit(X,[e[-1] for e in viewer if e[1] == '快乐大本营'])
plt.plot(px,regk.predict(px),color='black',label="happy")
print ('预测《快乐大本营》将在11/21-11/28的收视率达到%.3f percent' % (regm.predict(6)/sum([e[-2] for e in viewer if e[1] == '快乐大本营'])*4))
plt.legend(loc='upper left')
plt.xticks([0, 2, 3, 4, 5, 6],
['', '10/24\n-10/30', '10/31\n-11/06', '11/07\n-11/13', '11/14\n-11/20', '11/21\n-11/28'])
plt.show()

复制代码

龙骑战龙 · 发表于 2016-12-10 13:03:03

numpy 模块没有怎么弄？

jerryxjr1220 · 发表于 2016-12-10 20:41:11

龙骑战龙发表于 2016-12-10 13:03
numpy 模块没有怎么弄？

pip3 install numpy

龙骑战龙 · 发表于 2016-12-14 14:38:32

jerryxjr1220 发表于 2016-12-10 20:41
pip3 install numpy

谢谢！！

ljmpython · 发表于 2016-12-14 16:03:04

66666

JAY饭 · 发表于 2018-1-28 09:04:00

这个预测题目，这个跨度有点大，确实不知道从哪入手。翻看了下数据科学导论，涉及的算法看不太懂，关于sklearn这个模块具体操作应用有点少。

littlebozi · 发表于 2019-1-24 10:29:47

为什么好帖子人这么少，顶顶顶

账号		自动登录	找回密码
密码			立即注册

[技术交流] python小练习（025）：用python分析并预测四档热门综艺节目

马上注册，结交更多好友，享用更多功能^_^

本帖被以下淘专辑推荐: