鱼C论坛

 找回密码
 立即注册
查看: 2864|回复: 4

[小天才资讯] 朴素贝叶斯(一)|朴素贝叶斯和监督分类

[复制链接]
发表于 2017-3-23 22:00:45 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 Luse 于 2017-3-24 00:28 编辑

        小伙伴们大家好。今天我们来看一下朴素贝叶斯。这时一个很朴素的算法,其实我们小学时候就接触过这个公式,只是没想到这个公式它这么妖,扩展开辣么磨人。
        本章的资料来源《机器学习实战》,《机器学习》【周志华老师的西瓜书】,Udacity,网上各位小伙伴的帖子。等等。
       
        首先,我们从有趣的监督分类说起。

        我每天都要从家里出发去公司上班,我家附近有一个小伙伴,上班的时间不确定,每天早上他准备出发的时候就会问我到哪里了,我家到公司一半的地方,有一家华润万家。如果我还没有到华润万家,我就会等他,如果我过了华润万家,就会告诉他我快到公司了让他快一点小心迟到。

        在这个例子中,我们可以把我的位置看成一个特征,把华润万家作为一个分类器。根据分类器可以把特征分成两类,得到不同的结果。可以用下图表示。

        WX20170324-001912.png

        从图上可以看出来,这是一个一维的数据集。如果我的数据具有两个特征,例如:

        我和小王要去次火锅。我喜欢吃辣的,还喜欢吃肉。又辣又多肉的我最喜欢的,不辣还不给我肉吃的火锅还想我会去花钱?

        我们照样用图表示,可以看出来,我们这次是一个二位特征,可能会有一条线把这个面分成两类。

        WX20170324-002838.png

        以此类推,如果我们有n个体征,可能会有m(m<=n-1)维的方式将我们的数据集二分类。并且,通常我们在给定数据集的同时,给定了判断了标准【数据集是带有标签的数据】。

        这么说来,小伙伴们应该可以从感情上理解这个算法是怎么一回事了,下面我们放个大招,尝试从统计学来理解这个算法。

        在这篇文章最开始的地方,我们就提到过,我们很小的时候就接触过这个朴素的公式。我们首先来重温一下。
       
        一个箱子里放着3个白球和4个红球,从中随便摸一个,求摸出来的是白球的概率是多少。

        这个题目非常简单,就是拿白球的数量除以球的总数嘛对不对。敢不敢有点挑战啊!

        好我们现在升级一下,我们先从这个箱子里拿出一个球丢掉,再拿一个球,这时候拿到白球的概率应该怎么求呢?

        这时候,我们拿到白球的概率应该是要先考虑第一个球的情况,此时,我们的计算模型变成了条件概率模型,p(x|y)=p(xy)/p(y)。通过变形,我们还可以得到p(x|y)=(p(y|x)*p(x))/p(y)。【不知道怎么得来的自己去看条件概率,这绝对是高中的知识】

        通过计算不同条件下的概率【可以理解成计算同时满足不同期望的可能】,我们可以得到一个函数f(x),x为特征集合,f(x)为每个特征集合对应的概率的函数关系。很明显,这样的函数关系不止不一个。但如果有一个函数关系,可以让每个特征集合得到的概率最大【即面临的风险最小】,那么我们则选择这个函数关系作为我们的贝叶斯分类器。贝叶斯分类器的本质可以理解为是使期望误差最小的概率函数

        我们通常有两种方法来构建我们的贝叶斯分类器【风险最小化函数模型】,一种是对x建立p(c|x)的模型,另一种是联合概率分布p(x,c)构建p(c|x)的模型。
       
        看到这里大概就可以理解朴素贝叶斯和监督分类是什么啦,具体的算法实现,我们下次见~

        附:

        一、贝叶斯定理:
        设是两个事件,且p(A)>0,称p(B|A)=p(AB)/p(A)为在事件发生的条件下事件发生的概率。A,B的联合概率公式为:p(AB)=p(A)p(B|A)。
        设S为试验E的样本空间,B1,B2,...,Bn为E的一组事件,若满足BiBj=&#8709;,i&#10727;j,1,j=1,2,...,n,且B1∪B2∪...∪Bn=S,则称为样本空间S的一个划分。
        设试验E的样本空间为S,A为E的事件,B1,B2,...,Bn为样本空间S的一个划分且p(Bi)>0(i=1,2,...,n),则p(A)=p(B1)p(A|B1)+...+p(Bn)p(A|Bn)称为全概率公式。

        对于该公式,需要熟知的概念:
        先验概率(Prior):P(A)是A的先验概率,可以从已有的训练集中计算分为A类的样本占所有样本的比重得出。
        证据(Evidence):即上式 P(Bn),表示对于某测试样本,特征 Bn 出现的概率。同样可以从训练集中 Bn 特征对应样本所占总样本的比例得出。
        似然(likelihood):即上式 P(Bn|A),表示如果知道一个样本分为A类,那么他的特征为Bn的概率是多少
       
        对于多特征而言:
          贝叶斯决策就是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正,再利用期望值和修正概率做出最优决策。基于贝叶斯定理的朴素贝叶斯模型是应用最为广泛的分类模型之一,其所需估计的参数很少,对缺失数据不太敏感,算法也比较简单,因此用途甚广。



本篇已经发表在公众号【饺子的生信日记】上,如需转载请注明:http://mp.weixin.qq.com/s/CqaDsmTL_YxJbSQ_uLF1SQ

评分

参与人数 1荣誉 +6 鱼币 +6 贡献 +3 收起 理由
不二如是 + 6 + 6 + 3 感谢楼主无私奉献!

查看全部评分

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-3-23 23:08:49 | 显示全部楼层
为啥从文中说有“从图上看”,然而…
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-3-24 00:29:33 | 显示全部楼层
不二如是 发表于 2017-3-23 23:08
为啥从文中说有“从图上看”,然而…

hhh忘记插入了~现在有了~
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-3-24 08:33:16 | 显示全部楼层
Luse 发表于 2017-3-24 00:29
hhh忘记插入了~现在有了~


得概率者,的天下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-3-24 17:39:57 | 显示全部楼层

贝叶斯确实是统计学知识用的比较多。嗯,不对,数据分析都多,毕竟不可能真的分析所有的样本空间,所以大多都是抽样分析,然后统计验证。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-3-29 13:52

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表