热度 4|
各位小伙伴大家好。最近被很多同志痛心疾首地“责备”了。大家都觉得我想的太多了。为了证明我不是光想不做事的人,我决定从今天开始,和大家分享我机器学习的历程。
因为机器学习会涉及统计学的算法和python的编程,所以会间或更新统计学的相关知识和python的代码。希望有小伙伴一起学习讨论。
本条推送涉及的资料包括但不限于:Udacity。周志华老师的《机器学习》。
机器学习是人工智能发展到一定阶段的必然产物。
从机器学习的用途来分,我们可以将其分为“分类”和“回归”。分类离散而回归连续。
分类的代表是支持向量机,随机森林,贝叶斯分类器。而回归我们常用的有线性回归,逻辑回归,GBDT回归等。
从训练的方式我们将其分为“监督学习”和“无监督学习”。监督学习提供具体的标签【特征】和判断的标准,非监督学习不提供判断的标准或数据没有具体的标签。前者主要用于分类和回归。而聚类是后者的代表。
从学习方式可以分为“机械学习”,“类比学习”和“归纳学习”。
“机械学习”就是把数据记住,需要的时候再取出来,有点像python中的字典或者perl里的hash,我们把成组的数据存进去,需要的时候再看它的组。这其实没有真正地进行学习,而是信息的存储与检索。
“类比学习”和“机械学习”的区别在我看来,【注意注意,这一段不一定正确,请判断性地阅读】,就是是否形成一个model,内部生产判断的条件,在结果上体现出来就会发现结论的尽可能一般或者特殊,以及结论偏好的选择。举个🌰。
我们认识A喜欢的音乐是节奏舒缓的,歌词文艺的。那么有一首节奏舒缓,但是内容简单粗暴的歌A是否喜欢呢?
其实这就属于监督分类了,下次朴素贝叶斯还会提到的。这只是概论,有个概念就好~
“归纳学习”是现在研究最多应用最广的,涵盖了监督学习,非监督学习等等。而我们学习的主要也就是它。
归纳学习的代表包括决策树和基于逻辑的学习。典型的决策树学习以信息论为基础,以信息熵最小化为目标,直接模拟了人类对概念进行判定的树形流程。由于简单易用,目前仍是最常用的机器学习技术之一。基于逻辑的学习一大主流是神经网络学习【也是目前的主流】。这一技术的特点在于没有具体的模型,缺乏合理的数学解释,同样的因为没有具体的模型,所以调参尤其重要。所以为了保证神经网络的正确性,需要大量的正确的数据来进行训练。所以适用于小样本学习支持向量机也曾经火了一段时间。因为样本数量较小,为了保证其正确性和泛化性,所有的样本都是符合统计学原理的,也正因为经过统计检验,所以具有较好的泛化性。也被称之为“统计学习”。
机器学习的常用术语包括“数据集”,“样本”,“特征”,“训练”,“测试”。
判断模型的性能常用“泛化性”,“错误率”,“精度”,“查准率”,“查全率”,以及“F1”【基于查准率和查全率的调和平均】,“ROC曲线”来判断。
之前学的时候东一榔头西一棒子。啥都知道一点但是也不成体系。下一课讲监督分类和朴素贝叶斯。也许你自己去看我提供的两种比较系统的教材就学的比我还快啦!
本篇日志已经发表在公众号【饺子的生信日记】,如要转载请注明出处
小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)
GMT+8, 2024-4-19 11:10
Powered by Discuz! X3.4
© 2001-2023 Discuz! Team.