鱼C论坛 › Luse › 日志

Luse

https://fishc.com.cn/?416885

机器学习|那些写在最前面的概论

热度 4已有 803 次阅读2017-3-15 21:20 |个人分类:机器学习

各位小伙伴大家好。最近被很多同志痛心疾首地“责备”了。大家都觉得我想的太多了。为了证明我不是光想不做事的人，我决定从今天开始，和大家分享我机器学习的历程。

因为机器学习会涉及统计学的算法和python的编程，所以会间或更新统计学的相关知识和python的代码。希望有小伙伴一起学习讨论。

本条推送涉及的资料包括但不限于：Udacity。周志华老师的《机器学习》。

机器学习是人工智能发展到一定阶段的必然产物。

从机器学习的用途来分，我们可以将其分为“分类”和“回归”。分类离散而回归连续。

分类的代表是支持向量机，随机森林，贝叶斯分类器。而回归我们常用的有线性回归，逻辑回归，GBDT回归等。

从训练的方式我们将其分为“监督学习”和“无监督学习”。监督学习提供具体的标签【特征】和判断的标准，非监督学习不提供判断的标准或数据没有具体的标签。前者主要用于分类和回归。而聚类是后者的代表。

从学习方式可以分为“机械学习”，“类比学习”和“归纳学习”。

“机械学习”就是把数据记住，需要的时候再取出来，有点像python中的字典或者perl里的hash，我们把成组的数据存进去，需要的时候再看它的组。这其实没有真正地进行学习，而是信息的存储与检索。

“类比学习”和“机械学习”的区别在我看来，【注意注意，这一段不一定正确，请判断性地阅读】，就是是否形成一个model，内部生产判断的条件，在结果上体现出来就会发现结论的尽可能一般或者特殊，以及结论偏好的选择。举个🌰。

我们认识A喜欢的音乐是节奏舒缓的，歌词文艺的。那么有一首节奏舒缓，但是内容简单粗暴的歌A是否喜欢呢？

其实这就属于监督分类了，下次朴素贝叶斯还会提到的。这只是概论，有个概念就好～

“归纳学习”是现在研究最多应用最广的，涵盖了监督学习，非监督学习等等。而我们学习的主要也就是它。

归纳学习的代表包括决策树和基于逻辑的学习。典型的决策树学习以信息论为基础，以信息熵最小化为目标，直接模拟了人类对概念进行判定的树形流程。由于简单易用，目前仍是最常用的机器学习技术之一。基于逻辑的学习一大主流是神经网络学习【也是目前的主流】。这一技术的特点在于没有具体的模型，缺乏合理的数学解释，同样的因为没有具体的模型，所以调参尤其重要。所以为了保证神经网络的正确性，需要大量的正确的数据来进行训练。所以适用于小样本学习支持向量机也曾经火了一段时间。因为样本数量较小，为了保证其正确性和泛化性，所有的样本都是符合统计学原理的，也正因为经过统计检验，所以具有较好的泛化性。也被称之为“统计学习”。

机器学习的常用术语包括“数据集”，“样本”，“特征”，“训练”，“测试”。

判断模型的性能常用“泛化性”，“错误率”，“精度”，“查准率”，“查全率”，以及“F1”【基于查准率和查全率的调和平均】，“ROC曲线”来判断。

之前学的时候东一榔头西一棒子。啥都知道一点但是也不成体系。下一课讲监督分类和朴素贝叶斯。也许你自己去看我提供的两种比较系统的教材就学的比我还快啦！

本篇日志已经发表在公众号【饺子的生信日记】，如要转载请注明出处

https://mp.weixin.qq.com/s?__biz=MzI3MjM4NTMwMw==&mid=2247483710&idx=1&sn=ab442dcee382d1e4a38fd864edba58d5&chksm=eb321546dc459c500772e43d59cd7a9f6dbfeb5930b780a2da6b4bdaa65694b8985fb35a9053#rd