借助各种库和框架,我们仅需一行代码即可实现机器学习算法。有些更进一步,使您可以立即实现和比较多种算法。在这篇文章中,我将提到有关7种机器学习算法的7个关键点。

凭借各种库和结构,咱们仅需一行代码即可完成机器学习算法。有些更进一步,使您可以当即完成和比较多种算法。

易用性具有一些缺陷。咱们或许会疏忽这些算法背面的要害概念或主意,而这些概念或主意关于全面了解它们至关重要。

 7种机器学习算法的7个要害点 机器学习 算法 第1张

在这篇文章中,我将说到有关7种机器学习算法的7个要害点。我想指出的是,这不会彻底解说这些算法,因而,假如您对它们有根本的了解,那就更好了。

开端吧。

1. 支撑向量机(SVM)

要害点:C参数

SVM创立一个决议计划鸿沟,以区别两个或多个类。

软裕量支撑向量机测验处理具有以下方针的优化问题:

  • 添加决议计划鸿沟与类(或支撑向量)的间隔
  • 最大化在练习会集正确分类的点数

这两个方针之间明显需求权衡取舍。决议计划鸿沟或许有必要十分挨近某一特定类才干正确符号一切数据点。可是,在这种情况下,由于决议计划鸿沟对噪声和自变量的细小改变过于灵敏,因而新观测值的准确性或许会下降。

另一方面,或许会为每个类别设置尽或许大的决议计划鸿沟,但要支付一些过错分类的破例的价值。这种权衡由c参数操控。

C参数为每个过错分类的数据点添加了赏罚。假如c小,则对过错分类的点的赏罚较低,因而以较大数量的过错分类为价值挑选了具有较大余量的决议计划鸿沟。

假如c大,由于高罚分,SVM会测验最大程度地削减误分类示例的数量,然后导致决议计划鸿沟的边距较小。关于一切过错分类的示例,赏罚都不相同。它与到决议计划鸿沟的间隔成正比。

2. 决议计划树

要害点:信息获取

挑选要切割的特征时,决议计划树算法会测验完成:

  • 更具猜想性
  • 杂质少
  • 较低的熵

熵是不确认性或随机性的测量。变量具有的随机性越多,熵就越高。具有均匀散布的变量具有最高的熵。例如,掷骰子有6个概率持平的或许成果,因而它具有均匀的散布和较高的熵。

7种机器学习算法的7个要害点  机器学习 算法 第2张

> Entropy vs Randomness

挑选导致更多纯节点的拆分。一切这些都标明"信息增益",根本上是割裂前后的熵之差。

7种机器学习算法的7个要害点  机器学习 算法 第3张

3. 随机森林

要害点:自举和功用随机性

随机森林是许多决议计划树的调集。随机森林的成功很大程度上取决于运用不相关的决议计划树。假如咱们运用相同或十分类似的树,则整体成果将与单个决议计划树的成果相差无几。随机森林经过自举和特征随机性来完成具有不相关的决议计划树。

自举是从练习数据中随机挑选样本进行替换。它们称为引导程序样本。

经过为随机森林中的每个决议计划树随机挑选特征来完成特征随机性。可以经过max_features参数操控用于随机森林中每棵树的特征数量。

7种机器学习算法的7个要害点  机器学习 算法 第4张

> Feature randomness

4. 梯度提高决议计划树

要害点:学习率和n_estimators

GBDT是决议计划树与boosting办法的结合体,意味着决议计划树是次序衔接的。

学习率和n_estimator是用于梯度提高决议计划树的两个要害超参数。

学习率仅表明模型学习的速度。学习速度较慢的长处是模型变得更强健和更通用。可是,学习缓慢需求支付必定的价值。练习模型需求更多时刻,这将咱们带到另一个重要的超参数。

n_estimator参数是模型中运用的树数。假如学习率低,咱们需求更多的树来练习模型。可是,咱们在挑选树数时需求十分当心。运用过多树木会发生过度拟合的高风险。

5. 朴素贝叶斯分类器

要害点:朴素假定有什么优点?

朴素贝叶斯(Naive Bayes)是一种用于分类的监督式机器学习算法,因而使命是在给定要素值的情况下找到观测的类别。朴素贝叶斯分类器在给定一组特征值(即p(yi | x1,x2,…,xn))的情况下核算类的概率。

朴素贝叶斯假定要素互相独立,要素之间没有相关。可是,现实生活中并非如此。特征不相关的这种单纯假定是将该算法称为"单纯"的原因。

与杂乱算法比较,一切功用都是独立的这一假定使其变得十分快。在某些情况下,速度比精度更高。

它适用于高维数据,例如文本分类,电子邮件垃圾邮件检测。

6. K最近街坊

要害点:何时运用和不运用

K近邻(kNN)是一种受监督的机器学习算法,可用于处理分类和回归使命。kNN的首要原理是,数据点的值由其周围的数据点确认。

跟着数据点数量的添加,kNN算法变得十分慢,由于模型需求存储一切数据点以便核算它们之间的间隔。这个原因也使该算法的存储功率不高。

另一个缺陷是kNN对异常值灵敏,由于异常值会影响最近的点(即便间隔太远)。

在活跃方面:

  • 简略易懂
  • 不做任何假定,因而可以在非线性使命中施行。
  • 在多个类别的分类上作用很好
  • 适用于分类和回归使命

7. K-Means聚类

要害点:何时运用和不运用

K-均值聚类旨在将数据划分为k个聚类,以使同一聚类中的数据点类似,而不同聚类中的数据点相距更远。

K-均值算法无法猜想数据中存在多少个簇。群集的数量有必要预先确认,这或许是一项艰巨的使命。

该算法跟着样本数量的添加而减慢速度,由于在每个过程中,它都会拜访一切数据点并核算间隔。

K均值只能制作线性鸿沟。假如存在将数据中的组分隔的非线性结构,则k均值将不是一个很好的挑选。

在活跃方面:

  • 简单解说
  • 比较快
  • 可扩展用于大型数据集
  • 可以以智能方法挑选初始质心的方位,然后加速收敛速度
  • 确保交融

咱们现已介绍了有关每种算法的一些要害概念。给出的关键和注释肯定不是算法的完好阐明。可是,了解完成这些算法时有必要有所作为当然很重要。

转载请说明出处
知优网 » 7种机器学习算法的7个要害点

发表评论

您需要后才能发表评论