机器学习方面没有免费午餐。因此,确定使用哪种算法取决于许多因素:面临的问题类型和预期的输出类型等。本文介绍了为数据集探究合适的机器学习方法时要考虑的几个因素。

教你轻松挑选适宜的机器学习算法!  机器学习 人工智能 AI 第1张

【51CTO.com快译】

这个问题没有简单明了的答案。答案取决于许多要素,比方问题陈说、预期的输出类型、数据的类型和巨细、可用的核算时刻、特征数量以及数据中的观测点等。

挑选算法时,有几个重要要素要考虑。

1. 练习数据的巨细

一般主张搜集许多数据以取得牢靠的猜测。但许多时分,数据的可用性是个束缚。因而,假如练习数据较小,或许数据集的观测点数量较少,而遗传或文本数据等特征数量较多,应挑选具有高差错/低方差的算法,比方线性回归、朴素贝叶斯或线性SVM。

假如练习数据足够大,观测点数量比特征数量多,能够选用低差错/高方差算法,比方KNN、决策树或内核SVM。

2. 输出的准确性及/或可解说性

模型的准确性意味着函数可猜测特定观测点的呼应值,该呼应值挨近该观测点的实在呼应值。一种高度可解说的算法(比方线性回归等限制性模型)意味着,人们能够轻松了解任何单个猜测变量与呼应有怎样的相关,而灵敏的模型以低可解说性交换更高的准确性。

 教你轻松挑选适宜的机器学习算法! 机器学习 人工智能 AI 第2张

图1. 运用不同的统计学习办法来表明准确性和可解说性之间的取舍。

一些算法名为“限制性”算法,由于它们会生成小规模的映射函数形状。比方说,线性回归是一种限制性办法,由于它只能生成线性函数,例如直线。

一些算法被称为灵敏算法,由于它们能够生成更广泛规模的映射函数形状。比方说,k = 1的KNN有高度灵敏性,由于它会考虑每个输入数据点以生成映射输出函数。下图显现了灵敏算法和限制性算法之间的取舍。

 教你轻松挑选适宜的机器学习算法! 机器学习 人工智能 AI 第3张

图2. 运用不同的统计学习办法来表明灵敏性和可解说性之间的取舍。

现在,运用哪种算法取决于事务问题的方针。假如推理是方针,那么限制性模型更好,由于它们极简单解说。假如更高的准确度是方针,灵敏模型更好。跟着办法的灵敏性进步,可解说性一般随之下降。

3. 速度或练习时刻

更高的准确度一般意味着更长的练习时刻。并且,算法需求更多时刻来练习巨大的练习数据。在实践运用中,算法的挑选首要取决于这两个要素。

朴素贝叶斯和线性与逻辑回归等算法易于完成且运转敏捷。像需求调整参数的SVM、收敛时刻长的神经网络和随机森林这些算法需求许多时刻来练习数据。

4.线性度

许多算法都根据这一假定:类能够用直线(或其高维模仿)来分隔。比方包含逻辑回归和支撑向量机。线性回归算法假定数据趋势遵从一条直线。假如数据是线性的,则这些算法执行起来作用很好。

但是,数据并非总是线性的,因而咱们需求其他能够处理高维和杂乱数据结构的算法。比方包含内核SVM、随机森林和神经网络。

找出线性度的最佳办法是拟合线性线,或许运转逻辑回归或SVM以查看残差。较高的差错意味着数据不是线性的,需求杂乱的算法才干拟合。

5. 特征数量

数据集或许有许多的特征,这些特征或许并非悉数相关且重要。关于某个类型的数据,比方遗传或文本数据,特征的数量与数据点的数量比较或许非常大。

许多特征或许会使一些学习算法陷入困境,然后导致练习时刻过长。SVM更适合数据有巨大特征空间且观测点较少的状况。应该运用PCA和特征挑选办法来削减维度,并挑选重要特征。

下面这个便利的速查表具体介绍了可用于处理不同类型的机器学习问题的算法。

 教你轻松挑选适宜的机器学习算法! 机器学习 人工智能 AI 第4张

机器学习算法能够分为监督学习、无监督学习和强化学习。本文介绍怎么运用该速查表的进程。

速查表首要分为两种学习类型:

  • 在练习数据具有与输入变量相对应的输出变量的状况下,选用监督学习算法。该算法剖析输入数据并学习函数,以映射输入变量和输出变量之间的联系。

监督学习能够进一步分为回归、分类、猜测和反常检测。

  • 练习数据没有呼应变量时,运用无监督学习算法。这类算法企图找到数据中的固有形式和躲藏结构。聚类和降维算法是无监督学习算法的两种类型。

以下信息图只解说了回归、分类、反常检测和聚类,以及能够运用这每一种办法的比方。

 教你轻松挑选适宜的机器学习算法! 机器学习 人工智能 AI 第5张

企图处理新问题时要考虑的首关键是:

  • 界说问题。问题的意图是什么?
  • 探求数据并了解数据。
  • 从根本模型下手以构建一个基准模型,然后测验更杂乱的办法。

话虽如此,请记住:“更好的数据常常胜过更好的算法”。相同重要的是规划杰出的特征。测验一堆算法,并比较其功能,以挑选最适合您特定使命的算法。别的,请测验集成(ensemble)办法,由于它们一般供给极高的准确性。

原文标题:An easy guide to choose the right Machine Learning algorithm,作者:Yogita Kinha

【51CTO译稿,协作站点转载请注明原文译者和出处为51CTO.com】

转载请说明出处
知优网 » 教你轻松挑选适宜的机器学习算法!

发表评论

您需要后才能发表评论