最新一期的 KDnuggets 调查展示了一份数据科学家使用度最高的算法列表,这份列表中包含了很多惊喜,包括最学术的算法和面向产业化的算法。
***一期的 KDnuggets 查询展现了一份数据科学家使费用***的算法列表,这份列表中包含了许多惊喜,包含最学术的算法和面向工业化的算法。
哪些办法/算法是您在曩昔 12 个月中运用到一个实践的数据科学相关的应用程序中的?
这是依据 844 个投票者的成果。
排名前十的算法以及他们的投票者的份额散布如下:
图 1 :数据科学家使费用***的 10 大算法
每个受访者均匀运用 8.1 个算法,这比较于 2011 的类似查询显现的成果有了巨大的增加。
与 2011 年关于数据剖析/数据发掘的查询比较,咱们注意到最常用的办法仍然是回归、聚类、决策树/Rules 和可视化。相对来说***的增加是由 (pct2016 /pct2011 – 1) 测定的以下算法:
- Boosting,从 2011 年的 23.5% 至 2016 年的 32.8%,同比增加 40%
- 文本发掘,从 2011 年的 27.7% 至 2016 年的 35.9%,同比增加 30%
- 可视化,从 2011 年的 38.3% 至 2016 年的 48.7%,同比增加 27%
- 时刻序列/序列剖析,从 2011 年的 29.6% 至 2016 年的 37.0%,同比增加 25%
- 反常/误差检测,从 2011 年的 16.4% 至 2016 年的 19.5%,同比增加 19%
- 集成办法,从 2011 年的 28.3%至 2016 年的 33.6%,同比增加 19%
- 支撑向量机,从 2011 年的 28.6% 至 2016 年的 33.6%,同比增加 18%
- 回归,从 2011 年的 57.9% 至 2016 年的 67.1%,同比增加 16%
***算法在 2016 年的查询中有了新的上榜名单:
- K-近邻,46%
- 主成分剖析,43%
- 随机森林,38%
- 优化,24%
- 神经网络 – 深度学习,19%
- 奇异值分解,16%
***幅下降的有:
- 相关规矩,从 2011 年的 28.6% 至 2016 年的 15.3%,同比下降 47%
- 拱起造型,从 2011 年的 4.8% 至 2016 年的 3.1%,同比下降 36%
- 要素剖析,从 2011 年的 18.6% 至 2016 年的 14.2%,同比下降 24%
- 生计剖析,从 2011 年的 9.3% 至 2016 年的 7.9%,同比下降 15%
下表显现了不同的算法类型的运用:监督算法、无监督算法、元算法,以及工作类型决议的对算法的运用。咱们扫除 NA(4.5%)和其他(3%)的工作类型。
表 1:依据工作类型显现的不同算法使费用
咱们注意到,简直每个人都运用监督学习算法。
政府和工业业数据科学家比学生和学术研究人员运用更多不同类型的算法,而工业数据科学家们更倾向于运用元算法。
接下来,咱们依据工作类型剖析了前 10 名的算法+深度学习运用情况。
表 2:依据工作类型分类的 10 大算法+深度学习运用情况
为了更显着的看到差异,咱们核算了详细工作分类比较于均匀算法使费用的一个算法误差,即误差(ALG,类型)=运用(ALG,类型)/运用(ALG,一切的)
图 2:工作对算法的运用偏好
咱们注意到,工业数据科学家们更倾向于运用回归、可视化、核算、随机森林和时刻序列。政府/非营利更倾向于运用可视化、主成分剖析和时刻序列。学术研究人员更倾向于运用主成分剖析和深度学习。学生遍及运用更少的算法,但多为文本发掘和深度学习。
接下来,咱们看看某一详细地域的参加度,表明全体的 KDnuggets 的用户:
- 美国/加拿大,40%
- 欧洲,32%
- 亚洲,18%
- 拉丁美洲,5%
- 非洲/中东,3.4%
- 澳洲/新西兰,2.2%
因为在 2011 年的查询中,咱们将工业/政府分在了一组,而将学术研究/学生分在了第二组,并核算了算法关于业界/政府的亲热度:
因而亲热度为 0 的算法表明它在工业/政府和学术研究人员或学生之间的运用情况对等。越高 IG 亲热度表明算法越被工业界遍及运用,反之越挨近「学术」。
最「工业」的算法是:
- 反常检测,1.61
- 生计剖析,1.39
- 因子剖析,0.83
- 时刻序列/序列,0.69
- 相关规矩,0.5
而 uplifting modeling 又是最「工业的算法」,令人惊奇的发现是,它的运用率极低 – 只要 3.1% – 是本次查询的算法中***的。
最学术的算法是:
- 惯例神经网络,-0.35
- 朴素贝叶斯,-0.35
- 支撑向量机,-0.24
- 深度学习,-0.19
- EM,-0.17
下图显现了一切的算法及其工业/学术亲热度。
图 3:KDnuggets 投票:最常被数据科学家运用的算法:工业界 VS 学术界
下表有关于算法的细节、两次查询中运用算法的份额、以及像上面解说的工业亲热度。
接下来的图表展现了算法的细节,按列
N:依据使费用排名
- 算法:算法称号,
- 类型:S – 监督,U – 无监督,M – 元,Z – 其他,
- 在 2016 年查询中运用这种算法的查询者份额
- 在 2011 年查询中运用这种算法的查询者份额
- 变化(%2016 年/2011% – 1),
- 工业亲热度(如上所述)
表 3:KDnuggets 2016 查询:数据科学家运用的算法
知优网 » KDnuggets 官方查询:数据科学家最常用的十种算法