JMLR杂志上最近有一篇论文,作者比较了179种不同的分类学习方法(分类学习算法)在121个数据集上的性能,发现Random Forest(随机森林)和SVM(支持向量机)分类准确率最高,在大多数情况下超过其他方法。本文针对“大数据分析到底需要多少种工具?”这一问题展开讨论,总结机器学习领域多年来积累的经验规律,继而导出大数据分析应该采取的策略。

大数据分析究竟需求多少种东西?(大数据分析究竟需求多少种东西和资料)  大数据 第1张

JMLR杂志上最近有一篇论文,作者比较了179种不同的分类学习办法(分类学习算法)在121个数据集上的功能,发现Random Forest(随机森林)和SVM(支撑向量机)分类准确率***,在大多数情况下超越其他办法。本文针对“大数据剖析究竟需求多少种东西?”这一问题展开讨论,总结机器学习范畴多年来堆集的经历规则,继而导出大数据剖析应该采纳的战略。

1.分类办法大比武

大数据剖析首要依托机器学习和大规划核算。机器学习包含监督学习、非监督学习、强化学习等,而监督学习又包含分类学习、回归学习、排序学习、匹配学习等(见图1)。分类是最常见的机器学习运用问题,比方垃圾邮件过滤、人脸检测、用户画像、文本情感剖析、网页归类等,实质上都是分类问题。分类学习也是机器学习范畴,研讨最完全、运用最广泛的一个分支。

大数据分析究竟需求多少种东西?(大数据分析究竟需求多少种东西和资料)  大数据 第2张

图1 机器学习分类系统

最近、Fernández-Delgado等人在JMLR(Journal of Machine Learning Research,机器学习***期刊)杂志宣布了一篇风趣的论文。他们让179种不同的分类学习办法(分类学习算法)在UCI 121个数据集进步行了“大比武”(UCI是机器学习共用数据集,每个数据集的规划都不大)。成果发现Random Forest(随机森林)和SVM(支撑向量机)名列***、第二名,但两者差异不大。在84.3%的数据上、Random Forest压倒了其它90%的办法。也就是说,在大多数情况下,只用Random Forest 或 SVM工作就搞定了。

2.几点经历总结

大数据剖析究竟需求多少种机器学习的办法呢?围绕着这个问题,咱们看一下机器学习范畴多年得出的一些经历规则。

大数据剖析功能的好坏,也就是说机器学习猜测的准确率,与运用的学习算法、问题的性质、数据集的特性包含数据规划、数据特征等都有联系。

一般地,Ensemble办法包含Random Forest和AdaBoost、SVM、Logistic Regression 分类准确率***。

没有一种办法可以“包打天下”。Random Forest、SVM等办法一般功能***,但不是在什么条件下功能都***。

不同的办法,当数据规划小的时分,功能往往有较大差异,但当数据规划增大时,功能都会逐步进步且差异逐步减小。也就是说,在大数据条件下,什么办法都能work的不错。参见图2中Blaco & Brill的试验成果。

关于简略问题,Random Forest、SVM等办法根本可行,可是关于杂乱问题,比方语音辨认、图像辨认,最近盛行的深度学习办法往往作用更好。深度学习实质是杂乱模型学习,是往后研讨的要点。

在实践运用中,要进步分类的准确率,挑选特征比挑选算法更重要。好的特征会带来更好的分类成果,而好的特征的提取需求对问题的深化了解。

大数据分析究竟需求多少种东西?(大数据分析究竟需求多少种东西和资料)  大数据 第3张
图2 不同机器学习办法在数据集增大时的学习曲线。

3.应采纳的大数据剖析战略

树立大数据剖析渠道时,挑选完成若干种有代表性的办法即可。当然,不只要考虑猜测的准确率,还有考虑学习功率、开发本钱、模型可读性等其他要素。大数据剖析渠道当然重要,一起需求有一批可以深化了解运用问题,自若运用剖析东西的工程师和剖析人员。
只要善工利器,大数据剖析才干真实发挥威力。

转载请说明出处
知优网 » 大数据分析究竟需求多少种东西?(大数据分析究竟需求多少种东西和资料)

发表评论

您需要后才能发表评论