科技公司的数据科学、关联性分析以及机器学习等方面的活动大多围绕着”大数据”,这些大型数据集包含文档、 用户、 文件、 查询、 歌曲、 图片等信息,规模数以千计,数十万、 数百万、 甚至数十亿。过去十年里,处理这类型数据集的基础设施、 工具和算法发展得非常迅速,并且得到了不断改善。

“小数据”的统计学(数据 统计学)  小数据 统计 第1张

一、小数据来自哪里?

科技公司的数据科学、关联性剖析以及机器学习等方面的活动大多环绕着”大数据”,这些大型数据集包含文档、用户、文件、查询、歌曲、图片等信息,规划数以千计,数十万、数百万、乃至数十亿。曩昔十年里,处理这类型数据集的基础设施、东西和算法开展得十分敏捷,并且得到了不断改进。大多数数据科学家和机器学习从业人员就是在这样的状况下积累了经历,逐步习惯于那些用着随手的算法,并且在那些常见的需求权衡的问题上面具有杰出的直觉(常常需求权衡的问题包含:误差和方差,灵活性和稳定性,手艺特性提取和特征学习等等)。但小的数据集仍然时不时的呈现,并且随同的问题往往难以处理,需求一组不同的算法和不同的技能。小数据集呈现在以下几种状况:

  • 企业解决方案:当您测验为一个人员数量相对有限的企业供给解决方案,而不是为不计其数的用户供给单一的解决方案。
  • 时刻序列:时刻求过于供!特别是和用户、查询指令、会话、文件等比较较。这明显取决于时刻单位或采样率,可是想每次都能有用地添加采样率没那么简略,比方你得到的标定数据是日期的话,那么你每天只要一个数据点。
  • 关于以下样本的聚类模型:州市、国家、运动队或任何整体自身是有限的状况(或许采样真的很贵)。【补白:比方对美国50个州做聚类】
  • 多变量A/B测验:试验办法或许它们的组合会成为数据点。假如你正在考虑3个维度,每个维度设置4个装备项,那么将具有12个点。【补白:比方在网页测验中,挑选字体色彩、字体大小、字体类型三个维度,然后有四种色彩、四个字号、四个字型】
  • 任何稀有现象的模型,例如地震、洪水。

二、小数据问题

小数据问题许多,但首要环绕高方差:

  • 很难防止过度拟合
  • 你不只过度拟合练习数据,有时还过度拟合验证数据。
  • 离群值(反常点)变得更风险。
  • 一般,噪声是个现实问题,存在于方针变量中或在一些特征中。

三、怎么处理以下状况

1-雇一个计算学家

我不是在恶作剧!计算学家是原始的数据科学家。当数据更难获取时计算学诞生了,因此计算学家十分清楚怎么处理小样本问题。计算查验、参数模型、自举法(Bootstrapping,一种重复抽样技能),和其他有用的数学东西归于经典计算的范畴,而不是现代机器学习。假如没有好的专业计算员,您可以雇一个海洋生物学家、动物学家、心理学家或任何一个承受过小样本处理练习的人。当然,他们的专业经历越挨近您的范畴越好。假如您不想雇一个全职计算员,那么可以请暂时参谋。但雇一个科班出身的计算学家或许是十分好的出资。

2-坚持简略模型

更切当地说:坚持一组有限的假定。猜测建模可以当作一个查找问题。从初始的一批或许模型中,选出那个最合适咱们数据的模型。在某种程度上,每一个咱们用来拟合的点会投票,给不倾向于发生这个点的模型投反对票,给倾向于发生这个点的模型投赞成票。当你有一大堆数据时,你能有用地在一大堆模型/假定中搜索,终究找到合适的那个。当你一开端没有那么多的数据点时,你需求从一套适当小的或许的假定开端(例如,含有3个非零权重的线性模型,深度小于4的决策树模型,含有十个等距离容器的直方图)。这意味着你扫除杂乱的想象,比方说那些非线性或特征之间相互作用的问题。这也意味着,你不能用太多自由度(太多的权重或参数)拟合模型。适其时,请运用强假定(例如,非负权重,没有交互作用的特征,特定散布等等)来缩小或许的假定的规模。

“小数据”的统计学(数据 统计学)  小数据 统计 第2张

任何张狂的模型都能拟合单点。

“小数据”的统计学(数据 统计学)  小数据 统计 第3张

当咱们有更多的数据点时,越来越少的模型可以拟合这些点。

“小数据”的统计学(数据 统计学)  小数据 统计 第4张

图画来自ChrisBishop的书《模式识别和机器学习》

3-尽或许运用更多的数据

您想构建一个个性化的垃圾邮件过滤器吗?测验构建在一个通用模型,并为一切用户练习这个模型。你正在为某一个国家的GDP建模吗?测验用你的模型去拟合一切能得到数据的国家,或许可以用重要性抽样来着重你感兴趣的国家。你企图猜测特定的火山爆发吗?……你应该知道怎么做了。

4-做试验要抑制

不要过火运用验证集。假如你测验过许多不同的技能,并运用一个保存数据集来比照它们,那么你应该清楚这些成果的计算效能怎么,并且要意识到关于样本以外的数据它或许不是一个好的模型。

5-清洗您的数据

处理小数据集时,噪声和反常点都特别烦人。为了得到更好的模型,清洗您的数据或许是至关重要的。或许您可以运用鲁棒性更好的模型,特别针对反常点。(例如分位数回归)

6-进行特征挑选

我不是显式特征挑选的超级粉丝。我一般挑选用正则化和模型均匀(下面会议开叙述)来防止过度拟合。可是,假如数据真的很少,有时显式特征挑选至关重要。可以的话,***凭借某一范畴的专业知识来做特征挑选或删减,由于穷举法(例如一切子集或贪婪前向挑选)相同简略形成过度拟合。

7-运用正则化

关于防止模型过拟合,且在不下降模型中参数实践数目的前提下削减有用自由度,正则化几乎是奇特的解决办法。L1正则化用较少的非零参数构建模型,有用地履行隐式特征挑选。而L2正则化用更保存(挨近零)的参数,适当于有用的得到了强零中心的先验参数(贝叶斯理论)。一般,L2具有比L1更好的猜测精度。【补白:L2正则化的作用使权重衰减,人们普遍认为:更小的权值从某种意义上说,表明网络的杂乱度更低,对数据的拟合刚刚好,这个规律也叫做奥卡姆剃刀。】

“小数据”的统计学(数据 统计学)  小数据 统计 第5张

L1正则化可以使得大多数参数变为零

8运用模型均匀

模型均匀具有相似正则化的作用,它削减方差,进步泛化,但它是一个通用的技能,可以在任何类型的模型上乃至在异构模型的集合上运用。缺陷是,为了做模型均匀,成果要处理一堆模型,模型的评价变得很慢。bagging和贝叶斯模型均匀是两个好用的模型均匀办法。

“小数据”的统计学(数据 统计学)  小数据 统计 第6张

每条红线是一个拟合模型。

“小数据”的统计学(数据 统计学)  小数据 统计 第7张

均匀这些高方差模型之后,咱们得到一个滑润的曲线,它很好的拟合了原有数据点的散布。

9-测验贝叶斯建模和模型均匀

这个仍然不是我喜爱的技能,但贝叶斯推理或许合适于处理较小的数据集,特别是当你可以运用专业知识结构好的先验参数时。

10-喜爱用相信区间

一般,除了构建一个猜测模型之外,估量这个模型的相信是个好主意。关于回归剖析,它一般是一个以点估量值为中心的取值规模,实在值以95%的相信水平落在这个区间里。假如是分类模型的话,那么触及的将是分类的概率。这种估量关于小数据集愈加重要,由于很有或许模型的某些特征比较其它特征没有更好的表达出来。如上所述的模型均匀答应咱们很简略得到在回归、分类和密度估量中做相信的一般办法。当评价您的模型时它也很有用。运用相信区间评价模型功能将助于你防止得出许多过错的定论。

“小数据”的统计学(数据 统计学)  小数据 统计 第8张

你的数据不乐意呈现在特征空间的某些区域,那么猜测相信应该有所反响。

“小数据”的统计学(数据 统计学)  小数据 统计 第9张

用ROCR得到的自举法功能图。

四、总结

上面讲的有点多,但他们都环绕着三个主题:束缚建模,滑润和量化不确定性。这篇文章中所运用的图片来自ChristopherBishop的书《模式识别和机器学习》

转载请说明出处
知优网 » “小数据”的统计学(数据 统计学)

发表评论

您需要后才能发表评论