统计学和机器学习是两个密切相关的领域。实际上,两者之间的界限有时可能非常模糊。但是,有一些方法显然属于统计领域,不仅在机器学习项目中有用,而且非常有价值。可以公平地说,需要统计方法才能有效地通过机器学习预测建模项目工作。
核算学和机器学习是两个亲近相关的范畴。实践上,两者之间的边界有时或许十分含糊。可是,有一些办法明显归于核算范畴,不仅在机器学习项目中有用,并且十分有价值。能够公平地说,需求核算办法才干有用地经过机器学习猜测建模项目作业。
核算学是先决条件
机器学习和核算学是两个严密相关的研讨范畴。因而许多核算学家将机器学习称为“ 运用核算学 ”或“ 核算学习 ”,而不是以核算机科学为中心的称号。
一切的机器学习初学者都应该学习一点核算学的常识。下面有几个精心挑选的比如来详细阐明。
从一本盛行的运用机器学习书《 Applied Predictive Modeling 》的最初看一下这句话:
… the reader should have some knowledge of basic statistics, including variance, correlation, simple linear regression, and basic hypothesis testing (e.g. p-values and test statistics).
— Page vii, Applied Predictive Modeling, 2013
这是盛行的《 Introduction to Statistical Learning 》一书中的另一个示例:
We expect that the reader will have had at least one elementary course in statistics.
— Page 9, An Introduction to Statistical Learning with Applications in R, 2013.
即便不是核算学的先决 条件,也需求一些原始的先验常识,这能够从广泛阅览的“ Programming Collective Intelligence ”的引证中看出:
… this book does not assume you have any prior knowledge of […] or statistics. […] but having some knowledge of trigonometry and basic statistics will help you understand the algorithms.
— Page xiii, Programming Collective Intelligence: Building Smart Web 2.0 Applications, 2007.
为了能够了解机器学习,需求对核算信息有一些根本的了解。
想要知道为什么会这样,咱们有必要了解为什么首要需求核算范畴。
为什么要学习核算?
原始观测值自身便是数据,但它们不是信息或常识。
数据引发了一些问题,例如:
- 最常见或最希望的调查是什么?
- 调查的极限是什么?
- 数据是什么样的?
虽然它们看起来很简单,但有必要答复这些问题才干将原始调查成果转化为咱们能够运用和同享的信息。
除了原始数据,咱们还能够经过规划试验来搜集调查数据。从这些试验成果中,咱们或许会遇到更杂乱的问题,例如:
- 哪些变量最相关?
- 两次试验的成果有何不同?
- 差异是实在存在的仍是由于数据噪声发生的?
这些问题很重要。问题的答案对项目,利益相关者以及有用的决议方案都是至关重要的。
需求核算办法来找到关于数据的问题的答案。
咱们能够看到,为了了解用于练习机器学习模型的数据并解说测验不同机器学习模型的成果,都需求核算办法。
这仅仅冰山一角,由于猜测建模项目中的每个进程都将需求运用核算办法。
什么是核算学?
核算学是数学的一个子范畴。
它指的是处理数据和运用数据答复问题的办法的调集。
Statistics is the art of making numerical conjectures about puzzling questions. […] The methods were developed over several hundred years by people who were looking for answers to their questions.
— Page xiii, Statistics, Fourth Edition, 2007.
这是由于该范畴包含处理数据的办法包,关于初学者而言,它看起来像是很大的东西,并且是不确定的。很难看出归于核算办法的办法与归于其他研讨范畴的办法之间的边界。一般,技术既能够是核算中的经典办法,又能够是用于特征挑选或建模的现代算法。
虽然核算作业常识不需求深化的理论常识,但一些重要的且易于了解的定理能够为核算和概率之间的联系供给有价值的根底。
两个比如包含大数规律和中心极限定理;第一个有助于了解为什么较大的样本一般更好,第二个则为咱们怎么比较样本之间的希望值(例如平均值)供给了根底。
关于咱们在实践中运用的核算东西,将核算范畴分为两大类办法或许会有所协助:用于汇总数据的描述性核算和用于从数据样本中得出结论的推论核算。
Statistics allow researchers to collect information, or data, from a large number of people and then summarize their typical experience. […] Statistics are also used to reach conclusions about general differences between groups. […] Statistics can also be used to see if scores on two variables are related and to make predictions.
Pages ix-x, Statistics in Plain English, Third Edition, 2010.
描述核算
描述性核算指的是将原始调查汇总为咱们能够了解和同享的信息的办法。
一般,咱们将描述性核算视为对数据样本的核算值的核算,以便总结数据样本的特点,例如一起的希望值(例如,均值或中位数)和数据的传达规模(例如,方差或规范差)。
描述性核算信息还或许包含可用于可视化数据样本的图形办法。图表和图形能够对调查的形状或散布以及变量之间怎么彼此相关供给有用的定性了解。
推论核算
推论核算是一些办法的总称,这些办法能够协助从较小的一组称为样本的观测值中量化域或整体的特点。
一般,咱们以为推论核算是依据整体散布预算的数量,例如希望值或传达数量。
更杂乱的核算揣度东西可用于量化在给定假定的情况下调查数据样本的或许性。这些一般被称为核算假定查验的东西,其间查验的根本假定称为原假定。
给定咱们能够假定的假定规模以及咱们或许施加在数据上的约束条件,以进步查验成果正确的才干或或许性,推理性核算办法的比如许多。
核算办法在机器学习项目中的运用示例
鄙人面的内容中,展现了核算办法的一些特定示例,这些示例在猜测建模问题的要害进程中十分重要。能够公平地说,需求核算办法才干有用地经过机器学习办法完结猜测建模的作业。
1.问题结构
在猜测建模问题中较大的影响力或许便是问题的结构。
这是问题类型的挑选,例如回归或分类,或许是问题的输入和输出的结构和类型。
问题的结构并不总是很明显。关于某个范畴的新手,或许需求对该范畴中的调查成果进行很多探究。
关于或许不从惯例视点看问题的范畴专家,他们也或许会从多个视点考虑数据而获取一些有用信息。
能够在问题分类期间协助探究数据的核算办法包含:
- 探究性数据剖析。进行汇总和可视化以探究数据的暂时视图。
- 数据发掘。主动发现数据中的结构化联系和形式。
2.数据了解
数据了解意味着对变量的散布以及变量之间的联系有亲近的了解。
其间一些常识或许来自范畴专业常识,或许需求范畴专业常识才干进行解说。虽然如此,研讨范畴的专家和新手都将从实践处理范畴问题中的实践调查有所获益。
核算办法的两个大分支用于协助了解数据。他们是:
- 摘要核算。运用核算量总结变量之间的散布和联系的办法。
- 数据可视化。运用图表和图形等可视化办法总结变量之间的散布和联系的办法。
3.数据整理
来自某个范畴的调查一般不是原始的。
虽然数据是数字的,但会遭到或许损坏数据保真度的进程的影响,然后或许会影响运用该数据的任何下一步进程或模型。
一些示例包含:
- 数据损坏。
- 数据过错。
- 数据丢掉。
辨认和修正数据问题的进程称为数据整理
核算办法用于数据整理,例如:
- 离群值检测。辨认与散布中的希望值相差甚远的观测值的办法。
- 归责。修正或填充观测值中损坏或缺失的办法。
4.数据挑选
建模时,并非一切调查值或一切变量都或许相关。
将数据规模缩小到对做出猜测最有用的那些元素的进程称为数据挑选。
用于数据挑选的两种核算办法包含:
- 数据样本。从较大的数据会集体系创立较小的代表性样本的办法。
- 特征挑选。主动辨认与成果变量最相关的那些变量的办法。
5.数据预备
数据一般不能直接用于建模。
一般需求进行一些转化,以更改数据的形状或结构,使其更合适问题的选定结构或学习算法。
运用核算办法进行数据预备。一些常见的示例包含:
- 缩放份额。规范化和归一化等办法。
- 编码。整数编码和One-hot编码等办法。
- 转化。比如Box-Cox办法之类的幂改换办法。
6.模型评价
猜测建模问题的要害部分是评价学习办法。
在对模型练习期间未看到的数据进行猜测时,一般需求估量模型的技术。
一般,练习和评价猜测模型的进程的方案称为试验规划。这是核算办法的整个子范畴。
- 试验规划。规划体系试验以比较自变量对成果的影响的办法,例如挑选机器学习算法来进步猜测精度。
作为施行试验规划的一部分,运用办法对数据集进行从头采样,以便经济地运用可用数据,然后预算模型的技术。
- 重采样办法。为了练习和评价猜测模型而将数据集体系地分为子集的办法。
7.模型超参数装备
给定的机器学习算法一般具有一整套超参数,这些超参数答应运用者依据特定问题而定制学习办法。
超参数的装备在本质上一般是经验性的,而不是剖析性的,需求很多的试验才干评价不同的超参数的取值对模型作用的影响。
运用两个核算子字段之一对不同的超参数装备之间的成果进行解说和比较:
- 核算假定查验。给定对成果的假定或希望,量化调查成果的或许性的办法(运用临界值和p值表明)。
- 估量核算。运用置信区间量化成果不确定性的办法。
8.模型挑选
关于给定的猜测建模问题,或许有不止一个机器学习算法合适于此问题。挑选一种办法作为解决方案的进程称为模型挑选。这或许触及项目利益相关者的一套规范,也包含对问题评价办法的估量技术的细心解说。
与模型装备相同,出于模型挑选的意图,能够运用两类核算办法来解说不同模型的估量技术。他们是:
- 核算假定查验。给定对成果的假定或希望,量化调查成果的或许性的办法(运用临界值和p值表明)。
- 估量核算。运用置信区间量化成果不确定性的办法。
9.模型介绍
一旦对终究模型进行了练习,就能够在运用或布置终究模型以对实践数据进行实践猜测之前将其出现给利益相关者。
出现终究模型的一部分触及出现模型的估量办法。
估量核算范畴的办法可用于经过运用公役区间和置信区间来量化机器学习模型的估量技术中的不确定性。
- 估量核算。经过置信区间量化模型技术不确定性的办法。
10.模型猜测
终究,是时分开始运用终究模型对咱们不知道实践成果的新数据进行猜测了。
作为进行猜测的一部分,量化猜测的置信度很重要。
就像模型表明进程相同,咱们能够运用估量核算范畴的办法来量化此不确定性,例如置信区间和猜测区间。
- 估量核算。经过猜测区间量化猜测不确定性的办法。
从上面的比如能够看到核算办法在整个猜测建模项目进程中的重要性。 探究性的数据剖析,数据汇总和数据可视化可用于协助构建猜测性建模问题并更好地了解数据。核算办法可用于整理和预备用于建模的数据。核算假定查验和估量的核算数据能够在模型的挑选和从终究模型展现的技术和猜测协助。
知优网 » 为什么统计学在机器学习中如此重要?