为什么统计学在机器学习中如此重要？-人工智能-知优网

统计学和机器学习是两个密切相关的领域。实际上，两者之间的界限有时可能非常模糊。但是，有一些方法显然属于统计领域，不仅在机器学习项目中有用，而且非常有价值。可以公平地说，需要统计方法才能有效地通过机器学习预测建模项目工作。

核算学和机器学习是两个亲近相关的范畴。实践上，两者之间的边界有时或许十分含糊。可是，有一些办法明显归于核算范畴，不仅在机器学习项目中有用，并且十分有价值。能够公平地说，需求核算办法才干有用地经过机器学习猜测建模项目作业。

核算学是先决条件

机器学习和核算学是两个严密相关的研讨范畴。因而许多核算学家将机器学习称为“ 运用核算学 ”或“ 核算学习 ”，而不是以核算机科学为中心的称号。

一切的机器学习初学者都应该学习一点核算学的常识。下面有几个精心挑选的比如来详细阐明。

从一本盛行的运用机器学习书《 Applied Predictive Modeling 》的最初看一下这句话：

… the reader should have some knowledge of basic statistics, including variance, correlation, simple linear regression, and basic hypothesis testing (e.g. p-values and test statistics).

— Page vii, Applied Predictive Modeling, 2013

这是盛行的《 Introduction to Statistical Learning 》一书中的另一个示例：

We expect that the reader will have had at least one elementary course in statistics.

— Page 9, An Introduction to Statistical Learning with Applications in R, 2013.

即便不是核算学的先决条件，也需求一些原始的先验常识，这能够从广泛阅览的“ Programming Collective Intelligence ”的引证中看出：

… this book does not assume you have any prior knowledge of […] or statistics. […] but having some knowledge of trigonometry and basic statistics will help you understand the algorithms.

— Page xiii, Programming Collective Intelligence: Building Smart Web 2.0 Applications, 2007.

为了能够了解机器学习，需求对核算信息有一些根本的了解。

想要知道为什么会这样，咱们有必要了解为什么首要需求核算范畴。

为什么要学习核算?

原始观测值自身便是数据，但它们不是信息或常识。

数据引发了一些问题，例如：

最常见或最希望的调查是什么?
调查的极限是什么?
数据是什么样的?

虽然它们看起来很简单，但有必要答复这些问题才干将原始调查成果转化为咱们能够运用和同享的信息。

除了原始数据，咱们还能够经过规划试验来搜集调查数据。从这些试验成果中，咱们或许会遇到更杂乱的问题，例如：

哪些变量最相关?
两次试验的成果有何不同?
差异是实在存在的仍是由于数据噪声发生的?

这些问题很重要。问题的答案对项目，利益相关者以及有用的决议方案都是至关重要的。

需求核算办法来找到关于数据的问题的答案。

咱们能够看到，为了了解用于练习机器学习模型的数据并解说测验不同机器学习模型的成果，都需求核算办法。

这仅仅冰山一角，由于猜测建模项目中的每个进程都将需求运用核算办法。

什么是核算学?

核算学是数学的一个子范畴。

它指的是处理数据和运用数据答复问题的办法的调集。

Statistics is the art of making numerical conjectures about puzzling questions. […] The methods were developed over several hundred years by people who were looking for answers to their questions.

— Page xiii, Statistics, Fourth Edition, 2007.

这是由于该范畴包含处理数据的办法包，关于初学者而言，它看起来像是很大的东西，并且是不确定的。很难看出归于核算办法的办法与归于其他研讨范畴的办法之间的边界。一般，技术既能够是核算中的经典办法，又能够是用于特征挑选或建模的现代算法。

虽然核算作业常识不需求深化的理论常识，但一些重要的且易于了解的定理能够为核算和概率之间的联系供给有价值的根底。

两个比如包含大数规律和中心极限定理;第一个有助于了解为什么较大的样本一般更好，第二个则为咱们怎么比较样本之间的希望值(例如平均值)供给了根底。

关于咱们在实践中运用的核算东西，将核算范畴分为两大类办法或许会有所协助：用于汇总数据的描述性核算和用于从数据样本中得出结论的推论核算。

Statistics allow researchers to collect information, or data, from a large number of people and then summarize their typical experience. […] Statistics are also used to reach conclusions about general differences between groups. […] Statistics can also be used to see if scores on two variables are related and to make predictions.

Pages ix-x, Statistics in Plain English, Third Edition, 2010.

描述核算

描述性核算指的是将原始调查汇总为咱们能够了解和同享的信息的办法。

一般，咱们将描述性核算视为对数据样本的核算值的核算，以便总结数据样本的特点，例如一起的希望值(例如，均值或中位数)和数据的传达规模(例如，方差或规范差)。

描述性核算信息还或许包含可用于可视化数据样本的图形办法。图表和图形能够对调查的形状或散布以及变量之间怎么彼此相关供给有用的定性了解。

推论核算

推论核算是一些办法的总称，这些办法能够协助从较小的一组称为样本的观测值中量化域或整体的特点。

一般，咱们以为推论核算是依据整体散布预算的数量，例如希望值或传达数量。

更杂乱的核算揣度东西可用于量化在给定假定的情况下调查数据样本的或许性。这些一般被称为核算假定查验的东西，其间查验的根本假定称为原假定。

给定咱们能够假定的假定规模以及咱们或许施加在数据上的约束条件，以进步查验成果正确的才干或或许性，推理性核算办法的比如许多。

核算办法在机器学习项目中的运用示例

鄙人面的内容中，展现了核算办法的一些特定示例，这些示例在猜测建模问题的要害进程中十分重要。能够公平地说，需求核算办法才干有用地经过机器学习办法完结猜测建模的作业。