入数据科学大坑，我需求什么样的数学水平？（大数据分析对数学要求高吗）-人工智能-知优网

本文作者阐释了数据科学和机器学习为何离不开数学，并提供了统计学与概率论、多变量微积分、线性代数以及优化方法四个数学分支中需要熟悉的一些数学概念。

作为一门根底性学科，数学在数据科学和机器学习范畴都发挥着不可或缺的效果。数学根底是了解各种算法的先决条件，也将协助咱们更深化透彻地了解算法的内涵原理。所以，本文作者阐释了数据科学和机器学习为何离不开数学，并供给了统计学与概率论、多变量微积分、线性代数以及优化办法四个数学分支中需求了解的一些数学概念。

本文的作者是物理学家、数据科学教育者和作家 Benjamin Obi Tayo 博士，他的研讨爱好在于数据科学、机器学习、AI、Python 和 R 言语、猜测剖析、材料科学和生物物理学。

本文作者 Benjamin Obi Tayo。

数据科学和机器学习离不开数学

假如你是一个数据科学爱好者，则大概会发生以下两个疑问：

我几乎没有数学布景，那么能成为数据科学家吗?
哪些根本的数学技术在数据科学中非常重要呢?

咱们都知道，数据科学离不开林林总总的扩展包。而且，现在有许多功能强壮的包能够用来构建猜测模型或许用来生成可视化数据。如下列举了用于描述性和猜测性剖析的一些最常见包：

Ggplot2
Matplotlib
Seaborn
Scikit-learn
Caret
TensorFlow
PyTorch
Keras

得益于以上这些扩展包，任何人都能够构建模型或许生成可视化数据。但与此同时，要优化模型从而生成功能最佳的牢靠模型，具有强壮的数学布景也是很有必要的。

也就是说，构建模型仅仅一方面，另一方面还需求对模型进行解说，得出有意义的定论，这样才干更好地做出数据驱动的决议计划。

最终，在运用这些包之前，你需求了解每个包中包括的数学根底，这样才不会只把这些包当作黑盒东西(black-box tool)。

事例剖析：构建一个多元回归模型

假定咱们要构建一个多元回归模型，那么需求事前问自己几个问题：

数据集有多大?
特征变量和方针变量是什么?
哪些猜测特征与方针变量相关最大?
哪些特征比较重要?
是否应该扩展特征?
数据集应该怎么划分红练习集和测验集?
主成分剖析(principal component analysis, PCA)是什么?
是否应该运用 PCA 删去剩余特征?
怎么评价模型?用 R2 值、MSE 仍是 MAE?
怎么提高模型的猜测才能?
是否运用正则化回归模型(regularized regression model)?
回归系数是多少?
截距是多少(intercept)?
是否运用像 K 近邻回归(KNeighbors regression)或许支撑向量回归(support vector regression)这样的无参数回归模型?
模型中的超参数是多少?怎么调整超参数使模型功能到达最佳?