本文作者阐释了数据科学和机器学习为何离不开数学,并提供了统计学与概率论、多变量微积分、线性代数以及优化方法四个数学分支中需要熟悉的一些数学概念。

作为一门根底性学科,数学数据科学机器学习范畴都发挥着不可或缺的效果。数学根底是了解各种算法的先决条件,也将协助咱们更深化透彻地了解算法的内涵原理。所以,本文作者阐释了数据科学和机器学习为何离不开数学,并供给了统计学与概率论、多变量微积分、线性代数以及优化办法四个数学分支中需求了解的一些数学概念。

 入数据科学大坑,我需求什么样的数学水平?(大数据分析对数学要求高吗) 数据科学 机器学习 数学 第1张

本文的作者是物理学家、数据科学教育者和作家 Benjamin Obi Tayo 博士,他的研讨爱好在于数据科学、机器学习、AI、Python 和 R 言语、猜测剖析、材料科学和生物物理学。

 入数据科学大坑,我需求什么样的数学水平?(大数据分析对数学要求高吗) 数据科学 机器学习 数学 第2张

本文作者 Benjamin Obi Tayo。

数据科学和机器学习离不开数学

假如你是一个数据科学爱好者,则大概会发生以下两个疑问:

  • 我几乎没有数学布景,那么能成为数据科学家吗?
  • 哪些根本的数学技术在数据科学中非常重要呢?

咱们都知道,数据科学离不开林林总总的扩展包。而且,现在有许多功能强壮的包能够用来构建猜测模型或许用来生成可视化数据。如下列举了用于描述性和猜测性剖析的一些最常见包:

  • Ggplot2
  • Matplotlib
  • Seaborn
  • Scikit-learn
  • Caret
  • TensorFlow
  • PyTorch
  • Keras

得益于以上这些扩展包,任何人都能够构建模型或许生成可视化数据。但与此同时,要优化模型从而生成功能最佳的牢靠模型,具有强壮的数学布景也是很有必要的。

也就是说,构建模型仅仅一方面,另一方面还需求对模型进行解说,得出有意义的定论,这样才干更好地做出数据驱动的决议计划。

最终,在运用这些包之前,你需求了解每个包中包括的数学根底,这样才不会只把这些包当作黑盒东西(black-box tool)。

事例剖析:构建一个多元回归模型

假定咱们要构建一个多元回归模型,那么需求事前问自己几个问题:

  • 数据集有多大?
  • 特征变量和方针变量是什么?
  • 哪些猜测特征与方针变量相关最大?
  • 哪些特征比较重要?
  • 是否应该扩展特征?
  • 数据集应该怎么划分红练习集和测验集?
  • 主成分剖析(principal component analysis, PCA)是什么?
  • 是否应该运用 PCA 删去剩余特征?
  • 怎么评价模型?用 R2 值、MSE 仍是 MAE?
  • 怎么提高模型的猜测才能?
  • 是否运用正则化回归模型(regularized regression model)?
  • 回归系数是多少?
  • 截距是多少(intercept)?
  • 是否运用像 K 近邻回归(KNeighbors regression)或许支撑向量回归(support vector regression)这样的无参数回归模型?
  • 模型中的超参数是多少?怎么调整超参数使模型功能到达最佳?

很明显,假如没有杰出的数学布景,你将无法处理上述问题。因而,在数据科学和机器学习中,数学技术和编程技术相同重要,这很要害。

作为一个数据科学的推重者,投入时刻来学习数据科学和机器学习中的理论根底和数学根底很有必要。毫不夸大地说,你所构建的牢靠有用模型能否用于处理实际国际的问题,这也将取决于你的数学技术有多好。

接下来讨论一下数据科学和机器学习中一些必要的数学技术。

数据科学和机器学习中必要的数学技术

数学一应俱全,任何人都不或许门门通晓。所以,在数据科学和机器学习研讨中,咱们能够依据本身地点的详细范畴、手头的详细工作或许运用的详细算法来有偏重地学习对应的数学技术。

1. 统计学与概率论

统计学和概率论可用于可视化变量、数据预处理、特征改换、数据插补、降维、特征工程和模型评价等等。

以下是需求了解的一些统计学与概率论概念:

  • 平均数、中位数、众数、标准差 / 方差;
  • 相关系数和协方差矩阵、概率散布(二项散布、泊松散布和正态散布);
  • p 值、贝叶斯定理(精度、召回率、正猜测值、负猜测值、混杂矩阵和 ROC 曲线)、中心极限定理
  • ;R_2 值、均方差错(MSE)、A/B 测验、蒙特卡罗模仿。

2. 多变量微积分(Multivariable Calculus)

大多数机器学习模型是运用包括几种特征或猜测变量的数据集来构建的。因而,了解多变量微积分关于构建机器学习模型非常重要。

以下是你需求了解的多变量微积分数学概念:

  • 多元函数、导数和梯度、阶跃函数;
  • Sigmoid 函数、Logit 函数、ReLU 函数、丢失函数;
  • Plot 函数制作、函数最小值和最大值。

3. 线性代数

线性代数是机器学习中最重要的数学技术,一个数据集能够被表明为一个矩阵。线性代数可用于数据预处理、数据转化以及降维和模型评价。

以下是你需求了解的线性代数概念:

  • 向量、向量范数;
  • 矩阵、矩阵的转置、矩阵的逆、矩阵的行列式、矩阵的迹、点积、特征值、特征向量。

4. 优化办法

大多数机器学习算法经过最小化方针函数的办法来履行猜测建模。

以下是你需求了解的优化数学概念:

  • 丢失函数 / 方针函数、似然函数、差错函数、梯度下降算法及其变体。

接受,作为一个数据科学的推重者,应该时刻谨记,理论根底对构建有用牢靠的模型至关重要。因而,你应该投入满足的时刻去研讨每一种机器学习算法背面的数学理论。

原文链接:

https://medium.com/towards-artificial-intelligence/how-much-math-do-i-need-in-data-science-d05d83f8cb19

【本文是51CTO专栏组织“机器之心”的原创译文,微信大众号“机器之心( id: almosthuman2014)”】

戳这儿,看该作者更多好文

转载请说明出处
知优网 » 入数据科学大坑,我需求什么样的数学水平?(大数据分析对数学要求高吗)

发表评论

您需要后才能发表评论