机器学习、人工智能应该是近几年最火的关键词之一了。今天分享一些机器学习的基础知识。如果有啥不正确的地方,欢迎各位大佬指正。

机器学习人工智能应该是近几年最火的关键词之一了。今日共享一些机器学习的根底常识。如果有啥不正确的当地,欢迎各位大佬纠正。

 机器学习:都有哪些详细分类?项目的流程是怎样? 人工智能 机器学习 数据 第1张

01机器学习的界说

在说机器学习之前先清晰一下,什么是人类的学习行为呢?

能够这样总结,人类从历史经验中获取规则,并将其使用到新的类似场景中,便是人类的学习行为。

相对应的,机器学习是指让机器去练习、去学习,让机器从很多数据中找到数据中的内涵特征,然后对新事物做出判别。

02机器学习的分类

机器学习有哪些类别呢?依照不同的分类方法,有不同的细分类别。梳理了一下,首要有以下的概略图:

 机器学习:都有哪些详细分类?项目的流程是怎样? 人工智能 机器学习 数据 第2张

(1)依照学习方针分类

什么是机器学习方针呢?浅显来讲,便是咱们想经过机器学习,终究完成的成果形状是什么样。

依照学习方针,首要能够分为三类:回归问题、分类问题、排序问题。

  • 回归问题:处理的是方针是连续性变量的问题。比方想依据身高猜测体重,体重便是一个连续性变量。
  • 分类问题:处理的是方针是离散的标签的问题。比方猜测一个人是男仍是女。
  • 排序问题:模型输出的是经过排序的方针列表。

(2)依照练习数据的特性分类

上文提到了,进行机器学习是需求练习数据为根底的(否则机器无法学习呀)。依照练习数据的特性,首要分为以下两类:

  • 有监督学习:经过已有的练习样本去练习得到一个最优模型,再利用这个模型将一切的输入映射为相应的输出,对输出进行简略的判别然后完成猜测和分类的意图,也就具有了对不知道数据进行猜测和分类的才能。有监督算法常见的有:线性回归算法、BP神经网络算法、决议计划树、支撑向量机、KNN等。
  • 无监督学习:练习样本的符号信息不知道,方针是经过对无符号练习样本的学习来提醒数据的内涵性质及规则,为进一步的数据剖析供给根底,此类学习使命中研讨最多、使用最广的是"聚类",聚类意图在于把类似的东西聚在一起,首要经过核算样本间和集体间间隔得到。深度学习和PCA都归于无监督学习的领域。无监督算法常见的有:密度估量、反常检测、层次聚类、EM算法、K-Means算法、DBSCAN算法等。

(3)依照模型的杂乱程度分类

依照模型的杂乱度,首要分为两类:线性模型和非线性模型。

  • 线性模型:决议计划鸿沟为直线。例如逻辑回归模型。
  • 非线性模型:决议计划鸿沟为非直线。例如神经网络模型。

(4)依照模型功用分类

依照模型的功用来分类,首要分为判别模型与生成模型。

  • 判别模型:由数据直接学习决议计划函数f(x)或条件概率散布P(y|x)进行猜测的模型,其关怀的是对给定的输入x,应该猜测什么样的输出y。常见的k近邻法、感知机、决议计划树、逻辑回归、线性回归、最大熵模型。
  • 生成模型:由数据学习输入和输出联合概率散布P(x,y),然后求出后验概率散布P(y|x)进行猜测的模型。常见的生成模型朴素贝叶斯、隐马尔可夫(em算法)。

03机器学习的根本流程

关于一个机器学习项目而言,首要的流程有以下概略:

 机器学习:都有哪些详细分类?项目的流程是怎样? 人工智能 机器学习 数据 第3张

(1)数据预处理

数据清洗是检测和去除数据会集的噪声数据和无关数据,处理遗失数据,去除空白数据域和常识布景下的白噪声。

(2)数据切分

在机器学习中,通常将一切的数据划分为三份:练习数据集、验证数据集和测试数据集。它们的功用分别为

  • 练习数据集(train dataset):用来构建机器学习模型
  • 验证数据集(validation dataset):辅佐构建模型,用于在构建过程中评价模型,为模型供给无偏估量,从而调整模型超参数
  • 测试数据集(test dataset):用来评价练习好的终究模型的功能

关于数据怎么进行切分,后续再进行共享。

(3)特征工程

特征构建是指从原始数据中人工的找出一些具有物理含义的特征。需求花时间去调查原始数据,思考问题的潜在方式和数据结构,对数据敏感性和机器学习实战经验能协助特征构建。

关于机器学习,就先共享这些。欢迎我们持续重视~

转载请说明出处
知优网 » 机器学习:都有哪些详细分类?项目的流程是怎样?

发表评论

您需要后才能发表评论