机器学习项目失利的9个原因，你中招了吗？-人工智能-知优网

如果你问了错问题，你将会得到错误的答案。比如金融业中的欺诈识别问题，这个问题最初可能是“这个特定的交易是否存在欺诈”。为了确定这一问题，你将需要一个包含欺诈和非欺诈交易示例的数据集。

本文总结了数据科学项目失利的最常见原因，期望能够协助你防止圈套。

1.问错了问题

假如你问了错问题，你将会得到过错的答案。比方金融业中的诈骗辨认问题，这个问题开端或许是“这个特定的买卖是否存在诈骗”。为了确认这一问题，你将需求一个包括诈骗和非诈骗买卖示例的数据集。这个数据集能够在一组专门担任侦测诈骗行为的专家（SME）的协助下生成。可是，因为专家们依据的是曩昔对诈骗行为的知道进行的符号，用该数据集练习的模型只会捕获契合旧形式诈骗，而关于新式的诈骗办法，这一模型将无法辨认。假如将问题改为“这个买卖是否失常”，它只需寻觅不契合“正常”签名的买卖，依托人类进一步剖析猜测的诈骗买卖以验证模型成果即可。但这种办法的副作用是，它很或许会比曾经的模型发生更多的误报。

2.企图用它来处理过错的问题

咱们经常会忽视一个问题：咱们费尽心思处理了一个问题，可是处理后是否能完结咱们的意图。比方，你想出了用人工智能开发出一个将人的全身照传上网站就能依据提示量身定做一套合身的衣服的项目。完结这个项目咱们需求完结以下使命：

·开发AI/ML技能以确认照片中的身体测量值；

·规划并创立一个网站和手机运用，以便与客户进行互动；

·进行可行性研讨以确认此产品是否有商场。

作为技能专家，咱们最了解的便是产品规划与编码，因而咱们或许想开端研讨前两个使命。假如咱们在履行前两项使命后进行可行性研讨而且研讨成果表明咱们的产品没有商场，那将很可怕。

3.没有满足的数据

有一些数据十分灵敏而且遭到紧密的维护，对它的拜访或许会遭到很大的约束，咱们或许获取不到相关数据。

比方，在一些与生命科学范畴相关的项目中，因为生命科学职业对存储和传输受维护的健康信息（PHI）十分灵敏，大多数可用数据集都会将这些信息删去。例如，密西西比人比康涅狄格州的人患糖尿病的或许性更高。可是因为这些信息或许无法取得，咱们将无法运用。

4.没有正确的数据

就算你具有超棒的模型，运用过错数据或许有缺点的数据也或许导致猜测过错。在监督学习中，咱们运用曾经标示过的数据，因为这种标签一般是人做得，或许会存在一些过错。举一个极点的比如，假定有一个具有完美精确性的模型但运用了不精确的数据，如MINIST数据集，图画的人工符号是100%精确的。现在，假定三分之一的数字被贴错了标签，就如陈旧格言所说的，假如是废物输入，你将得到废物输出。

5.具有太多数据

从理论上讲，你永久不需求许多的数据（只需它是正确的数据）。在实践中，即便存储和计算成本和功能取得了巨大的前进，咱们依然遭到时刻和空间的物理约束。所以数据科学家最重要的作业之一便是明智地挑选他们以为会对完结精准的模型猜测发生影响的数据源。例如，猜测婴儿出世体重。与母亲的年纪及住处好像相关，但与母亲的姓名或许不相关。在本例中，需求人工干预来确认删去不相关的数据。在运转模型之前，确认哪些因素相关仍是一个潜在的圈套，或许会损坏你的数据科学项目。

6.雇佣过错的人

假如你有的是一个小型数据科学实践，你或许别无挑选，只能依靠一个或几个来履行一切使命。可是，跟着团队的开展你应该考虑为每项使命延聘专家。特别是关于生物技能、金融等职业具有专业的范畴常识是十分有价值的，乃至是至关重要的。一起，具有一个主题专家（SME）和具有杰出交流技巧的数据科学家也很重要。跟着你团队的不断开展，具有正确的资源和人才库是你实践成功的最重要因素之一。

7.运用过错的东西

举个比如：你最近差遣团队在MySQL上进行练习，他们回来后，你需求设置一个剖析管道。因为他们的主意现已被从头练习，所以他们主张运用他们的新东西。可是，依据管道即将处理的数据量以及你需求对成果履行的剖析量，这个挑选或许是对作业的过错挑选。许多SQL产品对能够存储在单个表中的数据量有严厉的约束。在这种状况下，更好的挑选或许是运用像MongoDB这样的NoSQL产品或许像AWS Redshift这样的高度可扩展的列式数据库。

8.没有适宜的模型

“无免费的午饭”（NFL）是数学中的闻名定理。它指出没有一种模型是能够处理一切问题的。例如，在营销运用程序中，保存客户电子邮件和地址等特点或许很重要。而在医疗环境中，患者的身高、体重和血型或许更为重要。这表明在某种状况下运作杰出的模型或许在另一种状况下不起作用。所以在数据科学中运用多个模型进行迭代，以找到最适宜给定状况的模型是很常见的。在监督学习中更是如此。验证或穿插验证一般用于评价不具有复杂性的多个模型的精确性，以找到最适宜的模型。此外，一个有效地模型也能够经过多种算法进行练习—例如，能够运用正规方程（Linear least squares）或运用梯度下降（Gradient descent）来练习线性回归。

9.没有正确的规范

在机器学习中，依据对数据的练习和测验来衡量模型的功能是十分重要的。该信息将用于挑选要运用的模型、超参数和确认模型是否已准备好用于出产运用。为了衡量模型的功能，最重要的是挑选最佳的评价规范来完结手头的使命。

关于衡量挑选的文献有许多，对此不在深入探讨，但在挑选目标时要紧记以下一些参数：

机器学习问题的类型：监督学习、无监督学习和强化学习。

监督学习的类型：二元、分类或回归。

数据集类型：假如数据集不平衡，则不同的衡量规范或许更适宜。

本文由北邮阿里云云栖社区安排翻译。