冒牌数据科学家通常是某一个特定学科的专家,且坚信他们的学科才是唯一真正的数据科学。这种想法忽略了一个事实:数据科学是一整套科学工具与技术(数学,计算,视觉,分析,统计,试验,问题界定,模型建立与检验等)的集合,用于从数据收集中获得新发现、洞察与价值。

现在数据科学家正式成为21世纪最性感的作业,人人都想来分一杯羹。

20个问题戳穿冒牌数据科学家(20个问题揭穿冒牌数据科学家)  数据科学 数据科学家 数据分析 第1张

这也意味着会有一些冒牌货。这些人自称数据科学家,却不具有相应的技术。

这不见得是有意诈骗。数据科学是簇新的范畴,现在对此岗位也缺少被广泛认可的描绘。这意味着许多人会以为自己是数据科学家,只是由于他们常跟数据打交道。

“冒牌数据科学家通常是某一个特定学科的专家,且深信他们的学科才是仅有真实的数据科学。这种主意疏忽了一个现实:数据科学是一整套科学东西与技术(数学,核算,视觉,剖析,计算,实验,问题界定,模型树立与查验等)的调集,用于从数据收会集取得新发现、洞悉与价值。”

--Kirk Borne,BoozAllen Hamilton ***数据科学家

RocketDataScience.org创始人

为了协助你差异真实的数据科学家与冒牌的(误入歧途的)数据科学家,咱们总结了一个问题清单,内含20个问题。在面试数据科学家时你能够提出这些问题。

1.解说什么是正则化,以及它的用途。

2.你最崇拜哪些数据科学家?哪些创业公司?

3.你会怎样验证一个多元回归猜测模型的量化变量的成果?

4.解说什么是准确率(precision)和召回率(recall)。它们与ROC曲线有什 么联系?

5.你怎样证明你对某个算法进行的改善,与原算法比较是有了真实的改善?

6.什么是根本原因剖析(rootcause analysis)?

7.你是否了解以下概念:价格优化、价格弹性、库存办理、竞赛(商业)智能。举例阐明。

8.计算成效(statisticalpower)是什么?

9.解说什么是从头取样法(resamplingmethods)以及它们为何重要。解说它们的局限性。

10.哪种状况更好:有许多假阳性值,或者是有许多假阴性值?请解说。

11.什么是挑选误差(selectionbias),它为何重要?怎样防止?

12.举出一例阐明,你怎样用实验规划来答复一个有关用户行为的问题。

13.数据的“长”/“宽”格局有何差异?

14.你运用什么方法来判别一篇文章(比方报纸中的)计算数字是错的或用来支撑作者观念的,而非正确的、包括对某个特别主题的丰厚实时信息的?

15.解说EdwardTufte的“废物图表(chart junk)”概念。

16.你怎样挑选离群点(outliers),以及假如你发现了一个这样的点应该怎样处理?

17.你会怎样运用极限值定理、蒙特卡罗模仿或数理计算(或其他任何东西)正确猜测一个稀有事情的几率?

18.引荐引擎是什么?它怎样作业?

19.解说什么是假阳性、假阴性。为何差异它们很重要?

20.你是用什么东西进行可视化?你对Tableau怎样看?R?SAS?(就绘图而言)。怎样有效地在一个图表(或视频中)体现五个维度?

“一个‘真实的’数据科学家知道怎样使用数学、计算,怎样用恰当的实验规划来树立与验证模型。有IT技术却没有计算技术的数据科学家,就像一个只知道怎样树立手术刀的外科医生。”

--Lisa Winter,TowersWatson

高档剖析师

转载请说明出处
知优网 » 20个问题戳穿冒牌数据科学家(20个问题揭穿冒牌数据科学家)

发表评论

您需要后才能发表评论