冒牌数据科学家通常是某一个特定学科的专家,且坚信他们的学科才是唯一真正的数据科学。这种想法忽略了一个事实:数据科学是一整套科学工具与技术(数学,计算,视觉,分析,统计,试验,问题界定,模型建立与检验等)的集合,用于从数据收集中获得新发现、洞察与价值。
现在数据科学家正式成为21世纪最性感的作业,人人都想来分一杯羹。
这也意味着会有一些冒牌货。这些人自称数据科学家,却不具有相应的技术。
这不见得是有意诈骗。数据科学是簇新的范畴,现在对此岗位也缺少被广泛认可的描绘。这意味着许多人会以为自己是数据科学家,只是由于他们常跟数据打交道。
“冒牌数据科学家通常是某一个特定学科的专家,且深信他们的学科才是仅有真实的数据科学。这种主意疏忽了一个现实:数据科学是一整套科学东西与技术(数学,核算,视觉,剖析,计算,实验,问题界定,模型树立与查验等)的调集,用于从数据收会集取得新发现、洞悉与价值。”
--Kirk Borne,BoozAllen Hamilton ***数据科学家
RocketDataScience.org创始人
为了协助你差异真实的数据科学家与冒牌的(误入歧途的)数据科学家,咱们总结了一个问题清单,内含20个问题。在面试数据科学家时你能够提出这些问题。
1.解说什么是正则化,以及它的用途。
2.你最崇拜哪些数据科学家?哪些创业公司?
3.你会怎样验证一个多元回归猜测模型的量化变量的成果?
4.解说什么是准确率(precision)和召回率(recall)。它们与ROC曲线有什 么联系?
5.你怎样证明你对某个算法进行的改善,与原算法比较是有了真实的改善?
6.什么是根本原因剖析(rootcause analysis)?
7.你是否了解以下概念:价格优化、价格弹性、库存办理、竞赛(商业)智能。举例阐明。
8.计算成效(statisticalpower)是什么?
9.解说什么是从头取样法(resamplingmethods)以及它们为何重要。解说它们的局限性。
10.哪种状况更好:有许多假阳性值,或者是有许多假阴性值?请解说。
11.什么是挑选误差(selectionbias),它为何重要?怎样防止?
12.举出一例阐明,你怎样用实验规划来答复一个有关用户行为的问题。
13.数据的“长”/“宽”格局有何差异?
14.你运用什么方法来判别一篇文章(比方报纸中的)计算数字是错的或用来支撑作者观念的,而非正确的、包括对某个特别主题的丰厚实时信息的?
15.解说EdwardTufte的“废物图表(chart junk)”概念。
16.你怎样挑选离群点(outliers),以及假如你发现了一个这样的点应该怎样处理?
17.你会怎样运用极限值定理、蒙特卡罗模仿或数理计算(或其他任何东西)正确猜测一个稀有事情的几率?
18.引荐引擎是什么?它怎样作业?
19.解说什么是假阳性、假阴性。为何差异它们很重要?
20.你是用什么东西进行可视化?你对Tableau怎样看?R?SAS?(就绘图而言)。怎样有效地在一个图表(或视频中)体现五个维度?
“一个‘真实的’数据科学家知道怎样使用数学、计算,怎样用恰当的实验规划来树立与验证模型。有IT技术却没有计算技术的数据科学家,就像一个只知道怎样树立手术刀的外科医生。”
--Lisa Winter,TowersWatson
高档剖析师
知优网 » 20个问题戳穿冒牌数据科学家(20个问题揭穿冒牌数据科学家)