在现实生活,“数据科学家”这个词可以指代非常广泛的工种,因此它存在很多种形式,考虑到工业界以及商业界各种需求的不同,还有问题中目标与输出角色的不同。

怎么成为一名数据科学家?(怎么成为一名数据科学家英语)  数据科学家 数据科学 第1张

作者Alec Smith是数据科学范畴中资深HR,之所以写这篇文章是由于经常被问到一个问题:“怎么才干获得一份数据科学家的职位?” 不只这个问题经常被问引起了留心,别的问这个问题的人不同的布景也十分很令人感爱好。作者从前和以下这些作业的人有过相似对话:软件工程师、数据库开发者、数据架构师、稳妥精算师、数学家、学术界人士(不同范畴)、生物学家、天文学家、理论物理学家—我还能接着往下数。经过和他们的这些说话,作者发现在这之中有很大的误解存在,许多人都十分困惑——为了闯入这个范畴的话,他们需求做些什么?

作者决议深入调查这个项目,一起供给一个任何想要参加商业核算机科学都能获益的干货材料——不管你是刚刚开端,或许早已点满全部的技术仅仅没有相关的业界阅历。因而我计划首要答复这两个概览性的问题:

  • 数据科学需求哪些技术?怎么才干学会这些技术?
  • 从求职商场的视点来看的话,怎样做才干***化在数据科学岗位上被选用的时机?

你或许会疑问,凭什么我能答复这些问题?

由于我每天都喝数据科学家打交道,并且作为一个资深的HR,我需求了解相关作业路途,怎样才干成为一名优异的数据科学家,以及雇主希望能招到哪一种职工。因而关于这件事我仍是适当了解的。可是我也想直接找到那些沿着这条路走下来的人,所以我以不同布景的数据科学家开端,等待能发掘到不同的东西。这一次我找到了一个前软件工程师、前天体物理学家、乃至还有一个前粒子物理学家(这令我十分激动,由于他从前亲自参加过21世纪以来最严重的科学打破之一)。

***章:什么是数据科学?

你现已下定决计要做一名数据科学家了,很好你现已开端了。可是现在你有了别的一种挑选:你想做哪一种数据额科学家呢?由于(认识到这个很重要)虽然数据科学被承认是一种作业现已有许多年了,可是有关于它终究是什么还没有一个咱们都认可的界说。

在现实日子,“数据科学家”这个词能够指代十分广泛的工种,因而它存在许多种方法,考虑到工业界以及商业界各种需求的不同,还有问题中方针与输出人物的不同。因而,在某些方面具有技术的话比其他要更好一些,这就是为什么通向数据科学的途径是不相同的,能够经过多种范畴如核算、核算机科学与其他科学学科来完结。

意图是决议数据科学方法类别的***要素,这也与相应的A类以及B类相相关。广义上来说,分类能够总结如下:

  • 面向人类的数据科学(A类),举例:剖析支撑以依据为根底的决议计划
  • 面向软件的数据科学(B类),举例:智能引荐体系,如Netflix和Spotify

当这个范畴越来越老练之后,咱们能够见到这些界说会愈加完善,在这儿咱们也要介绍咱们***个专家:Yanir Seroussi,Yanir现在是Car Next Door的***数据科学家。

评论职位头衔

在咱们深入研讨之前,值得花一点时刻来反思“数据科学”中的“科学”,由于在某种含义上,全部的科学家都是数据科学家,由于他们都是与各式各样的数据进行打交道。但要考虑到一般被以为是数据科学的这个职业,终究是什么使它成为一门科学?这个问题很好!答案应该是:“科学方法”。考虑到科学的多学科性,科学方法是把这些范畴结合在一起。

可是,业界中职位称号形似越来越宽松了,并不是全部的数据科学家都是实在的科学家。能够这样问你自己:你能证明自己是一个科学家即使你的作业并不包含实在的科学呢?个人来说,我不以为“剖析师”不能作为一个选项 ,或许其他的最合适的也能作为选项。可是这或许仅仅我个人定见,或许我***称自己为招聘科学家。

经过评论的方法咱们将持续探究,哪些范畴的专业常识你还需求把握(假如你还没有的话)。

1. 处理问题

假如这个不是你清单中的首位的话,马上去修正。全部科学中心都是处理问题:一个巨大的数据科学家也是一个巨大的问题处理者;就是这么简略。需求更进一步的证明吗,根本我在这个项目中碰到的每一个人(不管其布景和现在作业环境怎么)都说到数据科学中最重要的要素就是处理问题。

很明显,你需求有东西去处理问题,可是它们仅仅:东西。在这种状况下,即使是核算/机器学习技术也能够以为是你处理问题的东西。新的技术出现了,科技前进了。仅有不变的就是处理问题。

在某种程度上,你处理问题的才干是由天分决议的,可是与此一起有且仅有一个方法来进行前进:那就是操练、操练、操练。在后面咱们会回忆这部分内容,可是现在你只需求记住:你只能经过测验来把握某件作业。

2. 核算/机器学习

怎么成为一名数据科学家?(怎么成为一名数据科学家英语)  数据科学家 数据科学 第2张

看完上面的内容,如同我小看了核算和机器学习。不过在这儿咱们并不是评论一个强力的东西;它们是十分杂乱的(并且在某种程度上是十分艰深的范畴),假如你没有专业的常识,你也不会很快地处理数据科学问题。

进一步对这些词进行解说阐明,机器学习能够被以为是从人工智能/核算科学与核算学中展开起来的多学科范畴。它一般被以为是人工智能的一个子范畴,这是正确的,可是很重要的是要意识到没有核算学的话就没有机器学习(机器学习十分依托核算算法来作业)。很长一段时刻依托核算学家都被机器学习所小看,可是在这两个范畴的协作才造就了最近的展开(拜见核算学习理论),趁便提下高维核算学习只要在核算学家与机器学习成果协作时才会有杰出的成果。

3. 核算

编程

关于咱们来说只需求简略的触摸程序就行,由于它应该是很直观的:可是对数据科学家来说编程是必需求会的。想象下假如你不会编程的话,怎么才干经过编写一段共同的算法来完结你的理论?又或许建立一个核算模型?

怎么成为一名数据科学家?(怎么成为一名数据科学家英语)  数据科学家 数据科学 第3张

散布式核算

并不是全部作业都需求超级大的数据组,可是考虑到现代国际的状况,主张在作业中都加上大数据。简而言之:单一核算机中的首要内存并不能完结大数据处理,假如你想一起在数百台虚拟机中练习模型的话,你需求能够运用散布核算与并行算法。

软件工程

关于A类数据科学而言,让我清晰一点:工程是一门独立的学科。因而假如这是你想成为的数据科学家类型,你其实不需求成为一个工程师。可是,假如你想把机器学习算法转化到运用中(即B类),那么你将需求一个强壮的软件工程根底。

手动转化数据

数据整理/预备是数据科学的重要内涵组成部分。这将消耗你大大都时刻。假使你没有成功地对数据集进行降噪(例如,过错赋值,非标准化分类等),将会对建模的准确性发生影响,终究导致发生过错的定论。因而,假如你没有做好处理数据的预备,这将使你从前的常识堆集显得无关重要。

有一点是十分重要的且值得留心的,即在商业化安排中数据质量一向以来成为饱尝争议的论题,在数据贮存方面,许多业务又涉及到杂乱的根底业务需求处理。所以,假如你没有预备好融入这个环境中,想要处理朴实的数据集,商业数据科学或许不是最适合你的挑选。

东西与技术

直至现在,你应当意识到,成为一名具有处理问题的才干的数据科学家比较于其他全部条件来讲是重中之重:由于技术将不断发生变化,能够在相对较短的时刻内得到把握。可是,咱们不能对其他影响要素置之脑后,因而,能够认清楚现在运用最广泛的东西关于成为一名数据科学家是有用的。

让咱们先从编程言语谈起,R与Python是两种最常用的编程言语,因而,假如能够挑选的话,希望你选用其间一种言语用于试验研讨。

尤其是在A类数据科学作业范畴,具有能够直观地调查数据的才干将会对与非技术型商业股东交流交流发生严重影响。你或许具有***的模型和最深入的见地,可是假如不能有用地出现/解说这些研讨成果,那又将有什么用呢?事实上,你运用什么东西完结数据直观可视化并不重要,可所以经过运用R或Tableau(其时最为盛行的编程言语),可是,说实话,东西是不太重要的。

***,不管咱们所评论的是联络型数据库,仍是运用大数据技术获得的SQL衍生数据库,由于SQL是其时产业界用于数据库中最为广泛的编程言语,大大都公司都十分垂青SQL这种编程言语。SQL关于手动转化数据尤为重要,至少在处理更大规划的数据库时。总归,SQL真的值得你花费必定的时刻来好好研讨运用。

交流/商业脑筋

在商业数据科学范畴作业,具有交流交流才干/商业脑筋是不容忽视的。除非你即将从事十分具体的作业,或许是纯研讨类型的作业(虽然咱们要面对现实,在产业界并没有许多这种类型的作业),绝大大都数据科学范畴的作业都涉及到业界交流互动,一般是与非学者类型的人打交道。

具有将商业化问题和催生这些问题的环境概念化是极为重要的。将核算学方面的观念转化为能够想一般群众引荐的举动或启发性观念也是重要的,特别是关于A类型数据科学范畴的作业来讲。我曾与Yanir就该论题攀谈过,他的观念如下:

“我发现一种古怪的现象,当一些技术型人才开端运用行话与人交流时,他们并不留心他们的攀谈者——那些非技术型人才,的目光早已落到了别处。在攀谈进程中,能够设身处地地为他人考虑是重要的。”

摇滚明星

乍看这样一个标题,你或许会困惑不解:事实上,我用这一标题暗含挖苦意味。当然,数据科学家可不是摇滚明星,忍者,独角兽或其他任何一种奥秘生物。假如你计划视自己为上述任何一种生物,那你或许该对着镜子好好许多自己一番。可是,讲到这儿,我离题了。我想要表达的观念是,有一些数据科学家,他们具有***的专业水平,也或许专业水平更为高端。在他人眼中,可谓稀有物种,尤为名贵。假如你有此般天分或希望成为其间一员,那简直是太棒了。可是,假如你不具有这种才干或希望,请记住:你或许在数据科学的某些范畴做的术业有专攻,并且一般,好的团队是由精通于不同专业范畴的数据科学家组成的。决议自己的研讨要点在哪一范畴,这个问题有回到咱们之前讲的个人爱好和才干这个论题上,咱们将在下一章对该论题作持续评论。

第二章:自我剖析

现在咱们正在获得前进!成功地消化了***章的内容之后,你现在要做好预备开端拟定个人方针。可是,咱们首要要回忆一下——无妨来杯咖啡,寻一隅安静之所,沉思下面的问题:

1.你为什么想要成为一名数据科学家?

2.对哪一类型的数据科学感爱好?

3.你现已具有了哪些天分或相关技术?

为什么认真思考这些问题是重要的?简而言之:数据科学是一个专业的研讨范畴,因而,除非你现已把握了咱们在***章中说到的常识与技术,不然从事该范畴的研讨并不是一种轻松的挑选。讲到这儿,有一点对合理处理前两个问题尤为重要:你需求为从事数据科学范畴的研讨找到合理的理由,不然,当遇到困难时,很简略功败垂成。

为了具体阐释上面的观念,咱们来听听Dylan Hogg的见地。Dylan之前是一名软件工程师,现在是数据科学研讨协会的***,数据科学研讨会为运用机器学习(NLP)为雇主和相关候选人员建立联络搭建了一个渠道。Dylan是怎么从软件工程师成功地转型为数据科学家的(他依然处于转型期),下面咱们将评论转型进程中应当具有的条件,他讲到:

“不管学历凹凸,阅历丰厚与否,有一些内涵的东西尤为重要,那就是一个人的求知欲、决计和意志。你会遇到许多困难:或许是算法方面犯错,或许是遇到技术瓶颈。不管遇到什么样的困难,你都能够找到***的方法来研讨机器学习算法或软件工程,可是,假使你的决心不行坚决,你将会抛弃或无法战胜遇到的困难。”

这下你会懂了:在学习进程中,你不只仅会遇到困难;在作业日子中,你会接二连三地遇到难题,因而,你***能够确保有合理的理由来鼓励自己,而不只仅由于你觉得具有“科学家”这一头衔有多酷。

可是,咱们应当怎么应对第三个问题?为什么具有相关技术是重要的?对,一个人的起点会对挑选最适合自己的数据科学类型及你应当从自己感爱好的范畴学到的常识发生影响?为了能够恰当地答复这个问题,有必要探寻通往数据科学范畴的典型途径,咱们应当首要从更为宽广的科学范畴开端。

注:在许多定量学科中有许多人具有向数据科学转型的本质。在这儿我就不一一罗列了,可是,需求着重的要点是:假如你花费时刻来实在了解每种类型数据科学之间存在的纤细差异,不管你的常识布景怎么,你都将会意识到自己所具有的相关技术的重要性。

其他科学学科

怎么成为一名数据科学家?(怎么成为一名数据科学家英语)  数据科学家 数据科学 第4张

这不是通往数据科学范畴最普通的路途;咱们接下来即将评论核算学与核算机科学在数据科学研讨中的重要性。可是,许多范畴的科学家都具有熟练的相关技术(特别是物理学范畴),许多人在这一方面现已跳过了。

为了对此进行解说,请答应我介绍Will Hanninger,澳洲联邦银行数据科学家。之前,Will是欧洲核子研讨中心的粒子物理学家,发现了希格斯玻色子,下面是他的语录:

“在物理学界,你能够自可是然地学习到所需求的数据科学范畴的常识:编程、操作数据,获取原始数据并依据实用性对数据进行转化。你能够学习到核算学常识,重要的是:你将学到处理问题的才干。这些是作为一名数据科学家应当具有的根本技术。”

因而,技术组合具有高度可转化性,最重要的是获取处理问题的才干。东西与技术两者之间将会发生差异,例如,虽然机器学习是数据科学的近义词,可是,就更为广泛的科学而言,这种同义联络是不常见的。在上述评论中,咱们一向谈及的是高智商人才,他们具有在短时刻内学会运用东西与技术的才干。

下面咱们以Sean Farrell的科研阅历为例。Sean所学专业是天体物理学,之后进入澳大利亚商业数据科学研讨范畴,在研讨进程,他就“为什么科学家在数据科学范畴的丢失反而是收成”这一标题写了一篇闻名的博文。下面这段话尤为中肯:

“至今停止,没有发现一种能够培育出一位数据科学家的正式练习方法。大都数据科学家都来自核算学或核算机科学范畴。可是,虽然其他研讨范畴也能够培育上述罗列的技术,可是不能包含全部的相关技术。核算学家十分拿手数学和核算,一般在编程这一块儿的技术稍显短缺。核算机科学家十分拿手编程,可是,在了解核算学常识方面存在难度。两个范畴的科学家都具有高水平的(虽然不同的)数据剖析技术,可是不拿手立异性地处理问题,这种技术也是难以教会的。”

为了防止误解,请记住咱们今日评论的上下文语境。Sean的一席话并不意味着来自核算学或核算机科学范畴的全部数据科学家都缺少立异性处理问题的才干;他的观念是:比较核算学和核算机科学,广泛含义上的科学对处理问题的技术要求很高。

核算学

谈及到科学,应当细心研讨核算学。近来,许多核算学中的分支学科被从头冠以数据科学之名,因而,在某种程度上,咱们如同正在议论语义学常识。可是,正如我从前谈到的,我以为科学方法应当被当作一门科学:莫非提出假定,规划可行的试验计划等研讨过程不能称得上“方法论”吗?假使不是的话,或许像“核算学家”或“模型剖析师”这样的头衔更为恰当。

暂时将这一问题放一放,假使你是产业界的一名核算员或许刚刚从核算学专业结业,那么你或许现已具有成为一名数据科学家应当具有的常识与素质。相关常识素质的构成首要依托以下要素:

  • 首要,你在机器学习技术方面有何阅历?正如咱们在***章说到的,核算建模与机器学习是彼此相关的,可是,在运用到大型数据会集,后者具有更多的优势。当机器学习在产业界的运用越来越遭到重视,实践上,机器学习现已成为各种类型的数据科学。
  • 其次,咱们再重复一遍,你对数据科学的哪一范畴感爱好?很明显,具有核算学布景愈加有利于你担任A类型职位,因而,假如你将方针设定为B类型职位,未来还需求学习许多常识。
  • ***,你是否具有处理数据的实践阅历?正如咱们在***章中说到的,手动转化数据是商业数据科学的重要组成部分,而来自核算学范畴的科学家手动转化数据的才干相对单薄。

核算机科学/软件工程

假如你在人工智能或核算机科学范畴的学习现已到达前沿水平,你极有或许现已能够担任B类型的数据科学研讨作业。可是,咱们这儿即将考虑一条数据科学家常走的科研路途:一名阅历丰厚的软件工程师想要转型进入数据科学范畴。

一名软件工程师在机器学习范畴或许富有阅历,也或许阅历甚少。可是,B类型数据科学要求在软件工程准则方面具有厚实的根底,因而,不管怎样,具有软件工程方面的学术布景将使你更适合该范畴的研讨。我从前与澳洲联邦银行高档数据科学家(从前是一名软件工程师)就此问题沟经过,以下是他的观念:

“许大都据科学作业其实都涉及到软件工程方面的常识,不只仅包含规划健全的体系,并且包含简略地编写软件。你能够经过自动化完结许多使命,假如想要展开试验,你需求编写代码,假如你能够快速编码,将对试验发展发生严重影响。在攻读博士学位进程中,我每天要做不计其数项试验,如此浩大的工程是不或许经过人工完结的。具有软件工程专业的学术布景意味着我能够快速完结设定的试验使命,可是,许多其他学术布景的学生需求吃力处理根本的软件问题:他们真的十分拿手数学,可是要实在证明他们的观念还需求消耗许多时刻。”

Dylan关于该问题弥补道:

“假如你想要在出产环境中高效运用机器学习算法,杰出的软件工程实践才干是十分名贵的。这其间涉及到各式各样的软件工程常识——如可保护的代码,可供共享的代码库,以便于更多的人能够投入到数据科学范畴的研讨中,如在核算机中记载信息,扫除出产进程中的毛病,算法扩展,你应当认识到:一旦这些常识得到加强,你便能够经过这样的方法构建数据科学范畴的常识结构。因而,假如你正在寻觅一份能够有用使用所把握的常识的作业,这将使得软件工程学术布景变得更为重要。”

我以为,上述两名数据科学家现已对怎么成功完结转型这一问题做出了具体阐释,下面由我来总结如下:假如你是一名软件工程师,并且很喜爱数学,这将有助于你成为一名(B类型)数据科学家,条件是你现已做好预备在作业中把握核算学/机器学习范畴的常识。

数学

很简略得出这样一个定论:数学常识为数据科学的全部研讨范畴打下坚实的根底。因而,希望许大都学家从事数据科学家的研讨作业是合理的。可是,相对来讲,少之又少的数学家成功转型成为数据科学家,这一现象引发了我稠密的爱好。

针对这一现象,有一种解说:与其他研讨范畴比较,数学(纯理论数学与运用数学)范畴有相对较少的结业生,可是,这种解说不免显得勉强。为了深究导致这种现象的原因,我从前同Building IQ(一家新建立的运用先进的算法优化商业修建中动力运用的公司)***数据科学家Boris Sackovic攀谈过。Boris具有电气工程与运用数学两层学术布景,与其时许大都学家协作过,以下是他对该现象的见地:

“许大都学家为理论层面的问题,美丽的方程入神,能够洞悉众大都学原理所包含的深层含义,其时商业数据科学研讨讲究实证性,涉及到的多种多样的常识与才干。一些数学家喜爱这种实证性,而一些则表现出厌烦的情绪。实在的状况更为杂乱,你不能统筹全部的状况,因而得具有能够灵活处理所遇到难题的才干。而这是商业数据科学的要点地点:找到更快更好、实在可行的赚钱计划。关于那些具有稠密数学布景或理论布景的科学家而言,要了解商业数据科学范畴的运转形式或许存在不少难题。我从前遇到过许大都学专业的博士,他们在由学术界向商业数据科学范畴过度期间可是吃了不少苦头。”

需求留心的是,Boris在这儿谈及的是纯理论数学家,当然,他也弥补说,在自己的作业生涯中也曾与许多优异的运用数学家打过交道。这样一来上面的评论便讲得通了,由于纯理论数学家或许会招引那些酷爱理论的人,而不会招引那些酷爱处理实践问题的人。理论研讨作业并未涉及到太大都据处理问题,可是,咱们都知道数据关于数据科学范畴的研讨极为重要。

就作业类型匹配度问题,大都数学家或许更适合学习A类型数据科学范畴的东西和理论。可是,也有一些学习核算机科学的(实质上,理论核算机科学归于数学的一个分支)数学家,因而,具有这种学术布景的数学家或许更适合B类型数据科学范畴的作业。

从上述评论成果中能够得出一条十分重要的观念,即要了解商业数据科学实在要求数据科学家具有哪些常识和技术。假使你能够实在清楚地认识到面对的应战,所需求做的就是为了自己的方针尽力前行。可是,假使比较实践运用,你更热衷于理论研讨,你或许要三思而后行。

一块空白的画布

假如你刚刚起步,或许你仍是一名学生,喜爱数学、科学与核算,喜爱数据科学,这对你来讲不失为一则好消息:你能够不受从前学术布景的约束,挑选归于自己的科研路途。现在有许多与数据科学相关的专业课程,包含核算机科学和数学/核算学等。当然你不或许一夜之间成为一名数据科学家,现阶段你需求建立不断学习的理念,使用各种数据科学范畴的学习资源, 累积数据处理方面的实践阅历,具有与人交流交流的才干,活跃迎候商业数据科学范畴未来的应战!

转载请说明出处
知优网 » 怎么成为一名数据科学家?(怎么成为一名数据科学家英语)

发表评论

您需要后才能发表评论