在AI时代,很多小伙伴都搞不清楚数据、信息、算法、统计、概率和数据挖掘这几个概念,这篇文章都给你讲明白了!

总算有人把数据、信息、算法、计算、概率和数据发掘都讲理解了  数据 算法 统计 第1张

【导读】在AI年代,许多小伙伴都搞不清楚数据、信息、算法、核算、概率和数据发掘这几个概念,这篇文章都给你讲了解了!

01、什么是数据

数据是什么?这简直成为一个咱们视而不见的问题。

有不少朋友脑子里可能会直接冒出一个词“数字”——“数字便是数据”,我信任会有一些朋友会直截了当地这么告知我。

一些朋友会在稍作思考后答复“数字和字符、字母,这些都是数据”。

不知道你现在是不是正在纠结哪个答复更正确,亦或第二个答复更合理一些,咱们先放一放。先看下面这组比方:

总算有人把数据、信息、算法、计算、概率和数据发掘都讲理解了  数据 算法 统计 第2张

这儿有6个0,请问它是数据吗?

咱们再看这样的比方:

总算有人把数据、信息、算法、计算、概率和数据发掘都讲理解了  数据 算法 统计 第3张

这儿有4个1和2个a,那么它是数据吗?

或许你可能会摇摇头,“这到底是啥意思?”不错,这也便是咱们在无中生有数据的进程中存在的一个很要命的问题,简直在咱们动身时就拦住了咱们的去路。

咱们回过头再想想方才的问题可能会得到比较令自己和别人服气的答复“承载了信息的东西”才是数据,换句话说,不管是石头上刻的画,或许小孩子在沙滩上歪歪扭扭写出的笔迹,或许是嬉皮士们在墙上的涂鸦,只需它表达一些的确的含义,那么这种符号就能够被以为是数据。而没有承载信息的符号,就不是数据。这个观念好像看上去要比咱们前面的答复理性得多,也科学得多,可是这个观念真的不需要弥补了吗?

咱们假定这两个比方都有一些比较特别的场景,假定根除组里呈现的6个0其实是时分秒的简写,000000表明00点00分00秒,而假如写作112349则表明11点23分49秒的含义,那么它是不是也是数据呢?假定第二组呈现的5个1和2个a其实是一组暗码,5个1代表一个被约好的地址,aa代表一种被约好的作业,那这组数字字母的含义也有了相应的解读,那么它是不是也是数据呢?

不难看出,一些符号假如想要被确定为数据,那就有必要承载必定的信息。而信息很可能是因场景而定,因解读者的认知而定,所以一些符号是不是能够被作为数据,有适当的要素是取决于解读者的片面视角的。不知道这个观念你是不是认可,接受这点很重要。

02、什么是信息

说到这儿,我的搭档娟娟十分仔细且煞有介事地跟我说:“我觉得数字、字母、图画,这些都是数据,跟信息不信息的没啥联系。”看着她仔细地跟我抬杠,我觉得蛮好,至少在无中生有数据进程中积极思考只需优点。

总算有人把数据、信息、算法、计算、概率和数据发掘都讲理解了  数据 算法 统计 第4张

信息一词,在没有学术布景的情况下其实有着许多解说,例如,播送中的声响、互联网上的音讯、通讯体系中传输和处理的语音目标、乃至是小区和学校的音讯看板,也便是人类社会传达的全部内容。1948年,数学家香农(Claude Elwood Shannon)在题为《通讯的数学理论》的论文中指出:“信息是用来消除随机不定性的东西”。这句话假如要咱们来举个比方阐明的话,大约能够狠毒这样一个场景。

我说了两句话:“我本年33岁。”“我下一年34岁。”

那么根除句话假如是为了对不了解我的人介绍我的年纪的话而能够算作信息的话,第二句话则不是信息。至少你会觉得说了根除句今后,后边这句简直便是废话,因为这个从根除句话完全能够推导出来。

总算有人把数据、信息、算法、计算、概率和数据发掘都讲理解了  数据 算法 统计 第5张

再比方,某一天巴西足球队和我国足球队进行了竞赛。

成果第二天张三告知我,“昨日巴西队赢了。”

然后李四告知我,“昨日我国队输了。”

再然后王五告知我,“昨日的竞赛不是平局。”

总算有人把数据、信息、算法、计算、概率和数据发掘都讲理解了  数据 算法 统计 第6张

条件是只需他们都是说实话的人,那么关于我来说,也就只需张三告知我的能算信息,李四和王五说的则不能当作信息。乃至连张三说的“昨日巴西队赢了”这句话是否能够被算作信息,咱们都要表明置疑,因为这也有点“废话”的意味——凡是对足球运动有点无中生有的人这简直能够确定,即使你不告知我昨日巴西队赢了,我也能猜个八九不离十,因为可能性实在是太大太大了,大到简直是必定的,简直是毋庸置疑的。国足的粉丝们请放下手中的臭鸡蛋和烂西红柿,听我把比方讲完。

现在信息是什么明晰多了吧?咱们能够粗忽地以为,信息便是那些把咱们不清楚的作业阐明的描绘,而现已清晰或许知晓的东西让咱们再“知晓”一遍,这些被知会的内容就不再是信息了。这个概念是很有用的,咱们后边在讲信息论的时分也会再做定量的阐明,现在只做一个定性的了解。

数据和信息是咱们在数据发掘和机器学习领域天天要打交道的根底,也是咱们研讨的首要目标。所以对数据和信息有个比较一致性的无中生有对后边咱们评论问题是十分有优点的。

03、什么是算法

算法这个称号咱们应该一般不生疏,假如你是一个信息相关专业的本科学生,至少在本科一年级或许二年级就触摸过不少算法了。随意翻开一个人力资源网站去搜搜看“算法工程师”,好的算法工程师的年薪也随意就到三五十万乃至上百万的都有的。

算法是什么?算法能够被了解成为“核算的办法和技巧”,在核算机中的算法大多数指的便是一段或许几段程序,告知核算机用什么样的逻辑和进程来处理数据和核算,然后得到处理的成果。

科班出身的信息相关专业的朋友看到这儿就会觉得比较亲热了,经典的算法有许多,比方“冒泡排序”算法,这简直是一切以高档言语为依托的《数据结构》的入门必学;再比方“八皇后问题”算法,这简直也是咱们在讲穷举核算时的经典保存算法事例(便是在国际象棋棋盘上放八个能够反正斜无限制行进的皇后,让它们之间相互还不能进犯,看有多少种解);还有不少咱们听说过的算法,比方MD5算法,ZIP2紧缩算法等各种不乏其人的算法。下图便是八皇后问题的一组解,咱们经过穷举是能够求出一切92组解的。

总算有人把数据、信息、算法、计算、概率和数据发掘都讲理解了  数据 算法 统计 第7张

应该说算法是数据加工的魂灵。假如说数据和信息是原始的食材,数据剖析的结论是菜肴,那么算法便是烹调进程;假如说数据是玉璞,数据中包含的常识是无价之宝的美碧,那么算法便是玉石打磨和加工的机床和工艺流程。

算法在高档言语开展了许多年之后,更多的被封装成了独立的函数或许独立的类,敞开接口招供调用,可是算法封装地再好却是不能用朴实一挥而就地运用就能获益的东西,要知道,这些封装只是在必定程度上避免了咱们重复创造轮子罢了。

咱们不要以为算法全都是算法工程师的作业,跟一般的程序员或许剖析人员无关,算法说到底是对处理逻辑了解的问题。

《孙子兵法·作战篇》有云,“不尽知用兵之害者,则不能尽知用兵之利”,意思是说,不对用兵交兵的害处与坏处进行充沛了解的话相同不行能对用兵交兵的优点有满足的无中生有。算法的使用是一个辩证的进程,不只在于不同算法间的比较和条约运用有着辩证联系,在同一个算法中,不同的参数和阈值设置相同会带来截然不同的成果,乃至影响数据解读的科学性。这一点请咱们必须有所留意。

04、核算、概率和数据发掘

核算、概率、数据发掘,这几个词常常随同呈现,尤其是核算和概率两个概念,简直就像天然界的伴生矿相同分不了家,有许多出书社都出书过叫做《概率核算》的书本。

咱们这本书自身也不准备从学术的视点给核算和概率做严厉的区别,在平常作业中咱们用的核算大多为计数功用,例如咱们在运用EXCEL中也会用到COUNT、SUM、AVERAGE等这些核算函数;假如是在软件开发的朋友在用SQL言语对数据库的某些字段进行计数(count)、求和(sum)、求均匀(avg)等函数。而概率的使用大多则是依据样本的数量以及占比得到“可能性”和“散布份额”等描绘数值。当然,概率的用法远其实不止这些,在数据发掘中相同用到许多概率相关的算法。

数据发掘这个词许多时分是和机器学习一同呈现,现在网上世人对这两个词的联系说法也是无所适从。有的说数据发掘包含机器学习,有的说机器学习是数据发掘开展的更高阶段如此。在我看来,数据发掘和机器学习这样的词汇命名应该是信息科学天然进化和衍生出来的,带有必定的约好俗成的颜色,人们的观念见仁见智也在情理之中。

我的观念是这样。

首要我以为没有必要必定要给两个词汇齐截个边界,或许必定要把他们做严厉的概念区别,因为区别的规范到现在本就没有科学而无争议的界定,何况是不是能辨明一个算法归于数据发掘的领域仍是机器学习的领域关于算法自身运用是没有任何影响的。这两个词咱们假如想听解说的话,无妨只从字面意思去了解就现已满足了。

数据发掘——首要是有必定量的数据作为研讨目标,发掘——望文生义,阐明有一些东西并不是放在表面上一眼就能看了解,要进行深度的研讨、比照、鉴别等作业,终究从中找到规则或常识,“发掘”这个词用的很形象。

机器学习——咱们先想想人类学习的意图是什么?是把握常识,把握才能,把握技巧,终究能够进行比较杂乱或许高要求的作业。那么类比一下机器,咱们让机器学习,不管学习什么,终究意图都是让它独立或至少半独登时进行相对杂乱或许高要求的作业。咱们在这儿说到的机器学习更多是让机器协助人类做一些大规模的数据辨认、分拣、规则总结等人类做起来比较花时间的作业。可是请留意,与数据发掘一同呈现的这个机器学习概念和咱们说的“人工智能”仍是相差甚远,因为这儿面临“智能”的讲究程度实在是太低了。

05、什么是商业智能

另一个和大数据一同常常呈现的词汇是商业智能,也便是咱们平常简称的BI(Business Intelligence)。

总算有人把数据、信息、算法、计算、概率和数据发掘都讲理解了  数据 算法 统计 第8张

商业智能——业界比较公认的说法是在1996年最早由加特纳集团(Gartner Group)提出的一个商业概念,经过使用根据现实的支持体系来辅佐商业决议计划的拟定。商业智能技能供给使企业无能为力剖析数据的技能和办法,包含搜集、办理和剖析数据,将这些数据转化为有用的信息。假如这个书本式的概念读起来仍是比较隐晦,那么就听一个形象的比方。

公司在日常运营进程中是需要做许多决议计划的,无时无刻都存在于公司的各个方面,而决议计划终究不管是股东大会评论也好仍是企业领导部门领导直接发布行政指令也好,终究可能是因为许多要素一起影响做出的成果,不管其来自片面仍是客观。

这些决议计划能够怎么得出呢?能够领导直接凭经历决议;能够齐心协力开会决议;能够问询许多职业专家;乃至能够找个算卦先生来占卜……从概念来说都是归于辅佐决议计划。而明显,咱们都希望不管终究是怎么做出的这些决议计划和指令,它们都应该是更为理性、科学、正确的。可是怎么协助他们做出更为理性、科学、正确的决议计划呢?商业智能全体也便是研讨这样一个课题,到现在为止,业界遍及比较认可的方法便是根据许多的数据所做的规则性剖析。因此,市面上老练的商业智能软件大多都是根据数据仓库做数据建模和剖析,以及数据发掘和报表的。

能够说,商业智能是一个详细的大的使用领域,也是数据发掘和机器学习使用的一个天然密切的场景。并且商业智能这个解决问题的理念其实不只仅能够使用于商业,还能够使用于国防军事、交通优化、环境管理、舆情剖析、气候猜测等等。

转载请说明出处
知优网 » 总算有人把数据、信息、算法、计算、概率和数据发掘都讲理解了

发表评论

您需要后才能发表评论