2016秋季学期首场清华大数据“应用·创新”系列讲座,在清华大学FIT楼多功能厅顺利举行。本场讲座邀请到了国双联合创始人、国双副总裁黄勇坚,通过实战应用案例对Lambda架构进行了全方位解读。

5分钟GET一场清华大数据讲座实战使用事例干货(大数据 演讲)  GET 大数据 解决 第1张

9月13日晚,由数据科学研讨院主办,国双科技、清华大数据工业联合会承办的2016秋季学期首场清华大数据“使用·立异”系列讲座,在清华大学FIT楼多功用厅顺畅举办。本场讲座约请到了国双联合创始人、国双副总裁黄勇坚,经过实战使用事例对Lambda架构进行了全方位解读。

5分钟GET一场清华大数据讲座实战使用事例干货(大数据 演讲)  GET 大数据 解决 第2张

讲演时长两个多小时,全场满满干货,尽管当天也做了线上视频直播,但仍旧有许多没有参与的大数据爱好者对此表明很惋惜,相同身为一名数据粉的小编不忍心让咱们惋惜,为了让咱们快速GET这场讲演的内容,小编特别捞出干货供咱们交流学习。

Google、微信之后是什么年代?

回忆整个IT技能开展进程,它一直是以促进人类就事愈加简略,日子愈加便利为开展趋势的。

上个世纪40年代以来,依据冯·诺依曼架构、图灵理论而造出了核算机。初心其实是为了交兵,核算原子弹途径千万别跑偏,其时需求巨大的人工的核算量,但二战期间人力有限。IBM的神话由此诞生。

跟着年代的开展,除了核算,人们还产生了作业、文娱等诉求。所以核算机逐渐个人化、微型化。那个年代成果了微软、英特尔这样的巨子。

后来进入互联网年代,Google这样改动国际的企业应运而生,紧随其后的还有微信这样的移动互联网神器。现在,当核算国际进入到“大数据”年代,又会呈现什么样的传奇呢?

5分钟GET一场清华大数据讲座实战使用事例干货(大数据 演讲)  GET 大数据 解决 第3张

为什么说近十年才是“大数据”的年代?当年比尔·盖茨靠Windows发家莫非就没人提“大数据”吗? 十年前,当咱们想去一个当地却不知路途怎样走的情况下,还会依靠纸质地图。现在可以直接用百度、高德地图随时导航。十几年前并非没有“数据”,也不是没有需求,而是在整个业态里边,没人有才能搜集起来这些数据,“大数据”又从何谈起呢?

我国大数据的两条腿

5分钟GET一场清华大数据讲座实战使用事例干货(大数据 演讲)  GET 大数据 解决 第4张

本质上,大数据技能是以处理事务问题为导向的。国双科技这家公司的文明也是相同以客户为中心,使用“大数据”协助客户去处理事务问题,一同发现新的问题,以此也可以唆使技能进步。

5分钟GET一场清华大数据讲座实战使用事例干货(大数据 演讲)  GET 大数据 解决 第5张

我国的技能商场比较偏使用,各种依据大数据的使用满天飞,可是做底层做结构的公司并不多。另一方面,因为我国互联网用户数量巨大,大数据的使用又在不断产生新的数据。

为了可以用好这么海量的数据,我国的大数据职业需求两方面的人才,榜首类是事务人才,第二类是技能人才。首要,“大数据”需求处理事务问题,事务专家必不可少。其次,相关专业的技能人才所做的的研讨也不可或缺。因而“大数据”这个范畴将会是一个十分广大的作业商场。

大数据处理四类问题

“一切的技能的开展是为了处理事务问题,处理人们的衣食住行等日子问题,使人类社会变得愈加夸姣”。用笼统的方法做个归类的话,根本可以归为四大类:

5分钟GET一场清华大数据讲座实战使用事例干货(大数据 演讲)  GET 大数据 解决 第6张

【描述性剖析】:产生了什么?

【确诊性剖析】:作业产生后,剖析为什么会产生?

【猜测性剖析】:把握规则,猜测下一次什么时分产生?

【剖析使用】:依据现已产生的事来处理实践问题,促进事务的开展。

奥运会上的大数据

在奥运会期间,全球数以亿计的观众会经过例如电视、PC,安卓等多个渠道对竞赛进行观看,这样就产生了跨区域、跨渠道的海量数据。这时,国双经过技能协助CNTV(我国网络电视台)进行“用户播映行为剖析”。比方某个赛事在北京的收视率怎样,各类终端占比是多少。

5分钟GET一场清华大数据讲座实战使用事例干货(大数据 演讲)  GET 大数据 解决 第7张

商用大数据的最低装备

相似奥运会的商用“大数据”体系有哪些有必要满意的功用呢?

5分钟GET一场清华大数据讲座实战使用事例干货(大数据 演讲)  GET 大数据 解决 第8张

榜首,高可用性。体系里的这些组件可能会随时挂掉一个,或许若干个,咱们有必要确保体系还要能正常的作业;

第二,可伸缩性。体系可以经过横向扩容去加机器,去处理数据量增大的问题。

第三,容错性。假如程序出了过错之后,要易于康复;

第四,高功用。要做到实时且快速反应,不能半天才出来成果。

大数据范畴的最根本问题与处理之道

回到上面提到的“在奥运期间,不同的终端,不同的地域,观众终究别离观看了多少次呢?”这个问题,从问题到答案咱们可以看到“大数据”范畴最根本的问题以及处理之道。

5分钟GET一场清华大数据讲座实战使用事例干货(大数据 演讲)  GET 大数据 解决 第9张

咱们要处理事务问题,终究现在的在线人数有多少,终端份额是多少等这些问题的本质便是——查询,能把事务问题处理掉的本质也便是把查询这项功用做好。说起来“查询”二字如同很简略,可是这“大数据”职业里边的查询可并不简略,查询可以由这三类构成,别离是OLAP查询、OLTP查询、实时查询。为了支撑最根本的问题——查询,Storm的作者就提出了Lambda架构,对查询的问题进行了笼统概化,那么这三种查询终究是什么样的呢?接下来就对这三种查询进行简略的学习与介绍。

【OLAP数据仓库】

5分钟GET一场清华大数据讲座实战使用事例干货(大数据 演讲)  GET 大数据 解决 第10张

OLAP的英文是Online AnalyticsProcessing,这种技能是专门用于数据剖析的,它的中心概念是维度和目标,维度便是剖析问题的视点,目标便是一个数字,经过聚合核算的一个数字,经过求均匀、求和,用聚合的方法得到了一个目标。这些维度和目标会组成一个数据立方体,答使用户去进行多个维度的观察这些数据立方体的数字,不同的维度与目标穿插就产生了多维度自在剖析。

【OLTP数据库】

5分钟GET一场清华大数据讲座实战使用事例干货(大数据 演讲)  GET 大数据 解决 第11张

OLTP数据库典型的使用便是用户注册,在数据库里边新增加一条用户的信息,上飞机的时分看一下这个用户有没有买票,进图书馆把书还了等,把还的书从借阅的状况变成未借阅的状况,这很显然是数据的更新、查找,一般不必聚合,这是很典型的OLTP数据库使用。

【实时查询(CEP)】

5分钟GET一场清华大数据讲座实战使用事例干货(大数据 演讲)  GET 大数据 解决 第12张

实时查询望文生义便是要求在很短的延期内,可以对数据做各式各样的预核算,“在奥运期间,不同的终端,不同的地域,观众终究别离观看了多少次呢?”的问题便是典型的使用,它着重的实时,现在这一刻。

5分钟GET一场清华大数据讲座实战使用事例干货(大数据 演讲)  GET 大数据 解决 第13张

在学习和了解了处理事务的这三种查询方法之后,咱们回过头来看CNTV的那个问题,便是做实时的查询,在此根底上使用OLTP及OLAP进行聚合剖析,满意那些没有提到的更为杂乱的功用需求时,这便是Lambda架构在企业大

数据范畴的实践使用。

今日咱们从对“大数据”职业的了解提到大数据技能是以“处理事务”为导向,再到大数据能处理什么问题?处理了CNTV的什么问题?最终使用国双提供给CNTV服务中的一个小问题来实例证明“大数据”里边最根底的问题其实也是最佳的处理之道——查询,怎样查询呢?我将查询分为三种查询,有OLAP、OLTP以及实时查询,跟咱们讲了这些查询的概念,今日跟咱们所讲的Lambda的架构,主要是从一个企业的实践视点来讲,用实践产生的事例让咱们来了解Lambda架构在满意高可用性、容错性、可伸缩性和高功用的情况下,怎样可以经过分层的方法,奇妙的把这些东西揉到一同,去处理事务的问题,期望咱们可以经过我的这次讲演对“大数据”对“Lambda架构”有新的知道,谢谢咱们。

转载请说明出处
知优网 » 5分钟GET一场清华大数据讲座实战使用事例干货(大数据 演讲)

发表评论

您需要后才能发表评论