云海大数据一体机就是采用了业内主流的Hadoop+Spark的架构形式,搭建了国内外领先的大数据分析平台CloudCanyon,通过Spark计算框架消除了传统Map/Reduce计算框架的弊病,实现了高效的内存计算。Hadoop经过多年的发展,大家对其性能已经是耳熟能详;但是对于Spark,许许多人还觉得有些陌生。

说起Spark,了解大数据架构的人必定不会生疏,它已是继Hadoop之后最活泼的开源项目之一。作为发源于美国加州大学伯克利分校AMPLab的集群核算渠道,Spark立足于内存核算,并以多迭代批量处理动身,兼收并蓄数据仓库、流处理和图核算等多种核算方式得到了职业的必定。作为国内IT职业领军厂商,浪潮早在2012年就推出了选用Hadoop+Spark架构的大数据一体机,现在这款产品现已运用于金融、电信、公安、交通、卫生等各个职业范畴,成为用户大数据剖析处理渠道的抱负之选。

Hadoop+Spark的数据架构方式

据了解,云海大数据一体机便是选用了业界干流的Hadoop+Spark的架构方式,搭建了国内外抢先的大数据剖析渠道CloudCanyon,经过Spark核算结构消除了传统Map/Reduce核算结构的弊端,完成了高效的内存核算。Hadoop经过多年的开展,咱们对其功用现已是耳熟能详;可是关于Spark,许许多人还觉得有些生疏。

Spark“变形记”——云海大数据一体机让数据处理更轻松(spark大数据处理技术 pdf)  云海 大数据 一体机 第1张

其实在架构上Spark的优势更为显着——Spark是一个灵敏的核算结构,适合做批处理、工作流、交互式剖析、迭代式机器学习、流处理等不同类型的运用,因而Spark可以成为一个用处广泛的核算引擎,并在未来代替Map/Reduce的位置。与此一起,Spark还可以与Hadoop生态系统的许多组件互操作,可以运作在新一代资源办理结构YARN上,它还可以读取已有的存放在Hadoop上的数据,这是个非常大的优势。

经过杂乱的系统调优和的改善,浪潮云海大数据一体机具有高功用、稳定性好、功用丰厚、易办理等特征,选用不同的数据处理的架构来供给对不同职业运用的支撑。经过新式的数据处理架构,完成了核算随数据散布的数据本地化,确保了事务的连续性,即便三到四千个核算单元重载节点情况下,还可以完成相对比较好的扩展性。

浪潮云海大数据一体机的功用优势

Spark优化后功用可比原生快数倍

Spark“变形记”——云海大数据一体机让数据处理更轻松(spark大数据处理技术 pdf)  云海 大数据 一体机 第2张

从技能视点来说,浪潮云海大数据一体机支撑高功用Apache Spark作为缺省履行引擎,可比原生的Hadoop Map/Reduce快;其次,经过树立独立与Spark的散布式列存缓存层,可以有用避免GC的影响,消除Spark的功用动摇,一起在列式缓存上完成索引机制,进一步进步了履行功用;再次,在SQL履行计划优化方面,完成了根据价值的优化器(Cost based optimizer)以及多种优化战略,功用可比原生Spark快数倍;***经过全新的办法处理数据歪斜或许数据量过大的问题,使得处理超大数据量时也挥洒自如。

3大语法完成SQL支撑

浪潮云海大数据一体机支撑SQL99语法及PL/SQL进程言语扩展,而且可以自动识别HiveQL、SQL99和PL/SQL语法,在坚持跟Hive兼容的一起供给更强壮的SQL支撑。因为现有的数据仓库大都根据SQL99,而且国内客户很多运用PL/SQL,因而浪潮云海大数据一体机可以支撑杂乱的数据仓库类的剖析运用,也使得原有数据库系统迁移到Hadoop更为简单。

根据R的数据发掘和机器学习

浪潮云海大数据一体机包含了专业用于数据发掘的R言语履行引擎,而且扩展了R言语,支撑多种散布式数据发掘算法,包含统核算法和机器学习算法;也支撑在R中调用SQL句子,经过Spark拜访散布式内存数据。这些功用使得用户可以真实的在全量数据上进行机器学习或数据发掘,而再也不必运用采样的办法,精准度得到很大进步。

Spark“变形记”——云海大数据一体机让数据处理更轻松(spark大数据处理技术 pdf)  云海 大数据 一体机 第3张

数据处理性价比提高10倍

浪潮云海大数据一体机支撑混合存储系统(内存/闪存/磁盘),散布式列存储可以存放在速度较快的闪存SSD上或许更快的内存中。经过实践测验发现,大数据一体机中选用SSD代替大容量贵重的内存作为缓存,功用没有显着的下降,因而可以用相同的价格买到容量大10倍的SSD作为缓存,供给了极高的数据处理性价比。

浪潮云海大数据一体机集成了核算单元、存储单元、通讯单元、办理单元等中心模块,可以掩盖数据的存储、处理、展示等一切技能环节。正如浪潮集团高档副总裁王恩东所描绘的那样:“云海大数据一体机正是顺应时代要求推出的,选用新式系统架构的软件一体化的产品。经过浪潮集团一体化的产品、服务,协助用户快速完成对大数据的运用与开发,一起咱们也期望以此为起点,增强工业链的运用,一起发掘并充沛开释我国大数据的潜能,将我国的大数据工业做大做强。”

转载请说明出处
知优网 » Spark“变形记”——云海大数据一体机让数据处理更轻松(spark大数据处理技术 pdf)

发表评论

您需要后才能发表评论