Apache CarbonData是一种新的高性能数据存储格式,针对当前大数据领域分析场景需求各异而导致的存储冗余问题,CarbonData提供了一种新的融合数据存储方案,以一份数据同时支持“任意维度组合的过滤查询、快速扫描、详单查询等”多种应用场景,并通过多级索引、字典编码、列存等特性提升了IO扫描和计算性能,实现百亿数据级秒级响应。CarbonData是由华为开源贡献到Apache基金会的大数据项目,致力于推动大数据开源生态技术的发展。

Apache CarbonData是一种新的高功能数据存储格局,针对当时大数据范畴剖析场景需求各异而导致的存储冗余问题,CarbonData供给了一种新的交融数据存储计划,以一份数据一起支撑“恣意维度组合的过滤查询、快速扫描、详单查询等”多种运用场景,并经过多级索引、字典编码、列存等特性提高了IO扫描和核算功能,完成百亿数据级秒级呼应。CarbonData是由华为开源奉献到Apache基金会的大数据项目,致力于推进大数据开源生态技能的开展。

Apache CarbonData:大数据生态一种新的高性能数据格式  CarbonData 数据存储 大数据 第1张

跟着数据日积月累,事务驱动下的数据剖析灵敏性要求越来越高,不同场景的数据分事务体系而构建,导致冗余严峻,缺少高效、一致的交融数仓,阻止企业快速转型。

企业典型的诉求总结如下:

  • ***,数据一致存储:为了节省本钱,企业期望一份数据支撑多种运用场景;削减数据孤岛和冗余,经过数据同享发生更大价值。
  • 第二,高效:数据剖析要求越来越高效、实时。
  • 第三,易集成:供给规范接口,新的大数据计划与企业已收购的东西和IT体系要能无缝集成,支撑老事务快速搬迁。
  • 第四,大集群:差异于以往的单机体系,企业客户期望新的大数据计划能应对日益增多的数据,随时能够经过添加资源的方法横向扩展,无极扩容。
  • 第五,敞开生态:经过开源敞开,让更多的客户和合作伙伴的数据衔接在一起,发挥更大的价值。

华为针对上述典型诉求,从2013年开端调研剖析业界大数据计划,发现每种技能都只能处理某种场景的诉求,不能一起满意上述的一切诉求,如:并行数据库技能不能有用与Hadoop生态集成,数据不能一致同享存储;查找类技能提高了功能,可是数据胀大很大,不支撑规范SQL、不能兼容老的事务,这促进了华为着手开发CarbonData项目。整个大数据年代的敞开,能够说是源自于Google的MapReduce论文,他引发了Hadoop开源项目以及后续一系列的生态开展。他的“巨大”之处在于核算和存储解耦的架构,使企业的部分事务(主要是批处理)从传统的笔直计划中解放出来,核算和存储能够按需扩展极大提高了事务开展的敏捷性,让很多企业遍及了这一核算形式,从中获益。CarbonData学习了这一理念,存储和核算逻辑上别离,经过索引技能让存储和核算物理上更挨近,提高CPU和IO功率,完成超高功能的大数据剖析:

列式存储:高效的列式数据安排,差异于行存,能够完成列裁剪和过滤下压,使OLAP查询功能更高。一起,CarbonData针对明细数据查询完成了深度优化,在需求回来一切列的场景下功能优于其他列存计划。

丰厚的索引支撑:支撑大局多维索引、文件索引、Min/Max、倒排索引等多种索引技能,从表级,文件级,列级等多个层级逐级快速定位数据,防止SQL-on-Hadoop引擎常见的“暴力扫描“,然后大幅提高功能,完成十年数据秒级呼应, 三百维字段恣意组合查询。

大局字典编码:除了常见的Delta、RLE、BitPacking等编码外,CarbonData运用了大局字典编码来完成免解码的核算,核算结构能够直接运用经过编码的数据来做聚合,排序等核算,这对需求做跨节点数据交换的事务来说功能提高十分显着(3倍以上)。

自适应类型转化:CarbonData针对剖析型运用中很多运用的数值类型(Double/Decimal/Numeric/BigInt)完成存储内数据类型转化,合作列式数据紧缩,使得紧缩十分高效,数据紧缩率根据运用场景不同一般紧缩比在2到8之间。

规范SQL和API:在SparkSQL基础上,支撑规范SQL99/2003;支撑数据批量更新、删去,适用于OLAP场景下数据的周期性改写,例如拉链表更新、维表数据同步。供给JDBC/ODBC衔接,支撑与BI东西无缝对接;兼容Spark DataFrame/DataSet,支撑杂乱剖析运用。

数据生态集成:支撑与Hadoop、Spark等大数据生态体系集成,支撑和商业BI东西无缝对接。既满意传统数仓、数据集市、BI运用要求,也供给大数据生态丰厚多样的API支撑,掩盖从GB级到EB级运用。

开源敞开: CarbonData于2016年6月3日全票经过进入大数据范畴全球***的开源社区Apache,半年时间里,Apache社区代码奉献者超越60人。现在特性奉献来自于华为、Intel、Talend、Ebay、Inmobi、Knoldus、阿里、美团、乐视、滴滴等公司资深架构师和开发人员。

Apache CarbonData致力于推进大数据开源技能的持续开展,以一份数据一起满意多种事务场景诉求,打造高效、敞开、完好生态的大数据新交融数仓。欢迎我们参加到社区建造:

现在现已发布了三个Apache稳定本:http://mirrors.cnnic.cn/apache/incubator/CarbonData/

Code: https://github.com/apache/incubator-carbondata or https://git.oschina.net/huawei_esdk/incubator-carbondata

JIRA: https://issues.apache.org/jira/browse/CARBONDATA

Mailinglist: dev@carbondata.incubator.apache.org

Cwiki: https://cwiki.apache.org/confluence/display/CARBONDATA/CarbonData+Home

主页(完善中): http://carbondata.apache.org

转载请说明出处
知优网 » Apache CarbonData:大数据生态一种新的高性能数据格式

发表评论

您需要后才能发表评论