Apache CarbonData:大数据生态一种新的高性能数据格式-大数据-知优网

Apache CarbonData是一种新的高性能数据存储格式，针对当前大数据领域分析场景需求各异而导致的存储冗余问题，CarbonData提供了一种新的融合数据存储方案，以一份数据同时支持“任意维度组合的过滤查询、快速扫描、详单查询等”多种应用场景，并通过多级索引、字典编码、列存等特性提升了IO扫描和计算性能，实现百亿数据级秒级响应。CarbonData是由华为开源贡献到Apache基金会的大数据项目，致力于推动大数据开源生态技术的发展。

Apache CarbonData是一种新的高功能数据存储格局，针对当时大数据范畴剖析场景需求各异而导致的存储冗余问题，CarbonData供给了一种新的交融数据存储计划，以一份数据一起支撑“恣意维度组合的过滤查询、快速扫描、详单查询等”多种运用场景，并经过多级索引、字典编码、列存等特性提高了IO扫描和核算功能，完成百亿数据级秒级呼应。CarbonData是由华为开源奉献到Apache基金会的大数据项目，致力于推进大数据开源生态技能的开展。

跟着数据日积月累，事务驱动下的数据剖析灵敏性要求越来越高，不同场景的数据分事务体系而构建，导致冗余严峻，缺少高效、一致的交融数仓，阻止企业快速转型。

企业典型的诉求总结如下：

***,数据一致存储：为了节省本钱，企业期望一份数据支撑多种运用场景;削减数据孤岛和冗余，经过数据同享发生更大价值。
第二,高效：数据剖析要求越来越高效、实时。
第三,易集成：供给规范接口，新的大数据计划与企业已收购的东西和IT体系要能无缝集成，支撑老事务快速搬迁。
第四,大集群：差异于以往的单机体系，企业客户期望新的大数据计划能应对日益增多的数据，随时能够经过添加资源的方法横向扩展，无极扩容。
第五,敞开生态：经过开源敞开，让更多的客户和合作伙伴的数据衔接在一起，发挥更大的价值。

华为针对上述典型诉求，从2013年开端调研剖析业界大数据计划，发现每种技能都只能处理某种场景的诉求，不能一起满意上述的一切诉求，如：并行数据库技能不能有用与Hadoop生态集成，数据不能一致同享存储;查找类技能提高了功能，可是数据胀大很大，不支撑规范SQL、不能兼容老的事务，这促进了华为着手开发CarbonData项目。整个大数据年代的敞开，能够说是源自于Google的MapReduce论文，他引发了Hadoop开源项目以及后续一系列的生态开展。他的“巨大”之处在于核算和存储解耦的架构，使企业的部分事务(主要是批处理)从传统的笔直计划中解放出来，核算和存储能够按需扩展极大提高了事务开展的敏捷性，让很多企业遍及了这一核算形式，从中获益。CarbonData学习了这一理念，存储和核算逻辑上别离，经过索引技能让存储和核算物理上更挨近，提高CPU和IO功率，完成超高功能的大数据剖析：

列式存储：高效的列式数据安排，差异于行存，能够完成列裁剪和过滤下压，使OLAP查询功能更高。一起，CarbonData针对明细数据查询完成了深度优化，在需求回来一切列的场景下功能优于其他列存计划。

丰厚的索引支撑：支撑大局多维索引、文件索引、Min/Max、倒排索引等多种索引技能，从表级，文件级，列级等多个层级逐级快速定位数据，防止SQL-on-Hadoop引擎常见的“暴力扫描“，然后大幅提高功能，完成十年数据秒级呼应，三百维字段恣意组合查询。

大局字典编码：除了常见的Delta、RLE、BitPacking等编码外，CarbonData运用了大局字典编码来完成免解码的核算，核算结构能够直接运用经过编码的数据来做聚合，排序等核算，这对需求做跨节点数据交换的事务来说功能提高十分显着(3倍以上)。

自适应类型转化：CarbonData针对剖析型运用中很多运用的数值类型(Double/Decimal/Numeric/BigInt)完成存储内数据类型转化，合作列式数据紧缩，使得紧缩十分高效，数据紧缩率根据运用场景不同一般紧缩比在2到8之间。

规范SQL和API：在SparkSQL基础上，支撑规范SQL99/2003;支撑数据批量更新、删去，适用于OLAP场景下数据的周期性改写，例如拉链表更新、维表数据同步。供给JDBC/ODBC衔接，支撑与BI东西无缝对接;兼容Spark DataFrame/DataSet，支撑杂乱剖析运用。

数据生态集成：支撑与Hadoop、Spark等大数据生态体系集成，支撑和商业BI东西无缝对接。既满意传统数仓、数据集市、BI运用要求，也供给大数据生态丰厚多样的API支撑，掩盖从GB级到EB级运用。

开源敞开： CarbonData于2016年6月3日全票经过进入大数据范畴全球***的开源社区Apache，半年时间里，Apache社区代码奉献者超越60人。现在特性奉献来自于华为、Intel、Talend、Ebay、Inmobi、Knoldus、阿里、美团、乐视、滴滴等公司资深架构师和开发人员。

Apache CarbonData致力于推进大数据开源技能的持续开展，以一份数据一起满意多种事务场景诉求，打造高效、敞开、完好生态的大数据新交融数仓。欢迎我们参加到社区建造：

现在现已发布了三个Apache稳定本：http://mirrors.cnnic.cn/apache/incubator/CarbonData/

Code： https://github.com/apache/incubator-carbondata or https://git.oschina.net/huawei_esdk/incubator-carbondata

JIRA： https://issues.apache.org/jira/browse/CARBONDATA

Mailinglist: dev@carbondata.incubator.apache.org