Bossies 2016：最佳开源大数据东西-开源-知优网

Bossie奖是英文IT网站InfoWorld针对开源软件颁发的年度奖项，根据这些软件对开源界的贡献，以及在业界的影响力评判获奖对象。本次InfoWorld评选出了13款最佳开源大数据工具，Spark、Beam都名列榜单之上。

处理大数据或许会遇到各式各样的问题，现在没有任何东西能够完美地处理这一切——即使是Spark。在本年的 Bossie开源大数据东西中，你会发现最新最好的办法是运用大型集群进行索引、查找、图形处理、流处理、结构化查询、分布式OLAP和机器学习，由于许多处理器和RAM可下降作业量级。

Bossie奖是英文IT网站InfoWorld针对开源软件颁布的年度奖项，依据这些软件对开源界的奉献，以及在业界的影响力评判获奖目标。本次InfoWorld评选出了13款最佳开源大数据东西，Spark、Beam都名列榜单之上。

Spark

Spark是写在Scala中的内存分布式处理结构，在Apache的大数据项目中十分火爆。跟着Spark 2.0版别的发布，它的优势好像在连续。除了SQL句子完成等根底功用，新版别的Spark在功用上也大幅进步。Spark 2.0在DataFrames的根底上进一步完善，比方新的Structured Streaming API 等。这一切改动使Spark程序员的操作更清楚简略，但Structured Streaming 或许会有较大改动。

从RDD的批处理进程转变为无鸿沟的DataFrame概念，Structured Streaming将使某些特定场景的流处理(比方捕获数据改动和方位更新)更简略完成，答应DataFrame自身的窗口时刻序列，而不是进入流管道的新工作，这是Spark流式处理长期以来的痛点，尤其是与Apache Flink和Apache Beam比较，Saprk 2.0总算弥补了这块空白。假如你至今没有学会Spark，你就OUT了。

Beam

Google Beam是Apache的孵化器项目，供给了一种不需求每次改动引擎都重写代码的办法。现在看来，Spark或许是未来的编程模型，但假如不是呢?此外，假如你对一些扩展功用和Google DataFlow功用感兴趣，你能够自己在Beam渠道编写代码并在DataFlow，Spark乃至是Flink上运转。咱们很喜欢即写即运转的主意，但Beam不支撑相似REPL的开发者功用，但未来它将是一款不错的剖析东西。

TensorFlow

TensorFlow是Google针对机器学习提出的开源软件，不管是字符识别，图像识别，自然语言处理仍是其他杂乱的机器学习运用，TensorFlow或许都是你的首选。

TensorFlow是用C++写的，但支撑Python。此外，它最终会呈现出一个十分便利的办法运转分布式代码，优化GPS和CPU的并行代码。这将是下一个大数据东西，未来将会继续进行评论。

Solr

作为Hadoop重量级厂商Hortonworks，Cloudera以及MapR等的挑选，Apache Solr为企业带来可信任的、老练的查找引擎技能。Solr根据Apache Lucene引擎，这两个项目同享于许多社区。你能够在相似Instagram，Zappos，Comcast和DuckDuckGO等企业场景背面发现 Solr的身影。

Solr中的SolrCloud，是运用Apache ZooKeeper创立可弹性、分布式的查找和索引解决方案，而且高度抵挡分布式体系相似脑裂等常见问题。伴跟着牢靠性，SolrCloud的规划可按需改变，而且它满足老练能够处理数十亿文档之间的许多查询恳求。

Elasticsearch

Elasticsearch相同根据Apache Lucene引擎，是针对现在的REST API 和JSON文档概念的开源分布式查找引擎。Elasticsearch集群数据从GB向PB级扩展十分简略，只需求很低的处理开支。

作为ELK仓库的一部分(Elasticsearch，Logastash和Kibana都是由Elasticsearch发明者Elastic发明的)，Elasticsearch现已发现了它作为开源Splunk代替日志剖析的杀手级运用。相似于 Nteflix，Facebook，Microsoft以及Linkedln公司在日志根底架构上会挑选运转大型Elasticsearch集群。此外，ELK仓库正在寻觅其他方向，比方诈骗检测和特定范畴的事务剖析，这将使Elasticsearch在更多企业得到运用。

SlamData

未来对SlamData来说是一场长途旅行。为什么会挑选运用MongoDB作为剖析解决方案呢?或许由于这是一个可操作数据库。可是，正如 SlamData的Jeff Carr所言，它并不张狂。有许多MongoDB方向新的公司和年青的开发者发生，假如你运用MongoDB数据存储，而且需求运转根底的剖析，你要创立整个Hadoop集群或许其他设备陈述吗?SlamData答运用了解的SQL语法来进行JSON数据的嵌套查询，不需求转化或语法改造。

该技能的主要特点之一是它的衔接器。从MongoDB，HBase，Cassandra和Apache的Spark，SlamData同大多数业界规范的外部数据源能够便利的进行整合，并进行数据转化和剖析数据。SlamData有根据SQL的引擎，本质上说和MongoDB相似，但不像MongoDB 有自己的解决方案，SlamData并没有吸纳PostgreSQL的一切数据，并称之为BI衔接。已然核心技能是开源的，我以为能够等待未来有更多公司选用其技能不断完善该范畴产品。

Impala

Apache Impala是针对Hadoop上SQL处理的Cloudera引擎。假如你正在运用Hive，Impala是一种不需求你重复考虑任何工作就能够到达查询功用的简略办法。根据行的分布式大规划并行处理体系，Impala比较于在Spark上组合Hive愈加老练和完全。即使没有太多的调优，Impala 仍是能够进步功用，而且必定比你支付相同尽力运用Tez的作用要好。假如你在HDFS的文件之上需求运用SQL，Impala或许是最好的挑选。

Kylin

假如你正在做N维立方体剖析和现代大数据结构，Kylin很对你的口。假如你从没听说过OLAP多维数据集，不要紧。假如你正在考虑RDBMS中存在一对多联系表，但有一部分需求核算字段，你能够挑选在SQL里进行查询和核算，可是这太缓慢了。当咱们的联系和核算量更多更杂乱时，又该怎么办呢?不是平面的表，把它们幻想成立方体组成的若干块，每一块事前估计价值。你或许有N维或多维数据。Kylin当然不是第一个完成分布式OLAP的，但它是最先进的技能之一，而且现在能够下载并装置在云端。

Kafka

Kafka是十分规范的分布式发布和订阅规范，现在现已用于世界上一些比较大的体系，Kafka的音讯传递愈加牢靠，虽然与之前的体系不同，经过分布式提交日志坚持耐久性。可是，Kafka的分区流处理支撑高速数据加载和许多用户。比较挖苦的是，虽然一切这些功用现已满足让人惊奇了，但Kafka十分简略装置布置，这在大数据和音讯传递规矩里是个破例。

StreamSets

你或许有一些数据需求处理，这些数据或许在文件夹里(比方网络日志)或许正在Kafka上传递，虽然有许多办法能够完成，但运用StreamSets能够在最短的时刻内做你想做的任何工作，它比其他解决方案愈加完好。也有越来越多的健壮的衔接器 (HDFS，Hive，Kafka，Kinesis)，REST API，和GUI来监控数据活动，这也正是他们一直在尽力做的工作。

Titan

直到人们意识到运用图表进行存储十分有用，图形数据库才开端火了起来。一个带着一切附件可插拔式存储的杂乱数据库，本质上是指高度可分配的数据库列族。与其他图形数据库比较，Titan能够扩展。与严厉的图形剖析结构比较，Titan能够供给更好的功用，比较于Giraph，不需求运用内存资源或许时刻重构图形，相当于GiraphX，更不用说潜在的优异的数据完好性特征。

Zeppelin

不管你是一个只想要漂亮图形的开发者，仍是想成为数据科学家，Zeppelin或许都合适你，它运用似曾相识的相似于IPython的笔记本概念，答应经过写符号，嵌入式代码，履行代码，它存在于Spark或其他引擎中，经过生成文本，表格或许图表方式输出。Zeppelin依然缺少一些特性和多功用DataBrick，但它正在稳步前进。假如你运用Spark，Zeppelin就存在于东西包中。