Bossie奖是英文IT网站InfoWorld针对开源软件颁发的年度奖项,根据这些软件对开源界的贡献,以及在业界的影响力评判获奖对象。本次InfoWorld评选出了13款最佳开源大数据工具,Spark、Beam都名列榜单之上。

处理大数据或许会遇到各式各样的问题,现在没有任何东西能够完美地处理这一切——即使是Spark。在本年的 Bossie开源大数据东西中,你会发现最新最好的办法是运用大型集群进行索引、查找、图形处理、流处理、结构化查询、分布式OLAP和机器学习,由于许多处理器和RAM可下降作业量级。

Bossies 2016:最佳开源大数据东西  Spark TensorFlow Solr 第1张

Bossie奖是英文IT网站InfoWorld针对开源软件颁布的年度奖项,依据这些软件对开源界的奉献,以及在业界的影响力评判获奖目标。本次InfoWorld评选出了13款最佳开源大数据东西,Spark、Beam都名列榜单之上。

Spark

Spark是写在Scala中的内存分布式处理结构,在Apache的大数据项目中十分火爆。跟着Spark 2.0版别的发布,它的优势好像在连续。除了SQL句子完成等根底功用,新版别的Spark在功用上也大幅进步。Spark 2.0在DataFrames的根底上进一步完善,比方新的Structured Streaming API 等。这一切改动使Spark程序员的操作更清楚简略,但Structured Streaming 或许会有较大改动。

从RDD的批处理进程转变为无鸿沟的DataFrame概念,Structured Streaming将使某些特定场景的流处理(比方捕获数据改动和方位更新)更简略完成,答应DataFrame自身的窗口时刻序列,而不是进入流管道的新工作,这是Spark流式处理长期以来的痛点,尤其是与Apache Flink和Apache Beam比较,Saprk 2.0总算弥补了这块空白。假如你至今没有学会Spark,你就OUT了。

Beam

Google Beam是Apache的孵化器项目,供给了一种不需求每次改动引擎都重写代码的办法。现在看来,Spark或许是未来的编程模型,但假如不是呢?此外,假如你对一些扩展功用和Google DataFlow功用感兴趣,你能够自己在Beam渠道编写代码并在DataFlow,Spark乃至是Flink上运转。咱们很喜欢即写即运转的主意,但Beam不支撑相似REPL的开发者功用,但未来它将是一款不错的剖析东西。

TensorFlow

TensorFlow是Google针对机器学习提出的开源软件,不管是字符识别,图像识别,自然语言处理仍是其他杂乱的机器学习运用,TensorFlow或许都是你的首选。

TensorFlow是用C++写的,但支撑Python。此外,它最终会呈现出一个十分便利的办法运转分布式代码,优化GPS和CPU的并行代码。这将是下一个大数据东西,未来将会继续进行评论。

Solr

作为Hadoop重量级厂商Hortonworks,Cloudera以及MapR等的挑选,Apache Solr为企业带来可信任的、老练的查找引擎技能。Solr根据Apache Lucene引擎,这两个项目同享于许多社区。你能够在相似Instagram,Zappos,Comcast和DuckDuckGO等企业场景背面发现 Solr的身影。

Solr中的SolrCloud,是运用Apache ZooKeeper创立可弹性、分布式的查找和索引解决方案,而且高度抵挡分布式体系相似脑裂等常见问题。伴跟着牢靠性,SolrCloud的规划可按需改变,而且它满足老练能够处理数十亿文档之间的许多查询恳求。

Elasticsearch

Elasticsearch相同根据Apache Lucene引擎,是针对现在的REST API 和JSON文档概念的开源分布式查找引擎。Elasticsearch集群数据从GB向PB级扩展十分简略,只需求很低的处理开支。

作为ELK仓库的一部分(Elasticsearch,Logastash和Kibana都是由Elasticsearch发明者Elastic发明的),Elasticsearch现已发现了它作为开源Splunk代替日志剖析的杀手级运用。相似于 Nteflix,Facebook,Microsoft以及Linkedln公司在日志根底架构上会挑选运转大型Elasticsearch集群。此外,ELK仓库正在寻觅其他方向,比方诈骗检测和特定范畴的事务剖析,这将使Elasticsearch在更多企业得到运用。

SlamData

未来对SlamData来说是一场长途旅行。为什么会挑选运用MongoDB作为剖析解决方案呢?或许由于这是一个可操作数据库。可是,正如 SlamData的Jeff Carr所言,它并不张狂。有许多MongoDB方向新的公司和年青的开发者发生,假如你运用MongoDB数据存储,而且需求运转根底的剖析,你要创立整个Hadoop集群或许其他设备陈述吗?SlamData答运用了解的SQL语法来进行JSON数据的嵌套查询,不需求转化或语法改造。

该技能的主要特点之一是它的衔接器。从MongoDB,HBase,Cassandra和Apache的Spark,SlamData同大多数业界规范的外部数据源能够便利的进行整合,并进行数据转化和剖析数据。SlamData有根据SQL的引擎,本质上说和MongoDB相似,但不像MongoDB 有自己的解决方案,SlamData并没有吸纳PostgreSQL的一切数据,并称之为BI衔接。已然核心技能是开源的,我以为能够等待未来有更多公司选用其技能不断完善该范畴产品。

Impala

Apache Impala是针对Hadoop上SQL处理的Cloudera引擎。假如你正在运用Hive,Impala是一种不需求你重复考虑任何工作就能够到达查询功用的简略办法。根据行的分布式大规划并行处理体系,Impala比较于在Spark上组合Hive愈加老练和完全。即使没有太多的调优,Impala 仍是能够进步功用,而且必定比你支付相同尽力运用Tez的作用要好。假如你在HDFS的文件之上需求运用SQL,Impala或许是最好的挑选。

Kylin

假如你正在做N维立方体剖析和现代大数据结构,Kylin很对你的口。假如你从没听说过OLAP多维数据集,不要紧。假如你正在考虑RDBMS中存在一对多联系表,但有一部分需求核算字段,你能够挑选在SQL里进行查询和核算,可是这太缓慢了。当咱们的联系和核算量更多更杂乱时,又该怎么办呢?不是平面的表,把它们幻想成立方体组成的若干块,每一块事前估计价值。你或许有N维或多维数据。Kylin当然不是第一个完成分布式OLAP的,但它是最先进的技能之一,而且现在能够下载并装置在云端。

Kafka

Kafka是十分规范的分布式发布和订阅规范,现在现已用于世界上一些比较大的体系,Kafka的音讯传递愈加牢靠,虽然与之前的体系不同,经过分布式提交日志坚持耐久性。可是,Kafka的分区流处理支撑高速数据加载和许多用户。比较挖苦的是,虽然一切这些功用现已满足让人惊奇了,但Kafka十分简略装置布置,这在大数据和音讯传递规矩里是个破例。

StreamSets

你或许有一些数据需求处理,这些数据或许在文件夹里(比方网络日志)或许正在Kafka上传递,虽然有许多办法能够完成,但运用StreamSets能够在最短的时刻内做你想做的任何工作,它比其他解决方案愈加完好。也有越来越多的健壮的衔接器 (HDFS,Hive,Kafka,Kinesis),REST API,和GUI来监控数据活动,这也正是他们一直在尽力做的工作。

Titan

直到人们意识到运用图表进行存储十分有用,图形数据库才开端火了起来。一个带着一切附件可插拔式存储的杂乱数据库,本质上是指高度可分配的数据库列族。与其他图形数据库比较,Titan能够扩展。与严厉的图形剖析结构比较,Titan能够供给更好的功用,比较于Giraph,不需求运用内存资源或许时刻重构图形,相当于GiraphX,更不用说潜在的优异的数据完好性特征。

Zeppelin

不管你是一个只想要漂亮图形的开发者,仍是想成为数据科学家,Zeppelin或许都合适你,它运用似曾相识的相似于IPython的笔记本概念,答应经过写符号,嵌入式代码,履行代码,它存在于Spark或其他引擎中,经过生成文本,表格或许图表方式输出。Zeppelin依然缺少一些特性和多功用DataBrick,但它正在稳步前进。假如你运用Spark,Zeppelin就存在于东西包中。

转载请说明出处
知优网 » Bossies 2016:最佳开源大数据东西

发表评论

您需要后才能发表评论