物联网带来了众多传感器及其他设备,它们在生成源源不断的数据流,而物联网只是推动市场需要新型分析工具的重大趋势之一。我们需要全面完善数据分析生态系统的新工具。值得注意的是,许多这些工具是为了处理流数据而定制的。本文将探讨三种新兴的数据分析工具。

Apache Spark不是仅有,快来了解三种新式的开源数据剖析东西(Apache spark)  Spark 开源 工具 第1张

【51CTO.com快译】这些数据剖析项目大行其道:Apache Grappa、Apache Drill和Apache Kafka。

在数据剖析方面,影响深远的改变正在酝酿之中,而开源东西在***许多改变。当然,你或许已了解这个范畴的一些明星开源项目,比方Hadoop和Apache Spark,不过现在呈现了激烈的要求,需求全面完善数据剖析生态体系的新东西。值得注意的是,许多这些东西是为了处理流数据而定制的。

物联网带来了很多传感器及其他设备,它们在生成连绵不断的数据流,而物联网仅仅推进市场需求新式剖析东西的严重趋势之一。比方需求流数据剖析东西来改进药物发现,美国宇航局和查找外星文明研讨所(SETI)乃至在展开协作,剖析数TB杂乱的外太空无线电信号流。

尽管Apache Spark在数据剖析范畴抢走了许多风头,那是由于IBM及其他公司在这方面投入了数十亿美元的研制资金,但几个藉藉无名的开源项目也在敏捷兴起。下面是值得讨论的三种新式的数据剖析东西。

1.Grappa

大大小小的企业安排正在致力于研讨从数据流提取名贵信息的新办法,其间许多在处理集群上生成的数据,而且在日益处理商用硬件上生成的数据。这样一来,本钱合理的、以数据为中心的办法受到了注重,这种办法能够改进MapReduce、乃至Spark等东西的功用和功用。Grappa开源项目这时候闪亮上台了,它能够在大众化集群上扩展数据密集型应用程序,而且供给了一种新式的笼统机制,比经典的分布式同享内存(DSM)体系更胜一筹。

Apache Spark不是仅有,快来了解三种新式的开源数据剖析东西(Apache spark)  Spark 开源 工具 第2张

你能够在此取得Grappa的源代码,并找到关于它的更多信息。Grappa的来源是这样的:一群在克雷(Cray)体系上运转大数据使命方面有着丰厚经历的工程师想,是不是能够与克雷体系在现成商用硬件上能够完结的剖析功用一较高下。

正如开发人员特别指出:“Grappa在满足高档的层面供给了笼统,因此包含数据密集型渠道所常见的许多功用优化。但是,其相对初级的接口又供给了一种便利的笼统,以便在此基础上构建数据密集型结构。(简化版)MapReduce、GraphLab和联系查询引擎的原型完结就建立在Grappa的基础上,它们的功用比原有体系更胜一筹。”

选用BSD许可证的Grappa在GitHub上能够免费获取。假如你有爱好看看Grappa是怎样实践运转的,能够在应用程序的README文件中遵循通俗易懂的快速发动阐明,构建Grappa应用程序,并在集群上运转。想了解怎么编写自己的Grappa应用程序,无妨阅览这个教程。

2.Apache Drill

Apache Drill项目在大数据范畴带来了严重的影响,以至于MapR等公司乃至把它归入到其Hadoop发行版中。它是Apache的一个***项目,与Apache Spark一起应用于许多流数据场景。

Apache Spark不是仅有,快来了解三种新式的开源数据剖析东西(Apache spark)  Spark 开源 工具 第3张

比方说,在本年1月份举行的纽约Apache Drill大会上,MapR的体系工程师展现了Apache Spark和Drill怎么能够协同用于触及数据包捕获和近实时查询及查找的一种运用场合下。

Drill在流数据应用程序中之所以如此闻名,是由于它是一种分布式、无形式(schema-free)的SQL引擎。开发运维和IT人员能够运用Drill,以交互方法探究Hadoop及其他NoSQL数据库(比方HBase和MongoDB)中的数据。不需求清晰界说和保护形式,由于Drill能够主动充分利用嵌入到数据中的结构。它能够在操作员之间的内存中流式传输数据,而且尽量削减运用完结查询所需的磁盘。

3.Apache Kafka

Apache Kafka项目已凭仗实时数据盯梢功用俨然成为一颗明星。它供给了处理实时数据的功用,具有一致、高吞吐量、低推迟等长处。Confluent及其他安排还开发了自界说东西,以便Kafka与数据流结合运用。

Apache Spark不是仅有,快来了解三种新式的开源数据剖析东西(Apache spark)  Spark 开源 工具 第4张

Apache Kafka开始由LinkedIn开发,后来在2011年年初开放了源代码。它是一种通过加固和测验的东西,许多企业安排要求职工具有Kafka方面的常识。运用Kafka的闻名公司包含思科、网飞、贝宝、优步和Spotify。

LinkedIn最初开发Kafka的那些工程师还成立了Confluent,它专心于Kafka。Confluent大学为Kafka开发人员以及操作员/管理员供给训练课程。现场课程和揭露课程都有供给。

你是否对比较藉藉无名、但敏捷兴起的开源数据剖析项目有爱好?假如是这样,你能够在我最近编撰的关于这个论题的一篇文章(https://www.linux.com/news/rise-six-unsung-Apache-big-data-projects)中找到更多此类项目。

原文标题:3 Emerging Open Source Data Analytics Tools Beyond Apache Spark,作者:SAM DEAN

【51CTO译稿,协作站点转载请注明原文译者和出处为51CTO.com】

转载请说明出处
知优网 » Apache Spark不是仅有,快来了解三种新式的开源数据剖析东西(Apache spark)

发表评论

您需要后才能发表评论