众所周知,大数据正在以惊人的速度增长,几乎触及各行各业,许多组织都被迫寻找新的创造性方法来管理和控制如此庞大的数据,当然这么做的目的不只是管理和控制数据,而是要分析和挖掘其中的价值,来促进业务的发展。

众所周知,大数据正在以惊人的速度增加,简直触及各行各业,许多安排都被逼寻觅新的创造性方法来办理和操控如此巨大的数据,当然这么做的意图不只是办理和操控数据,而是要剖析和发掘其间的价值,来促进事务的开展。

想要深化开展大数据,凭空捏造是不可能的,共通共融是现在趋势,因而,开源让越来越多的项目可以直接选用大数据技能。现在,从小型草创企业到职业巨子,各种规划的供货商都在运用开源来处理大数据和运转猜测剖析。凭借开源与云计算技能,新式公司甚至在许多方面都可以与大厂商抗衡。

大数据范畴开源技能 除了Hadoop你还知道哪些(hadoop大数据有哪两大核心技术)  hadoop 大数据领域 第1张

开源大数据的优势显而易见,但在许多的开源东西中该怎么挑选?本文中大数据范畴的十个巨子,将有助于你更深化把握大数据这个职业的开展局势。

Hadoop——高效、牢靠、可弹性,可以为你的数据存储项目供给所需的YARN、HDFS和根底架构,而且运转首要的大数据服务和应用程序。

大数据范畴开源技能 除了Hadoop你还知道哪些(hadoop大数据有哪两大核心技术)  hadoop 大数据领域 第2张

Spark——运用简略、支撑一切重要的大数据言语(Scala、Python、Java、R)。具有强壮的生态体系,生长敏捷,对 microbatching/batching/SQL支撑简略。Spark能更好地适用于数据发掘与机器学习等需求迭代的MapReduce的算法。

大数据范畴开源技能 除了Hadoop你还知道哪些(hadoop大数据有哪两大核心技术)  hadoop 大数据领域 第3张

NiFi——Apache NiFi是由美国国家安全局(NSA)贡献给Apache基金会的开源项目,其规划方针是自动化体系间的数据流。根据其作业流式的编程理念,NiFi十分易于运用、强壮、牢靠、高可装备。两个最重要的特性是其强壮的用户界面和杰出的数据回溯东西。可谓大数据东西箱里的瑞士军刀。

大数据范畴开源技能 除了Hadoop你还知道哪些(hadoop大数据有哪两大核心技术)  hadoop 大数据领域 第4张

Apache Hive 2.1——Hive是建立在 Hadoop 上的数据仓库根底构架。它供给了一系列的东西,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和剖析存储在 Hadoop 中的大规划数据的机制。跟着最新版别的发布,功用和功用都得到了全面提高,Hive已成为SQL在大数据上的最佳解决方案。

大数据范畴开源技能 除了Hadoop你还知道哪些(hadoop大数据有哪两大核心技术)  hadoop 大数据领域 第5张

Kafka——Kafka是一种高吞吐量的分布式发布订阅音讯体系,它可以处理顾客规划网站中的一切动作流数据。它已成为大数据体系在异步和分布式音讯之间的最佳挑选。从Spark到NiFi再到第三方插件东西以至于Java到Scala,它都供给了强壮的粘合效果。

Phoenix—是HBase的SQL驱动。现在许多的公司选用它,并扩展其规划。HDFS支撑的NoSQL可以很好地集成一切东西。Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编列履行以生成规范的JDBC成果集。

大数据范畴开源技能 除了Hadoop你还知道哪些(hadoop大数据有哪两大核心技术)  hadoop 大数据领域 第6张

Zeppelin——Zeppelin 是一个供给交互数据剖析且根据Web的笔记本。便利你做出可数据驱动的、可交互且可协作的精巧文档,而且支撑多种言语,包含 Scala(运用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等。

Sparkling Water——H2O填补了Spark’s Machine Learning的缺口,它可以满意你一切的机器学习。

大数据范畴开源技能 除了Hadoop你还知道哪些(hadoop大数据有哪两大核心技术)  hadoop 大数据领域 第7张

Apache Beam——在Java中供给一致的数据进程管道开发,而且可以很好地支撑Spark和Flink。供给许多在线结构,开发者无需学习太多结构。

Stanford CoreNLP——自然言语处理具有巨大的增加空间,斯坦福正在尽力增进他们的结构。

转载请说明出处
知优网 » 大数据范畴开源技能 除了Hadoop你还知道哪些(hadoop大数据有哪两大核心技术)

发表评论

您需要后才能发表评论