从高成本数据仓库将任务卸载有时被看做是Hadoop商用集群的首要目标。迁移提取、转换、加载(ETL)、查询以及报告工作并不能显著改变商业模式,但它可能会抑制数据仓库的增长和成本。

Hadoop东西引发的改动和提高:让数据仓库搬迁更轻松(hadoop数据迁移)  Hadoop 数据 仓库 第1张

从高本钱数据仓库将使命卸载有时被看做是Hadoop商用集群的首要方针。搬迁提取、转化、加载(ETL)、查询以及陈述作业并不能明显改动商业模式,但它可能会按捺数据仓库的增加和本钱。

可是,即使进入Hadoop年代现已有些年初了,将使命搬迁至分布式渠道并非易事。可以找出哪些使命在不给很多开发人员带来费事的情况下进行搬迁,有助于数据管理人员做出***挑选。

一款来自Cloudera公司的Hadoop东西Navigator Optimizer可能是个不错的挑选。它源于该公司在2015年收买的Xplain.io,这家公司企图将某些与SQL相似的数据库优化功用引进Hadoop。该产品于今夏开端正式供给。

“该东西可以让人们检查那些正在其他渠道上运转的查询,并可以检查它们将会如安在咱们的Hadoop环境中体现,” Conversant的一名软件工程司理Peter Wojciechowski说,而Conversant是一家数字营销公司,它经过对很多数据的处理来出现个性化的广告。

Conversant在查询中的体现

Conversant开始是将Hadoop用作数据的***着陆点,之后经过Pivotal Greenplum数据仓库进行处理以用于剖析。团队运用Navigator现已可以将某些使命搬迁至Hadoop和Apache Hive数据仓库以及Impala SQL查询环境。

“现在,中心的ETL和某些大型处理作业是在一个Hadoop集群上进行的,”Wojciechowski说,高度迭代的处理作业关于Hadoop来说是不错的方针,但Greenplum并未被替代。在他的公司里,Greenplum仍担任着重要的剖析职责。但现在,其运用则更为精粹。

Wojciechowski说,“曾经,Greenplum担任了一切的作业负载,但并不是一切作业负载都与其符合。现在,有了该东西,咱们就能愈加挥洒自如,例如,咱们可以判别什么才是适合在Hive中运转的。”

经过运用Optimizer,Wojciechowski和他的团队可以说出在Hive和Impla中查询将会怎么更好的履行,这就如同是承受在新环境中查询是怎么履行的辅导是相同的。Hadoop东西在生产中还有着进一步的运用。Optimizer与Navigator协同作业会协助你判别怎么将作业负载查询进行分组,这样就能发现更多的重复并更有用的对集群进行运用,”他说。

像Navigator Optimizer之类的技能有助于提醒数据衔接,这是一个SQL常见的特性,而它会对Hadoop形成阻止,451 Research的剖析师James Curtis如是说。“Navigator会在将使命搬迁至Impala或Hive之前对已有作业进行剖析,并对需求重做的衔接数量进行估量,”他说。

关于该东西在使命搬迁中的效果他表明认同,但他着重对查询的优化远比仅用于搬迁有着更广泛的运用。“关于那些具有数以千计查询的公司来说,优化查询并不是琐碎的作业,”Curtis说。

改动和提高

像Cloudera Navigator套件之类产品的可用性可以掩盖包含一切最困难搬迁使命中的一项:行将主结构数据搬迁至Hadoop生态体系。

为此,主结构和Hadoop数据转化公司Syncsort表明,它正在和Cloudera协作,经过将Navigator衔接至其东西来追寻传统来历的数据沿用以改进数据管理。这些传统来历不只限于主结构,而是包含运转在中端体系上的数据仓库。

关于将联系型数据仓库使命搬迁至Hadoop来说,Cloudera并不是可以供给东西仅有厂商,这一范畴是非常活泼的。

关于他们来说,独立的Hadoop分销竞争对手Hortonworks和MapR Technologies Inc.会供给相关的Hadoop东西,包含根据Apache Calcite的SQL优化东西,而Apache Calcite是一款包含了一个SQL解析器和查询规划器的开源项目,而它刚刚迎来它的***个生日。

并且,数据管理服务公司Bitwise最近推出了Hydrograph,这是一款旨在简化卸载ETL作业负载到Hadoop和其他大数据结构的东西。Bitwise的软件是与客户Capital One一同开发的,它根据的开发环境运用了XML接口,因而使命可以搬迁至不同的Hadoop结构,例如从MapReduce到Tez,只需求少数重新配置。

假如这些Hadoop东西可以让搬迁规划更上一层楼并不断探究试错,则会改进对Hadoop的提高。关于企业中Hadoop和它的生态体系组件来说,在渠道上高效地获取数据仓库作业仍是一项重要过程。

转载请说明出处
知优网 » Hadoop东西引发的改动和提高:让数据仓库搬迁更轻松(hadoop数据迁移)

发表评论

您需要后才能发表评论