SAN的构建则是为了更大的规模和更高的效率提供共享的池存储。Hadoop已经逆转了这一趋势回归DAS。每一个Hadoop集群都拥有自身的——虽然是横向扩展型——直连式存储,这有助于Hadoop管理数据本地化,但也放弃了共享存储的规模和效率。

在1990年,每一台运用服务器都倾向具有直连式体系(DAS)。SAN的构建则是为了更大的规划和更高的功率供给同享的池存储。Hadoop现已逆转了这一趋势回归DAS。每一个Hadoop集群都具有自身的——尽管是横向扩展型——直连式存储,这有助于Hadoop办理数据本地化,但也抛弃了同享存储的规划和功率。假如你具有多个实例或Hadoop发行版,那么你就将得到多个横向扩展的存储集群。

办理大数据存储的十大技巧(办理大数据存储的十大技巧是)  大数据 存储 技巧 第1张

而咱们所遇到的***应战是平衡数据本地化与规划功率,这是一个鱼与熊掌兼得的论题。

数据本地化是为了保证大数据集存储在核算节点邻近便于剖析。关于Hadoop,这意味着办理数据节点,向MapReduce供给存储以便充沛履行剖析。它有用有用但也呈现了大数据存储集群的独立操作问题。以下十项是Hadoop环境中办理大数据存储技巧

1.分布式存储

传统化会集式存储存在已有一段时间。但大数据并非真的适宜会集式存储架构。Hadoop规划用于将核算更挨近数据节点,一起采用了HDFS文件体系的大规划横向扩展功用。

尽管,一般处理Hadoop办理自身数据低效性的计划是将Hadoop 数据存储在SAN上。但这也形成了它自身功用与规划的瓶颈。现在,假如你把一切的数据都经过会集式SAN处理器进行处理,与Hadoop的分布式和并行化特性相悖。你要么针对不同的数据节点办理多个SAN,要么将一切的数据节点都会集到一个SAN。

但Hadoop是一个分布式运用,就应该运转在分布式存储上,这样存储就保留了与Hadoop自身相同的灵活性,不过它也要求拥抱一个软件界说存储计划,并在商用服务器上运转,这比较瓶颈化的Hadoop天然更为高效。

2.超交融VS分布式

留意,不要混杂超交融与分布式。某些超交融计划是分布式存储,但一般这个术语意味着你的运用和存储都保存在同一核算节点上。这是在企图处理数据本地化的问题,但它会形成太多资源争用。这个Hadoop运用和存储渠道会争用相同的内存和CPU。Hadoop运转在专有运用层,分布式存储运转在专有存储层这样会更好。之后,运用缓存和分层来处理数据本地化并补偿网络功用丢失。

3.防止控制器瓶颈(Controller Choke Point)

完成目标的一个重要方面便是——防止经过单个点例如一个传统控制器来处理数据。反之,要保证存储渠道并行化,功用能够得到明显提高。

此外,这个计划供给了增量扩展性。为数据湖增加功用跟往里面扔x86服务器相同简略。一个分布式存储渠道如有需求将主动增加功用并从头调整数据。

4.删重和紧缩

把握大数据的关键是删重和紧缩技能。一般大数据集内会有70%到90%的数据简化。以PB容量计,能节省数万美元的磁盘本钱。现代渠道供给内联(比照后期处理)删重和紧缩,大大下降了存储数据所需才能。

5.兼并Hadoop发行版

许多大型企业具有多个Hadoop发行版别。或许是开发者需求或是企业部分现已习惯了不同版别。无论如何终究往往要对这些集群的保护与运营。一旦海量数据真实开端影响一家企业时,多个Hadoop发行版存储就会导致低效性。咱们能够经过创立一个单一,可删重和紧缩的数据湖获取数据功率

6.虚拟化Hadoop

虚拟化现已席卷企业级商场。许多区域超越80%的物理服务器现在是虚拟化的。但也仍有许多企业由于功用和数据本地化问题对虚拟化Hadoop避而不谈。

7.创立弹性数据湖

创立数据湖并不简单,但大数据存储或许会有需求。咱们有许多种方法来做这件事,但哪一种是正确的?这个正确的架构应该是一个动态,弹性的数据湖,能够以多种格局(架构化,非结构化,半结构化)存储一切资源的数据。更重要的是,它有必要支撑运用不在长途资源上而是在本地数据资源上履行。

不幸的是,传统架构和运用(也便对错分布式)并不尽善尽美。跟着数据集越来越大,将运用搬迁到数据不行防止,而由于推迟太长也无法倒置。

抱负的数据湖根底架构会完成数据单一副本的存储,并且有运用在单一数据资源上履行,无需搬迁数据或制造副本

8.整合剖析

剖析并不是一个新功用,它现已在传统RDBMS环境中存在多年。不同的是根据开源运用的呈现,以及数据库表单和交际媒体,非结构化数据资源(比方,维基百科)的整合才能。关键在于将多个数据类型和格局整组成一个规范的才能,有利于更轻松和一致地完成可视化与陈述制造。适宜的东西也对剖析/商业智能项目的成功至关重要。

9. 大数据遇见大视频

大数据存储问题现已让人有些焦头烂额了,现在还呈现了大视频现象。比方,企业为了安全以及操作和工业功率逐步趋于运用视频监控,简化流量办理,支撑法规遵照性和几个其它的运用事例。很短时间内这些资源将发生很多的内容,很多有必要要处理的内容。假如没有专业的存储处理计划很或许会导致视频丢失和质量下降的问题。

10.没有肯定的赢家

Hadoop确实取得了一些发展。那么跟着大数据存储遍地开花,它是否会成为赢家,力压其它计划,其实不然。

比方,根据SAN的传统架构在短期内不行替代,由于它们具有OLTP,100%可用性需求的内涵优势。所以最抱负的方法是将超交融渠道与分布式文件体系和剖析软件整合在一起。而成功的最主要要素则是存储的可扩展性要素。

转载请说明出处
知优网 » 办理大数据存储的十大技巧(办理大数据存储的十大技巧是)

发表评论

您需要后才能发表评论