大数据对于商务人士来说是让人兴奋的产物,许多的大数据杀手级应用将不断出现。对于存储管理员来说,存储基础设施将不断增长,这是毫无疑问的。你一直都在所有客户中收集终端用户每毫秒的行为数据,想象一下如果你可以立即查看所有数据,不需要考虑数据监管、数据管理、数据保护和其它所有相关的烦恼,你需要做的只是把你所有的数据放到一个相对廉价又具备扩展性的Hadoop存储中,这是多么令人期待的事!

大数据关于商务人士来说是让人振奋的产品,许多的大数据杀手级运用将不断呈现。关于存储管理员来说,存储基础设施将不断添加,这是毫无疑问的。你一向都在一切客户中搜集终端用户每毫秒的行为数据,幻想一下假如你能够当即检查一切数据,不需求考虑数据监管、数据管理、数据维护和其它一切相关的烦恼,你需求做的仅仅把你一切的数据放到一个相对廉价又具有扩展性的Hadoop存储中,这是多么令人等待的事!

数据湖能够满意不断添加的数据需求,并为你的事务供给有价值的服务。经过将不同来历的数据集收集到一个会集渠道,运用简略扩展的大数据办法供给多租户的剖析服务,还会发明许多新的数据发掘机会。数据湖的总潜力值跟着可用于剖析的数据量添加。一个大数据和大数据湖的要害原则是你不需求提早树立主数据模型,非线性添加是不会呈现的。

企业数据湖或hub的概念开端是由Cloudera和Hortonworks这样的大数据厂商提出的,表面上看,数据都是承载在根据可向外扩展的HDFS廉价存储硬件之上的。但你的数据量越大,你越或许需求各种不同品种的存储。终究,一切的企业数据都能够被认为是大数据,但并不是一切的企业数据都是合适存放在廉价的HDFS集群之上的。

所以,今日传统的存储厂商正在剖析大数据湖的远景。从存储商场的视点来看,数据湖就像另一个云核算相同。“一切人都需求一个数据湖,你怎样能够没有一个(乃至两个、三个)?”但企业运用存储有多种挑选,能够选用支撑HDFS和Hadoop虚拟化的企业级存储,这种存储能够将其它存储协议转换成HDFS。也能够选用可扩展的软件界说存储。

很多,快速,现在
数据湖的一部分价值是把不同品种的数据会聚到一同,另一部分价值是不需求预界说的模型就能进行数据剖析。现在的大数据架构是可扩展的,而且能够为用户供给越来越多的实时剖析。在商业智能(BI)和数据仓库还没有被筛选的今日,大数据剖析和大数据湖正在向更多类型的实时智能服务开展,这些实时的智能服务能够支撑实时的决议计划拟定。Hadoop和它的生态系统现已度过了它们的理论研究阶段,它们现已能够为实践的运用需求服务了。数据管理和数据剖析的运用程序现已开发得十分友爱,高档的向外扩展机器学习技能也现已投入运用并嵌入至只需求用鼠标就能简略操作的大数据发掘软件中。但是,IT依然需求对数据湖里的一切数据担任,所以在这里咱们列举了几个企业数据湖的几个要害特色:

保存一份会集的数据索引(或元数据),包含数据源、版别、精密度和准确度。假如在这方面没有自动化的支撑,一个数据湖会很快被冲垮。

对数据进行安全的授权、审计和拜访操控。Hadoop生态系统在数据安全性方面正在快速开展,由于这是企业的强制性需求。有许多新产品为大数据财物供给必定的安全性,也有许多产品致力于维护数据湖中的很多新数据、用户和不断添加的财物价值。

对数据湖中的数据启用监管功用,并强制启用保存(retention)和处置(disposition)战略(以及追寻个人可辨认信息)。***秀的产品(如Dataguise)会强制运用监管和合规需求,不管数据湖中有多少数据或是什么类型的数据集。

为操作可用性和BC/DR需求保证必定规划的数据维护。长途仿制是必要的吗?现已成为了一个要害事务运营渠道的数据湖里的很多实时数据流对长途仿制来说便是祸不单行。

运用多种大数据剖析办法(不仅仅仅仅Hadoop)和工作流使用数据湖供给灵敏剖析。在某种程度上,Hadoop和HDFS实践上是软件界说存储产品,它们具有数据感知功用,能够供给内置的大数据剖析服务。但也有其它产品也能供给很好的数据湖解决计划,如Spark和一些专有的OLAP或在线剖析处理大数据剖析渠道(如HP Haven等)。

咱们在今日的企业级存储产品能够找到上面说到的这些功用,它们说明晰为什么许多厂商热衷于数据湖范畴,由于云和大数据会带来很大的经济效益。注重质量的企业级软件界说存储会成为这一范畴的***。

远景还不明晰的数据湖
数据湖真的是一个好的计划吗?一个咱们最开端或许会问的问题便是咱们是否真的需求把一切的数据都会聚到一同?在一个当地树立整个企业的数据集合点会带来巨大的危险。另一个的问题是数据湖真的是一个节省本钱的解决计划吗?特别是像Google、Facebook这种具有海量数据的公司。

数据湖的计划***是慢慢来完成,而不是大规划的从头规划整个数据中心。数据湖的价值取决于咱们的数据,大规划的布置向外扩展的同享架构将使许多安排从数据湖(至少是数据池)中罗致营养。

数据湖出路未卜?  数据湖 大数据 第1张

转载请说明出处
知优网 » 数据湖出路未卜?

发表评论

您需要后才能发表评论