在整个数据分析流程中,数据处理的时间往往要占据70%以上!这个数字有没有让你震惊呢?为了提高分析效率和质量,借用数据仓库进行数据分析是一个很好的选择,详细的工作方法本文都有所介绍。

怎么使用数据仓库优化数据剖析?(怎么使用数据仓库优化数据剖析工具)  数据 仓库 优化 第1张

在整个数据剖析流程中,数据处理的时刻往往要占有70%以上!这个数字有没有让你震动呢?为了进步剖析功率和质量,借用数据仓库进行数据剖析是一个很好的挑选,详细的作业办法本文都有所介绍。

首要,咱们来了解一下数据仓库吧!数据仓库是一个面向主题的、集成的、相对安稳的、反响前史改变的数据调集。那数据剖析又是干什么的呢?笔者凭仗个人的阅历以为,依据事务需求,结合前史数据,使用相关统计学办法和某些数据发掘东西对数据进行整合、剖析,并构成一套终究处理某个事务场景的计划便是数据剖析的进程。

数据剖析大致包含以下流程:36大数据(http://www.36dsj.com/)

事务了解 – 数据了解 – 数据预备 – 建模 – 评价 – 布置

因为数据剖析对数据质量、格局的要求天然就比较高,对数据的了解也有必要十分深入,使得数据符合事务需求也要必定的进程,这样,依据咱们的阅历,在整个数据剖析流程中,用于数据处理的时刻往往要占有70%以上。

因而,怎么高效、快速地进行数据了解和处理,往往决议了数据剖析项目的进展和质量。而数据仓库具有集成、安稳、高质量等特色,依据数据仓库为数据剖析供给数据,往往能够愈加确保数据质量和数据完好性。36大数据(http://www.36dsj.com/)

使用数据仓库进行数据剖析无疑能够给咱们的作业带来很大便当,那么,究竟要怎么操作呢?咱们首要需求了本领据仓库的优势,数据仓库至少能够从如下三个方面提高数据剖析功率:

1. 数据了解

数据仓库是面向主题的,所以其本身与事务结合就相对严密和完善,更便利数据剖析师依据数据了解事务。下图是Teradata关于金融职业的老练模型:

怎么使用数据仓库优化数据剖析?(怎么使用数据仓库优化数据剖析工具)  数据 仓库 优化 第2张

咱们能够看到,整个数据仓库被分为十大主题,而金融职业一切的数据、事务都会被这十大主题包括。当咱们需求找某个信用卡账户信息时,咱们就去协议(AGREEMENT)主题,需求某次存款买卖信息时就去探寻事情(EVENT)主题,需求某个理财产品相关信息就发掘产品(PRODUCT)主题,如此类推,咱们就会发现十大主题将整个金融职业的数据区分得十分明晰,咱们需求做的便是拿到事务需求,了本领据仓库的模型,数据了解也就瓜熟蒂落了。

2. 数据质量

数据剖析要求数据是洁净、完好的,而数据仓库最中心的一项作业便是ETL进程,流程如下:

怎么使用数据仓库优化数据剖析?(怎么使用数据仓库优化数据剖析工具)  数据 仓库 优化 第3张

而数据仓库现已对源体系的数据进行了事务符合的转化,以及脏数据的清洗,这就为数据剖析的数据质量做了较好的保证。

3. 数据跨体系相关

怎么使用数据仓库优化数据剖析?(怎么使用数据仓库优化数据剖析工具)  数据 仓库 优化 第4张

上图是数据仓库的一个简略架构,能够看到,各事务源体系的数据经过ETL进程后流入数据仓库,当不同体系数据整合到数据仓库之后,至少处理了数据剖析中的两个问题:

***,跨体系数据搜集问题,同一个客户的储蓄买卖和理财买卖咱们在同一张事情表就能够找到;

第二,跨体系相关问题,同一个客户可能在不同体系中记录了不同的客户号,乃至存在不同的账号,进行数据整合时,总是需求找到一起的“枢纽”来相关来自不同体系的信息,而数据仓库在ETL进程中就会整合相关客户信息,***处理跨体系相关问题。

可见,数据仓库是整合的、面向主题的、数据质量高的、跨体系的优质数据源,那么,咱们该怎么充分使用这些优势呢?

笔者总结了如下阅历:36大数据(http://www.36dsj.com/)

1. 研讨数据仓库模型:数仓的精华便是面向主题的模型,能了解各大主题域领域,了解不同主题间的联系,基本就把握了数仓的架构;

2. 学习数据仓库规划文档:规划文档是事务与数据,数仓与源体系的桥梁,了解表间mapping映射,就能快速定位需求变量的来历和处理逻辑,全面了解相关事务;

3. 了本领据字典表:数据字典是数据仓库物理存储的信息库,能够经过数据字典了解库、表、字段不同层级的联系、存储、类型等信息;

4. 研讨ETL脚本:学习几个数据仓库ETL加工脚本,能更详尽的探究数据加工处理逻辑,更清楚的了本领仓加工形式,快速把握数据加工技巧;

5. 调查明细数据:想要真实了本领据,就有必要对详细数据进行不同维度和层次的调查;比方事情表,从买卖类型、时刻、途径、事务品种等多个维度捞几条数据,调查某个相同条件下不同维度的买卖改变,了解银行买卖的全景信息,协助了解事务,了本领据。

事实上,除此之外,数据处理人员还应该从中学习到数据仓库的思维:面向主题,逐层加工。36大数据(http://www.36dsj.com/)

面向主题是指让凌乱的数据结合事务区分,更简单着手处理本来凌乱的数据,数据处理人员只需知道哪些数据归于哪个主题,然后依据主题再进一步处理;逐层加工则是指让细粒度的数据走向宽表的进程明晰,有层次,数据处理进程中清楚每一步的产出是什么。

其实,每一个数据剖析师或许数据处理师都会有自己的作业习气和阅历,以上是笔者阅历两年多数据仓库开发、三年数据仓库和数据剖析兼职者的阅历总结的一些心得,期望对我们有所协助。

转载请说明出处
知优网 » 怎么使用数据仓库优化数据剖析?(怎么使用数据仓库优化数据剖析工具)

发表评论

您需要后才能发表评论