本文主要从概念层面介绍了ETL和EAI,并讲解了它们之间的联系和区别。希望读完本文后你能对ETL和EAI有个很好的了解。

一、什么是EAI?

ETL和EAI之间的联系与差异(etl和数据分析的区别与联系)  ETL EAI 数据仓库 比较 第1张

企业的业务流程会一起触及到多个运用体系,因而要求这些体系可以协同,但接口、架构的不共同往往使得这些本应严密集成的运用体系成为了一个个“信息孤岛”。所以,企业运用集成(Enterprise Application Integration,EAI)技能应运而生,它可以经过中间件作为粘合剂来衔接企业表里各种业务相关的异构体系、运用以及数据源,然后满意E-Commerce、ERP、CRM、SCM、OA、数据库、数据仓库等重要体系之间无缝同享和交流数据的需求。EAI 触及技能广泛,施行杂乱。

基本特征

EAI 的中心是运用中间件衔接企业运用。有多种不同类型的中间件可以供给 EAI 的功用。在挑选 EAI 中间件时需注意以下的基本特征:

◆经过中间件将不同的运用衔接起来,保证运用的独立性,在不需求修正运用自身的业务逻辑的一起,又处理了数据同享问题。

◆对中心同享业务数据模型的处理与支撑。

◆完结业务流程主动化。保证各个部门在选用不同的体系的一起可以协同完结同一个作业。

◆支撑运用架构的不断改变。可以便利地从头制造以添加或去除体系而不会影响其它体系。

◆可以供给实时接口和批处理接口,可以供给同步和异步接口。

◆有必要保证数据的安全,只要意图运用可以读取。

◆杰出的功用和数据吞吐量,而且具有灵敏的可扩展性以习惯企业的开展。

◆有必要具有康复机制,当数据传输进程中产生衔接中止等反常时可以保证数据的康复。

◆对流程办理供给预界说的通用模型与职业模型。

◆既可以供给实时接口和批处理接口,又可以供给同步和异步接口。

◆可以供给实时接口和批处理接口,可以供给同步和异步接口。

五大层面

一个完好的 EAI 处理方案应当包括以下五个层面:

用户交互:完结运用用户界面共同的接入与安全机制,运用门户技能进行构建。

运用衔接:经过 HUB 或总线架构,完结运用与运用之间的衔接,完结相关的数据路由与数据格式转化。

业务流程整合:完结业务流程办理,包括作业流办理和主动化流程两个方面。

构建整合:这个层面包括两个部分,一部分是构建与现有运用兼容的新运用,另一部分是对现有资源进行重用以习惯新环境的需求。

信息集成:完结数据集成,在异构的数据源之间完结数据层的直接整合。

相关技能

EAI 处理方案一般触及到 JCA、JMS、Web 服务以及 XML 等多种企业级技能。这些技能都已经成为业界的规范,然后可以***化地维护客户出资。这些技能既可以被包括在相关产品中供用户透明地运用,也可以由用户自己在运用程序中加以调用。此外,SOA(面向服务的架构)跟着各大厂商的追捧而变得炙手可热。尽管 SOA 自身不是一个全新的概念, 但由于 Web 服务以及网格核算等技能的老练,SOA 具有了更好的开展条件。关于 EAI 来说,依据 SOA 的企业运用体系可以跟着企业业务的改变而逐步改变,可以完结“柔性化”的软件体系,然后下降施行EAI 的本钱和危险,因而咱们可以说 SOA 的鼓起给了 EAI 厂商一个新的时机。

#p#

二、什么是ETL?

ETL即数据抽取(Extract)、转化(Transform)、装载(Load)的进程。它是构建数据仓库的重要环节。数据仓库是面向主题的、集成的、安稳的且随时刻不断改变的数据调集,用以支撑经营办理中的决议计划拟定进程。数据仓库体系中有或许存在着很多的噪声数据,引起的主要原因有:乱用缩写词、惯用语、数据输入过错、重复记录、丢掉值、拼写改变等。即便是一个规划和规划杰出的数据库体系,假如其间存在着很多的噪声数据,那么这个体系也是没有任何意义的,由于“废物进,废物出”(garbage in, garbage out),体系底子就不或许为决议计划剖析体系供给任何支撑。为了铲除噪声数据,有必要在数据库体系中进行数据清洗。现在有不少数据清洗研讨和ETL研讨,可是如安在ETL进程中进行有用的数据清洗并使这个进程可视化,此方面研讨不多。

本文主要从两个方面论述ETL和数据清洗的完结进程:ETL的处理办法和数据清洗的完结办法。

1.ETL的处理办法

本文所选用的ETL办法是数据库段区域中的ETL处理办法,它不运用外部引擎而是运用数据库作为仅有的控制点。由于源体系SQLserver2000是联系数据库,它的段表也是典型的联系型表。成功地将外部未修正数据载入数据库后,再在数据库内部进行转化。数据库段区域中的ETL处理办法履行的进程是提取、装载、转化,即一般所说的ELT。这种办法的长处是为抽取出的数据首要供给一个缓冲以便于进行杂乱的转化,减轻了ETL进程的杂乱度。

2.ETL进程中完结数据清洗的完结办法

首要,在了解源数据的基础上完结数据表特点共同化。为处理源数据的同义异名和同名异义的问题,可经过元数据办理子体系,在了解源数据的一起,对不同表的特点名依据其意义从头界说其在数据发掘库中的姓名,并以转化规则的方法存放在元数据库中,在数据集成的时分,体系主动依据这些转化规则将源数据中的字段名转化成新界说的字段名,然后完结数据发掘库中的同名同义。

其次,经过数据减缩,大幅度缩小数据量。由于源数据量很大,处理起来十分耗时,所以可以优先进行数据减缩,以进步后续数据处理剖析功率。

***,经过预先设定数据处理的可视化功用节点,到达可视化的进行数据清洗和数据转化的意图。针对减缩并集成后的数据,经过组合预处理子体系供给各种数据处理功用节点,可以以可视化的办法快速有用完结数据清洗和数据转化进程。

三、ETL与EAI 之间的联系

跟着这种集成的增多,企业信息体系之间需处理的数据量也将越来越大,数据的传输将变得越来越杂乱。ETL越来越合适用于这种数据处理的作业,并逐步应战传统 EAI(enterprise application integration)在体系集成中的位置了。

开始 ETL 的规划是为了便利树立数据商场和数据仓库,并将它们晋级为批处理办法。而下一代的 ETL 东西则在许多功用上做了扩展,使其可以适用于企业的运用集成,而且其间的一些东西将可以起到 EAI 某些东西的作用。

可是 ETL 还不能替代EAI,下一代ETL在运用集成领域中还仅仅EAI的弥补。可是跟着ETL技能的开展,企业在树立依据批处理数据仓库的体系集成东西时,将越来越重视对ETL的挑选,一起EAI和ETL之间的边界也将变得越来越含糊。

四、ETL与EAI 之间的差异

ETL 东西合适数据集成, EAI 东西则适用于流程操作。下一代 ETL 东西愈加适用于处理两个体系间数据的批量或许实时同步作业,特别是当很多巨大的数据在两个体系间提取、转化和存储时, ETL 的优势愈加显着。 EAI 则适用于作业流和商业流程办理的需求,特别是拿手处理很多小业务。

关于交互式流程,假如它没有扩展作业流的需求,没有杂乱数据的转化的需求,或许需求批量实时数据的兼并处理,则ETL东西将是比较好的挑选。

ETL东西比较合适于数据集成的作业,如运用体系之间的数据同步和点对点的单步交互作业;需求实时数据处理的作业中包括了很多的数据处理、杂乱的数据传输和数据运算,它相同合适选用 ETL 东西。上面这些作业,即便是有些详细的处理需求经过 EAI 东西编程完结,咱们仍是可以用 ETL中的东西来处理。由于 ETL东西主要是经过联系型数据库来完结很多数据操作的,所以运用这类东西来传输大块的数据将获得更好的作用。

EAI 东西无疑是最合适流程集成的东西,假如流程中包括了很多的传输,那么它就必定包括了对业务流程的办理和实时交互的流程。

【修改引荐】

  1. 嵌入式数据库的现状和未来
  2. 走近数据库前沿技能——集群
  3. 数据仓库及其体系结构建造
  4. 数据仓库中现实表的水平分区
  5. SQL Server 2008新特性之数据仓库可扩展性

【责任修改:夏宗繁 TEL:(010)68476606】

转载请说明出处
知优网 » ETL和EAI之间的联系与差异(etl和数据分析的区别与联系)

发表评论

您需要后才能发表评论