数据发掘入门必看10个问题（数据发掘入门必看10个问题答案）-大数据-知优网

若将Data Warehousing(数据仓库)比喻作矿坑，Data Mining就是深入矿坑采矿的工作。毕竟Data Mining不是一种无中生有的魔术，也不是点石成金的炼金术，若没有够丰富完整的数据，是很难期待Data Mining能挖掘出什么有意义的信息的。

*** Data Mining 和核算剖析有什么不同?

硬要去区别Data Mining和Statistics的差异其实是没有太大含义的。一般将之界说为Data Mining技能的CART、CHAID或含糊核算等等理论办法，也都是由核算学者依据核算理论所开展衍生，换另一个视点看，Data Mining有适当大的比重是由高级核算学中的多变量剖析所支撑。可是为什么Data Mining的出现会引发各领域的广泛留意呢?首要原因在相较于传核算算剖析而言，Data Mining有下列几项特性：

1.处理很多实践数据更强势，且无须太专业的核算布景去运用Data Mining的东西;

2.数据剖析趋势为从大型数据库抓取所需数据并运用专属核算机剖析软件，Data Mining的东西更契合企业需求;

3. 纯就理论的根底点来看，Data Mining和核算剖析有运用上的不同，究竟Data Mining意图是便利企业终端用户运用而非给核算学家检测用的。

NO.2 Data Warehousing 和 Data Mining 的联系为何?

若将Data Warehousing(数据仓库)比方作矿坑，Data Mining便是深化矿坑采矿的作业。究竟Data Mining不是一种惹是生非的戏法，也不是点铁成金的炼金术，若没有够丰厚完好的数据，是很难等待Data Mining能开掘出什么有含义的信息的。

要将巨大的数据转化成为有用的信息，必须先有用率地收集信息。跟着科技的前进，功用完善的数据库体系就成了***的收集数据的东西。数据仓库，简略地说，便是收集来自其它体系的有用数据，存放在一整合的贮存区内。所以其实便是一个通过处理整合，且容量特别大的联系型数据库，用以贮存决议计划支撑体系(Design Support System)所需的数据，供决议计划支撑或数据剖析运用。从信息技能的视点来看，数据仓库的方针是在安排中，在正确的时刻，将正确的数据交给正确的人。

许多人关于Data Warehousing和Data Mining经常混杂，不知怎么分辩。其实，数据仓库是数据库技能的一个新主题，运用核算机体系协助咱们操作、核算和考虑，让作业办法改动，决议计划办法也跟着改动。

数据仓库自身是一个十分大的数据库，它贮存着由安排作业数据库中整合而来的数据，特别是指事务处理体系OLTP(On-Line Transactional Processing)所得来的数据。将这些整合过的数据置放于数据昂哭中，而公司的决议计划者则运用这些数据作决议计划;可是，这个转化及整合数据的进程，是树立一个数据仓库***的应战。由于将作业中的数据转化成有用的的战略性信息是整个数据仓库的要点。综上所述，数据仓库应该具有这些数据：整合性数据(integrated data)、具体和汇总性的数据(detailed andsummarized data)、历史数据、解说数据的数据。从数据仓库开掘出对决议计划有用的信息与常识，是树立数据仓库与运用Data Mining的***意图，两者的实质与进程是两回事。换句话说，数据仓库应先行树立完结，Data mining才干有用率的进行，由于数据仓库自身所含数据是洁净(不会有过错的数据参杂其间)、齐备，且通过整合的。因而两者联系或答应解读为Data Mining是从巨大数据仓库中找出有用信息的一种进程与技能。

NO.3 OLAP 能不能替代 Data Mining?

所谓OLAP(OnlineAnalytical Process)意指由数据库所连接出来的在线剖析处理程序。有些人会说：「我现已有OLAP的东西了，所以我不需求Data Mining。」事实上两者间是天壤之别的，首要差异在于Data Mining用在发生假定，OLAP则用于查验假定。简略来说，OLAP是由运用者所主导，运用者先有一些假定，然后运用OLAP来查验假定是否树立;而 Data Mining则是用来协助运用者发生假定。所以在运用OLAP或其它Query的东西时，运用者是自己在做探究(Exploration)，但Data Mining是用东西在协助做探究。

举个比如来看，一商场剖析师在为超市规划货品架柜铺排时，或许会先假定婴儿尿布和婴儿奶粉会是常被一同购买的产品，接着便可运用OLAP的东西去验证此假定是否为真，又树立的依据有多显着;但Data Mining则否则，履行Data Mining的人将巨大的结帐数据收拾后，并不需求假定或等待或许的成果，透过Mining技能可找出存在于数据中的潜在规矩，所以咱们或许得到例如尿布和啤酒常被一同购买的预料外之发现，这是OLAP所做不到的。 Data Mining常能开掘出逾越概括规划的联系，但OLAP仅能运用人工查询及可视化的报表来承认某些联系，是以Data Mining此种主动找出甚至不会被置疑过的数据模型与联系的特性，事实上已逾越了咱们经历、教育、幻想力的约束，OLAP能够和Data Mining互补，但这项特性是Data Mining无法被OLAP替代的。

NO.4 完好的DataMining 包含哪些进程?

以下供给一个Data Mining的进行进程以为参阅：

1. 了解事务与了解数据;

2. 获取相关技能与常识;

3. 整合与查询数据;

4.去除过错或不一致及不完好的数据;

5. 由数据选取样本先行实验;

6. 树立数据模型

7. 实践Data Mining的剖析作业;

8. 测验与查验;

9. 找出假定并提出解说;

10. 继续运用于企业流程中。

由上述进程可看出，Data Mining牵涉了很多的准备作业与规划进程，事实上许多专家皆以为整套Data Mining的进行有80%的时刻精力是花费在数据前置作业阶段，其间包含数据的净化与格局转化甚或表格的连接。由此可知Data Mining仅仅信息开掘进程中的一个进程罢了，在进行此进程前还有许多的作业要先完结。

NO.5 Data Mining 运用了哪些理论与技能?

Data Mining是近年来数据库运用技能中适当抢手的议题，看似奇特、听来时尚，实践上却也不是什么新东西，因其所用之比如猜测模型、数据切割，连接剖析(Link Analysis)、误差侦测(Deviation Detection)等，美国早在二次国际大战前就已运用运用在人口普查及军事等方面。

跟着信息科技超乎幻想的开展，许多新的核算机剖析东西面世，例如联系型数据库、含糊核算理论、基因算法则以及类神经网络等，使得从数据中开掘瑰宝成为一种体系性且可施行的程序。

R一般来说，Data Mining的理论技能可分为传统技能与改进技能两支。传统技能以核算剖析为代表，核算学内所含序列核算、概率论、回归剖析、类别数据剖析等都归于传统数据开掘技能，特别 Data Mining 方针多为变量繁复且样本数巨大的数据，是以高级核算学里所含括之多变量剖析中用来精简变量的要素剖析(Factor Analysis)、用来分类的判别剖析(DiscriminantAnalysis)，以及用来区隔集体的分群剖析(Cluster Analysis)等，在Data Mining进程中特别常用。

在改进技能方面，运用较遍及的有决议计划树理论(Decision Trees)、类神经网络(Neural Network)以及规矩概括法(Rules Induction)等。决议计划树是一种用树枝状展示数据受各变量的影响景象之猜测模型，依据对方针变量发生之效应的不同而建构分类的规矩，一般多运用在对客户数据的剖析上，例如针对有回函与未回含的邮递方针找出影响其分类成果的变量组合，常用分类办法为CART(Classification and Regression Trees)及CHAID(Chi-Square Automatic InteractionDetector)两种。

R类神经网络是一种仿真人脑考虑结构的数据剖析形式，由输入之变量与数值中自我学习并依据学习经历所得之常识不断调整参数以期建构数据的型样 (patterns)。类神经网络为非线性的规划，与传统回归剖析比较，优点是在进行剖析时无须限制形式，特别当数据变量间存有交互效应时可主动侦测出;缺陷则在于其剖析进程为一黑盒子，故常无法以可读之模型格局展示，每阶段的加权与转化亦不清晰，是故类神经网络多运用于数据归于高度非线性且带有适当程度的变量交感效应时。

规矩概括法是常识开掘的领域中最常用的格局，这是一种由一连串的「假如…/则…(If / Then)」之逻辑规矩对数据进行细分的技能，在实践运用时怎么界定规矩为有用是***的问题，一般需先将数据中发生数太少的项目先除掉，以防止发生无含义的逻辑规矩。

NO.6 Data Mining包含哪些首要功用?

Data Mining实践运用功用可分为三大类六分项来阐明：Classification和Clustering归于分类区隔类;Regression和Time-series归于核算猜测类;Association和Sequence则归于序列规矩类。

Classification是依据一些变量的数值做核算，再按照成果作分类。(核算的成果***会被分类为几个少量的离散数值，例如将一组数据分为 “或许会呼应” 或是 “或许不会呼应” 两类)。Classification常被用来处理如前所述之邮递方针挑选的问题。咱们会用一些依据历史经历现已分类好的数据来研讨它们的特征，然后再依据这些特征对其他未经分类或是新的数据做猜测。这些咱们用来寻觅特征的已分类数据或许是来自咱们的现有的客户数据，或是将一个完好数据库做部份取样，再经由实践的运作来测验;比如运用一个大型邮递方针数据库的部份取样来树立一个Classification Model，再运用这个Model来对数据库的其它数据或是新的数据作分类猜测。

Clustering用在将数据分群，其意图在于将群间的差异找出来，一同也将群内成员的类似性找出来。Clustering与Classification不同的是，在剖析前并不知道会以何种办法或依据来分类。所以必需求合作专业领域常识来解读这些分群的含义。

Regression是运用一系列的现有数值来猜测一个接连数值的或许值。若将规划扩展亦可运用Logistic Regression来猜测类别变量，特别在广泛运用现代剖析技能如类神经网络或决议计划树理论等剖析东西，推估猜测的形式已不在止于传统线性的限制，在猜测的功用上大大增加了挑选东西的弹性与运用规划的广度。

Time-SeriesForecasting与Regression功用类似，仅仅它是用现有的数值来猜测未来的数值。两者***差异在于Time- Series所剖析的数值都与时刻有关。Time-SeriesForecasting的东西能够处理有关时刻的一些特性，比如时刻的周期性、阶级性、季节性以及其它的一些特别要素(如曩昔与未来的关连性)。

Association是要找出在某一事情或是数据中会一同出现的东西。举例而言，假如A是某一事情的一种挑选，则B也出现在该事情中的机率有多少。(例如：假如顾客买了火腿和柳橙汁，那么这个顾客一同也会买牛奶的机率是85%。)

Sequence Discovery与Association联系很亲近，所不同的是Sequence Discovery中事情的相关是以时刻要素来作区隔(例如：假如A股票在某一天上涨12%，并且当天股市加权指数下降，则B股票在两天之内上涨的机率是 68%)。

NO.7 Data Mining在各领域的运用景象为何?

Data Mining在各领域的运用十分广泛，只需该工业具有具剖析价值与需求的数据仓储或数据库，皆可运用Mining东西进行有意图的开掘剖析。一般较常见的运用事例多发生在零售业、直效行销界、制作业、财政金融保险、通讯业以及医疗服务等。

于出售数据中开掘顾客的消费习性，并可藉由买卖纪录找出顾客偏好的产品组合，其它包含找出丢失顾客的特征与推出新产品的机遇点等等都是零售业常见的实例;直效行销着重的分众概念与数据库行销办法在导入Data Mining的技能后，使直效行销的开展性更为强壮，例如运用Data Mining剖析顾客群之消费行为与买卖纪录，结合根本数据，并依其对品牌价值等级的凹凸来区隔顾客，从而到达差异化行销的意图;制作业对Data Mining的需求多运用在质量控管方面，由制作进程中找出影响产品质量最重要的要素，以期进步作业流程的功率。

近来电话公司、信誉卡公司、保险公司以及股票买卖商关于诈欺行为的侦测(FraudDetection)都很有爱好，这些职业每年由于诈欺行为而形成的丢失都十分可观，Data Mining能够从一些信誉不良的客户数据中找出类似特征并猜测或许的诈欺买卖，到达削减丢失的意图。财政金融业能够运用 Data Mining来剖析商场意向，并猜测单个公司的营运以及股价走向。DataMining的另一个一同的用法是在医疗业，用来猜测手术、用药、确诊、或是流程操控的功率。

NO.8 Web Mining 和Data Mining有什么不同?

假如将Web视为CRM的一个新的Channel，则Web Mining便可单纯看做Data Mining运用在网络数据的泛称。

该怎么丈量一个网站是否成功?哪些内容、优惠、广告是人气最旺的?首要访客是哪些人?什么原因招引他们前来?怎么从堆积如山之很多由网络所得数据中找出让网站运作更有用率的操作要素?以上种种皆属Web Mining 剖析之领域。Web Mining 不只只限于一般较为人所知的log file剖析，除了核算网页阅读率以及访客人次外，举凡网络上的零售、财政服务、通讯服务、政府机关、医疗咨询、远距教育等等，只需由网络连接出的数据库够大够完好，全部Off-Line可进行的剖析，Web Mining都能够做，甚或更可整合Off-Line及On-Line的数据库，施行更大规划的模型猜测与推估，究竟凭仗网际网络的便利性与浸透力再合作网络行为的可追踪性与高互动特质，1对1行销的理念是最有时机在网络国际里彻底执行的。

整体而言，Web Mining具有以下特性：1. 数据收集简单且不引人留意，所谓凡走过必留下痕迹，当访客进入网站后的全部阅读行为与进程都是能够立即被纪录的;2. 以交互式个人化服务为***方针，除了因应不同访客出现专属规划的网页之外，不同的访客也会有不同的服务;3. 可整合外部来历数据让剖析功用发挥地更深更广，除了log file、cookies、会员填表数据、线上查询数据、线上买卖数据等由网络直接获得的资源外，结合实体国际累积时刻更久、规划更广的资源，将使剖析的成果更精确也更深化。

运用Data Mining技能树立更深化的访客数据剖析，并赖以架构精准的猜测形式，以期出现真实智能型个人化的网络服务，是Web Mining尽力的方向。

NO.9 Data Mining 在 CRM 中扮演的人物为何?

CRM(CustomerRelationship Management)是近来引起火热评论与高度关心的议题，特别在直效行销的兴起与网络的快速开展带动下，跟不上CRM的脚步好像跟不上年代。事实上 CRM并不算新发明，奥美直效行销推进十数年的CO(Customer Ownership)便是现在咱们谈的CRM―客户联系办理。

Data Mining运用在CRM的首要办法可对应在Gap Analysis之三个部分：

针对Acquisition Gap，可运用Customer Profiling找出客户的一些一同的特征，希望能藉此深化了解客户，藉由Cluster Analysis对客户进行分群后再透过Pattern Analysis猜测哪些人或许成为咱们的客户，以协助行销人员找到正确的行销方针，从而降低成本，也进步行销的成功率。

针对Sales Gap，可运用BasketAnalysis协助了解客户的产品消费形式，找出哪些产品客户最简单一同购买，或是运用SequenceDiscovery 猜测客户在买了某一样产品之后，在多久之内会买另一样产品等等。运用 Data Mining能够更有用的决议产品组合、产品引荐、进货量或库存量，甚或是在店里要怎么铺排货品等，一同也能够用来评价促销活动的成效。

针对RetentionGap，能够由原客户后来却转成竞争对手的客户群中，剖析其特征，再依据剖析成果到现有客户数据中找出或许转向的客户，然后规划一些办法防备客户丢失;更有体系的做法是藉由Neural Network依据客户的消费行为与买卖纪录对客户忠诚度进行Scoring的排序，如此则可区隔丢失率的等级从而合作不同的战略。

CRM不是设一个(080)客服专线就算了，更不只仅仅把一堆客户根本数据输入核算机就够，完好的CRM运作机制在相关的硬软件体系能健全的支撑之前，有太多的数据准备作业与剖析需求推进。企业透过Data Mining能够别离针对战略、方针定位、操作效能与丈量评价等四个切面之相关问题，有用率地从商场与顾客所收集累积之很多数据中开掘出对顾客而言最要害、最重要的答案，并赖以树立真实由客户需求点动身的客户联系办理。

***0 现在业界有哪些常用的Data Mining剖析东西?

东西商场大致可分为三类：

1. 一般剖析意图用的软件包

Sas Enterprise Miner

IBM Intelligent Miner

Unica PRW

SPSS Clementine

SGI MineSet

Oracle Darwin

Angoss KnowledgeSeeker

2. 针对特定功用或工业而研制的软件

KD1(针对零售业)