大数据错误 —— 为什么咱们需求搜集更多的数据（提出一个大数据处理问题需求）-云计算-知优网

Michael Wu博士从人们对大数据的误解入手，详细的分析了数据与信息的不同。并提出了：虽然大数据的作用被夸大了，但是人们却是要更加的重视大数据。只有收集更多的数据，才会有更多的机会得到有价值的见解，从而做出正确的决策取得领先。

Michael Wu(博士) —— Lithium首席科学分析师，为Lithium供给交际网络数据复杂性探究和了解的办法。

数据的价值等同于从中发掘到的信息和见地;并依据它们做出正确的决议计划，然后取得必定的竞赛优势。而咱们关于大数据的希望也是搜集足够多的信息并取得有价值的见地。可是人们还没有意识到数据和信息的不同 —— 你从海量数据中提取到的信息并不必定都有含义和价值。

数据不等于信息

许多人口中的数据和信息都是等价的，可是两者之间却有着很奇妙的差异。数据仅仅工作发生的简略记载，它仅仅记载了工作发生的时刻、地址以及触及人物的原始数据。是的，数据中的确包括着许多的信息。

这也正是对大数据了解的错误地点：大数据尽管给你带来了许多的信息，可是数据的添加却没有带来成份额的信息添加。实践的状况便是：搜集的数据越多，从中提取到的信息份额越低。这就意味着跟着数据体积激增，你从中提取到信息份额会逐步的减缩。尽管听起来很难以幻想，可是实际便是这样的。下面来看一些比如：

例1：数据的备份和仿制。假设你仔细检查你的电脑，你会发现：这些年的运用，你创立了不计其数的文件。不管它们是怎么发生的(拍的相片、写的博客或许是发送的电子邮件)，其间必定包括着必定数量的信息。这些文件贮存在你的硬盘中，并占用必定的空间。

工作发生了：不出意外，你必定会定时的给数据做备份。这儿咱们能够幻想一下在第一次给硬盘做备份中花掉的时刻。单纯针对数据的自身而言，你现已具有双倍量的数据了。假设你备份之前具有50GB数据，那么备份今后你则具有了100GB。可是经过了备份，你就能够取得双倍的信息量了?结果是否定的。实际上完结这个操作今后你没有额定的取得任何信息，由于备份中的文件和初始磁盘上的文件包括的信息是完全相同的。

尽管咱们的私家数据和大数据不搭边，可是这个比如却阐明晰数据和信息之间奇妙的不同。下面咱们来看一下触及到更大体积数据的比如。

例2：机场视频监督记载。首要，视频文件现已是适当之大了;其次，机场运用的是24/7闭路式监测体系，而HD设备会进一步添加数据的体积;终究，机场或许具有不计其数的摄像头。如你所见，这些检测摄像头记创立的视频记载能够轻松的取得“大数据”的资历。

无妨想象一下假设咱们把摄像头的数量提高两倍会发生什么 —— 双倍体积的数据。可是很明显你或许仍是得不到双倍的信息。有许多的监督设备拍到的东西都是重复的，或许会有一些细小的差异 —— 不同的区域在少许不同的时刻内会拍到完全不同的画面。在信息量这个方面，咱们或许永久都得不到2倍。并且跟着监督设备的添加，信息堆叠的或许性也会随之增高。这便是为什么跟着数据的添加，信息的收益却在削减 —— 其间的冗余越来越多。

用不等式表达便是：信息 ≤ 数据。所以信息不该该是数据，而是没有冗余的数据。这也是为什么给数据备份却无法添加信息量的原因，由于复制是冗余的。

例3：交际途径的更新。那么交际中的大数据又是什么状况呢，比如：Twitter。比照平常咱们无妨多推特一倍的内容，那么Twitter肯定会取得两倍的数据。可是Twitter有取得两倍的信息吗?很明显没有，决议信息量的是你推特的内容而不是次数。当然假设咱们推特的内容是完全无冗余的，那么Twitter毫无疑问的将取得双倍的信息。可是这永久都不或许发生!咱们来看一下其间的原因：

首要，咱们会彼此转发。因而在相互的转发中，会发生许多冗余;即便咱们回绝转发，而在同一时刻发布相同内容的几率也是很高的，由于运用Twitter的人太多了。尽管每个推特运用的遣词或许会完全不同，可是包括相同网络内容的不同推特所(或许是条博客、很帅的电影或许爆炸性新闻)所形成的冗余是十分高的。此外，一段时刻内咱们很或许对同类的新闻感爱好。由于咱们推特的内容更趋向于咱们的品尝和爱好，所以同一个人推特不同的内容都会存在一些冗余。

所以很清楚的看到：即便比照平常咱们多推特了一倍的内容，却由于中心存在着适当多的冗余导致Twitter不会取得双倍的信息。此外咱们还会经过不同的途径取得相同的内容，可是由于仅仅是复制咱们不会多取得任何信息。

所以尽管数据会带来信息，可是数据不等于信息。信息仅仅数据中不重复的部分。这样的话，咱们从数据中提取到信息只占数据总量的一小部分。

所以尽管理论上信息是小于等于数据的，可是实际中往往是决心远小于数据。因而大数据能够捕捉许多信息的想无疑是单纯和不切实践的，大数据的价值完全被夸张了。

大数据错误 —— 为什么咱们需求搜集更多的数据（提出一个大数据处理问题需求）信息大数据第2张

#p#

信息不等于见地

尽管咱们从大数据中提取的信息量有或许被高估了，可是从大数据中取得的见地仍然是极端名贵的。那么信息和见地两者又有着是什么样的联络呢?一切的见地都源于信息，可是不代表一切的信息都能够供给见地。关于能给出有价值见地的信息，咱们有3个规范：

首要，可解说的。由于大数据包括如此多的非结构化数据和不同的媒体类型数据,导致其间许多的数据和信息都不可解说。

举个比如：123，243，187，89,157这组数据，它们能代表什么?它或许是你在TechCruncn上读过前五篇文章的like数目，也或许是一个是非图画上5个像素点的亮度。没有更多的信息和元数据，是无法解说这样的数据的。因而不能解说的数据和信息是不会给你供给任何见地的 —— 见地只存在于提取出信息中的可解说部分。

其次，相关性。有必要是和用处与价值严密相关的信息。相关的信息通常被看作是信号，而不相关的则被作为噪音。可是相关性有着适当的片面成分，对一个人很重要的信息或许完全和另一个人无关。这也是Edward Ng(一个闻名的数学家)说过的：“一个人的的信号恰好是另一个人的噪音。”

此外，相关还不仅是片面的;相同是前后联络的。相关还或许是人从一个环境中换到了另一个。打个比如：假设我下星期将要去NYC的话，那么NYC的交通将会相关到我。可是当我回到SF，那么相同的信息将会和我有相关。因而见地又是相关信息中一个十分小的子集，这儿别忘记相关信息现已是可解说信息中十分小的一个子集。

最终，得是“新出炉”的。有必要是有远见的信息。这就意味着它有必要供给一些你曾经不曾具有的新常识。

明显这个规范也是片面的。由于一个人知道的东西另一个人不必定也知道，而新鲜也是因人而异的。这种片面性中有一部分承继于相关的片面性。假设有些信息和你是相关的，并且之前又并不知道;那么当你去学习的时分，它将是新的。假设这个信息和你没有联络的话，那么再别致你也不或许想去了解它。这样的话这些信息对你来说便是毫无价值的。

可是这个见地一旦被你获悉，那么当下次你取得的时分就不会再觉得那么别致和深入。因而跟着咱们不断的从大数据中捕获悉识，新的见地就越来越难以发现。那么见地这个相关信息中的子集又将持续减缩。

在见地这个子集层层的减缩后，就会发现大数据的价值被完全的夸张了。当然这儿不是说大数据是没有价值的，仅仅说它的价值被夸张了，由于发现有价值见地的或许性十分小。

这样来看大数据或许会让人绝望，可是这相同是咱们需求大数据的理由!由于从数据中取得的见地越来越少，所以咱们有必要搜集越来越多的数据让咱们具有更多的时机取得见地。尽管更多的数据也不能确保必定会揭穿许多有价值的见地，可是添加数据量无疑会添加咱们取得见地的时机。