大数据的核心代表着我们分析信息时的三个转变。这些转变将改变我们 理解和组建社会的方法。 第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚 至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。这部 分内容将在第1 章阐述。19 世纪以来,当面临大量数据时,社会都依赖于采 样分析。但是采样分析是信息缺乏时代和信息流通受限制的模拟数据时代的 产物。以前我们通常把这看成了理所当然的限制,但高性能数字技术的流行 让我们意识到,这其实是一种人为的限制。与局限在小数据范围相比,使用 一切数据为我们带来了更高的精确性,也让我们看到了一些以前无法发现的 细节——大数据让我们更清楚地看到了样本无法揭示的细节信息。 第二个改变就是,研究数据如此之多,以至于我们不再热衷于追求精确 度。这部分内容将在第2 章阐述。当我们测量事物的能力受限时,关注最重 要的事情和获取最精确的结果是可取的。如果购买者不知道牛群里有80 头牛 还是100 头牛,那么交易就无法进行。直到今天,我们的数字技术依然建立 在精准的基础上。我们假设只要电子数据表格把数据排序,数据库引擎就可 以找出和我们检索的内容完全一致的检索记录。 这种思维方式适用于掌握“小数据量”的情况,因为需要分析的数据很 少,所以我们必须尽可能精准地量化我们的记录。在某些方面,我们已经意 识到了差别。例如,一个小商店在晚上打烊的时候要把收银台里的每分钱都 数清楚,但是我们不会、也不可能用“分”这个单位去精确计算国民生产总 值。随着规模的扩大,对精确度的痴迷将减弱。 达到精确需要有专业的数据库。针对小数据量和特定事情,追求精确性 依然是可行的,比如一个人的银行账户上是否有足够的钱开具支票。但是, 在这个大数据时代,在很多时候,追求精确度已经变得不可行,甚至不受欢 迎了。当我们拥有海量即时数据时,绝对的精准不再是我们追求的主要目标。 大数据纷繁多样,优劣掺杂,分布在全球多个服务器上。拥有了大数据, 我们不再需要对一个现象刨根究底,只要掌握大体的发展方向即可。当然, 我们也不是完全放弃了精确度,只是不再沉迷于此。适当忽略微观层面上的 精确度会让我们在宏观层面拥有更好的洞察力。 第三个转变因前两个转变而促成,即我们不再热衷于寻找因果关系。这 部分内容将在第3 章阐述。寻找因果关系是人类长久以来的习惯。即使确定 因果关系很困难而且用途不大,人类还是习惯性地寻找缘由。相反,在大数 据时代,我们无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关 关系,这会给我们提供非常新颖且有价值的观点。相关关系也许不能准确地 告知我们某件事情为何会发生,但是它会提醒我们这件事情正在发生。在许 多情况下,这种提醒的帮助已经足够大了。 如果电子医疗记录显示橙汁和阿司匹林的特定组合可以治疗癌症,那么 找出具体的致病原因就没有这种治疗方法本身来得重要。同样,只要我们知 道什么时候是买机票的最佳时机,就算不知道机票价格疯狂变动的原因也无 所谓了。大数据告诉我们“是什么”而不是“为什么”。在大数据时代,我们 不必知道现象背后的原因,我们只要让数据自己发声。 我们不再需要在还没有收集数据之前,就把我们的分析建立在早已设立 的少量假设的基础之上。让数据发声,我们会注意到很多以前从来没有意识 到的联系的存在。 例如,对冲基金通过剖析社交网络twitter 上的数据信息来预测 股市的表现;亚马逊和奈飞(Netflix)根据用户在其网站上的类似 查询来进行产品推荐;twitter,facebook 和LinkedIn 通过用户的社 交网络图来得知用户的喜好。 当然,人类从数千年前就开始分析数据。古代美索不达米亚平原的记账 人员为了有效地跟踪记录信息发明了书写。自从圣经时代开始,政府就通过 进行人口普查来建立大型的国民数据库。两百多年来,精算师们也一直通过 搜集大量的数据来进行风险规避。 模拟时代的数据收集和分析极其耗时耗力,新问题的出现通常要求我们 重新收集和分析数据。数字化的到来使得数据管理效率又向前迈出了重要的一步。数字化将模拟数据转换成计算机可以读取的数字数据,使得存储和处 理这些数据变得既便宜又容易,从而大大提高了数据管理效率。过去需要几 年时间才能完成的数据搜集,现在只要几天就能完成。但是,光有改变还远 远不够。数据分析者太沉浸于模拟数据时代的设想,即数据库只有单一的用 途和价值,而正是我们使用的技术和方法加深了这种偏见。虽然数字化是促 成向大数据转变的重要原因,但仅有计算机的存在却不足以实现大数据。 我们没有办法准确描述现在正在发生的一切,但是在第4 章即将提到的“数据化”概念可以帮助我们大致了解这次变革。数据化意味着我们把一切都 透明化,甚至包括很多我们以前认为和“信息”根本搭不上边的事情。比方 说,一个人所在的位置、引擎的振动、桥梁的承重等。我们要通过量化的方 法把这些内容转化为数据。这就使得我们可以尝试许多以前无法做到的事情, 如根据引擎的散热和振动来预测引擎是否会出现故障。这样,我们就激发出 了这些数据此前未被挖掘的潜在价值。 大数据时代开启了一场寻宝游戏,而人们对于数据的看法以及对于由因 果关系向相关关系转化时释放出的潜在价值的态度,正是主宰这场游戏的关 键。新兴技术工具的使用使这一切成为可能。宝贝不止一件,每个数据集内 部都隐藏着某些未被发掘的价值。这场发掘和利用数据价值的竞赛正开始在 全球上演。 第5 章和第6 章将讲述大数据如何改变了商业、市场和社会的本质。20世纪,价值已经从实体基建转变为无形财产,从土地和工厂转变为品牌和产 权。如今,一个新的转变正在进行,那就是电脑存储和分析数据的方法取代 电脑硬件成为了价值的源泉。数据成为了有价值的公司资产、重要的经济投 入和新型商业模式的基石。虽然数据还没有被列入企业的资产负债表,但这 只是一个时间问题。 虽然有些数据处理技术已经出现了一段时间, 但是它们只为调查 局、研究所和世界上的一些巨头公司所掌握。沃尔玛和美国第一资本银行 (CapitalOne)率先将大数据运用在了零售业和银行业,因此改变了整个行业。 如今这种技术大多都实现了大众化。 大数据对个人的影响是最惊人的。在一个可能性和相关性占主导地位的 世界里,专业性变得不那么重要了。行业专家不会消失,但是他们必须与数 据表达的信息进行博弈。如同在电影《点球成金》(Moneyball)里,棒球星 探们在统计学家面前相形见绌——直觉的判断被迫让位于精准的数据分析。 这将迫使人们调整在管理、决策、人力资源和教育方面的传统理念。 我们大部分的习俗和惯例都建立在一个预设好的立场上,那就是我们用 来进行决策的信息必须是少量、精确并且至关重要的。但是,当数据量变大、 数据处理速度加快,而且数据变得不那么精确时,之前的那些预设立场就不 复存在了。此外,因为数据量极为庞大,最后做出决策的将是机器而不是人 类自己。第7 章将会讨论大数据的负面影响。 在了解和监视人类的行为方面,社会已经有了数千年的经验。但是,如 何来监管一个算法系统呢?在信息化时代的早期,有一些政策专家就看到了 信息化给人们的隐私权带来的威胁,社会也已经建立起了庞大的规则体系来 保障个人的信息安全。但是在大数据时代,这些规则都成了无用的马其诺防 线 。人们自愿在网络上分享信息,而这种分享的能力成为了网络服务的一个中心特征,而不再是一个需要规避的薄弱点了。 对我们而言,危险不再是隐私的泄露,而是被预知的可能性——这些能 预测我们可能生病、拖欠还款和犯罪的算法会让我们无法购买保险、无法贷 款、甚至在实施犯罪前就被预先逮捕。显然,统计把大数据放在了首位,但 即便如此,个人意志是否应该凌驾于大数据之上呢?就像出版印刷行业的发 展推动国家立法保护言论自由(在此之前没有出台类似法律的必要,因为没 有太多的言论需要保护),大数据时代也需要新的规章制度来保卫权势面前的 个人权利。 政府机构和社会在控制和处理数据的方法上必须有多方位的改变。不可 否认,我们进入了一个用数据进行预测的时代,虽然我们可能无法解释其背 后的原因。如果一个医生只要求病人遵从医嘱,却没法说明医学干预的合理 性的话,情况会怎么样呢?实际上,这是依靠大数据取得病理分析的医生们 一定会做的事情。还有司法系统的“合理证据”是不是应该改为“可能证据”呢?如果真是这样,会对人类自由和尊严产生什么影响呢? 我们在大数据时代倡导的一系列规范将在第8 章进行介绍。这些规范建 立在我们很熟悉的“小数据”时代发展并保留下来的规范的基础之上。新环 境要求旧规范与时俱进。 【大数据洞察】大数据给社会带来的益处将是多方面的。因为大数据 已经成为解决紧迫世界性问题,如抑制全球变暖、消除疾 病、提高执政能力和发展经济的一个有力武器。但是大数 据时代也向我们提出了挑战,我们需要做好充足的准备迎接大数据技术给我们的机构和自身带来的改变。 大数据标志着人类在寻求量化和认识世界的道路上前进了一大步。过去 不可计量、存储、分析和共享的很多东西都被数据化了。拥有大量的数据和 更多不那么精确的数据为我们理解世界打开了一扇新的大门。社会因此放弃 了寻找因果关系的传统偏好,开始挖掘相关关系的好处。 寻找原因是一种现代社会的一神论,大数据推翻了这个论断。但我们又 陷入了一个历史的困境,那就是我们活在一个“上帝已死”的时代。也就是 说,我们曾经坚守的信念动摇了。讽刺的是,这些信念正在被“更好”的证 据所取代。那么,从经验中得来的与证据相矛盾的直觉、信念和迷惘应该充 当什么角色呢?当世界由探求因果关系变成挖掘相关关系,我们怎样才能既 不损坏建立在因果推理基础之上的社会繁荣和人类进步的基石,又取得实际 的进步呢?本书意在解释我们身在何处,我们从何而来,并且提供当下亟需 的指导,以应对横在我们眼前的利益和危险。
大数据时代——大数据,大挑战
书名: 大数据时代
作者: [英] 维克托·迈尔·舍恩伯格
出版社: 浙江人民出版社
原作名: Big Data:A Revolution That Will Transform How We Live, Work, and Think
副标题: 生活、工作与思维的大变革
译者: 周涛
出版年: 2012-12
页数: 261
定价: 49.90元
装帧: 平装
ISBN: 9787213052545