“当前知识的状态可以这样来概括:无中生有,进而无穷。” ——特里·普拉切特 2013年5月20日,爱德华·斯诺登带着四台笔记本电脑抵达香港。12个小时后,他在香港九龙酒店与两名英国《卫报》记者,艾文·麦克阿斯吉尔和格伦·格林沃尔德见了面。斯诺登用魔方向这两位之前从没见过他的记者表明了自己的身份。我注意到这个魔方的一个小细节,过一会儿会回到这个话题。现在,让我们先从数据的角度来观察一下爱德华·斯诺登。 虽然真实数字仍处于保密中,但据说斯诺登取走了美国、英国和澳大利亚情报部门的约150万份文件。虽然我们可能永远也不会确切地知道文件总数,但是稍微想象一下,哪怕是150万份文件的一小部分,那也是非常庞大的了。在我们到目前为止一直生活于其中的模拟技术的世界中,这根本就是深不可测的。我估计,150万份文档能装满一整辆拖拉机挂车,甚至更多。但是在新的数字世界中,随身携带的行李中就能放下,就像斯诺登所做的那样。 斯诺登在数字时代所做的一切,在模拟技术的世界中是毫无可能的。窃取如此庞大的物理文档需要许多人协同努力。不过话又说回来,斯诺登取走的很多文档在模拟技术的世界中根本不会存在,不妨说它们生而数字。对这些数据而言,数字变革无疑是福音,而且这股数据潮流丝毫没有停止的迹象。电子邮件就是生而数字数据的一个很好的例子。大多数情况下,电子邮件里传递的信息是始自其他电子邮件的。这些数据只以数字方式存在。电子邮件等媒介本身是数字的,而其相应的低成本创造了海量的数据。我们现在能通过电子邮件和短信,用语言和图片来与其他人分享信息,如果没有这些媒介,这些信息我们根本不会去分享。依托这些媒介的易于传播性和低成本,大量数据被创造出来。 斯诺登泄露的一些文件描述了美国国家安全局(NSA)和英国政府通信总部(GCHQ)的大规模监控计划。其中一项即棱镜计划,让情报部门能够在未经个人授权的情况下,读取储存在美国大型科技公司的信息。该计划还从数字通信网络拦截大量数据。这都是生而数字的数据。正是由于创造这些数字数据的数字设备的存在,才可能有这样多的文件。直到数字技术出现,这些数据才能够被系统地收集。数字技术加速了信息的产生与收集。 现在已经有几十本讨论斯诺登行为对错的书了,以后还会有更多。我们这里不去争辩斯诺登到底是让我们了解到巨大不义之举的揭发者,还是策划了史上最大间谍案之一的危险恐怖分子。不管是恶棍还是英雄,斯诺登在我的如下论断中都非常关键:向数字技术的转变会带来大量的数据,而我们现在看到的不过是冰山一角。 现在回过头来看魔方。虽然魔方只是儿童玩具,但透过它我们能够研究秩序与混乱。最初的魔方(3×3×3)虽然设计与功能都很简单,却已经号称拥有“数十亿”的可能状态,也就是魔方可能呈现的各种样子。十亿是个很大的数字,但离实际的可能状态数还差得远。有传言说,注重利润多于数学上准不准确的魔方生产商们认为,一般的消费者不会理解(或者相信)真实的数字,觉得为了达到营销目的,“数十亿”听上去已经足够大了。 无论如何,魔方可能状态的真实数目为4.3×10^19 (四舍五入后),或者说43万兆。准确的数字是43252004374489856000。没错,有43252004374489855999种拼错魔方的方式,而只有一种正确方式。正如数学家斯科特·沃恩所说,如果一个人真的想亲手把魔方的排列方式数完,假设他把魔方从一个状态变到另一个状态需要1秒钟,那么“他拼完所有可能状态所需的时间比宇宙的寿命还要长”。对一个廉价的彩色塑料玩具来说,这还真不赖。 考虑到魔方有着多到不可想象的可能排列方式,有人也许会认为只有天才(或者超级计算机)才能解决这个难题。但是很多人都知道,只要有一定的决心和时间,小孩都能拼好魔方。这是因为人类的大脑并不需要把这43万兆种组合方式都过一遍,才能找到正确的拼法。我们的大脑能在魔方的混沌中找到秩序——这个挪到这儿,那个挪到那儿,这个大概该放那儿,啊哈!完成了。由混沌中产生了秩序。 在这43万兆个可能状态中,魔方都不过是组装起来的方块的集合,看上去并没有什么目的。如果随机去拼的话,大概一辈子也找不到答案。混沌会恒久地持续下去,但是人类大脑并不是随机运作的。它能够发现模式,而且认为这些彩色方块应该有某种排列方式是有意义的。我们的大脑会赋予这些方块意志,就好像是说“这就是你们想要的样子”。找到正确的排列方式是要费些工夫,但是即便可能的排列方式比宇宙已经过去的秒数还要多,这还是连小孩子都难不倒。唯一正确的排列方式想要被找到,而我们的大脑能够胜任这项任务。 同时,每一个魔方玩家也知道,只要转两三下就会完全推倒重来。这就是43万兆干系重大之处,也是人类大脑做不到之处。普通人是无法追踪魔方在转了几下之后的样子的。于是就像这样,秩序重归混沌——又得花上好几个不断失败的小时来拼了。 但是魔方的排列方式还是有数的。尽管数目很大,但是不会继续增加。而数据就没有这个限制。正如我之前所解释的那样,数据在数量和种类上是无穷无尽的。 大数据的宇宙 在我们谈到数据史上的最后一个重大发展之前,需要全面理解数据的循环本质:混沌生秩序,秩序生混沌,如此循环往复,从最初的开始到未知的结束莫不如是。数据的这一性质(此前在第一章里已有详细的描述)能够解释许多我们今天见到的事物。我们正在数据爆炸的过程中,因而也处在巨大的混沌之中。 来看看之前讨论过的互联网历史吧。最初只有很少的数字文档。随着数字文档的增长,混乱出现了。于是蒂姆·伯纳斯-李在1989年发明了万维网这个信息管理系统。这个网络诞生之初,网站的数量很少也容易管理。但是随着时间的推移,网站越来越多,以至于万维网成了网站丛林,用户又开始迷失在混乱中。然后在1995年,拉里·佩奇与谢尔盖·布林在斯坦福大学相遇了。当时拉里·佩奇刚刚从密歇根大学拿到硕士学位,正在考虑来斯坦福大学读博士;刚好谢尔盖·布林被安排来带他逛逛校园。1997年,他们注册了Google.com——这个名字来自数学术语googol,即10^100,也就是1后面跟着100个0。这个名字反映了他们提出的使命:将互联网上分散且看似无穷无尽的信息组织起来。今天的数据再次超过了当前秩序的容量,于是混沌重现。以前,搜索结果一般只有几百到几千条。今天你搜索“DuBravac”都有15万条结果,要是搜索“Obama”,更是有超过1.6亿条。随着数据的增长,我们想在其中建立起秩序。但是数据会突破秩序,混乱会一直延续到新秩序建立为止。这就是数据的循环——从秩序到混沌再到新的秩序。 这里是另一个类比:大约138.2亿年前,我们的宇宙形成了。时间、空间、全部的物质乃至物理法则本身都在那一刻诞生了。随着这些碎片逐渐充斥整个宇宙,在重力作用下,粒子聚集到一起,随后形成了恒星、行星和星系。在一片混沌之中,重力创造了秩序。在我们的太阳存在之前,已经有数以十亿计的恒星经历了诞生与湮灭。但是随着恒星一闪之后的大爆炸,秩序又让位于混沌。我们的太阳会消失,它的粒子也会四散到宇宙中,成为其他恒星或行星的构成物质,这个过程仍将持续很久。我们今天所熟知的世界也是从混沌中诞生的。 在宇宙的整个历程中,这个循环会不断重复。混沌催生秩序,而之后又是新一轮的混沌。物理学告诉我们,从秩序到混沌和从混沌到秩序都是需要能量输入的。数据也是如此。历史上屈指可数的几次数据爆炸都带来了巨大的混乱。实际上,我们可以很准确地指出两个这样的时刻:印刷机的发明与数字数据的诞生。如前所述,前者是文艺复兴、宗教改革、地理大发现和工业革命的重要因素(如果不是主要推动力的话)。它的影响一直延续到今天,虽然是以一种不那么直接的方式。 事情是这样的:数字科技释放出来的数据要比印刷机释放的多出很多量级。实际上,两者根本无法比较,因为差异实在太巨大了。所以如果说印刷机对那几次人类革命已经产生了重大影响,那么想象一下数字数据将会如何改变人类的生活吧。想象一下不受物理局限的数据;想象一下数据复制越来越接近零成本。这就是我们所处的时代。这就是1450年,第一部还冒着热气的古登堡《圣经》走下印刷机的时刻。 你觉得太夸张了?有可能。但是在思考了以下例子之后,我会交由你来评判。2013年,挪威研究组织SINTEF的研究者称,世界上超过90%的数据是在过去两年中产生的。4每秒钟就有205000GB的数据被创造出来,这是1.5亿本书的容量。这已经超越古登堡了。但是为了把这些数字放到恰当的情境中,以及更好地理解我们面前巨大的数据量,我们还是需要找些参照点。 根据南加利福尼亚大学的一份研究,1986年全世界的信息储存技术能力——包括模拟的和数字的——为2.6艾字节。(顺便说一句,1艾字节等于1万兆字节,现在你知道1万兆有多大了吧。)说得更清楚些,2.6艾字节意味着每人都有一张CD容量的数据。到了1993年,这个数字达到了15.8艾字节,也就是每人平均有四张CD容量的数据。2000年时达到了54.5艾字节(每人12张CD)。2002年时,数字存储容量超过了模拟存储容量。2007年,全世界共存储了295艾字节的数据(每人61张CD)。从1986年到该研究结束的2007年,全球信息存储量每年的复合增长率为23%。 有趣的事情才刚刚开始。 南加利福尼亚大学的这份研究考察的是总存储容量,这与被创造出来的数字数据量并不完全一样。但是这足以让我们理解接下来的数字了。自2007年以来,市场研究公司IDC每年都会发布对新加入“数字世界”字节数的估计,这个值的定义是“一年中创造、复制、消费的信息总量”。数字世界的规模是从2005年算起的,为了我们的目的,不妨称这一年为数字世界“元年”。在当年的报告中,IDC称2005年有32艾字节被创造出来。换言之,这一年里创造出来的数据比1986年的数据存储容量还要大15倍。 在2014年的报告中,世界已经截然不同了。忘了小小的艾字节吧,现在都是泽字节了——也就是1021个字节。2013年,IDC计算出全球创造了4.4泽字节。这篇报告里还做了个比较:如果把数字世界用许多台平板电脑存储容量的总和来表示的话,在2013年这些平板电脑能够“覆盖从地球到月球三分之二的距离”。此外,数字世界似乎每两年就会规模倍增——没错,戈登·摩尔。到2020年之前,每年创造和复制的数据将达到44泽字节——这是6.6堆从地球延伸到月亮的平板电脑。 这些都是骇人听闻的数字,如果没有语境的话,我们根本不可能把握它们。幸运的是,数据可视化公司DOMO用一些熟悉的例子,计算出了每分钟生产出来的数据量。 在2014年,每分钟…… 有2.04亿封电子邮件被发出; 谷歌接收到400万条搜索查询; Facebook上有246万条内容被分享; 27.7万条tweet被发送; 21.6万张照片被发布到Instagram上; 4.8万个APP从苹果应用商店里被下载; 26380条评论被发布在Yelp上; 3472张图片在Pinterest上被用户归类保存; 72个小时的新视频被上传到YouTube上。 不用费劲记这些数字,因为它们已经过时了——当今数字数据的增长就是这么快。这些和其他类似的数字一样,每天都在变大。移动技术的出现可能是互联网出现以来,数字数据增长最大的一次飞跃了,尤其是智能手机和平板电脑。今天大约有36亿人拥有71亿部手机。很快手机数量就会超过人口数了。当今,我们每年都会有4亿部智能手机被订购。 根据思科发布的年度移动流量报告,2013年年底,每月全球移动数据流量达到了1.5艾字节,而2012年年底只有820拍字节(10^13字节)。2013年的移动数据流量几乎是2000年整个互联网数据量的8倍。世界正在制造出远超以往规模的数据,而且速度还越来越高。我们能看到之前讨论过的数据的性质(比如复制和流动)都在影响着我们的世界。 推动着数据流量飙升的是相对较晚才加入移动领域的:视频。思科的报告称,2013年年底移动视频流量占总移动流量的53%。视频能够出现在移动设备上,是因为4G技术更高的连接速度。思科发现移动网络连接速度在2013年翻了一番——从每秒526千字节到1387千字节。虽然4G网络只占总移动连接数的2.9%,它却占了30%的移动流量。到2018年,无线和移动设备流量将超过有线设备流量。 在IDC发布2014年报告的一段视频中,高级副总裁弗农·特纳用熟悉的例子做了个比较:“就像物理宇宙一样,数字世界也很广大。2020年之前,其中包括的字节数几乎就会与宇宙中恒星的数量相当:3×10^23。就像物理宇宙一样,数字世界也在扩张,但是速度要快得多,每两年就会翻一番。” 如果把某物和物理宇宙——它在起源上与人类没多大关系——进行比较的话,往往都太过夸张。除非那个“某物”是数字数据,这个比较在目前还是恰当的。在我们某些人的有生之年中,这个比较也会变得过时,以字节计的数字世界规模将超过物理宇宙。换句话说,在我们的孩子成长的世界中,宇宙中最大的东西不是宇宙,而是人类推动的数字世界。 数据持续增长的催化剂 我们已经考察了数字数据爆炸的若干主要因素:摩尔定律、电子元件的贬值效应,还有同样重要的一点——越来越多的东西都数字化了。它们都是数据持续增长的催化剂。但是这还只是故事的一半,而且并不必然会带来我们在过去十五年间(过去五年尤甚)数字数据的指数式增长。 正如我在第二章提到的,在新世纪的头十年里,三个重要元素——计算能力提升、无处不在的互联网和同样迅速兴起的数字通信网络,还有数字消费品的激增——同时发生。同期数字存储设备越发易得,价格也随之下降。这些加起来共同构成了数字数据爆炸性增长的基础,而且在可预见的将来也会随着数据增长而协同前进。它们是我们数字命运的四个支柱(我在第四章中将介绍第五个,也就是最后一个)。它们中的几个拥有能够促进数字化的重要数学性质。 这些性质中的头一个理论是梅特卡夫定律。简单地说,梅特卡夫定律说的是一个通信网络的价值与系统内连接用户数的平方(n^2)成正比。这实际上意味着,如果你将网络内的传真机、计算机、电话等节点数量翻一番,其价值就会翻两番。这个理论是以以太网的发明者之一罗伯特·梅特卡夫命名的,一开始是应用到设备上的(比方说,1993年该理论首次被应用于传真机)。但是互联网,尤其是社交网络已经把这个定义延伸到了用户(也就是人)。比如说Facebook上的两个人只能建立一条连接,而12个人就能建立66条连接,以此类推。 但是一旦想到Facebook这类社交网络的工作方式之后,你就能看到梅特卡夫定律更广泛的意义。如果一个Facebook用户跟一个朋友分享了一条状态,只有他朋友能看到,那么数据本质上翻了一番。但要是这个朋友有几百个Facebook好友,然后在自己的账号上分享了这个状态,然后他的好友里又有一半分享……嗯,你现在就能开始看到梅特卡夫定律发挥作用了。通过社交网络和梅特卡夫定律的力量,一条数据就能复制上千次,花不了多少时间,而且完全免费。 当然,社交网络如果没有用户的话也没什么力量或意义;一个没有连接的用户也是如此。上一个十年中第二个核心要素,就是无处不在的互联网连接的迅速增长——更重要的是,越来越多的美国家庭拥有随时连线的宽带网。迟至2000年,不到一半的美国家庭有互联网连接,不到4%的家庭有实时在线的宽带网。但是从2001年开始,家庭互联网连接数急剧攀升,很明显已经到了创新扩散S曲线的迅速增长期。到2003年为止,将近20%的美国家庭有了宽带网连接,是三年前的五倍。又过了四年,美国家庭宽带网拥有率首次突破50%。今天,宽带网很明显是互联网连接的首选,96%的有互联网连接的家庭都是宽带网。 在过去的十年间,无线连接也迎来了激增。越来越多的公共和私人场所有了免费Wi-Fi,几年前还是梦想的“永远在线,随时连线”现在已经越来越接近现实。手机数量也迅速增长,今天美国手机数量已经超过了人数。 互联网,尤其是宽带网不仅把这些设备连接了起来,而且让数字数据传播成为可能。每一个随时连线的物品都是一个互联网节点,而且接入到整个网络之中,从而将梅特卡夫定律应用于所有联网的设备上——世界上每一部智能手机、平板电脑以致将来会出现的各种设备都是。那些现在还没有连接到互联网上的事物,绝大部分在将来也会连接上的。未来将会出现联网设备的浪潮,每一台都向系统中倾泻着数据。 触发这场数据大爆炸所需的最后一样东西,就是数字存储成本的降低和容量的上升。今天,我们很少去在意存储空间了。大部分免费电子邮箱系统提供的存储容量足以满足需要,大多数台式机、笔记本电脑和平板电脑也是一样。只有当你身处需要大量存储空间的行业,比如视频与图像设计时,这个问题才会划过脑际。 我们常会忘记事情并不总是这么容易的。1980年,容量仅为26MB的明日设计(Morrow Designs)硬盘售价5000美元,也就是说1GB要193000美元。1985年,1GB平均成本为105000美元。1990年是11200美元,再过五年后是1120美元。2015年,1GB的平均成本低于0.05美元。 就像计算能力上的摩尔定律一样,存储容量也遵循着一条可以用数学刻画出来的、相当稳定的回归曲线。数学家马修·科莫洛夫斯基(Matthew Komorowski)指出,“在过去的三十年间,单位成本带来的空间大约每14个月翻一番(每48个月提高一个数量级)。”随着Google Drive、Dropbox等服务的出现,云存储的兴起,让我们在硬盘以外有了能够在世界各地用任何设备使用的存储空间,从而进一步为存储越来越多的数据扫清了障碍。 今天,除非你在运营Google或亚马逊,否则我们一般不会去考虑存储成本,因为绝大多数电子消费产品自带的存储容量都足以满足一般用户的需求。显然,这是数字技术崛起中的一个重要因素。回忆一下,我们的祖先在信息传播上最大的阻碍之一就是存储。我之前说过,最早的解决方案就是用记忆。而在这之后,创造永久性数据库的过程都很费钱费力,纸张是奢侈品,抄书所用的时间更是夸张。古登堡让这种效率低下的系统成为过去,但是这场由印刷机带来的变革只是量变而非质变。由于印刷机是需要技师操作的复杂机器,书籍仍然比较昂贵。 换言之,我们已经解决了一个从史前时代就困扰着人类的难题。现在1GB存储空间的成本比一块泡泡糖还低。万岁!实际上,正如科莫洛夫斯基所说的那样,到了现在,硬盘已经无法变得更强大了,至少硬盘大小不会是主要关注点了。他写道:“有很长一段时间,推动市售硬盘创新的一大动力就是对更大空间的需求,而现在它已经不再重要了。我们越来越关注速度、可靠性和适用性。这几种外部力量将我们从关注点从‘更多更便宜的空间’上移开,现在很难想象硬盘行业会开倒车了。” 首先,我们在个人设备上根本不需要像以前那么大的空间了。Netflix等公司以视频流开启了潮流,而云存储的兴起只是加速了进程而已。我们不再把数据锁在自己的硬盘里,相反,我们让Dropbox这样的服务来替我们储存,就像让银行保管我们的现金一样。我们不久就会看到,这并不是全然的好事。 虽然如此,在新世纪的头十年中,廉价海量的存储空间还是让我们能以指数速度传播数据。通过梅特卡夫定律带来的复合式增长,再加上“永远在线,随时连线”越发成为今日设备的现实写照,人类的存储困境得到了解决,这是数字数据增长的一大催化剂。 在今天的数据爆炸中,若干独立分散的力量走到一起。在很多方面,这是转折点常有的戏码。当很多力量同时发生作用时,巨变就要发生了。久旱逢甘霖,适逢其时而已。所有这些因素共同造就了今天。数据遭遇了数字,整个局面都要永远改变了。 ……