大数据开启了一次重大的时代转型。与其他新技术一样,大数据也必然 要经历硅谷臭名昭著的技术成熟度曲线:经过新闻媒体和学术会议的大肆宣 传之后,新技术趋势一下子跌到谷底,许多数据创业公司变得岌岌可危。当 然,不管是过热期还是幻想破灭期,都非常不利于我们正确理解正在发生的 变革的重要性。 就像望远镜能够让我们感受宇宙,显微镜能够让我们观测微生物,这种 能够收集和分析海量数据的新技术将帮助我们更好地理解世界——这种理解 世界的新方法我们现在才意识到。本书旨在如实表达出大数据的内涵,而不会过分热捧它。当然,真正的革命并不在于分析数据的机器,而在于数据本 身和我们如何运用数据。 【大数据先锋】天文学,信息爆炸的起源。 只有考虑到社会各个方面的变化趋势,我们才 能真正意识到信息爆炸已经到来。我们的数字世界 一直在扩张。以天文学为例,2000 年斯隆数字巡 天(Sloan Digital Sky Survey)项目启动的时候,位 于新墨西哥州的望远镜在短短几周内收集到的数据, 已经比天文学历史上总共收集的数据还要多。到了2010 年,信息档案已经高达1.4×242 字节。不过, 预计2016 年在智利投入使用的大型视场全景巡天望 远镜(Large Synoptic Survey Telescope)能在五天之 内就获得同样多的信息。 天文学领域的变化在各个领域都在发生。2003 年,人类第一次破译人体 基因密码的时候,辛苦工作了十年才完成了三十亿对碱基对的排序。大约十 年之后,世界范围内的基因仪每15 分钟就可以完成同样的工作。在金融领域, 美国股市每天的成交量高达70 亿股。而其中三分之二的交易都是由建立在 算法公式上的计算机程序完成的。这些程序运用海量数据来预测利益和降低 风险。互联网公司更是要被数据淹没了。谷歌公司每天要处理超过24 拍字节的数据,这意味着其每天的数据处理量是美国国家图书馆所有纸质出版物所 含数据量的上千倍。facebook 这个创立时间不足十年的公司,每天更新的照 片量超过1 000 万张,每天人们在网站上点击“ 喜欢”(Like)按钮或者写评 论次数大约有三十亿次,这就为facebook 公司挖掘用户喜好提供了大量的数 据线索。与此同时,谷歌子公司YouTube 每月接待多达8 亿的访客,平均每 一秒钟就会有一段长度在一小时以上的视频上传。twitter 上的信息量几乎每 年翻一倍,截至2012 年,每天都会发布超过4 亿条微博。 从科学研究到医疗保险,从银行业到互联网,各个不同的领域都在讲述 着一个类似的故事,那就是爆发式增长的数据量。这种增长超过了我们创造 机器的速度,甚至超过了我们的想象。 我们周围到底有多少数据?增长的速度有多快?许多人试图测量出一 个确切的数字。尽管测量的对象和方法有所不同,但他们都获得了不同程 度的成功。南加利福尼亚大学安嫩伯格通信学院的马丁• 希尔伯特(Martin Hilbert)进行了一个比较全面的研究,他试图得出人类所创造、存储和传播 的一切信息的确切数目。他的研究范围不仅包括书籍、图画、电子邮件、照 片、音乐、视频(模拟和数字),还包括电子游戏、电话、汽车导航和信件。 马丁• 希尔伯特还以收视率和收听率为基础,对电视、电台这些广播媒体进 行了研究。 【大数据的力量】据他估算,2007 年,人类大约存储了超过300 艾字节的数据。下面这个比喻应该可以帮 助人们更容易地理解这意味着什么了。一部完整的数字电影可以压缩成一个GB 的文件,而一个 艾字节相当于10 亿GB,一个泽字节① 则相当于1 024 艾字节。总之,这是一个非常庞大的数量。 有趣的是,在2007 年,只有7% 是存储在报纸、书籍、图片等媒介上的 模拟数据 ,其余全部是数字数据 。但在不久之前,情况却完全不是这样的。 虽然1960 年就有了“信息时代”和“数字村镇”的概念,但实际上,这些概 念仍然是相当新颖的。甚至在2000 年的时候,数字存储信息仍只占全球数据 量的四分之一;当时,另外四分之三的信息都存储在报纸、胶片、黑胶唱片 和盒式磁带这类媒介上。 早期数字信息的数量是不多的。对于长期在网上冲浪和购书的人来说, 那只是一个微小的部分。事实上,在1986 年的时候,世界上约40% 的计算 机技术都被运用在便携计算机上,那时候,所有个人电脑的处理能力之和都 没有便携计算机高。但是因为数字数据的快速增长,整个局势很快就颠倒过 来了。按照希尔伯特的说法,数字数据的数量每三年多就会翻一倍。相反, 模拟数据的数量则基本上没有增加。 【大数据的力量】到2013 年,世界上存储的数据预计能达到 约1.2 泽字节,其中非数字数据只占不到2%。 这样大的数据量意味着什么?如果把这些数 据全部记在书中,这些书可以覆盖整个美国52 次。 如果将之存储在只读光盘上,这些光盘可以堆成 五堆,每一堆都可以伸到月球。公元前3 世纪, 埃及的托勒密二世竭力收集了当时所有的书写作 品,所以伟大的亚历山大图书馆可以代表世界上 所有的知识量。但当数字数据洪流席卷世界之 后,每个地球人都可以获得大量数据信息,相当 于当时亚历山大图书馆存储的数据总量的320 倍 之多。 事情真的在快速发展。人类存储信息量的增长速度比世界经济的增长速 度快4 倍,而计算机数据处理能力的增长速度则比世界经济的增长速度快9倍。难怪人们会抱怨信息过量,因为每个人都受到了这种极速发展的冲击。 把眼光放远一点, 我们可以把时下的信息洪流与1439 年前后古登 堡发明印刷机(据《中国出版史》记载,中国的毕昇早在11世纪40年代就发明了泥活字印刷,远远早于古 登堡15世纪30年代发明的铅活字。——编者注) 时造成的信息爆炸相对比。历史学家伊丽莎白• 爱森斯坦 (Elizabeth Eisenstein)发现,1453—1503 年,这50 年之间大约有800 万本书 籍被印刷,比1 200 年之前君士坦丁堡建立以来整个欧洲所有的手抄书还要 多。换言之,欧洲的信息存储量花了50 年才增长了一倍(当时的欧洲还占据 了世界上大部分的信息存储份额),而如今大约每三年就能增长一倍。 这种增长意味着什么呢?彼特• 诺维格(Peter Norvig)是谷歌的人工智 能专家,也曾任职于美国宇航局喷气推进实验室,他喜欢把这种增长与图画 进行类比。首先,他要我们想想来自法国拉斯科洞穴壁画上的标志性的马。 这些画可以追溯到一万七千年之前的旧石器时代。然后,再想想一张马的照 片,想想毕加索的画也可以,看起来和那些洞穴壁画没有多大的差别。事实 上,毕加索看到那些洞穴壁画的时候就曾开玩笑说:“自那以后,我们就再也 没有创造出什么东西了。” 他的话既正确又不完全正确。你回想一下壁画上的那匹马。当时要画一 幅马的画需要花费很久的时间,而现在不需要那么久了。这就是一种改变, 虽然改变的可能不是最核心的部分——毕竟这仍然是一幅马的图像。但是诺 维格说,想象一下,现在我们能每秒钟播放24 幅不同形态的马的图片,这就 是一种由量变导致的质变:一部电影与一幅静态的画有本质上的区别!大数 据也一样,量变导致质变。物理学和生物学都告诉我们,当我们改变规模时, 事物的状态有时也会发生改变。 我们就以纳米技术来为例。纳米技术就是让一切变小而不是变 大。其原理就是当事物到达分子的级别时,它的物理性质就会发生 改变。一旦你知道这些新的性质,你就可以用同样的原料来做以前 无法做的事情。铜本来是用来导电的物质,但它一旦到达纳米级别 就不能在磁场中导电了。银离子具有抗菌性,但当它以分子形式存 在的时候,这种性质会消失。一旦到达纳米级别,金属可以变得柔软, 陶土可以具有弹性。同样,当我们增加所利用的数据量时,我们就可 以做很多在小数据量的基础上无法完成的事情。 有时候,我们认为约束我们生活的那些限制,对于世间万物都有着同样 的约束力。事实上,尽管规律相同,但是我们能够感受到的约束,很可能只 对我们这样尺度的事物起作用。对于人类来说,唯一一个最重要的物理定律 便是万有引力定律。这个定律无时无刻不在控制着我们。但对于细小的昆虫 来说,重力是无关紧要的。 对它们而言,物理宇宙中有效的约束是地表张力, 这个张力可以让它们在水上自由行走而不会掉下去。但人类对于地表张力毫 不在意。 对于万有引力产生的约束效果而言,生物体的大小是非常重要的。类似 地,对于信息而言,规模也是非常重要的。谷歌能够几近完美地给出和基于 大量真实病例信息所得到的流感情况一致的结果,而且几乎是实时的,比疾 控中心快多了。同样,Farecast 可以预测机票价格的波动,从而让消费者真 正在经济上获利。它们之所以如此给力,都因为存在供其分析的数千亿记的 数据项。 【大数据洞察】大数据的科学价值和社会价值正是体现在这里。一方 面,对大数据的掌握程度可以转化为经济价值的来源。另 一方面,大数据时代已经撼动了世界的方方面面,从商业 科技到医疗、政府、教育、经济、人文以及社会的其他各 个领域。 尽管我们仍处于大数据时代来临的前夕,但我们的日常生活已经离不开 它了。垃圾邮件过滤器可以自动过滤垃圾邮件,尽管它并不知道“发# 票#销# 售”是“发票销售”的一种变体。交友网站根据个人的性格与之前成功 配对的情侣之间的关联来进行新的配对。具有“自动改正”功能的智能手机 通过分析我们以前的输入,将个性化的新单词添加到手机词典里。然而,对 于这些数据的利用还仅仅只是一个开始。从可以自动转弯和刹车的汽车,到IBM 沃特森超级电脑在游戏节目《危险边缘》(Jeopardy)中打败人类来看, 这项技术终将会改变我们所居住的星球的许多东西。
大数据时代——大数据,开启重大的时代转型
书名: 大数据时代
作者: [英] 维克托·迈尔·舍恩伯格
出版社: 浙江人民出版社
原作名: Big Data:A Revolution That Will Transform How We Live, Work, and Think
副标题: 生活、工作与思维的大变革
译者: 周涛
出版年: 2012-12
页数: 261
定价: 49.90元
装帧: 平装
ISBN: 9787213052545