"A revolution that will transform how we live, work and think"。正如这本书的副标题所说,“Big Data”即将给我们的生活、工作和思维方式带来革命性的改变——或许,我们当中已经有人体验过了大数据带来的令人惊异的便利。
大到谷歌利用搜索数据预测全国禽流感的发展趋势,配合医疗部门演绎了大家前所未闻且行之有效的流行病狙击战;小到城市规划局利用百年来积累的城市下水系统资料预测问题井盖,狠狠地替纳税人省了一大笔开销(当然这两件事不是发生在我国)。或许——可以更小更贴近生活?天知道现在电商网站每天推荐给你的商品是根据多少层级的数据验算才得到的。
那么大数据到底是什么?懂点IT的猿可能都会蹦出这样一句话“相互连结的海量数据就是大数据”,意思就是说大数据有两个要点:一是数据量一定要足够大,要是没有近PB级(一千个1T移动硬盘)的数据人家根本不好意思说自己是大数据;二是数据之间应该被加以联系,无论是正相关负相关还是扭曲相关,总之要根据使用的目的对数据进行连结处理,相互间的联系才是大数据的“魂”。
具体到本书而言,作者一针见血地指出了大数据革命性的三个特点。
首先是要获取整体而非部分的数据。在计算机的运算能力刚开始飞速发展的那个年代,我们被灌输了太多抽样调查的概念,以至于对任何事物的研究都自觉地从样本入手去估计、描绘总体。这种做法是处于对效率和准确率的权衡,为了把调查成本控制在可接受的范围内,牺牲一些数据完整性是无可厚非的。但对于现如今的事件,尤其是完全基于互联网的虚拟事件,获取数据的成本几乎已经不与数据占总体的比例相关——如果一定要说有什么成本,更多的数据会多占用一点存储空间。如此一来,对于这类事件,研究之前去获取整体数据就成了理所当然的选择。
其次是引入数据混杂性而不是坚持精确性。所谓混杂性,是指数据中会存在一些我们并不想要的内容,类似于“数据噪音”。很简单的道理,数据总量越大,这种噪音的量也会越多。传统的做法是少选取数据并且进行噪音剔除,怎么看也有一点因噎废食的味道。大数据的一些实践表明,在一些表现平庸的算法中,单纯靠提高数据量就能让数据分析结果有质的飞跃。所以说,如果只是做做市场预测或者物流分析的话,何必在数据精确度和算法质量上花费大量的时间和金钱呢?当然,金融系统这种需要对钱负责的地方多花点钱在这上边也无妨。到这里已经可以大致看出,无论是大数据的特点还是趋势,都是在强调利用现在数据收集的便利,去降低和平衡数据分析过程中其他方面的花销。因此最后一条特点也是基于这样的理念,只不过这里的“花销”有点特别——
大数据分析的结果更多地追求相关关系而不是以往的因果关系。就比如我们只需要知道今年红色裙子会比较好卖,至于是天气原因还是消费者心理上对红色产生短时倾向导致的这种结果,大数据分析不能告诉我们。事实上,我们似乎也不需要知道。人类喜欢将自己的脑力劳动花费在追求事物的因果关系上,以便能抽象总结反复利用。但对于销售市场这类即时性很强的领域,相关关系也许更能帮助我们获得想要的结果……
至于“大数据”的数据来源,可以有各种各样的途径,全看人们的创造力。除了传统的互联网用户行为信息收集这样的手段,书中提到一个谷歌电子书的例子我很喜欢。谷歌是较早涉足实体书电子化的公司之一,但它做的远比其他公司多得多。书籍扫描成电子版的时候会通过软件的辅助,将图片格式的扫描书转换成文本格式,但由于扫描过程中的问题和软件本身的局限性,书中总有一些不能被很好识别的部分需要人工校验。假如谷歌当初让自己的员工来做这件事情,恐怕现在谷歌里有一半的员工都是文本校验员。可事实是谷歌里压根没有这样一种职位,它把这项工作完全外包了出去——而且是免费的。还记得登陆或注册一些网站时需要输入的验证码吗?如果你输入过一些黑底白字的单词验证码,恭喜你,你荣幸地成为谷歌校验小分队的一员。谷歌将需要校验的词条分放到这些验证码中,如果累计有n个用户根据验证码输入了相同的结果,那么基本就可以认定图片格式的词条该如何转化成为文本。那些成为完全文本的电子书也没有被闲置,除了方便大众阅读外,谷歌的电子书为谷歌翻译做出了卓绝的贡献——谷歌翻译的系统通过对海量电子书的语料分析,形成了一套“足够正确”的翻译系统。没有语法和词汇的概念,谷歌翻译就是能把你的话凭经验翻译出来而已,而且结果都还不错,说不定还带点文学大家的味道。
甚至,大数据在不久的将来还可以有一些玄乎其玄的用法。比如人的行为预测,如果一个人只是在家里上上网,就能被系统分析出其举动,比如将做一些违法犯罪的行为,那么执法机关就能提前出手将其扼杀在摇篮里,额,我是说邪恶的念头。可是让我们静下心来想一想,这样的用法真的好吗,我们是否需要拥有这样的能力?预测结果制止了某个人的犯罪行为,那么这个人是否可以算作犯罪或者未遂?这种类似于改变未来的技术,有一些违反自然规律的嫌疑,更何况一切数据分析只能是一种推测结果而不是铁一般的事实。
除此之外,人们并没有信心对所有现实中的事件都找到其对应的整体数据源,相关关系貌似也不能替代因果关系作为人类理论研究和智慧发展的基石,毕竟大数据的一切研究结果都只是对过去的总结,不能用于抽象,也不能很好地应用于未来。
大数据提供的不是最终答案,只是参考答案,为我们提供暂时的帮助,以便等待更好的方法和答案出现。这也提醒我们在使用这个工具的时候,应当怀有谦恭之心,铭记人性之本。
后记:
这篇文章在书读完很久以后才陆陆续续整理出来,主要是自己对大数据这样又酷又宏大的概念把握不好,反复研究也没有得到系统一点的心得,图样图森破。尽管如此,我还是认为大数据将是未来10年中IT行业发展最为迅速,且最可能有力量影响到其他各个行业乃至人们整个行为模式的技术。所以就算不被它待见,我还是要坚持去理解和尝试,争取能在这方面倒腾出一些动静。
前天看微博了解了开复老师得淋巴癌的事实,老师对于中国IT青年和互联网行业的正向影响是无法估量的,无奈人生无常。在这只有祝福,只有走得更坚定更勇敢。
文章中的部分摘录:
P28-工程师们必须改进处理数据的工具。这导致了新的处理技术的诞生,例如谷歌的MaReduce和开源Hadoop平台。(看来了解一下这两个工具对于在技术层面理解大数据处理有帮助)
P44-(棒球星探的例子)直觉的判断被迫让位于精准的数据分析。这将迫使人们调整在管理、决策、人力资源和教育方面的传统理念。(认同但保持观望态度。大数据在这些方面提供了革命性的新方法,但是初始的部署成本太高?与此同时,直觉的作用真的可以完全被替代吗?)
P51-利用所有数据,而不再仅仅依靠一小部分数据。(但这样的前提是有便捷的获取渠道,或者作者认为以前的数据渠道都可以找到相应的大数据源替代?)
P79-如此一来,我们得重新衡量一下更多的人力物力是应该消耗在算法发展上还是语料库发展上。(二者的临界点相互转换吧)
P96-但是对于不要求极端精细的任务,他就比其他系统运行的快很多。(传说中的better enough)宽容错误会给我们带来更多价值!
P123-人有两种思维模式。第一种是不费力的快速思维,另一种是比较费力的慢性思维,对于特定的问题,就是需要考虑到位。
P199-数据的综合比部分更有价值。同时,旧数据有时可能会降低数据总体的价值。
P243-有些数据的价值只能通过中间人来挖掘。(中间商的作用不言而喻,但数据混合的过程也造成了更多的风险)
P286-在这里我们的道德指标将被预测系统所取代,个人一直受到集体意志的冲击。简单地说,如果一切都成为现实,大数据就会把我们禁锢在可能性之中。(说得好)
P336-人类独有的弱点、错觉、错误都是十分必要的。因为这些特性的另一头牵着的是人类的创造力。(人类的非理性行为会随机导致错误行为或者创造行为。这样说可以吗?而且创造力和错误本来就是见仁见智的东西)
P303-应该将责任从民众转移到数据使用者,他们才是数据的最大受益者。
Big Data Big Bang
对“Big Data Big Bang”的回应
《Big Data》热门书评
-
故作惊人语的《大数据时代》
681有用 43无用 阿九 2013-08-01
花了三天的零碎时间大致看完了舍恩伯格的《大数据时代:生活、工作、思维的大变革》。我看推荐说这是“迄今为止最好的一本大数据专著”。目前公司在搞Hadoop、大数据应用,外面各类零碎的资料也非常多,那么想我应该去看一下这“最好”的专著吧。买回来看完的感觉是平平而已。个人看法,在五分制下,大概也就是最多打...
-
未知的information,已知的technology-写给未来的思维范式
132有用 4无用 Miss power 2013-02-11
两年前,还是社会学专业的我最喜欢翘的课叫做”社会统计学”,与其听着传统死板的抽样调查与回归分析,我更喜欢和一个做数据挖掘的数学系同学四处溜达。“数据挖掘(Data mining)是什么?”她跟我举了一个最简单的例子:“沃尔玛通过对超市里人们购买行为的大量数据分析,发现男人们来买啤酒的时候,通常也会买...
-
大数据时代的金融投资
104有用 7无用 eric 2013-02-13
大数据时代的金融投资思维金融数量化投资由于其巨大收益,是大数据最早应用的领域,而其也符合大数据最重要的三大思维变革:1) 不是随机样本,而是全数据。 根据作者的定义, 大数据是指不用随机分析,而采用所有数据的方法。 主要原因有二,一是当前的技术能力让人类可以处理海量的数据, 二是随机样本无法获取某些...
-
一个理工狗眼中的大数据
71有用 3无用 丧心病狂刘老湿 2014-05-10
作为一个学计算机出身的理工狗,我一直忍到自己写完论文才回过头来看这本书。此时距这书出版,已经一年有余,大数据的概念已经甚嚣尘上,无人不知了。 维克托和肯尼思在...
-
你已经体验到的大数据时代
69有用 7无用 星腾 2012-12-19
你认为什么是大数据?如果没有仔细关注过这个领域,也许这是一个很难让人轻松回答的问题,而自己之前也没有那么清晰。但对于数据的直觉和一直以来的理解,告诉自己,如果你能掌握更多的数据,其中会有很多有意思的事情发生。因为我们每个人都有数据在不断产生,而自己也在追踪着数据,习惯性地使用Manictime来记录...
书名: Big Data
作者:
出版社: Eamon Dolan/Houghton Mifflin Harcourt
副标题: A Revolution That Will Transform How We Live, Work, and Think
出版年: 2013-3-5
页数: 256
定价: USD 27.00
装帧: Hardcover
ISBN: 9780544002692

