《大数据时代》读书笔记
一 因果关系依旧重要
作者说如果数百万条电子医疗记录显示橙汁和阿司匹林的特定组合可以治疗癌症,那么找出具体的药理机制就没有这种治疗方法本身来得重要
但是如果不找出因果关系,人们就只能永远处于预防而不是根治的解决问题阶段。说白了,这就是太懒了。希望简化社会运行程序的结果。找原因永远比举出一个相关例子困难得多。让人们说一下感冒的病理原因,人们可能一下子说不清,但是让人们举几个和感冒相关的东西,人们一下子能想到很多:医院、感冒药、天气、吊针、药瓶、免疫力、健康……
就好比,今天出门,我没看天气预报,仅仅看到周边的人都在打伞,然后自觉颇有预见性地带上了伞。这里关系就是相关性,而不是因果性。但事后才发现今天没下雨,今天太阳很大,很多人带伞是为了遮阳。我以为周边的人都打伞就认为是要下雨了,凭借这一相关性判断,无效。如果我确切地知道今天会下雨,比如天气预报说会下雨,虽然她经常不准,姑且算她是准确的,然后带了伞,凭借地是因果关系的判断。因为要下雨,所以带上伞避免淋湿。而不是,因为大家都带了伞,所以我带上伞。
作者举例,说亚马逊根据我们的购书习惯推荐喜欢的数目,谷歌根据我们的搜索历史判断我们的喜好,这些例子看起来都像一个词——民主。一种基于大多数的而非精确的决定。有时候,大数据并不比小数据准确。所以大数据事实上是牺牲了一些准确的小数据保全了大多数。就整体利益而言,是好的;就个体利益而言,某些利益将荡然无存。而且其高效收益的同时面临巨大风险,例如,一项谷歌搜索数据显示,2014年关于四川地震的相关搜索骤增,然后政府依据此认为可能发生地震,将全部四川省的人迁移出去,迁移花费100亿人民币。后来地震却没发生,原来是因为2014年网上关于四川地震的谣传特别多,所以相关搜索量剧增。但是政府却因此白白损失100亿人民币。或者以作者在书中举到的禽流感的例子,2003年谷歌上搜索“哪些是治疗咳嗽和发热的药物”相关搜索骤增,政府提前预支财政100亿进行全民流感预防,结果因为提前措施准备得当,三个月后到来的SARS所造成的人员死亡数大大降低。这是一次成功的预防。
但我们同时也发现,依赖相关性做决定的风险和成本实在太大。假使2003年谷歌提供的数据是因为一些普通的感冒或季节性流感,甚至又是一批人在网上谣传病毒浏览,那么预支财政100亿又成为白费蜡。如果大多数判断都依赖于这些相关性,甚至一些数据公司就可以掌控一个国家的财运生死。
当我被亚马逊推荐一本音乐书的时候,是大多数相关性指向了音乐这一块,但事实上,我是不是真的喜欢,因果关系,亚马逊是不知道的。就好比当三峡工程决议在人民大会堂通过的时候,大多数人只是凭借相关性认为三峡工程利国利民,例如其他大坝利国利民的例子,例如葛洲坝之类,外国水利工程之类,人们并不是凭借对三峡工程本身的利弊因果进行判断,她事实上是不是好的,大多数人大代表是不知道的。但是,大多数人(两千多代表)都这样说了,整体来看就不是错的了。
大数据是个讨巧的方法,是大家不愿意动脑筋之后,或者是找不出答案之后对世界妥协的方法。近世西方热衷于相关性而不是因果性研究,因为要找出单线逻辑上的原因结果和找出多线逻辑上的相关因子要困难的多,譬如《新教伦理与资本主义精神》,二者相关,但绝非因果,可以说新教的伦理和当时资本主义的兴起有关系,但绝没有人说:正是因为新教伦理造就了资本主义。
但是相关性可不可以被视为一种间接因果?例如六度关系理论?
事实是,我们从图中看到的主要结论不是因果或是相关谁的作用大,而是:没有哪一项相关性能够决定结果,即使我们知道因果,也不一定能够做出阻止负面后果或引导正面后果产生的可行事项。
大数据顶多是一种参考,因为世界上没有哪一件事是仅凭一个或有限的几个因子所能左右的。举个例子:那些买了IBM或是微软公司的数据软件的公司,没听说哪个公司一举成名的,反倒是IBM和微软这些软件公司卖大数据赚得盆满瓢满。再举个例子,如果掌握了大数据就有像作者说的那么有优势,IBM和微软恐怕会把自己的数据处理软件视为至宝,怎么还敢随便卖出去:别人都赚钱了,我从哪儿赚钱去?
文中作者倒是举了沃尔玛和美国第一资本银行的例子,说他们率先将数据处理技术应用于零售业和银行业,因此一举成为行业巨头,改变了整个行业。但是作者同时有意忽略了一个事实,这些数据处理技术从哪儿来的?沃尔玛?第一资本银行?还是微软?IBM?
然后,作者本人是微软和IBM等软件公司的咨询顾问,据说和美国出版商巨头关系良好。
二 大数据和百科全书
平凡的人们正在变成上帝。
这是作者关于“不是随机,而是全体”的的判断。
但是作者又说到“不是精确性,而是混杂性”,我就得怀疑一下了。如果并不需要精确性,那的确随机就足够了。随机样本本身就是不精确性的代表,当然,如果一定要比较这两种方法的优劣,就得视情况而定了。如果条件允许,可以得到不精确的大数据,自然采用大数据。但如果条件不允许,那么宁愿采用随机样本。说到底,这里的条件其实是“是不是大多数人都在使用数据公司提供的数据收集系统?”
不过大数据在另一个非经济意义上,表明了一种自信:从百科全书时代人们对信息的迫切追求到大数据时代人们对掌控信息的自信。
从远古时期开始,人们对百科类事物的追求就从未停止过。最古时代,那些记忆力好的人往往是氏族部落里的领袖或是大祭司,因为他们掌控着那个时代关于世界最广阔的数据。
到了纸张时代,藏书集书成为一种流行,那些字迹工整的手抄员最受欢迎。而在印刷时代,思想和话语权往往掌控在印刷机手里。到了互联网时代,则是软件公司掌控全球。
简单点说,记忆力好的人相当于一个好的CPU。当我们在知网万方等论文平台搜索“百科全书”的时候,经常在论文里发现,某某某读了一本百科全书,因而改变了对世界的看法,从此怎样怎样云云……热门的例子诸如钱钟书,一个被称为“活着的百科全书”的人。甚至在一本美国人写的《毛泽东传》也说毛正是因为在湖南师范读了一本《世界列国英雄传》的百科式册子而改变了个人理想。
这些百科式书籍的作用并不在于内容本身,而在于其数据的庞大性。庞大到让人认识到自身与世界和宇宙的差距。大数据本身就给人们一种幻想,仿佛以往那些只能存在于上帝脑海中的海量信息,那些对整个宇宙万事万物的掌控权,现在开始流向普通人。
就像在远古氏族部落里,如果人人拥有一台联网的笔记本,那么大祭司将不复存在,最起码大祭司的强权地位将消失。一个简单的数据,甚至能够改变社会结构。但是这样的等级差异却依旧存在于当代社会。简单点说,某A君如果在校园PPT演说中加入其余人都不知道的数据(或曰信息),听者顿时自觉形秽。两人对话,如果一人能够使用更庞大的数据,甚至多一点的新数据,另一人顿处下风。
高级生物从简单的单细胞生物进化而来,人类和其他动物也是这样。在单细胞的世界里,能够多应对外界刺激反应的细胞可能也是他们世界里的大祭司。在羊群世界里,知道哪里的草更多更香甜的羊,可能也是他们世界里的精神领袖。在一维世界里,一个质点存储的信息如果比另一质点多,那他也站在上风。如果一个二维世界的人能够谈论三维世界的一丁点信息,那么他就可能是二维世界中被挂在十字架上的人。因为一个三维世界的一丁点信息也比一个二维世界的全部信息来的多,来的重要。
这可能是大数据的精神意义了。
三 量化一切并不新鲜
作者说量化一切是数据化的核心,指出这种量化的信息和原有的书写信息(或曰文字信息)不一样。
量化也不值得当代人骄傲。
在笛卡尔等人开始应用解析几何的时候,人们都将之视为人类最大的进步。因为世间万物都可以用数据图展现出来。小至分子内运行轨迹,大至行星轨道。在此之前,只有少部分贵族能够借助空间想象能力将行星运行的方式在脑海中呈现,而在笛卡尔之后,连一个最普通的人都可以一眼看到星河的运转。
所以量化的一个重大基础是可视化。正如作者在文中举例说航海时代的航海图一样,经过水手们不断地搜集数据,然后绘制出风向、洋流图。在风向图,洋流图出现之前,一个普通人站在航行在北太平洋的舰船上,根本无法理解自己脚下平静的海水居然正在以每小时数百英里地向东奔流。一个身处于地中海北海岸的意大利人也根本无法想象,自己居然和一个生活在南半球小岛的土著人享受着一个风向的西海风。
如果用文字记载这样的信息,可能就是像上文这样的长篇叙述,还需要人们在脑海里自动补充一下,想象一下风的样子,才能够理解。但是一旦量化,呈现在图纸上,只需要两个流向箭头,随便拿给一个人看,他都能知道这样一个事实。甚至知道的更多,关于流向的季节,时间段,都一目了然。
但是量化的本质是什么?它是一个新东西吗?似乎量化只是让人类这种视觉动物更方便地理解世界,因为眼睛就能看到。但这种量化是不是和一般的工具有类似的原理呢?将那些和人类体感相差甚远的东西,简化为与人类体感相符合的东西。例如将看不到的原子内部结构画到可以看到,将大到不能一眼看完整的太阳系缩小到一张A4纸那么大,将原本触觉难以感知的盛行风带通过图表展示出来,将原本海量的数据流通过同类归纳变成简单的增长曲线图。
这样看来,量化一切只不过是另一种认识工具,将数据变化为人类体感可知的东西。但是量化是不是也是一种坏处呢?是不是也会意味着人们在某方面的能力将退化?因为所有的东西最后都变成可视化的东西,那么人们是否会因此而消退甚至丧失其他的体感呢?
例如,20世纪看多了洋流图和风向图的航海家们,在突然面临一种新的海洋现象的时候,是不是只能联想到洋流或风向,而永远不能触碰到一个新的领域,例如磁场或者另一种独特的场力?如此,因而阻断了人类的进步。又或者如作者所说的经纬图,如果一个习惯于使用经纬线定位的海员哪一天突然丢掉了经纬图,是不是再也找不到回家的路了呢?
这是题外话了。。
三 为什么“大数据时代”的判断不可能理论化
作者在书中通篇采用的举例论证的方法,而例子不具有普遍意义。很多例子只是特例,甚至在别的情况又会是完全相反的结论。
所以“大数据时代”只能预示一部分的未来世界,作者关于大数据的三个归纳句“不是……,而是……”,实在只是末流,但是“大数据”本身意义的确重大,但绝不是作者所描述的景象。
因为作者在文中称大数据采用了统计和数学理论,因而把大数据也说成是在理论的基础上形成的。这样的说法实在是不通逻辑。作者的意思是“因为我的话用了理论,所以我的话也是理论的。”
“大数据时代”实在不是什么新理论,在“大数据时代”之前就有在互联网刚刚兴起时甚嚣尘上的“数据时代”,可能之后还会有个“更大数据时代”。
可能作者为自己所在的软件公司和出版商炒作的嫌疑大于本书的理论贡献吧。
乱弹琴
《Big Data》热门书评
-
故作惊人语的《大数据时代》
681有用 43无用 阿九 2013-08-01
花了三天的零碎时间大致看完了舍恩伯格的《大数据时代:生活、工作、思维的大变革》。我看推荐说这是“迄今为止最好的一本大数据专著”。目前公司在搞Hadoop、大数据应用,外面各类零碎的资料也非常多,那么想我应该去看一下这“最好”的专著吧。买回来看完的感觉是平平而已。个人看法,在五分制下,大概也就是最多打...
-
未知的information,已知的technology-写给未来的思维范式
132有用 4无用 Miss power 2013-02-11
两年前,还是社会学专业的我最喜欢翘的课叫做”社会统计学”,与其听着传统死板的抽样调查与回归分析,我更喜欢和一个做数据挖掘的数学系同学四处溜达。“数据挖掘(Data mining)是什么?”她跟我举了一个最简单的例子:“沃尔玛通过对超市里人们购买行为的大量数据分析,发现男人们来买啤酒的时候,通常也会买...
-
大数据时代的金融投资
104有用 7无用 eric 2013-02-13
大数据时代的金融投资思维金融数量化投资由于其巨大收益,是大数据最早应用的领域,而其也符合大数据最重要的三大思维变革:1) 不是随机样本,而是全数据。 根据作者的定义, 大数据是指不用随机分析,而采用所有数据的方法。 主要原因有二,一是当前的技术能力让人类可以处理海量的数据, 二是随机样本无法获取某些...
-
一个理工狗眼中的大数据
71有用 3无用 丧心病狂刘老湿 2014-05-10
作为一个学计算机出身的理工狗,我一直忍到自己写完论文才回过头来看这本书。此时距这书出版,已经一年有余,大数据的概念已经甚嚣尘上,无人不知了。 维克托和肯尼思在...
-
你已经体验到的大数据时代
69有用 7无用 星腾 2012-12-19
你认为什么是大数据?如果没有仔细关注过这个领域,也许这是一个很难让人轻松回答的问题,而自己之前也没有那么清晰。但对于数据的直觉和一直以来的理解,告诉自己,如果你能掌握更多的数据,其中会有很多有意思的事情发生。因为我们每个人都有数据在不断产生,而自己也在追踪着数据,习惯性地使用Manictime来记录...
书名: Big Data
作者:
出版社: Eamon Dolan/Houghton Mifflin Harcourt
副标题: A Revolution That Will Transform How We Live, Work, and Think
出版年: 2013-3-5
页数: 256
定价: USD 27.00
装帧: Hardcover
ISBN: 9780544002692