大数据的正面和反面

寒武纪西格玛对 Big Data 的书评发表时间：2014-08-09 00:08:15

2011年，美国气象局为2000辆客运大巴装上传感器，用以收集沿途的环境数据。“数据采集是每10秒钟一次，每天都要采集10万次以上的数据”。而这些数据，比起全球每天所产生数据的总量，仅仅是沧海一粟而已。事实上，我们正处于一个 “数据爆炸”的时代。每天，个人及组织之间愈加频繁的沟通产生着海量的数据。那个由无处不在的传感器互相联络所构成的“物联网”所产生的数据量更为惊人。于是，“如何收集、保存、维护、管理、分析、共享正在呈指数级增长的数据是我们必须面对的一个重要挑战”。“大数据”的概念就是在这个背景下应运而生的。大数据是指“那些大小已经超过了传统意义上的尺度，一般的软件工具难以捕捉、存储、管理和分析的数据”。一般而言，“大数据的数量级应该是‘太字节’（2⁴⁰个字节）”（涂子沛，2013）。截至2012年，技术上可在合理时间内分析处理的数据集大小为“艾字节（2⁶⁰个字节）”。

在《大数据时代》一书中，数据科学家舍恩伯格提出了大数据带来的关于思维的三大转变——“要全体不要抽样，要效率不要绝对精确，要相关不要因果”。第一，由于获取数据的手段变得如此之便捷，我们不再只借助抽样的手段，而是“收集所有的数据”，即“样本=总体”。第二，由于“我们研究数据如此之多，我们不再追求精确度”。而“放松了容错的标准，人们掌握的数据也多了起来，还可以利用这些数据做更多新的事情”。第三，利用大数据可以知道事物之间的联系，以至于“我们不再热衷于追求因果关系”，而是追求相关关系。我们不需要知道“为什么”，只需要知道“是什么”（舍恩伯格，2012）。

利用这些思维革新，可以消除认知上的局限，拓宽人类的视野。首先，大数据的“要整体不要样本”原则，让“沉默的证据”不再沉默。“沉默的证据”是指那些消失的样本。一个例子是，英国在二战期间有项研究表明，战斗机更应该加固的是机翼而不是机身，因为机翼往往比机身弹孔更多。但很明显，那些被击中机身而坠毁的飞机无法被计入样本之中。忽视了“被击中机身而坠毁的飞机”这个“沉默的证据”，就得出了“需要加固机翼而不是机身”的荒谬结论。然而，在“物联网”时代，人类将收集信息的触角伸到了每一个角落——“万事万物，凡存在，皆联网，凡联网，皆计算”。当样本=全体的时候，“沉默的证据”也将被一览无遗，最终使我们得出更可靠的结论。其次，大数据的 “要效率不要精确”、“要相关不要因果”原则，破除了人类的“叙述谬误”。“叙述谬误”是指，“我们无法在不编造理由或者强加一种逻辑关系的情况下观察一系列事实”。人类“喜欢故事，喜欢总结，喜欢简化”，“习惯于过度解释，偏好简洁的故事，而不是原始真相”。对于那些无法构建逻辑和精确化、过于抽象的事物，人们“疯狂的蔑视”（塔勒布，2011）。然而，海量的数据让人们被迫接受事物的混杂性——“大数据不仅让我们不再期待精确性，也让我们无法实现精确性”。另外，大数据让人们意识到——知道“是什么”就够了，没必要知道“为什么”。而“是什么”是客观存在的，“为什么”则有可能是“强加的逻辑关系”。正如舍恩伯格所言，“如果数百万条电子医疗记录显示橙汁和阿司匹林的特定组合可以治疗癌症，那么找出具体的药理机制就没有这种治疗方法本身来得重要。同样，只要我们知道什么时候是买机票的最佳时机，就算不知道机票价格疯狂变动的原因也无所谓了”（舍恩伯格，2012）。

更为重要的是，“大数据的核心就是预测”——“把数学算法运用到海量的数据上来预测事情发生的可能性”。通过大数据的预测，我们可以对好的结果加以利用，对坏的结果提前预防。借助大数据而成功的商业案例屡见不鲜。 Farecast利用每一条航线整整一年的价格数据来预测机票价格走势；FICO的信用评分系统利用15个变量预测借贷者是否会偿还一笔债务；MasterCard用650亿条交易记录来预测商业趋势和客户消费趋势。另外，大数据对于突发性事件的预测还能让我们防患于未然。例如，谷歌将4.5亿个数学模型应用到海量的检索词条上，发现了“检索词条的使用频率与流感在时间和空间上的传播之间的联系”，从而在2009年甲型H1N1流感爆发的时候，提供了“更有效、更及时的指示标”（舍恩伯格，2012）。

由此看来，大数据似乎可以破除人类的认知谬误，消灭思维上的死角，让人类更加理性。另外，凭借大数据超凡的预测能力，人们似乎可以精确地预知未来。那些言必称数据的专业人士正在将大数据绝对化和真理化——“除了上帝，其他任何人都必须用数据说话”。但是，需要指出的是，大数据不仅有局限性，甚至还有明显的缺陷。

首先，大数据并不能彻底消除人类的认知谬误。纵然有了大数据这个工具，人类仍然不能避免一些思维错误，比如说回路错误。回路错误是指那些看起来很相近，但逻辑上完全不同的叙述。例如，在医学上，No Evidence of Disease 和 Evidence of No Disease 虽然很近似，但在逻辑上完全是两个不同的概念。前者指“没有发现疾病的证据”；后者指“发现没有疾病的证据”（塔勒布，2011）。《大数据时代》中提到一个例子，研究人员借助大数据来研究移动电话和癌症风险增加的关系。因为“数据包含了所有的情况，这意味着研究人员掌握了各种亚人群组信息”，最后的结论——“没有发现使用移动电话和癌症风险增加之间存在任何关系”十分可信（舍恩伯格，2012）。但问题是，“没有发现使用移动电话和癌症风险增加之间有任何关系”和“有证据发现移动电话和癌症风险增加之间没有任何关系”看起来虽然很相似，意义却大相径庭。事实上，前者并不能完全排除移动电话和癌症增加之间相关性的可能性，但研究人员却把其当成言之凿凿的结论。可以看出，纵然使用了大数据，但人类的认知总有一些看不见的死角，得出的结论依旧是不可靠的。

其次，大数据的预测能力有极大的局限性。第一，大数据只是善于发现两者的相关关系，仅此而已。大数据的预测方式是，如果我们观察到“A和B经常一起发生，我们只需要注意到B发生了，就可以预测A也发生了。这有助于我们捕捉可能和A一起发生的事情，即使我们不能直接测量或观察到A”（舍恩伯格，2012）。但问题是，无论是由A预测B，还是由B预测A，前提是我们必须知悉A或者B。如果我们A和B都观察不到，那通过B的发生来预测A的发生，或者A的发生来预测B就根本不成立。舍恩伯格也承认，“相关关系是无法预知未来的，他们只能预测可能发生的事情”。所以，大数据的局限在于，人类只能借助它由某些掌握的事物来预测另外的事物。另外，大数据仍然不能预测到那些概率极小却又影响巨大的“黑天鹅事件”。如果通过大数据测量一个葡萄园的温度，“每100棵葡萄树就有一个测量仪，有些测试的数据可能会是错误的，可能会更加混乱，但众多的读数合起来就可以提供一个更加准确的结果。因为这里包含了更多的数据，能抵消掉错误数据造成的影响”（舍恩伯格，2012）。问题是，那些“可能会是错误”的数据事实上并非出错。可惜，这些看起来离谱而实际上却可以反映出异常情况的小概率数据通常会被过滤掉。虽然收集的数据比以前更加广泛，我们仍然无法凸显出那些极端异常的数据，而这些数据很可能在预示一种极度危险的情况。试想这样一种情况，葡萄园中有一颗树染上传染性的病毒，从而使数据变得不正常，但其余树的数据都很正常，数据处理很有可能认为那棵染上病毒的树的数据是测量仪正常的偏差，自动忽略不计。而这个所谓“正常的偏差”的背后，就隐藏着可怕的传染性的病毒。总之，如果通过大数据预测，我们必须有一个“借力点”。并且，对于未来那些突发性的“黑天鹅事件”，我们根本无从知晓。

最后，大数据并不是在所有领域都能如鱼得水。实际上，大数据并不能用来分析和解决某些地域性问题，因为这些地域性问题往往掺杂着复杂的历史、文化、宗教、习俗等问题。舍恩伯格充满信心地指出，“大数据也被用于发展经济和理解如何预防冲突；大数据还揭示了最可能引发种族关系紧张的社区以及解除难民危机的方式”。但是，关于解决地域种族冲突或者如何发展地域经济这样的问题，对于区域的历史、文化、习俗的了解和实地的社会勘察会得出更加可靠的经验，产生更好的效果。如果想要解决巴以冲突，如果没有对宗教、历史、文化的研究和约旦河西岸的实地考察，大数据这种手段甚至无从下手；大数据也许可以计算出精准的现代化和经济发展的公式，以便应用到每一个贫穷落后的国家，但是，在巴布亚新几内亚这样的部落社会里，问题似乎不仅仅是“如何实现现代化”。另外，对于一些需要直觉和经验的领域，如文学、艺术、美食，大数据也显得无能为力。例如，试想为一群人做出一桌满意的菜，首先需要知道这群人的口味是什么，但人对于口味的表述千差万别，就算表述出来，又如何将其量化？人的口味确实是“萝卜青菜，各有所爱”，很难有一个统一标准。但是，如果将这个任务交给一个有经验丰富的大厨，想必会很完满地解决这个问题。

其实，大数据概念上的意义有可能大于实际意义。一家名叫 The-Numbers.com的公司的通过大数据分析发现，“一部电影要是启用获得过奥斯卡提名的、身价在500万美元左右的某位一线演员做男一号的话，更有可能票房大卖”。很显然，得出这套分析结果根本就不用什么大数据来解决。像这种奥斯卡提名、身价500万美元的演员参演的电影，即使用最简单的思维就知道他有一定的票房号召力，所以当然可能会票房大卖。一个类似的例子是，说《纸牌屋》的火爆是因为Netflix运用大数据分析，得出“凯文.史派西+大卫芬奇+BBC出品三种元素加在一起一定会火”的结论，对观众的需求进行了精确打击。但是，再一次，这种金牌导演+金牌演员的模式会火根本不需要大数据来得出，只是一个常识性问题；更重要的是，大数据分析完全有可能得出“冯小刚+张国立+华谊兄弟三种元素加起来一定会火”的结论，那么《1942》的票房惨败又如何解释？《纸牌屋》火爆的原因其实根本不在于大数据的分析，而是在于剧本的过硬和演员的入木三分，加上后期运营的成功。与其说是大数据捧红了《纸牌屋》，不如说是大数据借着《纸牌屋》的成功来进行概念炒作。事实上，将《纸牌屋》的火爆和大数据联系起来可能又犯了之前提到“叙述谬误”。因为《纸牌屋》的成功，我们将“大数据”作为原因强加在上面，使这种现象看起来可以理解，纵然两者之间可能并没有什么联系。

综上所述，大数据当然可以为人类开拓新的领域，创造新的价值，但由于其本身的局限和缺陷，必须仍然以怀疑的态度对待它。诚然，如数据专家涂子沛所言，“人类可以‘分析和使用’的数据在大量增加，通过这些数据的交换、整合和分析，人类可以发现新的知识，创造新的价值”，但是，如果因为“新”就全盘接受，也不可取。

参考资料：

涂子沛，《大数据：正在到来的数据革命，以及它将如何改变政府、商业与我们的生活》（桂林：广西师范大学出版社，2013年）

维克托.迈尔-舍恩伯格、肯尼斯.库克耶，《大数据时代》（杭州：浙江人民出版社，2012年）

纳西姆.尼古拉斯.塔勒布，《黑天鹅：如何应对不可预知的未来》（北京：中信出版社，2011年）

有用 1 无用 0

您对该书评有什么想说的？

《Big Data》热门书评

书名： Big Data
作者：
出版社： Eamon Dolan/Houghton Mifflin Harcourt
副标题： A Revolution That Will Transform How We Live, Work, and Think
出版年： 2013-3-5
页数： 256
定价： USD 27.00
装帧： Hardcover
ISBN： 9780544002692

大数据的正面和反面

您对该书评有什么想说的？

《Big Data》热门书评

681有用 43无用阿九 2013-08-01

132有用 4无用 Miss power 2013-02-11

104有用 7无用 eric 2013-02-13

71有用 3无用丧心病狂刘老湿 2014-05-10

69有用 7无用星腾 2012-12-19

大数据的正面和反面

您对该书评有什么想说的？

《Big Data》热门书评

681有用 43无用 阿九 2013-08-01

132有用 4无用 Miss power 2013-02-11

104有用 7无用 eric 2013-02-13

71有用 3无用 丧心病狂刘老湿 2014-05-10

69有用 7无用 星腾 2012-12-19

681有用 43无用阿九 2013-08-01

71有用 3无用丧心病狂刘老湿 2014-05-10

69有用 7无用星腾 2012-12-19